JP7122006B2 - 挿入・欠失・逆位・転座・置換検出法 - Google Patents

挿入・欠失・逆位・転座・置換検出法 Download PDF

Info

Publication number
JP7122006B2
JP7122006B2 JP2019532604A JP2019532604A JP7122006B2 JP 7122006 B2 JP7122006 B2 JP 7122006B2 JP 2019532604 A JP2019532604 A JP 2019532604A JP 2019532604 A JP2019532604 A JP 2019532604A JP 7122006 B2 JP7122006 B2 JP 7122006B2
Authority
JP
Japan
Prior art keywords
sequence
data
control sequence
sequence data
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019532604A
Other languages
English (en)
Other versions
JPWO2019022019A1 (ja
Inventor
安藝雄 宮尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Agriculture and Food Research Organization
Original Assignee
National Agriculture and Food Research Organization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Agriculture and Food Research Organization filed Critical National Agriculture and Food Research Organization
Publication of JPWO2019022019A1 publication Critical patent/JPWO2019022019A1/ja
Application granted granted Critical
Publication of JP7122006B2 publication Critical patent/JP7122006B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Sustainable Development (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

本発明は、配列情報、とりわけ、ゲノム等の生体分子の配列情報の情報処理の分野に関する。
次世代シーケンサーの出現により、生物の全ゲノム配列情報が得られるようになった。次世代シーケンサーの配列情報から多型情報を得て、表現型との関連を調べることにより、その表現型の原因となる遺伝子の特定につながる。正確な多型情報の取得は、作物育種のみならず、ヒトの遺伝病の診断、生物種・品種等の特定等、幅広い分野で必要とされる基盤技術であり、これまでにない精度で多型情報が得られれば、そのインパクトは大きい。
次世代シーケンサーからの塩基配列データを用いた多型の検出は、まず最初に配列データをbwa、またはbowtieのようなマッピングプログラムを用いてリファレンス配列上の位置情報とミスマッチの情報を得て、次に、SamtoolsやGATK等の多型抽出プログラムでSNPやindel等の多型情報を抽出するのが一般的である。
これらの方法では、多型の可能性のある部分は可能な限り出力するため、多くのノイズを含みこれらの技術のみでは、正確な多型解析が困難である。マイクロアレイやDNAチップ等の別の技術を併用して用いられているというのが現状である。
本発明において、2つ以上の配列の間における多型を検出する方法が提供される。本発明の方法は、配列データ中の個々の配列(例えば、次世代シーケンサーからのショートリード)を連結してより長い配列とすること(例えば、アセンブリ)を必要とせずに、多型を検出することができることを1つの特徴とする。1つの実施形態において、本発明の方法は、1つの配列(例えば、リファレンスゲノム)にマッチした対象配列上の部分配列から、対象配列とリファレンスとの比較を進めミスマッチが起こる部分まで伸長することを特徴とし、これにより変異のジャンクションを決定する。
挿入・欠失・逆位・転座変異検出に関して、従来法では検出が難しかった大きな欠失や逆位・転座を検出できること、検出結果自体がアラインメントとして目視で確認できることが本発明の有利な特徴の一部である。
例えば、本発明の実施形態では、以下が提供される。
(項目1) 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、方法。
(項目2) 前記コントロール配列データが、リファレンス配列データである、前記項目に記載の方法。
(項目3) 前記対象配列データおよび前記コントロール配列データが塩基配列データである、前記項目のいずれかに記載の方法。
(項目4) 前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
(項目5) 前記多型が、挿入、欠失、逆位、転座、または置換である、前記項目のいずれかに記載の方法。
(項目6) 目的とする多型があると判定する前記工程が、
前記部分配列が、前記コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること、
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、かつ、向きが前記対象配列データ上のものと異なっている場合、逆位が存在すると判定すること、
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より短い場合、欠失が存在すると判定すること、および/または
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より長い場合、挿入が存在すると判定すること
を含む、前記項目のいずれかに記載の方法。
(項目7) 前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定することを含む、前記項目のいずれかに記載の方法。
(項目8) 前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定することを含む、前記項目のいずれかに記載の方法。
(項目9) 前記対象配列データにおける前記部分配列部位間の文字を、対応する前記コントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する前記工程が、
対象配列データにおける下流側の前記部分配列の部分から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで上流側へ一致する文字を探索することと、
対象配列データにおける上流側の前記部分配列から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで下流側へ一致する文字を探索することとを含む、前記項目のいずれかに記載の方法。
(項目10) 前記一致する文字を探索することが、1文字ずつの探索である、前記項目のいずれかに記載の方法。
(項目11) 一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含む、前記項目のいずれかに記載の方法。
(項目12) 一致しない文字の先の文字が一致するか探索した際に、
その先の2~10文字において40%以上の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、
それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続する、前記項目のいずれかに記載の方法。
(項目13) 一致しない文字の先5文字の間に2文字以上の不一致が検出された場合、検出された一致しない前記文字を多型の境界部分として特定する、前記項目のいずれかに記載の方法。
(項目14) 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムであって、該方法は、
a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、プログラム。
(項目14A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載のプログラム。
(項目15) 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法は、
a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、記録媒体。
(項目15A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の記録媒体。
(項目16) 対象配列データにおいてコントロール配列データに対する多型を検出するためのシステムであって、該システムは、
対象配列データおよびコントロール配列データをコンピュータに提供するように構成された、配列データ提供部と、
a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を行うように構成された、配列データ計算部と
を備える、システム。
(項目16A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載のシステム。
(項目17) 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
(1)a)該対象配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
b)該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
c)対象配列とコントロール配列とを比較し、該出現頻度の分布の比較に基づいて、多型を検出する工程と
によって、対象配列データにおける置換、コピー数多型、STRP、挿入、欠失、逆位または転座を検出するプロセスと、
(2)a)該対象配列データの配列中の少なくとも2ヶ所の部分配列の、該コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
によって、対象配列データにおける挿入、欠失、逆位、転座または置換を検出するプロセスと
を包含する、方法。
(項目17A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目18) 対象配列データにおいてリファレンス配列データに対する多型を検出する方法であって、リファレンス配列データから、各々の位置情報と関連付けられたリファレンス配列のk長の部分配列セットを作成する工程を含み、さらに、
(A1)該対象配列データの長さkの部分配列のサブセットを生成し、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A2)該リファレンス配列のk長の部分配列セットの、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A3)該対象配列と該リファレンス配列とを比較し、該出現頻度の分布の比較に基づいて、挿入、欠失、置換、コピー数多型、STRP、逆位または転座を検出する工程とを包含するプロセスと
(B1)該対象配列データの配列中の少なくとも2ヶ所のk長の部分配列をクエリとして、該リファレンス配列のk長の部分配列セットに対して検索を行い、該少なくとも2ヶ所の部分配列の、リファレンス配列上の位置を特定する工程と、
(B2)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とを比較する工程と、
(B3)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とが異なっている場合、挿入、欠失、逆位または転座があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程を包含し、必要に応じて、
(B4)該位置関係が異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定する工程をさらに含む、プロセスと、
を、同時に、並行して、または逐次的に行うことを特徴とする、方法。
(項目18A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目A1) 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、該対象配列データとコントロール配列を整列させる工程であって、
対象配列データと、第1の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
対象配列データと、第2の部分配列の位置が一致するようにコントロール配列を整列させる、工程と
を包含する、方法。
(項目A1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目A2) 前記コントロール配列データが、リファレンス配列データである、前記項目のいずれかに記載の方法。
(項目A3) 前記対象配列データおよび前記コントロール配列データが塩基配列データである、前記項目のいずれかに記載の方法。
(項目A4) 前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
(項目A5) 前記多型が、挿入、欠失、逆位、転座、または置換である、前記項目のいずれかに記載の方法。
(項目A6) 前記整列させる工程が、整列の結果を表示することを含む、前記項目のいずれかに記載の方法。
(項目A7) 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、前記項目のいずれかに記載の方法。
(項目B1) 対象配列のコントロール配列上の位置を決定する方法であって、
a)コントロール配列中の複数のk長の部分配列について、配列およびコントロール配列中の位置を出力する工程と、
b)対象配列中の複数のk長の部分配列について、配列および対象配列中の位置を出力する工程と、
c)a)およびb)で得られた配列を比較し、同一の部分配列に対応するコントロール配列中の位置と対象配列中の位置とを対応付ける工程と
を含み、ここで、kは、対象配列の長さを超えない長さである、方法。
(項目B1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目B2) 前記コントロール配列データが、リファレンス配列データである、前記項目のいずれかに記載の方法。
(項目B3) 前記対象配列データおよび前記コントロール配列データが塩基配列データである、前記項目のいずれかに記載の方法。
(項目B4) 前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
(項目B5) 前記対象配列データと前記コントロール配列を整列させる工程であって、
対象配列データと、対象配列の第1の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
対象配列データと、対象配列の第2の部分配列の位置が一致するようにコントロール配列を整列させる、工程をさらに包含する、前記項目のいずれかに記載の方法。
(項目B6) 前記整列させる工程が、整列の結果を表示することを含む、前記項目のいずれかに記載の方法。
(項目B7) 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、前記項目のいずれかに記載の方法。
(項目B6) 前記整列に基づき、前記対象配列データにおける前記コントロール配列データに対する多型を検出する工程をさらに包含する、前記項目のいずれかに記載の方法。
(項目C1) コントロール配列に対して変異が存在することが疑われる対象配列の変異を確認する方法であって、
a)対象配列のL長の部分配列データのセットと、コントロール配列のL’長の部分配列データのセットを提供する工程と、
b)リファレンス配列中の変異が存在することが疑われる部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および/または転座に関する情報と、対象配列のL長、または、コントロール配列のL’長配列のいずれに対応するかの表示と、変異を含まないものであることの表示のセットを提供する工程であって、LとL’が異なる場合、複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとが提供される、工程と、
c)リファレンス配列中の変異が存在することが疑われる部分を変異した文字に変換した部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および/または転座に関する情報と、対象配列のL長、または、コントロール配列のL’長配列のいずれに対応するかの表示と、変異を含むものであることの表示のセットを提供する工程であって、LとL’が異なる場合、複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとが提供される、工程と、
d)b)およびc)で得られた複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとを辞書順にソートする工程と、
e)対象配列のL長の部分配列データのセットと、該辞書順にソートしたL長の部分配列とを比較し、対象配列のL長の部分配列データのセット中に存在する辞書順にソートしたL長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
f)コントロール配列のL’長の部分配列データのセットと、該辞書順にソートしたL’長の部分配列とを比較し、対象配列のL’長の部分配列データのセット中に存在する辞書順にソートしたL’長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
を含み、
ここで、Lは、該対象配列の全長以下の整数であり、L’は、該コントロール配列の全長以下の整数である、方法。
(項目C1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目C2) 前記対象配列および前記コントロール配列が塩基配列である、前記項目のいずれかに記載の方法。
(項目C3) 前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
(項目C4) 前記コントロール配列が、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
(項目C5) 前記コントロール配列が、リファレンス配列であり、前記L’長の部分配列データのセットが、リファレンス配列のL’長の部分配列の集合である、前記項目のいずれかに記載の方法。
(項目C6) 前記変異が、挿入、欠失、逆位、転座、または置換である、前記項目のいずれかに記載の方法。
(項目D1) コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中の少なくとも2ヶ所の部分配列と同一の少なくとも2ヶ所の部分配列を含み、
コントロール配列を、第1の部分配列の位置が一致するように対象配列と整列させることと、
コントロール配列を、第2の部分配列の位置が一致するように対象配列と整列させることと
を含む、方法。
(項目D1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目D2) 前記整列させることは、他の整列に対して逆方向である1つ以上の整列を含む、前記項目のいずれかに記載の方法。
(項目D3) 前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型が表現される、前記項目のいずれかに記載の方法。
(項目D4) 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、前記項目のいずれかに記載の方法。
(項目D5) 前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型部位と多型でない部位の境界が表現される、前記項目のいずれかに記載の方法。
(項目E1) コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中の少なくとも2ヶ所の部分配列と同一の少なくとも2ヶ所の部分配列を含み、
対象配列中の多型に対し、
コントロール配列を第1の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と、
コントロール配列を第2の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と
を識別子として割り当てることを含む、方法。
(項目E1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目F1) コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中のNヶ所の部分配列と同一のNヶ所の部分配列を含み、ここで、Nは2以上の整数であり、
1≦n≦Nである整数nのそれぞれについて、コントロール配列を、第nの部分配列の位置が一致するように対象配列と整列させることを含む、方法。
(項目F1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目F2) 前記整列させることは、他の整列に対して逆方向である1つ以上の整列を含む、前記項目のいずれかに記載の方法。
本発明において、上記1または複数の特徴は、明示された組み合わせに加え、さらに組み合わせて提供され得ることが意図される。本発明のなおさらなる実施形態および利点は、必要に応じて以下の詳細な説明を読んで理解すれば、当業者に認識される。
本発明により、2つ以上の配列の間で正確に多型、特に欠失、挿入、逆位および/または転座を検出することができる。
図1は、本発明の方法の実施形態の1つの具体的な例を示すフロー図である。 図2は、イネリファレンス配列(IRGSP1.0)に対して変異を導入したデータにおいて検出された多型の結果を示す。Chrは染色体番号、Topはトップストランド(塩基配列の5’→3’の配列)、Bottomはボトムストランド(相補鎖)の挿入・欠失のジャンクション、Sizeは挿入・欠失のサイズ(欠失はマイナス表記)、Readsは同様の位置、サイズで検出された次世代シーケンサーのリード(を模倣した配列)の数である。 図3は、本願明細書の実施例3において多型を検出した結果を示す図である。図2に示される結果と比較して、第4染色体における-6285875の誤検出が生じなかったことを除き同様に多型が検出されたことが理解される。 図4Aは、本発明の方法の1つの実施形態を模式的に示した図である。 図4Bは、本発明の方法の1つの実施形態を模式的に示した図である。 図4Cは、本発明の方法の1つの実施形態を模式的に示した図である。 図5Aは、本発明のシステムの実施形態を模式的に示した図である。 図5Bは、本発明のシステムのさらなる実施形態を模式的に示した図である。 図6は、k-mer配列の頻度を用いる多型検出フローと、部分配列の位置関係を用いる多型検出フローとを組み合わせて行う場合の一実施形態を示すフロー図である。 図7は、イネリファレンス配列(IRGSP1.0)に対して変異を導入したデータにおける本発明の方法と、Samtoolsを用いた方法との検出結果をまとめたものである。 図8は、イネリファレンス配列(IRGSP1.0)に対して変異を導入したデータにおけるSamtoolsを用いた方法での検出結果をまとめたものである。
以下、本発明を最良の形態を示しながら説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞(例えば、英語の場合は「a」、「an」、「the」など)は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語および科学技術用語は、本発明の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書(定義を含めて)が優先する。
(定義)
以下に本明細書において特に使用される用語の定義および/または基本的技術内容を適宜説明する。
本明細書において、「配列」とは、各々が何らかの値を取る複数の変数であって、それら複数の変数の順序の情報をさらに含むものをいう。代表的には文字列で表示される。
本明細書において、「対象配列」とは、多型を検出しようとする任意の配列をいい、本明細書においては、「ターゲット」、「ターゲット配列」、「target」とも表記する場合がある。
本明細書において、「コントロール配列」とは、その配列との差異を多型として検出するための基準として用いられる任意の配列をいい、本明細書においては、「コントロール」、「参照配列」、「比較配列」、「control」とも表記する場合がある。
本明細書において、「多型(polymorphism)」とは、対象配列中においてコントロール配列と異なっている任意の部分を指す。本明細書において、「変異」も同様の意味で使用することができる。
本明細書において、「リファレンス(reference)配列」とは、対象配列および/またはコントロール配列の全長の配列として扱うことができる配列を指す。いかなる配列を全長配列とするかは、対象配列および/またはコントロール配列として用いる配列に応じて適宜決定されるものであり、例示されるものに限定されないが、例えば、ウェブ上のデータベース等に存在する、全ゲノム配列、染色体全長配列、遺伝子全長配列、プラスミド全長配列、エクソン全長配列、タンパク質全長配列などをリファレンス配列として用いることができる。
本明細書において、「配列データ」とは、ある配列についての情報を与えるデータをいう。代表的には、配列そのものも配列データということができ、また、配列の一部について情報を与えるデータ(例えば、ゲノム配列に対するシーケンシングによる解析データ)も配列データとして包含される。
本明細書において、ある配列の「部分配列」とは、その配列に含まれる任意の配列をいう。
本明細書において、「サブセット」とは、配列の集合と、それらの配列の部分配列の集合とを合わせた集合の任意の部分集合をいう。
本明細書において、「次世代シーケンシング」とは、配列決定プロセスを並列化し、一度のランで数千万から数億の配列データを生成するシーケンシング技法である。「次世代シーケンサー」とは、次世代シーケンシングを行うための機器を指す。
「偶然同一を排除する」とは、ある配列と、偶然に同一の配列が出現する期待値を1未満にすることをいう。
本明細書において、「カバレッジ」とは、配列データの量が、配列全長の何倍に相当しているかを指す。「カバー率」、「~倍の読み」などと称される場合もある。
本明細書において、「配列構造体」とは、配列中における、物理的に分離された一連の配列をいう。例えば、ゲノム配列の文脈では、染色体のそれぞれは配列構造体ということができる。
本明細書において、「転座」とは、複数の配列構造体を有する配列中で、ある配列構造体上の部分配列が、他の配列構造体上に移動している多型をいう。
本明細書において、「ジャンクション」とは、一部が同一である2つの配列について、同一である部分と同一でない部分の境界を指す。
本明細書において、「識別子」とは、ある多型を他の多型と区別するために付される名称を指す。一般的には、多型の開始位置と型で記載されることが多いが、本明細書において記載される識別子を用いることができる。
本明細書において、「エッジ」とは、配列において多型を含む部分の末端をさす。
(好ましい実施形態)
以下に本発明の好ましい実施形態を説明する。以下に提供される実施形態は、本発明のよりよい理解のために提供されるものであり、本発明の範囲は以下の記載に限定されるべきでないことが理解される。従って、当業者は、本明細書中の記載を参酌して、本発明の範囲内で適宜改変を行うことができることは明らかである。また、本発明の以下の実施形態は単独でも使用されあるいはそれらを組み合わせて使用することができることが理解される。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
(多型の検出)
1つの実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法が提供される。この方法は、対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程を包含し得る。この方法は、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とを比較する工程を包含し得る。ここで、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定することができる。位置関係が異なっている場合、目的とする多型があると判定することができる。多型があると判定する場合には、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を始点として順次比較して不一致となる部位を検出する工程が包含され得る。かかる工程を有することで、本発明の方法は従来技術より向上した多型の検出力を発揮する。本発明の方法の実施形態の一例は、図4A~Cに例示されている。
また、位置関係が異ならない場合にも、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を比較して不一致となる部位を検出する工程を包含することができ、不一致となる部分が検出された場合に多型が存在すると判定し、不一致となる部分が検出されなかった場合に多型が存在しないと判定することができる(図4C)。この場合は、必ずしも部分配列より比較を開始する必要はなく、対象データの配列(例えば、ショートリード配列)全長で比較することができる。かかる工程を包含せず、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定するか(図4B)、または処理を終了する(図4A)ような場合は計算時間を短縮することができる。
本発明の1つの好ましい実施形態は、対象配列(例えば、シーケンサーからのリード)の両末端付近の配列の、コントロール配列(例えば、ゲノム配列)上の位置を決めて、内側に向かって両方向からアラインすること(双方向アラインメント)を含む方法であり、このような方法を「双方向アライン法」とも称する。対象配列の両末端付近の配列をアラインすることは必ずしも必要というわけではないが、両末端付近の配列は比較的容易にアラインすることができ、また、網羅的に欠失や付加を識別することができるため有利でありうる。より内側からアラインを開始するほど多型を検出できる範囲が狭くなるので、両末端に近いほど多型の検出効率が高くなると考えられる。塩基配列の場合、3’末端付近でシーケンサーの読み取り精度が落ち、位置を決められない場合があり得、そのような場合、末端から、数塩基(例えば、0、5、10、15塩基など)のマージンをとって地図上での位置を決めてもよい。「双方向アライン法」は、多型のエッジを検出する方法として見ることもできる。両末端のアラインした位置の距離と、リファレンス配列上にマップされた位置の距離が異なる場合は、対象配列中に挿入・欠失が存在していることになる。両末端が異なる染色体にマッチした場合は転座、同一染色体で向きが逆な場合は、逆位が検出できる。距離が同じ場合は、ミスマッチを探してSNPを検出することができる。双方向アライン法は、非常に高速で1台のコンピュータで現実的な時間で解析できる。双方向アライン法は、同じコンピュータで、bwaに続き、SamtoolsとGATKで解析した場合と比較し、はるかに短い所要時間で実行可能である。また、双方向アライン法は、比較的小さなメモリ環境(例えば、4Gバイト程度)でも動作可能である。
1つの実施形態では、コントロール配列データが、リファレンス配列データである。1つの実施形態では、対象配列データおよび/またはコントロール配列データは、塩基配列データである。対象配列データは、次世代シーケンシングによって得られた配列データであり得る。
本発明により検出され得る多型としては、限定されるものではないが、置換、挿入、欠失、逆位、または転座などが挙げられる。目的とする多型があると判定する際には、以下:
部分配列が、コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、かつ、向きが対象配列データ上のものと異なっている場合、逆位が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より短い場合、欠失が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より長い場合、挿入が存在すると判定すること
のうちの1つ以上を行うことができる。加えて、またはこれらに換えて、位置関係が異ならない場合に、対象配列データにおける部分配列部位間の文字と対応するコントロール配列上の文字とが不一致となる部位が検出された場合に置換が存在すると判定することができる。
本発明の方法は、SSR(simple sequence repeat)の変化を鋭敏に検出できる。1種類の文字の連続(例えば、ポリA、ポリC、ポリG、ポリGなど)、2種類の文字の繰り返し(例えば、CAリピートなど)、3種類の文字の繰り返し、4種類の文字の繰り返し(例えば、AGATの繰り返し)、5種類の文字の繰り返し(例えば、AATGGの繰り返し)などにおける繰り返し数の変化は、従来の検出法では検出が困難であったが、本発明の方法は感度よく検出することが可能である。また、非常に大きな欠失や、転座、逆位も検出できる。
1つの実施形態では、本発明の方法は、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を始点として順次比較して不一致となる部位を検出することを特徴とする。この検出の工程においては、例えば、
対象配列データにおける下流側の前記部分配列の部分から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで上流側へ一致する文字を探索すること、および/または
対象配列データにおける上流側の前記部分配列から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで下流側へ一致する文字を探索すること
が包含され得る。一致する文字の探索は、一定の文字数ずつ探索を行ってよく、例えば、1~3文字ずつの探索を行うことができ、好ましくは1文字ずつの探索である。
一致しない文字が検出された場合にそこで探索を終了してもよい。あるいは、本発明の方法は、一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含んでもよい。一致しない文字の先の文字が一致するか探索した際に、一定範囲において一定以上の割合の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続することができる。例えば、一致しない文字の先の約2~10文字において約20、30、40、50、60、70、80または90%以上の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続することができる。好ましい1つの例としては、一致しない文字の先5文字の間に2文字以上の不一致が検出された場合、検出された一致しない前記文字を多型の境界部分として特定することができる。
本発明の1つの実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法は、対象配列データにおける部分配列間の位置関係と、コントロール配列上の当該部分配列間の位置関係とが異なっている場合、対象配列データとコントロール配列を整列させる工程であって、対象配列データと、第1の部分配列の位置が一致するようにコントロール配列を整列させ、かつ対象配列データと、第2の部分配列の位置が一致するようにコントロール配列を整列させる、工程を包含し得る。方法における整列させる工程は、整列の結果を表示することを含み得る。表示としては、対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示されるもの(または、その反対)が挙げられる。このような表示は、画像として、あるいはテキストデータとして保存され得、多型のデータベース等における多型の表現方法として利用可能である。多型に関する情報伝達において、かかる表示は有用である。
上記の方法は、本明細書の他の箇所に記載される特徴を備え得る。方法は、a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程、および/またはb)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程を含み得る。
コントロール配列が、対象配列中の少なくとも2ヶ所の部分配列と同一の少なくとも2ヶ所の部分配列を含む場合に、コントロール配列を、第1の部分配列の位置が一致するように対象配列と整列させることと、コントロール配列を、第2の部分配列の位置が一致するように対象配列と整列させることとによって、配列を比較し得る。方法は、第1の配列(例えば、対象配列)を、第2の配列(例えば、コントロール配列)と、2以上の位置(数は特段限定されないが、例えば、2ヶ所、3ヶ所、4ヶ所、5ヶ所、6ヶ所、7ヶ所、8ヶ所またはそれ超)が一致する位置で整列させた複数のアラインメントを同時に行うことを含み得る。かかるアラインメントによって、第1の配列における第2の配列との多型部位について、位置・種類・範囲などを同時に表示することが可能である。比較により、対象配列データにおけるコントロール配列データに対する多型部位と多型でない部位の境界を表現することができる。
3以上の位置でコントロール配列と整列させることは、特に部分配列がリピート配列の場合、位置を特定することができずに1ペアのみでのアラインができない場合があり、そのような場合に有効である。1ペアでアラインできなかったものが、少し部分配列の位置をずらすとユニークな場所が特定できる場合もある。例えば、両末端のみの整列では、末端部分がリピート領域の配列にヒットして位置決めができず結果が得られない場合があるので、末端から、一定(例えば、0、5、10、または15文字など)のマージンをとり、その内側のk-merを用いてリファレンスゲノム上の位置が特定してアラインメントを進めることができる。
対象配列に対するコントロール配列の整列を、それぞれの配列の一致する部分配列を特定して行う場合、一致する部分に隣接するコントロール配列中の配列が取得され、対象配列と整列されるが、一致部分から見た取得される配列の方向が、本明細書において、「整列の方向」として言及される。複数の整列を行う場合、この「整列の方向」が同一である場合、「順方向」であり、「整列の方向」が異なる場合、「逆方向」である。「整列の方向」は相対的なものであるが、配列が方向を有するものである場合(例えば、核酸配列には5’→3’方向の方向が存在し、アミノ酸配列にはN→C方向の方向が存在する)、配列自体の方向に対して「整列の方向」が言及される場合がある。
2ヶ所以上の整列を行う場合、1つ以上の整列が、他の整列とは逆方向の整列を含むことが好ましい。順方向と逆方向の両方からのアラインメントを取ることによって、コントロール配列と対象配列の2以上の一致部分の間に存在する多型部分のジャンクションに関する情報を取得することが可能であるためである。なお、両方向の配列を取得する場合も、逆方向の配列の取得が含まれるため、同様に機能すると考えられる。
表示の一例は、対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される(またはその反対)、表示である。多型の境界について、両方の境界位置(ジャンクション)を多型の識別子として利用することが可能である。本発明の1つの実施形態において、コントロール配列と対象配列との比較方法であって、コントロール配列は、対象配列中の少なくとも2ヶ所の部分配列と同一の少なくとも2ヶ所の部分配列を含み、対象配列中の多型に対し、コントロール配列を第1の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と、コントロール配列を第2の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置とを識別子として割り当てることを含む、方法が提供される。
1つの局面において、本発明は、本発明の多型を検出する方法をコンピュータに実施させるための方法を実装するプログラム、該プログラムを記録した記録媒体、およびこれを実現するためのシステムを提供する。ここで採用され得る任意の特徴は本明細書の多型を検出する方法の説明に記載される任意の特徴またはその組み合わせを採用することができる。
(部分配列の位置関係の検出)
1つの実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法が提供される。検出される多型としては、限定されるものではないが、挿入、欠失、逆位、または転座などが挙げられる。1つの実施形態では、方法は、対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程を包含し得る。
対象配列データの配列中の部分配列の長さは、一定長(k-mer)とすることができる。kの値としては限定されるものではないが、配列データの各配列(例えば、次世代シーケンサーの各々のショートリード)の長さを上限とした任意の値を挙げることができ、例えば、500、400、300,200、100、50、40、30、25、20、15等を挙げることができる。
コントロール配列上の位置の特定は、対象配列データ中の部分配列をクエリとして、コントロール配列に対して検索を行うことによって行うことができる。検索は、線形検索、二分検索、内挿検索、ハッシュ検索法等であってよい。検索を、本明細書(例えば、実施例B1)に記載される方法によって行ってもよい。
本明細書において、unixのjoinコマンドによって対象配列データ中の部分配列の、コントロール配列における位置および向きを出力する方法が実証されている(実施例B1)。本明細書において、unixのjoinコマンドまたはそれと同等の処理を行うことを包含する位置決定方法について、「Join法」、「Mapping by join(法)」、「MBJ(法)」などと言及される場合がある。なお、本明細書に記載される検索用データは、二分検索でも、Join法でも使用可能である。二分検索は好ましい検索であるが、Join法は本明細書に記載されるようにさらに高速でのマッピングを行うことができ、より好ましい。
部分配列をk長で一定としている場合、コントロール配列(例えば、リファレンス配列)から作成したk長の部分配列セットを検索用データとして好適に検索(例えば、Join法または二分検索)を行うことができる。コントロール配列から作成するk長の部分配列セットは、部分配列の配列に加えて、当該部分配列が属する配列構造体の識別子(例えば、染色体番号)、当該部分配列の位置(例えば、先頭文字の位置)、向き等を関連付けて作成することができる。これにより、探索(例えば、Join法または二分検索)によって、対象配列データの配列中の部分配列のコントロール配列上の位置が好適に特定され得る。対象配列データの配列中の部分配列のコントロール配列上の位置には向きも含まれ、同一の位置に先頭文字を有する検索用データ中のk長の部分配列と一致したものであっても、当該検索用データ中のk長の部分配列が異なる向きを有する場合には、向きの差異を位置の差異として検出することが可能である。
例えば、リファレンス配列としてゲノム配列データを用いる場合には、図1に示されるようなフローで行うことができ、以下のように検索用リファレンスゲノムデータを作成することができる:
1.各染色体の塩基配列データの末端より1塩基ずつずらしながらk-merを取得する
2.k-mer、染色体番号、先頭塩基のゲノム上の位置、向きを一行に出力する
3.k-merの相補鎖、染色体番号、先頭塩基のゲノム位置、向きを一行に出力する
4.出力された順鎖、相補鎖の全データをk-mer配列で辞書順にソートする。
このように作成した検索用リファレンスゲノムデータに対して、対象配列データ、例えば、シーケンサー由来のショートリード上のk-mer部分配列をクエリとして検索を行うことで、各ショートリード上の部分配列がリファレンスゲノム上のどの位置に対応するのかを特定することが可能である。
対象配列データの配列における部分配列として、複数個所の部分配列を用いることが可能である。少なくとも2ヶ所の部分配列の位置を特定することで、対象配列データの同一配列上の部分配列の位置関係と、コントロール配列上の各部分配列の位置関係との比較が可能になる。本発明の方法は、2ヶ所、3ヶ所、4ヶ所、5ヶ所、6ヶ所、7ヶ所、または8ヶ所の部分配列のコントロール配列上の位置の特定を含み得る。位置関係の比較のためには2ヶ所の位置の特定で十分であり、好ましくは、対象配列データの配列中の2ヶ所の部分配列の、コントロール配列上の位置を特定する。
対象配列データの配列中の部分配列の、コントロール配列における位置(または存在)の検索は、1つの配列に対して複数回繰り返し、コントロール配列上のヒット位置を特定してもよい。
対象配列データの配列における部分配列の位置は、限定されるものではない。したがって、対象配列データの配列から部分配列を取得し、コントロール配列データに対して検索を行い、ヒット(例えば、ユニークな位置へのヒット)がなければ、同一の配列の異なる箇所から部分配列を取得して検索を行うことが可能である。例えば、部分配列は、配列の一方の端もしくは両端から、5文字、10文字、15文字内側の位置から取得したものであってよい。さらに、これらの部分配列を逐次的にクエリとして用いることができる。
例えば、検索用リファレンスゲノムデータを用いて、次世代シーケンサー由来のショートリード配列上の部分配列の位置を特定する場合、図1に示されるようなフローで行うことができ、以下のように行うことができる:
1.ショートリード配列の両末端より5塩基内側塩基よりk-merを取得しリファレンスゲノムデータに対して二分探索を行い、両側ともユニークな位置にヒットしたかを判定する。
2.両側または片側のk-merがユニークな位置にヒットしなかった場合、10塩基内側の塩基からのk-merで二分探索を行い、両側ともユニークな位置にヒットしたかを判定する。
3.両側または片側のk-merがユニークな位置にヒットしなかった場合、15塩基内側の塩基からのk-merで二分探索を行い、両側ともユニークな位置にヒットしたかを判定する。
4.両側ともユニークな位置にヒットした場合、ヒットした上流側と下流側のk-merの位置情報から対応するリファレンスの配列を取得する。
1つの実施形態において、本発明の方法は、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とを比較する工程を包含する。位置関係としては、2つ以上の部分配列それぞれの間の距離、2つ以上の部分配列それぞれが属する配列構造体、2つ以上の部分配列それぞれの向き等が挙げられる。対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定することができる。なお、対象配列データ中のある配列における部分配列の各々は、同一の配列構造体上に存在していると考えることが可能である。また、位置関係が異ならない場合にも、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を比較して不一致となる部位を検出する工程を包含することができ、不一致となる部分が検出された場合に多型が存在すると判定し、不一致となる部分が検出されなかった場合に多型が存在しないと判定することができる。この場合は、必ずしも部分配列より比較を開始する必要はなく、対象データの配列(例えば、ショートリード配列)全長で比較することができる。
対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とが異なっている場合、目的とする多型があると判定することができる。検出される多型としては、限定されるものではないが、挿入、欠失、逆位、または転座などが挙げられる。目的とする多型があると判定する際には、以下:
部分配列が、コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、かつ、向きが対象配列データ上のものと異なっている場合、逆位が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より短い場合、欠失が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より長い場合、挿入が存在すると判定すること
のうちの1つ以上を行うことができる。加えて、またはこれらに換えて、位置関係が異ならない場合に、対象配列データにおける部分配列部位間の文字と対応するコントロール配列上の文字とが不一致となる部位が検出された場合に置換が存在すると判定することができる。
本発明の1つの実施形態において、対象配列のコントロール配列上の位置を決定する方法であって、a)コントロール配列中の複数のk長の部分配列について、配列およびコントロール配列中の位置を出力する工程と、b)対象配列中の複数のk長の部分配列について、配列および対象配列中の位置を出力する工程と、c)a)およびb)で得られた配列を比較し、同一の部分配列に対応するコントロール配列中の位置と対象配列中の位置とを対応付ける工程とを含み、ここで、kは、対象配列の長さを超えない長さである、方法が提供される。かかる方法は、本明細書に記載される多型検出法において利用してもよい。当該マッピング方法は、本願明細書の実施例B1において実証されるように高速に行うことが可能であり、コントロール配列のデータが大きい場合(例えば、リファレンスゲノム配列)に有用である。
ここで、kの値としては、対象配列(例えば、次世代シーケンサーのショートリード)の長さを上限とした任意の値を挙げることができ、例えば、約500、約400、約300、約200、約100、約50、約40、約30、約25、約20、約15等を挙げることができる。kが増加することにより、k-mer配列のデータは指数的に増加する(例えば、塩基配列の場合、kが1塩基増えるごとに塩基の組み合わせは4倍になる)ため、例えば、塩基配列の場合、k=5~30程度が好ましく、k=15~22程度がより好ましいが、理論上は、例えば、k=500等でも用いることが可能であり、制限されるものではない。ヒトの場合であると、k=17以下だと偶然一致が生じる確率が高くなるが、ゲノムサイズが小さな生物であれば、例えば、k=15などより小さなk値を用いることも可能である。1つの実施形態ではk=20を用いる。
上記方法で対象配列のコントロール配列上の位置を決定し、対象配列データとコントロール配列を整列させてもよい。整列においては、対象配列データと、対象配列の第1の部分配列の位置が一致するようにコントロール配列を整列させ、かつ対象配列データと、対象配列の第2の部分配列の位置が一致するようにコントロール配列を整列させることができる。整列の結果を表示してもよく、一例として、対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示され得る。整列に基づき、対象配列データにおけるコントロール配列データに対する多型を検出することが可能である。
本発明の多型検出・配列比較方法は、対象配列(例えば、リード)の部分配列(例えば、両端)のマッピングが可能である範囲を広げることで解析範囲を広げることができる。一方の部分配列がリピート領域の場合アラインメントを作成することができないため、リードの両端の位置が特定されることが好ましい。3’末端領域はエラーになる確率が高くなり、使用可能ではあるもののマッピング効率が落ちる。これに対しては、例えば、リードの5塩基、10塩基、15塩基内側の位置というように、複数個所ずらしてマッピングすることで、検出効率を向上させることができる。bwaでは、リピート領域にもリードをある程度マッピングしているが、上記マッピング方法においてはk-merの位置データを作成する時点でユニークな位置のk-merを選ぶことができ、それにより、少なくともk-merの範囲でユニークでない部分はマッピングから除外される。このためbwaに比較して偽陽性を検出する可能性を低くすることができる。
(不一致文字の探索)
1つの実施形態において、本発明の方法は、目的とする多型があると判定される場合に、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と比較する工程を包含することを1つの特徴とする。この比較する工程は、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を始点として順次比較して不一致となる部位を検出する工程であり得る。
1つの実施形態では、本発明の方法は、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を始点として順次比較して不一致となる部位を検出することを特徴とする。かかる工程においては、例えば、対象配列データにおける下流側の前記部分配列の部分から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで上流側へ一致する文字を探索すること、および/または対象配列データにおける上流側の前記部分配列から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで下流側へ一致する文字を探索することが包含され得る。好ましくは、上流および下流の両方から一致する文字を探索することが包含される。一致する文字の探索は、一定の文字数ずつ探索を行ってよく、例えば、1~3文字ずつの探索を行うことができ、好ましくは1文字ずつの探索である。
一致しない文字が検出された場合にそこで探索を終了してもよい。あるいは、本発明の方法は、一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含んでもよい。一致しない文字の先の文字が一致するか探索した際に、一定範囲において一定以上の割合の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続することができる。例えば、一致しない文字の先の約2~10文字において約20、30、40、50、60、70、80または90%以上の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続することができる。好ましい1つの例としては、一致しない文字の先5文字の間に2文字以上の不一致が検出された場合、検出された一致しない前記文字を多型の境界部分として特定することができる。一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含むことにより、多型検出の正確性をさらに向上させることが可能である。
さらに、異なる配列構造体上に偶然部分配列(例えばk長)と一致する箇所が存在する場合、部分配列に隣接する文字が不一致となり得るが、これを多型と検出すると誤検出が生じる場合があり得る。そのため、対象配列の部分配列との一致部分から一定の文字数(例えば、1、2、3、4、5、6、7、8、9または10文字等)が一致しており、その先で不一致部分が検出された場合にのみ多型の境界が検出されたとすることが可能である。これにより、対象配列上の部分配列がコントロール配列上で一致した部分に隣接する文字が不一致である場合等が検出されなくなる。
例えば、本明細書の実施例または図1に示されるフローから理解されるように、リファレンス配列を、上流側で部分配列と一致したリファレンス配列の対応する部分の配列を、対象配列の配列の上に、下流側で部分配列と一致したリファレンス配列の対応する部分の配列を、下にk-merの部分が一致するように配置して、比較の起点とすることができる。リファレンス配列と上下の配列の比較を順に行い一致しなくなる塩基を探すことができる。ここでは、上記のように、一致しなくなった文字として、一致しない文字の先の文字が一致するか探索した際に、一定範囲において一定以上の割合の文字が不一致である場合に、検出された一致しない前記文字を用いることができる。そして、一致しなくなった文字を挿入・欠失配列の境界文字として配列構造体の識別子と位置を出力することができる。
本発明の1つの実施形態において、コントロール配列に対して変異が存在することが疑われる対象配列の変異を確認する方法が提供される。本明細書に記載される多型検出方法において、当該方法を利用し多型(変異)を確認してもよい。変異を確認する方法は、置換、挿入、欠失、逆位および/または転座の存在の確認に利用可能である。
リファレンス配列から対象配列のL長で変異部位を含むようにして部分配列を切り出し、変異に置換したセットと、置換しないセットを作り、位置関係、変異の有無等の記載と一緒にソートして出力する。このデータとソートした対象配列を、unixコマンドのjoinで処理(または適切な等価な処理)して、対象配列中に含まれる、野生型と変異型の配列を選び、配列数を変異部位ごとに調べる。選んだ配列を、sortした後、uniq -cのコマンドで配列数を数えることができる。同様の操作を、コントロール配列(L’長)に対しても行う。対象個体に対するコントロール個体がある場合は、この個体から得られたリード配列をコントロール配列として用いることができる。コントロール個体がない場合は、リファレンス配列から、L長で切り出して作った配列をコントロール配列として使うことが可能である。対象配列およびコントロール配列で長さが違う場合は、それぞれの長さに対応する変異型と野生型のデータセットを作り、対応する個数を調べることができる。
方法は、a)対象配列のL長の部分配列データのセットと、コントロール配列のL’長の部分配列データのセットを提供する工程と、b)リファレンス配列中の変異が存在することが疑われる部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および/または転座に関する情報と、対象配列のL長、または、コントロール配列のL’長配列のいずれに対応するかの表示と、変異を含まないものであることの表示のセットを提供する工程であって、LとL’が異なる場合、複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとが提供される、工程と、c)リファレンス配列中の変異が存在することが疑われる部分を変異した文字に変換した部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および/または転座に関する情報と、対象配列のL長、または、コントロール配列のL’長配列のいずれに対応するかの表示と、変異を含むものであることの表示のセットを提供する工程であって、LとL’が異なる場合、複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとが提供される、工程と、d)b)およびc)で得られた複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとを辞書順にソートする工程と、e)対象配列のL長の部分配列データのセットと、該辞書順にソートしたL長の部分配列とを比較し、対象配列のL長の部分配列データのセット中に存在する辞書順にソートしたL長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程とf)コントロール配列のL’長の部分配列データのセットと、該辞書順にソートしたL’長の部分配列とを比較し、対象配列のL’長の部分配列データのセット中に存在する辞書順にソートしたL’長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程とを含み得る。ここで、Lは、対象配列の全長以下の整数である。L’は、コントロール配列の全長以下の整数である。L≠L’である場合、例えば、コントロール配列がコントロール個体由来のショートリードである場合、対象配列の長さ(L)、およびコントロールのショートリードの長さ(L’)の部分配列データセットをそれぞれ作製し、それぞれ別々に一致数を計測することができる。L=L’である場合、b)およびc)においてL長の部分配列を含むセットを提供するのみで足りるので簡便である。
コントロール配列のL’長の部分配列データのセットは、「コントロール個体」からのシーケンシングデータ(L’長)を用いることができ、または、リファレンス配列から切り出して作成したL’長の部分配列(この場合は、自由に設定できるが、対象配列と同じL長にするのが好ましい)データを用いることができる。
本方法は、実施例C1に示されるように高速で行うことができ、検出された多型の信頼度の向上に有用である。LまたはL’は、限定されるものではないが、例えば、対象配列の長さと同一であってよく、例えば、次世代シーケンサーのショートリード長(例えば、約500、約400、約300、約200、約100、約50、約40、約30、約25、約20、または約15等)であってよい。LまたはL’は、好ましくは約50~約200であり、1つの例では、約100である。
(配列)
本発明の対象配列、コントロール配列および/またはリファレンス配列としては、多型が生じ得る任意の配列を用いることができる。なお、コントロール配列として、リファレンス配列を用いることが可能である。代表的な実施形態では、対象配列、コントロール配列および/またはリファレンス配列は、生物学的配列であり、例えば、塩基配列(DNA、RNA、およびそれらのアナログ等の配列が包含される)、アミノ酸配列、または糖鎖配列等である。生物学的配列の例としては、例えば、ゲノム配列、染色体配列、遺伝子配列、プラスミド配列、エクソン配列、タンパク質配列等が挙げられる。
対象配列データおよびコントロール配列データは、限定されるものではないが、多型を検出する上では、一定の共通性を持つ配列についての配列データであることが望ましい。しかしながら、配列の取得方法については各々同一でも異なっていてもよく、シーケンシングによって得られたデータ間での比較を行うことも、データベース等から得られたデータ間での比較を行うことも、シーケンシングによって得られたデータとデータベース等から得られたデータとの間での比較を行うことも可能である。
1つの実施形態では、対象配列データが、個体から得られた配列データであり、コントロール配列データが、該個体と同種の別の個体、またはデータベースから得られた配列データである。1つの実施形態では、対象配列データが、個体の組織試料から得られた配列データであり、コントロール配列データが、該個体の別の組織、またはデータベースから得られた配列データである。1つの実施形態では、対象配列データが、細胞試料から得られた配列データであり、コントロール配列データが、別の細胞、またはデータベースから得られた配列データである。
1つの実施形態では、本発明の方法で用いる対象配列データおよび/またはコントロール配列データは、シーケンシングによって得られた塩基配列データである。シーケンシングの手法としては、サンガー法、マクサム・ギルバード法、単一分子リアルタイムシーケンシング(例えば、Pacific Biosciences、Menlo Park、California)、イオン半導体シーケンシング(例えば、Ion Torrent、South San Francisco、California)、パイロシーケンシング(例えば、454、Branford、Connecticut)、ライゲーションによるシーケンシング(例えば、Life Technologies、Carlsbad、CaliforniaのSOLiDシーケンシング)、合成および可逆性ターミネーターによるシーケンシング(例えば、Illumina、San Diego、California)、透過型電子顕微鏡法などの核酸イメージング技術、ナノポアシーケンシングなどがある。
1つの実施形態では、本発明の方法で用いる対象配列データおよび/またはコントロール配列データは、次世代シーケンシングによって得られた配列データであり得る。次世代シーケンシングとしては、シーケンシングバイシンセシス、パイロシーケンシング、ライゲーションによるシーケンシング、イオン半導体シーケンシング、ナノポアシーケンシングが挙げられる。次世代シーケンシングデータからの多型の検出においては、リファレンスへのマッピングやアセンブリによって精度が制限されていたため、本発明の方法を用いた場合に大きな利益が得られると考えられる。
1つの実施形態では、本発明の方法で用いる対象配列データおよび/またはコントロール配列データは、ジニトロフェニル化法、ヒドラジン分解法、カルボキシペプチダーゼ法、エドマン法もしくはそれらの方法を自動化する装置(ペプチドシーケンサーあるいはプロテインシーケンサー)を用いる方法、質量分析(例えば、タンデム質量分析計(MS/MS))を用いた方法(例えば、シーケンスタグ法)等から得られたアミノ酸配列データである。
本発明の対象配列データおよび/またはコントロール配列データの由来となる生物種としては、生物学的配列を有するものである以上は何ら制限されない。一部を例示すると、動物としては、ヒトもしくは非ヒト哺乳動物(例えば、マウス、ラット、ウサギ、ヒツジ、ブタ、ウシ、ウマ、ネコ、イヌ、サル、チンパンジー)、鳥類、爬虫類、両生類、魚類等の脊椎動物、無脊椎動物、例えば、昆虫、線形動物などを挙げることができる。植物としては、イネ、コムギ、トウモロコシ、ジャガイモ、オオムギ、サツマイモ、ソバ、シロイヌナズナ、ミヤコグサ、トマト、キュウリ、キャベツ、白菜、ナス、サトウキビ、ソルガム、リンゴ、ミカン、バナナ、桃、ポプラ、松、杉、被子植物、裸子植物、シダ、コケ、藻類などを挙げることができる。その他、真菌、細菌、ウイルス等でもよい。
さらに、これらの生物の一部分、例えば、組織、細胞等に由来する対象配列データおよび/またはコントロール配列データを解析し、多型を検出することも可能である。
(プログラム、記録媒体およびシステム)
1つの実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムであって、該方法は、
a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、プログラムが提供される。プログラムはどのような言語で記述されてもよい。
別の実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法は、
a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定し、該位置関係が異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、記録媒体が提供される。プログラムはどのような言語で記述されてもよい。1つの実施形態では、記録媒体は、内部に格納され得るROMやHDD、磁気ディスク、USBメモリ等のフラッシュメモリなどの外部記憶装置でありうる。
別の実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出するためのシステムであって、該システムは、
対象配列データおよびコントロール配列データをコンピュータに提供するように構成された、配列データ提供部と、
a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定し、該位置関係が異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を行うように構成された、配列データ計算部と
を備える、システムが提供される。
次に、図5Aの機能ブロック図を参照して、本発明のシステム1の構成を説明する。なお、本図においては、単一のシステムで実現した場合を示しているが、複数のシステムで実現される場合も本発明の範囲に包含されることが理解される。
本発明のシステム1000は、コンピュータシステムに内蔵されたCPU1001にシステムバス1020を介してRAM1003、ROMやHDD、磁気ディスク、USBメモリ等のフラッシュメモリなどの外部記憶装置1005及び入出力インターフェース(I/F)1025が接続されて構成される。入出力I/F1025には、キーボードやマウスなどの入力装置1009、ディスプレイなどの出力装置1007、及びモデムなどの通信デバイス1011がそれぞれ接続されている。外部記憶装置1005は、情報データベース格納部1030とプログラム格納部1040とを備えている。何れも、外部記憶装置1005内に確保された一定の記憶領域である。
このようなハードウェア構成において、入力装置1009を介して各種の指令(コマンド)が入力されることで、又は通信I/Fや通信デバイス1011等を介してコマンドを受信することで、この記憶装置1005にインストールされたソフトウェアプログラムがCPU1001によってRAM1003上に呼び出されて展開され実行されることで、OS(オペレーションシステム)と協働して本発明の対象配列データにおいてコントロール配列データに対する多型を検出する方法の機能を奏するようになっている。もちろん、このような協働する場合以外の仕組みでも本発明を実装することは可能である。
本発明の実装において、対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程を行う際に、対象配列データ、対象配列データ配列中の少なくとも2ヶ所の部分配列のデータ、および/またはコントロール配列のデータは、入力装置1009を介して入力され、あるいは、通信I/Fや通信デバイス1011等を介して入力されるか、あるいは、データベース格納部1030に格納されたものであってもよい。特定された位置データは、出力装置1007を通じて出力されるかまたは情報データベース格納部1030等の外部記憶装置1005に格納されてもよい。次に、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とを比較する工程は、プログラム格納部1040に格納されたプログラム、または、入力装置1009を介して各種の指令(コマンド)が入力されることで、又は通信I/Fや通信デバイス1011等を介してコマンドを受信することで、この外部記憶装置1005にインストールされたソフトウェアプログラムによって実行することができる。比較結果は、出力装置1007を通じて出力されるかまたは情報データベース格納部1030等の外部記憶装置1005に格納されてもよい。
データベース格納部1030には、これらのデータや計算結果、もしくは通信デバイス1011等を介して取得した情報が随時書き込まれ、更新される。各入力配列セット中の各々の配列、参照データベースの各遺伝子情報ID等の情報を各マスタテーブルで管理することにより、蓄積対象となるサンプルに帰属する情報を、各マスタテーブルにおいて定義されたIDにより管理することが可能となる。
データベース格納部1030には、上記計算結果は、配列に関する情報、例えば、生物学的情報、生化学的情報、医学的情報、例えば疾患、障害、生体情報等の既知の情報と関連付けて格納されてもよい。このような関連付けは、ネットワーク(インターネット、イントラネット等)を通じて入手可能なデータをそのまままたはネットワークのリンクとしてなされてもよい。
また、プログラム格納部1040に格納されるコンピュータプログラムは、コンピュータを、上記した処理システム、例えば、配列データの提供、部分配列サブセットの提供、位置データの算出、位置データの比較、多型の検出、多型の確認などの処理を実施するシステムとして構成するものである。これらの各機能は、それぞれが独立したコンピュータプログラムやそのモジュール、ルーチンなどであり、上記CPU1001によって実行されることでコンピュータを各システムや装置として構成させるものである。なお、本発明の例示においては、それぞれのシステムにおける各機能が協働してそれぞれのシステムを構成しているものとするが、この処理のためのプログラムもまた、それぞれ外部記憶装置または通信デバイスまたは入力装置を介して提供されうる。
本発明がシステムとして構成される場合は、対象配列データおよび/またはコントロール配列データ、それらの長さkのサブセットのデータ、ならびに/あるいはそれらの位置データの提供は、まとめて配列データ提供部としてもよい。また、位置関係の比較および多型の検出は、配列データ計算部としてまとめてもよい。
また、図5Bに示されるように、クラスター構造を有する計算システムによって本発明の方法を実装してもよい。1つの実施形態では、システムはクラスター構成であり、ヘッドとノードからなる。ノードは検索の高速化を図るため、主記憶装置にSSDを用いることができる。1つの実施形態では、ヘッド1台に対して複数のノード(例えば12台)で運用することができる。1つの実施形態では、計算システムはクラスター構造を持ち、主コンピュータ(クラスターヘッド)に大容量記憶装置(HDD)を搭載して解析データおよび結果を保存する。クラスターヘッドより、分割したデータを各ノードに送り計算を実行し、結果をクラスターヘッドに集約する。クラスターヘッド、ノード共に、中央制御素子(CPU)、メモリ(RAM)を搭載し、通信インターフェース(NIC)を介してデータの通信を行い得る。ノードには高速での検索処理をするため、ソリッドステートドライブ(SSD)を主記憶装置とすることができる。各ノードに搭載されるCPU、RAM、SSD等は、他のノードと共有されてもよく、物理的に分離していてもよい。
(組み合わせ)
本明細書において、上述のとおり置換、挿入、欠失、逆位または転座を検出するのに有用な方法を記載しているが、かかるプロセスは、置換、コピー数多型、STRP、挿入、欠失、逆位または転座を検出するのに有用な以下に記載するプロセスと組み合わせて行うことができる。例えば、組み合わせた方法は、図6に示されるようなフローに従って実行することが可能である。
このようにプロセスを組み合わせることで、配列に存在し得る多くの種類の多型を網羅的に高い検出力で検出することが可能である。このようなプロセスの組み合わせは、例えば、複数のプロセスを同時に、並行して、または逐次的に行うことによって達成することが可能である。例えば、図5Bに示されるようなクラスター構造を有する計算システムによって、異なるノードを用いてそれぞれのプロセスを行うことにより、組み合わせの方法を実装することができる。
置換、コピー数多型、STRP、挿入、欠失、逆位または転座を検出するのに有用なプロセスとしては、対象配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供し、コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供し(kは対象配列および該コントロール配列のいずれか短いほうの全長以下の整数である)、出現頻度の分布の比較に基づいて、多型を検出する工程を含むプロセスが挙げられる。このような工程によって、全長配列における位置を考慮せず、また、配列を連結することなく配列データを比較し、多型を検出することができる。プロセスは、部分配列中の長さk-x(xはk未満の正の整数である)の配列部分が共通する配列ごとに、長さxの部分について出現頻度の分布を算出し、出現頻度の分布の比較として、部分配列中の長さk-xの配列部分が共通する配列における、長さxの部分の出現頻度の分布の差異の比較を含み得る。
一部の実施形態において、本発明の方法は、前記部分配列中の長さk-xの配列部分を、ユニークな配列ごとにグルーピングする工程を含む。これには、例えば、前記長さk-xの配列部分をソートする工程(例えば、前記長さk-xの配列部分を文字列としてソートする工程)が含まれ得る。一部の実施形態において、kの値は、前記対象配列データ等における偶然同一を排除する長さである。長さxは、限定されるものではないが、好ましくは1~3であり、さらに好ましくは1~2であり、より好ましくは1である。1つの実施形態では、前記長さxの部分が、前記部分配列の末端に存在する。
出現頻度の分布の差異の比較により、例えば、以下のような多型の検出が可能である。1つの実施形態では、前記コントロール配列データのサブセットと前記対象配列データのサブセットとの間で、前記長さxの部分の配列の出現頻度が異なる場合、該長さxの部分の配列を、対象配列データにおけるコントロール配列データに対する多型として検出する。1つの実施形態では、前記コントロール配列データのサブセットと前記対象配列データのサブセットとの間で、前記長さxの部分の配列で最も高頻度のものが異なっている長さk-xの配列部分が存在する場合、該長さxの部分の配列を、対象配列データにおける多型として検出する。
プロセスは、検出した多型について確認する工程をさらに含むことができる。確認は、例えば、検出された多型の部位について、リファレンス配列またはコントロール配列から作成したクエリ配列セットを用いて、対象配列データおよび/またはコントロール配列データとの比較を行うことによって行うことができる。クエリ配列セットは、リファレンス配列またはコントロール配列において前記多型に該当する部位の文字を異なる文字に置換した変異型クエリ配列セット、および/またはリファレンス配列またはコントロール配列において前記多型に該当する部位の文字を置換していない野生型クエリ配列セットを含み得る。プロセスは、対象配列データおよびコントロール配列データが塩基配列データである場合、検出された多型の部位について、対象配列データおよび/またはコントロール配列データの相補鎖の配列データに対して、リファレンス配列またはコントロール配列から作成したクエリ配列セットとの比較を行い確認する工程をさらに含むことができる。本発明の方法は、対象配列データおよびコントロール配列データが塩基配列データである場合、検出された多型の部位について、対象配列データおよび/またはコントロール配列データの対立遺伝子の配列データに対して、リファレンス配列またはコントロール配列から作成したクエリ配列セットとの比較を行い確認する工程をさらに含むことができる。
例えば、このようなプロセスを組み合わせた場合、本発明の1つの実施形態では、
対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
(1)a)該対象配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
b)該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
c)対象配列とコントロール配列とを比較し、該出現頻度の分布の比較に基づいて、多型を検出する工程と
によって、対象配列データにおける置換、コピー数多型、STRP、挿入、欠失、逆位または転座を検出するプロセスと、
(2)a)該対象配列データの配列中の少なくとも2ヶ所の部分配列の、該コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
によって、対象配列データにおける挿入、欠失、逆位、転座または置換を検出するプロセスと
を包含する、方法が提供される。
本発明のさらなる実施形態では、例えば、
対象配列データにおいてリファレンス配列データに対する多型を検出する方法であって、リファレンス配列データから、各々の位置情報と関連付けられたリファレンス配列のk長の部分配列セットを作成する工程を含み、さらに、
(A1)該対象配列データの長さkの部分配列のサブセットを生成し、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A2)該リファレンス配列のk長の部分配列セットの、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A3)該対象配列と該リファレンス配列とを比較し、該出現頻度の分布の比較に基づいて、挿入、欠失、置換、コピー数多型、STRP、逆位または転座を検出する工程とを包含するプロセスと
(B1)該対象配列データの配列中の少なくとも2ヶ所のk長の部分配列をクエリとして、該リファレンス配列のk長の部分配列セットに対して検索を行い、該少なくとも2ヶ所の部分配列の、リファレンス配列上の位置を特定する工程と、
(B2)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とを比較する工程と、
(B3)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とが異なっている場合、挿入、欠失、逆位または転座があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程を包含し、必要に応じて、
(B4)該位置関係が異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定する工程をさらに含む、プロセスと、
を、同時に、並行して、または逐次的に行うことを特徴とする、方法が提供される。
マイクロサテライトの検出は、従来のアライン法では、うまく検出できない場合があったが、本発明の双方向アライン法では正確に検出できるため、本発明の多型検出をマイクロサテライトの検出に用いることができる。本発明の方法は、ゲノム編集(例えば、CRISPR/Cas9、ZFN、TALENなど)における遺伝子破壊の検出や、オフターゲット改変(例えば、SSRのバリエーション)などの検出においても用いることができる。iPS細胞などの培養細胞や、癌細胞などにおける体細胞変異の検出においても本発明の方法を利用することができ、操作および/または過剰細胞増殖による変異のモニタリングに有用であると考えられる。
(一般技術)
本明細書において用いられる分子生物学的手法、生化学的手法、微生物学的手法、バイオインフォマティクスは、当該分野において公知であり、周知でありまたは慣用される任意のものが使用され得る。
本明細書において「または」は、文章中に列挙されている事項の「少なくとも1つ以上」を採用できるときに使用される。「もしくは」も同様である。本明細書において「2つの値」の「範囲内」と明記した場合、その範囲には2つの値自体も含む。
本明細書において引用された、科学文献、特許、特許出願などの参考文献は、その全体が、各々具体的に記載されたのと同じ程度に本明細書において参考として援用される。
以上、本発明の理解を容易にするために好ましい実施形態を示して説明してきた。以下に、実施例に基づいて本発明を説明するが、上述の説明および以下の実施例は、例示の目的のみに提供され、本発明を限定する目的で提供したのではない。従って、本発明の範囲は、本明細書に具体的に記載された実施形態にも実施例にも限定されず、特許請求の範囲によってのみ限定される。
(実施例1:イネリファレンスゲノムに対する多型の検出)
(材料および方法)
[解析用データ]
イネ品種日本晴の種子1粒をN1個体とし、発芽させて育て、N1個体に実った種子をN1S1とした。さらにその種子1粒を発芽させて育て、N1S1個体に実った種子をN1S2とし、同様にして、N1S6まで作成した。本実施例では、解析用のデータとして、N1S6と同じ世代の種子を3ヶ月培養して再分化した個体3M1の葉より採取したDNAの塩基配列を用いた。リファレンス配列として、イネリファレンスゲノム(IRGSP1.0)を用いた。
なお、本明細書において、サンプルの表記は、大文字で表記しても小文字で表記しても同じものを指すことに留意されたい。
[データ解析の手順]
データ解析の手順は以下のとおりであった。
1.検索用リファレンスゲノムデータの作成
イネリファレンスゲノム(IRGSP1.0)の各染色体の塩基配列データの末端より1塩基ずつずらしながらk-merを取得した(本実施例では、k=20)。k-mer、染色体番号、先頭塩基のゲノム上の位置、向きを一行に出力した。k-merの相補鎖、染色体番号、先頭塩基のゲノム位置、向きを一行に出力した。出力された順鎖、相補鎖の全データをk-mer配列で辞書順にソートした。このソートしたデータを、検索用リファレンスゲノムデータとした。
2.多型の検出
3M1のfastqデータからの配列データに対してsort_uniq処理を行った各ショートリード配列の両末端より5塩基内側塩基よりk-merを取得しリファレンスゲノムデータに対して二分探索を行い、両側ともユニークな位置にヒットしたかを判定した。両側とも、あるいは、片側がユニークな位置にヒットしなかった場合、10塩基内側の塩基からのk-merで二分探索をさらに行い、両側ともユニークな位置にヒットしたかを判定した。両側とも、あるいは、片側がユニークな位置にヒットしなかった場合、15塩基内側の塩基からのk-merで二分探索を行い、両側ともユニークな位置にヒットしたかを判定した。ここで両側とも、あるいは、片側がユニークな位置にヒットしなかった場合は、対象のショートリード配列の解析をあきらめ、次のショートリード配列について同様の検索を行った。なお、二分検索に代えて、実施例B1に記載されるJoin法でも同じ結果が得られることが確認されている。
両側ともユニークな位置にヒットした場合、ヒットした上流側と下流側のk-merの位置情報から対応するリファレンスの配列を取得し、上流側はショートリード配列の上に、下流側は下にk-merの部分が一致するように配置して、比較の起点とした。リファレンス配列と上下の配列の比較を順に行い一致しなくなる塩基を探した。
一致しなくなった塩基を挿入・欠失配列の境界塩基として染色体番号と位置を出力した。
(結果)
3M1において検出された多型の一部の例を以下に示す。
Figure 0007122006000001

(上から配列番号1~4)
図の#で始まる1行目は、#に続いて上流側からマッチングした場合の染色体番号と境界部位(ジャンクション)の位置、下流側からマッチングした場合の染色体番号とジャンクションの位置、最後が挿入・欠失のサイズである。2行目は、左から、上流側のマッチングに起点に用いた部分配列(プライマー)、下流側の部分配列(プライマー)、最後が次世代シーケンサーの塩基配列の末端からプライマーまでの距離を示している。
プライマー配列をもとにリファレンス配列を上下に配置し、マッチしなくなる部分(矢印の終点)を探した。終点の位置がジャンクションである。挿入・欠失部位が繰り返し配列の場合は、上流側および下流側のジャンクションは互いにオーバラップする。この例では、ATの2塩基の繰り返し配列が4回(8塩基分)欠失を起こしていることが検出されている。
Figure 0007122006000002

(上から配列番号5~8)
この例では、第8染色体の23388732から23668838の部位にわたる280kbの欠失が検出された。下線で示した20塩基の配列のゲノム上の位置は、リファレンスゲノムを末端から1塩基ずつずらしながら20塩基の配列を切り出し、配列と切り出した染色体番号と位置と向きを一列に記載したデータを、辞書順に20塩基の配列でソートしたデータセットを用いて二分探索アルゴリズムにより染色体番号と位置および向きを取得することによって決定したものである。
Figure 0007122006000003

(上から配列番号9~12)
この例では、逆位が生じていることが検出された。
Figure 0007122006000004

(上から配列番号13~16)
この例では、転座が生じていることが検出された。
(考察)
本発明の方法により、次世代シーケンシングのデータにおいて、アセンブリ等の工程を必要とせずにリファレンスゲノムに対する挿入、欠失、逆位、転座を検出することができることが実証された。
(実施例2:多型検出性能の評価)
(概要)
本発明の方法による多型検出性能を評価するため、イネリファレンス配列(IRGSP1.0)に対して変異を導入することによって次世代シーケンサー由来のデータを模倣したイネゲノムの配列データを対象配列データとして多型の検出を行った。
(材料および方法)
[解析用データ]
対象配列としては、イネの12本の染色体にそれぞれ、上流側から3Mbpの位置に1塩基の欠失、上流側から6Mbpの位置に1塩基の挿入、上流側から9Mbpの部分に100kbの欠失を導入したリファレンス配列を用いた。加えて、各染色体の上流側から10Mbごとに1塩基の置換変異も導入した。
対象配列データとして、変異を導入したイネリファレンス配列から、100塩基長の配列をゲノム上の位置で1塩基飛ばしに配列セットを取得し(50倍ゲノム相当)、次世代シーケンサー由来の配列データを模倣した。この際に、シーケンサーのエラーを模倣するため、0.1%の確率で置換変異のノイズを導入した。
[データ解析の手順]
データ解析の手順は以下のとおりであった。
1.検索用リファレンスゲノムデータの作成
各染色体の塩基配列データの末端より1塩基ずつずらしながらk-merを取得した(本実施例では、k=20)。k-mer、染色体番号、先頭塩基のゲノム上の位置、向きを一行に出力した。k-merの相補鎖、染色体番号、先頭塩基のゲノム位置、向きを一行に出力した。出力された順鎖、相補鎖の全データをk-mer配列で辞書順にソートした。このソートしたデータを、検索用リファレンスゲノムデータとした。
2.多型の検出
変異を導入したイネリファレンス配列から取得した100塩基長の配列のセットを、ショートリード配列のセットとした。
sort_uniq処理を行った各ショートリード配列の両末端より5塩基内側塩基よりk-merを取得しリファレンスゲノムデータに対して二分探索を行い、両側ともユニークな位置にヒットしたかを判定した。両側とも、あるいは、片側がユニークな位置にヒットしなかった場合、両末端より10塩基内側の塩基からのk-merで二分探索をさらに行い、両側ともユニークな位置にヒットしたかを判定した。両側とも、あるいは、片側がユニークな位置にヒットしなかった場合、両末端より15塩基内側の塩基からのk-merで二分探索を行い、両側ともユニークな位置にヒットしたかを判定した。ここで両側とも、あるいは、片側がユニークな位置にヒットしなかった場合は、対象のショートリード配列の解析をあきらめ、次のショートリード配列について同様の検索を行った。
両側ともユニークな位置にヒットした場合、ヒットした上流側と下流側のk-merの位置情報から対応するリファレンスの配列を取得し、上流側はショートリード配列の上に、下流側は下にk-merの部分が一致するように配置して、比較の起点とした。リファレンス配列と上下の配列の比較を順に行い一致しなくなる塩基を探した。
一致しなくなった塩基の次の塩基から5塩基の間に別の不一致があるかをさらに調べた。2塩基以上の別の不一致がある場合には、一致しなくなった塩基を挿入・欠失・逆位・転座配列の境界塩基として染色体番号と位置を出力し、別の不一致がない場合、再び比較を順に行い一致しなくなる塩基を探した。
(結果)
本発明の方法による多型検出の結果を、図2に示す。Chrは染色体番号、Topはトップストランド(塩基配列の5’→3’の配列)、Bottomはボトムストランド(相補鎖)の挿入・欠失のジャンクション、Sizeは挿入・欠失のサイズ(欠失はマイナス表記)、Readsは同様の位置、サイズで検出された次世代シーケンサーのリードの数である。
図2に示されるように、リピート領域で単一の位置として決めることができなかった部分を除く23ヶ所の挿入・欠失変異を検出できた。なお、5番染色体の9000001での2つの検出は同じ変異を示しているため、図2には24の行が記載されている。
(実施例3:さらなるアルゴリズムの検討、従来法との比較)
(概要)
本発明の方法におけるアルゴリズムをさらに検討するため、実施例2で用いた手順に改変を加えて同様の解析を行った。
(材料および方法)
[解析用データ]
解析用のデータは、実施例2に記載のものと同一のものを使用した。
[データ解析の手順]
多型の検出において、リファレンス配列と上下の配列の比較を順に行い一致しなくなる塩基を探す際に、k-merの部分から内側に5塩基は一致していて、その先に不一致が検出されたもののみ、正しいジャンクションとすることとした。それ以外の手順は実施例2と同様であった。
[従来法]
この分野で一般的に広く用いられている、Samtoolsを用いて同じデータを処理した。
従来法による解析は、以下の工程によって行った。工程0は準備で1回のみ実施し、工程1から5はサンプル毎に実施した。
0.準備:リファレンス配列にインデックス付加
1.ショートリードデータのマッピング
2.SAM形式をBAMに変換(マッピング位置でソートも)
3.Samtoolsで多型部位の検出
(結果)
検出の結果を図3に示す。実施例2と比較して、第4染色体における-6285875の誤検出が生じなかったことを除き、同様に多型が検出された。なお、5番染色体の9000001での2つの検出は同じ変異を示しているため、図3には23の行が記載されている。
リファレンスゲノムに導入した変異について、Samtoolsでは19ヶ所検出された。今回考案した方法では22ヶ所検出された。Samtoolsと今回考案した方法での検出結果の比較を図7に示した。Samtoolsでの結果は図8に示される。
k-merに対応する位置がゲノム上に複数存在して位置が特定できない場合は、検出できていないが、両側のk-merで位置が特定できた場合は、検出することが可能であった。挿入・欠失部分が例えば、Aが10回連続している場合は、どのAが欠失・挿入されたかまではわからないので、配列が連続した繰り返し塩基の場合はその繰り返しが終わった場所を検出することができている。
実施例2における第4染色体の誤検出が生じなくなったのは、実施例2ではk-merが一致したすぐ次の塩基がミスマッチでも検出していたところ、本実施例では、k-merのヒットポジションより5塩基進んだところまでは完全一致したもののみを拾うようにしたためであると考えられる。
この結果から、本実施例において検討したアルゴリズムの改変は、多型検出の正確性をさらに向上させることが可能であることが示された。
本発明の方法と、Samtoolsを用いた方法との検出結果をまとめた比較表を図7に示す。Samtoolsでは、各染色体の位置900001における変異、すなわち100kbの欠失を全く検出することができていない。リード長を超える欠失について、bwa、samtoolsの従来法では原理的に検出が不可能となってしまうためであると考えられる。
本実施例の結果から、本発明の方法を用いた場合、従来法では全く検出できなかった大きな欠失等の多型を検出することが可能であることが示された。このことから、本発明の方法は非常に利用価値が高いと考えられる。
(実施例4:ヒトゲノムにおける挿入、欠失、逆位、転座の検出)
(概要)
本発明の方法により挿入、欠失、逆位、転座の検出ができることを実証するため、ヒト配列データを用いて多型の検出を行った。
(材料および方法)
[解析用データ]
コントロール配列データとして、ヒトゲノムリファレンスhg38を用いた。配列は、ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/よりchr1~chr22とchrX、chrY、chrMの染色体データをダウンロードして用いた。alt、v1等のファイル名にコメントが付いているデータは除外した。
対象配列データとしては、ヒトゲノムの次世代シーケンス配列データNA18507をダウンロードして用いた。この配列データは、Illumina社の次世代シーケンサーで解析が行われたものであり、NCBIに登録・公開されており、当該データをダウンロードして用いた。塩基配列セットの実験IDのURLは、https://www.ncbi.nlm.nih.gov/sra/SRX016231であり、配列のアクセッション番号は、SRR034939~SRR034975の範囲であった。
[データ解析の手順]
データ解析の手順として、NA18507のfastq配列より作成したsort_uniq配列を対象配列として、実施例3と同じ手順で解析した。
(結果)
結果として、NA18507のヒト配列データでは、10リード以上カバーされた挿入、欠失、逆位、転座のリード数は、それぞれ、25026、29203、23、12であった。
(考察)
以前のNature BiotechnologyのNA18507を解析した論文では、NA18507における挿入、欠失、逆位、複合(Complex、挿入と欠失が同時に起こっているものや転座が含まれると考えられる)を、それぞれ、87457、56074、23、516と報告している(http://www.nature.com/nbt/journal/v29/n8/fig_tab/nbt.1904_T1.html)。本報告は、NA18507の配列に対して全ゲノムde novoアセンブリを行って得られたスキャホールドを用いて、ヒトリファレンスゲノムに対して多型を検出したものである。
本発明の方法を用いて検出された多型の数は、逆位に関して一致した。挿入・欠失は上記論文の方が多いが、これは、閾値を小さく設定されているためと思われる。論文の変異位置との比較を試みたが、論文の補足データでの位置の比較は論文のデータが不十分(逆位と転座の記載がない)で詳しい検証ができなかった。
逆位、転座に関しては、このような頻度で起こっていては生存できないと考えられるため、サンプル調製時のアーティファクトである可能性が考えられる。ただし、このDNAサンプルは培養細胞から得られたもののようであるため、長期間の培養の間に実際に起こっている可能性も考えられる。
本発明の方法により、次世代シーケンシングのデータにおいて、アセンブリ等の工程を必要とせずにリファレンスゲノムに対する挿入、欠失、逆位、転座を検出することができることが実証された。
(実施例5:同一個体の組織間での多型の検出)
(概要)
本発明の方法により、同一個体の組織間での多型の検出が可能であることを実証する。
(材料および方法)
[解析用データ]
NCBIのSRAよりfastq-dumpを用いて配列データを取得し、組織間の多型の検出に用いた。本データは、Texas Cancer Research Biobank Open Access Data Sharing: Genome Projectが登録したデータであり、詳細データについて、以下のURL:https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP060654において提供されている(Becnel, L. et al. NCBI Sequence Read Archive PRJNA284598 (2015).)。
配列データの起源のサンプルは2種類で、配列データ名とサンプルの内容は以下の通りであった。
SRR2096532 コントロール血液 (Normal)
SRR2096535 濾胞性リンパ腫 (9690/3: Follicular lymphoma)
リード数 (配列長101塩基)
SRR2096532 1300353764
SRR2096535 1339310760
sort_uniqの配列数
SRR2096532 2056683322
SRR2096535 2181081390
SRR2096532(正常組織)およびSRR2096535(腫瘍組織)を対象配列データとして用いて解析を行った。なお、コントロール配列データとして、ヒトゲノムリファレンスhg38を用いた。配列は、ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/よりchr1~chr22とchrX、chrY、chrMの染色体データをダウンロードして用いた。alt、v1等のファイル名にコメントが付いているデータは除外した。
[データ解析の手順]
データ解析の手順として、上記fastq配列より作成したsort_uniq配列を対象配列として、実施例3と同じ手順で解析した。
[従来法]
実施例2に記載される手順と同様に、この分野で一般的に広く用いられている、bwa+Samtoolsを用いて同じデータを処理した。bwa+Samtoolsでは、置換変異と挿入・欠失変異が同時に出力される。
(結果)
上記SRR2096532(正常組織)およびSRR2096535(腫瘍組織)において各方法において検出された多型については以下の表にまとめられる。なお、PED(Polymorphic Edge Detection)は本発明の方法を指す。
Figure 0007122006000005

Figure 0007122006000006
フィルターをかける前の総数では、PEDの方が多く検出されている。これは、1リードのみに検出される多型もカウントしているためで、多くがシーケンサーのリードエラーと考えられる。2リード以上での件数はbwa+Samtoolsを下回り5リード以上では1/3の件数となっている。従来法では、変異があると検出されているものの実際には変異が起こっていない場合が多くあり、マイクロアレイ法等別の方法での確認が必要であるがPED法では、すべてのアラインメントを出力してから数えているので、このノイズ部分が十分に除去されていると考えられる。
PEDで癌組織のみに検出された変異のうち、5リード以上のものは8438部位検出された。これらの変異は、組織中のかなりの部分で入っていると考えられる。内訳は欠失が最も多く4507部位、続いて挿入の3759部位、転座、逆位はそれぞれ141部位、31部位検出された。8434部位のうち、3355部位はbwa+Samtoolsで検出できない変異であった。特に長い欠失は従来法では検出ができなかったが、本法で288部位の1kb以上の欠失が検出された。なお、PEDの検出部位数に関しては、同じ位置で挿入あるいは欠失と、転座あるいは逆位が検出された場合は、挿入あるいは欠失を優先してカウントした。これは、挿入あるいは欠失の結果、ゲノムのまったく別の部位で同一の塩基配列が出現する場合があるためである。
検出されたリード数は幅広く分布していたため、変異部位ごとに組織に占める割合が異なることがわかる。これは、癌細胞が増殖する過程で常に新たな変異が導入されていることを示している。本発明の方法によって、大きな挿入・欠失を含め、転座、逆位等の構造的な多型の検出を行った結果、癌組織では、想像以上にDNAの切断が起こり、修復の過程で多くの挿入・欠失・逆位・転座変異が起こっていることがわかった。
以下に本発明の方法により検出された癌特異的な転座の一例を示す。異なる複数のリードでゲノム上の同一部位での転座が検出されている。
Figure 0007122006000007

(上から配列番号17~24)
本発明の方法は、挿入・欠失・逆位・転座変異検出に関して従来法では検出が難しかった大きな欠失や逆位・転座が検出できることに加えて、検出結果自体をアラインメントとして目視で確認できることが1つの特徴となっている。
(実施例A1:多型検出のための表示方法)
(概要)
本発明の方法を使用して、対象配列データの両末端あるいはその近傍部分と一致するコントロール配列を、それぞれ対象配列データの上下に配置し、対象配列とコントロール配列が、それぞれ不一致になる部分を表示することができることを実証する。また、このような表示が、多型の検出において有用であることを示す。
(材料および方法)
[解析用データ]
コントロール配列データとしてヒトリファレンスゲノム配列(hg38)を用いた。
対象配列データとして、データベース上に存在する次世代シーケンシングデータであるCEPH 1463 Familyの母親の配列(ERR194147)を用いた。
[データ解析の手順]
検索用リファレンスゲノムデータを、実施例2と同様に作成した。
変異を導入したイネリファレンス配列から取得した100塩基長の配列のセットを、ショートリード配列のセットとした。
実施例2と同様にsort_uniq処理を行った各ショートリード配列の両末端より5塩基内側塩基よりk-merを取得しリファレンスゲノムデータに対してマッピング(マッピングの詳細は、実施例B1を参照のこと)を行い、両側ともユニークな位置にヒットしたかを判定した。
両側ともユニークな位置にヒットした場合、ヒットした上流側と下流側のk-merの位置情報を取得した。ショートリード上のk-mer配列間の距離と、リファレンスゲノム上のk-mer配列間の距離が異なる場合、該当部分の配列を取得し、当該ショートリード配列と整列させ、表示した。
対象配列データの上側に、ショートリード配列上の5’側のk-merの位置が一致するようにリファレンスゲノムの配列が表示され、対象配列データの下側に、ショートリード配列上の3’側のk-merの位置が一致するようにリファレンスゲノムの配列が表示される。
(結果)
これにより、プログラムからは、一例として、
Figure 0007122006000008

(上からそれぞれ配列番号25~29)
のように出力される。
この画像中の
Figure 0007122006000009

(上からそれぞれ配列番号27~29)
の部分から、通常の変異検出では検出しにくい反復配列であるGTの繰り返し中で1つの反復(2塩基)が欠失していることを検出することができる。
他の部分の例としては、
Figure 0007122006000010

(上からそれぞれ配列番号30~39)
という表示が出力される。この例では、変異の検出しにくいポリA領域において、一塩基の挿入および欠失をそれぞれ検出することができる。
(結果)
上記の表示方法を採用することによって、通常検出しにくい変異を視覚的にも検出することができる。従来法では、例えばポリAの一番最後のAが欠失しているといった表記がされるが、実際には多数のAのうちどれが欠失したかはわからない。上記のように表現すれば、どのAかはわからないものの、ジャンクションに挟まれた部分のどれかで欠失が起こったということを表現することができる。このように順鎖、相補鎖双方のアラインしたジャンクションの位置を示すことによる変異の表現は、変異の表現方法自体として新規であり、有用なものであると言える。また、必ずしもアラインメントを示さなくとも、ジャンクションの位置を示すことによる表示(上記例における#で始まる行の表記)も有用である。
(実施例B1:マッピング方法)
(概要)
本実施例では、対象配列の両末端あるいはその近傍部分のゲノム上の位置を高速で決定する方法(マッピング方法)について実証する。
(材料および方法)
[手順]
1.リファレンス配列を末端より1塩基ずつ起点を進めながら起点から始まる20塩基の部分配列を得て、その配列、染色体番号、起点の位置、向きを1行として出力する。向きはリファレンス配列と同じ向きの場合にはf、逆向きの場合はrと表記して出力した。また、配列の相補鎖に関しても同様に出力する。切り出した配列中にACGT以外の文字、例えば、N等が含まれている配列は出力しない。
2.出力された部分配列と位置情報を含む配列データを辞書順に整列する。同じ部分配列が複数行に現れた場合は、その配列はリファレンス配列上に複数存在することになり、単一の位置として決定するための配列にはならないので廃棄し、ユニークな配列のみからなるリファレンス部分配列の位置情報データを作成する。一例としては、以下のように整列される:
Figure 0007122006000011

辞書順に整列されたリファレンスゲノム部分配列データ(一部)(上からそれぞれ配列番号40~50)
3.対象配列およびその相補鎖配列データから任意の20塩基を得て、得られた20塩基、対象配列、20塩基の対象配列中の起点の順に並べて一行に出力する。
4.出力された対象配列データを辞書順に整列する。
5.リファレンス部分配列位置情報データと整列された対象配列データを読み出し、双方の20塩基の部分配列が一致した場合、双方のデータを合わせて一行に出力する。
6.双方のデータの最後まで達した時、結果的に対象配列のリファレンス配列上の位置を知ることができる。対象配列のゲノム上の位置は、リファレンス配列のゲノム上の位置と対象配列から得られた20塩基の対象配列上の開始位置から割り出すことができる。
7.リファレンス部分配列位置情報データファイルをreference、対象配列データファイルをtargetとし、unixのコマンドの
join reference target
を実行し結果を得る。
8.対象データの5’末端側、3’末端側の2ヶ所のゲノム上の位置を決め、実施例A1に記載される手順により、配列を整列して表示する。表示により、挿入・欠失・転座・逆位および置換変異を検出する。
[配列データ]
リファレンス配列として、ヒトリファレンスゲノム配列(hg38)を用いた。
対象配列データとして、データベース上に存在する次世代シーケンシングデータであるERR194147の配列を用いた。
(結果)
手順の7.において、ヒトリファレンスゲノム配列(hg38)とERR194147の配列をjoinコマンドでマップした結果の一部を以下に示す。
Figure 0007122006000012

(上からそれぞれ配列番号51~66)
targetのファイルに関しては、次世代シーケンサーの配列データ(2カラム目)の6塩基目からの20塩基を1カラム目に配置し、6塩基目から切り出したことを3カラム目に表記している。joinコマンドを実行すると、4カラム目以降に染色番号、位置、向きが対応づけられ、この場合は、配列データの6塩基目の位置がわかる。
対象配列の11番目の塩基を起点とした20塩基でマッピングした後、再び72番目の塩基を起点とした20塩基でマッピングした結果の一部を以下に示す。
Figure 0007122006000013

(上からそれぞれ配列番号67~80)
この結果を用いてそれぞれの位置よりリファレンスゲノムと比較して不一致の部分を検出することにより、挿入・欠失・転座・逆位・置換変異が検出できる。
上記配列のマッピングにかかった時間あるいはかかると推定された時間は以下のとおりであった。
Figure 0007122006000014
当該ベンチマークに用いたハードウェアは、Intel Celeron CPU G1840@2.80GHz、8GB RAMおよび作業ディレクトリに1TB SSDを有していた。本法について、一次ディレクトリのために追加のHDDを用いた。本法については、ERR194147のsort_uniqデータ全て(2,449,630,776リード)をマッピングした時間を示した。線形探索および二分探索については、10リードおよび10,000,000リードを分析し、全体の時間をそれぞれ推定した。bwaについては、ペアドfastqファイルからの最初の10,000,000リードを使用し、全体の時間を推定した。
(考察)
これまでの方法では、対象配列の部分配列をリファレンスゲノム配列に対して検索を行っていた。検索のアルゴリズムとして、線形探索、二分探索、ハッシュ法などがあり、また、最近ではBurrows-Wheeler変換(ブロックソート)を用いたマッピング手法が開発されているが、今回考案した方法は、リファレンスゲノム配列上を探索・走査する必要はなくリファレンスと対象のファイルを順に読み比較するだけで位置情報が得られるので、圧倒的に高速に処理できる。
本実施例の方法でマッピングを行い、対象配列データのリファレンス上の位置を特定することで、実施例A1の表示方法によって変異を確認することが可能である。
(実施例B2:マッピング方法の変法の例)
(概要)
本実施例では、対象配列の両末端あるいはその近傍部分のゲノム上の位置を高速で決定する方法(マッピング方法)の変法の例について実証する。
(材料および方法)
[配列データ]
リファレンス配列として、ヒトリファレンスゲノム配列(hg38)を用いた。
対象配列データとして、ERR194147のリードデータを用いた。
[手順]
ゲノム参照配列の各部位から19塩基長の配列を切り出し、19塩基長配列、染色体番号、位置、向きの順に1行に出力してアルファベット順にソートしたファイルrefをマッピングに用いる。
Figure 0007122006000015

(上からそれぞれ配列番号81~90)
対象配列として、それぞれ100塩基のリードデータの各部位から20塩基長の配列を切り出し、20塩基の配列を対象の塩基配列の3’末端に到達するまで繰り返し出力(k-mer_file)した。出力された20塩基の配列を辞書順にソートし、同一配列は一つにまとめて、出現回数を配列と共に表記したファイルを作成した。
さらに、配列の5’末端より19塩基の配列を得て、3’末端の塩基すなわちk番目の塩基をA、C、G、Tの出現回数として表記したデータに変換した。「19塩基長の配列 Aの回数 Cの回数 Gの回数 Tの回数」という形式で出力した。
実施例B1と同様にして、リファレンス配列の19塩基長のデータと、対象配列の19塩基長の配列のデータから、対象配列の各19塩基長配列のリファレンス配列上の位置を導出した。
(結果)
参照配列と対象配列の20番目の塩基の頻度データをjoinコマンドで1行に出力したsnpデータファイル(snp)とreferenceファイルをjoinコマンドで1行に出力すると結果的に、各19塩基の配列のリファレンス配列上の開始位置が特定できた。
Figure 0007122006000016

(上からそれぞれ配列番号91~97)
このようにjoin reference snpを実行すると配列の後ろに染色体番号、位置、向きに続いて参照配列と対象配列の20番目の塩基頻度が出力された。これにより、例えばAAAGCAAATTTATTTGTTTは第2染色体の144844205から始まるので、最終塩基のGの位置は144844224で、対象配列ではGおよびTのヘテロ型の多型となっていることがわかった。
Figure 0007122006000017

(上からそれぞれ配列番号91~97)
(実施例C1:変異の確認方法)
(概要)
本実施例では、本明細書の他の箇所に記載される方法によって検出された変異の存在を確認する方法の例を実証する。
(材料および方法)
[配列データ]
リファレンス配列として、ヒトリファレンスゲノム配列(hg38)を用いた。
対象配列データとして、ERR194147を用いた。
なお、双方向アライン法(実施例A1)によって、第1染色体の916010の部位のGからTへの変異が検出されている。
[手順]
1.リファレンスゲノム配列との不一致が置換変異である場合は、対象配列と同じ長さで置換塩基を含むすべての組み合わせの配列セットと、同様の野生型塩基を含む配列セットをつくり、配列、変異部位の染色体番号、位置、対象配列・参照配列の表記、変異型・野生型の表記の順に出力する。
2.作成されたファイルを辞書順に整列する。
3.対象配列とその相補鎖配列データを辞書順に整列して、同一行は一行のみ出力して、ソートされた単一行となったデータファイル(sort_uniqファイル)と、ソートされた変異型、及び、野生型のマップ用データファイルを順に比較して、対象配列が存在するデータのみ出力する。
unixのコマンドでは、
join 対象データ マップ用データ
で実現できる。
4.対象配列に対する参照配列データ、参照配列データが存在しない場合は、リファレンスゲノム配列データを対象配列と同じ長さで切り出したデータを参照配列データとして上記1~3の工程を実行する。
5.それぞれ、参照配列、対象配列に対して野生型と変異型のデータがそれぞれの位置で何個検出されたかをまとめる。基本的には、参照配列では野生型が大多数、ホモ型変異の場合は対象配列で変異型が大多数になる。またヘテロ型の場合は対象配列で野生型と変異型が半数ずつの分布になる。
挿入・欠失・転座・逆位変異の場合は、実施例A1の表記法での上流側、下流側のジャンクションの間の配列を含む対象配列と同じ長さのリファレンスゲノム配列セットを作り、1.~3.のマッピング操作を行うことで、同様の確認ができる。
(結果)
1.の工程における出力の一部を以下に示す。
下線の塩基が対象の塩基で、対象塩基配列(ターゲット)と同じ長さにリファレンスから切り出した配列、染色体番号、位置、野生型塩基、変異型塩基に続き、野生型はtw、変異型はtmと出力する。変異型では切り出した配列の対象の塩基を変異型としている。
Figure 0007122006000018

(第1染色体の916010の部位のGからTへの変異の確認用データセットの一部)(上からそれぞれ配列番号98~109)
3.の工程の出力として、join target mapdata を実行した結果の一部を以下に示す。targetに存在するデータのみが出力された。
Figure 0007122006000019

(上からそれぞれ配列番号110~118)
5.の工程の出力として、前工程で出力されたデータから染色体番号、位置、野生型塩基、変異型塩基、tw(野生型)、tm(変異型)の値を抽出してその出現回数(左端)を調べた。出現回数は、データをソート後に、Unixコマンドuniq -c を実行することによって得た。
Figure 0007122006000020
最終的に、染色体番号、位置、リファレンス塩基、変異型塩基、検索時の検出回数、参照配列(リファレンス)に対する野生型検出数、変異型検出数、対象配列に対する野生型検出数、変異型検出数。参照配列に対しては、大部分野生型で、対象配列で野生型と変異型が半々の場合はヘテロ型(H)、変異型が大部分の場合はホモ型(M)を右端に表示している。
Figure 0007122006000021
当該結果の出力について、ERR194147でSNPの可能性があると予想された部位44,457,154ヶ所をすべて調べた場合、本実施例に記載される方法では116時間46分58秒かかった。なお、Intel Celeron CPU G1840 @2.80GHz、8GB RAMおよび作業ディレクトリに1TB SSDを有するコンピュータ環境での計算結果である。ディスクアクセスの高速化のために1TBのSSDを搭載しているが、CPUおよびメモリ等は、いわゆるLow End(入門機)で用いられる器材であり、限定的な性能のコンピュータでも本実施例に記載される方法における計算を行うことが可能であることを示している。
なお、二分探索法で確認した場合には、上記データの最初の10万件を計算するのに、16,832秒かかった。すべて調べた場合には86日14時間37分8秒かかると推定される。本法の適用により、二分検索法に比べておよそ17.8倍の高速化がされた。
なお、本実施例では、GからTへの置換の確認を説明したが、本方法によって、置換以外にも、挿入、欠失、逆位および転座の存在の確認を行うことができた。
(考察)
本明細書に記載される方法における確認工程において、本実施例の方法を用いることで、二分探索法を用いた場合と比較して、格段に高速で解析して結果を得ることができる。二分探索法では、毎回の探索でディスクに対するランダムアクセスが発生するため、SSDを用いた場合格段に効率が上がる。理論に拘束されることを望むものではないが、これに対して、本実施例に記載されるJoin法は、ファイルの最初からデータを順に読んで(シーケンシャルリード)比較するため、SSDを用いず通常のHDDで計算しても、さほど効率は低下しないという利点もある。
(関連出願)
本出願は、2017年7月24日に出願された特願2017-142782号の優先権の利益を主張し、当該出願は、全ての目的において、その開示全体が本明細書において参考として援用される。さらに、本明細書において、本出願人により本出願と同日に出願された「多型検出法」との名称の出願(整理番号NG011PCT/F5-18PCT074)およびその基礎出願である2017年7月24日に出願された特願2017-142781号(整理番号J1-17369129)は、全ての目的において、その開示全体が本明細書において参考として援用される。
塩基配列解析で多型を検出するすべての分野で利用が可能で、DNA育種利用の他、臨床検査、iPS細胞の検査、メタゲノム解析、発現解析等、幅広い分野で利用することができる。
配列番号1~16:実施例1で用いられたイネ塩基配列
配列番号17~24:実施例5で用いられたヒト塩基配列
配列番号25~39:実施例A1で用いられたヒト塩基配列
配列番号40~80:実施例B1で用いられたヒト塩基配列
配列番号81~97:実施例B2で用いられたヒト塩基配列
配列番号98~118:実施例C1で用いられたヒト塩基配列

Claims (43)

  1. 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
    a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
    b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
    c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
    を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、方法。
  2. 前記コントロール配列データが、リファレンス配列データである、請求項1に記載の方法。
  3. 前記対象配列データおよび前記コントロール配列データが塩基配列データである、請求項1または2に記載の方法。
  4. 前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項1~3のいずれか1項に記載の方法。
  5. 前記多型が、挿入、欠失、逆位、転座、または置換である、請求項1~4のいずれか1項に記載の方法。
  6. 目的とする多型があると判定する前記工程が、
    前記部分配列が、前記コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること、
    該部分配列が、該コントロール配列の同一の配列構造体上に存在し、かつ、向きが前記対象配列データ上のものと異なっている場合、逆位が存在すると判定すること、
    該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より短い場合、欠失が存在すると判定すること、および/または
    該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より長い場合、挿入が存在すると判定すること
    を含む、請求項5に記載の方法。
  7. 前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定することを含む、請求項1~6のいずれか1項に記載の方法。
  8. 前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定することを含む、請求項1~6のいずれか1項に記載の方法。
  9. 前記対象配列データにおける前記部分配列部位間の文字を、対応する前記コントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する前記工程が、
    対象配列データにおける下流側の前記部分配列の部分から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで上流側へ一致する文字を探索することと、
    対象配列データにおける上流側の前記部分配列から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで下流側へ一致する文字を探索することとを含む、請求項1~8のいずれか1項に記載の方法。
  10. 前記一致する文字を探索することが、1文字ずつの探索である、請求項9に記載の方法。
  11. 一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含む、請求項9または10に記載の方法。
  12. 一致しない文字の先の文字が一致するか探索した際に、
    その先の2~10文字において40%以上の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、
    それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続する、請求項11に記載の方法。
  13. 一致しない文字の先5文字の間に2文字以上の不一致が検出された場合、検出された一致しない前記文字を多型の境界部分として特定する、請求項12に記載の方法。
  14. 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムであって、該方法は、
    a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
    b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
    c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
    d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
    を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、プログラム。
  15. 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法は、
    a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
    b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
    c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
    d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
    を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、記録媒体。
  16. 対象配列データにおいてコントロール配列データに対する多型を検出するためのシステムであって、該システムは、
    対象配列データおよびコントロール配列データをコンピュータに提供するように構成された、配列データ提供部と、
    a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
    b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
    d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
    を行うように構成された、配列データ計算部と
    を備え、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、システム。
  17. 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
    a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
    b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
    c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、該対象配列データとコントロール配列を整列させる工程であって、
    対象配列データと、第1の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
    対象配列データと、第2の部分配列の位置が一致するようにコントロール配列を整列させる、工程と
    を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、方法。
  18. 前記コントロール配列データが、リファレンス配列データである、請求項17に記載の方法。
  19. 前記対象配列データおよび前記コントロール配列データが塩基配列データである、請求項17または18に記載の方法。
  20. 前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項17~19のいずれか1項に記載の方法。
  21. 前記多型が、挿入、欠失、逆位、転座、または置換である、請求項17~20のいずれか1項に記載の方法。
  22. 前記整列させる工程が、整列の結果を表示することを含む、請求項17~21のいずれか1項に記載の方法。
  23. 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
    対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、請求項22に記載の方法。
  24. 対象配列のコントロール配列上の位置を決定する方法であって、
    a)コントロール配列中の複数のk長の部分配列について、配列およびコントロール配列中の位置を出力する工程と、
    b)対象配列中の複数のk長の部分配列について、配列および対象配列中の位置を出力する工程と、
    c)a)およびb)で得られた配列を比較し、同一の部分配列に対応するコントロール配列中の位置と対象配列中の位置とを対応付ける工程と
    を含み、ここで、kは、対象配列の長さを超えない長さであり、該対応付ける工程は、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。
  25. 前記コントロール配列データが、リファレンス配列データである、請求項24に記載の方法。
  26. 前記対象配列データおよび前記コントロール配列データが塩基配列データである、請求項24または25に記載の方法。
  27. 前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項24~26のいずれか1項に記載の方法。
  28. 前記対象配列データと前記コントロール配列を整列させる工程であって、
    対象配列データと、対象配列の第1の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
    対象配列データと、対象配列の第2の部分配列の位置が一致するようにコントロール配列を整列させる、工程をさらに包含する、請求項24~27のいずれか1項に記載の方法。
  29. 前記整列させる工程が、整列の結果を表示することを含む、請求項24~28のいずれか1項に記載の方法。
  30. 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
    対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、請求項29に記載の方法。
  31. 前記整列に基づき、前記対象配列データにおける前記コントロール配列データに対する多型を検出する工程をさらに包含する、請求項28~30のいずれか1項に記載の方法。
  32. コントロール配列に対して変異が存在することが疑われる対象配列の変異を確認する方法であって、
    a)対象配列のL長の部分配列データのセットと、コントロール配列のL’長の部分配列データのセットを提供する工程と、
    b)リファレンス配列中の変異が存在することが疑われる部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および/または転座に関する情報と、対象配列のL長、または、コントロール配列のL’長配列のいずれに対応するかの表示と、変異を含まないものであることの表示のセットを提供する工程であって、LとL’が異なる場合、複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとが提供される、工程と、
    c)リファレンス配列中の変異が存在することが疑われる部分を変異した文字に変換した部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および/または転座に関する情報と、対象配列のL長、または、コントロール配列のL’長配列のいずれに対応するかの表示と、変異を含むものであることの表示のセットを提供する工程であって、LとL’が異なる場合、複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとが提供される、工程と、
    d)b)およびc)で得られた複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとを辞書順にソートする工程と、
    e)対象配列のL長の部分配列データのセットと、該辞書順にソートしたL長の部分配列とを比較し、対象配列のL長の部分配列データのセット中に存在する辞書順にソートしたL長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
    f)コントロール配列のL’長の部分配列データのセットと、該辞書順にソートしたL’長の部分配列とを比較し、対象配列のL’長の部分配列データのセット中に存在する辞書順にソートしたL’長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
    を含み、
    ここで、Lは、該対象配列の全長以下の整数であり、L’は、該コントロール配列の全長以下の整数である、方法。
  33. 前記対象配列および前記コントロール配列が塩基配列である、請求項32に記載の方法。
  34. 前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項32または33に記載の方法。
  35. 前記コントロール配列が、次世代シーケンシングによって得られた配列データである、請求項32~34のいずれか1項に記載の方法。
  36. 前記コントロール配列が、リファレンス配列であり、前記L’長の部分配列データのセットが、リファレンス配列のL’長の部分配列の集合である、請求項32~35のいずれか1項に記載の方法。
  37. 前記変異が、挿入、欠失、逆位、転座、または置換である、請求項32~36のいずれか1項に記載の方法。
  38. コントロール配列と対象配列との比較方法であって、
    コントロール配列は、対象配列中の少なくとも2ヶ所の部分配列と同一の少なくとも2ヶ所の部分配列を含み、
    コントロール配列を、第1の部分配列の位置が一致するように対象配列と整列させることと、
    コントロール配列を、第2の部分配列の位置が一致するように対象配列と整列させることと
    を含み、前記整列させることは、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。
  39. 前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型が表現される、請求項38に記載の方法。
  40. 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
    対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、請求項38または39に記載の方法。
  41. 前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型部位と多型でない部位の境界が表現される、請求項38~40のいずれか1項に記載の方法。
  42. コントロール配列と対象配列との比較方法であって、
    コントロール配列は、対象配列中の少なくとも2ヶ所の部分配列と同一の少なくとも2ヶ所の部分配列を含み、
    対象配列中の多型に対し、
    コントロール配列を第1の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と、
    コントロール配列を第2の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と
    を識別子として割り当てることを含み、該対象配列と該コントロール配列との整列は、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。
  43. コントロール配列と対象配列との比較方法であって、
    コントロール配列は、対象配列中のNヶ所の部分配列と同一のNヶ所の部分配列を含み、ここで、Nは2以上の整数であり、
    1≦n≦Nである整数nのそれぞれについて、コントロール配列を、第nの部分配列の位置が一致するように対象配列と整列させることを含み、該対象配列と該コントロール配列との整列は、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。
JP2019532604A 2017-07-24 2018-07-23 挿入・欠失・逆位・転座・置換検出法 Active JP7122006B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017142782 2017-07-24
JP2017142782 2017-07-24
PCT/JP2018/027536 WO2019022019A1 (ja) 2017-07-24 2018-07-23 挿入・欠失・逆位・転座・置換検出法

Publications (2)

Publication Number Publication Date
JPWO2019022019A1 JPWO2019022019A1 (ja) 2020-05-28
JP7122006B2 true JP7122006B2 (ja) 2022-08-19

Family

ID=65039676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019532604A Active JP7122006B2 (ja) 2017-07-24 2018-07-23 挿入・欠失・逆位・転座・置換検出法

Country Status (3)

Country Link
JP (1) JP7122006B2 (ja)
TW (1) TW201921277A (ja)
WO (1) WO2019022019A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009057757A1 (ja) 2007-10-31 2009-05-07 National Institute Of Agrobiological Sciences 塩基配列決定プログラム、塩基配列決定装置および塩基配列決定方法
WO2014132497A1 (ja) 2013-02-28 2014-09-04 株式会社日立ハイテクノロジーズ データ解析装置、及びその方法
JP2016103999A (ja) 2014-11-05 2016-06-09 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ゲノム位置に標的濃縮配列リードを割り当てるための方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009057757A1 (ja) 2007-10-31 2009-05-07 National Institute Of Agrobiological Sciences 塩基配列決定プログラム、塩基配列決定装置および塩基配列決定方法
WO2014132497A1 (ja) 2013-02-28 2014-09-04 株式会社日立ハイテクノロジーズ データ解析装置、及びその方法
JP2016103999A (ja) 2014-11-05 2016-06-09 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ゲノム位置に標的濃縮配列リードを割り当てるための方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宮尾安藝雄他,ゲノムワイドSNPマップの比較によるイネ品種のセグメント解析,第39回日本分子生物学会年会,2016年11月16日,2P-0022
石井一夫他,1.構造変異の同定,ゲノム情報解析-次世代シーケンサーの最新の方法と応用-,2016年03月18日,p.2-25

Also Published As

Publication number Publication date
JPWO2019022019A1 (ja) 2020-05-28
TW201921277A (zh) 2019-06-01
WO2019022019A1 (ja) 2019-01-31

Similar Documents

Publication Publication Date Title
De Coster et al. Towards population-scale long-read sequencing
Kim et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype
Minnoye et al. Chromatin accessibility profiling methods
US20240153584A1 (en) Systems and methods for analyzing sequence data
NZ759659A (en) Deep learning-based variant classifier
Hunter et al. Assembly by Reduced Complexity (ARC): a hybrid approach for targeted assembly of homologous sequences
Kuster et al. ngsComposer: an automated pipeline for empirically based NGS data quality filtering
JP2022549823A (ja) キットおよびキットの使用方法
JP7122006B2 (ja) 挿入・欠失・逆位・転座・置換検出法
JP7166638B2 (ja) 多型検出法
KR20190000341A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
Peretz-Machluf et al. Genome-wide noninvasive prenatal diagnosis of de novo mutations
Knudsen et al. Accurate and fast methods to estimate the population mutation rate from error prone sequences
WO2023070422A1 (zh) 疾病预测方法及装置、电子设备、计算机可读存储介质
US20170226588A1 (en) Systems and methods for dna amplification with post-sequencing data filtering and cell isolation
Teng NGS for Sequence Variants
KR102110017B1 (ko) 분산 처리에 기반한 miRNA 분석 시스템
CN110997936B (zh) 基于低深度基因组测序进行基因分型的方法、装置及其用途
Marić et al. Approaches to metagenomic classification and assembly
Husin Identification of Novel Transcripts and Exons by RNA-Seq of Transcriptome in Durio zibethinus Murr
Xie et al. Filtering out redundant sites to alleviate the p>> n problem in genomic selection
CN117561573A (zh) 从碱基判读错误模式自动鉴定核苷酸测序中的故障来源
Sánchez Practical Transcriptomics: Differential gene expression applied to food production
Attimonelli et al. Bioinformatics resources, databases, and tools for human mtDNA
WO2023097278A1 (en) Sample contamination detection of contaminated fragments for cancer classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220801

R150 Certificate of patent or registration of utility model

Ref document number: 7122006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04