JP7122006B2 - 挿入・欠失・逆位・転座・置換検出法 - Google Patents
挿入・欠失・逆位・転座・置換検出法 Download PDFInfo
- Publication number
- JP7122006B2 JP7122006B2 JP2019532604A JP2019532604A JP7122006B2 JP 7122006 B2 JP7122006 B2 JP 7122006B2 JP 2019532604 A JP2019532604 A JP 2019532604A JP 2019532604 A JP2019532604 A JP 2019532604A JP 7122006 B2 JP7122006 B2 JP 7122006B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- data
- control sequence
- sequence data
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12M—APPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
- C12M1/00—Apparatus for enzymology or microbiology
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Sustainable Development (AREA)
- Medicinal Chemistry (AREA)
- Plant Pathology (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Description
(項目1) 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、方法。
(項目2) 前記コントロール配列データが、リファレンス配列データである、前記項目に記載の方法。
(項目3) 前記対象配列データおよび前記コントロール配列データが塩基配列データである、前記項目のいずれかに記載の方法。
(項目4) 前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
(項目5) 前記多型が、挿入、欠失、逆位、転座、または置換である、前記項目のいずれかに記載の方法。
(項目6) 目的とする多型があると判定する前記工程が、
前記部分配列が、前記コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること、
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、かつ、向きが前記対象配列データ上のものと異なっている場合、逆位が存在すると判定すること、
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より短い場合、欠失が存在すると判定すること、および/または
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より長い場合、挿入が存在すると判定すること
を含む、前記項目のいずれかに記載の方法。
(項目7) 前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定することを含む、前記項目のいずれかに記載の方法。
(項目8) 前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定することを含む、前記項目のいずれかに記載の方法。
(項目9) 前記対象配列データにおける前記部分配列部位間の文字を、対応する前記コントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する前記工程が、
対象配列データにおける下流側の前記部分配列の部分から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで上流側へ一致する文字を探索することと、
対象配列データにおける上流側の前記部分配列から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで下流側へ一致する文字を探索することとを含む、前記項目のいずれかに記載の方法。
(項目10) 前記一致する文字を探索することが、1文字ずつの探索である、前記項目のいずれかに記載の方法。
(項目11) 一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含む、前記項目のいずれかに記載の方法。
(項目12) 一致しない文字の先の文字が一致するか探索した際に、
その先の2~10文字において40%以上の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、
それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続する、前記項目のいずれかに記載の方法。
(項目13) 一致しない文字の先5文字の間に2文字以上の不一致が検出された場合、検出された一致しない前記文字を多型の境界部分として特定する、前記項目のいずれかに記載の方法。
(項目14) 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムであって、該方法は、
a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、プログラム。
(項目14A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載のプログラム。
(項目15) 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法は、
a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、記録媒体。
(項目15A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の記録媒体。
(項目16) 対象配列データにおいてコントロール配列データに対する多型を検出するためのシステムであって、該システムは、
対象配列データおよびコントロール配列データをコンピュータに提供するように構成された、配列データ提供部と、
a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を行うように構成された、配列データ計算部と
を備える、システム。
(項目16A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載のシステム。
(項目17) 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
(1)a)該対象配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
b)該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
c)対象配列とコントロール配列とを比較し、該出現頻度の分布の比較に基づいて、多型を検出する工程と
によって、対象配列データにおける置換、コピー数多型、STRP、挿入、欠失、逆位または転座を検出するプロセスと、
(2)a)該対象配列データの配列中の少なくとも2ヶ所の部分配列の、該コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
によって、対象配列データにおける挿入、欠失、逆位、転座または置換を検出するプロセスと
を包含する、方法。
(項目17A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目18) 対象配列データにおいてリファレンス配列データに対する多型を検出する方法であって、リファレンス配列データから、各々の位置情報と関連付けられたリファレンス配列のk長の部分配列セットを作成する工程を含み、さらに、
(A1)該対象配列データの長さkの部分配列のサブセットを生成し、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A2)該リファレンス配列のk長の部分配列セットの、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A3)該対象配列と該リファレンス配列とを比較し、該出現頻度の分布の比較に基づいて、挿入、欠失、置換、コピー数多型、STRP、逆位または転座を検出する工程とを包含するプロセスと
(B1)該対象配列データの配列中の少なくとも2ヶ所のk長の部分配列をクエリとして、該リファレンス配列のk長の部分配列セットに対して検索を行い、該少なくとも2ヶ所の部分配列の、リファレンス配列上の位置を特定する工程と、
(B2)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とを比較する工程と、
(B3)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とが異なっている場合、挿入、欠失、逆位または転座があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程を包含し、必要に応じて、
(B4)該位置関係が異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定する工程をさらに含む、プロセスと、
を、同時に、並行して、または逐次的に行うことを特徴とする、方法。
(項目18A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目A1) 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、該対象配列データとコントロール配列を整列させる工程であって、
対象配列データと、第1の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
対象配列データと、第2の部分配列の位置が一致するようにコントロール配列を整列させる、工程と
を包含する、方法。
(項目A1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目A2) 前記コントロール配列データが、リファレンス配列データである、前記項目のいずれかに記載の方法。
(項目A3) 前記対象配列データおよび前記コントロール配列データが塩基配列データである、前記項目のいずれかに記載の方法。
(項目A4) 前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
(項目A5) 前記多型が、挿入、欠失、逆位、転座、または置換である、前記項目のいずれかに記載の方法。
(項目A6) 前記整列させる工程が、整列の結果を表示することを含む、前記項目のいずれかに記載の方法。
(項目A7) 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、前記項目のいずれかに記載の方法。
(項目B1) 対象配列のコントロール配列上の位置を決定する方法であって、
a)コントロール配列中の複数のk長の部分配列について、配列およびコントロール配列中の位置を出力する工程と、
b)対象配列中の複数のk長の部分配列について、配列および対象配列中の位置を出力する工程と、
c)a)およびb)で得られた配列を比較し、同一の部分配列に対応するコントロール配列中の位置と対象配列中の位置とを対応付ける工程と
を含み、ここで、kは、対象配列の長さを超えない長さである、方法。
(項目B1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目B2) 前記コントロール配列データが、リファレンス配列データである、前記項目のいずれかに記載の方法。
(項目B3) 前記対象配列データおよび前記コントロール配列データが塩基配列データである、前記項目のいずれかに記載の方法。
(項目B4) 前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
(項目B5) 前記対象配列データと前記コントロール配列を整列させる工程であって、
対象配列データと、対象配列の第1の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
対象配列データと、対象配列の第2の部分配列の位置が一致するようにコントロール配列を整列させる、工程をさらに包含する、前記項目のいずれかに記載の方法。
(項目B6) 前記整列させる工程が、整列の結果を表示することを含む、前記項目のいずれかに記載の方法。
(項目B7) 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、前記項目のいずれかに記載の方法。
(項目B6) 前記整列に基づき、前記対象配列データにおける前記コントロール配列データに対する多型を検出する工程をさらに包含する、前記項目のいずれかに記載の方法。
(項目C1) コントロール配列に対して変異が存在することが疑われる対象配列の変異を確認する方法であって、
a)対象配列のL長の部分配列データのセットと、コントロール配列のL’長の部分配列データのセットを提供する工程と、
b)リファレンス配列中の変異が存在することが疑われる部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および/または転座に関する情報と、対象配列のL長、または、コントロール配列のL’長配列のいずれに対応するかの表示と、変異を含まないものであることの表示のセットを提供する工程であって、LとL’が異なる場合、複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとが提供される、工程と、
c)リファレンス配列中の変異が存在することが疑われる部分を変異した文字に変換した部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および/または転座に関する情報と、対象配列のL長、または、コントロール配列のL’長配列のいずれに対応するかの表示と、変異を含むものであることの表示のセットを提供する工程であって、LとL’が異なる場合、複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとが提供される、工程と、
d)b)およびc)で得られた複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとを辞書順にソートする工程と、
e)対象配列のL長の部分配列データのセットと、該辞書順にソートしたL長の部分配列とを比較し、対象配列のL長の部分配列データのセット中に存在する辞書順にソートしたL長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
f)コントロール配列のL’長の部分配列データのセットと、該辞書順にソートしたL’長の部分配列とを比較し、対象配列のL’長の部分配列データのセット中に存在する辞書順にソートしたL’長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
を含み、
ここで、Lは、該対象配列の全長以下の整数であり、L’は、該コントロール配列の全長以下の整数である、方法。
(項目C1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目C2) 前記対象配列および前記コントロール配列が塩基配列である、前記項目のいずれかに記載の方法。
(項目C3) 前記対象配列データが、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
(項目C4) 前記コントロール配列が、次世代シーケンシングによって得られた配列データである、前記項目のいずれかに記載の方法。
(項目C5) 前記コントロール配列が、リファレンス配列であり、前記L’長の部分配列データのセットが、リファレンス配列のL’長の部分配列の集合である、前記項目のいずれかに記載の方法。
(項目C6) 前記変異が、挿入、欠失、逆位、転座、または置換である、前記項目のいずれかに記載の方法。
(項目D1) コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中の少なくとも2ヶ所の部分配列と同一の少なくとも2ヶ所の部分配列を含み、
コントロール配列を、第1の部分配列の位置が一致するように対象配列と整列させることと、
コントロール配列を、第2の部分配列の位置が一致するように対象配列と整列させることと
を含む、方法。
(項目D1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目D2) 前記整列させることは、他の整列に対して逆方向である1つ以上の整列を含む、前記項目のいずれかに記載の方法。
(項目D3) 前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型が表現される、前記項目のいずれかに記載の方法。
(項目D4) 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、前記項目のいずれかに記載の方法。
(項目D5) 前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型部位と多型でない部位の境界が表現される、前記項目のいずれかに記載の方法。
(項目E1) コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中の少なくとも2ヶ所の部分配列と同一の少なくとも2ヶ所の部分配列を含み、
対象配列中の多型に対し、
コントロール配列を第1の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と、
コントロール配列を第2の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と
を識別子として割り当てることを含む、方法。
(項目E1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目F1) コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中のNヶ所の部分配列と同一のNヶ所の部分配列を含み、ここで、Nは2以上の整数であり、
1≦n≦Nである整数nのそれぞれについて、コントロール配列を、第nの部分配列の位置が一致するように対象配列と整列させることを含む、方法。
(項目F1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目F2) 前記整列させることは、他の整列に対して逆方向である1つ以上の整列を含む、前記項目のいずれかに記載の方法。
以下に本明細書において特に使用される用語の定義および/または基本的技術内容を適宜説明する。
以下に本発明の好ましい実施形態を説明する。以下に提供される実施形態は、本発明のよりよい理解のために提供されるものであり、本発明の範囲は以下の記載に限定されるべきでないことが理解される。従って、当業者は、本明細書中の記載を参酌して、本発明の範囲内で適宜改変を行うことができることは明らかである。また、本発明の以下の実施形態は単独でも使用されあるいはそれらを組み合わせて使用することができることが理解される。
1つの実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法が提供される。この方法は、対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程を包含し得る。この方法は、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とを比較する工程を包含し得る。ここで、対象配列データにおける部分配列間の位置関係と、コントロール配列上の部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定することができる。位置関係が異なっている場合、目的とする多型があると判定することができる。多型があると判定する場合には、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を始点として順次比較して不一致となる部位を検出する工程が包含され得る。かかる工程を有することで、本発明の方法は従来技術より向上した多型の検出力を発揮する。本発明の方法の実施形態の一例は、図4A~Cに例示されている。
部分配列が、コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、かつ、向きが対象配列データ上のものと異なっている場合、逆位が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より短い場合、欠失が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より長い場合、挿入が存在すると判定すること
のうちの1つ以上を行うことができる。加えて、またはこれらに換えて、位置関係が異ならない場合に、対象配列データにおける部分配列部位間の文字と対応するコントロール配列上の文字とが不一致となる部位が検出された場合に置換が存在すると判定することができる。
対象配列データにおける下流側の前記部分配列の部分から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで上流側へ一致する文字を探索すること、および/または
対象配列データにおける上流側の前記部分配列から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで下流側へ一致する文字を探索すること
が包含され得る。一致する文字の探索は、一定の文字数ずつ探索を行ってよく、例えば、1~3文字ずつの探索を行うことができ、好ましくは1文字ずつの探索である。
1つの実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法が提供される。検出される多型としては、限定されるものではないが、挿入、欠失、逆位、または転座などが挙げられる。1つの実施形態では、方法は、対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程を包含し得る。
1.各染色体の塩基配列データの末端より1塩基ずつずらしながらk-merを取得する
2.k-mer、染色体番号、先頭塩基のゲノム上の位置、向きを一行に出力する
3.k-merの相補鎖、染色体番号、先頭塩基のゲノム位置、向きを一行に出力する
4.出力された順鎖、相補鎖の全データをk-mer配列で辞書順にソートする。
このように作成した検索用リファレンスゲノムデータに対して、対象配列データ、例えば、シーケンサー由来のショートリード上のk-mer部分配列をクエリとして検索を行うことで、各ショートリード上の部分配列がリファレンスゲノム上のどの位置に対応するのかを特定することが可能である。
1.ショートリード配列の両末端より5塩基内側塩基よりk-merを取得しリファレンスゲノムデータに対して二分探索を行い、両側ともユニークな位置にヒットしたかを判定する。
2.両側または片側のk-merがユニークな位置にヒットしなかった場合、10塩基内側の塩基からのk-merで二分探索を行い、両側ともユニークな位置にヒットしたかを判定する。
3.両側または片側のk-merがユニークな位置にヒットしなかった場合、15塩基内側の塩基からのk-merで二分探索を行い、両側ともユニークな位置にヒットしたかを判定する。
4.両側ともユニークな位置にヒットした場合、ヒットした上流側と下流側のk-merの位置情報から対応するリファレンスの配列を取得する。
部分配列が、コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、かつ、向きが対象配列データ上のものと異なっている場合、逆位が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より短い場合、欠失が存在すると判定すること
部分配列が、コントロール配列の同一の配列構造体上に存在し、向きが対象配列データ上のものと同一であり、部分配列対象配列の距離が、コントロール配列上で対象配列データ上の距離より長い場合、挿入が存在すると判定すること
のうちの1つ以上を行うことができる。加えて、またはこれらに換えて、位置関係が異ならない場合に、対象配列データにおける部分配列部位間の文字と対応するコントロール配列上の文字とが不一致となる部位が検出された場合に置換が存在すると判定することができる。
1つの実施形態において、本発明の方法は、目的とする多型があると判定される場合に、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と比較する工程を包含することを1つの特徴とする。この比較する工程は、対象配列データにおける部分配列部位間の文字を、対応するコントロール配列上の文字と、部分配列部位を始点として順次比較して不一致となる部位を検出する工程であり得る。
本発明の対象配列、コントロール配列および/またはリファレンス配列としては、多型が生じ得る任意の配列を用いることができる。なお、コントロール配列として、リファレンス配列を用いることが可能である。代表的な実施形態では、対象配列、コントロール配列および/またはリファレンス配列は、生物学的配列であり、例えば、塩基配列(DNA、RNA、およびそれらのアナログ等の配列が包含される)、アミノ酸配列、または糖鎖配列等である。生物学的配列の例としては、例えば、ゲノム配列、染色体配列、遺伝子配列、プラスミド配列、エクソン配列、タンパク質配列等が挙げられる。
1つの実施形態において、対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムであって、該方法は、
a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、プログラムが提供される。プログラムはどのような言語で記述されてもよい。
a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定し、該位置関係が異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含する、記録媒体が提供される。プログラムはどのような言語で記述されてもよい。1つの実施形態では、記録媒体は、内部に格納され得るROMやHDD、磁気ディスク、USBメモリ等のフラッシュメモリなどの外部記憶装置でありうる。
対象配列データおよびコントロール配列データをコンピュータに提供するように構成された、配列データ提供部と、
a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定し、該位置関係が異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を行うように構成された、配列データ計算部と
を備える、システムが提供される。
本明細書において、上述のとおり置換、挿入、欠失、逆位または転座を検出するのに有用な方法を記載しているが、かかるプロセスは、置換、コピー数多型、STRP、挿入、欠失、逆位または転座を検出するのに有用な以下に記載するプロセスと組み合わせて行うことができる。例えば、組み合わせた方法は、図6に示されるようなフローに従って実行することが可能である。
対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
(1)a)該対象配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
b)該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
c)対象配列とコントロール配列とを比較し、該出現頻度の分布の比較に基づいて、多型を検出する工程と
によって、対象配列データにおける置換、コピー数多型、STRP、挿入、欠失、逆位または転座を検出するプロセスと、
(2)a)該対象配列データの配列中の少なくとも2ヶ所の部分配列の、該コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
によって、対象配列データにおける挿入、欠失、逆位、転座または置換を検出するプロセスと
を包含する、方法が提供される。
対象配列データにおいてリファレンス配列データに対する多型を検出する方法であって、リファレンス配列データから、各々の位置情報と関連付けられたリファレンス配列のk長の部分配列セットを作成する工程を含み、さらに、
(A1)該対象配列データの長さkの部分配列のサブセットを生成し、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A2)該リファレンス配列のk長の部分配列セットの、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A3)該対象配列と該リファレンス配列とを比較し、該出現頻度の分布の比較に基づいて、挿入、欠失、置換、コピー数多型、STRP、逆位または転座を検出する工程とを包含するプロセスと
(B1)該対象配列データの配列中の少なくとも2ヶ所のk長の部分配列をクエリとして、該リファレンス配列のk長の部分配列セットに対して検索を行い、該少なくとも2ヶ所の部分配列の、リファレンス配列上の位置を特定する工程と、
(B2)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とを比較する工程と、
(B3)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とが異なっている場合、挿入、欠失、逆位または転座があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程を包含し、必要に応じて、
(B4)該位置関係が異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定する工程をさらに含む、プロセスと、
を、同時に、並行して、または逐次的に行うことを特徴とする、方法が提供される。
本明細書において用いられる分子生物学的手法、生化学的手法、微生物学的手法、バイオインフォマティクスは、当該分野において公知であり、周知でありまたは慣用される任意のものが使用され得る。
(材料および方法)
[解析用データ]
イネ品種日本晴の種子1粒をN1個体とし、発芽させて育て、N1個体に実った種子をN1S1とした。さらにその種子1粒を発芽させて育て、N1S1個体に実った種子をN1S2とし、同様にして、N1S6まで作成した。本実施例では、解析用のデータとして、N1S6と同じ世代の種子を3ヶ月培養して再分化した個体3M1の葉より採取したDNAの塩基配列を用いた。リファレンス配列として、イネリファレンスゲノム(IRGSP1.0)を用いた。
なお、本明細書において、サンプルの表記は、大文字で表記しても小文字で表記しても同じものを指すことに留意されたい。
データ解析の手順は以下のとおりであった。
イネリファレンスゲノム(IRGSP1.0)の各染色体の塩基配列データの末端より1塩基ずつずらしながらk-merを取得した(本実施例では、k=20)。k-mer、染色体番号、先頭塩基のゲノム上の位置、向きを一行に出力した。k-merの相補鎖、染色体番号、先頭塩基のゲノム位置、向きを一行に出力した。出力された順鎖、相補鎖の全データをk-mer配列で辞書順にソートした。このソートしたデータを、検索用リファレンスゲノムデータとした。
3M1のfastqデータからの配列データに対してsort_uniq処理を行った各ショートリード配列の両末端より5塩基内側塩基よりk-merを取得しリファレンスゲノムデータに対して二分探索を行い、両側ともユニークな位置にヒットしたかを判定した。両側とも、あるいは、片側がユニークな位置にヒットしなかった場合、10塩基内側の塩基からのk-merで二分探索をさらに行い、両側ともユニークな位置にヒットしたかを判定した。両側とも、あるいは、片側がユニークな位置にヒットしなかった場合、15塩基内側の塩基からのk-merで二分探索を行い、両側ともユニークな位置にヒットしたかを判定した。ここで両側とも、あるいは、片側がユニークな位置にヒットしなかった場合は、対象のショートリード配列の解析をあきらめ、次のショートリード配列について同様の検索を行った。なお、二分検索に代えて、実施例B1に記載されるJoin法でも同じ結果が得られることが確認されている。
(上から配列番号5~8)
(上から配列番号9~12)
本発明の方法により、次世代シーケンシングのデータにおいて、アセンブリ等の工程を必要とせずにリファレンスゲノムに対する挿入、欠失、逆位、転座を検出することができることが実証された。
(概要)
本発明の方法による多型検出性能を評価するため、イネリファレンス配列(IRGSP1.0)に対して変異を導入することによって次世代シーケンサー由来のデータを模倣したイネゲノムの配列データを対象配列データとして多型の検出を行った。
[解析用データ]
対象配列としては、イネの12本の染色体にそれぞれ、上流側から3Mbpの位置に1塩基の欠失、上流側から6Mbpの位置に1塩基の挿入、上流側から9Mbpの部分に100kbの欠失を導入したリファレンス配列を用いた。加えて、各染色体の上流側から10Mbごとに1塩基の置換変異も導入した。
データ解析の手順は以下のとおりであった。
各染色体の塩基配列データの末端より1塩基ずつずらしながらk-merを取得した(本実施例では、k=20)。k-mer、染色体番号、先頭塩基のゲノム上の位置、向きを一行に出力した。k-merの相補鎖、染色体番号、先頭塩基のゲノム位置、向きを一行に出力した。出力された順鎖、相補鎖の全データをk-mer配列で辞書順にソートした。このソートしたデータを、検索用リファレンスゲノムデータとした。
変異を導入したイネリファレンス配列から取得した100塩基長の配列のセットを、ショートリード配列のセットとした。
本発明の方法による多型検出の結果を、図2に示す。Chrは染色体番号、Topはトップストランド(塩基配列の5’→3’の配列)、Bottomはボトムストランド(相補鎖)の挿入・欠失のジャンクション、Sizeは挿入・欠失のサイズ(欠失はマイナス表記)、Readsは同様の位置、サイズで検出された次世代シーケンサーのリードの数である。
(概要)
本発明の方法におけるアルゴリズムをさらに検討するため、実施例2で用いた手順に改変を加えて同様の解析を行った。
[解析用データ]
解析用のデータは、実施例2に記載のものと同一のものを使用した。
多型の検出において、リファレンス配列と上下の配列の比較を順に行い一致しなくなる塩基を探す際に、k-merの部分から内側に5塩基は一致していて、その先に不一致が検出されたもののみ、正しいジャンクションとすることとした。それ以外の手順は実施例2と同様であった。
この分野で一般的に広く用いられている、Samtoolsを用いて同じデータを処理した。
0.準備:リファレンス配列にインデックス付加
1.ショートリードデータのマッピング
2.SAM形式をBAMに変換(マッピング位置でソートも)
3.Samtoolsで多型部位の検出
検出の結果を図3に示す。実施例2と比較して、第4染色体における-6285875の誤検出が生じなかったことを除き、同様に多型が検出された。なお、5番染色体の9000001での2つの検出は同じ変異を示しているため、図3には23の行が記載されている。
(概要)
本発明の方法により挿入、欠失、逆位、転座の検出ができることを実証するため、ヒト配列データを用いて多型の検出を行った。
[解析用データ]
コントロール配列データとして、ヒトゲノムリファレンスhg38を用いた。配列は、ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/よりchr1~chr22とchrX、chrY、chrMの染色体データをダウンロードして用いた。alt、v1等のファイル名にコメントが付いているデータは除外した。
データ解析の手順として、NA18507のfastq配列より作成したsort_uniq配列を対象配列として、実施例3と同じ手順で解析した。
結果として、NA18507のヒト配列データでは、10リード以上カバーされた挿入、欠失、逆位、転座のリード数は、それぞれ、25026、29203、23、12であった。
以前のNature BiotechnologyのNA18507を解析した論文では、NA18507における挿入、欠失、逆位、複合(Complex、挿入と欠失が同時に起こっているものや転座が含まれると考えられる)を、それぞれ、87457、56074、23、516と報告している(http://www.nature.com/nbt/journal/v29/n8/fig_tab/nbt.1904_T1.html)。本報告は、NA18507の配列に対して全ゲノムde novoアセンブリを行って得られたスキャホールドを用いて、ヒトリファレンスゲノムに対して多型を検出したものである。
(概要)
本発明の方法により、同一個体の組織間での多型の検出が可能であることを実証する。
[解析用データ]
NCBIのSRAよりfastq-dumpを用いて配列データを取得し、組織間の多型の検出に用いた。本データは、Texas Cancer Research Biobank Open Access Data Sharing: Genome Projectが登録したデータであり、詳細データについて、以下のURL:https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP060654において提供されている(Becnel, L. et al. NCBI Sequence Read Archive PRJNA284598 (2015).)。
SRR2096532 コントロール血液 (Normal)
SRR2096535 濾胞性リンパ腫 (9690/3: Follicular lymphoma)
リード数 (配列長101塩基)
SRR2096532 1300353764
SRR2096535 1339310760
sort_uniqの配列数
SRR2096532 2056683322
SRR2096535 2181081390
データ解析の手順として、上記fastq配列より作成したsort_uniq配列を対象配列として、実施例3と同じ手順で解析した。
実施例2に記載される手順と同様に、この分野で一般的に広く用いられている、bwa+Samtoolsを用いて同じデータを処理した。bwa+Samtoolsでは、置換変異と挿入・欠失変異が同時に出力される。
上記SRR2096532(正常組織)およびSRR2096535(腫瘍組織)において各方法において検出された多型については以下の表にまとめられる。なお、PED(Polymorphic Edge Detection)は本発明の方法を指す。
(概要)
本発明の方法を使用して、対象配列データの両末端あるいはその近傍部分と一致するコントロール配列を、それぞれ対象配列データの上下に配置し、対象配列とコントロール配列が、それぞれ不一致になる部分を表示することができることを実証する。また、このような表示が、多型の検出において有用であることを示す。
[解析用データ]
コントロール配列データとしてヒトリファレンスゲノム配列(hg38)を用いた。
検索用リファレンスゲノムデータを、実施例2と同様に作成した。
上記の表示方法を採用することによって、通常検出しにくい変異を視覚的にも検出することができる。従来法では、例えばポリAの一番最後のAが欠失しているといった表記がされるが、実際には多数のAのうちどれが欠失したかはわからない。上記のように表現すれば、どのAかはわからないものの、ジャンクションに挟まれた部分のどれかで欠失が起こったということを表現することができる。このように順鎖、相補鎖双方のアラインしたジャンクションの位置を示すことによる変異の表現は、変異の表現方法自体として新規であり、有用なものであると言える。また、必ずしもアラインメントを示さなくとも、ジャンクションの位置を示すことによる表示(上記例における#で始まる行の表記)も有用である。
(概要)
本実施例では、対象配列の両末端あるいはその近傍部分のゲノム上の位置を高速で決定する方法(マッピング方法)について実証する。
[手順]
1.リファレンス配列を末端より1塩基ずつ起点を進めながら起点から始まる20塩基の部分配列を得て、その配列、染色体番号、起点の位置、向きを1行として出力する。向きはリファレンス配列と同じ向きの場合にはf、逆向きの場合はrと表記して出力した。また、配列の相補鎖に関しても同様に出力する。切り出した配列中にACGT以外の文字、例えば、N等が含まれている配列は出力しない。
辞書順に整列されたリファレンスゲノム部分配列データ(一部)(上からそれぞれ配列番号40~50)
join reference target
を実行し結果を得る。
リファレンス配列として、ヒトリファレンスゲノム配列(hg38)を用いた。
これまでの方法では、対象配列の部分配列をリファレンスゲノム配列に対して検索を行っていた。検索のアルゴリズムとして、線形探索、二分探索、ハッシュ法などがあり、また、最近ではBurrows-Wheeler変換(ブロックソート)を用いたマッピング手法が開発されているが、今回考案した方法は、リファレンスゲノム配列上を探索・走査する必要はなくリファレンスと対象のファイルを順に読み比較するだけで位置情報が得られるので、圧倒的に高速に処理できる。
(概要)
本実施例では、対象配列の両末端あるいはその近傍部分のゲノム上の位置を高速で決定する方法(マッピング方法)の変法の例について実証する。
[配列データ]
リファレンス配列として、ヒトリファレンスゲノム配列(hg38)を用いた。
ゲノム参照配列の各部位から19塩基長の配列を切り出し、19塩基長配列、染色体番号、位置、向きの順に1行に出力してアルファベット順にソートしたファイルrefをマッピングに用いる。
(上からそれぞれ配列番号81~90)
参照配列と対象配列の20番目の塩基の頻度データをjoinコマンドで1行に出力したsnpデータファイル(snp)とreferenceファイルをjoinコマンドで1行に出力すると結果的に、各19塩基の配列のリファレンス配列上の開始位置が特定できた。
(上からそれぞれ配列番号91~97)
(上からそれぞれ配列番号91~97)
(概要)
本実施例では、本明細書の他の箇所に記載される方法によって検出された変異の存在を確認する方法の例を実証する。
[配列データ]
リファレンス配列として、ヒトリファレンスゲノム配列(hg38)を用いた。
1.リファレンスゲノム配列との不一致が置換変異である場合は、対象配列と同じ長さで置換塩基を含むすべての組み合わせの配列セットと、同様の野生型塩基を含む配列セットをつくり、配列、変異部位の染色体番号、位置、対象配列・参照配列の表記、変異型・野生型の表記の順に出力する。
unixのコマンドでは、
join 対象データ マップ用データ
で実現できる。
1.の工程における出力の一部を以下に示す。
(第1染色体の916010の部位のGからTへの変異の確認用データセットの一部)(上からそれぞれ配列番号98~109)
本明細書に記載される方法における確認工程において、本実施例の方法を用いることで、二分探索法を用いた場合と比較して、格段に高速で解析して結果を得ることができる。二分探索法では、毎回の探索でディスクに対するランダムアクセスが発生するため、SSDを用いた場合格段に効率が上がる。理論に拘束されることを望むものではないが、これに対して、本実施例に記載されるJoin法は、ファイルの最初からデータを順に読んで(シーケンシャルリード)比較するため、SSDを用いず通常のHDDで計算しても、さほど効率は低下しないという利点もある。
本出願は、2017年7月24日に出願された特願2017-142782号の優先権の利益を主張し、当該出願は、全ての目的において、その開示全体が本明細書において参考として援用される。さらに、本明細書において、本出願人により本出願と同日に出願された「多型検出法」との名称の出願(整理番号NG011PCT/F5-18PCT074)およびその基礎出願である2017年7月24日に出願された特願2017-142781号(整理番号J1-17369129)は、全ての目的において、その開示全体が本明細書において参考として援用される。
配列番号17~24:実施例5で用いられたヒト塩基配列
配列番号25~39:実施例A1で用いられたヒト塩基配列
配列番号40~80:実施例B1で用いられたヒト塩基配列
配列番号81~97:実施例B2で用いられたヒト塩基配列
配列番号98~118:実施例C1で用いられたヒト塩基配列
Claims (43)
- 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、方法。 - 前記コントロール配列データが、リファレンス配列データである、請求項1に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが塩基配列データである、請求項1または2に記載の方法。
- 前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項1~3のいずれか1項に記載の方法。
- 前記多型が、挿入、欠失、逆位、転座、または置換である、請求項1~4のいずれか1項に記載の方法。
- 目的とする多型があると判定する前記工程が、
前記部分配列が、前記コントロール配列の異なる配列構造体上に存在する場合、転座が生じていると判定すること、
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、かつ、向きが前記対象配列データ上のものと異なっている場合、逆位が存在すると判定すること、
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より短い場合、欠失が存在すると判定すること、および/または
該部分配列が、該コントロール配列の同一の配列構造体上に存在し、向きが該対象配列データ上のものと同一であり、該部分配列の距離が、該コントロール配列上で該対象配列データ上の距離より長い場合、挿入が存在すると判定すること
を含む、請求項5に記載の方法。 - 前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合、目的とする多型はないと判定することを含む、請求項1~6のいずれか1項に記載の方法。
- 前記対象配列データにおける前記部分配列間の位置関係と、前記コントロール配列上の該部分配列間の位置関係とが異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定することを含む、請求項1~6のいずれか1項に記載の方法。
- 前記対象配列データにおける前記部分配列部位間の文字を、対応する前記コントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する前記工程が、
対象配列データにおける下流側の前記部分配列の部分から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで上流側へ一致する文字を探索することと、
対象配列データにおける上流側の前記部分配列から、コントロール配列における対応する位置の文字と一致しない文字が検出されるまで下流側へ一致する文字を探索することとを含む、請求項1~8のいずれか1項に記載の方法。 - 前記一致する文字を探索することが、1文字ずつの探索である、請求項9に記載の方法。
- 一致しない文字が検出された場合に、さらに、その先の文字が一致するか探索する工程を含む、請求項9または10に記載の方法。
- 一致しない文字の先の文字が一致するか探索した際に、
その先の2~10文字において40%以上の文字が不一致である場合に、検出された一致しない前記文字を多型の境界部分として特定し、
それ以外の場合に、一致しない前記文字を無視して一致する文字の探索を継続する、請求項11に記載の方法。 - 一致しない文字の先5文字の間に2文字以上の不一致が検出された場合、検出された一致しない前記文字を多型の境界部分として特定する、請求項12に記載の方法。
- 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムであって、該方法は、
a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、プログラム。 - 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法は、
a)対象配列データおよびコントロール配列データをコンピュータに保存する工程と、
b)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、記録媒体。 - 対象配列データにおいてコントロール配列データに対する多型を検出するためのシステムであって、該システムは、
対象配列データおよびコントロール配列データをコンピュータに提供するように構成された、配列データ提供部と、
a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
d)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
を行うように構成された、配列データ計算部と
を備え、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、システム。 - 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
a)対象配列データの配列中の少なくとも2ヶ所の部分配列の、コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、該対象配列データとコントロール配列を整列させる工程であって、
対象配列データと、第1の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
対象配列データと、第2の部分配列の位置が一致するようにコントロール配列を整列させる、工程と
を包含し、該比較する工程は、該対象配列データに対して、該コントロール配列データを双方向から整列させることを含む、方法。 - 前記コントロール配列データが、リファレンス配列データである、請求項17に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが塩基配列データである、請求項17または18に記載の方法。
- 前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項17~19のいずれか1項に記載の方法。
- 前記多型が、挿入、欠失、逆位、転座、または置換である、請求項17~20のいずれか1項に記載の方法。
- 前記整列させる工程が、整列の結果を表示することを含む、請求項17~21のいずれか1項に記載の方法。
- 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、請求項22に記載の方法。 - 対象配列のコントロール配列上の位置を決定する方法であって、
a)コントロール配列中の複数のk長の部分配列について、配列およびコントロール配列中の位置を出力する工程と、
b)対象配列中の複数のk長の部分配列について、配列および対象配列中の位置を出力する工程と、
c)a)およびb)で得られた配列を比較し、同一の部分配列に対応するコントロール配列中の位置と対象配列中の位置とを対応付ける工程と
を含み、ここで、kは、対象配列の長さを超えない長さであり、該対応付ける工程は、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。 - 前記コントロール配列データが、リファレンス配列データである、請求項24に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが塩基配列データである、請求項24または25に記載の方法。
- 前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項24~26のいずれか1項に記載の方法。
- 前記対象配列データと前記コントロール配列を整列させる工程であって、
対象配列データと、対象配列の第1の部分配列の位置が一致するようにコントロール配列を整列させ、かつ
対象配列データと、対象配列の第2の部分配列の位置が一致するようにコントロール配列を整列させる、工程をさらに包含する、請求項24~27のいずれか1項に記載の方法。 - 前記整列させる工程が、整列の結果を表示することを含む、請求項24~28のいずれか1項に記載の方法。
- 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、請求項29に記載の方法。 - 前記整列に基づき、前記対象配列データにおける前記コントロール配列データに対する多型を検出する工程をさらに包含する、請求項28~30のいずれか1項に記載の方法。
- コントロール配列に対して変異が存在することが疑われる対象配列の変異を確認する方法であって、
a)対象配列のL長の部分配列データのセットと、コントロール配列のL’長の部分配列データのセットを提供する工程と、
b)リファレンス配列中の変異が存在することが疑われる部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および/または転座に関する情報と、対象配列のL長、または、コントロール配列のL’長配列のいずれに対応するかの表示と、変異を含まないものであることの表示のセットを提供する工程であって、LとL’が異なる場合、複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとが提供される、工程と、
c)リファレンス配列中の変異が存在することが疑われる部分を変異した文字に変換した部分を含む複数の部分配列と、該部分配列の位置情報と、置換、挿入、欠失、逆位および/または転座に関する情報と、対象配列のL長、または、コントロール配列のL’長配列のいずれに対応するかの表示と、変異を含むものであることの表示のセットを提供する工程であって、LとL’が異なる場合、複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとが提供される、工程と、
d)b)およびc)で得られた複数のL長の部分配列を含むセットと、複数のL’長の部分配列を含むセットとを辞書順にソートする工程と、
e)対象配列のL長の部分配列データのセットと、該辞書順にソートしたL長の部分配列とを比較し、対象配列のL長の部分配列データのセット中に存在する辞書順にソートしたL長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
f)コントロール配列のL’長の部分配列データのセットと、該辞書順にソートしたL’長の部分配列とを比較し、対象配列のL’長の部分配列データのセット中に存在する辞書順にソートしたL’長の部分配列に対応する、変異を含まないものであることの表示と、変異を含むものであることの表示を計数する工程と
を含み、
ここで、Lは、該対象配列の全長以下の整数であり、L’は、該コントロール配列の全長以下の整数である、方法。 - 前記対象配列および前記コントロール配列が塩基配列である、請求項32に記載の方法。
- 前記対象配列データが、次世代シーケンシングによって得られた配列データである、請求項32または33に記載の方法。
- 前記コントロール配列が、次世代シーケンシングによって得られた配列データである、請求項32~34のいずれか1項に記載の方法。
- 前記コントロール配列が、リファレンス配列であり、前記L’長の部分配列データのセットが、リファレンス配列のL’長の部分配列の集合である、請求項32~35のいずれか1項に記載の方法。
- 前記変異が、挿入、欠失、逆位、転座、または置換である、請求項32~36のいずれか1項に記載の方法。
- コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中の少なくとも2ヶ所の部分配列と同一の少なくとも2ヶ所の部分配列を含み、
コントロール配列を、第1の部分配列の位置が一致するように対象配列と整列させることと、
コントロール配列を、第2の部分配列の位置が一致するように対象配列と整列させることと
を含み、前記整列させることは、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。 - 前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型が表現される、請求項38に記載の方法。
- 対象配列データの上側に、対象配列の第1の部分配列の位置が一致するようにコントロール配列が表示され、
対象配列データの下側に、対象配列の第2の部分配列の位置が一致するようにコントロール配列が表示される、請求項38または39に記載の方法。 - 前記比較により、前記対象配列データにおける前記コントロール配列データに対する多型部位と多型でない部位の境界が表現される、請求項38~40のいずれか1項に記載の方法。
- コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中の少なくとも2ヶ所の部分配列と同一の少なくとも2ヶ所の部分配列を含み、
対象配列中の多型に対し、
コントロール配列を第1の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と、
コントロール配列を第2の部分配列の位置が一致するように対象配列と整列させた場合に不一致となるコントロール配列上の位置と
を識別子として割り当てることを含み、該対象配列と該コントロール配列との整列は、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。 - コントロール配列と対象配列との比較方法であって、
コントロール配列は、対象配列中のNヶ所の部分配列と同一のNヶ所の部分配列を含み、ここで、Nは2以上の整数であり、
1≦n≦Nである整数nのそれぞれについて、コントロール配列を、第nの部分配列の位置が一致するように対象配列と整列させることを含み、該対象配列と該コントロール配列との整列は、該対象配列に対して、該コントロール配列を双方向から整列させることを含む、方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017142782 | 2017-07-24 | ||
JP2017142782 | 2017-07-24 | ||
PCT/JP2018/027536 WO2019022019A1 (ja) | 2017-07-24 | 2018-07-23 | 挿入・欠失・逆位・転座・置換検出法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019022019A1 JPWO2019022019A1 (ja) | 2020-05-28 |
JP7122006B2 true JP7122006B2 (ja) | 2022-08-19 |
Family
ID=65039676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019532604A Active JP7122006B2 (ja) | 2017-07-24 | 2018-07-23 | 挿入・欠失・逆位・転座・置換検出法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7122006B2 (ja) |
TW (1) | TW201921277A (ja) |
WO (1) | WO2019022019A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009057757A1 (ja) | 2007-10-31 | 2009-05-07 | National Institute Of Agrobiological Sciences | 塩基配列決定プログラム、塩基配列決定装置および塩基配列決定方法 |
WO2014132497A1 (ja) | 2013-02-28 | 2014-09-04 | 株式会社日立ハイテクノロジーズ | データ解析装置、及びその方法 |
JP2016103999A (ja) | 2014-11-05 | 2016-06-09 | アジレント・テクノロジーズ・インクAgilent Technologies, Inc. | ゲノム位置に標的濃縮配列リードを割り当てるための方法 |
-
2018
- 2018-07-23 TW TW107125395A patent/TW201921277A/zh unknown
- 2018-07-23 WO PCT/JP2018/027536 patent/WO2019022019A1/ja active Application Filing
- 2018-07-23 JP JP2019532604A patent/JP7122006B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009057757A1 (ja) | 2007-10-31 | 2009-05-07 | National Institute Of Agrobiological Sciences | 塩基配列決定プログラム、塩基配列決定装置および塩基配列決定方法 |
WO2014132497A1 (ja) | 2013-02-28 | 2014-09-04 | 株式会社日立ハイテクノロジーズ | データ解析装置、及びその方法 |
JP2016103999A (ja) | 2014-11-05 | 2016-06-09 | アジレント・テクノロジーズ・インクAgilent Technologies, Inc. | ゲノム位置に標的濃縮配列リードを割り当てるための方法 |
Non-Patent Citations (2)
Title |
---|
宮尾安藝雄他,ゲノムワイドSNPマップの比較によるイネ品種のセグメント解析,第39回日本分子生物学会年会,2016年11月16日,2P-0022 |
石井一夫他,1.構造変異の同定,ゲノム情報解析-次世代シーケンサーの最新の方法と応用-,2016年03月18日,p.2-25 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019022019A1 (ja) | 2020-05-28 |
TW201921277A (zh) | 2019-06-01 |
WO2019022019A1 (ja) | 2019-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Coster et al. | Towards population-scale long-read sequencing | |
Kim et al. | Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype | |
Minnoye et al. | Chromatin accessibility profiling methods | |
US20240153584A1 (en) | Systems and methods for analyzing sequence data | |
NZ759659A (en) | Deep learning-based variant classifier | |
Hunter et al. | Assembly by Reduced Complexity (ARC): a hybrid approach for targeted assembly of homologous sequences | |
Kuster et al. | ngsComposer: an automated pipeline for empirically based NGS data quality filtering | |
JP2022549823A (ja) | キットおよびキットの使用方法 | |
JP7122006B2 (ja) | 挿入・欠失・逆位・転座・置換検出法 | |
JP7166638B2 (ja) | 多型検出法 | |
KR20190000341A (ko) | 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법 | |
Peretz-Machluf et al. | Genome-wide noninvasive prenatal diagnosis of de novo mutations | |
Knudsen et al. | Accurate and fast methods to estimate the population mutation rate from error prone sequences | |
WO2023070422A1 (zh) | 疾病预测方法及装置、电子设备、计算机可读存储介质 | |
US20170226588A1 (en) | Systems and methods for dna amplification with post-sequencing data filtering and cell isolation | |
Teng | NGS for Sequence Variants | |
KR102110017B1 (ko) | 분산 처리에 기반한 miRNA 분석 시스템 | |
CN110997936B (zh) | 基于低深度基因组测序进行基因分型的方法、装置及其用途 | |
Marić et al. | Approaches to metagenomic classification and assembly | |
Husin | Identification of Novel Transcripts and Exons by RNA-Seq of Transcriptome in Durio zibethinus Murr | |
Xie et al. | Filtering out redundant sites to alleviate the p>> n problem in genomic selection | |
CN117561573A (zh) | 从碱基判读错误模式自动鉴定核苷酸测序中的故障来源 | |
Sánchez | Practical Transcriptomics: Differential gene expression applied to food production | |
Attimonelli et al. | Bioinformatics resources, databases, and tools for human mtDNA | |
WO2023097278A1 (en) | Sample contamination detection of contaminated fragments for cancer classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210304 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220725 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220801 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7122006 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |