JP7166638B2 - 多型検出法 - Google Patents
多型検出法 Download PDFInfo
- Publication number
- JP7166638B2 JP7166638B2 JP2019532603A JP2019532603A JP7166638B2 JP 7166638 B2 JP7166638 B2 JP 7166638B2 JP 2019532603 A JP2019532603 A JP 2019532603A JP 2019532603 A JP2019532603 A JP 2019532603A JP 7166638 B2 JP7166638 B2 JP 7166638B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- sequence data
- length
- data
- polymorphism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Description
(項目1) 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
a)該対象配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
b)該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
c)対象配列とコントロール配列とを比較し、該出現頻度の分布の比較に基づいて、多型を検出する工程と
を包含し、ここで、kは該対象配列および該コントロール配列のいずれか短いほうの全長以下の整数である、方法。
(項目2) 前記部分配列中の長さk-xの配列部分が共通する配列ごとに、長さxの部分について出現頻度の分布を算出する工程をさらに含み、ここで、xはk未満の正の整数である、前記項目に記載の方法。
(項目3) 前記比較が、前記部分配列中の長さk-xの配列部分が共通する配列における、長さxの部分の出現頻度の分布の差異の比較を含む、前記項目のいずれかに記載の方法。
(項目4) 前記部分配列中の長さk-xの配列部分を、ユニークな配列ごとにグルーピングする工程を含み、ここで、xはk未満の正の整数である、前記項目のいずれかに記載の方法。
(項目5) 前記長さk-xの配列部分をソートする工程を含む、前記項目のいずれかに記載の方法。
(項目6) 前記長さk-xの配列部分を文字列としてソートする工程を含む、前記項目のいずれかに記載の方法。
(項目7) 前記kが、前記対象配列における偶然同一を排除する長さである、前記項目のいずれかに記載の方法。
(項目8) 前記対象配列データおよび前記コントロール配列データが、生物のゲノムに由来する塩基配列データであり、前記kが、前記生物のゲノムにおいて、異なる箇所での偶然同一を排除する長さである、前記項目のいずれかに記載の方法。
(項目9) 長さxが1~2である、前記項目のいずれかに記載の方法。
(項目10) 長さxが1である、前記項目のいずれかに記載の方法。
(項目11) 前記長さxの部分が、前記部分配列の末端に存在する、前記項目のいずれかに記載の方法。
(項目12) 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、前記長さxの部分が、前記部分配列の3’末端である、前記項目のいずれかに記載の方法。
(項目13) 前記コントロール配列データのサブセットと前記対象配列データのサブセットとの間で、前記長さxの部分の配列の出現頻度が異なる場合、該長さxの部分の配列を、対象配列データにおけるコントロール配列データに対する多型として検出する、前記項目のいずれかに記載の方法。
(項目14) 前記コントロール配列データのサブセットと前記対象配列データのサブセットとの間で、前記長さxの部分の配列で最も高頻度のものが異なっている長さk-xの配列部分が存在する場合、該長さxの部分の配列を、対象配列データにおける多型として検出する、前記項目のいずれかに記載の方法。
(項目15) 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、前記対象配列データのサブセットにおける前記長さxの部分の配列で、前記コントロール配列データのサブセットにおける最も高頻度のものと同一の長さxの部分の配列がノイズ以下のカウントしか存在しない長さk-xの配列部分が存在する場合、該長さxの部分の配列を、対象配列データにおけるホモ多型として検出する、前記項目のいずれかに記載の方法。
(項目16) 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、対象サブセットにおける前記長さxの部分の配列で、コントロール配列データのサブセットにおける最も高頻度のものと同一の長さxの部分の配列が存在し、かつ、コントロール配列データのサブセットにおける最も高頻度のものと異なる長さxの部分の配列が存在する長さk-xの配列部分が存在する場合、該長さxの部分の配列を、対象配列データにおけるヘテロ多型として検出する、前記項目のいずれかに記載の方法。
(項目17) 対象配列データ量から予測される出現頻度と比較して、前記出現頻度が少ない部分配列をノイズとする、前記項目のいずれかに記載の方法。
(項目18) 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、[(対象配列データ量)×(1-精度)]/(対象ゲノムサイズ)+1未満の出現頻度の部分配列をノイズとする、前記項目のいずれかに記載の方法。
(項目19) 前記対象配列データが、次世代シーケンシングによって得られた塩基配列データである、前記項目のいずれかに記載の方法。
(項目20) 前記対象配列データが、個体から得られた配列データであり、前記コントロール配列データが、該個体と同種の別の個体、またはデータベースから得られた配列データである、前記項目のいずれかに記載の方法。
(項目21) 前記対象配列データが、個体の組織試料から得られた配列データであり、前記コントロール配列データが、該個体の別の組織、またはデータベースから得られた配列データである、前記項目のいずれかに記載の方法。
(項目22) 前記対象配列データが、細胞試料から得られた配列データであり、前記コントロール配列データが、別の細胞、またはデータベースから得られた配列データである、前記項目のいずれかに記載の方法。
(項目23) 前記多型が、置換、挿入、欠失、コピー数多型(Copy Number Variation, CNV)、STRP(short tandem repeat polymorphism)、逆位または転座である、前記項目のいずれかに記載の方法。
(項目24) 前記多型が、置換である、前記項目のいずれかに記載の方法。
(項目25) 前記対象配列に対するリファレンス配列における前記多型の位置を特定する工程をさらに含む、前記項目のいずれかに記載の方法。
(項目26) 前記対象配列データおよび前記コントロール配列データが、生物のゲノムに由来する塩基配列データであり、前記多型のゲノム上の位置を特定する工程をさらに含む、前記項目のいずれかに記載の方法。
(項目27) 検出された多型の部位について、リファレンス配列またはコントロール配列から作成したクエリ配列セットを用いて、対象配列データおよび/またはコントロール配列データとの比較を行い確認する工程をさらに含む、前記項目のいずれかに記載の方法。
(項目28) 前記クエリ配列セットが、リファレンス配列またはコントロール配列において前記多型に該当する部位の文字を異なる文字に置換した変異型クエリ配列セットを含む、前記項目のいずれかに記載の方法。
(項目29) 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、検出された多型の部位について、対象配列データおよび/またはコントロール配列データの相補鎖の配列データに対して、リファレンス配列またはコントロール配列から作成したクエリ配列セットとの比較を行い確認する工程をさらに含む、前記項目のいずれかに記載の方法。
(項目30) 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、検出された多型の部位について、対象配列データおよび/またはコントロール配列データの変異型の塩基を有する配列データに対して、リファレンス配列またはコントロール配列から作成したクエリ配列セットとの比較を行い確認する工程をさらに含む、前記項目のいずれかに記載の方法。
(項目31) 前記対象配列データおよび前記コントロール配列データが、生物のゲノムに由来する塩基配列データであり、前記ゲノムの配列が不明である、前記項目のいずれかに記載の方法。
(項目32) 実験結果またはデータベースから対象配列データまたはコントロール配列データを取得する工程をさらに含む、前記項目のいずれかに記載の方法。
(項目X1) 対象配列データにおけるコントロール配列データに対する多型を含む部分配列中の多型ではない部分の少なくとも一部を含む配列を、該多型の識別子として割り当てることをさらに含む、前記項目のいずれか1項に記載の方法。
(項目X2) 前記多型の識別子をリファレンス配列にマッピングし、リファレンス上の該多型の位置を特定することを含む、前記項目のいずれかに記載の方法。
(項目33) 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムであって、該方法は、
a)該対象配列データの長さkの部分配列のサブセットをコンピュータに保存する工程であって、ここで、kは対象配列およびコントロール配列の全長以下の長さである、工程と、
b)該対象配列データの長さkのサブセットの各々の部分配列の出現頻度を算出する工程と、
c)該コントロール配列データの長さkの部分配列のサブセットにおける各々の部分配列の出現頻度をコンピュータに保存する工程と、
d)対象配列とコントロール配列とを比較し、該出現頻度の分布の差異に基づいて、多型を検出する工程と
を包含する、プログラム。
(項目33A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載のプログラム。
(項目34) 前記方法が、前記部分配列中の多型ではない部分の少なくとも一部を含む配列(前記部分配列全体であり得る。)を、検出された前記多型の名称として表示する工程をさらに含む、前記項目のいずれかに記載のプログラム。
(項目35) 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法は、
a)該対象配列データの長さkの部分配列のサブセットをコンピュータに保存する工程であって、ここで、kは対象配列およびコントロール配列の全長以下の長さである、工程と、
b)該対象配列データの長さkのサブセットの各々の部分配列の出現頻度を算出する工程と、
c)該コントロール配列データの長さkの部分配列のサブセットにおける各々の部分配列の出現頻度をコンピュータに保存する工程と、
d)対象配列とコントロール配列とを比較し、該出現頻度の分布の差異に基づいて、多型を検出する工程と
を包含する、記録媒体。
(項目35A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の記録媒体。
(項目36) 前記方法が、前記部分配列中の多型ではない部分の少なくとも一部を含む配列(前記部分配列全体であり得る。)を、検出された前記多型の名称として表示する工程をさらに含む、前記項目のいずれかに記載の記録媒体。
(項目37) 対象配列データにおいてコントロール配列データに対する多型を検出するためのシステムであって、該システムは、
該対象配列データおよび該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供するように構成された配列データ処理部であって、ここで、kは対象配列およびコントロール配列の全長以下の長さである、配列データ処理部と、
対象配列とコントロール配列とを比較し、該出現頻度の分布の差異に基づいて、多型を検出する工程とを行うように構成された、配列データ計算部と
を備える、システム。
(項目37A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載のシステム。
(項目38) 前記システムが、前記部分配列中の多型ではない部分の少なくとも一部を含む配列(前記部分配列全体であり得る。)を、検出された前記多型の名称として表示する表示手段をさらに含む、前記項目のいずれかに記載のシステム。
(項目39) 対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
(1)a)該対象配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
b)該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
c)対象配列とコントロール配列とを比較し、該出現頻度の分布の比較に基づいて、多型を検出する工程と
によって、対象配列データにおける置換、コピー数多型、STRP、挿入、欠失、逆位または転座を検出するプロセスと、
(2)a)該対象配列データの配列中の少なくとも2ヶ所の部分配列の、該コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
によって、対象配列データにおける挿入、欠失、逆位、転座または置換を検出するプロセスと
を包含する、方法。
(項目39A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目40) 対象配列データにおいてリファレンス配列データに対する多型を検出する方法であって、リファレンス配列データから、各々の位置情報と関連付けられたリファレンス配列のk長の部分配列セットを作成する工程を含み、さらに、
(A1)該対象配列データの長さkの部分配列のサブセットを生成し、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A2)該リファレンス配列のk長の部分配列セットの、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A3)該対象配列と該リファレンス配列とを比較し、該出現頻度の分布の比較に基づいて、挿入、欠失、置換、コピー数多型、STRP、逆位または転座を検出する工程とを包含するプロセスと
(B1)該対象配列データの配列中の少なくとも2ヶ所のk長の部分配列をクエリとして、該リファレンス配列のk長の部分配列セットに対して検索を行い、該少なくとも2ヶ所の部分配列の、リファレンス配列上の位置を特定する工程と、
(B2)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とを比較する工程と、
(B3)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とが異なっている場合、挿入、欠失、逆位または転座があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程を包含し、必要に応じて、
(B4)該位置関係が異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定する工程をさらに含む、プロセスと、
を、同時に、並行して、または逐次的に行うことを特徴とする、方法。
(項目40A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目A1) 対象配列データとコントロール配列データとの比較方法であって、
対象配列データにおけるコントロール配列データに対する多型を含む部分配列中の多型ではない部分の少なくとも一部を含む配列を、該多型の識別子として割り当てることを含む、方法。
(項目A1A) 前記項目のいずれか1つまたは複数に記載される特徴を有する、前記項目に記載の方法。
(項目A2) 前記多型の識別子をリファレンス配列にマッピングし、リファレンス上の該多型の位置を特定することを含む、前記項目のいずれかに記載の方法。
以下に本明細書において特に使用される用語の定義および/または基本的技術内容を適宜説明する。
以下に本発明の好ましい実施形態を説明する。以下に提供される実施形態は、本発明のよりよい理解のために提供されるものであり、本発明の範囲は以下の記載に限定されるべきでないことが理解される。従って、当業者は、本明細書中の記載を参酌して、本発明の範囲内で適宜改変を行うことができることは明らかである。また、本発明の以下の実施形態は単独でも使用されあるいはそれらを組み合わせて使用することができることが理解される。
本発明は、対象配列データにおいてコントロール配列データに対する多型を検出する方法を提供する。この方法は、a)該対象配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、b)該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、c)対象配列とコントロール配列とを比較し、該出現頻度の分布の比較に基づいて、多型を検出する工程とを包含し、ここで、kは該対象配列および該コントロール配列のいずれか短いほうの全長以下の整数である、方法を提供する。本発明の例示的なフローは図16に説明されている。
のように実装することができ、(文字列で)ソートされた配列と頻度を示す数値のデータを生成することができる。さらに、対象とコントロールの頻度データを同一k-merでまとめる際に、例えば、Unixではjoinコマンド等を使用して行うことが可能である。
例えば、
AAACCACTTCACGTTTCCA A
AAACCACTTCACGTTTCCA G
という多型の例では、
AAACCACTTCACGTTTCCAのA型
AAACCACTTCACGTTTCCAのG型
AAACCACTTCACGTTTCCAのA/Gのヘテロ型
という表現が記載の一例である。
多型を含めた表記の仕方の例としては、
AAACCACTTCACGTTTCCAA型、
AAACCACTTCACGTTTCCAG型、
そして、ヘテロ型は、
AAACCACTTCACGTTTCCAA/AAACCACTTCACGTTTCCAG
のように、2つの型を併記することが可能である。
a)該対象配列データの長さkの部分配列のサブセットをコンピュータに保存する工程であって、ここで、kは対象配列およびコントロール配列の全長以下の長さである、工程と、
b)該対象配列データの長さkのサブセットの各々の部分配列の出現頻度を算出する工程と、
c)該コントロール配列データの長さkの部分配列のサブセットにおける各々の部分配列の出現頻度をコンピュータに保存する工程と、
d)対象配列とコントロール配列とを比較し、該出現頻度の分布の差異に基づいて、多型を検出する工程と
を包含する、プログラムが提供される。さらなる実施形態において、上記方法が、前記部分配列中の多型ではない部分の少なくとも一部を含む配列(前記部分配列全体であり得る)を、検出された前記多型の名称として表示する工程をさらに含む、プログラムが提供される。
a)該対象配列データの長さkの部分配列のサブセットをコンピュータに保存する工程であって、ここで、kは対象配列およびコントロール配列の全長以下の長さである、工程と、
b)該対象配列データの長さkのサブセットの各々の部分配列の出現頻度を算出する工程と、
c)該コントロール配列データの長さkの部分配列のサブセットにおける各々の部分配列の出現頻度をコンピュータに保存する工程と、
d)対象配列とコントロール配列とを比較し、該出現頻度の分布の差異に基づいて、多型を検出する工程と
を包含する、記録媒体が提供される。さらなる実施形態において、方法が、前記部分配列中の多型ではない部分の少なくとも一部を含む配列(前記部分配列全体であり得る)を、検出された前記多型の名称として表示する工程をさらに含む、記録媒体が提供される。
該対象配列データおよび該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供するように構成された配列データ処理部であって、ここで、kは対象配列およびコントロール配列の全長以下の長さである、配列データ処理部と、
対象配列とコントロール配列とを比較し、該出現頻度の分布の差異に基づいて、多型を検出する工程とを行うように構成された、配列データ計算部と
を備える、システムが提供される。さらなる実施形態において、前記部分配列中の多型ではない部分の少なくとも一部を含む配列前記部分配列全体であり得る)を、検出された前記多型の名称として表示する表示手段をさらに含む、システムが提供される。
本発明の例示的な実施形態は、以下のような工程による方法である。
(上記例において、1行目から各々配列番号191~201である。)
(上記例において、1行目から各々配列番号212~220である。)
(20塩基の頻度データを最初の19塩基と最後のACGTの塩基の頻度一覧に変換する。)
(上記例において、1行目から各々配列番号213、215、217、および218である。)
1つの実施形態において、本発明の1つの特徴は、対象配列データにおけるコントロール配列データに対する多型の検出において、該対象配列データの長さkの部分配列のサブセット、または該部分配列のサブセットの各々の部分配列の出現頻度を用いることである。ここで、kは対象配列およびコントロール配列のいずれか短いほうの全長以下の整数である。
1つの実施形態において、本発明の方法は、対象配列データおよび/またはコントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程を含む。
1つの実施形態では、本発明の方法は、k長の部分配列中の長さk-xの配列部分が共通する配列ごとに、長さxの部分について出現頻度の分布を算出することを特徴とする。xはk未満の正の整数である。長さkの全長ではなく、k-merの一部(x長の部分)の文字の差異を見ることによって、計算量を顕著に減少させることが可能である。長さxは、限定されるものではないが、好ましくは1~2であり、より好ましくは1である。
出現頻度の分布の差異の比較により、例えば、以下のような多型の検出が可能である。
のコマンドでk-1配列とcontrolとtargetを1行にまとめた頻度を出力することによって行うことができる。この出力結果の各行を調べる条件としては、限定されるものではないが、control、targetの両方でカウントが1塩基以下の塩基が2個以上存在し、controlあるいはtargetで10以上のカウントを示した塩基に対応するtargetあるいはcontrolの塩基のカウントが1以下である事例が1ないし2回ある場合、多型の境界を検出したとすることができる。
本発明の対象配列、コントロール配列および/またはリファレンス配列としては、多型が生じ得る任意の配列を用いることができる。なお、コントロール配列として、リファレンス配列を用いることが可能である。代表的な実施形態では、対象配列、コントロール配列および/またはリファレンス配列は、生物学的配列であり、例えば、塩基配列(DNA、RNA、およびそれらのアナログ等の配列が包含される)、アミノ酸配列、または糖鎖配列等である。生物学的配列の例としては、例えば、ゲノム配列、染色体配列、遺伝子配列、プラスミド配列、エクソン配列、タンパク質配列等が挙げられる。
本発明の方法は、例えば、置換、挿入、欠失、コピー数変異、STRP(short tandem repeat polymorphism)、逆位または転座等の多型の検出に用いることができる。変異のエッジの部分が検出されるため、挿入・欠失の結果、長さxの配列に違いがあればそのエッジ部分を検出することができる。k-mer内に収まりきる場合であれば、STRP(short tandem repeat polymorphism)を検出することも可能である。STR(short tandem repeat)は、マイクロサテライトとも称され、2~7塩基からなる配列が2~数十回反復するもので、この回数に多型が見られる。部分配列の出現頻度によって、コピー数多型(CNV)を検出することもできる。エッジ検出という観点からは、逆位、転座のエッジも検出することが可能である。
対象配列に対するリファレンス配列が存在する場合、本発明の方法は、対象配列に対するリファレンス配列における前記多型の位置を特定する工程をさらに含むことができる。例えば、対象配列データおよびコントロール配列データが、生物のゲノムに由来する塩基配列データである場合、多型のゲノム上の位置を特定する工程をさらに含むことができる。この位置の特定は、本発明の方法が、多型を周囲の配列と関連づけて検出する(例えば、x長部分の多型がk-x長の配列と関連付けられる)ことを可能にしているため、リファレンス配列に対して検索を行うことにより、簡便に行うことが可能である。
本発明の方法は、検出した多型について確認する工程をさらに含むことができる。確認は、例えば、検出された多型の部位について、リファレンス配列またはコントロール配列から作成したクエリ配列セットを用いて、対象配列データおよび/またはコントロール配列データとの比較を行うことによって行うことができる。クエリ配列セットは、リファレンス配列またはコントロール配列において前記多型に該当する部位の文字を異なる文字に置換した変異型クエリ配列セット、および/またはリファレンス配列またはコントロール配列において前記多型に該当する部位の文字を置換していない野生型クエリ配列セットを含み得る。
1つの局面において、本発明は、本発明の多型を検出する方法をコンピュータに実施させるための方法を実装するプログラム、該プログラムを記録した記録媒体、およびこれを実現するためのシステムを提供する。ここで採用され得る任意の特徴は本明細書の多型を検出する方法の説明に記載される任意の特徴またはその組み合わせを採用することができる。
a)該対象配列データの長さkの部分配列のサブセットをコンピュータに保存する工程であって、ここで、kは対象配列およびコントロール配列の全長以下の長さである、工程と、
b)該対象配列データの長さkのサブセットの各々の部分配列の出現頻度を算出する工程と、
c)該コントロール配列データの長さkの部分配列のサブセットにおける各々の部分配列の出現頻度をコンピュータに保存する工程と、
d)対象配列とコントロール配列とを比較し、該出現頻度の分布の差異に基づいて、多型を検出する工程と
を包含する、プログラムが提供される。さらなる実施形態において、方法が、前記部分配列中の多型ではない部分の少なくとも一部を含む配列(前記部分配列全体であり得る)を、検出された前記多型の名称として表示する工程をさらに含む、プログラムが提供される。プログラムはどのような言語で記述されてもよい。
a)該対象配列データの長さkの部分配列のサブセットをコンピュータに保存する工程であって、ここで、kは対象配列およびコントロール配列の全長以下の長さである、工程と、
b)該対象配列データの長さkのサブセットの各々の部分配列の出現頻度を算出する工程と、
c)該コントロール配列データの長さkの部分配列のサブセットにおける各々の部分配列の出現頻度をコンピュータに保存する工程と、
d)対象配列とコントロール配列とを比較し、該出現頻度の分布の差異に基づいて、多型を検出する工程と
を包含する、記録媒体が提供される。さらなる実施形態において、方法が、前記部分配列中の多型ではない部分の少なくとも一部を含む配列(前記部分配列全体であり得る)を、検出された前記多型の名称として表示する工程をさらに含む、記録媒体が提供される。プログラムはどのような言語で記述されてもよい。1つの実施形態では、記録媒体は、内部に格納され得るROMやHDD、磁気ディスク、USBメモリ等のフラッシュメモリなどの外部記憶装置でありうる。
本発明は、例えば、以下のフローにおいて実施することができる。
k-1merの配列 Aの回数 Cの回数 Gの回数 Tの回数
という形式で出力される。
本明細書において、上述のとおり置換、コピー数多型、STRP、挿入、欠失、逆位または転座を検出するのに有用な方法を記載しているが、かかるプロセスは、置換、挿入、欠失、逆位または転座を検出するのに有用な以下に記載するプロセスと組み合わせて行うことができる。例えば、組み合わせた方法は、図18に示されるようなフローに従って実行することが可能である。
対象配列データにおいてコントロール配列データに対する多型を検出する方法であって、
(1)a)該対象配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
b)該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
c)対象配列とコントロール配列とを比較し、該出現頻度の分布の比較に基づいて、多型を検出する工程と
によって、対象配列データにおける置換、コピー数多型、STRP、挿入、欠失、逆位または転座を検出するプロセスと、
(2)a)該対象配列データの配列中の少なくとも2ヶ所の部分配列の、該コントロール配列上の位置を特定する工程と、
b)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とを比較する工程と、
c)対象配列データにおける該部分配列間の位置関係と、コントロール配列上の該部分配列間の位置関係とが異なっている場合、目的とする多型があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程と
によって、対象配列データにおける挿入、欠失、逆位、転座または置換を検出するプロセスと
を包含する、方法が提供される。
対象配列データにおいてリファレンス配列データに対する多型を検出する方法であって、リファレンス配列データから、各々の位置情報と関連付けられたリファレンス配列のk長の部分配列セットを作成する工程を含み、さらに、
(A1)該対象配列データの長さkの部分配列のサブセットを生成し、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A2)該リファレンス配列のk長の部分配列セットの、ユニークな長さkの部分配列の出現頻度を提供する工程と、
(A3)該対象配列と該リファレンス配列とを比較し、該出現頻度の分布の比較に基づいて、挿入、欠失、置換、コピー数多型、STRP、逆位または転座を検出する工程とを包含するプロセスと
(B1)該対象配列データの配列中の少なくとも2ヶ所のk長の部分配列をクエリとして、該リファレンス配列のk長の部分配列セットに対して二分検索を行い、該少なくとも2ヶ所の部分配列の、リファレンス配列上の位置を特定する工程と、
(B2)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とを比較する工程と、
(B3)該対象配列データにおける該部分配列間の位置関係と、該リファレンス配列上の該部分配列間の位置関係とが異なっている場合、挿入、欠失、逆位または転座があると判定し、該対象配列データにおける該部分配列部位間の文字を、対応するコントロール配列上の文字と、該部分配列部位を始点として順次比較して不一致となる部位を検出する工程を包含し、必要に応じて、
(B4)該位置関係が異ならない場合に、該対象配列データにおける該部分配列部位間の文字を、対応する前記コントロール配列上の文字と比較して不一致となる部位を検出する工程をさらに含み、不一致となる部位が存在する場合、置換が存在すると判定する工程をさらに含む、プロセスと、
を、同時に、並行して、または逐次的に行うことを特徴とする、方法が提供される。
本明細書において用いられる分子生物学的手法、生化学的手法、微生物学的手法、バイオインフォマティクスは、当該分野において公知であり、周知でありまたは慣用される任意のものが使用され得る。
(概要)
本発明の方法を用いて、以下のイネ配列データを用いてイネのSNPの検出および検証を行った。
対象:N1S5、N1S6、N1S7、N1S10
コントロール:N1
リファレンス:イネリファレンスゲノム(IRGSP1.0)
なお、本明細書において、サンプルの表記は、大文字で表記しても小文字で表記しても同じものを指すことに留意されたい。
(サンプル)
イネ品種日本晴の種子1粒をN1個体とし、発芽させて育てて葉をサンプリングした。N1個体に実った種子をN1S1とし、その種子1粒を発芽させて育てて葉をサンプリングした。N1S1個体に実った種子をN1S2とし、同様にして、N1S10世代まで、葉と種子をサンプリングした。
N1、N1S5、N1S6、N1S7、N1S10の葉のサンプルについて、次世代シーケンサーでの全ゲノム解析を行った。シーケンサーは、Illumina社のHiSeq2000を用い、ペアエンドで解析した。リード長はN1、N1S5、N1S6、N1S7は100塩基、N1S10のみ101塩基であった。
表5:各作業に使用したマニュアル名、バージョン番号
表6:クラスター形成、シーケンス及びシーケンス解析に使用した装置、試薬、ソフトウェア
表7:各作業に使用したマニュアル名、バージョン番号
表8:クラスター形成、シーケンス及びシーケンス解析に使用した装置、試薬、ソフトウェア
各サンプルについて次世代シーケンサーから得られたFastq形式のファイルより、配列内にNを含まない塩基配列を選んで、相補鎖の配列と合わせて、それぞれ出力した。
ジェノタイプの確認は、PCRで当該領域を増幅し、サンガー法で決定した。
精製された断片をBigDye(登録商標) Terminator v3.1 Cycle Sequencing Kit(Thermo Fisher Scientific Cat.# 4337455)で反応を行い、DNAシーケンサー ABI PRISM 3130xlで塩基配列の確認を行った。
(シーケンシング)
イネ個体(N1、N1S5、N1S6、N1S7、N1S10)を次世代シーケンサーで解析した結果の塩基配列データは、DDBJに送信されており、以下のアクセッション番号で登録されている。
のとおりであった。sort_uniqは、Nを含まないリードとその相補鎖のデータをsortしたのちuniqで同一配列を一つにまとめたものである。このデータは、k-merのデータと異なり配列のみのデータであり、頻度の数値データは含まない。
コントロール配列:N1、対象配列:N1S7について、k-mer配列をリファレンス配列に沿って整列させ、多型の検出を行った結果は、図7および8に示される。下線を付された塩基がコントロールと対象で異なっており、多型が検出されたことが示されている。図9においては、コントロール配列(N1)と対象配列(N1S5、N1S6、N1S7、N1S10)のk-mer配列の部分配列サブセットを整列させることによって、イネリファレンス配列の対応する位置から始まる配列と対応する配列の出現頻度を求めた結果が示される。染色体番号、染色体の位置に続いて、N1、N1S5、N1S6、N1S7、N1S10の20-merの頻度が示される。N1S7でヘテロ、N1S10でミュータントホモになり、野生型の20-merがゼロになっていることがわかる。すなわち、k-mer配列の出現頻度の変化から、N1S7においてヘテロ変異が生じ、N1S10においてホモ変異となったことを検出することができた。
(材料および方法)
コントロール配列データとして、ヒトゲノムリファレンスhg38を用いた。配列は、ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/よりchr1~chr22とchrX、chrY、chrMの染色体データをダウンロードして用いた。alt、v1等のファイル名にコメントが付いているデータは除外した。
結果の一部を、図13に示す。相補鎖(r)で検出された野生型・変異型の塩基は順鎖に変換して表示している。ヘテロ型の場合はそれぞれの塩基を並べて示している。参照、対象の配列xのA、C、G、Tの数はk-1配列に続く配列xの各塩基の頻度を示している。P~Q列に関しては、野生型あるいは変異型の塩基をもつ参照あるいは対象配列の数を示している。
(概要)
本発明の方法により、同一個体の組織間での多型の検出が可能であることを実証する。
NCBIのSRAよりfastq-dumpを用いて配列データを取得した。本データは、Texas Cancer Research Biobank Open Access Data Sharing: Genome Projectが登録したデータであり、詳細データについて、以下のURL:https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP060654において提供されている(Becnel, L. et al. NCBI Sequence Read Archive PRJNA284598 (2015).)。本発明の方法により、前記配列データにおいて多型を検出し、同一個体の正常組織と腫瘍組織との間の多型を本発明の方法によって検出できるかを検証した。
SRR2096532 コントロール血液 (Normal)
SRR2096535 濾胞性リンパ腫 (9690/3: Follicular lymphoma)
リード数 (配列長101塩基)
SRR2096532 1300353764
SRR2096535 1339310760
sort_uniqの配列数
SRR2096532 2056683322
SRR2096535 2181081390
この分野で一般的に広く用いられている、Samtoolsを用いて同じデータを処理した。
従来法による解析は、以下の工程によって行った。工程0は準備で1回のみ実施し、工程1から5はサンプル毎に実施した。
0.準備:リファレンス配列にインデックス付加
1.ショートリードデータのマッピング
2.SAM形式をBAMに変換(マッピング位置でソートも)
3.Samtoolsで多型部位の検出
同一人物からの組織間の比較なので、ミュータントホモはあり得ないと予想されていたところ、予想通りにヘテロ型のみが検出された。この精度で多型を検出できる系は、他にはなく、本発明の方法は従来技術に対して顕著に有利なものであると考えられる。
(材料および方法)
実施例1におけるN1S6と同じ世代の種子1粒から細胞培養を行い、1ヶ月、3ヶ月、5ヶ月後に再分化してイネの個体にした葉よりDNAを抽出し、それぞれ1M1、3M1、5M1のサンプルとして用いた。実施例1におけるN1種子と同じ世代の種子を5ヶ月培養して再分化した個体を4世代自殖した個体からDNAを抽出し、TTM2とTTM5のサンプルとして用いた。抽出したDNAから次世代シーケンサーによって配列データを取得した。シーケンシングのプロトコルは実施例1におけるものと同様であった。これらの配列データおよび実施例1のN1S5、N1S6、N1S7、N1S10の配列データを対象配列データとして、N1を参照配列データとして用いた。これらの配列データについてのアクセッション番号、リード数、sort_uniqの配列数は以下の表に示される。なお、TTM5のデータは、SRR556174とSRR556175の2つのアクセッション番号に分割されている。TTM5のsort_uniqは2つのリードを合わせて一つのファイルとして作成した。
結果の一部を図17に示した。第7染色体の26694795位置(図7中矢印で示される)に対応するk-mer配列から、それまでの位置に対応するk-mer配列の出現頻度の4倍程度の値が、N1~N1S10で現れていることが分かる。
Tos17は培養時のみ活性化されて転移するイネのトランスポゾンとして知られている。Tos17はレトロトランスポゾンなので、オリジナルは切り出されて転移することなく、Tos17のコピーの転移によってゲノム上のTos17のコピー数が増加する。そのため、Tos17は培養で転移してコピー数が増えることが以前から知られている。
本出願は、2017年7月24日に出願された特願2017-142781号の優先権の利益を主張し、当該出願は、全ての目的において、その開示全体が本明細書において参考として援用される。さらに、本明細書において、本出願人により本出願と同日に出願された「挿入・欠失・逆位・転座・置換検出法」との名称の出願(整理番号NG012PCT/F5-18PCT075)およびその基礎出願である2017年7月24日に出願された特願2017-142782号(整理番号J1-17369162)は、全ての目的において、その開示全体が本明細書において参考として援用される。
配列番号61~80:図7のk-mer対象配列(変異が存在する部分)
配列番号81~140:図8のk-mer参照配列
配列番号141~160:図8のk-mer対象配列(変異が存在する部分)
配列番号161~190:図13のk-1(k=20)配列
配列番号191~221:(具体的な例)で用いられた配列
配列番号222~232:(例示的計算フロー)で用いられた配列
配列番号233~266:実施例1で用いられたプライマーの配列
配列番号267~275:図11の配列
Claims (47)
- 対象配列データにおいてコントロール配列データに対する多型をコンピュータに検出させる方法であって、該コンピュータが、
a)該対象配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
b)該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供する工程と、
c)対象配列とコントロール配列とを比較し、該出現頻度の分布の比較に基づいて、多型を検出する工程と
を包含し、ここで、kは該対象配列および該コントロール配列のいずれか短いほうの全長以下の整数である、方法。 - 前記部分配列中の長さk-xの配列部分が共通する配列ごとに、長さxの部分について出現頻度の分布を算出する工程をさらに含み、ここで、xはk未満の正の整数である、請求項1に記載の方法。
- 前記比較が、前記部分配列中の長さk-xの配列部分が共通する配列における、長さxの部分の出現頻度の分布の差異の比較を含む、請求項2に記載の方法。
- 前記部分配列中の長さk-xの配列部分を、ユニークな配列ごとにグルーピングする工程を含み、ここで、xはk未満の正の整数である、請求項1~3のいずれか1項に記載の方法。
- 前記長さk-xの配列部分をソートする工程を含む、請求項4に記載の方法。
- 前記長さk-xの配列部分を文字列としてソートする工程を含む、請求項5に記載の方法。
- 前記kが、前記対象配列における偶然同一を排除する長さである、請求項1~6のいずれか1項に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが、生物のゲノムに由来する塩基配列データであり、前記kが、前記生物のゲノムにおいて、異なる箇所での偶然同一を排除する長さである、請求項1~7のいずれか1項に記載の方法。
- 長さxが1~2である、請求項2~6のいずれか1項、または請求項7および8が請求項2~6のいずれか1項に従属する場合の請求項7および8のいずれか1項に記載の方法。
- 長さxが1である、請求項9に記載の方法。
- 前記長さxの部分が、前記部分配列の末端に存在する、請求項2~10のいずれか1項に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、前記長さxの部分が、前記部分配列の3’末端である、請求項9に記載の方法。
- 前記コントロール配列データのサブセットと前記対象配列データのサブセットとの間で、前記長さxの部分の配列の出現頻度が異なる場合、該長さxの部分の配列を、対象配列データにおけるコントロール配列データに対する多型として検出する、請求項2~12のいずれか1項に記載の方法。
- 前記コントロール配列データのサブセットと前記対象配列データのサブセットとの間で、前記長さxの部分の配列で最も高頻度のものが異なっている長さk-xの配列部分が存在する場合、該長さxの部分の配列を、対象配列データにおける多型として検出する、請求項2~13のいずれか1項に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、前記対象配列データのサブセットにおける前記長さxの部分の配列で、前記コントロール配列データのサブセットにおける最も高頻度のものと同一の長さxの部分の配列がノイズ以下のカウントしか存在しない長さk-xの配列部分が存在する場合、該長さxの部分の配列を、対象配列データにおけるホモ多型として検出する、請求項2~14のいずれか1項に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、対象サブセットにおける前記長さxの部分の配列で、コントロール配列データのサブセットにおける最も高頻度のものと同一の長さxの部分の配列が存在し、かつ、コントロール配列データのサブセットにおける最も高頻度のものと異なる長さxの部分の配列が存在する長さk-xの配列部分が存在する場合、該長さxの部分の配列を、対象配列データにおけるヘテロ多型として検出する、請求項2~15のいずれか1項に記載の方法。
- 対象配列データ量から予測される出現頻度と比較して、前記出現頻度が少ない部分配列をノイズとする、請求項1~16のいずれか1項に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、[(対象配列データ量)×(1-精度)]/(対象ゲノムサイズ)+1未満の出現頻度の部分配列をノイズとする、請求項17に記載の方法。
- 前記対象配列データが、次世代シーケンシングによって得られた塩基配列データである、請求項1~18のいずれか1項に記載の方法。
- 前記対象配列データが、個体から得られた配列データであり、前記コントロール配列データが、該個体と同種の別の個体、またはデータベースから得られた配列データである、請求項1~19のいずれか1項に記載の方法。
- 前記対象配列データが、個体の組織試料から得られた配列データであり、前記コントロール配列データが、該個体の別の組織、またはデータベースから得られた配列データである、請求項1~20のいずれか1項に記載の方法。
- 前記対象配列データが、細胞試料から得られた配列データであり、前記コントロール配列データが、別の細胞、またはデータベースから得られた配列データである、請求項1~21のいずれか1項に記載の方法。
- 前記多型が、置換、挿入、欠失、コピー数多型(Copy Number Variation, CNV)、STRP(short tandem repeat polymorphism)、逆位または転座である、請求項1~22のいずれか1項に記載の方法。
- 前記多型が、置換である、請求項23に記載の方法。
- 前記対象配列に対するリファレンス配列における前記多型の位置を特定する工程をさらに含む、請求項1~24のいずれか1項に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが、生物のゲノムに由来する塩基配列データであり、前記多型のゲノム上の位置を特定する工程をさらに含む、請求項1~25のいずれか1項に記載の方法。
- 検出された多型の部位について、リファレンス配列またはコントロール配列から作成したクエリ配列セットを用いて、対象配列データおよび/またはコントロール配列データとの比較を行い確認する工程をさらに含む、請求項25または26に記載の方法。
- 前記クエリ配列セットが、リファレンス配列またはコントロール配列において前記多型に該当する部位の文字を異なる文字に置換した変異型クエリ配列セットを含む、請求項27に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、検出された多型の部位について、対象配列データおよび/またはコントロール配列データの相補鎖の配列データに対して、リファレンス配列またはコントロール配列から作成したクエリ配列セットとの比較を行い確認する工程をさらに含む、請求項27または28に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが塩基配列データであり、検出された多型の部位について、対象配列データおよび/またはコントロール配列データの変異型の塩基を有する配列データに対して、リファレンス配列またはコントロール配列から作成したクエリ配列セットとの比較を行い確認する工程をさらに含む、請求項27~29のいずれか1項に記載の方法。
- 前記対象配列データおよび前記コントロール配列データが、生物のゲノムに由来する塩基配列データであり、前記ゲノムの配列が不明である、請求項1~30のいずれか1項に記載の方法。
- 実験結果またはデータベースから対象配列データまたはコントロール配列データを取得する工程をさらに含む、請求項1~31のいずれか1項に記載の方法。
- 対象配列データにおけるコントロール配列データに対する多型を含む部分配列中の多型ではない部分の少なくとも一部を含む配列を、該多型の識別子として割り当てることをさらに含む、請求項1~32のいずれか1項に記載の方法。
- 前記多型の識別子をリファレンス配列にマッピングし、リファレンス上の該多型の位置を特定することを含む、請求項33に記載の方法。
- 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムであって、該方法は、
a)該対象配列データの長さkの部分配列のサブセットをコンピュータに保存する工程であって、ここで、kは対象配列およびコントロール配列の全長以下の長さである、工程と、
b)該対象配列データの長さkのサブセットの各々の部分配列の出現頻度を算出する工程と、
c)該コントロール配列データの長さkの部分配列のサブセットにおける各々の部分配列の出現頻度をコンピュータに保存する工程と、
d)対象配列とコントロール配列とを比較し、該出現頻度の分布の差異に基づいて、多型を検出する工程と
を包含する、プログラム。 - 前記方法が、前記部分配列中の多型ではない部分の少なくとも一部を含む配列を、検出された前記多型の名称として表示する工程をさらに含む、請求項35に記載のプログラム。
- 対象配列データにおいてコントロール配列データに対する多型を検出する方法をコンピュータに実行させるためのプログラムを格納する記録媒体であって、該方法は、
a)該対象配列データの長さkの部分配列のサブセットをコンピュータに保存する工程であって、ここで、kは対象配列およびコントロール配列の全長以下の長さである、工程と、
b)該対象配列データの長さkのサブセットの各々の部分配列の出現頻度を算出する工程と、
c)該コントロール配列データの長さkの部分配列のサブセットにおける各々の部分配列の出現頻度をコンピュータに保存する工程と、
d)対象配列とコントロール配列とを比較し、該出現頻度の分布の差異に基づいて、多型を検出する工程と
を包含する、記録媒体。 - 前記方法が、前記部分配列中の多型ではない部分の少なくとも一部を含む配列を、検出された前記多型の名称として表示する工程をさらに含む、請求項37に記載の記録媒体。
- 対象配列データにおいてコントロール配列データに対する多型を検出するためのシステムであって、該システムは、
該対象配列データおよび該コントロール配列データの長さkの部分配列のサブセットの各々の部分配列の出現頻度を提供するように構成された配列データ処理部であって、ここで、kは対象配列およびコントロール配列の全長以下の長さである、配列データ処理部と、
対象配列とコントロール配列とを比較し、該出現頻度の分布の差異に基づいて、多型を検出する工程とを行うように構成された、配列データ計算部と
を備える、システム。 - 前記システムが、前記部分配列中の多型ではない部分の少なくとも一部を含む配列を、検出された前記多型の名称として表示する表示手段をさらに含む、請求項39に記載のシステム。
- 部分配列を多型の識別子としてコンピュータに利用させる方法であって、該コンピュータが、
請求項1~34のいずれか一項に記載の方法によって検出された、前記対象配列データにおける前記コントロール配列データに対する多型を含む部分配列中の多型ではない部分の少なくとも一部を含む配列を、多型の識別子として割り当てる工程を含む、方法。 - 部分配列を多型の識別子としてコンピュータに利用させる方法であって、該コンピュータが、
請求項1~34のいずれか一項に記載の方法によって検出された、前記対象配列データにおける前記コントロール配列データに対する多型を含む部分配列中の多型ではない部分を含む配列を、多型の識別子として割り当てる工程を含む、方法。 - 部分配列を多型の識別子としてコンピュータに利用させる方法であって、該コンピュータが、
請求項1~34のいずれか一項に記載の方法によって検出された、前記対象配列データにおける前記コントロール配列データに対する多型を含む部分配列を、多型の識別子として割り当てる工程を含む、方法。 - 前記識別子は、前記多型の識別子のマッピング、連鎖解析、形質との関係を調べる多型マーカーとしての使用、診断、育種、鑑定、品質管理、分類および/または検査において使用される、請求項41~43のいずれか一項に記載の方法。
- 前記部分配列は、長さkの部分配列またはk-xの部分配列のいずれかである、請求項41~44のいずれか一項に記載の方法。
- 前記部分配列は、前記対象配列データおよび前記コントロール配列データにおいてユニークな配列である、請求項41~45のいずれか一項に記載の方法。
- 前記多型の識別子をリファレンス配列にマッピングし、リファレンス上の該多型の位置を特定することを含む、請求項41~46のいずれか一項に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017142781 | 2017-07-24 | ||
JP2017142781 | 2017-07-24 | ||
PCT/JP2018/027535 WO2019022018A1 (ja) | 2017-07-24 | 2018-07-23 | 多型検出法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019022018A1 JPWO2019022018A1 (ja) | 2020-05-28 |
JP7166638B2 true JP7166638B2 (ja) | 2022-11-08 |
Family
ID=65039682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019532603A Active JP7166638B2 (ja) | 2017-07-24 | 2018-07-23 | 多型検出法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7166638B2 (ja) |
TW (1) | TW201920682A (ja) |
WO (1) | WO2019022018A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115910197B (zh) * | 2021-12-29 | 2024-03-22 | 上海智峪生物科技有限公司 | 基因序列处理方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001112486A (ja) | 1999-08-05 | 2001-04-24 | Takeda Chem Ind Ltd | 遺伝子解析結果の記録方法 |
JP2001167123A (ja) | 1999-12-13 | 2001-06-22 | Iyaku Bunshi Sekkei Kenkyusho:Kk | 遺伝子配列多型クラスの管理方法 |
JP2008165375A (ja) | 2006-12-27 | 2008-07-17 | Canon Inc | 塩基配列を識別する変異セットの選別法 |
JP2016504667A (ja) | 2012-11-26 | 2016-02-12 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 患患者固有の関連性評価を用いた変異と疾患の関連付けを使用する診断的遺伝子分析 |
JP2017045451A (ja) | 2012-03-29 | 2017-03-02 | 三菱レイヨン株式会社 | βグロビン遺伝子の変異を検出するためのマイクロアレイ及びその検出方法 |
-
2018
- 2018-07-23 WO PCT/JP2018/027535 patent/WO2019022018A1/ja active Application Filing
- 2018-07-23 TW TW107125394A patent/TW201920682A/zh unknown
- 2018-07-23 JP JP2019532603A patent/JP7166638B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001112486A (ja) | 1999-08-05 | 2001-04-24 | Takeda Chem Ind Ltd | 遺伝子解析結果の記録方法 |
JP2001167123A (ja) | 1999-12-13 | 2001-06-22 | Iyaku Bunshi Sekkei Kenkyusho:Kk | 遺伝子配列多型クラスの管理方法 |
JP2008165375A (ja) | 2006-12-27 | 2008-07-17 | Canon Inc | 塩基配列を識別する変異セットの選別法 |
JP2017045451A (ja) | 2012-03-29 | 2017-03-02 | 三菱レイヨン株式会社 | βグロビン遺伝子の変異を検出するためのマイクロアレイ及びその検出方法 |
JP2016504667A (ja) | 2012-11-26 | 2016-02-12 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 患患者固有の関連性評価を用いた変異と疾患の関連付けを使用する診断的遺伝子分析 |
Also Published As
Publication number | Publication date |
---|---|
TW201920682A (zh) | 2019-06-01 |
WO2019022018A1 (ja) | 2019-01-31 |
JPWO2019022018A1 (ja) | 2020-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Minnoye et al. | Chromatin accessibility profiling methods | |
KR102662186B1 (ko) | 임신 중 긴 세포유리 단편을 사용한 분자 분석 | |
US20060286566A1 (en) | Detecting apparent mutations in nucleic acid sequences | |
Lange et al. | Analysis pipelines for cancer genome sequencing in mice | |
Larson et al. | A clinician’s guide to bioinformatics for next-generation sequencing | |
US20190139628A1 (en) | Machine learning techniques for analysis of structural variants | |
Kockum et al. | Overview of genotyping technologies and methods | |
Lindner et al. | Performance of methods to detect genetic variants from bisulphite sequencing data in a non‐model species | |
Goswami et al. | RNA-Seq for revealing the function of the transcriptome | |
CN111826429B (zh) | 一种基于简化基因组测序和snp次等位基因频率的非杂交后代鉴定方法 | |
JP7166638B2 (ja) | 多型検出法 | |
JP2022549823A (ja) | キットおよびキットの使用方法 | |
US20230332205A1 (en) | Linked dual barcode insertion constructs | |
JP7122006B2 (ja) | 挿入・欠失・逆位・転座・置換検出法 | |
KR20170046315A (ko) | 차세대 시퀀싱을 이용한 분자마커 개발 방법 | |
Fletcher et al. | AFLAP: Assembly-Free Linkage Analysis Pipeline using k-mers from whole genome sequencing data | |
AU780824B2 (en) | DNA marker profile data analysis | |
JP7444488B2 (ja) | 混入検出法 | |
Orr | Methods for detecting mutations in non-model organisms | |
WO2022168195A1 (ja) | 遺伝情報解析システム、及び遺伝情報解析方法 | |
Porter | Mapping bisulfite-treated short DNA reads | |
Conceição | Differential DNA Methylation in Aging: in Silico Exploration Using High-Throughput Datasets | |
Lübberstedt et al. | Markers and Sequencing | |
Data | Check for updates Chapter 7 Genetic Diversity Assessment in Plants from Reduced Representation Sequencing Data José P. Jiménez-Madrigal, Bradley J. Till®, and Andrés Gatica-Arias | |
Pala | Sequence Variation Of Copy Number Variable Regions In The Human Genome |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210304 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220502 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220630 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221014 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7166638 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |