JP2015197899A - 配列データ解析装置、dna解析システムおよび配列データ解析方法 - Google Patents
配列データ解析装置、dna解析システムおよび配列データ解析方法 Download PDFInfo
- Publication number
- JP2015197899A JP2015197899A JP2014077278A JP2014077278A JP2015197899A JP 2015197899 A JP2015197899 A JP 2015197899A JP 2014077278 A JP2014077278 A JP 2014077278A JP 2014077278 A JP2014077278 A JP 2014077278A JP 2015197899 A JP2015197899 A JP 2015197899A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- character
- sample
- character string
- lead
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 47
- 238000004458 analytical method Methods 0.000 title claims description 30
- 238000007405 data analysis Methods 0.000 title claims description 26
- 239000012634 fragment Substances 0.000 claims abstract description 78
- 238000013507 mapping Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 2
- 239000002773 nucleotide Substances 0.000 claims description 2
- 125000003729 nucleotide group Chemical group 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 abstract description 8
- 108020004414 DNA Proteins 0.000 description 80
- 230000035772 mutation Effects 0.000 description 41
- 230000006870 function Effects 0.000 description 15
- 238000001514 detection method Methods 0.000 description 14
- 210000000349 chromosome Anatomy 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000003780 insertion Methods 0.000 description 5
- 230000037431 insertion Effects 0.000 description 5
- 239000002299 complementary DNA Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
よって、ペアドエンド法で読み取られたペアのリード配列を、ゲノムDNA内の塩基位置にゲノムマッピングするときには、ペアのうちの片方のリード配列だけを位置照合するよりも、もう片方のリード配列も併せて位置照合することにより、1本のサンプルDNA断片を高精度にゲノムDNA内にマッピングできる。
サンプルDNA断片の両端からそれぞれシーケンシングされたペアである左方配列と右方配列との間を結合文字で連結した結合文字列を前記サンプルDNA断片ごとに作成し、各前記サンプルDNA断片の前記結合文字列を終端文字で結合した文字列をもとにリード配列辞書を作成するリード辞書作成部と、
ゲノムDNAの塩基文字列から生成されるクエリ配列が出現する前記リード配列辞書内の塩基文字座標であるヒット位置を検索するクエリ検索部と、
前記リード配列辞書内の前記ヒット位置を起点として、その周囲に位置する前記終端文字が出現するまでの文字列をサンプル配列として抽出し、
前記サンプル配列内の前記ヒット位置を起点として、その周囲に位置する前記結合文字を検査し、検査した前記結合文字から前記ヒット位置が存在しない側の前記終端文字が出現するまでの前記左方配列または前記右方配列をメイト配列として抽出するサンプル復元部と、
前記メイト配列が出現する前記ゲノムDNA内の塩基文字列の塩基文字座標を検索するマッピング部と、を有することを特徴とする。
その他の手段は、後記する。
配列データ解析装置1は、通常の計算機の構成を有するサーバ等のコンピュータで実現される。
配列データ解析装置1は、中央処理部(CPU:Central Processing Unit)201、プログラムなどが記憶される記憶部であるメモリ202、操作のためのGUI(Graphical User Interface)や、解析結果などを表示する表示部203、配列辞書(図2のリード配列辞書14、ゲノム配列辞書15)などを記憶する記憶部として機能するハードディスクドライブ(HDD)204、SNPなどの変異情報やパラメータ入力などを行うキーボード等の入力部205、インターネット等に接続するためのネットワークインタフェース(NIF)206がバス207に接続された構成を備えている。
HDD204に記憶される配列辞書は、配列データ解析装置1の外部に設置された記憶装置に記憶してもよいし、ネットワークを介してデータセンタなどに記憶してもよい。
以下で説明される各種のフローチャートは、CPU201のプログラム実行などで実現される。
シーケンサ9は、各サンプルDNA断片に対して、その両端(5’末側のリード配列と、3’末側のリード配列)のペアをシーケンシングし(読み取り)、その結果を配列データ解析装置1に提供する。
なお、リード配列(塩基配列)の表記法として、5’末側の塩基文字を左側に記載し、3’末側の塩基文字を右側に記載する方法が一般的であるため、以下では、5’末側を「左方」とし、3’末側を「右方」とする。
シーケンサ9は、超並列型(いわゆる次世代型)DNAシーケンサとして構成され、多数の(例えば、1億本の)サンプルDNA断片を並列にシーケンシングすることができる。
同様に、ゲノムサーバ8は、ゲノムDNAをシーケンシングした結果であるゲノム配列を、配列データ解析装置1に提供する。
配列データ解析装置1は、シーケンサ9からリード配列集合11(左方配列11aと右方配列11b)の入力を受け付ける。
リード配列集合11は、シーケンサ9にシーケンシングされたサンプルDNA断片ごとのリード配列(左方配列11aと右方配列11b)の集合である。
左方配列11aは、サンプルDNA断片のうちの5’末側の端点を基点として、3’末側に向かってシーケンシングされたリード配列である。
右方配列11bは、サンプルDNA断片のうちの3’末側の端点を基点として、5’末側に向かってシーケンシングされたリード配列である。
ここで、左方配列11aおよび右方配列11bの長さは、例えば100塩基程度であり、サンプルDNA断片が300塩基程度であるとすると、中央の100塩基程度は左方配列11aにも右方配列11bにも含まれないシーケンシング対象外の箇所である。または、2万塩基程度の長さのサンプルDNA断片の場合は、シーケンシング対象外の箇所は19800塩基程度となる。
なお、参照ゲノム配列12は、解析の対象とする生物種ごとに定められており、各染色体の全長の配列の集合である。
クエリ検索部24は、リード配列辞書14内から、クエリ配列16にマッピングする(クエリ配列16が出現する)塩基位置座標であるヒット位置17aを検索する。
サンプル復元部25は、ヒット位置17aを含むサンプルDNA断片のリード配列(サンプル配列17)を復元する。ここで、ヒット位置17aは、左方配列11aか、右方配列11bかのいずれかに含まれるので、ヒット位置17aが含まれない片方のリード配列を、メイト配列17bとする。
サンプル判定部27は、メイト配列17bのマッピングの成否により、メイト配列17aのサンプルDNA断片が解析用情報13が示す変異を含むか否かを判定する。そして、サンプル判定部27は、解析用情報13の判定結果を出力する。
S101において、配列データ解析装置1は、シーケンサ9からリード配列集合11(左方配列11aと右方配列11b)の入力を受け付ける。
図4(a)では、説明をわかりやすくするために、サンプルDNA断片301,305の2本を例示し、サンプルDNA断片301の左方配列11a「GA」2塩基分、右方配列11b「T」1塩基分とし、サンプルDNA断片305の左方配列11a「C」2塩基分、右方配列11b「TA」2塩基分とする。
FASTQ形式の1行目「@seq1,@seq2」は、サンプルDNA断片の識別子(ID)であり、2行目「GA,T,C,TA」は、リード配列である。例えば、符号361の1行目「@seq1」と、符号362の1行目「@seq1」とが一致するので、同じサンプルDNA断片301から読み取られたペアであることがわかる。
図4(a)では、同じサンプルDNA断片301のペアである左方配列11a「GA」と右方配列11b「T」とを結合文字「&」302で結合して、末尾に終端文字「$」303を付加することで、結合文字列304「GA&T$」を得る。同様に、サンプルDNA断片305のペアからは、結合文字列306「C&TA$」を得る。
なお、サンプルDNA断片の長さに応じて、複数種類の結合文字を使い分けてもよい。例えば、約300塩基のサンプルDNA断片から生成する結合文字列内の結合文字には「&」を用い、約20000塩基のサンプルDNA断片から生成する結合文字列内の結合文字には「#」を用いてもよい。これにより、結合文字からサンプルDNA断片のペア相手だけではなく、サンプルDNA断片の長さを取得することができる。
図4(b)では、例えば、以下の手順により、BW文字列311が作成される。この計算過程で、先頭から1文字ずつ比較して文字列比較を行う際、$どうしが比較されたら比較を終了し、&どうしが比較されたら比較を継続する。
(手順1)結合文字列304を巡回シフト(cyclic shift)して文字列のリスト307を得るとともに、結合文字列306も巡回シフトして文字列のリスト308を得る。
(手順2)2つのリスト307、308をマージすることで、マージ済みリスト309を得る。
(手順3)マージ済みリスト309をアルファベット順にソートすると、ソート済みリスト310を得る。そのとき、文字のソート順位は、例えば、「$<#<&<A<C<G<T<N」とする。
(手順4)ソート済みリスト310の各行の末端の文字を連結して、BW文字列311を得る。
このようにして得られたBW文字列311は、ソート済みなので、同じ文字が連続する頻度が高い。よって、BW文字列311をランレングス圧縮することで、データ量を圧縮することができる。
図5(a)は、Wavelet Tree形式に変換するために参照される二分木320を示す。この二分木320では、文字列に使用される全文字($、&、A、C、G、T、N)321が根となる。
二分木320は、文字列に使用される全文字($、&、A、C、G、T、N)321を、再帰的に二分類し、分類の末端で高々2種類の文字しか含まないように分類する方法を示した二分木である。
二分木320の根では、全文字321を、Aと、T(W)324と、それ以外(S)325と、に分類する。Sに分類された文字($、&、C、G、N)325も、同様にMとKに二分類する。以下、これを再帰的に繰り返し、分類の末端で高々2種類の文字しか含まないようにする。但し、ペアを表す符号&(302)と終端記号$(303)は、分類の末端331に一緒に現れるように分類する。
リード辞書作成部21は、(AとTの2種類の文字しか含まない)部分文字列342を、0と1のバイナリ文字列344に変換する。
リード辞書作成部21は、部分文字列343も同様に、Sに分類された文字のMとKへの二分類(二分木320で示される)に従ってバイナリ文字列345を作成する。
リード辞書作成部21は、Mに分類される文字を抜き出した部分文字列346、および、Kに分類される文字を抜き出した部分文字列347を作成する。
よって、Wavelet Tree340は、BW文字列311を可逆変換したものであり、Wavelet Tree340からBW文字列311を復元することができる。
rank(p,c)とは、配列要素0〜pのうちの文字「c」の出現回数を返す関数である。
select(i,c)とは、(i+1)番目の文字「c」が出現する配列位置を返す関数である。
補助データは、例えば、参考文献「Kouichi Kimura, Yutaka Suzuki, Sumio Sugano, and Asako Koike. Journal of Computational Biology. November 2009, 16(11): 1601-1613.」に記載の「hierarchical binary string」である。この補助データは、BW文字列311から、任意に与えられた塩基配列と一致するリード配列断片を全て求める、などの検索を効率的に行うためのデータである。
S101bでは、ゲノム辞書作成部22は、S101のリード配列集合11の代わりに参照ゲノム配列12の入力を受け付ける。
S102bでは、ゲノム辞書作成部22は、参照ゲノム配列12が示す複数のゲノムDNAの染色体配列(塩基文字列)を、そのまま終端文字「$」で連結して、1本の文字列を作成する。ここで、参照ゲノム配列12はペア形式ではないので、S102のような結合文字「&」によるペア連結処理は不要である。
S105bでは、ゲノム辞書作成部22は、S105のリード配列辞書14の代わりにゲノム配列辞書15を出力する。
S121において、配列データ解析装置1は、今回の解析対象となる変異を示す解析用情報13として、SNP情報13aの入力を受け付ける。
図7(a)では、SNP情報13aを示すテーブル400を例示する。テーブル400の各行に示すように、SNPごとに、染色体名、染色体上の塩基位置座標、参照ゲノム配列内での塩基の種類(標準塩基)、SNPとして現れる塩基の種類(変異塩基)の情報を含む。
テーブル400の1行目は、SNPが染色体7番上の123456塩基目の位置にあり、参照ゲノムの塩基「A」が塩基「G」に変異することを示す。
図7(b)の説明欄420は、S122の例示であり、横軸421は染色体上の塩基位置座標である。まず、クエリ作成部23は、ゲノム配列辞書15を参照して、テーブル400の1行目で示されたSNPの位置424の周辺(例えば、左右に10塩基程度)の塩基配列422を求める。クエリ作成部23は、SNPの位置424で塩基配列422の塩基を変異させた配列423を作成し、これをクエリ配列16とする。または、クエリ作成部23は、変異を含む塩基配列423の代わりに、変異を含まない塩基配列422をクエリ配列16とすることで、SNPの位置424に現れる標準塩基を検出することができる。
なお、BW変換されたリード配列辞書14をもとに計算する過程で、2本の文字列(リード配列辞書14、クエリ配列16)を先頭から1文字ずつ比較する際には、終端文字「$」どうしが比較される場合は比較を終了し、結合文字列「&」どうしが比較される場合は比較を継続する。
S132において、サンプル復元部25は、S131からのループで現在選択しているヒット位置17aを含むサンプルDNA断片のリード配列(サンプル配列17)を復元する。この復元処理では、BW変換により作成されているリード配列辞書14から、rank関数とselect関数を用いることにより、ヒット位置17aを起点として、終端文字「$」が出現するまでリード配列辞書14内を延長して走査することにより、左右の終端文字「$」に挟まれたサンプル配列17が取得される。
このようなrank関数とselect関数を用いる方法は、例えば、文献「Ferragina, P. and Manzini, G著,"Opportunistic data structures with applications",In 41st IEEE Symposium on Foundations of Computer Science,FOCS,pages390-398」に記載されている。
サンプル配列17は、結合文字列304,306のように、結合文字「&」および終端文字「$」を含む。このサンプル配列17を結合文字列「&」で分離することで、サンプルDNA断片ごとの識別子を使わずに、ペアをなす2本のリード配列(左方配列11a、右方配列11b)が得られる。
図7(c)の[1]の場合のように、ヒット位置17aの配列423から右方に延長した先に結合文字「&」が現れるので、取得されるメイト配列17bは、結合文字「&」より右側の右方配列11bである。
図7(c)の[2]の場合のように、ヒット位置17aの配列423から左方に延長した先に結合文字「&」が現れるので、取得されるメイト配列17bは、結合文字「&」より左側の左方配列11aである。
図7(c)の[3]の場合のように、ヒット位置17aの配列423から右方に延長しても、左方に延長しても結合文字「&」が現れない場合は、サンプル配列17はペアを構成する相手がいない単独のリード配列である。このような単独のリード配列は信頼性が低いとみなして無視してよい。
あるいは、変異を導入する前の配列423をゲノム配列辞書15に問い合せて、ゲノム内で配列423が出現する箇所が一つしかないと確認できた場合に限り、(信頼性は低いが)SNPを検出できたと判定してもよい。
もし、1か所も現れない場合は、マッピング部26は、その部分配列中にシーケンシング・エラーや多型が含まれていると考えられるため、別の部分配列で再度、問い合わせを行う。
また、もし、複数箇所に現れる場合は、マッピング部26は、部分配列の長さを増やすか、または、別の部分配列を用いて、再度、問い合わせを行う。こうして、短い部分配列のゲノム内の位置を特定できた場合、それを含むメイト配列17bのゲノム上に位置も特定できる(換言すると、マッピングに成功する)。一方、位置を特定できない場合は、マッピングに失敗する。
S135でYesならS136に進み、Noなら今回のループを終了して(S139)、次のヒット位置を選択するためにS131に戻る。
S136でYesならS137に進み、NoならS138に進む。
S138において、サンプル判定部27は、「SNP非検出」と判定されたことにより、検出数カウンタ値の増加を行わない。
図7(d)のテーブル460は、S141で出力される情報の一例である。テーブル460には、図7(a)のテーブル400で示される各SNPごとに、SNP位置424で変異塩基(SNP)が検出されたリード断片の数(変異塩基検出数)、および、標準塩基が検出されたリード断片の数(標準塩基検出数)が、検出数カウンタ値から読み取られて、書き込まれている。
S121bでは、配列データ解析装置1は、今回の解析対象となる変異を示す解析用情報13として、SNP情報13aの代わりに、構造変異情報13bの入力を受け付ける。
図9(a)の構造変異情報13bは、テーブル600の各行に示すように、各変異ごとに、染色体名、染色体上の塩基位置座標、変異のタイプ(挿入か欠失か)、変異長の情報を含む。
テーブル600の1行目は、構造変異が染色体3番上の654321塩基目の位置にあり、標準ゲノムから500個の連続した塩基の並びが失われる欠失が生ずることを示す。
図9(b)の説明欄620は、S122bのクエリ配列16の作成方法を示す。横軸421は染色体上の塩基位置座標である。まず、ゲノム配列辞書15を参照して、構造変異が生ずる位置624の周辺(例えば、左方と右方に数十塩基程度離れた位置)の短い(例えば20塩基程度の)塩基配列622と623を求め、これらをそれぞれクエリ配列16とする。つまり、クエリ配列16は構造変異が生ずる位置624の(左方または右方の)近くにある短い配列である。
よって、結合文字「&」の右方の配列641(右方配列11b)がメイト配列17bとして復元される。さらに、クエリ配列622と配列641との間には構造変異が生じる位置624が含まれる可能性がある。
一方、図示は省略するが、クエリ配列622の左方に延長して復元された文字列内に結合文字「&」が現れる場合は、構造変異の可能性は無いので、対象外(変異情報が得られない)と判定する。
よって、結合文字「&」の左方の配列642(左方配列11a)がメイト配列17bとして復元される。さらに、クエリ配列623と配列642との間には構造変異が生じる位置624が含まれる可能性がある。
一方、図示は省略するが、クエリ配列623の右方に延長して復元された文字列内に結合文字「&」が現れる場合は、構造変異の可能性は無いので、対象外(変異情報が得られない)と判定する。
以上、S133bの判定処理について、説明した。
S136bでNoなら、構造変異を検出したので、サンプル判定部27は、該当する構造変異情報13bの「変異有り検出数」のカウンタ値を1つ増やす(S137b)。
ここで、サンプル判定部27は、「欠失」の変異タイプと、「挿入」の変異タイプとで別々に検出数を集計してもよい。そのため、ペア間の距離がサンプルDNA断片の長さから予想されるよりも長い場合は(差分の長さに対応する)欠失が生じていると判定し、逆に、ペア間の距離がサンプルDNA断片の長さから予想されるよりも短い場合は(差分の長さに対応する)挿入が生じていると判定してもよい。
S136bでYesなら、構造変異は非検出なので、サンプル判定部27は、該当する構造変異情報13bの「変異無し検出数」のカウンタ値を1つ増やす(S138b)。
このテーブル660には、テーブル600で示される各構造変異ごとに、変異有りと判定されたリード断片の数、および、変異無し(即ち、標準ゲノムと一致する)と判定されたリード断片の数を、変異有り検出数、および、変異無し検出数として報告する。
サンプル復元部25は、リード配列辞書14内のクエリ配列16のヒット位置17aから、そのヒット位置17aを含むサンプルDNA断片のペア(メイト配列17b)を復元するときに、リード配列辞書14内に埋め込まれた結合文字を手がかりに、メイト配列17bを復元することができる。よって、サンプルDNA断片ごとの識別子は不要となるため、任意のリード配列に対してペアをなすメイト配列17bを効率良く計算できる。
比較例として、図4の符号361の「@seq1」のようにサンプルDNA断片ごとの識別子を用いる場合、サンプルDNA断片から読み取られるリード配列集合11が左方配列11aと右方配列11bとを合わせて10億本存在する場合、5億種類の識別子が必要となる。1つの識別子当たり4バイトのデータサイズとすると、全識別子データのサイズは4ギガバイトを要する。さらに、サンプルDNA断片ごとの識別子を用いる場合には、ヒットしたリード配列の識別子を検索キーとして、そのペアをなすメイト配列17bを検索するための負荷がかかってしまう。
また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。
また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段などは、それらの一部または全部を、例えば集積回路で設計するなどによりハードウェアで実現してもよい。
また、前記の各構成、機能などは、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
8 ゲノムサーバ
9 シーケンサ
11 リード配列集合
11a 左方配列
11b 右方配列
12 参照ゲノム配列
13 解析用情報
13a SNP情報
13b 構造変異情報
14 リード配列辞書
15 ゲノム配列辞書
16 クエリ配列
17 サンプル配列
17a ヒット位置
17b メイト配列
21 リード辞書作成部
22 ゲノム辞書作成部
23 クエリ作成部
24 クエリ検索部
25 サンプル復元部
26 マッピング部
27 サンプル判定部
Claims (8)
- サンプルDNA断片の両端からそれぞれシーケンシングされたペアである左方配列と右方配列との間を結合文字で連結した結合文字列を前記サンプルDNA断片ごとに作成し、各前記サンプルDNA断片の前記結合文字列を終端文字で結合した文字列をもとにリード配列辞書を作成するリード辞書作成部と、
ゲノムDNAの塩基文字列から生成されるクエリ配列が出現する前記リード配列辞書内の塩基文字座標であるヒット位置を検索するクエリ検索部と、
前記リード配列辞書内の前記ヒット位置を起点として、その周囲に位置する前記終端文字が出現するまでの文字列をサンプル配列として抽出し、
前記サンプル配列内の前記ヒット位置を起点として、その周囲に位置する前記結合文字を検査し、検査した前記結合文字から前記ヒット位置が存在しない側の前記終端文字が出現するまでの前記左方配列または前記右方配列をメイト配列として抽出するサンプル復元部と、
前記メイト配列が出現する前記ゲノムDNA内の塩基文字列の塩基文字座標を検索するマッピング部と、を有することを特徴とする
配列データ解析装置。 - 前記配列データ解析装置は、さらに、クエリ作成部と、サンプル判定部とを備えており、
前記クエリ作成部は、前記ゲノムDNAの塩基文字列のうちの所定位置の塩基文字を別の塩基文字に変異させ、その変異させた塩基文字とその周囲に位置する前記ゲノムDNAの塩基文字列とを含めた前記クエリ配列を作成し、
前記サンプル判定部は、前記マッピング部により前記メイト配列の塩基文字座標が特定できたときに、前記ヒット位置と、前記メイト配列の塩基文字座標との文字間隔から特定される前記サンプルDNA断片の長さをもとに、前記サンプルDNA断片内のSNP(Single Nucleotide Polymorphism)を検出することを特徴とする
請求項1に記載の配列データ解析装置。 - 前記配列データ解析装置は、さらに、クエリ作成部と、サンプル判定部とを備えており、
前記クエリ作成部は、前記ゲノムDNAの塩基文字列のうちの所定位置周囲に位置する前記ゲノムDNAの塩基文字列から前記クエリ配列を作成し、
前記サンプル判定部は、前記マッピング部により前記メイト配列の塩基文字座標が特定できたときに、前記ヒット位置と、前記メイト配列の塩基文字座標との文字間隔から特定される前記サンプルDNA断片の長さをもとに、前記サンプルDNA断片内の構造変異を検出することを特徴とする
請求項1に記載の配列データ解析装置。 - 前記リード辞書作成部は、各前記サンプルDNA断片の前記結合文字列を前記終端文字で結合した文字列に対してBW(Burrows-Wheeler)変換したBW文字列を作成し、その前記BW文字列をWavelet Tree形式に変換することで、前記リード配列辞書を作成することを特徴とする
請求項1ないし請求項3のいずれか1項に記載の配列データ解析装置。 - 前記リード辞書作成部は、各前記サンプルDNA断片の長さに対応した複数種類の前記結合文字を用いて、前記結合文字列を作成することを特徴とする
請求項1ないし請求項3のいずれか1項に記載の配列データ解析装置。 - 前記サンプル復元部は、前記ヒット位置の周囲に前記結合文字が存在しない場合、その前記ヒット位置について前記マッピング部の処理対象から除外することを特徴とする
請求項1ないし請求項3のいずれか1項に記載の配列データ解析装置。 - 請求項1ないし請求項6のいずれか1項に記載の配列データ解析装置と、前記サンプルDNA断片を両端からそれぞれシーケンシングし、その結果である前記左方配列と前記右方配列とのペアのリード配列を、前記配列データ解析装置に送信するシーケンサとを含めて構成される
DNA解析システム。 - 配列データ解析装置は、リード辞書作成部と、クエリ検索部と、サンプル復元部と、マッピング部とを有しており、
前記リード辞書作成部は、サンプルDNA断片の両端からそれぞれシーケンシングされたペアである左方配列と右方配列との間を結合文字で連結した結合文字列を前記サンプルDNA断片ごとに作成し、各前記サンプルDNA断片の前記結合文字列を終端文字で結合した文字列をもとにリード配列辞書を作成し、
前記クエリ検索部は、ゲノムDNAの塩基文字列から生成されるクエリ配列が出現する前記リード配列辞書内の塩基文字座標であるヒット位置を検索し、
前記サンプル復元部は、
前記リード配列辞書内の前記ヒット位置を起点として、その周囲に位置する前記終端文字が出現するまでの文字列をサンプル配列として抽出し、
前記サンプル配列内の前記ヒット位置を起点として、その周囲に位置する前記結合文字を検査し、検査した前記結合文字から前記ヒット位置が存在しない側の前記終端文字が出現するまでの前記左方配列または前記右方配列をメイト配列として抽出し、
前記マッピング部は、前記メイト配列が出現する前記ゲノムDNA内の塩基文字列の塩基文字座標を検索することを特徴とする
配列データ解析方法。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014077278A JP6198659B2 (ja) | 2014-04-03 | 2014-04-03 | 配列データ解析装置、dna解析システムおよび配列データ解析方法 |
PCT/JP2015/057348 WO2015151758A1 (ja) | 2014-04-03 | 2015-03-12 | 配列データ解析装置、dna解析システムおよび配列データ解析方法 |
DE112015001637.6T DE112015001637T5 (de) | 2014-04-03 | 2015-03-12 | Sequenzdatenanalysator, DNA-Analysesystem und Sequenzdatenanalyseverfahren |
GB1616668.8A GB2539596B (en) | 2014-04-03 | 2015-03-12 | Sequence data analyzer, DNA analysis system and sequence data analysis method |
US15/301,086 US10810239B2 (en) | 2014-04-03 | 2015-03-12 | Sequence data analyzer, DNA analysis system and sequence data analysis method |
CN201580014840.6A CN106104541B (zh) | 2014-04-03 | 2015-03-12 | 序列数据分析装置、dna分析系统以及序列数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014077278A JP6198659B2 (ja) | 2014-04-03 | 2014-04-03 | 配列データ解析装置、dna解析システムおよび配列データ解析方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2015197899A true JP2015197899A (ja) | 2015-11-09 |
JP2015197899A5 JP2015197899A5 (ja) | 2016-11-10 |
JP6198659B2 JP6198659B2 (ja) | 2017-09-20 |
Family
ID=54240090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014077278A Active JP6198659B2 (ja) | 2014-04-03 | 2014-04-03 | 配列データ解析装置、dna解析システムおよび配列データ解析方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10810239B2 (ja) |
JP (1) | JP6198659B2 (ja) |
CN (1) | CN106104541B (ja) |
DE (1) | DE112015001637T5 (ja) |
GB (1) | GB2539596B (ja) |
WO (1) | WO2015151758A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017224191A (ja) * | 2016-06-16 | 2017-12-21 | 株式会社日立製作所 | Dna配列解析装置、dna配列解析方法及びdna配列解析システム |
JP2018045678A (ja) * | 2016-09-18 | 2018-03-22 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 構造変異検出方法、デバイス及びシステム |
KR102265937B1 (ko) * | 2020-12-21 | 2021-06-17 | 주식회사 모비젠 | 시퀀스데이터의 분석 방법 및 그 장치 |
WO2022054178A1 (ja) * | 2020-09-09 | 2022-03-17 | 株式会社日立ハイテク | 個体ゲノムの構造変異検出方法及び装置 |
JP2022519786A (ja) * | 2019-02-07 | 2022-03-24 | バイオキー ビーブイ | 生物学的配列情報の取り扱い |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10395759B2 (en) | 2015-05-18 | 2019-08-27 | Regeneron Pharmaceuticals, Inc. | Methods and systems for copy number variant detection |
CN115273970A (zh) | 2016-02-12 | 2022-11-01 | 瑞泽恩制药公司 | 用于检测异常核型的方法和系统 |
EP4087139A4 (en) * | 2019-12-31 | 2023-01-18 | MGI Tech Co., Ltd. | METHOD AND DEVICE FOR CREATING A GENE MUTATION DICTIONARY AND USING THE DICTIONARY TO COMPRESS GENOMIC DATA |
CN111782609B (zh) * | 2020-05-22 | 2023-10-13 | 北京和瑞精湛医学检验实验室有限公司 | 一种快速将fastq文件均匀分片的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008547080A (ja) * | 2005-06-14 | 2008-12-25 | エイジェンシー・フォー・サイエンス,テクノロジー・アンド・リサーチ | ダイタグ配列の処理および/またはゲノムマッピングの方法 |
JP2009116559A (ja) * | 2007-11-06 | 2009-05-28 | Hitachi Ltd | 大量配列の一括検索方法及び検索システム |
JP2014502513A (ja) * | 2011-01-14 | 2014-02-03 | キージーン・エン・フェー | ペアエンドランダムシーケンスに基づく遺伝子型解析 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPS115502A0 (en) * | 2002-03-18 | 2002-04-18 | Diatech Pty Ltd | Assessing data sets |
CN104937599B (zh) * | 2013-02-28 | 2018-01-23 | 株式会社日立高新技术 | 数据解析装置及其方法 |
-
2014
- 2014-04-03 JP JP2014077278A patent/JP6198659B2/ja active Active
-
2015
- 2015-03-12 US US15/301,086 patent/US10810239B2/en active Active
- 2015-03-12 GB GB1616668.8A patent/GB2539596B/en active Active
- 2015-03-12 DE DE112015001637.6T patent/DE112015001637T5/de active Pending
- 2015-03-12 WO PCT/JP2015/057348 patent/WO2015151758A1/ja active Application Filing
- 2015-03-12 CN CN201580014840.6A patent/CN106104541B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008547080A (ja) * | 2005-06-14 | 2008-12-25 | エイジェンシー・フォー・サイエンス,テクノロジー・アンド・リサーチ | ダイタグ配列の処理および/またはゲノムマッピングの方法 |
JP2009116559A (ja) * | 2007-11-06 | 2009-05-28 | Hitachi Ltd | 大量配列の一括検索方法及び検索システム |
JP2014502513A (ja) * | 2011-01-14 | 2014-02-03 | キージーン・エン・フェー | ペアエンドランダムシーケンスに基づく遺伝子型解析 |
Non-Patent Citations (3)
Title |
---|
BOUCHU, MARIE-NOELLE; LARGE, SYLVIE; STENG, MICHAELA; LANGLOIS, BERNARD; PRALY, JEAN-PIERRE: "An unprecedented access to trifluoromethylthiosugar derivatives from thiocyanate precursors upon tre", CARBOHYDRATE RESEARCH, vol. 314(1-2), JPN6015001426, 1998, pages 37 - 45, ISSN: 0003617914 * |
HENG LI ET AL: "Fast and accurate short read alignment with Burrows-Wheeler transform", BIOINFORMATICS, vol. 25, no. 14, JPN6014006093, 15 July 2009 (2009-07-15), pages 1754 - 1760, XP055553969, ISSN: 0003617912, DOI: 10.1093/bioinformatics/btp324 * |
HENG LI ET AL: "The Sequence Alignment/Map format and SAMtools", BIOINFORMATICS, vol. 25, no. 16, JPN7015001425, 8 June 2009 (2009-06-08), pages 2078 - 2079, XP055229864, ISSN: 0003617913, DOI: 10.1093/bioinformatics/btp352 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017224191A (ja) * | 2016-06-16 | 2017-12-21 | 株式会社日立製作所 | Dna配列解析装置、dna配列解析方法及びdna配列解析システム |
JP2018045678A (ja) * | 2016-09-18 | 2018-03-22 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 構造変異検出方法、デバイス及びシステム |
US10950328B2 (en) | 2016-09-18 | 2021-03-16 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus and system for detecting structural variations |
JP2022519786A (ja) * | 2019-02-07 | 2022-03-24 | バイオキー ビーブイ | 生物学的配列情報の取り扱い |
JP7352985B2 (ja) | 2019-02-07 | 2023-09-29 | バイオキー ビーブイ | 生物学的配列情報の取り扱い |
WO2022054178A1 (ja) * | 2020-09-09 | 2022-03-17 | 株式会社日立ハイテク | 個体ゲノムの構造変異検出方法及び装置 |
KR102265937B1 (ko) * | 2020-12-21 | 2021-06-17 | 주식회사 모비젠 | 시퀀스데이터의 분석 방법 및 그 장치 |
Also Published As
Publication number | Publication date |
---|---|
CN106104541A (zh) | 2016-11-09 |
JP6198659B2 (ja) | 2017-09-20 |
US10810239B2 (en) | 2020-10-20 |
GB2539596A (en) | 2016-12-21 |
US20170017717A1 (en) | 2017-01-19 |
GB2539596B (en) | 2021-03-17 |
DE112015001637T5 (de) | 2017-02-09 |
CN106104541B (zh) | 2018-09-11 |
GB201616668D0 (en) | 2016-11-16 |
WO2015151758A1 (ja) | 2015-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6198659B2 (ja) | 配列データ解析装置、dna解析システムおよび配列データ解析方法 | |
US11702708B2 (en) | Systems and methods for analyzing viral nucleic acids | |
US10777304B2 (en) | Compressing, storing and searching sequence data | |
Bigot et al. | RVDB-prot, a reference viral protein database and its HMM profiles [version 2; peer review: 2 approved] | |
JP2019537172A (ja) | バイオインフォマティクスデータのインデックスを付けるための方法及びシステム | |
US20110196872A1 (en) | Computational Method for Comparing, Classifying, Indexing, and Cataloging of Electronically Stored Linear Information | |
JP5985040B2 (ja) | データ解析装置、及びその方法 | |
US20130117246A1 (en) | Methods of processing text data | |
Yanovsky | ReCoil-an algorithm for compression of extremely large datasets of DNA data | |
US20170004256A1 (en) | Methods and apparatuses for generating reference genome data, generating difference genome data, and recovering data | |
CA2931184A1 (en) | A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure | |
Chappell et al. | K-means clustering of biological sequences | |
CN108287983A (zh) | 一种用于对基因组进行压缩和解压缩的方法和装置 | |
CN110782946A (zh) | 识别重复序列的方法及装置、存储介质、电子设备 | |
Xie et al. | GeneMiner: A tool for extracting phylogenetic markers from next‐generation sequencing data | |
Ju et al. | Fleximer: accurate quantification of RNA-Seq via variable-length k-mers | |
CN117174182A (zh) | 一种兼顾基因序列进化重排的序列搜索工具CircBLAST的应用方法 | |
Doğan et al. | Automatic identification of highly conserved family regions and relationships in genome wide datasets including remote protein sequences | |
CN114816518A (zh) | 基于simhash的源代码中开源成分筛选识别方法及系统 | |
US20190205394A1 (en) | Method for generating text string dictionary, method for searching text string dictionary, and system for processing text string dictionary | |
Esmat et al. | A parallel hash‐based method for local sequence alignment | |
JP2011024473A (ja) | アプタマー分類装置、アプタマー分類方法、プログラムおよび記録媒体 | |
US20190050531A1 (en) | Dna sequence processing method and device | |
Shen et al. | LexicMap: efficient sequence alignment against millions of prokaryotic genomes | |
WO2016143062A1 (ja) | 配列データ解析装置、dna解析システムおよび配列データ解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160927 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6198659 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |