JP5344774B2 - テスト配列の誤り訂正方法、対応するシステム及び遺伝子のアセンブリ装置 - Google Patents

テスト配列の誤り訂正方法、対応するシステム及び遺伝子のアセンブリ装置 Download PDF

Info

Publication number
JP5344774B2
JP5344774B2 JP2011539874A JP2011539874A JP5344774B2 JP 5344774 B2 JP5344774 B2 JP 5344774B2 JP 2011539874 A JP2011539874 A JP 2011539874A JP 2011539874 A JP2011539874 A JP 2011539874A JP 5344774 B2 JP5344774 B2 JP 5344774B2
Authority
JP
Japan
Prior art keywords
sequence
short sequences
test sequence
frequent
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011539874A
Other languages
English (en)
Other versions
JP2012511752A (ja
JP2012511752A5 (ja
Inventor
ジュン ワン、
ファンミン ヤン、
チャン ワン、
Original Assignee
ビージーアイ テック ソリューションズ カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ビージーアイ テック ソリューションズ カンパニー リミテッド filed Critical ビージーアイ テック ソリューションズ カンパニー リミテッド
Publication of JP2012511752A publication Critical patent/JP2012511752A/ja
Publication of JP2012511752A5 publication Critical patent/JP2012511752A5/ja
Application granted granted Critical
Publication of JP5344774B2 publication Critical patent/JP5344774B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Description

本発明は、遺伝子工学の技術分野に関し、より詳しくは、テスト配列の誤り訂正方法、対応するシステム及び遺伝子のアセンブリ装置に関する。
既存の遺伝子のシークエンシング技術に基づき、塩基の配列決定において誤りが起こる可能性がある。シークエンシングにおける誤りは、後続のデータ解析、短い配列のアセンブリ等に影響する。誤りのない配列が低頻度の短い配列を含む可能性は、深いシークエンシングデプスでは非常に低いため、既存の誤り訂正の戦略は、テスト配列中の低頻度の短い配列を単純に選別し、そして低頻度の短い配列を特定の比率で含む配列を除去することである。実際に、有効な誤り訂正が行われず、それは、テスト配列の低い利用率につながる。
本発明の態様の目的は、テスト配列の誤り訂正方法を提供することであり、それは、既存のテスト配列の誤り訂正方法におけるテスト配列の低い利用率という以下の問題を解決することを意図する。
本発明の一態様は、以下のステップを含む、テスト配列の誤り訂正方法により実行される:
配列を受け取り、そして高頻度の短い配列リストを、予め定められた高頻度閾値に基づき構築すること、
受け取ったそれぞれのテスト配列を配列方向に調べ、そして高頻度の短い配列リストと組み合わせて、それぞれのテスト配列上の連続した高頻度の短い配列の最大多数の領域を検索すること、
対応する受け取ったテスト配列及び高頻度の短い配列のリストに従い、検索された領域の左側において高頻度の短い配列だけからなる左側の配列を構築すること、及び/又は検索した領域の右側において高頻度の短い配列だけからなる右側の配列を構築すること、及び
領域と構築した左側及び/又は右側の配列とを、対応するテスト配列へと結合すること。
本発明の別の態様は、
テスト配列を受け取るため、及び予め定められた高頻度閾値に基づき高頻度の短い配列のリストを構築するための高頻度の短い配列の統計ユニットと、
それぞれの受け取ったテスト配列を配列方向に調べ、高頻度の短い配列のリストと組み合わせて、そしてそれぞれのテスト配列上の連続した高頻度の短い配列の最大多数の領域を検索するための、高頻度領域の検索ユニットと、
対応する受け取ったテスト配列のリスト及び高頻度の短い配列に従い、検索した領域の左側において高頻度の短い配列だけからなる左側の配列を構築し、及び/又は、検索した領域の右側において高頻度の短い配列だけからなる右側の配列を構築するための、配列構築ユニットと、
領域と、構築した左側及び/又は右側の配列を、対応するテスト配列へと結合する、配列結合ユニット
とを含む、テスト配列の誤り修復システムを提供することである。
本発明の態様の別の目的は、上記のテスト配列の誤り訂正システムを含む、遺伝子アセンブリ装置を提供することである。
本発明の態様において、高頻度の短い配列のリストは、予め定められた高頻度閾値に基づいて構築され、各テスト配列の離散的な高頻度の短い配列を持つ領域の配列は、構築された高頻度の短い配列のリストにしたがって、連続的な高頻度の短い配列の配列に再結合される。再結合配列は、可能な限り元のテスト配列の数と長さを維持し、そして配列の使用率を向上させ、そして、誤り訂正された配列内での誤りのない配列の比率と深さに関して、劇的な改善が達成されることは、実験を介して証明される。誤り訂正配列は、高頻度の短い配列に分割することができ、そしてより少ない高頻度の短い配列を得ることができ、それによって、その後の短い配列のアセンブリング中のメモリの使用量が低減する。
図1は、本発明の一態様において提供される、テスト配列の誤り訂正方法のフローチャートである。 図2は、本発明の態様において提供される、左側のツリーの概略的な構築図である。 図3は本発明の態様において提供される、テスト配列の誤り訂正システムの構築図である。
本発明の技術的な解決策と利点をより理解する目的のために、本発明のさらに詳細な説明は、図面および態様と組み合わせて、以下に記載する。本明細書中の特定の態様は、本発明を単に説明するためであり、本発明を制限するためではないことが理解されるべきである。
本発明の態様において、高頻度の短い配列のリストは、予め定められた(プリセット)高頻度閾値に基づいて構築され、及び構築された高頻度の短い配列のリストにしたがって、各テスト配列において、離散的な高頻度の短い配列を有する領域の配列は、連続的な高頻度の短い配列の配列に再結合される。
図1は、本発明の態様において提供される、テスト配列の誤り訂正方法のフローチャートを示す。詳細は、以下のとおりである:
ステップS101:テスト配列を受け取り、予め定められた高頻度閾値に基づいて、高頻度の短い配列(kmer)リストを構築する。
ステップS102:それぞれの受け取ったテスト配列を配列方向に調べ、そして高頻度の短い配列のリストと組み合わせて、それぞれのテスト配列上の連続的な高頻度の短い配列の最大多数の領域を検索する。
ステップS103:対応する受け取ったテスト配列のリスト及び高頻度の短い配列にしたがって、少なくとも検索領域の左側の高頻度の短い配列のみからなる左側の配列を構築し、及び/又は、少なくとも検索領域の右側の高頻度の短い配列のみからなる右側の配列を構築する;及び
ステップS104:領域と構築した左側及び/又は右側の配列とを、対応するテスト配列に結合する。
本発明の態様において、上記ステップS101を、以下に記載する。
1.テスト配列を受け取り、そしてそれぞれの受け取ったテスト配列を、一塩基ごとに基づくプリセット長さを有する短い配列に分割する。
2.予め定められた高頻度閾値より大きい数値で現われる分割された短い配列に基づいて、高頻度の短い配列のリストを構築する。
ここで、それぞれの受け取ったテスト配列の長さに関して、処理手順のロジックに制限はないが、一般的には200塩基対(bp)以下である。短い配列の予め定められた長さnは17bpであり、予め定められた高頻度閾値は5(回)である。5回以上現われる短い配列は、高頻度の短い配列であると仮定される。高頻度の短い配列は、高頻度の短い配列のリストに追加される。もちろん、短い配列の予め定められた長さnは、1からテスト配列の塩基長までの任意の整数であることができる。しかし、nが17bpを超える場合、メモリ及び計算時間が増加し、及びnが17bp未満である場合、誤り訂正の効果が良くない。よって、nは好ましくは17bpである。高頻度閾値は、分割された短い配列の頻度分布に応じて決定してよい。理論的には、頻度分布には2つのピークがあるはずである:最初のピークは、配列誤りによってもたらされ、そして次のピークは、シークエンシングデプスによってもたらされる。したがって、最初の谷の値が、通常、高頻度閾値として使用される。
次に、それぞれのテスト配列で高頻度の短い配列の連続する最大多数を有する領域が検索される。ステップS102を、以下に詳述する。
1.それぞれの受け取ったテスト配列を配列方向に調べ、高頻度の短い配列のリストと組み合わせて、それぞれのテスト配列で高頻度の短い配列が連続した領域を検索する。つまり、テスト配列の短い配列が順番に配列方向に調べられる。短い配列が高頻度の短い配列のリストに現われる場合、短い配列は、高頻度の短い配列と考えられ、それ以外の場合、短い配列は、非高頻度の短い配列と考えられる。このようにそれぞれのテスト配列を配列方向に調べた後、それぞれのテスト配列に対応する高頻度の短い配列を連続的に有する領域を得ることができる。
2.それぞれのテストの配列上で検索された最長の領域を、連続的な高頻度の短い配列の最大数を有する領域として、取得する。ここで、それぞれのテスト配列で連続的な高頻度の短い配列の最大多数を有する領域は、[s1、s2]と置かれ、ここで、s1とs2は、対応するテスト配列の最初の塩基から、連続的な高頻度の短い配列を有する検索された最も長い領域の開始塩基と終了塩基までの塩基の数である。
テスト配列がX......Xln−1lnであって、ここでlが、テスト配列の塩基長である場合、Xは、テスト配列のi番目の塩基を表す。テスト配列の連続的な高頻度の短い配列を有する最長の領域は[26,46]であり、すなわち、X2627......X46は、テスト配列中の最長の高頻度の配列である。
その後、元のテスト配列と高頻度の短い配列のリストに基づいて、高頻度の短い配列のみで構築される配列はそれぞれ、[s1、s2]である左側及び右側に構築される。上記のステップS103を、以下に詳述する。
ステップ1:n−1の長さの配列を取得し、ツリーのルートノードとして対応するテスト配列のs1番目の塩基から始め、そしてs1の深さを有する左側のツリーを各ノードのリーフとしての4種類の塩基A、C、G、Tから構築する。構築されたツリーを、図2に示す。ここで、深さs1は26である。
ステップ2:左側のツリーを配列方向に調べ、高頻度の短い配列だけからなるパスを検索し、そしてリーフノードからパスの上方に沿って高頻度の短い配列だけからなる左側の配列を構築する。
ここで、ツリーはルートノードから下向きに配列方向に調べられる。ルートノードは、n−1の長さの配列Nであり、およびサブノードLは、順番に4種類の塩基、A、C、G、Tである。短い配列kmer=L+Nが高頻度の短い配列であるかどうか、すなわち、短い配列は、高頻度の短い配列のリストにあるかどうかが決定される。そうでない場合は、対応するベースの対応するパスが終了し、そして“yes”の場合、Lの値が、対応するテスト配列X......X4950中の、対応する塩基の値XS1−1に等しいかどうかが判断される。“yes”の場合、レベル1のノードのスコアであるスコアが0tと設定され、そうでない場合はレベル1のノードのスコアであるスコアが1と設定される。さらに、n−1の長さを有する配列Nを、kmerの左端で取る。短い配列kmer=L+Nは、上記の方法で解析され、およびそのサブノードLは、順に4種類の塩基A、C、G、Tである。反復と解析は、このルールにしたがってリーフノードに向かって実行される。反復の後、最小の総スコア
Figure 0005344774
が位置づけられ、ここでスコアは、対応するパスのレベルiノードスコアである。位置づけられた最小のパスは、高頻度の短い配列のみで構築されるパスである。リーフノードからルートノードへ配列方向に調べることにより得られた配列は、配置されるべき高頻度の短い配列だけからなる左側の配列である。もちろん、等しい最小合計スコアを有する複数のパスを反復後に得ている場合は、そのうちの一つがランダムに選択される。そして、配置されるべき高頻度の短い配列だけからなる左側の配列が、リーフノードからルートノードへ配列方向に調べることによって得られる。もちろん、ツリーはまた、高頻度の短い配列だけからなるパスを検索するために、下から上に配列方向に調べてよい。
ステップ3:テスト配列のs2番目の塩基から始まるn−1の長さの配列をツリーのルートノードとして取り、各ノードのリーフとして、4種類の塩基A、C、G、Tを有するl−(s2−1)の深さを有する右側のツリーを構築する。ここで、lはテスト配列の塩基長である。ツリーは、上記のステップ1と同様に構築されるため、ここでは説明を省略する。
ステップ4:右側のツリーを配列方向に調べ、高頻度の短い配列だけからなるパスを検索し、そしてルートノードからパスに沿って下方に、高頻度の短い配列だけからなる右側の配列を構築する。最小パスは上記のステップ2と同様に検索されるため、ここでは詳細な説明は省略する。
対応するテスト配列の右側及び左側にある高頻度の短い配列だけからなる配列が得られた後、得られた左側の配列は、対応する最長の高頻度配列Xs1s1+1... ... Xs2の左側に追加され、そして得られた右側の配列は、対応する最長の高頻度配列Xs1s1+1... ... Xs2の右側に追加される。すなわち、誤り訂正後の対応するテスト配列が得られる。
もちろん、対応するテスト配列における連続的な高頻度の短い配列の最大多数を有する領域が[1、s2]又は[s1、l]である場合、すなわち、領域がテスト配列の左端又は右端である場合、[s2、1]の右側の高頻度の短い配列だけからなる右側の配列を構築すること、又は[s1、l]の左側の高頻度の短い配列だけからなる左側の配列を構築する事のみが必要である。このような状況下では、対応するテスト配列が回復される場合、対応する最長の高頻度配列の左側に得られた左側の配列を足し、対応する最長の高頻度配列の右側に得られた右側の配列を足す事のみが必要とされる。
本発明のテスト配列の誤り訂正方式の技術的効果を、実験によって説明する。この実験では、本発明の上記の態様で提供される方法は、ヒト対照BAC及びアフリカ人のヒトゲノム上の誤り訂正を実行するために使用される。誤り訂正前のデータを、表1に示し、誤り訂正後のデータを、表2に示す:
Figure 0005344774
Figure 0005344774
表1及び表2に示すように、誤り訂正後、テスト配列における誤りのない配列の割合は約30%増加し、誤りのない配列の深さは約10%増加する。
以下は、本発明の態様で提供されるテスト配列の誤り訂正方法を、誤り訂正処理を実行するために使用する場合に必要なメモリリソースの概算である。短い配列が17塩基長であるときは、16Gのメモリが占有される。各スレッドがファイルを処理している時、一つのファイルに記憶されている全ての配列がメモリに読み込まれなければならないので、1つのテスト配列が50バイト、配列名が50バイト、及び各ファイルが10Mのテスト配列を占めると仮定すると、1つのファイルに記憶されているテスト配列について誤り訂正をするために、1Gのメモリが占有される必要がある。また、各スレッドは1Gのメモリを占有する個別の動的スケジューリングのテーブルを有するため、一つのスレッドは2Gのメモリを占有する。4つのスレッドをデフォルトで実行すると、24Gのメモリが占有される。
さらに、短い配列の頻度を計算し、そして頻度のリストを出力することにかかる消費時間は、ファイルのサイズと入力/出力条件に依存して変わる。一つのファイルを処理するのに約100秒かかる。アフリカ人のゲノムは合計606個のファイルを有する。最初のステップで、頻度のリストを出力するのに15時間かかる。
本発明の態様で提供されるテスト配列の誤り訂正方法を、テスト配列での誤り訂正を実行するために使用した後、その後の短い配列のゲノムアセンブリに占有されるメモリを50%低減し得る。また、低頻度の短い配列は、誤り訂正(すなわち、低頻度の短い配列は、高頻度の短い配列に訂正されている)の後に、高頻度の短い配列に合わされて、そしてそれに続くアセンブリの戦略は、アセンブリのために、より長めの短い配列(例えば25塩基長)に配列を分割するだけとなり、したがって、メモリの使用は低減される。
さらに、誤り訂正の速度を改善するために、複数のスレッドを、誤り訂正するすべてのファイルを分割して処理するのに使用してもよい。一つのファイルを処理するのに約1000秒かかり、そして4個のスレッドを用いて100個のファイルを処理するのに1000*100/4=25000s=約7時間かかる。第2ステップでは、6個のスレッドを、606個のアフリカ人のゲノムのファイルを6個のサブセットに分割して処理するのに使用する場合、たった7時間しかかからず、そして誤り訂正を実行するのに合計22時間かかる。
当業者であれば、実施態様により提供される上記の方法におけるこれらのステップの全て又は一部は、プログラムに指示にされた、関連するハードウェアで実行できることが可能であることを理解するであろう。該プログラムを、ROM/RAM、磁気ディスク、光ディスクなどの、コンピュータが読み取り可能な記憶媒体に保存することができる。プログラムは、以下のステップを実行するように構成される。
1.テスト配列を受け取り、そして高頻度の短い配列リストを、予め定められた高頻度閾値に基づき構築する;
2.それぞれの受け取ったテスト配列を配列方向に調べ、高頻度の短い配列リストと組み合わせて、それぞれのテスト配列上の連続した高頻度の短い配列の最大多数を有する領域を検索する;
3.対応する受け取ったテスト配列及び高頻度の短い配列のリストに従い、検索した領域の左側において高頻度の短い配列だけからなる左側の配列を構築すること、及び/又は検索した領域の右側において高頻度の短い配列だけからなる右側の配列を構築する、及び
4.領域と構築した左側及び/又は右側の配列とを結合して、対応するテスト配列にする。
図3は、本発明の態様で提供される、テスト配列の誤り訂正システムの構造を示している。説明を簡単にするために、本発明の態様に係る部分だけが示されている。
システムは、遺伝子アセンブリ装置で使用することができる。システムは、装置内で動作するソフトウェアユニット、ハードウェアユニット、又はソフトウェアユニットとハードウェアユニットの組み合わせでよく、装置又は独立したコンポーネントとして装置内で動作するアプリケーションシステムに統合することもでき、該システムにおいて:
テスト配列を受け取り、そして予め定められた高頻度閾値に基づいて、高頻度の短い配列のリストを構築するための、高頻度の短い配列の統計ユニット301。これの実行法は上述されているため、詳細な説明を省略する。
それぞれの受け取ったテスト配列を配列方向に調べ、高頻度の短い配列と組み合わせて、それぞれのテスト配列上の、連続した高頻度の短い配列の最大多数を有する領域を検索するための、高頻度領域の検索ユニット302。
対応する受け取ったテスト配列及び高頻度の短い配列のリストに従い、検索した領域の左側において高頻度の短い配列だけからなる左側の配列を構築すること、及び/又は検索した領域の右側において高頻度の短い配列だけからなる右側の配列を構築するための、配列構築ユニット303。
領域と、構築された左側及び/又は右側の配列を、対応するテスト配列へと結合する、配列回復ユニット304。
ここで、高頻度の短い配列の統計ユニット301は、以下を含む:
テスト配列を受け取り、それぞれの受け取ったテスト配列を、一塩基ごとに基づき予め定められた長さを有する短い配列に分割するための、短い配列分割モジュール3011。
予め定められた高頻度閾値より大きい数値で現われる分割された短い配列に基づいて、高頻度の短い配列のリストを構築するための、高頻度の短い配列の取得モジュール3012。これの実行法は上述されているため、詳細な説明を省略する。
また、配列構築ユニット303は以下を含む:
ツリーのルートノードとしての、対応するテスト配列のs1番目の塩基から始まるn−1の長さの配列を取得し、そしてs1の深さと4種類の塩基A、C、G、Tを各ノードのリーフとして有する左側のツリーを構築するための、左側のツリー構築ユニット3031。s1およびnの定義、並びに左側のツリー構築モジュール3031の実行法は、上述されているため、その説明を省略する。
左側のツリーを配列方向に調べ、高頻度の短い配列だけからなるパスを検索し、そしてリーフノードから上方へのパスに沿って高頻度の短い配列だけからなる左側の配列を構築する、左側の配列構築モジュール3032。これの実行法は上述されているため、説明を省略する。
ツリーのルートノードとしての、対応するテスト配列のs2番目の塩基から始まるn−1の長さの配列を取得し、各ノードのリーフとして、4種類の塩基A、C、G、Tを有するl−(s2−1)の深さを有する右側のツリーを構築するための、右側のツリーを構築するモジュール3033であって、ここでs2、n及びlの定義、並びに右側のツリー構築モジュール3033の実行法は上述されているため、説明を省略する。
高頻度の短い配列だけからなるパスを検索するために、右側のツリーを配列方向に調べ、ルートノードからパスに沿って下方に、高頻度の短い配列だけからなる右側の配列を構築するための、右側の配列構築モジュール3034。これの実行法は上述されているため、説明を省略する。
本発明の態様において、高頻度の短い配列のリストが予め定められた高頻度閾値に基づいて構築され、各テスト配列における離散的な高頻度の短い配列の領域の配列は、構築された高頻度の短い配列のリストによって、連続的な高頻度の短い配列の配列に再結合される。再結合された配列は、元のテスト配列の数と長さを保持し、配列の使用率が向上し、そして誤り訂正された配列において、誤りのない配列の割合と深さについて劇的な改善が達成されることが、実験を介して証明される。誤り訂正された配列は、比較的長い、高頻度の短い配列に分割してもよく、その後の短い配列のアセンブリ時のメモリの使用は大幅に低減される。
また、本発明は、上記のテスト配列の誤り訂正システムを包含する遺伝子アセンブリ装置も提供し、ここでアセンブリ時に占有されるメモリは、誤り訂正に付されていないテスト配列の場合に占有されるメモリよりも少ない。何故なら、誤りが訂正された配列は、アセンブリ用のやや長めの高頻度の短い配列に分割することができ、そしてより少ない高頻度の短い配列を得ることもでき、これによってメモリの使用を低減することができるからである。
上記態様は、本発明の好ましい態様だけであり、本発明を制限するものではない。本発明の精神と原理内の任意の変更、交替やバリエーションなどは、本発明の保護範囲内に含まれるものとする。

Claims (6)

  1. テスト配列の誤り訂正方法であって、
    テスト配列を受け取り、それぞれの受け取ったテスト配列を、一塩基ごとに基づく予め定められた長さを有する短い配列に分割すること、
    予め定められた高頻度閾値より大きい数値で現われる分割された短い配列に基づいて、高頻度の短い配列のリストを構築すること、
    それぞれの受け取ったテスト配列を配列方向に調べ、そして高頻度の短い配列リストと組み合わせて、それぞれのテスト配列上の、連続した高頻度の短い配列の最大多数を有する領域を検索すること、
    ツリーのルートノードとしての、対応するテスト配列のs1番目の塩基から始まるn−1の長さの配列を取得し、そしてs1の深さと4種類の塩基A、C、G、Tを各ノードのリーフとして有する左側のツリーを構築すること、
    左側のツリーを配列方向に調べ、高頻度の短い配列だけからなるパスを検索し、そしてリーフノードから上方へのパスに沿って高頻度の短い配列だけからなる左側の配列を構築すること、
    ツリーのルートノードとしての、対応するテスト配列のs2番目の塩基から始まるn−1の長さの配列を取得し、そしてl −(s2−1)の深さと4種類の塩基A、C、G、Tを各ノードのリーフとして有する右側のツリーを構築すること、
    右側のツリーを配列方向に調べ、高頻度の短い配列だけからなるパスを検索し、そしてルートノードからパスに沿って下方に、高頻度の短い配列だけからなる右側の配列を構築すること、
    ここで、前記s1、s2はそれぞれ対応するテスト配列の最初の塩基から、連続的な高頻度の短い配列の最大多数を有する検索された最も長い領域の開始塩基と終了塩基までの塩基の数であり、nは高頻度の短い配列の塩基長であり、及びl はテスト配列の塩基長であり、
    及び
    該左側の配列及び/又は右側の配列、及び連続的な高頻度の短い配列の最大多数を有する領域に従い、対応する最長の高頻度配列の左側に得られた左側の配列を足し、及び/又は対応する最長の高頻度配列の右側に得られた右側の配列を足して、対応するテスト配列を回復すること
    を含むことを特徴とする、方法。
  2. 前記予め定められた高頻度閾値を、予め定められた長さの、分割した短い配列の頻度分布に従って決定し、ここで予め定められた長さは17塩基長である、請求項に記載の方法。
  3. 前記受け取ったテスト配列の長さが200塩基以下である、請求項1に記載の方法。
  4. テスト配列の誤り訂正システムであって、前記システムは、
    テスト配列を受け取り、それぞれの受け取ったテスト配列を、一塩基ごとに基づく予め定められた長さを有する短い配列に分割するための、短い配列分割モジュールと、
    予め定められた高頻度閾値より大きい数値で現われる分割された短い配列に基づいて、高頻度の短い配列のリストを構築するための、高頻度の短い配列の取得モジュールと、
    それぞれの受け取ったテスト配列を配列方向に調べ、高頻度の短い配列のリストと組み合わせて、それぞれのテスト配列上の、連続した高頻度の短い配列の最大多数を有する領域を検索するための検索ユニットと、
    ツリーのルートノードとしての、対応するテスト配列のs1番目の塩基から始まるn−1の長さの配列を取得し、そしてs1の深さと4種類の塩基A、C、G、Tを各ノードのリーフとして有する左側のツリーを構築するための、左側のツリー構築モジュールと、
    左側のツリーを配列方向に調べ、高頻度の短い配列だけからなるパスを検索し、そしてリーフノードから上方へのパスに沿って高頻度の短い配列だけからなる左側の配列を構築する、左側の配列構築モジュールと、
    ツリーのルートノードとしての、対応するテスト配列のs2番目の塩基から始まるn−1の長さの配列を取得し、各ノードのリーフとして、4種類の塩基A、C、G、Tを有するl −(s2−1)の深さを有する右側のツリーを構築するための、右側のツリー構築モジュールと、
    右側のツリーを配列方向に調べ、高頻度の短い配列だけからなるパスを検索し、そしてルートノードからパスに沿って下方に、高頻度の短い配列のみからなる右側の配列を構築するための、右側の配列構築モジュールと、
    ここで、前記s1、s2はそれぞれ対応するテスト配列の最初の塩基から、連続的な高頻度の短い配列の最大多数を有する検索された最も長い領域の開始塩基と終了塩基の塩基までの数であり、nは高頻度の短い配列の塩基長であり、及びl はテスト配列の塩基長であり、及び
    該左側の配列及び/又は右側の配列、及び連続的な高頻度の短い配列の最大多数を有する領域に従い、対応する最長の高頻度配列の左側に得られた左側の配列を足し、及び/又は対応する最長の高頻度配列の右側に得られた右側の配列を足して、対応するテスト配列を回復するための、配列回復ユニット、とを含むことを特徴とする、システム。
  5. 前記予め定められた高頻度閾値を、予め定められた長さの、分割した短い配列の頻度分布に従って決定し、ここで予め定められた長さは17塩基長である、請求項に記載のシステム。
  6. 請求項4又は5に記載のテスト配列の誤り訂正システムを含む、遺伝子アセンブリ装置。
JP2011539874A 2008-12-12 2009-12-11 テスト配列の誤り訂正方法、対応するシステム及び遺伝子のアセンブリ装置 Active JP5344774B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200810218340.6 2008-12-12
CN2008102183406A CN101457253B (zh) 2008-12-12 2008-12-12 一种测序序列纠错方法、系统及设备
PCT/CN2009/001426 WO2010066114A1 (zh) 2008-12-12 2009-12-11 一种测序序列纠错方法、系统及基因组装设备

Publications (3)

Publication Number Publication Date
JP2012511752A JP2012511752A (ja) 2012-05-24
JP2012511752A5 JP2012511752A5 (ja) 2013-08-15
JP5344774B2 true JP5344774B2 (ja) 2013-11-20

Family

ID=40768373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011539874A Active JP5344774B2 (ja) 2008-12-12 2009-12-11 テスト配列の誤り訂正方法、対応するシステム及び遺伝子のアセンブリ装置

Country Status (6)

Country Link
US (1) US8751165B2 (ja)
EP (1) EP2377948B1 (ja)
JP (1) JP5344774B2 (ja)
CN (1) CN101457253B (ja)
HK (1) HK1161313A1 (ja)
WO (1) WO2010066114A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3084426B1 (en) * 2013-12-18 2020-04-15 Pacific Biosciences Of California, Inc. Iterative clustering of sequence reads for error correction
CN103971031B (zh) * 2014-05-04 2017-05-17 南京师范大学 一种面向大规模基因数据的读段定位方法
JP6520362B2 (ja) * 2014-08-25 2019-05-29 富士通株式会社 生成方法、装置、及びプログラム
US20160335298A1 (en) * 2015-05-12 2016-11-17 Extreme Networks, Inc. Methods, systems, and non-transitory computer readable media for generating a tree structure with nodal comparison fields and cut values for rapid tree traversal and reduced numbers of full comparisons at leaf nodes
EP3295345B1 (en) 2015-05-14 2023-01-25 Life Technologies Corporation Barcode sequences, and related systems and methods
CN105063208B (zh) * 2015-08-10 2018-03-06 北京吉因加科技有限公司 一种血浆中游离的目标dna低频突变富集测序方法
CN111385022B (zh) * 2018-12-29 2022-02-25 深圳市海思半导体有限公司 误码检测方法及相关设备
CN114937475A (zh) * 2022-04-12 2022-08-23 桂林电子科技大学 一种PacBio测序数据纠错结果的自动化评估方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001236555A1 (en) * 2000-02-22 2001-09-03 Pe Corporation (Ny) Method and system for the assembly of a whole genome using a shot-gun data set
CN1169967C (zh) * 2001-11-16 2004-10-06 北京华大基因研究中心 一种基于重复序列识别的全基因组测序数据的拼接方法
CN2684471Y (zh) * 2004-03-15 2005-03-09 北京格林威尔科技发展有限公司 内嵌误码测试功能的光端机

Also Published As

Publication number Publication date
EP2377948A1 (en) 2011-10-19
HK1161313A1 (zh) 2012-08-24
CN101457253A (zh) 2009-06-17
CN101457253B (zh) 2011-08-31
JP2012511752A (ja) 2012-05-24
EP2377948A4 (en) 2014-07-30
US20110295784A1 (en) 2011-12-01
US8751165B2 (en) 2014-06-10
EP2377948B1 (en) 2016-05-18
WO2010066114A1 (zh) 2010-06-17

Similar Documents

Publication Publication Date Title
JP5344774B2 (ja) テスト配列の誤り訂正方法、対応するシステム及び遺伝子のアセンブリ装置
EP3477556A1 (en) Method and apparatus for performing operations in convolutional neural network
CN108415841B (zh) 一种基于覆盖力度增量的组合测试用例优先级排序方法
EP3072076B1 (en) A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure
US11372929B2 (en) Sorting an array consisting of a large number of elements
CN111445952B (zh) 超长基因序列的相似性快速比对方法及系统
Roberts et al. A preprocessor for shotgun assembly of large genomes
US20140121991A1 (en) System and method for aligning genome sequence
US20140121983A1 (en) System and method for aligning genome sequence
He et al. De novo assembly methods for next generation sequencing data
US10783983B2 (en) Variant information processing device and method
US20200243162A1 (en) Method, system, and computing device for optimizing computing operations of gene sequencing system
US20140121986A1 (en) System and method for aligning genome sequence
US9348968B2 (en) System and method for processing genome sequence in consideration of seed length
CN115392048A (zh) 一种基于约束求解引擎的带约束随机数生成方法
Ye et al. SparseAssembler: de novo Assembly with the Sparse de Bruijn Graph
KR101584857B1 (ko) 염기 서열 정렬 시스템 및 방법
Pavetić et al. $ LCSk $++: Practical similarity metric for long strings
US20140379271A1 (en) System and method for aligning genome sequence
US9864765B2 (en) Entry insertion apparatus, method, and program
CN112825267B (zh) 确定小核酸序列集合的方法及其应用
CN107944038B (zh) 一种去重数据的生成方法及装置
US20140121988A1 (en) System and method for aligning genome sequence considering repeats
Liang et al. A fast sequence assembly method based on compressed data structures
CN114546944A (zh) 多进程负载均衡的数据库文件排序优化方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130626

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130626

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130702

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130716

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20130716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130812

R150 Certificate of patent or registration of utility model

Ref document number: 5344774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250