JP7052955B2 - 配列決定データリード再整列の方法、コンピュータシステム及びコンピュータプログラム製品 - Google Patents
配列決定データリード再整列の方法、コンピュータシステム及びコンピュータプログラム製品 Download PDFInfo
- Publication number
- JP7052955B2 JP7052955B2 JP2019524960A JP2019524960A JP7052955B2 JP 7052955 B2 JP7052955 B2 JP 7052955B2 JP 2019524960 A JP2019524960 A JP 2019524960A JP 2019524960 A JP2019524960 A JP 2019524960A JP 7052955 B2 JP7052955 B2 JP 7052955B2
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- realignment
- indels
- sequence
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 265
- 238000004590 computer program Methods 0.000 title claims description 14
- 238000012163 sequencing technique Methods 0.000 title description 33
- 230000008569 process Effects 0.000 claims description 191
- 238000002864 sequence alignment Methods 0.000 claims description 93
- 238000012913 prioritisation Methods 0.000 claims description 27
- 238000011144 upstream manufacturing Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 6
- 230000035772 mutation Effects 0.000 description 40
- 238000012545 processing Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 28
- 230000008707 rearrangement Effects 0.000 description 28
- 238000003780 insertion Methods 0.000 description 22
- 230000037431 insertion Effects 0.000 description 22
- 239000002773 nucleotide Substances 0.000 description 21
- 125000003729 nucleotide group Chemical group 0.000 description 21
- 101000708766 Homo sapiens Structural maintenance of chromosomes protein 3 Proteins 0.000 description 16
- 239000000523 sample Substances 0.000 description 15
- 238000012217 deletion Methods 0.000 description 13
- 230000037430 deletion Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 11
- 235000019506 cigar Nutrition 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 10
- 238000007481 next generation sequencing Methods 0.000 description 10
- 108090000623 proteins and genes Proteins 0.000 description 9
- 206010028980 Neoplasm Diseases 0.000 description 8
- 206010069754 Acquired gene mutation Diseases 0.000 description 7
- 230000002146 bilateral effect Effects 0.000 description 7
- 230000037439 somatic mutation Effects 0.000 description 7
- 201000011510 cancer Diseases 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 108020004707 nucleic acids Proteins 0.000 description 5
- 150000007523 nucleic acids Chemical class 0.000 description 5
- 102000039446 nucleic acids Human genes 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 239000012472 biological sample Substances 0.000 description 4
- 210000000349 chromosome Anatomy 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002347 injection Methods 0.000 description 3
- 239000007924 injection Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 210000001082 somatic cell Anatomy 0.000 description 3
- 108700028369 Alleles Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 108060002716 Exonuclease Proteins 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 238000000862 absorption spectrum Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000295 emission spectrum Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 102000013165 exonuclease Human genes 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 238000003205 genotyping method Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002703 mutagenesis Methods 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000002165 resonance energy transfer Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Eye Examination Apparatus (AREA)
Description
(i)リードのアライメントが、リファレンスに対して一致しない単一の塩基のみを有し、インデルを有せず、それに対して、リードの他方のアライメントが1つ又は複数のインデルを有する場合には、単一の不一致を有し、インデルを有しないアライメントの方を選ぶ。インデルを有せず、一致しない単一の塩基のみを有するアライメントを、1つ又は複数のインデルを有する候補アライメントよりも優先する、
(ii)インデルの数にかかわらず、一致しない塩基(すなわち、アライメントの整列されたリードとリファレンスとの間の不一致)の数を最小化する。一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも優先する、
(iii)リファレンスに対して一致しない同数の塩基を所与として、より少数の非Nソフトクリップを有するアライメントの方を選ぶ。一致しない同数の塩基を有するアライメントの間で、指定された種類(例えば、N)のより少数のソフトクリップを有するアライメントを、指定された種類のより多数のソフトクリップを有するアライメントよりも優先する、並びに
(iv)リファレンスに対して一致しないものの同数塩基を所与として、より少数のインデルを有するアライメントの方を選ぶ。一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも優先する。
(i)「既知」/既存物を優先(使用する場合) - 優先順位付けは、リファレンスインデルデータセットによって既存の既知のインデルであると指示されるインデルを、リファレンスインデルデータセットによって既存の既知のインデルであると指示されないインデルよりも、たとえ、「既存物」として指示されないそのインデルが配列アライメントデータセット内では重く指示される場合でも、優先することができる、
(ii)より大きい/より長いインデルを優先 - 優先順位付けは、より長い長さのインデルをより短い長さのインデルよりも優先することができる。より長いインデルを、より小さいものよりも、たとえ、配列アライメントデータセット内により高頻度で出現し得るものであっても、高くランク付けし得る、
(iii)より高頻度、例えば、所与の位置におけるインデルの存在を指示するより多数のリード内に存在するインデルを優先 - 優先順位付けは、配列アライメントデータセットの、より大きな総数のリード配列、又はより大きな比率のリード配列内で指示されるインデルを、リファレンス配列内の所与の位置に対応する配列アライメントデータセットの、それぞれ、より少数又はより小さな比率の整列されたリード内で指示されるインデルよりも優先することができる、
(iv)同じ頻度である場合には、最も左のインデルを優先 - 優先順位付けは、配列アライメントデータセットの同数の整列されたリードにおいて指示される異なるインデルの間で、配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別のインデルのために指示される、リファレンスゲノム配列内の部位より上流にあるインデルを優先することができる。一例として、処理がリード202bの再整列を試みる際に、インデル208aは実際にインデル208bよりも高くランク付けされ得る。
- [1つのインデルの反復:]I1、次に、I2、次に、I3、・・・、次に、Inを導入する。次に、
- [2つのインデルの反復:]I1 + I2、次に、I1 + I3、・・・、次に、I1 + In、次に、I2 + I3、次に、I2 + I4、・・・、次に、I2 + In、・・・、次に、In-1 + Inを導入する。次に、
- [3つのインデルの反復:]I1 + I2 + I3、・・・、次に、In-2 + In-1 + Inを導入する。
BestResultSoFarを空に初期化する;
候補インデルAごとに、ランク付けの順に:
//1つのインデルに対する整列を試す:
RealignToTargetsルーチンを遂行し、結果ResultAを得る;
ResultAがBestResultSoFarよりも良好である場合には、ResultAがBestResultSoFarになる;
BestResultSoFarが1つのインデル及び0個の不一致を有する場合には、中断し、それを最良のリアライメントとして保持する。
//2つのインデルに対する整列を試す:
追加の候補インデルBごとに:
インデルA及びBが共存することができない場合には、この対を飛ばす;
RealignToTargetsルーチンを遂行し、結果ResultABを得る;
ResultABがBestResultSoFarよりも良好である場合には、ResultABがBestResultSoFarになる
//3つのインデルに対する整列を試す:
3つの組み合わせを試すように構成される場合には、追加の候補インデルCごとに:
インデルA、B、及びCが共存することができない場合には、この三つ組を飛ばす;
BestResultSoFarが>0個の不一致を有する場合には:
RealignToTargetsルーチンを遂行し、結果ResultABCを得る;
ResultABCがBestResultSoFarよりも良好である場合には、ResultABCがBestResultSoFarになる;
BestResultSoFarを返す;
例えば、組み合わせて査定されるべき1~3つの候補インデルのリストである、CombinationIndelsを所与として:
//左側固定を用いて結果を得る:
調整された位置を得る:リード位置を接頭ソフトクリップ(Nソフトクリップを除く)の長さだけ左に移動させる。リードが、挿入、又はソフトクリップ+挿入で開始する場合には、リード位置をその挿入の長さだけ左に移動させる;
CIGARを有する平坦化されたリード、配列、及び全ての一致を仮定した位置マップ(末端のNを除外)を作成する。結果として生じるリードは、リード(末端のNを除外)内の全ての塩基のために「M」のCIGAR文字列を有するであろう;
ResultLeftAnchoredを初期化する;
CombinationIndels内のインデルXごとに、位置の昇順で:
AddIndelAndGetResultルーチンを遂行し(図11)、ResultAlignmentを変更する(連続したインデル上に積層する);
//右側固定を用いて結果を得る:
調整された位置を得る:位置マップ内の最大位置を見つけ、それに、リードの端部に存在する挿入又はソフトクリップされた塩基の数を加算する。リードの調整された開始位置は、その最大位置・マイナス・リード長になる;
CIGARを有する平坦化されたリード、配列、及び全ての一致を仮定した位置マップ(末端のNを除外)を作成する。結果として生じるリードは、リード(末端のNを除外)内の全ての塩基のために「M」のCIGAR文字列を有するであろう;
ResultRightAnchoredを初期化する
CombinationIndels内のインデルXごとに、位置の降順で:
AddIndelAndGetResultルーチンを遂行し、ResultAlignmentを変更する(連続したインデル上に積層する);
ResultLeftAnchored及びResultRightAnchoredのうちのより良好なものを返す。引き分けの場合には、ResultLeftAnchoredを返す。
[発明の項目]
[項目1]
配列決定データリード再整列のためのコンピュータ実施方法であって、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得るステップであって、前記初期アライメントが、整列されたリードを含む、ステップと、
前記初期アライメントに対して再整列処理を遂行するステップであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
を含む、ステップと、
1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供するステップと、
を含む、コンピュータ実施方法。
[項目2]
前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供する、項目1に記載のコンピュータ実施方法。
[項目3]
前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、項目2に記載のコンピュータ実施方法。
[項目4]
前記再整列処理が、
前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、項目3に記載のコンピュータ実施方法。
[項目5]
前記再整列処理が、前記複数のインデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数のインデルを、前記優先順位付けすることに基づく優先順位に従って導入する、項目2に記載のコンピュータ実施方法。
[項目6]
前記優先順位付けすることが、リファレンスインデルデータセットによって既存の既知のインデルであると指示されたインデルを、前記リファレンスインデルデータセットによって、既存の既知のインデルであると指示されないインデルよりも優先する、項目5に記載のコンピュータ実施方法。
[項目7]
前記優先順位付けすることが、より長い長さのインデルをより短い長さのインデルよりも優先する、項目5に記載のコンピュータ実施方法。
[項目8]
前記優先順位付けすることが、前記配列アライメントデータセットのより多数の整列されたリードにおいて指示されるインデルを、前記配列アライメントデータセットのより少数の整列されたリードにおいて指示されるインデルよりも優先するか、又は前記優先順位付けすることが、前記リファレンス配列に対するインデルの部位に対応する前記配列アライメントデータセットのより大きい比率の整列されたリードにおいて指示される前記インデルを、前記配列アライメントデータセットのより小さい比率の整列されたリードにおいて指示されるインデルよりも優先する、項目5に記載のコンピュータ実施方法。
[項目9]
前記優先順位付けすることが、前記配列アライメントデータセットの同数の整列されたリードにおいて指示される異なるインデルの間で、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別のインデルのために指示される前記リファレンスゲノム配列に対する部位より上流にあるインデルを優先する、項目5に記載のコンピュータ実施方法。
[項目10]
前記選択基準が、一致しない塩基の数、インデルの数、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対するインデルの部位、及びソフトクリップされた塩基の数のうちの1つ又は複数に少なくとも一部基づく、項目1に記載のコンピュータ実施方法。
[項目11]
前記選択基準が、
インデルを有せず、一致しない単一の塩基のみを有するアライメントを、1つ又は複数のインデルを有するアライメントよりも前記提供のために優先すること、
一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも前記提供のために優先すること、
一致しない同数の塩基を有する異なるアライメントの間で、指定された種類のより少数のソフトクリップを有するアライメントを、前記指定された種類のより多数のソフトクリップを有するアライメントよりも前記提供のために優先すること、並びに
一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも前記提供のために優先すること、
のうちの1つ又は複数である、項目1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
[項目12]
前記再整列処理が、前記1つ又は複数の選択基準のうちの第1の基準に基づいて前記1つ又は複数の候補リアライメントのうちの最良の候補リアライメントを選択することをさらに含み、前記選択された候補リアライメントが、前記選択された最良の候補リアライメントであり、前記出力することが、前記1つ又は複数の選択基準のうちの第2の基準に基づいて前記初期アライメントと前記最良のリアライメント候補との間で選択する、項目1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
[項目13]
前記得られた初期アライメントが再整列に適格であるかどうかを判定するステップをさらに含み、該判定するステップが、
前記初期アライメントの前記整列されたリードと前記リファレンス配列との間で一致しない1つ又は複数の塩基が存在するかどうかを識別すること、
前記整列されたリードがソフトクリップを含むかどうかを識別すること、
前記初期アライメントが二次アライメントではないかどうかを識別すること、及び
前記配列アライメントデータセットのリファレンスゲノム配列の塩基の領域内において、前記整列されたリードの周りに候補インデルが存在するかどうかを識別すること、
のうちの1つ又は複数に少なくとも一部基づく、項目1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
[項目14]
前記得られた初期アライメントが再整列に適格であるかどうかを判定し、前記再整列処理と、前記得られた初期アライメントが再整列に適格であると判定したことに基づいて、前記初期アライメント又は選択された候補リアライメントを前記提供することとを遂行するステップと、
前記配列アライメントデータセットの1つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに、前記得ること、及び前記得られた追加の初期アライメントが再整列に適格であるかどうかを前記判定することを繰り返すステップと、
前記1つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに処理を遂行するステップであって、処理を遂行する前記ステップが、
(i)前記再整列処理を遂行せず、前記追加の初期アライメントをそのまま提供すること、又は
(ii)前記再整列処理と、前記追加の初期アライメント若しくは選択された候補リアライメントを前記提供することとを遂行することを含む、ステップと、
をさらに含む、項目1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
[項目15]
配列決定データリード再整列のためのコンピュータシステムであって、メモリと少なくとも1つのプロセッサとを備え、方法を遂行するためのプログラム命令を実行するように構成されており、前記方法が、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
を含む、遂行することと、
1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
を含む、コンピュータシステム。
[項目16]
前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、項目15に記載のコンピュータシステム。
[項目17]
前記再整列処理が、
前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、項目16に記載のコンピュータシステム。
[項目18]
前記再整列処理が、前記複数のインデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数のインデルを、前記優先順位付けすることに基づく優先順位に従って導入する、項目16又は17に記載のコンピュータシステム。
[項目19]
配列決定データリード再整列のためのコンピュータプログラム製品であって、
方法を遂行するための実行用のプログラム命令を記憶する有形記憶媒体を含み、前記方法が、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
を含む、遂行することと、
1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
を含む、コンピュータプログラム製品。
[項目20]
前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、項目19に記載のコンピュータプログラム製品。
[項目21]
前記再整列処理が、
前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、項目20に記載のコンピュータプログラム製品。
[項目22]
前記再整列処理が、前記複数のインデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数のインデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項20又は21に記載のコンピュータプログラム製品。
Claims (22)
- 配列決定データリード再整列のためのコンピュータ実施方法であって、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得るステップであって、前記初期アライメントが、整列されたリードを含む、ステップと、
前記初期アライメントに対して再整列処理を遂行するステップであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
を含む、ステップと、
1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供するステップと、
を含む、コンピュータ実施方法。 - 前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供する、請求項1に記載のコンピュータ実施方法。
- 前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの複数の順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、請求項2に記載のコンピュータ実施方法。
- 前記再整列処理が、
前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、請求項3に記載のコンピュータ実施方法。 - 前記再整列処理が、前記複数の候補インデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数の候補インデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項2に記載のコンピュータ実施方法。
- 前記優先順位付けすることが、リファレンスインデルデータセットによって既存の既知の候補インデルであると指示された候補インデルを、前記リファレンスインデルデータセットによって、既存の既知の候補インデルであると指示されない候補インデルよりも優先する、請求項5に記載のコンピュータ実施方法。
- 前記優先順位付けすることが、より長い長さの候補インデルをより短い長さの候補インデルよりも優先する、請求項5に記載のコンピュータ実施方法。
- 前記優先順位付けすることが、前記配列アライメントデータセットのより多数の整列されたリードにおいて指示される候補インデルを、前記配列アライメントデータセットのより少数の整列されたリードにおいて指示される候補インデルよりも優先するか、又は前記優先順位付けすることが、前記リファレンス配列に対する候補インデルの部位に対応する前記配列アライメントデータセットのより大きい比率の整列されたリードにおいて指示される前記候補インデルを、前記配列アライメントデータセットのより小さい比率の整列されたリードにおいて指示される候補インデルよりも優先する、請求項5に記載のコンピュータ実施方法。
- 前記優先順位付けすることが、前記配列アライメントデータセットの同数の整列されたリードにおいて指示される異なる候補インデルの間で、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対する部位が、別の候補インデルのために指示される前記リファレンスゲノム配列に対する部位より上流にある候補インデルを優先する、請求項5に記載のコンピュータ実施方法。
- 前記選択基準が、一致しない塩基の数、インデルの数、前記配列アライメントデータセットによって指示されるリファレンスゲノム配列に対するインデルの部位、及びソフトクリップされた塩基の数のうちの1つ又は複数に少なくとも一部基づく、請求項1に記載のコンピュータ実施方法。
- 前記選択基準が、
インデルを有せず、一致しない単一の塩基のみを有するアライメントを、1つ又は複数のインデルを有するアライメントよりも前記提供のために優先すること、
一致しないより少数の塩基を有するアライメントを、一致しないより多数の塩基を有するアライメントよりも前記提供のために優先すること、
一致しない同数の塩基を有する異なるアライメントの間で、指定された種類のより少数のソフトクリップを有するアライメントを、前記指定された種類のより多数のソフトクリップを有するアライメントよりも前記提供のために優先すること、並びに
一致しない同数の塩基を有する異なるアライメントの間で、より少数のインデルを有するアライメントを、より多数のインデルを有するアライメントよりも前記提供のために優先すること、
のうちの1つ又は複数である、請求項1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。 - 前記再整列処理が、前記1つ又は複数の選択基準のうちの第1の基準に基づいて前記1つ又は複数の候補リアライメントのうちの最良の候補リアライメントを選択することをさらに含み、前記選択された候補リアライメントが、前記選択された最良の候補リアライメントであり、前記出力することが、前記1つ又は複数の選択基準のうちの第2の基準に基づいて前記初期アライメントと前記最良のリアライメント候補との間で選択する、請求項1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。
- 前記得られた初期アライメントが再整列に適格であるかどうかを判定するステップをさらに含み、該判定するステップが、
前記初期アライメントの前記整列されたリードと前記リファレンス配列との間で一致しない1つ又は複数の塩基が存在するかどうかを識別すること、
前記整列されたリードがソフトクリップを含むかどうかを識別すること、
前記初期アライメントが二次アライメントではないかどうかを識別すること、及び
前記配列アライメントデータセットのリファレンスゲノム配列の塩基の領域内において、前記整列されたリードの周りに候補インデルが存在するかどうかを識別すること、
のうちの1つ又は複数に少なくとも一部基づく、請求項1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。 - 前記得られた初期アライメントが再整列に適格であるかどうかを判定し、前記再整列処理と、前記得られた初期アライメントが再整列に適格であると判定したことに基づいて、前記初期アライメント又は選択された候補リアライメントを前記提供することとを遂行するステップと、
前記配列アライメントデータセットの1つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに、追加の初期アライメントを得ること、及び前記得られた追加の初期アライメントが再整列に適格であるかどうかを判定することを繰り返すステップと、
前記1つ又は複数の追加の初期アライメントのうちの追加の初期アライメントごとに処理を遂行するステップであって、処理を遂行する前記ステップが、
(i)前記再整列処理を遂行せず、前記追加の初期アライメントをそのまま提供すること、又は
(ii)前記再整列処理と、前記追加の初期アライメント若しくは選択された候補リアライメントを前記提供することとを遂行することを含む、ステップと、
をさらに含む、請求項1、2、3、4、5及び10のいずれか一項に記載のコンピュータ実施方法。 - 配列決定データリード再整列のためのコンピュータシステムであって、メモリと少なくとも1つのプロセッサとを備え、方法を遂行するためのプログラム命令を実行するように構成されており、前記方法が、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
を含む、遂行することと、
1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
を含む、コンピュータシステム。 - 前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの複数の順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、請求項15に記載のコンピュータシステム。
- 前記再整列処理が、
前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、請求項16に記載のコンピュータシステム。 - 前記再整列処理が、前記複数の候補インデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数の候補インデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項16又は17に記載のコンピュータシステム。
- 配列決定データリード再整列のためのコンピュータプログラム製品であって、
方法を遂行するための実行用のプログラム命令を記憶する有形記憶媒体を含み、前記方法が、
配列アライメントデータセットから、リファレンス配列に対するリード配列の初期アライメントを得ることであって、前記初期アライメントが、整列されたリードを含む、得ることと、
前記初期アライメントに対して再整列処理を遂行することであって、前記再整列処理が前記リード配列を前記リファレンス配列に対して再整列し、1つ又は複数の候補リアライメントを生成し、前記再整列処理が、
1つ又は複数の候補インデルを識別することであって、前記1つ又は複数の候補インデルが、前記整列されたリード内の0個以上のインデル、及び前記配列アライメントデータセットによって指示されるとおりの前記整列されたリードの近位において整列された0個以上のインデルを含む、識別すること、
前記整列されたリードから、前記初期アライメントによって指示されるあらゆるインデルを除去することに少なくとも基づいて、平坦化された整列されたリードを作成すること、並びに
前記1つ又は複数の候補リアライメントの候補リアライメントごとに、前記1つ又は複数の候補インデルのうちのそれぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することに基づいて、前記リファレンス配列に対する前記リード配列の前記1つ又は複数の候補リアライメントを決定すること、
を含む、遂行することと、
1つ又は複数の選択基準に基づいて、前記初期アライメント、又は前記1つ又は複数の候補リアライメントのうちの選択された候補リアライメントを提供することと、
を含む、コンピュータプログラム製品。 - 前記1つ又は複数の候補インデルが複数の候補インデルを含み、前記1つ又は複数の候補リアライメントを前記決定することが、前記複数の候補インデルを前記平坦化された整列されたリードに反復的に導入することを開始することを含み、前記反復的に導入することの各反復が、前記候補リアライメントのための前記それぞれの少なくとも1つの候補インデルを前記平坦化された整列されたリードに導入することによって、前記1つ又は複数の候補リアライメントの候補リアライメントを提供し、前記反復的に導入することが、前記複数の候補インデルのうちの1つ又は複数の候補インデルの複数の順列を前記平坦化された整列されたリードに導入し、前記複数の順列のうちの順列ごとに、前記1つ又は複数の候補アライメントの異なる候補リアライメントを得る、請求項19に記載のコンピュータプログラム製品。
- 前記再整列処理が、
前記1つ又は複数の候補リアライメントのうちの提供された候補リアライメントを検査し、前記導入されたそれぞれの1つ又は複数の候補インデルを有する前記提供された候補リアライメントの整列されたリードが、前記提供された候補リアライメントの前記整列されたリードと前記リファレンス配列との間で一致しない塩基を有することなく、前記リファレンス配列と整列するかどうかを判定すること、
前記提供された候補リアライメントの前記整列されたリードが、一致しない塩基を有することなく、前記リファレンス配列と整列すると判定したことに基づいて、前記反復的に導入することを停止すること、並びに
前記提供された候補リアライメントを、前記選択された候補リアライメントとして選択することであって、前記提供することが、前記リファレンス配列と整列する前記提供された候補リアライメントの前記整列されたリードに基づいて、前記選択された候補リアライメントを出力する、選択すること、
をさらに含む、請求項20に記載のコンピュータプログラム製品。 - 前記再整列処理が、前記複数の候補インデルを前記反復的に導入することのために優先順位付けすることをさらに含み、前記反復的に導入することが、前記複数の候補インデルを、前記優先順位付けすることに基づく優先順位に従って導入する、請求項20又は21に記載のコンピュータプログラム製品。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662422841P | 2016-11-16 | 2016-11-16 | |
US62/422,841 | 2016-11-16 | ||
US201762447103P | 2017-01-17 | 2017-01-17 | |
US62/447,103 | 2017-01-17 | ||
US201762480330P | 2017-03-31 | 2017-03-31 | |
US62/480,330 | 2017-03-31 | ||
PCT/US2017/061661 WO2018093804A1 (en) | 2016-11-16 | 2017-11-15 | Methods of sequencing data read realignment |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020506447A JP2020506447A (ja) | 2020-02-27 |
JP7052955B2 true JP7052955B2 (ja) | 2022-04-12 |
Family
ID=60543712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019524960A Active JP7052955B2 (ja) | 2016-11-16 | 2017-11-15 | 配列決定データリード再整列の方法、コンピュータシステム及びコンピュータプログラム製品 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20190287647A1 (ja) |
EP (2) | EP4300501A3 (ja) |
JP (1) | JP7052955B2 (ja) |
KR (1) | KR102425673B1 (ja) |
CN (2) | CN110168647B (ja) |
AU (2) | AU2017361069B2 (ja) |
BR (1) | BR112019009830A2 (ja) |
CA (1) | CA3043875A1 (ja) |
SG (1) | SG10202104266VA (ja) |
WO (1) | WO2018093804A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754845B (zh) * | 2018-12-29 | 2020-02-28 | 浙江安诺优达生物科技有限公司 | 模拟目标疾病仿真测序文库的方法及其应用 |
CN109935275B (zh) * | 2018-12-29 | 2021-09-07 | 北京安诺优达医学检验实验室有限公司 | 序列变异校验方法和装置、生产变异序列的方法和装置及电子设备 |
CN112825267B (zh) * | 2019-11-21 | 2024-05-14 | 深圳华大基因科技服务有限公司 | 确定小核酸序列集合的方法及其应用 |
EP4070320A1 (en) * | 2019-12-05 | 2022-10-12 | Illumina, Inc. | Rapid detection of gene fusions |
CN112530522B (zh) * | 2020-12-15 | 2022-10-28 | 中国科学院深圳先进技术研究院 | 序列纠错方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012235723A (ja) | 2011-05-11 | 2012-12-06 | National Cancer Center | 大規模塩基配列解析方法、プログラム及び装置 |
JP2014507133A (ja) | 2010-12-30 | 2014-03-27 | ファウンデーション メディシン インコーポレイテッド | 腫瘍試料の多重遺伝子分析の最適化 |
US20150324519A1 (en) | 2014-05-12 | 2015-11-12 | Roche Molecular System, Inc. | Rare variant calls in ultra-deep sequencing |
US20150337388A1 (en) | 2012-12-17 | 2015-11-26 | Virginia Tech Intellectual Properties, Inc. | Methods and compositions for identifying global microsatellite instability and for characterizing informative microsatellite loci |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011139797A2 (en) * | 2010-04-27 | 2011-11-10 | Spiral Genetics Inc. | Method and system for analysis and error correction of biological sequences and inference of relationship for multiple samples |
US20120203792A1 (en) * | 2011-02-01 | 2012-08-09 | Life Technologies Corporation | Systems and methods for mapping sequence reads |
WO2014041380A1 (en) * | 2012-09-11 | 2014-03-20 | Kps Zrt. | Method and computer program product for detecting mutation in a nucleotide sequence |
US9916416B2 (en) * | 2012-10-18 | 2018-03-13 | Virginia Tech Intellectual Properties, Inc. | System and method for genotyping using informed error profiles |
KR101480897B1 (ko) * | 2012-10-29 | 2015-01-12 | 삼성에스디에스 주식회사 | 염기 서열 정렬 시스템 및 방법 |
KR101482010B1 (ko) * | 2013-01-23 | 2015-01-14 | 숭실대학교산학협력단 | 전체 유전체 서열분석을 위한 초고속 범용 검색장치 및 방법 |
CN103146823A (zh) * | 2013-02-27 | 2013-06-12 | 西北农林科技大学 | 一种设计碱基替换或插入缺失的snp分子标记的方法 |
US10191929B2 (en) * | 2013-05-29 | 2019-01-29 | Noblis, Inc. | Systems and methods for SNP analysis and genome sequencing |
US9898575B2 (en) * | 2013-08-21 | 2018-02-20 | Seven Bridges Genomics Inc. | Methods and systems for aligning sequences |
CN104834833B (zh) * | 2014-02-12 | 2017-12-05 | 深圳华大基因科技有限公司 | 单核苷酸多态性的检测方法及装置 |
CN105989246B (zh) * | 2015-01-28 | 2018-10-26 | 深圳华大智造科技有限公司 | 一种基于基因组组装的变异检测方法和装置 |
CN104794371B (zh) * | 2015-04-29 | 2018-02-09 | 深圳华大生命科学研究院 | 检测逆转座子插入多态性的方法和装置 |
CN105631242B (zh) * | 2015-12-25 | 2018-09-11 | 中国农业大学 | 一种利用全基因组测序数据鉴定转基因事件的方法 |
-
2017
- 2017-11-15 US US16/349,152 patent/US20190287647A1/en active Pending
- 2017-11-15 WO PCT/US2017/061661 patent/WO2018093804A1/en unknown
- 2017-11-15 SG SG10202104266VA patent/SG10202104266VA/en unknown
- 2017-11-15 CA CA3043875A patent/CA3043875A1/en active Pending
- 2017-11-15 JP JP2019524960A patent/JP7052955B2/ja active Active
- 2017-11-15 EP EP23207604.2A patent/EP4300501A3/en active Pending
- 2017-11-15 EP EP17808277.2A patent/EP3542293B1/en active Active
- 2017-11-15 AU AU2017361069A patent/AU2017361069B2/en active Active
- 2017-11-15 BR BR112019009830A patent/BR112019009830A2/pt unknown
- 2017-11-15 CN CN201780077066.2A patent/CN110168647B/zh active Active
- 2017-11-15 KR KR1020197016094A patent/KR102425673B1/ko active IP Right Grant
- 2017-11-15 CN CN202311487928.2A patent/CN117457074A/zh active Pending
-
2023
- 2023-11-14 AU AU2023266266A patent/AU2023266266A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014507133A (ja) | 2010-12-30 | 2014-03-27 | ファウンデーション メディシン インコーポレイテッド | 腫瘍試料の多重遺伝子分析の最適化 |
JP2012235723A (ja) | 2011-05-11 | 2012-12-06 | National Cancer Center | 大規模塩基配列解析方法、プログラム及び装置 |
US20150337388A1 (en) | 2012-12-17 | 2015-11-26 | Virginia Tech Intellectual Properties, Inc. | Methods and compositions for identifying global microsatellite instability and for characterizing informative microsatellite loci |
US20150324519A1 (en) | 2014-05-12 | 2015-11-12 | Roche Molecular System, Inc. | Rare variant calls in ultra-deep sequencing |
Non-Patent Citations (3)
Title |
---|
Xiaoyu Chen et al.,Manta: rapid detection of structural variants and indels for germline and cancer sequencing applications [online],2016年04月,URL<https://pubmed.ncbi.nlm.nih.gov/26647377/>,[検索日:2021年12月6日] |
イルミナHiSeq2000によるがんのゲノムシークエンス解析[online],理化学研究所 ゲノム医科学研究センター,2012年08月21日,URL<https://jp.illumina.com/content/dam/illumina-marketing/apac/japan/documents/pdf/2012_illumina_hiseq2000-cancer.pdf>,[検索日:2021年12月6日] |
藤 博幸,はじめてのバイオインフォマティクス,第4版,株式会社 講談社,2013年03月10日,pp.31-33,42-48 |
Also Published As
Publication number | Publication date |
---|---|
EP4300501A3 (en) | 2024-03-27 |
BR112019009830A2 (pt) | 2019-08-13 |
EP3542293B1 (en) | 2023-12-27 |
CN110168647A (zh) | 2019-08-23 |
KR20190082854A (ko) | 2019-07-10 |
WO2018093804A1 (en) | 2018-05-24 |
SG10202104266VA (en) | 2021-05-28 |
AU2023266266A1 (en) | 2023-12-07 |
AU2017361069B2 (en) | 2023-09-21 |
US20190287647A1 (en) | 2019-09-19 |
CA3043875A1 (en) | 2018-05-24 |
JP2020506447A (ja) | 2020-02-27 |
AU2017361069A1 (en) | 2019-06-06 |
EP3542293A1 (en) | 2019-09-25 |
KR102425673B1 (ko) | 2022-07-26 |
CN117457074A (zh) | 2024-01-26 |
EP4300501A2 (en) | 2024-01-03 |
CN110168647B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7052955B2 (ja) | 配列決定データリード再整列の方法、コンピュータシステム及びコンピュータプログラム製品 | |
Rochette et al. | Stacks 2: Analytical methods for paired‐end sequencing improve RADseq‐based population genomics | |
US11837328B2 (en) | Methods and systems for detecting sequence variants | |
Patin et al. | The impact of agricultural emergence on the genetic history of African rainforest hunter-gatherers and agriculturalists | |
Wong et al. | Interplay of cis and trans mechanisms driving transcription factor binding and gene expression evolution | |
Brandvain et al. | Speciation and introgression between Mimulus nasutus and Mimulus guttatus | |
Modi et al. | Complete mitochondrial sequences from Mesolithic Sardinia | |
Xiao et al. | FastClone is a probabilistic tool for deconvoluting tumor heterogeneity in bulk-sequencing samples | |
Haas et al. | Introducing “best single template” models as reference baseline for the Continuous Automated Model Evaluation (CAMEO) | |
Rustagi et al. | Extremely low-coverage whole genome sequencing in South Asians captures population genomics information | |
JP2018503164A (ja) | 平行プロセシングシステムおよび生物配列データの高度にスケーラブルな解析の方法 | |
Poplin et al. | Creating a universal SNP and small indel variant caller with deep neural networks | |
Parrish et al. | Assembly of non-unique insertion content using next-generation sequencing | |
Agier et al. | The evolution of the temporal program of genome replication | |
Kivisild et al. | Patterns of genetic connectedness between modern and medieval Estonian genomes reveal the origins of a major ancestry component of the Finnish population | |
Finke et al. | Ancestral haplotype reconstruction in endogamous populations using identity-by-descent | |
Marsh et al. | Inferring biological kinship in ancient datasets: comparing the response of ancient DNA-specific software packages to low coverage data | |
Borges et al. | Methodological differences can affect sequencing depth with a possible impact on the accuracy of genetic diagnosis | |
Lin et al. | MapCaller–An integrated and efficient tool for short-read mapping and variant calling using high-throughput sequenced data | |
Whelan et al. | Cloudbreak: accurate and scalable genomic structural variation detection in the cloud with MapReduce | |
Wang et al. | Computational Prediction of Functional Effects for Cancer Related Genetic Sequence Variants | |
Karaoglanoglu et al. | Characterization of segmental duplications and large inversions using Linked-Reads | |
Sun et al. | HBS‐Tools for Hairpin Bisulfite Sequencing Data Processing and Analysis | |
Miller et al. | trioPhaser: using Mendelian inheritance logic to improve genomic phasing of trios | |
Sharma et al. | Genomic and proteomic: Their tools and application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190912 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220317 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7052955 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |