JP5946277B2 - アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出) - Google Patents
アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出) Download PDFInfo
- Publication number
- JP5946277B2 JP5946277B2 JP2012007764A JP2012007764A JP5946277B2 JP 5946277 B2 JP5946277 B2 JP 5946277B2 JP 2012007764 A JP2012007764 A JP 2012007764A JP 2012007764 A JP2012007764 A JP 2012007764A JP 5946277 B2 JP5946277 B2 JP 5946277B2
- Authority
- JP
- Japan
- Prior art keywords
- library
- read
- assembly
- processor
- standard deviation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B99/00—Subject matter not provided for in other groups of this subclass
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biophysics (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
304 読取りデータを読取りのライブラリ(L)に集める
306 Lから読取りサイズ対サイズ当りの読取り数のヒストグラムをプロットする
308 被覆度Cを用いてDを正規化してD’を得、D’を得るために用いられない位置iを保留する
310 AおよびD’を用いて読取りの部分集合Si⊂Lを集める
312 平均μiおよび標準偏差(√ci・σi)を計算する
Claims (8)
- コンピュータ・システムにより遺伝子配列アセンブリの誤りを検出するための方法であって、前記コンピュータ・システムはメモリとディスプレイとプロセッサとを含み、
前記方法は、
前記プロセッサが前記メモリ上で遺伝子データの配列のアセンブリ(A)を規定するステップと、
前記プロセッサが前記メモリ上で読取りデータを読取りのライブラリ(L)に集めるステップと、ここで、アセンブリ(A)は塩基の位置(i)についての複数のベクトル(V i )を含み、各ベクトル(V i )は塩基の位置(i)についての読取りカウントc i および一つ以上の読取り長さlを含み、読取りカウントc i は塩基の位置(i)についての読取りのライブラリ(L)での読取り数であり、一つ以上の読取り長さlの各々は塩基の位置(i)についての読取りのライブラリ(L)での各読取りのサイズとなる長さであり、
前記プロセッサが、前記複数のベクトル(V i )についての複数のヒストグラムであって、複数のヒストグラムは読取り長さl対読取りカウントc i を示し、複数のヒストグラムの各々は分布(D i )を有する、複数のヒストグラムをプロットするステップと、
前記プロセッサが、前記複数のベクトル(V i )における前記分布(D i )が平均または標準偏差を有している前記複数のベクトル(V i )から、上側のカットオフよりも上にまたは下側のカットオフよりも下にあるベクトルをフィルタリングして残ったベクトルを保留することにより、期待標準分布D’を得る正規化をするステップと、
前記プロセッサが、前記読取りのライブラリ(L)で塩基の位置(i)について塩基の位置(i)が重複している読取りの部分集合(Si⊂L)を集めるステップと、
前記プロセッサが前記読取りのライブラリ(L)から塩基の位置(i)についてSiを用いて平均(μi)および標準偏差(√ci・σi)を計算するステップと、
前記プロセッサが、前記計算した平均(μ i )と前記読取りのライブラリ(L)の平均(μ)との間の偏差が第1の閾値よりも大きいか小さいかを定めるステップと、
前記プロセッサが、前記計算した標準偏差(√c i ・σ i )と前記読取りのライブラリ(L)の標準偏差(σ)との間の偏差が第2の閾値よりも大きいか小さいかを定めるステップと、
前記プロセッサが、前記計算した平均(μ i )と前記平均(μ)との間の偏差が第1の閾値よりも大きいと定めること、または、前記計算した標準偏差(√c i ・σ i )と前記標準偏差(σ)との間の偏差が第2の閾値よりも大きいと定めることに基づいて、塩基の位置(i)をアセンブリの誤りの可能性があるとしてフラグを立てるステップと、
前記プロセッサがユーザに対して前記ディスプレイ上に結果を出力するステップと
を含む、方法。 - 前記アセンブリは、配列アセンブリのためのイン・シリコのバイオインフォマティクス法によって規定される、請求項1に記載の方法。
- 前記読取りデータは、デオキシリボ核酸(DNA)のセグメント内の複数の塩基の位置および識別子を含む、請求項1に記載の方法。
- 読取りの前記ライブラリは複数の読取りデータを含む、請求項1に記載の方法。
- 遺伝子配列アセンブリの誤りを検出するためのシステムであって、前記システムは、
メモリと、
ディスプレイと、
プロセッサとを含み、
前記プロセッサが、
遺伝子データの配列のアセンブリ(A)を規定し、
読取りデータを読取りのライブラリ(L)に集め、ここで、アセンブリ(A)は塩基の位置(i)についての複数のベクトル(V i )を含み、各ベクトル(V i )は塩基の位置(i)についての読取りカウントc i および一つ以上の読取り長さlを含み、読取りカウントc i は塩基の位置(i)についての読取りのライブラリ(L)での読取り数であり、一つ以上の読取り長さlの各々は塩基の位置(i)についての読取りのライブラリ(L)での各読取りのサイズとなる長さであり、
読取り長さl対読取りカウントc i を示し、分布(D i )を有する、各ベクトル(V i )についてのヒストグラムをプロットし、
前記複数のベクトル(V i )における前記分布(D i )が平均または標準偏差を有している前記複数のベクトル(V i )から、上側のカットオフよりも上にまたは下側のカットオフよりも下にあるベクトルをフィルタリングして残ったベクトルを保留することにより、期待標準分布D’を得る正規化をし、
前記読取りのライブラリ(L)で塩基の位置(i)について塩基の位置(i)が重複している読取りの部分集合(Si⊂L)を集め、
前記読取りのライブラリ(L)から塩基の位置(i)についてSiを用いて平均(μi)および標準偏差(√ci・σi)を計算し、
前記計算した平均(μ i )と前記読取りのライブラリ(L)の平均(μ)との間の偏差が第1の閾値よりも大きいか小さいかを定め、
前記計算した標準偏差(√c i ・σ i )と前記読取りのライブラリ(L)の標準偏差(σ)との間の偏差が第2の閾値よりも大きいか小さいかを定め、
前記計算した平均(μ i )と前記平均(μ)との間の偏差が第1の閾値よりも大きいと定めること、または、前記計算した標準偏差(√c i ・σ i )と前記標準偏差(σ)との間の偏差が第2の閾値よりも大きいと定めることに基づいて、塩基の位置(i)をアセンブリの誤りの可能性があるとしてフラグを立て、
ユーザに対して前記ディスプレイ上に結果を出力する、
システム。 - 前記アセンブリは、配列アセンブリのためのイン・シリコのバイオインフォマティクス法によって規定される、請求項5に記載のシステム。
- 前記読取りデータは、デオキシリボ核酸(DNA)のセグメント内の複数の塩基の位置および識別子を含む、請求項5に記載のシステム。
- 読取りの前記ライブラリは複数の読取りデータを含む、請求項5に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/010,949 US20120191356A1 (en) | 2011-01-21 | 2011-01-21 | Assembly Error Detection |
US13/010949 | 2011-01-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012155715A JP2012155715A (ja) | 2012-08-16 |
JP5946277B2 true JP5946277B2 (ja) | 2016-07-06 |
Family
ID=46544794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012007764A Expired - Fee Related JP5946277B2 (ja) | 2011-01-21 | 2012-01-18 | アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出) |
Country Status (3)
Country | Link |
---|---|
US (2) | US20120191356A1 (ja) |
JP (1) | JP5946277B2 (ja) |
CN (1) | CN102682225B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699818B (zh) * | 2013-12-10 | 2017-04-05 | 深圳先进技术研究院 | 基于多步双向De Bruijn图的变长kmer查询的双向边扩展方法 |
CN103714263B (zh) * | 2013-12-10 | 2017-06-13 | 深圳先进技术研究院 | 双向多步De Bruijn图的错误双向边识别与去除方法 |
CN104850761B (zh) * | 2014-02-17 | 2017-11-07 | 深圳华大基因科技有限公司 | 核酸序列拼接方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6714874B1 (en) * | 2000-03-15 | 2004-03-30 | Applera Corporation | Method and system for the assembly of a whole genome using a shot-gun data set |
JP2008161056A (ja) * | 2005-04-08 | 2008-07-17 | Hiroaki Mita | Dna配列解析装置、dna配列解析方法およびプログラム |
CN101401101B (zh) * | 2006-03-10 | 2014-06-04 | 皇家飞利浦电子股份有限公司 | 用于通过谱分析鉴定dna模式的方法和系统 |
JP2010517539A (ja) * | 2007-02-05 | 2010-05-27 | アプライド バイオシステムズ, エルエルシー | ショートリード配列決定を用いたインデル識別のためのシステムおよび方法 |
-
2011
- 2011-01-21 US US13/010,949 patent/US20120191356A1/en not_active Abandoned
-
2012
- 2012-01-18 JP JP2012007764A patent/JP5946277B2/ja not_active Expired - Fee Related
- 2012-01-21 CN CN201210020103.5A patent/CN102682225B/zh not_active Expired - Fee Related
- 2012-09-06 US US13/605,119 patent/US20120330563A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20120191356A1 (en) | 2012-07-26 |
US20120330563A1 (en) | 2012-12-27 |
CN102682225A (zh) | 2012-09-19 |
CN102682225B (zh) | 2016-01-06 |
JP2012155715A (ja) | 2012-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Giordano et al. | De novo yeast genome assemblies from MinION, PacBio and MiSeq platforms | |
Lowe et al. | Transcriptomics technologies | |
Conesa et al. | A survey of best practices for RNA-seq data analysis | |
Krawitz et al. | Microindel detection in short-read sequence data | |
JP6725481B2 (ja) | 母体血漿の無侵襲的出生前分子核型分析 | |
Shearer et al. | Utilizing ethnic-specific differences in minor allele frequency to recategorize reported pathogenic deafness variants | |
Faust et al. | YAHA: fast and flexible long-read alignment with optimal breakpoint detection | |
Gogol-Döring et al. | An overview of the analysis of next generation sequencing data | |
KR101828052B1 (ko) | 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치 | |
KR20200013709A (ko) | 서열 변이체 콜에 대한 검증방법 및 시스템 | |
Hénaff et al. | Jitterbug: somatic and germline transposon insertion detection at single-nucleotide resolution | |
Kremer et al. | Approaches for in silico finishing of microbial genome sequences | |
Sater et al. | UMI-VarCal: a new UMI-based variant caller that efficiently improves low-frequency variant detection in paired-end sequencing NGS libraries | |
CN110621785A (zh) | 基于三代捕获测序对二倍体基因组单倍体分型的方法和装置 | |
Haile et al. | Evaluation of protocols for rRNA depletion-based RNA sequencing of nanogram inputs of mammalian total RNA | |
CN109949866B (zh) | 病原体操作组的检测方法、装置、计算机设备和存储介质 | |
CN115083521A (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统 | |
JP5946277B2 (ja) | アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出) | |
Bartoszewicz et al. | Deep learning-based real-time detection of novel pathogens during sequencing | |
Bansal et al. | A probabilistic method for the detection and genotyping of small indels from population-scale sequence data | |
CN110782946A (zh) | 识别重复序列的方法及装置、存储介质、电子设备 | |
Safikhani et al. | SSP: An interval integer linear programming for de novo transcriptome assembly and isoform discovery of RNA-seq reads | |
KR20210040714A (ko) | 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치 | |
JPWO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
CN110942806A (zh) | 一种血型基因分型方法和装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151020 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160531 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5946277 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |