JP5414130B2 - 塩基配列のリードエラーを判定するためのプログラム - Google Patents
塩基配列のリードエラーを判定するためのプログラム Download PDFInfo
- Publication number
- JP5414130B2 JP5414130B2 JP2012101755A JP2012101755A JP5414130B2 JP 5414130 B2 JP5414130 B2 JP 5414130B2 JP 2012101755 A JP2012101755 A JP 2012101755A JP 2012101755 A JP2012101755 A JP 2012101755A JP 5414130 B2 JP5414130 B2 JP 5414130B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- shortening
- average value
- bases
- reference sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C99/00—Subject matter not provided for in other groups of this subclass
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Description
本発明の第1の実施形態について図面を参照して説明する。本実施形態に係る塩基配列の差異が変異によるものなのかリードエラーによるものなのかを判定するため判定装置1の構成例の概略を図1に示す。判定装置1は、マザーボード11と、CPU12と、メインメモリ13と、ハードディスクドライブ(HDD)14と、入力装置15と、出力装置16と、記録媒体インターフェース(媒体I/F)17と、通信インターフェース(通信I/F)18とを備える。
本発明の第2の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については、同一の符号を付してその説明を省略する。ピロリン酸配列決定技法を用いたシーケンシングでは、一度に大量の配列データが得られる。本実施形態では、リファレンス配列と相同性があるとされた一群の配列を配列データとして取り扱う。本実施形態に係る判定装置1は、この一群の配列のうちリファレンス配列と差異がある部分について、その差異がリードエラーによるものなのか、ヘテロ接合型のSNP等によるものなのかを判定する。ここでSNP等とは、1塩基の置換、挿入又は欠失をいう。ホモポリマー問題のように、リードエラーがランダムではなく一定の条件で発生する場合、従来の判定手法ではそのリードエラーがSNP等と判定される可能性がある。本実施形態では、このようなホモポリマー問題を含むリードエラーを判別する。なお、ヘテロ接合型のSNP等が存在する場合、理想的には、リファレンス配列に対する各配列の編集距離の平均値は0.5となり、2種類の配列が50%ずつ存在することになる。
本発明の第3の実施形態について説明する。ここでは、第2の実施形態との相違点について説明し、同一の部分については、同一の符号を付してその説明を省略する。本実施形態では、第2の実施形態に係るSNP等の同定手法とそれを用いたクラスタの作成手法とをHiCEP(High Coverage Expression Profiling)法に適用する。したがって、本実施形態に係る判定装置1は、図5に示す構成を有する。
本発明の第4の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については、同一の符号を付してその説明を省略する。本実施形態では、第1の実施形態におけるステップS103の処理と同様に、同一塩基が3塩基以上連続する配列をその塩基が2塩基連続した配列に短縮変換された第2の塩基配列を作成し、この第2の塩基配列に基づいて、既知のクラスタリング処理を行う。
Claims (11)
- 第1のリファレンス配列と、前記第1のリファレンス配列と相同性を有する複数の第1の対照配列との差異が、前記第1の対照配列の変異によるものかシーケンシングのリードエラーによるものかを判定することをコンピュータに実行させるためのプログラムであって、
各々の前記第1の対照配列の同一塩基が所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して各々の第2の対照配列を作成することと、
前記第1のリファレンス配列の同一塩基が前記所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して第2のリファレンス配列を作成することと、
前記第2のリファレンス配列に対する各々の前記第2の対照配列の編集距離である複数の短縮後編集距離を算出することと、
複数の前記短縮後編集距離の平均値である短縮後平均値を算出することと、
前記短縮後平均値に基づいて、前記差異が前記変異によるものであるか前記リードエラーによるものであるかを判定することと、
をコンピュータに実行させるためのプログラム。 - 前記第1のリファレンス配列に対する各々の前記第1の対照配列の編集距離である複数の短縮前編集距離を算出することと、
複数の前記短縮前編集距離の平均値である短縮前平均値を算出することと、
をさらにコンピュータに実行させ、
前記判定することは、前記短縮前平均値と前記短縮後平均値との関係に基づいて、前記差異が前記変異によるものであるか前記リードエラーによるものであるかを判定することとである、
請求項1に記載のプログラム。 - 前記判定することは、前記短縮後平均値が所定の平均値範囲であるとき、又は、前記短縮後平均値が前記平均値範囲よりも大きくて且つ前記短縮前平均値が前記平均値範囲であるとき、前記差異が前記変異によるものであると判定することである、請求項2に記載のプログラム。
- 前記判定することは、
第1の条件である、前記短縮後平均値が所定の平均値範囲であること、又は、前記短縮後平均値が前記平均値範囲よりも大きくて且つ前記短縮前平均値が前記平均値範囲であることと、
第2の条件である、全ての前記第1の対照配列の数に対する、前記第2のリファレンス配列と前記第2の対照配列とに差異がある前記第2の対照配列の数の割合が所定の配列数範囲であることと、
を共に満たすとき、前記差異が前記変異によるものであると判定することである、請求項2に記載のプログラム。 - 前記所定塩基数は2である、請求項1乃至4のうち何れか1項に記載のプログラム。
- 前記平均値範囲は、0.5を含む範囲である、請求項3又は4に記載のプログラム。
- 前記配列数範囲は、50%を含む範囲である、請求項4に記載のプログラム。
- 前記第1のリファレンス配列は、前記第1の対照配列の同一性に基づいて得られるコンセンサス配列である、請求項1乃至7のうち何れか1項に記載のプログラム。
- 前記差異が前記変異によるものであると判定されたとき、複数の前記第1の対照配列を前記差異に応じてクラスタリングすることをさらにコンピュータに実行させる、請求項1乃至8のうち何れか1項に記載のプログラム。
- 前記第1の対照配列は、HiCEPで用いられる2つのアダプタ配列に挟まれる塩基配列であり、
前記短縮後編集距離を算出することは、前記アダプタの端を基準として所定の数の塩基について前記第2のリファレンス配列に対する各々の前記第2の対照配列の編集距離である複数の短縮後編集距離を算出することであり、
前記短縮前編集距離を算出することは、前記短縮後編集距離を算出した塩基配列に対応する前記第1のリファレンス配列に対する各々の前記第1の対照配列の編集距離である複数の短縮前編集距離を算出することである、
請求項2乃至9のうち何れか1項に記載のプログラム。 - 第1のリファレンス配列と、前記第1のリファレンス配列と相同性を有する第1の対照配列との差異が、前記第1の対照配列の変異によるものかシーケンシングのリードエラーによるものかを判定することをコンピュータに実行させるためのプログラムであって、
前記第1の対照配列の同一塩基が所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して各々の第2の対照配列を作成することと、
前記第1のリファレンス配列の同一塩基が前記所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して第2のリファレンス配列を作成することと、
前記第2のリファレンス配列に対する前記第2の対照配列の編集距離を算出することと、
前記編集距離に基づいて、前記差異が前記変異によるものであるか前記リードエラーによるものであるかを判定することと、
をコンピュータに実行させるためのプログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012101755A JP5414130B2 (ja) | 2012-04-26 | 2012-04-26 | 塩基配列のリードエラーを判定するためのプログラム |
PCT/JP2013/062426 WO2013162010A1 (ja) | 2012-04-26 | 2013-04-26 | 塩基配列のリードエラーを判定する方法 |
CA2871582A CA2871582A1 (en) | 2012-04-26 | 2013-04-26 | Method for determining read error of base sequence |
AU2013253336A AU2013253336A1 (en) | 2012-04-26 | 2013-04-26 | Method for determining read error in nucleotide sequence |
EP13782493.4A EP2843576A4 (en) | 2012-04-26 | 2013-04-26 | METHOD FOR DETERMINING READING ERRORS IN A NUCLEOTIDE SEQUENCE |
US14/523,532 US20160171151A1 (en) | 2012-04-26 | 2014-10-24 | Method for determining read error in nucleotide sequence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012101755A JP5414130B2 (ja) | 2012-04-26 | 2012-04-26 | 塩基配列のリードエラーを判定するためのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013226104A JP2013226104A (ja) | 2013-11-07 |
JP5414130B2 true JP5414130B2 (ja) | 2014-02-12 |
Family
ID=49483306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012101755A Expired - Fee Related JP5414130B2 (ja) | 2012-04-26 | 2012-04-26 | 塩基配列のリードエラーを判定するためのプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20160171151A1 (ja) |
EP (1) | EP2843576A4 (ja) |
JP (1) | JP5414130B2 (ja) |
AU (1) | AU2013253336A1 (ja) |
CA (1) | CA2871582A1 (ja) |
WO (1) | WO2013162010A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015146852A1 (ja) * | 2014-03-24 | 2015-10-01 | 株式会社 東芝 | 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム |
EP3163512A1 (en) * | 2015-10-30 | 2017-05-03 | Thomson Licensing | Data processing apparatus and method for recovering a correct code symbol sequence from multiple incorrect copies |
KR102070911B1 (ko) * | 2016-04-15 | 2020-01-30 | 서울대학교산학협력단 | 초병렬 시퀀싱의 오류 확인방법 및 장치 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006110855A2 (en) | 2005-04-12 | 2006-10-19 | 454 Life Sciences Corporation | Methods for determining sequence variants using ultra-deep sequencing |
JP5187670B2 (ja) * | 2007-03-02 | 2013-04-24 | 大学共同利用機関法人情報・システム研究機構 | 相同性検索システム |
-
2012
- 2012-04-26 JP JP2012101755A patent/JP5414130B2/ja not_active Expired - Fee Related
-
2013
- 2013-04-26 CA CA2871582A patent/CA2871582A1/en not_active Abandoned
- 2013-04-26 WO PCT/JP2013/062426 patent/WO2013162010A1/ja active Application Filing
- 2013-04-26 AU AU2013253336A patent/AU2013253336A1/en not_active Abandoned
- 2013-04-26 EP EP13782493.4A patent/EP2843576A4/en not_active Withdrawn
-
2014
- 2014-10-24 US US14/523,532 patent/US20160171151A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2013162010A1 (ja) | 2013-10-31 |
CA2871582A1 (en) | 2013-10-31 |
US20160171151A1 (en) | 2016-06-16 |
AU2013253336A1 (en) | 2014-11-20 |
EP2843576A1 (en) | 2015-03-04 |
EP2843576A4 (en) | 2015-12-02 |
JP2013226104A (ja) | 2013-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Graph pangenome captures missing heritability and empowers tomato breeding | |
Liu et al. | Interrogating the “unsequenceable” genomic trinucleotide repeat disorders by long-read sequencing | |
Tsai et al. | Discovery of rare mutations in populations: TILLING by sequencing | |
Clark et al. | Performance comparison of exome DNA sequencing technologies | |
Ledergerber et al. | Base-calling for next-generation sequencing platforms | |
CN105849276B (zh) | 用于检测结构变异体的系统和方法 | |
Neuman et al. | Analysis of insertion–deletion from deep-sequencing data: software evaluation for optimal detection | |
DK2823062T5 (en) | SIZE-BASED ANALYSIS OF Fetal DNA FRACTION IN MOTHER PLASMA | |
Soneson et al. | Preprocessing choices affect RNA velocity results for droplet scRNA-seq data | |
US20220101944A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
King et al. | Increasing the discrimination power of ancestry-and identity-informative SNP loci within the ForenSeq™ DNA Signature Prep Kit | |
WO2017143585A1 (zh) | 对分隔长片段序列进行组装的方法和装置 | |
KR20200058457A (ko) | 압축된 분자 태깅된 핵산 서열 데이터를 사용하여 융합을 검출하는 방법 | |
Manching et al. | Phased genotyping-by-sequencing enhances analysis of genetic diversity and reveals divergent copy number variants in maize | |
Mao et al. | RefShannon: A genome-guided transcriptome assembler using sparse flow decomposition | |
JP5414130B2 (ja) | 塩基配列のリードエラーを判定するためのプログラム | |
Webb et al. | SNPLINK: multipoint linkage analysis of densely distributed SNP data incorporating automated linkage disequilibrium removal | |
Sitarčík et al. | WarpSTR: determining tandem repeat lengths using raw nanopore signals | |
Lu et al. | Exploration of whole genome amplification generated chimeric sequences in long-read sequencing data | |
Konno et al. | Computer-based methods for the mouse full-length cDNA encyclopedia: real-time sequence clustering for construction of a nonredundant cDNA library | |
Tárraga et al. | A parallel and sensitive software tool for methylation analysis on multicore platforms | |
Liu et al. | iMapSplice: Alleviating reference bias through personalized RNA-seq alignment | |
Cai et al. | De novo genome assembly of a Han Chinese male and genome-wide detection of structural variants using Oxford Nanopore sequencing | |
Dankó et al. | SplicingFactory—splicing diversity analysis for transcriptome data | |
Osada et al. | Genomic inferences of the cis-regulatory nucleotide polymorphisms underlying gene expression differences between Drosophila melanogaster mating races |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130730 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130730 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20130809 |
|
TRDD | Decision of grant or rejection written | ||
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20131009 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5414130 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |