JP2015515042A - コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理 - Google Patents
コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理 Download PDFInfo
- Publication number
- JP2015515042A JP2015515042A JP2014558264A JP2014558264A JP2015515042A JP 2015515042 A JP2015515042 A JP 2015515042A JP 2014558264 A JP2014558264 A JP 2014558264A JP 2014558264 A JP2014558264 A JP 2014558264A JP 2015515042 A JP2015515042 A JP 2015515042A
- Authority
- JP
- Japan
- Prior art keywords
- base
- sequence
- base quality
- text
- quality score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
Description
Claims (15)
- 整列されたヌクレオチド塩基の配列を含む遺伝子配列決定リードのコンパクトなテキスト表現を生成するように構成される電子データ処理装置であって、前記整列されたヌクレオチド塩基の配列は、対応する整列された塩基クオリティスコアの配列を有し、前記コンパクトなテキスト表現は、(1)前記整列されたヌクレオチド塩基の配列を表すテキスト列、及び、(2)前記整列されたヌクレオチド塩基の配列のうち、前記対応する塩基クオリティスコアが塩基クオリティスコアの閾値を満たす最長部分列を同定する塩基クオリティテキストフィールドを含む、電子データ処理装置と、
前記コンパクトなテキスト表現を記憶するように構成される生リードストレージと
を含む装置。 - 前記遺伝子配列決定リードのコンパクトなテキスト表現が、
(2.1)前記整列されたヌクレオチド塩基の配列のうち、前記対応する塩基クオリティスコアが第1の塩基クオリティスコアの閾値を満たす最長部分列を同定する、第1の塩基クオリティテキストフィールド、及び、
(2.2)前記整列されたヌクレオチド塩基の配列のうち、前記対応する塩基クオリティスコアが、前記第1の塩基クオリティスコアの閾値よりも高い第2の塩基クオリティスコアの閾値を満たす最長部分列を同定する、第2の塩基クオリティテキストフィールド、
を含む、請求項1に記載の装置。 - 前記遺伝子配列決定リードのコンパクトなテキスト表現が、前記整列された塩基クオリティスコアの配列を表すテキスト列を含まない、請求項1又は2に記載の装置。
- 前記塩基クオリティテキストフィールドが、
前記整列されたヌクレオチド塩基の配列における前記部分列の最初のヌクレオチド塩基の位置、及び、前記整列されたヌクレオチド塩基の配列における前記部分列の最後のヌクレオチド塩基の位置、並びに、
前記整列されたヌクレオチド塩基の配列における前記部分列の最初のヌクレオチド塩基の位置、及び、前記部分列におけるヌクレオチド塩基の数、
のうち1つを特定することによって前記最長部分列を同定する、請求項1乃至3のいずれか一項に記載の装置。 - 前記塩基クオリティテキストフィールドが、前記塩基クオリティスコアの閾値をさらに同定する、請求項1乃至4のいずれか一項に記載の装置。
- 前記電子データ処理装置が、前記遺伝子配列決定リードを含む遺伝子配列決定リードを整列させ、遺伝子配列を再構成させるようにさらに構成され、アラインメントプロセスは、前記塩基クオリティテキストフィールドの内容に基づき、前記遺伝子配列決定リードに対するオフセット境界を規定することを含む、請求項1乃至5のいずれか一項に記載の装置。
- 前記オフセット境界が、前記塩基クオリティテキストフィールドにおいて同定された前記最長部分列の境界として規定される、請求項6に記載の装置。
- 前記電子データ処理装置が、前記遺伝子配列決定リードのコンパクトなテキスト表現を拡張して、拡張された前記遺伝子配列決定リードのテキスト表現を生成するようにさらに構成され、前記拡張された遺伝子配列決定リードのテキスト表現は、(1´)前記整列されたヌクレオチド塩基の配列を表すテキスト列、及び、(2´)前記整列されたヌクレオチド塩基の配列に対応する再構成された塩基クオリティスコアの整列された配列を含み、
前記再構成された塩基クオリティスコアは、前記塩基クオリティテキストフィールドによって同定された前記最長部分列の塩基に対する塩基クオリティの閾値を超える、請求項1乃至7のいずれか一項に記載の装置。 - 組織試料を処理することによって取得された塩基配列を含む遺伝子配列決定リードに効力をもたらす方法であって、
前記遺伝子配列決定リードのコンパクトなテキスト表現を生成するステップであり、前記コンパクトなテキスト表現が、(1)前記塩基配列を表すテキスト列、及び、(2)前記塩基配列のうち最長部分列を同定する塩基クオリティテキストフィールドであり、前記部分列の塩基の塩基クオリティスコアが塩基クオリティスコアの閾値を満たす、塩基クオリティテキストフィールドを含む、ステップ、並びに、
前記遺伝子配列決定リードのコンパクトなテキスト表現を、生リードストレージ内に記憶するステップ、
を含み、
前記生成するステップは、電子データ処理装置によって行われる、方法。 - 前記遺伝子配列決定リードのコンパクトなテキスト表現が、前記塩基配列に対応する塩基クオリティスコアの配列を表すテキスト列を含まず、さらに、
前記塩基配列を表すテキスト列が、塩基表現コードと適合する文字の配列を含み、前記塩基表現コードにおいては、「A」又は「a」の文字はアデニン塩基を表し、「C」又は「c」の文字はシトシン塩基を表し、「G」又は「g」の文字はグアニン塩基を表し、「T」又は「t」の文字はチミン塩基を表し、さらに、「U」又は「u」の文字はウラシル塩基を表す、請求項9に記載の方法。 - 前記塩基クオリティテキストフィールドが、(i)前記部分列の最初の塩基の位置及び最後の塩基の位置、並びに、(ii)前記最初の塩基の位置、及び、前記部分列における塩基の数、のうち1つを特定することによって最長部分列を同定し、
前記塩基クオリティテキストフィールドが、前記塩基クオリティスコアの閾値をさらに同定する、請求項9又は10に記載の方法。 - 遺伝子配列を再構成させるために前記遺伝子配列決定リードを含む遺伝子配列決定リードを整列させるステップをさらに含み、前記整列させるステップは、前記塩基クオリティテキストフィールドにおいて同定された前記最長部分列の境界として、前記遺伝子配列決定リードに対するオフセット境界を規定することを含み、
前記整列させるステップは、電子データ処理装置によって行われる、請求項9乃至11のいずれか一項に記載の方法。 - 整列されたヌクレオチド塩基の配列を含む遺伝子配列決定リードを処理して、前記遺伝子配列決定リードのコンパクトなテキスト表現を生成するための、電子データ処理装置により実行可能な命令を記憶する非一時的な記憶媒体であって、前記コンパクトなテキスト表現が、(1)前記整列されたヌクレオチド塩基の配列を表すテキスト列、及び、(2)前記整列されたヌクレオチド塩基の配列のうち、塩基クオリティスコアが塩基クオリティスコアの閾値を満たす最長部分列を同定する塩基クオリティテキストフィールドを含む、非一時的な記憶媒体。
- 前記整列されたヌクレオチド塩基の配列を表すテキスト列が、ヌクレオチド塩基表現コードと適合する文字の配列を含み、前記ヌクレオチド塩基表現コードにおいては、
「A」又は「a」の文字はアデニンヌクレオチド塩基を表し、
「C」又は「c」の文字はシトシンヌクレオチド塩基を表し、
「G」又は「g」の文字はグアニンヌクレオチド塩基を表し、
「T」又は「t」の文字はチミンヌクレオチド塩基を表し、
「U」又は「u」の文字はウラシルヌクレオチド塩基を表し、さらに、
前記遺伝子配列決定リードのコンパクトなテキスト表現が、整列された塩基クオリティスコアの配列を表すテキスト列を含まない、請求項13に記載の非一時的な記憶媒体。 - 前記記憶された命令が、前記遺伝子配列決定を含む遺伝子配列決定リードを整列させることによって遺伝子配列を再構成するように、電子データ処理装置によりさらに実行可能であり、前記整列させることは、前記塩基クオリティテキストフィールドの内容に基づき、前記遺伝子配列決定リードに対するオフセット境界を規定することを含む、請求項13又は14に記載の非一時的な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261604014P | 2012-02-28 | 2012-02-28 | |
US61/604,014 | 2012-02-28 | ||
PCT/IB2013/051531 WO2013128371A2 (en) | 2012-02-28 | 2013-02-26 | Compact next generation sequencing dataset and efficient sequence processing using same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015515042A true JP2015515042A (ja) | 2015-05-21 |
JP6141335B2 JP6141335B2 (ja) | 2017-06-07 |
Family
ID=46021985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014558264A Expired - Fee Related JP6141335B2 (ja) | 2012-02-28 | 2013-02-26 | コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理 |
Country Status (6)
Country | Link |
---|---|
EP (2) | EP2634717A2 (ja) |
JP (1) | JP6141335B2 (ja) |
CN (1) | CN104169927B (ja) |
BR (1) | BR112014020842A2 (ja) |
PL (1) | PL2820581T3 (ja) |
WO (1) | WO2013128371A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017076370A (ja) * | 2015-10-14 | 2017-04-20 | バイドゥ ネットコム サイエンス アンド テクノロジー(ペキン) カンパニー リミテッド | 分散システム用ファイル処理方法、および装置 |
CN113168888A (zh) * | 2018-10-23 | 2021-07-23 | 深圳华大智造科技股份有限公司 | 基于fpga的重测序分析方法和装置 |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2634717A2 (en) * | 2012-02-28 | 2013-09-04 | Koninklijke Philips Electronics N.V. | Compact next generation sequencing dataset and efficient sequence processing using same |
US10691775B2 (en) | 2013-01-17 | 2020-06-23 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US9679104B2 (en) | 2013-01-17 | 2017-06-13 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US10847251B2 (en) | 2013-01-17 | 2020-11-24 | Illumina, Inc. | Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis |
US9483610B2 (en) | 2013-01-17 | 2016-11-01 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US10068054B2 (en) | 2013-01-17 | 2018-09-04 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US9792405B2 (en) | 2013-01-17 | 2017-10-17 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform |
US9697327B2 (en) | 2014-02-24 | 2017-07-04 | Edico Genome Corporation | Dynamic genome reference generation for improved NGS accuracy and reproducibility |
US10006910B2 (en) | 2014-12-18 | 2018-06-26 | Agilome, Inc. | Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same |
US9859394B2 (en) | 2014-12-18 | 2018-01-02 | Agilome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
EP3235010A4 (en) | 2014-12-18 | 2018-08-29 | Agilome, Inc. | Chemically-sensitive field effect transistor |
US9618474B2 (en) | 2014-12-18 | 2017-04-11 | Edico Genome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
US10020300B2 (en) | 2014-12-18 | 2018-07-10 | Agilome, Inc. | Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids |
US9857328B2 (en) | 2014-12-18 | 2018-01-02 | Agilome, Inc. | Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same |
EP3329491A2 (en) | 2015-03-23 | 2018-06-06 | Edico Genome Corporation | Method and system for genomic visualization |
US10068183B1 (en) | 2017-02-23 | 2018-09-04 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform |
US20170270245A1 (en) | 2016-01-11 | 2017-09-21 | Edico Genome, Corp. | Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing |
EP3459115A4 (en) | 2016-05-16 | 2020-04-08 | Agilome, Inc. | GRAPHEN-FET DEVICES, SYSTEMS AND METHODS FOR USE THEREOF FOR SEQUENCING NUCLEIC ACIDS |
CN107798219B (zh) * | 2016-08-30 | 2021-07-13 | 清华大学 | 将数据进行生物存储并还原的方法 |
CN106682450B (zh) * | 2016-11-24 | 2019-05-07 | 西安电子科技大学 | 一种基于状态转移模型的新一代测序拷贝数变异仿真方法 |
CN106709028A (zh) * | 2016-12-28 | 2017-05-24 | 上海华点云生物科技有限公司 | 高通量测序数据统计方法和统计装置 |
US10938415B2 (en) * | 2017-07-14 | 2021-03-02 | Gottfried Wilhelm Leibniz Universität Hannover | Method for encoding and decoding of quality values of a data structure |
CN110021349B (zh) * | 2017-07-31 | 2021-02-02 | 北京哲源科技有限责任公司 | 基因数据的编码方法 |
CN111881324B (zh) * | 2020-07-30 | 2023-12-15 | 苏州工业园区服务外包职业学院 | 高通量测序数据通用存储格式结构、其构建方法及应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004054775A (ja) * | 2002-07-23 | 2004-02-19 | Mitsubishi Space Software Kk | 生体分子配列情報の編集サーバ |
JP2005087069A (ja) * | 2003-09-16 | 2005-04-07 | Dainippon Printing Co Ltd | 生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置 |
WO2008108297A1 (ja) * | 2007-03-02 | 2008-09-12 | Research Organization Of Information And Systems | 相同性検索システム |
US20110288785A1 (en) * | 2010-05-18 | 2011-11-24 | Translational Genomics Research Institute (Tgen) | Compression of genomic base and annotation data |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101539967B (zh) * | 2008-12-12 | 2010-12-01 | 深圳华大基因研究院 | 一种单核苷酸多态性检测方法 |
EP2634717A2 (en) * | 2012-02-28 | 2013-09-04 | Koninklijke Philips Electronics N.V. | Compact next generation sequencing dataset and efficient sequence processing using same |
-
2012
- 2012-03-22 EP EP12160812.9A patent/EP2634717A2/en not_active Ceased
-
2013
- 2013-02-26 JP JP2014558264A patent/JP6141335B2/ja not_active Expired - Fee Related
- 2013-02-26 WO PCT/IB2013/051531 patent/WO2013128371A2/en active Application Filing
- 2013-02-26 BR BR112014020842A patent/BR112014020842A2/pt not_active Application Discontinuation
- 2013-02-26 CN CN201380011406.3A patent/CN104169927B/zh not_active Expired - Fee Related
- 2013-02-26 EP EP13718895.9A patent/EP2820581B1/en active Active
- 2013-02-26 PL PL13718895T patent/PL2820581T3/pl unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004054775A (ja) * | 2002-07-23 | 2004-02-19 | Mitsubishi Space Software Kk | 生体分子配列情報の編集サーバ |
JP2005087069A (ja) * | 2003-09-16 | 2005-04-07 | Dainippon Printing Co Ltd | 生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置 |
WO2008108297A1 (ja) * | 2007-03-02 | 2008-09-12 | Research Organization Of Information And Systems | 相同性検索システム |
US20110288785A1 (en) * | 2010-05-18 | 2011-11-24 | Translational Genomics Research Institute (Tgen) | Compression of genomic base and annotation data |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017076370A (ja) * | 2015-10-14 | 2017-04-20 | バイドゥ ネットコム サイエンス アンド テクノロジー(ペキン) カンパニー リミテッド | 分散システム用ファイル処理方法、および装置 |
CN113168888A (zh) * | 2018-10-23 | 2021-07-23 | 深圳华大智造科技股份有限公司 | 基于fpga的重测序分析方法和装置 |
JP2022504611A (ja) * | 2018-10-23 | 2022-01-13 | エムジーアイ テック カンパニー リミテッド | Fpgaベースのリシーケンシング解析方法とデバイス |
JP7334244B2 (ja) | 2018-10-23 | 2023-08-28 | 深▲セン▼華大智造科技股▲ふん▼有限公司 | Fpgaベースのリシーケンシング解析方法とデバイス |
Also Published As
Publication number | Publication date |
---|---|
EP2820581B1 (en) | 2017-11-01 |
JP6141335B2 (ja) | 2017-06-07 |
PL2820581T3 (pl) | 2018-04-30 |
CN104169927B (zh) | 2018-05-29 |
WO2013128371A3 (en) | 2014-03-06 |
BR112014020842A2 (pt) | 2021-11-23 |
CN104169927A (zh) | 2014-11-26 |
EP2820581A2 (en) | 2015-01-07 |
WO2013128371A2 (en) | 2013-09-06 |
EP2634717A2 (en) | 2013-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6141335B2 (ja) | コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理 | |
US10600217B2 (en) | Methods for the graphical representation of genomic sequence data | |
WO2018149405A1 (zh) | 信息存储和读取的方法 | |
US20170199962A1 (en) | Method and systems for processing polymeric sequence data and related information | |
EP2444914A2 (en) | Genetic information management system and method | |
JP6373977B2 (ja) | Dna配列の高速かつ安全な検索 | |
JP5985040B2 (ja) | データ解析装置、及びその方法 | |
CN109658981B (zh) | 一种单细胞测序的数据分类方法 | |
KR101372947B1 (ko) | 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법 | |
US20140229114A1 (en) | Genomic/proteomic sequence representation, visualization, comparison and reporting using bioinformatics character set and mapped bioinformatics font | |
KR101394339B1 (ko) | 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법 | |
EP2634716A1 (en) | Tamper-proof genetic sequence processing | |
EP4181147A1 (en) | Information processing program, information processing method, and information processing device | |
Yang et al. | Un algoritmo de deteccion mejorado para las variaciones de Indel basadas en lecturas de secuencia de alto rendimiento. | |
CN114882950A (zh) | 基于软件识别宏基因组序列中微生物种类与序列的方法 | |
Whiteford | String Matching in DNA Sequences: Implications for Short Read Sequencing and Repeat Visualisation | |
Hasan et al. | An Improved Data Structure for Efficient Storage of Multiple BIOsequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6141335 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |