JP2023534124A - 遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器 - Google Patents

遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器 Download PDF

Info

Publication number
JP2023534124A
JP2023534124A JP2022577420A JP2022577420A JP2023534124A JP 2023534124 A JP2023534124 A JP 2023534124A JP 2022577420 A JP2022577420 A JP 2022577420A JP 2022577420 A JP2022577420 A JP 2022577420A JP 2023534124 A JP2023534124 A JP 2023534124A
Authority
JP
Japan
Prior art keywords
sequencing
data
analysis
memory
slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022577420A
Other languages
English (en)
Other versions
JP7515632B2 (ja
Inventor
楊▲ジョウ▼博
晋向前
賀増泉
張優勁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Genomics Co Ltd
Original Assignee
BGI Genomics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Genomics Co Ltd filed Critical BGI Genomics Co Ltd
Publication of JP2023534124A publication Critical patent/JP2023534124A/ja
Application granted granted Critical
Publication of JP7515632B2 publication Critical patent/JP7515632B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本発明による遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器は、まず、シーケンシングプラットフォームによってリアルタイムで入力された短配列に対してスライス処理を行った後に対応するスライス処理を取得し、次に、スライスデータをメモリに入力し、メモリに予めロードされるパッケージプログラムを呼び出してスライスデータに対して生物情報解析を行い、対応する解析結果を取得し、該プロセスはシーケンシングプラットフォームによって完全にシーケンシングされた後にシーケンシング結果全体を対応するプラットフォームに伝送して処理解析を行うことを待つ必要がなく、シーケンシングプラットフォームによってシーケンシングされたスライスデータをリアルタイムで取得し、スライスデータに対してストリーミングシーケンシング及び解析を行うため、全体的にシーケンシングと解析の進展を加速することができ、且つ解析時のデータはスライスデータであり、該スライスデータはシーケンシング結果全体に対して、伝送速度がより速く、時間がより短い。【選択図】図1

Description

本発明は生物情報技術の分野に関し、特に遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器に関する。
DNAシーケンシング技術は、発明以来、分子生物学の発展を推進する上で重要な役割を果たしてきた。最初のFrederick Sangerの手動シーケンシング、Sanger法に基づいて開発された第1世代自動化シーケンサから、現在の次世代のシーケンシングプラットフォームまで、当該分野では極めて大きな変化が発生している。
次世代シーケンシングプラットフォームのシーケンシングプロセスは、主に各ラウンドのシーケンシングサイクルにおいて、異なる蛍光基を標識する4種類のヌクレオチド及びDNAポリメラーゼを同時にフローセル通路に添加し、塩基相補対合の原則に従ってDNA鎖の延長を行い、次に、蛍光画像を収集し、塩基特異的な蛍光マーカーはこのラウンドに新たに添加したヌクレオチドはなんであるかを示し、テンプレートにおけるこの位置のDNA配列を取得し、次に、次のラウンドの反応を続ける。このプロセスを複数回繰り返した後、複数のDNA配列を取得し、例えば50ラウンドのシーケンシングサイクルを行った後、50個の塩基のDNA配列を生成する。なお、該方法によって得られた単一の配列の長さが非常に短いため、短配列と呼ばれる。
上記の内容から分かるように、次世代シーケンシングプラットフォームは生化学及び画像形成の実行が完了した後、塩基の認識を統一して行い、次に、認識結果を他の形式に変換して記憶し、その後、記憶されたファイルを一次記憶装置に転送してデータ品質制御を行い、サンプル情報とオンロード情報を検証し、さらに、二次記憶装置を使用してデータアーカイブを行う。該シーケンシング段階は時間がかかり、転送効率が低く、解析プロセスが遅くなる。
本発明は、上記の技術的欠陥の1つ、特にシーケンシング段階は時間がかかり、転送効率が低く、解析プロセスが遅くなるという従来の技術における技術的欠陥を少なくとも解決することを目的とする。
本発明の第1の態様では、本発明は、遺伝子シーケンシング解析方法を提供し、前記方法は、シーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも1ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合であるスライスデータを取得するステップと、前記スライスデータをメモリに入力するステップと、前記メモリに予め設定されたカスタムプログラムであるパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するステップと、を含む。
本発明の実施例によれば、上記遺伝子シーケンシング解析方法はさらに以下の付加的な技術的特徴の少なくとも1つを含んでもよい。
本発明の実施例によれば、スライスデータを取得するステップは、スライスのサイズを決定するステップと、前記スライスのサイズに従ってシーケンシングプラットフォームから現在入力されている、すべての切り分けられていない、単一のラウンドのシーケンシングサイクル後に読み取られた短配列を切り分け、切り分け後の短配列集合をスライスデータとするステップとを含む。
本発明の実施例によれば、前記スライスのサイズを決定するステップは、現在のCPUのアイドル状況を取得するステップと、前記現在のCPUのアイドル状況に応じてスライスのサイズを調整するステップと、を含む。
本発明の実施例によれば、前記パッケージプログラムはデータ品質制御プログラム、データ処理プログラム及び検出解析プログラムを含み、前記メモリに予め設定されたパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するステップは、前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行い、品質制御結果を取得するステップと、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行い、処理結果を取得するステップと、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行い、最終的な解析結果を取得するステップと、を含む。
本発明の実施例によれば、前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行うステップは、前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータにおける短配列の位置エラー率を計算し、前記スライスデータにおける塩基分布状況を統計し、及び/又は前記スライスデータにおける塩基品質が品質閾値より低い塩基である低品質塩基を切り取るステップを含む。
本発明の実施例によれば、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行うステップは、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも1つを行うステップを含む。
本発明の実施例によれば、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも1つを行うステップは、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列と参照遺伝子を比較し、前記参照遺伝子における前記短配列の位置を決定するステップと、前記参照遺伝子における前記短配列の位置に基づいて、前記短配列の位置ラベルを決定するステップと、前記メモリにおける各予め設定されたスレッドのうち、現在アイドル状態にある目標スレッドを決定するステップと、前記短配列の位置ラベルを参照して、前記目標スレッドを呼び出して前記短配列に対してソート、重複除去、再比較のうちの少なくとも1つを行うステップと、を含む。
本発明の実施例によれば、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行うステップは、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して変異検出、解読を行うステップを含む。
本発明の第2態様では、本発明は、遺伝子シーケンシング解析装置をさらに提供し、シーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも1ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合であるスライスデータを取得するためのデータ取得モジュールと、前記スライスデータをメモリに入力するためのスライス伝送モジュールと、前記メモリに予め設定されたカスタムプログラムであるパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するための処理解析モジュールと、を備える。
本発明の第3の態様では、本発明は、記憶媒体をさらに提供し、前記記憶媒体にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに上記実施例のいずれか1項に記載の遺伝子シーケンシング解析方法のステップを実行させる。
本発明の第4の態様では、本発明は、コンピュータ機器をさらに提供し、前記コンピュータ機器にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに上記実施例のいずれか1項に記載の遺伝子シーケンシング解析方法のステップを実行させる。
以上の技術的解決手段から分かるように、本発明の実施例は以下の利点を有する。
本発明による遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器は、まず、シーケンシングプラットフォームによってリアルタイムで入力された短配列に対してスライス処理を行った後に対応するスライスデータを取得し、次に、スライスデータをメモリに入力し、メモリに予めロードされるパッケージプログラムを呼び出してスライスデータに対して検出解析を行い、対応する解析結果を取得し、該プロセスはシーケンシングプラットフォームによって完全にシーケンシングした後にシーケンシング結果全体を対応するプラットフォームに伝送して処理解析を行うことを待つ必要がなく、シーケンシングプラットフォームによってシーケンシングされたスライスデータをリアルタイムで取得し、スライスデータに対してストリーミングシーケンシング及び解析を行うことから、本願は全体的にシーケンシングと解析の進展を加速することができ、且つ解析時のデータはスライスデータであり、該スライスデータはシーケンシング結果全体に対して、伝送速度がより速く、時間がより短い。
また、本願の解析プロセスはメモリに予め設定されたパッケージプログラムによって行われ、シーケンシングデータを他のプラットフォームに伝送して処理する必要がなく、I/O混雑やメモリ消費を効果的に低減し、さらに機器の運転効率を向上させると同時に、機器の耐用年数を延長する。
本発明の実施例または従来の技術における技術的解決手段をより明確的に説明するために、以下、実施例または従来の技術の説明に使用する必要がある図面を簡単に説明し、明らかで、以下で説明する図面はただ本発明のいくつかの実施例だけであり、当業者にとって、創造的な作業なしに更にこれらの図面に基づいてその他の図面を取得することができる。
本発明の実施例による遺伝子シーケンシング解析方法のフローチャートである。 本発明の実施例によるストリーミング解析プロセスの模式図である。 本発明の実施例による遺伝子シーケンシング解析プロセスの模式図である。 本発明の実施例による遺伝子シーケンシング解析プロセスにおけるシーケンシングプロセスと時間の関係模式図である。 本発明の実施例による遺伝子シーケンシング解析装置の構造模式図である。 本発明の実施例によるコンピュータ機器の内部構造模式図である。
以下、本発明の実施例における図面を組み合わせて、本発明の実施例における技術的解決手段を明確、且つ完全に説明し、説明した実施例は全部の実施例ではなく、本発明の一部の実施例であることは明らかである。本発明における実施例に基づいて、当業者は創造的な作業なしに得られたすべてのその他の実施例は、本発明が保護する範囲に属する。
シーケンシングとは、簡単に言えば、DNA化学信号をコンピュータで処理可能なデジタル信号に変換することである。最初のFrederick Sangerの手動シーケンシング、Sanger法に基づいて開発された第1世代自動化シーケンサから、現在の次世代のシーケンシングプラットフォームまで、当該分野は極めて大きな変化が発生していたとともに、且つシーケンシング技術の各変革と突破は、ゲノム学研究、疾病医療研究、薬物研究と開発、育種などの分野に大きな推進作用をもたらしている。
現在、次世代シーケンシングプラットフォームのシーケンシングプロセスは、主に各ラウンドのシーケンシングサイクルにおいて、異なる蛍光基を標識する4種類のヌクレオチド及びDNAポリメラーゼを同時にフローセル通路に添加し、塩基相補対合の原則に従ってDNA鎖の延長を行い、次に、蛍光画像を収集し、塩基特異的な蛍光マーカーはこのラウンドに新たに添加したヌクレオチドはなんであるかを示し、テンプレートにおけるこの位置のDNA配列を取得し、次に、次のラウンドの反応を続ける。このプロセスを複数回繰り返した後、複数のDNA配列を取得し、例えば50ラウンドのシーケンシングサイクルを行った後、50個の塩基のDNA配列を生成する。なお、該方法によって得られた単一の配列の長さが非常に短いため、短配列と呼ばれる。
上記の内容から分かるように、次世代シーケンシングプラットフォームは生化学及び画像形成の実行が完了した後、塩基の認識を統一して行い、次に、認識結果を他の形式に変換して記憶し、その後、記憶されたファイルを一次記憶装置に転送してデータ品質制御を行い、サンプル情報とオンロード情報を検証し、さらに、二次記憶装置を使用してデータアーカイブを行う。該シーケンシング段階は時間がかかり、転送効率が低く、解析プロセスが遅くなる。
したがって、本発明は、シーケンシング段階は時間がかかり、転送効率が低く、解析プロセスが遅くなるという従来の技術における技術的問題を解決することを目的とする。
例示的に、図1に示すように、図1は本発明の実施例による遺伝子シーケンシング解析方法のフローチャートであり、本発明は遺伝子シーケンシング解析方法を提供し、具体的に、以下のステップを含む。
S110では、スライスデータを取得する。
このステップでは、生物情報解析を行う前に、シーケンシングプラットフォームによって入力されたスライスデータを取得する必要があり、該スライスデータに従って対応する生物情報解析を行うようにする。
理解できる点として、本願は後続プラットフォームの解析効率及びメモリの占有状況などを考慮して、シーケンシングプラットフォームから入力されたリアルタイムデータに対してスライス処理を行う必要があり、且つスライスのサイズはサーバーのアイドル程度に応じて適応的に調整することができる。したがって、本願によって取得されたスライスデータは、シーケンシングプラットフォームからリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも1ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合である。
説明する必要がある点として、ここでのスライスのサイズをサーバーのアイドル程度に応じて適応的に調整することができることは主に、サーバーがアイドルでない場合、スライスのサイズを1つのシーケンシングサイクルを切り分けた後に読み取ることができる短配列に調整することができることと、サーバーがアイドルである場合、スライスのサイズを複数のシーケンシングサイクルを切り分けた後に読み取ることができる短配列に調整することができることと、を含む。また、最初に切り分ける場合、複数のラウンドのシーケンシングサイクルを待つことができ、例えば、10ラウンドのシーケンシングサイクルを待った後に1つのスライスに切り分ける。
例えば、本願は2世代シーケンシングプラットフォームを使用してスライスデータを取得することができ、2世代シーケンシング(NGS)はSangerシーケンシングと同様に、各シーケンシング周期において、コンピュータで、DNAポリメラーゼ触媒蛍光で標識されるdNTPをDNAテンプレートに結合する際に生成した蛍光信号を検出する。Sangerの単位時間当たりのセグメントの検出と異なり、NGSは何千ものチャンネルの信号を同時に検出することができるため、効率を大幅に向上させる。
理解できる点として、ここでの2世代シーケンシングプラットフォームはIllumina (Solexa) sequencing、Roche 454 sequencing、Ion torrent: Proton / PGM sequencing、SOLiD sequencingを含むが、これらに限定されない。
以下、2世代シーケンシングプラットフォームを例として、如何にスライスデータを取得するかをさらに説明する。例示的に、本願における2世代シーケンシングプラットフォームはシーケンシングライブラリーをシーケンシングする前に、シーケンシングライブラリーを構築する必要があり、該シーケンシングライブラリーとは、両端に特定のDNAアダプター配列を結合したDNA断片からなるDNA混合物である。例えば、超音波等を使用してゲノムDNAを断片化し、次に、断片化したDNA断片の両端を酵素で平らにし、リガーゼでアダプター配列を結合し、結合した一部のDNA混合物は、1つの「ライブラリ」(library)と呼ばれる。
2世代シーケンシングプラットフォームを使用してシーケンシングライブラリーをシーケンシングする前に、シーケンシングライブラリーをPCR増幅することもでき、PCR増幅の役割は、シーケンシング対象溶液中の微弱なDNA断片を数倍から数十倍コピーすることであり、シーケンシング対象溶液中に分布する密度を高め、サンプリング時に取得できるようにする。
正式なシーケンシング時に、中性溶液を添加し、中性溶液にシーケンシングdNTPプライマーを添加することができる。dNTPの3’端はアジド基で塞がれているため、1ラウンドのシーケンシングサイクルは1個の塩基しか延長できず、1つのシーケンシングサイクルが終了した後、特定の化学試薬を添加してアジド基と蛍光標識基を切り落とし、3’端の水酸基を露出させれば、塩基配列を読み取ることができる。
本願において、シーケンシングプロセスにおいて各シーケンシングサイクルの生化学と画像形成部分をいずれもリアルタイムでメモリに入力して塩基認識(Basecall)を行い、対応する短配列を取得し、1つのスライスのサイズを満たす場合、スライスデータを出力してメモリに記憶する。
例えば、元の2世代シーケンシングプラットフォームはシーケンシングを行った後、fastqファイルとして出力し、fastqファイルは品質値を含む配列ファイルであり、ここで、qはqualityであり、一般的に、元のシーケンシングデータを記憶するために使用され、拡張子は一般的にfastqまたはfqである。fastqファイルの一般的な配列形式を次に示す。
@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA

JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
@DJB775P1:248:D0MDGACXX:7:1202:12782:49716
CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG

IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC
上記配列形式から分かるように、fastqファイルにおける4行ごとに独立したユニットとなり、read、即ち短配列と呼ばれる。1行目は‘@’で始まり、DJB775P1はこの短配列の名称であり、1行目の文字列はシーケンシング時の状態情報に基づいて変換され、中央にスペースがなく、それは各短配列の唯一の識別子であり、2行目はシーケンシングreadの配列であり、A、C、G、T及びNの5種類のアルファベットで構成され、これは本当に関心を持っているDNA配列であり、Nはシーケンシング時に認識されることができない塩基を表し、3行目は‘+’で始まり、旧バージョンのFASTQファイルでは1行目の情報を直接繰り返すが、現在は一般的に何も追加せず(記憶スペースを節約する)、4行目はシーケンシングreadの品質値であり、これは2行目の塩基情報と同様に重要であり、各シーケンシング塩基の信頼性を説明し、ASCIIコードで示される。
本願は解析効率を向上するために、シーケンシングと解析プロセスに対してスライス処理を行い、ストリーミング構造で順次に処理し、シーケンシング、符号化、伝送、解析を同時に実現する。まず、シーケンシングプロセスにおける各シーケンシングサイクルの生化学と画像形成部分によって得られた結果をメモリに入力してbasecall(塩基認識)プロセスの画像認識処理を行うことによって、複数の短配列を取得し、次に、サーバーのアイドル程度に応じてスライスのサイズを決定し、即ちサーバーのアイドル程度に応じて上記2行目における塩基を切り分け、サーバーがアイドルであると、複数の塩基を1つのスライスデータとして切り分け、アイドルでないと、単一の塩基を1つのスライスデータとして切り分け、切り分け後に得られたスライスデータをメモリに記憶する。
続いて、メモリにおけるスライスデータを読み取って解析する際に、まず、アダプター(1番目のスライスの最初に位置し、一般的に6-8個の塩基であり、アダプターデータは異なるサンプルを区別するために使用でき、後で出力するのに便利である)を取り除くことができ、次に、残りのスライスデータをヒトゲノムと比較し、新しいスライスデータごとに各塩基のreadがヒトゲノムに位置決めされる範囲を縮小させ続け、比較位置がより正確になる。
また、本願はシーケンシングと解析を行う場合、選択されたプラットフォームはシーケンシングと解析を合成する機器であってもよいし、従来のシーケンサとアナライザを、ネットワークを介して接続し、データ伝送と運転解析を実現してもよいし、ここでは限定されない。
S120では、スライスデータをメモリに入力する。
このステップでは、ステップS110によってスライスデータを取得した後、合成した機器におけるメモリに入力してもよいし、シーケンサに接続されたアナライザのメモリに入力してもよく、メモリにおけるパッケージプログラムによってスライスデータに対してデータ処理及び検出解析を行うようにする。
理解できる点として、従来のシーケンサはシーケンシングライブラリーをシーケンシングした後、得られたシーケンシング結果は一般的にfastqファイルとして出力され、ハードディスクに記憶され、比較解析を行う場合、ハードディスクからfastqファイルを読み取って、さらに、ヒトゲノム(reference.fa)に比較する一方、本願で取得されたスライスデータは、ハードディスクに出力する必要がなく、メモリに直接入れるだけで、比較処理を行うことができ、このように、ハードディスクへの書き込み、ハードディスクからの読み取りプロセスを減少し、I/O消費を低下させる。
また、説明する必要がある点として、ここでのメモリはDDRメモリであってもよい。遺伝子データが大きく、サーバーのメモリが限られているため、常にDDRメモリに拡張され、DDRメモリにクロック信号の立ち上がりエッジと立ち下がりエッジが1回ずつデータを伝送し、これにより、DDRメモリのデータ伝送速度は従来のSDRAMの2倍になる。しかも、立ち下がりエッジ信号のみが多く採用されているため、エネルギー消費の増加にはつながらない。アドレッシングと制御信号は従来のSDRAMと同様であり、クロックの立ち上がりエッジのみで伝送される。
S130では、メモリにおけるパッケージプログラムを呼び出してスライスデータに対してデータ処理及び検出解析を行い、解析結果を取得する。
このステップでは、スライスデータを処理する際に、メモリに予め設定されたパッケージプログラムを呼び出す必要があり、パッケージプログラムによってスライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得する。
説明する必要がある点として、ここでのパッケージプログラムとは、複数のプログラムを1つのプログラムとしてパッケージするソフトウェアであり、且つ該パッケージプログラムはカスタムプログラムであり、ユーザーの必要に応じて複数の異なるプログラムを1つのプログラムとしてパッケージすることによって、スライスデータに対してデータ処理と検出解析を行うことができる。
そして、ここでのパッケージプログラムは既存の国際公認プログラムに基づいて最適化され、メモリ接続が増加し、マルチスレッドが増加し、スライスデータの処理機能も増加し、該パッケージプログラムを使用してデータ処理を行う必要があると、ディスクに配置された対応するパッケージプログラムをトリガすることができ、該パッケージプログラムをタスク進展としてメモリにロードすることによって、I/O消費を効果的に低下させ、読み書き時間を短縮し、解析効率を向上させる。
例えば、スライスデータに対して検出解析を行う前に、それに対してデータ処理を行う必要があり、該データ処理プロセスは1つのプログラムまたは複数のプログラム、例えばデータ品質制御プログラム、データ処理プログラムなどによって実現されることができ、次に、1つの検出解析プログラムを接続することによってデータ処理後の結果に対して検出解析を行い、最終的な解析結果がより正確になる。
例示的に、図2に示すように、図2は本発明の実施例によるストリーミング解析のプロセス模式図であり、図2では、シーケンサは生化学と画像形成システムを使用してシーケンシングライブラリーに対して生化学画像形成を行うことができ、生化学画像形成後の画像をスライス伝送で中央制御サーバーに伝送し、中央制御サーバーによってアナライザに伝送してデータ処理と検出解析を行う。データ品質制御プロセスはデータ品質制御サーバーにおけるサーバーのメモリによって生産情報システムにおけるサンプルとオンロード情報、及び中央制御サーバーによって送信されたスライスデータを取得し、次に、該スライスデータに対してデータ品質制御を行った後にデータをアーカイブして渡し、最後に解析結果を記憶し、これにより、ストリーミング解析プロセスが実現される。
図2から分かるように、本願に使用されるストリーミング解析プロセスは、シーケンシングプラットフォームから入力された短配列集合をスライスし、解析時間の一部を元のシーケンシング時間内に隠すとともに、データ処理プロセスと検出解析プロセスを、メモリを介して繋がることによって、I/O消費を効果的に低下させ、読み書き時間を減少すると同時に、解析効率を向上させることができる。
上記の実施例による遺伝子シーケンシング解析方法は、まず、シーケンシングプラットフォームによってリアルタイムで入力された短配列に対してスライス処理を行った後に対応するスライス処理を取得し、次に、スライスデータをメモリに入力し、メモリに予めロードされるパッケージプログラムを呼び出してスライスデータに対して検出解析を行い、対応する解析結果を取得し、該プロセスはシーケンシングプラットフォームによって完全にシーケンシングした後にシーケンシング結果全体を対応するプラットフォームに伝送して処理解析を行うのを待つ必要なく、シーケンシングプラットフォームによってシーケンシングされたスライスデータをリアルタイムで取得し、スライスデータに対してストリーミングシーケンシング及び解析を行い、このため、本願は全体的にシーケンシングと解析の進展を加速することができ、且つ解析時のデータはスライスデータであり、該スライスデータはシーケンシング結果全体に対して、伝送速度がより速く、時間がより短い。
また、本願の解析プロセスはメモリに予め設定されたパッケージプログラムによって行われ、シーケンシングデータを他のプラットフォームに伝送して処理する必要がなく、I/O混雑とメモリ消費を効果的に低下させ、機器運転効率を更に向上させると同時に、機器の耐用年数を延長させる。
以下、複数の実施例によって本願の遺伝子シーケンシング解析方法を更に説明する。以下のように、下記実施例において、主にスライスデータをどのように取得するプロセスを詳細に説明する。
一実施例において、ステップS110におけるスライスデータを取得するステップは、
スライスのサイズを決定するS111と、
前記スライスのサイズに従ってシーケンシングプラットフォームから現在入力されている、すべての切り分けられていない、単一のラウンドのシーケンシングサイクル後に読み取られた短配列を切り分け、切り分け後の短配列集合をスライスデータとするS112と、を含んでもよい。
本実施例において、シーケンシングプロセスにおける各シーケンシングサイクルの生化学と画像形成部分をいずれもリアルタイムでメモリに入力して塩基認識を行い、対応する短配列を取得した後、まずスライスのサイズを決定し、1つのスライスのサイズを満たす短配列を結合してスライスデータとして出力し、スライスデータをメモリ内に記憶する必要がある。
例えば、各m+n個のcycle(シーケンシングサイクル)は1つのスライスデータであり、mは1番目のスライスであり、m≧10であり、nはその後のすべてのスライスを指し、n≧1且つn≦20であり、m+nは解析速度に応じてスライスのサイズを適応的に調整することができる。
例示的に、図3、図4に示すように、図3は本発明の実施例による遺伝子シーケンシング解析プロセスの模式図であり、図4は本発明の実施例による遺伝子シーケンシング解析プロセスにおけるシーケンシングプロセスと時間の関係模式図であり、図3と図4から分かるように、本願はリアルタイムでシーケンシングプラットフォームによってシーケンシングされたスライスデータを取得し、スライスデータに対してストリーミングシーケンシング及び解析を行うことによって、全体的にシーケンシングと解析の進展を加速することができ、その後、変異検出またはRNA病原体ライブラリへの比較等を完了し、更に、後続の注釈を行い、解析フローを終了し、解析結果の受け渡しを完了する。
上記実施例はスライスデータをどのように取得するプロセスについて詳細に説明し、以下、上記実施例におけるスライスのサイズを決定するステップをさらに説明する。
一実施例において、ステップS111におけるスライスのサイズを決定するステップは、
現在のCPUのアイドル状況を取得するS1111と、
前記現在のCPUのアイドル状況に応じてスライスのサイズを調整するS1112と、を含んでもよい。
本実施例において、スライスデータを取得して検出解析を行う際に、該スライスデータはシーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーにおける遺伝子断片に対して少なくとも1ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合である。
スライスのサイズを解析速度に従って適応的に調整することができ、解析速度は現在のCPUのアイドル状況を取得して解析した後で得られ、現在のCPUのアイドル状況は現在のメモリの占有状況に関連する。現在のメモリが多く占有されると、アイドルでないのを示し、この時、メモリの解析速度が遅く、スライスのサイズを複数のシーケンシングサイクルを切り分けた後に読み取られた短配列集合に調整することができ、現在のメモリが小さく占有されると、アイドルであるのを示し、この時、メモリの解析速度が速いと、スライスのサイズを1つのシーケンシングサイクルを切り分けた後に読み取ることができる短配列集合に調整することができる。
例えば、各m+n個のcycle(シーケンシングサイクル)は1つのスライスデータであり、mの後のスライスは自動的に制御され、即ち2番目のスライスから最後のスライスまで終了し、スライスnのサイズは機器のアイドル状況に応じて決定され、比較的アイドルに近い状態であると、各cycleで1回伝達し、この時、n=1であり、忙しいと、n=20である場合伝送する。
理解できる点として、本願における比較原理に従って、スライスデータが比較プロセスに伝送されてヒトゲノムと比較するとともに、スライスデータの比較範囲を決定し、スライスデータが大きいほど、比較範囲がより正確に縮小する。
上記実施例においてスライスのサイズを決定するステップを更に説明し、以下、実施例を通じてパッケージプログラム及びパッケージプログラムを呼び出してデータ処理及び検出解析を行うプロセスを詳細的に説明する。
一実施例において、前記パッケージプログラムはデータ品質制御プログラム、データ処理プログラム及び検出解析プログラムを含むことができる。
ステップS130における前記メモリに予め設定されたパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するステップは、
前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行い、品質制御結果を取得するS131と、
前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行い、処理結果を取得するS132と、
前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行い、最終的な解析結果を取得するS133と、を含んでもよい。
本実施例において、スライスデータを処理する場合、メモリに予め設定されたパッケージプログラムを呼び出し、パッケージプログラムによってスライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得することができる。
メモリに予め設定されたパッケージプログラムはカスタムプログラムであってもよく、該カスタムプログラムは複数のプログラムにより1つのプログラムとしてパッケージされることができる。例えば、該パッケージプログラムはデータ品質制御プログラム、データ処理プログラム及び検出解析プログラムを含むことができる。
データ品質制御プログラムは主にスライスデータに対して品質制御処理を行い、品質制御結果を取得するために使用され、データ処理プログラムは主に品質制御結果に対してデータ処理を行い、処理結果を取得するために使用され、検出解析プログラムは、処理結果に対して検出解析を行い、最終的な解析結果を取得するために使用される。
上記実施例においてパッケージプログラム及びパッケージプログラムを呼び出してデータ処理及び検出解析を行うプロセスを詳細的に説明し、以下、データ品質制御プログラムを呼び出して品質制御処理を行うプロセスを詳細に説明する。
一実施例において、ステップS131において前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行うステップは、
前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータにおける短配列の位置エラー率を計算し、前記スライスデータにおける塩基分布状況を統計し、及び/又は前記スライスデータにおける塩基品質が品質閾値より小さい塩基である低品質塩基を切り取るステップを含んでもよい。
本実施例において、スライスデータに対して品質制御処理を行う場合、パッケージプログラムにおけるデータ品質制御プログラムを呼び出して品質制御処理を行うことができる。
具体的に、データ品質制御プログラムは主にスライスデータに対して品質制御処理を行い、該品質制御処理プロセスはスライスデータにおける短配列の位置エラー率を計算すること、スライスデータにおける塩基分布状況を統計すること、スライスデータにおける低品質塩基を切り取ること、及び短配列に適用する他の品質制御処理プロセスを含むことができ、具体的にどの1種又は複数種の品質制御処理プロセスを選択するか、品質制御処理プロセスにはどのような工具を使用するかは、実際の状況に応じて設定されることができる。
例えば、スライスデータにおける低品質塩基を切り取る必要がある場合、一定の長さのウィンドウをスライドさせ、ウィンドウ内の塩基平均品質を計算することができ、低すぎる場合はそのまま後にすべて切り取る。
上記実施例において、データ品質制御プログラムを呼び出して品質制御処理を行うプロセスを詳細に説明し、以下、実施例を通じてデータ処理プログラムを呼び出してデータ処理を行うプロセスを説明する。
一実施例において、ステップS132における前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行うステップは、
前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも1つを行うステップを含んでもよい。
本実施例において、スライスデータに対して品質制御処理を行った後、メモリに予め設定されたデータ処理プログラムを呼び出して、品質制御処理後の品質制御結果における短配列に対して比較、ソート、重複除去及び/又は再比較を行うことができる。
具体的に、スライスデータはすべて順序があるゲノムからのものであるが、DNAのライブラリ構築とシーケンシングを経た後、スライスデータにおける異なる短配列の間の前後の順序関係はすべて失われているため、スライスデータにおける隣接する2つの短配列間に任意の位置関係がなく、それらはすべて元のゲノムの中のある位置からの短配列である。
このため、本願はスライスデータに対して品質制御処理を行った後、メモリに予め設定されたデータ処理プログラムを呼び出して、品質制御結果に対応するスライスデータにおける短配列をその種の参照遺伝子と一つ一つ比較し、参照遺伝子上のそれぞれの短配列の位置を見つけ、次に、順序に従って配列し、このプロセスはスライスデータの比較プロセスと呼ばれる。
説明する必要がある点として、ここでの参照遺伝子とは、その種のゲノム配列、即ち組み立てられた完全なゲノム配列であり、その完全なゲノム配列をその種の標準参照物とすることが多い。
短配列比較を完了した後、ソートフローを行うことができ、該ソートフローの役割は、主にその前に比較した後の短配列を位置の前後の順序に従って小さいから大きいまでソートして、複数の短配列の間に連続的な位置関係を形成するようにすることである。
ソートフロー後、スライスデータにおける短配列に対して重複除去操作を行うこともでき、該重複除去操作は、主にスライスデータにおける重複の短配列を除去することであり、このように、後続の検出解析に役に立つ。
最終的に、短配列の再比較プロセスは、主に上記比較プロセスで発見された潜在的な配列を挿入したか、配列を削除した領域を再補正し、後続の検出解析の結果をより正確にすることである。
理解できる点として、上記比較、ソート、重複除去、再比較のデータ処理プロセスは、実際の状況に応じて選択的に設定されることができ、且つ前後順序が手動で設定されてもよく、ここで限定されない。
例えば、正常な解析フローは比較、ソート、重複除去、再比較、変異検出、注釈であり、比較時の入力ファイルはfastqファイルであり、出力ファイルはbamファイルであり、その後、再比較出力までいずれもbamファイルであり、変異検出の出力はvcfファイルであり、注釈時に変異検出の結果に従って注釈され、本願の遺伝子シーケンシング解析方法を使用する場合、2世代シーケンシングプラットフォームを使用してシーケンシングすると、すべての2世代fastqのオフロードデータ解析フローをすべて比較する必要があり、その後に続くプロセスを行うものもあれば、しないものもあり、オフロードデータから始めなければ、任意の段階のbamファイルを入力して後続の解析処理を行うこともできる。
以下、本願の比較プロセスを更に説明する。例えば、本願は、スライスデータを比較する場合、スライスデータにおける短配列の塩基と全ゲノムを比較し、参照遺伝子におけるそれぞれの短配列の位置を見つけ、全部のスライスデータは全ゲノムにおける特定の位置に位置決めされた後、マッチされた比較情報を整合し、隣接する比較位置のスクリーニング拡張を行い、且つ空き位置の存在(即ち比較して位置決めされていない位置)を許可し、これによって、全ゲノムに比較されるより長い配列鎖を取得する。
さらに、上記比較プロセスにおいて、グローバルとローカルの比較状況を統合した動的計画アルゴリズムを使用して、最適な比較結果情報を選択し、次にアダプター情報に基づいて、異なるサンプル比較結果をメモリにそれぞれ出力する。
例えば、よく使われるBWA-MEMアルゴリズムは、主にseed-and-extend戦略を採用している。seed段階では、BWAはreadの塩基断片を取ってreference上で正確なマッチングを行い、一定のマッチング回数と長さの要求を満たすread断片をseedとして選択し、この段階アルゴリズムの核心はFM-indexに基づく正確なマッチングであり、extend段階では、BWAはSmith-Watermanアルゴリズムを利用してseedをreadとreference上で両辺に延長して比較し(gapを容認)、さらに、read全体がreference上で条件に合致するグローバルマッチングを見つける。
上記実施例は主にデータ処理プログラムを呼び出してデータ処理を行うプロセスを説明し、以下、データ処理プロセスの具体的な実施形態を更に説明する。
一実施例において、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも1つを行うステップは、
前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列と参照遺伝子を比較し、前記参照遺伝子における前記短配列の位置を決定するA11と、
前記参照遺伝子における前記短配列の位置に基づいて、前記短配列の位置ラベルを決定するA12と、
前記メモリにおける各予め設定されたスレッドのうち、現在アイドル状態にある目標スレッドを決定するA13と、
前記短配列の位置ラベルを参照して、前記目標スレッドを呼び出して前記短配列に対してソート、重複除去、再比較のうちの少なくとも1つを行うA14と、を含むことができる。
本実施例において、品質制御結果における短配列に対してデータ処理を行う場合、比較後の短配列に位置ラベルを追加し、次に、現在のメモリには各予め設定されたスレッドのうちで、アイドル状態にあるスレッドがあるかどうかを決定し、あると、該スレッドを目標スレッドとして、次に短配列の位置ラベルを参照し、該目標スレッドを呼び出して短配列に対してソート、重複除去及び/又は再比較を行い、ソートと重複除去がより効率的になる。
例えば、データ処理プログラムを呼び出して品質制御結果における短配列と参照遺伝子を比較し、参照遺伝子における該短配列の位置に基づいて短配列に対応する位置ラベルを決定することによって、目標スレッドを呼び出して該短配列に対してソート、重複除去等の操作を行うことができる。例えば、ソートプロセスでは、マルチスレッドを使用して処理する場合、マルチスレッドの処理効率を高めるために、該短配列の位置ラベルを参照してソートすることができ、マルチスレッドのソート後に得られるソート結果が正確であると同時に、ソート効率が高くなる。
上記実施例においてデータ処理プロセスの具体的な実施形態を更に説明し、以下、検出解析プログラムを呼び出して処理結果に対して検出解析を行うプロセスを具体的に説明する。
一実施例において、ステップS133における前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行うステップは、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して変異検出、解読を行うステップを含んでもよい。
本実施例において、遺伝子シーケンシング解析を行う目的の1つはサンプルの正確な変異集合を得ることであり、サンプルの正確な変異集合を得るには、変異検出、解読等によって決定する必要がある。現在、変異検出の内容は、SNP、Indel、CNV、SV等を含む。変異検出のプロセスはベイズ推定を適用したアルゴリズムを使用することも、HaplotypeCallerアルゴリズムを使用することもできる。
例えば、HaplotypeCallerアルゴリズムを使用して変異検出を行う場合、まず、グループの単倍体の組合わせ状況を推定し、それぞれ組み合わせの確率を計算し、次に、この情報に従って各サンプルの遺伝子型組み合わせを逆推定する。
さらに、本願は、処理結果に対して変異検出などの検出解析を行う場合、変異検出プロセスは比較が完了してから行う必要がなく、全ゲノムにおける異なる染色体を複数の領域に分け、各領域が比較結果の一部に蓄積されると、高変異領域を見つけて検出することができ、後続の比較結果に従来の高変異領域を絶えず検証する、ミスマッチ/挿入/欠損など等を含む変異状況を追加し、次に、高変異領域のデータを組み立て、簡素な単倍型データを得て、さらにクリプトマルコフモデルを利用して単倍型の最大尤度推定を推定し、各サイトの分離型結果を取得し、変異情報を出力する。
理解できる点として、生物情報解析全体の解析効率を向上させるために、本願は処理結果に対して変異検出を行う場合、全ゲノムの範囲内のすべてのサイトに対して変異検出を行わずに、高変異領域を選択して検出し、高変異領域の選択は、各サイトに突然変異が生じる確率に基づいて選択することができる。例えば、各サイトに突然変異が生じる確率を計算した後、所定の確率閾値に基づいて高変異領域であるかどうかを判断することができる。
且つ、高変異領域のデータを組み立てる場合、参照ゲノムに対応する断片集合に重複が存在すると、短断片の長さは重複がないか、最大長さ制限に達するまで増加し、且つ組み立てられたエッジは比較された短配列の数に応じて重みを割り当てることができる。
よりさらに、変異検出結果を取得した後、該変異検出結果に対して品質制御と濾過を行ってもよく、変異検出結果の良否を区別するようにする。
以下、本願の実施例による遺伝子シーケンシング解析装置を説明し、以下で説明する遺伝子シーケンシング解析装置は以上で説明された遺伝子シーケンシング解析方法と互に対応して参照できる。
一実施例において、図5は本発明の実施例による遺伝子シーケンシング解析装置の構造模式図であり、本発明は、図5に示すように、遺伝子シーケンシング解析装置をさらに提供し、データ取得モジュール210、スライス伝送モジュール220、及び処理解析モジュール230を備え、具体的に、データ取得モジュール210は、シーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも1ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合であるスライスデータを取得するために使用され、スライス伝送モジュール220は、前記スライスデータをメモリに入力するために使用され、処理解析モジュール230は、前記メモリに予め設定されたカスタムプログラムであるパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するために使用される。
上記の実施例による遺伝子シーケンシング解析装置は、まず、シーケンシングプラットフォームによってリアルタイムで入力された短配列に対してスライス処理を行った後に対応するスライスデータを取得し、次に、スライスデータをメモリに入力し、メモリに予めロードされるパッケージプログラムを呼び出してスライスデータに対して検出解析を行い、対応する解析結果を取得し、該プロセスはシーケンシングプラットフォームによって完全にシーケンシングした後にシーケンシング結果全体を対応するプラットフォームに伝送して処理解析を行うのを待つ必要なく、シーケンシングプラットフォームによってシーケンシングされたスライスデータをリアルタイムで取得し、スライスデータに対してストリーミングシーケンシング及び解析を行い、本願は全体的にシーケンシングと解析の進展を加速することができ、且つ解析時のデータはスライスデータであり、該スライスデータはシーケンシング結果全体に対して、伝送速度がより速く、時間がより短い。
また、本願の解析プロセスはメモリに予め設定されたパッケージプログラムにより行われ、シーケンシングデータを他のプラットフォームに伝送して処理する必要がなく、I/O混雑とメモリ消費を効果的に低下させ、機器運転効率を更に向上させると同時に、機器の耐用年数を延長させる。
一実施例において、データ取得モジュール210は、スライスのサイズを決定するための決定モジュール211と、前記スライスのサイズに従ってシーケンシングプラットフォームから現在入力されている、すべての切り分けられていない、単一のラウンドのシーケンシングサイクル後に読み取られた短配列を切り分け、切り分け後の短配列集合をスライスデータとするための切り分けモジュール212と、を備えてもよい。
一実施例において、決定モジュール211は、現在のメモリのアイドル状況を取得するためのメモリ状況取得モジュール2111と、前記現在のメモリのアイドル状況に応じてスライスのサイズを調整するためのスライス調整モジュール2112と、を備えてもよい。
一実施例において、処理解析モジュール230におけるパッケージプログラムはデータ品質制御プログラム、データ処理プログラム及び検出解析プログラムを含んでもよい。
処理解析モジュール230は、前記メモリに予め設定されたパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するために使用され、前記処理解析モジュール230は、前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行い、品質制御結果を取得するためのデータ品質制御モジュール231と、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行い、処理結果を取得するためのデータ処理モジュール232と、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行い、最終的な解析結果を取得するための検出解析モジュール233と、を備えてもよい。
一実施例において、データ品質制御モジュール231は、前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータにおける短配列の位置エラー率を計算し、前記スライスデータにおける塩基分布状況を統計し、及び/又は前記スライスデータにおける塩基品質が品質閾値より低い塩基である低品質塩基を切り取るための第1の処理モジュール2311を備えてもよい。
一実施例において、データ処理モジュール232は、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも1つを行うための第2の処理モジュール2321を備えてもよい。
一実施例において、第2の処理モジュール2321は、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列と参照遺伝子を比較し、前記参照遺伝子における前記短配列の位置を決定するための比較モジュール310と、前記参照遺伝子における前記短配列の位置に基づいて、前記短配列の位置ラベルを決定するための決定ラベルモジュール311と、前記メモリにおける各予め設定されたスレッドのうち、現在アイドル状態にある目標スレッドを決定するための決定スレッドモジュール312と、前記短配列の位置ラベルを参照して、前記目標スレッドを呼び出して前記短配列に対してソート、重複除去、再比較のうちの少なくとも1つを行うためのマルチスレッド操作モジュール313と、を備えてもよい。
一実施例において、検出解析モジュール233は、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して変異検出、解読を行うための第3の処理モジュール2331を備えてもよい。
一実施例において、本発明は記憶媒体をさらに提供し、前記記憶媒体にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに上記実施例の中のいずれか1項に記載の遺伝子シーケンシング解析方法のステップを実行させる。
一実施例において、本発明はコンピュータ機器をさらに提供し、前記コンピュータ機器にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに上記実施例の中のいずれか1項に記載の遺伝子シーケンシング解析方法のステップを実行させる。
例示的に、図6に示すように、図6は本発明の実施例によるコンピュータ機器の内部構造模式図であり、該コンピュータ機器300はサーバーとして提供されることができる。図6を参照し、コンピュータ機器300は処理コンポーネント302を備え、1つまたは複数のプロセッサ、及び処理コンポーネント302で実行可能な命令、例えばアプリケーションプログラムを記憶するためのメモリ301で代表されるメモリリソースをさらに備える。メモリ301に記憶されたアプリケーションプログラムは1つ又は1つ以上のそれぞれ1組の命令に対応するモジュールを備えることができる。なお、処理コンポーネント302は命令を実行することで、上記任意の実施例の遺伝子シーケンシング解析方法を実行するように配置される。
コンピュータ機器300はコンピュータ機器300の電源管理を実行するように配置される1つの電源コンポーネント303と、コンピュータ機器300をネットワークに接続するように配置される有線または無線ネットワークインタフェース304と、1つの入力/出力(I/O)インタフェース305と、を備える。コンピュータ機器300はメモリ301に記憶される操作システム、例えばWindows(登録商標) Server TM、Mac OS XTM、Unix(登録商標) TM、Linux(登録商標) TM、Free BSDTMまたは類似のものを操作することができる。
当業者は、理解できる点として、図6に示される構造は、本願の手段に関連する一部の構造のブロック図に過ぎず、本願の手段が適用されるコンピュータ機器に対する限定を構成しなく、具体的なコンピュータ機器は図に示すようなより多くまたはより少ない部材を含むか、幾つかの部材を組み合わせるか、異なる部材の布置を有することができる。
最終的に、さらに説明する必要がある点として、本明細書では、例えば第1及び第2などのような関係技術用語は1つの実体又は操作と他の実体又は操作を区別するものだけであり、必ずしもこれらの実体又は操作の間にいずれのこのような実際な関係又は順序が存在すると要求又は暗示しないことである。且つ、技術用語「含む」、「備える」或いはその他のいずれの変形は非排他的な包含を含むと意味するため、一連の要素を含む過程、方法、物品或いは機器はそれらの要素を含む以外、明確にリストされないその他の要素を含み、或いはこのような過程、方法、物品或いは機器に固有した要素を含む。より多くの制限が存在しない場合には、語句「1つ...を含む」により限定された要素は、前記要素を含む過程、方法、物品或いは機器において別の同じ要素が存在すると排除しない。
本明細書における各実施例は、進歩的に説明し、各実施例が他の実施例と異なる点を重点的に示しており、各実施例間は必要に応じて組み合わせることができ、且つ同じ類似部分を互いに参照すればよい。
開示された実施例の上記説明は、当業者が本願を実現又は使用することを可能にする。これらの実施例の様々な修正は、当業者にとって明らかなものであり、本明細書で定義された一般的な原理は、本願の精神又は範囲から逸脱しないことなく、他の実施例において実現することができる。このため、本願は本明細書に示すようなこれらの実施例に限定されることなく、本明細書に開示された原理と新規特点に一致する最も広い範囲に合致する必要がある。
(関連出願の相互参照)
本願は、2021年06月23日に中国国家知識産権局に提出された、出願番号が202110698855.6である特許出願の優先権と権益を主張し、そのすべては参照により本明細書に組み込まれる。

Claims (11)

  1. 遺伝子シーケンシング解析方法であって、前記方法は、
    シーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも1ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合であるスライスデータを取得するステップと、
    前記スライスデータをメモリに入力するステップと、
    前記メモリに予め設定されたカスタムプログラムであるパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するステップと、を含むことを特徴とする遺伝子シーケンシング解析方法。
  2. スライスデータを取得するステップは、
    スライスのサイズを決定するステップと、
    前記スライスのサイズに従ってシーケンシングプラットフォームから現在入力されている、すべての切り分けられていない、単一のラウンドのシーケンシングサイクル後に読み取られた短配列を切り分け、切り分け後の短配列集合をスライスデータとするステップと、を含む、ことを特徴とする請求項1に記載の遺伝子シーケンシング解析方法。
  3. 前記スライスのサイズを決定するステップは、
    現在のCPUのアイドル状況を取得するステップと、
    前記現在のCPUのアイドル状況に応じてスライスのサイズを調整するステップと、を含む、ことを特徴とする請求項2に記載の遺伝子シーケンシング解析方法。
  4. 前記パッケージプログラムはデータ品質制御プログラム、データ処理プログラム及び検出解析プログラムを含み、
    前記メモリに予め設定されたパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するステップは、
    前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行い、品質制御結果を取得するステップと、
    前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行い、処理結果を取得するステップと、
    前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行い、最終的な解析結果を取得するステップと、を含む、ことを特徴とする請求項1に記載の遺伝子シーケンシング解析方法。
  5. 前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行うステップは、
    前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータにおける短配列の位置エラー率を計算し、前記スライスデータにおける塩基分布状況を統計し、及び/又は前記スライスデータにおける低品質塩基を切り取るステップを含み、
    前記低品質塩基は塩基品質が品質閾値より低い塩基である、ことを特徴とする請求項4に記載の遺伝子シーケンシング解析方法。
  6. 前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行うステップは、
    前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較、塩基品質値補正のうちの少なくとも1つを行うステップを含む、ことを特徴とする請求項4に記載の遺伝子シーケンシング解析方法。
  7. 前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも1つを行うステップは、
    前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列と参照遺伝子を比較し、前記参照遺伝子における前記短配列の位置を決定するステップと、
    前記参照遺伝子における前記短配列の位置に基づいて、前記短配列の位置ラベルを決定するステップと、
    前記メモリにおける各予め設定されたスレッドのうち、現在アイドル状態にある目標スレッドを決定するステップと、
    前記短配列の位置ラベルを参照して、前記目標スレッドを呼び出して前記短配列に対してソート、重複除去、再比較のうちの少なくとも1つを行うステップと、を含む、ことを特徴とする請求項6に記載の遺伝子シーケンシング解析方法。
  8. 前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行うステップは、
    前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して変異検出、解読を行うステップを含む、ことを特徴とする請求項4に記載の遺伝子シーケンシング解析方法。
  9. 遺伝子シーケンシング解析装置であって、
    シーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも1ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合であるスライスデータを取得するためのデータ取得モジュールと、
    前記スライスデータをメモリに入力するためのスライス伝送モジュールと、
    前記メモリに予め設定されたカスタムプログラムであるパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するための処理解析モジュールと、を備えることを特徴とする遺伝子シーケンシング解析装置。
  10. 記憶媒体であって、前記記憶媒体にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに請求項1~8のいずれか1項に記載の遺伝子シーケンシング解析方法のステップを実行させることを特徴とする記憶媒体。
  11. コンピュータ機器であって、前記コンピュータ機器にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに請求項1~8のいずれか1項に記載の遺伝子シーケンシング解析方法のステップを実行させることを特徴とするコンピュータ機器。
JP2022577420A 2021-06-23 2022-06-06 遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器 Active JP7515632B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110698855.6A CN113299344A (zh) 2021-06-23 2021-06-23 基因测序分析方法、装置、存储介质和计算机设备
CN202110698855.6 2021-06-23
PCT/CN2022/097102 WO2022267867A1 (zh) 2021-06-23 2022-06-06 基因测序分析方法、装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
JP2023534124A true JP2023534124A (ja) 2023-08-08
JP7515632B2 JP7515632B2 (ja) 2024-07-12

Family

ID=

Also Published As

Publication number Publication date
CN113299344A (zh) 2021-08-24
IL298947A (en) 2023-02-01
EP4152334A4 (en) 2024-01-03
WO2022267867A1 (zh) 2022-12-29
AU2022298428A1 (en) 2023-02-02
EP4152334A1 (en) 2023-03-22

Similar Documents

Publication Publication Date Title
Rochette et al. Stacks 2: Analytical methods for paired‐end sequencing improve RADseq‐based population genomics
WO2022267867A1 (zh) 基因测序分析方法、装置、存储介质和计算机设备
Heo et al. BLESS: bloom filter-based error correction solution for high-throughput sequencing reads
CN106687966B (zh) 用于数据分析和压缩的方法和系统
CN115132272A (zh) 母体血浆的无创性产前分子染色体核型分析
Delhomme et al. Guidelines for RNA-Seq data analysis
Eldem et al. Transcriptome analysis for non-model organism: Current status and best-practices
CN115312129A (zh) 高通量测序背景下的基因数据压缩方法、装置及相关设备
US11830581B2 (en) Methods of optimizing genome assembly parameters
Morin et al. SNP discovery from single and multiplex genome assemblies of non-model organisms
Forsberg et al. CLC Bio Integrated Platform for Handling and Analysis of Tag Sequencing Data
JP7515632B2 (ja) 遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器
WO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
RU2821785C2 (ru) Способ анализа и устройство для секвенирования генов, накопитель для хранения данных и вычислительное устройство
Collin et al. An open-sourced bioinformatic pipeline for the processing of Next-Generation Sequencing derived nucleotide reads: Identification and authentication of ancient metagenomic DNA
US11001880B2 (en) Development of SNP islands and application of SNP islands in genomic analysis
Shih et al. GS-Aligner: a novel tool for aligning genomic sequences using bit-level operations
US20240127906A1 (en) Detecting and correcting methylation values from methylation sequencing assays
US20230368866A1 (en) Adaptive neural network for nucelotide sequencing
US20230313271A1 (en) Machine-learning models for detecting and adjusting values for nucleotide methylation levels
Gupta et al. A bioinformatics pipeline for processing and analysis of whole transcriptome sequence data
EP1430442A2 (en) Confirmation sequencing
Rescheneder Fast, accurate and user-friendly alignment of short and long read data with high mismatch rates
Ping et al. Turnnoise'to signal: accurately rectify millions of erroneous short reads through graph learning on edit distances
WO2023004323A1 (en) Machine-learning model for recalibrating nucleotide-base calls

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240425

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240625