JP2023534124A

JP2023534124A - 遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器

Info

Publication number: JP2023534124A
Application number: JP2022577420A
Authority: JP
Inventors: 楊▲ジョウ▼博; 晋向前; 賀増泉; 張優勁
Original assignee: BGI Genomics Co Ltd
Current assignee: BGI Genomics Co Ltd
Priority date: 2021-06-23
Filing date: 2022-06-06
Publication date: 2023-08-08
Anticipated expiration: 2042-06-06
Also published as: CN113299344A; IL298947A; EP4152334A4; WO2022267867A1; AU2022298428A1; EP4152334A1

Abstract

本発明による遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器は、まず、シーケンシングプラットフォームによってリアルタイムで入力された短配列に対してスライス処理を行った後に対応するスライス処理を取得し、次に、スライスデータをメモリに入力し、メモリに予めロードされるパッケージプログラムを呼び出してスライスデータに対して生物情報解析を行い、対応する解析結果を取得し、該プロセスはシーケンシングプラットフォームによって完全にシーケンシングされた後にシーケンシング結果全体を対応するプラットフォームに伝送して処理解析を行うことを待つ必要がなく、シーケンシングプラットフォームによってシーケンシングされたスライスデータをリアルタイムで取得し、スライスデータに対してストリーミングシーケンシング及び解析を行うため、全体的にシーケンシングと解析の進展を加速することができ、且つ解析時のデータはスライスデータであり、該スライスデータはシーケンシング結果全体に対して、伝送速度がより速く、時間がより短い。【選択図】図１

Description

本発明は生物情報技術の分野に関し、特に遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器に関する。

ＤＮＡシーケンシング技術は、発明以来、分子生物学の発展を推進する上で重要な役割を果たしてきた。最初のＦｒｅｄｅｒｉｃｋＳａｎｇｅｒの手動シーケンシング、Ｓａｎｇｅｒ法に基づいて開発された第１世代自動化シーケンサから、現在の次世代のシーケンシングプラットフォームまで、当該分野では極めて大きな変化が発生している。

次世代シーケンシングプラットフォームのシーケンシングプロセスは、主に各ラウンドのシーケンシングサイクルにおいて、異なる蛍光基を標識する４種類のヌクレオチド及びＤＮＡポリメラーゼを同時にフローセル通路に添加し、塩基相補対合の原則に従ってＤＮＡ鎖の延長を行い、次に、蛍光画像を収集し、塩基特異的な蛍光マーカーはこのラウンドに新たに添加したヌクレオチドはなんであるかを示し、テンプレートにおけるこの位置のＤＮＡ配列を取得し、次に、次のラウンドの反応を続ける。このプロセスを複数回繰り返した後、複数のＤＮＡ配列を取得し、例えば５０ラウンドのシーケンシングサイクルを行った後、５０個の塩基のＤＮＡ配列を生成する。なお、該方法によって得られた単一の配列の長さが非常に短いため、短配列と呼ばれる。

上記の内容から分かるように、次世代シーケンシングプラットフォームは生化学及び画像形成の実行が完了した後、塩基の認識を統一して行い、次に、認識結果を他の形式に変換して記憶し、その後、記憶されたファイルを一次記憶装置に転送してデータ品質制御を行い、サンプル情報とオンロード情報を検証し、さらに、二次記憶装置を使用してデータアーカイブを行う。該シーケンシング段階は時間がかかり、転送効率が低く、解析プロセスが遅くなる。

本発明は、上記の技術的欠陥の１つ、特にシーケンシング段階は時間がかかり、転送効率が低く、解析プロセスが遅くなるという従来の技術における技術的欠陥を少なくとも解決することを目的とする。

本発明の第１の態様では、本発明は、遺伝子シーケンシング解析方法を提供し、前記方法は、シーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも１ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合であるスライスデータを取得するステップと、前記スライスデータをメモリに入力するステップと、前記メモリに予め設定されたカスタムプログラムであるパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するステップと、を含む。

本発明の実施例によれば、上記遺伝子シーケンシング解析方法はさらに以下の付加的な技術的特徴の少なくとも１つを含んでもよい。

本発明の実施例によれば、スライスデータを取得するステップは、スライスのサイズを決定するステップと、前記スライスのサイズに従ってシーケンシングプラットフォームから現在入力されている、すべての切り分けられていない、単一のラウンドのシーケンシングサイクル後に読み取られた短配列を切り分け、切り分け後の短配列集合をスライスデータとするステップとを含む。

本発明の実施例によれば、前記スライスのサイズを決定するステップは、現在のＣＰＵのアイドル状況を取得するステップと、前記現在のＣＰＵのアイドル状況に応じてスライスのサイズを調整するステップと、を含む。

本発明の実施例によれば、前記パッケージプログラムはデータ品質制御プログラム、データ処理プログラム及び検出解析プログラムを含み、前記メモリに予め設定されたパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するステップは、前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行い、品質制御結果を取得するステップと、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行い、処理結果を取得するステップと、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行い、最終的な解析結果を取得するステップと、を含む。

本発明の実施例によれば、前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行うステップは、前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータにおける短配列の位置エラー率を計算し、前記スライスデータにおける塩基分布状況を統計し、及び／又は前記スライスデータにおける塩基品質が品質閾値より低い塩基である低品質塩基を切り取るステップを含む。

本発明の実施例によれば、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行うステップは、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも１つを行うステップを含む。

本発明の実施例によれば、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも１つを行うステップは、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列と参照遺伝子を比較し、前記参照遺伝子における前記短配列の位置を決定するステップと、前記参照遺伝子における前記短配列の位置に基づいて、前記短配列の位置ラベルを決定するステップと、前記メモリにおける各予め設定されたスレッドのうち、現在アイドル状態にある目標スレッドを決定するステップと、前記短配列の位置ラベルを参照して、前記目標スレッドを呼び出して前記短配列に対してソート、重複除去、再比較のうちの少なくとも１つを行うステップと、を含む。

本発明の実施例によれば、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行うステップは、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して変異検出、解読を行うステップを含む。

本発明の第２態様では、本発明は、遺伝子シーケンシング解析装置をさらに提供し、シーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも１ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合であるスライスデータを取得するためのデータ取得モジュールと、前記スライスデータをメモリに入力するためのスライス伝送モジュールと、前記メモリに予め設定されたカスタムプログラムであるパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するための処理解析モジュールと、を備える。

本発明の第３の態様では、本発明は、記憶媒体をさらに提供し、前記記憶媒体にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに上記実施例のいずれか１項に記載の遺伝子シーケンシング解析方法のステップを実行させる。

本発明の第４の態様では、本発明は、コンピュータ機器をさらに提供し、前記コンピュータ機器にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに上記実施例のいずれか１項に記載の遺伝子シーケンシング解析方法のステップを実行させる。

以上の技術的解決手段から分かるように、本発明の実施例は以下の利点を有する。

本発明による遺伝子シーケンシング解析方法、装置、記憶媒体及びコンピュータ機器は、まず、シーケンシングプラットフォームによってリアルタイムで入力された短配列に対してスライス処理を行った後に対応するスライスデータを取得し、次に、スライスデータをメモリに入力し、メモリに予めロードされるパッケージプログラムを呼び出してスライスデータに対して検出解析を行い、対応する解析結果を取得し、該プロセスはシーケンシングプラットフォームによって完全にシーケンシングした後にシーケンシング結果全体を対応するプラットフォームに伝送して処理解析を行うことを待つ必要がなく、シーケンシングプラットフォームによってシーケンシングされたスライスデータをリアルタイムで取得し、スライスデータに対してストリーミングシーケンシング及び解析を行うことから、本願は全体的にシーケンシングと解析の進展を加速することができ、且つ解析時のデータはスライスデータであり、該スライスデータはシーケンシング結果全体に対して、伝送速度がより速く、時間がより短い。

また、本願の解析プロセスはメモリに予め設定されたパッケージプログラムによって行われ、シーケンシングデータを他のプラットフォームに伝送して処理する必要がなく、Ｉ／Ｏ混雑やメモリ消費を効果的に低減し、さらに機器の運転効率を向上させると同時に、機器の耐用年数を延長する。

本発明の実施例または従来の技術における技術的解決手段をより明確的に説明するために、以下、実施例または従来の技術の説明に使用する必要がある図面を簡単に説明し、明らかで、以下で説明する図面はただ本発明のいくつかの実施例だけであり、当業者にとって、創造的な作業なしに更にこれらの図面に基づいてその他の図面を取得することができる。
本発明の実施例による遺伝子シーケンシング解析方法のフローチャートである。本発明の実施例によるストリーミング解析プロセスの模式図である。本発明の実施例による遺伝子シーケンシング解析プロセスの模式図である。本発明の実施例による遺伝子シーケンシング解析プロセスにおけるシーケンシングプロセスと時間の関係模式図である。本発明の実施例による遺伝子シーケンシング解析装置の構造模式図である。本発明の実施例によるコンピュータ機器の内部構造模式図である。

以下、本発明の実施例における図面を組み合わせて、本発明の実施例における技術的解決手段を明確、且つ完全に説明し、説明した実施例は全部の実施例ではなく、本発明の一部の実施例であることは明らかである。本発明における実施例に基づいて、当業者は創造的な作業なしに得られたすべてのその他の実施例は、本発明が保護する範囲に属する。

シーケンシングとは、簡単に言えば、ＤＮＡ化学信号をコンピュータで処理可能なデジタル信号に変換することである。最初のＦｒｅｄｅｒｉｃｋＳａｎｇｅｒの手動シーケンシング、Ｓａｎｇｅｒ法に基づいて開発された第１世代自動化シーケンサから、現在の次世代のシーケンシングプラットフォームまで、当該分野は極めて大きな変化が発生していたとともに、且つシーケンシング技術の各変革と突破は、ゲノム学研究、疾病医療研究、薬物研究と開発、育種などの分野に大きな推進作用をもたらしている。

現在、次世代シーケンシングプラットフォームのシーケンシングプロセスは、主に各ラウンドのシーケンシングサイクルにおいて、異なる蛍光基を標識する４種類のヌクレオチド及びＤＮＡポリメラーゼを同時にフローセル通路に添加し、塩基相補対合の原則に従ってＤＮＡ鎖の延長を行い、次に、蛍光画像を収集し、塩基特異的な蛍光マーカーはこのラウンドに新たに添加したヌクレオチドはなんであるかを示し、テンプレートにおけるこの位置のＤＮＡ配列を取得し、次に、次のラウンドの反応を続ける。このプロセスを複数回繰り返した後、複数のＤＮＡ配列を取得し、例えば５０ラウンドのシーケンシングサイクルを行った後、５０個の塩基のＤＮＡ配列を生成する。なお、該方法によって得られた単一の配列の長さが非常に短いため、短配列と呼ばれる。

したがって、本発明は、シーケンシング段階は時間がかかり、転送効率が低く、解析プロセスが遅くなるという従来の技術における技術的問題を解決することを目的とする。

例示的に、図１に示すように、図１は本発明の実施例による遺伝子シーケンシング解析方法のフローチャートであり、本発明は遺伝子シーケンシング解析方法を提供し、具体的に、以下のステップを含む。

Ｓ１１０では、スライスデータを取得する。

このステップでは、生物情報解析を行う前に、シーケンシングプラットフォームによって入力されたスライスデータを取得する必要があり、該スライスデータに従って対応する生物情報解析を行うようにする。

理解できる点として、本願は後続プラットフォームの解析効率及びメモリの占有状況などを考慮して、シーケンシングプラットフォームから入力されたリアルタイムデータに対してスライス処理を行う必要があり、且つスライスのサイズはサーバーのアイドル程度に応じて適応的に調整することができる。したがって、本願によって取得されたスライスデータは、シーケンシングプラットフォームからリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも１ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合である。

説明する必要がある点として、ここでのスライスのサイズをサーバーのアイドル程度に応じて適応的に調整することができることは主に、サーバーがアイドルでない場合、スライスのサイズを１つのシーケンシングサイクルを切り分けた後に読み取ることができる短配列に調整することができることと、サーバーがアイドルである場合、スライスのサイズを複数のシーケンシングサイクルを切り分けた後に読み取ることができる短配列に調整することができることと、を含む。また、最初に切り分ける場合、複数のラウンドのシーケンシングサイクルを待つことができ、例えば、１０ラウンドのシーケンシングサイクルを待った後に１つのスライスに切り分ける。

例えば、本願は２世代シーケンシングプラットフォームを使用してスライスデータを取得することができ、２世代シーケンシング（ＮＧＳ）はＳａｎｇｅｒシーケンシングと同様に、各シーケンシング周期において、コンピュータで、ＤＮＡポリメラーゼ触媒蛍光で標識されるｄＮＴＰをＤＮＡテンプレートに結合する際に生成した蛍光信号を検出する。Ｓａｎｇｅｒの単位時間当たりのセグメントの検出と異なり、ＮＧＳは何千ものチャンネルの信号を同時に検出することができるため、効率を大幅に向上させる。

理解できる点として、ここでの２世代シーケンシングプラットフォームはＩｌｌｕｍｉｎａ（Ｓｏｌｅｘａ）ｓｅｑｕｅｎｃｉｎｇ、Ｒｏｃｈｅ４５４ｓｅｑｕｅｎｃｉｎｇ、Ｉｏｎｔｏｒｒｅｎｔ：Ｐｒｏｔｏｎ／ＰＧＭｓｅｑｕｅｎｃｉｎｇ、ＳＯＬｉＤｓｅｑｕｅｎｃｉｎｇを含むが、これらに限定されない。

以下、２世代シーケンシングプラットフォームを例として、如何にスライスデータを取得するかをさらに説明する。例示的に、本願における２世代シーケンシングプラットフォームはシーケンシングライブラリーをシーケンシングする前に、シーケンシングライブラリーを構築する必要があり、該シーケンシングライブラリーとは、両端に特定のＤＮＡアダプター配列を結合したＤＮＡ断片からなるＤＮＡ混合物である。例えば、超音波等を使用してゲノムＤＮＡを断片化し、次に、断片化したＤＮＡ断片の両端を酵素で平らにし、リガーゼでアダプター配列を結合し、結合した一部のＤＮＡ混合物は、１つの「ライブラリ」（ｌｉｂｒａｒｙ）と呼ばれる。

２世代シーケンシングプラットフォームを使用してシーケンシングライブラリーをシーケンシングする前に、シーケンシングライブラリーをＰＣＲ増幅することもでき、ＰＣＲ増幅の役割は、シーケンシング対象溶液中の微弱なＤＮＡ断片を数倍から数十倍コピーすることであり、シーケンシング対象溶液中に分布する密度を高め、サンプリング時に取得できるようにする。

正式なシーケンシング時に、中性溶液を添加し、中性溶液にシーケンシングｄＮＴＰプライマーを添加することができる。ｄＮＴＰの３’端はアジド基で塞がれているため、１ラウンドのシーケンシングサイクルは１個の塩基しか延長できず、１つのシーケンシングサイクルが終了した後、特定の化学試薬を添加してアジド基と蛍光標識基を切り落とし、３’端の水酸基を露出させれば、塩基配列を読み取ることができる。

本願において、シーケンシングプロセスにおいて各シーケンシングサイクルの生化学と画像形成部分をいずれもリアルタイムでメモリに入力して塩基認識（Ｂａｓｅｃａｌｌ）を行い、対応する短配列を取得し、１つのスライスのサイズを満たす場合、スライスデータを出力してメモリに記憶する。

例えば、元の２世代シーケンシングプラットフォームはシーケンシングを行った後、ｆａｓｔｑファイルとして出力し、ｆａｓｔｑファイルは品質値を含む配列ファイルであり、ここで、ｑはｑｕａｌｉｔｙであり、一般的に、元のシーケンシングデータを記憶するために使用され、拡張子は一般的にｆａｓｔｑまたはｆｑである。ｆａｓｔｑファイルの一般的な配列形式を次に示す。
＠ＤＪＢ７７５Ｐ１：２４８：Ｄ０ＭＤＧＡＣＸＸ：７：１２０２：１２３６２：４９６１３
ＴＧＣＴＴＡＣＴＣＴＧＣＧＴＴＧＡＴＡＣＣＡＣＴＧＣＴＴＡＧＡＴＣＧＧＡＡＧＡＧＣＡＣＡＣＧＴＣＴＧＡＡ
＋
ＪＪＪＪＪＩＩＪＪＪＪＪＪＨＩＨＨＨＧＨＦＦＦＦＦＦＣＥＥＥＥＥＤＢＤ？ＤＤＤＤＤＤＢＤＤＤＡＢＤＤＣＡ
＠ＤＪＢ７７５Ｐ１：２４８：Ｄ０ＭＤＧＡＣＸＸ：７：１２０２：１２７８２：４９７１６
ＣＴＣＴＧＣＧＴＴＧＡＴＡＣＣＡＣＴＧＣＴＴＡＣＴＣＴＧＣＧＴＴＧＡＴＡＣＣＡＣＴＧＣＴＴＡＧＡＴＣＧＧ
＋
ＩＩＩＩＩＩＩＩＩＩＩＩＩＩＩＨＨＨＨＨＨＦＦＦＦＦＦＥＥＣＣＣＣＢＣＥＣＣＣＣＣＣＣＣＣＣＣＣＣＣＣＣ

上記配列形式から分かるように、ｆａｓｔｑファイルにおける４行ごとに独立したユニットとなり、ｒｅａｄ、即ち短配列と呼ばれる。１行目は‘＠’で始まり、ＤＪＢ７７５Ｐ１はこの短配列の名称であり、１行目の文字列はシーケンシング時の状態情報に基づいて変換され、中央にスペースがなく、それは各短配列の唯一の識別子であり、２行目はシーケンシングｒｅａｄの配列であり、Ａ、Ｃ、Ｇ、Ｔ及びＮの５種類のアルファベットで構成され、これは本当に関心を持っているＤＮＡ配列であり、Ｎはシーケンシング時に認識されることができない塩基を表し、３行目は‘＋’で始まり、旧バージョンのＦＡＳＴＱファイルでは１行目の情報を直接繰り返すが、現在は一般的に何も追加せず（記憶スペースを節約する）、４行目はシーケンシングｒｅａｄの品質値であり、これは２行目の塩基情報と同様に重要であり、各シーケンシング塩基の信頼性を説明し、ＡＳＣＩＩコードで示される。

本願は解析効率を向上するために、シーケンシングと解析プロセスに対してスライス処理を行い、ストリーミング構造で順次に処理し、シーケンシング、符号化、伝送、解析を同時に実現する。まず、シーケンシングプロセスにおける各シーケンシングサイクルの生化学と画像形成部分によって得られた結果をメモリに入力してｂａｓｅｃａｌｌ（塩基認識）プロセスの画像認識処理を行うことによって、複数の短配列を取得し、次に、サーバーのアイドル程度に応じてスライスのサイズを決定し、即ちサーバーのアイドル程度に応じて上記２行目における塩基を切り分け、サーバーがアイドルであると、複数の塩基を１つのスライスデータとして切り分け、アイドルでないと、単一の塩基を１つのスライスデータとして切り分け、切り分け後に得られたスライスデータをメモリに記憶する。

続いて、メモリにおけるスライスデータを読み取って解析する際に、まず、アダプター（１番目のスライスの最初に位置し、一般的に６－８個の塩基であり、アダプターデータは異なるサンプルを区別するために使用でき、後で出力するのに便利である）を取り除くことができ、次に、残りのスライスデータをヒトゲノムと比較し、新しいスライスデータごとに各塩基のｒｅａｄがヒトゲノムに位置決めされる範囲を縮小させ続け、比較位置がより正確になる。

また、本願はシーケンシングと解析を行う場合、選択されたプラットフォームはシーケンシングと解析を合成する機器であってもよいし、従来のシーケンサとアナライザを、ネットワークを介して接続し、データ伝送と運転解析を実現してもよいし、ここでは限定されない。

Ｓ１２０では、スライスデータをメモリに入力する。

このステップでは、ステップＳ１１０によってスライスデータを取得した後、合成した機器におけるメモリに入力してもよいし、シーケンサに接続されたアナライザのメモリに入力してもよく、メモリにおけるパッケージプログラムによってスライスデータに対してデータ処理及び検出解析を行うようにする。

理解できる点として、従来のシーケンサはシーケンシングライブラリーをシーケンシングした後、得られたシーケンシング結果は一般的にｆａｓｔｑファイルとして出力され、ハードディスクに記憶され、比較解析を行う場合、ハードディスクからｆａｓｔｑファイルを読み取って、さらに、ヒトゲノム（ｒｅｆｅｒｅｎｃｅ．ｆａ）に比較する一方、本願で取得されたスライスデータは、ハードディスクに出力する必要がなく、メモリに直接入れるだけで、比較処理を行うことができ、このように、ハードディスクへの書き込み、ハードディスクからの読み取りプロセスを減少し、Ｉ／Ｏ消費を低下させる。

また、説明する必要がある点として、ここでのメモリはＤＤＲメモリであってもよい。遺伝子データが大きく、サーバーのメモリが限られているため、常にＤＤＲメモリに拡張され、ＤＤＲメモリにクロック信号の立ち上がりエッジと立ち下がりエッジが１回ずつデータを伝送し、これにより、ＤＤＲメモリのデータ伝送速度は従来のＳＤＲＡＭの２倍になる。しかも、立ち下がりエッジ信号のみが多く採用されているため、エネルギー消費の増加にはつながらない。アドレッシングと制御信号は従来のＳＤＲＡＭと同様であり、クロックの立ち上がりエッジのみで伝送される。

Ｓ１３０では、メモリにおけるパッケージプログラムを呼び出してスライスデータに対してデータ処理及び検出解析を行い、解析結果を取得する。

このステップでは、スライスデータを処理する際に、メモリに予め設定されたパッケージプログラムを呼び出す必要があり、パッケージプログラムによってスライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得する。

説明する必要がある点として、ここでのパッケージプログラムとは、複数のプログラムを１つのプログラムとしてパッケージするソフトウェアであり、且つ該パッケージプログラムはカスタムプログラムであり、ユーザーの必要に応じて複数の異なるプログラムを１つのプログラムとしてパッケージすることによって、スライスデータに対してデータ処理と検出解析を行うことができる。

そして、ここでのパッケージプログラムは既存の国際公認プログラムに基づいて最適化され、メモリ接続が増加し、マルチスレッドが増加し、スライスデータの処理機能も増加し、該パッケージプログラムを使用してデータ処理を行う必要があると、ディスクに配置された対応するパッケージプログラムをトリガすることができ、該パッケージプログラムをタスク進展としてメモリにロードすることによって、Ｉ／Ｏ消費を効果的に低下させ、読み書き時間を短縮し、解析効率を向上させる。

例えば、スライスデータに対して検出解析を行う前に、それに対してデータ処理を行う必要があり、該データ処理プロセスは１つのプログラムまたは複数のプログラム、例えばデータ品質制御プログラム、データ処理プログラムなどによって実現されることができ、次に、１つの検出解析プログラムを接続することによってデータ処理後の結果に対して検出解析を行い、最終的な解析結果がより正確になる。

例示的に、図２に示すように、図２は本発明の実施例によるストリーミング解析のプロセス模式図であり、図２では、シーケンサは生化学と画像形成システムを使用してシーケンシングライブラリーに対して生化学画像形成を行うことができ、生化学画像形成後の画像をスライス伝送で中央制御サーバーに伝送し、中央制御サーバーによってアナライザに伝送してデータ処理と検出解析を行う。データ品質制御プロセスはデータ品質制御サーバーにおけるサーバーのメモリによって生産情報システムにおけるサンプルとオンロード情報、及び中央制御サーバーによって送信されたスライスデータを取得し、次に、該スライスデータに対してデータ品質制御を行った後にデータをアーカイブして渡し、最後に解析結果を記憶し、これにより、ストリーミング解析プロセスが実現される。

図２から分かるように、本願に使用されるストリーミング解析プロセスは、シーケンシングプラットフォームから入力された短配列集合をスライスし、解析時間の一部を元のシーケンシング時間内に隠すとともに、データ処理プロセスと検出解析プロセスを、メモリを介して繋がることによって、Ｉ／Ｏ消費を効果的に低下させ、読み書き時間を減少すると同時に、解析効率を向上させることができる。

上記の実施例による遺伝子シーケンシング解析方法は、まず、シーケンシングプラットフォームによってリアルタイムで入力された短配列に対してスライス処理を行った後に対応するスライス処理を取得し、次に、スライスデータをメモリに入力し、メモリに予めロードされるパッケージプログラムを呼び出してスライスデータに対して検出解析を行い、対応する解析結果を取得し、該プロセスはシーケンシングプラットフォームによって完全にシーケンシングした後にシーケンシング結果全体を対応するプラットフォームに伝送して処理解析を行うのを待つ必要なく、シーケンシングプラットフォームによってシーケンシングされたスライスデータをリアルタイムで取得し、スライスデータに対してストリーミングシーケンシング及び解析を行い、このため、本願は全体的にシーケンシングと解析の進展を加速することができ、且つ解析時のデータはスライスデータであり、該スライスデータはシーケンシング結果全体に対して、伝送速度がより速く、時間がより短い。

また、本願の解析プロセスはメモリに予め設定されたパッケージプログラムによって行われ、シーケンシングデータを他のプラットフォームに伝送して処理する必要がなく、Ｉ／Ｏ混雑とメモリ消費を効果的に低下させ、機器運転効率を更に向上させると同時に、機器の耐用年数を延長させる。

以下、複数の実施例によって本願の遺伝子シーケンシング解析方法を更に説明する。以下のように、下記実施例において、主にスライスデータをどのように取得するプロセスを詳細に説明する。

一実施例において、ステップＳ１１０におけるスライスデータを取得するステップは、
スライスのサイズを決定するＳ１１１と、
前記スライスのサイズに従ってシーケンシングプラットフォームから現在入力されている、すべての切り分けられていない、単一のラウンドのシーケンシングサイクル後に読み取られた短配列を切り分け、切り分け後の短配列集合をスライスデータとするＳ１１２と、を含んでもよい。

本実施例において、シーケンシングプロセスにおける各シーケンシングサイクルの生化学と画像形成部分をいずれもリアルタイムでメモリに入力して塩基認識を行い、対応する短配列を取得した後、まずスライスのサイズを決定し、１つのスライスのサイズを満たす短配列を結合してスライスデータとして出力し、スライスデータをメモリ内に記憶する必要がある。

例えば、各ｍ＋ｎ個のｃｙｃｌｅ（シーケンシングサイクル）は１つのスライスデータであり、ｍは１番目のスライスであり、ｍ≧１０であり、ｎはその後のすべてのスライスを指し、ｎ≧１且つｎ≦２０であり、ｍ＋ｎは解析速度に応じてスライスのサイズを適応的に調整することができる。

例示的に、図３、図４に示すように、図３は本発明の実施例による遺伝子シーケンシング解析プロセスの模式図であり、図４は本発明の実施例による遺伝子シーケンシング解析プロセスにおけるシーケンシングプロセスと時間の関係模式図であり、図３と図４から分かるように、本願はリアルタイムでシーケンシングプラットフォームによってシーケンシングされたスライスデータを取得し、スライスデータに対してストリーミングシーケンシング及び解析を行うことによって、全体的にシーケンシングと解析の進展を加速することができ、その後、変異検出またはＲＮＡ病原体ライブラリへの比較等を完了し、更に、後続の注釈を行い、解析フローを終了し、解析結果の受け渡しを完了する。

上記実施例はスライスデータをどのように取得するプロセスについて詳細に説明し、以下、上記実施例におけるスライスのサイズを決定するステップをさらに説明する。

一実施例において、ステップＳ１１１におけるスライスのサイズを決定するステップは、
現在のＣＰＵのアイドル状況を取得するＳ１１１１と、
前記現在のＣＰＵのアイドル状況に応じてスライスのサイズを調整するＳ１１１２と、を含んでもよい。

本実施例において、スライスデータを取得して検出解析を行う際に、該スライスデータはシーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーにおける遺伝子断片に対して少なくとも１ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合である。

スライスのサイズを解析速度に従って適応的に調整することができ、解析速度は現在のＣＰＵのアイドル状況を取得して解析した後で得られ、現在のＣＰＵのアイドル状況は現在のメモリの占有状況に関連する。現在のメモリが多く占有されると、アイドルでないのを示し、この時、メモリの解析速度が遅く、スライスのサイズを複数のシーケンシングサイクルを切り分けた後に読み取られた短配列集合に調整することができ、現在のメモリが小さく占有されると、アイドルであるのを示し、この時、メモリの解析速度が速いと、スライスのサイズを１つのシーケンシングサイクルを切り分けた後に読み取ることができる短配列集合に調整することができる。

例えば、各ｍ＋ｎ個のｃｙｃｌｅ（シーケンシングサイクル）は１つのスライスデータであり、ｍの後のスライスは自動的に制御され、即ち２番目のスライスから最後のスライスまで終了し、スライスｎのサイズは機器のアイドル状況に応じて決定され、比較的アイドルに近い状態であると、各ｃｙｃｌｅで１回伝達し、この時、ｎ＝１であり、忙しいと、ｎ＝２０である場合伝送する。

理解できる点として、本願における比較原理に従って、スライスデータが比較プロセスに伝送されてヒトゲノムと比較するとともに、スライスデータの比較範囲を決定し、スライスデータが大きいほど、比較範囲がより正確に縮小する。

上記実施例においてスライスのサイズを決定するステップを更に説明し、以下、実施例を通じてパッケージプログラム及びパッケージプログラムを呼び出してデータ処理及び検出解析を行うプロセスを詳細的に説明する。

一実施例において、前記パッケージプログラムはデータ品質制御プログラム、データ処理プログラム及び検出解析プログラムを含むことができる。

ステップＳ１３０における前記メモリに予め設定されたパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するステップは、
前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行い、品質制御結果を取得するＳ１３１と、
前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行い、処理結果を取得するＳ１３２と、
前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行い、最終的な解析結果を取得するＳ１３３と、を含んでもよい。

本実施例において、スライスデータを処理する場合、メモリに予め設定されたパッケージプログラムを呼び出し、パッケージプログラムによってスライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得することができる。

メモリに予め設定されたパッケージプログラムはカスタムプログラムであってもよく、該カスタムプログラムは複数のプログラムにより１つのプログラムとしてパッケージされることができる。例えば、該パッケージプログラムはデータ品質制御プログラム、データ処理プログラム及び検出解析プログラムを含むことができる。

データ品質制御プログラムは主にスライスデータに対して品質制御処理を行い、品質制御結果を取得するために使用され、データ処理プログラムは主に品質制御結果に対してデータ処理を行い、処理結果を取得するために使用され、検出解析プログラムは、処理結果に対して検出解析を行い、最終的な解析結果を取得するために使用される。

上記実施例においてパッケージプログラム及びパッケージプログラムを呼び出してデータ処理及び検出解析を行うプロセスを詳細的に説明し、以下、データ品質制御プログラムを呼び出して品質制御処理を行うプロセスを詳細に説明する。

一実施例において、ステップＳ１３１において前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行うステップは、
前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータにおける短配列の位置エラー率を計算し、前記スライスデータにおける塩基分布状況を統計し、及び／又は前記スライスデータにおける塩基品質が品質閾値より小さい塩基である低品質塩基を切り取るステップを含んでもよい。

本実施例において、スライスデータに対して品質制御処理を行う場合、パッケージプログラムにおけるデータ品質制御プログラムを呼び出して品質制御処理を行うことができる。

具体的に、データ品質制御プログラムは主にスライスデータに対して品質制御処理を行い、該品質制御処理プロセスはスライスデータにおける短配列の位置エラー率を計算すること、スライスデータにおける塩基分布状況を統計すること、スライスデータにおける低品質塩基を切り取ること、及び短配列に適用する他の品質制御処理プロセスを含むことができ、具体的にどの１種又は複数種の品質制御処理プロセスを選択するか、品質制御処理プロセスにはどのような工具を使用するかは、実際の状況に応じて設定されることができる。

例えば、スライスデータにおける低品質塩基を切り取る必要がある場合、一定の長さのウィンドウをスライドさせ、ウィンドウ内の塩基平均品質を計算することができ、低すぎる場合はそのまま後にすべて切り取る。

上記実施例において、データ品質制御プログラムを呼び出して品質制御処理を行うプロセスを詳細に説明し、以下、実施例を通じてデータ処理プログラムを呼び出してデータ処理を行うプロセスを説明する。

一実施例において、ステップＳ１３２における前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行うステップは、
前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも１つを行うステップを含んでもよい。

本実施例において、スライスデータに対して品質制御処理を行った後、メモリに予め設定されたデータ処理プログラムを呼び出して、品質制御処理後の品質制御結果における短配列に対して比較、ソート、重複除去及び／又は再比較を行うことができる。

具体的に、スライスデータはすべて順序があるゲノムからのものであるが、ＤＮＡのライブラリ構築とシーケンシングを経た後、スライスデータにおける異なる短配列の間の前後の順序関係はすべて失われているため、スライスデータにおける隣接する２つの短配列間に任意の位置関係がなく、それらはすべて元のゲノムの中のある位置からの短配列である。

このため、本願はスライスデータに対して品質制御処理を行った後、メモリに予め設定されたデータ処理プログラムを呼び出して、品質制御結果に対応するスライスデータにおける短配列をその種の参照遺伝子と一つ一つ比較し、参照遺伝子上のそれぞれの短配列の位置を見つけ、次に、順序に従って配列し、このプロセスはスライスデータの比較プロセスと呼ばれる。

説明する必要がある点として、ここでの参照遺伝子とは、その種のゲノム配列、即ち組み立てられた完全なゲノム配列であり、その完全なゲノム配列をその種の標準参照物とすることが多い。

短配列比較を完了した後、ソートフローを行うことができ、該ソートフローの役割は、主にその前に比較した後の短配列を位置の前後の順序に従って小さいから大きいまでソートして、複数の短配列の間に連続的な位置関係を形成するようにすることである。

ソートフロー後、スライスデータにおける短配列に対して重複除去操作を行うこともでき、該重複除去操作は、主にスライスデータにおける重複の短配列を除去することであり、このように、後続の検出解析に役に立つ。

最終的に、短配列の再比較プロセスは、主に上記比較プロセスで発見された潜在的な配列を挿入したか、配列を削除した領域を再補正し、後続の検出解析の結果をより正確にすることである。

理解できる点として、上記比較、ソート、重複除去、再比較のデータ処理プロセスは、実際の状況に応じて選択的に設定されることができ、且つ前後順序が手動で設定されてもよく、ここで限定されない。

例えば、正常な解析フローは比較、ソート、重複除去、再比較、変異検出、注釈であり、比較時の入力ファイルはｆａｓｔｑファイルであり、出力ファイルはｂａｍファイルであり、その後、再比較出力までいずれもｂａｍファイルであり、変異検出の出力はｖｃｆファイルであり、注釈時に変異検出の結果に従って注釈され、本願の遺伝子シーケンシング解析方法を使用する場合、２世代シーケンシングプラットフォームを使用してシーケンシングすると、すべての２世代ｆａｓｔｑのオフロードデータ解析フローをすべて比較する必要があり、その後に続くプロセスを行うものもあれば、しないものもあり、オフロードデータから始めなければ、任意の段階のｂａｍファイルを入力して後続の解析処理を行うこともできる。

以下、本願の比較プロセスを更に説明する。例えば、本願は、スライスデータを比較する場合、スライスデータにおける短配列の塩基と全ゲノムを比較し、参照遺伝子におけるそれぞれの短配列の位置を見つけ、全部のスライスデータは全ゲノムにおける特定の位置に位置決めされた後、マッチされた比較情報を整合し、隣接する比較位置のスクリーニング拡張を行い、且つ空き位置の存在（即ち比較して位置決めされていない位置）を許可し、これによって、全ゲノムに比較されるより長い配列鎖を取得する。

さらに、上記比較プロセスにおいて、グローバルとローカルの比較状況を統合した動的計画アルゴリズムを使用して、最適な比較結果情報を選択し、次にアダプター情報に基づいて、異なるサンプル比較結果をメモリにそれぞれ出力する。

例えば、よく使われるＢＷＡ－ＭＥＭアルゴリズムは、主にｓｅｅｄ－ａｎｄ－ｅｘｔｅｎｄ戦略を採用している。ｓｅｅｄ段階では、ＢＷＡはｒｅａｄの塩基断片を取ってｒｅｆｅｒｅｎｃｅ上で正確なマッチングを行い、一定のマッチング回数と長さの要求を満たすｒｅａｄ断片をｓｅｅｄとして選択し、この段階アルゴリズムの核心はＦＭ－ｉｎｄｅｘに基づく正確なマッチングであり、ｅｘｔｅｎｄ段階では、ＢＷＡはＳｍｉｔｈ－Ｗａｔｅｒｍａｎアルゴリズムを利用してｓｅｅｄをｒｅａｄとｒｅｆｅｒｅｎｃｅ上で両辺に延長して比較し（ｇａｐを容認）、さらに、ｒｅａｄ全体がｒｅｆｅｒｅｎｃｅ上で条件に合致するグローバルマッチングを見つける。

上記実施例は主にデータ処理プログラムを呼び出してデータ処理を行うプロセスを説明し、以下、データ処理プロセスの具体的な実施形態を更に説明する。

一実施例において、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも１つを行うステップは、
前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列と参照遺伝子を比較し、前記参照遺伝子における前記短配列の位置を決定するＡ１１と、
前記参照遺伝子における前記短配列の位置に基づいて、前記短配列の位置ラベルを決定するＡ１２と、
前記メモリにおける各予め設定されたスレッドのうち、現在アイドル状態にある目標スレッドを決定するＡ１３と、
前記短配列の位置ラベルを参照して、前記目標スレッドを呼び出して前記短配列に対してソート、重複除去、再比較のうちの少なくとも１つを行うＡ１４と、を含むことができる。

本実施例において、品質制御結果における短配列に対してデータ処理を行う場合、比較後の短配列に位置ラベルを追加し、次に、現在のメモリには各予め設定されたスレッドのうちで、アイドル状態にあるスレッドがあるかどうかを決定し、あると、該スレッドを目標スレッドとして、次に短配列の位置ラベルを参照し、該目標スレッドを呼び出して短配列に対してソート、重複除去及び／又は再比較を行い、ソートと重複除去がより効率的になる。

例えば、データ処理プログラムを呼び出して品質制御結果における短配列と参照遺伝子を比較し、参照遺伝子における該短配列の位置に基づいて短配列に対応する位置ラベルを決定することによって、目標スレッドを呼び出して該短配列に対してソート、重複除去等の操作を行うことができる。例えば、ソートプロセスでは、マルチスレッドを使用して処理する場合、マルチスレッドの処理効率を高めるために、該短配列の位置ラベルを参照してソートすることができ、マルチスレッドのソート後に得られるソート結果が正確であると同時に、ソート効率が高くなる。

上記実施例においてデータ処理プロセスの具体的な実施形態を更に説明し、以下、検出解析プログラムを呼び出して処理結果に対して検出解析を行うプロセスを具体的に説明する。

一実施例において、ステップＳ１３３における前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行うステップは、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して変異検出、解読を行うステップを含んでもよい。

本実施例において、遺伝子シーケンシング解析を行う目的の１つはサンプルの正確な変異集合を得ることであり、サンプルの正確な変異集合を得るには、変異検出、解読等によって決定する必要がある。現在、変異検出の内容は、ＳＮＰ、Ｉｎｄｅｌ、ＣＮＶ、ＳＶ等を含む。変異検出のプロセスはベイズ推定を適用したアルゴリズムを使用することも、ＨａｐｌｏｔｙｐｅＣａｌｌｅｒアルゴリズムを使用することもできる。

例えば、ＨａｐｌｏｔｙｐｅＣａｌｌｅｒアルゴリズムを使用して変異検出を行う場合、まず、グループの単倍体の組合わせ状況を推定し、それぞれ組み合わせの確率を計算し、次に、この情報に従って各サンプルの遺伝子型組み合わせを逆推定する。

さらに、本願は、処理結果に対して変異検出などの検出解析を行う場合、変異検出プロセスは比較が完了してから行う必要がなく、全ゲノムにおける異なる染色体を複数の領域に分け、各領域が比較結果の一部に蓄積されると、高変異領域を見つけて検出することができ、後続の比較結果に従来の高変異領域を絶えず検証する、ミスマッチ／挿入／欠損など等を含む変異状況を追加し、次に、高変異領域のデータを組み立て、簡素な単倍型データを得て、さらにクリプトマルコフモデルを利用して単倍型の最大尤度推定を推定し、各サイトの分離型結果を取得し、変異情報を出力する。

理解できる点として、生物情報解析全体の解析効率を向上させるために、本願は処理結果に対して変異検出を行う場合、全ゲノムの範囲内のすべてのサイトに対して変異検出を行わずに、高変異領域を選択して検出し、高変異領域の選択は、各サイトに突然変異が生じる確率に基づいて選択することができる。例えば、各サイトに突然変異が生じる確率を計算した後、所定の確率閾値に基づいて高変異領域であるかどうかを判断することができる。

且つ、高変異領域のデータを組み立てる場合、参照ゲノムに対応する断片集合に重複が存在すると、短断片の長さは重複がないか、最大長さ制限に達するまで増加し、且つ組み立てられたエッジは比較された短配列の数に応じて重みを割り当てることができる。

よりさらに、変異検出結果を取得した後、該変異検出結果に対して品質制御と濾過を行ってもよく、変異検出結果の良否を区別するようにする。

以下、本願の実施例による遺伝子シーケンシング解析装置を説明し、以下で説明する遺伝子シーケンシング解析装置は以上で説明された遺伝子シーケンシング解析方法と互に対応して参照できる。

一実施例において、図５は本発明の実施例による遺伝子シーケンシング解析装置の構造模式図であり、本発明は、図５に示すように、遺伝子シーケンシング解析装置をさらに提供し、データ取得モジュール２１０、スライス伝送モジュール２２０、及び処理解析モジュール２３０を備え、具体的に、データ取得モジュール２１０は、シーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも１ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合であるスライスデータを取得するために使用され、スライス伝送モジュール２２０は、前記スライスデータをメモリに入力するために使用され、処理解析モジュール２３０は、前記メモリに予め設定されたカスタムプログラムであるパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するために使用される。

上記の実施例による遺伝子シーケンシング解析装置は、まず、シーケンシングプラットフォームによってリアルタイムで入力された短配列に対してスライス処理を行った後に対応するスライスデータを取得し、次に、スライスデータをメモリに入力し、メモリに予めロードされるパッケージプログラムを呼び出してスライスデータに対して検出解析を行い、対応する解析結果を取得し、該プロセスはシーケンシングプラットフォームによって完全にシーケンシングした後にシーケンシング結果全体を対応するプラットフォームに伝送して処理解析を行うのを待つ必要なく、シーケンシングプラットフォームによってシーケンシングされたスライスデータをリアルタイムで取得し、スライスデータに対してストリーミングシーケンシング及び解析を行い、本願は全体的にシーケンシングと解析の進展を加速することができ、且つ解析時のデータはスライスデータであり、該スライスデータはシーケンシング結果全体に対して、伝送速度がより速く、時間がより短い。

また、本願の解析プロセスはメモリに予め設定されたパッケージプログラムにより行われ、シーケンシングデータを他のプラットフォームに伝送して処理する必要がなく、Ｉ／Ｏ混雑とメモリ消費を効果的に低下させ、機器運転効率を更に向上させると同時に、機器の耐用年数を延長させる。

一実施例において、データ取得モジュール２１０は、スライスのサイズを決定するための決定モジュール２１１と、前記スライスのサイズに従ってシーケンシングプラットフォームから現在入力されている、すべての切り分けられていない、単一のラウンドのシーケンシングサイクル後に読み取られた短配列を切り分け、切り分け後の短配列集合をスライスデータとするための切り分けモジュール２１２と、を備えてもよい。

一実施例において、決定モジュール２１１は、現在のメモリのアイドル状況を取得するためのメモリ状況取得モジュール２１１１と、前記現在のメモリのアイドル状況に応じてスライスのサイズを調整するためのスライス調整モジュール２１１２と、を備えてもよい。

一実施例において、処理解析モジュール２３０におけるパッケージプログラムはデータ品質制御プログラム、データ処理プログラム及び検出解析プログラムを含んでもよい。

処理解析モジュール２３０は、前記メモリに予め設定されたパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するために使用され、前記処理解析モジュール２３０は、前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行い、品質制御結果を取得するためのデータ品質制御モジュール２３１と、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行い、処理結果を取得するためのデータ処理モジュール２３２と、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行い、最終的な解析結果を取得するための検出解析モジュール２３３と、を備えてもよい。

一実施例において、データ品質制御モジュール２３１は、前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータにおける短配列の位置エラー率を計算し、前記スライスデータにおける塩基分布状況を統計し、及び／又は前記スライスデータにおける塩基品質が品質閾値より低い塩基である低品質塩基を切り取るための第１の処理モジュール２３１１を備えてもよい。

一実施例において、データ処理モジュール２３２は、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも１つを行うための第２の処理モジュール２３２１を備えてもよい。

一実施例において、第２の処理モジュール２３２１は、前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列と参照遺伝子を比較し、前記参照遺伝子における前記短配列の位置を決定するための比較モジュール３１０と、前記参照遺伝子における前記短配列の位置に基づいて、前記短配列の位置ラベルを決定するための決定ラベルモジュール３１１と、前記メモリにおける各予め設定されたスレッドのうち、現在アイドル状態にある目標スレッドを決定するための決定スレッドモジュール３１２と、前記短配列の位置ラベルを参照して、前記目標スレッドを呼び出して前記短配列に対してソート、重複除去、再比較のうちの少なくとも１つを行うためのマルチスレッド操作モジュール３１３と、を備えてもよい。

一実施例において、検出解析モジュール２３３は、前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して変異検出、解読を行うための第３の処理モジュール２３３１を備えてもよい。

一実施例において、本発明は記憶媒体をさらに提供し、前記記憶媒体にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに上記実施例の中のいずれか１項に記載の遺伝子シーケンシング解析方法のステップを実行させる。

一実施例において、本発明はコンピュータ機器をさらに提供し、前記コンピュータ機器にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに上記実施例の中のいずれか１項に記載の遺伝子シーケンシング解析方法のステップを実行させる。

例示的に、図６に示すように、図６は本発明の実施例によるコンピュータ機器の内部構造模式図であり、該コンピュータ機器３００はサーバーとして提供されることができる。図６を参照し、コンピュータ機器３００は処理コンポーネント３０２を備え、１つまたは複数のプロセッサ、及び処理コンポーネント３０２で実行可能な命令、例えばアプリケーションプログラムを記憶するためのメモリ３０１で代表されるメモリリソースをさらに備える。メモリ３０１に記憶されたアプリケーションプログラムは１つ又は１つ以上のそれぞれ１組の命令に対応するモジュールを備えることができる。なお、処理コンポーネント３０２は命令を実行することで、上記任意の実施例の遺伝子シーケンシング解析方法を実行するように配置される。

コンピュータ機器３００はコンピュータ機器３００の電源管理を実行するように配置される１つの電源コンポーネント３０３と、コンピュータ機器３００をネットワークに接続するように配置される有線または無線ネットワークインタフェース３０４と、１つの入力／出力（Ｉ／Ｏ）インタフェース３０５と、を備える。コンピュータ機器３００はメモリ３０１に記憶される操作システム、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標）ＴＭ、Ｌｉｎｕｘ（登録商標）ＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似のものを操作することができる。

当業者は、理解できる点として、図６に示される構造は、本願の手段に関連する一部の構造のブロック図に過ぎず、本願の手段が適用されるコンピュータ機器に対する限定を構成しなく、具体的なコンピュータ機器は図に示すようなより多くまたはより少ない部材を含むか、幾つかの部材を組み合わせるか、異なる部材の布置を有することができる。

最終的に、さらに説明する必要がある点として、本明細書では、例えば第１及び第２などのような関係技術用語は１つの実体又は操作と他の実体又は操作を区別するものだけであり、必ずしもこれらの実体又は操作の間にいずれのこのような実際な関係又は順序が存在すると要求又は暗示しないことである。且つ、技術用語「含む」、「備える」或いはその他のいずれの変形は非排他的な包含を含むと意味するため、一連の要素を含む過程、方法、物品或いは機器はそれらの要素を含む以外、明確にリストされないその他の要素を含み、或いはこのような過程、方法、物品或いは機器に固有した要素を含む。より多くの制限が存在しない場合には、語句「１つ...を含む」により限定された要素は、前記要素を含む過程、方法、物品或いは機器において別の同じ要素が存在すると排除しない。

本明細書における各実施例は、進歩的に説明し、各実施例が他の実施例と異なる点を重点的に示しており、各実施例間は必要に応じて組み合わせることができ、且つ同じ類似部分を互いに参照すればよい。

開示された実施例の上記説明は、当業者が本願を実現又は使用することを可能にする。これらの実施例の様々な修正は、当業者にとって明らかなものであり、本明細書で定義された一般的な原理は、本願の精神又は範囲から逸脱しないことなく、他の実施例において実現することができる。このため、本願は本明細書に示すようなこれらの実施例に限定されることなく、本明細書に開示された原理と新規特点に一致する最も広い範囲に合致する必要がある。

（関連出願の相互参照）
本願は、２０２１年０６月２３日に中国国家知識産権局に提出された、出願番号が２０２１１０６９８８５５．６である特許出願の優先権と権益を主張し、そのすべては参照により本明細書に組み込まれる。

Claims

遺伝子シーケンシング解析方法であって、前記方法は、
シーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも１ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合であるスライスデータを取得するステップと、
前記スライスデータをメモリに入力するステップと、
前記メモリに予め設定されたカスタムプログラムであるパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するステップと、を含むことを特徴とする遺伝子シーケンシング解析方法。
スライスデータを取得するステップは、
スライスのサイズを決定するステップと、
前記スライスのサイズに従ってシーケンシングプラットフォームから現在入力されている、すべての切り分けられていない、単一のラウンドのシーケンシングサイクル後に読み取られた短配列を切り分け、切り分け後の短配列集合をスライスデータとするステップと、を含む、ことを特徴とする請求項１に記載の遺伝子シーケンシング解析方法。
前記スライスのサイズを決定するステップは、
現在のＣＰＵのアイドル状況を取得するステップと、
前記現在のＣＰＵのアイドル状況に応じてスライスのサイズを調整するステップと、を含む、ことを特徴とする請求項２に記載の遺伝子シーケンシング解析方法。
前記パッケージプログラムはデータ品質制御プログラム、データ処理プログラム及び検出解析プログラムを含み、
前記メモリに予め設定されたパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するステップは、
前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行い、品質制御結果を取得するステップと、
前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行い、処理結果を取得するステップと、
前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行い、最終的な解析結果を取得するステップと、を含む、ことを特徴とする請求項１に記載の遺伝子シーケンシング解析方法。
前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータに対して品質制御処理を行うステップは、
前記メモリに予め設定されたデータ品質制御プログラムを呼び出し、前記スライスデータにおける短配列の位置エラー率を計算し、前記スライスデータにおける塩基分布状況を統計し、及び／又は前記スライスデータにおける低品質塩基を切り取るステップを含み、
前記低品質塩基は塩基品質が品質閾値より低い塩基である、ことを特徴とする請求項４に記載の遺伝子シーケンシング解析方法。
前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果に対してデータ処理を行うステップは、
前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較、塩基品質値補正のうちの少なくとも１つを行うステップを含む、ことを特徴とする請求項４に記載の遺伝子シーケンシング解析方法。
前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列に対して比較、ソート、重複除去、再比較のうちの少なくとも１つを行うステップは、
前記メモリに予め設定されたデータ処理プログラムを呼び出し、前記品質制御結果における短配列と参照遺伝子を比較し、前記参照遺伝子における前記短配列の位置を決定するステップと、
前記参照遺伝子における前記短配列の位置に基づいて、前記短配列の位置ラベルを決定するステップと、
前記メモリにおける各予め設定されたスレッドのうち、現在アイドル状態にある目標スレッドを決定するステップと、
前記短配列の位置ラベルを参照して、前記目標スレッドを呼び出して前記短配列に対してソート、重複除去、再比較のうちの少なくとも１つを行うステップと、を含む、ことを特徴とする請求項６に記載の遺伝子シーケンシング解析方法。
前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して検出解析を行うステップは、
前記メモリに予め設定された検出解析プログラムを呼び出し、前記処理結果に対して変異検出、解読を行うステップを含む、ことを特徴とする請求項４に記載の遺伝子シーケンシング解析方法。
遺伝子シーケンシング解析装置であって、
シーケンシングプラットフォームによってリアルタイムで入力された、シーケンシングライブラリーに対して少なくとも１ラウンドのシーケンシングサイクルを行った後に読み取られた短配列集合であるスライスデータを取得するためのデータ取得モジュールと、
前記スライスデータをメモリに入力するためのスライス伝送モジュールと、
前記メモリに予め設定されたカスタムプログラムであるパッケージプログラムを呼び出し、前記スライスデータに対してデータ処理及び検出解析を行い、対応する解析結果を取得するための処理解析モジュールと、を備えることを特徴とする遺伝子シーケンシング解析装置。
記憶媒体であって、前記記憶媒体にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに請求項１～８のいずれか１項に記載の遺伝子シーケンシング解析方法のステップを実行させることを特徴とする記憶媒体。
コンピュータ機器であって、前記コンピュータ機器にコンピュータ可読命令が記憶され、前記コンピュータ可読命令が１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに請求項１～８のいずれか１項に記載の遺伝子シーケンシング解析方法のステップを実行させることを特徴とするコンピュータ機器。