JP2024525045A - ウイルス汚染の判定方法 - Google Patents
ウイルス汚染の判定方法 Download PDFInfo
- Publication number
- JP2024525045A JP2024525045A JP2023580806A JP2023580806A JP2024525045A JP 2024525045 A JP2024525045 A JP 2024525045A JP 2023580806 A JP2023580806 A JP 2023580806A JP 2023580806 A JP2023580806 A JP 2023580806A JP 2024525045 A JP2024525045 A JP 2024525045A
- Authority
- JP
- Japan
- Prior art keywords
- viral
- sample
- virus
- sequences
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003612 virological effect Effects 0.000 title claims abstract description 123
- 238000011109 contamination Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 85
- 239000002994 raw material Substances 0.000 claims abstract description 8
- 238000012369 In process control Methods 0.000 claims abstract description 6
- 238000010965 in-process control Methods 0.000 claims abstract description 6
- 238000003306 harvesting Methods 0.000 claims abstract description 3
- 241000700605 Viruses Species 0.000 claims description 35
- 239000000523 sample Substances 0.000 claims description 31
- 238000004519 manufacturing process Methods 0.000 claims description 24
- 239000000356 contaminant Substances 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 8
- 150000007523 nucleic acids Chemical group 0.000 claims description 8
- 239000013074 reference sample Substances 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000013406 biomanufacturing process Methods 0.000 claims 1
- 238000012165 high-throughput sequencing Methods 0.000 abstract description 11
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000003766 bioinformatics method Methods 0.000 abstract description 2
- 239000000047 product Substances 0.000 description 11
- 239000012467 final product Substances 0.000 description 6
- 239000013612 plasmid Substances 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 239000013067 intermediate product Substances 0.000 description 4
- 239000012620 biological material Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 239000000825 pharmaceutical preparation Substances 0.000 description 2
- 229940127557 pharmaceutical product Drugs 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
【課題】試料中のウイルス汚染の存在を判定し、かかるウイルス汚染が存在する場合に、汚染のタイプを同定するためのバイオインフォマティクス方法が記載される。当該方法は、試料中に存在するDNAおよび/またはRNAについてハイスループットシーケンス解析技術を使用する。【効果】当該方法は、バッチ、細胞バンク、バルク収穫物および原材料のリリースのためのプロセス内制御およびR処理を促進する。【選択図】なし
Description
本発明は、試料(検体)中のウイルス汚染の有無を判定するためのバイオインフォマティクス法に関する。特に、本発明は、かかるウイルス汚染が存在する場合にウイルス汚染のタイプを決定することに関する。この方法は、ウイルス汚染が存在しないことが、最終生成物にとってのまたは製造プロセス中の任意の中間工程の間もしくは製造プロセスの原材料としてのいずれかの重要な品質属性である、様々な用途において使用することができる。
ウイルス汚染、または偶発性の汚染は、どんな環境でも、いかなる種類の材料にも、発生しうる。そのような材料は、例えば、着目の生体分子を製造するプロセス中の、または活性薬剤もしくは細胞バンクを生産するための製造プロセスの原材料中の、最終生成物もしくは中間生成物であることができる。
有害なウイルス性物質の存在は、多くの商業的に入手可能な製品において回避されるべきである。これは、食品または医薬品のような人間または動物の消費のための任意の製品に関して特に当てはまる。例えば、世界中の多くの保健機関は、ウイルス汚染を最小化するための製造プロセスの厳密な管理を要求している。多くの事例では、かかる保健機関は、特に最終生成物が医薬品である場合に、最終生成物がウイルスに汚染されていないことを要求する。
ウイルス汚染を判定するために様々な分析方法が開発されており、試料を(または複数の試料を同時に)疑わしいウイルス汚染の決定因子に曝露することによって、特定のウイルス性汚染物質の存在を検査することを頻繁に伴う。例えば、特定のウイルス性汚染物質を認識するレポーター抗体を使用する。かかる分析方法は、煩雑であり、非常に低い検出限界をもつ、ウイルス性汚染物質のための優れたレポーター決定因子の入手可能性を必要とする。加えて、かかる方法は、疑わしいウイルス汚染の存在の有無しか決定されないという点で制限がある。
したがって、扱いやすく、かつ手間がかからず、また、疑わしいウイルス性汚染物質の性質にかかわらずウイルス汚染の有無を判定することができる、試料中のウイルス性汚染物質を判定するための代替的な検出方法が必要とされている。
本発明は、ウイルス汚染について試験すべき試料中に、存在する場合には全てのDNAおよびRNAを配列決定し、そして得られたシーケンスリード(断片化した配列の読み)をウイルスデータベースと比較することによって、上記課題に対する解決策を提供する。かかる方法は、疑わしいウイルス汚染の性質またはタイプに左右されない。この方法は迅速であり、かつハイスループット(高処理量)シーケンス解析技術(HTS、次世代シーケンシングまたは超並列シーケンシングまたはディープシーケンシングとしても知られる)を使用して実施することができ、単一試料を必要とする。また、本発明の方法は、生体分子の商業的生産のための製造プロセスにおいて自動化することができる。そういった製造プロセスでは、本発明の方法をプロセス内管理に利用することができる。ウイルス汚染を判定するためのプロセス内管理は、製造プロセスの信頼度を向上させ、製造プロセス内でウイルス汚染が発生した場合における管理および洞察を提供することができる。本発明の方法の別の利点は、ウイルス汚染が検出された場合、ウイルス汚染の性質/タイプを容易に識別することができることである。
一実施形態では、本発明は、試料(いわゆる検体)中のウイルス汚染の存在を判定するための方法であって、HTSを通してシーケンスデータが取得され、以下の工程:
a.試料中の全DNA/RNAからDNA断片の複数の(シーケンス)リードを取得すること、
b.ウイルスデータベースに対するシーケンスリードのアライメントを実行すること、
c.ウイルス配列との類似性をもたない核酸断片由来のシーケンスリードを除外する(subtracting)こと、および
d.残余のジーケンスリードのうちの1つまたは複数がウイルスデータベース中の配列とアラインする場合、着目の生体分子の試料中のウイルス汚染の存在を判定し、かかるウイルス汚染の属性を決定すること
を含んで成る方法を提供する。いくつかの実施形態では、ウイルスデータベースは、ゲノムおよびウイルスファミリーによって編成されたウイルス配列を含んでいる。例えば、ウイルスファミリーは、分類学上同一ファミリーのウイルスが一緒にグループ化されるように編成することができる。
a.試料中の全DNA/RNAからDNA断片の複数の(シーケンス)リードを取得すること、
b.ウイルスデータベースに対するシーケンスリードのアライメントを実行すること、
c.ウイルス配列との類似性をもたない核酸断片由来のシーケンスリードを除外する(subtracting)こと、および
d.残余のジーケンスリードのうちの1つまたは複数がウイルスデータベース中の配列とアラインする場合、着目の生体分子の試料中のウイルス汚染の存在を判定し、かかるウイルス汚染の属性を決定すること
を含んで成る方法を提供する。いくつかの実施形態では、ウイルスデータベースは、ゲノムおよびウイルスファミリーによって編成されたウイルス配列を含んでいる。例えば、ウイルスファミリーは、分類学上同一ファミリーのウイルスが一緒にグループ化されるように編成することができる。
本発明の別の実施形態では、本発明は、着目の生体分子の製造プロセスにおける試料中のウイルス汚染の存在を判定するための方法であって、HTSを通してシーケンスデータが取得され、以下の工程:
a.着目の生体分子を含む試料の全DNAおよび/またはRNAからDNA断片の複数の(シーケンス)リードを取得すること、
b1.宿主細胞ゲノムに対してアラインする核酸断片由来のシーケンスリードを除外すること、
b2.ウイルスデータベースに対してシーケンスリードのアラインメントを実行すること、
c.ウイルス配列と類似性をもたない核酸断片由来のシーケンスリードを除外すること、および
d.残余のシーケンスリードのうちの1または複数がウイルスデータベース中の配列とアラインする場合に、着目の生体分子の試料中のウイルス汚染の存在を判定し、そしてかかるウイルス汚染の属性を決定すること
を含んで成る方法を提供する。
a.着目の生体分子を含む試料の全DNAおよび/またはRNAからDNA断片の複数の(シーケンス)リードを取得すること、
b1.宿主細胞ゲノムに対してアラインする核酸断片由来のシーケンスリードを除外すること、
b2.ウイルスデータベースに対してシーケンスリードのアラインメントを実行すること、
c.ウイルス配列と類似性をもたない核酸断片由来のシーケンスリードを除外すること、および
d.残余のシーケンスリードのうちの1または複数がウイルスデータベース中の配列とアラインする場合に、着目の生体分子の試料中のウイルス汚染の存在を判定し、そしてかかるウイルス汚染の属性を決定すること
を含んで成る方法を提供する。
さらに別の実施形態では、本発明は、試料中のウイルス汚染を判定するための方法であって、HTSを通してシーケンスデータが取得され、以下の工程:
a.試料の全DNA/RNAからDNA断片の複数のシーケンスリードを取得すること、
b.ウイルスデータベースに対して前記シーケンスリードのアラインメントを実行すること、
c.ウイルス配列と類似性をもたない核酸断片由来のシーケンスリードを除外すること、
d.ウイルスデータベースに対する残余のシーケンスリードのアラインメント後、各ウイルスゲノム配列について1セットのシーケンスカバレッジメトリクス(被覆率)を計算すること、
e.1または複数の事前設定(プリセット)の最小シーケンスカバレッジメトリクス値を超えない全てのウイルスゲノムを棄却すること、
f.少なくとも1つの候補の陽性シグナルを提示する任意のウイルスファミリーを同定してレポートすること、
g.レポートされた各ファミリーについて、最も完全でかつ最も強力な陽性シグナルを有するウイルスファミリーを同定してレポートすること、および
h.各陽性ウイルスファミリーにおいて、陽性ウイルスファミリーのリストと各陽性ウイルスファミリー中のベストマッチの両方をレポートし、前記試料においてウイルス汚染の存在を判定し、かかるウイルス汚染の属性を決定すること
を含んで成る方法を提供する。
a.試料の全DNA/RNAからDNA断片の複数のシーケンスリードを取得すること、
b.ウイルスデータベースに対して前記シーケンスリードのアラインメントを実行すること、
c.ウイルス配列と類似性をもたない核酸断片由来のシーケンスリードを除外すること、
d.ウイルスデータベースに対する残余のシーケンスリードのアラインメント後、各ウイルスゲノム配列について1セットのシーケンスカバレッジメトリクス(被覆率)を計算すること、
e.1または複数の事前設定(プリセット)の最小シーケンスカバレッジメトリクス値を超えない全てのウイルスゲノムを棄却すること、
f.少なくとも1つの候補の陽性シグナルを提示する任意のウイルスファミリーを同定してレポートすること、
g.レポートされた各ファミリーについて、最も完全でかつ最も強力な陽性シグナルを有するウイルスファミリーを同定してレポートすること、および
h.各陽性ウイルスファミリーにおいて、陽性ウイルスファミリーのリストと各陽性ウイルスファミリー中のベストマッチの両方をレポートし、前記試料においてウイルス汚染の存在を判定し、かかるウイルス汚染の属性を決定すること
を含んで成る方法を提供する。
別の実施形態では、本発明は、製造プロセスにおけるまたは製造プロセスからの生成物のリリース(release)方法であって、以下の工程:
a.上記実施形態のいずれかに記載の方法に従って、試料中のウイルス汚染の存在の有無を判定すること、および
b.ウイルス汚染の不在下でのまたは事前設定(プリセット)の汚染レベル未満のウイルス汚染の存在下での生成物のリリースを確証すること
を含んで成る方法を提供する。
a.上記実施形態のいずれかに記載の方法に従って、試料中のウイルス汚染の存在の有無を判定すること、および
b.ウイルス汚染の不在下でのまたは事前設定(プリセット)の汚染レベル未満のウイルス汚染の存在下での生成物のリリースを確証すること
を含んで成る方法を提供する。
信頼性があり、使用が簡易である(プロセス内管理としてでも)、ウイルス汚染を判定するための迅速な分析方法は、上述したように現在のところ入手できない。本発明は、ウイルス汚染の存在の判定およびかかるウイルス汚染が存在する場合にはその属性を決定することができる解決策を提供する。本発明の方法は、シーケンスリード(断片化した配列の読み、単にリードとも称する)を、ウイルスデータベースと比較しアラインするというハイスループットシーケンシング(高処理量配列解析)技術を利用する。かかる方法は、ウイルス汚染のより迅速な判定を可能にし、かつ、1つ以上のそのようなウイルス性汚染物質が存在する場合、そのウイルス性汚染物質を同時に同定することを可能にする。本発明の方法は、例えば、製造プロセスの最終生成物または製造プロセスに使用されるべき原材料に加えて中間生成物など、多種多様な生成物においてウイルス性汚染物質の存在を判定するために使用することができる(例えば、プロセス内管理のために)。
従って、一実施形態において、本発明は、試料中のウイルス汚染の存在を判定するための方法であって、HTSを通してシーケンスデータが取得され、以下の工程:
a.試料中の全DNA/RNAからDNA断片の複数のシーケンスリードを取得すること、
b.ウイルスデータベースに対する前記シーケンスリードのアライメントを実行すること、
c.ウイルス配列との類似性をもたない核酸断片由来のシーケンスリードを除外すること、
d.残余のジーケンスリードのうちの1つまたは複数がウイルスデータベース中の配列とアラインする場合、着目の生体分子の試料中のウイルス汚染の存在を判定し、そしてかかるウイルス汚染の属性を決定すること
を含んで成る方法を提供する。図1は、流れ図(フローチャート)において本発明の方法の概略を提供する。
a.試料中の全DNA/RNAからDNA断片の複数のシーケンスリードを取得すること、
b.ウイルスデータベースに対する前記シーケンスリードのアライメントを実行すること、
c.ウイルス配列との類似性をもたない核酸断片由来のシーケンスリードを除外すること、
d.残余のジーケンスリードのうちの1つまたは複数がウイルスデータベース中の配列とアラインする場合、着目の生体分子の試料中のウイルス汚染の存在を判定し、そしてかかるウイルス汚染の属性を決定すること
を含んで成る方法を提供する。図1は、流れ図(フローチャート)において本発明の方法の概略を提供する。
本発明の方法では、任意のハイスループットシーケンシング(高処理量配列解析;HTS)技術を使用することができ、好ましくは、当該方法はショートリードHTS法を使用する。
本発明の方法で使用するためのウイルスデータベースは、好ましくは、ゲノムおよびウイルスファミリーによって編成されたウイルスゲノム配列を含む。ウイルスファミリー(または別のランクの分類学グループ)は、分類学上同じファミリーのウイルスが一緒にグループ化されるように編成されることが好ましい。加えて、かかるグループ化はまた、ウイルスデータベース内で一緒にグループ化されているセグメント化ゲノムの配列にも適用することができる。このようなウイルス汚染の属性は、それ自体、いくらかでも存在する場合には、より容易に決定することができる。
本発明で使用されるシーケンス解析法で得られたいくつかのシーケンスリードは、ウイルスデータベース中の配列と、非ウイルス性でありうる(非ウイルス性配列との類似性を有する)配列の両者とアラインさせることができる。かかるシーケンスリードは、非ウイルス性配列に対して類似性を有すると同時に、ウイルスデータベース中の配列とアラインすることを考慮に入れて、本方法における工程cからの残余配列にマスクを適用することができる。このようなマスキングは、当該方法の工程cからの残余シーケンスリードからかかるシーケンスリードを完全に除外するか、またはかかるシーケンスリードに割引された値(discounted value)を適用する。1セットのシーケンスカバレッジメトリクスを計算するときに、このマスキングの結果として割り引かれる前記シーケンスリードは、全くマスクを適用しなかった場合(マスク無のカバレッジメトリクス)とは異なり、計算されるカバレッジマトリクスにおいて減少した値を有するだろう。
ウイルス汚染および属性の決定は、ウイルス汚染が存在する場合に、a)ウイルスデータベースに対する残余配列のアラインメント後、各ウイルスゲノム配列について1セットのシーケンスカバレッジメトリクスを計算すること;b)1または複数の最小シーケンスカバレッジメトリクス値を超えない全てのウイルスゲノムを棄却すること;c)少なくとも1つの候補の陽性シグナルを提示する任意のウイルスファミリーを同定してレポートすること;d)各レポートされたファミリーについて、最も完全でかつ最強のシグナルを有するウイルスを同定すること;およびe)陽性ウイルスファミリーのリストと各陽性ファミリー内のベストマッチの両方をレポートすることによって実行されることが好ましい。
上述したように、かかるシーケンスカバレッジメトリクス(被覆率)は、同一生物由来バックグラウンドのリファレンス(参照)試料において以前に観察されたシーケンスと重なる全てのウイルスゲノム領域(ウイルスゲノム領域内のシーケンスリード)を除外しながら計算することができる。本明細書に記載される同一生物由来のバックグラウンドのリファレンス(参照)試料とは、ウイルス汚染について試験する試料が、いずれのウイルス汚染も含まないリファレンス試料と同じ生物由来バックグラウンドを有する場合を指す。かかる同一生物由来バックグラウンドのリファレンス試料は、好ましくは、ウイルス汚染の存否について試験する予定の試料と同じ生体材料(例えば宿主細胞)を使って同一製造プロセスにおいて製造されたリファレンス試料である。加えて、本明細書中で言及される生体材料は、宿主細胞由来であるか、または着目の生体分子を発現させるために宿主細胞中にプラスミドが導入されているプラスミド配列を指す場合もあり得る。プラスミドは、いくつかのプラスミド特異的配列および着目の生体分子の配列を含んでいる。また、本明細書中で言及されるかかる生体材料は、試験中(例えば細胞バンクまたは製造プロセス中)の組換え細胞系に関連する配列材料であってもよい。
この方法は、製造プロセスにおける最終生成物、原材料または中間生成物のような様々な異なる試料におけるウイルス汚染の存在を判定するために使用することができる。前記製造プロセスは、生体分子の製造プロセスであることが好ましい。最終生成物が生体分子であるような製造プロセスでは、該プロセスは、生体分子を発現させるために宿主細胞を使用することができる。生体分子を発現させるために宿主細胞が使用されるプロセスにおいて、本発明の方法は、本発明の方法の工程bにおけるようなウイルスデータベースに対するシーケンスリードのアラインメントに先立って、宿主細胞ゲノムとアラインされた任意のシーケンスリードの除外を含む。図2のフローチャートでは、宿主細胞ゲノムとアラインするシーケンスリードが除外される同方法が示される。
本発明の方法は、生成物のリリース(公開)方法において使用することができる。このような製造プロセスにおける生成物のリリースのための方法において、当該方法は、試料中のウイルス汚染の存在の有無を判定することを含み、本発明の方法は、以下の工程:
a.試料中の全DNA/RNAからDNA断片の複数のシーケンスリードを取得すること、
b.ウイルスデータベースに対する前記シーケンスリードのアライメントを実行すること、
c.前記シーケンスリードから、ウイルス配列との類似性をもたない核酸断片を除外すること、および
d.残余のシーケンスリードのうちの1つまたは複数がウイルスデータベース中の配列とアラインする場合、ウイルス汚染が存在すると判定し、そして着目の生体分子の試料中のかかるウイルス汚染の属性を決定すること
を含んで成る方法を提供する。続いて、生成物のリリースをウイルス汚染の不在についてまたは事前設定(プリセット)の検出レベル未満のウイルス汚染の存在について確証することができる。かかるプロセスでは、生成物は最終生成物、中間生成物、例えばバルク収穫物、または原材料でありうる。かかるプロセスでの生成物または原材料は、特に該プロセスが生体分子を調製するための製造プロセスである場合、細胞バンクであることができる。
a.試料中の全DNA/RNAからDNA断片の複数のシーケンスリードを取得すること、
b.ウイルスデータベースに対する前記シーケンスリードのアライメントを実行すること、
c.前記シーケンスリードから、ウイルス配列との類似性をもたない核酸断片を除外すること、および
d.残余のシーケンスリードのうちの1つまたは複数がウイルスデータベース中の配列とアラインする場合、ウイルス汚染が存在すると判定し、そして着目の生体分子の試料中のかかるウイルス汚染の属性を決定すること
を含んで成る方法を提供する。続いて、生成物のリリースをウイルス汚染の不在についてまたは事前設定(プリセット)の検出レベル未満のウイルス汚染の存在について確証することができる。かかるプロセスでは、生成物は最終生成物、中間生成物、例えばバルク収穫物、または原材料でありうる。かかるプロセスでの生成物または原材料は、特に該プロセスが生体分子を調製するための製造プロセスである場合、細胞バンクであることができる。
以下の実施例は例示であり、本発明の範囲を限定することを意図していない。
実施例1:
NGSシーケンサーにより生成された生データを解析し、ウイルス汚染の存在の有無に関する判定を行う方法を提供する。
NGSシーケンサーにより生成された生データを解析し、ウイルス汚染の存在の有無に関する判定を行う方法を提供する。
1.FASTQファイルの作成およびトリミング
このプロセスにより作成された生データは、FASTQファイルに変換される。1回のランが異なる試料からのデータを含む場合(多重ラン)、この最初の工程で、各試料にリードが割り当てられる。
このプロセスにより作成された生データは、FASTQファイルに変換される。1回のランが異なる試料からのデータを含む場合(多重ラン)、この最初の工程で、各試料にリードが割り当てられる。
FASTQファイルの作成後、「トリミング」と称されるプロセスにおいて、リードからアダプターの配列が除去される。この工程は、低品質のリードをフィルター処理するためおよびデータを「クリーニング」するために必要とされるが、これはシーケンシングプロセスの間に生成される配列の一部が、シーケンシングに用いられるアダプターそれ自体を含みうるためである。
任意選択的に、パイプラインは、データ解析のために利用可能なリードの一部のみを使用するために、リードを部分サンプリングすることができる。この任意選択的な(オプションの)工程は、様々なレベルのシーケンス解析処理量(スループットと称される)で該方法の性能を評価するために使用することができる。
2.宿主細胞配列の除外(ホストサブトラクション)(オプションである)
細胞ゲノムに由来する配列を除外するために、本方法は、シーケンスアライナーを使って宿主細胞のリファレンス(参照)ゲノム配列に対して、全てのリードをアラインさせることができる。次いで、宿主ゲノムに対してアラインしている全てのリードを解析から除外し、そしてアラインしないリードのみを後続の工程に使用する。この工程はオプションであるけれども、マスクファイルが利用可能でない場合に有用であり、または陽性試料を更に調査し、低特異度が原因で生じる偽陽性を除外するために使用することができる。
細胞ゲノムに由来する配列を除外するために、本方法は、シーケンスアライナーを使って宿主細胞のリファレンス(参照)ゲノム配列に対して、全てのリードをアラインさせることができる。次いで、宿主ゲノムに対してアラインしている全てのリードを解析から除外し、そしてアラインしないリードのみを後続の工程に使用する。この工程はオプションであるけれども、マスクファイルが利用可能でない場合に有用であり、または陽性試料を更に調査し、低特異度が原因で生じる偽陽性を除外するために使用することができる。
3.リファレンス(参照)ウイルスデータベースおよびプラスミド配列に対するアラインメント
前記工程1(またはホストサブトラクションが実行される場合には前記工程2)で作成されたリードを使用し、次いでオープンソースのシーケンスアライナーを使って、プラスミド配列とウイルスデータベースとの両方を含むデータベースに対してアラインさせて、中間アラインメントファイルを作成する。得られたアラインメントファイルを更に加工処理して、i)二次アラインメント(即ち、複数の位置(座標)に対して十分等しくアラインするリード)を、一次アラインメント(即ち、下流の処理において検討されるリード)と同様に処理し、ii)75塩基対よりも短いアラインメントが棄却されるようにする。このプロセスの最後に、BAM形式のアラインメントファイルが作成される。これは、i)リードの名称;ii)リファレンス(参照)データベース中の該アラインメントの位置(座標)(配列名と共に);iii)アラインメントの品質;iv)リードの品質;およびv)リファレンスゲノム配列の名称、をはじめとする様々な情報を含んでいる。
前記工程1(またはホストサブトラクションが実行される場合には前記工程2)で作成されたリードを使用し、次いでオープンソースのシーケンスアライナーを使って、プラスミド配列とウイルスデータベースとの両方を含むデータベースに対してアラインさせて、中間アラインメントファイルを作成する。得られたアラインメントファイルを更に加工処理して、i)二次アラインメント(即ち、複数の位置(座標)に対して十分等しくアラインするリード)を、一次アラインメント(即ち、下流の処理において検討されるリード)と同様に処理し、ii)75塩基対よりも短いアラインメントが棄却されるようにする。このプロセスの最後に、BAM形式のアラインメントファイルが作成される。これは、i)リードの名称;ii)リファレンス(参照)データベース中の該アラインメントの位置(座標)(配列名と共に);iii)アラインメントの品質;iv)リードの品質;およびv)リファレンスゲノム配列の名称、をはじめとする様々な情報を含んでいる。
4.カバレッジメトリクスのコンピュータ計算
この工程では、該方法は、プラスミド配列に対するアラインメントを全て棄却し、そして各ウイルスゲノムについて数回のカバレッジメトリクスを計算する。
この工程では、該方法は、プラスミド配列に対するアラインメントを全て棄却し、そして各ウイルスゲノムについて数回のカバレッジメトリクスを計算する。
・「マッピングされたリード」は、各ウイルスのリファレンス(参照)ゲノム配列に対してアラインしたリード数のカウントである。
・「1×カバレッジ%(被覆率)」は、少なくとも1回のリードによりカバーされる(重ねて読まれる)ウイルスゲノムの塩基数と該ゲノムの全長との間の比である(断片化したゲノムの場合、これは異なるゲノム断片の総和である)。このカバレッジは、リードがゲノム配列全体をほぼ均一にカバーするかどうかを示すのではなく、単に検出されたゲノムの割合(検出率)を示すものである。
・「3×カバレッジ%」は、少なくとも3回のリードによりカバーされる(重ねて読まれる)ウイルスゲノムの塩基数と、ゲノムの全長との間の比である(断片化したゲノムの場合、これは異なるゲノム断片の総和である)。
・「1×カバレッジ%(1kbビン)」は、ウイルス配列全体に渡るリードの分布を考慮に入れる。データベース中の全ウイルスについて、この方法は、ゲノムを、50bpオーバーラップさせた100塩基対(bp)のウインドウ(「ビン(bin)」と称される)に配分する。次いで、陽性ビン(少なくとも1つのリードが観察された場合)と陰性ビン(全くリードが観察されなかった場合)の数を各ゲノムについてカウントする。続いて、当該方法はゲノムを1Kbpビンに分割し、それらが陽性の100bpビンを含む場合にはそれらを陽性としてカウントし、それ以外の場合には陰性としてカウントする。最後に、当該方法は、図3に示されるように、「1×カバレッジ%(1kbビン)」を、陽性1Kbpビンの数と1Kbpビンの数の総和(陽性+陰性)との間の比として計算する。
4つのパラメータすべてが、ウイルス全てについて2回計算され、1回目はデータベース中に含まれるウイルス配列の全長をカウントし(「マスク無」メトリクス)、そして2回目はマスクファイルに書き込まれているウイルス領域を全て除外してカウントする(「マスクされた」メトリクス)。「1×カバレッジ%(1kbビン)」の計算に関するより詳細な説明については、図4を参照されたい。
5.候補の陽性シグナルの選択
前の工程で計算されたカバレッジメトリクスは、潜在的シグナルからバックグラウンドノイズを識別するために使用される。事前設定(プリセット)のまたは規定された(経験的証拠を通して予め決定された)カットオフ値を用いて、特定されたカットオフ値を超えないウイルスシグナルを全て除外し、陽性の候補シグナルを選択する。
前の工程で計算されたカバレッジメトリクスは、潜在的シグナルからバックグラウンドノイズを識別するために使用される。事前設定(プリセット)のまたは規定された(経験的証拠を通して予め決定された)カットオフ値を用いて、特定されたカットオフ値を超えないウイルスシグナルを全て除外し、陽性の候補シグナルを選択する。
6.陽性ウイルス群の同定とベストマッチ
データベース中に与えられたウイルスの細目を使用して、当該方法は、どのウイルス群(例えば分類学的ファミリー)が、少なくとも1つの候補の陽性シグナルを含むかを同定する。これらのウイルス群は最終レポートに追加され、陽性ウイルスファミリーのリストが該方法の主要な結果を構成する。加えて、各陽性ウイルス群について、当該方法は、どのウイルスゲノムが試料中の実際のウイルス性汚染物質に最も一致するかを同定する(「ベストマッチ」)。各陽性ウイルス群について、当該方法によりレポートされるベストマッチは、最高の1×カバレッジ%(マスク無)を有するウイルスである。2つの配列が同数(タイ)の場合、当該方法は、最大数のマッピングされたリードを有するシグナル(マスク無)を選択する。
データベース中に与えられたウイルスの細目を使用して、当該方法は、どのウイルス群(例えば分類学的ファミリー)が、少なくとも1つの候補の陽性シグナルを含むかを同定する。これらのウイルス群は最終レポートに追加され、陽性ウイルスファミリーのリストが該方法の主要な結果を構成する。加えて、各陽性ウイルス群について、当該方法は、どのウイルスゲノムが試料中の実際のウイルス性汚染物質に最も一致するかを同定する(「ベストマッチ」)。各陽性ウイルス群について、当該方法によりレポートされるベストマッチは、最高の1×カバレッジ%(マスク無)を有するウイルスである。2つの配列が同数(タイ)の場合、当該方法は、最大数のマッピングされたリードを有するシグナル(マスク無)を選択する。
Claims (14)
- 試料中のウイルス汚染の存在を判定するための方法であって、シーケンスデータがHTSを通して得られ、以下の工程:
a.試料中の全DNA/RNAからDNA断片の複数のリードを取得すること、
b.ウイルスデータベースに対するシーケンスリードのアライメントを実行すること、
c.ウイルス配列との類似性をもたない核酸断片由来のシーケンスリードを除外すること、および
d.残余のジーケンスリードのうちの1つまたは複数がウイルスデータベース中の配列とアラインする場合、着目の生体分子の試料中のウイルス汚染の存在を判定し、かかるウイルス汚染の属性を決定すること
を含んで成る方法。 - 前記ウイルスデータベースが、ゲノムおよびウイルスファミリーによって編成されたウイルス配列を含んでいる、請求項1に記載の方法。
- 前記ウイルスファミリーが、分類学上同一ファミリーのウイルスが一緒にグループ化されるように編成される、請求項2に記載の方法。
- 前記ウイルスデータベース中、セグメント化されたゲノムの配列がグループ化される、請求項1~3のいずれかに記載の方法。
- 複数のシーケンスリードがショートリードHTS法またはロングリードHTS法により得られる、請求項1~4のいずれかに記載の方法。
- 複数のシーケンスリードがショートリードHTS法により得られる、請求項5に記載の方法。
- 工程c)が、非ウイルス性でありかつウイルス性配列に対して類似性を有するバックグラウンド配列に対して類似性を有する核酸断片からのシーケンスリードを減算処理(サブトラクション)することを更に含む、請求項1~6のいずれかに記載の方法。
- 前記試料が宿主細胞の使用を含む製造プロセスからの試料である場合、工程b)の前に、宿主細胞ゲノムに対してアラインするシーケンスリードを除外(サブトラクション)することを含む、請求項1~7のいずれかに記載の方法。
- 工程d)が、
i.ウイルスデータベースに対して残余のシーケンスリードのアラインメント後、各ウイルスゲノム配列について1セットのシーケンスカバレッジメトリクスを計算すること;
ii.1または複数の事前設定(プリセット)の最小配列カバレッジメトリクス値を超えない全てのウイルスゲノムを棄却すること;
iii.少なくとも1つの候補の陽性シグナルを提示する任意のウイルスファミリーを同定およびレポートすること;
iv.最も完全でかつ最強のシグナルを有するウイルスを同定すること;および
v.陽性ウイルスファミリーのリストと各陽性ファミリー中のベストマッチの両方をレポートすること
を含む、請求項1~8のいずれかに記載の方法。 - 各シーケンスカバレッジメトリクスが、同一の生物学的バックグラウンドを有するリファレンス試料において以前に観察された全てのウイルスゲノム領域を除外しながら計算される、請求項9に記載の方法。
- 製造プロセスにおけるまたは製造プロセスからの生成物のリリース方法であって、
a.先行する請求項のいずれかに記載の方法に従って試料中のウイルス汚染の存在の有無を判定すること;および
b.ウイルス汚染の不在下での、または事前設定レベル未満のウイルス汚染の存在下での生成物のリリースを確証すること
を含む方法。 - 前記生成物のリリースが、バッチリリース、プロセス内制御でのバルク収穫物リリース、細胞バンクリリースおよび原材料リリースから選択される、請求項11に記載の方法。
- 前記バッチリリースが、生体分子のためのバイオ製造プロセスにおけるものである、請求項12に記載の方法。
- 前記生成物リリースが複数のウイルス性汚染物質を同定する場合、前記方法が主要なおよび/または副次的なウイルス性汚染物質にランク付けすることを更に含む、請求項11~13のいずれか一項に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21183572.3 | 2021-07-02 | ||
EP21183572 | 2021-07-02 | ||
EP22160023.2 | 2022-03-03 | ||
EP22160023.2A EP4239638A1 (en) | 2022-03-03 | 2022-03-03 | Method for determining viral contamination |
PCT/EP2022/068346 WO2023275393A1 (en) | 2021-07-02 | 2022-07-01 | Method for determining viral contamination |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024525045A true JP2024525045A (ja) | 2024-07-09 |
Family
ID=82655165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023580806A Pending JP2024525045A (ja) | 2021-07-02 | 2022-07-01 | ウイルス汚染の判定方法 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP4364153A1 (ja) |
JP (1) | JP2024525045A (ja) |
AU (1) | AU2022303268A1 (ja) |
CA (1) | CA3223241A1 (ja) |
IL (1) | IL309817A (ja) |
WO (1) | WO2023275393A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010141433A2 (en) * | 2009-06-02 | 2010-12-09 | The Regents Of The University Of California | Virus discovery by sequencing and assembly of virus-derived sirnas, mirnas, pirnas |
WO2017053446A2 (en) * | 2015-09-21 | 2017-03-30 | The Regents Of The University Of California | Pathogen detection using next generation sequencing |
JP6904953B2 (ja) * | 2015-12-03 | 2021-07-21 | アレス トレーディング ソシエテ アノニム | 細胞クローン性を決定する方法 |
KR101857735B1 (ko) * | 2016-02-22 | 2018-06-20 | 연세대학교 산학협력단 | 실험실 내 벡터 오염으로 인해 발생하는 위양 체성변이의 검출 및 제거방법 |
-
2022
- 2022-07-01 WO PCT/EP2022/068346 patent/WO2023275393A1/en active Application Filing
- 2022-07-01 IL IL309817A patent/IL309817A/en unknown
- 2022-07-01 JP JP2023580806A patent/JP2024525045A/ja active Pending
- 2022-07-01 EP EP22744424.7A patent/EP4364153A1/en active Pending
- 2022-07-01 AU AU2022303268A patent/AU2022303268A1/en active Pending
- 2022-07-01 CA CA3223241A patent/CA3223241A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4364153A1 (en) | 2024-05-08 |
AU2022303268A1 (en) | 2024-01-18 |
IL309817A (en) | 2024-02-01 |
CA3223241A1 (en) | 2023-01-05 |
WO2023275393A1 (en) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110349629B (zh) | 一种利用宏基因组或宏转录组检测微生物的分析方法 | |
CN110473594B (zh) | 病原微生物基因组数据库及其建立方法 | |
CN111462821B (zh) | 病原微生物分析鉴定系统及应用 | |
CN108319813A (zh) | 循环肿瘤dna拷贝数变异的检测方法和装置 | |
CN111009286A (zh) | 对宿主样本进行微生物分析的方法和装置 | |
CN113160882B (zh) | 一种基于三代测序的病原微生物宏基因组检测方法 | |
CN108573125A (zh) | 一种基因组拷贝数变异的检测方法及包含该方法的装置 | |
CN111599413B (zh) | 一种测序数据的分类单元组分计算方法 | |
US20130166221A1 (en) | Method and system for sequence correlation | |
US20200294628A1 (en) | Creation or use of anchor-based data structures for sample-derived characteristic determination | |
CN105740650A (zh) | 一种快速准确鉴定高通量基因组数据污染源的方法 | |
CN114121160B (zh) | 一种检测样本中宏病毒组的方法和系统 | |
CN113096736A (zh) | 一种基于纳米孔测序的病毒实时自动分析方法及系统 | |
Kearse et al. | The Geneious 6.0. 3 read mapper | |
CN113470743A (zh) | 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法 | |
CN109949866B (zh) | 病原体操作组的检测方法、装置、计算机设备和存储介质 | |
JP2024525045A (ja) | ウイルス汚染の判定方法 | |
EP4239638A1 (en) | Method for determining viral contamination | |
CN116312779A (zh) | 检测样本污染和识别样本错配的方法和装置 | |
CN114410772A (zh) | 慢阻肺急性加重易感基因及其在预测易感慢阻肺急性加重中的应用 | |
CN114496089B (zh) | 一种病原微生物鉴定方法 | |
CN113971986B (zh) | 一种通过序列相似性排查测序样本交叉污染的方法 | |
CN113528631B (zh) | 一种ngs测序中样本质量预测方法及系统 | |
JP2024041040A (ja) | ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法 | |
US20220267865A1 (en) | In vitro method for the diagnosis of viral infections |