JP2023502596A - 遺伝子配列を同定、分類、及び/またはランク付けするための方法及びシステム - Google Patents

遺伝子配列を同定、分類、及び/またはランク付けするための方法及びシステム Download PDF

Info

Publication number
JP2023502596A
JP2023502596A JP2022527246A JP2022527246A JP2023502596A JP 2023502596 A JP2023502596 A JP 2023502596A JP 2022527246 A JP2022527246 A JP 2022527246A JP 2022527246 A JP2022527246 A JP 2022527246A JP 2023502596 A JP2023502596 A JP 2023502596A
Authority
JP
Japan
Prior art keywords
sequences
sequence
measure
coverage
pathogen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022527246A
Other languages
English (en)
Other versions
JPWO2021096980A5 (ja
Inventor
コパン、リチャード
キアット リム、ウェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Regeneron Pharmaceuticals Inc
Original Assignee
Regeneron Pharmaceuticals Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Regeneron Pharmaceuticals Inc filed Critical Regeneron Pharmaceuticals Inc
Publication of JP2023502596A publication Critical patent/JP2023502596A/ja
Publication of JPWO2021096980A5 publication Critical patent/JPWO2021096980A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Virology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)

Abstract

本開示は、ゲノム配列情報の分析のための方法及びシステムを提供する。本開示は、とりわけ、配列保存を特徴付けるための方法及びシステムを提供する。本明細書で考察されるように、本開示のある特定の方法及びシステムは、カバレッジの尺度及び2つのアラインメントされた配列間の同一性の尺度に基づいて、配列またはペアワイズ配列比較への類似性スコアの割り当てを含む。

Description

本発明は、遺伝子配列を同定、分類、及び/またはランク付けするための方法及びシステムに関する。
関連出願の相互参照
本出願は、2020年3月23日に出願された米国仮特許出願第62/993,567号及び2019年11月12日に出願された米国仮特許出願第62/934,323号の権益を主張し、これらの各々の開示は、参照によりその全体が本明細書に組み込まれる。
配列表
テキストファイル(2020年11月10日に作成され、146,610バイトのサイズを有する、名称「2010794_2132_SL」)の形態の配列表は、参照によりその全体が本明細書に組み込まれる。
ゲノム配列決定の速度及び効率は、ここ数十年で劇的に増加し、膨大な量のゲノム配列情報の収集を可能にしている。100万を超えるゲノム配列が、公的にアクセス可能なデータベースで利用可能であり、その大部分が微生物ゲノムである。例えば、約160,000個のゲノム配列が、病原性コロナウイルスSARS-CoV-2について公的にアクセス可能なデータベースに預託されている。したがって、多様なゲノム配列情報の蓄積が増えている。
ゲノム配列情報の有用性は、分析ツールの利用可能性によって制限される。分析に必要な計算リソースは、配列データの蓄積に遅れをとっている。例えば、治療及びワクチン開発研究は、多くの場合、病原体集団の遺伝的多様性を評価することに失敗しており、臨床試験の失敗につながる。特定の生物、配列、または遺伝子の多数の多様なゲノム配列の分析のための方法及びシステムの必要性を含む、ゲノム配列情報の分析のための改善された方法及びシステムが必要とされている。治療開発に情報を提供し、潜在的に臨床成果を予測するために、改善された分析方法及びシステムが必要である。加えて、ゲノム配列情報を分析するための多くの既存の方法は、配列データベースの専門的な知識、配列分析ソフトウェアの動作、及び/またはデータ出力の蒸留を必要とする。
本開示は、ゲノム配列情報の分析のための方法及びシステムを提供する。微生物ゲノム配列情報を含むゲノム配列情報は、近年、例えば、公的にアクセス可能なデータベースにおいて増殖している。費用対効果の高いハイスループット配列決定器具及びマルチプレックス配列決定プロトコルの開発は、ゲノム解析の魅力を広げ、感染症の分野を変革させた。しかしながら、公開データベースで利用可能なゲノム多様性の幅を考慮するよりもむしろ、比較ゲノム分析は、多くの場合、完全にアノテーションされたストックゲノムの小さな偏ったセットによって誘導される。これらのストックゲノムは、多くの場合、天然または関連する多様性の幅を表すものとして受け入れられるが、実際には、天然集団のわずかな画分を表す。天然の多様性を特定、分析、及び/または表現するこの問題は、例えば、病原体の研究に関して特に重大であり、ここでは、多様な病原体単離株に対する開発された治療の適用性は、全体的な臨床的有効性の重要な構成要素である。多様な株からの利用可能な配列の利用は、歴史的に必要な計算スキル、及び多様な系統にわたる(例えば、病原体系統にわたる)ゲノムアノテーションを含む十分にキュレーションされた最新のゲノムリソースを有する。少なくとも部分的には、大規模な利用可能なゲノム配列がこの様式で完全に組み立てられていない、及び/または利用可能なゲノム配列(例えば、病原体の多様な株の)が一貫性のない様式でアノテーションされているため、ゲノム解析(例えば、種間もしくは種内)は、実際には複雑である。配列決定されたゲノムの数が増殖するにつれて、分析及び計算ツールの必要性は、これらのリソースの最適な利用を確実にするための重要な構成要素である。
本開示の方法及びシステムは、とりわけ、入力配列の間及び入力配列間の配列保存性を特徴付けるための方法及びシステムを提供する。本明細書で考察されるように、本開示のある特定の方法及びシステムは、配列間のアラインメントのカバレッジパーセント及び配列間の変化の数に基づいて、多重配列比較後の配列への類似性または保存性スコアの割り当てを含む。
ある特定の実施形態では、本開示の方法及びシステムは、以下に記載されるステップのうちの1つ以上を含む。例えば、ある特定の実施形態では、本明細書に記載される方法及びシステムは、比較分析のために使用するゲノム配列を獲得する生物(例えば、病原体)を選択する第1のステップを含む。したがって、ある特定の実施形態では、ユーザは、対象となる配列を抽出するゲノム(複数可)に関する情報を第1のステップで示す。第2のステップは、例えば、National Center for Biotechnology Informationデータベース(NCBI)からのダウンロードなどによって、公的にアクセス可能なデータベースから配列データを獲得することによって、及び任意選択で、同じまたは異なるソース配列アノテーション及び/または特徴情報から獲得することによって、配列を提供することを含み得る。配列はまた、直接的な実験測定から、例えば、物理的な生体試料を利用するハイスループット配列決定システムからのリードから提供され得る。したがって、ある特定の実施形態では、配列は、直接測定から提供され得るか、NCBIデータベースからダウンロードされ得るか、または両方であり得る。配列ファイル及び特徴ファイルは、NCBIデータベースなどのある特定の公的にアクセス可能なデータベースから自動的にダウンロードすることができる。第3のステップは、例えば、Basic Local Alignment Search Tool(BLAST)によって分析された配列のペアワイズ比較を含むことができる。ペアワイズBLAST分析は、すべての比較配列にわたって、分析された対象の各配列の配列多様性のレベルを確立する。第4のステップは、例えば、配列保存性に関連する情報をコンパイルする出力テーブルを生成することによって、すべてのペアワイズ配列比較に関連する情報をコンパイルすることを含み得る。例示的なテーブルは、特定の配列の存在または非存在、特定の配列遺伝子座における多様性のレベル、特定の配列遺伝子座における変化の性質、及び/または分析された配列における特定の特徴のゲノム座標に関する情報を含むことができる。様々な実施形態では、分析される各配列は、定義されたスコアリングシステムに基づいて類似性スコアを割り当てることができ、各配列は、カバレッジパーセント及び配列変化の数に従って分類される。例えば、ある特定の実施形態では、配列を分類し、表2に従って類似性スコアを割り当てることができる。いくつかの実施形態では、次いで、コード配列を分析された配列から抽出し、翻訳して、ヌクレオチド及びアミノ酸アラインメントを作成することができる。任意選択の第5のステップは、例えば、多様性のグラフ、系統樹(例えば、最大尤度もしくは節約系統樹)、ヒートマップ、及び/またはアラインメントファイルの形態で、コンパイルされた配列保存性情報を表す視覚表示の生成を含み得る。ある特定の実施例では、ゲノム及び遺伝子に基づく系統樹は、PhyMLまたはQuickTreeプログラムなどの系統樹ソフトウェアを使用して作成され、別個のファイルに保存される。
様々な実施形態では、本明細書に開示される方法及びシステムのステップは、コンピュータプロセッサ及びソフトウェアの使用によって達成される。特定のそのようなプロプライエタリソフトウェアは、本明細書では、Rプログラミング言語で記述された「Got_Gene」として参照される。Got_Geneは、BLASTアルゴリズム及びRパッケージを使用して、配列のセットの多様性を特定、比較、及び特徴付けし、数千の配列にわたって多様性を分析することができる。
様々な実施形態では、利用可能なゲノム配列(対象配列、例えば、参照配列)の集合を、1つ以上のユーザ選択された配列(クエリ配列(複数可))とペアワイズ様式で比較し、臨床的に関連する配列特徴を特定する。様々な実施形態では、本開示の方法及びシステムは、ゲノム配列情報の公的にアクセス可能なデータベースを含む、データベースで利用可能なゲノム配列情報の集合を利用する。ある特定の実施形態では、ペアワイズ比較は、対象及びクエリ遺伝子配列、例えば、対象及びクエリコード遺伝子配列のペアワイズ比較を含む。ある特定の実施形態では、ペアワイズ比較は、対象及びクエリ配列によってコードされるタンパク質のペアワイズ比較を含む。
ある特定の実施形態では、本開示の方法及びシステムを使用して、治療的有用性の配列及び配列特性を特定することができる。例えば、本開示の方法及びシステムを使用して、抗抗原治療用抗体などの抗抗原治療薬の開発のための候補抗原(例えば、病原体抗原)を同定することができる。いくつかの実施形態では、本開示の方法及びシステムを使用して、候補ワクチン抗原を同定することができる。いくつかの実施形態では、本開示の方法及びシステムを使用して、1つ以上の特定の遺伝子配列(例えば、実験病原体株のゲノム)が、同等の遺伝子配列の集合(例えば、臨床的に関連する病原体株のゲノム)を表すかどうかを決定することができる。いくつかの実施形態では、本開示の方法及びシステムを使用して、抗生物質耐性マーカーを同定することができる。いくつかの実施形態では、本開示の方法及びシステムを使用して、質量分析データの照会に使用するためのペプチド発見リソース、例えば、予想されるペプチド及び特性のリストを生成することができる。いくつかの実施形態では、本開示の方法及びシステムを使用して、配列内の多様性の領域を特定することができる。いくつかの実施形態では、本開示の方法及びシステムを使用して、系統樹を生成することができ、例えば、疫病(例えば、病原体の拡散)の臨床理解を強化することができる。いくつかの実施形態では、本開示の方法及びシステムを使用して、種間または種の間のオルソロガス配列を同定することができる。
本開示の病原体は、核酸またはアミノ酸配列(複数可)を含むか、またはそれによって特徴付けられる任意の病原体を含み得る。本開示の病原体には、原核生物病原体及び真核生物病原体が含まれた。本開示の病原体の例としては、細菌、酵母、原虫、及びウイルスが挙げられるが、これらに限定されない。様々な実施形態では、本開示の病原体は、Acinetobacter baumannii、Acinetobacter lwoffii、Acinetobacter属(例えば、多剤耐性Acinetobacter(MDR-A))、Actinomycetes、アデノウイルス、Aeromonas属、Alcaligenes faecalis、Alcaligenes属/Achromobacter属、Alcaligenes xylosoxidans(例えば、基質特異性拡張型βラクタマーゼ(ESBL)/多剤耐性グラム陰性生物(MRGN))、アルボウイルス、Ascaris lumbricoides、Aspergillus属、アストロウイルス、Bacillus anthracis、Bacillus cereus、Bacillus subtilis、Bacteriodes fragilis、Bartonella quintana、Blastocystis hominis、Bordetella pertussis、Borrelia burgdorferi、Borrelia duttoni、Borrelia recurrentis、Brevundimonas diminuta、Brevundimonas vesicularis、Brucella属、Burkholderia cepacia(例えば、多剤耐性(MDR))、Burkholderia mallei、Burkholderia pseudomallei、Campylobacter jejuni/coli、Candida albicans、Candida auris、Candida krusei、Candida parapsilosis、Chikungunyaウイルス(CHIKV)、Chlamydia pneumoniae、Chlamydia psittaci、Chlamydia trachomatis、Citrobacter属、Clostridium botulinum、Clostridium difficile、Clostridium perfringens、Clostridium tetani、コロナウイルス(例えば、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、コロナウイルス疾患(COVID-19)を引き起こすウイルスである重症急性呼吸器症候群コロナウイルス2(SARS-CoV2)、及び中東呼吸器症候群関連コロナウイルス(MERS-CoV))、Corynebacterium diphtheriae、Corynebacterium pseudotuberculosis、Corynebacterium属、Corynebacterium ulcerans、Coxiella burnetii、Coxsackievirus、クリミア・コンゴ出血熱ウイルス、Cryptococcus neoformans、Cryptosporidium hominis、Cryptosporidium parvum、Cyclospora cayetanensis、サイトメガロウイルス、デングウイルス、Dientamoeba fragilis、エボラウイルス、Echinococcus属、エコーウイルス、Entamoeba dispar、Entamoeba histolytica、Enterobacter aerogenes、Enterobacter cloacae(例えば、ESBL/MRGN)、Enterobius vermicularis、Enterococcus faecalis(例えば、バンコマイシン耐性エンテロコッカス(VRE))、Enterococcus faecium(例えば、VRE)、Enterococcus hirae、Epidermophyton属、エプスタイン・バーウイルス、Escherichia coli(例えば、腸管出血性E.coli(EHEC)、腸管病原性E.coli(EPEC)、腸管毒素原性E.coli(ETEC)、腸管侵入性E.coli(EIEC)、腸管凝集性E.coli(EAEC)、ESBL/MRGN、分散接着性E.coli(DAEC))、フィラリア虫、口蹄疫ウイルス(FMDV)、Francisella tularensis、Giardia lamblia、Haemophilus influenzae、ハンタウイルス、Helicobacter pylori、Helminths(蠕虫)、A型肝炎ウイルス、B型肝炎ウイルス、C型肝炎ウイルス、D型肝炎ウイルス、E型肝炎ウイルス、単純ヘルペスウイルス、Histoplasma capsulatum、ヒトT細胞白血病ウイルス、1型(HTLV-1)、ヒトエンテロウイルス71、ヒトヘルペスウイルス6(HHV-6)、ヒトヘルペスウイルス7(HHV-7)、ヒトヘルペスウイルス8(HHV-8)、ヒト免疫不全ウイルス、ヒトメタニューモウイルス、ヒトパピローマウイルス、Hymenolepsis nana、インフルエンザウイルス(例えば、A(H1N1)、A(H1N1)pdm09、A(H3N2)、A(H5N1)、A(H5N5)、A(H5N6)、A(H5N8)、A(H7N9)、A(H10N8))、Klebsiella granulomatis、Klebsiella oxytoca(例えば、ESBL/MRGN)、Klebsiella pneumoniae MDR(例えば、ESBL/MRGN)、Lassa virus、Leclercia adecarboxylata、Legionella pneumophila、Leishmania属、Leptospira interrogans、Leuconostoc pseudomesenteroides、Listeria monocytogenes、マールブルグウイルス、麻疹ウイルス、Menglaウイルス、Micrococcus luteus、Microsporum属、Molluscipoxvirus、Moraxella catarrhalis、Morganella属、ムンプスウイルス、Mycobacterium basiliense sp.nov.、Mycobacterium chimaera、Mycobacterium leprae、Mycobacterium tuberculosis(例えば、MDR)、Mycoplasma genitalium、Mycoplasma pneumoniae、Naegleria fowleri、Neisseria meningitidis、Neisseria gonorrhoeae、ニパウイルス、ノロウイルス、Opisthorchis viverrini、Orientia tsutsugamushi、Pantoea agglomerans、Paracoccus yeei、パラインフルエンザウイルス、パルボウイルス、Pediculus humanus capitis、Pediculus humanus corporis、Plasmodium属、Pneumocystis jiroveci、Poliovirus、Polyomavirus、Prevotella属、プリオン、Propionibacterium種、Proteus mirabilis(例えば、ESBL/MRGN)、Proteus vulgaris、Providencia rettgeri、Providencia stuartii、Pseudomonas aeruginosa、Pseudomonas属、狂犬病ウイルス、Ralstonia属、Respiratory syncytialウイルス、ライノウイルス、Rickettsia prowazekii、Rickettsia typhi、Roseomonas gilardii、ロタウイルス、風疹ウイルス、Schistosoma mansoni、Salmonella enteritidis、Salmonella paratyphi、Salmonella属、Salmonella typhi、Salmonella typhimurium、Sarcoptes scabiei(皮癬ダニ)、Sapovirus、Serratia marcescens(例えば、ESBL/MRGN)、Shigella sonnei、Sphingomonas種、Staphylococcus aureus(例えば、メチシリン耐性S.aureus MRSA、バンコマイシン耐性S.aureus(VRSA))、Staphylococcus capitis、Staphylococcus epidermidis(例えば、メチシリン耐性S.epidermidis(MRSE))、Staphylococcus haemolyticus、Staphylococcus hominis、Staphylococcus lugdunensis、Staphylococcus pasteuri、Staphylococcus saprophyticus、Stenotrophomonas maltophilia、Streptococcus pneumoniae、Streptococcus pyogenes(例えば、PRSP)、Streptococcus属、Strongyloides stercoralis、Taenia solium、TBEウイルス、Toxoplasma gondii、Treponema pallidum、Trichinella spiralis、Trichomonas vaginalis、Trichophyton属、Trichosporon属、Trichuris trichiura、Trypanosoma brucei gambiense、Trypanosoma brucei rhodesiense、Trypanosoma cruzi、Usutuウイルス、ワクシニアウイルス、水痘・帯状疱疹ウイルス、天然痘ウイルス、Vibrio cholerae、ウエストナイルウイルス(WNV)、黄熱ウイルス、Yersinia enterocolitica、Yersinia pestis、Yersinia pseudotuberculosis、及びジカウイルスから選択される。
少なくとも1つの態様では、本開示は、病原体に対する療法の開発における候補抗原としてのアミノ酸配列を同定するための方法を含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントを含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って、分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸配列をアラインメントすることと、病原体の異なる株間の部分の保存性レベルに従ってアラインメントされたアミノ酸配列の複数の部分の各々を分類することと、保存されたものとして分類されたアミノ酸配列の部分を選択し、選択された保存配列をヒトタンパク質配列と比較し、選択された保存配列をヒトタンパク質配列と同一または同一ではないものとしてさらに分類することと、ヒトタンパク質配列と同一ではない選択された保存配列を、病原体に対する療法の開発における候補抗原として分類することと、を含む。様々な実施形態では、抽出することは、例えば、配列エンドポイントを選択することによって、配列を同定、区画、または単離することを含み得る。様々な実施形態では、抽出することは、配列または配列の部分に、1つ以上の特定の特性または状態、例えば、コード配列としての状態を割り当てることを含み得る。様々な実施形態では、抽出することは、例えば、アノテーション(例えば、コード配列または非コード配列としての参照の対応する及び/またはアラインメントされた配列のアノテーション、及び/または分類された配列のゲノム位置のアノテーション)を観察することによって、同一性の尺度及びカバレッジの尺度に従って分類された配列などの配列が、実際には、コード配列であることを特定することを含み得る。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的ゲノム配列の少なくとも一部分を生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、選択された保存配列を候補抗原として分類することは、選択された保存配列における1つ以上のアミノ酸ドメインの存在または非存在を決定することをさらに含む。ある特定の実施形態では、選択された保存配列を候補抗原として分類することは、候補抗原が、病原体の膜及び/または細胞壁内に分泌されるか、または曝露されるタンパク質に対応するかどうかを決定することをさらに含む。ある特定の実施形態では、選択された保存配列を候補抗原として分類することは、選択された保存配列における膜貫通ドメインの存在を決定することをさらに含む。ある特定の実施形態では、療法は、ワクチンを含み、方法は、免疫原性について候補抗原を非臨床的に評価することをさらに含む。ある特定の実施形態では、評価するステップは、例えば、動物がヒト、非ヒト霊長類、マウス、またはラットである場合、候補抗原を含むポリペプチドを動物に投与することを含む。ある特定の実施形態では、療法は、抗体療法を含み、この方法は、候補抗原上のエピトープに特異的に結合する抗体またはその断片を生成することをさらに含む。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。ある特定の実施形態では、方法は、候補抗原を標的にするか、またはそれに結合する治療剤を製造することを含む。ある特定の実施形態では、治療剤は、抗体または阻害剤である。ある特定の実施形態では、治療剤は、候補抗原をコードするコード配列などの核酸配列に対応するshRNAまたはsiRNAである。
少なくとも1つの態様では、本開示は、病原体感染症の治療のための1つ以上の対象への治療剤の投与後の1つ以上の推定エスケープ変異を同定する方法を含み、各対象への治療剤の投与後に1つ以上の対象から単離された複数の完全または部分的病原体ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸配列をアラインメントすることと、アラインメントされたアミノ酸配列において、アラインメントされたアミノ酸配列において参照よりも頻繁な1つ以上のアミノ酸バリアントを同定することと(1つ以上のアミノ酸バリアントは、1つ以上の推定エスケープ変異である)を含む。ある特定の実施形態では、参照は、正準病原体配列を表す1つ以上の完全もしくは部分的病原体ゲノム配列、病原体の1つ以上の臨床株、治療剤を投与された対象のうちの1つ以上からの1つ以上の以前の病原体試料、または治療剤を投与されなかった対象からの1つ以上の病原体試料を含む。ある特定の実施形態では、方法は、推定エスケープ変異のうちの1つ以上が、治療剤の参照ポリペプチドとの結合親和性を低下させるかどうかを決定するステップをさらに含む。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的ゲノム配列の少なくとも一部分を生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、方法は、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、治療剤は、抗体または阻害剤である。ある特定の実施形態では、治療剤は、shRNAまたはsiRNAである。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、方法は、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む。ある特定の実施形態では、治療剤は、抗体を含む。ある特定の実施形態では、抗体は、SARS-CoV-2に結合する。ある特定の実施形態では、抗体は、SARS-CoV-2スパイクタンパク質に結合する。ある特定の実施形態では、抗体は、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む。ある特定の実施形態では、治療剤は、COVID-19を治療する治療剤を含む。ある特定の実施形態では、治療剤は、レムデシビル、カレトラ、イベルメクチン、タミフル、アビガン、コルクリ、デキサメタゾン、クロロキン、ヒドロキシクロロキン、アジスロマイシン、il-6阻害剤(例えば、トシリズマブ及びサリルマブ)、キナーゼ阻害剤(例えば、アカラブルチニブ、イブルチニブ、ザヌブルチニブ、バリシチニブ、ルキソリチニブ、及びトファシチニブ)、インターフェロン、回復期血漿、SARS-CoV-2スパイクタンパク質に結合する抗体(抗SARS-CoV-2-スパイクタンパク質抗体)、mAb10933(Regeneron)、mAb10934(Regeneron)、mAb10987(Regeneron)、mAb10989(Regeneron)、REGN-COV2(Regeneron)、LY-CoV555(Eli Lilly)、LY-CoV016(Eli Lilly)、及び/またはBNT162b2(Pfizer)を含む。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。ある特定の実施形態では、方法は、1つ以上の推定エスケープ変異を同定した後、1つ以上の対象に異なる治療剤を投与することを含む。ある特定の実施形態では、異なる治療剤は、COVID-19を治療する治療剤を含む。ある特定の実施形態では、異なる治療剤は、レムデシビル、カレトラ、イベルメクチン、タミフル、アビガン、コルクリ、デキサメタゾン、クロロキン、ヒドロキシクロロキン、アジスロマイシン、il-6阻害剤(例えば、トシリズマブ及びサリルマブ)、キナーゼ阻害剤(例えば、アカラブルチニブ、イブルチニブ、ザヌブルチニブ、バリシチニブ、ルキソリチニブ、及びトファシチニブ)、インターフェロン、回復期血漿、SARS-CoV-2スパイクタンパク質に結合する抗体(抗SARS-CoV-2-スパイクタンパク質抗体)、mAb10933(Regeneron)、mAb10934(Regeneron)、mAb10987(Regeneron)、mAb10989(Regeneron)、REGN-COV2(Regeneron)、LY-CoV555(Eli Lilly)、LY-CoV016(Eli Lilly)、及び/またはBNT162b2(Pfizer)を含む。
少なくとも1つの態様では、本開示は、病原体感染症の治療のための治療剤を、それを必要とする対象に投与する方法を含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸をアラインメントすることと、病原体の異なる株の間の部分の保存性レベルに従って、アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、アラインメントされたアミノ酸配列の保存部分を選択することと、によってアミノ酸配列の保存された部分を選択することと、対象から単離された完全または部分的病原体ゲノム配列がアミノ酸配列の保存された部分をコードする場合に、対象に治療剤を投与することと(治療剤は、アミノ酸配列の保存された部分に選択的に結合する)を含む。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的ゲノム配列の少なくとも一部分を生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価すること。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、方法は、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む。ある特定の実施形態では、治療剤は、抗体を含む。ある特定の実施形態では、抗体は、SARS-CoV-2に結合する。ある特定の実施形態では、抗体は、SARS-CoV-2スパイクタンパク質に結合する。ある特定の実施形態では、抗体は、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む。ある特定の実施形態では、治療剤は、COVID-19を治療する治療剤を含む。ある特定の実施形態では、治療剤は、レムデシビル、カレトラ、イベルメクチン、タミフル、アビガン、コルクリ、デキサメタゾン、クロロキン、ヒドロキシクロロキン、アジスロマイシン、il-6阻害剤(例えば、トシリズマブ及びサリルマブ)、キナーゼ阻害剤(例えば、アカラブルチニブ、イブルチニブ、ザヌブルチニブ、バリシチニブ、ルキソリチニブ、及びトファシチニブ)、インターフェロン、回復期血漿、SARS-CoV-2スパイクタンパク質に結合する抗体(抗SARS-CoV-2-スパイクタンパク質抗体)、mAb10933(Regeneron)、mAb10934(Regeneron)、mAb10987(Regeneron)、mAb10989(Regeneron)、REGN-COV2(Regeneron)、LY-CoV555(Eli Lilly)、LY-CoV016(Eli Lilly)、及び/またはBNT162b2(Pfizer)を含む。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。
少なくとも1つの態様では、本開示は、病原体に感染した対象の治療のための治療剤を選択するための方法を含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸をアラインメントすることと、病原体の異なる株の間の部分の保存性レベルに従って、アラインメントされたアミノ酸配列の複数の部分の各々を分類し、それによって病原体を表すコード配列の保存された部分を同定することと、病原体に感染した対象のための治療として、保存されたコード配列に結合する治療剤を選択することと、を含む。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的ゲノム配列の少なくとも一部分を生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、方法は、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、方法は、治療剤をワクチンまたはその成分として非臨床的に評価することをさらに含む。ある特定の実施形態では、評価するステップは、例えば、動物がヒト、非ヒト霊長類、マウス、またはラットである場合、治療剤を動物に投与することを含む。ある特定の実施形態では、方法は、病原体に感染した対象に治療剤を投与することをさらに含む。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、方法は、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む。ある特定の実施形態では、治療剤は、抗体を含む。ある特定の実施形態では、抗体は、SARS-CoV-2に結合する。ある特定の実施形態では、抗体は、SARS-CoV-2スパイクタンパク質に結合する。ある特定の実施形態では、抗体は、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む。ある特定の実施形態では、治療剤は、COVID-19を治療する治療剤を含む。ある特定の実施形態では、治療剤は、レムデシビル、カレトラ、イベルメクチン、タミフル、アビガン、コルクリ、デキサメタゾン、クロロキン、ヒドロキシクロロキン、アジスロマイシン、il-6阻害剤(例えば、トシリズマブ及びサリルマブ)、キナーゼ阻害剤(例えば、アカラブルチニブ、イブルチニブ、ザヌブルチニブ、バリシチニブ、ルキソリチニブ、及びトファシチニブ)、インターフェロン、回復期血漿、SARS-CoV-2スパイクタンパク質に結合する抗体(抗SARS-CoV-2-スパイクタンパク質抗体)、mAb10933(Regeneron)、mAb10934(Regeneron)、mAb10987(Regeneron)、mAb10989(Regeneron)、REGN-COV2(Regeneron)、LY-CoV555(Eli Lilly)、LY-CoV016(Eli Lilly)、及び/またはBNT162b2(Pfizer)を含む。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。
少なくとも1つの態様では、本開示は、病原体を表すアミノ酸配列の部分の保存を評価するための方法を含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸をアラインメントすることと、アラインメントされたアミノ酸配列を使用して、病原体を表すアミノ酸配列の1つ以上の部分の保存性レベルを特定することと、を含む。ある特定の実施形態では、部分のうちの1つ以上は、病原体に対する療法の開発における候補抗原として同定される。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的ゲノム配列の少なくとも一部分を生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、方法は、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、ゲノム配列は、SARS-CoV-2ゲノム配列であり、参照配列は、SARS-CoV-2参照配列である。ある特定の実施形態では、方法は、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。
少なくとも1つの態様では、本開示は、単離された病原体が循環株を表すかどうかを特定するための方法を含み、データ構造から病原体の循環株の複数の完全または部分的ゲノム配列を得ることと、循環株の配列の1つ以上の保存された部分を同定することと、単離された病原体の複数の完全または部分的ゲノム配列を得ることと、単離された病原体の配列の少なくとも一部分を循環株の配列の同定された1つ以上の保存された部分と比較することによって、単離された病原体が循環株を表すかどうかを特定することと、を含む。ある特定の実施形態では、循環株の配列の1つ以上の保存された部分を同定することは、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸配列をアラインメントすることと、アラインメントされたアミノ酸配列の間の部分の保存性レベルに従って、アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、を含む。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的ゲノム配列の少なくとも一部分を生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、方法は、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、方法は、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。ある特定の実施形態では、方法は、単離された病原体及び/または循環株の試料を保存すること(例えば、凍結すること)をさらに含む。ある特定の実施形態では、方法は、単離された病原体及び/または循環株からゲノム材料を単離すること、及び/または病原体及び/または循環株から単離されたゲノム材料を保存(例えば、凍結)することをさらに含む。ある特定の実施形態では、方法は、単離された病原体が循環株を表す場合、研究のための株として単離された病原体を利用及び/または維持すること(例えば、病原体の治療のための治療剤の開発のための研究であって、任意選択で、治療剤が例えば、shRNA、siRNA、阻害剤、または抗体であり得る場合)をさらに含む。
少なくとも1つの態様では、本開示は、病原体を表すペプチドの質量電荷比を特定するための方法を含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、アミノ酸配列またはその部分のうちの1つ以上の質量電荷比を決定することと、を含む。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的ゲノム配列の少なくとも一部分を生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、方法は、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、方法は、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。ある特定の実施形態では、方法は、病原体の試料からの1つ以上のポリペプチドの質量分析を行うこと、及び/または試料からのポリペプチドが、決定された質量電荷比に一致する質量電荷比を有するアミノ酸配列であるか、もしくはそれを含むかを決定することをさらに含む。
少なくとも1つの態様では、本開示は、候補抗生物質耐性マーカーとしてアミノ酸配列を同定するための方法を含み、データ構造から病原性細菌の複数の完全または部分的プラスミド配列を得ることと、コンピューティングデバイスのプロセッサによって、プラスミド配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従って、コード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)同一性の尺度及びカバレッジの尺度に従って、分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸配列をアラインメントすることと、複数のプラスミド配列の間の部分の保存性レベルに従って、アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、保存されたものとして分類されたアミノ酸配列の部分を選択することと、選択された保存配列を候補抗生物質耐性マーカーとして分類することと、を含む。ある特定の実施形態では、方法は、選択された配列中の膜貫通ドメインの存在を含む1つ以上の追加の基準に従って、候補抗生物質耐性マーカーを候補として特定することをさらに含む。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から複数の完全または部分的プラスミド配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的プラスミド配列のうちの少なくともいくつかを生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、方法は、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。ある特定の実施形態では、方法は、例えば、1つ以上の対象が病原性細菌に感染している場合に、候補抗生物質耐性マーカーの存在または非存在について、1つ以上の対象から1つ以上の試料をスクリーニングすることをさらに含む。
少なくとも1つの態様では、本開示は、プラスミドを表すコード配列の1つ以上の保存された部分を同定するための方法を含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、プラスミド配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸をアラインメントすることと、複数のプラスミド配列の間の部分の保存性レベルに従って、アミノ酸配列の複数の部分の各々を分類し、それによってプラスミドを表すコード配列の1つ以上の保存された部分を同定することと、を含む。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から複数の完全または部分的プラスミド配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的プラスミド配列のうちの少なくともいくつかを生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、方法は、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。ある特定の実施形態では、方法は、例えば、1つ以上の対象が病原性細菌に感染している場合に、プラスミドを表すコード配列の保存された部分の存在または非存在について、1つ以上の対象からの1つ以上の試料をスクリーニングすることをさらに含む。
少なくとも1つの態様では、本開示は、病原体を表すコード配列の1つ以上の保存された部分を自動的に同定するためのシステムを含み、システムは、プロセッサと、命令を有するメモリと、を備え、命令は、プロセッサによって実行されるとき、プロセッサに、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を取得させ、プロセッサによって、ゲノム配列からコード配列を抽出させ、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類させ(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って、分類されたコード配列の中からコード配列を選択させ、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換させ、プロセッサによって、アミノ酸配列をアラインメントさせ、病原体の異なる株の間の部分の保存性レベルに従って、アラインメントされたアミノ酸配列の複数の部分の各々を分類させ、それによって病原体を表すコード配列の1つ以上の保存された部分を同定させる。ある特定の実施形態では、命令は、プロセッサによって実行されると、プロセッサに、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算させ、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、命令は、プロセッサによって実行されると、プロセッサに、類似性の尺度のマトリックスを作成させ、マトリックスのグラフィック表現をレンダリングさせ、それによってクエリ配列と対象配列との間の保存性レベルを表示させる。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、データ構造はコンティグを含み、命令は、プロセッサによって実行されると、プロセッサによって、重複するコンティグをマージして完全または部分的ゲノム配列のうちの少なくともいくつかを生成することによって、プロセッサに、病原体の異なる株の複数の完全または部分的ゲノム配列を取得させる。ある特定の実施形態では、命令は、プロセッサによって実行されると、プロセッサに、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価させる。ある特定の実施形態では、命令は、プロセッサによって実行されると、プロセッサに、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価させる。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。
少なくとも1つの態様では、本開示は、プラスミドを表すコード配列の1つ以上の保存された部分を自動的に同定するためのシステムを含み、システムは、プロセッサと、命令を有するメモリと、を備え、命令は、プロセッサによって実行されると、プロセッサに、データ構造から病原性細菌の複数の完全または部分的プラスミド配列を取得させ、プロセッサによって、プラスミド配列からコード配列を抽出させ、プロセッサによって、同一性の尺度及びカバレッジの尺度に従って、コード配列を分類させ(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って、分類されたコード配列の中からコード配列を選択させ、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換させ、プロセッサによって、アミノ酸配列をアラインメントさせ、複数のプラスミド配列の間の部分の保存性レベルに従って、アミノ酸配列の複数の部分の各々を分類させ、それによってプラスミドを表すコード配列の1つ以上の保存された部分を同定させる。ある特定の実施形態では、命令は、プロセッサによって実行されると、プロセッサに、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算させ、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、命令は、プロセッサによって実行されると、プロセッサに、類似性の尺度のマトリックスを作成させ、マトリックスのグラフィック表現をレンダリングさせ、それによってクエリ配列と対象配列との間の保存性レベルを表示させる。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、データ構造はコンティグを含み、命令は、プロセッサによって実行されると、プロセッサによって、重複するコンティグをマージして完全または部分的プラスミド配列のうちの少なくともいくつかを生成することによって、プロセッサに、病原性細菌の複数の完全または部分的プラスミド配列を取得させる。ある特定の実施形態では、命令は、プロセッサによって実行されると、プロセッサに、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価させる。ある特定の実施形態では、命令は、プロセッサによって実行されると、プロセッサに、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価させる。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。
少なくとも1つの態様では、本開示は、病原体感染症の治療のための1つ以上の対象への治療剤の投与後の1つ以上の推定エスケープ変異を同定する際に使用するための治療剤を含み、各対象への治療剤の投与後に1つ以上の対象から単離された複数の完全または部分的病原体ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸配列をアラインメントすることと、アラインメントされたアミノ酸配列において、アラインメントされたアミノ酸配列において参照よりも頻繁な1つ以上のアミノ酸バリアントを同定することと(1つ以上のアミノ酸バリアントは、1つ以上の推定エスケープ変異である)を含む。ある特定の実施形態では、参照は、正準病原体配列を表す1つ以上の完全もしくは部分的病原体ゲノム配列、病原体の1つ以上の臨床株、治療剤を投与された対象のうちの1つ以上からの1つ以上の以前の病原体試料、または治療剤を投与されなかった対象からの1つ以上の病原体試料を含む。ある特定の実施形態では、使用は、推定エスケープ変異のうちの1つ以上が、治療剤の参照ポリペプチドとの結合親和性を低下させるかどうかを決定するステップをさらに含む。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的ゲノム配列の少なくとも一部分を生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、使用は、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、使用は、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む。ある特定の実施形態では、治療剤は、抗体を含む。ある特定の実施形態では、抗体は、SARS-CoV-2に結合する。ある特定の実施形態では、抗体は、SARS-CoV-2スパイクタンパク質に結合する。ある特定の実施形態では、抗体は、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。
少なくとも1つの態様では、本開示は、病原体感染症の治療において使用するための治療剤を含み、使用は、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸をアラインメントすることと、病原体の異なる株の間の部分の保存性レベルに従って、アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、アラインメントされたアミノ酸配列の保存部分を選択することと、によってアミノ酸配列の保存された部分を選択することと、対象から単離された完全または部分的病原体ゲノム配列がアミノ酸配列の保存された部分をコードする場合に、対象に治療剤を投与することと(治療剤は、アミノ酸配列の保存された部分に選択的に結合する)を含む。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的ゲノム配列の少なくとも一部分を生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価すること。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、使用は、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む。ある特定の実施形態では、治療剤は、抗体を含む。ある特定の実施形態では、抗体は、SARS-CoV-2に結合する。ある特定の実施形態では、抗体は、SARS-CoV-2スパイクタンパク質に結合する。ある特定の実施形態では、抗体は、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。
少なくとも1つの態様では、本開示は、病原体感染症の治療のための1つ以上の対象への薬剤の投与後の1つ以上の推定エスケープ変異を同定するための薬剤の製造のための治療剤の使用を含み、使用は、各対象への薬剤の投与後に1つ以上の対象から単離された複数の完全または部分的病原体ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸配列をアラインメントすることと、アラインメントされたアミノ酸配列において、アラインメントされたアミノ酸配列において参照よりも頻繁な1つ以上のアミノ酸バリアントを同定することと(当該1つ以上のアミノ酸バリアントは、1つ以上の推定エスケープ変異である)を含む。ある特定の実施形態では、参照は、正準病原体配列を表す1つ以上の完全もしくは部分的病原体ゲノム配列、病原体の1つ以上の臨床株、治療剤を投与された対象のうちの1つ以上からの1つ以上の以前の病原体試料、または治療剤を投与されなかった対象からの1つ以上の病原体試料を含む。ある特定の実施形態では、使用は、推定エスケープ変異のうちの1つ以上が、治療剤の参照ポリペプチドとの結合親和性を低下させるかどうかを決定するステップをさらに含む。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的ゲノム配列の少なくとも一部分を生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、使用は、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、使用は、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む。ある特定の実施形態では、治療剤は、抗体を含む。ある特定の実施形態では、抗体は、SARS-CoV-2に結合する。ある特定の実施形態では、抗体は、SARS-CoV-2スパイクタンパク質に結合する。ある特定の実施形態では、抗体は、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。
少なくとも1つの態様では、本開示は、病原体感染症の治療のための薬剤の製造のための治療剤の使用を含み、使用は、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、プロセッサによって、アミノ酸をアラインメントすることと、病原体の異なる株の間の当該部分の保存性レベルに従って、アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、アラインメントされたアミノ酸配列の保存部分を選択することと、によってアミノ酸配列の保存された部分を選択することと、対象から単離された完全または部分的病原体ゲノム配列がアミノ酸配列の保存された部分をコードする場合に、対象に薬剤を投与することと(治療剤は、アミノ酸配列の保存された部分に選択的に結合する)を含む。ある特定の実施形態では、データ構造はコンティグを含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることは、プロセッサによって、重複するコンティグをマージして、完全または部分的ゲノム配列の少なくとも一部分を生成することを含む。ある特定の実施形態では、分類するステップは、複数の対の各々についての同一性の尺度及びカバレッジの尺度を定量化することを含み、対の各々は、抽出されたコード配列及び参照配列を含む。ある特定の実施形態では、分類するステップは、対象配列のセットに対するクエリコード配列のセットの各々について、クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、類似性の尺度の各々は、クエリ配列と対象配列との間の同一性の尺度、及びクエリ配列と対象配列との間のカバレッジの尺度の関数である。ある特定の実施形態では、計算するステップは、類似性の尺度のマトリックスを作成することと、マトリックスのグラフィック表現をレンダリングし、それによってクエリ配列と対象配列との間の保存性レベルを表示することを含む。ある特定の実施形態では、グラフィック表現は、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む。ある特定の実施形態では、同一性の尺度は、変異の数を含む。ある特定の実施形態では、カバレッジの尺度は、カバレッジパーセントを含む。ある特定の実施形態では、同一性の尺度は、E値を計算することを含む。ある特定の実施形態では、病原体と関連付けられたタンパク質をコードする核酸のコード配列、病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列、病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価すること。ある特定の実施形態では、アミノ酸配列の各部分は、1つ以上のアミノ酸位置を含む。ある特定の実施形態では、病原体は、ウイルスである。ある特定の実施形態では、ウイルスは、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである。ある特定の実施形態では、ウイルスは、コロナウイルスである。ある特定の実施形態では、コロナウイルスは、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である。ある特定の実施形態では、コロナウイルスは、SARS-CoV-2である。ある特定の実施形態では、使用は、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む。ある特定の実施形態では、治療剤は、抗体を含む。ある特定の実施形態では、抗体は、SARS-CoV-2に結合する。ある特定の実施形態では、抗体は、SARS-CoV-2スパイクタンパク質に結合する。ある特定の実施形態では、抗体は、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む。ある特定の実施形態では、病原体は、細菌である。ある特定の実施形態では、細菌は、Staphylococcus種またはPseudomonas種である。
少なくとも1つの態様では、本開示は、抗体によって結合された病原体エピトープが保存されるかどうかを決定する方法を含み、データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、コンピューティングデバイスのプロセッサによって、ゲノム配列からコード配列を抽出することと、コード配列を、病原体エピトープをコードする参照配列と比較することと、プロセッサによって、同一性の尺度及びカバレッジの尺度に従ってコード配列を分類することと(同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む)、同一性の尺度及びカバレッジの尺度に従って分類されたコード配列の中からコード配列を選択することと、選択されたコード配列を対応するアミノ酸配列に変換することと、病原体の異なる株の間の病原体エピトープの保存性レベルを決定することと、を含む。
例示的な実施形態による、例示的な配列分析ワークフローを示す概略図である。 本開示の方法またはシステムによる分析のために、公的にアクセス可能なデータベースから配列を抽出するとき、または配列を手動で提供するときに提供される情報の例示的なセットを示す概略図である。 本開示の方法またはシステムによる分析のためにデータをフォルダに整理する例示的なシステムを示す概略図である。 例示的な実施形態による、1つ以上の公的にアクセス可能なデータベース(例えば、NCBI)からフォルダにダウンロードされた配列及び/またはアノテーション情報のコピーの例示的な分布を示す概略図である。図4に示されるように、ダウンロードされた配列及び/またはアノテーション情報は、以下の3つのフォルダにコピーされる:参照配列、アライナーデータベース、及びアノテーションフォルダ。 例示的な実施形態による、例示的な公的にアクセス可能なデータベース(NCBI)から配列をダウンロードし、キュレーションするための例示的なステップを示す概略図である。 本開示の方法またはシステムで使用するためのクエリ配列を入力するための例示的なステップを示す概略図である。 例示的な実施形態による、クエリ配列フォルダ及びアライナーデータベースフォルダにそれぞれ保存されたクエリ配列及び対象配列(参照配列)のペアワイズBLAST比較の例示的なアプローチを示す概略図である。 例示的な実施形態による、クエリ配列及び対象配列(参照配列)のペアワイズ配列比較を行うためのBLASTを適用するための例示的なステップを示す概略図である。 例示的な実施形態による、遺伝子出力テーブル(「Gotテーブル」)を生成するための、BLAST結果、配列情報、及び配列アノテーション情報の例示的なコンパイルを示す概略図である。 例示的な実施形態による、Gotテーブルに含めるためのBLAST結果をコンパイルするための例示的なステップを示す概略図である。 例示的な実施形態による、Gotテーブル内のコンティグに関連する情報をコンパイルするための例示的なステップを示す概略図である。 例示的な実施形態による、ペアワイズ比較後にマッチした配列を同定し、マッチした配列の変異パーセントを計算し、公的にアクセス可能なデータベース(NCBI)で利用可能な特徴ファイルアノテーションをコンパイルするための例示的なステップを示す概略図である。 例示的な実施形態による、Gotテーブルの例示的な内容を示す概略図である。 例示的な実施形態による、ペアワイズ比較のための類似性スコアのマトリックスを含む、各クエリ配列について比較テーブルを生成するための例示的なステップを示す概略図であって、この類似性スコアの値は、カバレッジパーセント及び変異の数に基づいて割り当てられる。 例示的な実施形態による、類似性スコアをヒートマップまたは棒グラフで表すための例示的なステップを示す概略図である。 例示的な実施形態による、抽出された配列を翻訳及びアラインメントすることができる、コード配列を抽出するための例示的なステップを示す概略図である。ステップは、コンティグに対する例示的なアプローチを提供する。ステップは、抽出された配列の固有のバージョンの数及び頻度を含む表を生成するための例示的なアプローチを提供する。 例示的な実施形態による、抽出されたコード配列から系統樹を作成するための例示的なアプローチを示す概略図である。 例示的な実施形態による、Gotテーブルの生成のための例示的なステップ、及びGotテーブルに存在するデータから生成され得る例示的な出力を示す概略図である。 NCBIで表され、本明細書に開示される方法及びシステムによる分析での使用に適した例示的な細菌ゲノムを示すグラフである。 本明細書に開示される例示的なシステムを示す概略図である。 B型肝炎ウイルス(HBV)のヒトへの感染を表す概略図であり、この感染は、肝細胞癌につながる可能性がある。 例示的なHBV環状ゲノムを示す概略図である。 括弧によって特定される遺伝子Sを有する例示的なHVC環状ゲノムを示す概略図である。 HBVの遺伝子型の例示的な分布を示す概略図である。 手動で提供される、及び/またはNCBIなどの公的にアクセス可能なデータベースからダウンロードされる環状、線状、及び断片化配列を含む、本開示の方法及びシステムによる分析に適した例示的な配列構造を示す概略図。 例示的な実施形態による、ゲノム配列からのコード配列の抽出を表す概略図である。ゲノム配列から抽出したコード配列は、様々な長さ及び配向のゲノム配列において見出すことができる。 例示的な実施形態による、クエリコード配列の集合からの単一のコード配列の、複数の入力ゲノム配列の各々との例示的なペアワイズBLAST比較、例えば、抽出されたクエリコード配列の集合からの抽出されたクエリコード配列の、参照ゲノム配列である複数の対象配列の各々との比較を表す概略図である。少なくとも部分的に、参照配列などの対象配列は、ヌクレオチド配列及び内容物で変化し得るため、抽出されたクエリ配列の各参照配列とのアラインメントは、アラインメント、カバレッジ長、及び/または配向の相対的な位置で変化し得る。いくつかの実施形態では、対象配列及び参照配列は、対応する配列を有することが見出されない(すなわち、比較は、1つ以上の特定の対象ゲノム配列において「ヒットなし」をもたらし得る)。ある特定の実施形態では、コード配列は、対象ゲノム配列から抽出され、各対象コード配列は、1つ以上のクエリゲノム配列と(例えば、BLASTによって)比較され、1つ以上の配列分類因子(例えば、カバレッジ長及び同一性パーセント)は、各比較について決定される。様々な実施形態では、カバレッジ長及び同一性パーセントが各々、それぞれの閾値よりも大きい場合、対応するクエリ配列が抽出され、さらに分析または評価され得る。閾値を適用して、各クエリゲノム配列またはその部分が参照配列に類似しているかどうかを判定する。本明細書で提供される方法及びシステムは、完全なゲノムを表すゲノム配列、及び完全なゲノムの1つ以上の部分を表すゲノム配列に適用可能である。 例示的な実施形態による、単一の参照配列の複数の入力クエリゲノム配列の各々とのペアワイズBLAST比較、例えば、複数のクエリコード配列の、参照ゲノム配列である対象ゲノム配列との比較の結果の例示的な要約を示す概略図である。要約の列1は、クエリゲノム配列を比較した参照ゲノム配列(B_Lee_1940)を示す。具体的には、示されている表は、参照ゲノム配列、ヘマグルチニンにおいてアノテーションされた特定の既知の生成物をコードする参照ゲノム配列の特定の遺伝子に関する。この表は、参照ゲノムからのヘマグルチニン参照配列を、9つのクエリゲノムの各々と比較したことを示す。分類因子を使用して、ヘマグルチニンに対応する配列が各クエリゲノムに存在するかどうかを判定した(「遺伝子存在」列に示されるように、はい、いいえ、または部分的に)。対応するクエリ配列の配向(「鎖」)も表に含まれた。各比較について、カバレッジパーセント、変異の数(SNP)、及びアラインメントギャップを表に記載した。 例示的な実施形態による、4つのクエリ配列のうちの1つと比較して、各々が指定された数及び変異の種類を有する対象ゲノムの数を示す、4つの例示的なプロットを示す概略図である。 例示的な実施形態による、参照ゲノム配列(X軸)である20個の例示的な対象配列の各々と8個の例示的なクエリコード配列の各々との間の保存性レベルを表す、類似性スコアの例示的なヒートマップを示す概略図である。 例示的な実施形態による、FluA現代株のための全ゲノム系統樹の例示的な提示である。 例示的な実施形態による、横長レイアウトにおける例示的な系統樹を示す概略図である。 例示的な実施形態による、極レイアウトにおける例示的な系統樹を示す概略図である。 例示的な実施形態による、ゲノム配列から抽出した例示的なコード配列を示す概略図である。 例示的な実施形態による、図34の例示的なコード配列の翻訳を示し、分析されたゲノム内の特定のバリアント配列及びそれらの頻度の要約を含む概略図である。 例示的な実施形態による、8つの異なるペアワイズ比較されたゲノムに由来するアミノ酸配列の例示的なアラインメントを示す概略図である。 本明細書に記載されるシステム及び方法を提供する際に使用するためのコンピュータネットワーク環境の概略図である。 本明細書に記載されるシステム及び方法を実装するために使用することができるコンピューティングデバイス及びモバイルコンピューティングデバイスの概略図である。 例示的な実施形態による、病原体に対する療法の開発における候補抗原としてのアミノ酸配列を同定するための例示的な方法のブロックフロー図である。 例示的な実施形態による、病原体を表すコード配列の1つ以上の保存された部分を同定するための例示的な方法のブロックフロー図である。 例示的な実施形態による、単離された病原体が循環株を表すかどうかを特定するための例示的な方法のブロックフロー図である。 例示的な実施形態による、候補抗生物質耐性マーカーとしてアミノ酸配列を特定するための例示的な方法のブロックフロー図である。 例示的な実施形態による、プラスミドを表すコード配列の1つ以上の保存された部分を同定するための例示的な方法のブロックフロー図である。 例示的な実施形態による、例えば、そのような病原体を表すペプチドの質量分析標的を特定するために、病原体を表すペプチドの質量電荷比を特定するための例示的な方法のブロックフロー図である。 例示的な実施形態による、病原体に対する療法の開発における候補抗原としてのアミノ酸配列を同定するための例示的な方法のブロックフロー図である。 例示的な実施形態による、候補抗生物質耐性マーカーとしてアミノ酸配列を同定するための例示的な方法のブロックフロー図である。 SARS-CoV-2などの例示的なコロナウイルスの概略図である。コロナウイルス構造は、スパイクタンパク質、エンベロープタンパク質、及び膜糖タンパク質を含むがこれらに限定されない埋め込まれた膜貫通タンパク質を含む、外側脂質膜を有する。概略図は、ヌクレオカプシドタンパク質と関連付けられたコロナウイルスRNAウイルスゲノムの表現を含む。 クエリ配列のセットにおける対象配列のアミノ酸保存を決定する方法の概略図である。コード配列は、クエリ配列及び対象配列から抽出される。抽出されたクエリコード配列及び抽出された対象コード配列のペアワイズBLAST比較を行う。ペアワイズBLASTからのデータを使用して、同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、及び各ペアワイズ比較の変異パーセントなどの分類因子を含むデータの表を生成する。次いで、BLAST比較結果は、1つ以上の分類因子の閾値に基づいて分類される。包含閾値を満たしていない、及び/または除外閾値を満たしていないカテゴリの比較は、分析から削除される。残りのクエリ配列を翻訳し、結果として生じるアミノ酸配列を、対応する翻訳された対象配列とアラインメントする。翻訳されたクエリ配列の中の翻訳された対象配列のアミノ酸保存を、これらのアラインメントから評価する。 参照ゲノムからのスパイクコード配列の抽出を示す概略図である。抽出は、GenBankファイルのアノテーションに基づいていた。 経時的な参照スパイクコード配列とBLASTによって比較したスパイクコード配列の累積数を示すグラフである。サンプリングされた配列の日付及び数によって示されるように、欧州、北米、アジア、オセアニア、南米、及びアフリカで単離された配列を表す多数の配列を獲得し、分析した。 スパイクアミノ酸配列のアラインメントを示す概略図である。変異の数及びカバレッジ長に基づくフィルタリング後の分析のために保持されたコード配列を翻訳し、BLASTによってアラインメントした。次いで、アラインメントした配列を検査及び/または比較して、参照スパイクタンパク質配列の各アラインメント位置に存在するアミノ酸の範囲を特定することができる。 分析したコード配列のアミノ酸翻訳のアラインメントによって特定されるアミノ酸変化を部分的に示す概略図である。
以下の図面で構成されている本明細書に含まれる図面は、限定のためではなく、単に例示の目的のためである。
ゲノム及びプラスミド配列情報
本開示の方法及びシステムは、ゲノム配列及び/またはプラスミド配列の分析を含む。ゲノム配列は、完全及び/または部分的ゲノム配列を含み得る。プラスミド配列は、完全及び/または部分的プラスミド配列を含み得る。ゲノムのサイズ及び構造は、生物によって異なる。例えば、真核生物ゲノムは、典型的には、複数の染色体を含み、原核生物ゲノムは、典型的には、単一の環状核酸を含む。原核生物は、プラスミドとして当該技術分野で既知のより小さな独立した分子をさらに含むことができる。プラスミドは、遺伝子、例えば、抗生物質耐性を付与するタンパク質(抗生物質耐性マーカー)をコードする遺伝子をコードすることができる。遺伝子配列情報の1つの形態に適用可能であるような本明細書に開示される様々な実施形態は、他の形態にも同様に適用可能であり、例えば、ゲノム配列に関して開示される実施形態は、プラスミド配列にも同様に適用可能である。
完全ゲノム配列は、生物のゲノム全体を表す単一の配列を含むことができる。完全ゲノム配列は、共に生物のゲノム全体を表す複数の配列を含むことができる。部分的ゲノム配列は、ゲノム配列の核酸の連続サブセットを表す任意の単一の配列を指すことができる。部分的ゲノム配列は、共にゲノム配列の核酸の連続サブセットを表す複数の配列を含むことができる。
様々な実施形態では、ゲノム配列は、病原体ゲノムの完全または部分的配列、例えば、任意の病原性細菌、酵母、原虫、またはウイルスの完全または部分的ゲノムである。例えば、いくつかの実施形態では、ゲノム配列は、コロナウイルス、例えば、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)のゲノムの完全または部分的配列である。
完全プラスミド配列は、生物のゲノム全体を表す単一の配列を含むことができる。完全プラスミド配列は、共に生物のゲノム全体を表す複数の配列を含むことができる。部分的プラスミド配列は、プラスミド配列の核酸の連続サブセットを表す任意の単一の配列を指すことができる。部分的プラスミド配列は、共にプラスミド配列の核酸の連続サブセットを表す複数の配列を含むことができる。
いくつかの実施形態では、共により大きな核酸配列を表す個々の配列は、コンティグと称され得る。いくつかの実施形態では、コンティグを組み立てて、それらが表すより大きな核酸配列の配列を提供することができる。
様々な実施形態では、完全または部分的ゲノム配列は、少なくとも、例えば、約1kb、5kb、10kb、50kb、100kb、500kb、1Mb、2Mb、3Mb、4Mb、5Mb、10Mb、20Mb、50Mb、100Mb、500Mb、1,000Mb、2,000Mb、3,000Mb、またはそれ以上を含み得る。様々な実施形態では、完全ゲノム配列は、関連する生物のゲノムの正準数のヌクレオチドに等しい数のヌクレオチドを含むことができる。様々な実施形態では、完全ゲノム配列は、関連する生物のゲノムに関して典型的なヌクレオチドの数の範囲内のいくつかのヌクレオチドを含むことができる。
様々な実施形態では、完全または部分的プラスミド配列は、少なくとも、例えば、約1kb、5kb、10kb、50kb、100kb、200kb、またはそれ以上を含み得る。様々な実施形態では、完全プラスミド配列は、関連するプラスミドの配列の正準数のヌクレオチドに等しい数のヌクレオチドを含むことができる。様々な実施形態では、完全ゲノム配列は、関連するプラスミドに典型的なヌクレオチドの数の範囲内のヌクレオチドの数を含むことができる。
本開示のゲノム配列、またはプラスミド配列は、公的にアクセス可能なデータベースで利用可能な1つ以上の配列を含み得る。様々な公的にアクセス可能なデータベースは、アクセス可能なゲノム及びプラスミド配列情報を含む(例えば、図19を参照)。ゲノム及び/またはプラスミド配列情報の公的にアクセス可能なデータベースの一例は、国立バイオテクノロジー情報センター(National Center for Biotechnology Information、NCBI)のGenBankである。ゲノム及び/またはプラスミド配列情報の別の公的にアクセス可能なデータベースは、欧州分子生物学研究所(European Molecular Biology Laboratory、EMBL)、日本DNAデータバンク(DNA Databank of Japan、DDBJ)、及びNCBIの国際塩基配列データベース(International Nucleotide Sequence Database Collaboration、INSDC)(ワールドワイドウェブ(ncbi.nlm.nih.gov/sra/)で入手可能)である。別の例は、1000 Genomes Projectである。
公的にアクセス可能なゲノム配列情報リソースの拡大の1つの例を提供するために、2010年8月から2017年8月まで、公開データベースは、約19個のStaphylococcus aureusゲノム配列から、約4,155の独立した研究に由来する約48,259個のStaphylococcus aureusゲノム配列に拡大した。ほとんどの配列データは、INSDCの一部である米国国立バイオテクノロジー情報センター(NCBI)のSequence Read Archiveに預託されている。S.aureusゲノム配列のうち、約84%(約42,285)は、短いDNAリードまたは小さな断片を表す。残りの画分(約7,974、約16%)は、より大きなDNAセグメントに組み立てられ、約2%(約166/7,974)のみがギャップレスであり、完全にアノテーションされている。したがって、完全に組み立てられ、アノテーションされた完全ゲノム配列は、NCBIで利用可能なS.aureusゲノムのわずかな画分を表す。
本開示のゲノム配列またはプラスミド配列は、生物学的試料に由来し、公的にアクセス可能なデータベースには見出されない配列を含むことができる。生体試料は、例えば、実験試料または臨床試料を含み得る。ゲノム配列またはプラスミド配列は、例えば、当該技術分野で既知のDNA配列決定の様々な方法(例えば、ハイスループット配列決定及び/またはマルチプレックス配列決定)のいずれかによって決定することができる。
データ構造は、配列自体を含む、本開示のゲノム配列及び/またはプラスミド配列に関連する情報を含む(例えば、保存する)ことができる。したがって、本開示のデータ構造は、ゲノム配列情報の公的にアクセス可能なデータベース、配列情報を含む私有構造、ハイスループット配列決定システムから直接入力されるデータを含む構造、及びそれらの組み合わせを含むことができるが、これらに限定されない。
二本鎖DNAを表すゲノム配列は、いずれかの鎖(「Watson」及び「Crick」鎖、または「5’」及び「3’」鎖と称されることもある)の形態で提供され得る。いずれかの鎖の配列が他方の配列を開示するように、2つの鎖は、一般に相補的であると理解される。
複数の完全または部分的ゲノム配列及び/またはプラスミド配列を獲得し、データ構造に含め、当該技術分野において既知の種々の技法に従ってデータ構造から取得することができる。データ構造から取得されるか、または取得可能なゲノム配列及び/またはプラスミド配列は、既存の記録からの(例えば、公開データベース内の)配列及び/または試料の配列決定によって獲得される配列であり得る。様々な実施形態では、データ構造は、特定のソース(例えば、特定の種、例えば、ヒトもしくは特定の病原体種)を表すか、またはそれと関連付けられた異なる配列を含み得る。様々な実施形態では、特定のソースを表すか、またはそれと関連付けられた各々異なる配列は、株と称され得る。様々な実施形態では、例えば、本明細書に開示される様々な方法及びシステムに従って、取得された配列を比較及び/または対照することができるように、特定のソースを表すか、またはそれと関連付けられた複数の配列をデータ構造から取得することが有利である。
コード配列及びコードされたアミノ酸配列の抽出
本開示のゲノム配列及びプラスミド配列は、コード配列を含むことができる。様々なゲノム及びプラスミドとしては、ゲノムまたはプラスミドから発現可能なタンパク質のアミノ酸をコードするヌクレオチド配列(このヌクレオチド配列は、コード配列と称され得る)及び配列から発現可能なタンパク質のアミノ酸をコードしないヌクレオチド配列(このヌクレオチド配列は、非コード配列と称され得る)が挙げられる。コード配列は、コドンと称される三重項で読み取ることができ、これらの各コドンがアミノ酸をコードする。したがって、本開示のコード配列は、コドンからなり、タンパク質またはその部分をコードする配列である。非コード配列(例えば、プロモーターもしくはイントロン)は、場合によっては、コード配列に隣接しており、及び/またはそれと共に散在している。コード配列は、限定されないが、アミノ酸をコードする連続的及び/またはインフレームコドンの数による、及び/またはコード配列によってコードされる既知のコード配列もしくは既知のタンパク質などの既知の配列との比較によるものを含む、当該技術分野において既知の様々な技法によって非コード配列と区別することができる。コード配列を抽出(同定及び/または単離)する様々な方法は、当該技術分野で知られている。コード配列を抽出する様々な方法は、他の特徴の中で、終止コドンを含まない連続した一連のコドン、例えば、終止コドンを含まない少なくとも約20、30、40、50、60、70、80、90、100、125、150、175、200、250、または300以上の連続した一連のコドンを含むことができる、オープンリーディングフレームについて提供される配列を分析することを含む。いくつかの実施形態では、公的にアクセス可能なデータベース内の配列は、コード配列の位置を区切るアノテーション情報と関連付けられる。したがって、データベースアノテーション及び当該技術分野において既知の様々な方法のうちのいずれかまたは両方を使用して、ゲノム配列及びプラスミド配列からコード配列を抽出することができる。
コード配列が抽出されると、遺伝コードを適用することによって、コード配列によってコードされるアミノ酸の配列を決定することができる。停止コドンではない各コドンは、特定のアミノ酸に対応する。遺伝コードは、生物によって異なり得る。したがって、コード配列をアミノ酸配列に変換するときに、ゲノム配列またはプラスミドコード配列のソース及び/またはコンテキストに適切な遺伝コードを適用することができる。核酸配列は、遺伝コードを適用することによってアミノ酸配列に変換されており、核酸配列の翻訳と称され得る。
表1に見られるように、ヒト遺伝コードは、他の遺伝コードと同様に、DNAコドン表として表すことができる。ほとんどのコドンは、特定のアミノ酸をコードするが、いくつかのコドンは、いかなるアミノ酸もコードしない「停止」シグナルをコードする。表1は、核酸配列及びアミノ酸配列の表現に適用されるある特定の一般慣習を含む。核酸配列に関して、文字A、C、G、及びTはそれぞれ、アデニン(A)、シトシン(C)、グアニン(G)、及びチミン(T)を示す。アミノ酸配列に関して、20個のアミノ酸の各々は、以下のように、特定の文字または3つの文字のセットによって表すことができる:アラニン(A、Ala)、アルギニン(R、Arg)、アスパラギン酸(N、Asn)、アスパラギン酸(D、Asp)、システイン(C、Cys)、グルタミン酸(E、Glu)、グルタミン(Q、Gln)、グリシン(G、Gly)、ヒスチジン(H、His)、イソロイシン(I、Ile)、ロイシン(L、Leu)、リジン(K、Lys)、メチオニン(M、Met)、フェニルアラニン(F、Phe)、プロリン(P、Pro)、セリン(S、Ser)、スレオニン(T、Thr)、トリプトファン(W、Trp)、チロシン(Y、Tyr)、バリン(V、Val)。
Figure 2023502596000002
配列のペアワイズ比較から生成されるデータ
ある特定の実施形態では、本開示の方法及びシステムは、配列間のアラインメントを特徴付けるための測定値を決定することを含む。例示的な測定値には、同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、変異パーセント、ならびに系統発生(例えば、系統発生的グループ化及び/または系統発生的関係)が含まれ、これらのすべては本明細書でより詳細に考察される。カバレッジの尺度(例えば、カバレッジパーセント及び/またはカバレッジ長)ならびに同一性の尺度(例えば、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセント)の両方を使用してアラインメントを特徴付けることは、効率的かつ効果的に、例えば、保存の評価において適切にマッチする配列を同定する際に使用され得る多数のペアワイズ比較を達成することが見出されている。ペアワイズ比較を使用して、ポリマー配列間、例えば、核酸配列(例えば、DNA分子及び/またはRNA分子)間及び/またはアミノ酸配列間の全体的な関連性を評価することができる。本明細書で提供される様々な方法及びシステムでは、ペアワイズ比較を使用して、抽出されたコード配列及び/またはその翻訳間の全体的な関連性を評価する。いくつかの実施形態では、2つの配列のペアワイズ比較は、クエリ配列と対象配列(例えば、参照配列)との間のものであり、この比較は、アラインメントならびに同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、変異パーセント、及び/または系統発生(例えば、系統発生的グループ化及び/または系統発生的関係)のうちの1つ以上またはすべての決定を含む。様々な実施形態では、参照配列などの対象配列は、クエリ配列が比較されるベースラインであり得る。一般に、クエリ配列及び対象配列は、それぞれ、1つ以上の配列の集合を指し、クエリ配列は、対象配列とペアワイズ比較される。いくつかの実施形態では、クエリ配列及び対象配列が同じ配列を有する限り(例えば、クエリ配列及び対象配列が配列の同一の集合である実施形態では)、クエリ配列は、クエリ配列と比較されず、対象配列は、対象配列と比較されない。対象配列は、参照配列であり得るか、または参照配列を含み得る。参照配列は、例えば、1つ以上の特定の遺伝子もしくはその部分を含む、及び/または1つ以上のタンパク質もしくはその部分をコードする、集団、種、株、生物などの対応する完全または部分的ゲノム配列を表す完全または部分的ゲノム配列であり得る。参照配列は、限定されないが、配列可用性、公的アクセス可能性、歴史的コンテキスト、規則、規範、標準慣行、統計分析、実用的考慮事項、またはユーザ選好のうちのいずれか1つ以上に基づいて、代表的な配列として選択及び/または使用することができる。本明細書に開示されるように、配列のペアワイズ比較から生成されるデータは、同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、変異パーセント、及び/または系統発生(例えば、系統発生的グループ化及び/または系統発生的関係)のうちの1つ以上またはすべてを含み得、これらの各々は、分析された配列に関連する別個の情報を提供する。
クエリ配列の参照配列とのペアワイズ比較を行う際に、本明細書では、同一性の尺度及び所与のペアワイズ比較のカバレッジの尺度の両方を決定し、次いで、クエリ配列(例えば、コード配列)を2つ以上の群に分類する際に、例えば、1つ以上のアミノ酸配列またはその部分の保存の評価における適切に比較可能な配列部分を同定するために、両方の尺度を使用することが、顕著に効率的かつ効果的であることが見出される。同一性の尺度の例としては、同一性パーセント、同一性パーセント/所定のカバレッジ長、変異の数、及び変異パーセント(例えば、単一ヌクレオチド多型SNP/サイズ)が挙げられる。カバレッジの尺度の例には、カバレッジパーセント及びカバレッジ長が含まれる。
2つの提供される配列をアラインメントするための方法としては、ヌクレオチド配列についてのBLASTN、及びアミノ酸配列についてのBLASTP、ギャップ付きBLAST、及びPSI-BLASTなどのアルゴリズム及び/または市販のコンピュータプログラムが挙げられる。カバレッジの尺度及び同一性の尺度の計算は、これらのアラインメントアルゴリズムのうちの1つ以上を使用して、2つの配列(または1つもしくは両方の配列の相補体)のアラインメントに続いてもよい。ある特定の実施形態では、ギャップは、最適なアラインメントのために第1及び第2の配列の一方または両方に導入され、非同一配列は、比較目的のために無視することができる。アラインメントは、2つ以上の配列のヌクレオチドまたはアミノ酸残基をマッチさせて、最大レベルの同一性パーセントを達成し、いくつかの実施形態では、(例えば、アミノ酸配列のアラインメントにおいて)物理化学的特性の保存を最大化するプロセスまたは結果を指す。
アラインメント後、第1及び第2の配列の対応する位置におけるヌクレオチドまたはアミノ酸を比較することができる。第1の配列における位置が第2の配列における対応する位置と同じ残基(例えば、ヌクレオチドまたはアミノ酸)によって占有されている場合、それらの分子は、その位置で同一である。2つの配列間の同一性パーセントは、任意選択で、ギャップの数、及び2つの配列の最適アラインメントのために導入される必要があり得る各ギャップの長さを考慮して、配列によって共有された同一位置の数の関数である。したがって、同一性パーセントの決定は、アラインメントされた位置の同一性または非同一性を決定する必要がある。2つの配列間の同一性パーセントの決定は、BLAST(ベーシックなローカルアラインメント検索ツール)などの計算アルゴリズムを使用して達成され得る。
同一性パーセントは、アラインメントされた配列の両方において同じ残基を有するアラインメントされた配列内の位置の部分を発現することができる。いくつかの実施形態では、2つの配列は、それらの対応する残基の少なくとも約50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、またはそれ以上が、関連する配列にわたって同一である場合、実質的に同一であるとみなされる。配列は、保存的置換、例えば、コードされたアミノ酸配列を変更しないヌクレオチド置換によって、または置換アミノ酸が類似の構造もしくは機能的特性を有するアミノ酸置換(例えば、疎水性、親水性、極性、もしくは非極性タイプのアミノ酸の、同じタイプの異なるアミノ酸との置き換え)によって異なる場合、実質的に類似し得る。
ペアワイズ比較で分析された各配列は、第2の配列とのアラインメントによってカバーされる第1の配列のパーセント(すなわち、第2の配列とアラインメントされる第1の配列のパーセントであって、カバレッジまたはカバレッジパーセントと称され得る)(例えば、クエリ配列とアラインメントされた対象配列長の%または対象配列とアラインメントされたクエリ配列長の%)に従って評価することもできる。
2つの配列のアラインメントは、カバレッジ長及び/またはカバレッジパーセントを生成することができる。第1の配列及び第2の配列のアラインメントにおいて、カバレッジ長は、アラインメントされる単位(例えば、ヌクレオチドまたはアミノ酸)の数を指す。疑義を避けるために、カバレッジ長を計算する際、対応する一対の位置(すなわち、第1の配列のヌクレオチドまたはアミノ酸、及び第2の配列の対応する位置のヌクレオチドまたはアミノ酸)は、カバレッジ長の1つの単位としてカウントされる。第1の配列及び第2の配列のアラインメントにおいて、カバレッジパーセントは、配列のアラインメントに含まれるクエリのパーセントを指す。カバレッジパーセントは、アラインメントされたヌクレオチドまたはアミノ酸が同一であるか非同一であるかに関わらず、クエリ配列の対応するヌクレオチドまたはアミノ酸とアラインメントされる対象配列中のヌクレオチドまたはアミノ酸のパーセントを指すことができる。カバレッジパーセントはまた、アラインメントされたヌクレオチドまたはアミノ酸が同一であるか非同一であるかに関わらず、対象配列の対応するヌクレオチドまたはアミノ酸とアラインメントされるクエリ配列中のヌクレオチドまたはアミノ酸のパーセントを指すこともできる。本明細書で提供される様々な方法及びシステムにおいて、カバレッジパーセントは、特に、アラインメントされたヌクレオチドまたはアミノ酸が同一であるか非同一であるかにかかわらず、クエリ配列の対応するヌクレオチドまたはアミノ酸とアラインメントされる対象配列中のヌクレオチドまたはアミノ酸のパーセントを指す。カバレッジパーセントは、連続したアラインメント及びギャップ付きアラインメントの両方について決定され得る。
様々な実施形態では、少なくとも同一性パーセントが、アラインメントされたヌクレオチドまたはアミノ酸の比較によって決定されて、アラインメントされたヌクレオチドまたはアミノ酸の各対の同一性または非同一性を決定するため、配列ギャップは、同一性パーセントを低減しない。例示の目的のための一例を提供するために、80個のアミノ酸のクエリ配列が100個のアミノ酸の対象配列にアラインメントされ、対象配列の最初の40個のアミノ酸がクエリ配列の最初の40個のアミノ酸と完全同一性でアラインメントし、対象配列の最後の40個のアミノ酸がクエリ配列の最後の40個のアミノ酸と完全同一性でアラインメントする場合、同一性パーセントは100%に等しいが、カバレッジパーセントは80%である。したがって、いくつかの実施形態では、100%の同一性にもかかわらず、クエリ配列は、部分的または「完全性の欠如」として分類され、70%~95%のカバレッジの閾値範囲に収まる。
様々な実施形態では、2つの配列のアラインメントを使用して、所定のカバレッジ長にわたる同一性パーセントを決定することができる。所定のカバレッジ長は、ヌクレオチド及び/またはアミノ酸の数であり得、所定のカバレッジ長にわたる同一性パーセントは、所定のカバレッジ長に等しい長さ及び/または所定のカバレッジ長を超える長さを有する、そのアラインメントの任意の部分にわたるクエリ配列と対象配列との間の同一性パーセントを指すことができる。疑問を避けるために、アラインメントの部分は、アラインメントのヌクレオチドまたはアミノ酸の任意の十分に長いサブセットであり得、それにより単一のアラインメントは、分析のための十分に長い複数の部分を含むことができ、これらの部分は、重複、非重複、隣接、または非隣接であり得る。様々な実施形態では、2つの配列のアラインメントについての所定のカバレッジ長にわたる同一性パーセントは、アラインメントの任意の十分に長い部分と関連付けられる最高の同一性パーセントとして提示され得る。
同一性パーセントを計算する様々な技法は、期待(E)値を生成する。例えば、BLASTを使用した同一性パーセントの決定は、E値を生成する。E値は、(例えば、生物学的に有意義な類似性の結果ではなく)偶然にアラインメントが発生した可能性を表す。E値は、いくつかのソースによって、本質的にバックグラウンドノイズの記述として記述されている。E値がゼロに近いほど、アラインメントがより有意になる。E値は、少なくとも部分的に、アラインメントの決定された同一性パーセント及びアラインメントの長さに関連する。概して、より短く同一性パーセントの低いアラインメントは、より長く同一性パーセントの高いアラインメントよりも高いE値を有する。E値を使用して、複数のアラインメントをランク付けすることができるか、または単独で、もしくは他の基準と組み合わせて、アラインメントを分類するための有意性閾値として選択することができる。
いくつかの実施形態では、ペアワイズ比較で分析された各クエリ配列について、アラインメント内の配列変化の数は、対象配列と比較して決定され得る。変化は、第1の配列及び第2の配列のアラインメントされた位置間の差であってもよく、配列は核酸配列であるか、または配列はアミノ酸配列である(例えば、クエリ配列と参照配列などの対象配列との間の差)。核酸配列における変化またはアミノ酸配列における変化は、本明細書では変異と称され得る。核酸配列における変化は、一塩基多型(「SNP」)であり得る。
いくつかの実施形態では、ペアワイズ比較で分析された各クエリ配列について、クエリ配列と対象配列との間の配列変化の数(すなわち、マッチしていないクエリと対象との間のアラインメント内の配列位置の数)は、「変異の数」と称され得る。いくつかの実施形態では、ペアワイズ比較で分析される各クエリ配列について、配列カバレッジ長のヌクレオチドまたはアミノ酸当たりの配列変化の数を決定することができる。この比は、アラインメントの長さにわたるアラインメント内の配列変化の数であり得る(「変異パーセント」、あるいは本明細書では「変異/サイズ」と称され、その例は「SNP/サイズ」である)。
いくつかの実施形態では、ペアワイズ比較の結果を使用して、1つ以上のゲノム、プラスミド、遺伝子、コード配列、または翻訳されたコード配列の系統樹を生成することができる。いくつかの実施形態では、系統樹は、ペアワイズ比較によって生成される同一性パーセントデータに基づいていてもよい。いくつかの実施形態では、系統樹は、ペアワイズ比較によって生成される変異パーセントデータに基づいていてもよい。提供されるデータから系統樹を生成するためのツール及び技法は、当該技術分野において既知である。
ゲノムレベルまたはプラスミドレベルの系統樹は、最も保存された対象配列についての同一性パーセントまたは変異パーセントペアワイズ比較の結果を使用して生成され得る。例えば、ゲノムレベルまたはプラスミドレベルの系統樹は、保存されたペアワイズ比較配列(例えば、上位遺伝子、コード配列、もしくは翻訳されたコード配列アミノ酸配列)の上位1、上位2、上位3、上位4、上位5、上位10、上位20、上位25、上位50、上位100、上位1%、上位2%、上位5%、上位10%、上位15%、上位20%、上位25%、または上位50%程度に基づき得る。保存は、例えば、同一性パーセントまたは変異パーセントデータを使用したペアワイズ比較の結果に基づいてランク付けされ得る。
同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、及び/または変異パーセントのうちの1つ以上、またはすべてのいずれかは、核酸もしくはアミノ酸アラインメントの全長、またはその1つ以上の部分を表すことができる。完全または部分的ゲノム配列の例示的な部分は、例えば、遺伝子、コード配列、個々のヌクレオチド、または連続ヌクレオチドのセット(例えば、約1、2、3、4、5、6、7、8、9、10、20、30、40、50、100、150、200、250、500、1,000、1,500、2,000、2,500、3,000、5,000、10,000、もしくはそれ以上のヌクレオチド)を含み得る。アミノ酸配列の例示的な部分は、例えば、タンパク質、ドメイン、個々のアミノ酸、または連続アミノ酸のセット(例えば、約1、2、3、4、5、6、7、8、9、10、20、30、40、50、100、150、200、250、300、350、400、450、もしくは500、またはそれ以上のアミノ酸)を含み得る。いくつかの実施形態では、核酸配列の部分は、約1、2、3、4、5、6、7、8、9、10、20、30、40、50、100、150、200、250、500、1,000、1,500、2,000、2,500、または3,000ヌクレオチドの下限、及び約50、100、150、200、250、500、1,000、1,500、2,000、2,500、3,000、5,000、10,000、またはそれ以上のヌクレオチドの上限を有するいくつかのヌクレオチドを含み得る。いくつかの実施形態では、アミノ酸配列の部分は、約1、2、3、4、5、6、7、8、9、10、20、30、40、50、100、150、200、250、または300アミノ酸の下限、及び約10、20、30、40、50、100、150、200、250、300、350、400、450、もしくは500、またはそれ以上のアミノ酸の上限を有するいくつかのアミノ酸を含み得る。様々な実施形態では、核酸またはアミノ酸配列の各々の重複または隣接する非重複部分を個々に分析することができる。したがって、第1及び第2のアラインメントされたヌクレオチド配列は、第1及び第2のアラインメントされた配列のすべてのアラインメントされたヌクレオチド間の同一性パーセントを表す全同一性パーセントを有することができ、第1及び第2のアラインメントされた配列のアラインメントされたヌクレオチドのサブセット間の同一性パーセントを表す1つ以上の同一性パーセントを有することができる。第1及び第2のアラインメントされたアミノ酸配列は、第1及び第2のアラインメントされた配列のすべてのアラインメントされたアミノ酸間の同一性パーセントを表す全同一性パーセントを有することができ、第1及び第2のアラインメントされた配列のアラインメントされたアミノ酸のサブセット間の同一性パーセントを表す1つ以上の同一性パーセントを有することができる。アラインメントされたヌクレオチドまたはアミノ酸のサブセットの同一性パーセントは、すべてのアラインメントされたヌクレオチドまたはアミノ酸の全同一性パーセントとは異なるパーセントであってもよい。
様々な実施形態では、同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、及び/または変異パーセントのうちの1つ以上またはすべてのいずれかを、グラフまたはヒートマップとして表示することができる。様々な実施形態では、グラフまたはヒートマップの少なくとも1つの軸は、配列のペアワイズ比較に含まれる配列を含み、少なくとも1つの追加の軸は、配列のペアワイズ比較によって生成されるデータを含む。
いくつかの実施形態では、ゲノム配列の単一の集合またはプラスミド配列の単一の集合が分析され、ここで、分析された集合のすべてのメンバーをペアワイズ様式で比較して(すなわち、単一の集合がクエリ配列集合及び参照配列集合の両方として使用される)、各ペアワイズ比較の同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、及び/または変異パーセントを決定する。いくつかの実施形態では、ゲノム配列の集合またはプラスミド配列の集合が分析され、ここで、分析された集合の各メンバーを対象配列と比較して、各比較の同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、及び/または変異パーセントを決定する。
いくつかの実施形態では、集合の各ゲノムまたはプラスミド配列は、同じ種であり得る。いくつかの実施形態では、集合の各ゲノムもしくはプラスミド配列は、同じ属、科、目、クラス、門、界、もしくはドメインの生物を表す配列であり得るか、またはそれを含み得る。いくつかの実施形態では、集合の各ゲノムまたはプラスミド配列は、同じ遺伝子またはその部分を表す配列であり得るか、またはそれを含み得る。いくつかの実施形態では、単一の集合の各ゲノムもしくはプラスミド配列は、同じコード配列もしくはその部分を表す配列であり得るか、またはそれを含み得る。
ある特定の実施形態では、分析は、2つの集合を含み、これらの各々は、ゲノム配列の集合であるか、またはこれらの各々は、プラスミド配列の集合である。そのような例では、第1の集合は対象と称され得、第2の集合は、クエリと称され得る。対象集合及びクエリ集合を含むある特定の実施形態では、クエリ集合の各配列を、対象集合の各配列とペアワイズ様式で比較して、各比較の同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、及び/または変異パーセントを決定する。
いくつかの実施形態では、分析は、配列の単一の集合を含み、各配列は、少なくともある特定の実施形態では、配列の単一の集合が対象及びクエリの両方であるように、ペアワイズ様式で互いに比較される。分析された配列が、対象及びクエリなどの配列の単一の集合または複数の集合を含むかどうかにかかわらず、分析で使用されるすべての配列は、累積的に共に、またはその任意のサブセットに関して、入力配列と称され得る。
いくつかの実施形態では、対象及び/またはクエリの各ゲノムまたはプラスミド配列は、同じ種であってもよい。いくつかの実施形態では、対象及び/またはクエリの各ゲノムもしくはプラスミド配列は、同じ属、科、目、クラス、門、界、もしくはドメインの生物を表す配列であり得るか、またはそれを含み得る。いくつかの実施形態では、対象及び/またはクエリの各ゲノムまたはプラスミド配列は、同じ遺伝子またはその部分を表す配列であり得るか、またはそれを含み得る。いくつかの実施形態では、対象及び/またはクエリの各ゲノムもしくはプラスミド配列は、同じコード配列もしくはその部分を表す配列であり得るか、またはそれを含むことができる。
いくつかの実施形態では、1つ以上の、またはすべての対象配列は、それが同じ種を表すという点で1つ以上のクエリ配列と同等であり得る。いくつかの実施形態では、1つ以上の、またはすべての対象配列は、同じ属、科、目、クラス、門、界、またはドメインの生物由来であるという点で1つ以上のクエリ配列と同等であり得る。いくつかの実施形態では、1つ以上の、またはすべての対象配列は、それが同じ遺伝子またはその部分を表すという点で1つ以上のクエリ配列と同等であり得る。いくつかの実施形態では、1つ以上の、またはすべての対象配列は、それが同じコード配列またはその部分を表すという点で1つ以上のクエリ配列と同等であり得る。
いくつかの実施形態では、1つ以上の、またはすべての対象配列は、公的にアクセス可能なデータベースにおいて、及び/またはそこから利用可能である。いくつかの実施形態では、1つ以上の、またはすべての対象配列は、生物学的試料に由来し、公的にアクセス可能なデータベースでは見出されない。いくつかの実施形態では、1つ以上の、またはすべてのクエリ配列は、公的にアクセス可能なデータベースにおいて、及び/またはそこから利用可能である。いくつかの実施形態では、1つ以上の、またはすべてのクエリ配列は、生物学的試料に由来し、公的にアクセス可能なデータベースには見出されない。いくつかの実施形態では、1つ以上の、またはすべての対象配列は、公的にアクセス可能なデータベースにおいて、及び/またはそこから利用可能であり、1つ以上の、またはすべてのクエリ配列は、生物学的試料に由来し、公的にアクセス可能なデータベースには見出されない。
いくつかの実施形態では、最初に入力されるゲノムまたはプラスミド配列を比較する。ある特定の実施形態では、最初に入力されたゲノム配列またはプラスミド配列の抽出されたコード配列を比較する。ある特定の実施形態では、最初に入力されたゲノム配列またはプラスミド配列の抽出されたコード配列の翻訳を比較する。したがって、ある特定の実施形態では、最初に入力されたクエリゲノムまたはプラスミド配列は、最初に入力された対象のゲノムまたはプラスミド配列とペアワイズ様式で比較される。ある特定の実施形態では、最初に入力されたクエリゲノムまたはプラスミド配列の抽出されたコード配列を、最初に入力された対象のゲノムまたはプラスミド配列の抽出されたコード配列とペアワイズ様式で比較する。ある特定の実施形態では、最初に入力されたクエリゲノムまたはプラスミド配列の抽出されたコード配列の翻訳を、最初に入力された対象のゲノムまたはプラスミド配列の抽出されたコード配列の翻訳とペアワイズ様式で比較する。
ペアワイズ比較によって生成されたデータの処理:配列の効率的な分類のための複数の配列分類因子の組み合わせ
本開示は、配列を効率的に分類するためのペアワイズ配列比較から生成されるデータの使用を含む。様々な実施形態では、ペアワイズ配列比較から生じるデータは、同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、変異パーセント、及び/または系統樹を含み、これらのうちのいずれかまたはすべては、配列分類因子として、個々にまたは組み合わせて、例えば、本明細書に記載される組み合わせで使用することができる。したがって、様々な実施形態では、配列は、分類された配列群に分類され得、この分類された配列群は、1つ以上の分類因子の1つ以上の閾値に基づいていてもよい。様々な実施形態では、分類因子を使用して、任意のさらなる分析の目的のために配列をフィルタリングする(または別様には、さらなる検討から配列を除外する)ことができ、例えば、フィルタリングは、1つ以上の分類因子の閾値に基づいている、及び/または1つ以上の分類された配列群からフィルタリングする。逆に、様々な実施形態では、分類因子を使用して、さらなる分析に含めるための配列を選択することができ、例えば、選択は、1つ以上の分類因子の閾値及び/または1つ以上の分類された配列群の選択に基づいている。様々な実施形態では、ペアワイズ比較から生じるデータは、もしあれば、任意選択で分析された配列及び/または利用可能なアノテーションの配列と共に、例えば、Gotテーブルに共にコンパイルすることができる。
本明細書に開示されるように、ペアワイズ配列比較は、核酸コード配列(例えば、抽出されたコード配列)の比較またはアミノ酸配列(例えば、抽出されたコード配列の翻訳)の比較であり得る。したがって、本開示の方法及びシステムに従って分類されたクエリ配列は、核酸コード配列(例えば、抽出されたコード配列)またはアミノ酸配列(例えば、抽出されたコード配列の翻訳)を含むことができる。
様々な実施形態では、配列は、同一性パーセントが閾値に等しいか、及び/または閾値を下回るかに基づいて、任意のさらなる分析の目的で分類またはフィルタリングされ得る。様々な実施形態では、配列は、同一性パーセントが閾値に等しいか、及び/または閾値を上回るかに基づいて、さらなる分析に含めるように分類または選択することができる。様々な実施形態では、例示的な閾値同一性パーセントは、例えば、75%、80%、85%、90%、95%、96%、97%、98%、99%、もしくは100%に等しいか、または少なくとも約75%、80%、85%、90%、95%、96%、97%、98%、99%、もしくは100%であり得る。様々な実施形態では、閾値同一性パーセントは、例えば、75%、80%、85%、90%、または95%の下限、及び例えば、80%、85%、90%、95%、96%、97%、98%、99%、または100%の上限を有する範囲内であり得る。
様々な実施形態では、配列は、カバレッジパーセントが閾値に等しいか、及び/または閾値を下回るかに基づいて、任意のさらなる分析の目的で分類またはフィルタリングされ得る。様々な実施形態では、配列は、カバレッジパーセントが閾値に等しいか、及び/または閾値を上回るかに基づいて、さらなる分析に含めるように分類または選択することができる。様々な実施形態では、例示的な閾値カバレッジパーセントは、例えば、75%、80%、85%、90%、95%、96%、97%、98%、99%、もしくは100%に等しいか、または少なくとも約75%、80%、85%、90%、95%、96%、97%、98%、99%、もしくは100%であり得る。様々な実施形態では、閾値カバレッジパーセントは、例えば、75%、80%、85%、90%、または95%の下限、及び例えば、80%、85%、90%、95%、96%、97%、98%、99%、または100%の上限を有する範囲内であり得る。
様々な実施形態では、配列は、カバレッジ長が閾値に等しいか、及び/または閾値を下回るかに基づいて、任意のさらなる分析の目的で分類またはフィルタリングされ得る。様々な実施形態では、配列は、カバレッジ長が閾値に等しいか、及び/または閾値を上回るかに基づいて、さらなる分析に含めるように分類または選択することができる。様々な実施形態では、例示的な閾値カバレッジ長は、例えば、20、25、30、35、40、45、50、75、100、125、150、175、もしくは200ヌクレオチドまたはアミノ酸に等しいか、または少なくとも約20、25、30、35、40、45、50、75、100、125、150、175、もしくは200ヌクレオチドまたはアミノ酸であり得る。様々な実施形態では、閾値カバレッジ長は、例えば、20、25、30、35、40、45、50、75、100、125、150、または175ヌクレオチドまたはアミノ酸の下限、及び例えば、25、30、35、40、45、50、75、100、125、150、175、または200ヌクレオチドまたはアミノ酸の上限を有する範囲内であり得る。
様々な実施形態では、配列は、所定のカバレッジ長にわたる同一性パーセントが閾値に等しいか、及び/または閾値を下回るかに基づいて、任意のさらなる分析の目的のために分類またはフィルタリングされ得る。様々な実施形態では、配列は、所定のカバレッジ長にわたる同一性パーセントが閾値に等しいか、及び/または閾値を上回るかに基づいて、さらなる分析に含めるように分類または選択され得る。様々な実施形態では、所定のカバレッジ長にわたる例示的な閾値同一性パーセントは、例えば、20、25、30、35、40、45、50、75、100、125、150、175、または200ヌクレオチドもしくはアミノ酸に等しいか、または少なくとも約20、25、30、35、40、45、50、75、100、125、150、175、または200ヌクレオチドもしくはアミノ酸である所定のカバレッジ長にわたって75%、80%、85%、90%、95%、96%、97%、98%、99%、もしくは100%に等しいか、または少なくとも約75%、80%、85%、90%、95%、96%、97%、98%、99%、もしくは100%の同一性パーセントであり得る。様々な実施形態では、所定のカバレッジ長にわたる閾値同一性パーセントは、例えば、75%、80%、85%、90%、もしくは95%の下限、及び例えば、80%、85%、90%、95%、96%、97%、98%、99%、もしくは100%の上限を有する範囲内の同一性パーセントを含み得、かつ、例えば、20、25、30、35、40、45、50、75、100、125、150、もしくは175ヌクレオチドもしくはアミノ酸の下限、及び例えば、25、30、35、40、45、50、75、100、125、150、175、もしくは200ヌクレオチドもしくはアミノ酸の上限を有する範囲内のカバレッジ長を含み得る。
様々な実施形態では、配列は、E値が閾値に等しいか、及び/または閾値を上回るかに基づいて、任意のさらなる分析の目的で分類またはフィルタリングされ得る。様々な実施形態では、配列は、E値が閾値に等しいか、及び/または閾値を下回るかに基づいて、さらなる分析に含めるように分類または選択され得る。様々な実施形態では、例示的な閾値E値は、例えば、1e-50、1e-40、1e-30、1e-20、1e-10、1e-9、1e-8、1e-7、1e-6、1e-5、1e-4、1e-3、または1e-2に等しいか、または少なくとも約1e-50、1e-40、1e-30、1e-20、1e-10、1e-9、1e-8、1e-7、1e-6、1e-5、1e-4、1e-3、または1e-2であり得る。様々な実施形態では、閾値E値は、例えば、1e-50、1e-40、1e-30、1e-20、1e-10、1e-9、1e-8、1e-7、1e-6、1e-5、1e-4、または1e-3の下限、及び例えば、1e-40、1e-30、1e-20、1e-10、1e-9、1e-8、1e-7、1e-6、1e-5、1e-4、1e-3、または1e-2の上限を有する範囲内にあり得る。
様々な実施形態では、配列は、変異の数が閾値に等しいか、及び/または閾値を上回るかに基づいて、任意のさらなる分析の目的で分類またはフィルタリングされ得る。様々な実施形態では、配列は、変異の数が閾値に等しいか、及び/または閾値を下回るかに基づいて、さらなる分析に含めるように分類または選択され得る。様々な実施形態では、例示的な変異の数の閾値は、例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、もしくは50に等しいか、または少なくとも約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、もしくは50であり得る。様々な実施形態では、変異の数の閾値は、例えば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、または45の下限、及び例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、または50の上限を有する範囲内であり得る。
様々な実施形態では、配列は、変異パーセントが閾値に等しいか、及び/または閾値を上回るかに基づいて、任意のさらなる分析の目的で分類またはフィルタリングされ得る。様々な実施形態では、配列は、変異パーセントが閾値に等しいか、及び/または閾値を下回るかに基づいて、さらなる分析に含めるように分類または選択され得る。様々な実施形態では、例示的な閾値変異パーセントは、例えば、0%、1%、2%、3%、4%、5%、10%、15%、20%、もしくは25%に等しいか、または少なくとも約0%、1%、2%、3%、4%、5%、10%、15%、20%、もしくは25%であり得る。様々な実施形態では、閾値変異パーセントは、例えば、0%、1%、2%、3%、4%、5%、10%、15%、または20%の下限、及び例えば、1%、2%、3%、4%、5%、10%、15%、20%、または25%の上限を有する範囲内であり得る。
様々な実施形態では、配列は、系統樹に基づいて、任意のさらなる分析の目的で分類またはフィルタリングされ得る。様々な実施形態では、1つ以上のクレードは、任意のさらなる分析の目的でフィルタリングされる。様々な実施形態では、1つ以上のクレードは、さらなる分析に含めるために選択される。
本開示は、ペアワイズ配列比較からの2つ以上の分類因子に基づく配列の分類を含む。様々な実施形態では、配列の分類は、同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、及び/または変異パーセントから選択される2つ以上の分類因子に基づく。本開示は、2つ以上の分類因子のパラメータ(例えば、1つ以上の閾値)に基づいて分類された配列群が生成される実施形態をさらに含む。いくつかの実施形態では、各配列カテゴリには、数値が割り当てられる。様々な実施形態では、配列カテゴリに割り当てられた数値は、クエリ配列と対象配列との間の類似性を測定する1つ以上の分類因子で追跡する値であり得、及び/または「類似性スコア」と称され得る。類似性スコアは、任意の範囲にわたる任意の一連の数値を含み得るが、特定の実施形態では、0~1、0~10、または0~100の範囲を含み得る。類似性スコアの例が本明細書に提供される。
様々な実施形態では、本開示は、同一性の尺度である第1の分類因子、及びカバレッジの尺度である第2の分類因子を含む、2つ以上の分類因子に基づいて配列の分類。様々な実施形態では、同一性の尺度は、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントから選択され得る。様々な実施形態では、カバレッジの尺度は、カバレッジパーセント及びカバレッジ長から選択され得る。
様々な実施形態では、ペアワイズ比較で分析された各配列は、定義されたスコアリングシステムに基づいて類似性スコアを割り当てることができ、その場合、ペアワイズ比較で分析された各配列は、カバレッジパーセント及び配列変異の数に従って分類またはランク付けされる。例えば、配列を、以下の表2に従って分類し、類似性スコアを割り当てることができ、その場合、特定の対象配列とのペアワイズ比較で分析された各クエリ配列は、クエリ配列の特定の対象配列との比較からのデータに基づいて、クエリ配列が最も高い類似性スコアを有するビンに割り当てられる。
Figure 2023502596000003
表2の値は、例えば、表2の各値に「約」という用語が先行しているかのように、提供された値の周りに範囲を提供することをさらに理解されたい。いくつかのまたはすべてのペアワイズ比較の配列の類似性スコアは、マトリックス、ヒートマップ、または棒グラフなどのグラフに表示することができる。例えば、セルの列及びセルの行を含むマトリックスまたはヒートマップは、各対象配列についての列及び各クエリ配列についての行を含み得、各セルは、クエリ及び対象の比較に基づいて類似性スコアを表示する。
いくつかの実施形態では、1つ以上の閾値基準または値(例えば、閾値類似性スコア)を満たさないペアワイズ配列比較(及び/またはそれらのクエリ配列)は、任意のさらなる分析の目的のためにフィルタリングされ得る(または別様ではさらなる検討から除外され得る)。いくつかの実施形態では、データが1つ以上の閾値基準または値(例えば、閾値類似性スコア)を満たさない特定のクエリ配列及び特定の対象配列(及び/または関連付けられたクエリ配列)のペアワイズ配列比較と関連付けられたデータを、任意のさらなる分析の目的のためにフィルタリングすることができる(または別様ではさらなる検討から除外することができる)。
いくつかの実施形態では、本明細書に記載される1つ以上の特定の分類された配列群に該当するペアワイズ配列比較(及び/またはクエリ配列もしくはその対象配列)は、任意のさらなる分析の目的のためにフィルタリングされ得る(または別様ではさらなる検討から除外され得る)。いくつかの実施形態では、データ及び/または配列が1つ以上の特定の分類された配列群に該当する、特定のクエリ配列及び特定の対象配列(及び/または関連付けられたクエリ配列)のペアワイズ配列比較と関連付けられたデータを、任意のさらなる分析の目的のためにフィルタリングすることができる(または別様ではさらなる検討から除外することができる)。
表2は、類似性スコアによる分類された配列群のフィルタリングを可能にする例示的な分類スキームを提供する。表2の例示的な分類スキームに示されるように、変異の数がゼロである少なくとも約99%のカバレッジパーセントをもたらすペアワイズ比較には、1の類似性スコアが割り当てられ、変異の数が約10未満である少なくとも約99%のカバレッジパーセントをもたらす残りのペアワイズ比較には、0.95の類似性スコアが割り当てられ、変異の数が少なくとも10である少なくとも約99%のカバレッジパーセントをもたらす残りのペアワイズ比較には、0.8の類似性スコアが割り当てられ、任意の数の変異を含む少なくとも約90%であるが、約99%未満のカバレッジパーセントをもたらす残りのペアワイズ比較には、0.5の類似性スコアが割り当てられ、任意の数の変異を含む少なくとも約75%であるが、約90%未満のカバレッジパーセントをもたらす残りのペアワイズ比較は、0.4の類似性スコアが割り当てられ、任意の数の変異を含む少なくとも約0%であるが、約75%未満のカバレッジパーセントをもたらす残りのペアには、0.3の類似性スコアが割り当てられ、任意の数の変異を含む0%に等しいカバレッジパーセントをもたらす残りのペアワイズ比較には、0の類似性スコアが割り当てられる。
ある特定の実施形態では、表2に記載されるように(またはカバレッジ及び同一性の別の組み合わせの尺度によって分類されるように)分類される1つ以上の配列比較のうちのいずれかは、任意のさらなる分析の目的のために(または別様ではさらなる検討から除外される)、例えば、割り当てられた類似性スコアが1未満、0.95未満、0.8未満、0.5未満、0.4未満、0.3未満、または0である配列比較を除外するようにフィルタリングすることによって、フィルタリングすることができる。ある特定の実施形態では、1つ以上の閾値は、表2に記載される類似性スコアに対応するカテゴリに割り当てられる前または後(またはその両方)のいずれかのペアワイズ比較に適用される(または、カバレッジの尺度及び同一性の尺度の組み合わせである他の類似性スコア)。ある特定の実施形態では、1つ以上の閾値は、例えば、最小カバレッジ長、最小カバレッジパーセント、最大E値、最小同一性パーセント、カバレッジ長にわたる最小同一性パーセント、最大変異数、及び/または最大変異パーセントを含み得る。ある特定の実施形態では、1つ以上の閾値は、表2に基づくフィルタリングの代替として適用される。ある特定の実施形態では、1つ以上の閾値は、例えば、最小カバレッジ長、最小カバレッジパーセント、最大E値、最小同一性パーセント、カバレッジ長にわたる最小同一性パーセント、最大変異数、及び/または最大変異パーセントを含み得る。
いくつかの実施形態では、表2に基づく分類及び/またはフィルタリングに加えて、またはその代替として、少なくとも約51のヌクレオチドまたはアミノ酸のカバレッジ長にわたって少なくとも約80%の同一性を示すペアワイズ配列比較は、約0.001以下のE値で、さらなる分析のために含むことができ、及び/または約80%未満の同一性及び/または約50以下のヌクレオチドもしくはアミノ酸のアラインメントマッチ長、及び/または約0.001を超えるE値を示すペアワイズ配列比較は、分析からフィルタリングする。
標的特性の決定及び/または標的特性を有する配列の選択
様々な実施形態では、本開示の方法及びシステムを使用して、1つ以上の配列がある特定の標的特性を示すかどうかを決定する、及び/または1つ以上の標的特性を有すると決定される配列を選択することができる。本明細書でさらに開示されるように、例示的な標的特性としては、配列保存の標的レベル、配列変化性のレベル(例えば、配列の集合全体にわたって及び/または1つ以上の対象配列と比較して)、または系統発生的グループ化を挙げることができるが、これらに限定されない。
様々な実施形態では、分類及び/またはフィルタリングステップの後に、標的特性の分析のための1つ以上のさらなるステップが続き、任意選択で、標的特性を有する配列の選択を含む。核酸配列(例えば、抽出されたコード配列)を比較し、分類及び/またはフィルタリングしたいくつかの実施形態では、標的特性の分析は、核酸(例えば、抽出されたコード配列)をアミノ酸配列に翻訳し、任意選択でアミノ酸配列を1つ以上の対象アミノ酸配列とさらなるペアワイズ比較を行うことによって実行される。核酸配列(例えば、抽出されたコード配列)を比較し、分類及び/またはフィルタリングしたいくつかの実施形態では、標的特性の分析は、ペアワイズ核酸配列比較からのデータの分析によって実行される。アミノ酸配列が比較され、分類及び/またはフィルタリングされたいくつかの実施形態では、標的特性の分析は、ペアワイズアミノ酸配列比較からのデータの分析によって実行される。
保存性及び/または変化性は、ゲノム、プラスミド、遺伝子、コード配列、または翻訳されたコード配列アミノ酸配列のうちの1つ以上のいずれかに関して評価することができる(例えば、測定または決定することができる)。保存性及び/または変化性は、コード配列のヌクレオチド位置のサブセット、例えば、アミノ酸ドメインをコードするコード配列のヌクレオチド位置のサブセットに関して評価され得る。保存性及び/または変化性は、コード配列内の1つ以上のヌクレオチド位置に関して評価することができる。保存性及び/または変化性は、翻訳されたコード配列アミノ酸配列のアミノ酸位置のサブセット、例えば、アミノ酸ドメインを含むアミノ酸位置のサブセットに関して評価することができる。保存性及び/または変化性は、翻訳されたコード配列アミノ酸配列内の1つ以上のアミノ酸位置に関して評価することができる。
様々なアプローチは、配列保存性及び/または変化性の分析に使用され得る。本明細書に開示されるように、配列保存性及び/または変化性は、比較した配列にわたる1つ以上の対応する位置におけるヌクレオチドまたはアミノ酸の同一性または非同一性の頻度の尺度を指すことができる。少なくとも、配列保存性及び配列変化性が、配列間または配列の間の類似性の両方の尺度である限り、一方を測定するためのアプローチは、一般に、両方の尺度に適用可能である。
いくつかの実施形態では、配列保存性及び/または変化性は、変異パーセントに従って測定することができる。いくつかの実施形態では、配列保存性及び/または変化性は、同一性パーセントに従って測定することができる。様々な実施形態では、保存性及び/または変化性は、同一性の尺度及びカバレッジの尺度の組み合わせによって決定され得る。例えば、様々な実施形態では、配列は、同一性の尺度の閾値及びカバレッジの尺度の閾値の両方を満たす場合、保存されるものとして特定される。いくつかの実施形態では、配列保存性及び/または変化性は、カバレッジ長及び/またはカバレッジパーセントと組み合わせて、変異パーセントに従って測定され得る。いくつかの実施形態では、配列保存及び/または変化性は、カバレッジ長及び/またはカバレッジパーセントと組み合わせて、同一性パーセントに従って測定され得る。いくつかの実施形態では、配列保存性及び/または変化性は、類似性スコアに従って測定することができる(例えば、表2で例示されるように)。
いくつかの実施形態では、特定の対象コード配列に対応する配列の保存は、特定の対象コード配列と比較して、各配列の同一性パーセントを平均化することによって決定することができる。様々な実施形態では、高い保存性(低い変化性)を有する配列は、少なくとも85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%、99.6%、99.7%、99.8%、99.9%、または100%である平均同一性パーセントに基づいて選択される。いくつかの実施形態では、低い保存性(高い変化性)を有する配列は、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%、75%、70%、65%、60%、55%、50%、40%、または30%である平均同一性パーセントに基づいて選択される。
様々な実施形態では、配列は、それらの測定された保存性及び/または変化性のレベルに基づいて選択され得る。いくつかの実施形態では、保存性が高い(変化性が低い)配列は、例えば、保存性の尺度に従ってペアワイズ比較配列を順序付けた後に、保存されたペアワイズ比較配列(例えば、上位遺伝子、コード配列、または翻訳されたコード配列アミノ酸配列、またはそのサブセットもしくは部分)の上位1、上位2、上位3、上位4、上位5、上位10、上位20、上位25、上位50、上位100、上位1%、上位2%、上位5%、上位10%、上位15%、上位20%、上位25%、または上位50%程度を選択する。いくつかの実施形態では、保存性が低い(変化性が高い)配列は、例えば、保存の尺度に従ってペアワイズ比較配列を順序付けた後、保存されたペアワイズ比較配列(例えば、下位遺伝子、コード配列、翻訳されたコード配列アミノ酸配列、またはそのサブセットもしくは部分)の下位1、下位2、下位3、下位4、下位5、下位10、下位20、下位25、下位50、下位100、下位1%、下位2%、下位5%、下位10%、下位15%、下位20%、下位25%、または下位50%程度を選択する。
様々な実施形態では、配列保存性は、系統発生分析によって実証される。系統発生分析のための様々な方法及びプログラムとしては、AncesTree、AliGROOVE、ape、Armadillo Workflow Platform、BAli-Phy、BATWING、BayesPhylogenies、BayesTraits、BEAST、BioNumerics、Bosque、BUCKy、Canopy、CITUP、ClustalW、Dendroscope、EzEditor、fastDNAml、FastTree 2、fitmodel、Geneious、HyPhy、IQPNNI、IQ-TREE、jModelTest 2、LisBeth、MEGA、Mesquite、MetaPIGA2、Modelgenerator、MOLPHY、MorphoBank、MrBayes、Network、Nona、PAML、ParaPhylo、PartitionFinder、PASTIS、PAUP*、phangorn、Phybase、phyclust、PHYLIP、phyloT、PhyloQuart、PhyloWGS、PhyML、phyx、POY、ProtTest 3、PyCogent、QuickTree、RAxML-HPC、RAxML-NG、SEMPHY、sowhat、SplitsTree、TNT、TOPALi、TreeGen、TreeAlign、Treefinder、TREE-PUZZLE、T-REX(Webserver)、UGENE、Winclada、及びXrateが挙げられる。
ネットワーク環境及びコンピューティングデバイス
図37に示されるように、本明細書に記載されるように、システム、方法、及びアーキテクチャを提供するのに使用するためのネットワーク環境3700の実装が示され、説明される。簡単な概要では、ここで図37を参照すると、例示的なクラウドコンピューティング環境3700のブロック図が示され、説明される。クラウドコンピューティング環境3700は、1つ以上のリソースプロバイダ3702a、3702b、3702c(集合的に、3702)を含むことができる。各リソースプロバイダ3702は、コンピューティングリソースを含み得る。いくつかの実装では、コンピューティングリソースは、データを処理するために使用される任意のハードウェア及び/またはソフトウェアを含み得る。例えば、コンピューティングリソースは、アルゴリズム、コンピュータプログラム、及び/またはコンピュータアプリケーションを実行することができるハードウェア及び/またはソフトウェアを含み得る。いくつかの実装では、例示的なコンピューティングリソースは、ストレージ及び検索機能を有するアプリケーションサーバ及び/またはデータベースを含み得る。各リソースプロバイダ3702は、クラウドコンピューティング環境3700内の任意の他のリソースプロバイダ3702に接続され得る。いくつかの実装では、リソースプロバイダ3702は、コンピュータネットワーク3708を介して接続され得る。各リソースプロバイダ3702は、コンピュータネットワーク3708を介して1つ以上のコンピューティングデバイス3704a、3704b、3704c(集合的に、3704)に接続され得る。
クラウドコンピューティング環境3700は、リソースマネージャ3706を含み得る。リソースマネージャ3706は、コンピュータネットワーク3708を介してリソースプロバイダ3702及びコンピューティングデバイス3704に接続され得る。いくつかの実装では、リソースマネージャ3706は、1つ以上のリソースプロバイダ3702による1つ以上のコンピューティングデバイス3704へのコンピューティングリソースの提供を促進し得る。リソースマネージャ3706は、特定のコンピューティングデバイス3704からコンピューティングリソースに対する要求を受信し得る。リソースマネージャ3706は、コンピューティングデバイス3704によって要求されるコンピューティングリソースを提供することができる1つ以上のリソースプロバイダ3702を特定し得る。リソースマネージャ3706は、コンピューティングリソースを提供するリソースプロバイダ3702を選択し得る。リソースマネージャ3706は、リソースプロバイダ3702と特定のコンピューティングデバイス3704との間の接続を容易にし得る。いくつかの実装では、リソースマネージャ3706は、特定のリソースプロバイダ3702と特定のコンピューティングデバイス3704との間の接続を確立し得る。いくつかの実装では、リソースマネージャ3706は、特定のコンピューティングデバイス3704を、要求されたコンピューティングリソースを有する特定のリソースプロバイダ3702にリダイレクトし得る。
図38は、本開示に記載される技法を実装するために使用することができるコンピューティングデバイス3800及びモバイルコンピューティングデバイス3850の例を示す。コンピューティングデバイス3800は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図されている。モバイルコンピューティングデバイス3850は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことが意図されている。ここに示される構成要素、それらの接続及び関係、ならびにそれらの機能は、例のみを意図しており、限定するようには意図されていない。
コンピューティングデバイス3800は、プロセッサ3802、メモリ3804、ストレージデバイス3806、メモリ3804及び複数の高速拡張ポート3810に接続する高速インターフェース3808、ならびに低速拡張ポート3814及びストレージデバイス3806に接続する低速インターフェース3812を含む。プロセッサ3802、メモリ3804、ストレージデバイス3806、高速インターフェース3808、高速拡張ポート3810、及び低速インターフェース3812の各々は、様々なバスを使用して相互接続され、必要に応じて、共通のマザーボード上に、または他の方法で載置され得る。プロセッサ3802は、メモリ3804内またはストレージデバイス3806上に保存された命令を含む、コンピューティングデバイス3800内で実行するための命令を処理して、高速インターフェース3808に連結されたディスプレイ3816などの外部入力/出力デバイス上にGUIのためのグラフィック情報を表示することができる。他の実装では、複数のプロセッサ及び/または複数のバスは、必要に応じて、複数のメモリ及びタイプのメモリと共に使用され得る。また、複数のコンピューティングデバイスが接続され得、各デバイスは、(例えば、サーババンク、ブレードサーバの群、またはマルチプロセッサシステムとして)必要な動作の一部を提供する。したがって、複数の機能がプロセッサによって行われると説明される場合、これは、複数の機能が任意の数のコンピューティングデバイス(1つ以上)の任意の数のプロセッサ(1つ以上)によって行われる実施形態を包含する。さらに、機能がプロセッサによって行われると説明される場合、これは、機能が(例えば、分散コンピューティングシステムにおいて)任意の数のコンピューティングデバイス(1つ以上)の任意の数のプロセッサ(1つ以上)によって行われる実施形態を包含する。
メモリ3804は、コンピューティングデバイス3800内に情報を保存する。いくつかの実装では、メモリ3804は、揮発性メモリユニット(複数可)である。いくつかの実装では、メモリ3804は、不揮発性メモリユニット(複数可)である。メモリ3804はまた、磁気ディスクまたは光ディスクなどのコンピュータ可読媒体の別の形態であり得る。
ストレージデバイス3806は、コンピューティングデバイス3800のためのマスストレージを提供することができる。いくつかの実装では、ストレージデバイス3806は、フロッピーディスク(登録商標)デバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成内のデバイスを含むデバイスのアレイなどのコンピュータ可読媒体であり得るか、またはそれを含んでもよい。命令は、情報キャリアに保存され得る。命令は、1つ以上の処理デバイス(例えば、プロセッサ3802)によって実行されるとき、上述のものなどの1つ以上の方法を行う。命令はまた、コンピュータまたは機械可読媒体(例えば、メモリ3804、ストレージデバイス3806、またはプロセッサ3802上のメモリ)などの1つ以上のストレージデバイスによって保存され得る。
高速インターフェース3808は、コンピューティングデバイス3800のための帯域幅集約的動作を管理し、低速インターフェース3812は、より低い帯域幅集約的動作を管理する。そのような機能の割り当ては、単なる一例である。いくつかの実装では、高速インターフェース3808は、メモリ3804、ディスプレイ3816(例えば、グラフィックプロセッサまたはアクセラレータを介して)、及び様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート3810に連結される。この実装では、低速インターフェース3812は、ストレージデバイス3806及び低速拡張ポート3814に連結される。様々な通信ポート(例えば、USB、Bluetooth(登録商標)、イーサネット(登録商標)、無線イーサネット(登録商標))を含んでもよい低速拡張ポート3814は、例えば、ネットワークアダプタを介して、キーボード、ポインティングデバイス、スキャナなどの1つ以上の入力/出力デバイス、またはスイッチもしくはルータなどのネットワークデバイスに連結されてもよい。
コンピューティングデバイス3800は、図に示されるように、いくつかの異なる形態で実装され得る。例えば、標準サーバ3820として実装され得るか、またはそのようなサーバの群内で複数回実装され得る。加えて、それは、ラップトップコンピュータ3822などのパーソナルコンピュータにおいて実装され得る。また、ラックサーバシステム3824の一部として実装され得る。代替として、コンピューティングデバイス3800からの構成要素は、モバイルコンピューティングデバイス3850などのモバイルデバイス(図示せず)内の他の構成要素と組み合わせられ得る。そのようなデバイスの各々は、コンピューティングデバイス3800及びモバイルコンピューティングデバイス3850のうちの1つ以上を含み得、システム全体は、互いに通信する複数のコンピューティングデバイスから構成され得る。
モバイルコンピューティングデバイス3850は、他の構成要素の中で、プロセッサ3852、メモリ3864、ディスプレイ3854などの入力/出力デバイス、通信インターフェース3866、及びトランシーバ3868を含む。モバイルコンピューティングデバイス3850はまた、追加のストレージを提供するために、マイクロドライブまたは他のデバイスなどのストレージデバイスを備えていてもよい。プロセッサ3852、メモリ3864、ディスプレイ3854、通信インターフェース3866、及びトランシーバ3868の各々は、様々なバスを使用して相互接続され、いくつかの構成要素は、必要に応じて、共通のマザーボード上に、または他の方法で載置され得る。
プロセッサ3852は、メモリ3864に保存された命令を含む、モバイルコンピューティングデバイス3850内の命令を実行することができる。プロセッサ3852は、別個及び複数のアナログ及びデジタルプロセッサを含むチップのチップセットとして実装され得る。プロセッサ3852は、例えば、ユーザインターフェースの制御、モバイルコンピューティングデバイス3850によって実行されるアプリケーション、及びモバイルコンピューティングデバイス3850による無線通信など、モバイルコンピューティングデバイス3850の他の構成要素の調整のために提供し得る。
プロセッサ3852は、制御インターフェース3858及びディスプレイ3854に連結された表示インターフェース3856を介してユーザと通信し得る。ディスプレイ3854は、例えば、TFT(薄膜トランジスタ液晶表示)表示もしくはOLED(有機発光ダイオード)表示、または他の適切な表示技術であり得る。表示インターフェース3856は、グラフィック及び他の情報をユーザに提示するためにディスプレイ3854を駆動するための適切な回路を備え得る。制御インターフェース3858は、ユーザからコマンドを受信し、それらをプロセッサ3852に提出するために変換し得る。加えて、外部インターフェース3862は、モバイルコンピューティングデバイス3850の他のデバイスとの近傍エリア通信を可能にするために、プロセッサ3852との通信を提供し得る。外部インターフェース3862は、例えば、いくつかの実装では有線通信のために、または他の実装では無線通信のために提供することができ、複数のインターフェースを使用することもできる。
メモリ3864は、モバイルコンピューティングデバイス3850内に情報を保存する。メモリ3864は、コンピュータ可読媒体(複数可)、揮発性メモリユニット(複数可)、または不揮発性メモリユニット(複数可)のうちの1つ以上として実装され得る。拡張メモリ3874はまた、拡張インターフェース3872を介してモバイルコンピューティングデバイス3850に提供され、接続されてもよく、拡張インターフェース3872は、例えば、SIMM(シングルインラインメモリモジュール)カードインターフェースを含んでもよい。拡張メモリ3874は、モバイルコンピューティングデバイス3850のための余分なストレージ空間を提供してもよく、またはモバイルコンピューティングデバイス3850のためのアプリケーションまたは他の情報を保存してもよい。具体的には、拡張メモリ3874は、上述のプロセスを実行または補完するための命令を含み得、安全な情報も含み得る。したがって、例えば、拡張メモリ3874は、モバイルコンピューティングデバイス3850のセキュリティモジュールとして提供され得、モバイルコンピューティングデバイス3850の安全な使用を可能にする命令でプログラムされ得る。さらに、安全なアプリケーションは、ハッキング不可能な方法でSIMMカード上に識別情報を配置するなどの追加情報と共に、SIMMカードを介して提供され得る。
メモリは、例えば、以下で考察されるように、フラッシュメモリ及び/またはNVRAMメモリ(不揮発性ランダムアクセスメモリ)を含み得る。いくつかの実装では、命令は、情報キャリアに保存される。命令は、1つ以上の処理デバイス(例えば、プロセッサ3852)によって実行されると、上述されるものなどの1つ以上の方法を行う。命令はまた、コンピュータまたは機械可読媒体(例えば、メモリ3864、拡張メモリ3874、もしくはプロセッサ3852上のメモリ)などの1つ以上のストレージデバイスによって保存され得る。いくつかの実装では、命令は、例えば、トランシーバ3868または外部インターフェース3862を介して、伝搬された信号で受信され得る。
モバイルコンピューティングデバイス3850は、必要に応じてデジタル信号処理回路を含み得る、通信インターフェース3866を介して無線通信することができる。通信インターフェース3866は、とりわけ、GSM(登録商標)音声通話(モバイル通信のためのグローバルシステム)、SMS(ショートメッセージサービス)、EMS(拡張メッセージングサービス)、またはMMSメッセージング(マルチメディアメッセージサービス)、CDMA(符号分割多元接続)、TDMA(時分割多元接続)、PDC(パーソナルデジタルセルラー)、WCDMA(登録商標)(ワイドバンド符号分割多元接続)、CDMA2000、またはGPRS(一般パケットラジオサービス)などの様々なモードまたはプロトコルの下での通信を提供し得る。そのような通信は、例えば、無線周波数を使用してトランシーバ3868を介して発生し得る。加えて、Bluetooth(登録商標)、Wi-Fi(商標)、または他のそのようなトランシーバ(図示せず)を使用するなどの短距離通信が発生し得る。加えて、GPS(グローバルポジショニングシステム)受信機モジュール3870は、追加のナビゲーション及び位置関連無線データをモバイルコンピューティングデバイス3850に提供することができ、これは、モバイルコンピューティングデバイス3850上で動作するアプリケーションによって適切に使用され得る。
モバイルコンピューティングデバイス3850は、ユーザから話した情報を受信し、それを使用可能なデジタル情報に変換することができる、音声コーデック3860を使用して音声通信してもよい。オーディオコーデック3860は同様に、例えば、モバイルコンピューティングデバイス3850のハンドセット内のスピーカを通してなど、ユーザのための可聴音を生成し得る。そのような音は、音声電話からの音を含み得、記録された音(例えば、音声メッセージ、音楽ファイル等)を含み得、また、モバイルコンピューティングデバイス3850上で動作するアプリケーションによって生成される音を含み得る。
モバイルコンピューティングデバイス3850は、図に示されるように、いくつかの異なる形態で実装され得る。例えば、携帯電話3880として実装され得る。また、スマートフォン3882、パーソナルデジタルアシスタント、または他の同様のモバイルデバイスの一部として実装されてもよい。
例示的なシステムのある特定の構成要素を含む、さらなる非限定的な概略図が、図20に提供される。
本明細書に記載されるシステム及び技法の様々な実装は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはそれらの組み合わせにおいて実現することができる。これらの様々な実装は、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受信し、それらにデータ及び命令を送信するように連結された、特別なまたは一般的な目的であり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能及び/または解釈可能である1つ以上のコンピュータプログラムにおける実装を含むことができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている)は、プログラマブルプロセッサのための機械命令を含み、高レベルの手続き型及び/またはオブジェクト指向プログラミング言語、及び/またはアセンブリ/機械言語で実装することができる。機械可読媒体及びコンピュータ可読媒体は、機械可読信号として機械命令を受信する機械可読媒体を含む、機械命令及び/またはデータをプログラマブルプロセッサに提供するために使用されるコンピュータプログラム製品、装置及び/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指すことができる。機械可読信号は、機械命令及び/またはデータをプログラマブルプロセッサに提供するために使用される信号を指すことができる。
ある特定の実施形態では、コンピュータプログラムは、1つ以上の機械学習モジュールを含む。機械学習モジュールは、1つ以上の特定の機械学習アルゴリズムを実装するコンピュータ実装プロセス(例えば、機能)を指すことができる。機械学習モジュールは、例えば、1つ以上の人工ニューラルネットワークを含み得る。ある特定の実施形態では、2つ以上の機械学習モジュールが組み合わされ、単一のモジュール及び/または単一のソフトウェアアプリケーションとして実装されてもよい。ある特定の実施形態では、2つ以上の機械学習モジュールはまた、例えば、別個のソフトウェアアプリケーションとして別個に実装されてもよい。機械学習モジュールは、ソフトウェア及び/またはハードウェアであってもよい。例えば、機械学習モジュールは、ソフトウェアとして完全に実装され得るか、または機械学習モジュールのある特定の機能は、専用ハードウェアを介して(例えば、特定用途向け集積回路(ASIC)を介して)実行され得る。
ユーザとのインタラクションを提供するために、本明細書に記載されるシステム及び技法は、ユーザに情報を表示するための表示デバイス(例えば、CRT(陰極線管)またはLCD(液晶表示)モニタ)と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを有するコンピュータ上で実装され得る。他の種類のデバイスを使用して、ユーザとのインタラクションを同様に提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり得、ユーザからの入力は、音響、発話、または触覚入力を含む任意の形態で受信され得る。
本明細書に記載されるシステム及び技法は、バックエンド構成要素を含む(例えば、データサーバとして)、またはミドルウェア構成要素を含む(例えば、アプリケーションサーバ)、またはフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィックユーザインターフェースまたはユーザが本明細書に記載されるシステム及び技法の実装とインタラクションすることができるウェブブラウザを有するクライアントコンピュータ)、またはそのようなバックエンド、ミドルウェア、もしくはフロントエンド構成要素の任意の組み合わせで実装され得る。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互接続され得る。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが挙げられる。
コンピューティングシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般に互いに遠隔であり、典型的には、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアントとサーバの関係を有するコンピュータプログラムによって生じる。
様々な実施形態のブロックフロー図
図39は、病原体に対する療法の開発における候補抗原としてのアミノ酸配列を同定するための例示的な方法のブロックフロー図3900である。ステップのいくつかまたはすべては、コンピューティングデバイスのプロセッサによって全体的または部分的に行うことができる(例えば、ソフトウェア命令を実行する)。
ステップ3910では、病原体の異なる株の複数の完全または部分的ゲノム配列が取得される(アクセスされる)。配列は、公開またはプライベート配列データベース、及び/またはデノボ配列決定リードから得てもよい。複数の配列は、完全または部分的ゲノム配列のうちの少なくともいくつかを生成するためにマージされるコンティグを含み得る。
ステップ3920では、コード配列は、ゲノム配列から同定される。ステップ3930では、コード配列は、同一性パーセント及びカバレッジパーセントに従って分類される。例えば、クエリコード配列のセットの各々が、対象配列のセットと比較される場合、クエリコード配列と各対象配列との間の類似性の尺度が計算され、類似性の尺度の各々は、(i)クエリ配列と対象配列との間の同一性パーセント、及び(ii)クエリ配列と対象配列との間のカバレッジパーセントの関数である。ある特定の実施形態では、(i)及び(ii)の両方を含む閾値が適用される。場合によっては、(相対数とは対照的に)絶対数の変異は、「同一性パーセント」に等しいとみなされる。クエリ配列のセットは、対象配列のセットと同じであり得るか、またはそれらは、異なるセットもしくは部分的に重複するセットであり得る。類似性の尺度のマトリックスは、グラフィック的にレンダリングされ得る。例えば、類似性尺度のヒートマップは、グラフィック的に表示され得、例えば、x軸及びy軸が配列を表し、所与のx-y位置における強度または色が対応する2つの配列間の類似性尺度を表す。
ステップ3940では、コード配列をアミノ酸配列に変換し、ステップ3950では、アミノ酸配列をアラインメントする。ある特定の実施形態では、アミノ酸配列は、アラインメントされたコード配列のくぼみによってアラインメントされる。ある特定の実施形態では、コード配列は、類似性の尺度が計算された後にアミノ酸配列に変換され、他の実施形態では、コード配列は、類似性の尺度が計算される前にアミノ酸配列に変換される(例えば、類似性の尺度は、対象アミノ酸配列のセットに対するクエリアミノ酸配列のセットの各々について計算される)。
ステップ3960では、アミノ酸配列のアラインメントされた部分は、ステップ3910でアクセスされる複数のゲノム配列によって表される病原体の異なる株の間の配列部分の保存性レベルに従って分類される。特に興味深いのは、高度に保存され、したがって、ステップ3910でアクセスされる複数のゲノム配列によって表される病原体の様々な株に共通の配列部分である。
ステップ3970では、高度に保存されていると特定された各アミノ酸配列部分をチェックして、それがヒトタンパク質配列と同一であるかどうかを判定する。ヒトタンパク質配列と同一の任意の高度に保存された配列は、毒性の懸念のため、候補抗原として除去される。病原体に対する療法の開発における1つ以上の最終候補抗原を特定する際に、他の基準、例えば、ペプチドシグナルの存在、タンパク質アノテーション(またはその存在/非存在)、特定のドメイン構造、及び/または配列中の膜貫通ドメインの存在を適用することもでき、後者は、候補抗原が、病原体の膜及び/または細胞壁内に分泌されるか、または曝露されるタンパク質に対応するかどうかを示すことができ、それによって、病原体に対する治療剤としてのその潜在的価値を増大させる。この方法は、追加として、候補抗原を包含するポリペプチドを動物に投与するステップを含み得る。また、療法がワクチンである場合、方法は、免疫原性について候補抗原を非臨床的に評価するステップを含んでもよい。
図40は、病原体を表すコード配列の1つ以上の保存された部分を同定するための例示的な方法のブロックフロー図4000である。ステップのいくつかまたはすべては、コンピューティングデバイスのプロセッサによって全体的または部分的に行うことができる(例えば、ソフトウェア命令を実行する)。
ステップ4010では、病原体の異なる株の複数の完全または部分的ゲノム配列は、データ構造から取得される(アクセスされる)。配列は、公開またはプライベート配列データベース、及び/またはデノボ配列決定リードから得てもよい。複数の配列は、完全または部分的ゲノム配列のうちの少なくともいくつかを生成するためにマージされるコンティグを含み得る。
ステップ4020では、コード配列は、ゲノム配列から同定される。ステップ4030では、コード配列は、同一性パーセント及びカバレッジパーセントに従って分類される。例えば、クエリコード配列のセットの各々が、対象配列のセットと比較される場合、クエリコード配列と各対象配列との間の類似性の尺度が計算され、類似性の尺度の各々は、(i)クエリ配列と対象配列との間の同一性パーセント、及び(ii)クエリ配列と対象配列との間のカバレッジパーセントの関数である。ある特定の実施形態では、(i)及び(ii)の両方を含む閾値が適用される。場合によっては、(相対数とは対照的に)絶対数の変異は、「同一性パーセント」に等しいとみなされる。クエリ配列のセットは、対象配列のセットと同じであり得るか、またはそれらは、異なるセットもしくは部分的に重複するセットであり得る。類似性の尺度のマトリックスは、グラフィック的にレンダリングされ得る。例えば、類似性尺度のヒートマップは、グラフィック的に表示され得、例えば、x軸及びy軸が配列を表し、所与のx-y位置における強度または色が対応する2つの配列間の類似性尺度を表す。
ステップ4040では、コード配列をアミノ酸配列に変換する。ある特定の実施形態では、コード配列は、同一性パーセント及びカバレッジパーセントに従って分類された後にアミノ酸配列に変換される。他の実施形態では、コード配列は、同一性パーセント及びカバレッジパーセントに従って分類される前にアミノ酸配列に変換される(例えば、類似性の尺度が、対象アミノ酸配列のセットに対するクエリアミノ酸配列のセットの各々について計算される)。
ステップ4050では、アミノ酸配列の部分は、ステップ4010でアクセスされる複数のゲノム配列によって表される病原体の異なる株の間の配列部分の保存性レベルに従って分類される。特に興味深いのは、高度に保存され、したがって、ステップ4010でアクセスされる複数のゲノム配列によって表される病原体の様々な株に共通の配列部分である。
図41は、単離された病原体が循環株を表すかどうかを特定するための例示的な方法のブロックフロー図4100である。ステップのいくつかまたはすべては、コンピューティングデバイスのプロセッサによって全体的または部分的に行うことができる(例えば、ソフトウェア命令を実行する)。
ステップ4110では、病原体の循環株の複数の完全または部分的ゲノム配列が取得される(アクセスされる)。配列は、公開またはプライベート配列データベース、及び/またはデノボ配列決定リードから得てもよい。複数の配列は、完全または部分的ゲノム配列のうちの少なくともいくつかを生成するためにマージされるコンティグを含み得る。
ステップ4120では、循環株の配列の1つ以上の保存された(例えば、高度に保存された)部分が同定される。ある特定の実施形態では、循環株の配列は、同一性パーセント及びカバレッジパーセントに従って分類される。例えば、クエリコード配列のセットの各々が、対象配列のセットと比較される場合(「クエリ」及び「対象」配列の両方が病原体の循環株のものである場合)、クエリコード配列と各対象配列との間の類似性の尺度が計算され、類似性の尺度の各々は、(i)クエリ配列と対象配列との間の同一性パーセント、及び(ii)クエリ配列と対象配列との間のカバレッジパーセントの関数である。ある特定の実施形態では、(i)及び(ii)の両方を含む閾値が適用される。場合によっては、(相対数とは対照的に)絶対数の変異は、「同一性パーセント」に等しいとみなされる。クエリ配列のセットは、対象配列のセットと同じであり得るか、またはそれらは、異なるセットもしくは部分的に重複するセットであり得る。類似性の尺度のマトリックスは、グラフィック的にレンダリングされ得る。例えば、類似性尺度のヒートマップは、グラフィック的に表示され得、例えば、x軸及びy軸が配列を表し、所与のx-y位置における強度または色が対応する2つの配列間の類似性尺度を表す。
ステップ4130では、単離された病原体の複数の完全または部分的ゲノム配列が得られる(アクセスされる)。例えば、単離された病原体の配列は、デノボ配列決定リード(例えば、感染症に罹患している患者から得られた生体試料のハイスループット配列決定リード)に由来し得る。ある特定の実施形態では、これらの配列は、どの部分が保存され、単離された病原体を適切に表すかを特定するために、上記のように分析され得る。
ステップ4140では、単離された病原体(またはその部分)の1つ以上の配列は、ステップ4120で同定された循環株の配列の1つ以上の保存された(例えば、高度に保存された)部分と比較され、それによって単離された病原体が循環株を表す(例えば、その入射率に共通である)かどうかを特定する。
図42は、例示的な実施形態による、(例えば、病原性細菌に対する療法の開発において)候補抗生物質耐性マーカーとしてアミノ酸配列を同定するための例示的な方法のブロックフロー図である。ステップのいくつかまたはすべては、コンピューティングデバイスのプロセッサによって全体的または部分的に行うことができる(例えば、ソフトウェア命令を実行する)。
ステップ4210では、病原性細菌の複数の完全または部分的ゲノム配列が、データ構造から得られる(アクセスされる)。配列は、公開またはプライベート配列データベース、及び/またはデノボ配列決定リードから得てもよい。複数の配列は、完全または部分的ゲノム配列のうちの少なくともいくつかを生成するためにマージされるコンティグを含み得る。
ステップ4220では、コード配列は、プラスミド配列から同定される。ステップ4230では、コード配列は、同一性パーセント及びカバレッジパーセントに従って分類される。例えば、クエリコード配列のセットの各々が、対象配列のセットと比較される場合、クエリコード配列と各対象配列との間の類似性の尺度が計算され、類似性の尺度の各々は、(i)クエリ配列と対象配列との間の同一性パーセント、及び(ii)クエリ配列と対象配列との間のカバレッジパーセントの関数である。ある特定の実施形態では、(i)及び(ii)の両方を含む閾値が適用される。場合によっては、(相対数とは対照的に)絶対数の変異は、「同一性パーセント」に等しいとみなされる。クエリ配列のセットは、対象配列のセットと同じであり得るか、またはそれらは、異なるセットもしくは部分的に重複するセットであり得る。類似性の尺度のマトリックスは、グラフィック的にレンダリングされ得る。例えば、類似性尺度のヒートマップは、グラフィック的に表示され得、例えば、x軸及びy軸が配列を表し、所与のx-y位置における強度または色が対応する2つの配列間の類似性尺度を表す。
ステップ4240では、コード配列をアミノ酸配列に変換し、ステップ4250では、アミノ酸配列をアラインメントする。ある特定の実施形態では、アミノ酸配列は、アラインメントされたコード配列のくぼみによってアラインメントされる。ある特定の実施形態では、コード配列は、類似性の尺度が計算された後にアミノ酸配列に変換され、他の実施形態では、コード配列は、類似性の尺度が計算される前にアミノ酸配列に変換される(例えば、類似性の尺度は、対象アミノ酸配列のセットに対するクエリアミノ酸配列のセットの各々について計算される)。
ステップ4260では、アミノ酸配列のアラインメントされた部分は、ステップ4210でアクセスされる複数のプラスミド配列のうちの配列部分の保存性レベルに従って分類される。特に興味深いのは、高度に保存され、したがって、ステップ4210でアクセスされる複数のゲノム配列によって表される病原体のプラスミドに共通の配列部分である。
ステップ4270では、保存された(例えば、高度に保存された)ものとして特定された1つ以上の配列部分が、候補の抗生物質耐性マーカーとして選択される。候補の抗生物質耐性マーカー、例えば、ペプチドシグナルの存在、タンパク質アノテーション(またはその存在/非存在)、特定のドメイン構造、及び/または配列中の膜貫通ドメインの存在を特定する際に、他の基準も適用され得る。この方法は、追加として、候補の抗生物質耐性マーカーを包含するポリペプチドを動物に投与するステップを含み得る。また、療法がワクチンである場合、方法は、免疫原性について候補抗原を非臨床的に評価するステップを含んでもよい。
図43は、例示的な実施形態による、プラスミドを表すコード配列の1つ以上の保存された部分を同定するための例示的な方法のブロックフロー図4300である。ステップのいくつかまたはすべては、コンピューティングデバイスのプロセッサによって全体的または部分的に行うことができる(例えば、ソフトウェア命令を実行する)。
ステップ4310では、病原性細菌の複数の完全または部分的プラスミド配列が、データ構造から得られる(アクセスされる)。配列は、公開またはプライベート配列データベース、及び/またはデノボ配列決定リードから得てもよい。複数の配列は、完全または部分的ゲノム配列のうちの少なくともいくつかを生成するためにマージされるコンティグを含み得る。
ステップ4320では、コード配列は、プラスミド配列から同定される。ステップ4330では、コード配列は、同一性パーセント及びカバレッジパーセントに従って分類される。例えば、クエリコード配列のセットの各々が、対象配列のセットと比較される場合、クエリコード配列と各対象配列との間の類似性の尺度が計算され、類似性の尺度の各々は、(i)クエリ配列と対象配列との間の同一性パーセント、及び(ii)クエリ配列と対象配列との間のカバレッジパーセントの関数である。ある特定の実施形態では、(i)及び(ii)の両方を含む閾値が適用される。場合によっては、(相対数とは対照的に)絶対数の変異は、「同一性パーセント」に等しいとみなされる。クエリ配列のセットは、対象配列のセットと同じであり得るか、またはそれらは、異なるセットもしくは部分的に重複するセットであり得る。類似性の尺度のマトリックスは、グラフィック的にレンダリングされ得る。例えば、類似性尺度のヒートマップは、グラフィック的に表示され得、例えば、x軸及びy軸が配列を表し、所与のx-y位置における強度または色が対応する2つの配列間の類似性尺度を表す。
ステップ4340では、コード配列をアミノ酸配列に変換する。ある特定の実施形態では、コード配列は、同一性パーセント及びカバレッジパーセントに従って分類された後にアミノ酸配列に変換される。他の実施形態では、コード配列は、同一性パーセント及びカバレッジパーセントに従って分類される前にアミノ酸配列に変換される(例えば、類似性の尺度が、対象アミノ酸配列のセットに対するクエリアミノ酸配列のセットの各々について計算される)。
ステップ4350では、アミノ酸配列の部分は、ステップ4310でアクセスされる複数のプラスミド配列のうちの配列部分の保存性レベルに従って分類される。特に興味深いのは、高度に保存され、したがって、ステップ4310でアクセスされる複数のゲノム配列によって表される病原体のプラスミドに共通の配列部分である。
図44は、例えば、そのような病原体を表すペプチドの質量分析標的を特定するために、病原体を表すペプチドの質量電荷比を特定するための例示的な方法のブロックフロー図である。ステップのいくつかまたはすべては、コンピューティングデバイスのプロセッサによって全体的または部分的に行うことができる(例えば、ソフトウェア命令を実行する)。
ステップ4410では、病原体の異なる株の複数の完全または部分的ゲノム配列が取得される(アクセスされる)。配列は、公開またはプライベート配列データベース、及び/またはデノボ配列決定リードから得てもよい。複数の配列は、完全または部分的ゲノム配列のうちの少なくともいくつかを生成するためにマージされるコンティグを含み得る。
ステップ4420では、コード配列がゲノム配列から同定され、ステップ4430では、コード配列がアミノ酸配列に変換される。ステップ4440では、アミノ酸配列の1つ以上の保存された部分が同定される。例えば、配列は、同一性パーセント及びカバレッジパーセントに従って分類され得る。例えば、クエリ配列のセットの各々が、対象配列のセットと比較される場合、クエリコード配列と各対象配列との間の類似性の尺度が計算され、類似性の尺度の各々は、(i)クエリ配列と対象配列との間の同一性パーセント、及び(ii)クエリ配列と対象配列との間のカバレッジパーセントの関数である。ある特定の実施形態では、(i)及び(ii)の両方を含む閾値が適用される。場合によっては、(相対数とは対照的に)絶対数の変異は、「同一性パーセント」に等しいとみなされる。クエリ配列のセットは、対象配列のセットと同じであり得るか、またはそれらは、異なるセットもしくは部分的に重複するセットであり得る。ある特定の実施形態では、コード配列は、類似性の尺度が計算された後にアミノ酸配列に変換され、他の実施形態では、コード配列は、類似性の尺度が計算される前にアミノ酸配列に変換される(例えば、類似性の尺度は、対象アミノ酸配列のセットに対するクエリアミノ酸配列のセットの各々について計算される)。類似性の尺度のマトリックスは、グラフィック的にレンダリングされ得る。例えば、類似性尺度のヒートマップは、グラフィック的に表示され得、例えば、x軸及びy軸が配列を表し、所与のx-y位置における強度または色が対応する2つの配列間の類似性尺度を表す。
ステップ4450では、保存されていると特定された配列部分のうちの1つ以上の質量電荷比が決定される。これは、例えば、それらが質量分析によって同定され得るように、対応する病原体を表すペプチドの質量分析標的を同定するのに有用である。
図45は、病原体に対する療法の開発における候補抗原としてのアミノ酸配列を同定するための例示的な方法のブロックフロー図である。ステップのいくつかまたはすべては、コンピューティングデバイスのプロセッサによって全体的または部分的に行うことができる(例えば、ソフトウェア命令を実行する)。
ステップ4510では、病原体の異なる株の複数の完全または部分的ゲノム配列が取得される(アクセスされる)。配列は、公開またはプライベート配列データベース、及び/またはデノボ配列決定リードから得てもよい。複数の配列は、完全または部分的ゲノム配列のうちの少なくともいくつかを生成するためにマージされるコンティグを含み得る。
ステップ4520では、コード配列は、ゲノム配列から同定される。ステップ4530では、コード配列は、同一性パーセント及びカバレッジパーセントに従って分類される。例えば、クエリコード配列のセットの各々が、対象配列のセットと比較される場合、クエリコード配列と各対象配列との間の類似性の尺度が計算され、類似性の尺度の各々は、(i)クエリ配列と対象配列との間の同一性パーセント、及び(ii)クエリ配列と対象配列との間のカバレッジパーセントの関数である。ある特定の実施形態では、(i)及び(ii)の両方を含む閾値が適用される。場合によっては、(相対数とは対照的に)絶対数の変異は、「同一性パーセント」に等しいとみなされる。クエリ配列のセットは、対象配列のセットと同じであり得るか、またはそれらは、異なるセットもしくは部分的に重複するセットであり得る。類似性の尺度のマトリックスは、グラフィック的にレンダリングされ得る。例えば、類似性尺度のヒートマップは、グラフィック的に表示され得、例えば、x軸及びy軸が配列を表し、所与のx-y位置における強度または色が対応する2つの配列間の類似性尺度を表す。
ステップ4540では、コード配列をアミノ酸配列に変換する。ある特定の実施形態では、コード配列は、類似性の尺度が計算された後にアミノ酸配列に変換され、他の実施形態では、コード配列は、類似性の尺度が計算される前にアミノ酸配列に変換される(例えば、類似性の尺度は、対象アミノ酸配列のセットに対するクエリアミノ酸配列のセットの各々について計算される)。
ステップ4550では、アミノ酸配列の部分は、ステップ4510でアクセスされる複数のゲノム配列によって表される病原体の異なる株の間の配列部分の保存性レベルに従って分類される。特に興味深いのは、高度に保存され、したがって、ステップ4510でアクセスされる複数のゲノム配列によって表される病原体の様々な株に共通の配列部分である。
ステップ4560では、高度に保存されていると特定された各アミノ酸配列部分をチェックして、それがヒトタンパク質配列と同一であるかどうかを判定する。ヒトタンパク質配列と同一の任意の高度に保存された配列は、毒性の懸念のため、候補抗原として除去される。病原体に対する療法の開発における1つ以上の最終候補抗原、例えば、ペプチドシグナルの存在、タンパク質アノテーション(またはその存在/非存在)、特定のドメイン構造、及び/または配列中の膜貫通ドメインの存在を特定する際に、他の基準も適用され得、後者は、候補抗原が、病原体の膜及び/または細胞壁内に分泌されるか、または曝露されるタンパク質に対応するかどうかを示し得、それによって、病原体に対する治療剤としてのその潜在的価値を増大させる。この方法は、追加として、候補抗原を包含するポリペプチドを動物に投与するステップを含み得る。また、療法がワクチンである場合、方法は、免疫原性について候補抗原を非臨床的に評価するステップを含んでもよい。
図46は、例示的な実施形態による、候補抗生物質耐性マーカーとしてアミノ酸配列を特定するための例示的な方法4600のブロックフロー図である。ステップのいくつかまたはすべては、コンピューティングデバイスのプロセッサによって全体的または部分的に行うことができる(例えば、ソフトウェア命令を実行する)。
ステップ4610では、病原性細菌の複数の完全または部分的ゲノム配列が、データ構造から得られる(アクセスされる)。配列は、公開またはプライベート配列データベース、及び/またはデノボ配列決定リードから得てもよい。複数の配列は、完全または部分的ゲノム配列のうちの少なくともいくつかを生成するためにマージされるコンティグを含み得る。
ステップ4620では、コード配列は、プラスミド配列から同定される。ステップ4630では、コード配列は、同一性パーセント及びカバレッジパーセントに従って分類される。例えば、クエリコード配列のセットの各々が、対象配列のセットと比較される場合、クエリコード配列と各対象配列との間の類似性の尺度が計算され、類似性の尺度の各々は、(i)クエリ配列と対象配列との間の同一性パーセント、及び(ii)クエリ配列と対象配列との間のカバレッジパーセントの関数である。ある特定の実施形態では、(i)及び(ii)の両方を含む閾値が適用される。場合によっては、(相対数とは対照的に)絶対数の変異は、「同一性パーセント」に等しいとみなされる。クエリ配列のセットは、対象配列のセットと同じであり得るか、またはそれらは、異なるセットもしくは部分的に重複するセットであり得る。類似性の尺度のマトリックスは、グラフィック的にレンダリングされ得る。例えば、類似性尺度のヒートマップは、グラフィック的に表示され得、例えば、x軸及びy軸が配列を表し、所与のx-y位置における強度または色が対応する2つの配列間の類似性尺度を表す。
ステップ4640では、コード配列をアミノ酸配列に変換する。ある特定の実施形態では、コード配列は、類似性の尺度が計算された後にアミノ酸配列に変換され、他の実施形態では、コード配列は、類似性の尺度が計算される前にアミノ酸配列に変換される(例えば、類似性の尺度は、対象アミノ酸配列のセットに対するクエリアミノ酸配列のセットの各々について計算される)。
ステップ4650では、アミノ酸配列の部分は、ステップ4610でアクセスされる複数のプラスミド配列のうちの配列部分の保存性レベルに従って分類される。特に興味深いのは、高度に保存され、したがって、ステップ4610でアクセスされる複数のゲノム配列によって表される病原体のプラスミドに共通の配列部分である。
ステップ4660では、保存された(例えば、高度に保存された)ものとして特定された1つ以上の配列部分が、候補の抗生物質耐性マーカーとして選択される。候補の抗生物質耐性マーカー、例えば、ペプチドシグナルの存在、タンパク質アノテーション(またはその存在/非存在)、特定のドメイン構造、及び/または配列中の膜貫通ドメインの存在を特定する際に、他の基準も適用され得る。この方法は、追加として、候補の抗生物質耐性マーカーを包含するポリペプチドを動物に投与するステップを含み得る。また、療法がワクチンである場合、方法は、免疫原性について候補抗原を非臨床的に評価するステップを含んでもよい。
本明細書に記載される異なる実装の要素は、上記で具体的に記載されない他の実装を形成するために組み合わせられ得る。要素は、それらの動作に悪影響を及ぼすことなく、本明細書に記載される方法、プロセス、コンピュータプログラム、データベース等から除外され得る。様々な別個の要素を1つ以上の個々の要素に組み合わせて、本明細書に記載される機能を行うことができる。
特許請求される発明のシステム、アーキテクチャ、デバイス、方法、及びプロセスは、本明細書に記載される実施形態からの情報を使用して開発された変化及び適応を包含することが企図される。本明細書に記載されるシステム、アーキテクチャ、デバイス、方法、及びプロセスの適応及び/または修正は、この説明によって企図されるように行われてもよい。
説明を通じて、物品、デバイス、システム、及びアーキテクチャが、特定の構成要素を有するか、含むか、または備えると記載される場合、またはプロセス及び方法が、特定のステップを有するか、含むか、または含むと記載される場合、追加として、列挙された構成要素から本質的になるか、またはそれらからなる本発明の物品、デバイス、システム、及びアーキテクチャが存在し、列挙された処理ステップから本質的になるか、またはそれらからなる本発明によるプロセス及び方法が存在することが企図される。
本発明が動作可能なままである限り、ある特定の動作を行うためのステップの順序または順序は重要でないことを理解されたい。さらに、2つ以上のステップまたは動作が同時に実施されてもよい。
本明細書における、例えば、背景技術セクションにおける任意の刊行物の言及は、本明細書に提示される特許請求の範囲のいずれかに関して、その刊行物が先行技術として機能するという認識ではない。背景技術セクションは、明確さの目的のために提示され、任意の特許請求の範囲に関して先行技術の説明として意図されていない。
ヘッダは、読者の便宜のために提供される。ヘッダの存在及び/または配置は、本明細書に記載される主題の範囲を限定することを意図するものではない。
適用
入力配列内の残基のサブセット間の配列保存、その間の配列保存、及び/またはそのサブセットの配列保存を特徴付ける本開示の方法及びシステムは、様々な分析及び治療適用で有用である。配列保存を特徴付ける方法及びシステムの様々な使用が、本明細書に提供される。例えば、本明細書に開示される方法及びシステムを使用して、例えば、配列保存特性に基づいて、特徴付けられていない配列の治療的関連性を同定することができる。本明細書に開示される方法及びシステムの有用性の非限定的な例が提供される。
抗抗原抗体の選択のための抗原の同定
病原体種などの特定の種の例のうち、コード配列を含むゲノム及びプラスミド核酸配列は、変化し得る。多くの場合、特定の種のメンバーに由来する核酸配列の変化性は、公的に利用可能なゲノム配列及び/または他のゲノム配列、例えば非公開の配列決定データの分析によって明らかにすることができる。増大する異なる配列情報の量の分析の成功は、公的にアクセス可能なデータベースに預託された配列の数だけが継続的に増加しているため、ますます困難になっている。本開示の方法及びシステムは、入力配列の保存特性を分析する体系的な方法を提供することによって、この困難に対処する。
病原体ゲノムの保存配列は、抗病原体治療剤の製造に使用するための抗原のソースとして、病原体ゲノムの非保存配列より好ましい場合がある。抗原の同定及び/または特徴付けは、エピトープの同定及び/または特徴付けであり得るか、またはそれらを含み得る。抗原は、エピトープであり得るか、またはエピトープを含むことができ、抗原の同定に有用であるとして本明細書に開示される1つ以上の特性は、エピトープの同定に等しく有用である。少なくとも1つの理由は、関連する病原体集団内で比較的保存されている配列に結合するか、または別様に相互作用する治療用抗体または他の薬物分子が、必然的に、病原体種のより広範囲のメンバーにわたって、したがって、それに罹患している患者において、治療的利益を有する可能性が高いことである。したがって、関連する病原体集団において保存される本開示の方法及びシステムによって同定される配列は、治療用抗体の開発のための候補抗原として、または小分子薬物などの他の治療様式の標的として同定される。治療用抗原に対する抗体の開発のためのある特定の方法は、当該技術分野で知られており、1つの例を提供するだけで、対象となる抗原を有する抗体生成生物の免疫化を含むことができる。
様々な実施形態では、保存されていると特定された配列は、二次的考慮によって治療的に関連する標的を同定するためにさらに絞り込むことができる。1つの二次的考慮事項は、同定された候補治療標的が、既知のヒト配列と同一であるかどうかである。同定された配列が既知のヒト配列と同一であるかどうかは、公開されているデータベース及び検索ツールを使用して判定することができる。本開示の方法及びシステムの様々な実施形態は、既知のヒト配列と同一である候補治療標的の候補治療標的のうちからの(例えば、候補抗原のリストからの)除去を含む。既知のヒト配列と同一の配列を除去する少なくとも1つの理由は、そのような配列を標的とする薬物(例えば、抗体)の開発が、非標的ヒト細胞及び/またはタンパク質との臨床的に有害または他の望ましくない相互作用を示し得ることである。
二次的考慮事項の追加の例としては、タンパク質アノテーション、機能、及び/またはタンパク質ドメインの存在もしくは非存在が挙げられる。タンパク質ドメインの例としては、シグナル配列、分泌を引き起こすことが知られているか、または分泌と関連付けられるドメイン、細胞膜タンパク質の特徴的なドメイン、細胞膜もしくは細胞壁における配列の細胞外曝露を示す特性、または他の構造的特徴が挙げられる。配列の細胞外曝露は、治療剤と配列との相互作用を促進し、したがって、治療標的において望ましい可能性のある特性である。
ある特定の実施形態では、上記の情報、例えば、本明細書に提示される方法を介した候補抗原の同定は、病原体を原因とする疾患の治療のための1つ以上の組成物の開発(あるいは1つ以上の新たな及び/または既存の組成物の同定)に使用される。ある特定の実施形態では、複数の薬物組成物(例えば、薬物カクテル)を伴う療法が特定され、及び/または開発される。例えば、本明細書に提示される方法を使用して、COVID-19などの病原体を原因とする疾患の治療のために、薬物(例えば、薬物カクテル)において使用され得る最良の1つ以上の病原体中和抗体を選択することができる。いくつかの実施形態では、薬物は、疾患に対する治療ではなく、むしろ例えばワクチンが開発されるまで、例えばパンデミックでの使用のために、人体(例えば、免疫不全または他の方法で脆弱な個体)が感染症に対抗する能力を増強するためのストップギャップである。いくつかの実施形態では、薬物は、病原体(例えば、SARS-CoV2などのウイルス)の機能を妨げて、ウイルスによって人体に引き起こされる損傷を予防または低減し、それによって、例えば、患者が人工呼吸器及び/または他の呼吸器デバイスを使用する必要性を低減する。いくつかの実施形態では、薬物は、特定の個体または個体群のためにカスタマイズされた治療法である。ある特定の実施形態では、マウスまたは他の動物は、病原体を原因とする疾患の治療のための組成物の製造に使用されてもよく、本明細書に提示されるコンピュータ実装方法を介して生成された情報は、そのような製造に使用される。例えば、マウスまたは他の動物に、製造して1つ以上の患者に投与することができるヒト抗体を生成するためのウイルス(またはその部分)を注射してもよい。ある特定の実施形態では、ウイルスまたは他の病原体の配列の同定から、本明細書に提示される方法を使用して大規模に製造することができる抗体の生成まで進めることが可能である。
ある特定の実施形態では、本明細書に提示される方法を使用して、タンパク質をコードする核酸のコード配列、タンパク質をコードする核酸配列の保存配列、タンパク質をコードする核酸の非保存配列(変化を特徴とする配列)、特定のタンパク質内の保存ドメイン、及び/または特定のタンパク質内の非保存ドメイン(変化を特徴とするセクション)を評価し、例えば、当該タンパク質は、病原体と関連付けられる。次いで、そのような評価は、病原体によって引き起こされる疾患を治療、予防、または改善するための抗体、侵入阻害剤、ワクチン、及び/または他の治療剤の開発において使用される。例えば、ある特定の実施形態では、本明細書に提示される方法を使用して、宿主細胞の感染を容易にするために、ヒトまたはコウモリアンジオテンシン変換酵素2(ACE2)受容体などのSARS-CoV2宿主細胞上の受容体に結合するSARS-CoV2スパイク(S)タンパク質もしくはその受容体結合ドメイン(RBD)、またはそれをコードする核酸配列を評価する。したがって、例えば、本明細書は、SARS-CoV2スパイク(S)タンパク質またはそのRBDの分析のために本明細書で提供されるコンピュータ実装方法の使用を含み、SARS-CoV2ウイルス、すなわち、COVID-19によって引き起こされる疾患を治療、予防、または改善するための抗体、侵入阻害剤、ワクチン、及び/または他の治療剤の開発に有用な配列を同定する。
ある特定の実施形態では、本明細書に提示される方法を使用して、SARS-CoV2スパイク(S)タンパク質もしくはその受容体結合ドメイン(RBD)をコードする核酸のコード配列、SARS-CoV2スパイク(S)タンパク質もしくはそのRBDをコードする核酸配列の保存配列、SARS-CoV2スパイク(S)タンパク質もしくはそのRBDをコードする核酸の非保存ドメイン(変化を特徴とする配列)、特定のSARS-CoV2スパイク(S)タンパク質もしくはそのRBDの保存ドメイン、及び/またはSARS-CoV2スパイク(S)タンパク質もしくはそのRBDの非保存ドメイン(変化を特徴とするセクション)を評価する。ある特定の実施形態では、本明細書に提示される方法を使用して、コロナウイルススパイクタンパク質(例えば、MERSもしくはSARS-CoVスパイクタンパク質)またはそのRBDをコードする核酸のコード配列、コロナウイルススパイクタンパク質(例えば、MERSもしくはSARS-CoVスパイクタンパク質)またはそのRBDをコードする核酸配列の保存配列、コロナウイルススパイクタンパク質(例えば、MERSもしくはSARS-CoVスパイクタンパク質)またはそのRBDをコードする核酸の非保存配列(変化を特徴とする配列)、特定のコロナウイルススパイクタンパク質(例えば、MERSもしくはSARS-CoVスパイクタンパク質)またはそのRBDの保存ドメイン、及び/またはコロナウイルススパイク質(例えば、MERSもしくはSARS-CoVスパイクタンパク質)またはそのRBDの非保存ドメイン(変化を特徴とするセクション)を評価する。
候補ワクチン抗原の同定
ワクチンには、病原体(ワクチン抗原)に対する抗体のレシピエント生成を刺激するために投与される非病原性物質が含まれる。ワクチン抗原は、病原体によって提示されるペプチドであり得る。ワクチンの有効性は、ワクチン抗原に応答してレシピエントによって生成された抗体が、レシピエントが後で感染する場合、病原体に結合することができることを必要とする。病原体の株が異なり得るため、ワクチンは、ワクチン抗原が保存配列を有するか、またはそれによってコードされるときに、最も広範囲の病原体株に対する免疫を提供する。抗抗原抗体の選択のための抗原の同定に関して本明細書に開示されるように、本開示の方法及びシステムを使用して、保存された病原体配列を同定することができる。したがって、本開示の方法及びシステムを使用して同定された保存された病原体配列は、ワクチン抗原及び/または候補ワクチン抗原として利用され得る。候補のワクチン抗原は、免疫化及び感染の臨床的に適切な動物モデルで検証され得、例えば、安全性及び有効性について臨床試験でさらに検証され得る。
代表的な試料の同定
様々な病原体の多くの株が臨床試料で既知であるか、または存在する可能性が高いが、研究は、実用的及び/または歴史的理由のために、多くの場合、1つまたはいくつかの株に焦点を当てている。しかしながら、治療剤の開発において、病原体の臨床試料、好ましくは多くのまたはほとんどの臨床試料を表す研究株の使用は、広範な臨床効果を有する治療剤の発見を促進する。本開示は、他の株と比較して1つ以上の研究株のゲノムの保存を特徴付けるために、1つ以上の研究株の配列と、他の株からの配列の多様な集合(例えば、多様な臨床単離株)との比較のために使用され得る方法及びシステムを提供する。研究系統の配列の保存は、分析された研究株、または研究株配列が、比較された株のすべてまたは相当数を表すことを示す。したがって、本開示の方法及びシステムによる分析における保存性を実証する研究株、または研究株配列は、臨床的に関連する研究に適している。対照的に、本開示の方法及びシステムによる分析で保存性を実証しない研究株、または研究株配列は、臨床的に関連する研究に最適ではない場合がある。
抗生物質耐性マーカーの同定
病原性細菌の抗生物質耐性は、増大している臨床的懸念の対象。例えば、抵抗性感染症は、死亡をもたらす可能性がはるかに高い。細菌は、染色体変異及び水平遺伝子導入によるプラスミドなどの移動性遺伝子要素の取得という2つの主な経路を通じて、抗生物質に対する耐性を獲得する。プラスミドは、染色体とは独立して複製し、コンジュゲーションによって細菌間を水平に移動することができるゲノム外環状DNA分子である。したがって、プラスミドは、多くの病原体における抗生物質耐性の普及に重要な役割を果たす。
本明細書で提供される方法及びシステムは、病原性細菌の抗体耐性(抗体耐性マーカー)を示す、及び/またはその原因となる遺伝子及び/またはアミノ酸配列を同定するために適用され得る。本明細書で提供される方法及びシステムは、保存配列を同定するために、プラスミド配列に適用され得る。したがって、プラスミドの保存配列は、候補抗生物質耐性マーカーとして同定される。さらに、プラスミドの保存配列は、プラスミドにより付与された抗生物質耐性を破壊または中和する治療剤の開発のための候補標的である。
質量分析のためのペプチド発見リソースの生成
質量分析は、それらの正確に測定された質量電荷比に基づいて分析された物質を同定する。ペプチド質量電荷比は、ペプチド配列に依存する。少なくとも部分的に、質量電荷比が複雑であるため、質量分析は、検出された質量電荷比を予想される質量電荷比の集合と比較することによって、ペプチドを同定することができる。結果として、質量分析は予期しない配列を同定することに失敗する可能性がある。特定の種の生物、例えば、臨床的に関連する病原体の単離株は、それらのゲノム及びプロテオームにおいて変化するため、多様な試料の分析は、予期しないペプチドを同定することができないことによって妨げられる可能性がある。
本開示の方法及びシステムは、対象となる種、例えば、臨床的に関連する病原体を表す多様なゲノムの保存特性を分析することによって、質量分析のためのペプチド発見リソースを提供することができる。例えば、本開示の方法及びシステムによる分析は、質量分析データを照会するために使用される予想される質量電荷比の集合を改訂するために使用され得る配列多様性の領域を特定することができる。したがって、本開示の方法及びシステムによって同定される多様な配列の組み込みは、例えば、臨床的に関連する病原体ペプチドを発見するために、試料中のペプチドを発見する質量分析の能力を増強することができる。
1つの特定の例を提供するために、主要な組織適合性複合体I関連タンパク質は、予想される質量電荷比の適切な集合に基づいてデータが分析される場合、臨床的に関連性があり、質量分析によって発見され得る。主要な組織適合複合体(ヒトにおけるMHCまたはHLA)は、すべての有核細胞の細胞表面上に発現し、獲得免疫系におけるT細胞への抗原提示のための機構として作用する。これらは、Tリンパ球(MHCクラスIの場合はCD8細胞毒性Tリンパ球(CTL)、及びMHCクラスIIの場合はCD4ヘルパーTリンパ球)による検査のために、処理された自己及び外来タンパク質(抗原)のペプチド断片を細胞表面に表示するように機能する。このプロセスに関与する抗原を特徴付けることは、例えば、治療用抗体の開発のための抗原として、治療上有用な標的の同定に寄与する。質量分析は、MHC提示抗原を同定するために使用することができる技法である。しかしながら、質量分析が存在する抗原を検出するように設計されていない場合、MHC提示抗原を検出することはできない。本明細書に開示される方法及びシステムを使用して、標的病原体のMHC提示抗原の質量分析データを照会するための予想される質量電荷比の包括的な集合を生成することができる。
ゲノム、遺伝子、及びタンパク質(例えば、抗原)内の多様性の領域の特定
本明細書に開示されるように、提供される方法及びシステムを使用して、ゲノム、遺伝子及びタンパク質内の多様性の領域を特定することができる。多様性の領域(他の領域よりも保存性が低い領域)は、より実質的な実験室操作、例えば、実験室導入配列修飾に適し得るヌクレオチドまたはアミノ酸位置を示すことができる。ある特定の生物学的文脈では、配列多様性の性質は、例えば免疫グロブリンの可変領域における場合と同様に、生物学的機能に重要である。多様性はまた、多様性の領域が、比較的保存性の高い配列の分析と比較して、同じまたはより短い期間にわたって系統発生分析のためのより多くの配列変化を提供することができるため、系統発生分析に有用であり得る領域を示すことができる。多様性はまた、保存配列よりも最近の進化的発達の対象となる配列を示すこともできる。
流行を引き起こす病原体の系統樹の生成
本明細書に開示される方法及びシステムを使用して、系統樹を生成することができる。系統樹は、病原体、例えば、急速に進化する病原体からの配列の分析に特に有用である。系統樹を使用して、ヒト免疫不全ウイルス(HIV)などの病原体の分子疫学及び伝播、重症急性呼吸器症候群(SARS)関連コロナウイルス(例えば、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、コロナウイルス疾患(COVID-19)を引き起こすウイルスである重症急性呼吸器症候群コロナウイルス2(SARS-CoV2)、中東呼吸器症候群関連コロナウイルス(MERS-CoV)の起源及びその後の進化、鳥インフルエンザ、ならびに季節性及び大流行するヒトインフルエンザウイルスの進化する疫学を説明することができる。系統樹を使用して決定され得る情報の例としては、新たな病原体株の起源の実際の時間、または新たな種におけるその出現、病原体組換え及び再選別事象、病原体流行における集団サイズ変化の速度、ならびに病原体が特定の集団及び地理的領域内でどのように拡散及び進化するかの推定が(信頼限界と共に)挙げられる。
ゲノム研究は、変異及び移動性遺伝子要素の獲得が、微生物クローンの病理に劇的に影響を及ぼす可能性があることを確認した。実際、ささやかな遺伝子変化でさえ、宿主-病原体相互作用、及び病原体の抗体認識に劇的な影響を及ぼす可能性がある。宿主内進化は、患者だけでなく、病院における疫学的目的のための株の関連性を区別するための閾値を確立するためにも影響を及ぼす。微生物の遺伝的多様性、免疫調節、及び個々の株による損傷は、劇的に変化し得る。したがって、ゲノムレベルでの宿主-病原体相互作用の多様性を説明するためにクローンの幅を捕捉するプログラムは、微生物病原体の生物学の固有の理解をもたらす可能性が高い。その理解は、感染を予防し、病原体の管理を改善するためのより効果的で個別化されたアプローチの開発を促進する。
系統樹から得られた配列由来の情報は、公衆衛生及び治療的介入の設計及び実施を助けることができる。例えば、HBVに適用されるように、本開示の方法及びシステムを使用して、特定の株(例えば、実験株)がどのHBV系統に属するかを決定し、HBV系統にわたる1つ以上のHBV遺伝子またはタンパク質(例えば、HBsAg)の遺伝的多様性を決定し、自然界に存在するHBVまたはHBV遺伝子またはタンパク質(例えば、HBsAg)の遺伝的バリアントの数及び幅を決定し、及び/またはHBVゲノムのどの部分、またはその遺伝的もしくはコードされたタンパク質配列(例えば、HBsAg)のどの部分が遺伝的に保存されるかを決定することができる。別の例では、本明細書に開示される方法及びシステムを使用して、特定の患者が感染する株、及び/またはそのような株の定義される遺伝的特性、及び/または特定の患者が感染する株の抗生物質耐性特性を決定することができる。別の例では、本明細書に開示される方法及びシステムを使用して、病原体ゲノム、例えば、エボラゲノムの遺伝的多様性を決定し、測定された変化が臨床的効果を有するかどうかを決定することができる。
オルソロガス遺伝子の同定
オルソログは、共通の祖先DNA配列に由来する異なる種の相同配列である。種間の比較遺伝学は、オルソログが種間で機能的に関連していると考えられることに少なくとも部分的に基づいている。詳細な分析は、多くの場合、オルソログ同定の正確さを確立することができるが、ゲノム情報のバルク分析は、オルソログ同定の誤差率を増加させた。したがって、ミスアノテーションされたオルソログから実際のオルソログを区別するための改善された方法が必要である。本明細書に開示されるように、本開示の方法及びシステムを使用して、配列保存を特徴付けることができる。したがって、本開示の方法及びシステムを使用して、オルソログ同定の精度を改善し、及び/または既存のオルソログミスアノテーションを特定及び修正することができる。本明細書に開示される方法及びシステムによるオルソログの同定を使用して、新たな配列または特徴付けられていない配列を以前にアノテーションされた配列とアラインメントし、以前のアノテーションをオルソロガスの新たな配列または特徴付けられていない配列に適用することによって、新たな配列または特徴付けられていない配列にアノテーションすることができる。
抗体療法の選択のためのエピトープ配列変化の評価、推定エスケープ変異体の同定、及び個別化された医学
様々な実施形態では、特定の遺伝子もしくはタンパク質、またはその部分の変化を評価することが有用である。例えば、抗体療法の文脈では、いくつかの重要な質問は、抗体の抗原及び/またはエピトープの変化の評価によって取り組むことができる。
本明細書の様々な実施形態は、療法及び/または治療剤を含む。様々な実施形態では、療法剤及び/または治療剤は、低分子干渉RNA(siRNA)またはショートヘアピンRNA(shRNA)であり得るか、またはそれを含むことができる。様々な実施形態では、療法及び/または治療剤は、抗体であり得るか、または抗体を含むことができる。様々な実施形態では、療法剤及び/または治療剤は、COVID-19を治療する療法剤及び/または治療剤であり得るか、またはそれらを含む。COVID-19を治療する例示的な療法及び/または治療剤としては、レムデシビル、カレトラ、イベルメクチン、タミフル、アビガン、コルクリ、デキサメタゾン、クロロキン、ヒドロキシクロロキン、アジスロマイシン、il-6阻害剤(例えば、トシリズマブ及びサリルマブ)、キナーゼ阻害剤(例えば、アカラブルチニブ、イブルチニブ、ザヌブルチニブ、バリシチニブ、ルキソリチニブ、及びトファシチニブ)、インターフェロン、回復期血漿、SARS-CoV-2スパイクタンパク質に結合する抗体(抗SARS-CoV-2-スパイクタンパク質抗体)、mAb10933(Regeneron)、mAb10934(Regeneron)、mAb10987(Regeneron)、mAb10989(Regeneron)、REGN-COV2(Regeneron)、LY-CoV555(Eli Lilly)、LY-CoV016(Eli Lilly)、及び/またはBNT162b2(Pfizer)を挙げることができる。例示的な抗体としては、例えば、参照によりその全体、特にCOVID-19治療用抗体、ならびにそれらのエピトープ及び他の特性に関して本明細書に組み込まれる、米国特許第10,787,501号に開示されるように、COVID-19療法で使用するためのSARS-CoV-2のスパイクタンパク質に結合する抗体を挙げることができる。例示的な抗SARS-CoV-2-スパイクタンパク質(SARS-CoV-2-S)抗体及び抗体配列を提供する、米国特許第10,787,501号の表1は、参照によりその全体が具体的に組み込まれる。以下の表3も参照されたい。
Figure 2023502596000004
Figure 2023502596000005
Figure 2023502596000006
Figure 2023502596000007
Figure 2023502596000008
Figure 2023502596000009
Figure 2023502596000010
Figure 2023502596000011
Figure 2023502596000012
Figure 2023502596000013
Figure 2023502596000014
Figure 2023502596000015
Figure 2023502596000016
Figure 2023502596000017
Figure 2023502596000018
Figure 2023502596000019
Figure 2023502596000020
表1の抗体は、それぞれそれらの抗体のCDR-H及びCDR-L、V及びV、またはHC及びLCを含む(本明細書に記載されるようなそれらのバリアントを含む)多重特異性分子、例えば、抗体または抗原結合断片を含む。
実施形態では、多重特異性分子に含まれ得る、COV-Sに特異的に結合する抗原結合ドメインは、以下を含む:
(1)
(i)表1に記載されるCDR-H1、CDR-H2、及びCDR-H3アミノ酸配列を含む、重鎖可変ドメイン配列、ならびに
(ii)表1に記載されるCDR-L1、CDR-L2、及びCDR-L3アミノ酸配列を含む、軽鎖可変ドメイン配列、
あるいは
(2)
(i)表1に記載されるアミノ酸配列を含む、重鎖可変ドメイン配列、及び
(ii)表1に記載されるアミノ酸配列を含む、軽鎖可変ドメイン配列、
あるいは
(3)
(i)表1に記載されるアミノ酸配列を含む、重鎖免疫グロブリン配列、及び
(ii)表1に記載されるアミノ酸配列を含む、軽鎖免疫グロブリン配列。
様々な実施形態では、本開示は、コロナウイルススパイクタンパク質(CoV-S)に特異的に結合する単離された組換え抗体またはその抗原結合断片を提供し、ここで抗体は、以下の特性のうちの1つ以上を有する:(a)約10-9M未満のEC50でCoV-Sに結合する、(b)当該コロナウイルス感染動物への投与後のコロナウイルス感染動物における生存率の増加を、当該投与なしの同等のコロナウイルス感染動物と比較して実証する、及び/または(c)表1のHCVRに対して少なくとも約90%の配列同一性を有するアミノ酸配列を含む重鎖可変領域(HCVR)内に含まれる3つの重鎖相補性決定領域(CDR-H1、CDR-H2、及びCDR-H3)と、表1のLCVRに対して少なくとも約90%の配列同一性を有するアミノ酸配列を含む軽鎖可変領域(LCVR)内に含まれる3つの軽鎖CDR(CDR-L1、CDR-L2、及びCDR-L3)と、を含む。
様々な実施形態では、スパイクタンパク質は、以下の配列(配列番号108)に対して少なくとも80%の同一性(例えば、少なくとも80%、90%、95%、96%、97%、98%、99%、または100%の同一性)を有する。
MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFRSSVLHSTQDLFLPFFSNVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIRGWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVYSSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPINLVRDLPQGFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFLLKYNENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITNLCPFGEVFNATRFASVYAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCFTNVYADSFVIRGDEVRQIAPGQTGKIADYNYKLPDDFTGCVIAWNSNNLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYFPLQSYGFQPTNGVGYQPYRVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFLPFQQFGRDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAIHADQLTPTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPRRARSVASQSIIAYTMSLGAENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTMYICGDSTECSNLLLQYGSFCTQLNRALTGIAVEQDKNTQEVFAQVKQIYKTPPIKDFGGFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDCLGDIAARDLICAQKFNGLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIGVTQNVLYENQKLIANQFNSAIGKIQDSLSSTASALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDILSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEIRASANLAATKMSECVLGQSKRVDFCGKGYHLMSFPQSAPHGVVFLHVTYVPAQEKNFTTAPAICHDGKAHFPREGVFVSNGTHWFVTQRNFYEPQIITTDNTFVSGNCDVVIGIVNNTVYDPLQPELDSFKEELDKYFKNHTSPDVDLGDISGINASVVNIQKEIDRLNEVAKNLNESLIDLQELGKYEQYIKWPWYIWLGFIAGLIAIVMVTIMLCCMTSCCSCLKGCCSCGSCCKFDEDDSEPVLKGVKLHYT
いくつかの実施形態では、本開示は、配列番号108に記載されるアミノ酸配列を含むSARS-CoV-2スパイクタンパク質に結合する単離された抗体またはその抗原結合断片を提供し、当該単離された抗体または抗原結合断片は、配列番号29に記載されるアミノ酸配列を含む重鎖可変領域(HCVR)内に含まれる3つの重鎖相補性決定領域(CDR)(HCDR1、HCDR2、及びHCDR3)と、配列番号33に記載されるアミノ酸配列を含む軽鎖可変領域(LCVR)内に含まれる3つの軽鎖相補性決定領域(CDR)(LCDR1、LCDR2、及びLCDR3)と、を含む。
いくつかの実施形態では、HCDR1は、配列番号30に記載されるアミノ酸配列を含み、HCDR2は、配列番号31に記載されるアミノ酸配列を含み、HCDR3は、配列番号32に記載されるアミノ酸配列を含み、LCDR1は、配列番号34に記載されるアミノ酸配列を含み、LCDR2は、配列番号35に記載されるアミノ酸配列を含み、LCDR3は、配列番号36に記載されるアミノ酸配列を含む。いくつかの実施形態では、単離された抗体またはその抗原結合断片は、配列番号29に記載されるアミノ酸配列を含むHCVRを含む。いくつかの実施形態では、単離された抗体またはその抗原結合断片は、配列番号33に記載されるアミノ酸配列を含むLCVRを含む。いくつかの実施形態では、単離された抗体またはその抗原結合断片は、配列番号29に記載されるアミノ酸配列を含むHCVR、及び配列番号33に記載されるアミノ酸配列を含むLCVRを含む。
いくつかの実施形態では、本開示は、配列番号108に記載されるアミノ酸配列を含むSARS-CoV-2スパイクタンパク質に結合する単離された抗体を提供し、当該単離された抗体は、配列番号29に記載されるアミノ酸配列を含む重鎖可変領域(HCVR)内に含まれる3つの重鎖相補性決定領域(CDR)(HCDR1、HCDR2、及びHCDR3)と、配列番号33に記載されるアミノ酸配列を含む軽鎖可変領域(LCVR)内に含まれる3つの軽鎖相補性決定領域(CDR)(LCDR1、LCDR2、及びLCDR3)と、を含む。
いくつかの実施形態では、HCDR1は、配列番号30に記載されるアミノ酸配列を含み、HCDR2は、配列番号31に記載されるアミノ酸配列を含み、HCDR3は、配列番号32に記載されるアミノ酸配列を含み、LCDR1は、配列番号34に記載されるアミノ酸配列を含み、LCDR2は、配列番号35に記載されるアミノ酸配列を含み、LCDR3は、配列番号36に記載されるアミノ酸配列を含む。いくつかの実施形態では、単離された抗体は、配列番号29に記載されるアミノ酸配列を含むHCVR、及び配列番号33に記載されるアミノ酸配列を含むLCVRを含む。いくつかの実施形態では、単離された抗体は、配列番号37に記載されるアミノ酸配列を含む重鎖、及び配列番号38に記載されるアミノ酸配列を含む軽鎖を含む。場合によっては、免疫グロブリン定常領域は、IgG1定常領域である。場合によっては、単離された抗体は、組換え抗体である。場合によっては、単離された抗体は、多重特異性である。
いくつかの態様では、本開示は、上記または本明細書で考察される単離された抗体と、薬学的に許容される担体または希釈剤と、を含む、薬学的組成物を提供する。
場合によっては、抗体またはその抗原結合断片は、配列番号69に記載されるアミノ酸配列を含むHCVR内に含まれる3つの重鎖CDR(HCDR1、HCDR2及びHCDR3)と、配列番号73に記載されるアミノ酸配列を含むLCVR内に含まれる3つの軽鎖CDR(LCDR1、LCDR2及びLCDR3)と、を含む。場合によっては、抗体またはその抗原結合断片は、以下を含む:配列番号70に記載されるアミノ酸配列を含む、HCDR1;配列番号71に記載されるアミノ酸配列を含む、HCDR2;配列番号72に記載されるアミノ酸配列を含む、HCDR3;配列番号74に記載されるアミノ酸配列を含む、LCDR1;配列番号75に記載されるアミノ酸配列を含む、LCDR2;及び配列番号76に記載されるアミノ酸配列を含む、LCDR3。場合によっては、抗体またはその抗原結合断片は、配列番号69に記載されるアミノ酸配列を含むHCVR、及び配列番号73に記載されるアミノ酸配列を含むLCVRを含む。場合によっては、抗体またはその抗原結合断片は、配列番号77に記載されるアミノ酸配列を含む重鎖、及び配列番号78に記載されるアミノ酸配列を含む軽鎖を含む。
いくつかの実施形態では、本開示は、配列番号108に記載されるアミノ酸配列を含むSARS-CoV-2スパイクタンパク質に結合する単離された抗体またはその抗原結合断片を提供し、当該単離された抗体または抗原結合断片は、配列番号69に記載されるアミノ酸配列を含む重鎖可変領域(HCVR)内に含まれる3つの重鎖相補性決定領域(CDR)(HCDR1、HCDR2、及びHCDR3)と、配列番号73に記載されるアミノ酸配列を含む軽鎖可変領域(LCVR)内に含まれる3つの軽鎖相補性決定領域(CDR)(LCDR1、LCDR2、及びLCDR3)と、を含む。
いくつかの実施形態では、HCDR1は、配列番号70に記載されるアミノ酸配列を含み、HCDR2は、配列番号71に記載されるアミノ酸配列を含み、HCDR3は、配列番号72に記載されるアミノ酸配列を含み、LCDR1は、配列番号74に記載されるアミノ酸配列を含み、LCDR2は、配列番号75に記載されるアミノ酸配列を含み、LCDR3は、配列番号76に記載されるアミノ酸配列を含む。いくつかの実施形態では、単離された抗体またはその抗原結合断片は、配列番号69に記載されるアミノ酸配列を含むHCVRを含む。いくつかの実施形態では、単離された抗体またはその抗原結合断片は、配列番号73に記載されるアミノ酸配列を含むLCVRを含む。いくつかの実施形態では、単離された抗体またはその抗原結合断片は、配列番号69に記載されるアミノ酸配列を含むHCVR、及び配列番号73に記載されるアミノ酸配列を含むLCVRを含む。
いくつかの実施形態では、本開示は、配列番号108に記載されるアミノ酸配列を含むSARS-CoV-2スパイクタンパク質に結合する単離された抗体を提供し、当該単離された抗体は、配列番号69に記載されるアミノ酸配列を含む重鎖可変領域(HCVR)内に含まれる3つの重鎖相補性決定領域(CDR)(HCDR1、HCDR2、及びHCDR3)と、配列番号73に記載されるアミノ酸配列を含む軽鎖可変領域(LCVR)内に含まれる3つの軽鎖相補性決定領域(CDR)(LCDR1、LCDR2、及びLCDR3)と、を含む。
いくつかの実施形態では、HCDR1は、配列番号70に記載されるアミノ酸配列を含み、HCDR2は、配列番号71に記載されるアミノ酸配列を含み、HCDR3は、配列番号72に記載されるアミノ酸配列を含み、LCDR1は、配列番号74に記載されるアミノ酸配列を含み、LCDR2は、配列番号75に記載されるアミノ酸配列を含み、LCDR3は、配列番号76に記載されるアミノ酸配列を含む。いくつかの実施形態では、単離された抗体は、配列番号69に記載されるアミノ酸配列を含むHCVR、及び配列番号73に記載されるアミノ酸配列を含むLCVRを含む。いくつかの実施形態では、単離された抗体は、配列番号77に記載されるアミノ酸配列を含む重鎖、及び配列番号78に記載されるアミノ酸配列を含む軽鎖を含む。場合によっては、免疫グロブリン定常領域は、IgG1定常領域である。場合によっては、単離された抗体は、組換え抗体である。場合によっては、単離された抗体は、多重特異性である。
いくつかの実施形態では、薬学的組成物は、第2の治療剤をさらに含む。場合によっては、第2の治療剤は、配列番号108に記載されるアミノ酸配列を含むSARS-CoV-2スパイクタンパク質に結合する第2の抗体、またはその抗原結合断片、抗炎症剤、抗マラリア剤、及びTMPRSS2に結合する抗体、またはその抗原結合断片からなる群から選択される。
対象となる抗体のエピトープが知られているある特定の実施形態では、エピトープのアミノ酸の変化の頻度を使用して、対象となる抗体に結合されるかまたは結合されると予想されるエピトープを含む対象の頻度を決定することができる。例えば、臨床的文脈において、抗体の標的抗原をコードするゲノムを対象から単離し、単離されたゲノムが抗体のエピトープ(例えば、抗体が結合するか、もしくは結合することが予想される抗原配列)または異なる配列(例えば、エピトープに対応するが、抗体が結合するか、もしくは結合することが予想される配列ではない配列)をコードするかどうかについて分析することができる。いくつかの異なるエピトープが比較される場合、治療集団においてより保存されているエピトープを標的とする抗体は、治療集団においてより保存されていないエピトープを標的とする抗体よりも一般に好まれ得る。
治療用抗体の抗原、特にエピトープにおける変化は、推定エスケープバリアントを評価するために抗体療法を受けた対象において評価することができる。例えば、抗体療法による治療的介入は、介入の影響を受けにくいバリアント(エスケープバリアント)のための選択圧をもたらす。エスケープバリアントの一例は、病原体を抗体療法による治療の影響を受けにくくする病原体ゲノム変異の選択である。例えば、病原体ゲノム変異は、抗体がその標的抗原に結合しなくなるような、治療用抗体のエピトープにおける変化であり得る。本開示の方法及びシステムを使用して、治療後に対象から抗体の標的抗原をコードするゲノムを単離し、抗原及び/またはエピトープのアミノ酸配列の変化について配列を分析することによって、抗体療法を受けた対象における推定エスケープバリアント選択を評価することができる。抗体が結合することができる対象配列(例えば、参照配列)と比較したエピトープにおける変化は、推定エスケープバリアントとして特定することができる。
抗原またはエピトープにおける変化の分析を使用して、特定の抗体療法を受けていない対象が抗体療法に応答する可能性があるかどうかを決定することもできる。抗体療法によって結合されるか、または結合されると予想される配列とマッチするエピトープ配列をコードするゲノム配列(例えば、病原体ゲノム配列)を含む対象は、抗体療法に応答する可能性がある対象として分類され得る。逆に、抗体療法によって結合されるか、または結合されると予想される配列とマッチしないエピトープ配列に対応するアミノ酸をコードするゲノム配列(例えば、病原体ゲノム配列)を有する対象は、抗体療法に応答する可能性がない対象として分類され得る。したがって、本開示の方法及びシステムは、抗体療法に応答する可能性がある対象がその療法での治療のために選択され、抗体療法に応答する可能性がない個体がその療法での治療のために選択されない、個別化された医薬適用で使用され得る。
適用のための例示的な方法及びシステム
本開示から理解されるように、本明細書で提供される方法及びシステムは、クエリ配列、対象配列、及び/またはクエリ配列と対象配列との間のペアワイズ比較の分析を変化させることによって、少なくとも当事者において、様々な適用において有用であり得る。
様々な実施形態では、本開示の方法及びシステムは、クエリ及び(クエリと異なる場合は)対象配列を取得及び/または選択するステップと、クエリ及び対象配列からコード配列を抽出するステップと、すべてのクエリ抽出されたコード配列及びすべての対象抽出されたコード配列のペアワイズ比較であって、各比較について、1つ以上の分類因子(例えば、同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、変異パーセント、及び/または系統樹(例えば、系統発生的グループ化及び/または系統発生的関係))に関連するデータを生成するステップと、1つ以上の分類因子の1つ以上の閾値に基づいて、比較配列を1つ以上の分類された配列群に分類するステップと(例えば、各分類された配列群に類似性スコアが割り当てられる)、(例えば、類似性スコア閾値に基づいて)さらなる分析から1つ以上の分類された配列をフィルタリングするステップと、コード配列をアミノ酸配列に翻訳するステップと、翻訳されたコード配列をアラインメントするステップと、1つ以上の対象配列の各々について、保存性及び/または変化性を決定するステップと、を含む。
様々な実施形態では、本開示の方法及びシステムは、クエリ及び(クエリと異なる場合は)対象配列を取得及び/または選択するステップと、クエリ配列からコード配列を抽出するステップと、すべてのクエリ抽出されたコード配列及び対象配列コード配列が抽出されていないすべての対象配列のペアワイズ比較であって、各比較について、1つ以上の分類因子(例えば、同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、変異パーセント、及び/または系統樹(例えば、系統発生的グループ化及び/または系統発生的関係))に関連するデータを生成するステップと、1つ以上の分類因子の1つ以上の閾値に基づいて、比較配列を1つ以上の分類された配列群に分類するステップと(例えば、各分類された配列群に類似性スコアが割り当てられる)、(例えば、類似性スコア閾値に基づいて)さらなる分析から1つ以上の分類された配列をフィルタリングするステップと、コード配列をアミノ酸配列に翻訳するステップと、翻訳されたコード配列をアラインメントするステップと、1つ以上の対象配列もしくはその部分の各々について、保存性及び/または変化性を決定するステップと、を含む。
例示的な概略図は、図48に提供される。
様々な実施形態では、本開示の方法及びシステムは、クエリ及び(クエリと異なる場合は)対象配列を取得及び/または選択するステップと、クエリ及び対象配列からコード配列を抽出するステップと、コード配列をアミノ酸配列に翻訳するステップと、すべてのクエリ翻訳されたコード配列及びすべての対象翻訳されたコード配列のペアワイズ比較であって、各比較について、1つ以上の分類因子(例えば、同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、変異パーセント、及び/または系統樹(例えば、系統発生的グループ化及び/または系統発生的関係))に関連するデータを生成するステップと、1つ以上の分類因子の1つ以上の閾値に基づいて、比較配列を1つ以上の分類された配列群に分類するステップと(例えば、各分類された配列群に類似性スコアが割り当てられる)、(例えば、類似性スコア閾値に基づいて)さらなる分析から1つ以上の分類された配列をフィルタリングするステップと、各対象配列について、保存性及び/または変化性を決定するステップと、を含む。
様々な実施形態では、コード配列の抽出は、参照ゲノム配列のアノテーションに基づいている。参照ゲノム配列のアノテーションは、コード配列の同定、区画、または単離を含み得る。アノテーションされた参照ゲノム配列は、公的にアクセス可能なデータベースで利用可能であり、及び/またはユーザによって生成もしくは修飾され得る。したがって、対象配列が参照ゲノム配列である様々な実施形態では、クエリコード配列の同定及び/または抽出は、例えば、参照ゲノム配列におけるコード配列の利用可能なまたはユーザ定義のアノテーションに基づき得る。様々な実施形態では、対象及び/またはクエリゲノム配列のコード配列は、対象及び/またはクエリゲノム配列の、アノテーションされた参照ゲノム配列及び/またはそのコード配列へのアラインメントによって同定及び/または抽出することができる。
様々な実施形態では、クエリ及び対象配列からのコード配列の抽出は、少なくとも約20、30、40、50、60、70、80、90、100、125、150、175、200、250、または300以上のアミノ酸をコードする連続したインフレームコドンの検出に基づいている。
様々な実施形態では、クエリ配列と対象配列のペアワイズ比較は、BLASTアルゴリズムに基づいている。BLASTアルゴリズムは、当該技術分野で知られており、ヌクレオチド配列についてのBLASTN、及びアミノ酸配列についてのBLASTP、ギャップ付きBLAST、及びPSI-BLASTを含む。BLASTアルゴリズムは、配列をアラインメントし、限定されないが、同一性パーセント、変異の数、変異パーセント、カバレッジ長、カバレッジパーセント、及びE値を提供するデータを含む、各アラインメントのための様々なデータを生成する。
比較した配列は、表2に記載される分類因子に従って分類することができる。表2は、カバレッジパーセント及び変異の数に基づいて、分類された配列群に類似性スコアを割り当てる。分類された配列群の形成後、特定の閾値未満の類似性スコア(例えば、1未満、0.95未満、または0.8未満の類似性スコア)を有する分類された配列群を、さらなる分析からフィルタリングすることができる。
コード配列(例えば、コード配列の残りの分類された群)は、関連する遺伝コード(例えば、ヒト遺伝コード)を適用することによってアミノ酸配列に翻訳され得る。翻訳されたコード配列は、アラインメントされ得る。上述のように、アラインメントは、BLASTアルゴリズムを使用して達成され得る。次いで、配列の保存性及び/または変化性を決定することができる。本開示の方法及びシステムに記載される様々な分析は、アミノ酸配列のアラインメント後のフィルタリングまたは選択を必要としない。さらなる選択がないアラインメントは、貴重な情報を提供する。例えば、様々な実施形態では、アミノ酸配列のアラインメントは、アラインメント位置での保存(例えば、1つ以上のアラインメント位置の各々で参照と同じアミノ酸を含むアラインメントされた配列のパーセント)及びアラインメント位置での配列変化(例えば、各アラインメント位置で生じ得る異なるアミノ酸の数及び頻度)などの情報を提供する。アミノ酸アラインメント後にある特定の実施形態で配列が選択される程度では、選択は、例えば、アミノ酸配列のアラインメントによって生成される情報に適用される基準に従って、ユーザによって行うことができる。したがって、様々な実施形態では、アミノ酸配列にフィルターを適用せず、例えば、アミノ酸配列またはその部分の選択に閾値を使用しない。いくつかの実施形態では、保存配列または可変配列は、本明細書に開示されるような閾値に基づいて選択され得る。
保存性及び/または変化性が評価される様々な実施形態では、クエリは、配列の第1の集合であり、対象は、配列の第2の異なる集合である。様々な実施形態では、クエリは、配列の第1の集合であり、対象は、同じ配列の集合である。保存性及び/または変化性が評価される様々な実施形態では、クエリは、配列の第1の集合であり、対象は単一の配列(例えば、対象となる配列)である。
ある特定の実施形態では、保存性及び/または変化性は、クエリが特定の種(例えば、特定の病原体)の複数の生物由来の配列の第1の集合であり、対象が同じ配列の集合であるペアワイズ比較に関して評価することができる。様々なそのような実施形態は、特定の種の保存配列及び/または特定の種の可変配列を決定するために使用され得るペアワイズ比較からデータを生成し得る。保存配列は、例えば、抗体またはワクチン開発において抗原またはエピトープを選択または使用することができる。保存配列は、陽性選択、例えば、進化的生存選択圧及び/または抗生物質耐性、例えば、ヒト対象における病原体の選択下での形質であり得る。可変配列は、例えば、実験室工学(例えば、遺伝子工学)の標的として選択されてもよく、系統発生分析の標的として選択されてもよく、及び/または進化的多様化を受けている配列として同定されてもよい。配列の変化を使用して、例えば、質量分析のための可能な質量を生成するために使用することができる、可能性のある配列(例えば、可能性のあるアミノ酸配列)のリストまたはデータベースを生成することもできる。
ある特定の実施形態では、保存性及び/または変化性は、クエリが特定の種の複数の生物(例えば、特定の病原体)からの配列の集合であり、対象が特定の株または生物からの1つ以上の配列を含むペアワイズ比較に関して評価され得る。様々な実施形態では、クエリは、異なる試料(例えば、病原体の複数の臨床単離株)からの複数の生物からの配列を含む。様々な実施形態では、対象は、実験株である。ある特定の実施形態では、対象の配列とクエリ配列との間の測定された保存性及び/または変化性を使用して、対象の株または生物がクエリ配列をどの程度表すかを決定することができる。様々な実施形態では、対象株がクエリ配列を表すかどうかの決定は、生物レベルで、及び/またはすべてのアラインメントされた配列の評価によって決定される。様々な実施形態では、生物レベルでの決定は、系統発生分析に基づき得る。例えば、系統発生分析は、クラスター内の1つ以上の対象となる配列を同定し、すべてのクラスターのサイズを決定することができる。
配列の変化を使用して、例えば、質量分析のための可能な質量のリストまたはデータベースを生成するために使用することができる、可能性のある配列(例えば、可能性のあるアミノ酸配列)のリストまたはデータベースを生成することもできる。
1つの特定の例を提供するために、本開示の方法及びシステムは、SARS-CoV-2などのウイルスの配列が分析される様々な実施形態で使用され得る。様々な実施形態では、本開示の方法及びシステムの、SARS-CoV-2配列の分析への適用は、GenBankアクセッション番号MN908947として公開されている既知のSARS-CoV-2参照ゲノム配列などの1つ以上の参照SARS-CoV-2配列を対象として含むことができる。いくつかの実施形態では、対象は、SARS-CoV-2参照ゲノム配列の部分(例えば、GenBankアクセッション:MN908947の部分)であり得るか、またはそれを含み得、アミノ酸配列、例えば、SARS-CoV-2スパイクタンパク質またはその部分(例えば、SARS-CoV-2スパイク受容体結合ドメイン(RBD))をコードする。様々な実施形態では、クエリ配列(複数可)は、複数のSARS-CoV-2ゲノム配列またはそこから抽出されるコード配列であり得る。例えば、少なくとも約120,000のSARS-CoV-2ゲノム配列は、すべてのインフルエンザデータ(GISAID)データベース(https://www.gisaid.org/)の共有に関するグローバルイニシアチブを通じて利用可能である。代替的または追加的なクエリ配列は、感染した対象に由来し得る。コード配列は、例えば、図26に見出される一般概略図に従って、SARS-CoV-2ゲノム配列から抽出することができる。すべてのクエリ抽出されたコード配列とすべての対象抽出されたコード配列とのペアワイズ比較は、図27に見出される一般概略図に示されるように行うことができる。クエリと対象SARS-CoV-2配列とのペアワイズ比較は、同一性パーセント、カバレッジパーセント、カバレッジ長、所定のカバレッジ長にわたる同一性パーセント、E値、変異の数、変異パーセント、及び系統樹(例えば、各比較についての系統発生的グループ化及び/または系統発生的関係を含む分類因子に関連するデータを生成する。これらのデータは、様々なさらなる分析を可能にする。結果として生じる配列比較データを含む要約表は、例えば、分類因子のサブセットを示す、図28の表に見出される一般レイアウトによって示されるように準備することができる。さらに、クエリSARS-CoV-2配列と参照SARS-CoV-2との各比較は、1つ以上の分類因子の1つ以上の閾値に基づいて、1つ以上の分類された配列群に分類することができる。いくつかの実施形態では、1つ以上の分類因子の1つ以上の閾値は、例えば、表2に示される類似性スコアの割り当てによって単一のメトリックに統合され得る。いくつかの実施形態では、1つ以上の分類因子(または2つ以上のそのような閾値に基づいて決定される類似性スコア)の閾値を使用して、SARS-CoV-2配列比較結果をカテゴリに分類することができ、1つ以上のカテゴリは、参照配列またはその部分により類似するクエリ配列を含み、1つ以上の異なるカテゴリは、参照配列またはその部分にそれほど類似しないクエリ配列を含む。したがって、様々な実施形態では、参照配列またはその部分に関してさらなる分析のために、参照配列により類似した配列を保持することができ、参照配列またはその部分に関してより類似性の低い配列をさらなる分析から除外することができる。参照配列またはその部分により類似した配列がクエリゲノム配列中に見出されるとき、その参照配列またはその部分は、例えば、図28に概して示されるように、クエリゲノム配列中で「存在する」と称され得る。保存性及び/または変化性の尺度は、グラフ、ヒートマップ、系統樹、ランク付けリスト、及び他のフォーマットで表示され得る(一般的な例示については、例えば、図29~33を参照)。各参照配列またはその部分の残りのSARS-CoV-2配列を翻訳してアラインメントすることができ、アミノ酸保存の尺度及び/またはアラインメントされた配列の変化性を決定することができる。
様々な実施形態では、核酸配列の比較のためのBLASTパラメータは、BLASTデフォルト値を使用して、または表4に提供される値のうちのいずれかを用いて行うことができる。様々な実施形態では、アミノ酸配列の比較のためのBLASTパラメータは、BLASTデフォルト値を使用して、または表5に提供される値のうちのいずれかを用いて行うことができる。本開示のシステム及び方法の使用のために、任意のパラメータまたはパラメータの組み合わせの値の特定のセットは必要とされない。
Figure 2023502596000021
Figure 2023502596000022
例示的な実施形態
本開示は、とりわけ、以下の例示的な実施形態を含む:
1.病原体に対する療法の開発における候補抗原としてのアミノ酸配列を同定するための方法であって、
データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記病原体の異なる株の間の前記部分の保存性レベルに従って、前記アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、
保存されたものとして分類された前記アミノ酸配列の部分を選択し、前記選択された保存配列をヒトタンパク質配列と比較し、前記選択された保存配列をヒトタンパク質配列と同一または同一ではないものとしてさらに分類することと、
ヒトタンパク質配列と同一でない選択された保存配列を、前記病原体に対する療法の開発における候補抗原として分類することと、を含む、前記方法。
2.前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、実施形態1に記載の方法。
3.前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、実施形態1または実施形態2に記載の方法。
4.前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、実施形態1~3のいずれか1つに記載の方法。
5.前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、実施形態4に記載の方法。
6.前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、実施形態5に記載の方法。
7.前記同一性の尺度が、変異の数を含む、実施形態1~6のいずれか1つに記載の方法。
8.前記カバレッジの尺度が、カバレッジパーセントを含む、実施形態1~7のいずれか1つに記載の方法。
9.前記同一性の尺度が、E値を計算することを含む、実施形態1~8のいずれか1つに記載の方法。
10.前記選択された保存配列を候補抗原として分類することが、前記選択された保存配列における1つ以上のアミノ酸ドメインの存在または非存在を決定することをさらに含む、実施形態1~9のいずれか1つに記載の方法。
11.前記選択された保存配列を候補抗原として分類することが、前記候補抗原が、前記病原体の膜及び/または細胞壁内に分泌されるか、または曝露されるタンパク質に対応するかどうかを決定することをさらに含む、実施形態1~10のいずれか1つに記載の方法。
12.前記選択された保存配列を候補抗原として分類することが、前記選択された保存配列における膜貫通ドメインの存在を決定することをさらに含む、実施形態1~11のいずれか1つに記載の方法。
13.前記療法が、ワクチンを含み、前記方法が、免疫原性について候補抗原を非臨床的に評価することをさらに含む、実施形態1~12のいずれか1つに記載の方法。
14.前記評価するステップが、前記候補抗原を含むポリペプチドを動物に投与することを含む、実施形態13に記載の方法。
15.前記療法が、抗体療法を含み、前記方法が、前記候補抗原上のエピトープに特異的に結合する抗体またはその断片を生成することをさらに含む、実施形態1~14のいずれか1つに記載の方法。
16.前記病原体が、ウイルスである、実施形態1~15のいずれか1つに記載の方法。
17.前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、実施形態16に記載の方法。
18.前記ウイルスが、コロナウイルスである、実施形態16に記載の方法。
19.前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、実施形態18に記載の方法。
20.前記病原体が、細菌である、実施形態1~15のいずれか1つに記載の方法。
21.前記細菌が、Staphylococcus種またはPseudomonas種である、実施形態20に記載の方法。
22.病原体感染症の治療のための1つ以上の対象への治療剤の投与後に、1つ以上の推定エスケープ変異を同定する方法であって、
前記治療剤を各対象に投与した後に、1つ以上の対象から単離された複数の完全または部分的病原体ゲノム配列を得ることと、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記アラインメントされたアミノ酸配列において、参照よりも前記アラインメントされたアミノ酸配列においてより頻繁な1つ以上のアミノ酸バリアントを同定することであって、前記1つ以上のアミノ酸バリアントが、1つ以上の推定エスケープ変異である、前記同定することと、を含む、前記方法。
23.前記参照が、正準病原体配列を表す1つ以上の完全もしくは部分的病原体ゲノム配列、前記病原体の1つ以上の臨床株、前記治療剤を投与された前記対象のうちの1つ以上からの1つ以上の以前の病原体試料、または前記治療剤を投与されなかった対象からの1つ以上の病原体試料を含む、実施形態22に記載の方法。
24.前記推定エスケープ変異のうちの1つ以上が、前記治療剤の参照ポリペプチドとの結合親和性を低下させるかどうかを決定するステップをさらに含む、実施形態22または実施形態23に記載の方法。
25.前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、実施形態22~24のいずれか1つに記載の方法。
26.前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、実施形態22~25のいずれか1つに記載の方法。
27.前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、実施形態22~26のいずれか1つに記載の方法。
28.前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、実施形態27に記載の方法。
29.前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、実施形態28に記載の方法。
30.前記同一性の尺度が、変異の数を含む、実施形態22~29のいずれか1つに記載の方法。
31.前記カバレッジの尺度が、カバレッジパーセントを含む、実施形態22~30のいずれか1つに記載の方法。
32.前記同一性の尺度が、E値を計算することを含む、実施形態22~31のいずれか1つに記載の方法。
33.前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
タンパク質をコードする核酸の非保存配列、
前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、実施形態22~32のいずれか1つに記載の方法。
34.アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、実施形態22~33のいずれか1つに記載の方法。
35.前記病原体が、ウイルスである、実施形態22~34のいずれか1つに記載の方法。
36.前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、実施形態35に記載の方法。
37.前記ウイルスが、コロナウイルスである、実施形態35に記載の方法。
38.前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、実施形態37に記載の方法。
39.前記コロナウイルスが、SARS-CoV-2である、実施形態38に記載の方法。
40.コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、実施形態22~39のいずれか1つに記載の方法。
41.前記治療剤が、抗体を含む、実施形態22~40のいずれか1つに記載の方法。
42.前記抗体が、SARS-CoV-2に結合する、実施形態41に記載の方法。
43.前記抗体が、SARS-CoV-2スパイクタンパク質に結合する、実施形態42に記載の方法。
44.前記抗体が、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む、実施形態41~43のいずれか1つに記載の方法。
45.前記病原体が、細菌である、実施形態22~34のいずれか1つに記載の方法。
46.前記細菌が、Staphylococcus種またはPseudomonas種である、実施形態45に記載の方法。
47.病原体感染症の治療のための治療剤を、それを必要とする対象に投与する方法であって、
アミノ酸配列の保存された部分を、
データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記病原体の前記異なる株の間の前記部分の保存性レベルに従って、前記アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、によって選択することと、
前記アラインメントされたアミノ酸配列の保存された部分を選択することと、
前記対象から単離された完全または部分的病原体ゲノム配列がアミノ酸配列の前記保存された部分をコードする場合に、前記治療剤を前記対象に投与することと、を含み、前記治療剤が、前記アミノ酸配列の前記保存された部分に選択的に結合する、前記方法。
48.前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、実施形態47に記載の方法。
49.前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、実施形態47または実施形態48に記載の方法。
50.前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、実施形態47~49のいずれか1つに記載の方法。
51.前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、実施形態50に記載の方法。
52.前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、実施形態51に記載の方法。
53.前記同一性の尺度が、変異の数を含む、実施形態47~52のいずれか1つに記載の方法。
54.前記カバレッジの尺度が、カバレッジパーセントを含む、実施形態47~53のいずれか1つに記載の方法。
55.前記同一性の尺度が、E値を計算することを含む、実施形態47~54のいずれか1つに記載の方法。
56.前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
タンパク質をコードする核酸の非保存配列、
前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、実施形態47~55のいずれか1つに記載の方法。
57.アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、実施形態47~56のいずれか1つに記載の方法。
58.前記病原体が、ウイルスである、実施形態47~57のいずれか1つに記載の方法。
59.前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、実施形態58に記載の方法。
60.前記ウイルスが、コロナウイルスである、実施形態58に記載の方法。
61.前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、実施形態60に記載の方法。
62.前記コロナウイルスが、SARS-CoV-2である、実施形態61に記載の方法。
63.コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、実施形態47~62のいずれか1つに記載の方法。
64.前記治療剤が、抗体を含む、実施形態47~63のいずれか1つに記載の方法。
65.前記抗体が、SARS-CoV-2に結合する、実施形態64に記載の方法。
66.前記抗体が、SARS-CoV-2スパイクタンパク質に結合する、実施形態65に記載の方法。
67.前記抗体が、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む、実施形態64~66のいずれか1つに記載の方法。
68.前記病原体が、細菌である、実施形態47~57のいずれか1つに記載の方法。
69.前記細菌が、Staphylococcus種またはPseudomonas種である、実施形態68に記載の方法。
70.病原体に感染した対象の治療のための治療剤を選択するための方法であって、
データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記病原体の前記異なる株の間の前記部分の保存性レベルに従って前記アラインメントされたアミノ酸配列の複数の部分の各々を分類し、それによって前記病原体を表すコード配列の保存された部分を同定することと、
前記病原体に感染した対象に対する治療として、保存コード配列に結合する治療剤を選択することと、を含む、前記方法。
71.前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、実施形態70に記載の方法。
72.前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、実施形態70または実施形態71に記載の方法。
73.前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、実施形態70~72のいずれか1つに記載の方法。
74.前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、実施形態73に記載の方法。
75.前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、実施形態74に記載の方法。
76.前記同一性の尺度が、変異の数を含む、実施形態70~75のいずれか1つに記載の方法。
77.前記カバレッジの尺度が、カバレッジパーセントを含む、実施形態70~76のいずれか1つに記載の方法。
78.前記同一性の尺度が、E値を計算することを含む、実施形態70~77のいずれか1つに記載の方法。
79.前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
タンパク質をコードする核酸の非保存配列、
前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、実施形態70~78のいずれか1つに記載の方法。
80.アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、実施形態70~79のいずれか1つに記載の方法。
81.前記方法が、前記治療剤をワクチンまたはその成分として非臨床的に評価することをさらに含む、実施形態80に記載の方法。
82.前記評価するステップが、前記治療剤を動物に投与することを含む、実施形態81に記載の方法。
83.前記病原体が、ウイルスである、実施形態70~82のいずれか1つに記載の方法。
84.前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、実施形態83に記載の方法。
85.前記ウイルスが、コロナウイルスである、実施形態83に記載の方法。
86.前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、実施形態85に記載の方法。
87.前記コロナウイルスが、SARS-CoV-2である、実施形態86に記載の方法。
88.コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、実施形態70~87のいずれか1つに記載の方法。
89.前記治療剤が、抗体を含む、実施形態70~88のいずれか1つに記載の方法。
90.前記抗体が、SARS-CoV-2に結合する、実施形態89に記載の方法。
91.前記抗体が、SARS-CoV-2スパイクタンパク質に結合する、実施形態90に記載の方法。
92.前記抗体が、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む、実施形態89~91のいずれか1つに記載の方法。
93.前記病原体が、細菌である、実施形態70~82のいずれか1つに記載の方法。
94.前記細菌が、Staphylococcus種またはPseudomonas種である、実施形態93に記載の方法。
95.病原体を表すアミノ酸配列の部分の保存性を評価するための方法であって、
データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記アラインメントされたアミノ酸配列を使用して、前記病原体を表すアミノ酸配列の1つ以上の部分の保存性レベルを特定することと、を含む、前記方法。
96.前記部分のうちの1つ以上が、前記病原体に対する療法の前記開発における候補抗原として同定される、実施形態95に記載の方法。
97.前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、実施形態95または実施形態96に記載の方法。
98.前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、実施形態95~97のいずれか1つに記載の方法。
99.前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、実施形態95~98のいずれか1つに記載の方法。
100.前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、実施形態99に記載の方法。
101.前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、実施形態100に記載の方法。
102.前記同一性の尺度が、変異の数を含む、実施形態95~101のいずれか1つに記載の方法。
103.前記カバレッジの尺度が、カバレッジパーセントを含む、実施形態95~102のいずれか1つに記載の方法。
104.前記同一性の尺度が、E値を計算することを含む、実施形態95~103のいずれか1つに記載の方法。
105.前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
タンパク質をコードする核酸の非保存配列、
前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、実施形態95~104のいずれか1つに記載の方法。
106.アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、実施形態95~105のいずれか1つに記載の方法。
107.前記病原体が、ウイルスである、実施形態95~106のいずれか1つに記載の方法。
108.前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、実施形態107に記載の方法。
109.前記ウイルスが、コロナウイルスである、実施形態107に記載の方法。
110.前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、実施形態109に記載の方法。
111.前記コロナウイルスが、SARS-CoV-2である、実施形態110に記載の方法。
112.前記ゲノム配列が、SARS-CoV-2ゲノム配列であり、前記参照配列が、SARS-CoV-2参照配列である、実施形態95~111のいずれか1つに記載の方法。
113.コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、またはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、実施形態95~112のいずれか1つに記載の方法。
114.前記病原体が、細菌である、実施形態95~106のいずれか1つに記載の方法。
115.前記細菌が、Staphylococcus種またはPseudomonas種である、実施形態114に記載の方法。
116.単離された病原体が循環株を表すかどうかを特定するための方法であって、
データ構造から前記病原体の前記循環株の複数の完全または部分的ゲノム配列を得ることと、
前記循環株の前記配列の1つ以上の保存された部分を同定することと、
前記単離された病原体の複数の完全または部分的ゲノム配列を得ることと、
前記単離された病原体が前記循環株を表すかどうかを、前記単離された病原体の前記配列の少なくとも一部分を、前記循環株の前記配列の前記同定された1つ以上の保存された部分と比較することによって同定することと、を含む、前記方法。
117.前記循環株の前記配列の1つ以上の保存された部分を同定することが、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記アラインメントされたアミノ酸配列のうちの前記部分の保存性レベルに従って、前記アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、を含む、実施形態116に記載の方法。
118.前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、実施形態116または実施形態117に記載の方法。
119.前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、実施形態116~118のいずれか1つに記載の方法。
120.前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、実施形態116~119のいずれか1つに記載の方法。
121.前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、実施形態120に記載の方法。
122.前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、実施形態121に記載の方法。
123.前記同一性の尺度が、変異の数を含む、実施形態116~122のいずれか1つに記載の方法。
124.前記カバレッジの尺度が、カバレッジパーセントを含む、実施形態116~123のいずれか1つに記載の方法。
125.前記同一性の尺度が、E値を計算することを含む、実施形態116~124のいずれか1つに記載の方法。
126.前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
タンパク質をコードする核酸の非保存配列、
前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、実施形態116~125のいずれか1つに記載の方法。
127.アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、実施形態116~126のいずれか1つに記載の方法。
128.前記病原体が、ウイルスである、実施形態116~127のいずれか1つに記載の方法。
129.前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、実施形態128に記載の方法。
130.前記ウイルスが、コロナウイルスである、実施形態128に記載の方法。
131.前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、実施形態130に記載の方法。
132.前記コロナウイルスが、SARS-CoV-2である、実施形態131に記載の方法。
133.コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、またはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、実施形態116~132のいずれか1つに記載の方法。
134.前記病原体が、細菌である、実施形態116~127のいずれか1つに記載の方法。
135.前記細菌が、Staphylococcus種またはPseudomonas種である、実施形態134に記載の方法。
136.病原体を表すペプチドの質量電荷比を特定するための方法であって、
データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
プロセッサによって、選択されたコード配列を対応するアミノ酸配列に変換することと、
前記アミノ酸配列またはその部分のうちの1つ以上の質量電荷比を決定することと、を含む、前記方法。
137.前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、実施形態136に記載の方法。
138.前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、実施形態136または実施形態137に記載の方法。
139.前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、実施形態136~138のいずれか1つに記載の方法。
140.前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、実施形態139に記載の方法。
141.前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、実施形態140に記載の方法。
142.前記同一性の尺度が、変異の数を含む、実施形態136~141のいずれか1つに記載の方法。
143.前記カバレッジの尺度が、カバレッジパーセントを含む、実施形態136~142のいずれか1つに記載の方法。
144.前記同一性の尺度が、E値を計算することを含む、実施形態136~143のいずれか1つに記載の方法。
145.前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
タンパク質をコードする核酸の非保存配列、
前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、実施形態136~144のいずれか1つに記載の方法。
146.アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、実施形態136~145のいずれか1つに記載の方法。
147.前記病原体が、ウイルスである、実施形態136~146のいずれか1つに記載の方法。
148.前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、実施形態147に記載の方法。
149.前記ウイルスが、コロナウイルスである、実施形態147に記載の方法。
150.前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、実施形態149に記載の方法。
151.前記コロナウイルスが、SARS-CoV-2である、実施形態150に記載の方法。
152.コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、またはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、実施形態136~151のいずれか1つに記載の方法。
153.前記病原体が、細菌である、実施形態136~146のいずれか1つに記載の方法。
154.前記細菌が、Staphylococcus種またはPseudomonas種である、実施形態153に記載の方法。
155.候補抗生物質耐性マーカーとしてのアミノ酸配列を同定するための方法であって、
データ構造から病原性細菌の複数の完全または部分的プラスミド配列を得ることと、
コンピューティングデバイスのプロセッサによって、前記プラスミド配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記複数のプラスミド配列の間の前記部分の保存性レベルに従って、前記アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、
保存されたものとして分類された前記アミノ酸配列の部分を選択することと、
選択された保存配列を候補抗生物質耐性マーカーとして分類することと、を含む、前記方法。
156.選択された配列中の膜貫通ドメインの存在を含む1つ以上の追加の基準に従って、前記候補抗生物質耐性マーカーを候補として特定することをさらに含む、実施形態155に記載の方法。
157.前記データ構造がコンティグを含み、前記データ構造から前記複数の完全または部分的プラスミド配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的プラスミド配列のうちの少なくともいくつかを生成することを含む、実施形態155または実施形態156に記載の方法。
158.前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、実施形態155~157のいずれか1つに記載の方法。
159.前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、実施形態155~158のいずれか1つに記載の方法。
160.前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、実施形態159に記載の方法。
161.前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、実施形態160に記載の方法。
162.前記同一性の尺度が、変異の数を含む、実施形態155~161のいずれか1つに記載の方法。
163.前記カバレッジの尺度が、カバレッジパーセントを含む、実施形態155~162のいずれか1つに記載の方法。
164.前記同一性の尺度が、E値を計算することを含む、実施形態155~163のいずれか1つに記載の方法。
165.前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
タンパク質をコードする核酸の非保存配列、
前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、実施形態155~164のいずれか1つに記載の方法。
166.アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、実施形態155~165のいずれか1つに記載の方法。
167.前記細菌が、Staphylococcus種またはPseudomonas種である、実施形態155~166のいずれか1つに記載の方法。
168.プラスミドを表すコード配列の1つ以上の保存された部分を同定するための方法であって、
データ構造から病原性細菌の複数の完全または部分的プラスミド配列を得ることと、
コンピューティングデバイスのプロセッサによって、前記プラスミド配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記アミノ酸配列の複数の部分の各々を、前記複数のプラスミド配列の間の前記部分の保存性レベルに従って分類し、それによって前記プラスミドを表すコード配列の1つ以上の保存された部分を同定することと、を含む、前記方法。
169.前記データ構造がコンティグを含み、前記データ構造から複数の完全または部分的プラスミド配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的プラスミド配列のうちの少なくともいくつかを生成することを含む、実施形態168に記載の方法。
170.前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、実施形態168または実施形態169に記載の方法。
171.前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、実施形態168~170のいずれか1つに記載の方法。
172.前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、実施形態171に記載の方法。
173.前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、実施形態172に記載の方法。
174.前記同一性の尺度が、変異の数を含む、実施形態168~173のいずれか1つに記載の方法。
175.前記カバレッジの尺度が、カバレッジパーセントを含む、実施形態168~174のいずれか1つに記載の方法。
176.前記同一性の尺度が、E値を計算することを含む、実施形態168~175のいずれか1つに記載の方法。
177.前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
タンパク質をコードする核酸の非保存配列、
前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、実施形態168~176のいずれか1つに記載の方法。
178.アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、実施形態168~177のいずれか1つに記載の方法。
179.前記細菌が、Staphylococcus種またはPseudomonas種である、実施形態168~178のいずれか1つに記載の方法。
180.病原体を表すコード配列の1つ以上の保存された部分を自動的に同定するためのシステムであって、前記システムが、
プロセッサと、
命令を有するメモリと、を備え、前記命令が、前記プロセッサによって実行されると、前記プロセッサに、
データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を取得させ、
前記プロセッサによって、前記ゲノム配列からコード配列を抽出させ、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類させ、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含み、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択させ、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換させ、
前記プロセッサによって、前記アミノ酸配列をアラインメントさせ、かつ、
前記アラインメントされたアミノ酸配列の複数の部分の各々を、前記病原体の前記異なる株の間の前記部分の保存性レベルに従って分類し、それによって前記病原体を表すコード配列の1つ以上の保存された部分を同定させる、前記システム。
181.前記命令が、前記プロセッサによって実行されると、前記プロセッサに、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算させ、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、実施形態180に記載のシステム。
182.前記命令が、前記プロセッサによって実行されると、前記プロセッサに、前記類似性の尺度のマトリックスを作成させ、前記マトリックスのグラフィック表現をレンダリングさせ、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示させる、実施形態181に記載のシステム。
183.前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、実施形態182に記載のシステム。
184.前記データ構造がコンティグを含み、前記命令が、前記プロセッサによって実行されると、前記プロセッサによって、重複するコンティグをマージして完全または部分的ゲノム配列のうちの少なくともいくつかを生成することによって、前記プロセッサに、前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を取得させる、実施形態180~183のいずれか1つに記載のシステム。
185.前記命令が、前記プロセッサによって実行されると、前記プロセッサに、
前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
タンパク質をコードする核酸の非保存配列、
前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、実施形態180~184のいずれか1つに記載のシステム。
186.前記命令が、前記プロセッサによって実行されると、前記プロセッサに、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価させる、実施形態180~185のいずれか1つに記載のシステム。
187.前記病原体が、ウイルスである、実施形態180~186のいずれか1つに記載のシステム。
188.前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、実施形態187に記載のシステム。
189.前記ウイルスが、コロナウイルスである、実施形態187に記載のシステム。
190.前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、実施形態189に記載のシステム。
191.前記コロナウイルスが、SARS-CoV-2である、実施形態190に記載のシステム。
192.前記病原体が、細菌である、実施形態180~186のいずれか1つに記載のシステム。
193.前記細菌が、Staphylococcus種またはPseudomonas種である、実施形態192に記載のシステム。
194.プラスミドを表すコード配列の1つ以上の保存された部分を自動的に同定するためのシステムであって、前記システムが、
プロセッサと、
命令を有するメモリと、を備え、前記命令が、前記プロセッサによって実行されると、前記プロセッサに、
データ構造から病原性細菌の複数の完全または部分的プラスミド配列を取得させ、
前記プロセッサによって、プラスミド配列からコード配列を抽出させ、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類させ、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含み、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択させ、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換させ、
前記プロセッサによって、前記アミノ酸配列をアラインメントさせ、かつ
前記アミノ酸配列の複数の部分の各々を、前記複数のプラスミド配列の間の前記部分の保存性レベルに従って分類し、それによって前記プラスミドを表すコード配列の1つ以上の保存された部分を同定させる、前記システム。
195.前記命令が、前記プロセッサによって実行されると、前記プロセッサに、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算させ、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、実施形態194に記載のシステム。
196.前記命令が、前記プロセッサによって実行されると、前記プロセッサに、前記類似性の尺度のマトリックスを作成させ、前記マトリックスのグラフィック表現をレンダリングさせ、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示させる、実施形態195に記載のシステム。
197.前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、実施形態196に記載のシステム。
198.前記データ構造がコンティグを含み、前記命令が、前記プロセッサによって実行されると、前記プロセッサによって、重複するコンティグをマージして前記完全または部分的プラスミド配列のうちの少なくともいくつかを生成することによって、前記プロセッサに、病原性細菌の前記複数の完全または部分的プラスミド配列を取得させる、実施形態194~197のいずれか1つに記載のシステム。
199.前記命令が、前記プロセッサによって実行されると、前記プロセッサに、
前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
タンパク質をコードする核酸の非保存配列、
前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、実施形態194~198のいずれか1つに記載のシステム。
200.前記命令が、前記プロセッサによって実行されると、前記プロセッサに、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価させる、実施形態194~199のいずれか1つに記載のシステム。
201.前記病原体が、ウイルスである、実施形態194~200のいずれか1つに記載のシステム。
202.前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、実施形態201に記載のシステム。
203.前記ウイルスが、コロナウイルスである、実施形態201に記載のシステム。
204.前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、実施形態203に記載のシステム。
205.前記コロナウイルスが、SARS-CoV-2である、実施形態204に記載のシステム。
206.前記病原体が、細菌である、実施形態194~200のいずれか1つに記載のシステム。
207.前記細菌が、Staphylococcus種またはPseudomonas種である、実施形態206に記載のシステム。
208.病原体感染症の治療のための1つ以上の対象への治療剤の投与後の1つ以上の推定エスケープ変異の同定に使用するための治療剤であって、前記使用が、
前記治療剤を各対象に投与した後に、1つ以上の対象から単離された複数の完全または部分的病原体ゲノム配列を得ることと、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記アラインメントされたアミノ酸配列において、参照よりも前記アラインメントされたアミノ酸配列においてより頻繁な1つ以上のアミノ酸バリアントを同定することであって、前記1つ以上のアミノ酸バリアントが、1つ以上の推定エスケープ変異である、前記同定することと、を含む、前記治療剤。
209.病原体感染症の治療に使用するための治療剤であって、前記使用が、
アミノ酸配列の保存された部分を、
データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を取得することと、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記病原体の前記異なる株の間の前記部分の保存性レベルに従って、前記アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、
前記アラインメントされたアミノ酸配列の保存された部分を選択することと、によって選択することと、
前記対象から単離された完全または部分的病原体ゲノム配列がアミノ酸配列の前記保存された部分をコードする場合に、前記治療剤を対象に投与することと、を含み、前記治療剤が、前記アミノ酸配列の前記保存された部分に選択的に結合する、前記治療剤。
210.抗体によって結合される病原体エピトープが保存されるかどうかを決定する方法であって、
データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を取得することと、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記コード配列を、前記病原体エピトープをコードする参照配列と比較すること、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記病原体の前記異なる株の間の前記病原体エピトープの前記保存性レベルを決定することと、を含む、前記方法。
210.病原体感染症の治療のための1つ以上の対象への薬剤の投与後に、1つ以上の推定エスケープ変異を同定するための前記薬剤の製造のための治療剤の使用であって、前記使用が、
前記薬剤を各対象に投与した後に、1つ以上の対象から単離された複数の完全または部分的病原体ゲノム配列を得ることと、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記アラインメントされたアミノ酸配列において、参照よりも前記アラインメントされたアミノ酸配列においてより頻繁な1つ以上のアミノ酸バリアントを同定することであって、前記1つ以上のアミノ酸バリアントが、1つ以上の推定エスケープ変異である、前記同定することと、を含む、前記使用。
211.病原体感染症の治療のための薬剤の前記製造のための治療剤の使用であって、前記使用が、
アミノ酸配列の保存された部分を、
データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を取得することと、
コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
前記病原体の前記異なる株の間の前記部分の保存性レベルに従って、前記アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、
前記アラインメントされたアミノ酸配列の保存された部分を選択することと、によって選択することと、
前記対象から単離された完全または部分的病原体ゲノム配列がアミノ酸配列の前記保存された部分をコードする場合に、前記治療剤を対象に投与することと、を含み、前記治療剤が、前記アミノ酸配列の前記保存された部分に選択的に結合する、前記使用。
本実施例は、本開示の例示的な方法及びシステム、ならびにそれらの例示的な使用を提供する。過去10年間で、最も頻繁に配列決定される種の中には、多くの病原性を持つウイルス及び細菌を含む、大量の配列決定されたゲノムが見られた。例えば、NCBIデータベースに存在する約150万を超えるゲノム配列の1つのレビューによれば、NCBIデータベースは、約642,604個の真核生物ゲノム配列、約757,524個の細菌ゲノム配列、及び約176,471個のウイルスゲノム配列を含む。
研究者は、いくつかの例において、大規模ゲノムデータセットの分析が、疫学的に臨床結果と相関する病原体ゲノムの変化を明らかにすることができることを見出した。ある特定の実施例では、そのような相関変化は、病原体表現型に著しく寄与し得る。しかしながら、公的にアクセス可能なゲノム配列の数が毎週数千のゲノムだけ増加するにつれて、拡大する配列決定情報の量を管理することがますます困難になっている。さらに、配列データにアクセスすることは、ユーザフレンドリーではなく、データを作業可能な形式に変換するためには、計算スキルが必要である。本実施例は、公的にアクセス可能なゲノム配列を抽出及び処理する方法及びシステムを提供する。本明細書で提供される方法及びシステムは、例えば、低いまたは最小限のユーザ入力で、公的にアクセス可能なゲノム配列の分析を行うユーザフレンドリーな計算プログラムで使用することが特に適している。
本実施例は、病原体表現型、例えば、宿主-病原体相互作用、治療開発に影響を与えるか、または治療開発(例えば、治療用抗体の開発)のための標的を提供することに影響を及ぼすか、もしくは影響を及ぼす可能性があるゲノムの特定の特性を明らかにするための、公的に入手可能なゲノム配列の分析の能力を実証する。本実施例は、とりわけ、治療剤の開発において使用する保存配列、例えば、治療用抗体開発のための抗原としての保存配列を同定する本開示の方法及びシステムの有用性を特に実証する。従来のワクチン学は、ワクチン抗原の選択及び検証に約5~約15年を必要とし得、ゲノム塩基アプローチを使用する逆ワクチン学は、ワクチン抗原の選択及び検証に約1~約2年を必要とし得るが、本明細書に開示される方法及びシステムは、例えば、約1~約2週間で、ワクチン開発のための抗原を迅速に同定し、ワクチン抗原の選択及び検証を容易にすることができる。
実施例1:治療上の目的の保存配列を同定するための例示的な方法及びシステム
本実施例は、治療上の目的の保存配列を同定するための例示的な方法及びシステムを提供する。本実施例は、Rで記述されたコンピュータプログラム(「Got_Gene」)を利用し、このプログラムは、当該技術分野で既知のBLASTアルゴリズム及び固有のRパッケージを使用して、何千もの入力ゲノム配列を同定、比較、及び特徴付けする。本明細書に開示されるGot_Geneプログラムは、ユーザフレンドリーであり、計算スキルを必要としない。公開データベースを自動的に調査して、表、グラフィック、ビジュアルの形で包括的な情報のセットを提供する。
本実施例のプログラムは、約2,500行のコード及び10Rパッケージを含んでいた。本実施例のプログラムは、2~4個の外部プログラムを利用した:BLASTn、PhyML及びQuickTreeの一方または両方、ならびに任意選択でMegaHit。BLASTアルゴリズムは、アラインメントのために使用され、例えば、ワールドワイドウェブ上のncbi.nlm.nih.govで使用可能であり、QuickTreeは、系統発生分析のために使用され、例えば、HyperText Transfer Protocol github.com/tseemann/quicktreeで使用可能であり、MegaHitは、配列アセンブリのために使用され、例えば、ワールドワイドウェブ上のmetagenomics.wiki/tools/assembly/megahitで使用可能である。利用されるRパッケージには、data.table、IRanges、reutils、biofiles、ggplot2、cowplot、RColorBrewer、reshape2、gridExtra、DECIPHER、shiny、colourpicker、及びplotlyが含まれる。
任意の特定の例示または説明に拘束されることを望まないが、本実施例で使用されるGot_Geneプログラムは、5つのステップを含んでいるとみなすことができる(例えば、図18を参照)。
(1)まず、ユーザは、対象となる遺伝子のセットを抽出するためのゲノムに関する情報を示す。これは、選択ゲノム配列が、Got_Geneプログラムにおける入力として(例えば、対象入力として)使用するために同定され得ることに基づいて、対象となる生物の選択を含む。ユーザはまた、比較分析に使用されるクエリ配列のリストを選択することもできる。
(2)機能及び配列ファイルは、NCBIから自動的にダウンロードされる。これは、例えば、NCBIなどの公的にアクセス可能なデータベースからの関連する配列のダウンロードによって、任意選択で配列アノテーション情報と共に配列を含む、入力(例えば、対象入力)の集合を含む。
(3)配列の(例えば、各クエリ配列と各対象配列との)ペアワイズBLAST比較は、すべてのゲノム配列にわたる対象となる各遺伝子の配列多様性のレベルを確立するデータを提供する。
(4)配列多様性情報(例えば、配列保存性)を表すデータは、例えば、生成されたGotテーブルにコンパイルされる。Gotテーブルは、各ゲノムにおける各遺伝子の存在または非存在、多様性のレベル、変化の性質、及びゲノム座標に関する情報を含む。ならびに
(5)Gotテーブルは、コンパイルされた配列多様性情報を表す表示(例えば、表示ヒートマップ、及び/またはグラフ)を生成するために使用される。生成された表示は、配列多様性のグラフ、最尤系統樹、及び/またはアラインメントファイルであり得るか、またはそれらを含み得る。次いで、遺伝子配列をすべてのゲノムから抽出し、翻訳して、ヌクレオチド及びアミノ酸アラインメントを作成する。各ステップは、fastaファイルに保存される。最後に、ゲノムベース及び遺伝子ベースの系統樹は、PhyMLプログラムを使用して作成され、別個のファイルに保存される。
これらのステップは、本明細書で提供される任意のステップまたは一連のステップを本開示の方法またはシステムに包含することを意図せず、それを限定、排除、または必要としない。
図1に提供されるように、本発明の方法及びシステムは、ユーザによって手動で提供されるか、または(Gff、Gbk、Gtfなどの特徴情報と共に)配列データベースから獲得される対象配列入力を含むことができ、ユーザによって手動で提供されるか、または例えば、デノボ配列決定データ(例えば、Illuminaもしくは他のハイスループット配列決定リード)から組み立てられるクエリ配列入力を含むことができる。クエリ配列及び対象配列は、各クエリが各対象に対してアラインメントされる。結果データは、GoTテーブルを生成するために使用される。GoTテーブルを使用して、グラフィック(グラフ、ヒートマップ)、配列アラインメント、翻訳配列アラインメント、及び系統樹表示(ゲノムベース及び/または遺伝子ベースの系統樹を含む)を含む情報表示を生成することができる。遺伝子またはアミノ酸配列は、例えば、(i)最も保存されている遺伝子、(ii)最も保存されていない遺伝子(すなわち、最も多様性または最も変化性)、(iii)毒性因子、(iv)抗生物質耐性、(v)ヒト配列相同性、(vi)分泌タンパク質及び/または分泌ドメインを含むタンパク質、ならびに(vii)膜貫通タンパク質もしくは表面タンパク質、及び/または膜貫通ドメインもしくは表面ドメインを含むタンパク質のうちの1つ以上のいずれかまたはすべてを同定することによって、ユーザが特定する目的で選択することができる。
方法またはシステムの第1のステップは、1つ以上の公的にアクセス可能なデータベース(例えば、NCBI)から(利用可能な場合、アノテーション情報と共に)獲得される(例えば、ダウンロードする)対象配列の特性を決定し、1つ以上のクエリ配列が対象配列との比較のために手動で提供されるかどうかを決定することであり得る(図2)。Got_Geneプログラムは、データを整理及び/または保存するためのある特定のフォルダを自動的に生成することができ、これらのフォルダは、図3に示される。
方法またはシステムの第2のステップは、いくつかのGot_Geneフォルダ(参照配列、アライナーデータベース、及びアノテーションフォルダ)にコピーされ、保存され得る1つ以上の公的にアクセス可能なデータベースから対象配列及びアノテーション情報を獲得することであり得る(図4)。1つ以上の公的にアクセス可能なデータベースから配列及びアノテーション情報を取得するためのステップは、図5に提供される。Rパッケージreutilsを使用して、NCBIデータベースのサーバでチャンネルを開く。Reutilsは、NCBI Entrezプログラミングユーティリティへのインターフェースであり、PubMed、Gen bank、またはGEOなどのNCBIデータベースと相互作用するシステムのサポートを提供し、プログラミングインターフェースの各機能は、R関数と称される。
方法またはシステムの第3のステップは、クエリ配列を手動で提供するか、または公的にアクセス可能なデータベースからクエリ配列をダウンロードすることであり得る(図6)。
方法またはシステムの第4のステップは、クエリ配列をアライナーデータベースフォルダ内の配列(すなわち、対象配列)とアラインメントすることであり得る(図7)。BLASTを使用したアラインメントのステップは、図8に提供される。例えば、配列比較のためのBLASTパラメータは、outfmt‘7 std sgi stitle’、最小E値=約0.001、ギャップを開くためのコスト=約5、ギャップを伸長するためのコスト=約2、最良の完全マッチの長さ=約11、ヌクレオチドマッチの報酬=約2、ヌクレオチドミスマッチの報酬=約-3(図8)を含み得る。
方法またはシステムの第5のステップは、Gotテーブルの作成を含み得る。Gotテーブルは、ペアワイズ配列比較のBLAST結果、分析された配列の配列、及び利用可能なアノテーションを含み得る(図9)。特定の比較ペア間でマッチが特定されなかったという結果のないBLAST出力は、マッチのないコンティグを含む廃棄される。約0.001を超えるE値、約79%を下回る同一性パーセント、または約50ヌクレオチド未満のカバレッジ長を有するブラスト結果も廃棄される(図10)。破棄されていないペアワイズ配列比較は、マッチすると言われる。クエリがコンティグを含み、複数のクエリコンティグが重複様式で特定の参照配列とマッチする場合、どのコンティグが分析のために含まれるかをキュレーションする必要があり得る(図11)。どのクエリコンティグを参照配列のペアワイズマッチとして保持するかを選択するための基準は、図11(18)に提供されるものを含むことができる。Gotテーブルの生成において、クエリは、重複するコンティグによってカバーされる遺伝子のパーセントが約95%を超える場合、参照配列に存在するとみなすことができるか、重複するコンティグによってカバーされる遺伝子のパーセントが約80%を超える場合、参照に部分的に存在するとみなすことができるか、または重複するコンティグによってカバーされる遺伝子のパーセントが約79%未満または約80%未満である場合、参照に存在しないとみなすことができる(図12)。他の閾値を使用することもできる。残りの各マッチについて、SNP/サイズ比(マッチにおける変異の数とそのマッチの長さとの比)を計算することができる(図12)。参照配列の全長をカバーする単一のコンティグが選択され、参照配列に関してクエリ配列の複数のそのようなコンティグが存在する場合、参照に対する最小の変異を有するコンティグが保持される(図12)。マッチするコンティグが参照配列の全長をカバーしない場合、約0.5未満のSNP/サイズ比を有するすべてのコンティグが保持される(図12)。Gotテーブルは、アノテーション情報を組み込むこともできる(図12)。Gotテーブルは、図13に示されるパラメータを含むパラメータに関連する情報を含むことができる。各クエリ配列に1つのGotテーブルが生成される(図13)。
Gotテーブルを使用して、様々な情報分析を生成し、出力として表示することができる。そのような出力の1つが比較テーブルである。比較テーブルを生成するために、すべての参照配列と比較した各クエリ配列について、Gotテーブルで見出された配列類似性に関する情報を類似性スコアに変換する(図15)。類似性スコアは、クエリと対象との間のアラインメントのカバレッジパーセント、及びクエリと対象との間の変異の数に基づいて割り当てられる。類似性スコアは、例えば、表2に従って割り当てることができる(図14も参照)。類似性スコアは、マトリックスにコンパイルすることができ、このマトリックスは、比較テーブルである(図14)。比較テーブルに見られる類似性の数値は、関連するクエリと各対象配列との間の保存を示すヒートマップとして提示することもできる(図15)。
コード配列は、Gotテーブル及び関連するアノテーションにおけるマッチの座標に基づいて、クエリヌクレオチド配列において同定され得る。同定されたコード配列を抽出し、翻訳することができる(図16)。翻訳された配列は、アラインメントされ、抽出された配列のためのGot_Geneフォルダに保存することができる(図16)。複数のクエリコンティグが参照コード配列とマッチする場合、重複するコンティグは、単一のマッチする配列にマージされる。参照コード配列の境界を超えて延びるクエリコンティグは、キュレーションを必要とし得る(図16)。各バリアントの対象コード配列の翻訳の数及び頻度を表にすることができる(図16)。抽出された配列は、例えば、QuickTreeを使用して系統発生学的に分析することもできる(図17)。個々の遺伝子の参照に基づく系統樹は、参照ヌクレオチド配列を使用して生成され得る(図17)。個々のゲノムのゲノムベースの系統樹は、すべてのクエリ配列にわたる最も保存された対象配列に基づいて、例えば、対象配列を合わせて約40,000個以下のヌクレオチドを含むことに基づいて生成され得る(図17)。
本実施例は、本実施例の方法及びシステムを、様々な治療的に関連する適用に使用できることを実証する。これらは、とりわけ、以下を含み得る:(1)標的化抗体の臨床的可能性を予測するための抗原/エピトープの遺伝的保存を決定すること、(2)質量分析によってペプチド発見のためのアミノ酸配列バリアントを同定すること、(3)配列を抽出し、アラインメントを作成して、遺伝子/抗原内の多様性領域を強調すること、(4)ゲノム内の多様性/保存性の領域を特定すること、(5)ゲノム内の対象となる特徴付けられていない配列を潜在的な治療標的またはワクチン標的として同定すること、(6)疫病を引き起こす病原体の遺伝子型を同定するための系統樹を構築すること、(7)ミスアノテーションされたゲノムからオルソロガス遺伝子のセットを回収すること、及び/または(8)疫学的目的のために株の関連性を区別すること。
実施例2:B型肝炎ウイルスの新たな治療抗原を同定するための方法及びシステムの使用
本実施例では、本明細書に記載される方法及びシステムに従って、Got_Geneプログラムを使用して、HCC腫瘍上のMHC-1上に存在する新たなB型肝炎ウイルスペプチドを同定した。B型肝炎ウイルス(HBV)は、世界的な健康問題であり、肝細胞癌(HCC)の主な原因である(図21)。慢性感染症を発症する人々は、ウイルス複製を抑制するためにヌクレオシド類似体で治療されることが多いが、依然としてHCCのリスクが高い。免疫系が感染を排除することができない主な要因は、慢性HBV患者が低減した数のHBV特異的T細胞を有し、残存するものの多くが疲弊した表現型を示すことである。
腫瘍学分野では、T細胞リダイレクト抗体は、腫瘍細胞の表面上の腫瘍特異的抗原を利用することによって、腫瘍細胞を標的化及び殺傷するための一般的なアプローチであった。残念ながら、感染した/腫瘍細胞の表面上にはHBVタンパク質は発現していない。しかしながら、MHC-Iと複合体化されたHBVペプチドは、細胞の表面上に提示される。ある特定の以前の努力は、細胞の表面上に提示されるMHC-Iと複合体化された臨床的に有用なHBVペプチドを同定することに失敗していた。例えば、HBV+患者からのHCC腫瘍試料を分析することにより、細胞の表面上に提示される数個のHBVペプチドのみが、質量分析によって最初に同定された。この失敗は、少なくとも部分的に、そのようなペプチドの予想される配列に関する仮定を制限することに起因した。質量分析プロトコルは、参照ゲノムに由来するアミノ酸配列の事前に確立されたセットを使用して、実験設定におけるペプチドの存在を捕捉する。質量分析は、提示されたペプチドと、そのペプチドがシグナル検出に劇的な影響を及ぼし得ることを特定するために使用される参照配列との間のペプチド配列変化及び単一アミノ酸変化に対して高度に感受性である。したがって、質量分析に使用される正しい参照配列のセットを確立することが重要である。
本実施例に記載される作業は、MHC-Iと複合体化したHBVペプチドが、例えば、腫瘍/感染細胞に対するT細胞応答を駆動する抗HBV PiG/CD3二重特異性抗体の開発に使用するための、治療用抗体の開発のための新たな候補HBV抗原として細胞の表面上に提示されることを特定するために行われる。
HBVは、約4個のポリペプチドをコードする約7個の重複するコード配列を含む、約3.1kbの環状ゲノムを有する(図22)。主要なB型肝炎表面抗原(HBsAg)タンパク質は、遺伝子Sによってコードされる(図23)。HBsAgは、HBVの表面抗原であり、現在のB型肝炎感染を示すことが知られている。様々なHBVゲノムが世界中で見出され、少なくとも約7,108個のHBVゲノム配列が発表されている(図24)。Got_GeneによるHBVゲノムの分析は、環状配列、直鎖配列、断片化配列、DNA配列、RNA配列、データベース配列、及び手動で提供される配列を含む、多様な特性を有する配列を分析するプログラムの能力を実証する(図25)。
本実施例では、いくつかのHBV試料でRNAseqを行った。配列リードを使用して、各試料のデノボゲノムウイルス配列を構築した。追加のHBVゲノムをNCBIからダウンロードした(例えば、図18を参照)。Got_Geneを使用して、すべてのHBVゲノムからコード配列を抽出した(図26)。すべてのクエリHBVゲノム及び参照HBVゲノムのコード配列をBLASTごとにペアワイズ比較した(図27)。得られた配列比較データを含む要約表を作成した(図28)。配列保存を、グラフ(図29)、ヒートマップ(図30)、及び系統樹で表示した(図31及び32の例示的な系統樹表示を参照)。抽出されたコード配列(例えば、図34を参照)をアミノ酸配列に翻訳し(例えば、図35を参照)、アミノ酸配列をアラインメントした(例えば、図36を参照)。アラインメントされたアミノ酸配列を、保存のために分析した(図36)。
本実施例で同定されたアミノ酸配列を上記質量分析プロトコルに付加し、これまで予期されなかったHBVペプチドの検出を可能にした。質量分析の結果を、それに応じて更新されたパラメータを用いて再分析した。これらの分析は、感染細胞の表面上に提示される新たなペプチドの発見につながった。これらのペプチドは、クラスIヒトHLA結合に対する乱交雑を示し、治療開発のための有望な標的であることをさらに支持したため、特に興味深いものであった。
Got_Geneを使用して、約7,000のHBVゲノムにわたる強力なHBV抗原の多様性のレベルを特徴付け、高度に保存されたエピトープ領域を特定した。
実施例3:試料ゲノムと参照ゲノムの集合との間の類似性を決定するための方法及びシステムの使用
歴史的な理由及び効率と適合性に関連する理由により、実験室または研究コミュニティは、多くの場合、対象となる生物の1つまたはいくつかの特定の株を使用して実験を行う。これらの実験室株は、多くの場合、非実験室形態(例えば、同じ生物の天然または野生の例)を表すとみなされる。しかしながら、この典型的なアプローチには固有のある特定の欠点がある。特に、特定の生物の現実世界の多様性が、例えば所与の実験において、試験された実験試料によって表される多様性よりもはるかに大きいため、実験結果が関連する生物多様性の全範囲にわたって適用可能であるとは限らない。臨床的文脈からの例を提供するために、病原体の特定の株を実験室実験で使用することができるが、臨床単離株は、実験室株によって適切に表される場合もあれば、表されない場合もある配列のより大きな多様性を表す。
本開示の方法及びシステムを使用して、提供される配列(例えば、実験室株のゲノム配列)が、非実験室形態の間で保存される(または保存されない)配列によって特徴付けられるかどうかを決定することができる。したがって、例えば、本開示の方法及びシステムを適用して、測定された配列保存に基づいて、病原体の臨床単離株を表す衰えた実験病原体株を決定することができる。そのような使用は、1つまたはいくつかの実験室試験株が、より広い株の集団を表すことを意図した実験で使用される場合に特に有益である(例えば、病原体の1つまたはいくつかの株が実験室で使用され得るが、多くの異なる株が臨床適用で遭遇し得る)。そのようなシナリオでは、実験室または試験株が参照ゲノムの集合、例えば、臨床的関連性のあるゲノムの集合を表すことが重要であり得る。
本実施例では、Got_Geneを使用して、試料ゲノムと参照ゲノムの集合との類似性を決定した。より具体的には、Got_Geneを使用して、Staphylococcus aureusの特定の実験株が、コミュニティで疾患を引き起こす循環株を表すことを確立した。Got_Geneは、ゲノムベースの系統樹を適用して、疫学的目的のために株間の関連性を容易に鑑別した。Pseudomonas aeruginosaウイルス及びインフルエンザウイルスの実験株が臨床的に関連しているかどうかを決定するために、同じアプローチを成功裏に適用した。
実施例4:SARS-CoV-2受容体結合ドメインの保存を評価するための方法及びシステムの使用
2019年のコロナウイルス疾患(COVID-19)の世界的流行は、その病因因子である重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)の適応機序を理解するために広範な取り組みを促した。その結果、世界中の科学者及び医療専門家は、患者の単離株からSARS-CoV-2ゲノムを配列決定し、すべてのインフルエンザデータを共有するグローバルイニシアチブ(GISAID、https://www.gisaid.org)などのキュレーションされたデータリポジトリを通じて、前例のない速度で彼らの所見を発信した。これは、伝達パターンを決定し、毒性及び疾患重症度と関連付けることができるSARS-CoV-2バリアントを同定する際に有用な固有のデータセットを提供した。
SARS-CoV-2の構造の概略図は、図47に提供される。4つの構造タンパク質、ヌクレオカプシド(N)タンパク質、膜(M)タンパク質、スパイク(S)タンパク質及びエンベロープ(E)タンパク質、ならびにいくつかの非構造タンパク質(nsp)を含む。カプシドは、ウイルスのタンパク質殻である。カプシド内部には、ウイルスの一本鎖プラス鎖RNAゲノムに結合したヌクレオカプシドが存在する。コロナウイルスゲノムは、約30,000ヌクレオチドを含む。RNA形態のゲノム配列は、計算技法及び/または分子生物学の技法を使用して、DNA形態に容易に変換または翻訳することができる。
複製ニッチを確立し、先天性及び適応性免疫応答に対抗するために、SARS-CoV-2は、宿主環境に適応しなければならない。適応の一般的な機序は、抗原変化であり、抗体によって認識されるウイルス標的は、ウイルスが認識を回避することを可能にするエスケープ変異を発達させ、排除する。抗原変化の結果は、持続的なウイルス感染、疾患の流行、及び回復後の再感染を含み得る。COVID-19治療開発の文脈において、出現する変異は、それらの標的のタンパク質構造を修飾することによって抗体ベースの治療の有効性をわかりにくくする可能性があるため、抗原変化はまた、治療有効性に影響を与える。
ウイルススパイクタンパク質(S)のSARS-CoV-2受容体結合ドメイン(RBD)は、COVID-19患者の血清または血漿試料における強力な中和抗S抗体の主な標的である。したがって、Sは、COVID-19の治療のための抗体の開発における重要な標的である。RBDの遺伝子保存は、少なくとも抗S抗体を含む治療に関して、抗体ベースの治療の成功を確実にするために重要である。この文脈では、Got_Geneを使用して、RBDの遺伝的多様性を評価した。
2020年1月初めに最初のSARS-CoV-2ゲノム配列が報告されて以来、2020年10月時点で約120,000個の配列がGISAIDに預託されている(https://www.gisaid.org/)。本実施例では、Got_Geneアルゴリズムを使用して、合計118,728個のキュレーションされたゲノム配列から取得されたスパイクコード遺伝子配列の同一性を抽出、フィルタリング、及び比較した。本実施例では、コード配列を、GenBankファイルアノテーションを使用して、参照SARS-CoV-2ゲノムから抽出した(図49の概略図に部分的に示される)。配列のアラインメントにBLASTnを使用して、キュレーションされたゲノム配列とスパイクタンパク質参照配列の各々との間でペアワイズ比較を行った。分析したクエリ配列の累積数は、図50にグラフ化される。アラインメント後、スパイクタンパク質参照配列とアラインメントされたコード配列を、キュレーションされたゲノム配列から抽出した。次いで、スパイクタンパク質参照配列とアラインメントしたゲノム配列を、表2に示されるように、カバレッジ長及び変異の数に基づいて分類した。スパイクタンパク質参照配列との比較から0.8未満の割り当てられた類似性スコアを有する配列を、さらなる分析から除去した。スパイクタンパク質参照配列とアラインメントした分析に残った配列をアミノ酸配列に翻訳し、BLASTpを使用してアミノ酸配列をアラインメントした(図51の概略図に部分的に示される)。この分析は、スパイクタンパク質の各アラインメント位置に存在するアミノ酸の範囲の同定を可能にした(図52の概略図に部分的に示される)。
結果は、SARS-CoV-2スパイクタンパク質における965個の可変アミノ酸位置、及び固有のアミノ酸変化の合計1782個を同定した。予想通り、118,728ゲノムのうち、バリアントの大部分は、1つの所与のゲノム(シングルトン)のみで同定された。しかしながら、100を超える株(高頻度バリアントまたはHFV)にわたって共有される47個のアミノ酸変化が同定された。スパイクタンパク質内で同定されたHFVは、N末端及びS2ドメイン内で蓄積することが見出された。RBDは、ヒトACE2受容体と直接相互作用する受容体結合モチーフ内で同定された2つのHFV(N439K及びS477N)を除いて、HFVを節約した。全体として、Sタンパク質は、比較的少ない配列多様性を示した。この研究で使用した118,728株のうち、7つのバリアント(L5F、L18F、R21I、A222V、S477N、D614G、及びD936Y)のみが0.6%を超える頻度で観察された。
本実施例の1つの有意な所見は、SARS-CoV-2エピトープの保存性が、この非常に成功したヒト病原体における規則であり、例外ではないという強力な証拠である。SARS-CoV-2 RBDは、COVID-19患者の血清または血漿試料中の強力な中和抗S抗体の主な標的である。したがって、治療用抗体によって課される選択圧のほとんどは、このドメインを標的とすべきである。RBD保存性の精査は、すべてのSARS-CoV-2株の0.15%超において伝播する変異の蓄積の証拠をほとんど示さなかった。循環するSARS-CoV-2単離株の中でいくつかのRBDバリアントが同定されているが、いずれも、この研究で測定したウイルス集団において顕著な頻度に達していない。まとめると、これらのデータは、循環SARS-CoV-2におけるRBD標的化抗体エピトープの保存性を示唆しており、したがって、Sベースの治療は、すべての循環SARS-CoV-2ウイルスに対して有効であるべきであることは理にかなっている。
実施例5:エピトープ変化を評価するための方法及びシステムの使用
2019年後半のSARS-CoV-2の出現と、その後のヒトの健康への有害な影響は、何百万もの感染症及び実質的な罹患率及び死亡率をもたらした。COVID-19の流行を阻止するための努力において、Regeneron Pharmaceuticalsは、その最先端技術を適用して、SARS-CoV-2ウイルスに対抗するために専用のモノクローナル抗体のカクテルを開発している(例えば、参照によりその全体、特にCOVID-19治療用抗体、ならびにそれらのエピトープ及び他の特性に関して本明細書に組み込まれる米国特許第10,787,501号を参照)。例示的な抗SARS-CoV-2-スパイクタンパク質(SARS-CoV-2-S)抗体配列を提供する、米国特許第10,787,501号の表1は、参照によりその全体が具体的に組み込まれる。)。Regeneronは、数百のウイルス中和抗体の生成を開始し、ヒトCOVID-19生存者から同様の性能の抗体を同定した。これらの抗体は、スパイクタンパク質の受容体結合ドメイン(RBD)からのエピトープを特異的に認識した。
同じ抗原(例えば、SARS-CoV-2スパイクタンパク質)を標的とする個々の抗体は、抗原内に異なる構造標的(エピトープ)を有することができ、少なくともその理由により、個々の対象において、及び/または対象の集団全体において、異なる特性、例えば、異なる臨床的性能を有することができる。少なくとも1つのアプローチによれば、抗原のより保存されたエピトープに結合する抗体は、抗原のより保存されていないエピトープに結合する抗体よりも好ましく、その結果、任意の所与の株もしくは患者において、または患者の集団全体において、抗体は、標的抗原に効果的に結合し、及び/または治療効果を有する可能性が高い。いくつかの異なる抗体が利用可能であり、それらの異なるエピトープに関して情報が利用可能である場合、配列分析を使用して、どの抗体がより有利に保存されたエピトープに結合するかを決定することができる。本実施例は、COVID-19の治療のための抗体の開発にこの推論を適用する。本開示の方法及びシステムを使用して、数千の循環SARS-CoV-2株にわたる複数の抗体のSARS-CoV-2エピトープの保存を評価し、より保存されたエピトープを標的とする抗体を、さらなる治療評価のために選択または選好した。
固有の参照ゲノムに対する各ゲノム配列の迅速なペアワイズ比較を可能にするGot_Geneアルゴリズムを使用して、数千のゲノムにわたるエピトープ遺伝子配列の比較分析を行った。120,000を超えるSARS-CoV-2キュレーションされたゲノム配列を、すべてのインフルエンザデータ(GISAID)データベースを共有するグローバルイニシアチブから抽出した。
GISAID由来のSARS-CoV-2ヌクレオチド配列を、SARS-CoV-2参照ゲノムヌクレオチド配列(GenBankアクセッション:MN908947)と、Got_Geneプログラム内でBLASTnを使用してアラインメントした。キュレーションされたゲノム配列の各々と、SARS-CoV-2参照ゲノム配列との間でペアワイズ比較を行った。アラインメント後、参照SARS-CoV-2ゲノムのスパイク核酸配列とアラインメントしたゲノム配列を評価して、スパイク核酸配列の存在を検証した。Got_Geneは、ある特定の閾値に従って、スパイクタンパク質の存在、完全性の欠如、または非存在に関する決定に基づいて、ゲノムの群カテゴリを作成した。各配列について、スパイクタンパク質は、参照と比較して95%を超えるカバレッジパーセントをもたらした場合に存在するものとして、参照と比較して70%を超えるが95%未満のカバレッジパーセントをもたらした場合に部分的に存在するか、もしくは完全性が欠如しているものとして、または参照と比較して70%を下回るカバレッジパーセントをもたらした場合に存在しないものとして特定された。スパイクタンパク質参照配列との比較が、95%超のカバレッジ長及び70%超の同一性パーセントをもたらした場合、スパイク配列の存在を検証した。この閾値に従って検証された配列を、さらなる分析のために保持し、他のすべてを除去した。GOT_GENEは、各キュレーションされたゲノム配列からスパイクタンパク質コード配列を抽出し、各キュレーションされたゲノム配列から検証されたオルソロガススパイク配列をアミノ酸配列に翻訳した。次いで、アミノ酸配列をBLASTpを使用してアラインメントし、アミノ酸バリアントを同定した。エピトープ位置を実装し、各エピトープのバリアントの頻度を計算した。
実施例6:処置された対象における推定エスケープバリアントの選択を評価するための方法及びシステムの使用
本実施例は、配列多様性に対する刺激の影響、特にウイルス療法によるウイルス配列多様性への影響を評価するための本開示の方法及びシステムの使用を実証する。本実施例は、本開示の方法及びシステムを使用して、治療レシピエントにおけるSARS-CoV-2配列多様性に対する抗体ベースのCOVID-19療法の影響を評価することを具体的に実証する。
2つの強力なRegeneron抗体(REGN10933及びREGN10987)は、RegeneronのREGN-COV2抗体療法を形成し(米国特許第10,787,501号も参照されたい)、これは、その全体、特にCOVID-19治療用抗体、ならびにそれらのエピトープ及び他の特性に関して、参照により本明細書に組み込まれる。例示的な抗SARS-CoV-2-スパイクタンパク質(SARS-CoV-2-S)抗体配列を提供する、米国特許第10,787,501号の表1は、参照によりその全体が具体的に組み込まれる)。9月に、Regeneronは、入院していない275人のCOVID-19患者のウイルスゲノム配列に対するREGN-COV2抗体カクテルの効果を示す初期の臨床データを発表した。この研究の1つの目標は、REGN-COV2処置の治療的投与後の患者からのSARS-CoV-2単離株の推定エスケープバリアント(ウイルスが抗体認識からエスケープすることを可能にするという点でウイルスに有益な変異)の選択を評価することであった。
本実施例では、REGN-COV2処置を受けた患者から単離されたウイルスゲノムを配列決定し、Got_Geneプログラムを使用して、単離されたゲノム内の新たな変異を同定した。配列のアラインメントにBLASTnを使用して、単離されたゲノム配列の各々と、スパイクタンパク質をコードする参照配列との間でペアワイズ比較を行った。アラインメント後、スパイクタンパク質をコードする参照配列とアラインメントした配列を、キュレーションされたゲノム配列からクエリコード配列として抽出した。次いで、スパイクタンパク質参照配列とアラインメントしたゲノム配列を、表2に示されるように、カバレッジ長及び変異の数に基づいて分類した。スパイクタンパク質参照配列との比較から0.8未満の割り当てられた類似性スコアを有する配列を、さらなる分析から除去した。スパイクタンパク質参照配列とアラインメントした分析における残りの配列をアミノ酸配列に翻訳し、アミノ酸配列をBLASTpを使用してアラインメントした。この分析は、スパイクタンパク質の各アラインメント位置に存在するアミノ酸の範囲の同定を可能にした。したがって、Got_Geneを使用して、すべてのゲノムからスパイクコード遺伝子配列を抽出及び翻訳し、それらを参照配列と比較して、新たな変異が中和抗体によって認識される領域におけるアミノ酸変化をもたらしたゲノムを同定した。エピトープ配列変異は、推定エスケープバリアントであり得る。最終的に、分析では、治療がすべての患者試料にわたってSARS-CoV-2Sタンパク質の変異の出現につながり得るかどうかを評価した。
実施例7:個別化された医学における方法及びシステムの使用
本実施例は、本開示の方法及びシステムを使用して、対象となる治療的処置に好意的に応答する可能性がある対象を選択することができることを示す。具体的には、本実施例は、感染した患者からのウイルス配列の分析を開示して、患者がウイルス感染症の治療のための抗体療法の投与から利益を受ける可能性があるかどうかを決定する。例えば、Got_Geneプログラムを使用して、非処置患者における推定エスケープバリアントを同定することができる。Got_Geneプログラムを使用して、推定エスケープ可能性を有する新たな変異を同定することもできる。この場合、実施例6に記載されるように、Got_Geneを使用して、非処置患者から単離したゲノムからスパイクコード遺伝子配列を抽出及び翻訳して、スパイクタンパク質参照配列と比較して、スパイクタンパク質変異を特定する。特定されたスパイクタンパク質変異は、処置の有効性に悪影響を及ぼすことが知られているか、または予想される有害バリアントの既定のリストと比較され得る。この分析により、Got_Geneは、感染ウイルス株の遺伝的背景に基づいて、患者を群(治療感受性対治療耐性)に分類することができる。
他の実施形態
いくつかの実施形態を説明してきたが、基本的な開示及び実施例は、本明細書に記載される組成物及び方法を利用するか、またはそれに包含される他の実施形態を提供し得ることは明らかである。したがって、の範囲は、例として表されてきた特定の実施形態ではなく、本開示及び添付の特許請求の範囲から理解され得るものによって定義されることが理解されよう。
本明細書で引用されるすべての参考文献は、参照により本明細書に組み込まれる。

Claims (211)

  1. 病原体に対する療法の開発における候補抗原としてのアミノ酸配列を同定するための方法であって、
    データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記アラインメントされたアミノ酸配列の複数の部分の各々を、前記病原体の前記異なる株の間の部分の保存性レベルに従って分類することと、
    保存されたものとして分類された前記アミノ酸配列の部分を選択し、前記選択された保存配列をヒトタンパク質配列と比較し、前記選択された保存配列をヒトタンパク質配列と同一または同一ではないものとしてさらに分類することと、
    ヒトタンパク質配列と同一でない選択された保存配列を、前記病原体に対する療法の開発における候補抗原として分類することと、を含む、前記方法。
  2. 前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、請求項1に記載の方法。
  3. 前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、請求項1または請求項2に記載の方法。
  4. 前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、請求項1~3のいずれか1項に記載の方法。
  5. 前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、請求項4に記載の方法。
  6. 前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、請求項5に記載の方法。
  7. 前記同一性の尺度が、変異の数を含む、請求項1~6のいずれか1項に記載の方法。
  8. 前記カバレッジの尺度が、カバレッジパーセントを含む、請求項1~7のいずれか1項に記載の方法。
  9. 前記同一性の尺度が、E値を計算することを含む、請求項1~8のいずれか1項に記載の方法。
  10. 前記選択された保存配列を候補抗原として分類することが、前記選択された保存配列における1つ以上のアミノ酸ドメインの存在または非存在を決定することをさらに含む、請求項1~9のいずれか1項に記載の方法。
  11. 前記選択された保存配列を候補抗原として分類することが、前記候補抗原が、前記病原体の膜及び/または細胞壁内に分泌されるか、または曝露されるタンパク質に対応するかどうかを決定することをさらに含む、請求項1~10のいずれか1項に記載の方法。
  12. 前記選択された保存配列を候補抗原として分類することが、選択された保存配列における膜貫通ドメインの存在を決定することをさらに含む、請求項1~11のいずれか1項に記載の方法。
  13. 前記療法が、ワクチンを含み、前記方法が、免疫原性について前記候補抗原を非臨床的に評価することをさらに含む、請求項1~12のいずれか1項に記載の方法。
  14. 前記評価するステップが、前記候補抗原を含むポリペプチドを動物に投与することを含む、請求項13に記載の方法。
  15. 前記療法が、抗体療法を含み、前記方法が、前記候補抗原上のエピトープに特異的に結合する抗体またはその断片を生成することをさらに含む、請求項1~14のいずれか1項に記載の方法。
  16. 前記病原体が、ウイルスである、請求項1~15のいずれか1項に記載の方法。
  17. 前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、請求項16に記載の方法。
  18. 前記ウイルスが、コロナウイルスである、請求項16に記載の方法。
  19. 前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、請求項18に記載の方法。
  20. 前記病原体が、細菌である、請求項1~15のいずれか1項に記載の方法。
  21. 前記細菌が、Staphylococcus種またはPseudomonas種である、請求項20に記載の方法。
  22. 病原体感染症の治療のための1つ以上の対象への治療剤の投与後に、1つ以上の推定エスケープ変異を同定する方法であって、
    前記治療剤を各対象に投与した後に、1つ以上の対象から単離された複数の完全または部分的病原体ゲノム配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記アラインメントされたアミノ酸配列において、参照よりも前記アラインメントされたアミノ酸配列においてより頻繁な1つ以上のアミノ酸バリアントを同定することであって、前記1つ以上のアミノ酸バリアントが、1つ以上の推定エスケープ変異である、前記同定することと、を含む、前記方法。
  23. 前記参照が、正準病原体配列を表す1つ以上の完全もしくは部分的病原体ゲノム配列、前記病原体の1つ以上の臨床株、前記治療剤を投与された対象のうちの1つ以上からの1つ以上の以前の病原体試料、または前記治療剤を投与されなかった対象からの1つ以上の病原体試料を含む、請求項22に記載の方法。
  24. 前記推定エスケープ変異のうちの1つ以上が、前記治療剤の参照ポリペプチドとの結合親和性を低下させるかどうかを決定するステップをさらに含む、請求項22または請求項23に記載の方法。
  25. データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、請求項22~24のいずれか1項に記載の方法。
  26. 前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、請求項22~25のいずれか1項に記載の方法。
  27. 前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、請求項22~26のいずれか1項に記載の方法。
  28. 前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、請求項27に記載の方法。
  29. 前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、請求項28に記載の方法。
  30. 前記同一性の尺度が、変異の数を含む、請求項22~29のいずれか1項に記載の方法。
  31. 前記カバレッジの尺度が、カバレッジパーセントを含む、請求項22~30のいずれか1項に記載の方法。
  32. 前記同一性の尺度が、E値を計算することを含む、請求項22~31のいずれか1項に記載の方法。
  33. 前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
    前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
    タンパク質をコードする核酸の非保存配列、
    前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
    前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、請求項22~32のいずれか1項に記載の方法。
  34. アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、請求項22~33のいずれか1項に記載の方法。
  35. 前記病原体が、ウイルスである、請求項22~34のいずれか1項に記載の方法。
  36. 前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、請求項35に記載の方法。
  37. 前記ウイルスが、コロナウイルスである、請求項35に記載の方法。
  38. 前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、請求項37に記載の方法。
  39. 前記コロナウイルスが、SARS-CoV-2である、請求項38に記載の方法。
  40. コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、請求項22~39のいずれか1項に記載の方法。
  41. 前記治療剤が、抗体を含む、請求項22~40のいずれか1項に記載の方法。
  42. 前記抗体が、SARS-CoV-2に結合する、請求項41に記載の方法。
  43. 前記抗体が、SARS-CoV-2スパイクタンパク質に結合する、請求項42に記載の方法。
  44. 前記抗体が、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む、請求項41~43のいずれか1項に記載の方法。
  45. 前記病原体が、細菌である、請求項22~34のいずれか1項に記載の方法。
  46. 前記細菌が、Staphylococcus種またはPseudomonas種である、請求項45に記載の方法。
  47. 病原体感染症の治療のための治療剤を、それを必要とする対象に投与する方法であって、
    アミノ酸配列の保存された部分を、
    データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記病原体の前記異なる株の間の部分の保存性レベルに従って、前記アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、
    前記アラインメントされたアミノ酸配列の保存された部分を選択することと、によって選択することと、
    前記対象から単離された完全または部分的病原体ゲノム配列がアミノ酸配列の前記保存された部分をコードする場合に、治療剤を対象に投与することと、を含み、前記治療剤が、前記アミノ酸配列の前記保存された部分に選択的に結合する、前記方法。
  48. 前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、請求項47に記載の方法。
  49. 前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、請求項47または請求項48に記載の方法。
  50. 前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、請求項47~49のいずれか1項に記載の方法。
  51. 前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、請求項50に記載の方法。
  52. 前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、請求項51に記載の方法。
  53. 前記同一性の尺度が、変異の数を含む、請求項47~52のいずれか1項に記載の方法。
  54. 前記カバレッジの尺度が、カバレッジパーセントを含む、請求項47~53のいずれか1項に記載の方法。
  55. 前記同一性の尺度が、E値を計算することを含む、請求項47~54のいずれか1項に記載の方法。
  56. 前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
    前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
    タンパク質をコードする核酸の非保存配列、
    前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
    前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、請求項47~55のいずれか1項に記載の方法。
  57. アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、請求項47~56のいずれか1項に記載の方法。
  58. 前記病原体が、ウイルスである、請求項47~57のいずれか1項に記載の方法。
  59. 前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、請求項58に記載の方法。
  60. 前記ウイルスが、コロナウイルスである、請求項58に記載の方法。
  61. 前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、請求項60に記載の方法。
  62. 前記コロナウイルスが、SARS-CoV-2である、請求項61に記載の方法。
  63. コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、請求項47~62のいずれか1項に記載の方法。
  64. 前記治療剤が、抗体を含む、請求項47~63のいずれか1項に記載の方法。
  65. 前記抗体が、SARS-CoV-2に結合する、請求項64に記載の方法。
  66. 前記抗体が、SARS-CoV-2スパイクタンパク質に結合する、請求項65に記載の方法。
  67. 前記抗体が、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む、請求項64~66のいずれか1項に記載の方法。
  68. 前記病原体が、細菌である、請求項47~57のいずれか1項に記載の方法。
  69. 前記細菌が、Staphylococcus種またはPseudomonas種である、請求項68に記載の方法。
  70. 病原体に感染した対象の治療のための治療剤を選択するための方法であって、
    データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記病原体の前記異なる株の間の部分の保存性レベルに従って前記アラインメントされたアミノ酸配列の複数の部分の各々を分類し、それによって前記病原体を表すコード配列の保存された部分を同定することと、
    前記病原体に感染した対象に対する治療として、保存コード配列に結合する治療剤を選択することと、を含む、前記方法。
  71. 前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、請求項70に記載の方法。
  72. 前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、請求項70または請求項71に記載の方法。
  73. 前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、請求項70~72のいずれか1項に記載の方法。
  74. 前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、請求項73に記載の方法。
  75. 前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、請求項74に記載の方法。
  76. 前記同一性の尺度が、変異の数を含む、請求項70~75のいずれか1項に記載の方法。
  77. 前記カバレッジの尺度が、カバレッジパーセントを含む、請求項70~76のいずれか1項に記載の方法。
  78. 前記同一性の尺度が、E値を計算することを含む、請求項70~77のいずれか1項に記載の方法。
  79. 前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
    前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
    タンパク質をコードする核酸の非保存配列、
    前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
    前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、請求項70~78のいずれか1項に記載の方法。
  80. アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、請求項70~79のいずれか1項に記載の方法。
  81. 前記方法が、前記治療剤をワクチンまたはその成分として非臨床的に評価することをさらに含む、請求項80に記載の方法。
  82. 前記評価するステップが、前記治療剤を動物に投与することを含む、請求項81に記載の方法。
  83. 前記病原体が、ウイルスである、請求項70~82のいずれか1項に記載の方法。
  84. 前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、請求項83に記載の方法。
  85. 前記ウイルスが、コロナウイルスである、請求項83に記載の方法。
  86. 前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、請求項85に記載の方法。
  87. 前記コロナウイルスが、SARS-CoV-2である、請求項86に記載の方法。
  88. コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、請求項70~87のいずれか1項に記載の方法。
  89. 前記治療剤が、抗体を含む、請求項70~88のいずれか1項に記載の方法。
  90. 前記抗体が、SARS-CoV-2に結合する、請求項89に記載の方法。
  91. 前記抗体が、SARS-CoV-2スパイクタンパク質に結合する、請求項90に記載の方法。
  92. 前記抗体が、表3による少なくとも1つの抗体、重鎖(HC)、軽鎖(LC)、重鎖可変領域(HCVR)、軽鎖可変領域(LCVR)、重鎖相補性決定領域(HCDR)、または軽鎖CDR(LCDR)を含む、請求項89~91のいずれか1項に記載の方法。
  93. 前記病原体が、細菌である、請求項70~82のいずれか1項に記載の方法。
  94. 前記細菌が、Staphylococcus種またはPseudomonas種である、請求項93に記載の方法。
  95. 病原体を表すアミノ酸配列の部分の保存性を評価するための方法であって、
    データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記アラインメントされたアミノ酸配列を使用して、前記病原体を表すアミノ酸配列の1つ以上の部分の保存性レベルを特定することと、を含む、前記方法。
  96. 前記部分のうちの1つ以上が、前記病原体に対する療法の開発における候補抗原として同定される、請求項95に記載の方法。
  97. 前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、請求項95または請求項96に記載の方法。
  98. 前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、請求項95~97のいずれか1項に記載の方法。
  99. 前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、請求項95~98のいずれか1項に記載の方法。
  100. 前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、請求項99に記載の方法。
  101. 前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、請求項100に記載の方法。
  102. 前記同一性の尺度が、変異の数を含む、請求項95~101のいずれか1項に記載の方法。
  103. 前記カバレッジの尺度が、カバレッジパーセントを含む、請求項95~102のいずれか1項に記載の方法。
  104. 前記同一性の尺度が、E値を計算することを含む、請求項95~103のいずれか1項に記載の方法。
  105. 前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
    前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
    タンパク質をコードする核酸の非保存配列、
    前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
    前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、請求項95~104のいずれか1項に記載の方法。
  106. アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、請求項95~105のいずれか1項に記載の方法。
  107. 前記病原体が、ウイルスである、請求項95~106のいずれか1項に記載の方法。
  108. 前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、請求項107に記載の方法。
  109. 前記ウイルスが、コロナウイルスである、請求項107に記載の方法。
  110. 前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、請求項109に記載の方法。
  111. 前記コロナウイルスが、SARS-CoV-2である、請求項110に記載の方法。
  112. 前記ゲノム配列が、SARS-CoV-2ゲノム配列であり、前記参照配列が、SARS-CoV-2参照配列である、請求項95~111のいずれか1項に記載の方法。
  113. コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、請求項95~112のいずれか1項に記載の方法。
  114. 前記病原体が、細菌である、請求項95~106のいずれか1項に記載の方法。
  115. 前記細菌が、Staphylococcus種またはPseudomonas種である、請求項114に記載の方法。
  116. 単離された病原体が循環株を表すかどうかを特定するための方法であって、
    データ構造から前記病原体の前記循環株の複数の完全または部分的ゲノム配列を得ることと、
    前記循環株の前記配列の1つ以上の保存された部分を同定することと、
    前記単離された病原体の複数の完全または部分的ゲノム配列を得ることと、
    前記単離された病原体が前記循環株を表すかどうかを、前記単離された病原体の前記配列の少なくとも一部分を、前記循環株の前記配列の前記同定された1つ以上の保存された部分と比較することによって同定することと、を含む、前記方法。
  117. 前記循環株の前記配列の1つ以上の保存された部分を同定することが、
    コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記アラインメントされたアミノ酸配列のうちの前記部分の保存性レベルに従って、前記アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、を含む、請求項116に記載の方法。
  118. 前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、請求項116または請求項117に記載の方法。
  119. 前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、請求項116~118のいずれか1項に記載の方法。
  120. 前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、請求項116~119のいずれか1項に記載の方法。
  121. 前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、請求項120に記載の方法。
  122. 前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、請求項121に記載の方法。
  123. 前記同一性の尺度が、変異の数を含む、請求項116~122のいずれか1項に記載の方法。
  124. 前記カバレッジの尺度が、カバレッジパーセントを含む、請求項116~123のいずれか1項に記載の方法。
  125. 前記同一性の尺度が、E値を計算することを含む、請求項116~124のいずれか1項に記載の方法。
  126. 前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
    前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
    タンパク質をコードする核酸の非保存配列、
    前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
    前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、請求項116~125のいずれか1項に記載の方法。
  127. アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、請求項116~126のいずれか1項に記載の方法。
  128. 前記病原体が、ウイルスである、請求項116~127のいずれか1項に記載の方法。
  129. 前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、請求項128に記載の方法。
  130. 前記ウイルスが、コロナウイルスである、請求項128に記載の方法。
  131. 前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、請求項130に記載の方法。
  132. 前記コロナウイルスが、SARS-CoV-2である、請求項131に記載の方法。
  133. コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、請求項116~132のいずれか1項に記載の方法。
  134. 前記病原体が、細菌である、請求項116~127のいずれか1項に記載の方法。
  135. 前記細菌が、Staphylococcus種またはPseudomonas種である、請求項134に記載の方法。
  136. 病原体を表すペプチドの質量電荷比を特定するための方法であって、
    データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    アミノ酸配列またはその部分のうちの1つ以上の質量電荷比を決定することと、を含む、方法。
  137. 前記データ構造がコンティグを含み、前記データ構造から前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的ゲノム配列の少なくとも一部分を生成することを含む、請求項136に記載の方法。
  138. 前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、請求項136または請求項137に記載の方法。
  139. 前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、請求項136~138のいずれか1項に記載の方法。
  140. 前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、請求項139に記載の方法。
  141. 前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、請求項140に記載の方法。
  142. 前記同一性の尺度が、変異の数を含む、請求項136~141のいずれか1項に記載の方法。
  143. 前記カバレッジの尺度が、カバレッジパーセントを含む、請求項136~142のいずれか1項に記載の方法。
  144. 前記同一性の尺度が、E値を計算することを含む、請求項136~143のいずれか1項に記載の方法。
  145. 前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
    前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
    タンパク質をコードする核酸の非保存配列、
    前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
    前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、請求項136~144のいずれか1項に記載の方法。
  146. アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、請求項136~145のいずれか1項に記載の方法。
  147. 前記病原体が、ウイルスである、請求項136~146のいずれか1項に記載の方法。
  148. 前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、請求項147に記載の方法。
  149. 前記ウイルスが、コロナウイルスである、請求項147に記載の方法。
  150. 前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、請求項149に記載の方法。
  151. 前記コロナウイルスが、SARS-CoV-2である、請求項150に記載の方法。
  152. コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価することを含む、請求項136~151のいずれか1項に記載の方法。
  153. 前記病原体が、細菌である、請求項136~146のいずれか1項に記載の方法。
  154. 前記細菌が、Staphylococcus種またはPseudomonas種である、請求項153に記載の方法。
  155. 候補抗生物質耐性マーカーとしてのアミノ酸配列を同定するための方法であって、
    データ構造から病原性細菌の複数の完全または部分的プラスミド配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記プラスミド配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記複数のプラスミド配列の間の部分の保存性レベルに従って、前記アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、
    保存されたものとして分類された前記アミノ酸配列の部分を選択することと、
    選択された保存配列を候補抗生物質耐性マーカーとして分類することと、を含む、前記方法。
  156. 選択された配列中の膜貫通ドメインの存在を含む1つ以上の追加の基準に従って、前記候補抗生物質耐性マーカーを候補として特定することをさらに含む、請求項155に記載の方法。
  157. 前記データ構造がコンティグを含み、前記データ構造から前記複数の完全または部分的プラスミド配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的プラスミド配列のうちの少なくともいくつかを生成することを含む、請求項155または請求項156に記載の方法。
  158. 前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、請求項155~157のいずれか1項に記載の方法。
  159. 前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、請求項155~158のいずれか1項に記載の方法。
  160. 前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、請求項159に記載の方法。
  161. 前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、請求項160に記載の方法。
  162. 前記同一性の尺度が、変異の数を含む、請求項155~161のいずれか1項に記載の方法。
  163. 前記カバレッジの尺度が、カバレッジパーセントを含む、請求項155~162のいずれか1項に記載の方法。
  164. 前記同一性の尺度が、E値を計算することを含む、請求項155~163のいずれか1項に 記載の方法。
  165. 病原体と関連付けられたタンパク質をコードする核酸のコード配列、
    前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
    タンパク質をコードする核酸の非保存配列、
    前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
    前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、請求項155~164のいずれか1項に記載の方法。
  166. アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、請求項155~165のいずれか1項に記載の方法。
  167. 前記細菌が、Staphylococcus種またはPseudomonas種である、請求項155~166のいずれか1項に記載の方法。
  168. プラスミドを表すコード配列の1つ以上の保存された部分を同定するための方法であって、
    データ構造から病原性細菌の複数の完全または部分的プラスミド配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記プラスミド配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記アミノ酸配列の複数の部分の各々を、前記複数のプラスミド配列の間の前記部分の保存性レベルに従って分類し、それによって前記プラスミドを表すコード配列の1つ以上の保存された部分を同定することと、を含む、前記方法。
  169. 前記データ構造がコンティグを含み、前記データ構造から前記複数の完全または部分的プラスミド配列を得ることが、前記プロセッサによって、重複するコンティグをマージして、前記完全または部分的プラスミド配列のうちの少なくともいくつかを生成することを含む、請求項168に記載の方法。
  170. 前記分類するステップが、複数の対の各々についての前記同一性の尺度及び前記カバレッジの尺度を定量化することを含み、前記対の各々が、抽出されたコード配列及び参照配列を含む、請求項168または請求項169に記載の方法。
  171. 前記分類するステップが、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算することを含み、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、請求項168~170のいずれか1項に記載の方法。
  172. 前記計算するステップが、前記類似性の尺度のマトリックスを作成することと、前記マトリックスのグラフィック表現をレンダリングし、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示することと、を含む、請求項171に記載の方法。
  173. 前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、請求項172に記載の方法。
  174. 前記同一性の尺度が、変異の数を含む、請求項168~173のいずれか1項に記載の方法。
  175. 前記カバレッジの尺度が、カバレッジパーセントを含む、請求項168~174のいずれか1項に記載の方法。
  176. 前記同一性の尺度が、E値を計算することを含む、請求項168~175のいずれか1項に記載の方法。
  177. 病原体と関連付けられたタンパク質をコードする核酸のコード配列、
    前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
    タンパク質をコードする核酸の非保存配列、
    前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
    前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、請求項168~176のいずれか1項に記載の方法。
  178. アミノ酸配列の各部分が、1つ以上のアミノ酸位置を含む、請求項168~177のいずれか1項に記載の方法。
  179. 前記細菌が、Staphylococcus種またはPseudomonas種である、請求項168~178のいずれか1項に記載の方法。
  180. 病原体を表すコード配列の1つ以上の保存された部分を自動的に同定するためのシステムであって、前記システムが、
    プロセッサと、
    命令を有するメモリと、を備え、前記命令が、前記プロセッサによって実行されると、前記プロセッサに、
    データ構造から前記病原体の異なる株の複数の完全または部分的ゲノム配列を取得させ、
    前記プロセッサによって、前記ゲノム配列からコード配列を抽出させ、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類させ、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含み、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択させ、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換させ、
    前記プロセッサによって、前記アミノ酸配列をアラインメントさせ、かつ
    前記アラインメントされたアミノ酸配列の複数の部分の各々を、前記病原体の異なる株の間の前記部分の保存性レベルに従って分類し、それによって前記病原体を表すコード配列の1つ以上の保存された部分を同定させる、前記システム。
  181. 前記プロセッサによって実行されると、前記プロセッサに、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算させ、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、請求項180に記載のシステム。
  182. 前記命令が、前記プロセッサによって実行されると、前記プロセッサに、前記類似性の尺度のマトリックスを作成させ、前記マトリックスのグラフィック表現をレンダリングさせ、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示させる、請求項181に記載のシステム。
  183. 前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、請求項182に記載のシステム。
  184. 前記データ構造がコンティグを含み、前記命令が、前記プロセッサによって実行されると、前記プロセッサによって、重複するコンティグをマージして前記完全または部分的ゲノム配列のうちの少なくともいくつかを生成することによって、前記プロセッサに、前記病原体の異なる株の前記複数の完全または部分的ゲノム配列を取得させる、請求項180~183のいずれか1項に記載のシステム。
  185. 前記命令が、前記プロセッサによって実行されると、前記プロセッサに、
    前記病原体と関連付けられたタンパク質をコードする核酸のコード配列、
    前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
    タンパク質をコードする核酸の非保存配列、
    前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
    前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価することを含む、請求項180~184のいずれか1項に記載のシステム。
  186. 前記命令が、前記プロセッサによって実行されると、前記プロセッサに、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価させる、請求項180~185のいずれか1項に記載のシステム。
  187. 前記病原体が、ウイルスである、請求項180~186のいずれか1項に記載のシステム。
  188. 前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、請求項187に記載のシステム。
  189. 前記ウイルスが、コロナウイルスである、請求項187に記載のシステム。
  190. 前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、請求項189に記載のシステム。
  191. 前記コロナウイルスが、SARS-CoV-2である、請求項190に記載のシステム。
  192. 前記病原体が、細菌である、請求項180~186のいずれか1項に記載のシステム。
  193. 前記細菌が、Staphylococcus種またはPseudomonas種である、請求項192に記載のシステム。
  194. プラスミドを表すコード配列の1つ以上の保存された部分を自動的に同定するためのシステムであって、前記システムが、
    プロセッサと、
    命令を有するメモリと、を備え、前記命令が、前記プロセッサによって実行されると、前記プロセッサに、
    データ構造から病原性細菌の複数の完全または部分的プラスミド配列を取得させ、
    前記プロセッサによって、前記プラスミド配列からコード配列を抽出させ、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類させ、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含み、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択させ、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換させ、
    前記プロセッサによって、前記アミノ酸配列をアラインメントさせ、かつ
    前記アミノ酸配列の複数の部分の各々を、前記複数のプラスミド配列の間の前記部分の保存性レベルに従って分類し、それによって前記プラスミドを表すコード配列の1つ以上の保存された部分を同定させる、前記システム。
  195. 前記プロセッサによって実行されると、前記プロセッサに、対象配列のセットに対するクエリコード配列のセットの各々について、前記クエリコード配列と各対象配列との間の類似性の尺度を計算させ、前記類似性の尺度の各々が、前記クエリ配列と前記対象配列との間の同一性の尺度、及び前記クエリ配列と前記対象配列との間のカバレッジの尺度の関数である、請求項194に記載のシステム。
  196. 前記命令が、前記プロセッサによって実行されると、前記プロセッサに、前記類似性の尺度のマトリックスを作成させ、前記マトリックスのグラフィック表現をレンダリングさせ、それによって前記クエリ配列と前記対象配列との間の保存性レベルを表示させる、請求項195に記載のシステム。
  197. 前記グラフィック表現が、ヒートマップ、グラフ、及び系統樹のうちの1つ以上を含む、請求項196に記載のシステム。
  198. 前記データ構造がコンティグを含み、前記命令が、前記プロセッサによって実行されると、前記プロセッサによって、重複するコンティグをマージして前記完全または部分的プラスミド配列のうちの少なくともいくつかを生成することによって、前記プロセッサに、病原性細菌の前記複数の完全または部分的プラスミド配列を取得させる、請求項194~197のいずれか1項に記載のシステム。
  199. 前記命令が、前記プロセッサによって実行されると、前記プロセッサに、
    病原体と関連付けられたタンパク質をコードする核酸のコード配列、
    前記病原体と関連付けられたタンパク質をコードする核酸配列の保存配列、
    タンパク質をコードする核酸の非保存配列、
    前記病原体と関連付けられた特定のタンパク質内の保存ドメイン、及び
    前記病原体と関連付けられた特定のタンパク質内の非保存ドメインのうちの1つ以上を評価させる、請求項194~198のいずれか1項に記載のシステム。
  200. 前記命令が、前記プロセッサによって実行されると、前記プロセッサに、コロナウイルススパイク(S)タンパク質[例えば、MERS、SARS-CoV、もしくはSARS-CoV2スパイク(S)タンパク質]またはその受容体結合ドメイン(RBD)を評価させる、請求項194~199のいずれか1項に記載のシステム。
  201. 前記病原体が、ウイルスである、請求項194~200のいずれか1項に記載のシステム。
  202. 前記ウイルスが、メチシリン耐性Staphylococcus aureus(MRSA)、B型肝炎ウイルス(HBV)、インフルエンザ、またはエボラウイルスである、請求項201に記載のシステム。
  203. 前記ウイルスが、コロナウイルスである、請求項201に記載のシステム。
  204. 前記コロナウイルスが、重症急性呼吸器症候群関連コロナウイルス(SARS-CoV)、重症急性呼吸器症候群コロナウイルス2(SARS-CoV-2)、または中東呼吸器症候群関連コロナウイルス(MERS-CoV)である、請求項203に記載のシステム。
  205. 前記コロナウイルスが、SARS-CoV-2である、請求項204に記載のシステム。
  206. 前記病原体が、細菌である、請求項194~200のいずれか1項に記載のシステム。
  207. 前記細菌が、Staphylococcus種またはPseudomonas種である、請求項206に記載のシステム。
  208. 病原体感染症の治療のための1つ以上の対象への治療剤の投与後の1つ以上の推定エスケープ変異の同定に使用するための前記治療剤であって、前記使用が、
    前記治療剤を各対象に投与した後に、1つ以上の対象から単離された複数の完全または部分的病原体ゲノム配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記アラインメントされたアミノ酸配列において、参照よりも前記アラインメントされたアミノ酸配列においてより頻繁な1つ以上のアミノ酸バリアントを同定することであって、前記1つ以上のアミノ酸バリアントが、1つ以上の推定エスケープ変異である、前記同定することと、を含む、前記治療剤。
  209. 病原体感染症の治療に使用するための治療剤であって、前記使用が、
    アミノ酸配列の保存された部分を、
    データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記病原体の前記異なる株の間の前記部分の保存性レベルに従って、前記アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、
    前記アラインメントされたアミノ酸配列の保存された部分を選択することと、によって選択することと、
    前記対象から単離された完全または部分的病原体ゲノム配列がアミノ酸配列の前記保存された部分をコードする場合に、前記治療剤を対象に投与することと、を含み、前記治療剤が、前記アミノ酸配列の前記保存された部分に選択的に結合する、前記治療剤。
  210. 病原体感染症の治療のための1つ以上の対象への薬剤の投与後に、1つ以上の推定エスケープ変異を同定するための薬剤の製造のための治療剤の使用であって、前記使用が、
    前記薬剤を各対象に投与した後に、1つ以上の対象から単離された複数の完全または部分的病原体ゲノム配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記アラインメントされたアミノ酸配列において、参照よりも前記アラインメントされたアミノ酸配列においてより頻繁な1つ以上のアミノ酸バリアントを同定することであって、前記1つ以上のアミノ酸バリアントが、1つ以上の推定エスケープ変異である、前記同定することと、を含む、前記使用。
  211. 病原体感染症の治療のための薬剤の製造のための治療剤の使用であって、使用が、
    アミノ酸配列の保存された部分を、
    データ構造から病原体の異なる株の複数の完全または部分的ゲノム配列を得ることと、
    コンピューティングデバイスのプロセッサによって、前記ゲノム配列からコード配列を抽出することと、
    前記プロセッサによって、同一性の尺度及びカバレッジの尺度に従って前記コード配列を分類することであって、前記同一性の尺度が、同一性パーセント、所定のカバレッジ長にわたる同一性パーセント、変異の数、及び変異パーセントのうちの1つ以上を含み、前記カバレッジの尺度が、カバレッジパーセント及びカバレッジ長のうちの1つ以上を含む、前記分類することと、
    前記同一性の尺度及び前記カバレッジの尺度に従って、前記分類されたコード配列の中からコード配列を選択することと、
    前記プロセッサによって、前記選択されたコード配列を対応するアミノ酸配列に変換することと、
    前記プロセッサによって、前記アミノ酸配列をアラインメントすることと、
    前記病原体の前記異なる株の間の部分の保存性レベルに従って、前記アラインメントされたアミノ酸配列の複数の部分の各々を分類することと、
    前記アラインメントされたアミノ酸配列の保存された部分を選択することと、によって選択することと、
    対象から単離された完全または部分的病原体ゲノム配列がアミノ酸配列の前記保存された部分をコードする場合に、前記治療剤を前記対象に投与することと、を含み、前記治療剤が、前記アミノ酸配列の前記保存された部分に選択的に結合する、前記使用。
JP2022527246A 2019-11-12 2020-11-11 遺伝子配列を同定、分類、及び/またはランク付けするための方法及びシステム Pending JP2023502596A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962934323P 2019-11-12 2019-11-12
US62/934,323 2019-11-12
US202062993567P 2020-03-23 2020-03-23
US62/993,567 2020-03-23
PCT/US2020/060045 WO2021096980A1 (en) 2019-11-12 2020-11-11 Methods and systems for identifying, classifying, and/or ranking genetic sequences

Publications (2)

Publication Number Publication Date
JP2023502596A true JP2023502596A (ja) 2023-01-25
JPWO2021096980A5 JPWO2021096980A5 (ja) 2023-11-08

Family

ID=73790212

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022527246A Pending JP2023502596A (ja) 2019-11-12 2020-11-11 遺伝子配列を同定、分類、及び/またはランク付けするための方法及びシステム

Country Status (10)

Country Link
US (1) US20210142868A1 (ja)
EP (1) EP4059020A1 (ja)
JP (1) JP2023502596A (ja)
KR (1) KR20220100011A (ja)
CN (1) CN114787928A (ja)
AU (1) AU2020384498A1 (ja)
CA (1) CA3158742A1 (ja)
IL (1) IL292464A (ja)
MX (1) MX2022005698A (ja)
WO (1) WO2021096980A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2021004130A (es) 2020-04-02 2021-06-15 Regeneron Pharma Anticuerpos contra glicoproteína de espícula anti-sars-cov-2 y fragmentos de unión al antígeno.
CR20220660A (es) 2020-06-03 2023-02-17 Regeneron Pharma Métodos para tratar o prevenir infecciones por sars-cov2 y covid-19 con anticuerpos de glicoproteína espícular anti-sars-cov-2
CN113327646B (zh) * 2021-06-30 2024-04-23 南京医基云医疗数据研究院有限公司 测序序列的处理方法及装置、存储介质、电子设备
WO2023023520A1 (en) * 2021-08-16 2023-02-23 Children's Medical Center Corporation Membrane fusion and immune evasion by the spike protein of sars-cov-2 delta variant
US20230108229A1 (en) * 2021-09-27 2023-04-06 International Business Machines Corporation Prediction of interference with host immune response system based on pathogen features
US20230101083A1 (en) * 2021-09-30 2023-03-30 Microsoft Technology Licensing, Llc Anti-counterfeit tags using base ratios of polynucleotides
CN114397452B (zh) * 2022-03-24 2022-06-24 江苏美克医学技术有限公司 新型冠状病毒Delta突变株或原型株检测试剂盒及其应用
CN116206675B (zh) * 2022-09-05 2023-09-15 北京分子之心科技有限公司 用于预测蛋白质复合物结构的方法、设备、介质及程序产品
CN115547414B (zh) * 2022-10-25 2023-04-14 黑龙江金域医学检验实验室有限公司 潜在毒力因子的确定方法、装置、计算机设备及存储介质
CN117789823B (zh) * 2024-02-27 2024-06-04 中国人民解放军军事科学院军事医学研究院 病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2632380A1 (en) * 2005-11-29 2007-06-07 Intelligent Medical Devices, Inc. Methods and systems for designing primers and probes
US20090327170A1 (en) * 2005-12-19 2009-12-31 Claudio Donati Methods of Clustering Gene and Protein Sequences
WO2017053446A2 (en) * 2015-09-21 2017-03-30 The Regents Of The University Of California Pathogen detection using next generation sequencing
EP3467690A1 (en) * 2017-10-06 2019-04-10 Emweb bvba Improved alignment method for nucleic acid sequences
MX2021004130A (es) 2020-04-02 2021-06-15 Regeneron Pharma Anticuerpos contra glicoproteína de espícula anti-sars-cov-2 y fragmentos de unión al antígeno.

Also Published As

Publication number Publication date
KR20220100011A (ko) 2022-07-14
AU2020384498A1 (en) 2022-06-23
MX2022005698A (es) 2022-08-17
WO2021096980A1 (en) 2021-05-20
CA3158742A1 (en) 2021-05-20
IL292464A (en) 2022-06-01
EP4059020A1 (en) 2022-09-21
CN114787928A (zh) 2022-07-22
US20210142868A1 (en) 2021-05-13

Similar Documents

Publication Publication Date Title
JP2023502596A (ja) 遺伝子配列を同定、分類、及び/またはランク付けするための方法及びシステム
Crooke et al. Immunoinformatic identification of B cell and T cell epitopes in the SARS-CoV-2 proteome
McLaren et al. HIV-1 and human genetic variation
Dolton et al. Emergence of immune escape at dominant SARS-CoV-2 killer T cell epitope
Franzo et al. Evolution of infectious bronchitis virus in the field after homologous vaccination introduction
Tully et al. Differences in the selection bottleneck between modes of sexual transmission influence the genetic composition of the HIV-1 founder virus
Ojha et al. Strategic development of a next-generation multi-epitope vaccine to prevent Nipah virus zoonotic infection
Francica et al. Analysis of immunoglobulin transcripts and hypermutation following SHIVAD8 infection and protein-plus-adjuvant immunization
US20160132631A1 (en) Bioinformatic processes for determination of peptide binding
Almofti et al. Vaccinomic approach for novel multi epitopes vaccine against severe acute respiratory syndrome coronavirus-2 (SARS-CoV-2)
AU2017371498A1 (en) Systems and methods for sequencing T cell receptors and uses thereof
US8000900B2 (en) Association-based predictions of pathogen characteristics
Patra et al. Epitope-based vaccine designing of nocardia asteroides targeting the virulence factor mce-family protein by immunoinformatics approach
Yu et al. Design of a recombinant multivalent epitope vaccine based on SARS-CoV-2 and its variants in immunoinformatics approaches
Koç et al. A phylogenetic study of Feline Immunodeficiency Virus (FIV) among domestic cats in Turkey
Goud et al. A bioinformatic approach of targeting SARS-CoV-2 replication by silencing a conserved alternative reserve of the orf8 gene using host miRNAs
US20230136613A1 (en) Compositions and methods for treating or ameliorating infections
Islam et al. Application of reverse vaccinology to design a multi-epitope subunit vaccine against a new strain of Aeromonas veronii
Zheng et al. Codon usage bias in Chlamydia trachomatis and the effect of codon modification in the MOMP gene on immune responses to vaccination
Gayvert et al. Evolutionary trajectory of SARS-CoV-2 genome shifts during widespread vaccination and emergence of Omicron variant
Maroli Riding the wave: Unveiling the conformational waves from RBD of SARS-CoV-2 spike protein to ACE2
Tîrziu et al. Cytotoxic T-cell-based Vaccine against SARS-CoV-2: a hybrid immunoinformatic approach
Doyle et al. Untangling the influences of unmodeled evolutionary processes on phylogenetic signal in a forensically important HIV-1 transmission cluster
Ghorbani et al. Highlight of potential impact of new viral genotypes of SARS-CoV-2 on vaccines and anti-viral therapeutics
Gayvert et al. Viral population genomics reveals host and infectivity impact on SARS-CoV-2 adaptive landscape

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231030

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231030