発明の背景
A.ウイルス性出血熱
ウイルス性出血熱(VHF)は、数種類のウイルス科に由来するRNAウイルスにより引き起こされる有熱性疾病群である。これらの感染性の高いウイルスは、発熱、倦怠、嘔吐、粘膜および消化管(GI)出血、浮腫および低血圧を特徴とする、致死的疾患症候群につながる可能性を秘めている。ヒトにおいてVHF疾患を引き起こすことがわかっている4種のウイルス科は、アレナウイルス、ブニヤウイルス、フィロウイルスおよびフラビウイルスである。
急性VHFにおいて、患者は極めてウイルス血症性であり、これはサイトカイン活性化が存在する複数の事象のmRNAの痕跡である。インビトロ試験は、これらのサイトカインは、VHFで最も頻繁に認められる基本的病態生理学的過程であるショックおよび増大した血管透過性につながることを明らかにしている。造血系、神経系および呼吸器系に影響を及ぼす多臓器不全は、血管の関与を伴うことが多い。別の顕著な病的特徴は、マクロファージの関与により断言される。これらの新規ウイルス抗原に対する不適切なまたは遅延型の免疫応答は、圧倒的なウイルス血症の急激な発生につながり得る。広範な感染および罹患臓器の壊死も説明されている。出血性合併症は多因子性であり、肝損傷、消費性凝固障害および巨核球への原発性骨髄損傷に関連している。一部のVHFウイルスの空気伝染が、非ヒト霊長類間で報告されており、これはおそらく重度の感染症を伴う患者の伝染様式であろう。VHFの特異的症状および伝染の様式は、具体的ウイルス病原体に応じて大きく変動する。
B.フィロウイルス
フィロウイルスは、−極性の線状の1本鎖RNAの1分節からなるゲノムを伴う、エンベロープウイルスである。このウイルスゲノムは、7種のタンパク質をコードしている。核タンパク質(NP)、ビリオンタンパク質35kDa(VP35)およびビリオンタンパク質30kDa(VP30)は、ウイルスリボ核タンパク質複合体に関連している。VP35は、ウイルス複製に必要であることがわかっており、ポリメラーゼ補因子として機能すると考えられる。ウイルスRNA-依存型RNAポリメラーゼは、L(ラージタンパク質に関して)と称される。マトリックスタンパク質(VP40)は、ウイルスキャプシドの主要タンパク質である。残りのタンパク質は、ビリオン糖タンパク質(GP)および膜-結合タンパク質(VP24)であり、これらはイオンチャネルを形成すると考えられる。エボラウイルスは、ひとつの追加のタンパク質である小型分泌糖タンパク質(SGP)を含む。
フィロウイルス属のメンバーは、ザイールエボラウイルス、スーダンエボラウイルス、レストンエボラウイルス、コートジボアールエボラウイルスおよびマールブルグウイルスを含む。エボラおよびマールブルグウイルスは、重篤な出血熱を引き起こし、および高い致死率を有する。エボラウイルス(ザイールおよびスーダン種)は、有熱の迅速に死に至る出血性疾病の大規模発生が、ザイール(現在コンゴ民主共和国)およびスーダンのエボラ川流域で報告された後に、1976年に最初に明らかにされた。この時から、散発的大規模発生が、通常中央アフリカの孤立した地域において続いている。1995年、最初の大規模発生が報告されてから18年後に、ザイールエボラが、ザイールのキクウィトにおいて再出現し、317症例が確認され、死亡率は81%であった。エボラウイルスの自然宿主は依然不明である。1967年に最初に報告された独国の街から命名されたマールブルグウイルスは、主にアフリカ赤道地域において認められる。マールブルグウイルスの宿主範囲は、非-ヒトおよびヒトの霊長類を含む。マールブルグは、1975年にジンバブエにおいて最初に出現し、後にケニヤ(1980および1987年)およびコンゴ民主共和国(1999年)を含む他のアフリカ諸国において同定された。マールブルグ出血熱は、発熱、腹痛、出血、ショックおよび25%を超える死亡率を特徴としている(「The Springer Index of Viruses」、pgs.296-303、Tidona and Darai eds., 2001, Springer, New York)。
C.フラビウイルス
フラビウイルスは、フラビウイルス属、肝炎ウイルス属およびペスチウイルス属を含むウイルス科である。フラビウイルス属のウイルスは、VHFを引き起こすことがわかっている。フラビウイルスは、+極性の1分節の線状の1本鎖RNAセグメントからなるゲノムを伴うエンベロープのあるウイルスである。このRNAゲノムは、1個のオープンリーディングフレームを有し、ポリタンパク質として翻訳される。このポリタンパク質は、細胞シグナルペプチダーゼおよびウイルスプロテアーゼにより転写時および転写後に切断され、個別のウイルスタンパク質を生じる。ウイルス構造タンパク質は、キャプシド(C)、M前駆体(prM)、小型エンベロープ(M)および大型エンベロープ(E)を含む。フラビウイルスの非-構造タンパク質は、NS1、NS2A、NS2B、NS3、NS4A、NS4BおよびNS5を含む。NS1、NS2A、NS3およびNS4Aは、ウイルスレプリカーゼ複合体において認められる。加えてNS3は、ウイルスプロテアーゼ、ヘリカーゼおよびNTPaseとして機能することがわかっている。NS2Bは、NS3のプロテアーゼ機能の補因子である。NS5は、ウイルスRNA-依存型RNAポリメラーゼであり、同じくメチル基転移酵素活性を有する。
フラビウイルス属のメンバーは、黄熱ウイルス、アポイウイルス、アロア(Aroa)ウイルス、ベガザウイルス(Bagaza)ウイルス、バンジ(Banzi)ウイルス、ボウボイ(Bouboui)ウイルス、ブカラサコウモリ(Bukalasa bat)ウイルス、カシパコレ(Cacipacore)ウイルス、カレイ島(Carey Island)ウイルス、カウボーンリッジ(Cowbone Ridge)ウイルス、ダカーコウモリ(Dakar bat)ウイルス、デングウイルス、エッジヒル(Edge Hill)ウイルス、エテベコウモリ(Entebbe bat)ウイルス、ガドジェットガリー(Gadgets Gully)ウイルス、イルヘウイルス、イスラエルターキー髄膜脳脊髄炎ウイルス、日本脳炎ウイルス、ジュガラ(Jugra)ウイルス、ジュチアパ(Jutiapa)ウイルス、カダム(Kadam)ウイルス、ケドゴウ(Kedougou)ウイルス、ココベラ(Kokobera)ウイルス、コウタンゴ(Koutango)ウイルス、キャサナー森林病ウイルス、ランガトウイルス、跳躍病ウイルス、メアバン(Meaban)ウイルス、モドク(Modoc)ウイルス、モンタナコウモリ白質脳炎ウイルス、マレー渓谷脳炎ウイルス、ナタヤウイルス、オムスク出血熱ウイルス、フォンフェンコウモリ(Phnom Phenh bat)ウイルス、ポワサンウイルス、リオブラボー(Rio Bravo)ウイルス、ロイヤルファーム(Royal Farm)ウイルス、サボヤ(Saboya)ウイルス、サルビエヤ(Sal Vieja)ウイルス、サンペルリタ(San Perlita)ウイルス、サウマレッツリーフ(Saumarez Reef)ウイルス、セピック(Sepik)ウイルス、セントルイス脳炎ウイルス、テンブス(Tembusu)ウイルス、ダニ媒介型脳炎ウイルス、チュレニー(Tyuleniy)ウイルス、ウガンダウイルス、ウスツ(Usutu)ウイルス、ウェッセルスブロンウイルス、ウェストナイルウイルス、ヤオウンド(Yaounde)ウイルス、ヨコセ(Yokose)ウイルス、ジカウイルス、細胞融合性ウイルスおよびタマナコウモリ(Tamana bat)ウイルスを含む。
多くのフラビウイルスは、ヒト疾患、特に出血熱および脳炎を引き起こす。フラビウイルスの各種は、独特な地理的分布を有するが;しかしまとめてフラビウイルスおよびフラビウイルス-誘導疾患は、世界中で認めることができる。比較的一般に良く知られている疾患のひとつは、デング熱、またはデング出血熱/ショックであり、これは最初に1960年にウイルス-誘導病として説明された。デング熱は、熱帯および温帯において生じ、ヤブ蚊により蔓延される。その死亡率は1〜10%であり、症状は、有熱性頭痛、関節痛、発疹、毛細血管漏出、出血およびショックを含む。その他の一般的フラビウイルス-誘導疾患は、黄熱である。黄熱は、熱帯アフリカおよびアメリカにおいて認められ、蚊により伝染される。死亡率は、約30%であり、症状は、熱病性頭痛、筋痛(筋肉痛)、嘔吐および黄疸を含む。フラビウイルス種により引き起こされる他の疾患のいくつかの例は、日本脳炎、キャサー森林病、マレー渓谷脳炎、オムスク出血熱、セントルイス脳炎、および西ナイル熱を含む。これらの疾患の死亡率は、0〜20%である。これらの疾患は、多くの同じ症状を共有し、これは頭痛、筋痛、発熱、出血、脳炎、麻痺および発疹を含む(「The Springer Index of Viruses」、pg.306-319, Tidona and Darai eds., 2001, Springer, New York)。
D.ブニヤウイルス
ブニヤウイルスは、ブニヤウイルス、フレボウイルス、ナイロウイルス、ハンタウイルスおよびトスポウイルス属を含むウイルス科である。これらの属の3種のウイルスであるハンタウイルス、フレボウイルスおよびナイロウイルスは、VHFを引き起こすことがわかっている。ブニヤウイルス科のメンバーは、陰性極性の1本鎖RNAの3分節からなるゲノムを伴う、エンベロープを有するウイルスである。これらのゲノム分節は、S(小)、M(中)およびL(大)と称される。S分節は、ヌクレオキャプシドタンパク質(N)をコードしている。2種のウイルス糖タンパク質(G1およびG2)はM分節によりコードされ、およびL分節はウイルスRNA-依存型RNAポリメラーゼ(L)をコードしている。一部のブニヤウイルス種について、追加のウイルスの非-構造タンパク質が、Sおよび/またはM分節によりコードされている(「The Springer Index of Viruses」、pg.141-174, Tidona and Darai eds., 2001, Springer, New York)。
ハンタウイルス属のメンバーは、ハンターンウイルス、ソウルウイルス、ドブラバ-ベルグレードウイルス、タイウイルス、プーマラウイルス、プロスペクトヒル(Prospect Hill)ウイルス、ツラ(Tula)ウイルス、ハバロフスクウイルス、トポグラホフ(Topografov)ウイルス、イスラビスタ(IsIa Vista)ウイルス、シンノブレウイルス、ニューヨークウイルス、ブラッククリークウイルス、バヨウウイルス、カノデルガジト(Cano Delgadito)ウイルス、リオマモレ(Rio Mamore)ウイルス、ラグナナグラ(Laguna Negra)ウイルス、ムレショー(Muleshoe)ウイルス、エルモロ渓谷(El Moro Canyon)ウイルス、リオセグンド(Rio Segundo)ウイルス、アンデスウイルスおよびトッタパラヤン(Thottapalayam)ウイルスを含む。ハンタウイルスは、広範な地理的分布を有し、典型的には腎症候性出血熱(HFRS)またはハンタウイルス肺症候群(HPS)のいずれかを引き起こす。HFRSの症状は、ハンタウイルス種に応じ、発熱、出血および腎損傷を含み、死亡率は最大15%である。最初に報告されたHFRS症例は、1934年に発生し、朝鮮戦争時の国連軍兵士間の流行が注目された(1951)。しかしHFRSの原因物質であるハンターンウイルスは、1978年まで単離されなかった(Lee et al. J. Inf. Dis., 1978, 137, 298-308)。HPSの症状は、発熱、肺浮腫、ショックおよび間質性肺炎(結合組織に関連する肺炎の型)である。シンノブレウイルスおよびアンデスウイルスは、重症のHPS型を引き起こし、死亡率が約40%である、2種のハンタウイルスである。肺症候群の著しい大規模発生は、1993年に米国南西部において生じた。この大規模発生の病原物質は、後にハンタウイルス(シンノブレ)と同定された(Nichol et al. Science, 1993, 262,914-917)。ハンタウイルスの典型的感染経路は、齧歯類の排泄したエアロゾルであるが、アンデスウイルスは、ヒトからヒトへの感染が関連している(「The Springer Index of Viruses」、pg.141-174, Tidona and Darai eds., 2001, Springer, New York;Wells et al. Emerg. Infect. Dis., 1997, 3, 171-174)。
フレボウイルス属のメンバーは、バジャル(Bujaru)ウイルス、カンジル(Chandiru)ウイルス、チリブレ(Chilibre)ウイルス、フリジョレ(Frijoles)ウイルス、プンタトロ(Punta Toro)ウイルス、リフトバレー熱ウイルス、サレヘバッド(Salehebad)ウイルス、ナポリ型サシチョウバエ熱ウイルス、ウクニエルニ(Uukuniemi)ウイルス、アグアケート(Aguacate)ウイルス、アンハンガ(Anhanga)ウイルス、アルボラダス(Arboledas)ウイルス、アルモウォット(Arumowot)ウイルス。カミト(Caimito)ウイルス、シャグレウイルス、コルフォウ(Corfou)ウイルス、ガベック森林(Gabek Forest)ウイルス、ゴルジル(Gordil)ウイルス、イトポランガ(Itaporanga)ウイルス、オドレニスロウ(Odrenisrou)ウイルス、パキュ(Pacui)ウイルス、リオグランデ(Rio Grande)ウイルス、シシリア型サシチョウバエ熱ウイルス、セントフロリス(Saint-Floris)ウイルスおよびウルクリ(Urucuri)ウイルスである。いくつかのフレボウイルス(例えばナポリ型サシチョウバエ熱ウイルス、シシリア型サシチョウバエ熱ウイルス、チャンジル(Chandiru)ウイルスおよびシャグレウイルス)は、フレボトムス熱を引き起こし、これは典型的にはアメリカおよび地中海地域に認められる。フレボトムス熱は、致命的疾患ではないが、これはフレボトムス(サシチョウバエ)により伝染され、発熱、筋痛(筋肉痛)および他の流行性感冒-様症状を誘導する。リフトバレー熱ウイルスは、蚊により伝染され、これはアフリカにおいて同名の疾患を引き起こす。リフトバレー熱は、出血熱、肝炎および脳炎を特徴としている。
ナイロウイルス属のメンバーは、クリミアコンゴ出血熱ウイルス、デラガジカ(Dera Ghazi Khan)ウイルス、ダグベ(Dugbe)ウイルス、ヒュージ(Hughes)ウイルス、ナイロビヒツジ病ウイルス、キャユベ(Qalyub)ウイルス、サハリンウイルスおよびチアフォラ(Thiafora)ウイルスを含む。ナイロウイルスは主にアフリカ、アジア、ヨーロッパおよび中東において認められる。ヒトにおいて、ナイロウイルスは、出血熱(クリミアコンゴ出血熱)、ナイロビヒツジ病およびダグベ病を引き起こす。ナイロビウイルスは典型的には、ダニによりヒトへ伝染する。クリミアコンゴ出血熱の最初に認められた報告は、1110年までさかのぼる。この疾患は、発熱、悪心、重度の頭痛、筋痛および出血の突然の始まりを特徴としている。死亡率は約30%である。ナイロビヒツジ病の症状は、発熱、関節痛および全身倦怠を含むのに対し、ダグベ病は、発熱および長期の血小板減少症(血小板の異常な低下)を含む(「The Springer Index of Viruses」、pg141-174, Tidona and Darai eds., 2001, Springer, New York)。
E.アレナウイルス
アレナウイルスは、アレナウイルス科のただひとつの属である。アレナウイルスは、−極性の2分節の1本鎖RNAからなるゲノムを持つ、エンベロープを有するウイルスである。アレナウイルスゲノムのマイナス-センスRNAは、相補的RNA転写のための鋳型に加え、タンパク質合成の鋳型の両方として役立つ(アンビセンスRNA)。ゲノム分節は、ヌクレオキャプシドタンパク質(NP)および前駆体糖タンパク質(GPC)をコードしているS、ならびに亜鉛-結合タンパク質(Z)およびRNA-依存型RNAポリメラーゼ(L)をコードしているLと称される。
アレナウイルス属のメンバーは、リンパ球性脈絡髄膜炎ウイルス(LCMV)、ラッサウイルス、イッピ(Ippy)ウイルス、モバラ(Mobala)ウイルス、モペリア(Mopeia)ウイルス、アマパリウイルス、フレキサル(Flexal)ウイルス、グアナリトウイルス、ジュニンウイルス、ラチノウイルス、マチュポウイルス、パラナ(Parana)ウイルス、ピチンドウイルス、ピリタル(Pirital)ウイルス、オリベロス(Oliveros)ウイルス、サビアウイルス、タカリベウイルス、タミアミウイルス、ホワイトウォーターアロヨ(Whitewater Arroyo)ウイルスおよびパンパ(Pampa)ウイルスを含む。LCMV、ラッサウイルス、ジュニンウイルス、マチュポウイルス、グアナリトウイルスおよびサビアウイルスを含む、多くのアレナウイルスは、ヒトにおいて疾患を引き起こすことが知られている。LCMVは、地理的に世界中に分布しており、LCMVによる感染は、発熱、倦怠、衰弱、筋痛および重度の頭痛につながる。残りの疾患を引き起こすアレナウイルスは、それらの分布がより限定されている。ラッサ熱は、西アフリカで発見され、発熱、頭痛、乾いた咳、滲出性咽頭炎および出血を特徴としている。サビア熱は、ブラジルにおいて、発熱、頭痛、筋痛(筋肉痛)、悪心、嘔吐および出血を含む症状と共に認められる。ジュニンウイルス、マチュポウイルスおよびグアナリトウイルスは、各々、アルゼンチン出血熱、ボリビア出血熱およびベネズエラ出血熱の原因物質であり、それらの名称が示唆するように、アルゼンチン、ボリビアおよびベネズエラにおいてのみ認められる。これらの出血熱の症状は、倦怠、発熱、頭痛、関節痛(関節の疼痛)、悪心、嘔吐、出血およびCNS関与を含む(「The Springer Index of Viruses」、pg36-42, Tidona and Darai eds., 2001, Springer, New York)。
F.バイオエージェント(bioagent)検出
自然の感染症の大規模発生またはバイオテロ攻撃の原因を決定する上での問題点は、ヒト疾患を引き起こし得る生物の莫大な多様性である。1400種を超えるヒトに感染性の生物が存在し;これらの多くは、自然流行を突然出現するかまたはバイオテロリストによる悪意のある攻撃に使用される(Taylor et al., Philos. Trans. R. Soc. London B. Biol. Sci., 2001, 356, 983-989)。この数は、多くの菌株変種、遺伝子操作された変種、または植物もしくは動物に感染する病原体は含んでいない。
生物兵器を検出するために開発された新規技術の多くは、個々の病原性生物を選択的に検出するように設計された高度に特異的なプライマーおよびプローブの使用を基にした、ポリメラーゼ連鎖反応(PCR)工程を組込んでいる。この方法は天然痘および炭疽菌などの、最も明確なバイオテロ生物には適しているが、数百の可能性のある病原性生物のどれが、テロリストの攻撃に利用されるかを推定することは非常に困難であることを実験が示している。同様に公衆衛生に破壊的結果を引き起こす自然に出現するヒト疾患は、細菌、ウイルス、真菌または原生動物の予想外の科から生じる。植物および動物も同じく、感染性疾患物質に関するそれらの自然の負担を有し、かつ農業におけるバイオセーフティーおよび保安の懸念も同等に重要である。
別の単独-物質試験は、バイオエージェントの群を超えて保存された遺伝子標的の広範なコンセンサスプライミング(consensus priming)を行うことである。広範なプライミングは、全部の属、科を超えて、または細菌のように、全ての命のドメインにわたる増幅産物を作製する可能性がある。この戦略は、環境試料(Schmidt et al., J. Bact, 1991, 173, 4371-4378)および天然のヒト叢(Kroes et al., Proc Nat Acad Sci (USA), 1999, 96, 14547-14552)の両方の中の細菌の多様性を決定するために、コンセンサス16SリボソームRNAプライマーを使用することにより成功している。未知のバイオエージェント検出および疫学に関するこの方法の欠点は、PCR産物の分析は、1種の試料につき数百から数千のコロニーのクローニングおよび配列決定を必要とし、これは迅速にまたは多数の試料について実行するには非現実的であることである。
配列の保存は、ウイルスにとって普遍的ではないが、大きいウイルス種の群は、ウイルスポリメラーゼまたはヘリカーゼをコードしている領域のような、保存されたタンパク質-コード領域を共有している。コロナウイルス(Stephensen et al., Vir. Res., 1999, 60, 181-189)、エンテロウイルス(Oberste et al., J. Virol., 2002, 76, 1244-51);Oberste et al., J. Clin. Virol, 2003, 26, 375-7);Oberste et al., Virus Res., 2003, 91, 241-8)、レトロイドウイルス(Mack et al., Proc. Natl. Acad. Sci. U. S. A., 1988, 85, 6977-81);Seifarth et al., AIDS Res. Hum. Retroviruses, 2000, 16, 721-729);Donehower et al., J. Vir. Methods, 1990, 28, 33-46)、およびアデノウイルス(Echavarria et al., J. Clin. Micro., 1998, 36, 3323-3326)を含むいくつかのウイルス科の検出については、細菌のように、コンセンサスプライミングも説明されている。しかし細菌のように、ウイルスバイオエージェントの存在を同定するには、配列決定以外には適当な分析法が存在しない。
PCR-ベースの方法に対し、質量分析は、高い質量精度を含む、分析される分子に関する詳細な情報を提供する。これは、容易に自動化することができる過程でもある。特異的プローブを伴うDNAチップは、特別に予測された生物の存在または非存在のみを決定することができる。数十万種の良性病原体が存在し、その一部は生物を脅かす配列が非常に類似しているので、10,000種のプローブを伴うアレイであっても、特定の生物を同定するために必要な大きさは欠いている。
特異性および迅速性の両面があり、ならびに培養も核酸の配列決定も必要としないような、バイオエージェント同定法の必要性が存在する。米国特許出願公開第2003-0027135号、第2003-0082539号、第2003-0228571号、第2004-0209260号、第2004-0219517号および第2004-0180328号、ならびに米国特許出願第10/660,997号、第10/728,486号、第10/754,415号および第10/829,826号において、例えば、翻訳、複製、組換えおよび修復、転写、ヌクレオチド代謝、アミノ酸代謝、脂質代謝、エネルギー産生、取込み、分泌などに関連している必須かつ保存された遺伝子のセグメントの増幅により得られた、「バイオエージェント同定用単位複製配列」の分子量および塩基組成分析によるバイアスのかからない方法での、バイオエージェント(生存もしくは死滅した、任意の生物、細胞、もしくはウイルス、またはそのような生物、細胞、もしくはウイルスに由来する核酸)の同定法が開示されており、先の出願は全て特許権保有者が共通でありならびに本明細書に参照として組入れられている。これらのタンパク質の例は、リボソームRNA、リボソームタンパク質、DNAおよびRNAポリメラーゼ、RNA-依存型RNAポリメラーゼ、RNAキャップ形成酵素およびメチル化酵素、伸長因子、tRNA合成酵素、タンパク質連鎖開始因子、ヒートショックタンパク質groEL、ホスホグリセリン酸キナーゼ、NADH脱水素酵素、DNA連結酵素、DNAジャイレースおよびDNAトポイソメラーゼ、ヘリカーゼ、代謝酵素などを含むが、これらに限定されるものではない。
バイオエージェント同定用単位複製配列を得るために、プライマーは、増幅されることができおよび分子量分析の方法に適用し易いような核酸のセグメントを得るために、可変性配列領域をひとまとめにする保存配列領域とハイブリダイズするように選択される。可変性配列領域は、バイオエージェント同定に使用される分子量の変動を提供する。特別に選択されたプライマーによるPCRまたは他の増幅法による増幅時に、バイオエージェント同定用単位複製配列を表す増幅産物が得られる。例えば質量分析により得られるこの増幅産物の分子量は、バイオエージェントの同定の可能性に関する先行する知識を必要とせずに、バイオエージェントを独自に同定するための手段を提供する。増幅産物の分子量または対応する塩基組成(これは増幅産物の分子量から計算される)は、分子量または塩基組成のデータベースと比較され、一致することにより、そのバイオエージェントの同一性が示される。さらにこの方法は、迅速な平行分析(例えば、マルチ-ウェルプレート様式)に適合することができ、その結果は、バイオエージェント同定に関して迅速なスループットに適用し易くおよび増幅された標的配列の核酸配列決定を必要としない三角同定(triangulation identification)戦略において使用することができる。
それまで未知のバイオエージェント(例えば新たに進化したおよびその結果未観察のウイルス)のそれまで未知の塩基組成の決定の結果は、それを用い塩基組成データベースを読み込む(populate)新規バイオエージェントインデックス情報の提供により、その後有用となる。従ってその後のバイオエージェント同定分析の過程は、バイオエージェント同定用単位複製配列に関するより多くの塩基組成データが利用可能になるので、大きく改善される。
本発明は、とりわけ、フィロウイルス科、フラビウイルス科、ブニヤウイルス科およびアレナウイルス科のウイルスを含む、未知のウイルスを同定する方法を提供する。ウイルスバイオエージェント同定用単位複製配列を規定し、ならびに増幅時に、その分子量が、フィロウイルス科、フラビウイルス科、ブニヤウイルス科およびアレナウイルス科のウイルスを亜種レベルで同定するための手段を提供するような対応する増幅産物を生成する、オリゴヌクレオチドプライマー、そのオリゴヌクレオチドプライマーを含む組成物およびキットも提供される。
発明の概要
本発明は、フィロウイルス科、フラビウイルス科、ブニヤウイルス科およびアレナウイルス科のウイルスの同定に使用するための、プライマーおよびプライマー対を含む組成物、およびこれを含むキット、ならびに使用法を提供する。これらのプライマーは、ウイルス複製に必須の遺伝子をコードしているDNAの、ウイルスバイオエージェント同定用単位複製配列を作製するように設計されている。本発明はさらに、フィロウイルス科、フラビウイルス科、ブニヤウイルス科およびアレナウイルス科のメンバーの種および亜-種の特徴決定を提供するように設計された、プライマー対を含む組成物およびこれを含むキットを提供する。
一部の態様において、配列番号:129と少なくとも70%の配列同一性を含む長さ23〜35核酸塩基のオリゴヌクレオチドプライマー、またはそれを含む組成物が提供される。別の態様において、配列番号:164と少なくとも70%の配列同一性を含む長さ22〜35の核酸塩基のオリゴヌクレオチドプライマーが提供される。一部の態様において、両方のプライマーを含む組成物が提供される。一部の態様において、これらのプライマーのいずれかまたは両方は、5-プロピニルウラシルまたは5-プロピニルシトシンのような、少なくとも1個の修飾された核酸塩基を含む。一部の態様において、これらのプライマーのいずれかまたは両方は、イノシンのような、少なくとも1種の普遍的な核酸塩基を含む。一部の態様において、これらのプライマーのいずれかまたは両方は、5'末端に非鋳型のT残基を含む。一部の態様において、これらのプライマーのいずれかまたは両方は、少なくとも1個の非鋳型タグを含む。一部の態様において、これらのプライマーのいずれかまたは両方は、少なくとも1個の分子量修飾タグを含む。一部の態様において、前記組成物は、キット内に存在する。このキットは、少なくとも1種の較正ポリヌクレオチド、および/または少なくとも1種の磁気ビーズに連結されたイオン交換樹脂も含んでよい。
一部の態様において、未知のフィロウイルスの同定法が提供される。一部の態様において、フィロウイルス由来の核酸は、増幅産物を得るために、先に説明された組成物を用いて増幅される。この増幅産物の分子量が測定される。任意に、増幅産物の塩基組成は、分子量から決定される。分子量または塩基組成は、公知のフィロウイルスのバイオエージェント同定用単位複製配列の複数の分子量または塩基組成と比較され、ここでこの分子量または塩基組成と、複数の分子量または塩基組成の要素との間の一致により、この未知フィロウイルスが同定される。一部の態様において、分子量は質量分析により測定される。
一部の態様において、試料中のフィロウイルスの存在または非存在を決定する方法が提供される。試料由来の核酸は、増幅産物を得るために、先に説明された組成物を用いて増幅される。増幅産物の分子量が決定される。任意に、増幅産物の塩基組成が、その分子量から決定される。増幅産物の分子量または塩基組成は、1つまたは複数の公知のフィロウイルスのバイオエージェント同定用単位複製配列の公知の分子量または塩基組成と比較され、ここで増幅産物の分子量または塩基組成と、1種または複数の公知のフィロウイルスのバイオエージェント同定用単位複製配列の分子量または塩基組成との間の一致により、試料中のフィロウイルスの存在が示される。一部の態様において、分子量は質量分析により測定される。
一部の態様において、試料中の未知のフィロウイルスの量を決定する方法が提供される。この試料は、先に説明された組成物、および較正配列を含む既知量の較正ポリヌクレオチドと接触される。試料中の未知のフィロウイルス由来の核酸は、先に説明された組成物と同時に増幅され、ならびに試料中の較正ポリヌクレオチド由来の核酸は、先に説明された組成物と同時に増幅され、フィロウイルスのバイオエージェント同定用単位複製配列を含む第一の増幅産物および較正単位複製配列を含む第二の増幅産物を得る。フィロウイルスのバイオエージェント同定用単位複製配列および較正単位複製配列の分子量および存在量が決定される。フィロウイルスのバイオエージェント同定用単位複製配列は、分子量を基に較正単位複製配列から識別され、ここでフィロウイルスのバイオエージェント同定用単位複製配列存在量および較正単位複製配列存在量の比較は、試料中のフィロウイルスの量を示す。一部の態様において、フィロウイルスのバイオエージェント同定用単位複製配列の塩基組成が決定される。
態様の詳細な説明
本発明の状況において、「バイオエージェント」は、生存または死滅した任意の生物、細胞、もしくはウイルス、またはそのような生物、細胞、もしくはウイルスに由来する核酸を意味する。バイオエージェントの例は、細胞(ヒト臨床試料、細胞培養物、細菌細胞および他の病原体を含むが、これらに限定されるものではない)、ウイルス、ビロイド、真菌、原生動物、寄生体、および病原性マーカー(病原性島(pathogenicity island)、抗生物質耐性遺伝子、ビルレント因子、毒素遺伝子および他の生体調節化合物を含むが、これらに限定されるものではない)を含むが、これらに限定されるものではない。試料は、生存または死滅または増殖状態にあってよく(例えば、増殖性細菌または胞子)、および被包されるかまたは遺伝子操作されてもよい。本発明の状況において、「病原体」は、疾患または障害を引き起こすバイオエージェントである。
本明細書において使用される「インテリジェントプライマー」は、介在性の可変領域に隣接するバイオエージェント同定用単位複製配列の高度に保存された配列領域に結合し、および各個別のバイオエージェントを識別するのに十分な変動を理想的に提供する増幅産物を生じるように設計されたプライマーであり、ならびにこれは分子量分析に適応し易い。用語「高度に保存された」は、配列領域が、全ての間で約80〜100%、もしくは約90〜100%、もしくは約95〜100%の同一性を、または種もしくは菌株の少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、もしくは少なくとも99%が同一性を示すことを意味する。
本明細書において使用される「広範なサーベイ(broad range survey)プライマー」は、未知のバイオエージェントを、特定の部門(division)(例えば、目、科、綱、クレイド、属、またはバイオエージェントの種レベルを超えるバイオエージェントの他のそのような群別)のメンバーとして同定するように設計されたインテリジェントプライマーである。場合によっては、広範なサーベイプライマーは、未知のバイオエージェントを種または亜種レベルで同定することができる。本明細書において使用される「部門-ワイドな(division-wide)プライマー」は、バイオエージェントを種レベルで同定するように設計されたインテリジェントプライマーであり、および「掘下げ型(drill-down)」プライマーは、バイオエージェントを亜種レベルで同定するように設計されたインテリジェントプライマーである。本明細書において使用される同定の「亜種」レベルは、株、亜型、変種、および単離体を含むが、これらに限定されるものではない。
本明細書において使用される「バイオエージェント部門」は、種レベルを超えるバイオエージェントの群と定義され、ならびに目、科、綱、クレイド、属、またはバイオエージェントの種レベルを超えるバイオエージェントの他のそのような群別を含むが、これらに限定されるものではない。
本明細書において使用される「亜種特性」は、同じバイオエージェント種のふたつのメンバーを識別する手段を提供する遺伝子特性である。例えばひとつのウイルス株は、RNA-依存型RNAポリメラーゼのような、ウイルス遺伝子のひとつにおいて遺伝子変化(例えばヌクレオチド欠失、付加または置換など)を有することにより、同じ種の別のウイルス株から識別することができる。この場合、本発明の方法を用いて同定することができる亜種特性は、ウイルスポリメラーゼの遺伝子変化である。
本明細書において使用される用語「バイオエージェント同定用単位複製配列」とは、増幅反応においてバイオエージェントから増幅されるポリヌクレオチドであり、1)各個別のバイオエージェントを識別するのに十分な可変性を提供し、および2)その分子量は、分子量決定に適用し易いようなポリヌクレオチドを意味する。
本明細書において使用される「塩基組成」は、所定の配列中の各核酸塩基(A、T、CおよびG)の正確な数である。
本明細書において使用される「塩基組成サイン」(BCS)は、バイオエージェント同定用単位複製配列の分子量から決定された正確な塩基組成(すなわち、A、T、GおよびC核酸塩基の数)である。
本明細書において使用される「塩基組成確率クラウド(probability cloud)」とは、所定の種の異なる単離体間で生じる配列の変動の結果生じる塩基組成の多様性の表現である。「塩基組成確率クラウド」は、各種の塩基組成拘束(constraint)を表し、および典型的には偽四次元プロットを使用し可視化される。
本明細書において使用される「ゆらぎ塩基」は、DNAトリプレットの3番目のヌクレオチド位置に認められるコドンの変動である。配列の保存領域の変動は、アミノ酸暗号の縮重のために、3番目のヌクレオチド位置で認められることが多い。
本発明の状況において用語「未知のバイオエージェント」は、以下のいずれかを意味する:(i)その存在は公知である(例えば周知の細菌種黄色ブドウ球菌(Staphylococcus aureus)など)が、分析される試料中に存在することは不明であるバイオエージェント、または(ii)その存在が不明である(例えばSARSコロナウイルスは、2003年4月時点では不明である)バイオエージェント。例えば、特許権保有者が共通の米国特許出願第10/829,826号(その全体が本明細書に参照として組入れられている)に開示されたコロナウイルス同定法は、臨床試料中のSARSコロナウイルスを同定するために、2003年4月以前に使用され、SARSコロナウイルスは、2003年4月以前は科学的に不明であり、およびどのバイオエージェント(この場合コロナウイルス)が試料中に存在するかは不明であったので、「未知の」バイオエージェントのこれら両方の意味が適用可能である。他方で、米国特許出願第10/829,826号の方法が、臨床試料中のSARSコロナウイルスを同定するために2003年4月以降使用される場合には、SARSコロナウイルスは2003年4月以降は科学的に公知であり、およびどのバイオエージェントが試料中に存在するかは不明であるので、「未知の」バイオエージェントの最初の(i)の意味のみが適用される。
本明細書において使用される「三角同定(triangulation identification)」は、バイオエージェントの同定のための1種よりも多いバイオエージェント同定用単位複製配列の使用を意味する。
本発明の状況において「ウイルス核酸」は、DNA、RNA、または例えば逆転写反応を行うことによりウイルスRNAから得られるDNAを含むが、これらに限定されるものではない。ウイルスRNAは、1本鎖(+もしくは−の極性)または2本鎖のいずれかである。
本明細書において使用される用語「病因学」は、疾患または異常な生理的状態の原因または起源を意味する。
本明細書において使用される用語「核酸塩基」は、「ヌクレオチド」、「デオキシヌクレオチド」、「ヌクレオチド残基」、「デオキシヌクレオチド残基」、「ヌクレオチド三リン酸(NTP)」または「デオキシヌクレオチド三リン酸(dNTP)」を含む、当該技術分野において使用される他の用語と同義語である。
本発明は、バイオエージェント同定用単位複製配列を使用し、バイアスのかからない方式でバイオエージェントを検出および同定する方法を提供する。インテリジェントプライマーは、バイオエージェント由来の核酸の保存された配列領域とハイブリダイズし、ならびに増幅することができおよび分子量決定に適用し易いバイオエージェント同定用単位複製配列を得るために可変配列領域をひとまとめにするように選択される。次に分子量は、バイオエージェントの可能性のある同一性に関する先行する知識を必要とせずに、バイオエージェントを独自に同定する手段を提供する。その後増幅産物の分子量または対応する塩基組成サイン(BCS)は、分子量または塩基組成サインのデータベースと照合される。さらにこの方法は、迅速な平行した複数の分析に適用することができ、その結果は三角同定戦略において使用することができる。本方法は、迅速な処理量を提供し、ならびにバイオエージェントの検出および同定に関して増幅された標的配列の核酸配列決定を必要としない。
膨大な生物学的多様性にもかかわらず、地球上の全ての生命の形は、それらのゲノム内に本質的に共通の特徴のセットを共有している。遺伝子データは、本発明の方法によるバイオエージェントの同定の基礎となる土台を提供するので、各個別のバイオエージェントを識別するのに十分な可変性を理想的に提供し、およびその分子量が分子量決定に適用し易いような核酸のセグメントを選択することは必要である。
全ての生物にわたり多くの遺伝子の保存を示す(すなわちハウスキーピング遺伝子)細菌ゲノムとは異なり、ウイルスは、全てのウイルス科において必須でありおよび保存された遺伝子を共有しない。従ってウイルス同定は、特定のウイルス科または属のメンバーのような、関連ウイルスの比較的小さい群内で実現される。例えばRNA依存型RNAポリメラーゼは、全ての1本鎖RNAウイルスに存在し、広範なプライミングに加え、そのウイルス科内の分解(resolution)に使用することができる。
本発明の一部の態様において、少なくとも1種のウイルス核酸セグメントは、バイオエージェントを同定する過程において増幅される。従って本明細書に開示されたプライマーにより増幅することができ、ならびに各個別のバイオエージェントを識別するのに十分な可変性を提供しおよびその分子量は分子量決定に適用し易いような核酸セグメントは、本明細書においてバイオエージェント同定用単位複製配列として説明される。
本発明の一部の態様において、バイオエージェント同定用単位複製配列は、約45〜約200個の核酸塩基を含む(すなわち、約45〜約200個の連結されたヌクレオシド)。当業者は、本発明は、長さが
またはその中のいずれかの範囲の核酸塩基の化合物を具体化することを理解するであろう。
これは、プライマーがハイブリダイズするバイオエージェント核酸セグメントの一部(ハイブリダイゼーション部位)と、バイオエージェント同定用単位複製配列を含むそのプライマーハイブリダイゼーション部位間の可変領域の組合せである。一部の態様において、分子量決定の特定様式と互換性のある長さの予測可能な断片を得るために、本明細書に説明されたプライマーにより生成される分子量決定に適応し易いバイオエージェント同定用単位複製配列は、長さ、サイズまたは質量のいずれかが、分子量決定の特定様式と互換性があるかまたは予測可能な断片化パターンを提供する手段と互換性がある。このような増幅産物の予測可能な断片化パターンを提供する手段は、例えば制限酵素または切断プライマーによる切断を含むが、これらに限定されるものではない。従って一部の態様において、バイオエージェント同定用単位複製配列は、200核酸塩基よりも長く、および制限消化後の分子量決定に適用しやすい。制限酵素および切断プライマーを使用する方法は、当業者に周知である。
一部の態様において、バイオエージェント同定用単位複製配列に対応する増幅産物は、分子生物学分野の当業者には日常的方法であるポリメラーゼ連鎖反応(PCR)を用いて得られる。同じく当業者に周知である、リガーゼ連鎖反応(LCR)、低ストリンジェンシー単プライマーPCR、およびマルチ鎖置換増幅(MDA)などの、他の増幅法を使用してもよい。
インテリジェントプライマーは、介在性の可変領域に隣接し、ならびに各個別のバイオエージェントを識別するのに十分な可変性を理想的に提供しおよび分子量分析に適用し易いような増幅産物を生じるようなバイオエージェント同定用単位複製配列の高度の保存された配列領域へ結合するように設計される。一部の態様において、高度に保存された配列領域は、約80〜100%、または約90〜100%、または約95〜100%の同一性、または約99〜100%の同一性を示す。所定の増幅産物の分子量は、可変領域の可変性のために、それが得られるものからバイオエージェントを同定する手段を提供する。従って、インテリジェントプライマーの設計には、所定のバイオエージェントの同一性を分解するための適当な可変性を伴う可変領域の選択が必要である。バイオエージェント同定用単位複製配列は、バイオエージェントの同一性に特異的であることが理想的である。
バイオエージェントの同定は、同定の各個別のレベルの分解に適したインテリジェントプライマーを使用し異なるレベルで実現することができる。広範なサーベイインテリジェントプライマーは、バイオエージェントを特定部門(例えば、目、科、綱、クレイド、属またはバイオエージェントの種レベルを超えるバイオエージェントの他のそのような群別)のメンバーとして同定する目的で設計される。限定的でない例として、フィロウイルス属のメンバーを、ウイルスRNA依存型RNAポリメラーゼを標的化するプライマーのような、広範なサーベイインテリジェントプライマーの使用により、同定することができる。別の限定的でない例として、ハンタウイルス属のメンバーを、ウイルスRNA依存型RNAポリメラーゼを標的化するプライマーのような、広範なサーベイインテリジェントプライマーの使用により、同定することができる。一部の態様において、広範なサーベイインテリジェントプライマーは、種または亜種レベルでバイオエージェントを同定することが可能である。
部門-ワイドなインテリジェントプライマーは、種レベルでバイオエージェントを同定する目的で設計されている。非限定的例として、ザイールエボラウイルス、スーダンエボラウイルスおよびマールブルグウイルスのフィロウイルス属の種は、部門-ワイドなインテリジェントプライマーを用い、互いに識別することができる。別の非限定的例として、ハンターン、シンノブレおよびアンデスウイルスのハンタウイルス属の種は、部門-ワイドなインテリジェントプライマーを用いて、互いに識別することができる。広範なサーベイインテリジェントプライマーは、この同定目的を達成するために十分な同定分解を提供することができるので、部門-ワイドなインテリジェントプライマーは、種レベルでの同定に常に必要ではない。
掘下げ型インテリジェントプライマーは、亜種特性を基に、亜種レベル(株、亜型、変種および単離体を含む)でバイオエージェントを同定する目的で、設計されている。非限定的一例として、ザイールエボラのMayinga、ZaireおよびEckron単離体を、掘下げ型プライマーを用い、互いに識別することができる。別の非限定的例として、シンノブレウイルスのNMR11、NMH10およびCC107単離体は、掘下げ型プライマーを用い、互いに識別することができる。広範なサーベイインテリジェントプライマーは、この同定目的を達成するために十分な同定分解を提供するので、掘下げ型インテリジェントプライマーは、亜種レベルでの同定に常に必要ではない。
プライマー選択および検証過程に使用される代表的過程流れ図を、図1に概略した。生物の各群について、候補標的配列が同定され(200)、そこからヌクレオチドアラインメントが作製され(210)および分析される(220)。次にプライマーが、適当なプライミング領域を選択することにより設計され(230)、これは次に候補プライマー対の選択を可能にする(240)。次にプライマー対に、電気的PCR(ePCR)によるインシリコ解析を施し(300)、ここでバイオエージェント同定用単位複製配列が、GenBankまたは他の配列収集などの配列データベースから得られ(310)、特異性についてインシリコでチェックされる(320)。GenBank配列から得られたバイオエージェント同定用単位複製配列(310)は、所定の単位複製配列が未知のバイオエージェントを同定する能力を推定する確率モデルによっても分析することができ、その結果好ましい確率スコアを有する単位複製配列の塩基組成が、塩基組成データベースに保存される(325)。あるいは、プライマーおよびGenBank配列から得られたバイオエージェント同定用単位複製配列の塩基組成は、塩基組成データベースへ直接入力することができる(330)。候補プライマー対(240)は、生物の集合からの核酸のPCR分析(400)のような方法による、インビトロ増幅により検証される(410)。こうして得られた増幅産物は分析され、増幅産物を得るために使用されるプライマーの感受性、特異性および再現性を確認する(420)。
生物兵器物質として最大の懸念のある生物を含む、多くの重要な病原体は、完全に配列決定されている。この努力は、未知のバイオエージェントの検出のためのプライマーおよびプローブの設計を大きく促進した。広範なプライミングの部門-ワイドなおよび掘下げ型プライミングとの組合せの使用は、生物戦争の脅威となる物質に関する環境調査および医学的に重要な病原体に関する臨床検体分析を含む、いくつかの技術の適用において非常にうまくいっている。
プライマー合成は、当該技術分野において周知であり日常的である。プライマーは、周知の固相合成技術により、都合良くかつ日常的に作製することができる。このような合成のための装置は、例えばApplied Biosystems(Foster City, CA)を含むいくつかの製造供給元から販売されている。当該技術分野において公知のこのような合成の他の手段を、追加してまたは代わりに使用することもできる。
これらのプライマーは、以下のような、ウイルスバイオエージェント同定法において使用するための組成物として使用される:プライマー対組成物が、未知のウイルスバイオエージェントの核酸(例えば、DNAウイルス由来のDNA、またはRNAウイルスのRNAから逆転写されたDNAなど)と接触される。その後この核酸は、例えばPCRのような、核酸増幅技術により増幅され、バイオエージェント同定用単位複製配列を提供する増幅産物を得る。2本鎖増幅産物の各鎖の分子量は、例えば質量分析のような分子量測定技術により決定され、ここで2本鎖増幅産物のふたつの鎖は、イオン化処理時に分離される。一部の態様において、質量分析は、エレクトロスプレーフーリエ変換イオンサイクロトロン型共鳴質量分析(ESI-FTICR-MS)またはエレクトロスプレー飛行時間型質量分析(ESI-TOF-MS)である。可能性のある塩基組成のリストを、各鎖について得られた分子量値について作製することができ、このリストからの正確な塩基組成の選択が、1本鎖の塩基組成の、他鎖の相補的塩基組成とのマッチングにより、促進される。こうして決定された分子量または塩基組成は、次に公知のウイルスバイオエージェントに関する類似のバイオエージェント同定用単位複製配列の分子量または塩基組成のデータベースと比較される。増幅産物の分子量または塩基組成と、公知のウイルスバイオエージェントに関する類似のバイオエージェント同定用単位複製配列の分子量または塩基組成との一致により、未知のバイオエージェントの同一性が示される。一部の態様において、使用されるプライマー対は、表4-7のプライマー対のひとつである。一部の態様において、この方法は、異なるプライマー対を用いて反復され、同定過程において可能性のある不明瞭さを解決するか、または同定の割当に関する信頼レベルを向上する。
一部の態様において、バイオエージェント同定用単位複製配列は、例えば、低ストリンジェンシー単プライマーPCR(LSSP-PCR)のような適当な増幅法が選択される場合は、ただひとつのプライマー(任意の所定のプライマー対のフォワードまたはリバースプライマーのいずれか)を用いて作製され得る。この増幅法のバイオエージェント同定用単位複製配列を作出するための適合は、当業者は過度の実験をせずに実現することができる。
一部の態様において、オリゴヌクレオチドプライマーは、全て(または80%〜100%、85%〜100%、90%〜100%もしくは95%〜100%)の既知のフィロウイルスのRNA依存型RNAポリメラーゼをコードしている核酸の保存領域にハイブリダイズし、およびバイオエージェント同定用単位複製配列を作製する、広範なサーベイプライマーである。一部の態様において、オリゴヌクレオチドプライマーは、全て(または80%〜100%、85%〜100%、90%〜100%もしくは95%〜100%)の既知のフィロウイルスのヌクレオキャプシドをコードしている核酸の保存領域にハイブリダイズし、およびバイオエージェント同定用単位複製配列を作製する、広範なサーベイプライマーである。
一部の態様において、オリゴヌクレオチドプライマーは、全て(または80%〜100%、85%〜100%、90%〜100%もしくは95%〜100%)の既知のフィロウイルスのRNA依存型RNAポリメラーゼをコードしている核酸の保存領域(NS5)にハイブリダイズし、およびバイオエージェント同定用単位複製配列を作製する、広範なサーベイプライマーである。一部の態様において、オリゴヌクレオチドプライマーは、全て(または80%〜100%、85%〜100%、90%〜100%もしくは95%〜100%)の既知のフィロウイルスのプロテアーゼ/ヘリカーゼをコードしている核酸の保存領域(NS3)にハイブリダイズし、およびバイオエージェント同定用単位複製配列を作製する、広範なサーベイプライマーである。
一部の態様において、オリゴヌクレオチドプライマーは、全て(または80%〜100%、85%〜100%、90%〜100%もしくは95%〜100%)の既知のハンタウイルスのRNA依存型RNAポリメラーゼをコードしている核酸の保存領域にハイブリダイズし、およびバイオエージェント同定用単位複製配列を作製する、広範なサーベイプライマーである。一部の態様において、オリゴヌクレオチドプライマーは、全て(または80%〜100%、85%〜100%、90%〜100%もしくは95%〜100%)の既知のハンタウイルスのヌクレオキャプシドをコードしている核酸の保存領域にハイブリダイズし、およびバイオエージェント同定用単位複製配列を作製する、広範なサーベイプライマーである。
一部の態様において、オリゴヌクレオチドプライマーは、全て(または80%〜100%、85%〜100%、90%〜100%もしくは95%〜100%)の既知のフレボウイルスのRNA依存型RNAポリメラーゼをコードしている核酸の保存領域にハイブリダイズし、およびバイオエージェント同定用単位複製配列を作製する、広範なサーベイプライマーである。
一部の態様において、オリゴヌクレオチドプライマーは、全て(または80%〜100%、85%〜100%、90%〜100%もしくは95%〜100%)の既知のナイロウイルスのヌクレオキャプシドをコードしている核酸の保存領域にハイブリダイズし、およびバイオエージェント同定用単位複製配列を作製する、広範なサーベイプライマーである。
一部の態様において、オリゴヌクレオチドプライマーは、全て(または80%〜100%、85%〜100%、90%〜100%もしくは95%〜100%)の既知のアレナウイルスのRNA依存型RNAポリメラーゼをコードしている核酸の保存領域(L)にハイブリダイズし、およびバイオエージェント同定用単位複製配列を作製する、広範なサーベイプライマーである。一部の態様において、オリゴヌクレオチドプライマーは、全て(または80%〜100%、85%〜100%、90%〜100%もしくは95%〜100%)の既知のアレナウイルスのヌクレオキャプシドをコードしている核酸の保存領域(NP)にハイブリダイズし、およびバイオエージェント同定用単位複製配列を作製する、広範なサーベイプライマーである。
本明細書において使用される用語「広範なサーベイプライマー」は、全て(または80%〜100%、85%〜100%、90%〜100%もしくは95%〜100%)の既知のフィロウイルス、フラビウイルス、ハンタウイルス、フレボウイルス、ナイロウイルスまたはアレナウイルス種の、フィロウイルス、フラビウイルス、ハンタウイルス、フレボウイルス、ナイロウイルスまたはアレナウイルス複製に必須の核酸(例えば、RNA依存型RNAポリメラーゼまたはヌクレオキャプシド)をコードしている遺伝子に結合するプライマーを意味する。
一部の態様において、広範なサーベイプライマー対は、長さ13〜35の核酸塩基範囲のオリゴヌクレオチドを含み、その各々は、プライマー対番号853と70%〜100%の配列同一性を有し、これは配列番号:129:164に相当する。一部の態様において、広範なサーベイプライマー対は、長さ13〜35の核酸塩基範囲のオリゴヌクレオチドを含み、その各々は、プライマー対番号858と70%〜100%の配列同一性を有し、配列番号:124:159に相当する。一部の態様において、広範なサーベイプライマー対は、長さ13〜35の核酸塩基範囲のオリゴヌクレオチドを含み、その各々は、プライマー対番号856と70%〜100%の配列同一性を有し、配列番号:134:169に相当する。一部の態様において、広範なサーベイプライマー対は、長さ13〜35の核酸塩基範囲のオリゴヌクレオチドを含み、その各々は、プライマー対番号864と70%〜100%の配列同一性を有し、配列番号:138:174に相当する。
場合によっては、広範なサーベイプライマー対により同定されたウイルスバイオエージェント同定用単位複製配列の分子量または塩基組成は、種レベルでのウイルスバイオエージェントの曖昧でない同定に十分な分解を提供しない。これらの場合、少なくとも1種の追加の広範なサーベイプライマー対からまたは少なくとも1種の追加の部門-ワイドなプライマー対から生成された1種または複数のウイルスバイオエージェント同定用単位複製配列の更なる分析から利益がある。バイオエージェントの同定のための複数のバイオエージェント同定用単位複製配列の利用は、三角同定と称される。
別の態様において、オリゴヌクレオチドプライマーは、ウイルス属内の種の遺伝子をコードしている核酸へハイブリダイズする部門-ワイドなプライマーである。別の態様において、オリゴヌクレオチドプライマーは、亜種特性の同定が可能である掘下げ型プライマーである。掘下げ型プライマーは、増幅条件下で核酸と接触された場合の菌株タイピングのような、掘下げ型分析のためのバイオエージェント同定用単位複製配列を作出する機能を提供する。そのような亜種特性の同定は、ウイルス感染症の適切な臨床治療を決定する際に重要であることが多い。一部の態様において、亜種特性は、広範なサーベイプライマーのみを用いて同定され、ならびに部門-ワイドなおよび掘下げ型プライマーは使用されない。
一部の態様において、増幅に使用されたプライマーは、ゲノムDNA、細菌プラスミドのDNA、DNAウイルスのDNAまたはRNAウイルスのRNAから逆転写されたDNAとハイブリダイズし、増幅する。
一部の態様において、増幅に使用されるプライマーは、ウイルスRNAへ直接ハイブリダイズし、ウイルスRNAの直接増幅からDNAを得るための逆転写プライマーとして作用する。逆転写酵素を使用するRNA増幅法は、当業者には周知であり、過剰な実験を行うことなく日常的に確立することができる。
増幅プライマーの設計に関する当業者は、所定のプライマーは、増幅反応において相補的核酸鎖の合成を効果的にプライミングするためには、100%の相補性でハイブリダイズする必要はないことを認めるであろう。さらにプライマーは、1種または複数のセグメントにわたりハイブリダイズすることができ、その結果介在または隣接セグメントは、このハイブリダイゼーション事象には関与しない(例えばループ構造またはヘアピン構造)。本発明のプライマーは、表4-7に列記された任意のプライマーと少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも95%、または少なくとも99%の配列同一性を有することができる。従って本発明の一部の態様において、配列同一性の70%〜100%、またはその範囲内の変動の程度は、本明細書に明らかにされた特定のプライマー配列に対して可能である。配列同一性の決定は、下記例において説明される:2個の非-同一残基を有する別の20核酸塩基プライマーと同一である長さ20核酸塩基のプライマーは、20個中の18個の同一残基を有する(18/20=0.9または90%配列同一性)。別の例において、20核酸塩基のプライマーの15核酸塩基セグメントについて全ての残基が同一である長さ15核酸塩基のプライマーは、20核酸塩基プライマーと、15/20=0.75または75%配列同一性を有する。
%相同性、配列同一性または相補性は、例えば、SmithおよびWatermanアルゴリズム(Adv. Appl. Math., 1981, 2, 482-489)を使用する、Gapプログラム(ウィスコンシン配列解析パッケージ、Version 8、Unix用、Genetics Computer Group, University Research Park, Madison WI)を、デフォルトの設定で使用し、決定することができる。一部の態様において、ウイルス核酸の保存されたプライミング領域に関するプライマーの相補性は、約70%〜約80%である。別の態様において、相同性、配列同一性または相補性は、約80%〜約90%である。さらに別の態様において、相同性、配列同一性または相補性は、少なくとも90%、少なくとも92%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%であるか、または100%である。
一部の態様において、本明細書に説明されたプライマーは、ここで具体的に明らかにされたプライマー配列と、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも92%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも98%、または少なくとも99%、または100%(またはその範囲内のいずれか)の配列同一性を有する。従って例えばプライマーは、配列番号:129と70%〜100%、75%〜100%、80%〜100%、および95%〜100%の配列同一性を有することができる。同様にプライマーは、そのヌクレオチド配列がここで明らかにされた任意の他のプライマーと同様の配列同一性を有することができる。
当業者は、%配列同一性または%配列相同性を計算することができ、および過剰な実験をすることなく、プライマー配列同一性の変動の、対応するバイオエージェント同定用単位複製配列の増幅産物産生のための核酸の相補鎖のプライミング合成におけるその役割でのプライマーの機能に対する作用を決定することができる。
本発明の一部の態様において、オリゴヌクレオチドプライマーは、長さ13〜35核酸塩基(13〜35個の連結したヌクレオチド残基)である。これらの態様は、長さ13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34または35核酸塩基、またはその範囲内のいずれかのオリゴヌクレオチドプライマーを含む。
一部の態様において、任意の所定のプライマーは、プライマーの5'末端への非鋳型のT残基の付加(すなわち付加されたT残基は、増幅される核酸へのハイブリダイズには必ずしも必要ではない)を含む、修飾を有する。非鋳型のT残基の付加は、Taqポリメラーゼの非特異的酵素活性の結果として非鋳型のA残基の付加を最小化する作用を有し(Magnuson et al., Biotechniques, 1996, 21, 700-709)、その発生は、分子量分析から生じる曖昧な結果につながることがある。
本発明の一部の態様において、プライマーは、1個または複数の普遍的な塩基を含むことができる。種間の保存領域における任意の変動(3番目のコドンゆらぎに起因した)はおそらく、DNA(またはRNA)トリプレットの3番目の位置に生じ、オリゴヌクレオチドプライマーは、この位置に対応するヌクレオチドは、複数のヌクレオチドに結合することができる塩基であるように設計され、これは本明細書において「普遍的な核酸塩基」と称される。例えばこの「ゆらぎ」対形成において、イノシン(I)はU、CまたはAに結合し;グアニン(G)はUまたはCに結合し、ならびにウリジン(U)はUまたはCに結合する。普遍的な核酸塩基の他の例は、5-ニトロインドールまたは3-ニトロピロールなどの、ニトロインドール(Loakes et al., Nucleosides and Nucleotides, 1995, 14, 1001-1003)、縮重ヌクレオチドdPまたはdK(Hill et al)、5-ニトロインダゾールを含む非環式ヌクレオシドアナログ(Van Aerschot et al., Nucleosides and Nucleotides, 1995, 14, 1053-1056)、またはプリンアナログ1-(2-デオキシ-β-D-リボフラノシル)-イミダゾール-4-カルボキシアミド(Sala et al., Nucl. Acids Res., 1996, 24, 3302-3306)を含む。
一部の態様において、ゆらぎ塩基の若干弱い結合を補うために、オリゴヌクレオチドプライマーは、各トリプレットの1番目および2番目の位置が、修飾されないヌクレオチドよりもより大きい親和性で結合するヌクレオチドアナログにより占拠されるように設計される。これらのアナログの例は、チミンに結合する2,6-ジアミノプリン、アデニンに結合する5-プロピニルウラシル、ならびにGに結合するG-クランプを含む5-プロピニルシトシンおよびフェノキサジンを含むが、これらに限定されるものではない。プロピニル化されたピリミジンは、米国特許第5,645,985号、第5,830,653号および第5,484,908号に開示されており、その各々は特許権保有者が共通でありかつ全体が本明細書に参照として組入れられている。プロピニル化されたプライマーは、先に付与された米国特許公開(U.S Pre-Grant Publication)第2003-0170682号に開示されており、これも特許権保有者が共通でありかつ全体が本明細書に参照として組入れられている。フェノキサジンは、米国特許第5,502,177号、第5,763,588号、および第6,005,096号に開示されており、これはその全体が本明細書に参照として組入れられている。G-クランプは、米国特許第6,007,992号および第6,028,183号に開示されており、その各々は全体が本明細書に参照として組入れられている。
一部の態様において、迅速に進化するRNAウイルスの広範なプライミングを可能にするために、プライマーハイブリダイゼーションは、5-プロピニルデオキシ-シチジンおよびデオキシ-チミジンヌクレオチドを含むプライマーおよびプローブを用いて増強される。これらの修飾されたプライマーおよびプローブは、親和性および塩基対選択性の増大をもたらす。
一部の態様において、非鋳型のプライマータグが、増幅効率を改善するために、プライマー-鋳型二重鎖の融点(Tm)を上昇するために使用される。非鋳型タグは、その鋳型に対し相補的でないプライマー上の少なくとも3個の連続するAまたはTヌクレオチド残基である。任意の所定の非鋳型タグにおいて、Aは、CまたはGと交換することができ、およびTは、CまたはGと交換することができる。ワトソン-クリックハイブリダイゼーションは鋳型に対する非鋳型タグでは生じるとは考えられないが、A-T対に比べG-C対中の余計な水素結合は、プライマー-鋳型二重鎖の安定性増大をもたらし、プライマーが先のサイクルで合成された鎖にハイブリダイズする場合に、引き続きの増幅サイクルの増幅効率を改善する。
別の態様において、プロピニル化されたタグは、非鋳型タグのそれに類似した様式で使用することができ、ここで2種またはそれよりも多い5-プロピニルシチジンまたは5-プロピニルウリジン残基は、プライマー上の鋳型に対応する残基と交換する。他の態様において、プライマーは、例えばホスホロチオエート連結のような、修飾されたヌクレオシド間連結を含む。
一部の態様において、これらのプライマーは、質量-修飾タグを含む。特異的分子量の可能性のある塩基組成の総数を低下することは、増幅産物の塩基組成の決定における曖昧さの執拗な原因を避ける手段を提供する。所定のプライマーのある核酸塩基への質量-修飾タグの付加は、所定のバイオエージェント同定用単位複製配列のその分子量からの塩基組成の新規決定を単純化するであろう。
本発明の一部の態様において、質量修飾された核酸塩基は、以下の1種または複数を含む:例えば、7-デアザ-2'-デオキシアデノシン-5-三リン酸、5-ヨード-2'-デオキシウリジン-5'-三リン酸、5-ブロモ-2'-デオキシウリジン-5'-三リン酸、5-ブロモ-2'- デオキシシチジン-5'-三リン酸、5-ヨード-2'-デオキシシチジン-5'-三リン酸、5-ヒドロキシ-2'-デオキシウリジン-5'-三リン酸、4-チオチミジン-5'-三リン酸、5-アザ-2'-デオキシウリジン-5'-三リン酸、5-フルオロ-2'-デオキシウリジン-5'-三リン酸、O6-メチル-2'-デオキシグアノシン-5'-三リン酸、N2-メチル-2'-デオキシグアノシン-5'-三リン酸、8-オキソ-2'-デオキシグアノシン-5'-三リン酸またはチオチミジン-5'-三リン酸。一部の態様において、質量-修飾された核酸塩基は、15N、または13C、または15Nおよび13Cの両方を含む。
場合によっては、所定のバイオエージェント同定用単位複製配列単独の分子量は、所定のバイオエージェントを曖昧でなく同定するのに十分な分解を提供しない。バイオエージェントの同定のための複数のバイオエージェント同定用単位複製配列の使用は、ここでは三角同定と称される。三角同定は、複数のコア遺伝子内で選択された複数のバイオエージェント同定用単位複製配列を分析することにより、追跡される。この過程を使用し、偽陰性および偽陽性のシグナルを減少し、当初のハイブリッドまたはそうでなければ操作されたバイオエージェントの再構成を可能にする。例えば、炭疽菌(B. anthracis)ゲノムから予想されるサインの非存在下での、典型的には炭疽菌の3種類の毒素遺伝子の同定(Bowen et al., J. Appl. Microbiol., 1999, 87, 270-278)は、遺伝子操作事象を示唆するであろう。
一部の態様において、三角同定過程は、複数のプライマーが同じ増幅反応混合物中で使用されるマルチプレックスPCR、または異なるおよび独自のプライマー対がそれ以外は同じ反応混合物を含む複数のウェルにおいて使用されるマルチ-ウェルプレート様式でのPCRのような、ポリメラーゼ連鎖反応(PCR)を使用する大規模な平行様式でのバイオエージェント同定用単位複製配列の特徴決定により、追求することができる。このようなマルチプレックスおよびマルチ-ウェルPCR法は、核酸の迅速な処理量の増幅として当業者に周知である。
一部の態様において、所定のバイオエージェント同定用単位複製配列の分子量は、質量分析により決定される。質量分析は、いくつかの利点を有し、その中で少ない利点でないものは、質量電荷比(m/z)の広い範囲にわたる多くの分子ピークを分離(および単離)する能力により特徴とされる高いバンド幅である。従って質量分析は本来、各増幅産物はその分子量により同定されるので、放射または蛍光標識を必要としない、平行検出スキームである。質量分析の技術分野の最新の状況は、フェムトモル未満の量の物質を容易に分析し、試料の分子含量に関する情報を与えることができるようなものである。試料の分子量が数百であるか、または100k原子質量単位(amu)もしくはダルトンを超えるかどうかにかかわりなく、物質の分子量の正確な評価を迅速に得られる。
一部の態様において、完全な(intact)分子イオンが、試料を気相へ転換する様々なイオン化技術のひとつを用い、増幅産物から作製される。これらのイオン化法は、エレクトロスプレーイオン化(ES)、マトリックス-支援レーザー脱離イオン化(MALDI)および高速原子衝撃(FAB)を含むが、これらに限定されるものではない。イオン化時には、異なる電荷のイオンの形成により、ひとつの試料からいくつかのピークが得られる。単独の質量スペクトルから得られた分子量の複数の読み値の平均は、バイオエージェント同定用単位複製配列の推定分子量をもたらす。エレクトロスプレーイオン化質量分析(ESI-MS)は、著しい量の断片化を引き起こすことなく、試料の高電離した(multiply-charged)分子の分布を生じるので、10kDaを超える分子量を有するタンパク質および核酸のような、非常に分子量が大きい高分子に特に有用である。
本発明の方法に使用される質量検出器は、フーリエ変換イオンサイクロトロン共鳴型質量分析(FT-ICR-MS)、飛行時間型(TOF)、イオントラップ型、四重極型、磁場型、Q-TOF、および三連四重極型を含むが、これらに限定されるものではない。
インテリジェントプライマーを用いて得られた増幅産物の分子量は、バイオエージェントの同定手段を提供するが、分子量データの塩基組成サインへの変換が、ある種の分析には有用である。本明細書において使用されるように、塩基組成サイン(BCS)は、バイオエージェント同定用単位複製配列の分子量から決定された正確な塩基組成である。ひとつの態様において、BCSは、特定生物の特定遺伝子の指標を提供する。
一部の態様において、分子量データの塩基組成への転換は、ある種の分析にとって有用である。本明細書において使用されるように、塩基組成は、各核酸塩基(A、T、CおよびG)の正確な数である。
RNAウイルスは、複製について誤りがちなポリメラーゼに左右され、そのためそれらのヌクレオチド配列(および結果の塩基組成)は、選択圧によりもたらされる機能的拘束内で経時的に浮動する(drift)。ウイルス種または群の塩基組成確率分布は、A、C、GおよびT塩基組成空間(base composition space)における前記変動の確率論的な分布を表し、ならびにその特定種の全ての既知の単離体の塩基組成の分析により、由来することができる。
一部の態様において、実験により決定された分子量に対する塩基組成の割当は、塩基組成確率クラウドを用いて実現される。配列のような塩基組成は、種内で単離体毎にわずかに変動する。各種の組成拘束の周りに(aroung)塩基組成確率クラウドを構築することにより、この多様性を管理することは可能である。これは、配列分析に類似した様式での生物の同定を可能にする。偽四次元プロットを使用し、塩基組成確率クラウドの概念を可視化することができる。最適なプライマー設計は、バイオエージェント同定用単位複製配列の最適な選択が必要であり、および個々のバイオエージェントの塩基組成サイン間の分離を最大化する。クラウドが重複する区域は、誤分類を生じ得る領域を示し、バイオエージェント同定用単位複製配列を使用する、三角同定過程により克服される問題点は、塩基組成確率クラウドの重複により影響されない。
一部の態様において、塩基組成確率クラウドは、塩基組成の可能性のある誤分類を避けるために、可能性のあるプライマー対をスクリーニングする手段を提供する。別の態様において、塩基組成確率クラウドは、その割当られた塩基組成が、その核酸配列の進化による転移のために、バイオエージェント同定用単位複製配列塩基組成データベースにおいて先に観察もおよび/または指標化もされていないような、バイオエージェントの同一性を推定する手段を提供する。従ってプローブ-ベースの技術とは対照的に、塩基組成の質量分析決定は、測定を行うための組成または配列に関する予めの知識を必要としない。
本発明は、所定のバイオエージェントの同定に十分なレベルでの、DNA配列決定および系統発生学的分析に類似したバイオエージェント分類情報を提供する。さらに所定のバイオエージェントのこれまで未知の塩基組成の決定過程(例えば配列情報が入手できない場合)は、それにより塩基組成データベースを集合化する追加のバイオエージェント指標化情報を提供することにより、下流部門での利用性がある。従って今後のバイオエージェント同定の過程は、より多くの塩基組成指標が塩基組成データベースにおいて利用可能になるので、大きく改善される。
バイオエージェント検出のための現存する核酸-ベースの試験は、主に特定の生物を検出するために設計されたプライマーおよびプローブを使用する増幅法を基本にしている。核酸配列情報の先行する知識が、これらのプローブ-ベースの試験を開発するためには必要であるので、これらは、予測できない、新たに出現した、またはこれまで未知の感染性生物を同定するためには使用することができない。従って新規バイオエージェントの発見は、依然従来の培養法および顕微鏡に大部分頼っている。
しかし本発明の方法は、ヌクレオチド配列に関する予めの知識を必要とせずに、新規バイオエージェント種の迅速な同定を可能にする。これは、公知のバイオエージェント単位複製配列の塩基組成を基に開発された配列変動に関する数学的および/または確率論的モデルを適用し(データの「トレーニングセット」)、および未知のバイオエージェントデータ(「被験データ」)をこのモデルに合致することにより、実現される。
バイオエージェントの曖昧でない検出および同定のために、バイオエージェント(例えば大腸菌)の所定の種の単離体毎に、任意の特定の増幅された領域に正確に同じ塩基カウントを有することは理想的であろう。しかし天然の突然変異および/または意図的に操作された変化により、任意の種の単離体は、特定領域の塩基カウントに若干の変動を有する。天然の変動のためにおよび操作された脅威のために、バイオエージェントは特定領域においてそれらの天然の相対物とはわずかに異なることがあり、このことは、この変動を可能にするために、所定の種に関して予測された塩基カウントを「不鮮明(blur)に」するために役立ち、その結果このシステムは検出を誤ることがない。より多くの予測された塩基カウントが不鮮明であるならば、特定種が検出を逃れる見込みはより低い;しかしこのような不鮮明化は、異なる種の予想された塩基カウントの間に、より多くの重複を引き起こし、誤分類に寄与するであろう。
この問題点を解決するために、予想された塩基カウントは、生物学的突然変異の自然の原理に従い不鮮明とされ、各増幅された領域の生物学的拘束への特異的不鮮明化をあつらえることができる。特定のバイオエージェントの各増幅された領域は、その生物学的目的(すなわち、RNA構造、タンパク質コードなど)によりいくつかの様式に拘束される。例えばタンパク質コード領域は、アミノ酸コードの考察により拘束されるのに対し、リボソームは、対を形成しないループ領域のステムおよび配列の拘束における塩基対形成によりほとんど拘束される。さらにリボソームの異なる領域は、互いに異なる重要な優先度を有する。
クラウドアルゴリズム適用のひとつの態様は、実施例1に説明されている。全ての見込みのある種の単位複製配列をプライマーセットから収集し、およびクラウドアルゴリズムを使用し全ての生物学的に見込みのある変種単位複製配列を含むようにこのセットを拡大することにより、塩基カウント空間の適当なクラスター領域が、バイオエージェントの特定の種に関して定義される。関連のある種の群がクラスター化される塩基カウント空間の領域は、「バイオクラスター」と称される。
バイオクラスターが構築される場合、バイオクラスター領域内の各塩基カウントは、種の変種がその塩基カウントで発生する確率百分率に割当られる。そのバイオクラスター領域全体のその種の確率密度分布を形成するために、全部のバイオクラスター確率値が、1に正規化される。従って特定種が試料中に存在する場合、全ての塩基カウント空間にわたり積分されたその種のバイオクラスターの確率は、1に等しい。
順位付け手法のこの時点で、検出されることが提案された標的種が考慮される。これらは一般に、特定の検出シナリオにおいて第一に重要であるバイオエージェントである。例えばペスト菌(腺ペストおよび肺ペストの原因物質)が標的である場合、先に説明されたように同定されたペスト菌(Yersinia pestis)種バイオクラスターが「標的バイオクラスター」であろう。この例を完全にするために、他のデータベース種は全て、背景シナリオとして利用されると仮定される。この場合の判別メトリックは、ペスト菌バイオクラスターへ他の種からの全てのバイオクラスター重複の総計として定義される。
この例において、ペスト菌バイオクラスターの重複は、以下のように計算される。検出確率99%(PD=O.99)が定義されるが、この値は、必要に応じ変更することができる。「検出範囲」は、全標的バイオクラスターの99%を包含する、最低数の、バイオクラスター塩基カウントのセットとして定義される。データベースにおける追加の細菌種の各々について、定義された検出範囲内の塩基カウントを備えるバイオクラスター確率密度の量はクラスター化され、背景種および標的種の間で重複する有効なバイオクラスターである。全背景種について重複するバイオクラスターの総計は、提唱されたプライマーセットによる定義された標的の識別能を測定するためのメトリックとして役立つ。数学的には、ほとんどの識別用プライマーセットは、最小のバイオクラスター重複を有するので、性能指数の逆数(inverse figure of merit)ψは、1=i=全てのバイオクラスターiと定義され、ここで総計は、全てのN背景種バイオクラスター(i=1, . . . , N )からの個々のバイオクラスター重複値[θi]で引き継がれる。例えば図2は、ペスト菌を標的バイオクラスターとして使用し、16種のプライマーセットのマスターリストについてプロットされた性能指数の逆数ψを示している。先に定義した性能指数の逆数の最小化の基準を使用し、結果的には、プライマーセット数4が、マスターリスト中の個々のプライマーセットの最良の識別を提供した。
この識別基準のセットは、プライマーセットの組合せにも適用することができる。各プライマーセットからの代表的四次元塩基カウント空間は、次元的に(dimensionally)連結され、N個のプライマーセットに関して、(4xN)-次元の塩基カウント空間を形成する。バイオクラスター定義のいたるところでバイオクラスターは四次元空間内に帰する(reside in)ことは必要でなく、従ってバイオクラスター分析は、いずれか任意の次元に継ぎ目なく適合される。結果的にプライマーセットのマスターリストは、その組合せを作製するプライマーセットを任意の数伴うプライマーセットの組合せの識別に従い検索され、順位付けされる。
再度標的としてペスト菌の例を使用し、プライマーナンバーを増加し、改善された識別が実現される。x-軸上のプライマー値の各数について、プロットされた性能指数の逆数値は、ほとんどの識別群(識別に同時に使用されるプライマーセットの数に関して最低の性能指数を伴う群)から得られた値である。この結果は、3および4プライマーセットの最良の群が認められた後に、性能指数の逆数は1に近づき、それ以上は進まないことである。このことは、標的バイオクラスターと重複する1種の背景種バイオクラスターの同等物が存在することを意味する。この例において、これは仮性結核菌(Yersinia pseudotuberculosis)種のバイオクラスターであり、これは、例の16種のプライマーセットの組合せにより、ペスト菌から識別することができない。従ってマスターリスト内の「最良の」3または4種のプライマーセットを用い、ペスト菌は、全ての他の種のバイオクラスターから、本質的に識別される。
従って一方で、確率クラウドを使用し、公知のバイオエージェントの変種を検出することができる。他方で本発明のこの方法を使用し、未知のバイオエージェントが、公知のバイオエージェントの見込みのある変種ではないことを曖昧でなく決定し、それと同時に、データベース中の公知のバイオエージェントとの類似性に関して、このバイオエージェントを分類することができる。
RNAウイルスは、複製について誤りやすいポリメラーゼに左右され、そのためそれらのヌクレオチド配列(および結果として生じる塩基組成)は、選択圧によりもたらされる機能拘束内で経時的に浮動する。ウイルス種または群の塩基組成確率分布は、{A、G、CおよびT}塩基組成空間における前記変動の確率論的分布を表し、ならびにその特定種の全ての既知の単離体の塩基組成の分析により誘導することができる。
本発明のひとつの態様において、+鎖RNAウイルス、C型肝炎ウイルス(HCV)のようなモデル生物を使用し、これらの配列の変動をモデル化することができる。突然変異の確率は、例えば多くのHCV配列間で認められた変動から誘導することができる。下記表1は、50種のHCV-I b配列の間で認められた変動から誘導した突然変異の確率を列記している。平均長120ヌクレオチド(nt)のゲノム内の6種の異なる領域を、プライミング考察および-150ntの最大単位複製配列長基準を基に取り上げた。種に関する塩基組成確率分布は、2工程で決定した。第一の工程において、突然変異確率、すなわち置換、挿入または欠失の各型が発生する確率は、各標的領域における全ての既知のHCV単離体の対のある比較により誘導し、および配列が受け得る突然変異の最大数の推定値を計算した。第二の工程において、モデル生物由来の突然変異確率および最大値を用い、各被験種に関する塩基組成の変動を推定し、ならびに塩基組成空間内の種間の突然変異確率距離(Δm)を、他の種に繋がるであろうひとつの種のA、G、CおよびT塩基カウントの全ての可能性のある突然変異の累積確率の10を底とする対数の負値(-log10 P)として計算した。
未知の生物をある単位複製配列の塩基組成を基に分類するいくつかの方法が存在する。これらの方法を例示するために、例証的プライマー対に関する分類技術が示されている。この方法は他のプライマー対に適用することができる。
(表1)HCV-1bに関する6種のトレーニング配列にわたる位置の非依存型ヌクレオチド突然変異確率
未知の生物をある単位複製配列の塩基組成を基に分類するいくつかの方法が存在する。これらの方法を例示するために、例証的プライマー対に関する分類技術が示されている。この方法は他のプライマー対に適用することができる。
パターン分類子(pattern classifier)を開発するために、既知の生物の単位複製配列の既知の塩基組成カウントを用い、トレーニングセット(training set)としてパターン分類子を構築する。パターン分類子のひとつの態様において、基本生物は各パターンクラスについて中心点として利用される。そのパターンクラスに関して、トレーニングセットにおける各生物から、基本生物までの距離が計算される。この様式で認められる最大距離は、パターン分類子内のクラスを定義し;基本生物までの最大距離未満の全ての生物は、このクラスに収まる。
一回パターン分類子がトレーニングされるならば、未知の生物と、各パターンに関する基本生物の間の距離の決定により、未知の生物は分類することができる。未知の生物がトレーニング過程により決定された最大距離以内に収まるならば、この生物は、基本生物と同じパターンクラスに属すると分類される。未知の生物が最大距離の外に収まるならば、この生物がそのクラスに属する確率は、未知の生物から基本生物までの距離の関数として誘導することができる。
パターン分類子の別の態様において、基本生物を同定するよりもむしろ、実際の生物に対応しないがパターンクラスの中心として役立つ重心の選択により、パターンが定義される。トレーニング過程の間に、重心および最大距離が決定される。一回トレーニングした場合、未知の生物の分類は、先に説明したものとほぼ同様である。
生物間の距離を測定するためのいくつかの判定基準を使用することができる。特定のプライマー-対に関して、塩基組成間の距離を使用することができる。すなわち塩基カウントが数学ベクトルとして処理される場合、これらのベクトル間の距離は、距離の測定値である。
例として、229Eヒトコロナウイルスは、A25、G24、C11、T28のRdRp標的領域内の塩基カウントを有し、およびSARSコロナウイルスは、A27、G19、C14、T28の塩基カウントを有する。距離の最初の例(ユークリッド距離)を用い、これらの間の距離は6.164である。
別の距離の測定は、距離を誘導するために、突然変異の確率を使用する。ふたつのポリヌクレオチド配列の間には、多くの突然変異経路が存在し、これは一連の1種または複数の突然変異事象を含む。経験的知見を基に、個々の突然変異の確率がわかっている。表1は、典型的個々の突然変異のリストをそれらの関連した確率と共に示している。特異的突然変異経路の確率は、個々の突然変異の確率の積である。距離を定義するひとつの方法は、全ての突然変異の経路の全ての確率の和Pである。ふたつのポリヌクレオチド配列の間の突然変異の距離は、-log10 Pとして定義することができる。前記例において、229EヒトコロナウイルスおよびSARSコロナウイルスの間の距離は、8.8である。より長い突然変異経路は起こりにくいので、ある突然変異のみが、229EからSARSへ変わる必要があり、その結果より長い経路は破棄されることは注目されなければならない。
図3は、229Eヒトコロナウイルス、OC43ヒトコロナウイルスおよびSARSコロナウイルスの塩基組成を示すグラフである。このグラフにおいて、A、GおよびC塩基カウントは、軸上にプロットされ、およびT塩基カウントは回転を用いて表されている。
図4は、多くの動物コロナウイルス種を示す。系統樹上の枝は、様々な分類群間の系統発生学的関係を表している。各分類群の群に関して、楕円形は、楕円の横のΔmで表されたその群のいずれか二員間の最大距離を表している。例えば、ウシ単離体(BCoV-QuebecおよびBCov-Lun)は、一緒にクラスター化され(Δm<2.0)、系統発生樹上の隣人であるHCoV-OC43よりも互いにより近い。ウシおよびOC43種は、密接に関連したクラスターを形成し、誤分類確率が比較的高い(Δm<4.5)。同様にマウスおよびラットのコロナウイルス単離体は、ふたつだけの標的領域を用いては互いに識別することができない密接に関連した種(Δm<.9)であるが、しかし齧歯類ウイルスは、ウシ/OC43群からは容易に識別される(Δm<6.8)。同様に1群の動物コロナウイルス(CCoV、FCoV、TGEV)の多くは、互いにクラスター化され、突然変異および塩基組成の距離が互いに非常に密接している。従ってこれらは、種レベルで誤分類される可能性がある(Δm<4.7)。これは、CCoVは他の1群動物コロナウイルスに血清学的および遺伝学的に関連していることを示唆している先の論文と一致する。しかしこの群は、229EおよびPEDVのような1群コロナウイルスの他のメンバーからは明らかに分離されている(resolve)(Δm<11.6)。1群および2群の種クラスターとは対照的に、ここで選択されたふたつの標的領域は、3群の種を一緒にクラスター化しなかった。これら3種のトリコロナウイルスの既知の単離体は、1群コロナウイルスのメンバーから離れるのと同じくらいに、これらは互いに離れていた。全般的に、この突然変異-距離分析は、既知の2群コロナウイルスのメンバーは、1群および3群から良く分離された、明らかに線引きされた群を表すことを示唆している。対照的に、1群と3群の間には明らかな線引きは認められない。
分類の更なる純化は、各パターンクラスまでの距離を計算することによる、各パターンクラスに関する未知のものの一致確率の割当により行うことができる。他のプライマー対を基にした追加のパターン分類子を適用することにより、未知のものを分離する能力は増強される。先に説明された例において、所定のプライマー対に関して1群の未知のものを3群から識別することは困難であろう。他のプライマー対を伴うパターン分類子の適用は、1群と3群のコロナウイルス間により大きい距離を生じることができる。この三角法は、以下に詳細に説明される。
突然変異確率モデルの別の態様において、重心は選択されず、菌株間の制限は、別のものと比較された。突然変異確率の直接推定のために、系統発生樹の最良の推定を用い、子孫のみをそれらの直接の先祖と比較した。この比較は、突然変異確率の大きさを減少する作用を有した。
DNAトリプレットは、単独のアミノ酸、一部の態様においてはその配列のタンパク質-コード領域内にあるプライマー領域をコードしていることは公知であるので、突然変異確率は、位置依存型で決定され、その結果20種の突然変異(12置換、4欠失、および4挿入)がここで、60セット(20型x3位置)に拡大される。トリプレットの1番目の位置は高度に保存されているが、3番目の位置は最低に保存され(およびこれは、このことのためにゆらぎ位置と称される)、およびこれは位置毎に異なる突然変異確率が反映されていることは、周知である。
別の態様において、突然変異確率モデルは、菌株間の制限およびトリプレット内の所定の核酸塩基の位置依存性の両方を組込んでいる。本発明のひとつの態様において、ポリトープパターン分類子を使用し、被験生物または未知の生物をその単位複製配列塩基組成に従い分類する。本発明のポリトープパターン分類子は、凸面(convex)ポリトープによりパターンクラスの境界を定義する。ポリトープパターン分類子は、トレーニングセット中の全ての試料を含む最小ポリトープを定義することにより、トレーニングされる。
一般にポリトープは、線形不等式システムにより表すことができる。パターン分類子に供給されたデータは、典型的にはn-次元ベクトルとして表される。従ってn-次元ポリトープは、式:
a1x1+a2x2+a3x3+... +anxn≦C
および、式:
D≦b1x1+b2x2+b3x3+... +bnxn
の不等式システムとして表される。本発明のひとつの態様に従い、これらのデータベクトルの要素は、整数である。従ってポリトープは、下記式の線形不等式のシステムに変形(reduce)することができる:
D≦a1x1+a2x2+a3x3+... +anxn ≦C(式中、各aiは0または1である。)。
最小ポリトープを定義するために、先に記した数式の全ての不等項は、aiの全ての組合せについて使用することができる。トレーニング過程の間に、定数CおよびDは、各不等式について決定される。
本発明のある局面において、ポリトープ内に存在するトレーニングセット中の試料の総数を得、およびポリトープ総容積で除算することにより、各ポリトープの密度が定義される。一旦ポリトープがトレーニングセットにおいて同定された各パターンクラスについて計算されたならば、このポリトープパターン分類子は、トレーニングされ、および試験データまたは未知のデータに適用することができる。データベクトルにより表された未知のものの分類において、各パターンクラスまでの距離が計算される。ポリトープまでのデータベクトルの点密度は、ポリトープまでのデータベクトルの距離の関数である減衰因子(decay factor)で積算された、ポリトープ密度と定義される。これらの各クラスとの一致確率は、点密度を基に計算される。本発明のひとつの態様において、例えば一致確率は、特定のデータ試料に関する全ての点密度の正規化された平均であることができる。
密度および点密度の計算において説明された容積および距離の測定は、距離および容積の標準ユークリッド-ベースの測定である必要はないことは注目されるべきである。例えばデータベクトルが整数要素を有する場合、ポリトープの容積は、所定のポリトープ内の整数格子の点の数である格子容積(lattice volume)として定義することができる。同様に点からポリトープまでの距離は、点とそのポリトープ内の任意の点の間を横断する格子点の最低数である格子距離として定義することができる。
図5Aは、ポリトープパターン分類子の態様をトレーニングする方法を例示するフローチャートである。工程1202で、トレーニング試料が、トレーニングセットから受け取られる。各トレーニング試料がパターンクラスに相関したならば、これはメンバーとなる。工程1204で、パターンクラスが決定される。工程1206で、必要ならば、パターンクラスのポリトープが、トレーニング試料を組込むように修飾される。トレーニング試料が、パターンクラスのポリトープの最新バージョン内に存在する場合は、修飾は不要である。この修飾は、典型的にはトレーニング試料をポリトープを定義する存在する不等式と比較する形をとる。トレーニング試料が、不等式の外側である場合は、この不等式は、そのトレーニング試料を組込むように修飾される。過程の修飾において、不等式は、ポリトープをできるだけ少なく拡大するように修飾される。工程1208において、残存するならば、過程は次のトレーニング試料まで反復する。あるいはトレーニングは完了する。
このフローチャートは、トレーニング試料を介した反復(iteration)を、およびポリトープ修飾においては、ポリトープを定義した不等式を介した反復を説明するが、反復の次数は同等に置き換えられることに注目しなければならない。すなわち、各トレーニング試料を最初に考慮するよりもむしろ、各不等式が考慮される。各不等式に関して、トレーニング試料は不等式に対して比較され、および必要ならばこの不等式は、トレーニング試料を収容するように修飾される。その後この反復は、次の不等式まで継続することができる。
図5Bは、トレーニングしたポリトープパターン分類子の態様を使用し、未知の試料を同定する方法を例示するフローチャートである。工程1222で、未知の試料は、ポリトープパターン分類子により受け取られる。工程1224で、パターンクラスが選択される。工程1226で、パターンクラスのポリトープと未知の試料の間の距離が計算される。この距離を基に、工程1228で、このパターンクラスに関する未知の試料の点密度が計算される。工程1230で、この過程が、次のパターンクラスについて繰り返される。全てのパターンクラスに関する全ての点密度が計算されたならば、工程1232で、点密度を正規化することにより、一致確率が作製される。
より高次元のポリトープパターン分類子の複雑さを簡略化するために、複数の低次元のポリトープパターン分類子を使用することができる。本発明のこの態様に従い、未知のものを含む全てのデータおよびトレーニングセットのデータが、より低い次元を有する複数の部分空間に分割される。ポリトープパターン分類子は、各部分空間と相関される。各ポリトープパターン分類子は、相関した部分空間内に存在するトレーニングセットのサブセットについてトレーニングされる。一旦トレーニングしたならば、未知のものが属する複数の部分空間のひとつが最初に適用され、次にその部分空間に相関されたポリトープパターン分類子が、このデータに適用される。
本発明のある局面において、部分空間は、例えば単位複製配列長のような、データの長さにより定義される。データベクトルの要素が整数である場合、小さい数の部分空間でないならば、この方式で決定された部分空間は有限となる。
ポリトープパターン分類子の別の態様において、どの部分空間にその未知のデータが属するかに関わらず、全てのポリトープからの貢献が考慮される。例えば、所定のパターンクラスまでの未知のものの点密度は、未知のデータベクトルの所定のパターンクラスに相関した各ポリトープまでの距離の関数であることができる。この計算を簡略化するために、この距離は、ポリトープを含む部分空間までの未知のデータベクトル間の距離、および投影されたデータベクトル、すなわちポリトープを含む部分空間上に投影された場合のデータベクトルと、ポリトープの間の距離のふたつの要素に分けられる。これらのデータベクトルのふたつの要素は、異なる減衰因子となることができる。
図6Aは、標本空間が拘束を押しつけることにより次元が低下された場合に、低次元のポリトープパターン分類子の態様をトレーニングする方法を例示するフローチャートである。工程1302で、トレーニング試料が、トレーニングセットから受け取られる。工程1304でどの部分空間にトレーニング試料が属するかを決定するために、拘束が適用される。工程1306で、トレーニング試料が、その部分空間に対応するトレーニングサブセットに配置される。工程1308で、全てのトレーニング試料が対応する部分空間に群別されるまで、この過程が繰り返される。次に工程1310で、部分空間が、トレーニング試料の対応するサブセットにと共に選択される。工程1312で、その部分空間に対応するパターン分類子が、トレーニングされる。これは、図6Aに説明されたような方法を用いてトレーニングすることができる。工程1314で、拘束から誘導された全ての部分空間が完全にトレーニングされたパターン分類子を有するまで、この過程は繰り返される。別のトレーニング法において、この次元は変更することができることは注目されなければならない。例えばトレーニング試料の部分空間が同定された後、全てのトレーニング試料が検索されるまで待つよりもむしろ、直ぐに対応するパターン分類子をトレーニングするために使用することができる。このフローチャートは、トレーニング法の例を明確に説明することを意図している。
図6Bは、図5Bのものに類似した様式で、未知の試料を同定する方法を例示するフローチャートである。工程1332で、パターン分類システムにより、未知の試料が受け取られる。工程1334で、拘束が適用され、これらの試料が属する部分空間が決定される。工程1336、1338、1340、1342および1344は、各々、工程1224、1226、1228、1230および1232において説明されたものと類似した同じパターン同定アルゴリズムを適用し、ここで使用された各パターンクラスに相関したポリトープは、それらの試料が属する部分空間に含まれたポリトープである。様々なパターンクラスの要素に応じて、パターンクラスは1種よりも多いポリトープを有することができるが、異なる部分空間内であることは注目されなければならない。
図6Bに説明された方法は、試料が属するもの以外の部分空間内の所定のクラスに関するポリトープを説明しない。図6Bは、図6Aに説明されたもののような過程によりトレーニングされたポリトープ分類子を用い、未知の試料を同定する別法を例示するフローチャートである。工程1352で、未知の試料がパターン分類システムにより受け取られる。工程1354で、パターンクラスが選択される。工程1356で、パターンクラスのポリトープのひとつを含む部分空間が選択される。そのパターンクラスに関するポリトープがその部分空間中に存在しない場合、別の部分空間が選択される。工程1358で、ギャップ距離、すなわち未知の試料と選択された部分空間の間の距離が、計算される。工程1360で、突然変異距離、すなわち未知の試料の「投影」とパターンクラスのポリトープの間の距離が、計算される。実際には、この距離は、所定の部分空間に試料を突然変異するのに十分な全ての可能性のある最小挿入(または欠失)の間の実際に最小距離である。工程1362で、パターンクラスのポリトープに関する未知の試料の点密度は、ギャップ距離、突然変異距離のいずれかまたは両方の関数として計算される。工程1364で、この過程は、特定のパターンクラスのポリトープを伴う全ての部分空間が選択されるまで、繰り返される。一旦全ての点密度が計算されたならば、工程1366で、点確率が全て一緒にされ、全パターンクラスに関する未知の試料の複合点確率を作製する。工程1368で、この過程は、全てのパターンクラスが選択されるまで、繰り返される。全てのパターンクラスに関して全ての点密度が計算される場合、工程1370での点密度の正規化により、一致確率が作製される。
具体的には、未知の生物の分類に適用される場合、ポリトープパターン分類子は、生物の単位複製配列塩基組成を表しているデータベクトルに適用される。ポリトープパターン分類子は、単位複製配列長さ、塩基組成および重要なヌクレオチドの比(例えば、C+T、G+T、G+C)を含む、単位複製配列DNA配列の重要なパラメータに関して指標化された既知の生物単位複製配列質量スペクトルのデータベースを使用し、既知の生物の単位複製配列塩基組成についてトレーニングされる。本発明のひとつの局面において、単位複製配列データベースは、既知の生物の分類群の同定に従い組織化される。本発明のある局面において、このデータベースは、所定の属、目、綱、門または界における全ての既知の生物に関する単位複製配列データを含む。
本発明のひとつの態様において、各単位複製配列は、個別に分析される。各単位複製配列に関して、分類群は、少なくとも1種のパターンクラスに相関される。所定の単位複製配列を考慮する場合、分類に使用されるデータは、A、G、CおよびT塩基の含量により定義される理論的最大塩基組成空間内に存在する。従って分類に使用されるデータは、4次元ベクトルにより表すことができる。さらにこれらの塩基カウントは整数値を生じる。
分類子モデルをさらに簡略化するために、このデータは、単位複製配列長さをベースにした可能性のあるパターンサブクラスへ小分割される。データベクトルの長さへ拘束を適用することにより、3次元のパターン分類子を使用することができる。
例えば表2(以下)は、ナイセリア目分類群に属する既知の生物のセットを表している。広範な細菌プライマー対により得られたバイオエージェント同定用単位複製配列の塩基組成が示されている。公知のナイセリア目の分類群内で、例えば単位複製配列は長さ55または56ヌクレオチドのいずれかである。3次元のポリトープ分類の使用に従い、このデータは、各メンバーの単位複製配列長が同じである2群に分けられる。例証ために、単位複製配列長56のデータを含むトレーニングセット上の3次元分類子のトレーニングが考察されている。これらの図において、G、CおよびT軸において、多面体(3-次元ポリトープ)が示される。第一の単項不等式は、多面体を最初に定義するために適用され、これらの不等式は、トレーニングセット中のデータが依然その多面体内に存在する最小単項不等式範囲の選択により誘導される。所定の例に関して、これらの不等式は、16≦G≦18、13≦C≦16、および7≦T≦11である。図7Aに説明されるように、これらの不等式は、容積60の多面体を定義する。Aの値は単位複製配列長に支配されないので、A組成値は使用されないことは注目されなければならない。しかしこのトレーニングセットから、最小単項不等式15≦A≦17が誘導されることは注目されなければならない。単位複製配列長に対する拘束のために、これは、39≦G+C+T≦41の三元不等式と同等である。図7Bは、この不等式の境界の結果を示し、および図7Cは、この不等式が適用された場合に得られた多面体を示し、これは容積31の多面体を生じる。
(表2)代表的広範な細菌サーベイプライマー対に関するナイセリア目塩基組成
加えて、個別の二元不等式を適用することができる。A、G、C、T空間内で、6種の可能性のある二元不等式が存在するが、Aに関連する二元不等式としてG、C、T空間の3種のみが、単位複製配列長さに対する拘束のために説明される。
図8Aは、二元不等式22≦C+T≦24の適用を例示し、および存在する多面体へのこの不等式によりもたらされた境界を示している。図8Bは、得られる多面体を示し、これは容積26を有する。この不等式は、決定された単位複製配列におけるプリン(C+T)の組成についての拘束である。当業者に明らかであるように、ピリミジン組成に従う多面体を拘束することは、単位複製配列長さの拘束のために、プリン拘束と相補的であると考えられる。図9Aおよび9Bは、ケト/アミノ優先度(G+T二元不等式)を適用した結果を示している。図10は、強い/弱い塩基対形成する拘束(G+C二元不等式)の適用の結果を示している。この例において、得られる多面体パターンクラスは、最小容積23に低下される。
密度計算も、分類群を占拠する単位複製配列数を基に実行される。この例に関して、7単位複製配列は、塩基組成空間の容積23を占拠し、密度0.304を生じる。
示されていないが、同様の分類トレーニングは、単位複製配列長さ55が、容積9の多面体を生成する場合に、パターン分類子を生じる。トレーニングセット中の5種の例により、密度0.556が算出される。
当業者は、こうして作製されたポリトープは、3次元よりもむしろ4次元を含むがこれらに限定されるものではない様々な形で作製または提示され、ならびに塩基組成空間の最小容積は、多面体の拘束に使用されるパラメータの変動により観察されることを認めるであろう。
所定の単位複製配列長に関して、本発明のひとつの態様は、多次元の多面体空間およびそれらの密度が、全分類群の群について決定され得る。図11A-Eに示されたように、各個別の分類群に関する多面体は、重ねることができるが、例えば所定の綱における全ての分類群の和により課された拘束は、独立して適用され、占拠された全体の塩基組成空間を定義することができる。当業者には、各分類群に関する多面体は重複することができるが、より大きい綱分類群の全体の塩基組成空間は、モデル生物が観察されない空間を占拠しても良い(図11F)ことは明らかであろう。
図11Fに示された未知のバイオエージェントは、総長56を有し、A=15、G=18、C=16、T=7の346塩基組成を有することが決定された。従って長さ56の単位複製配列についてトレーニングしたポリトープパターン分類子が使用される。図11Fに示されるように、この塩基組成は、バークホルデリア目分類群およびヒドロゲノフィルス目分類群に関するポリトープ内に存在し、ならびに残存分類群まで距離1(格子ホップ(lattice hop)により決定される)を有する。各分類群に関する点密度は、距離の累乗により生じた減衰因子1/256を適用することにより決定される。その後得られる一致確率が、点密度の正規化により計算される。この例においては、わずか5種の細菌目が示されたが、この結果は全部で71細菌目について正規化されるが、明確にするために大半は示されない。
パターン分類子の別の態様において、点密度は、特定の分類群を表す全てのポリトープ由来の密度値を集約することにより、計算することができる。先に示された例において、ナイセリア目パターンクラスは、長さ55および長さ56の両方の単位複製配列を含み、パターン分類子のトレーニングの結果として、ナイセリア目パターンクラスに相関された「長さ55の部分空間」のポリトープ(以後ナイセリア目-55ポリトープ)、ならびにナイセリア目パターンクラスに相関された「長さ56の部分空間」のポリトープ(以後ナイセリア目-56ポリトープ)が存在する。別のパターン分類子は、未知の試料の同定のために両方のポリトープを使用する。先の例において、未知の試料とナイセリア目-56の間に距離1が存在する。未知の試料とナイセリア目-55ポリトープの間の距離の誘導において、距離の測定は、1である試料と「長さ55部分空間」の間の距離、および1である長さ55の部分空間上に投影された試料のナイセリア目-55ポリトープまでの間の距離の、ふたつの距離成分に分けることができる。距離の第一成分は、「ギャップ距離」と称され、距離の第二成分は、「突然変異距離」と称される。この場合、投影は、A、G、C、またはTにおいてただひとつの変化を伴うナイセリア目-55ポリトープの最も傍に位置する長さ55の部分空間中の点である。ギャップ距離が2である場合、投影は、A、G、C、またはTの多くてもふたつの変化を有するポリトープの最も傍に位置する部分空間内の点であろう。未知の試料は、長さ56の部分空間内に存在するので、未知の試料とナイセリア目-56ポリトープの間のギャップ距離は、0であることは注目されなければならない。
しかし単独のプライマー対を基にした一致確率は、正確な結果を提供することはないであろう。本発明に従い、未知のバイオエージェントの分類群への割当は、追加の単位複製配列により占拠された塩基組成空間を比較することにより、さらに純化される(図12)。この「三角」法を用い、個々のプライマー対確率の正規化された生成物は、各分類群について、全体の割当確率を生じる。従って本発明のある態様において、未知のバイオエージェントは、塩基組成空間において、これは既知のバイオエージェント(「トレーニングセット」)とは異なる単位複製配列の塩基組成空間を表す、1、2、3、4またはそれよりも多い多面体と一致する。
下記表3にまとめられたように、確率計算を、本方法の信頼性を決定するために適用することができ、ここでプライマー対の番号は、特許権保有者が共通の米国特許出願第11/060,135号に開示されたプライマー対を意味し、この出願は全体が本明細書に参照として組入れられている。
(表3)ポリトープパターンモデルを使用する細菌の分類群割当の信頼性
表3は、580の被験バイオエージェント(試料セット)を、トレーニングセットの3413の個々の既知の種と比較したポリトープ分析のまとめを提供している。今日までに、14/19門、22/28綱、56/71目、119/170科、229/466属が分析されている。図13は、信頼できる系統発生学的割当を、このポリトープパターンモデルを用いて作製することができることを図示している。本発明のある態様において、代替の互換性のある割当が示唆されている。本発明は、一部の状況において、本発明は、異なるレベルで平行して多数の可能性のある系統発生学的割当を作製し、未知のバイオエージェントの少なくとも部分的割当を可能にすることを企図している。
一部の態様において、未知のバイオエージェントの同一性および量は、図14に例示された過程を用いて決定することができる。プライマー(500)および既知量の較正ポリヌクレオチド(505)を、未知のバイオエージェントの核酸を含む試料へ添加する。次にこの試料中の総核酸に、増幅反応(510)を施し、増幅産物を得る。増幅産物の分子量が決定され(515)、そこから、分子量および存在量のデータが得られる。バイオエージェント同定用単位複製配列(520)の分子量は、その同定(525)の手段を提供し、ならびに較正ポリヌクレオチド(530)から得られた較正単位複製配列の分子量は、その同定(535)の手段を提供する。バイオエージェント同定用単位複製配列の存在量データが記録され(540)、および較正データに関する存在量データが記録され(545)、両方とも試料中の未知のバイオエージェントの量を決定する計算において使用される(550)。
未知のバイオエージェントを含む試料は、バイオエージェント由来の核酸の増幅の手段を提供するプライマー対、および較正配列を含む既知量のポリヌクレオチドと接触される。バイオエージェントおよび較正配列の核酸は増幅され、ならびに増幅割合は、バイオエージェントおよび較正配列の核酸の割合と理論的に類似していると推定される。その後増幅反応は、ふたつの増幅産物を生成する:バイオエージェント同定用単位複製配列および較正単位複製配列。バイオエージェント同定用単位複製配列および較正単位複製配列は、本質的に同じ割合で増幅されるが、分子量により識別可能であるはずである。異なる分子量の作用は、代表的バイオエージェント同定用単位複製配列(バイオエージェントの特定種由来)を較正配列として選択し、ならびに例えば、ふたつのプライミング部位の間の可変領域内に2〜8個の核酸塩基の欠失または挿入を行うことにより、実現することができる。次にバイオエージェント同定用単位複製配列および較正単位複製配列を含む増幅された試料に、例えば質量分析による、分子量の分析が施される。結果的なバイオエージェントおよび較正配列の核酸の分子量分析は、バイオエージェントおよび較正配列の核酸に関する分子量データおよび存在量データを提供する。バイオエージェントの核酸について得られた分子量データは、未知のバイオエージェントの同定を可能にし、および存在量データは、試料と接触される較正ポリヌクレオチドの量の知識を基に、バイオエージェントの量の計算を可能にする。
一部の態様において、較正ポリヌクレオチドの量が試料へ投入(spike)される標準曲線の作成は変更され、試料中のバイオエージェントの量の決定に関する追加の分解および改善された信頼性を提供する。分子量の分析決定のための標準曲線の使用は、当業者に周知であり、過度の実験を伴うことなく実行することができる。
一部の態様において、複数のバイオエージェント同定用単位複製配列が、対応する標準較正配列も増幅する複数のプライマー対により増幅される場合には、多増幅が実行される。このまたは他の態様において、標準較正配列は、較正ポリヌクレオチドとして機能する単独のベクター内に任意に含まれる。多増幅法は、当業者に周知であり、過度の実験を伴うことなく実行することができる。
一部の態様において、較正物質(calibrant)ポリヌクレオチドは、増幅条件および引き続きの分析工程が、測定可能な単位複製配列の作出においてうまくいくことを確認するための、内部陽性対照として使用される。バイオエージェントのゲノムのコピーが存在しない場合であっても、較正ポリヌクレオチドは、較正単位複製配列を生じるはずであろう。測定可能な較正単位複製配列の作出の失敗は、増幅、または単位複製配列精製もしくは分子量決定などの引き続きの分析工程の失敗を示す。そのような失敗が生じたという結論に達することは、それ自体役立つ事象である。
一部の態様において、較正配列は、DNAで構成される。一部の態様において、較正配列は、RNAで構成される。
一部の態様において、較正配列は、ベクターへ挿入され、これはその後較正ポリヌクレオチドとしてそれ自身機能する. 一部の態様において、1種よりも多い較正配列が、ベクターへ挿入され、これは較正ポリヌクレオチドとして機能する。このような較正ポリヌクレオチドは本明細書において、「組合せ較正ポリヌクレオチド」と称される。ポリヌクレオチドをベクターへ挿入する過程は、当業者には日常的であり、過度の実験を伴うことなく実行することができる。従って、較正法は、本明細書に説明された態様に限定されないことは認められなければならない。較正法は、適当な標準較正物質ポリヌクレオチド配列が設計されおよび使用される場合は、任意のバイオエージェント同定用単位複製配列の量の決定に適用することができる。較正物質の挿入に適当なベクターを選択する過程も、当業者には日常的であり、過度の実験を伴うことなく実行することができる。
本発明の方法により同定することができるバイオエージェントは、RNAウイルスを含む。RNAウイルスのゲノムは、(+)-センス1本鎖RNA、(−)-センス1本鎖RNAまたは2本鎖RNAであることができる。(+)-センス1本鎖ゲノムを伴うRNAウイルスの例は、カリシウイルス科、ピコナウイルス科、フラビウイルス科、トガウイルス科、レトロウイルス科およびコロナウイルス科のメンバーを含むが、これらに限定されるものではない。(−)-センス1本鎖RNAゲノムを伴うRNAウイルスの例は、フィロウイルス科、ラブドウイルス科、ブニヤウイルス、オルソミクソウイルス科、パラミクソウイルス科およびアレナウイルス科のメンバーを含むが、これらに限定されるものではない。2本鎖RNAゲノムを伴うRNAウイルスの例は、レオウイルス科およびビルナウイルス科のメンバーを含むが、これらに限定されるものではない。
本発明の一部の態様において、RNAウイルスは、最初にRNAウイルスから、またはRNAウイルスを含むかもしくは含むことが疑われる試料からRNAを得、このRNAから逆転写により対応するDNAを得、このDNAを増幅し、RNAウイルスゲノムの可変領域に隣接するそのゲノムの保存領域に結合する1種または複数のオリゴヌクレオチドプライマー対を用い、1種または複数の増幅産物を得、1種または複数の増幅産物の分子量または塩基組成を決定し、ならびにこの分子量または塩基組成を既知のRNAウイルスの計算されたもしくは実験的に決定された分子量または塩基組成と比較することにより同定され、ここで少なくとも1つの一致により、このRNAウイルスが同定される。RNAをRNAウイルスおよび/またはRNAウイルスを含む試料から単離し、ならびにRNAをDNAへ逆転写する方法は、当業者に周知である。
フィロウイルス科、フラビウイルス科、ブニヤウイルス科およびアレナウイルス科のメンバーは、本発明の方法により同定することができるバイオエージェントRNAウイルスの例を示している。フィロウイルス科、フラビウイルス科、アレナウイルス科およびブニヤウイルス科の3種の属(ハンタウイルス、フレボウイルスおよびナイロウイルス)は、VHFを引き起こすことが知られている。
本発明のひとつの態様において、標的遺伝子は、フィロウイルスRNA-依存型RNAポリメラーゼである。別の態様において、標的遺伝子は、フィロウイルスヌクレオキャプシドである。
本発明のひとつの態様において、標的遺伝子は、フラビウイルスNS5、ウイルスRNA依存型RNAポリメラーゼである。別の態様において、標的遺伝子は、フラビウイルスNS3、ウイルスプロテアーゼ、ヘリカーゼおよびNTPaseである。
本発明のひとつの態様において、標的遺伝子は、ハンタウイルスRNA-依存型RNAポリメラーゼである。別の態様において、標的遺伝子は、ハンタウイルスヌクレオキャプシドである。別の態様において、標的遺伝子は、フレボウイルスRNA依存型RNAポリメラーゼである。別の態様において、標的遺伝子は、ナイロウイルスヌクレオキャプシドである。
本発明のひとつの態様において、標的遺伝子は、アレナウイルス遺伝子Lであり、これはウイルスRNA依存型RNAポリメラーゼである。別の態様において、標的遺伝子は、アレナウイルスNPであり、これはウイルスヌクレオキャプシドである。
本発明の別の態様において、インテリジェントプライマーは、ハンタウイルス、フレボウイルスまたはナイロウイルスのゲノムの安定しおよび高度に保存された領域内に、バイオエージェント同定用単位複製配列を作出する。高度に保存された領域内の単位複製配列の特徴決定の利点は、その場合には増幅工程が失敗するような、プライマー認識点を過去に進化した確率が、この領域は低いことである。従ってこのようなプライマーセットは、広範なサーベイ-型プライマーとして有用である。別の本発明の態様において、インテリジェントプライマーは、先に説明された安定した領域よりもより迅速に進化する領域内に、バイオエージェント同定用単位複製配列を作出する。進化するゲノム領域に対応するバイオエージェント同定用単位複製配列の特徴決定の利点は、これが出現する菌株変種の識別に有用であることである。
本発明は、ウイルス出現により引き起こされた疾患の同定のためのプラットフォームとしての著しい利点も有する。本発明は、ハイブリダイゼーションプローブを作製するための、バイオエージェント配列の予備的知識の必要性を排除する。従って別の態様において、本発明は、ウイルスの同定法が臨床状況において実行された場合、例えそのウイルスがこれまで観察されたことのない新種である場合であっても、ウイルス感染の病因を決定する手段を提供する。これは、これらの方法は、バイオエージェント同定用単位複製配列を生成する鋳型として作用する配列において生じる天然の進化による変動(急激に進化するウイルスの特徴決定に関する主な懸念)により混乱されないために、可能である。分子量の測定および塩基組成の決定は、配列の先入観を持たずに、バイアスのかからない様式で実行される。
本発明の別の態様は、異なる地域から得られた複数の試料を、疫学的状況において先に説明した方法で分析した場合に、ウイルスの任意の種または菌株の蔓延を追跡する手段も提供する。ひとつの態様において、複数の異なる地域由来の複数の試料は、そのサブセットが特異的ウイルスを含むバイオエージェント同定用単位複製配列を作出するプライマーで分析される。ウイルス-含有サブセットのメンバーの対応する地域は、特異的ウイルスの対応する地域への蔓延を示している。
本発明は、本明細書に説明された方法を実行するキットも提供する。一部の態様において、このキットは、バイオエージェント同定用単位複製配列を形成するために、バイオエージェントからの標的ポリヌクレオチドに対する増幅反応を実行するのに充分量の1種または複数のプライマー対を備える。一部の態様において、キットは、1〜50種のプライマー対、1〜20種のプライマー対、1〜10種のプライマー対、または2〜5種のプライマー対を備える。一部の態様において、キットは、表4-7に列記された1種または複数のプライマー対を含むことができる。
一部の態様において、キットは、1種または複数の広範なサーベイプライマー、部門ワイドなプライマー、もしくは掘下げ型プライマー、またはそれらの組合せを含むことができる。キットは、特定のバイオエージェントを同定するための特定のプライマー対を含むように、設計されてもよい。例えば、広範なサーベイプライマーキットを、未知のバイオエージェントをフィロウイルス属のメンバーとして同定するために、最初に使用することができる。別の例の部門-ワイドなキットは、ザイールエボラウイルス、スーダンエボラウイルスおよびマールブルグウイルスを互いに識別するために使用することができる。掘下げ型キットは、例えば、ザイールエボラウイルスの異なる亜型を識別するか、または遺伝子操作されたフィロウイルスを同定するために使用することができる。一部の態様において、未知のバイオエージェントの種を同定することができるように、これらのキットのいずれかを、広範なサーベイプライマーおよび部門-ワイドなプライマーの組合せを含むように、組合せることができる。
一部の態様において、キットは、内部増幅較正物質として使用するための正規化された較正ポリヌクレオチドを含んでよい。内部較正物質基準は、特許権保有者が共通の米国特許出願第60/545,425号に開示されており、これは全体が本明細書に参照として組入れられている。
一部の態様において、キットは、先に説明された増幅過程のための、充分量の逆転写酵素(例えばRNAウイルスが同定される場合)、DNAポリメラーゼ、適当なヌクレオシド三リン酸(先に説明されたものを含む)、DNAリガーゼ、および/もしくは反応緩衝液、またはそれらの組合せも備えることができる。キットはさらに、方法を操作するためのプライマー対および増幅条件を説明する説明書のような、キットの特定の態様に関する付属の説明書も含むことができる。キットは、微量遠心管などの増幅反応の容器も含むことができる。キットは、例えば、界面活性剤、溶媒、または磁気ビーズに連結するイオン交換樹脂を含む、増幅物からバイオエージェント核酸またはバイオエージェント同定用単位複製配列を単離するための、試薬または他の物質も含むことができる。キットは、キットのプライマー対を使用するバイオエージェントの測定されたまたは計算された分子量および/または塩基組成の表も備えることができる。
本発明はある態様に従い具体的に説明されているが、下記実施例は、単に本発明を例証するために利用され、これを制限することは意図しない。本明細書において明らかにされた本発明をより効率的に理解するために、実施例が以下に提供される。これらの実施例は、単に例証目的であり、いかなる意味においても本発明を制限するよう構築されないことは理解されなければならない。
実施例
実施例1:VHFウイルスのためのバイオエージェント同定用単位複製配列を定義するプライマーの選択
ウイルス性出血熱ウイルスのバイオエージェント同定用単位複製配列を定義するプライマーの設計のために、例えばGenBankから関連配列を入手し、並置し、およびPCRプライマー対が長さ約45〜約200ヌクレオチドの産物を増幅し、ならびにそれらの分子量または塩基組成により互いに種および/または亜種を識別する領域をスキャンした。図1に示した典型的過程を使用した。
各プライマー領域に関する予想された塩基組成のデータベースを、(ePCR)のような、インシリコPCR検索アルゴリズムを用いて作製した。現存するRNA構造検索アルゴリズム(Macke et al, Nucl. Acids Res., 2001, 29, 4724-4735、これはその全体が本明細書に参照として組入れられている)は、ハイブリダイゼーション条件、ミスマッチ、および熱力学的計算(SantaLucia, Proc. Natl. Acad. Sci. U.S.A., 1998, 95, 1460-1465、これはその全体が本明細書に参照として組入れられている)などのPCRパラメータを含むように改良されている。これは、選択されたプライマー対のプライマー特異性に関する情報も提供する。
表4-7は、本明細書に説明された方法を用い、フラビウイルス(表4)、フィロウイルス(表5)、ブニヤウイルス(表6)およびアレナウイルス(表7)を同定するために設計されたプライマー(フォワードプライマー名で検索)の収集を表している。プライマー部位は、例えばRNA依存型RNAポリメラーゼおよびヌクレオキャプシド遺伝子のような、本質的フィロウイルス、フラビウイルス、ハンタウイルス、フレボウイルス、ナイロウイルスおよびアレナウイルスの遺伝子について同定された。表4-7に示したフォワードまたはリバースプライマーの名称は、参照配列に対してプライマーがハイブリダイズするウイルスゲノムの遺伝子領域を示している。表4において、例えばフォワードプライマー名FLAV_NC_001474_10032_10056_Fは、このフォワードプライマーが、GenBank Accession No. NC_001474(配列番号:1)により表されたフラビウイルス参照配列の残基10032-10056にハイブリダイズすることを示している。表4-7において、Ta=5-プロピニルウラシル;Ca=5-プロピニルシトシン;I=イノシンである。プライマー対の番号は、インハウスデータベース指標の番号である。
(表4)フラビウイルスを同定するためのプライマー対
参照配列NC_001474(配列番号:1)は、デングウイルスのゲノムを表している。
(表5)フィロウイルスを同定するためのプライマー対
参照配列NC_002549(配列番号:268)は、エボラザイールウイルスのゲノムを表している。
(表6)ブニヤウイルスを同定するためのプライマー対
参照配列X55901(配列番号:269)は、ハンターンウイルスのLゲノムセグメントを表している。参照配列NC_004366(配列番号:270)は、アンデスウイルスのSゲノムセグメントを表している。参照配列U88410(配列番号:271)は、クリミア-コンゴ出血熱ウイルスの核タンパク質遺伝子をコードしている配列を表している。参照配列NC_002043(配列番号:272)は、リフトバレー熱ウイルスのLゲノムセグメントを表している。
(表7)アレナウイルスを同定するためのプライマー対
参照配列NC_004297(配列番号:273)は、ラッサウイルスのLゲノムセグメントを表している。参照配列NC_004296(配列番号:274)は、ラッサウイルスのSゲノムセグメントを表している。
実施例2:RNAウイルス試料のための一工程RT-PCR
RNAを、ウイルス-含有試料から、当該技術分野において周知の方法で単離した。RNAウイルスのバイオエージェント同定用単位複製配列を作製するために、一工程RT-PCRプロトコールを開発した。全てのRT-PCR反応を、Packard MPII液体操作ロボットプラットフォームおよびMJ Dyad(登録商標)サーモサイクラー(MJ research, Waltham, MA)を使用する、96ウェルマイクロタイタープレートフォーマット内の50μl反応液中に集成した。RT-PCR反応液は、4単位Amplitaq Gold(登録商標)、1.5x緩衝液II(Applied Biosystems, Foster City, CA)、1.5mM MgCl2、0.4Mベタイン、10mM DTT、20mMソルビトール、50ngランダムプライマー(Invitrogen, Carlsbad, CA)、1.2単位Superasin(Ambion, Austin, TX)、100ngポリA DNA、2単位Superscript III(Invitrogen, Carlsbad, CA)、400ng T4 Gene 32 Protein(Roche Applied Science, Indianapolis, IN)、800μM dNTP混合液、および250nM各プライマーからなった。
下記のRT-PCR条件を使用し、質量分析での分析のために使用される配列を増幅した:60℃度で5分間、4℃で10分間、55℃で45分間、95℃で10分間、引き続き95℃で30秒間、48℃で30秒間および72℃で30秒間を8サイクル、加えて各サイクルの後に48℃のアニーリング温度を0.9℃づつ上昇した。その後PCR反応を、さらに95℃で15秒間、56℃で20秒間および72℃で20秒間を37サイクル継続した。この反応は、72℃で2分間で終結した。
実施例3:PCR産物の質量分析のためのイオン交換樹脂-磁気ビーズによる液相捕獲精製
核酸の磁気ビーズに連結されたイオン交換樹脂による液相捕獲のために、2.5mg/mLのBioClonアミン末端超常磁性ビーズ25μlを、約10pMの典型的PCR増幅産物を含むPCR(またはRT-PCR)反応液25〜50μlに添加した。前記懸濁液を、激しく攪拌またはピペッティングすることにより、約5分間混合し、その後磁気分離装置を使用した後にその液体を除去した。その後結合したPCR増幅産物を含むビーズを、50mM炭酸水素アンモニウム/50%MeOHまたは10OmM炭酸水素アンモニウム/50%MeOHの3x量で洗浄し、その後50%MeOHでさらに3回洗浄した。結合したPCR単位複製配列を、25mMピペリジン、25mMイミダゾール、35%MeOH+ペプチド較正標準で溶離した。
実施例4:質量分析および塩基組成分析
ESI-FTICR質量分析装置は、積極的に(actively)遮蔽した7テスラ超伝導磁石を使用する、Bruker Daltonics(Billerica, MA) Apex II 7Oeエレクトロスプレーイオン化フーリエ変換イオンサイクロン共鳴型質量分析装置をベースにした。積極的遮蔽は、超伝導磁石からの漏れ磁場(fringing magnetic field)の大半を、比較的小さい容積へと限定する。従ってCRTモニター、ロボット構成部品、および他の電子製品などの、漂遊磁場から有害に作用される部品を、FTICR質量分析装置に非常に近接して操作することができる。パルス配列の制御およびデータ獲得の全ての局面は、600MHz Pentium IIデータステーションで、Windows NT 4.0 OS上でBruker's Xmassソフトウェアを走らせて行った。典型的には15μlの試料アリコートを、96-ウェルマイクロタイタープレートから、FTICRデータステーションにより始動される、CTC HTS PAL自動試料採取器(LEAP Technologies, Carrboro, NC)を使用し、直接抽出した。試料を、ESI源へ流量100μl/時で供給するフルイディックス操作システムと一体化された、10μl試料ループに直接注入した。イオンを、off軸を使用し、ガラス製脱溶媒キャピラリーの金属末端から約1.5cmに配置されたエレクトロスプレープローブが接地された、改良型Analytica(Branford, CT)給源において、エレクトロスプレーイオン化により発生した。データ獲得時に、ガラス製キャピラリーの大気圧末端に、ESI針に対し6000Vでバイアスをかけた。無水N2の向流流れを使用し、脱溶媒過程を補助した。イオンを、rf-オンリー(only)ヘキサポール、スキマーコーンおよび補助ゲート電極で構成された外部イオン貯蔵庫に蓄積し、その後捕獲用イオンセルへ注入し、そこでこれらの質量を分析した。イオン化デューティサイクル>99%を、同時にイオン検出時に外部イオン貯蔵庫内にイオン蓄積することにより実現した。各検出事象は、2.3秒でデジタル化された1Mデータ点で構成された。シグナルノイズ比(S/N)を改善するために、32スキャンを、総データ獲得時間74秒で、同時追加(co-added)した。
ESI-TOF質量分析計は、Bruker Daltonics MicroTOF(商標)をベースにしている。ESI源からのイオンは、直交イオン引き出し(orthogonal ion extraction)を受け、検出前にリフレクトロンにおいて焦点化される。TOFおよびFTICRは、先に説明された同じ自動化された試料操作およびフルイディックスが装着される。イオンは、FTICR ESI源と同じoff-軸スプレー装置およびガラス製キャピラリーを装着した、標準MicroTOF(商標)ESI源において形成される。結果的に、給源の条件は、先に説明されたものと同じである。データ獲得時のイオン化デューティサイクルを向上するために、外部イオン蓄積も使用した。TOF上の各検出事象は、75μ秒でデジタル化された75,000データ点で構成された。
この試料送達スキームは、試料アリコートが、エレクトロスプレー源へ、高い流速で迅速に注入され、引き続き改善されたESI感度のために、はるかに低い流量でエレクトロスプレー処理されることを可能にした。試料の注入の前に、試料の汚染/キャリーオーバーを防ぐために、トランスファーラインおよびスプレー針をすすぐために、大量の緩衝液を高流量で注入した。すすぎ工程の後、自動試料採取装置に、次の試料を注入し、流量を低流量にスイッチした。短い平衡化遅滞の後、データ獲得を開始した。スペクトルを同時追加したので、自動試料採取装置はシリンジのすすぎを継続し、緩衝液を採取し、注入器および試料トランスファーラインをすすいだ。一般に、2回のシリンジすすぎ、1回の注入器すすぎが、試料のキャリーオーバーを最小化するために必要であった。慣習的なスクリーニングプロトコールの間に、新規の試料混合物を、106秒毎に注入した。より最近になって、シリンジ針の迅速洗浄ステーションが、実装され、これはより短い獲得時間と組合わせた場合、正に1スペクトル/分以下の速度で質量スペクトルの獲得を促進する。
生の質量スペクトルは、内部質量標準により後較正し、モノアイソトピック分子量へデコンボルーションした。曖昧でない塩基組成は、相補的1本鎖オリゴヌクレオチドの正確な質量測定値に由来した。定量結果は、1ウェルにつき500分子で、各PCRウェル毎に存在する内部PCR較正標準との、ピーク高さの比較により得た。較正法は、特許権保有者が共通の米国特許仮出願第60/545,425号に開示されており、これは全体が本明細書に参照として組入れられている。
実施例5:分子量が修飾されたデオキシヌクレオチド三リン酸を使用する増幅産物の塩基組成の新規決定
4種の天然の核酸塩基の分子量は、比較的接近した分子量範囲を有する(A=313.058、G=329.052、C=289.046、T=304.046、表8参照)ので、塩基組成の割当における曖昧さの執拗な原因は、以下のように生じる:塩基組成の差異を有するふたつの核酸鎖は、2本の鎖の間の塩基組成の差異が、C<->T(+15.000)と組合わせたG<->A(-15.994)である場合に、約1Daの差異を有することができる。例えば、塩基組成A27G30C21T21を有する1本の99-mer核酸鎖は、理論的に分子量30779.058を有するが、塩基組成A26G31C22T20を有する別の99-mer核酸鎖は、理論的に分子量30780.052を有する。分子量の1Daの差異は、分子量測定の実験誤差の範囲内であり、従って4種の天然の核酸塩基の相対的に狭い分子量範囲は、不確実性要因をもたらす。
本発明は、1個の質量-タグ付けした核酸塩基および3個の天然の核酸塩基による核酸の増幅を介して、この理論的1Daの不確実性要因を取り除く手段を提供する。本明細書において使用される用語「核酸塩基」は、「ヌクレオチド」、「デオキシヌクレオチド」、「ヌクレオチド残基」、「デオキシヌクレオチド残基」、「ヌクレオチド三リン酸(NTP)」または「デオキシヌクレオチド三リン酸(dNTP)」を含む、当該技術分野において使用される他の用語と同義語である。
増幅反応、またはプライマーそれら自身における、4種の核酸塩基(dNTP)のひとつへの追加の意味のある質量は、C<->Tと組合わせたG<->A事象から生じる曖昧さから生じる得られた増幅産物の質量の有意差(1Daよりも有意に大きい)を生じるであろう。従って同じく5-ヨウ素-C<->T(-110.900)事象と組合せたG<->A(-15.994)事象は、126.894の分子量差を生じるであろう(表8)。塩基組成A27G30 5-ヨウ素-C21T21(33422.958)の分子量を、A26G31 5-ヨウ素-C22T20(33549.852)と比較する場合、理論的分子量差は+126.894である。分子量測定値の実験誤差は、この分子量差に関して有意ではない。さらに99-mer核酸の測定された分子量と一致する唯一の塩基組成は、A27G30 5-ヨウ素-C21T21である。対照的に、質量タグを伴わない類似の増幅は、18種の可能性のある塩基組成を有している。
(表8)天然の核酸塩基および質量-修飾された核酸塩基5-ヨウ素-Cの分子量ならびに転移から得られる分子量の差異
実施例6:データ処理
バイオエージェント同定用単位複製配列の質量スペクトルを、例えばレーダーシグナル処理において広範に使用されるもののような、最尤法演算処理装置を用い、独立して分析した。このプロセッサーは、GenXと称され、最初に入力データ上の各塩基組成アグリゲートについて一致したフィルターを試行することにより、各プライマーに関する質量分析装置へのに入力の最尤推定値を作製する。これは、各プライマーに関する較正物質に対するGenX応答を含む。
このアルゴリズムは、天然の生物および環境汚染物質の複雑なバックグラウンドが関与する条件に関する、検出確率、対、偽アラーム確率のプロットが頂点に達する性能予測を強調している。一致したフィルターは、各バイオエージェントについて使用されたプライマーのセットを与えた、シグナル値の先験的予測からなる。ゲノム配列データベースを使用し、質量塩基カウントの一致したフィルターを定義する。このデータベースは、公知の細菌バイオエージェントの配列を含み、および脅威の生物に加え良性の背景生物を含む。後者を使用し、背景生物により作製されたスペクトルサインを推測しおよび減算する。公知の背景生物の最尤検出は、一致したフィルターおよびノイズ共分散のランニングサム推定値を用いて実行される。背景シグナル強度は、概算され、一致したフィルターと共に使用され、サインを形成し、これは次に減算される。最尤法過程は、それらの生物に関する一致されたフィルター、およびクリーナップされたデータのノイズ共分散のランニングサム推定値を使用する同様の方法でこの「クリーンアップ」されたデータに適用される。
各プライマーに関するバイオエージェント同定用単位複製配列の全ての塩基組成の増幅は、較正され、生物当たりの最終最尤振幅(amplitude)の推定値は、複数の単独プライマー推定値を基に作製される。全てのシステムノイズのモデルは、この2段階最尤法計算を考慮した。プロセッサーは、スペクトルに含まれる各塩基組成の分子の数を報告する。適当なプライマーセットに対応する増幅産物の量に加え、増幅反応の完了時に残存するプライマーの量が報告される。
塩基カウントの不鮮明化は、以下のように実行される。「電気的PCR」が、各プライマー対について得られる異なる予想される塩基カウントを得るために、所望のバイオエージェントのヌクレオチド配列について実行される。例えば、ワールドワイドウェブ上のncbi.nlm.nih.gov/sutils/e-pcr/;Schuler, Genome Res. 7:541-50, 1997を参照のこと。ひとつの例証的態様において、例えばMicrosoft Excelのワークブックのような、1個または複数のスプレッドシートは、複数のワークシートを含む。この例において最初に、ワークブック名に類似した名称を伴うワークシートが存在し;このワークシートは、生の電気的PCRデータを含む。第二に、「フィルターをかけたバイオエージェント塩基カウント」と称されるワークシートが存在し、これはバイオエージェント名および塩基カウントを含む;属および種について同定されない配列を取り除いた後、および10未満の菌株のバイオエージェントに関する全ての配列を取り除いた後、各菌株について個別の記録が存在する。第三に、このプライマー対の置換、挿入または欠失の頻度を含む、「シート1」のワークシートが存在する。このデータは、「フィルターをかけたバイオエージェント塩基カウント」ワークシートの中のデータからピボットテーブルを最初に作成し、およびExcel VBAマクロを実行することにより作成される。このマクロは、同じ種で異なる株のバイオエージェントに関する塩基カウントの差異の表を作成する。当業者は、過度の実験をすることなく、同様の表の差分を得る、追加の経路を理解することができる。
例証的台本の適用は、ユーザーが、各バイオエージェントに関して塩基カウントの参照セットにより提示される菌株の画分を特定する閾値を定義することに関連している。各バイオエージェントの塩基カウントの参照セットは、閾値に合致するかまたはこれを超えることが必要であるので、多くの差のある塩基カウントを含むことができる。参照塩基カウントのセットは、最も豊富な株の塩基型の組成を採用し、および参照セットを加え、その後閾値に合致するかまたはこれを超えるまで、次に最も豊富な株の塩基型の組成を追加することにより、定義される。現時点のデータセットは、経験的に得られた閾値55%を用いて得られた。
各塩基カウントに関して、バイオエージェントの参照塩基カウントセットは含まれず、この台本は、その時点の塩基カウントが、参照セットの塩基カウントの各々とは異なる様式を決定するように、次に進行する。この差異は、置換Si=Xi、および挿入Ii=Yi、または欠失Di=Ziの組合せとして表すことができる。1種よりも多い参照塩基カウントが存在する場合、報告された差異は、変化の数を最小化すること、および同じ数の変化を伴う場合には、挿入または欠失の数を最小化することを目的とする規則を用いて選択される。従って原則は、例えば、2個の置換よりも1個の挿入であるような、最小和(Xi+Yi)または(Xi+Zi)による差異を同定する。最小和により2個またはそれよりも多い差異が存在する場合、それは最大の置換を含むと報告される。
塩基カウントと参照組成の間の差異は、1、2またはそれよりも多い置換、1、2またはそれよりも多い挿入、1、2またはそれよりも多い欠失、ならびに置換および挿入または欠失の組合せとして群別される。変化の差異の型およびそれらの発生の確率は、米国特許出願公開第2004209260号(米国特許出願第10/418,514号)に開示されており、これは全体が本明細書に参照として組入れられている。
実施例7:5種の異なるフィロウイルス株の同定
表5からの4種のプライマー対−プライマー対番号853(配列番号:129:164)、856(配列番号:134:169)、858(配列番号:124:159)および864(配列番号:138:174)を、プライマー対増幅効率をゲル電気泳動により評価した24プライマー対の増幅試験後、フィロウイルス綱の全ての公知のウイルスバイオエージェントの広範な対象範囲を提供するための候補プライマー対として選択した。これら4種のプライマー対の各々は、Lポリメラーゼ遺伝子領域を標的としている。ザイールエボラウイルス(Mayinga株)、スーダンエボラウイルス(Boniface株)、レストンエボラウイルス(Reston株)の単離体、およびマールブルグウイルス(M/Kenya/Kitum/Cave/1987/Ravn株およびVoege株)の2種の単離体の試料を、米国疾病管理センター(CDC)から入手した。RNAを単離し、これらの単離体試料から、実施例2に従い逆転写した。異なるプライマー対を使用した(プライマー対番号853、856、858および864)異なる反応の各々について、得られるcDNAを、10-3〜10-6倍に希釈し、pCR Blunt(登録商標)ベクター(Invitrogen, Carlsbad, CA)に含まれた較正ポリヌクレオチド(配列番号:275)の100コピーを、試料へスパイクした。この較正ポリヌクレオチドは、ザイールエボラウイルス(Mayinga)ゲノム(配列番号:268)の配列の一部を基にし、長さに5核酸塩基の連続する欠失を含み、これは、プライマー対番号853、856、858および864により産生された各増幅産物について、対応するフィロウイルス同定用単位複製配列から各較正単位複製配列を識別するのに十分な分子量の差異を提供した。5核酸塩基欠失は、参照配列(配列番号:268)に関する下記の座標に位置した:15339-15343、15441-15445、15583-15587、15641-15645、および15772-15776。
ウイルス単離体cDNAおよび較正物質を増幅し、増幅産物を、実施例3の磁気溶液捕獲により精製し、引き続き実施例4に従い質量分析を行った。塩基組成を、フィロウイルス同定用単位複製配列の分子量からデコンボルーションし、公知の配列情報を基に予想された塩基組成と共に、表9に示した。プライマー対番号858は、スーダンエボラウイルスをプライミングするとは予想されず、および予想されたように、増幅産物は認められなかったことは、注目されなければならない。
この実施例は、異なるフィロウイルス株を同定することができる塩基組成を伴うフィロウイルス同定用単位複製配列の産生に関して、調べた4種のプライマー対は、それらの意図された目的において機能することを示している。
(表9)プライマー対番号:853(配列番号:129:164)、856(配列番号:134:169)、858(配列番号:124:159)および864(配列番号:138:174)で作製されたフィロウイルス同定用単位複製配列の予想されたおよび観察された塩基組成
本明細書に説明されたものに加え、本発明の様々な修飾が、当業者には先の説明から明らかであろう。このような修飾は、添付された「特許請求の範囲」内に収まることが意図される。本出願に引用された各参考文献(雑誌記事、米国および米国以外の特許、特許出願公開、国際特許出願公開、遺伝子バンク寄託番号、インターネットウェブサイトなどを含むが、これらに限定されるものではない。)は、その全体が本明細書に参照として組入れられている。当業者は、本発明の態様に多くの変更および修飾を行うことができ、ならびにそのような変更および修飾は、本発明の精神から逸脱しないものであることを理解するであろう。従って、本発明の真の精神および範囲内に収まる同等の変動は全て、添付された「特許請求の範囲」の対象である。