JP2010509904A

JP2010509904A - 配列が解明された生物を検出および同定するための遺伝子標的の設計と選択

Info

Publication number: JP2010509904A
Application number: JP2009525756A
Authority: JP
Inventors: ピーマラノスキ，アンソニー; ウォング，チエン; リン，バオチャン; エイステンジャー，デビット; エムシューナー，ジョエル
Original assignee: US Government
Current assignee: US Government
Priority date: 2006-08-22
Filing date: 2007-08-22
Publication date: 2010-04-02
Anticipated expiration: 2027-08-22
Also published as: KR101205619B1; CN101535802A; AU2007286734B2; CA2657448A1; NO20091192L; CN101535802B; EP2054719B1; KR20090060303A; EP2054719A2; NZ574942A; EP2054719A4; WO2008024827A2; AU2007286734A1; JP5112435B2; WO2008024827A3

Abstract

【課題】コンピュータによって実行される以下の方法。生物リスト中の一種類以上の生物に関連する標的配列のリストを提供すること。それらの標的配列の一つ以上にハイブリダイズすると推定される候補プロトタイプ配列のリストを提供すること。各候補プロトタイプ配列に対応するプローブのコレクションであって、各プローブコレクションが、対応する候補プロトタイプ配列の所定の一定のサブ配列長を有するすべてのサブ配列に対するプローブのセットを有するコレクションを作製すること。
【解決手段】これらのセットは、対応するサブ配列と、対応するサブ配列の中心にあるヌクレオチドを変えることによって形成された、対応するサブ配列のあらゆる変異とからなる。各標的配列に対応する断片のセットであって、各断片セットが、対応する標的配列の所定の一定の断片長を有するすべての断片を有するセットを作製すること。各断片が、その断片の相補配列と結合する自由エネルギーを計算すること。いずれの結合自由エネルギーが上記所定の一定の閾値を超える場合には、その断片を一度に一塩基ずつ延長して、結合自由エネルギーが閾値を下回るか、断片がプローブと同じ長さになるまで、延長断片のセットを作製すること。どの延長断片が、プローブのいずれかに完全に一致するかを決定すること。各候補プロトタイプ配列に対応するベースコール配列を集める。このベースコール配列は、いずれかの延長断片に完全に一致する対応するプロトタイプ配列の各プローブの中央にあるヌクレオチドに対応するベースコールを有するが、完全に一致するプローブを含むプローブのセットの残りメンバーは、いずれの延長断片とも完全には一致せず、別の状況ではベースコールしない。

Description

本発明は、一般にリシークエンシングマイクロアレイ（ｒｅｓｅｑｕｅｎｃｉｎｇｍｉｃｒｏａｒｒａｙ）の設計に関する。

ＤＮＡによる検出方法が普及するにつれて、分析結果の解析方法を設計、試験、および改善するためにインシリコ（ｉｎｓｉｌｉｃｏ）法をもつことが重要になる。特に、高度に多重的な病原体検出法は、その必要性が高まっており、コスト、必要となるサンプル量、試薬、および測定時間という点で、複数の別々の試験法よりも効率が高い可能性がある。しかし、初期の開発、設計、および検証は、対数的に複雑で費用がかかり時間がかかるようになるかもしれない。微生物に関して新たに利用可能になった遺伝子配列情報を利用した正確なシミュレーションモデルによって、これらの高度に多重的なアッセイ法を開発するコストと時間を最小限にできる可能性がある。

すべて核酸によるアッセイ法に関する設計基準には、同じような全体的制約がある。標的とする生物を選択した後、標的生物種だけを非常に特異的に認識し、かつ、その種内のすべての遺伝的変異（すなわち系統またはサブタイプ）を捕捉できるプローブを選択するための方法を用いる必要がある。ＰＣＲ、およびスポットされたオリゴヌクレオチドマイクロアレイ（非特許文献１）；（非特許文献２）；（非特許文献３）；（非特許文献４）、アレイおよびオリゴヌクレオチドマイクロアレイ（非特許文献５）；（非特許文献６）を、各々同じような要件をもつものに対するモデルを用いて行うためのインシリコ設計法が開発されている。プローブ、標的、および干渉断片の潜在的プールは非常に大きいため、最小限の計算で最大の標的特異的性をもたらすモデルが好適である。典型的なＰＣＲプライマーまたはオリゴヌクレオチドマイクロアレイの設計アルゴリズムでは、プローブと、標的またはバックグラウンドとなる生物の配列との間で一致する塩基の数を数える。閾値となる一致数を超えれば、ハイブリダイゼーションが起きると想定される（非特許文献７）；（非特許文献８）。プローブ−標的のハイブリダイゼーションの最終的な検出は、単一のシグナル強度（通常は蛍光）に依存し、これは推定されたシグナル強度とは相関しない可能性があるため、このレベルのモデリングでは不完全である。この結果、選択したものを検証するための実験を行って、ハイブリダイゼーションが起きたことを示す、強度のカットオフ値を確立するまでは、選択されたプローブがどのくらい有効であるかははっきりしないことになる。

より詳細な熱力学的モデル構築と計算法を用いて、マッチ−ミスマッチおよび単一マッチのマイクロアレイをよりよく理解すること、および強度を予測することが可能になった（非特許文献９）；（非特許文献１０）；（非特許文献１１）；（非特許文献１２）；（非特許文献１３）。このモデリング法は、表面へのプローブ結合、および断片の塩基含有による断片の二量体形成またはループ形成など、いくつかの重要な問題を説明する。一つまたは二つのプローブだけが標的にハイブリダイズするかもしれないという場合に、これらの問題を説明するのは比較的容易である。しかし、このようにモデルにおける細部が増えると、コンピュータ計算上の要件も増えるという点で高くつくことになる。

単純なオリゴヌクレオチドマイクロアレイ法とは対照的に、リシークエンシングマイクロアレイ法を用いた最近の実験によって、それらが、同時感染など、複数の病原体を検査し、近縁関係にある病原体のきめ細かな識別を行い、および／または病原体の変異を追跡するための実行可能な代替法であることが明らかにされた（非特許文献１４）；（非特許文献１５）。各セットが所望の配列の一部を代表し、その中心となるヌクレオチド位置におけるすべての変異を表している４種類（または、アンチセンスも含まれる場合には８種類）の短いプローブのセットであるため、単一のプローブからのシグナルの絶対的な強度は、プローブセット全体にわたる示差的な結合／強度と比べると重要性が低くなる。この情報は、センス鎖とアンチセンス鎖の両方向で確認され、一つの特定の塩基が高い信頼度で存在することを確認するためだけに用いられる。標的生物のヌクレオチド配列を、特異的であると推定されたプローブの単一の蛍光シグナル強度に基づいて推測するのではなく、直接的に決定するためには、重複プローブのセットをこのように使用することが必要である（非特許文献１６）。

さまざまなレベルの生物識別を広範囲に検出するについてのリシークエンシングマイクロアレイの有効性は、マイクロアレイ上に設置される参照配列または標的配列を選択するために用いられる方法によるかもしれない。考えられた生物のすべてについて、生物のために設けられた空間の量と、可能な識別レベルとのトレードオフ関係のバランスをとらなければならない。さらに、特異的プライマーまたは半特異的プライマーを、生物を濃縮するために使用する場合には、これらのプライマーの選択によって、参照配列となる可能性のあるものの選択が影響を受けるかもしれない。

Ｃｌｅｌａｎｄｅｔａｌ．（２００４）Ｄｅｖｅｌｏｐｍｅｎｔｏｆｒａｔｉｏｎａｌｌｙｄｅｓｉｇｎｅｄｎｕｃｌｅｉｃａｃｉｄｓｉｇｎａｔｕｒｅｓｆｏｒｍｉｃｒｏｂｉａｌｐａｔｈｏｇｅｎｓ，ＥｘｐｅｒｔＲｅｖＭｏｌＤｉａｇｎ，４，３０３−３１５Ｇａｒｄｎｅｒｅｔａｌ．（２００５）ＤｒａｆｔｖｅｒｓｕｓｆｉｎｉｓｈｅｄｓｅｑｕｅｎｃｅｄａｔａｆｏｒＤＮＡａｎｄｐｒｏｔｅｉｎｄｉａｇｎｏｓｔｉｃｓｉｇｎａｔｕｒｅｄｅｖｅｌｏｐｍｅｎｔ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ，３３，５８３８−５８５０Ｒｙｃｈｌｉｋｅｔａｌ．（１９８９）Ａｃｏｍｐｕｔｅｒｐｒｏｇｒａｍｆｏｒｃｈｏｏｓｉｎｇｏｐｔｉｍａｌｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅｓｆｏｒｆｉｌｔｅｒｈｙｂｒｉｄｉｚａｔｉｏｎ，ｓｅｑｕｅｎｃｉｎｇａｎｄｉｎｖｉｔｒｏａｍｐｌｉｆｉｃａｔｉｏｎｏｆＤＮＡ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ，１７，８５４３−８５５１Ｆｉｔｃｈｅｔａｌ．（２００２）Ｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｎｕｃｌｅｉｃａｃｉｄｄｉａｇｎｏｓｔｉｃｓ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，９０，１７０８−１７２１Ｈｅｒｏｌｄｅｔａｌ．（２００３）ＯｌｉｇｏＤｅｓｉｇｎ：ａｃｏｍｐｕｔｅｒｐｒｏｇｒａｍｆｏｒｄｅｖｅｌｏｐｍｅｎｔｏｆｐｒｏｂｅｓｆｏｒｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅｍｉｃｒｏａｒｒａｙｓ．Ｂｉｏｔｅｃｈｎｉｑｕｅｓ，３５，１２１６−１２２１Ｍｅｈｌｍａｎｎｅｔａｌ．（２００６）ＲｏｂｕｓｔｓｅｑｕｅｎｃｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｕｓｅｄｔｏｄｅｖｅｌｏｐｔｈｅＦｌｕＣｈｉｐｄｉａｇｎｏｓｔｉｃｍｉｃｒｏａｒｒａｙｆｏｒｉｎｆｌｕｅｎｚａｖｉｒｕｓ．ＪＣｌｉｎＭｉｃｒｏｂｉｏｌ，４４，２８５７−２８６２Ｈｅｒｏｌｄｅｔａｌ．（２００３）ＯｌｉｇｏＤｅｓｉｇｎ：ａｃｏｍｐｕｔｅｒｐｒｏｇｒａｍｆｏｒｄｅｖｅｌｏｐｍｅｎｔｏｆｐｒｏｂｅｓｆｏｒｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅｍｉｃｒｏａｒｒａｙｓ．Ｂｉｏｔｅｃｈｎｉｑｕｅｓ，３５，１２１６−１２２１Ｍｅｈｌｍａｎｎｅｔａｌ．（２００６）ＲｏｂｕｓｔｓｅｑｕｅｎｃｅｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄｕｓｅｄｔｏｄｅｖｅｌｏｐｔｈｅＦｌｕＣｈｉｐｄｉａｇｎｏｓｔｉｃｍｉｃｒｏａｒｒａｙｆｏｒｉｎｆｌｕｅｎｚａｖｉｒｕｓ．ＪＣｌｉｎＭｉｃｒｏｂｉｏｌ，４４，２８５７−２８６２Ｍａｔｖｅｅｖａｅｔａｌ．（２００３）Ｔｈｅｒｍｏｄｙｎａｍｉｃｃａｌｃｕｌａｔｉｏｎｓａｎｄｓｔａｔｉｓｔｉｃａｌｃｏｒｒｅｌａｔｉｏｎｓｆｏｒｏｌｉｇｏ−ｐｒｏｂｅｓｄｅｓｉｇｎ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ，３１，４２１１−４２１７Ｈｅｌｄｅｔａｌ．（２００３）ＭｏｄｅｌｉｎｇｏｆＤＮＡｍｉｃｒｏａｒｒａｙｄａｔａｂｙｕｓｉｎｇｐｈｙｓｉｃａｌｐｒｏｐｅｒｔｉｅｓｏｆｈｙｂｒｉｄｉｚａｔｉｏｎ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ，１００，７５７５−７５８０Ｎａｅｆｅｔａｌ．（２００３）Ｓｏｌｖｉｎｇｔｈｅｒｉｄｄｌｅｏｆｔｈｅｂｒｉｇｈｔｍｉｓｍａｔｃｈｅｓ：Ｌａｂｅｌｉｎｇａｎｄｅｆｆｅｃｔｉｖｅｂｉｎｄｉｎｇｉｎｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅａｒｒａｙｓ．ＰｈｙｓｉｃａｌＲｅｖｉｅｗＥ，６８，０１１９０６Ｚｈａｎｇｅｔａｌ．（２００３）Ａｍｏｄｅｌｏｆｍｏｌｅｃｕｌａｒｉｎｔｅｒａｃｔｉｏｎｓｏｎｓｈｏｒｔｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅｍｉｃｒｏａｒｒａｙｓ．ＮａｔＢｉｏｔｅｃｈｎｏｌ，２１，８１８−８２１Ｗｕｅｔａｌ．（２００５）Ｓｅｑｕｅｎｃｅｄｅｐｅｎｄｅｎｃｅｏｆｃｒｏｓｓ−ｈｙｂｒｉｄｉｚａｔｉｏｎｏｎｓｈｏｒｔｏｌｉｇｏｍｉｃｒｏａｒｒａｙｓ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ，３３，ｅ８４Ｗａｎｇｅｔａｌ．（２００６）ＩｄｅｎｔｉｆｙｉｎｇＩｎｆｌｕｅｎｚａＶｉｒｕｓｅｓｗｉｔｈＲｅｓｅｑｕｅｎｃｉｎｇＭｉｃｒｏａｒｒａｙｓ．ＥｍｅｒｇＩｎｆｅｃｔＤｉｓ，１２，６３８−６４６Ｌｉｎｅｔａｌ．（２００６）Ｂｒｏａｄ−ｓｐｅｃｔｒｕｍｒｅｓｐｉｒａｔｏｒｙｔｒａｃｔｐａｔｈｏｇｅｎｉｄｅｎｔｉｆｉｃａｔｉｏｎｕｓｉｎｇｒｅｓｅｑｕｅｎｃｉｎｇＤＮＡｍｉｃｒｏａｒｒａｙｓ．ＧｅｎｏｍｅＲｅｓ，１６，５２７−５３５Ｍａｌａｎｏｓｋｉｅｔａｌ．（２００６）ＡｕｔｏｍａｔｅｄｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｍｕｌｔｉｐｌｅｍｉｃｒｏｏｒｇａｎｉｓｍｓｆｒｏｍｒｅｓｅｑｕｅｎｃｉｎｇＤＮＡｍｉｃｒｏａｒｒａｙｓ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ，３４，５３００−５３１１Ｌｉｎｅｔａｌ．（２００６）Ｂｒｏａｄ−ｓｐｅｃｔｒｕｍｒｅｓｐｉｒａｔｏｒｙｔｒａｃｔｐａｔｈｏｇｅｎｉｄｅｎｔｉｆｉｃａｔｉｏｎｕｓｉｎｇｒｅｓｅｑｕｅｎｃｉｎｇＤＮＡｍｉｃｒｏａｒｒａｙｓ．ＧｅｎｏｍｅＲｅｓ，１６，５２７−５３５Ｌｉｎｅｔａｌ．（２００６）Ｂｒｏａｄ−ｓｐｅｃｔｒｕｍｒｅｓｐｉｒａｔｏｒｙｔｒａｃｔｐａｔｈｏｇｅｎｉｄｅｎｔｉｆｉｃａｔｉｏｎｕｓｉｎｇｒｅｓｅｑｕｅｎｃｉｎｇＤＮＡｍｉｃｒｏａｒｒａｙｓ．ＧｅｎｏｍｅＲｅｓ，１６，５２７−５３５ＳａｎｔａＬｕｃｉａ（１９９８）Ａｕｎｉｆｉｅｄｖｉｅｗｏｆｐｏｌｙｍｅｒ，ｄｕｍｂｂｅｌｌ，ａｎｄｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅＤＮＡｎｅａｒｅｓｔ−ｎｅｉｇｈｂｏｒｔｈｅｒｍｏｄｙｎａｍｉｃｓ．Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ，９５，１４６０−１４６５ＳａｎｔａＬｕｃｉａｅｔａｌ．（２００４）ＴｈｅｔｈｅｒｍｏｄｙｎａｍｉｃｓｏｆＤＮＡｓｔｒｕｃｔｕｒａｌｍｏｔｉｆｓ．Ａｎｎｕ．Ｒｅｖ．Ｂｉｏｐｈｙｓ．Ｂｉｏｍｏｌ．Ｓｔｒｕｃｔ．，３３，４１５−４４０Ｗａｎｇｅｔａｌ．（２００６）ＩｄｅｎｔｉｆｙｉｎｇＩｎｆｌｕｅｎｚａＶｉｒｕｓｅｓｗｉｔｈＲｅｓｅｑｕｅｎｃｉｎｇＭｉｃｒｏａｒｒａｙｓ．ＥｍｅｒｇＩｎｆｅｃｔＤｉｓ，１２，６３８−６４６Ｌｉｎｅｔａｌ．（２００６）Ｂｒｏａｄ−ｓｐｅｃｔｒｕｍｒｅｓｐｉｒａｔｏｒｙｔｒａｃｔｐａｔｈｏｇｅｎｉｄｅｎｔｉｆｉｃａｔｉｏｎｕｓｉｎｇｒｅｓｅｑｕｅｎｃｉｎｇＤＮＡｍｉｃｒｏａｒｒａｙｓ．ＧｅｎｏｍｅＲｅｓ，１６，５２７−５３５Ｄａｖｉｇｎｏｎｅｔａｌ．（２００５）ＵｓｅｏｆｒｅｓｅｑｕｅｎｃｉｎｇｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅｍｉｃｒｏａｒｒａｙｓｆｏｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＳｔｒｅｐｔｏｃｏｃｃｕｓｐｙｏｇｅｎｅｓａｎｄａｓｓｏｃｉａｔｅｄａｎｔｉｂｉｏｔｉｃｒｅｓｉｓｔａｎｃｅｄｅｔｅｒｍｉｎａｎｔｓ．ＪＣｌｉｎＭｉｃｒｏｂｉｏｌ，４３，５６９０−５６９５Ｌｉｎｅｔａｌ．（２００７）ＵｓｉｎｇａＲｅｓｅｑｕｅｎｃｉｎｇＭｉｃｒｏａｒｒａｙａｓａＭｕｌｔｉｐｌｅＲｅｓｐｉｒａｔｏｒｙＰａｔｈｏｇｅｎＤｅｔｅｃｔｉｏｎＡｓｓａｙ．ＪＣｌｉｎＭｉｃｒｏｂｉｏｌ．，４５（２），４４３−４５２Ｌｉｎｅｔａｌ．（２００７）ＪＣｌｉｎＭｉｃｒｏｂｉｏｌ．，４５（２），４４３−４５２。Ｗａｎｇｅｔａｌ．（２００６）ＥｍｅｒｇＩｎｆｅｃｔＤｉｓ，１２，６３８−６４６Ｍａｌａｎｏｓｋｉｅｔａｌ．（２００６）ＡｕｔｏｍａｔｅｄｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｍｕｌｔｉｐｌｅｍｉｃｒｏｏｒｇａｎｉｓｍｓｆｒｏｍｒｅｓｅｑｕｅｎｃｉｎｇＤＮＡｍｉｃｒｏａｒｒａｙｓ．ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．，３４，５３００−５３１１

設計プロセス全体は、一連の工程として特徴づけることができる。まず、生物、および各生物について所望の識別レベル、および特異的な核酸マーカーをテストすべきか否かを選択すること。第二に、既知の配列データから、参照配列を選び出す配列領域を決定すること。第三に、参照配列を選択して、不一致の可能性がないかをチェックすること。第四に、プライマーを選択すること。第五に、配列の選択をさらに調整すること。これらの工程のいくつかの順番は互いに換えることができ、調整は、変更を加えた後にこれらの工程のいくつかを反復することからなる。第一の工程は、常に、生物を選択すること、および設計に対する制約を表す、各生物の所望の識別レベルを選択することである。使用するマイクロアレイのサイズによって、設計の問題に対する別の制約が特定される。これらの制約の一つ以上を変えない限り、問題の解決は不可能かもしれない。しかし、その後の工程はすべて、これらの要件を満たすことを目的としている。

本発明は、以下を含む、コンピュータによって実行される方法を含む：生物リスト中の一種類以上の生物に関連する標的配列のリストを提供すること；標的配列の一つ以上にハイブリダイズすると推定される候補プロトタイプ配列のリストを提供すること；各候補プロトタイプ配列に対応するプローブのコレクションであって、各プローブコレクションが、対応する候補プロトタイプ配列の予め決められた一定のサブ配列長を有するすべてのサブ配列に対する、１セットのプローブを含み、このセットが、対応するサブ配列と、対応するサブ配列の中心にあるヌクレオチドを変えることによって形成された対応するサブ配列のすべての変異とからなるコレクションを作製すること；各標的配列に対応する１セットの断片であって、各断片セットが、対応する標的配列の予め決められた一定の断片長を有するすべての断片を含むセットを作製すること；各断片が、その断片の相補配列と結合する自由エネルギーを計算し、いずれかの結合自由エネルギーが、予め決められた一定の閾値を上回る場合には、その結合自由エネルギーが閾値を下回るか、その断片がプローブと同じ長さになるまで、その断片を一度に一ヌクレオチドずつ延長して、延長された断片のセットを作製すること；およびどの延長断片が、プローブのいずれかと完全に一致すると判定すること；ならびに各候補プロトタイプ配列に対応するベースコール配列を集めることであって、以下を含むもの：いずれかの延長断片と完全に一致する対応するプロトタイプ配列の各プローブの中心にあるヌクレオチドに対応するベースコールであるが、完全に一致するプローブを含むプローブのセットの残りメンバーは、いずれの延長断片とも完全には一致しないベースコール；および別の状況ではベースコールしないこと。

以下の実施例の記載および添付の図面を参照することによって、容易に本発明をより完全に理解することができる。

２３から１３までのさまざまなｍの値を用いたモデルの結果例を示す。プロトタイプ配列（プローブセットを作製するために使用される）およびサンプル配列が、両配列で一致する塩基の上にアスタリスクを付けて示されている。また、さまざまなｍの値に対する、各プローブセットについて再構築されたモデルベースコールの結果も示されている。領域Ａは２０個の連続して塩基をもつため、ｍが２０よりも大きいときには、この領域内のプローブセットはどれも一致しない。これよりも長い領域Ｂは、ｍ＝２３でベースコールするプローブセットを有する。各領域で、ｍが１か２増加すると、各辺縁部で１つか２つのベースコールが行われなくなる。これらのベースコールは、プローブの半分で、残りの半分よりも多く一致している断片に依存する。領域Ｃは、間にＳＮＰがある、９塩基および１２塩基の２つの連続した領域をもつ。このＳＮＰセットの１つのプローブは、サンプルと一致する２２塩基をもつが、この領域における、いずれのプローブセットにおける別のプローブで、１２よりも一致するものはなく、そのため、Ｎについてのすべての値で、すべてがＮコールになっている。プライマー内の位置の関数として、プライマーから解析されたベースコールの頻度を示す。●−すべてＧＣ含量；▲−５０％以下、▼−５０％以上プライマー内の位置の関数として、プライマーから解析されたベースコールの頻度を示す。ΔＧ（白抜きの記号は、１２０００データポイントよりも少ないビン（ｂｉｎ）を意味する）：＊＞−１３、−１３＞■□＞−１６、−１６＞◆◇＞−１９、−１９＞▲△＞−２２、−２２＞▼▽＞−２５、−２５＞＞●○ ＦｌｕＢＨＡのプロトタイプ配列と、ＲＰＭｖ．１マイクロアレイから従来のシークエンシングで得られたインフルエンザＢのビクトリア系統株についての結果、およびモデル予測から得られた結果を示す。領域Ａは、ＳＮＰが非常に離れているか、密接している部分の配列を表しており、モデルとマイクロアレイデータがよく一致している。領域Ｂには、中程度の頻度のＳＮＰがあるが、モデルと実験との一致は低くなる。この挙動を、サンプル配列とプロトタイプ配列の間において差異のパーセントとして観察すると４％よりも高くなる。領域Ｃは、類似しているが、実測できたベースコール数がずっと多く、このような場合は１０％でしか観察されなかった。仮想的な基準標的、標的のリスト、およびプロトタイプ配列のリストを示している。仮想的なプローブコレクションを示している。断片と延長断片の仮想的なリストを示している。プローブと延長断片とが完全に一致したものを示している。仮想的なベースコール配列を示している。各候補プロトタイプに適合する生物、および最終的な標的のリストの生成を示している。

以下の説明においては、説明することを目的とし、制限するものではなく、詳細な具体的事項は、本発明を完全に理解するために記載されたものである。しかし、これらの詳細な具体的事項から離れた別の実施態様において本発明を実施しうることは、当業者には明白である。別の具体例においては、周知の方法や装置の詳細な説明を省き、本発明の説明を不要な些事で曖昧にすることがないようにした。

ＤＮＡによる検出法、特に複数の病原体を検出するための方法の普及は、近年発表されている文献の量から明らかである。したがって、これらの方法の開発が、より複雑で費用がかかり時間がかかるようになるにつれて、これらの方法の設計、初期試験、および改良を補助するインシリコ法をもつことが重要になる。リシークエンシングマイクロアレイ法を用いた最近の実験によって、それらが、同時感染を含む、複数の病原体を検査し、近縁関係にある病原体のきめ細かな識別を行い、および／または病原体の遺伝子的な変異を追跡するための実行可能な代替法であることが明らかにされている。しかし、リシークエンシングアレイの特性から、個々のプローブレベルにおけるそれらの効率をモデリングするには、さまざまな基準が必要とされる。さらに、これらのアッセイの設計を、何百種類にもなるかもしれないプロトタイプ標的で最適化するのは、現行の方法ではまかない切れない。これらの問題に対処するために、リシークエンシングマイクロアレイのベースコーリングを予測するためのコンピュータ計算による効率的なモデルであって、ハイブリダイゼーションを予測するための単純な仮定から始まり、必要に応じて複雑さを加えて行くだけのモデルの開発に成功した。生物に関する大きなデータセット、および短いオリゴヌクレオチドのハイブリダイゼーション、およびＡｆｆｙｍｅｔｒｉｘＣｕｓｔｏｍＳｅｑマイクロアレイによるベースコーリングによって、モデルの検定と検証が可能になる。

マイクロアレイの特定のプロトタイプ配列上にあるサンプル配列について生じるベースコールを予測するモデルであって、リシークエンシングマイクロアレイに応用できるモデルを開示する。「プロトタイプ」配列は、病原体の標的配列の選択された範囲が、少なくとも部分的にハイブリダイゼーションできる、リシークエンシングアレイ上に置かれたプローブセットを作製するために利用されるゲノム配列に付けられた名前である。別のアレイを設計するときに用いられる規則と同様の規則が、迅速な計算を可能にする出発点であるが、より詳細な熱力学的情報が取り込まれている。このモデル開発は、生物に関する大きなデータセット、および短いオリゴヌクレオチドのハイブリダイゼーション、およびＡｆｆｙｍｅｔｒｉｘリシークエンシングマイクロアレイによるベースコーリングに対する検定を行うことによって促進することができる。このモデルは、非常に多様な標的生物配列のハイブリダイゼーションから得られるベースコールをうまく予測できている。さらに、それを用いて、マイクロアレイ上に示されているプロトタイプ配列が、どのくらいうまく、病原体標的の多様なセットに対して働くかを予測することができる。これは、リシークエンシングマイクロアレイの設計を簡単にするのに役立ち、具体的に応用するためにそれらを開発するのに必要な時間と費用を低減させる。

モデル概念−実験的には、プローブセットは、ある断片が、そのセット中の一つのプローブにより良好に結合すれば、特定の塩基が存在していることを示すに過ぎない。この反応をモデル化するために、プローブとサンプル配列が、ｍ個の連続した相補的な塩基を持てば、観測可能なハイブリダイゼーションシグナルが発生するという中心的な仮定を設ける。これが、あるプローブに対するさまざまな配列の結合強度の差異を表す最も大まかな近似であり、最も単純なモデルを表している。これ以外のモデル構築は、プロトタイプ配列からプローブを作製し、サンプルからの結合する可能性がある断片を作製すること、そして、その中心的な仮定を用いて、各セットを互いに比較することからなる。

第１の工程は、プローブセットとサンプル断片を作製することである。プロトタイプ配列とするために選択された配列を、重複する４つのプローブのセットに分割する。ただし、セット中のプローブは、互いに、例えば２５塩基長で、中心にある塩基が異なっている（すなわち、Ｌ塩基数の配列では、Ｌ−２４個のプローブセットを作製する）。これは、実際に何がマイクロアレイ上に置かれるかを示している。サンプル配列では、ｍ塩基長のユニークな断片すべてを作製する（すなわち、Ｋ塩基数の配列では、最大Ｋ−ｍ＋１個のユニークな断片を作製することができる）。実験で使用する断片は、これよりも長くすることができる（平均１００塩基）。このモデルでは、ｍ塩基数という最小限の要件が断片に存在する必要があるだけである。

マイクロアレイのプローブとサンプル断片が作製されたところで、サンプル配列に由来するすべての断片に対して、すべてのプローブセットの各プローブをテストして、完全な相補的一致が起きるか否かを判定する。一致するプローブを記録する。プローブセットがベースコールを生じさせる能力を、そのプローブの結果を考慮することにより評価する。そのセットの一つのプローブだけが、サンプル配列で一致する場合には、それが、そのプローブセットに割り当てられたベースコールであるから、次のプローブセットを調査する。サンプル断片のいずれも、プローブセットのどのメンバーとも一致しない場合には、塩基の一致が不明であることを表すＮを割り当てる。１セットで二つ以上のプローブが一致した場合には、そのサンプル配列からより長い断片を作製して比較する。サンプル配列から５’−３’方向に、適当なプローブとミスマッチが起きるまで、各断片の隣接塩基を一度に一個ずつ付加して行く。ここで、これらの断片の一つが、その他の断片よりも長くなったなら、その塩基を割り当て、そうでなければ、Ｎを割り当てる。

すべてのプローブセットを試験した後、各プローブセットからのベースコール（Ａ、Ｃ、Ｔ、Ｇ、またはＮ）を再構築して配列にする。図１は、２３から１３までのさまざまなｍ値（１３よりも少ない長さは、非特異的に結合する可能性があるため使用しなかったが、使用することも可能である）を用いたモデルの結果例を示しており、さまざまな条件下で生じるいくつかのベースコールを示している。実験結果は、特異的なベースコールを生じさせるには、プローブの２５塩基すべてに対して、または２１塩基に対してさえも相補的である必要はないことを明確に示している。実験による更なる情報提供がないと、どの長さのｍがもっとも適当かを決めることは難しい。

短いオリゴマー−短いオリゴヌクレオチドのハイブリダイゼーションに関する大量のデータを、サンプル増幅用の多重特異的プライマーを用いた、呼吸器病原体マイクロアレイｖ．１（ＲＰＭｖ．１）（非特許文献１７）実験から得ることができた。ハイブリダイゼーションの前にサンプルから未使用のプライマーを取り除かないで、これらのプライマーのほとんどがプロトタイプ配列内に存在していたため、リシークエンシングマイクロアレイへの、長さが１６から２７塩基の多数の短いオリゴマーの結合を調べることが可能である。このデータセットは、２つの多重混合物用のものであるが、その一方は、１１７のプライマー（７７７実験数）を含み、もう一方（９０６実験数）は、１１７のプライマー混合物のサブセットである６６のプライマーからなる。同一のプライマーとハイブリダイズするが、正確に一致して、ハイブリダイズさせるために利用できる塩基の数（１３塩基からプライマーの長さまで、またはプローブの長さ、すなわち２５塩基）が異なるプロトタイプ配列からは、複数のプローブセットが利用可能である。例えば、プライマーであるオリゴマーのどちらの末端の塩基も、１３塩基のハイブリダイゼーションに基づくだけで塩基の同一性を判定することができるプローブセットを有する。その全体配列について５０％よりも高いハイブリダイゼーションを示した、プロトタイプ配列のプライマーは、未使用のプライマーと標的の単位複製配列の中に組み込まれたプライマーとのハイブリダイゼーションを示しているため、解析には含まれなかった。利用可能なプライマーであるオリゴマーのコレクションからは、１３から２１のそれぞれの長さについて〜３×１０^５があり、２２では〜２×１０^５、２３では〜１．５×１０^５、ならびに、２４および２５のそれぞれの長さでは〜７．５×１０^４のデータポイントがあった。ベースコールは、以前の実験で使用されたＧＤＡＳプログ、ラム設定（非特許文献１８）によって行なった。

図２は、すべてのプライマー、およびそれらのＧＣ含量に基づく２つのグループのプライマーについて、プローブにハイブリダイズすることができるプライマーの量に対する、不明確なベースコールの頻度を示している。最初の位置は、３３％という頻度をもつが、これは、プローブの２５塩基の１３塩基に一致するだけのＤＮＡ断片が、３回に１回は、特異的かつ強力に結合して、ユニークなベースコールを十分に生成できることを示している。ハイブリダイズに利用できる塩基の長さが増すにつれて、ベースコールの頻度が高くなることが観察され、１６個の長さになると５０％以上になる。結合頻度をさらに理解するために、多重的なプライマーハイブリダイゼーションの結果を、それらのＧＣ含量に基づいて２つのグループに分けた。ＧＣ含量が５０％未満のもの、および５０％以上または同等のものにグループ分けしたプライマーの平均値が示されている。この区分けでは、２２個までの長さでは、低層におけるサンプル数が上層のほぼ２倍となる。ベースコールの頻度の違いがもっとも大きくなるのは１３から１４になるときである。ＧＣ含量が５０％以上の場合には、これらの層には顕著に少ないプローグサンプルしかないため、２３から２５までの割合と傾向はより不確定性が高い。

プライマー組成の影響をより理解するために、図３では、ｎｎモデルによって計算されたΔＧに基づいて分けられたグループにおける各々の長さのプライマーを示している（非特許文献１９）；（非特許文献２０）。これらのビンのいくつかには、ほとんどサンプルがないものがあり、それらの結果は、より高い不確定性を示す。それにもかかわらず、全体的には、ΔＧが小さくなるにつれて、長さとは関係なく頻度が高くなるという傾向が見られる。興味深い点は、１つの完全なマッチプローブと３つのミスマッチプローブを使用すると、プローブの長さ（２５塩基）よりも有意に短いオリゴマー長では、高いベースコール頻度が可能になることである。アレイ上でベースコールを生じる頻度が明らかに低いプローブだけが、長さが１３および１４で、ΔＧが−１３ｋｃａｌ／ｍｏｌより大きかった。ΔＧが平均して−１６ｋｃａｌ／ｍｏｌよりも低いプライマーは、ハイブリダイズする機会が５０％以上あり、ベースコールを生じさせる。

修正されたモデル概念−結合頻度の傾向から得られた実験的証拠は、１６よりも長いものは、何ら別のファクターを考慮することなく、解析されたベースコールを頻繁に生じる可能性が高いことを示している。より短いものでは、プローブのΔＧが、ベースコールを解析する有効な機会があるか否かを判定する上で重要である。ｍ＝１３のサンプルから作製した断片のΔＧを決定するために、このモデルを改変した。断片の自由エネルギーの差が、カットオフ値である−１４．５ｋｃａｌ／ｍｏｌよりも小さければ、それは許容される。カットオフ値よりも大きい場合には、そのエネルギーがカットオフ値よりも低くなるか、プローブの長さである２５になるまで断片の長さを増やす。そして、得られた断片のリストを、すでに述べたようにして、すべてのプローブセットに対して比較する。

増幅、ハイブリダイゼーション、および配列決定−呼吸器病原体マイクロアレイｖ．１（ＲＰＭｖ．１）の設計および実験方法の詳細は、以前の実験において検討されている（非特許文献２１）；（非特許文献２２）；（非特許文献２３）；（非特許文献２４）。診断領域を含む遺伝子の部分配列を、これらの病原体を検出するためのタイル（ｔｉｌｅ）とした。初期のプライマー解析に用いた、マイクロアレイの実験データは、臨床サンプルから、多重化ＲＴ−ＰＣＲ増幅スキームを用いて得た。プライマーの結果を検定するための結果、およびカリフォルニア系統株のサンプルには、別の多重プロトコールを用いた（非特許文献２５）。残りのインフルエンザのサンプルには、ランダムプロトコールを用いた（非特許文献２６）。ＧＣＯＳ（商標）ソフトウェアｖ１．３（ＡｆｆｙｍｅｔｒｉｘＩｎｃ．，ＳａｎｔａＣｌａｒａ，ＣＡ）を用いてプローブの強度を測定し、ＧＤＡＳｖ３．０．２．８ソフトウェア（ＡｆｆｙｍｅｔｒｉｘＩｎｃ．，ＳａｎｔａＣｌａｒａ，ＣＡ）を用いてベースコールを作成した。

ケース１：プライマー干渉を予測すること−モデルアルゴリズムの最初の試験的使用は、プロトタイプ配列とのプライマーの相互作用を最小にしようとした新規のプライマーを用いて、ブランクサンプル（核酸を加えない）を伴う４２のマイクロアレイ実験で発生したベースコールを理解するためのものであった。プライマーは依然として存在していたため、それらは、サンプル配列の集合体として扱われ、チップ上のすべてのプロトタイプ配列に対するモデルを使用して試験した。このモデルは、実験では、依然としてプロトタイプ配列上に位置していたプライマーから生じるベースコールを正確に予測した。プロトタイプ配列の中心にある位置へのさらなる結合も見られ、実験結果と合致した。近縁の生物のプロトタイプ配列用に設計されたプライマーが、これらのベースコールを引き起こした。例えば、アデノウイルス４Ｅ１Ａ遺伝子のプロトタイプ配列は、９７％の時間コールされている２０の予測塩基のうち１９塩基を持つが、この配列の開始点から３９３塩基離れたところに位置している。領域の端における単一のヌクレオチド多型（ＳＮＰ）である一つの塩基をコールすることが予測されたが、実験ではコールした１２％の時間だけが観察された。この領域が、別のプロトタイプ配列と比較すると、アデノウイルス７Ｅ１Ａプロトタイプ領域用に選択されたプライマー領域について一致したものである。同様の合致が、このモデルによって予測された別の４７領域についても見られた。

ケース２：長い配列についてのモデル予測−より短い配列に関するモデルの正確性を実証するのに成功した後、全プロトタイプ配列についての予測を検討した。４種類のデータセットについて、このモデルにおけるサンプルの従来のシークエンシングを用いた結果を、マイクロアレイ実験結果と比較した。すなわち、インフルエンザＡ／Ｈ３Ｎ２福建（Ｆｕｊｉａｎ）様系統株、インフルエンザＡ／Ｈ３Ｎ２カリフォルニア（Ｃａｌｉｆｏｒｎｉａ）様系統株、インフルエンザＢ山形（Ｙａｍａｇａｔａ）／１６／８８系統株、およびインフルエンザＢビクトリア（Ｖｉｃｔｏｒｉａ）／２／８７が表１に報告されている。その結果、インフルエンザＡ／Ｈ３Ｎ２福建様系統株などのように高い類似性をもつサンプルの平均が報告され、これらの実験についての平均ベースコール率は８５％であったが、一方、モデル予測では平均９７％であった。プロトタイプ配列と従来の配列との間におけるＳＮＰの平均数は９．８個（１％）であった。モデルは、９．２個のＳＮＰだと予測されると解析されたが、実験では６．３個のＳＮＰしか観察されなかった。モデルでは、この実験の特異的ベースコールは８．８個のＮコールであると予測され、マイクロアレイには、このモデルが特異的ベースコールであると予測している９４．９個のＮコールがある。したがって、モデルとマイクロアレイの結果の間では、平均して１４．３個のＮコールが一致する。

表２は、福建様系統株のサンプルに由来する特異的単離株（Ａ／Ｎｅｐａｌ／１７２７／２００４と同定）に関して、マイクロアレイ上で解析された６個のＳＮＰのそれぞれの位置と、ＳＮＰを中心とする２５塩基長のウィンドウ内でＮとコールされた更なる塩基の数を示している。全ベースコール率は、モデルでは９７．４％、マイクロアレイでは８８．４％であった。この情報を用いてＮコールをグループ分けすると、４６個のＮコールがＳＮＰと密接に関係しており、２９個のＮコールがマイクロアレイ全体に均一に広がっていて、ほとんどが、解析された塩基で囲まれた単一のＮコールからなっているが、稀に、２つの連続したＮコールか、３塩基からなるグループ内に２つのＮコールがある。従来の配列とプロトタイプ配列とを比較すると、このサンプルは全部で８個のＳＮＰをもち、マイクロアレイ上で確認されなかった２つのＳＮＰは両方とも、同定されたＳＮＰの近傍に位置していた。７個の異なるＳＮＰの近傍に位置する１２個のＮコールについては、モデルとマイクロアレイが一致したが、ＳＮＰの近傍にあるとモデルで予測された別の６個のＮコールは、実験では解析されたため、これは、モデルにおける矛盾を示している。

プロトタイプ配列は、インフルエンザＡ／Ｈ３Ｎ２カリフォルニア様系統株のサンプルについては１．５％、インフルエンザＢ山形／１６／８８系統株のサンプルについては３．７％、およびインフルエンザＢビクトリア／２／８７インフルエンザ系統株のサンプルについては９．８％、サンプルの配列とは異なっていた。これらの結果は、従来の配列およびマイクロアレイの間でＮ以外のベースコールにも一致しないものがあるという点でも、第１グループのサンプルと異なっていた。インフルエンザＡ／Ｈ３Ｎ２福建様系統株と同じプロトコール下で操作されたインフルエンザＢサンプルには、１個（山形系統株）および４個（ビクトリア系統株）のベースコールの違いがあった。これらのベースコールはすべて、多数の解析されたベースコールからなるいずれかの領域に少なくとも３個のＮコールがあり、かつ、モデルが、これらの位置にＮベースコールがあると予測していた領域で生じた。インフルエンザＡ／Ｈ３Ｎ２カリフォルニア様系統株のサンプルは、別のプロトコールを用い、不一致部分の近くに多数のＮコールがあるため、解析された塩基が多数ある領域からそれらを区別する少なくとも３個のＮコールを一貫して持っているわけではない。ベースコールに関する、この９９．８７％という精度は、単一のマイクロアレイ実験から得られるベースコールを決定するときに予想される合理的な誤差率である。

このモデルは、プロトタイプ配列とは１％から４％異なるサンプルについて予測されるベースコールの割合については同じような成績を有するが、この違いが〜１０％に増加すると僅かに良好な一致を示す。しかし、包括的なベースコール比率は、モデルの成績を誤解させる指標ともなりえる。Ｎコールは３つのグループに分けることができる。すなわち、モデルでは予測されたが、実際には観察されなかったＮコール、実際に観察されたが、モデルでは予測されなかったＮコール、および予測および観察されたＮコールである。この傾向を検討すると、同じプロトコールで行った３つのサンプルセットでは、変異の量が１％から１０％に増加すると、観察されたＮコールと一致する予測されたＮコールが最大量まで増加し、モデルが正確になるところを反映していることが分かる。観察されたが予測されなかったＮコールは、ほぼ一定している。モデルではＮコールとされたが、チップでは解析されたベースコールも増加する。１０％で見られたベースコールの割合についての一致が改善されたのは、ベースコール全体が増加したためである。全体的に、その他のインフルエンザＡ／Ｈ３Ｎ２のサンプルは、その他のデータセットと同じように反応し、いくつかの細かな違いは、おそらく、用いたプロトコールの違いを反映している。ＳＮＰがより高頻度に存在するときにモデルが正確でなかったとしても、頻度の低い領域を正しく同定して、それらを、本発明者らが現在行っている病原体識別解析に使用する。図４は、１０％の異なるインフルエンザＢサンプルの部分を示している。すべてのサンプルセットで、Ｎコールまたは解析されたコールの大きな鎖のような特徴がいくつか存在する。これらの領域からのベースコールの鎖が、解析プログラムＣＩＢＳＩｖ．２でもっとも頻繁に使用されるものである。図４のＢ領域は、Ｎコールが予測されていた領域において散在するベースコールを示しており、４％以上の変異を有するサンプルセットに見られる。図４のＣ領域は、この領域でより実験的に解析されたベースコールがＮと予測されていたものがより多いという点を除けば、領域Ｂと似ている。この種の反応は、１０％の変異をもつサンプルで観察されただけである。

このモデルを用いて、サンプルの従来のシークエンシングではなく、ゲノム配列データベースから入手した代表的な配列を用いたときの生物の反応を理解することができる。一例では、インフルエンザＡ／プエルトリコ／８／３４株をマイクロアレイ上での試験におけるスパイクとして使用したところ、この実験は、ノイラミニダーゼおよびマトリックスのプロトタイプ配列については有意なベースコール率を示した。これは、２つのプロトタイプ配列において有意なベースコールを生じると思われる領域を正確に同定し、かつ、インフルエンザＡ／プエルトリコ／８／３４株の配列とプロトタイプ配列との違いによって、有意でない数のベースコールが血球凝集素のプロトタイプ配列に起こりうると予測したモデルシミュレーションと矛盾しない。

十分に定義された短鎖オリゴマープローブを用いて、リシークエンシング用のマイクロアレイプローブセットの大規模なコレクションを調べたところ、１６個の連続した相補塩基しかない短鎖断片が、顕著に短い時間で正確に塩基を区別できることを明確に示した。このハイブリダイゼーションは、ＧＣ含量とまたは算出されたΔＧとも無関係であり、ＧＣ含量またはΔＧが好都合であれば、僅か１３塩基しかないセグメントもコールを生じることができる。本研究において開発された、ハイブリダイゼーションパターンを予測する単純なモデルは、１３個の連続した塩基の完全な一致だけが特異的結合に必要であると仮定した場合に、実験結果と非常によく合致していた。結合断片のΔＧの予測サイズが、最小限のサイズ要件と一致しなければならないとすることによっても、より良好な合致をもたらした。リシークエンシングマイクロアレイについて予想されるのは、プローブと完全に一致するのが２５塩基よりも少ない断片では、結果的にヌクレオチドのベースコールを伴う、有意な量の特異的ハイブリダイゼーションが生じることである。プライマーを試験したところ、高度に多重化されたシステムにおいては、プライマーがプロトタイプ配列とクロスハイブリダイゼーションする可能性をすべて除去するのは困難であることが明らかになった。しかし、マイクロアレイ上でのプローブ−標的ハイブリダイゼーションを予測できるのであるから、結果を解析するときにクロスハイブリダイゼーション効果を計上することは簡単であって、物理的に除去する必要はない。このモデルは、特に、その開発を推進した応用法で適度に良好に機能し、この検出法が複合的な混合物において機能する理由についての洞察をもたらした。このモデルは、Ａｆｆｙｍｅｔｒｉｘ社のマッピングアレイ法および遺伝子判別アレイ法など、プローブセットを選択するためのさまざまな基準で完全なマッチ−ミスマッチプローブセットを用いる別のマイクロアレイの反応を予測するのにも適用可能でなければならない。

インフルエンザＢのサンプルを考慮すると、１３の連続した相補塩基がハイブリダイゼーションに必要とされると、プローブに結合しうる断片が見あたらなくなってしまう場合がありうることが明らかになる。この証拠は、１個のミスマッチを含み、十分な強さの結合エネルギーをもつ断片が、ベースコールをもたらしうることを示唆している。残念ながら、現在利用可能なインフルエンザＢのいくつかのサンプルでは、断片がミスマッチを含むときにどんなエネルギーを有するべきかを実際に確認することができない。このモデルのもう一つの欠点は、ＳＮＰと密接に関連していないＮコールを予測できないことと関係がある。実験によるマイクロアレイ結果は、１サンプルにつき１つのマイクロアレイ結果しか提供することができない。したがって、散在するＮコールが再現可能な形で出現するのか、それとも多くのファクターがその挙動に影響しうるためにランダムな形で出現するのかを判定することができない。自己ループ構造が形成されると、一致予測と観察された実験パターンが得られなかったため、これをモデルにおける支配的因子として除いた。

現行のモデルを用いて、解析プログラムＣＩＢＳＩＶ２．０（非特許文献２７）を用いて同定しようとする選択されたプロトタイプ配列の中にある目的の病原体に対して十分なベースコールが起きるか否かを予測することができる。プローブの配列と８０％より多く異なる配列では、ほとんどの場合、有意量のベースコールができるほど十分な数の一致する塩基が連続しておらず、本発明者らの方法では生物識別はできないという簡単な経験則を設けることができる。これは、プローブ配列が検出できる最大数の参照系統に対する上限を迅速に評価する有用な方法である。開発されたモデルを、この範囲内にある配列に対して適用して、どの生物が検出可能か、およびプロトタイプ配列の効率をより正確に予測することができる。

モデリングの結果は、マイクロアレイに包含させるプロトタイプの選択に利用することができる。全体的な設計過程は、生物学的脅威病原体用および地域（例えば、アフリカ）生物特異的マイクロアレイ用の次のマイクロアレイ設計において実行することができる。生物から地域を同定することは、文献検索だけで可能か否か分からない。これは、より大きなゲノム標的用の重要なツールであり続けるが、より小さなゲノムを有するウイルス有機体にとっては不必要であり得る。あらゆる設計に利用できる生物検出法は、一連の工程として特徴づけることができる。第一に、配列のリストは、参照配列へのハイブリダイゼーションの効果をチェックできるように、標的配列および遺伝子的に近い任意の隣接者の配列を含むためのものである。アラインメント処理（ＢＬＡＳＴ）に適合する塩基の割合から、ハイブリダイゼーションの包括的な予測因子を得ることができる。もっとも利用可能性の小さいハイブリダイゼーションプログラムを広くもたらす割合よりも低いカットオフ基準を用いることによって、ＢＬＡＳＴのクエリーから、さまざまな領域でハイブリダイズすることが潜在的に可能な配列のリストを構築することが可能である。この配列リストは、参照配列へのハイブリダイゼーションの効果をチェックできるように、標的配列および遺伝子的に近い任意の隣接者の配列を含むためのものである。第二に、配列の選択を分類学的情報と結合して、各領域が、所望のレベルの識別をもたらすことができるか否か、および、その検出が所望の標的だけに限られるのか、そうでないのかを評価することができる。これによって、参照配列が効果的に検出することができる生物の可能な数に直ちに上限を設けることができる。第三に、最も良好な候補領域を決定した後、上記方法を用いる。第四に、各系統株が検出できる系統株の数のリストを作成し、参照系統株を選択するための基準として用いる。第五に、最も多くの他の系統を検出する系統株をリストから除外して、第一の参照系統株として用いる。それが検出することのできるすべての系統をリストから除外する。残った系統のうち、最も多くの他の系統を検出する系統株を次の参照系統として選択する。配列を標的とだけ比較すると制限するのではなく、一般的な公式では、検出する必要がある配列のそれぞれを潜在的な参照配列として検定する。ＢＬＡＳＴを用いて、配列のどのサブセットがハイブリダイズする機会があるかを判定して、クエリーから、同定する可能性がある他の生物配列を得る。このサブセットを、ハイブリダイゼーションを予測するためのより詳細なモデルによってシミュレートする。得られたハイブリダイゼーションを、以前に利用した単純な基準ではなく、リアルチップ上でのハイブリダイゼーションを分類するために開発された検出アルゴリズムを用いて評価する。ここで、各潜在的参照配列について、検出することができる標的配列および非標的配列の数に対するさらに精密化された上限を確立することができる。そして、必要とされる識別レベルを提供するために最小限のスペースを用いるやり方で、使用する参照配列の選択を進める。そして、これらの配列を選択し終わったところで、プライマーの選択を行う。

この方法は、以下の特徴をもつ。この方法は、参照配列の選択を決定するのに公表文献だけに依存しない。なぜなら、それらは、公表後の新しい生物配列を加えるには古くなりすぎている可能性があるからである。その設計スキームでは、製造を行う前に、選択された参照配列の妥当性を独立してチェックすることが規定されている。これは、以前のチップ設計の成績に基づいたマイクロアレイの設計間でのみ可能であった、選択された参照配列に対する改良となるかもしれない。この方法では、事前の検証を行うことなく特定された識別レベルを提供することができる参照配列のより小さなセットを決定することができる。この方法は、標的遺伝子を選択するための自動的処理を可能とし、チップ設計用に転換する時間を短縮することができる。

本発明を説明したところで、本発明の具体的な適用を説明するために以下の実施例を記載する。これらの具体的な実施例は、本出願に記載された発明の範囲を制限するものではない。

短い配列をもつ仮想例−以下に、どの特定の現実の生物種にも対応しないようにした人工的な短い配列を用いて、開示されている方法説明する。生物種Ａ、Ｂ、Ｃ、Ｄ、およびＥを検出するためのリシークエンシングマイクロアレイを製造することが望ましい。本明細書において使用されている「種」は、分類学上の種、および、単一種のさまざまな型または系統、ならびにそれらが混合しているものを意味する。名目的な標的１（図５）が、これらの種の少なくとも一つのゲノムに存在することが知られている。ＢＬＡＳＴなどのデータベースを用いて、類似配列の検索を行って標的のリストを作成する。最小の類似率、例えば、７０％を用いて、結果をフィルターにかける。多すぎる標的、または、遺伝的に遠縁の種など、多すぎる種に由来する標的が報告された場合には、類似率を上げてリストのサイズを小さくすることができる。また、このリストを手作業で検討して、特定の望ましくない標的を削除することもできる。

図５は、仮想的な標的１０〜４０のリストを示す（「１０〜４０」などの数量範囲を表すときには、その数字だけを含み、１０〜４０のすべての数字を含むものではない）。標的のリストは、コンピュータ装置に提示されるが、この装置は、このリストを作成するために用いたコンピュータと同じであってもよい。このリスト、および本実施例でその後に記載されたすべてのデータで、少なくとも最大でアセンブリさせたベースコール配列になるまで、コンピュータのメモリまたは媒体に保存する。本実施例における候補プロトタイプ配列１００〜４００のリストは、標的１０〜４０のリストと同じであるが、それが必要とされるわけではない。

図６は、候補プロトタイプ配列１００〜４００に由来するプローブ１１１〜４３４の仮想的なコレクションを示している。これらのプローブのサブ配列の長さは７個が選択されるが、別の数値を使うことも可能である。プローブ１１１〜１３４は、候補プロトタイプ配列１００に由来し、以下も同様である。プローブ１１１は、候補プロトタイプ配列１００の最初の７個の塩基である。プローブ１１２〜１１４は、中心位置におけるプローブ１１１の単一ヌクレオチド多型である。プローブ１１１〜１１４が、１セットのプローブを構成する。プローブ１２１および１３１も、候補プロトタイプ１００の７塩基のサブ配列であり、それぞれ、１塩基ずつ右にずれている。したがって、候補プロトタイプ１００の可能な３種類の７塩基のサブ配列のすべてが、プローブのコレクションに入っている。プローブ１２２〜１２４および１３２〜１３４は、それぞれプローブ１２１と１３１の単一ヌクレオチド多型である。

図７は、標的１０〜４０に由来する断片１１〜４６の仮想的なリストを示している。この断片長は４と選択されるが、別の数値を用いることも可能である。したがって、長さが９の標的には、６種類の可能な断片がある。また、当初の断片の一部と、標的から余計な塩基を付加して作製された、いくつかの断片を含む延長断片１１’〜４６’のリストも示されている。延長断片は、各断片の、その断片の完全な相補鎖と結合する自由エネルギーを計算して作製される。ある断片に関する結合自由エネルギーが、予め決められた一定の閾値を上回る場合には、その結合自由エネルギーが閾値を下回るか、その断片がプローブと同じ長さになるまで、その断片を一度に一ヌクレオチドずつ延長する。結合自由エネルギーを計算するのに適した方法は、オリゴヌクレオチド最近隣法であるが、別の方法を用いることも可能である。Ａｆｆｙｍｅｔｒｉｘ社のリシークエンシングアレイ法で使用するのに適した結合自由エネルギー閾値は、約−１４．５ｋｃａｌ／ｍｏｌであるが、別の数値を使用することも可能である。（本実施例は例示的なものであるため、この実施例では正確な計算を行わなかった）。

図８は、プローブと延長断片とが完全に一致したものを示している。１１１、１３１、２１１、２２１、２３１、３２１、４１１、および４２１から始まる、これらのプローブセットは、いずれかの延長断片に一致するプローブを１つだけ含む。ベースコール配列をアセンブルするとき、これらのセットは、セット中の最初のプローブ（非多型）の中心塩基と同じベースコールを生じる。１２１、３１１、３３１、および４３１で始まるこれらのプローブセットは、いずれかの延長断片と一致する１つより多いプローブを含む。非ベースコール（「Ｎ」）が、これらのプローブセットに割り当てられる。一致が全く見られないプローブセットがある場合、これらにも非ベースコールが割り当てられる。各候補プロトタイプ配列に対するベースコール配列、およびそれらが由来するプローブセットを図９に示す。

図１０は、各候補プロトタイプについて一致する生物のリストを示している。確認された生物が、対応する候補プロトタイプを含む。これは、外部のデータベースを参照して決定することができる。ベースコールの最小数として２が選択されるが、これよりも大きい数字、例えば、５０などを用いることも可能である。このため、候補プロトタイプ３００に関しては、このベースコール配列（ＮＧＮ）は１個のベースコールしか含んでいないため、一致した生物のリストを作成する必要はない。ほとんどの生物と一致するような場合にも、このことが当てはまる。候補プロトタイプ４００は、ほとんどの生物（Ａ、Ｂ、およびＥ）と一致する。これを最終的なプロトタイプのリストに加えて、候補プロトタイプのリストから削除する。Ａ、Ｂ、およびＥが生物のリストから削除される。この時点で、候補プロトタイプ１００は、残りの生物（ＣおよびＤ）の２つと一致するが、候補プロトタイプ２００は１つ（Ｃ）としか一致しない。候補プロトタイプ１００を最終的なプロトタイプのリストに加えて、候補プロトタイプのリストから削除する。ＣおよびＤが生物リストから削除される。生物のリストはここで空になるため、これ以上のプロトタイプを最終的プロトタイプリストに移せなくなる。

各最終的なプロトタイプ配列に対応するプローブの各セットを含むリシークエンシングマイクロアレイを製造することができる。ここで、マイクロアレイは、プローブ１１１、１１２、１１３、１１４、１２１、１２２、１２３、１２４、１３１、１３２、１３３、１３４、４１１、４１２、４１３、４１４、４２１、４２２、４２３、４２４、４３１、４３２、４３３、および４３４を含む。このプローブセットは、すべての標的を検出しなかったとしても、各生物を検出できる。このマイクロアレイは各プローブに相補的な配列も含みうる。

この実施例は、単一の名目的標的に基づいているが、１つ以上の名目的標的を使用することも可能である。標的配列は、生物のサブセットで共通する単一遺伝子に対応していてもよく、生物のリストは、単一種の複数系統含んでいてもよい。得られた最終的プロトタイプリストですべての生物を検出できない場合には、例えば、標的、候補プロトタイプ、プローブ長、断片長、およびベースコールの最小数など、さまざまなパラメータで、この方法またはその一部を繰り返すことができる。

エンテロウイルスおよびアデノウイルス−エンテロウイルスおよびアデノウイルスを生物のリストとして用いて、この方法を行った。最終的なプロトタイプ配列を配列番号：１４〜５１として同定している。これらのプロトタイプから作製されたプローブセットを含むリシークエンシングマイクロアレイを作製して、ＲＰＭｖ．３と名付けた。

上記の教示を参照すれば、明らかに、本発明の多くの修正および変更が可能である。したがって、請求項記載の発明を、上記で具体的に記載されているのとは別の方法で実施することができる。例えば、「１つの（ａ）」、「１個の（ａｎ）」、「その（ｔｈｅ）」、または「前記（ｓａｉｄ）」などの冠詞を用いて、単数形で請求項の構成要素に言及する場合には、その構成要素を単数に限定すると解釈してはならない。

Claims

生物リスト中の一種類以上の生物に関連する標的配列のリストを提供することと、
標的配列の一つ以上にハイブリダイズすると推定される候補プロトタイプ配列のリストを提供することと、
各候補プロトタイプ配列に対応するプローブのコレクションであって、各プローブコレクションが、対応する候補プロトタイプ配列の所定の一定のサブ配列長を有するすべてのサブ配列に対する、１セットのプローブを含み、前記セットが、対応するサブ配列と、対応するサブ配列の中心にあるヌクレオチドを変えることによって形成された対応するサブ配列のすべての変異とからなるコレクションを作製することと、
各標的配列に対応する１セットの断片であって、各断片セットが、対応する標的配列の所定の一定の断片長を有するすべての断片を含むセットを作製することと、
各断片が、その断片の完全な相補配列と結合する自由エネルギーを計算し、いずれかの結合自由エネルギーが、所定の一定の閾値を上回る場合には、その結合自由エネルギーが閾値を下回るか、その断片がプローブと同じ長さになるまで、その断片を一度に一塩基ずつ延長して、延長された断片のセットを作製することと、
どの延長断片が、いずれかのプローブと完全に一致すると判定すること、ならびに各候補プロトタイプ配列に対応するベースコール配列を集めることと、を含み、
いずれかの延長断片と完全に一致する対応するプロトタイプ配列の各プローブの中心にあるヌクレオチドに対応するベースコールであるが、完全に一致するプローブを含むプローブのセットの他のメンバーは、いずれの延長断片とも完全には一致しないベースコールと、
別の状況では非ベースコールとを含む、コンピュータによって実行される方法。
標的配列のサブセットが、生物のサブセットに共通する単一遺伝子に対応する、請求項１に記載の方法。
生物のリストが、単一種の複数の系統を含む、請求項１に記載の方法。
少なくとも一つの生物で見られることが知られている名目的な標的配列を選択することと、
名目的な標的配列に対して、少なくとも所定の程度の類似性を有する追加的な標的配列を付加するために、既知の配列のデータベースに対して類似性検索を行うことと、
標的配列のリストと同一の候補プロトタイプ配列のリストを作成することと、をさらに含む、請求項１に記載の方法。
サブ配列の長さが２５個である、請求項１に記載の方法。
断片の長さが１３個である、請求項１に記載の方法。
結合自由エネルギーが、オリゴヌクレオチド最近隣モデルに従って計算される、請求項１に記載の方法。
結合自由エネルギーの閾値が約−１４．５ｋｃａｌ／ｍｏｌである、請求項１に記載の方法。
各候補プロトタイプ配列について、前記候補プロトタイプ配列に対応するベースコール配列が一定の最小数のベースコールを含む、前記候補プロトタイプ配列を含む、一致する生物のリストを作製することと、
一致する生物の最も長いリストに対応する候補プロトタイプ配列を、最終的なプロトタイプ配列のリストに移動させることと、
前記生物のリストから移されたプロトタイプ配列に対応する一致する生物を削除することと、
前記生物リストが空になるまで移動および削除を繰り返すこととをさらに含む、請求項１に記載の方法。
ベースコールの最小数が５０である、請求項９に記載の方法。
各最終的なプロトタイプ配列に対応するプローブの各セットを含むリシークエンシング用マイクロアレイを製造することをさらに含む、請求項９に記載の方法。
請求項１１に記載の方法によって製造されたマイクロアレイ。
マイクロアレイが、マイクロアレイ上の各プローブに相補的な配列をさらに含む、請求項１１記載の方法。