JP4910104B2

JP4910104B2 - コンピュータ実施の生物学的配列識別子のシステム及び方法

Info

Publication number: JP4910104B2
Application number: JP2008516959A
Authority: JP
Inventors: ピーマラノスキ，アンソニー; リン，バオチャン; エムシュナー，ジョエル; エイステンジャー，デビッド
Original assignee: US Government
Current assignee: US Government
Priority date: 2005-06-16
Filing date: 2006-06-09
Publication date: 2012-04-04
Anticipated expiration: 2026-06-09
Also published as: JP2008547090A; KR20120083521A

Description

本発明は一般的に生物学的配列の処理に関する。

サーベイランス及び診断の両方の用途のために、ファインスケール病原体識別及び近親判別は重要である。従って、この非常に特異的なレベルでモニタリングする試験は臨床環境中では望ましい（非特許文献１〜３）。ＤＮＡ又はＲＮＡ検出に基づく如何なる方法をも首尾よく使用するために、これらの試験は、確実に所望の情報を得るための試験デザインのための、及び生データの解釈のための核酸配列情報の大型データベースに連結されるべきである。リアルタイムＰＣＲのような種々の十分確立された技術は、配列決定されたゲノムの短鎖でユニークなストレッチを使用して、良好な特異性を得る（非特許文献４）。これらの技術は十分な数量のセグメントを選択することにより、種々の遺伝子的に近い生物のファインスケール識別名を提供することができる。しかしながら、初期の選択処理中で特異的であったこれらの選択されたセグメントは、より多くの生物が配列決定されるにつれ、後に、より低特異性であることが判明することが多い。これは特に高い突然変異率を有するファミリーに属する病原体に対して、及び相対的に少ない識別された近隣病原体を有する病原体に対してもまた問題である。加えて、リアルタイムＰＣＲは新規の重要な突然変異の存在を検出できず、塩基配列詳細も解明できない。同様に、他の検出技術における進歩により病原体識別名を得る方法が提供されたが、ＰＣＲ使用の問題の一部又は全てを欠点として有している（非特許文献５〜８）。

Ｗｈｅｌｅｎ，Ａ．Ｃ．ａｎｄＰｅｒｓｉｎｇ，Ｄ．Ｈ．（１９９６）Ｔｈｅｒｏｌｅｏｆｎｕｃｌｅｉｃａｃｉｄａｍｐｌｉｆｉｃａｔｉｏｎａｎｄｄｅｔｅｃｔｉｏｎｉｎｔｈｅｃｌｉｎｉｃａｌｍｉｃｒｏｂｉｏｌｏｇｙｌａｂｏｒａｔｏｒｙ．ＡｎｎｕＲｅｖＭｉｃｒｏｂｉｏｌ，５０，３４９−３７３．ＭｃＤｏｎｏｕｇｈ，Ｅ．Ａ．，Ｂａｒｒｏｚｏ，Ｃ．Ｐ．，Ｒｕｓｓｅｌｌ，Ｋ．Ｌ．ａｎｄＭｅｔｚｇａｒ，Ｄ．（２００５）ＡｍｕｌｔｉｐｌｅｘＰＣＲｆｏｒｄｅｔｅｃｔｉｏｎｏｆＭｙｃｏｐｌａｓｍａｐｎｅｕｍｏｎｉａｅ，Ｃｈｌａｍｙｄｏｐｈｉｌａｐｎｅｕｍｏｎｉａｅ，Ｌｅｇｉｏｎｅｌｌａｐｎｅｕｍｏｐｈｉｌａ，ａｎｄＢｏｒｄｅｔｅｌｌａｐｅｒｔｕｓｓｉｓｉｎｃｌｉｎｉｃａｌｓｐｅｃｉｍｅｎｓ．ＭｏＩＣｅｌｌＰｒｏｂｅｓ，１９，３１４−３２２．Ｒｏｔｈ，Ｓ．Ｂ．，Ｊａｌａｖａ，Ｊ．，Ｒｕｕｓｋａｎｅｎ，Ｏ．，Ｒｕｏｈｏｌａ，Ａ．ａｎｄＮｉｋｋａｒｉ，Ｓ．（２００４）Ｕｓｅｏｆａｎｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅａｒｒａｙｆｏｒｌａｂｏｒａｔｏｒｙｄｉａｇｎｏｓｉｓｏｆｂａｃｔｅｒｉａｒｅｓｐｏｎｓｉｂｌｅｆｏｒａｃｕｔｅｕｐｐｅｒｒｅｓｐｉｒａｔｏｒｙｉｎｆｅｃｔｉｏｎｓ．／ＣｌｉｎＭｉｃｒｏｂｉｏｌ，４２，４２６８−４２７４．Ｇａｒｄｎｅｒ，Ｓ．Ｎ．，Ｋｕｃｚｍａｒｓｋｉ，Ｔ．Ａ．，Ｖｉｔａｌｉｓ，Ｅ．Ａ．ａｎｄＳＩｅｚａｋ，Ｔ．Ｒ．（２００３）ＬｉｍｉｔａｔｉｏｎｓｏｆＴａｑＭａｎＰＣＲｆｏｒｄｅｔｅｃｔｉｎｇｄｉｖｅｒｇｅｎｔｖｉｒａｌｐａｔｈｏｇｅｎｓｉｌｌｕｓｔｒａｔｅｄｂｙｈｅｐａｔｉｔｉｓＡ，Ｂ，Ｃ，ａｎｄＥｖｉｒｕｓｅｓａｎｄｈｕｍａｎｉｍｍｕｎｏｄｅｆｉｃｉｅｎｃｙｖｉｒｕｓ．ＪＣｌｉｎＭｉｃｒｏｂｉｏｌ，４１，２４１７−２４２７．Ｅｃｋｅｒ，Ｄ．Ｊ．，Ｓａｍｐａｔｈ，Ｒ．，Ｂｌｙｎ，Ｌ．Ｂ．，Ｅｓｈｏｏ，Ｍ．Ｗ．，Ｉｖｙ，Ｃ，Ｅｃｋｅｒ，Ｊ．Ａ．，Ｌｉｂｂｙ，Ｂ．，Ｓａｍａｎｔ，Ｖ．，Ｓａｎｎｅｓ−Ｌｏｗｅｒｙ，Ｋ．Ａ．，Ｍｅｌｔｏｎ，Ｒ．Ｅ．ｅｔａｌ．（２００５）Ｒａｐｉｄｉｄｅｎｔｉｆｉｃａｔｉｏｎａｎｄｓｔｒａｉｎ−ｔｙｐｉｎｇｏｆｒｅｓｐｉｒａｔｏｒｙｐａｔｈｏｇｅｎｓｆｏｒｅｐｉｄｅｍｉｃｓｕｒｖｅｉｌｌａｎｃｅ．ＰｒｏｃＮａｔｌＡｃａｄＳｄＵＳＡ，１０２，８０１２−８０１７．Ｚａｍｍａｔｔｅｏ，Ｎ．，Ｈａｍｅｌｓ，Ｓ．，ＤｅＬｏｎｇｕｅｖｉｌｌｅ，Ｆ．，Ａｌｅｘａｎｄｒｅ，Ｌ，Ｇａｌａ，Ｊ．Ｌ．，Ｂｒａｓｓｅｕｒ，Ｆ．ａｎｄＲｅｍａｃｌｅ，Ｊ．（２００２）Ｎｅｗｃｈｉｐｓｆｏｒｍｏｌｅｃｕｌａｒｂｉｏｌｏｇｙａｎｄｄｉａｇｎｏｓｔｉｃｓ．ＢｉｏｔｅｃｈｎｏｌＡｎｎｕＲｅｖ，８，８５−１０１．Ｃａｍｐｂｅｌｌ，ＣＪ．ａｎｄＧｈａｚａｌ，Ｐ．（２００４）Ｍｏｌｅｃｕｌａｒｓｉｇｎａｔｕｒｅｓｆｏｒｄｉａｇｎｏｓｉｓｏｆｉｎｆｅｃｔｉｏｎ：ａｐｐｌｉｃａｔｉｏｎｏｆｍｉｃｒｏａｒｒａｙｔｅｃｈｎｏｌｏｇｙ．ＪＡｐｐｌＭｉｃｒｏｂｉｏｌ，９６，１８−２３．Ｂｒｉｅｓｅ，Ｔ．，Ｐａｌａｃｉｏｓ，Ｇ．，Ｋｏｋｏｒｉｓ，Ｍ．，Ｊａｂａｄｏ，Ｏ．，Ｌｉｕ，Ｚ．，Ｒｅｎｗｉｃｋ，Ｎ．，Ｋａｐｏｏｒ，Ｖ．，Ｃａｓａｓ，Ｌ，Ｐｏｚｏ，Ｆ．，Ｌｉｍｂｅｒｇｅｒ，Ｒ．ｅｔａｌ．（２００５）Ｄｉａｇｎｏｓｔｉｃｓｙｓｔｅｍｆｏｒｒａｐｉｄａｎｄｓｅｎｓｉｔｉｖｅｄｉｆｆｅｒｅｎｔｉａｌｄｅｔｅｃｔｉｏｎｏｆｐａｔｈｏｇｅｎｓ．ＥｍｅｒｇＩｎｆｅｃｔＤｉｓ，１１，３１０−３１３．

高密度再配列決定マイクロアレイは１０^２〜１０^５塩基対（ｂｐ）の直接配列情報の可変長セグメントを生成できる。それらは、１ヌクレオチド多形（ＳＮＰ）及びウィルス、細菌及び真核生物ゲノム由来の遺伝子変異体を検出するために首尾よく使用された（非特許文献９〜１６）。ＳＮＰ検出に対するこれらの使用により、信頼された品質の配列情報を供給する能力が明確に確立された。ほとんどの例において、マイクロアレイは限定された数の遺伝的に同様な標的病原体を研究するためにデザインされ、そして多くの例に対して、検出方法は識別のためのハイブリダイゼーションパターンを認識することのみに依存してきた（非特許文献１２、１４、１５、１７、１８）。ＳＮＰ検出に対して必要な再配列決定マイクロアレイの連続塩基解明能力を利用し、複数の細菌及びウィルス病原体の病原体識別に対して異なった研究方法を用いて、再配列決定は近年首尾よく順応し、同時に緊密に関係した病原体の微細で詳細な判別及び標的病原体中の突然変異の探知を可能にした（非特許文献１９〜２１）。観察されたハイブリダイゼーション由来の塩基コールと一致する最も有望な種及び変異体を識別するためのＤＮＡデータベースの同様性検索のクエリーとして解明された塩基を使用することにより、新規な方法論は従来研究と異なっていた。システムは同時に２６個の病原体に対して試験することができ、複数の病原体の存在を検出できた。ソフトウェアプログラム、再配列決定病原体識別子（ＲＥＰＩ）はＢａｓｉｃＬｏｃａｌＡｌｉｇｎｍｅｎｔＳｅａｒｃｈＴｏｏｌ（ＢＬＡＳＴ）を用いて、遺伝的データベースの同様性検索を実行することにより、データ分析を簡素化するために使用された（非特許文献２２）。ＲＥＰＩプログラムはＢＬＡＳＴのデフォルト設定を使用し、期待値、即ち、ＢＬＡＳＴプログラムによって計算された、見つかった配列一致がデータベース中で無作為な偶然により発生するという尤度を示す数値が、１０^−９より低い場合、ハイブリダイゼーションを表わす可能性のある配列のみを返す。これは不十分な信号を有する全ての例をスクリーニング除去するが、しかしながら、何の病原体が検出され、そしてどの程度の判別が可能だったのかという最終決定は返された結果の手動検査を必要とした。この方法により、様々なアデノウィルスの優れた判別及び従来サンプリング結果に一致したインフルエンザＡ及びＢサンプルの菌株識別が首尾よくできた。（非特許文献１９，２０）。この研究方法の２つの重要な利点は、情報が常にできるかぎり詳細なレベルで回復されること、及び最近の突然変異を有する生物を依然として認識できるということであった。この研究方法はまた、多くの生物が配列決定されているため絶えず侵食されている短配列のユニークさに依存しないように、十分特異性を維持した。

Ｈａｃｉａ，Ｊ．Ｇ．（１９９９）Ｒｅｓｅｑｕｅｎｃｉｎｇａｎｄｍｕｔａｔｉｏｎａｌａｎａｌｙｓｉｓｕｓｉｎｇｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅｍｉｃｒｏａｒｒａｙｓ．ＮａｔＧｅｎｅｔ，２１，４２−４７．Ｋｏｚａｌ，Ｍ．Ｊ．，Ｓｈａｈ，Ｎ．，Ｓｈｅｎ，Ｎ．，Ｙａｎｇ，Ｒ．，Ｆｕｃｉｎｉ，Ｒ．，Ｍｅｒｉｇａｎ，Ｔ．Ｃ．，Ｒｉｃｈｍａｎ，Ｄ．Ｄ．，Ｍｏｒｒｉｓ，Ｄ．，Ｈｕｂｂｅｌｌ，Ｅ．，Ｃｈｅｅ，Ｍ．ｅｔａｌ．（１９９６）ＥｘｔｅｎｓｉｖｅｐｏｌｙｍｏｒｐｈｉｓｍｓｏｂｓｅｒｖｅｄｉｎＨＩＶ−ＩｃｌａｄｅＢｐｒｏｔｅａｓｅｇｅｎｅｕｓｉｎｇｈｉｇｈ− ｄｅｎｓｉｔｙｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅａｒｒａｙｓ．ＮａｔＭｅｄ，２，７５３−７５９．Ｃｕｔｌｅｒ，ＤＪ．，Ｚｗｉｃｋ，Ｍ．Ｅ．，Ｃａｒｒａｓｑｕｉｌｌｏ，Ｍ．Ｍ．，Ｙｏｈｎ，Ｃ．Ｔ．，Ｔｏｂｉｎ，Ｋ．Ｐ，Ｋａｓｈｕｋ，Ｃ，Ｍａｔｈｅｗｓ，ＤＪ．，Ｓｈａｈ，Ｎ．Ａ．，Ｅｉｃｈｌｅｒ，Ｅ．Ｅ．，Ｗａｒｒｉｎｇｔｏｎ，Ｊ．Ａ．ｅｔａｌ．（２００１）Ｈｉｇｈ−ｔｈｒｏｕｇｈｐｕｔｖａｒｉａｔｉｏｎｄｅｔｅｃｔｉｏｎａｎｄｇｅｎｏｔｙｐｉｎｇｕｓｉｎｇｍｉｃｒｏａｒｒａｙｓ．ＧｅｎｏｍｅＲｅｓ，１１，１９１３−１９２５．Ｇｉｎｇｅｒａｓ，Ｔ．Ｒ．，Ｇｈａｎｄｏｕｒ，Ｇ．，Ｗａｎｇ，Ｅ．，Ｂｅｒｎｏ，Ａ．，Ｓｍａｌｌ，Ｐ．Ｍ．，Ｄｒｏｂｎｉｅｗｓｋｉ，Ｆ．，Ａｌｌａｎｄ，Ｄ．，Ｄｅｓｍｏｎｄ，Ｅ．，Ｈｏｌｏｄｎｉｙ，Ｍ．ａｎｄＤｒｅｎｋｏｗ，Ｊ．（１９９８）ＳｉｍｕｌｔａｎｅｏｕｓｇｅｎｏｔｙｐｉｎｇａｎｄｓｐｅｃｉｅｓｉｄｅｎｔｉｆｉｃａｔｉｏｎｕｓｉｎｇｈｙｂｒｉｄｉｚａｔｉｏｎｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎａｎａｌｙｓｉｓｏｆｇｅｎｅｒｉｃＭｙｃｏｂａｃｔｅｒｉｕｍＤＮＡａｒｒａｙｓ．ＧｅｎｏｍｅＲｅｓ，８，４３５−４４８．Ｌｉｎ，Ｂ．，Ｖａｈｅｙ，Ｍ．Ｔ．，Ｔｈａｃｈ，Ｄ．，Ｓｔｅｎｇｅｒ，Ｄ．Ａ．ａｎｄＰａｎｃｒａｚｉｏ，ＪＪ．（２００３）Ｂｉｏｌｏｇｉｃａｌｔｈｒｅａｔｄｅｔｅｃｔｉｏｎｖｉａｈｏｓｔｇｅｎｅｅｘｐｒｅｓｓｉｏｎｐｒｏｆｉｌｉｎｇ．ＣｌｉｎＣｈｅｍ，４９，１０４５−１０４９．Ｗｉｌｓｏｎ，Ｗ．Ｊ．，Ｓｔｒｏｕｔ，Ｃ．Ｌ．，ＤｅＳａｎｔｉｓ，Ｔ．Ｚ．，Ｓｔｉｌｗｅｌｌ，Ｊ．Ｌ．，Ｃａｒｒａｎｏ，Ａ．Ｖ．ａｎｄＡｎｄｅｒｓｅｎ，ＧＸ．（２００２）Ｓｅｑｕｅｎｃｅ−ｓｐｅｃｉｆｉｃｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆ１８ｐａｔｈｏｇｅｎｉｃｍｉｃｒｏｏｒｇａｎｉｓｍｓｕｓｉｎｇｍｉｃｒｏａｒｒａｙｔｅｃｈｎｏｌｏｇｙ．ＭｏＩＣｅｌｌＰｒｏｂｅｓ，１６，１１９−１２７．Ｗｉｌｓｏｎ，Ｋ．Ｈ．，Ｗｉｌｓｏｎ，Ｗ．Ｊ．，Ｒａｄｏｓｅｖｉｃｈ，Ｊ．Ｌ．，ＤｅＳａｎｔｉｓ，Ｔ．Ｚ．，Ｖｉｓｗａｎａｔｈａｎ，Ｖ．Ｓ．，Ｋｕｃｚｍａｒｓｋｉ，Ｔ．Ａ．ａｎｄＡｎｄｅｒｓｅｎ，Ｇ．Ｌ．（２００２）Ｈｉｇｈ−ｄｅｎｓｉｔｙｍｉｃｒｏａｒｒａｙｏｆｓｍａｌｌ−ｓｕｂｕｎｉｔｒｉｂｏｓｏｍａｌＤＮＡｐｒｏｂｅｓ．ＡｐｐｌＥｎｖｉｒｏｎＭｉｃｒｏｂｉｏｌ，６８，２５３５−２５４１．Ｚｗｉｃｋ，Ｍ．Ｅ．，ＭｃＡｆｅｅ，Ｆ．，Ｃｕｔｌｅｒ，Ｄ．Ｊ．，Ｒｅａｄ，Ｔ．Ｄ．，Ｒａｖｅｌ，Ｊ．，Ｂｏｗｍａｎ，Ｇ．Ｒ．，Ｇａｌｌｏｗａｙ，Ｄ．Ｒ．ａｎｄＭａｔｅｃｚｕｎ，Ａ．（２００５）Ｍｉｃｒｏａｒｒａｙ−ｂａｓｅｄｒｅｓｅｑｕｅｎｃｉｎｇｏｆｍｕｌｔｉｐｌｅＢａｃｉｌｌｕｓａｎｔｈｒａｃｉｓｉｓｏｌａｔｅｓ．ＧｅｎｏｍｅＢｉｏｌ，６，ＲｌＯ．Ｗｏｎｇ，Ｃ．Ｗ．，Ａｌｂｅｒｔ，Ｔ．Ｊ．，Ｖｅｇａ，Ｖ．Ｂ．，Ｎｏｒｔｏｎ，Ｊ．Ｅ．，Ｃｕｔｌｅｒ，ＤＪ．，Ｒｉｃｈｍｏｎｄ，Ｔ．Ａ．，Ｓｔａｎｔｏｎ，Ｌ．Ｗ，Ｌｉｕ，Ｅ．Ｔ．ａｎｄＭｉｌｌｅｒ，Ｌ．Ｄ．（２００４）ＴｒａｃｋｉｎｇｔｈｅｅｖｏｌｕｔｉｏｎｏｆｔｈｅＳＡＲＳｃｏｒｏｎａｖｉｒｕｓｕｓｉｎｇｈｉｇｈ−ｔｈｒｏｕｇｈｐｕｔ，ｈｉｇｈ− ｄｅｎｓｉｔｙｒｅｓｅｑｕｅｎｃｉｎｇａｒｒａｙｓ．ＧｅｎｏｍｅＲｅｓ，１４，３９８−４０５．Ｓｕｌａｉｍａｎ，Ｉ．Ｍ．，Ｌｉｕ，Ｘ．，Ｆｒａｃｅ，Ｍ．，Ｓｕｌａｉｍａｎ，Ｎ．，Ｏｌｓｅｎ−Ｒａｓｍｕｓｓｅｎ，Ｍ．，Ｎｅｕｈａｕｓ，Ｅ．，Ｒｏｔａ，Ｐ．Ａ．ａｎｄＷｏｈｌｈｕｅｔｅｒ，Ｒ．Ｍ．（２００６）ＥｖａｌｕａｔｉｏｎｏｆａｆｆｙｍｅｔｒｉｘｓｅｖｅｒｅａｃｕｔｅｒｅｓｐｉｒａｔｏｒｙｓｙｎｄｒｏｍｅｒｅｓｅｑｕｅｎｃｉｎｇＧｅｎｅＣｈｉｐｓｉｎｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆｔｈｅｇｅｎｏｍｅｓｏｆｔｗｏｓｔｒａｉｎｓｏｆｃｏｒｏｎａｖｉｒｕｓｉｎｆｅｃｔｉｎｇｈｕｍａｎｓ．ＡｐｐｌＥｎｖｉｒｏｎＭｉｃｒｏｂｉｏｌ，７２，２０７−２１１．Ｗａｎｇ，Ｚ．，Ｄａｕｍ，Ｌ．Ｔ．，Ｖｏｒａ，Ｇ．Ｊ．，Ｍｅｔｚｇａｒ，Ｄ．，Ｗａｌｔｅｒ，Ｅ．Ａ．，Ｃａｎａｓ，Ｌ．Ｃ．，Ｍａｌａｎｏｓｋｉ，Ａ．Ｐ．，Ｌｉｎ，Ｂ．ａｎｄＳｔｅｎｇｅｒ，Ｄ．Ａ．（２００６）ＩｄｅｎｔｉｆｙｉｎｇＩｎｆｌｕｅｎｚａＶｉｒｕｓｅｓｗｉｔｈＲｅｓｅｑｕｅｎｃｉｎｇＭｉｃｒｏａｒｒａｙｓ．ＥｍｅｒｇＩｎｆｅｃｔＤｉｓ，１２，６３８−６４６．Ｌｉｎ，Ｂ．，Ｗａｎｇ，Ｚ．，Ｖｏｒａ，Ｇ．Ｊ．，Ｔｈｏｒｎｔｏｎ，Ｊ．Ａ．，Ｓｃｈｎｕｒ，Ｊ．Ｍ．，Ｔｈａｃｈ，Ｄ．Ｃ．，Ｂｌａｎｅｙ，Ｋ．Ｍ．，Ｌｉｇｌｅｒ，Ａ．Ｇ．，Ｍａｌａｎｏｓｋｉ，Ａ．Ｐ．，Ｓａｎｔｉａｇｏ，Ｊ．ｅｔａｌ．（２００６）Ｂｒｏａｄ−ｓｐｅｃｔｒｕｍｒｅｓｐｉｒａｔｏｒｙｔｒａｃｔｐａｔｈｏｇｅｎｉｄｅｎｔｉｆｉｃａｔｉｏｎｕｓｉｎｇｒｅｓｅｑｕｅｎｃｉｎｇＤＮＡｍｉｃｒｏａｒｒａｙｓ．ＧｅｎｏｍｅＲｅｓ．１６：５２７−５３５Ｌｉｎ，Ｂ．，Ｂｌａｎｅｙ，Ｋ．Ｍ．，Ｍａｌａｎｏｓｋｉ，Ａ．Ｐ．，Ｌｉｇｌｅｒ，Ａ．Ｇ．，Ｓｃｈｎｕｒ，Ｊ．Ｍ．，Ｍｅｔｚｇａｒ，Ｄ．，Ｒｕｓｓｅｌｌ，Ｋ．Ｌ．ａｎｄＳｔｅｎｇｅｒ，Ｄ．Ａ．（２００６）．ＮａｖａｌＲｅｓｅａｒｃｈＬａｂｏｒａｔｏｒｙ．Ａｌｔｓｃｈｕｌ，Ｓ．Ｆ．，Ｇｉｓｈ，Ｗ．，Ｍｉｌｌｅｒ，Ｗ．，Ｍｙｅｒｓ，Ｅ．Ｗ．ａｎｄＬｉｐｍａｎ，ＤＪ．（１９９０）Ｂａｓｉｃｌｏｃａｌａｌｉｇｎｍｅｎｔｓｅａｒｃｈｔｏｏｌ．ＪＭｏＩＢｉｏｌ，２１５，４０３−４１０．

この分析方法は有用だが、種々の短所を有する：時間浪費で、感度を最大化するように最適化されておらず、複雑な結果を有し、熟練者のみに適しており、冗長又は重複した情報を含有している。初期のスクリーニングのみは自動的に処理されるが、残りのステップは手動の解釈を必要とした後に、検出分析が完了するため、工程は時間浪費である。検出された病原体を考慮するために単純な基準（１０^−９の期待値限界）及び最適化されないＢＬＡＳＴパラメータを使用したため、ＲＥＰＩアルゴリズムは候補生物のリストを提供したが、最終的な単純な結論を出さず、あるプロトタイプ配列の結果を別のものに関連付けることもできなかった。代わりに、最終決定を行うために手動処理が使用されたが、ＲＥＰＩプログラムは全ての同様な結果及び冗長なエントリーを含有する公開核酸データベースの使用を提供するため、有用でない膨大なデータがユーザーに示された。加えて、手動の工程を用いて、配列情報が解明された核酸塩基が提供されている如何なる生物に対しても、開発されたアルゴリズムが一般的に応用できるということを確立することは困難であった。

本発明の１つの方法は、レファレンス配列を有する核酸とハイブリダイズするサンプル由来の核酸配列からサブ配列を生成する工程と、
遺伝子データベースに対して前記サブ配列を検索することによって、前記サブ配列を識別する工程と、
分類学的データベースから識別された前記サブ配列に関する分類学的結果を抽出する工程と、
前記サブ配列に関する前記分類学的結果に基づいて、前記レファレンス配列の分類学的識別名を決定する工程と、
前記レファレンス配列の前記分類学的識別名に基づいて、前記サンプルに含まれる標的の分類学的識別名を取得する工程と、
を含む。

本発明のより完全な理解は、以下の例示実施形態の説明及び付随の図面を参照することにより容易に得られる。

以下の説明において、解説目的であって限定を意図することなく、本発明の完全な理解を提供するために、特定の詳細を明記する。しかしながら、当事者に明らかであるように、本発明はこれら特定の詳細から外れた他の実施形態で実施されてもよい。他の例において、不要な詳細により本発明の明細書が不明瞭にならないように、周知の方法及び装置の詳細な明細を割愛する。

本明細書においては、「配列」という用語はＤＮＡ又はＲＮＡの様な核酸塩基配列又はタンパク質配列と呼ぶ。本明細書においては、「塩基」及び「塩基コール」はヌクレオチド塩基又はアミノ塩基の何れかと呼ぶことができる。本明細書においては、「分類学的」という用語は属、種、菌株及びサブ菌株を包含するが限定されない病原菌の何れかのレベル又はクラスの識別名と呼ぶことができる。本明細書においては、「報告する」という用語はあるシステムから別のシステムへ信号を伝達し、人が可読な何れかの形式の報告書を生成することを包含できる。全ての開示された方法は、方法を実施するための手段を有する装置上でコンピュータ実施されてよい。

新規のソフトウェア熟練システム、コンピュータ実施生物学的配列識別子システム（ＣＩＢＳＩ２．０）が開示されており、これは、検出された生物の単純なリストを供給するために、カスタムデザインされたＡｆｆｙｍｅｔｒｉｘ再配列決定マイクロアレイ由来の解明された塩基配列情報を首尾よく使用することができる。このアルゴリズムは病原体識別を完全に自動化する新規機能を編入することにより、従来方法の短所に取り組んでいる。単一のプログラムにより、ＲＰＭｖ１マイクロアレイに含まれた全２６個の病原体（非特許文献１９，２０、２３）に対し、改良された感度で、単独か組み合わせかの何れで検出されたかの正しい決定を行うことができる。プログラムは現在再配列決定マイクロアレイに応用されているが、アルゴリズムの最初の部分のみはマイクロアレイに特化した問題を処理しているが、残りの部分はＢＬＡＳＴアルゴリズムによってクエリーとして使用するのに適した配列を対処しているので、開発された方法論は一般的に応用可能な余地がある。一般的な識別アルゴリズムを開発する中で、それらの使用を複雑にする再配列決定マイクロアレイに特化した問題を識別し、解明した。何が検出されたかに対する完全な決定処理は自動化されたので、識別を行うために使用されたどのルールが厳密でかつ如何なる病原体に対しも応用可能なのかを試験することが直接的である。この効果的なプログラムを用いて、再配列決定に基づく試験は、多くの可能な病原体に対して同時に試験するための競争力ある方法を提供し、非熟練者によって解釈できるアウトプットを供給することができる。

Ｄａｖｉｇｎｏｎ，Ｌ．，Ｗａｌｔｅｒ，Ｅ．Ａ．，Ｍｕｅｌｌｅｒ，Ｋ．Ｍ．，Ｂａｒｒｏｚｏ，Ｃ．Ｐ．，Ｓｔｅｎｇｅｒ，Ｄ．Ａ．ａｎｄＬｉｎ，Ｂ．（２００５）ＵｓｅｏｆｒｅｓｅｑｕｅｎｃｉｎｇｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅｍｉｃｒｏａｒｒａｙｓｆｏｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＳｔｒｅｐｔｏｃｏｃｃｕｓｐｙｏｇｅｎｅｓａｎｄａｓｓｏｃｉａｔｅｄａｎｔｉｂｉｏｔｉｃｒｅｓｉｓｔａｎｃｅｄｅｔｅｒｍｉｎａｎｔｓ．ＪＣｌｉｎＭｉｃｒｏｂｉｏｌ，４３，５６９０−５６９５．

増幅、ハイブリダイゼーション及び配列決定
ＲＲＭｖ１マイクロアレイデザイン及び実験的方法の詳細は従来研究（非特許文献１９、２０、２３）で議論された。本分析で使用された実験的マイクロアレイデータは無作為及び多重化された増幅スキームを用いて、様々な精製されたテンプレート及び臨床サンプルを用いて得られた。ＧＣＯＳソフトウェアｖ１．３（ＡｆｆｙｍｅｔｒｉｘＩｎｃ．，ＳａｎｔａＣｌａｒａ，ＣＡ）はハイブリダイズされたマイクロアレイを整列し、スキャンするために使用され、全てのプローブセット中の各プローブの強度を決定した。塩基コールはＡＢＡＣＵＳアルゴリズム（１１）実装を使用したＧＤＡＳｖ３．０．２．８ソフトウェア（ＡｆｆｙｍｅｔｒｉｘＩｎｃ．，ＳａｎｔａＣｌａｒａ，ＣＡ）を用いて、各プローブの強度データに基づいて作成された。配列は後の分析ステップのためにＦＡＳＴＡ形式で表された。

再配列決定マクロアレイ（ＲＰＭｖ１．０）は従来、所定のハイブリダイゼーションパターン（非特許文献１９、２０、２３）に依存せず、ＰｒｏＳｅｑｓに基づいて熱性呼吸疾病を引き起こすことが知られている２０個の共通の呼吸系及び６個のＣＤＣカテゴリーＡの生物脅威病原体の検出及び配列型決定のためにデザインされていた。異なる増幅スキーム、単一及び複数の病原体標的、精製された核酸及び臨床サンプルを用いて実行された約４０００のＲＰＭｖ．１実験が、病原体識別アルゴリズムを開発するために検査された。臨床サンプルによるこのアルゴリズムを用いて病原体を識別し、核酸を精製した結果は、他の研究（非特許文献１９，２０，２３）において詳細に議論されている。全ての例において、アルゴリズムはＲＰＭｖ．１上に表されたＰｒｏＳｅｑの長さに依存して、種又は菌株レベルで生物を正確に識別した。いくつかの特定の実施例では、様々な条件下でアルゴリズムがどのように機能するかを立証することが議論されている。

ＣＩＢＳＩ２．０プログラムは３つのタスクの階層構造を処理した（図１）：（Ｉ）検出された生物がどのデータベースレコードに最も同様かを決定し、（ＩＩ）個別の標的からの識別が共通の生物識別に対応しているかを決定し、及び（ＩＩＩ）検出された生物が試験が検出するためにデザインされていた標的セットに属しているか又は緊密に遺伝子的に近い近親に関係しているかを決定する。標的病原体は試験が特に検出するためにデザインされた生物である。本明細書においては、標的病原体ゲノムから選択されたレファレンス配列を示すプローブセットはプロトタイプ配列又を略して「ＰｒｏＳｅｑ」として呼ぶ。ゲノム物質のハイブリダイゼーションからＰｒｏＳｅｑへと帰着する解明された塩基セットをハイブリダイズされた配列又は「ＨｙｂＳｅｑ」として呼ぶ。ＨｙｂＳｅｑは可能な配列又は「ＳｕｂＳｅｑｓ」に分割される。アルゴリズムの１部分はＰｒｏＳｅｑに基づいた生物識別を処理し、以下の３ステップ中で処理された：個々のＨｙｂＳｅｑｓの配列同様性比較に適したＳｕｂＳｅｑｓへの初期フィルタリング、個々のＳｕｂＳｅｑｓのデータベースクエリー、及び各ＳｕｂＳｅｑに対するＢＬＡＳＴ返値の生物学的比較。次のレベルにおいて、Ｐｒｏｓｅｑｓをそれらが同じ識別された生物に対応するか決定するために比較した。最終ステップにおいて、何れかが陽性で検出されたかを決定するために、検出された生物をそのために試験がデザインされた標的病原体のリストと比較した。特定のサンプルが対応した判別レベルを自動的に決定した。

フィルタリング
初期フィルタリングアルゴリズム、再配列決定病原体識別子（ＲＥＰＩ）は、従来開発されていて（非特許文献２０）、改訂版を含む一般的概念はＣＩＢＳＩ２．０プログラムで使用している現在の（自動検出）アルゴリズムに編入された。レファレンス配列選択により、及び高速検出のために有意な破片にＨｙｂＳｅｑを分割するのと同様な他のソース（プライマー）より、引き起こされた潜在的偏りを除去するために、フィルタリング及びサブ配列選択を使用した。これは、図１のタスクＩの最初のサブタスクであり、図２に詳細に図式的に示す。ＰＣＲ増幅を使用した場合、マイクロアレイはそれらがハイブリダイゼーションに帰着する箇所を決定するために、プライマーのみの存在下でハイブリダイズされた。プライマーを用いてハイブリダイズされたＰｒｏＳｅｑｓの何れの部分も、Ｎコールとしてマスクされるため、ＨｙｂＳｅｑは偏った情報を含んでいなかった。各ＰｒｏＳｅｑに対し、ユニークな塩基コールの全数に対するＳＮＰｓの比、ＵｎｉＲａｔｅはＨｙｂＳｅｑから計算された。ＵｎｉＲａｔｅが≧２０％（ＳＮＰ閾値）である場合、不十分なハイブリダイゼーションを有するＨｙｂＳｅｑｓを削除するため、Ｐｒｏｓｅｑを標的生物検出に対し陰性と見なした。ＵｎｉＲａｔｅ２０％は、平均で２５ｂｐ当たり５ＳＮＰであることを示していた。この頻度の標的病原体と同様の生物とＰｒｏｓｅｑが基になっているレファレンス配列との間の違いで、２５ｂｐプローブの有意に特定なハイブリダイゼーションを期待することは現実的ではない。これによりフィルタリングサブタスクを終了し、タスクＩループに戻り、次のＰｒｏｓｅｑを試験する。＜２０％の比を有するＰｒｏＳｅｑｓに対して、より詳細な検査が実行された。ＨｙｂＳｅｑの各箇所において、改訂されたスライドウィンドウアルゴリズム（非特許文献２０）がＢＬＡＳＴへのクエリーとして使用できるＳｕｂＳｅｑの拡張を試みた。まず、ある箇所以降の最初の２０塩基（初期長）を検査した。これらの塩基の６０％未満が不明瞭、Ｎの場合、ＳｕｂＳｅｑは伸長段階に入る。ＳｕｂＳｅｑはユニークな塩基コールの総量が４０％（ユニークな塩基閾値）未満に低下するまで、又は最終２１塩基を含むスライドウィンドウが４未満のユニークな塩基コールを有する場合、１回に１塩基分拡張した。これは、僅か２０塩基のスライドウィンドウを使用し、ウィンドウ内容物の４０％未満がユニークな塩基コールである場合、ＳｕｂＳｅｑの拡張を中止したＲＥＰＩアルゴリズムとは異なっていた。この時点でＳｕｂＳｅｑを検査し、追跡Ｎコールを削除した。７個の連続したユニークな塩基コールを有する少なくとも１つの箇所は、ＢＬＡＳＴのワードサイズパラメータに一致し、それ以上の分析のためにＳｕｂＳｅｑを保持する必要があった。１００塩基より長いＳｕｂＳｅｑｓも受諾できた。受諾するために、≦３０塩基のＳｕｂＳｅｑは少なくとも９５％の（「Ｎ」でない）ユニークな塩基コールを必要とした。３０〜１００塩基を有するＳｕｂＳｅｑｓに対して、配列受諾には少なくともＶＡＲＩ（（「ＳｕｂＳｅｑ長」−３０）＊０．２８５７＋７０）％のユニークな塩基を必要とした。≧８０塩基のＳｕｂＳｅｑｓに対して、少なくとも１１個の連続塩基を含む場合、ＢＬＡＳＴワードサイズパラメータは１１に変更された。首尾よく拡張されたＳｕｎＳｅｑの一致性（ＰｒｏＳｅｑ中の開始箇所及び長さ）は各ＳｕｂＳｅｑに関連する情報を保持したＳｕｂＳｅｑアレイ中のエントリー中に置かれた。この一致性及びＳｕｂＳｅｑはＢＬＡＳＴを介してバッチクエリーするためのファイル中に置かれた。以前の成功したＳｕｂＳｅｑの終了から続行することにより、又は失敗した場合、そこからウィンドウが初期に拡張された点からＨｙｂＳｅｑの終了まで続行することにより、この手順を繰り返した。完了後、アルゴリズムはタスクＩループに戻り、ＢＬＡＳＴサブタスクを実行した。

データベースクエリー
ＢＬＡＳＴサブタスクは、クエリーとしてＳｕｂＳｅｑを用い、データベースのバッチ同様性検索を実行した。使用したＢＬＡＳＴプログラムは定義されたパラメータセットを用いたＮＣＢＩＢｌａｓｔａｌｌ−ｐｂｌａｓｔｎバージョン２．１２であった。クエリーを加速するために、低複合領域のマスキングをシード段階に対して実行したが、しかしながら低複合性反復が実際のスコア付けに含まれていた。２００６年２月７日に獲得したＮＣＢＩからの完全なヌクレオチドデータベースをレファレンスデータベースとして使用した。（開発中はデータベースの早期イメージを使用したが、この日時に獲得したデータベースイメージを用いて、記載の通りのアルゴリズムで全ての実験を再実行したことに注意）。デフォルトのギャップペナルティ及びヌクレオチド一致スコアを使用した。ヌクレオチド不一致ペナルティ、−ｑパラメータをデフォルトではなく−１に設定した。期待値＜０．０００１を用いた何れのＢＬＡＳＴクエリーの結果もｂｌａｓｔａｌｌプログラムから表形式で返された。各返値についての情報（ビットスコア、期待値、不一致、一致長）をさらに分析するために、ハッシュキーとしてＳｕｂＳｅｑ一致性を用いて返値｛ｈａｓｈｋｅｙ｝｛ｉｎｆｏ｝に置いた。

ＳｕｂＳｅｑｓからのＰｒｏＳｅｑｓに対する分類学に基づく病原体識別
実行されたタスクＩの次のサブタスクはＳｕｂＳｅｑ（）状態の決定であり、図３に示す。単純なデータを提出し、決定処理を容易にするため、全てのＳｕｂＳｅｑについての情報を２つのパラメータによって要約した。「識別された生物」は生物の分類学的クラスを表し、「生物ユニークさ」は生物識別の品質を指す。返値ハッシュ中の要素は、検査され、ＰｒｏＳｅｑの各個別ＳｕｂＳｅｑ（）に対するスコアアレイによってランキングされた。スコアアレイは与えられたデータベースに対して固定的な関係を有するビットスコアと期待値のパラメータ対を含んでいた。データベースのサイズを考慮する（期待値）或は考慮しない（ビットスコア）何れかのランキングスコアを使用することは、時に適切であった。返値ハッシュ中の要素は同じスコアを有することができるので、最高ビットスコア／最低期待値（ＭａｘＳｃｏｒｅ）を有する全ての要素は、個別のアレイＲａｎｋ１中に保持された。Ｒａｎｋ１中の全ての要素の十分な分類学的区分けを、これもまた２００６年２月７日に得られた（以前の注意書きを参照）ＮＣＢＩ分類学データベースから引き出した。ＭａｘＳｃｏｒｅ期待値がＭＡＸ（現在１０^−６）より大きい場合、ＳｕｂＳｅｑ（）は両者がｎｕｌｌに更新されたその識別された生物及び生物ユニークさ情報を有した。ＭａｘＳｃｏｒｅが十分小さい場合、Ｒａｎｋ１中に置かれた返値が検査された。Ｒａｎｋ１が単一要素を含む場合、ＳｕｂＳｅｑはＳｅｑＵｎｉｑｕの生物ユニークさに割り当てられた。Ｒａｎｋ１が複数要素を含む場合、ＳｕｂＳｅｑは、全ての返値が同じ分類学クラスに属す場合、ＴａｘＵｎｉｑｕｅの生物ユニークさに割り当てられ、それ以外の場合、ＳｕｂＳｅｑの生物状態はＴａｘＡｍｂｉｇに設定された。図３に概略したタスクはＰｒｏＳｅｑの各ＳｕｂＳｅｑ（）に適用された。全ての例で、識別された生物は各ＳｕｂＳｅｑ（）に割り当てられ、これはＲａｎｋ１内の全ての要素に共通の親である分類学クラスを表した。

各ＳｕｂＳｅｑを検査した後、アルゴリズムをＳｕｂＳｅｑからＰｒｏＳｅｑの識別された生物を決定するための次のタスク（図４）に移動した。ＳｕｂＳｅｑの全エレメントがＮｕｌｌの識別された生物値を有していた場合、この時ＰｒｏＳｅｑは陰性であり、次のＰｒｏＳｅｑが検査された。ＰｒｏＳｅｑに対してＳｕｂＳｅｑ中の単一要素のみがある場合、又はＳｕｂＳｅｑ中の全エレメントが同一の識別された生物を有している場合、その時Ｒｅｓｕｌｔ１のエントリーが識別された生物のために作成され、その生物ユニークさは、複数のＳｕｂＳｅｑエントリーがあるか、又はそれが単一のＳｕｂＳｅｑエントリーの状態を継承するかの何れかのＴａｘＵｎｉｑｕｅであった。異なる識別された生物を有するＳｕｂＳｅｑ中の多くのエントリーがある場合、これ以上の分析が実行された。次に、最高の２つの最良スコアを有する要素はＳｕｂＳｅｑ（１）及びＳｕｂＳｅｑ（２）であるため、ＳｕｂＳｅｑｓはＭａｘＳｃｏｒｅ（ビットスコア）で再検索された。ＳｕｂＳｅｑ（１）がＳｕｂＳｅｑ（２）のスコアより≧３０％（スコア比閾値）であるスコアを有している場合、その時ＰｒｏＳｅｑはＳｕｂＳｅｑ（１）の生物ユニークさ及び識別された生物を継承した。それ以外の場合、ＰｒｏＳｅｑの生物状態はＴａｘＡｍｂｉｇで、識別された生物は全サブ配列の共通の親分類学的クラスであった。全サブ配列が直接の子及び親である２つの分類学的クラスのみを含む場合、識別された生物は子クラス中のサブ配列の生物であった。図４に包含されたサブタスクが完了し、タスクＩループを続行した。検出された生物を有するＰｒｏＳｅｑのリストがＲｅｓｕｌｔ１アレイ中に構築された。

全体的な病原体識別及び陽性コール
タスクＩが完了後、タスクＩＩ（図１参照）がＲｅｓｕｌｔ１にリストされた識別された生物値を検査するために使用され、それらが同じ分類学的クラスを識別した場合、それらを一緒にグループ化した。Ｒｅｓｕｌｔ１中の各エントリーを検査し、識別された生物がこのリスト中に現れない場合、Ｒｅｓｕｌｔ２中に新規エントリーを作成した。ほとんどの例で、Ｒｅｓｕｌｔ２のエントリーは検出された個々の生物を表わすが、まだ冗長な情報を含んでいる可能性があった。一方は他方の分類学的親である識別された生物を有するＲｅｓｕｌｔ２中のエントリーは、実際に同じ病原体を表す可能性があった。ゲノムの標的は様々な可能な理由のために、両方のＰｒｏＳｅｑに十分ハイブリダイズしなかったため、同じ識別が発生する可能性はなかった。その代わり、２つの異なる緊密に関係した生物がマイクロアレイに両方ハイブリダイズした可能性はあった。

個別のＰｒｏＳｅｑからの結果をそれぞれ関連付けることは難しかったが、タスクＩＩＩは現在実装された通りに、最終検査及び決定を処理した。以前のタスクは何をＰｒｏＳｅｑが検出しようとしているかについての情報を考慮しないように、特に実装されていた。このことは、単に陽性及び陰性を認識できるべき例を低くするだけでなく、不確定である例をも容認していた。最終タスクにおいて、アルゴリズムはＰｒｏＳｅｑｓが検出するためにデザインされた生物を識別するか否かを考慮した。明らかに陰性のＰｒｏＳｅｑｓ及び不確定であるＰｒｏＳｅｑｓは目標病原体に対し陰性と見なされた。これに対するＰｒｏＳｅｑｓのグループ化は、タスクＩＩで既に実行されたグループ化に基づいていた。Ｒｅｓｕｌｔ２のエントリーがループされた。エントリーのＰｒｏＳｅｑは標的とされた表中の病原体を探すために使用された。Ｒｅｓｕｌｔ２エントリーの識別された生物が標的病原体の分類学的クラスと同じ又は子である場合、その時Ｐａｔｈｏｇｅｎ（）アレイは標的病原体に対する陽性エントリーで更新された。その病原体に対しＰａｔｈｏｇｅｎ（）アレイがｎｕｌｌの場合、識別した生物の病原体レベルはＲｅｓｕｌｔ２（）エントリーのレベルであった。エントリーが既に病原体で配置されていた場合、その時それ以上の比較を必要とした。Ｒｅｓｕｌｔ２（）及び病原体エントリーを比較した。これらが直接の親子関係を有していた場合、病原体の識別された生物は子の生物学的クラスであった。それ以外の場合、共通の親の生物学的クラスが陽性に識別された生物として報告された。病原体に対する全てのＰｒｏＳｅｑｓが十分ハイブリダイズしているほとんどの例において、微細なレベルの判別が報告された。しかしながら、１つ又はそれ以上のＰｒｏＳｅｑｓが十分ハイブリダイズしなかった場合、報告された陽性の標的病原体は属又は種レベルでのみ識別された。手動再検査が可能なように３つ全てのタスクの結果が報告された。タスクＩＩで識別された標的病原体に属さない生物は非標的陽性返値として報告されたことに注意。これらの例で識別されたものの詳細はタスクＩＩレベル結果の検証を必要とした。

病原体識別
複数のＰｒｏＳｅｑが同じ病原体に対して標的にされた場合、どのように病原体検出及び識別が実行されるかを立証するために、１０〜１０００のゲノムコープを有するクラミジア肺炎（Ｃｈｌａｍｙｄｉａｐｎｅｕｍｏｎｉａｅ）サンプルが選択された（非特許文献２１）。ＲＰＭｖ．１は主要な外膜タンパク質ＶＤ２及びＶＤ４に対して暗号化する遺伝子及びＤＮＡ依存性ポリメラーゼ（ｒｐｏＢ）遺伝子から選択された３つの高度に保存されたＰｒｏＳｅｑを有している。異なるサンプルからのＨｙｂＳｅｑｓは表１に示すように塩基コールがどのくらい多いかのみが異なっている。コールされたＰｒｏＳｅｑの割合は８０％から１００％まで変化したが、例外として濃度１０の１例においては、到達した試験の検出限界がこの濃度を超えていることを示すユニークコール生成ｒｐｏＢＰｒｏＳｅｑがわずか１１％であった。表１にＳｕｂＳｅｑに対し及び様々なサンプルに対して各タスクの終了時点で作成された決定をリストした。異なる例からのＰｒｏＳｅｑが同数のＳｕｂＳｅｑを生成した。これらの異なるサンプルからのＳｕｂＳｅｑはＢＬＡＳＴからの同じトップランキングされた返値に対して異なるビットスコアを報告した。事実、ＶＤ２及びＶＤ４は正確に同じ結果を生成した。ＮＣＢＩ分類学データベースは返値を４つの別個の群に区分けし、これはクラミジア肺炎分類学的群及び３つの子菌株群を表した。完全に配列決定されたゲノムのデータベースエントリーを表わすため、ＡＥ００１６５２、ＡＥ００２１６７、ＡＥ０１７１５９及びＢＡ０００００８が各サンプルに対する全てのＰｒｏＳｅｑの返値として出現した。１個のｒｏｐＢＳｕｂＳｅｑがその生物ユニークさ、ＳｅｑＵｎｉｑｕについて生成した。異なる分類学的クラスから複数の返値が返ったため、他の全てのＳｕｂＳｅｑはＴａｘＡｍｂｉｇであった。ＶＤ２及びＶＤ４ＰｒｏＳｅｑは各々単一のＳｕｂＳｅｑを有しているので、タスクＩはＰｒｏＳｅｑにＳｕｂＳｅｑの状態を割り当てた。ｒｐｏＢＰｒｏＳｅｑに対しては、１個のＳｕｂＳｅｑのビットスコアが、アルゴリズムがそのＳｕｂＳｅｑの識別名をＰｒｏＳｅｑに割り付けるのに十分大きかった。それら全てが同じ識別された生物を有し、ＴａｘＡｍｂｉｇが割り付けられていたので、アルゴリズムのタスクＩＩは３つ全てのＰｒｏＳｅｑｓを一緒にグループ化した。全てのＰｒｏＳｅｑｓが互いに一致し、同じ標的病原体の分類学的クラスに属していたので、タスクＩＩＩの結果は標的病原体クラミジア肺炎に対し陽性であり、この決定は直接的であった。ｒｐｏＢＰｒｏＳｅｑはＳｅｑＵｎｉｑｕであったが、ＳｅｑＵｎｉｑｕである全てのＰｒｏＳｅｑが子分類学的群ではなく、他のＰｒｏＳｅｑはＴａｘＡｍｂｉｇであったのでこれは、タスクＩＩに対する最終結論ではなかった。３つの認識されたサブ菌株は同じスコアであり、これはＰｒｏＳｅｑｓのために選択された配列が非常によく保存されており、菌株間での判別ができないことを示していた。

インフルエンザ及びヒトアデノウィルス（ＨＡｄＶ）は従来研究（非特許文献１９、２０、２１）で議論されたように詳細な菌株レベルの判定が許された選択されたＰｒｏＳｅｑを有する数少ない病原体であった。手動分析を用いたこの従来研究により、マイクロアレイの結果が臨床的サンプルに対する従来配列決定の結果に非常に一致することが発見された。生のマイクロアレイ結果に基づく更新されたＮＣＢＩデータベースを用いてＣＩＢＳＩ２．０プログラムを実行した結果を従来所見と比較した（表２）。使用したデータベースの違いのため、識別された生物は元の所見と同一ではなかった。事実、その研究からＮＣＢＩにサブミットされた従来の配列決定結果が、全てのサンプルに対して、最良スコアを有する返値の中にあるということがわかった。１３個のインフルエンザＡのうち８個、及び１２個のインフルエンザのうちの３個の例に対して、タスクＩ及びＩＩの結果により、従来の配列決定が単一の最良返値であり、従って識別された生物であったことがわかった。血球凝集素遺伝子に対してデータベース中に膨大な孤立配列があるため、いくつかの例において単一のユニークエントリーが見つからないということは驚くに値しなかった。残りの５個のインフルエンザＡサンプルの各々においては、返った他の配列が従来配列と０．２％未満だけ異なっていた。インフルエンザＢに対するユニークな孤立識別名を有するサンプルが少ないほど、ＰｒｏＳｅｑに対してより古いレファレンス配列を使用するべきであり、これによりハイブリダイゼーションの発生をより少なくできた。これはまた、サンプルに対し、複数配列が返った場合、２％までのより大きい遺伝子変異を示すことを意味していた。この比較は、従来通り配列決定された領域のみである血球凝集素（ＨＡ）ＰｒｏＳｅｑに対してタスクＩレベルでのアルゴリズム分析のみを示した。従来研究では複数のＰｒｏＳｅｑからの一致を得ようと試みなかったため、タスクＩＩＩに対する比較はできない。タスクＩＩＩレベルの識別を行う現在の方法の結果として、このレベルにおいて報告された生物は全てのサンプル（補足表１Ａ及び１Ｂ）に対して、より少なく特定された（Ｈ３Ｎ２又はＦｌｕＢ）。ＨＡｄＶサンプルに対し、アルゴリズムはまた手動の方法によって従来作成されたより微細な尺度の判別を再生成した（示されていない）。

マイコプラズマ肺炎（Ｍｙｃｏｐｌａｓｍａｐｎｅｕｍｏｎｉａｅ）病原体に対する検出の次の実施例は、標的病原体に対し単一のＰｒｏＳｅｑのみがある例を説明し、これは、アルゴリズムのタスク１に対して識別された生物は、自動的にタスクＩＩの結果であり、この標的病原体に対してタスクＩＩＩで考慮された唯一のＰｒｏＳｅｑであったことを意味していた。このＰｒｏＳｅｑはまたｃｙｔａｄｈｅｓｉｎＰ１遺伝子の高度に保存された領域（３４５ｂｐ）から選択されたため、微細な判別に対して最適ではなかった。４０個のマイクロアレイは同様に精製された核酸株を用いて試験され、全ての例においてマイコプラズマ肺炎又はその１つの認識されたサブ菌株の分類学的データベースエントリーはＭａｘＳｃｏｒｅについて同じであった。これらの返値をより良く理解するために、データベース配列が検査され、ＰｒｏＳｅｑを作成するために使用されたレファレンス配列にそれらが如何によく一致するかに基づいたＡ、Ｂ及びＣの配列の３群にサブ分割した。データベースエントリーの３群への配置は、この遺伝子配列のＣＬＵＳＴＡＬ整列から決定された。この整列はデータベースエントリーがＰｒｏＳｅｑによって表現されず、より微細な判別を行えるのに十分な可変性を含んだ領域において、互いに有意により大きく異なっていることを確認した。Ａ群のメンバーはＰｒｏＳｅｑと正確に一致し、マイクロアレイ上で両者間で区別できなかった。同様に、Ｂ群のメンバーはコールされた塩基がＴではなくＣである１９９番目の位置以外はＰｒｏＳｅｑと一致した。Ｃ群の配列はより可変であり、ＰｒｏＳｅｑ内に他のエントリーと区別される可能性のある僅かなデータベースエントリーを含んでいた。マイコプラズマ肺炎の４０の実験的試験に対し、９５％ものＰｒｏＳｅｑがハイブリダイズしたが、結果の６５％しか１９９番目の位置で不明瞭な塩基コールを有していなかった。それが不明瞭な場合、それは常にＢ群の配列に一致していた。Ｎ塩基コールが１９９番目の位置で行われた例において、Ａ及びＢ群の両方の配列は同じスコアを返した。このことに関わらず、陽性に識別された標的病原体は試験された全てのサンプルに対しマイコプラズマ肺炎であった。

これらの実施例は単一又は複数のＰｒｏＳｅｑｓが標的病原体に専念させられていたかに依存せず決定が行われたことを示した。それらはまた、可能な判別レベルが選択されたＰｒｏＳｅｑの質によって強く決定されることを立証した。いくつかの病原体に対しては、微細なレベルの判別を必要とせず、現在試験されたＲＰＭｖ１上での選択により満足な情報が提供されることが可能である。ＣＩＢＳＩ２．０アルゴリズムは、ＨｙｂＳｅｑ情報によって対応できる最大レベルの判定を自動的に報告する能力を示した。

遺伝的に近い近親
アルゴリズムが親密に関連した遺伝子的種を如何に処理するかを示すために、非標的病原体のサンプルを考慮した。ＲＰＭｖ．１上で生物脅威病原体の１つ、大痘瘡ウィルスに対し、確証試行によって、検出された場合に大痘瘡ウィルスＤＮＡテンプレートが常に陽性に識別されることを示した。アレイは血球凝集素（ＶＭＶＨＡ、〜５００ｂｐ）由来の２つのＰｒｏＳｅｑｓ及び大痘瘡ウィルス検出のためのサイトカイン応答モディファイアーＢ（ＶＭＶｃｒｍＢ、〜３００ｂｐ）の遺伝子を有している。近い近親、痘疹ウィルスが様々な濃度で鼻洗浄液中に加えられたという１８の試行での各ＰｒｏＳｅｑに対する結果を表３に示す。ハイブリダイズするＰｒｏＳｅｑの割合は、ハイブリダイゼーションパターンが単に１つと見なされた場合、このタイルがその標的の存在を識別していると仮定できるほど十分である。これは、選択されたレファレンス配列が最良の選択ではなかったことを指している。しかしながら、アルゴリズムが適用された場合、事実、サンプルの何れも大痘瘡又は小痘瘡ウィルスとして識別されない。痘疹は常にＶＭＶｃｒｍＢＰｒｏｓｅｑに対し最高スコアでリストされるオルトポックスウィルス属の１つであったが、わずか７つの例において、有望な種としてユニークに検出されただけだった。最低濃度及びＶＭＶｃｒｍＢハイブリダイズしている断片を有する３サンプルにおいて、このＰｒｏＳｅｑはハイブリダイゼーションを引き起こす可能性のある多くのオルトポックスウィルス属の種中の１つとして大痘瘡を識別した。使用した増幅方法に対する検出の最低限界はこの濃度とその１つ上の間であった。ＶＭＶＨＡＰｒｏＳｅｑは僅か２つの実験でオルトポックスウィルス属の種の識別を行い、大痘瘡が同じ最良スコアの返値の１つとしてリストされた。両方の例において、ＶＭＶｃｒｍＢＰｒｏＳｅｑは最良一致として特に痘疹ウィルスを識別した。ハイブリダイズされたＰｒｏＳｅｑの割合はサンプルの濃度に相関した。

フィルタリング
本実施例は、Ｈ１Ｎ１ノイラミニダーゼ（ＮＡ１）及びヒトインフルエンザＡ／プエルトリコ／８／３４（Ｈ１Ｎ１）菌株由来のマトリックス遺伝子に対するＰｒｏＳｅｑのＨｙｂＳｅｑｓを考慮することにより、アルゴリズムのフィルタリング部分の重要性を示した。単一クエリー中でＢＬＡＳＴへＰｒｏＳｅｑのＨｙｂＳｅｑを送付することは、特に塩基コールの使用を最大化するＢＬＡＳＴパラメータを使用する場合、ＰｒｏＳｅｑに関連した挿入又は削除を有する菌株に対してスコアを偏らせる可能性があるため、フィルタリングが必要であった。スライドウィンドウ試験はフィルタリングを制御するアルゴリズムの一部であった。フィルタリングが停止された場合、完全なＨｙｂＳｅｑを重要なハイブリダイゼーションを示した２つのインフルエンザＰｒｏＳｅｑｓに対して単一の配列中で使用した。Ａ／Ｗｅｉｓｓ／４３（Ｈ１Ｎ１）菌株がＮＡ１ＰｒｏＳｅｑのＨｙｂＳｅｑからの最も有望な菌株として識別されたが、マトリクスＰｒｏＳｅｑのＨｙｂＳｅｑはＡ／プエリトリコ／８／３４を正しく識別した。偏りの原因をより良く理解するため、２つの菌株のＮＡ１遺伝子のＣＬＵＳＴＡＬ整列及びＰｒｏＳｅｑ作成に使用されたレファレンス配列を図５に示す。２つの菌株は９５％の一致性（１３６２個の整列された塩基のうち６７個の不一致）を示したが、Ａ／プエルトリコ／８／３４（配列番号３）に比べＡ／Ｗｅｉｓｓ／４３（配列番号２）及びＮＡ１ＰｒｏＳｅｑ（配列番号１）の両方に挿入された４５塩基の伸張があった。デフォルトのフルタリング作動により、ＮＡ１ＰｒｏＳｅｑはコールのない大きな伸張に遭遇したアルゴリズムとして５個のＳｕｂＳｅｑｓに分割された。タスクＩにおいて、アルゴリズムはより短い３個のＳｕｂＳｅｑｓが最良スコアと同じでＡ／プエルトリコ／８／３４を含む種々の単離株としてＨ１Ｎ１の生物を識別したが、他の２個のＳｕｂＳｅｑｓは最も近い一致であるとしてＡ／プエルトリコ／８／３４菌株のみの識別された生物を有していた。ＳｕｂＳｅｑｓの１個が非常に高いスコアを有していたため、ＮＡ１ＰｒｏＳｅｑにより識別された生物はＡ／プエルトリコ／８／３４であった。このＰｒｏＳｅｑはマトリクスＰｒｏＳｅｑ中で作成された同じ菌株識別名に対応した。２つのＰｒｏＳｅｑがその生物のみを検出したので、識別された生物はＡ／プエルトリコ／８／３４であった。正しい標的病原体がフィルタリングを用いて検出されたが、フィルタリングなしでは、Ａ／プエルトリコ／８／３４及びＡ／Ｗｅｉｓｓ／４３の２つの生物が検出されたので、標的病原体の識別レベルはインフルエンザＡ（Ｈ１Ｎ１サブタイプ）であった。偏りを除去するためＨｙｂＳｅｑをＳｕｂＳｅｑｓに分割することは、この例において５個のＳｕｂＳｅｑｓの３個に対して発生したように、識別レベルを低下する。痘疹に対する従来実施例は、フィルタリングを使用しない場合、誤った種（ラクダ痘又はコモンマーモセット）の識別が発生するという別の実例であった。表２の臨床サンプルは、複数のＳｕｂＳｅｑｓへ分割されたＨｙｂＳｅｑｓが非常に特異な識別を可能にしたことを示した。

小さな点として、共通性の乏しい多重な手法を増幅に対して使用した場合、方法に記載された通り、特定のプライマーからの潜在的偏りを削除するために追加のフィルタリングを実行する必要があった。図５はこの妨害の実施例を示すための、Ａ／プエルトリコ／８／３４のハイブリダイゼーションに対する生（配列番号４）及びマスクフィルタリングされた（配列番号５）結果である。前述された理由のための偏りの問題に加えて、プライマーと相互作用する箇所に存在するため、フィルタリング後にＮが作成されたという生の結果中に存在する１８塩基の配列がある。これらの塩基コールが構成されたサブ配列中に含まれる場合、ＰｒｏＳｅｑに対するクエリーは誤った菌株を好む可能性がある。

アルゴリズムは各ＰｒｏＳｅｑの品質に依存して可能な最大詳細レベル（種又は菌株）まで、病原体識別を首尾よく提供した。非熟練者の使用を可能にするため、この識別能力により、病原体の一致性において最小のインプットが必要とされる。完全な自動化ができるように組み込まれた決定的機能は、分類学的データベースの使用であり、これにより生物を順序付けられた群に区分し、生物エントリー間の関係を提供し、冗長性の削除、異なった関係のプロトタイプ配列の比較及びデータ表現の単純化ができるようになった。これにより、冗長で、絶えず更新された及び新しい配列情報を受けとっていたが最小のキュレーションを前提としていたデータベース即ちＮＣＢＩが、非常に成功して使用できるようになった。ＮＣＢＩデータベースのみを使用して説明したが、他のデータベース又はカスタム作成されたものも容易に使用することができ、それらはパフォーマンスを改善する可能性がある。アルゴリズムはより変化しない又は高度に保存されたＰｒｏＳｅｑｓによって表された病原体に対して、全ての分析レベルで正確な識別を提供できる。例えばインフルエンザＡウィルスのようなより変化し又は急速に変異する病原体に対し、タスクＩ及びＩＩはまだ正確な詳細識別を提供したが、タスクＩＩＩは、ファインスケール判別を報告できなかった。従来通り配列決定されたインフルエンザウィルス遺伝子配列との比較は、アルゴリズムがデータベースの更新に対して自動的に適応できることを立証した。アルゴリズムは特定の病原菌によりもたらされたＰｒｏＳｅｑ上のハイブリダイゼーションを一般的に密接な（近い近親の）菌株からもたらされたものと適切に区別する能力を示し、誤った識別を行わず、偽陽性の１つの潜在的原因を削除した。生のハイブリダイゼーション結果のフィルタリングは、計算時間の短縮に役立ち、潜在的なプライマー妨害を計上し、及びより重大に潜在的偏りを減少した。この単純で統合されたアルゴリズムは十分かつ正確な識別を提供するので、ＲＰＭｖ．１又は同様の再配列決定アレイ及び試験をすぐに使用することが可能である。

ＣＩＢＳＩ２．０プログラムの成功を示す以外に、本研究は適当なＰｒｏＳｅｑ選択の重要性に対する見識を認めるアルゴリズムの開発を包含していた。ＲＰＭｖ．１はデータベース同様性検索を用いた複数の病原体検出に対して、特定にデザインされた最初の再配列決定アレイであり、本明細に対してプロトタイプとして役立った。正しくデザインされた場合に１００ｂｐほどの単一ＰｒｏＳｅｑにより、生物を十分明快に識別できることを示した。しかしながら、種々のＰｒｏＳｅｑｓが大きいほど、病原体のより良好な確認及びより詳細な情報を提供することが明確に示された。この点についてのデザインの主眼点は、如何なる病原体にも一般的に応用可能である能力に基づいている。タスクＩＩＩのパフォーマンスの改善は、個々の病原体についてより多くの情報を必要とし、各特定の病原体又は病原体のクラスに対して開発されるべきであろう。この情報はまた、サンプルとデータベースエントリーとの間のどの違いが重要な変異を表わすのかを識別することをアルゴリズムに対し必要とする可能性がある。データ分析の階層的デザインは、既に実行された分析を基礎とする分析に容易に組み込むことができる。適当にデザインされた再配列決定マイクロアレイ及びこの自動化検出アルゴリズムを使用することにより、複数生物に対して同時に試験できる試験法を開発する将来への方向性を提供でき、同時に、詳細の菌株認識、抗生物質耐性マーカー及び病原性についての情報への糸口を与える微細な菌株レベルの判別を提供する。これにより、複数の潜在的原因による疾病（即ち、熱性呼吸疾病）に対する特異的診断、救急の病原体の追跡、サーベイランス応用における無害な近い遺伝的近親との生物学的脅威の区別、及び同時感染又は重複感染の影響の追跡等のような応用に対して複数の生物由来の部分的な配列情報の分析ができる。サンプルの品質及び標的配列セットに依存して程度の異なる識別を分類化及び報告するという概念は、再配列決定マイクロアレイに限定されることなく、レファレンスＤＮＡデータベースをクエリーするのに使用可能な配列レベルコールを返すことができる如何なるプラットフォームに対してもより一般的に応用できる。複数の病原体に対する試験が増えているという試験法に対する傾向として、本発明のような自動化分析ツールは、日常的に非熟練者が利用する単純な形式での高速な識別に対して、より必須になっている。

ソースコード
以下は、開示した方法の実施形態をリストしたＰＥＲＬのソースコードである。「ｏｖｅｒｃｌｉｎｉｃａｌ」プログラムは他のプログラムを実行するトップレベルのプログラムである。「ｆｓｔｏｒｅｐｉ」はフィルタリング、サブ配列準備、及びクエリーファイル準備を実行する。このプログラムは所定のＮに変化されるべき位置のリストを含むインプットファイル「ｐｒｉｍｅｈｙｂ．ｄａｔ」を使用する。「ｒｕｎｂｌａｓｔ」はＢＬＡＳＴクエリーを実行する。「ｄｂｐａｒｓｅ」は分類学的分析を実行する。このプログラムは各ＰｒｏＳｅｑに対する標的病原体のリストを含むインプットファイル「ｃｈｉｐ１ｐａｔｈｏｇｅｎｇｒｏｕｐｓ」を使用する。

明らかに、上記教示に照らして本発明の多くの修正及び変更が可能である。従って、請求された発明は、明確に記載された以外の方法で実行されてよいと理解されるべきである。例えば、単数標記の要素を単数に限定するものとして解釈されてはいない。

３個の主要なタスクの関係及びタスクに関連するサブタスクのロジックを示すアルゴリズムの模式図である。タスクＩはフィルタリング及びサブ配列選択を実行し、次に何のデータベースレコードに対してプロトタイプ配列が最も同様かを決定する。タスクＩＩはプロトタイプ配列識別名が共通の生物識別名に対応しているか否かを結論する。タスクＩＩＩはミクロアレイデータ由来の検出された生物の最終検査及び決定を行う。ＰｒｏＳｅｑ：プロトタイプ配列；ＳｕｂＳｅｑ：サブ配列；ＨｙｂＳｅｑ：ハイブリダイズされた配列。タスク１のフィルタリングサブタスクの詳細模式図である。各ＰｒｏＳｅｑに対し、プライマー領域がＮ（不明瞭）コールとしてマスクされ、次にＵｎｉＲａｔｅがＨｙｂＳｅｑから計算された。ＵｎｉＲａｔｅ要求を通過したＰｒｏＳｅｑに対し、改訂されたスライドウィンドウアルゴリズムにより、ＢＬＡＳＴへのクエリーとして使用できるＳｕｂＳｅｑの拡張を試みた。首尾よく拡張したＳｕｂＳｅｑの一致性（ＰｒｏＳｅｑ中の開始箇所及び長さ）はＢＬＡＳＴを介してバッチクエリーを行うためのファイル中に置かれた。個々のＳｕｂＳｅｑに対する生物学的識別を受け持つＴａｓｋ１のサブタスクの詳細模式図である。ＢＬＡＳＴに送られた各ＳｕｂＳｅｑは、最良ビットスコア／期待値対（ＭａｘＳｃｏｒｅ）を探索するために全体ソートされた返値アレイ中に含有される可能な一致のリストを返した。もしＭａｘＳｃｏｒｅがＭＩＮ（１０^−６）より大きければ、この最良スコアを有する全ての返値を新規のアレイＲａｎｋ１内でソートした。詳細な決定処理は方法の章で記述するが、ここでＳｕｂＳｅｑの生物が識別された。そのＳｕｂＳｅｑに対し探索された結果に基づいたＰｒｏＳｅｑに対して決定された生物を決定するタスクＩのサブタスクの模式図である。特定のＰｒｏＳｅｑの全てのＳｕｂＳｅｑは２つの最良スコアのＳｕｂＳｅｑを決定するために互いに比較される。単一のＳｕｂＳｅｑしかない又はスコアされた１つが他より極めて良好な場合、ＰｒｏＳｅｑはそのＳｕｂＳｅｑの属性を継承した。それ以外は、特許明細書内で記載の通り共通の分類学的クラスが決定された。インフルエンザＡＮＡ１ＰｒｏＳｅｑ及びＡ／Ｗｅｉｓｓ／４３、Ａ／プエルトリコ／８／３４菌株の整列。Ａ／プエルトリコ／８／３４の生及びフィルタリングされたハイブリダイゼーションチップの結果もまた示す。＊完全に一致した配列を示す。

Claims

レファレンス配列を有する核酸とハイブリダイズするサンプル由来の核酸配列からサブ配列を生成する工程と、
遺伝子データベースに対して前記サブ配列を検索することによって、前記サブ配列を識別する工程と、
分類学的データベースから識別された前記サブ配列に関する分類学的結果を抽出する工程と、
前記サブ配列に関する前記分類学的結果に基づいて、前記レファレンス配列の分類学的識別名を決定する工程と、
前記レファレンス配列の前記分類学的識別名に基づいて、前記サンプルに含まれる標的の分類学的識別名を取得する工程と、
を含む方法。
前記レファレンス配列の分類学的識別名は、
前記分類学的結果が単一の分類学的識別名のみを含む第１の条件を満たす場合、前記単一の分類学的識別名に決定し、
前記分類学的結果に含まれるスコアが最高のサブ配列のスコアと２番目にスコアが高いサブ配列のスコアの比が所定のスコア比閾値を超える第２の条件を満たす場合、前記最高のスコアを有する前記サブ配列に関する前記分類学的結果に含まれる分類学的識別名に決定し、
前記分類学的結果が分類学的に子と直接の親の関係にある分類学的識別名のみを含む第３の条件を満たす場合、前記子の分類学的識別名に決定し、
前記第１乃至第３の条件のいずれも満たさない場合、前記分類学的結果に含まれる共通の親の分類学的識別名に決定する、
請求項１に記載の方法。
前記スコア比閾値が３０％である請求項２に記載の方法。
前記遺伝子データベースに対して検索される前記サブ配列は、
前記標的由来の所定の複数のレファレンス配列に関連し、前記各レファレンス配列のうち、対応する分類学的識別名の一致するレファレンス配列を１つのグループにする、
請求項１に記載の方法。
前記分類学的識別名が標的病原体と同じか又は分類学的にその子である第４の条件を満たす場合、前記分類学的識別名が前記標的の分類学的識別名として取得され、
前記分類学的識別名が分類学的に子と直接の親の関係にある分類学的識別名のみを含む第５の条件を満たす場合、前記子の分類学的識別名が前記標的の分類学的識別名として取得され、
前記第４及び第５の条件が満たされない場合、前記分類学的識別名に共通の親の分類学的識別名が前記標的の分類学的識別名として取得される、
ことをさらに含む請求項４に記載の方法。
コンピュータに、
レファレンス配列を有する核酸とハイブリダイズするサンプル由来の核酸配列からサブ配列を生成するステップ、
遺伝子データベースに対して前記サブ配列を検索することによって、前記サブ配列を識別するステップ、
分類学的データベースから前記サブ配列に関する分類学的結果を抽出するステップ、
前記サブ配列に関する前記分類学的結果に基づいて、前記レファレンス配列の分類学的識別名を決定するステップ、
前記レファレンス配列の分類学的識別名に基づいて、前記サンプルに含まれる標的の分類学的識別名を取得するステップ、
を実行させるプログラム。
請求項６に記載のプログラムを備える装置。
前記レファレンス配列において、マイクロアレイで前記標的の核酸でない物質がハイブリダイズする塩基の位置をＮに置換し、
前記レファレンス配列に対する前記核酸配列の１ヌクレオチド多形の比に基づいて前記サブ配列を生成する、
請求項１に記載の方法。
前記物質がＰＣＲプライマーである請求項８に記載の方法。
前記１ヌクレオチド多形の比がＳＮＰ閾値未満の場合、前記レファレンス配列から初期長の配列を選択し、前記配列内のユニークな塩基の比を計算する、
ことをさらに含む請求項８に記載の方法。
前記ＳＮＰ閾値が２０％である請求項１０に記載の方法。
前記ユニークな塩基の比がユニークな塩基閾値以上の場合、配列内のユニークな塩基の比が前記ユニークな塩基閾値未満になるまで、前記配列を伸長させる、
ことをさらに含む請求項１０に記載の方法。
前記ユニークな塩基閾値が４０％である請求項１２に記載の方法。
前記伸長された配列の最後の２１塩基が４塩基未満のユニークな塩基を含む場合、伸長を終了する、
ことをさらに含む請求項１２に記載の方法。
前記配列の長さ及び前記配列内の前記ユニークな塩基の比が所定の条件に一致した場合、前記配列を前記サブ配列として生成する、
ことをさらに含む請求項１２に記載の方法。
前記条件は、
前記配列が少なくとも７個の隣接するユニークな塩基を含み、前記配列の長さが１００塩基以上である、又は、
前記配列が少なくとも７個の連続するユニークな塩基を含み、前記配列の長さが３０塩基以上１００塩基未満であって、前記配列内のユニークな塩基の比が式１で算出される割合以上である、又は、
前記配列が少なくとも７個の連続するユニークな塩基を含み、前記配列の長さが３０塩基未満であって、前記配列内のユニークな塩基の比が９５％以上であって、
前記式１は、（前記配列の長さ−３０）×０．２８５７＋７０である、
請求項１５に記載の方法。
コンピュータに、
前記レファレンス配列において、マイクロアレイで前記標的の核酸でない物質がハイブリダイズする塩基の位置をＮに置換するステップ、
前記レファレンス配列に対する前記核酸配列の１ヌクレオチド多形の比を決定することによって前記サブ配列を生成するステップ、
をさらに実行させる請求項６に記載のプログラム。
請求項１７に記載のプログラムを備える装置。