JP2010509904A - 配列が解明された生物を検出および同定するための遺伝子標的の設計と選択 - Google Patents

配列が解明された生物を検出および同定するための遺伝子標的の設計と選択 Download PDF

Info

Publication number
JP2010509904A
JP2010509904A JP2009525756A JP2009525756A JP2010509904A JP 2010509904 A JP2010509904 A JP 2010509904A JP 2009525756 A JP2009525756 A JP 2009525756A JP 2009525756 A JP2009525756 A JP 2009525756A JP 2010509904 A JP2010509904 A JP 2010509904A
Authority
JP
Japan
Prior art keywords
sequence
probe
list
fragment
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009525756A
Other languages
English (en)
Other versions
JP5112435B2 (ja
Inventor
ピー マラノスキ,アンソニー
ウォング,チエン
リン,バオチャン
エイ ステンジャー,デビット
エム シューナー,ジョエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
US Government
Original Assignee
US Government
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/559,513 external-priority patent/US8965710B2/en
Application filed by US Government filed Critical US Government
Publication of JP2010509904A publication Critical patent/JP2010509904A/ja
Application granted granted Critical
Publication of JP5112435B2 publication Critical patent/JP5112435B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
    • C12Q1/701Specific hybridization probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/30Microarray design
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Wood Science & Technology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Virology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

【課題】コンピュータによって実行される以下の方法。生物リスト中の一種類以上の生物に関連する標的配列のリストを提供すること。それらの標的配列の一つ以上にハイブリダイズすると推定される候補プロトタイプ配列のリストを提供すること。各候補プロトタイプ配列に対応するプローブのコレクションであって、各プローブコレクションが、対応する候補プロトタイプ配列の所定の一定のサブ配列長を有するすべてのサブ配列に対するプローブのセットを有するコレクションを作製すること。
【解決手段】これらのセットは、対応するサブ配列と、対応するサブ配列の中心にあるヌクレオチドを変えることによって形成された、対応するサブ配列のあらゆる変異とからなる。各標的配列に対応する断片のセットであって、各断片セットが、対応する標的配列の所定の一定の断片長を有するすべての断片を有するセットを作製すること。各断片が、その断片の相補配列と結合する自由エネルギーを計算すること。いずれの結合自由エネルギーが上記所定の一定の閾値を超える場合には、その断片を一度に一塩基ずつ延長して、結合自由エネルギーが閾値を下回るか、断片がプローブと同じ長さになるまで、延長断片のセットを作製すること。どの延長断片が、プローブのいずれかに完全に一致するかを決定すること。各候補プロトタイプ配列に対応するベースコール配列を集める。このベースコール配列は、いずれかの延長断片に完全に一致する対応するプロトタイプ配列の各プローブの中央にあるヌクレオチドに対応するベースコールを有するが、完全に一致するプローブを含むプローブのセットの残りメンバーは、いずれの延長断片とも完全には一致せず、別の状況ではベースコールしない。

Description

本発明は、一般にリシークエンシングマイクロアレイ(resequencing microarray)の設計に関する。
DNAによる検出方法が普及するにつれて、分析結果の解析方法を設計、試験、および改善するためにインシリコ(in silico)法をもつことが重要になる。特に、高度に多重的な病原体検出法は、その必要性が高まっており、コスト、必要となるサンプル量、試薬、および測定時間という点で、複数の別々の試験法よりも効率が高い可能性がある。しかし、初期の開発、設計、および検証は、対数的に複雑で費用がかかり時間がかかるようになるかもしれない。微生物に関して新たに利用可能になった遺伝子配列情報を利用した正確なシミュレーションモデルによって、これらの高度に多重的なアッセイ法を開発するコストと時間を最小限にできる可能性がある。
すべて核酸によるアッセイ法に関する設計基準には、同じような全体的制約がある。標的とする生物を選択した後、標的生物種だけを非常に特異的に認識し、かつ、その種内のすべての遺伝的変異(すなわち系統またはサブタイプ)を捕捉できるプローブを選択するための方法を用いる必要がある。PCR、およびスポットされたオリゴヌクレオチドマイクロアレイ(非特許文献1);(非特許文献2);(非特許文献3);(非特許文献4)、アレイおよびオリゴヌクレオチドマイクロアレイ(非特許文献5);(非特許文献6)を、各々同じような要件をもつものに対するモデルを用いて行うためのインシリコ設計法が開発されている。プローブ、標的、および干渉断片の潜在的プールは非常に大きいため、最小限の計算で最大の標的特異的性をもたらすモデルが好適である。典型的なPCRプライマーまたはオリゴヌクレオチドマイクロアレイの設計アルゴリズムでは、プローブと、標的またはバックグラウンドとなる生物の配列との間で一致する塩基の数を数える。閾値となる一致数を超えれば、ハイブリダイゼーションが起きると想定される(非特許文献7);(非特許文献8)。プローブ−標的のハイブリダイゼーションの最終的な検出は、単一のシグナル強度(通常は蛍光)に依存し、これは推定されたシグナル強度とは相関しない可能性があるため、このレベルのモデリングでは不完全である。この結果、選択したものを検証するための実験を行って、ハイブリダイゼーションが起きたことを示す、強度のカットオフ値を確立するまでは、選択されたプローブがどのくらい有効であるかははっきりしないことになる。
より詳細な熱力学的モデル構築と計算法を用いて、マッチ−ミスマッチおよび単一マッチのマイクロアレイをよりよく理解すること、および強度を予測することが可能になった(非特許文献9);(非特許文献10);(非特許文献11);(非特許文献12);(非特許文献13)。このモデリング法は、表面へのプローブ結合、および断片の塩基含有による断片の二量体形成またはループ形成など、いくつかの重要な問題を説明する。一つまたは二つのプローブだけが標的にハイブリダイズするかもしれないという場合に、これらの問題を説明するのは比較的容易である。しかし、このようにモデルにおける細部が増えると、コンピュータ計算上の要件も増えるという点で高くつくことになる。
単純なオリゴヌクレオチドマイクロアレイ法とは対照的に、リシークエンシングマイクロアレイ法を用いた最近の実験によって、それらが、同時感染など、複数の病原体を検査し、近縁関係にある病原体のきめ細かな識別を行い、および/または病原体の変異を追跡するための実行可能な代替法であることが明らかにされた(非特許文献14);(非特許文献15)。各セットが所望の配列の一部を代表し、その中心となるヌクレオチド位置におけるすべての変異を表している4種類(または、アンチセンスも含まれる場合には8種類)の短いプローブのセットであるため、単一のプローブからのシグナルの絶対的な強度は、プローブセット全体にわたる示差的な結合/強度と比べると重要性が低くなる。この情報は、センス鎖とアンチセンス鎖の両方向で確認され、一つの特定の塩基が高い信頼度で存在することを確認するためだけに用いられる。標的生物のヌクレオチド配列を、特異的であると推定されたプローブの単一の蛍光シグナル強度に基づいて推測するのではなく、直接的に決定するためには、重複プローブのセットをこのように使用することが必要である(非特許文献16)。
さまざまなレベルの生物識別を広範囲に検出するについてのリシークエンシングマイクロアレイの有効性は、マイクロアレイ上に設置される参照配列または標的配列を選択するために用いられる方法によるかもしれない。考えられた生物のすべてについて、生物のために設けられた空間の量と、可能な識別レベルとのトレードオフ関係のバランスをとらなければならない。さらに、特異的プライマーまたは半特異的プライマーを、生物を濃縮するために使用する場合には、これらのプライマーの選択によって、参照配列となる可能性のあるものの選択が影響を受けるかもしれない。
Cleland et al.(2004)Development of rationally designed nucleic acid signatures for microbial pathogens,Expert Rev Mol Diagn,4,303−315 Gardner et al.(2005)Draft versus finished sequence data for DNA and protein diagnostic signature development.Nucleic Acids Res,33,5838−5850 Rychlik et al.(1989)A computer program for choosing optimal oligonucleotides for filter hybridization,sequencing and in vitro amplification of DNA.Nucleic Acids Res,17,8543−8551 Fitch et al.(2002)Rapid development of nucleic acid diagnostics.Proceedings of the IEEE,90,1708−1721 Herold et al.(2003)Oligo Design:a computer program for development of probes for oligonucleotide microarrays.Biotechniques,35,1216−1221 Mehlmann et al.(2006)Robust sequence selection method used to develop the FluChip diagnostic microarray for influenza virus.J Clin Microbiol,44,2857−2862 Herold et al.(2003)Oligo Design:a computer program for development of probes for oligonucleotide microarrays.Biotechniques,35,1216−1221 Mehlmann et al.(2006)Robust sequence selection method used to develop the FluChip diagnostic microarray for influenza virus.J Clin Microbiol,44,2857−2862 Matveeva et al.(2003)Thermodynamic calculations and statistical correlations for oligo−probes design.Nucleic Acids Res,31,4211−4217 Held et al.(2003)Modeling of DNA microarray data by using physical properties of hybridization.Proc Natl Acad Sci USA,100,7575−7580 Naef et al.(2003)Solving the riddle of the bright mismatches: Labeling and effective binding in oligonucleotide arrays.Physical Review E,68,011906 Zhang et al.(2003)A model of molecular interactions on short oligonucleotide microarrays.Nat Biotechnol,21,818−821 Wu et al.(2005)Sequence dependence of cross−hybridization on short oligo microarrays.Nucleic Acids Res,33,e84 Wang et al.(2006)Identifying Influenza Viruses with Resequencing Microarrays.Emerg Infect Dis,12,638−646 Lin et al.(2006)Broad−spectrum respiratory tract pathogen identification using resequencing DNA microarrays.Genome Res,16,527−535 Malanoski et al.(2006)Automated identification of multiple microorganisms from resequencing DNA microarrays.Nucleic Acids Res,34,5300−5311 Lin et al.(2006)Broad−spectrum respiratory tract pathogen identification using resequencing DNA microarrays.Genome Res,16,527−535 Lin et al.(2006)Broad−spectrum respiratory tract pathogen identification using resequencing DNA microarrays.Genome Res,16,527−535 SantaLucia(1998)A unified view of polymer,dumbbell,and oligonucleotide DNA nearest−neighbor thermodynamics.Proc.Natl.Acad.Sci.USA,95,1460−1465 SantaLucia et al.(2004)The thermodynamics of DNA structural motifs.Annu.Rev.Biophys.Biomol.Struct.,33,415−440 Wang et al.(2006)Identifying Influenza Viruses with Resequencing Microarrays.Emerg Infect Dis,12,638−646 Lin et al.(2006)Broad−spectrum respiratory tract pathogen identification using resequencing DNA microarrays.Genome Res,16,527−535 Davignon et al.(2005)Use of resequencing oligonucleotide microarrays for identification of Streptococcus pyogenes and associated antibiotic resistance determinants.J Clin Microbiol,43,5690−5695 Lin et al.(2007)Using a Resequencing Microarray as a Multiple Respiratory Pathogen Detection Assay.J Clin Microbiol.,45(2),443−452 Lin et al.(2007)J Clin Microbiol.,45(2),443−452。 Wang et al.(2006)Emerg Infect Dis,12,638−646 Malanoski et al.(2006)Automated identification of multiple microorganisms from resequencing DNA microarrays.Nucleic Acids Res.,34,5300−5311
設計プロセス全体は、一連の工程として特徴づけることができる。まず、生物、および各生物について所望の識別レベル、および特異的な核酸マーカーをテストすべきか否かを選択すること。第二に、既知の配列データから、参照配列を選び出す配列領域を決定すること。第三に、参照配列を選択して、不一致の可能性がないかをチェックすること。第四に、プライマーを選択すること。第五に、配列の選択をさらに調整すること。これらの工程のいくつかの順番は互いに換えることができ、調整は、変更を加えた後にこれらの工程のいくつかを反復することからなる。第一の工程は、常に、生物を選択すること、および設計に対する制約を表す、各生物の所望の識別レベルを選択することである。使用するマイクロアレイのサイズによって、設計の問題に対する別の制約が特定される。これらの制約の一つ以上を変えない限り、問題の解決は不可能かもしれない。しかし、その後の工程はすべて、これらの要件を満たすことを目的としている。
本発明は、以下を含む、コンピュータによって実行される方法を含む:生物リスト中の一種類以上の生物に関連する標的配列のリストを提供すること;標的配列の一つ以上にハイブリダイズすると推定される候補プロトタイプ配列のリストを提供すること;各候補プロトタイプ配列に対応するプローブのコレクションであって、各プローブコレクションが、対応する候補プロトタイプ配列の予め決められた一定のサブ配列長を有するすべてのサブ配列に対する、1セットのプローブを含み、このセットが、対応するサブ配列と、対応するサブ配列の中心にあるヌクレオチドを変えることによって形成された対応するサブ配列のすべての変異とからなるコレクションを作製すること;各標的配列に対応する1セットの断片であって、各断片セットが、対応する標的配列の予め決められた一定の断片長を有するすべての断片を含むセットを作製すること;各断片が、その断片の相補配列と結合する自由エネルギーを計算し、いずれかの結合自由エネルギーが、予め決められた一定の閾値を上回る場合には、その結合自由エネルギーが閾値を下回るか、その断片がプローブと同じ長さになるまで、その断片を一度に一ヌクレオチドずつ延長して、延長された断片のセットを作製すること;およびどの延長断片が、プローブのいずれかと完全に一致すると判定すること;ならびに各候補プロトタイプ配列に対応するベースコール配列を集めることであって、以下を含むもの:いずれかの延長断片と完全に一致する対応するプロトタイプ配列の各プローブの中心にあるヌクレオチドに対応するベースコールであるが、完全に一致するプローブを含むプローブのセットの残りメンバーは、いずれの延長断片とも完全には一致しないベースコール;および別の状況ではベースコールしないこと。
以下の実施例の記載および添付の図面を参照することによって、容易に本発明をより完全に理解することができる。
23から13までのさまざまなmの値を用いたモデルの結果例を示す。プロトタイプ配列(プローブセットを作製するために使用される)およびサンプル配列が、両配列で一致する塩基の上にアスタリスクを付けて示されている。また、さまざまなmの値に対する、各プローブセットについて再構築されたモデルベースコールの結果も示されている。領域Aは20個の連続して塩基をもつため、mが20よりも大きいときには、この領域内のプローブセットはどれも一致しない。これよりも長い領域Bは、m=23でベースコールするプローブセットを有する。各領域で、mが1か2増加すると、各辺縁部で1つか2つのベースコールが行われなくなる。これらのベースコールは、プローブの半分で、残りの半分よりも多く一致している断片に依存する。領域Cは、間にSNPがある、9塩基および12塩基の2つの連続した領域をもつ。このSNPセットの1つのプローブは、サンプルと一致する22塩基をもつが、この領域における、いずれのプローブセットにおける別のプローブで、12よりも一致するものはなく、そのため、Nについてのすべての値で、すべてがNコールになっている。 プライマー内の位置の関数として、プライマーから解析されたベースコールの頻度を示す。●−すべてGC含量;▲−50%以下、▼−50%以上 プライマー内の位置の関数として、プライマーから解析されたベースコールの頻度を示す。ΔG(白抜きの記号は、12000データポイントよりも少ないビン(bin)を意味する):*>−13、−13>■□>−16、−16>◆◇>−19、−19>▲△>−22、−22>▼▽>−25、−25>>●○ FluBHAのプロトタイプ配列と、RPMv.1マイクロアレイから従来のシークエンシングで得られたインフルエンザBのビクトリア系統株についての結果、およびモデル予測から得られた結果を示す。領域Aは、SNPが非常に離れているか、密接している部分の配列を表しており、モデルとマイクロアレイデータがよく一致している。領域Bには、中程度の頻度のSNPがあるが、モデルと実験との一致は低くなる。この挙動を、サンプル配列とプロトタイプ配列の間において差異のパーセントとして観察すると4%よりも高くなる。領域Cは、類似しているが、実測できたベースコール数がずっと多く、このような場合は10%でしか観察されなかった。 仮想的な基準標的、標的のリスト、およびプロトタイプ配列のリストを示している。 仮想的なプローブコレクションを示している。 断片と延長断片の仮想的なリストを示している。 プローブと延長断片とが完全に一致したものを示している。 仮想的なベースコール配列を示している。 各候補プロトタイプに適合する生物、および最終的な標的のリストの生成を示している。
以下の説明においては、説明することを目的とし、制限するものではなく、詳細な具体的事項は、本発明を完全に理解するために記載されたものである。しかし、これらの詳細な具体的事項から離れた別の実施態様において本発明を実施しうることは、当業者には明白である。別の具体例においては、周知の方法や装置の詳細な説明を省き、本発明の説明を不要な些事で曖昧にすることがないようにした。
DNAによる検出法、特に複数の病原体を検出するための方法の普及は、近年発表されている文献の量から明らかである。したがって、これらの方法の開発が、より複雑で費用がかかり時間がかかるようになるにつれて、これらの方法の設計、初期試験、および改良を補助するインシリコ法をもつことが重要になる。リシークエンシングマイクロアレイ法を用いた最近の実験によって、それらが、同時感染を含む、複数の病原体を検査し、近縁関係にある病原体のきめ細かな識別を行い、および/または病原体の遺伝子的な変異を追跡するための実行可能な代替法であることが明らかにされている。しかし、リシークエンシングアレイの特性から、個々のプローブレベルにおけるそれらの効率をモデリングするには、さまざまな基準が必要とされる。さらに、これらのアッセイの設計を、何百種類にもなるかもしれないプロトタイプ標的で最適化するのは、現行の方法ではまかない切れない。これらの問題に対処するために、リシークエンシングマイクロアレイのベースコーリングを予測するためのコンピュータ計算による効率的なモデルであって、ハイブリダイゼーションを予測するための単純な仮定から始まり、必要に応じて複雑さを加えて行くだけのモデルの開発に成功した。生物に関する大きなデータセット、および短いオリゴヌクレオチドのハイブリダイゼーション、およびAffymetrix CustomSeqマイクロアレイによるベースコーリングによって、モデルの検定と検証が可能になる。
マイクロアレイの特定のプロトタイプ配列上にあるサンプル配列について生じるベースコールを予測するモデルであって、リシークエンシングマイクロアレイに応用できるモデルを開示する。「プロトタイプ」配列は、病原体の標的配列の選択された範囲が、少なくとも部分的にハイブリダイゼーションできる、リシークエンシングアレイ上に置かれたプローブセットを作製するために利用されるゲノム配列に付けられた名前である。別のアレイを設計するときに用いられる規則と同様の規則が、迅速な計算を可能にする出発点であるが、より詳細な熱力学的情報が取り込まれている。このモデル開発は、生物に関する大きなデータセット、および短いオリゴヌクレオチドのハイブリダイゼーション、およびAffymetrixリシークエンシングマイクロアレイによるベースコーリングに対する検定を行うことによって促進することができる。このモデルは、非常に多様な標的生物配列のハイブリダイゼーションから得られるベースコールをうまく予測できている。さらに、それを用いて、マイクロアレイ上に示されているプロトタイプ配列が、どのくらいうまく、病原体標的の多様なセットに対して働くかを予測することができる。これは、リシークエンシングマイクロアレイの設計を簡単にするのに役立ち、具体的に応用するためにそれらを開発するのに必要な時間と費用を低減させる。
モデル概念−実験的には、プローブセットは、ある断片が、そのセット中の一つのプローブにより良好に結合すれば、特定の塩基が存在していることを示すに過ぎない。この反応をモデル化するために、プローブとサンプル配列が、m個の連続した相補的な塩基を持てば、観測可能なハイブリダイゼーションシグナルが発生するという中心的な仮定を設ける。これが、あるプローブに対するさまざまな配列の結合強度の差異を表す最も大まかな近似であり、最も単純なモデルを表している。これ以外のモデル構築は、プロトタイプ配列からプローブを作製し、サンプルからの結合する可能性がある断片を作製すること、そして、その中心的な仮定を用いて、各セットを互いに比較することからなる。
第1の工程は、プローブセットとサンプル断片を作製することである。プロトタイプ配列とするために選択された配列を、重複する4つのプローブのセットに分割する。ただし、セット中のプローブは、互いに、例えば25塩基長で、中心にある塩基が異なっている(すなわち、L塩基数の配列では、L−24個のプローブセットを作製する)。これは、実際に何がマイクロアレイ上に置かれるかを示している。サンプル配列では、m塩基長のユニークな断片すべてを作製する(すなわち、K塩基数の配列では、最大K−m+1個のユニークな断片を作製することができる)。実験で使用する断片は、これよりも長くすることができる(平均100塩基)。このモデルでは、m塩基数という最小限の要件が断片に存在する必要があるだけである。
マイクロアレイのプローブとサンプル断片が作製されたところで、サンプル配列に由来するすべての断片に対して、すべてのプローブセットの各プローブをテストして、完全な相補的一致が起きるか否かを判定する。一致するプローブを記録する。プローブセットがベースコールを生じさせる能力を、そのプローブの結果を考慮することにより評価する。そのセットの一つのプローブだけが、サンプル配列で一致する場合には、それが、そのプローブセットに割り当てられたベースコールであるから、次のプローブセットを調査する。サンプル断片のいずれも、プローブセットのどのメンバーとも一致しない場合には、塩基の一致が不明であることを表すNを割り当てる。1セットで二つ以上のプローブが一致した場合には、そのサンプル配列からより長い断片を作製して比較する。サンプル配列から5’−3’方向に、適当なプローブとミスマッチが起きるまで、各断片の隣接塩基を一度に一個ずつ付加して行く。ここで、これらの断片の一つが、その他の断片よりも長くなったなら、その塩基を割り当て、そうでなければ、Nを割り当てる。
すべてのプローブセットを試験した後、各プローブセットからのベースコール(A、C、T、G、またはN)を再構築して配列にする。図1は、23から13までのさまざまなm値(13よりも少ない長さは、非特異的に結合する可能性があるため使用しなかったが、使用することも可能である)を用いたモデルの結果例を示しており、さまざまな条件下で生じるいくつかのベースコールを示している。実験結果は、特異的なベースコールを生じさせるには、プローブの25塩基すべてに対して、または21塩基に対してさえも相補的である必要はないことを明確に示している。実験による更なる情報提供がないと、どの長さのmがもっとも適当かを決めることは難しい。
短いオリゴマー−短いオリゴヌクレオチドのハイブリダイゼーションに関する大量のデータを、サンプル増幅用の多重特異的プライマーを用いた、呼吸器病原体マイクロアレイv.1(RPMv.1)(非特許文献17)実験から得ることができた。ハイブリダイゼーションの前にサンプルから未使用のプライマーを取り除かないで、これらのプライマーのほとんどがプロトタイプ配列内に存在していたため、リシークエンシングマイクロアレイへの、長さが16から27塩基の多数の短いオリゴマーの結合を調べることが可能である。このデータセットは、2つの多重混合物用のものであるが、その一方は、117のプライマー(777実験数)を含み、もう一方(906実験数)は、117のプライマー混合物のサブセットである66のプライマーからなる。同一のプライマーとハイブリダイズするが、正確に一致して、ハイブリダイズさせるために利用できる塩基の数(13塩基からプライマーの長さまで、またはプローブの長さ、すなわち25塩基)が異なるプロトタイプ配列からは、複数のプローブセットが利用可能である。例えば、プライマーであるオリゴマーのどちらの末端の塩基も、13塩基のハイブリダイゼーションに基づくだけで塩基の同一性を判定することができるプローブセットを有する。その全体配列について50%よりも高いハイブリダイゼーションを示した、プロトタイプ配列のプライマーは、未使用のプライマーと標的の単位複製配列の中に組み込まれたプライマーとのハイブリダイゼーションを示しているため、解析には含まれなかった。利用可能なプライマーであるオリゴマーのコレクションからは、13から21のそれぞれの長さについて〜3×10があり、22では〜2×10、23では〜1.5×10、ならびに、24および25のそれぞれの長さでは〜7.5×10のデータポイントがあった。ベースコールは、以前の実験で使用されたGDASプログ、ラム設定(非特許文献18)によって行なった。
図2は、すべてのプライマー、およびそれらのGC含量に基づく2つのグループのプライマーについて、プローブにハイブリダイズすることができるプライマーの量に対する、不明確なベースコールの頻度を示している。最初の位置は、33%という頻度をもつが、これは、プローブの25塩基の13塩基に一致するだけのDNA断片が、3回に1回は、特異的かつ強力に結合して、ユニークなベースコールを十分に生成できることを示している。ハイブリダイズに利用できる塩基の長さが増すにつれて、ベースコールの頻度が高くなることが観察され、16個の長さになると50%以上になる。結合頻度をさらに理解するために、多重的なプライマーハイブリダイゼーションの結果を、それらのGC含量に基づいて2つのグループに分けた。GC含量が50%未満のもの、および50%以上または同等のものにグループ分けしたプライマーの平均値が示されている。この区分けでは、22個までの長さでは、低層におけるサンプル数が上層のほぼ2倍となる。ベースコールの頻度の違いがもっとも大きくなるのは13から14になるときである。GC含量が50%以上の場合には、これらの層には顕著に少ないプローグサンプルしかないため、23から25までの割合と傾向はより不確定性が高い。
プライマー組成の影響をより理解するために、図3では、nnモデルによって計算されたΔGに基づいて分けられたグループにおける各々の長さのプライマーを示している(非特許文献19);(非特許文献20)。これらのビンのいくつかには、ほとんどサンプルがないものがあり、それらの結果は、より高い不確定性を示す。それにもかかわらず、全体的には、ΔGが小さくなるにつれて、長さとは関係なく頻度が高くなるという傾向が見られる。興味深い点は、1つの完全なマッチプローブと3つのミスマッチプローブを使用すると、プローブの長さ(25塩基)よりも有意に短いオリゴマー長では、高いベースコール頻度が可能になることである。アレイ上でベースコールを生じる頻度が明らかに低いプローブだけが、長さが13および14で、ΔGが−13kcal/molより大きかった。ΔGが平均して−16kcal/molよりも低いプライマーは、ハイブリダイズする機会が50%以上あり、ベースコールを生じさせる。
修正されたモデル概念−結合頻度の傾向から得られた実験的証拠は、16よりも長いものは、何ら別のファクターを考慮することなく、解析されたベースコールを頻繁に生じる可能性が高いことを示している。より短いものでは、プローブのΔGが、ベースコールを解析する有効な機会があるか否かを判定する上で重要である。m=13のサンプルから作製した断片のΔGを決定するために、このモデルを改変した。断片の自由エネルギーの差が、カットオフ値である−14.5kcal/molよりも小さければ、それは許容される。カットオフ値よりも大きい場合には、そのエネルギーがカットオフ値よりも低くなるか、プローブの長さである25になるまで断片の長さを増やす。そして、得られた断片のリストを、すでに述べたようにして、すべてのプローブセットに対して比較する。
増幅、ハイブリダイゼーション、および配列決定−呼吸器病原体マイクロアレイv.1(RPMv.1)の設計および実験方法の詳細は、以前の実験において検討されている(非特許文献21);(非特許文献22);(非特許文献23);(非特許文献24)。診断領域を含む遺伝子の部分配列を、これらの病原体を検出するためのタイル(tile)とした。初期のプライマー解析に用いた、マイクロアレイの実験データは、臨床サンプルから、多重化RT−PCR増幅スキームを用いて得た。プライマーの結果を検定するための結果、およびカリフォルニア系統株のサンプルには、別の多重プロトコールを用いた(非特許文献25)。残りのインフルエンザのサンプルには、ランダムプロトコールを用いた(非特許文献26)。GCOS(商標)ソフトウェアv1.3(Affymetrix Inc.,Santa Clara,CA)を用いてプローブの強度を測定し、GDAS v3.0.2.8ソフトウェア(Affymetrix Inc.,Santa Clara,CA)を用いてベースコールを作成した。
ケース1:プライマー干渉を予測すること−モデルアルゴリズムの最初の試験的使用は、プロトタイプ配列とのプライマーの相互作用を最小にしようとした新規のプライマーを用いて、ブランクサンプル(核酸を加えない)を伴う42のマイクロアレイ実験で発生したベースコールを理解するためのものであった。プライマーは依然として存在していたため、それらは、サンプル配列の集合体として扱われ、チップ上のすべてのプロトタイプ配列に対するモデルを使用して試験した。このモデルは、実験では、依然としてプロトタイプ配列上に位置していたプライマーから生じるベースコールを正確に予測した。プロトタイプ配列の中心にある位置へのさらなる結合も見られ、実験結果と合致した。近縁の生物のプロトタイプ配列用に設計されたプライマーが、これらのベースコールを引き起こした。例えば、アデノウイルス4E1A遺伝子のプロトタイプ配列は、97%の時間コールされている20の予測塩基のうち19塩基を持つが、この配列の開始点から393塩基離れたところに位置している。領域の端における単一のヌクレオチド多型(SNP)である一つの塩基をコールすることが予測されたが、実験ではコールした12%の時間だけが観察された。この領域が、別のプロトタイプ配列と比較すると、アデノウイルス7E1Aプロトタイプ領域用に選択されたプライマー領域について一致したものである。同様の合致が、このモデルによって予測された別の47領域についても見られた。
ケース2:長い配列についてのモデル予測−より短い配列に関するモデルの正確性を実証するのに成功した後、全プロトタイプ配列についての予測を検討した。4種類のデータセットについて、このモデルにおけるサンプルの従来のシークエンシングを用いた結果を、マイクロアレイ実験結果と比較した。すなわち、インフルエンザA/H3N2福建(Fujian)様系統株、インフルエンザA/H3N2カリフォルニア(California)様系統株、インフルエンザB山形(Yamagata)/16/88系統株、およびインフルエンザBビクトリア(Victoria)/2/87が表1に報告されている。その結果、インフルエンザA/H3N2福建様系統株などのように高い類似性をもつサンプルの平均が報告され、これらの実験についての平均ベースコール率は85%であったが、一方、モデル予測では平均97%であった。プロトタイプ配列と従来の配列との間におけるSNPの平均数は9.8個(1%)であった。モデルは、9.2個のSNPだと予測されると解析されたが、実験では6.3個のSNPしか観察されなかった。モデルでは、この実験の特異的ベースコールは8.8個のNコールであると予測され、マイクロアレイには、このモデルが特異的ベースコールであると予測している94.9個のNコールがある。したがって、モデルとマイクロアレイの結果の間では、平均して14.3個のNコールが一致する。
Figure 2010509904
表2は、福建様系統株のサンプルに由来する特異的単離株(A/Nepal/1727/2004と同定)に関して、マイクロアレイ上で解析された6個のSNPのそれぞれの位置と、SNPを中心とする25塩基長のウィンドウ内でNとコールされた更なる塩基の数を示している。全ベースコール率は、モデルでは97.4%、マイクロアレイでは88.4%であった。この情報を用いてNコールをグループ分けすると、46個のNコールがSNPと密接に関係しており、29個のNコールがマイクロアレイ全体に均一に広がっていて、ほとんどが、解析された塩基で囲まれた単一のNコールからなっているが、稀に、2つの連続したNコールか、3塩基からなるグループ内に2つのNコールがある。従来の配列とプロトタイプ配列とを比較すると、このサンプルは全部で8個のSNPをもち、マイクロアレイ上で確認されなかった2つのSNPは両方とも、同定されたSNPの近傍に位置していた。7個の異なるSNPの近傍に位置する12個のNコールについては、モデルとマイクロアレイが一致したが、SNPの近傍にあるとモデルで予測された別の6個のNコールは、実験では解析されたため、これは、モデルにおける矛盾を示している。
Figure 2010509904
プロトタイプ配列は、インフルエンザA/H3N2カリフォルニア様系統株のサンプルについては1.5%、インフルエンザB山形/16/88系統株のサンプルについては3.7%、およびインフルエンザBビクトリア/2/87インフルエンザ系統株のサンプルについては9.8%、サンプルの配列とは異なっていた。これらの結果は、従来の配列およびマイクロアレイの間でN以外のベースコールにも一致しないものがあるという点でも、第1グループのサンプルと異なっていた。インフルエンザA/H3N2福建様系統株と同じプロトコール下で操作されたインフルエンザBサンプルには、1個(山形系統株)および4個(ビクトリア系統株)のベースコールの違いがあった。これらのベースコールはすべて、多数の解析されたベースコールからなるいずれかの領域に少なくとも3個のNコールがあり、かつ、モデルが、これらの位置にNベースコールがあると予測していた領域で生じた。インフルエンザA/H3N2カリフォルニア様系統株のサンプルは、別のプロトコールを用い、不一致部分の近くに多数のNコールがあるため、解析された塩基が多数ある領域からそれらを区別する少なくとも3個のNコールを一貫して持っているわけではない。ベースコールに関する、この99.87%という精度は、単一のマイクロアレイ実験から得られるベースコールを決定するときに予想される合理的な誤差率である。
このモデルは、プロトタイプ配列とは1%から4%異なるサンプルについて予測されるベースコールの割合については同じような成績を有するが、この違いが〜10%に増加すると僅かに良好な一致を示す。しかし、包括的なベースコール比率は、モデルの成績を誤解させる指標ともなりえる。Nコールは3つのグループに分けることができる。すなわち、モデルでは予測されたが、実際には観察されなかったNコール、実際に観察されたが、モデルでは予測されなかったNコール、および予測および観察されたNコールである。この傾向を検討すると、同じプロトコールで行った3つのサンプルセットでは、変異の量が1%から10%に増加すると、観察されたNコールと一致する予測されたNコールが最大量まで増加し、モデルが正確になるところを反映していることが分かる。観察されたが予測されなかったNコールは、ほぼ一定している。モデルではNコールとされたが、チップでは解析されたベースコールも増加する。10%で見られたベースコールの割合についての一致が改善されたのは、ベースコール全体が増加したためである。全体的に、その他のインフルエンザA/H3N2のサンプルは、その他のデータセットと同じように反応し、いくつかの細かな違いは、おそらく、用いたプロトコールの違いを反映している。SNPがより高頻度に存在するときにモデルが正確でなかったとしても、頻度の低い領域を正しく同定して、それらを、本発明者らが現在行っている病原体識別解析に使用する。図4は、10%の異なるインフルエンザBサンプルの部分を示している。すべてのサンプルセットで、Nコールまたは解析されたコールの大きな鎖のような特徴がいくつか存在する。これらの領域からのベースコールの鎖が、解析プログラムCIBSIv.2でもっとも頻繁に使用されるものである。図4のB領域は、Nコールが予測されていた領域において散在するベースコールを示しており、4%以上の変異を有するサンプルセットに見られる。図4のC領域は、この領域でより実験的に解析されたベースコールがNと予測されていたものがより多いという点を除けば、領域Bと似ている。この種の反応は、10%の変異をもつサンプルで観察されただけである。
このモデルを用いて、サンプルの従来のシークエンシングではなく、ゲノム配列データベースから入手した代表的な配列を用いたときの生物の反応を理解することができる。一例では、インフルエンザA/プエルトリコ/8/34株をマイクロアレイ上での試験におけるスパイクとして使用したところ、この実験は、ノイラミニダーゼおよびマトリックスのプロトタイプ配列については有意なベースコール率を示した。これは、2つのプロトタイプ配列において有意なベースコールを生じると思われる領域を正確に同定し、かつ、インフルエンザA/プエルトリコ/8/34株の配列とプロトタイプ配列との違いによって、有意でない数のベースコールが血球凝集素のプロトタイプ配列に起こりうると予測したモデルシミュレーションと矛盾しない。
十分に定義された短鎖オリゴマープローブを用いて、リシークエンシング用のマイクロアレイプローブセットの大規模なコレクションを調べたところ、16個の連続した相補塩基しかない短鎖断片が、顕著に短い時間で正確に塩基を区別できることを明確に示した。このハイブリダイゼーションは、GC含量とまたは算出されたΔGとも無関係であり、GC含量またはΔGが好都合であれば、僅か13塩基しかないセグメントもコールを生じることができる。本研究において開発された、ハイブリダイゼーションパターンを予測する単純なモデルは、13個の連続した塩基の完全な一致だけが特異的結合に必要であると仮定した場合に、実験結果と非常によく合致していた。結合断片のΔGの予測サイズが、最小限のサイズ要件と一致しなければならないとすることによっても、より良好な合致をもたらした。リシークエンシングマイクロアレイについて予想されるのは、プローブと完全に一致するのが25塩基よりも少ない断片では、結果的にヌクレオチドのベースコールを伴う、有意な量の特異的ハイブリダイゼーションが生じることである。プライマーを試験したところ、高度に多重化されたシステムにおいては、プライマーがプロトタイプ配列とクロスハイブリダイゼーションする可能性をすべて除去するのは困難であることが明らかになった。しかし、マイクロアレイ上でのプローブ−標的ハイブリダイゼーションを予測できるのであるから、結果を解析するときにクロスハイブリダイゼーション効果を計上することは簡単であって、物理的に除去する必要はない。このモデルは、特に、その開発を推進した応用法で適度に良好に機能し、この検出法が複合的な混合物において機能する理由についての洞察をもたらした。このモデルは、Affymetrix社のマッピングアレイ法および遺伝子判別アレイ法など、プローブセットを選択するためのさまざまな基準で完全なマッチ−ミスマッチプローブセットを用いる別のマイクロアレイの反応を予測するのにも適用可能でなければならない。
インフルエンザBのサンプルを考慮すると、13の連続した相補塩基がハイブリダイゼーションに必要とされると、プローブに結合しうる断片が見あたらなくなってしまう場合がありうることが明らかになる。この証拠は、1個のミスマッチを含み、十分な強さの結合エネルギーをもつ断片が、ベースコールをもたらしうることを示唆している。残念ながら、現在利用可能なインフルエンザBのいくつかのサンプルでは、断片がミスマッチを含むときにどんなエネルギーを有するべきかを実際に確認することができない。このモデルのもう一つの欠点は、SNPと密接に関連していないNコールを予測できないことと関係がある。実験によるマイクロアレイ結果は、1サンプルにつき1つのマイクロアレイ結果しか提供することができない。したがって、散在するNコールが再現可能な形で出現するのか、それとも多くのファクターがその挙動に影響しうるためにランダムな形で出現するのかを判定することができない。自己ループ構造が形成されると、一致予測と観察された実験パターンが得られなかったため、これをモデルにおける支配的因子として除いた。
現行のモデルを用いて、解析プログラムCIBSI V2.0(非特許文献27)を用いて同定しようとする選択されたプロトタイプ配列の中にある目的の病原体に対して十分なベースコールが起きるか否かを予測することができる。プローブの配列と80%より多く異なる配列では、ほとんどの場合、有意量のベースコールができるほど十分な数の一致する塩基が連続しておらず、本発明者らの方法では生物識別はできないという簡単な経験則を設けることができる。これは、プローブ配列が検出できる最大数の参照系統に対する上限を迅速に評価する有用な方法である。開発されたモデルを、この範囲内にある配列に対して適用して、どの生物が検出可能か、およびプロトタイプ配列の効率をより正確に予測することができる。
モデリングの結果は、マイクロアレイに包含させるプロトタイプの選択に利用することができる。全体的な設計過程は、生物学的脅威病原体用および地域(例えば、アフリカ)生物特異的マイクロアレイ用の次のマイクロアレイ設計において実行することができる。生物から地域を同定することは、文献検索だけで可能か否か分からない。これは、より大きなゲノム標的用の重要なツールであり続けるが、より小さなゲノムを有するウイルス有機体にとっては不必要であり得る。あらゆる設計に利用できる生物検出法は、一連の工程として特徴づけることができる。第一に、配列のリストは、参照配列へのハイブリダイゼーションの効果をチェックできるように、標的配列および遺伝子的に近い任意の隣接者の配列を含むためのものである。アラインメント処理(BLAST)に適合する塩基の割合から、ハイブリダイゼーションの包括的な予測因子を得ることができる。もっとも利用可能性の小さいハイブリダイゼーションプログラムを広くもたらす割合よりも低いカットオフ基準を用いることによって、BLASTのクエリーから、さまざまな領域でハイブリダイズすることが潜在的に可能な配列のリストを構築することが可能である。この配列リストは、参照配列へのハイブリダイゼーションの効果をチェックできるように、標的配列および遺伝子的に近い任意の隣接者の配列を含むためのものである。第二に、配列の選択を分類学的情報と結合して、各領域が、所望のレベルの識別をもたらすことができるか否か、および、その検出が所望の標的だけに限られるのか、そうでないのかを評価することができる。これによって、参照配列が効果的に検出することができる生物の可能な数に直ちに上限を設けることができる。第三に、最も良好な候補領域を決定した後、上記方法を用いる。第四に、各系統株が検出できる系統株の数のリストを作成し、参照系統株を選択するための基準として用いる。第五に、最も多くの他の系統を検出する系統株をリストから除外して、第一の参照系統株として用いる。それが検出することのできるすべての系統をリストから除外する。残った系統のうち、最も多くの他の系統を検出する系統株を次の参照系統として選択する。配列を標的とだけ比較すると制限するのではなく、一般的な公式では、検出する必要がある配列のそれぞれを潜在的な参照配列として検定する。BLASTを用いて、配列のどのサブセットがハイブリダイズする機会があるかを判定して、クエリーから、同定する可能性がある他の生物配列を得る。このサブセットを、ハイブリダイゼーションを予測するためのより詳細なモデルによってシミュレートする。得られたハイブリダイゼーションを、以前に利用した単純な基準ではなく、リアルチップ上でのハイブリダイゼーションを分類するために開発された検出アルゴリズムを用いて評価する。ここで、各潜在的参照配列について、検出することができる標的配列および非標的配列の数に対するさらに精密化された上限を確立することができる。そして、必要とされる識別レベルを提供するために最小限のスペースを用いるやり方で、使用する参照配列の選択を進める。そして、これらの配列を選択し終わったところで、プライマーの選択を行う。
この方法は、以下の特徴をもつ。この方法は、参照配列の選択を決定するのに公表文献だけに依存しない。なぜなら、それらは、公表後の新しい生物配列を加えるには古くなりすぎている可能性があるからである。その設計スキームでは、製造を行う前に、選択された参照配列の妥当性を独立してチェックすることが規定されている。これは、以前のチップ設計の成績に基づいたマイクロアレイの設計間でのみ可能であった、選択された参照配列に対する改良となるかもしれない。この方法では、事前の検証を行うことなく特定された識別レベルを提供することができる参照配列のより小さなセットを決定することができる。この方法は、標的遺伝子を選択するための自動的処理を可能とし、チップ設計用に転換する時間を短縮することができる。
本発明を説明したところで、本発明の具体的な適用を説明するために以下の実施例を記載する。これらの具体的な実施例は、本出願に記載された発明の範囲を制限するものではない。
短い配列をもつ仮想例−以下に、どの特定の現実の生物種にも対応しないようにした人工的な短い配列を用いて、開示されている方法説明する。生物種A、B、C、D、およびEを検出するためのリシークエンシングマイクロアレイを製造することが望ましい。本明細書において使用されている「種」は、分類学上の種、および、単一種のさまざまな型または系統、ならびにそれらが混合しているものを意味する。名目的な標的1(図5)が、これらの種の少なくとも一つのゲノムに存在することが知られている。BLASTなどのデータベースを用いて、類似配列の検索を行って標的のリストを作成する。最小の類似率、例えば、70%を用いて、結果をフィルターにかける。多すぎる標的、または、遺伝的に遠縁の種など、多すぎる種に由来する標的が報告された場合には、類似率を上げてリストのサイズを小さくすることができる。また、このリストを手作業で検討して、特定の望ましくない標的を削除することもできる。
図5は、仮想的な標的10〜40のリストを示す(「10〜40」などの数量範囲を表すときには、その数字だけを含み、10〜40のすべての数字を含むものではない)。標的のリストは、コンピュータ装置に提示されるが、この装置は、このリストを作成するために用いたコンピュータと同じであってもよい。このリスト、および本実施例でその後に記載されたすべてのデータで、少なくとも最大でアセンブリさせたベースコール配列になるまで、コンピュータのメモリまたは媒体に保存する。本実施例における候補プロトタイプ配列100〜400のリストは、標的10〜40のリストと同じであるが、それが必要とされるわけではない。
図6は、候補プロトタイプ配列100〜400に由来するプローブ111〜434の仮想的なコレクションを示している。これらのプローブのサブ配列の長さは7個が選択されるが、別の数値を使うことも可能である。プローブ111〜134は、候補プロトタイプ配列100に由来し、以下も同様である。プローブ111は、候補プロトタイプ配列100の最初の7個の塩基である。プローブ112〜114は、中心位置におけるプローブ111の単一ヌクレオチド多型である。プローブ111〜114が、1セットのプローブを構成する。プローブ121および131も、候補プロトタイプ100の7塩基のサブ配列であり、それぞれ、1塩基ずつ右にずれている。したがって、候補プロトタイプ100の可能な3種類の7塩基のサブ配列のすべてが、プローブのコレクションに入っている。プローブ122〜124および132〜134は、それぞれプローブ121と131の単一ヌクレオチド多型である。
図7は、標的10〜40に由来する断片11〜46の仮想的なリストを示している。この断片長は4と選択されるが、別の数値を用いることも可能である。したがって、長さが9の標的には、6種類の可能な断片がある。また、当初の断片の一部と、標的から余計な塩基を付加して作製された、いくつかの断片を含む延長断片11’〜46’のリストも示されている。延長断片は、各断片の、その断片の完全な相補鎖と結合する自由エネルギーを計算して作製される。ある断片に関する結合自由エネルギーが、予め決められた一定の閾値を上回る場合には、その結合自由エネルギーが閾値を下回るか、その断片がプローブと同じ長さになるまで、その断片を一度に一ヌクレオチドずつ延長する。結合自由エネルギーを計算するのに適した方法は、オリゴヌクレオチド最近隣法であるが、別の方法を用いることも可能である。Affymetrix社のリシークエンシングアレイ法で使用するのに適した結合自由エネルギー閾値は、約−14.5kcal/molであるが、別の数値を使用することも可能である。(本実施例は例示的なものであるため、この実施例では正確な計算を行わなかった)。
図8は、プローブと延長断片とが完全に一致したものを示している。111、131、211、221、231、321、411、および421から始まる、これらのプローブセットは、いずれかの延長断片に一致するプローブを1つだけ含む。ベースコール配列をアセンブルするとき、これらのセットは、セット中の最初のプローブ(非多型)の中心塩基と同じベースコールを生じる。121、311、331、および431で始まるこれらのプローブセットは、いずれかの延長断片と一致する1つより多いプローブを含む。非ベースコール(「N」)が、これらのプローブセットに割り当てられる。一致が全く見られないプローブセットがある場合、これらにも非ベースコールが割り当てられる。各候補プロトタイプ配列に対するベースコール配列、およびそれらが由来するプローブセットを図9に示す。
図10は、各候補プロトタイプについて一致する生物のリストを示している。確認された生物が、対応する候補プロトタイプを含む。これは、外部のデータベースを参照して決定することができる。ベースコールの最小数として2が選択されるが、これよりも大きい数字、例えば、50などを用いることも可能である。このため、候補プロトタイプ300に関しては、このベースコール配列(NGN)は1個のベースコールしか含んでいないため、一致した生物のリストを作成する必要はない。ほとんどの生物と一致するような場合にも、このことが当てはまる。候補プロトタイプ400は、ほとんどの生物(A、B、およびE)と一致する。これを最終的なプロトタイプのリストに加えて、候補プロトタイプのリストから削除する。A、B、およびEが生物のリストから削除される。この時点で、候補プロトタイプ100は、残りの生物(CおよびD)の2つと一致するが、候補プロトタイプ200は1つ(C)としか一致しない。候補プロトタイプ100を最終的なプロトタイプのリストに加えて、候補プロトタイプのリストから削除する。CおよびDが生物リストから削除される。生物のリストはここで空になるため、これ以上のプロトタイプを最終的プロトタイプリストに移せなくなる。
各最終的なプロトタイプ配列に対応するプローブの各セットを含むリシークエンシングマイクロアレイを製造することができる。ここで、マイクロアレイは、プローブ111、112、113、114、121、122、123、124、131、132、133、134、411、412、413、414、421、422、423、424、431、432、433、および434を含む。このプローブセットは、すべての標的を検出しなかったとしても、各生物を検出できる。このマイクロアレイは各プローブに相補的な配列も含みうる。
この実施例は、単一の名目的標的に基づいているが、1つ以上の名目的標的を使用することも可能である。標的配列は、生物のサブセットで共通する単一遺伝子に対応していてもよく、生物のリストは、単一種の複数系統含んでいてもよい。得られた最終的プロトタイプリストですべての生物を検出できない場合には、例えば、標的、候補プロトタイプ、プローブ長、断片長、およびベースコールの最小数など、さまざまなパラメータで、この方法またはその一部を繰り返すことができる。
エンテロウイルスおよびアデノウイルス−エンテロウイルスおよびアデノウイルスを生物のリストとして用いて、この方法を行った。最終的なプロトタイプ配列を配列番号:14〜51として同定している。これらのプロトタイプから作製されたプローブセットを含むリシークエンシングマイクロアレイを作製して、RPMv.3と名付けた。
上記の教示を参照すれば、明らかに、本発明の多くの修正および変更が可能である。したがって、請求項記載の発明を、上記で具体的に記載されているのとは別の方法で実施することができる。例えば、「1つの(a)」、「1個の(an)」、「その(the)」、または「前記(said)」などの冠詞を用いて、単数形で請求項の構成要素に言及する場合には、その構成要素を単数に限定すると解釈してはならない。

Claims (13)

  1. 生物リスト中の一種類以上の生物に関連する標的配列のリストを提供することと、
    標的配列の一つ以上にハイブリダイズすると推定される候補プロトタイプ配列のリストを提供することと、
    各候補プロトタイプ配列に対応するプローブのコレクションであって、各プローブコレクションが、対応する候補プロトタイプ配列の所定の一定のサブ配列長を有するすべてのサブ配列に対する、1セットのプローブを含み、前記セットが、対応するサブ配列と、対応するサブ配列の中心にあるヌクレオチドを変えることによって形成された対応するサブ配列のすべての変異とからなるコレクションを作製することと、
    各標的配列に対応する1セットの断片であって、各断片セットが、対応する標的配列の所定の一定の断片長を有するすべての断片を含むセットを作製することと、
    各断片が、その断片の完全な相補配列と結合する自由エネルギーを計算し、いずれかの結合自由エネルギーが、所定の一定の閾値を上回る場合には、その結合自由エネルギーが閾値を下回るか、その断片がプローブと同じ長さになるまで、その断片を一度に一塩基ずつ延長して、延長された断片のセットを作製することと、
    どの延長断片が、いずれかのプローブと完全に一致すると判定すること、ならびに各候補プロトタイプ配列に対応するベースコール配列を集めることと、を含み、
    いずれかの延長断片と完全に一致する対応するプロトタイプ配列の各プローブの中心にあるヌクレオチドに対応するベースコールであるが、完全に一致するプローブを含むプローブのセットの他のメンバーは、いずれの延長断片とも完全には一致しないベースコールと、
    別の状況では非ベースコールとを含む、コンピュータによって実行される方法。
  2. 標的配列のサブセットが、生物のサブセットに共通する単一遺伝子に対応する、請求項1に記載の方法。
  3. 生物のリストが、単一種の複数の系統を含む、請求項1に記載の方法。
  4. 少なくとも一つの生物で見られることが知られている名目的な標的配列を選択することと、
    名目的な標的配列に対して、少なくとも所定の程度の類似性を有する追加的な標的配列を付加するために、既知の配列のデータベースに対して類似性検索を行うことと、
    標的配列のリストと同一の候補プロトタイプ配列のリストを作成することと、をさらに含む、請求項1に記載の方法。
  5. サブ配列の長さが25個である、請求項1に記載の方法。
  6. 断片の長さが13個である、請求項1に記載の方法。
  7. 結合自由エネルギーが、オリゴヌクレオチド最近隣モデルに従って計算される、請求項1に記載の方法。
  8. 結合自由エネルギーの閾値が約−14.5kcal/molである、請求項1に記載の方法。
  9. 各候補プロトタイプ配列について、前記候補プロトタイプ配列に対応するベースコール配列が一定の最小数のベースコールを含む、前記候補プロトタイプ配列を含む、一致する生物のリストを作製することと、
    一致する生物の最も長いリストに対応する候補プロトタイプ配列を、最終的なプロトタイプ配列のリストに移動させることと、
    前記生物のリストから移されたプロトタイプ配列に対応する一致する生物を削除することと、
    前記生物リストが空になるまで移動および削除を繰り返すこととをさらに含む、請求項1に記載の方法。
  10. ベースコールの最小数が50である、請求項9に記載の方法。
  11. 各最終的なプロトタイプ配列に対応するプローブの各セットを含むリシークエンシング用マイクロアレイを製造することをさらに含む、請求項9に記載の方法。
  12. 請求項11に記載の方法によって製造されたマイクロアレイ。
  13. マイクロアレイが、マイクロアレイ上の各プローブに相補的な配列をさらに含む、請求項11記載の方法。
JP2009525756A 2006-08-22 2007-08-22 配列が解明された生物を検出および同定するための遺伝子標的の設計と選択 Expired - Fee Related JP5112435B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US82310106P 2006-08-22 2006-08-22
US60/823,101 2006-08-22
US82351006P 2006-08-25 2006-08-25
US60/823,510 2006-08-25
US11/559,513 2006-11-14
US11/559,513 US8965710B2 (en) 2004-07-02 2006-11-14 Automated sample-to-microarray apparatus and method
PCT/US2007/076499 WO2008024827A2 (en) 2006-08-22 2007-08-22 Design and selection of genetic targets for sequence resolved organism detection and identification

Publications (2)

Publication Number Publication Date
JP2010509904A true JP2010509904A (ja) 2010-04-02
JP5112435B2 JP5112435B2 (ja) 2013-01-09

Family

ID=39107626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009525756A Expired - Fee Related JP5112435B2 (ja) 2006-08-22 2007-08-22 配列が解明された生物を検出および同定するための遺伝子標的の設計と選択

Country Status (9)

Country Link
EP (1) EP2054719B1 (ja)
JP (1) JP5112435B2 (ja)
KR (1) KR101205619B1 (ja)
CN (1) CN101535802B (ja)
AU (1) AU2007286734B2 (ja)
CA (1) CA2657448A1 (ja)
NO (1) NO20091192L (ja)
NZ (1) NZ574942A (ja)
WO (1) WO2008024827A2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011358564B9 (en) * 2011-02-09 2017-07-13 Natera, Inc Methods for non-invasive prenatal ploidy calling
CN111315860A (zh) * 2017-11-10 2020-06-19 横河电机株式会社 微生物污染对策选定装置、微生物污染对策选定系统、微生物污染对策选定方法及微生物污染对策选定程序

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020086289A1 (en) * 1999-06-15 2002-07-04 Don Straus Genomic profiling: a rapid method for testing a complex biological sample for the presence of many types of organisms
US20050227222A1 (en) * 2004-04-09 2005-10-13 Massachusetts Institute Of Technology Pathogen identification method

Also Published As

Publication number Publication date
KR101205619B1 (ko) 2012-11-27
CN101535802A (zh) 2009-09-16
AU2007286734B2 (en) 2011-06-16
CA2657448A1 (en) 2008-02-28
NO20091192L (no) 2009-05-20
CN101535802B (zh) 2013-09-11
EP2054719B1 (en) 2014-07-23
KR20090060303A (ko) 2009-06-11
EP2054719A2 (en) 2009-05-06
NZ574942A (en) 2012-02-24
EP2054719A4 (en) 2013-03-27
WO2008024827A2 (en) 2008-02-28
AU2007286734A1 (en) 2008-02-28
JP5112435B2 (ja) 2013-01-09
WO2008024827A3 (en) 2008-12-11

Similar Documents

Publication Publication Date Title
Dalma‐Weiszhausz et al. [1] the Affymetrix GeneChip® platform: an overview
EP2923293B1 (en) Efficient comparison of polynucleotide sequences
EP1200820A2 (en) Iterative probe design and detailed expression profiling with flexible in-situ synthesis arrays
US20110105346A1 (en) Universal fingerprinting chips and uses thereof
JP4887061B2 (ja) プライマー−プローブセットを設計する方法、それによって設計されたプライマー−プローブセット、該セットを含むキット、該方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体、および該セットを利用した標的配列の同定方法
CN101360834B (zh) 识别核苷酸序列的方法与探针
US7668664B2 (en) Design and selection of genetic targets for sequence resolved organism detection and identification
JP4286243B2 (ja) プローブセットを設計する方法、それによって設計されたプローブが固定化された基板を有するマイクロアレイ及び該方法をコンピュータで実行可能なプログラムとして記録したコンピュータで読み取り可能な記録媒体
JP5112435B2 (ja) 配列が解明された生物を検出および同定するための遺伝子標的の設計と選択
Pylatuik et al. Comparison of transcript profiling on Arabidopsis microarray platform technologies
US20080228409A1 (en) Systems and methods for probe design based on experimental parameters
US6994965B2 (en) Method for displaying results of hybridization experiment
Hubank review Gene expression profiling and its application in studies of haematological malignancy.
US7734424B1 (en) Ab initio generation of single copy genomic probes
WO2014160736A1 (en) Systems, algorithms, and software for molecular inversion probe (mip) design
Haslam et al. Optimal probe length varies for targets with high sequence variation: implications for probe library design for resequencing highly variable genes
US20080027653A1 (en) Systems and methods for probe qualification
Alon et al. Multi-node graphs: a framework for multiplexed biological assays
Haslam et al. Optimal Probe Length Varies for Targets with High Sequence Variation
Wang et al. and Xing Wang Deng
Kirk Bioinformatic analyses of microarray experiments on genetic control of gene expression level
Zhang et al. A New Set of Algorithms for Designing Ultra-Specific Probes for High-Throughput Allele Detection
WO1999014369A1 (en) Techniques for identifying, confirming, mapping and categorizing polymers
Almeida et al. Design of microarray probes for detection of mutations
Rangel-López et al. Methods, strategies and facts for improving the analysis of genetic variations using DNA arrays

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120215

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120215

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120227

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120315

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121010

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees