JP4910104B2 - コンピュータ実施の生物学的配列識別子のシステム及び方法 - Google Patents

コンピュータ実施の生物学的配列識別子のシステム及び方法 Download PDF

Info

Publication number
JP4910104B2
JP4910104B2 JP2008516959A JP2008516959A JP4910104B2 JP 4910104 B2 JP4910104 B2 JP 4910104B2 JP 2008516959 A JP2008516959 A JP 2008516959A JP 2008516959 A JP2008516959 A JP 2008516959A JP 4910104 B2 JP4910104 B2 JP 4910104B2
Authority
JP
Japan
Prior art keywords
taxonomic
sequence
identifier
subsequence
reference sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008516959A
Other languages
English (en)
Other versions
JP2008547090A (ja
Inventor
ピー マラノスキ,アンソニー
リン,バオチャン
エム シュナー,ジョエル
エイ ステンジャー,デビッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
US Government
Original Assignee
US Government
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/177,647 external-priority patent/US8032310B2/en
Priority claimed from US11/268,373 external-priority patent/US20080020379A1/en
Priority claimed from US11/422,431 external-priority patent/US7623997B2/en
Application filed by US Government filed Critical US Government
Publication of JP2008547090A publication Critical patent/JP2008547090A/ja
Application granted granted Critical
Publication of JP4910104B2 publication Critical patent/JP4910104B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Description

本発明は一般的に生物学的配列の処理に関する。
サーベイランス及び診断の両方の用途のために、ファインスケール病原体識別及び近親判別は重要である。従って、この非常に特異的なレベルでモニタリングする試験は臨床環境中では望ましい(非特許文献1〜3)。DNA又はRNA検出に基づく如何なる方法をも首尾よく使用するために、これらの試験は、確実に所望の情報を得るための試験デザインのための、及び生データの解釈のための核酸配列情報の大型データベースに連結されるべきである。リアルタイムPCRのような種々の十分確立された技術は、配列決定されたゲノムの短鎖でユニークなストレッチを使用して、良好な特異性を得る(非特許文献4)。これらの技術は十分な数量のセグメントを選択することにより、種々の遺伝子的に近い生物のファインスケール識別名を提供することができる。しかしながら、初期の選択処理中で特異的であったこれらの選択されたセグメントは、より多くの生物が配列決定されるにつれ、後に、より低特異性であることが判明することが多い。これは特に高い突然変異率を有するファミリーに属する病原体に対して、及び相対的に少ない識別された近隣病原体を有する病原体に対してもまた問題である。加えて、リアルタイムPCRは新規の重要な突然変異の存在を検出できず、塩基配列詳細も解明できない。同様に、他の検出技術における進歩により病原体識別名を得る方法が提供されたが、PCR使用の問題の一部又は全てを欠点として有している(非特許文献5〜8)。
Whelen,A.C.and Persing,D.H.(1996)The role of nucleic acid amplification and detection in the clinical microbiology laboratory.Annu Rev Microbiol,50,349−373. McDonough,E.A.,Barrozo, C.P., Russell,K.L. and Metzgar,D.(2005)A multiplex PCR for detection of Mycoplasma pneumoniae,Chlamydophila pneumoniae,Legionella pneumophila,andBordetella pertussis in clinical specimens.MoI Cell Probes,19,314−322. Roth,S.B.,Jalava,J.,Ruuskanen,O.,Ruohola,A.and Nikkari,S.(2004)Use of an oligonucleotide array for laboratory diagnosis of bacteria responsible for acute upper respiratory infections./Clin Microbiol,42,4268−4274. Gardner,S.N.,Kuczmarski,T.A.,Vitalis,E.A.and SIezak,T.R.(2003)Limitations of TaqMan PCR for detecting divergent viral pathogens illustrated by hepatitis A,B,C,and E viruses and human immunodeficiency virus.J Clin Microbiol,41,2417−2427. Ecker,D.J.,Sampath,R.,Blyn,L.B.,Eshoo,M.W.,Ivy,C,Ecker,J.A.,Libby,B.,Samant,V.,Sannes−Lowery,K.A.,Melton,R.E.et al.(2005)Rapid identification and strain−typing of respiratory pathogens for epidemic surveillance.Proc Natl Acad Sd USA,102,8012−8017. Zammatteo,N.,Hamels,S.,De Longueville,F.,Alexandre,L,Gala,J.L.,Brasseur,F.and Remacle,J.(2002)New chips for molecular biology and diagnostics.Biotechnol Annu Rev,8,85−101. Campbell,CJ.and Ghazal,P.(2004)Molecular signatures for diagnosis of infection:application of microarray technology.J Appl Microbiol,96,18−23. Briese,T.,Palacios,G.,Kokoris,M.,Jabado,O.,Liu,Z.,Renwick,N.,Kapoor,V.,Casas,L,Pozo,F.,Limberger,R.et al.(2005)Diagnostic system for rapid and sensitive differential detection of pathogens.Emerg Infect Dis,11,310−313.
高密度再配列決定マイクロアレイは10〜10塩基対(bp)の直接配列情報の可変長セグメントを生成できる。それらは、1ヌクレオチド多形(SNP)及びウィルス、細菌及び真核生物ゲノム由来の遺伝子変異体を検出するために首尾よく使用された(非特許文献9〜16)。SNP検出に対するこれらの使用により、信頼された品質の配列情報を供給する能力が明確に確立された。ほとんどの例において、マイクロアレイは限定された数の遺伝的に同様な標的病原体を研究するためにデザインされ、そして多くの例に対して、検出方法は識別のためのハイブリダイゼーションパターンを認識することのみに依存してきた(非特許文献12、14、15、17、18)。SNP検出に対して必要な再配列決定マイクロアレイの連続塩基解明能力を利用し、複数の細菌及びウィルス病原体の病原体識別に対して異なった研究方法を用いて、再配列決定は近年首尾よく順応し、同時に緊密に関係した病原体の微細で詳細な判別及び標的病原体中の突然変異の探知を可能にした(非特許文献19〜21)。観察されたハイブリダイゼーション由来の塩基コールと一致する最も有望な種及び変異体を識別するためのDNAデータベースの同様性検索のクエリーとして解明された塩基を使用することにより、新規な方法論は従来研究と異なっていた。システムは同時に26個の病原体に対して試験することができ、複数の病原体の存在を検出できた。ソフトウェアプログラム、再配列決定病原体識別子(REPI)はBasic Local Alignment Search Tool(BLAST)を用いて、遺伝的データベースの同様性検索を実行することにより、データ分析を簡素化するために使用された(非特許文献22)。REPIプログラムはBLASTのデフォルト設定を使用し、期待値、即ち、BLASTプログラムによって計算された、見つかった配列一致がデータベース中で無作為な偶然により発生するという尤度を示す数値が、10−9より低い場合、ハイブリダイゼーションを表わす可能性のある配列のみを返す。これは不十分な信号を有する全ての例をスクリーニング除去するが、しかしながら、何の病原体が検出され、そしてどの程度の判別が可能だったのかという最終決定は返された結果の手動検査を必要とした。この方法により、様々なアデノウィルスの優れた判別及び従来サンプリング結果に一致したインフルエンザA及びBサンプルの菌株識別が首尾よくできた。(非特許文献19,20)。この研究方法の2つの重要な利点は、情報が常にできるかぎり詳細なレベルで回復されること、及び最近の突然変異を有する生物を依然として認識できるということであった。この研究方法はまた、多くの生物が配列決定されているため絶えず侵食されている短配列のユニークさに依存しないように、十分特異性を維持した。
Hacia,J.G.(1999)Resequencing and mutational analysis using oligonucleotide microarrays.Nat Genet,21,42−47. Kozal,M.J.,Shah,N.,Shen,N.,Yang,R.,Fucini,R.,Merigan,T.C.,Richman,D.D.,Morris,D.,Hubbell,E.,Chee,M.et al.(1996)Extensive polymorphisms observed in HIV−I clade B protease gene using high− density oligonucleotide arrays.Nat Med,2,753−759. Cutler,DJ.,Zwick,M.E.,Carrasquillo,M.M.,Yohn,C.T.,Tobin,K.P,Kashuk,C,Mathews,DJ.,Shah,N.A.,Eichler,E.E.,Warrington,J.A.etal.(2001)High−throughput variation detection and genotyping using microarrays.Genome Res,11,1913−1925. Gingeras,T.R.,Ghandour,G.,Wang,E.,Berno,A.,Small,P.M.,Drobniewski,F.,Alland,D.,Desmond,E.,Holodniy,M.and Drenkow,J.(1998)Simultaneous genotyping and species identification using hybridization pattern recognition analysis of generic Mycobacterium DNA arrays.Genome Res,8,435−448. Lin,B.,Vahey,M.T.,Thach,D.,Stenger,D.A.and Pancrazio,JJ.(2003)Biological threat detection via host gene expression profiling.Clin Chem,49,1045−1049. Wilson,W.J.,Strout,C.L.,DeSantis,T.Z.,Stilwell,J.L.,Carrano,A.V.and Andersen,GX.(2002)Sequence−specific identification of 18 pathogenic microorganisms using microarray technology.MoI Cell Probes,16,119−127. Wilson,K.H.,Wilson,W.J.,Radosevich,J.L.,DeSantis,T.Z.,Viswanathan,V.S.,Kuczmarski,T.A.and Andersen,G.L.(2002)High−density microarray of small−subunit ribosomal DNA probes.Appl Environ Microbiol,68,2535−2541. Zwick,M.E.,McAfee,F.,Cutler,D.J.,Read,T.D.,Ravel,J.,Bowman,G.R.,Galloway,D.R.and Mateczun,A.(2005)Microarray−based resequencing of multiple Bacillus anthracis isolates.Genome Biol,6,RlO. Wong,C.W.,Albert,T.J.,Vega,V.B.,Norton,J.E.,Cutler,DJ.,Richmond,T.A.,Stanton,L.W,Liu,E.T.and Miller,L.D.(2004)Tracking the evolution of the SARS coronavirus using high−throughput,high− density resequencing arrays.GenomeRes,14,398−405. Sulaiman,I.M.,Liu,X.,Frace,M.,Sulaiman,N.,Olsen−Rasmussen,M.,Neuhaus,E.,Rota,P.A.and Wohlhueter,R.M.(2006)Evaluation of affymetrix severe acute respiratory syndrome resequencing GeneChips in characterization of the genomes of two strains of coronavirus infecting humans.Appl Environ Microbiol,72,207−211. Wang,Z.,Daum,L.T.,Vora,G.J.,Metzgar,D.,Walter,E.A.,Canas,L.C.,Malanoski,A.P.,Lin,B.and Stenger,D.A.(2006)Identifying Influenza Viruses with Resequencing Microarrays.Emerg Infect Dis,12,638−646. Lin,B.,Wang,Z.,Vora,G.J.,Thornton,J.A.,Schnur,J.M.,Thach,D.C.,Blaney,K.M.,Ligler,A.G.,Malanoski,A.P.,Santiago,J.et al.(2006)Broad−spectrum respiratory tract pathogen identification using resequencing DNA microarrays.Genome Res.16:527−535 Lin,B.,Blaney,K.M.,Malanoski,A.P.,Ligler,A.G.,Schnur,J.M.,Metzgar,D.,Russell,K.L.and Stenger,D.A.(2006).Naval Research Laboratory. Altschul,S.F.,Gish,W.,Miller,W.,Myers,E.W.and Lipman,DJ.(1990)Basic local alignment search tool.J MoI Biol,215,403−410.
この分析方法は有用だが、種々の短所を有する:時間浪費で、感度を最大化するように最適化されておらず、複雑な結果を有し、熟練者のみに適しており、冗長又は重複した情報を含有している。初期のスクリーニングのみは自動的に処理されるが、残りのステップは手動の解釈を必要とした後に、検出分析が完了するため、工程は時間浪費である。検出された病原体を考慮するために単純な基準(10−9の期待値限界)及び最適化されないBLASTパラメータを使用したため、REPIアルゴリズムは候補生物のリストを提供したが、最終的な単純な結論を出さず、あるプロトタイプ配列の結果を別のものに関連付けることもできなかった。代わりに、最終決定を行うために手動処理が使用されたが、REPIプログラムは全ての同様な結果及び冗長なエントリーを含有する公開核酸データベースの使用を提供するため、有用でない膨大なデータがユーザーに示された。加えて、手動の工程を用いて、配列情報が解明された核酸塩基が提供されている如何なる生物に対しても、開発されたアルゴリズムが一般的に応用できるということを確立することは困難であった。
本発明の1つの方法は、レファレンス配列を有する核酸とハイブリダイズするサンプル由来の核酸配列からサブ配列を生成する工程と、
遺伝子データベースに対して前記サブ配列を検索することによって、前記サブ配列を識別する工程と、
分類学的データベースから識別された前記サブ配列に関する分類学的結果を抽出する工程と、
前記サブ配列に関する前記分類学的結果に基づいて、前記レファレンス配列の分類学的識別名を決定する工程と、
前記レファレンス配列の前記分類学的識別名に基づいて、前記サンプルに含まれる標的の分類学的識別名を取得する工程と、
を含む
本発明のより完全な理解は、以下の例示実施形態の説明及び付随の図面を参照することにより容易に得られる。
以下の説明において、解説目的であって限定を意図することなく、本発明の完全な理解を提供するために、特定の詳細を明記する。しかしながら、当事者に明らかであるように、本発明はこれら特定の詳細から外れた他の実施形態で実施されてもよい。他の例において、不要な詳細により本発明の明細書が不明瞭にならないように、周知の方法及び装置の詳細な明細を割愛する。
本明細書においては、「配列」という用語はDNA又はRNAの様な核酸塩基配列又はタンパク質配列と呼ぶ。本明細書においては、「塩基」及び「塩基コール」はヌクレオチド塩基又はアミノ塩基の何れかと呼ぶことができる。本明細書においては、「分類学的」という用語は属、種、菌株及びサブ菌株を包含するが限定されない病原菌の何れかのレベル又はクラスの識別名と呼ぶことができる。本明細書においては、「報告する」という用語はあるシステムから別のシステムへ信号を伝達し、人が可読な何れかの形式の報告書を生成することを包含できる。全ての開示された方法は、方法を実施するための手段を有する装置上でコンピュータ実施されてよい。
新規のソフトウェア熟練システム、コンピュータ実施生物学的配列識別子システム(CIBSI2.0)が開示されており、これは、検出された生物の単純なリストを供給するために、カスタムデザインされたAffymetrix再配列決定マイクロアレイ由来の解明された塩基配列情報を首尾よく使用することができる。このアルゴリズムは病原体識別を完全に自動化する新規機能を編入することにより、従来方法の短所に取り組んでいる。単一のプログラムにより、RPMv1マイクロアレイに含まれた全26個の病原体(非特許文献19,20、23)に対し、改良された感度で、単独か組み合わせかの何れで検出されたかの正しい決定を行うことができる。プログラムは現在再配列決定マイクロアレイに応用されているが、アルゴリズムの最初の部分のみはマイクロアレイに特化した問題を処理しているが、残りの部分はBLASTアルゴリズムによってクエリーとして使用するのに適した配列を対処しているので、開発された方法論は一般的に応用可能な余地がある。一般的な識別アルゴリズムを開発する中で、それらの使用を複雑にする再配列決定マイクロアレイに特化した問題を識別し、解明した。何が検出されたかに対する完全な決定処理は自動化されたので、識別を行うために使用されたどのルールが厳密でかつ如何なる病原体に対しも応用可能なのかを試験することが直接的である。この効果的なプログラムを用いて、再配列決定に基づく試験は、多くの可能な病原体に対して同時に試験するための競争力ある方法を提供し、非熟練者によって解釈できるアウトプットを供給することができる。
Davignon,L.,Walter,E.A.,Mueller,K.M.,Barrozo,C.P.,Stenger,D.A.and Lin,B.(2005)Use of resequencing oligonucleotide microarrays for identification of Streptococcus pyogenes and associated antibiotic resistance determinants.J Clin Microbiol,43,5690−5695.
増幅、ハイブリダイゼーション及び配列決定
RRM v1マイクロアレイデザイン及び実験的方法の詳細は従来研究(非特許文献19、20、23)で議論された。本分析で使用された実験的マイクロアレイデータは無作為及び多重化された増幅スキームを用いて、様々な精製されたテンプレート及び臨床サンプルを用いて得られた。GCOSソフトウェアv1.3(Affymetrix Inc.,Santa Clara,CA)はハイブリダイズされたマイクロアレイを整列し、スキャンするために使用され、全てのプローブセット中の各プローブの強度を決定した。塩基コールはABACUSアルゴリズム(11)実装を使用したGDASv3.0.2.8ソフトウェア(Affymetrix Inc.,Santa Clara,CA)を用いて、各プローブの強度データに基づいて作成された。配列は後の分析ステップのためにFASTA形式で表された。
再配列決定マクロアレイ(RPMv1.0)は従来、所定のハイブリダイゼーションパターン(非特許文献19、20、23)に依存せず、ProSeqsに基づいて熱性呼吸疾病を引き起こすことが知られている20個の共通の呼吸系及び6個のCDCカテゴリーAの生物脅威病原体の検出及び配列型決定のためにデザインされていた。異なる増幅スキーム、単一及び複数の病原体標的、精製された核酸及び臨床サンプルを用いて実行された約4000のRPMv.1実験が、病原体識別アルゴリズムを開発するために検査された。臨床サンプルによるこのアルゴリズムを用いて病原体を識別し、核酸を精製した結果は、他の研究(非特許文献19,20,23)において詳細に議論されている。全ての例において、アルゴリズムはRPMv.1上に表されたProSeqの長さに依存して、種又は菌株レベルで生物を正確に識別した。いくつかの特定の実施例では、様々な条件下でアルゴリズムがどのように機能するかを立証することが議論されている。
CIBSI2.0プログラムは3つのタスクの階層構造を処理した(図1):(I)検出された生物がどのデータベースレコードに最も同様かを決定し、(II)個別の標的からの識別が共通の生物識別に対応しているかを決定し、及び(III)検出された生物が試験が検出するためにデザインされていた標的セットに属しているか又は緊密に遺伝子的に近い近親に関係しているかを決定する。標的病原体は試験が特に検出するためにデザインされた生物である。本明細書においては、標的病原体ゲノムから選択されたレファレンス配列を示すプローブセットはプロトタイプ配列又を略して「ProSeq」として呼ぶ。ゲノム物質のハイブリダイゼーションからProSeqへと帰着する解明された塩基セットをハイブリダイズされた配列又は「HybSeq」として呼ぶ。HybSeqは可能な配列又は「SubSeqs」に分割される。アルゴリズムの1部分はProSeqに基づいた生物識別を処理し、以下の3ステップ中で処理された:個々のHybSeqsの配列同様性比較に適したSubSeqsへの初期フィルタリング、個々のSubSeqsのデータベースクエリー、及び各SubSeqに対するBLAST返値の生物学的比較。次のレベルにおいて、Proseqsをそれらが同じ識別された生物に対応するか決定するために比較した。最終ステップにおいて、何れかが陽性で検出されたかを決定するために、検出された生物をそのために試験がデザインされた標的病原体のリストと比較した。特定のサンプルが対応した判別レベルを自動的に決定した。
フィルタリング
初期フィルタリングアルゴリズム、再配列決定病原体識別子(REPI)は、従来開発されていて(非特許文献20)、改訂版を含む一般的概念はCIBSI2.0プログラムで使用している現在の(自動検出)アルゴリズムに編入された。レファレンス配列選択により、及び高速検出のために有意な破片にHybSeqを分割するのと同様な他のソース(プライマー)より、引き起こされた潜在的偏りを除去するために、フィルタリング及びサブ配列選択を使用した。これは、図1のタスクIの最初のサブタスクであり、図2に詳細に図式的に示す。PCR増幅を使用した場合、マイクロアレイはそれらがハイブリダイゼーションに帰着する箇所を決定するために、プライマーのみの存在下でハイブリダイズされた。プライマーを用いてハイブリダイズされたProSeqsの何れの部分も、Nコールとしてマスクされるため、HybSeqは偏った情報を含んでいなかった。各ProSeqに対し、ユニークな塩基コールの全数に対するSNPsの比、UniRateはHybSeqから計算された。UniRateが≧20%(SNP閾値)である場合、不十分なハイブリダイゼーションを有するHybSeqsを削除するため、Proseqを標的生物検出に対し陰性と見なした。UniRate20%は、平均で25bp当たり5SNPであることを示していた。この頻度の標的病原体と同様の生物とProseqが基になっているレファレンス配列との間の違いで、25bpプローブの有意に特定なハイブリダイゼーションを期待することは現実的ではない。これによりフィルタリングサブタスクを終了し、タスクIループに戻り、次のProseqを試験する。<20%の比を有するProSeqsに対して、より詳細な検査が実行された。HybSeqの各箇所において、改訂されたスライドウィンドウアルゴリズム(非特許文献20)がBLASTへのクエリーとして使用できるSubSeqの拡張を試みた。まず、ある箇所以降の最初の20塩基(初期長)を検査した。これらの塩基の60%未満が不明瞭、Nの場合、SubSeqは伸長段階に入る。SubSeqはユニークな塩基コールの総量が40%(ユニークな塩基閾値)未満に低下するまで、又は最終21塩基を含むスライドウィンドウが4未満のユニークな塩基コールを有する場合、1回に1塩基分拡張した。これは、僅か20塩基のスライドウィンドウを使用し、ウィンドウ内容物の40%未満がユニークな塩基コールである場合、SubSeqの拡張を中止したREPIアルゴリズムとは異なっていた。この時点でSubSeqを検査し、追跡Nコールを削除した。7個の連続したユニークな塩基コールを有する少なくとも1つの箇所は、BLASTのワードサイズパラメータに一致し、それ以上の分析のためにSubSeqを保持する必要があった。100塩基より長いSubSeqsも受諾できた。受諾するために、≦30塩基のSubSeqは少なくとも95%の(「N」でない)ユニークな塩基コールを必要とした。30〜100塩基を有するSubSeqsに対して、配列受諾には少なくともVARI((「SubSeq長」−30)*0.2857+70)%のユニークな塩基を必要とした。≧80塩基のSubSeqsに対して、少なくとも11個の連続塩基を含む場合、BLASTワードサイズパラメータは11に変更された。首尾よく拡張されたSunSeqの一致性(ProSeq中の開始箇所及び長さ)は各SubSeqに関連する情報を保持したSubSeqアレイ中のエントリー中に置かれた。この一致性及びSubSeqはBLASTを介してバッチクエリーするためのファイル中に置かれた。以前の成功したSubSeqの終了から続行することにより、又は失敗した場合、そこからウィンドウが初期に拡張された点からHybSeqの終了まで続行することにより、この手順を繰り返した。完了後、アルゴリズムはタスクIループに戻り、BLASTサブタスクを実行した。
データベースクエリー
BLASTサブタスクは、クエリーとしてSubSeqを用い、データベースのバッチ同様性検索を実行した。使用したBLASTプログラムは定義されたパラメータセットを用いたNCBI Blastall−p blastnバージョン2.12であった。クエリーを加速するために、低複合領域のマスキングをシード段階に対して実行したが、しかしながら低複合性反復が実際のスコア付けに含まれていた。2006年2月7日に獲得したNCBIからの完全なヌクレオチドデータベースをレファレンスデータベースとして使用した。(開発中はデータベースの早期イメージを使用したが、この日時に獲得したデータベースイメージを用いて、記載の通りのアルゴリズムで全ての実験を再実行したことに注意)。デフォルトのギャップペナルティ及びヌクレオチド一致スコアを使用した。ヌクレオチド不一致ペナルティ、−qパラメータをデフォルトではなく−1に設定した。期待値<0.0001を用いた何れのBLASTクエリーの結果もblastallプログラムから表形式で返された。各返値についての情報(ビットスコア、期待値、不一致、一致長)をさらに分析するために、ハッシュキーとしてSubSeq一致性を用いて返値{hash key}{info}に置いた。
SubSeqsからのProSeqsに対する分類学に基づく病原体識別
実行されたタスクIの次のサブタスクはSubSeq()状態の決定であり、図3に示す。単純なデータを提出し、決定処理を容易にするため、全てのSubSeqについての情報を2つのパラメータによって要約した。「識別された生物」は生物の分類学的クラスを表し、「生物ユニークさ」は生物識別の品質を指す。返値ハッシュ中の要素は、検査され、ProSeqの各個別SubSeq()に対するスコアアレイによってランキングされた。スコアアレイは与えられたデータベースに対して固定的な関係を有するビットスコアと期待値のパラメータ対を含んでいた。データベースのサイズを考慮する(期待値)或は考慮しない(ビットスコア)何れかのランキングスコアを使用することは、時に適切であった。返値ハッシュ中の要素は同じスコアを有することができるので、最高ビットスコア/最低期待値(MaxScore)を有する全ての要素は、個別のアレイRank1中に保持された。Rank1中の全ての要素の十分な分類学的区分けを、これもまた2006年2月7日に得られた(以前の注意書きを参照)NCBI分類学データベースから引き出した。MaxScore期待値がMAX(現在10−6)より大きい場合、SubSeq()は両者がnullに更新されたその識別された生物及び生物ユニークさ情報を有した。MaxScoreが十分小さい場合、Rank1中に置かれた返値が検査された。Rank1が単一要素を含む場合、SubSeqはSeqUniquの生物ユニークさに割り当てられた。Rank1が複数要素を含む場合、SubSeqは、全ての返値が同じ分類学クラスに属す場合、TaxUniqueの生物ユニークさに割り当てられ、それ以外の場合、SubSeqの生物状態はTaxAmbigに設定された。図3に概略したタスクはProSeqの各SubSeq()に適用された。全ての例で、識別された生物は各SubSeq()に割り当てられ、これはRank1内の全ての要素に共通の親である分類学クラスを表した。
各SubSeqを検査した後、アルゴリズムをSubSeqからProSeqの識別された生物を決定するための次のタスク(図4)に移動した。SubSeqの全エレメントがNullの識別された生物値を有していた場合、この時ProSeqは陰性であり、次のProSeqが検査された。ProSeqに対してSubSeq中の単一要素のみがある場合、又はSubSeq中の全エレメントが同一の識別された生物を有している場合、その時Result1のエントリーが識別された生物のために作成され、その生物ユニークさは、複数のSubSeqエントリーがあるか、又はそれが単一のSubSeqエントリーの状態を継承するかの何れかのTaxUniqueであった。異なる識別された生物を有するSubSeq中の多くのエントリーがある場合、これ以上の分析が実行された。次に、最高の2つの最良スコアを有する要素はSubSeq(1)及びSubSeq(2)であるため、SubSeqsはMaxScore(ビットスコア)で再検索された。SubSeq(1)がSubSeq(2)のスコアより≧30%(スコア比閾値)であるスコアを有している場合、その時ProSeqはSubSeq(1)の生物ユニークさ及び識別された生物を継承した。それ以外の場合、ProSeqの生物状態はTaxAmbigで、識別された生物は全サブ配列の共通の親分類学的クラスであった。全サブ配列が直接の子及び親である2つの分類学的クラスのみを含む場合、識別された生物は子クラス中のサブ配列の生物であった。図4に包含されたサブタスクが完了し、タスクIループを続行した。検出された生物を有するProSeqのリストがResult1アレイ中に構築された。
全体的な病原体識別及び陽性コール
タスクIが完了後、タスクII(図1参照)がResult1にリストされた識別された生物値を検査するために使用され、それらが同じ分類学的クラスを識別した場合、それらを一緒にグループ化した。Result1中の各エントリーを検査し、識別された生物がこのリスト中に現れない場合、Result2中に新規エントリーを作成した。ほとんどの例で、Result2のエントリーは検出された個々の生物を表わすが、まだ冗長な情報を含んでいる可能性があった。一方は他方の分類学的親である識別された生物を有するResult2中のエントリーは、実際に同じ病原体を表す可能性があった。ゲノムの標的は様々な可能な理由のために、両方のProSeqに十分ハイブリダイズしなかったため、同じ識別が発生する可能性はなかった。その代わり、2つの異なる緊密に関係した生物がマイクロアレイに両方ハイブリダイズした可能性はあった。
個別のProSeqからの結果をそれぞれ関連付けることは難しかったが、タスクIIIは現在実装された通りに、最終検査及び決定を処理した。以前のタスクは何をProSeqが検出しようとしているかについての情報を考慮しないように、特に実装されていた。このことは、単に陽性及び陰性を認識できるべき例を低くするだけでなく、不確定である例をも容認していた。最終タスクにおいて、アルゴリズムはProSeqsが検出するためにデザインされた生物を識別するか否かを考慮した。明らかに陰性のProSeqs及び不確定であるProSeqsは目標病原体に対し陰性と見なされた。これに対するProSeqsのグループ化は、タスクIIで既に実行されたグループ化に基づいていた。Result2のエントリーがループされた。エントリーのProSeqは標的とされた表中の病原体を探すために使用された。Result2エントリーの識別された生物が標的病原体の分類学的クラスと同じ又は子である場合、その時Pathogen()アレイは標的病原体に対する陽性エントリーで更新された。その病原体に対しPathogen()アレイがnullの場合、識別した生物の病原体レベルはResult2()エントリーのレベルであった。エントリーが既に病原体で配置されていた場合、その時それ以上の比較を必要とした。Result2()及び病原体エントリーを比較した。これらが直接の親子関係を有していた場合、病原体の識別された生物は子の生物学的クラスであった。それ以外の場合、共通の親の生物学的クラスが陽性に識別された生物として報告された。病原体に対する全てのProSeqsが十分ハイブリダイズしているほとんどの例において、微細なレベルの判別が報告された。しかしながら、1つ又はそれ以上のProSeqsが十分ハイブリダイズしなかった場合、報告された陽性の標的病原体は属又は種レベルでのみ識別された。手動再検査が可能なように3つ全てのタスクの結果が報告された。タスクIIで識別された標的病原体に属さない生物は非標的陽性返値として報告されたことに注意。これらの例で識別されたものの詳細はタスクIIレベル結果の検証を必要とした。
病原体識別
複数のProSeqが同じ病原体に対して標的にされた場合、どのように病原体検出及び識別が実行されるかを立証するために、10〜1000のゲノムコープを有するクラミジア肺炎(Chlamydia pneumoniae)サンプルが選択された(非特許文献21)。RPMv.1は主要な外膜タンパク質VD2及びVD4に対して暗号化する遺伝子及びDNA依存性ポリメラーゼ(rpoB)遺伝子から選択された3つの高度に保存されたProSeqを有している。異なるサンプルからのHybSeqsは表1に示すように塩基コールがどのくらい多いかのみが異なっている。コールされたProSeqの割合は80%から100%まで変化したが、例外として濃度10の1例においては、到達した試験の検出限界がこの濃度を超えていることを示すユニークコール生成rpoB ProSeqがわずか11%であった。表1にSubSeqに対し及び様々なサンプルに対して各タスクの終了時点で作成された決定をリストした。異なる例からのProSeqが同数のSubSeqを生成した。これらの異なるサンプルからのSubSeqはBLASTからの同じトップランキングされた返値に対して異なるビットスコアを報告した。事実、VD2及びVD4は正確に同じ結果を生成した。NCBI分類学データベースは返値を4つの別個の群に区分けし、これはクラミジア肺炎分類学的群及び3つの子菌株群を表した。完全に配列決定されたゲノムのデータベースエントリーを表わすため、AE001652、AE002167、AE017159及びBA000008が各サンプルに対する全てのProSeqの返値として出現した。1個のropB SubSeqがその生物ユニークさ、SeqUniquについて生成した。異なる分類学的クラスから複数の返値が返ったため、他の全てのSubSeqはTaxAmbigであった。VD2及びVD4ProSeqは各々単一のSubSeqを有しているので、タスクIはProSeqにSubSeqの状態を割り当てた。rpoB ProSeqに対しては、1個のSubSeqのビットスコアが、アルゴリズムがそのSubSeqの識別名をProSeqに割り付けるのに十分大きかった。それら全てが同じ識別された生物を有し、TaxAmbigが割り付けられていたので、アルゴリズムのタスクIIは3つ全てのProSeqsを一緒にグループ化した。全てのProSeqsが互いに一致し、同じ標的病原体の分類学的クラスに属していたので、タスクIIIの結果は標的病原体クラミジア肺炎に対し陽性であり、この決定は直接的であった。rpoB ProSeqはSeqUniquであったが、SeqUniquである全てのProSeqが子分類学的群ではなく、他のProSeqはTaxAmbigであったのでこれは、タスクIIに対する最終結論ではなかった。3つの認識されたサブ菌株は同じスコアであり、これはProSeqsのために選択された配列が非常によく保存されており、菌株間での判別ができないことを示していた。
インフルエンザ及びヒトアデノウィルス(HAdV)は従来研究(非特許文献19、20、21)で議論されたように詳細な菌株レベルの判定が許された選択されたProSeqを有する数少ない病原体であった。手動分析を用いたこの従来研究により、マイクロアレイの結果が臨床的サンプルに対する従来配列決定の結果に非常に一致することが発見された。生のマイクロアレイ結果に基づく更新されたNCBIデータベースを用いてCIBSI2.0プログラムを実行した結果を従来所見と比較した(表2)。使用したデータベースの違いのため、識別された生物は元の所見と同一ではなかった。事実、その研究からNCBIにサブミットされた従来の配列決定結果が、全てのサンプルに対して、最良スコアを有する返値の中にあるということがわかった。13個のインフルエンザAのうち8個、及び12個のインフルエンザのうちの3個の例に対して、タスクI及びIIの結果により、従来の配列決定が単一の最良返値であり、従って識別された生物であったことがわかった。血球凝集素遺伝子に対してデータベース中に膨大な孤立配列があるため、いくつかの例において単一のユニークエントリーが見つからないということは驚くに値しなかった。残りの5個のインフルエンザAサンプルの各々においては、返った他の配列が従来配列と0.2%未満だけ異なっていた。インフルエンザBに対するユニークな孤立識別名を有するサンプルが少ないほど、ProSeqに対してより古いレファレンス配列を使用するべきであり、これによりハイブリダイゼーションの発生をより少なくできた。これはまた、サンプルに対し、複数配列が返った場合、2%までのより大きい遺伝子変異を示すことを意味していた。この比較は、従来通り配列決定された領域のみである血球凝集素(HA)ProSeqに対してタスクIレベルでのアルゴリズム分析のみを示した。従来研究では複数のProSeqからの一致を得ようと試みなかったため、タスクIIIに対する比較はできない。タスクIIIレベルの識別を行う現在の方法の結果として、このレベルにおいて報告された生物は全てのサンプル(補足表1A及び1B)に対して、より少なく特定された(H3N2又はFluB)。HAdVサンプルに対し、アルゴリズムはまた手動の方法によって従来作成されたより微細な尺度の判別を再生成した(示されていない)。
マイコプラズマ肺炎(Mycoplasma pneumoniae)病原体に対する検出の次の実施例は、標的病原体に対し単一のProSeqのみがある例を説明し、これは、アルゴリズムのタスク1に対して識別された生物は、自動的にタスクIIの結果であり、この標的病原体に対してタスクIIIで考慮された唯一のProSeqであったことを意味していた。このProSeqはまたcytadhesin P1遺伝子の高度に保存された領域(345bp)から選択されたため、微細な判別に対して最適ではなかった。40個のマイクロアレイは同様に精製された核酸株を用いて試験され、全ての例においてマイコプラズマ肺炎又はその1つの認識されたサブ菌株の分類学的データベースエントリーはMaxScoreについて同じであった。これらの返値をより良く理解するために、データベース配列が検査され、ProSeqを作成するために使用されたレファレンス配列にそれらが如何によく一致するかに基づいたA、B及びCの配列の3群にサブ分割した。データベースエントリーの3群への配置は、この遺伝子配列のCLUSTAL整列から決定された。この整列はデータベースエントリーがProSeqによって表現されず、より微細な判別を行えるのに十分な可変性を含んだ領域において、互いに有意により大きく異なっていることを確認した。A群のメンバーはProSeqと正確に一致し、マイクロアレイ上で両者間で区別できなかった。同様に、B群のメンバーはコールされた塩基がTではなくCである199番目の位置以外はProSeqと一致した。C群の配列はより可変であり、ProSeq内に他のエントリーと区別される可能性のある僅かなデータベースエントリーを含んでいた。マイコプラズマ肺炎の40の実験的試験に対し、95%ものProSeqがハイブリダイズしたが、結果の65%しか199番目の位置で不明瞭な塩基コールを有していなかった。それが不明瞭な場合、それは常にB群の配列に一致していた。N塩基コールが199番目の位置で行われた例において、A及びB群の両方の配列は同じスコアを返した。このことに関わらず、陽性に識別された標的病原体は試験された全てのサンプルに対しマイコプラズマ肺炎であった。
これらの実施例は単一又は複数のProSeqsが標的病原体に専念させられていたかに依存せず決定が行われたことを示した。それらはまた、可能な判別レベルが選択されたProSeqの質によって強く決定されることを立証した。いくつかの病原体に対しては、微細なレベルの判別を必要とせず、現在試験されたRPMv1上での選択により満足な情報が提供されることが可能である。CIBSI2.0アルゴリズムは、HybSeq情報によって対応できる最大レベルの判定を自動的に報告する能力を示した。
遺伝的に近い近親
アルゴリズムが親密に関連した遺伝子的種を如何に処理するかを示すために、非標的病原体のサンプルを考慮した。RPMv.1上で生物脅威病原体の1つ、大痘瘡ウィルスに対し、確証試行によって、検出された場合に大痘瘡ウィルスDNAテンプレートが常に陽性に識別されることを示した。アレイは血球凝集素(VMVHA、〜500bp)由来の2つのProSeqs及び大痘瘡ウィルス検出のためのサイトカイン応答モディファイアーB(VMVcrmB、〜300bp)の遺伝子を有している。近い近親、痘疹ウィルスが様々な濃度で鼻洗浄液中に加えられたという18の試行での各ProSeqに対する結果を表3に示す。ハイブリダイズするProSeqの割合は、ハイブリダイゼーションパターンが単に1つと見なされた場合、このタイルがその標的の存在を識別していると仮定できるほど十分である。これは、選択されたレファレンス配列が最良の選択ではなかったことを指している。しかしながら、アルゴリズムが適用された場合、事実、サンプルの何れも大痘瘡又は小痘瘡ウィルスとして識別されない。痘疹は常にVMVcrmB Proseqに対し最高スコアでリストされるオルトポックスウィルス属の1つであったが、わずか7つの例において、有望な種としてユニークに検出されただけだった。最低濃度及びVMVcrmBハイブリダイズしている断片を有する3サンプルにおいて、このProSeqはハイブリダイゼーションを引き起こす可能性のある多くのオルトポックスウィルス属の種中の1つとして大痘瘡を識別した。使用した増幅方法に対する検出の最低限界はこの濃度とその1つ上の間であった。VMVHA ProSeqは僅か2つの実験でオルトポックスウィルス属の種の識別を行い、大痘瘡が同じ最良スコアの返値の1つとしてリストされた。両方の例において、VMVcrmB ProSeqは最良一致として特に痘疹ウィルスを識別した。ハイブリダイズされたProSeqの割合はサンプルの濃度に相関した。
フィルタリング
本実施例は、H1N1ノイラミニダーゼ(NA1)及びヒトインフルエンザA/プエルトリコ/8/34(H1N1)菌株由来のマトリックス遺伝子に対するProSeqのHybSeqsを考慮することにより、アルゴリズムのフィルタリング部分の重要性を示した。単一クエリー中でBLASTへProSeqのHybSeqを送付することは、特に塩基コールの使用を最大化するBLASTパラメータを使用する場合、ProSeqに関連した挿入又は削除を有する菌株に対してスコアを偏らせる可能性があるため、フィルタリングが必要であった。スライドウィンドウ試験はフィルタリングを制御するアルゴリズムの一部であった。フィルタリングが停止された場合、完全なHybSeqを重要なハイブリダイゼーションを示した2つのインフルエンザProSeqsに対して単一の配列中で使用した。A/Weiss/43(H1N1)菌株がNA1 ProSeqのHybSeqからの最も有望な菌株として識別されたが、マトリクスProSeqのHybSeqはA/プエリトリコ/8/34を正しく識別した。偏りの原因をより良く理解するため、2つの菌株のNA1遺伝子のCLUSTAL整列及びProSeq作成に使用されたレファレンス配列を図5に示す。2つの菌株は95%の一致性(1362個の整列された塩基のうち67個の不一致)を示したが、A/プエルトリコ/8/34(配列番号3)に比べA/Weiss/43(配列番号2)及びNA1 ProSeq(配列番号1)の両方に挿入された45塩基の伸張があった。デフォルトのフルタリング作動により、NA1 ProSeqはコールのない大きな伸張に遭遇したアルゴリズムとして5個のSubSeqsに分割された。タスクIにおいて、アルゴリズムはより短い3個のSubSeqsが最良スコアと同じでA/プエルトリコ/8/34を含む種々の単離株としてH1N1の生物を識別したが、他の2個のSubSeqsは最も近い一致であるとしてA/プエルトリコ/8/34菌株のみの識別された生物を有していた。SubSeqsの1個が非常に高いスコアを有していたため、NA1 ProSeqにより識別された生物はA/プエルトリコ/8/34であった。このProSeqはマトリクスProSeq中で作成された同じ菌株識別名に対応した。2つのProSeqがその生物のみを検出したので、識別された生物はA/プエルトリコ/8/34であった。正しい標的病原体がフィルタリングを用いて検出されたが、フィルタリングなしでは、A/プエルトリコ/8/34及びA/Weiss/43の2つの生物が検出されたので、標的病原体の識別レベルはインフルエンザA(H1N1サブタイプ)であった。偏りを除去するためHybSeqをSubSeqsに分割することは、この例において5個のSubSeqsの3個に対して発生したように、識別レベルを低下する。痘疹に対する従来実施例は、フィルタリングを使用しない場合、誤った種(ラクダ痘又はコモンマーモセット)の識別が発生するという別の実例であった。表2の臨床サンプルは、複数のSubSeqsへ分割されたHybSeqsが非常に特異な識別を可能にしたことを示した。
小さな点として、共通性の乏しい多重な手法を増幅に対して使用した場合、方法に記載された通り、特定のプライマーからの潜在的偏りを削除するために追加のフィルタリングを実行する必要があった。図5はこの妨害の実施例を示すための、A/プエルトリコ/8/34のハイブリダイゼーションに対する生(配列番号4)及びマスクフィルタリングされた(配列番号5)結果である。前述された理由のための偏りの問題に加えて、プライマーと相互作用する箇所に存在するため、フィルタリング後にNが作成されたという生の結果中に存在する18塩基の配列がある。これらの塩基コールが構成されたサブ配列中に含まれる場合、ProSeqに対するクエリーは誤った菌株を好む可能性がある。
アルゴリズムは各ProSeqの品質に依存して可能な最大詳細レベル(種又は菌株)まで、病原体識別を首尾よく提供した。非熟練者の使用を可能にするため、この識別能力により、病原体の一致性において最小のインプットが必要とされる。完全な自動化ができるように組み込まれた決定的機能は、分類学的データベースの使用であり、これにより生物を順序付けられた群に区分し、生物エントリー間の関係を提供し、冗長性の削除、異なった関係のプロトタイプ配列の比較及びデータ表現の単純化ができるようになった。これにより、冗長で、絶えず更新された及び新しい配列情報を受けとっていたが最小のキュレーションを前提としていたデータベース即ちNCBIが、非常に成功して使用できるようになった。NCBIデータベースのみを使用して説明したが、他のデータベース又はカスタム作成されたものも容易に使用することができ、それらはパフォーマンスを改善する可能性がある。アルゴリズムはより変化しない又は高度に保存されたProSeqsによって表された病原体に対して、全ての分析レベルで正確な識別を提供できる。例えばインフルエンザAウィルスのようなより変化し又は急速に変異する病原体に対し、タスクI及びIIはまだ正確な詳細識別を提供したが、タスクIIIは、ファインスケール判別を報告できなかった。従来通り配列決定されたインフルエンザウィルス遺伝子配列との比較は、アルゴリズムがデータベースの更新に対して自動的に適応できることを立証した。アルゴリズムは特定の病原菌によりもたらされたProSeq上のハイブリダイゼーションを一般的に密接な(近い近親の)菌株からもたらされたものと適切に区別する能力を示し、誤った識別を行わず、偽陽性の1つの潜在的原因を削除した。生のハイブリダイゼーション結果のフィルタリングは、計算時間の短縮に役立ち、潜在的なプライマー妨害を計上し、及びより重大に潜在的偏りを減少した。この単純で統合されたアルゴリズムは十分かつ正確な識別を提供するので、RPMv.1又は同様の再配列決定アレイ及び試験をすぐに使用することが可能である。
CIBSI2.0プログラムの成功を示す以外に、本研究は適当なProSeq選択の重要性に対する見識を認めるアルゴリズムの開発を包含していた。RPMv.1はデータベース同様性検索を用いた複数の病原体検出に対して、特定にデザインされた最初の再配列決定アレイであり、本明細に対してプロトタイプとして役立った。正しくデザインされた場合に100bpほどの単一ProSeqにより、生物を十分明快に識別できることを示した。しかしながら、種々のProSeqsが大きいほど、病原体のより良好な確認及びより詳細な情報を提供することが明確に示された。この点についてのデザインの主眼点は、如何なる病原体にも一般的に応用可能である能力に基づいている。タスクIIIのパフォーマンスの改善は、個々の病原体についてより多くの情報を必要とし、各特定の病原体又は病原体のクラスに対して開発されるべきであろう。この情報はまた、サンプルとデータベースエントリーとの間のどの違いが重要な変異を表わすのかを識別することをアルゴリズムに対し必要とする可能性がある。データ分析の階層的デザインは、既に実行された分析を基礎とする分析に容易に組み込むことができる。適当にデザインされた再配列決定マイクロアレイ及びこの自動化検出アルゴリズムを使用することにより、複数生物に対して同時に試験できる試験法を開発する将来への方向性を提供でき、同時に、詳細の菌株認識、抗生物質耐性マーカー及び病原性についての情報への糸口を与える微細な菌株レベルの判別を提供する。これにより、複数の潜在的原因による疾病(即ち、熱性呼吸疾病)に対する特異的診断、救急の病原体の追跡、サーベイランス応用における無害な近い遺伝的近親との生物学的脅威の区別、及び同時感染又は重複感染の影響の追跡等のような応用に対して複数の生物由来の部分的な配列情報の分析ができる。サンプルの品質及び標的配列セットに依存して程度の異なる識別を分類化及び報告するという概念は、再配列決定マイクロアレイに限定されることなく、レファレンスDNAデータベースをクエリーするのに使用可能な配列レベルコールを返すことができる如何なるプラットフォームに対してもより一般的に応用できる。複数の病原体に対する試験が増えているという試験法に対する傾向として、本発明のような自動化分析ツールは、日常的に非熟練者が利用する単純な形式での高速な識別に対して、より必須になっている。
ソースコード
以下は、開示した方法の実施形態をリストしたPERLのソースコードである。「overclinical」プログラムは他のプログラムを実行するトップレベルのプログラムである。「fstorepi」はフィルタリング、サブ配列準備、及びクエリーファイル準備を実行する。このプログラムは所定のNに変化されるべき位置のリストを含むインプットファイル「primehyb.dat」を使用する。「runblast」はBLASTクエリーを実行する。「dbparse」は分類学的分析を実行する。このプログラムは各ProSeqに対する標的病原体のリストを含むインプットファイル「chip1pathogengroups」を使用する。
明らかに、上記教示に照らして本発明の多くの修正及び変更が可能である。従って、請求された発明は、明確に記載された以外の方法で実行されてよいと理解されるべきである。例えば、単数標記の要素を単数に限定するものとして解釈されてはいない。
3個の主要なタスクの関係及びタスクに関連するサブタスクのロジックを示すアルゴリズムの模式図である。タスクIはフィルタリング及びサブ配列選択を実行し、次に何のデータベースレコードに対してプロトタイプ配列が最も同様かを決定する。タスクIIはプロトタイプ配列識別名が共通の生物識別名に対応しているか否かを結論する。タスクIIIはミクロアレイデータ由来の検出された生物の最終検査及び決定を行う。ProSeq:プロトタイプ配列;SubSeq:サブ配列;HybSeq:ハイブリダイズされた配列。 タスク1のフィルタリングサブタスクの詳細模式図である。各ProSeqに対し、プライマー領域がN(不明瞭)コールとしてマスクされ、次にUniRateがHybSeqから計算された。UniRate要求を通過したProSeqに対し、改訂されたスライドウィンドウアルゴリズムにより、BLASTへのクエリーとして使用できるSubSeqの拡張を試みた。首尾よく拡張したSubSeqの一致性(ProSeq中の開始箇所及び長さ)はBLASTを介してバッチクエリーを行うためのファイル中に置かれた。 個々のSubSeqに対する生物学的識別を受け持つTask1のサブタスクの詳細模式図である。BLASTに送られた各SubSeqは、最良ビットスコア/期待値対(MaxScore)を探索するために全体ソートされた返値アレイ中に含有される可能な一致のリストを返した。もしMaxScoreがMIN(10−6)より大きければ、この最良スコアを有する全ての返値を新規のアレイRank1内でソートした。詳細な決定処理は方法の章で記述するが、ここでSubSeqの生物が識別された。 そのSubSeqに対し探索された結果に基づいたProSeqに対して決定された生物を決定するタスクIのサブタスクの模式図である。特定のProSeqの全てのSubSeqは2つの最良スコアのSubSeqを決定するために互いに比較される。単一のSubSeqしかない又はスコアされた1つが他より極めて良好な場合、ProSeqはそのSubSeqの属性を継承した。それ以外は、特許明細書内で記載の通り共通の分類学的クラスが決定された。 インフルエンザA NA1 ProSeq及びA/Weiss/43、A/プエルトリコ/8/34菌株の整列。A/プエルトリコ/8/34の生及びフィルタリングされたハイブリダイゼーションチップの結果もまた示す。*完全に一致した配列を示す。

Claims (18)

  1. ファレンス配列を有する核酸とハイブリダイズするサンプル由来の核酸配列からサブ配列を生成する工程と
    伝子データベースに対して前記サブ配列を検索することによって、前記サブ配列を識別する工程と、
    分類学的データベースから識別された前記サブ配列に関する分類学的結果を抽出する工程と、
    前記サブ配列に関する前記分類学的結果に基づいて、前記レファレンス配列の分類学的識別名を決定する工程と、
    前記レファレンス配列の前記分類学的識別名に基づいて、前記サンプルに含まれる標的の分類学的識別名を取得する工程と、
    含む方法。
  2. 前記レファレンス配列の分類学的識別名
    前記分類学的結果が単一の分類学的識別名のみを含む第1の条件を満たす場合、前記単一の分類学的識別名に決定し
    前記分類学的結果に含まれるスコアが最高のサブ配列のスコアと2番目にスコアが高いサブ配列のスコアの比が所定のスコア比閾値を超える第2の条件を満たす合、前記最高のスコアを有する前記サブ配列に関する前記分類学的結果に含まれる分類学的識別名に決定し
    記分類学的結果が分類学的にと直接の親の関係にある分類学的識別名のみを含む第3の条件を満たす合、前記子の分類学的識別名に決定し
    前記第1乃至第3の条件のいずれも満たさない場合、前記分類学的結果に含まれる共通の親の分類学的識別名に決定る、
    求項1記載の方法。
  3. 前記スコア比閾値が30%である請求項2記載の方法。
  4. 前記遺伝子データベースに対して検索される前記サブ配列は、
    前記標的由来の所定の複数のレファレンス配列に関連し、前記各レファレンス配列のうち、対応する分類学的識別名の一致するレファレンス配列を1つのグループる、
    請求項1に記載の方法。
  5. 記分類学的識別名が標的病原体と同じか又は分類学的にその子である第4の条件を満たす場合、前記分類学的識別名が前記標的の分類学的識別名として取得され、
    前記分類学的識別名が分類学的に子と直接の親の関係にある分類学的識別名のみを含む第5の条件を満たす場合、前記子の分類学的識別名が前記標的の分類学的識別名として取得され、
    前記第4及び第5の条件が満たされない場合、前記分類学的識別名に共通の親の分類学的識別名が前記標的の分類学的識別名として取得される、
    ことをさらに含む請求項4記載の方法。
  6. コンピュータに、
    レファレンス配列を有する核酸とハイブリダイズするサンプル由来の核酸配列からサブ配列を生成するステップ、
    遺伝子データベースに対して前記サブ配列を検索することによって、前記サブ配列を識別するステップ、
    分類学的データベースから前記サブ配列に関する分類学的結果を抽出するステップ、
    前記サブ配列に関する前記分類学的結果に基づいて、前記レファレンス配列の分類学的識別名を決定するステップ、
    前記レファレンス配列の分類学的識別名に基づいて、前記サンプルに含まれる標的の分類学的識別名を取得するステップ、
    を実行させるプログラム
  7. 請求項6に記載のプログラム備える装置。
  8. 前記レファレンス配列において、マイクロアレイで前記標的の核酸でない物質がハイブリダイズする塩基の位置をNに置換し
    前記レファレンス配列に対する前記核酸配列の1ヌクレオチド多形の比に基づいて前記サブ配列を生成する、
    請求項1に記載の方法。
  9. 前記物質がPCRプライマーである請求項8に記載の方法。
  10. 前記1ヌクレオチド多形の比がSNP閾値未満の場合、前記レファレンス配列から初期長の配列を選択し、前記配列内のユニークな塩基の比を計算する、
    ことをさらに含む請求項8に記載の方法。
  11. 前記SNP閾値が20%である請求項10に記載の方法。
  12. 前記ユニークな塩基の比がユニークな塩基閾値以上の場合、配列内のユニークな塩基の比が前記ユニークな塩基閾値未満になるまで、前記配列を伸長させ
    ことさらに含む請求項10に記載の方法。
  13. 前記ユニークな塩基閾値が40%である請求項12に記載の方法。
  14. 前記伸長された配列の最後の21塩基が4塩基未満のユニークな塩基を含む場合、伸長を終了する
    ことをさらに含む請求項12に記載の方法。
  15. 記配列の長さ及び前記配列内の前記ユニークな塩基の比が所定の条件に一致した場合、前記配列を前記サブ配列として生成る、
    ことをさらに含む請求項12に記載の方法。
  16. 前記条件は
    記配列が少なくとも7個の隣接するユニークな塩基を含み、前記配が100塩基以上である又は、
    前記配列が少なくとも7個の連続するユニークな塩基を含み、前記配が30塩基以上100塩基未満であって、記配列内のユニークな塩基の比が式1で算出される割合以上である、又は
    前記配列が少なくとも7個の連続するユニークな塩基を含み、前記配が30塩基未満であって、記配列内のユニークな塩基の比が95%以上であって
    前記式1は、(前記配列の長さ−30)×0.2857+70である、
    求項15に記載の方法。
  17. コンピュータに、
    前記レファレンス配列において、マイクロアレイで前記標的の核酸でない物質がハイブリダイズする塩基の位置をNに置換するステップ、
    前記レファレンス配列に対する前記核酸配列の1ヌクレオチド多形の比を決定することによって前記サブ配列を生成するステップ、
    をさらに実行させる請求項6に記載のプログラム
  18. 請求項17に記載のプログラムを備える装置。
JP2008516959A 2005-06-16 2006-06-09 コンピュータ実施の生物学的配列識別子のシステム及び方法 Expired - Fee Related JP4910104B2 (ja)

Applications Claiming Priority (17)

Application Number Priority Date Filing Date Title
US69176805P 2005-06-16 2005-06-16
US60/691,768 2005-06-16
US11/177,647 2005-07-02
US11/177,647 US8032310B2 (en) 2004-07-02 2005-07-02 Computer-implemented method, computer readable storage medium, and apparatus for identification of a biological sequence
US11/177,646 US20060210967A1 (en) 2004-07-02 2005-07-02 Re-sequencing pathogen microarray
US11/177,646 2005-07-02
US11/268,373 2005-11-07
US11/268,373 US20080020379A1 (en) 2004-11-05 2005-11-07 Diagnosis and prognosis of infectious diseases clinical phenotypes and other physiologic states using host gene expression biomarkers in blood
US73587605P 2005-11-14 2005-11-14
US73582405P 2005-11-14 2005-11-14
US60/735,876 2005-11-14
US60/735,824 2005-11-14
US74363906P 2006-03-22 2006-03-22
US60/743,639 2006-03-22
US11/422,431 US7623997B2 (en) 2004-07-02 2006-06-06 Computer-implemented biological sequence identifier system and method
US11/422,431 2006-06-06
PCT/US2006/022622 WO2006138182A2 (en) 2005-06-16 2006-06-09 Computer-implemented biological sequence identifier system and method

Publications (2)

Publication Number Publication Date
JP2008547090A JP2008547090A (ja) 2008-12-25
JP4910104B2 true JP4910104B2 (ja) 2012-04-04

Family

ID=46171026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008516959A Expired - Fee Related JP4910104B2 (ja) 2005-06-16 2006-06-09 コンピュータ実施の生物学的配列識別子のシステム及び方法

Country Status (2)

Country Link
JP (1) JP4910104B2 (ja)
KR (1) KR20120083521A (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3431135B2 (ja) * 2000-07-14 2003-07-28 独立行政法人農業技術研究機構 遺伝子の類縁性検索方法および遺伝子の類縁性検索システム

Also Published As

Publication number Publication date
JP2008547090A (ja) 2008-12-25
KR20120083521A (ko) 2012-07-25

Similar Documents

Publication Publication Date Title
AU2005327520B2 (en) Resequencing pathogen microarray
Phillippy et al. Comprehensive DNA signature discovery and validation
Honisch et al. Automated comparative sequence analysis by base-specific cleavage and mass spectrometry for nucleic acid-based microbial typing
EP3619712B1 (en) Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors
US11062790B2 (en) Method for thoroughly designing valid and ranked primers for genome-scale DNA sequence database
Malanoski et al. Automated identification of multiple micro-organisms from resequencing DNA microarrays
CN101495652A (zh) 计算机执行的生物序列鉴定系统和方法
US7979446B2 (en) Computer-implemented biological sequence identifier system and method
Neverov et al. Genotyping of measles virus in clinical specimens on the basis of oligonucleotide microarray hybridization patterns
JP4910104B2 (ja) コンピュータ実施の生物学的配列識別子のシステム及び方法
Black et al. Pyroprinting: A rapid and flexible genotypic fingerprinting method for typing bacterial strains
KR101205619B1 (ko) 서열 분석된 유기체의 검출 및 동정을 위한 유전자 표적의 디자인 및 선별
KR101182505B1 (ko) 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법
AU2011265338B2 (en) Computer-implemented biological sequence identifier system and method
Wan et al. Validation of mixed-genome microarrays as a method for genetic discrimination
Novák et al. DANTE and DANTE_LTR: Lineage-centric annotation pipelines for long terminal repeat retrotransposons in plant genomes
AU2013203091A1 (en) Computer-implemented biological sequence identifier system and method
Gardner et al. System to assess genome sequencing needs for viral protein diagnostics and therapeutics
AU2011203297B2 (en) Computer-Implemented Biological Sequence Identifier System and Method
Slezak et al. Bioinformatics Methods for Microbial Detection and Forensic Diagnostic Design
Lam et al. System To Assess Genome Sequencing

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110311

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111214

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150127

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees