JP4910104B2 - コンピュータ実施の生物学的配列識別子のシステム及び方法 - Google Patents
コンピュータ実施の生物学的配列識別子のシステム及び方法 Download PDFInfo
- Publication number
- JP4910104B2 JP4910104B2 JP2008516959A JP2008516959A JP4910104B2 JP 4910104 B2 JP4910104 B2 JP 4910104B2 JP 2008516959 A JP2008516959 A JP 2008516959A JP 2008516959 A JP2008516959 A JP 2008516959A JP 4910104 B2 JP4910104 B2 JP 4910104B2
- Authority
- JP
- Japan
- Prior art keywords
- taxonomic
- sequence
- identifier
- subsequence
- reference sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B99/00—Subject matter not provided for in other groups of this subclass
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Description
遺伝子データベースに対して前記サブ配列を検索することによって、前記サブ配列を識別する工程と、
分類学的データベースから識別された前記サブ配列に関する分類学的結果を抽出する工程と、
前記サブ配列に関する前記分類学的結果に基づいて、前記レファレンス配列の分類学的識別名を決定する工程と、
前記レファレンス配列の前記分類学的識別名に基づいて、前記サンプルに含まれる標的の分類学的識別名を取得する工程と、
を含む。
RRM v1マイクロアレイデザイン及び実験的方法の詳細は従来研究(非特許文献19、20、23)で議論された。本分析で使用された実験的マイクロアレイデータは無作為及び多重化された増幅スキームを用いて、様々な精製されたテンプレート及び臨床サンプルを用いて得られた。GCOSソフトウェアv1.3(Affymetrix Inc.,Santa Clara,CA)はハイブリダイズされたマイクロアレイを整列し、スキャンするために使用され、全てのプローブセット中の各プローブの強度を決定した。塩基コールはABACUSアルゴリズム(11)実装を使用したGDASv3.0.2.8ソフトウェア(Affymetrix Inc.,Santa Clara,CA)を用いて、各プローブの強度データに基づいて作成された。配列は後の分析ステップのためにFASTA形式で表された。
初期フィルタリングアルゴリズム、再配列決定病原体識別子(REPI)は、従来開発されていて(非特許文献20)、改訂版を含む一般的概念はCIBSI2.0プログラムで使用している現在の(自動検出)アルゴリズムに編入された。レファレンス配列選択により、及び高速検出のために有意な破片にHybSeqを分割するのと同様な他のソース(プライマー)より、引き起こされた潜在的偏りを除去するために、フィルタリング及びサブ配列選択を使用した。これは、図1のタスクIの最初のサブタスクであり、図2に詳細に図式的に示す。PCR増幅を使用した場合、マイクロアレイはそれらがハイブリダイゼーションに帰着する箇所を決定するために、プライマーのみの存在下でハイブリダイズされた。プライマーを用いてハイブリダイズされたProSeqsの何れの部分も、Nコールとしてマスクされるため、HybSeqは偏った情報を含んでいなかった。各ProSeqに対し、ユニークな塩基コールの全数に対するSNPsの比、UniRateはHybSeqから計算された。UniRateが≧20%(SNP閾値)である場合、不十分なハイブリダイゼーションを有するHybSeqsを削除するため、Proseqを標的生物検出に対し陰性と見なした。UniRate20%は、平均で25bp当たり5SNPであることを示していた。この頻度の標的病原体と同様の生物とProseqが基になっているレファレンス配列との間の違いで、25bpプローブの有意に特定なハイブリダイゼーションを期待することは現実的ではない。これによりフィルタリングサブタスクを終了し、タスクIループに戻り、次のProseqを試験する。<20%の比を有するProSeqsに対して、より詳細な検査が実行された。HybSeqの各箇所において、改訂されたスライドウィンドウアルゴリズム(非特許文献20)がBLASTへのクエリーとして使用できるSubSeqの拡張を試みた。まず、ある箇所以降の最初の20塩基(初期長)を検査した。これらの塩基の60%未満が不明瞭、Nの場合、SubSeqは伸長段階に入る。SubSeqはユニークな塩基コールの総量が40%(ユニークな塩基閾値)未満に低下するまで、又は最終21塩基を含むスライドウィンドウが4未満のユニークな塩基コールを有する場合、1回に1塩基分拡張した。これは、僅か20塩基のスライドウィンドウを使用し、ウィンドウ内容物の40%未満がユニークな塩基コールである場合、SubSeqの拡張を中止したREPIアルゴリズムとは異なっていた。この時点でSubSeqを検査し、追跡Nコールを削除した。7個の連続したユニークな塩基コールを有する少なくとも1つの箇所は、BLASTのワードサイズパラメータに一致し、それ以上の分析のためにSubSeqを保持する必要があった。100塩基より長いSubSeqsも受諾できた。受諾するために、≦30塩基のSubSeqは少なくとも95%の(「N」でない)ユニークな塩基コールを必要とした。30〜100塩基を有するSubSeqsに対して、配列受諾には少なくともVARI((「SubSeq長」−30)*0.2857+70)%のユニークな塩基を必要とした。≧80塩基のSubSeqsに対して、少なくとも11個の連続塩基を含む場合、BLASTワードサイズパラメータは11に変更された。首尾よく拡張されたSunSeqの一致性(ProSeq中の開始箇所及び長さ)は各SubSeqに関連する情報を保持したSubSeqアレイ中のエントリー中に置かれた。この一致性及びSubSeqはBLASTを介してバッチクエリーするためのファイル中に置かれた。以前の成功したSubSeqの終了から続行することにより、又は失敗した場合、そこからウィンドウが初期に拡張された点からHybSeqの終了まで続行することにより、この手順を繰り返した。完了後、アルゴリズムはタスクIループに戻り、BLASTサブタスクを実行した。
BLASTサブタスクは、クエリーとしてSubSeqを用い、データベースのバッチ同様性検索を実行した。使用したBLASTプログラムは定義されたパラメータセットを用いたNCBI Blastall−p blastnバージョン2.12であった。クエリーを加速するために、低複合領域のマスキングをシード段階に対して実行したが、しかしながら低複合性反復が実際のスコア付けに含まれていた。2006年2月7日に獲得したNCBIからの完全なヌクレオチドデータベースをレファレンスデータベースとして使用した。(開発中はデータベースの早期イメージを使用したが、この日時に獲得したデータベースイメージを用いて、記載の通りのアルゴリズムで全ての実験を再実行したことに注意)。デフォルトのギャップペナルティ及びヌクレオチド一致スコアを使用した。ヌクレオチド不一致ペナルティ、−qパラメータをデフォルトではなく−1に設定した。期待値<0.0001を用いた何れのBLASTクエリーの結果もblastallプログラムから表形式で返された。各返値についての情報(ビットスコア、期待値、不一致、一致長)をさらに分析するために、ハッシュキーとしてSubSeq一致性を用いて返値{hash key}{info}に置いた。
実行されたタスクIの次のサブタスクはSubSeq()状態の決定であり、図3に示す。単純なデータを提出し、決定処理を容易にするため、全てのSubSeqについての情報を2つのパラメータによって要約した。「識別された生物」は生物の分類学的クラスを表し、「生物ユニークさ」は生物識別の品質を指す。返値ハッシュ中の要素は、検査され、ProSeqの各個別SubSeq()に対するスコアアレイによってランキングされた。スコアアレイは与えられたデータベースに対して固定的な関係を有するビットスコアと期待値のパラメータ対を含んでいた。データベースのサイズを考慮する(期待値)或は考慮しない(ビットスコア)何れかのランキングスコアを使用することは、時に適切であった。返値ハッシュ中の要素は同じスコアを有することができるので、最高ビットスコア/最低期待値(MaxScore)を有する全ての要素は、個別のアレイRank1中に保持された。Rank1中の全ての要素の十分な分類学的区分けを、これもまた2006年2月7日に得られた(以前の注意書きを参照)NCBI分類学データベースから引き出した。MaxScore期待値がMAX(現在10−6)より大きい場合、SubSeq()は両者がnullに更新されたその識別された生物及び生物ユニークさ情報を有した。MaxScoreが十分小さい場合、Rank1中に置かれた返値が検査された。Rank1が単一要素を含む場合、SubSeqはSeqUniquの生物ユニークさに割り当てられた。Rank1が複数要素を含む場合、SubSeqは、全ての返値が同じ分類学クラスに属す場合、TaxUniqueの生物ユニークさに割り当てられ、それ以外の場合、SubSeqの生物状態はTaxAmbigに設定された。図3に概略したタスクはProSeqの各SubSeq()に適用された。全ての例で、識別された生物は各SubSeq()に割り当てられ、これはRank1内の全ての要素に共通の親である分類学クラスを表した。
タスクIが完了後、タスクII(図1参照)がResult1にリストされた識別された生物値を検査するために使用され、それらが同じ分類学的クラスを識別した場合、それらを一緒にグループ化した。Result1中の各エントリーを検査し、識別された生物がこのリスト中に現れない場合、Result2中に新規エントリーを作成した。ほとんどの例で、Result2のエントリーは検出された個々の生物を表わすが、まだ冗長な情報を含んでいる可能性があった。一方は他方の分類学的親である識別された生物を有するResult2中のエントリーは、実際に同じ病原体を表す可能性があった。ゲノムの標的は様々な可能な理由のために、両方のProSeqに十分ハイブリダイズしなかったため、同じ識別が発生する可能性はなかった。その代わり、2つの異なる緊密に関係した生物がマイクロアレイに両方ハイブリダイズした可能性はあった。
複数のProSeqが同じ病原体に対して標的にされた場合、どのように病原体検出及び識別が実行されるかを立証するために、10〜1000のゲノムコープを有するクラミジア肺炎(Chlamydia pneumoniae)サンプルが選択された(非特許文献21)。RPMv.1は主要な外膜タンパク質VD2及びVD4に対して暗号化する遺伝子及びDNA依存性ポリメラーゼ(rpoB)遺伝子から選択された3つの高度に保存されたProSeqを有している。異なるサンプルからのHybSeqsは表1に示すように塩基コールがどのくらい多いかのみが異なっている。コールされたProSeqの割合は80%から100%まで変化したが、例外として濃度10の1例においては、到達した試験の検出限界がこの濃度を超えていることを示すユニークコール生成rpoB ProSeqがわずか11%であった。表1にSubSeqに対し及び様々なサンプルに対して各タスクの終了時点で作成された決定をリストした。異なる例からのProSeqが同数のSubSeqを生成した。これらの異なるサンプルからのSubSeqはBLASTからの同じトップランキングされた返値に対して異なるビットスコアを報告した。事実、VD2及びVD4は正確に同じ結果を生成した。NCBI分類学データベースは返値を4つの別個の群に区分けし、これはクラミジア肺炎分類学的群及び3つの子菌株群を表した。完全に配列決定されたゲノムのデータベースエントリーを表わすため、AE001652、AE002167、AE017159及びBA000008が各サンプルに対する全てのProSeqの返値として出現した。1個のropB SubSeqがその生物ユニークさ、SeqUniquについて生成した。異なる分類学的クラスから複数の返値が返ったため、他の全てのSubSeqはTaxAmbigであった。VD2及びVD4ProSeqは各々単一のSubSeqを有しているので、タスクIはProSeqにSubSeqの状態を割り当てた。rpoB ProSeqに対しては、1個のSubSeqのビットスコアが、アルゴリズムがそのSubSeqの識別名をProSeqに割り付けるのに十分大きかった。それら全てが同じ識別された生物を有し、TaxAmbigが割り付けられていたので、アルゴリズムのタスクIIは3つ全てのProSeqsを一緒にグループ化した。全てのProSeqsが互いに一致し、同じ標的病原体の分類学的クラスに属していたので、タスクIIIの結果は標的病原体クラミジア肺炎に対し陽性であり、この決定は直接的であった。rpoB ProSeqはSeqUniquであったが、SeqUniquである全てのProSeqが子分類学的群ではなく、他のProSeqはTaxAmbigであったのでこれは、タスクIIに対する最終結論ではなかった。3つの認識されたサブ菌株は同じスコアであり、これはProSeqsのために選択された配列が非常によく保存されており、菌株間での判別ができないことを示していた。
アルゴリズムが親密に関連した遺伝子的種を如何に処理するかを示すために、非標的病原体のサンプルを考慮した。RPMv.1上で生物脅威病原体の1つ、大痘瘡ウィルスに対し、確証試行によって、検出された場合に大痘瘡ウィルスDNAテンプレートが常に陽性に識別されることを示した。アレイは血球凝集素(VMVHA、〜500bp)由来の2つのProSeqs及び大痘瘡ウィルス検出のためのサイトカイン応答モディファイアーB(VMVcrmB、〜300bp)の遺伝子を有している。近い近親、痘疹ウィルスが様々な濃度で鼻洗浄液中に加えられたという18の試行での各ProSeqに対する結果を表3に示す。ハイブリダイズするProSeqの割合は、ハイブリダイゼーションパターンが単に1つと見なされた場合、このタイルがその標的の存在を識別していると仮定できるほど十分である。これは、選択されたレファレンス配列が最良の選択ではなかったことを指している。しかしながら、アルゴリズムが適用された場合、事実、サンプルの何れも大痘瘡又は小痘瘡ウィルスとして識別されない。痘疹は常にVMVcrmB Proseqに対し最高スコアでリストされるオルトポックスウィルス属の1つであったが、わずか7つの例において、有望な種としてユニークに検出されただけだった。最低濃度及びVMVcrmBハイブリダイズしている断片を有する3サンプルにおいて、このProSeqはハイブリダイゼーションを引き起こす可能性のある多くのオルトポックスウィルス属の種中の1つとして大痘瘡を識別した。使用した増幅方法に対する検出の最低限界はこの濃度とその1つ上の間であった。VMVHA ProSeqは僅か2つの実験でオルトポックスウィルス属の種の識別を行い、大痘瘡が同じ最良スコアの返値の1つとしてリストされた。両方の例において、VMVcrmB ProSeqは最良一致として特に痘疹ウィルスを識別した。ハイブリダイズされたProSeqの割合はサンプルの濃度に相関した。
本実施例は、H1N1ノイラミニダーゼ(NA1)及びヒトインフルエンザA/プエルトリコ/8/34(H1N1)菌株由来のマトリックス遺伝子に対するProSeqのHybSeqsを考慮することにより、アルゴリズムのフィルタリング部分の重要性を示した。単一クエリー中でBLASTへProSeqのHybSeqを送付することは、特に塩基コールの使用を最大化するBLASTパラメータを使用する場合、ProSeqに関連した挿入又は削除を有する菌株に対してスコアを偏らせる可能性があるため、フィルタリングが必要であった。スライドウィンドウ試験はフィルタリングを制御するアルゴリズムの一部であった。フィルタリングが停止された場合、完全なHybSeqを重要なハイブリダイゼーションを示した2つのインフルエンザProSeqsに対して単一の配列中で使用した。A/Weiss/43(H1N1)菌株がNA1 ProSeqのHybSeqからの最も有望な菌株として識別されたが、マトリクスProSeqのHybSeqはA/プエリトリコ/8/34を正しく識別した。偏りの原因をより良く理解するため、2つの菌株のNA1遺伝子のCLUSTAL整列及びProSeq作成に使用されたレファレンス配列を図5に示す。2つの菌株は95%の一致性(1362個の整列された塩基のうち67個の不一致)を示したが、A/プエルトリコ/8/34(配列番号3)に比べA/Weiss/43(配列番号2)及びNA1 ProSeq(配列番号1)の両方に挿入された45塩基の伸張があった。デフォルトのフルタリング作動により、NA1 ProSeqはコールのない大きな伸張に遭遇したアルゴリズムとして5個のSubSeqsに分割された。タスクIにおいて、アルゴリズムはより短い3個のSubSeqsが最良スコアと同じでA/プエルトリコ/8/34を含む種々の単離株としてH1N1の生物を識別したが、他の2個のSubSeqsは最も近い一致であるとしてA/プエルトリコ/8/34菌株のみの識別された生物を有していた。SubSeqsの1個が非常に高いスコアを有していたため、NA1 ProSeqにより識別された生物はA/プエルトリコ/8/34であった。このProSeqはマトリクスProSeq中で作成された同じ菌株識別名に対応した。2つのProSeqがその生物のみを検出したので、識別された生物はA/プエルトリコ/8/34であった。正しい標的病原体がフィルタリングを用いて検出されたが、フィルタリングなしでは、A/プエルトリコ/8/34及びA/Weiss/43の2つの生物が検出されたので、標的病原体の識別レベルはインフルエンザA(H1N1サブタイプ)であった。偏りを除去するためHybSeqをSubSeqsに分割することは、この例において5個のSubSeqsの3個に対して発生したように、識別レベルを低下する。痘疹に対する従来実施例は、フィルタリングを使用しない場合、誤った種(ラクダ痘又はコモンマーモセット)の識別が発生するという別の実例であった。表2の臨床サンプルは、複数のSubSeqsへ分割されたHybSeqsが非常に特異な識別を可能にしたことを示した。
以下は、開示した方法の実施形態をリストしたPERLのソースコードである。「overclinical」プログラムは他のプログラムを実行するトップレベルのプログラムである。「fstorepi」はフィルタリング、サブ配列準備、及びクエリーファイル準備を実行する。このプログラムは所定のNに変化されるべき位置のリストを含むインプットファイル「primehyb.dat」を使用する。「runblast」はBLASTクエリーを実行する。「dbparse」は分類学的分析を実行する。このプログラムは各ProSeqに対する標的病原体のリストを含むインプットファイル「chip1pathogengroups」を使用する。
Claims (18)
- レファレンス配列を有する核酸とハイブリダイズするサンプル由来の核酸配列からサブ配列を生成する工程と、
遺伝子データベースに対して前記サブ配列を検索することによって、前記サブ配列を識別する工程と、
分類学的データベースから識別された前記サブ配列に関する分類学的結果を抽出する工程と、
前記サブ配列に関する前記分類学的結果に基づいて、前記レファレンス配列の分類学的識別名を決定する工程と、
前記レファレンス配列の前記分類学的識別名に基づいて、前記サンプルに含まれる標的の分類学的識別名を取得する工程と、
を含む方法。 - 前記レファレンス配列の分類学的識別名は、
前記分類学的結果が単一の分類学的識別名のみを含む第1の条件を満たす場合、前記単一の分類学的識別名に決定し、
前記分類学的結果に含まれるスコアが最高のサブ配列のスコアと2番目にスコアが高いサブ配列のスコアの比が所定のスコア比閾値を超える第2の条件を満たす場合、前記最高のスコアを有する前記サブ配列に関する前記分類学的結果に含まれる分類学的識別名に決定し、
前記分類学的結果が分類学的に子と直接の親の関係にある分類学的識別名のみを含む第3の条件を満たす場合、前記子の分類学的識別名に決定し、
前記第1乃至第3の条件のいずれも満たさない場合、前記分類学的結果に含まれる共通の親の分類学的識別名に決定する、
請求項1に記載の方法。 - 前記スコア比閾値が30%である請求項2に記載の方法。
- 前記遺伝子データベースに対して検索される前記サブ配列は、
前記標的由来の所定の複数のレファレンス配列に関連し、前記各レファレンス配列のうち、対応する分類学的識別名の一致するレファレンス配列を1つのグループにする、
請求項1に記載の方法。 - 前記分類学的識別名が標的病原体と同じか又は分類学的にその子である第4の条件を満たす場合、前記分類学的識別名が前記標的の分類学的識別名として取得され、
前記分類学的識別名が分類学的に子と直接の親の関係にある分類学的識別名のみを含む第5の条件を満たす場合、前記子の分類学的識別名が前記標的の分類学的識別名として取得され、
前記第4及び第5の条件が満たされない場合、前記分類学的識別名に共通の親の分類学的識別名が前記標的の分類学的識別名として取得される、
ことをさらに含む請求項4に記載の方法。 - コンピュータに、
レファレンス配列を有する核酸とハイブリダイズするサンプル由来の核酸配列からサブ配列を生成するステップ、
遺伝子データベースに対して前記サブ配列を検索することによって、前記サブ配列を識別するステップ、
分類学的データベースから前記サブ配列に関する分類学的結果を抽出するステップ、
前記サブ配列に関する前記分類学的結果に基づいて、前記レファレンス配列の分類学的識別名を決定するステップ、
前記レファレンス配列の分類学的識別名に基づいて、前記サンプルに含まれる標的の分類学的識別名を取得するステップ、
を実行させるプログラム。 - 請求項6に記載のプログラムを備える装置。
- 前記レファレンス配列において、マイクロアレイで前記標的の核酸でない物質がハイブリダイズする塩基の位置をNに置換し、
前記レファレンス配列に対する前記核酸配列の1ヌクレオチド多形の比に基づいて前記サブ配列を生成する、
請求項1に記載の方法。 - 前記物質がPCRプライマーである請求項8に記載の方法。
- 前記1ヌクレオチド多形の比がSNP閾値未満の場合、前記レファレンス配列から初期長の配列を選択し、前記配列内のユニークな塩基の比を計算する、
ことをさらに含む請求項8に記載の方法。 - 前記SNP閾値が20%である請求項10に記載の方法。
- 前記ユニークな塩基の比がユニークな塩基閾値以上の場合、配列内のユニークな塩基の比が前記ユニークな塩基閾値未満になるまで、前記配列を伸長させる、
ことをさらに含む請求項10に記載の方法。 - 前記ユニークな塩基閾値が40%である請求項12に記載の方法。
- 前記伸長された配列の最後の21塩基が4塩基未満のユニークな塩基を含む場合、伸長を終了する、
ことをさらに含む請求項12に記載の方法。 - 前記配列の長さ及び前記配列内の前記ユニークな塩基の比が所定の条件に一致した場合、前記配列を前記サブ配列として生成する、
ことをさらに含む請求項12に記載の方法。 - 前記条件は、
前記配列が少なくとも7個の隣接するユニークな塩基を含み、前記配列の長さが100塩基以上である、又は、
前記配列が少なくとも7個の連続するユニークな塩基を含み、前記配列の長さが30塩基以上100塩基未満であって、前記配列内のユニークな塩基の比が式1で算出される割合以上である、又は、
前記配列が少なくとも7個の連続するユニークな塩基を含み、前記配列の長さが30塩基未満であって、前記配列内のユニークな塩基の比が95%以上であって、
前記式1は、(前記配列の長さ−30)×0.2857+70である、
請求項15に記載の方法。 - コンピュータに、
前記レファレンス配列において、マイクロアレイで前記標的の核酸でない物質がハイブリダイズする塩基の位置をNに置換するステップ、
前記レファレンス配列に対する前記核酸配列の1ヌクレオチド多形の比を決定することによって前記サブ配列を生成するステップ、
をさらに実行させる請求項6に記載のプログラム。 - 請求項17に記載のプログラムを備える装置。
Applications Claiming Priority (17)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US69176805P | 2005-06-16 | 2005-06-16 | |
US60/691,768 | 2005-06-16 | ||
US11/177,647 | 2005-07-02 | ||
US11/177,647 US8032310B2 (en) | 2004-07-02 | 2005-07-02 | Computer-implemented method, computer readable storage medium, and apparatus for identification of a biological sequence |
US11/177,646 US20060210967A1 (en) | 2004-07-02 | 2005-07-02 | Re-sequencing pathogen microarray |
US11/177,646 | 2005-07-02 | ||
US11/268,373 | 2005-11-07 | ||
US11/268,373 US20080020379A1 (en) | 2004-11-05 | 2005-11-07 | Diagnosis and prognosis of infectious diseases clinical phenotypes and other physiologic states using host gene expression biomarkers in blood |
US73587605P | 2005-11-14 | 2005-11-14 | |
US73582405P | 2005-11-14 | 2005-11-14 | |
US60/735,876 | 2005-11-14 | ||
US60/735,824 | 2005-11-14 | ||
US74363906P | 2006-03-22 | 2006-03-22 | |
US60/743,639 | 2006-03-22 | ||
US11/422,431 US7623997B2 (en) | 2004-07-02 | 2006-06-06 | Computer-implemented biological sequence identifier system and method |
US11/422,431 | 2006-06-06 | ||
PCT/US2006/022622 WO2006138182A2 (en) | 2005-06-16 | 2006-06-09 | Computer-implemented biological sequence identifier system and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008547090A JP2008547090A (ja) | 2008-12-25 |
JP4910104B2 true JP4910104B2 (ja) | 2012-04-04 |
Family
ID=46171026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008516959A Expired - Fee Related JP4910104B2 (ja) | 2005-06-16 | 2006-06-09 | コンピュータ実施の生物学的配列識別子のシステム及び方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4910104B2 (ja) |
KR (1) | KR20120083521A (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3431135B2 (ja) * | 2000-07-14 | 2003-07-28 | 独立行政法人農業技術研究機構 | 遺伝子の類縁性検索方法および遺伝子の類縁性検索システム |
-
2006
- 2006-06-09 KR KR1020127014945A patent/KR20120083521A/ko not_active Application Discontinuation
- 2006-06-09 JP JP2008516959A patent/JP4910104B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008547090A (ja) | 2008-12-25 |
KR20120083521A (ko) | 2012-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2005327520B2 (en) | Resequencing pathogen microarray | |
Phillippy et al. | Comprehensive DNA signature discovery and validation | |
Honisch et al. | Automated comparative sequence analysis by base-specific cleavage and mass spectrometry for nucleic acid-based microbial typing | |
EP3619712B1 (en) | Deep learning-based framework for identifying sequence patterns that cause sequence-specific errors | |
US11062790B2 (en) | Method for thoroughly designing valid and ranked primers for genome-scale DNA sequence database | |
Malanoski et al. | Automated identification of multiple micro-organisms from resequencing DNA microarrays | |
CN101495652A (zh) | 计算机执行的生物序列鉴定系统和方法 | |
US7979446B2 (en) | Computer-implemented biological sequence identifier system and method | |
Neverov et al. | Genotyping of measles virus in clinical specimens on the basis of oligonucleotide microarray hybridization patterns | |
JP4910104B2 (ja) | コンピュータ実施の生物学的配列識別子のシステム及び方法 | |
Black et al. | Pyroprinting: A rapid and flexible genotypic fingerprinting method for typing bacterial strains | |
KR101205619B1 (ko) | 서열 분석된 유기체의 검출 및 동정을 위한 유전자 표적의 디자인 및 선별 | |
KR101182505B1 (ko) | 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법 | |
AU2011265338B2 (en) | Computer-implemented biological sequence identifier system and method | |
Wan et al. | Validation of mixed-genome microarrays as a method for genetic discrimination | |
Novák et al. | DANTE and DANTE_LTR: Lineage-centric annotation pipelines for long terminal repeat retrotransposons in plant genomes | |
AU2013203091A1 (en) | Computer-implemented biological sequence identifier system and method | |
Gardner et al. | System to assess genome sequencing needs for viral protein diagnostics and therapeutics | |
AU2011203297B2 (en) | Computer-Implemented Biological Sequence Identifier System and Method | |
Slezak et al. | Bioinformatics Methods for Microbial Detection and Forensic Diagnostic Design | |
Lam et al. | System To Assess Genome Sequencing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101214 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110311 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110318 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111115 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20111219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111214 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150127 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |