JP7333482B2 - 微生物の種特異的共通配列の取得方法、装置及び応用 - Google Patents

微生物の種特異的共通配列の取得方法、装置及び応用 Download PDF

Info

Publication number
JP7333482B2
JP7333482B2 JP2022560033A JP2022560033A JP7333482B2 JP 7333482 B2 JP7333482 B2 JP 7333482B2 JP 2022560033 A JP2022560033 A JP 2022560033A JP 2022560033 A JP2022560033 A JP 2022560033A JP 7333482 B2 JP7333482 B2 JP 7333482B2
Authority
JP
Japan
Prior art keywords
species
specific
sequence
candidate
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022560033A
Other languages
English (en)
Other versions
JP2023515249A (ja
Inventor
▲ジ▼匆
邵俊斌
劉燕
斉霞
金宇丹
李啓騰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai ZJ Bio Tech Co Ltd
Original Assignee
Shanghai ZJ Bio Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai ZJ Bio Tech Co Ltd filed Critical Shanghai ZJ Bio Tech Co Ltd
Publication of JP2023515249A publication Critical patent/JP2023515249A/ja
Application granted granted Critical
Publication of JP7333482B2 publication Critical patent/JP7333482B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、バイオ情報学の分野に関し、特に、微生物の種特異的共通配列の取得方法、装置及び応用に関する。
生体試料における病原微生物のDNA濃度は非常に低く、検出限界に近いことが大半である。そのため、従来のPCR又はリアルタイムPCR検出を使用する場合には、往々にして検出感度が不足する。ツーステップネステッドPCR(two-step nested PCR)といった別の方法を感度の向上に用いることもできるが、こうした方法は時間を要し、コストが嵩むほか、精度に劣る。そのため、検出感度を向上させることが極めて重要となっている。方式の1つでは、プライマー設計の際に適切な鋳型領域を探すが、通常はプラスミド及び16SrRNAが選択される。
しかし、プラスミドを用いてプライマーを設計する場合には、いくつかの問題が発生する。なぜなら、全ての微生物が種特異的プラスミドを有しているわけではなく、プラスミドを持たない微生物も存在するからである。まず、プラスミドDNAの種特異性は確実ではない。ある種のプラスミドの配列が別の種のプラスミドの配列と非常に似ている場合には、プラスミドに基づくPCR検出の結果に偽陽性又は偽陰性が発生するリスクが高まる。よって、多くの臨床実験室では、依然として別のPCRプライマー対を用いて検証実験を行わねばならない。次に、プラスミドには普遍性がない。種によってはそもそもプラスミドを有さないため、プラスミドを用いてその種を検出することはできず、プラスミドにプライマーを設計して検出感度を向上させることはなおさら不可能である。例えば、およそ5%の淋菌(Neisseria gonorrhoeae)の菌株がプラスミドを有さなかったために検出不可能であったとの研究報告がある。
同様に、rRNA遺伝子領域をPCR検出の鋳型として選択する場合にも、いくつかの問題が存在する。rRNA遺伝子は全ての微生物種のゲノム中に存在し、複数のコピーを有するために検出感度を向上させられる場合が多い。しかし、実際には全てのrRNA遺伝子が特異性を有しているわけではなく、例えば、結核菌H37Rv中のrRNA遺伝子はコピーを1つしか有さない。また、一部のrRNA遺伝子は、配列の変化が検出に適していない。例えば、近親度が大変近い種同士、ないしは同種の異なるサブタイプの菌株同士では、rRNA遺伝子の配列があまりにも保守的なことから、種特異性、ひいては亜種特異性の要求を満たすことができない。
このほか、未知の配列の微生物が感染症の爆発的拡大をもたらした場合には、病原微生物データベースのデータが絶えず更新されることが考えられる。そのため、従来のプローブ・プライマー設計では感染症の病原微生物をカバーできず、核酸検出試薬の品質に支障をきたす恐れがある。
以上で述べた従来技術の欠点に鑑みて、本発明の目的は、微生物の種特異的共通配列の取得方法、装置及び応用を提供することである。
本発明は、第1の局面において、微生物の種特異的共通配列の取得方法を提供する。上記の方法は、少なくとも以下のステップを含む。
共通配列候補の探索ステップS100:クラスタリングアルゴリズムに基づき、同一菌種に属する各ターゲット菌株の特異的配列をクラスタリングすることで、複数の種特異的共通配列候補を取得する。
初回スクリーニング種特異的共通配列の検証及び取得ステップS200:
種特異的共通配列候補が以下の条件を満たしているか否かを判断する。
3)株種カバー率が所定値を満たしている。
4)有効コピー数が所定値を満たしている。
種特異的共通配列候補が上記全ての条件を満たしている場合には、これを種特異的共通配列とする。
また、株種カバー率=(当該種特異的共通配列候補が出現したターゲット菌株数/ターゲット菌株の総数)*100%である。
前記有効コピー数は式(I)により算出する。
Figure 0007333482000001
nは、種特異的共通配列候補のコピー数の勾配の合計である。
Ciは、i番目の種特異的共通配列候補に対応するコピー数である。
Siは、i番目の種特異的共通配列候補が出現した菌株の数である。
Sallはターゲット菌株の総数である。
本発明は、第2の局面において、微生物の種特異的共通配列の取得装置を提供する。上記の装置は、少なくとも以下のモジュールを含む。
共通配列候補探索モジュール:クラスタリングアルゴリズムに基づき、同一菌種に属する各ターゲット菌株の特異的配列をクラスタリングすることで、複数の種特異的共通配列候補を取得する。
初回スクリーニング種特異的共通配列検証・取得モジュール:種特異的共通配列候補が以下の条件を満たしているか否かを判断する。
1)株種カバー率が所定値を満たしている。
2)有効コピー数が所定値を満たしている。
種特異的共通配列候補が上記全ての条件を満たしている場合には、これを種特異的共通配列とする。
また、株種カバー率=(当該種特異的共通配列候補が出現したターゲット菌株数/ターゲット菌株の総数)*100%である。
前記有効コピー数は式(I)により算出する。
Figure 0007333482000002
nは、種特異的共通配列候補のコピー数の勾配の合計である。
Ciは、i番目の種特異的共通配列候補に対応するコピー数である。
Siは、i番目の種特異的共通配列候補が出現した菌株の数である。
Sallはターゲット菌株の総数である。
本発明は、第3の局面において、コンピュータプログラムが記憶されているコンピュータで読取可能な記憶媒体を提供する。当該プログラムは、プロセッサで実行される際に、前記微生物の種特異的共通配列の取得方法を実現する。
本発明は、第4の局面において、プロセッサ及び前記コンピュータで読取可能な記憶媒体を含むコンピュータ処理デバイスを提供する。前記プロセッサは、前記コンピュータで読取可能な記憶媒体上のコンピュータプログラムを実行することで、前記微生物の種特異的共通配列の取得方法のステップを実現する。
本発明は、第5の局面において、プロセッサ、メモリ及び通信機を含む電子端末を提供する。前記メモリはコンピュータプログラムを記憶するために用いられ、前記通信機は外部機器との通信接続に用いられる。前記プロセッサは、前記端末に前記微生物の種特異的共通配列の取得方法を実行させるよう、前記メモリに記憶されているコンピュータプログラムを実行するために用いられる。
本発明は、第6の局面において、ヌクレオチド増幅における鋳型配列のスクリーニングに用いられる前記微生物の種特異的共通配列の取得方法、前記微生物の種特異的共通配列の取得装置、前記コンピュータで読取可能な記憶媒体、前記コンピュータ処理デバイス又は前記電子端末を提供する。
本発明は、第7の局面において、微生物の菌種鑑定方法を提供する。当該方法は、種特異的共通配列がターゲット菌株に含まれているか否かを増幅法によって鑑定する。前記種特異的共通配列は、前記微生物の種特異的共通配列の取得方法、前記微生物の種特異的共通配列の取得装置、前記コンピュータで読取可能な記憶媒体、前記コンピュータ処理デバイス又は前記電子端末で取得される。
上述したように、本発明に係る微生物の種特異的共通配列の取得方法、装置及び応用は、以下の有益な効果を有する。
本発明の方法は感度に優れており、未発見の多コピー領域を識別して、アセンブリングが不完全なモチーフから反復配列を探索可能である。また、取得される種特異的共通配列は正確であり、亜種レベルの識別が可能である。且つ、識別される共通配列は保守性が強く、最少の共通配列で可能な限り株種カバー率の最大値に達し得る。また、全ての論理モジュールは多重検証性を備えており、高精度である。また、多コピーの優先的選択及び特異性の優先的選択について、ユーザは、検出対象の違いに応じて適切な算出手法を選択すればよい。また、生体試料中の病原性微生物を検出する定量PCRにおけるプライマー・プローブ設計をシステム化及び自動化した検出装置は、細菌、ウィルス、真菌、アメーバ、クリプトスポリジウム、鞭毛虫、微胞子虫、ピロプラズマ原虫、マラリア原虫、トキソプラズマ、トリコモナス原虫、キネトプラスト類等を含む全ての病原性微生物に適用可能である。ユーザは、プロジェクトの目的に応じて、ワークフローの名称、ターゲット菌種、アライメント菌種、アップロードするローカルのfastaファイル、標的断片の長さ、菌種特異性(ほかの種との類似度)、反復領域の類似度、標的断片の菌株分布、フィルタリングする宿主の配列、優先する手段(多コピー領域の選択を優先するか特異的領域の選択を優先するか)、ターゲット菌株の類似度及び類似度の警告閾値の算出、及びプライマー・プローブ設計のパラメータを主に含む異なる構成パラメータを選択可能である。
図1は、本発明の実施例における方法のフローチャートである。 図1-1は、種特異的共通配列候補の領域を示す図である。 図1-2は、本発明の実施例に係る特異的領域の取得方法の配列を示す図である。 図1-3は、アライメント配列のカバー率と配列一致率の計算結果を示す図である。 図1-4は、本発明に係る特異的領域の取得方法において、1回目の切断片Tを残りの比較菌株の全ゲノム配列とグループ別に繰り返しアライメントする方法を示す図である。 図1-5は、本発明の実施例に係る多コピー領域の取得方法の配列を示す図である。 図2は、本発明の実施例における装置を示す図である。 図3は、本発明の実施例における電子端末を示す図である。
以下に、特定の具体的実施例によって本発明の実施形態につき説明する。なお、当業者であれば、本明細書に開示の内容から本発明のその他の利点及び効果を容易に理解可能である。更に、本発明は、その他の異なる具体的実施形態によっても実施又は応用が可能である。また、本明細書の各詳細事項については、視点及び応用の違いに応じて、本発明の精神を逸脱しないことを前提に各種の補足又は変更を加えてもよい。
そのほか、理解すべき点として、本発明で言及する1又は複数の方法ステップは、別途説明する場合を除き、これらの組み合わされるステップの前後に更にその他の方法ステップが存在してもよいこと、或いは、これらの明確に言及するステップの間に更にその他の方法ステップを挿入してもよいことを排除するものではない。更に、理解すべき点として、本発明で提供する1又は複数のステップ間の組み合わせ及び接続関係は、別途説明する場合を除き、これらの組み合わされるステップの前後に更にその他のステップが存在してもよいこと、或いは、これらの明確に言及する2つのステップの間に更にその他のステップを挿入してもよいことを排除するものではない。且つ、別途説明する場合を除き、各方法ステップの番号は各方法ステップを区別するための便宜的な手段にすぎず、各方法ステップの配列順を規制するものでも、本発明で実施可能な範囲を限定するものでもない。よっ
て、これらの相対関係の変更又は調整は、技術内容を実質的に変更しない限り、本発明で実施可能な範囲であるとみなされる。
図1~図3を参照する。説明すべき点として、本実施例で提供する図面は本発明の基本思想を概略的に説明するものにすぎない。図中には本発明に関係するアセンブリのみを示しているが、実際に実施する際のアセンブリの数、形状及びサイズに基づいて記載しているわけではない。実際に実施する際には、各アセンブリの形態、数及び比率を任意に変更してもよく、且つ、アセンブリのレイアウトや形態がより複雑になる場合もある。
図1に示すように、本実施例における微生物の種特異的共通配列の取得方法は、以下のステップを含む。
共通配列候補の探索ステップS100:クラスタリングアルゴリズムに基づき、同一菌種に属する各ターゲット菌株の特異的配列をクラスタリングすることで、複数の種特異的共通配列候補を取得する。
初回スクリーニング種特異的共通配列の検証及び取得ステップS200:
種特異的共通配列候補が以下の条件を満たしているか否かを判断する。
1)株種カバー率が所定値を満たしている。
2)有効コピー数が所定値を満たしている。
種特異的共通配列候補が上記全ての条件を満たしている場合には、これを種特異的共通配列とする。
また、株種カバー率=(当該種特異的共通配列候補が出現したターゲット菌株数/ターゲット菌株の総数)*100%である。
前記有効コピー数は式(I)により算出する。
Figure 0007333482000003
nは、種特異的共通配列候補のコピー数の勾配の合計である。nは、各菌株における種特異的共通配列候補のコピー数を取得したあと、コピー数の勾配を統計することで取得可能である。
Ciは、i番目の種特異的共通配列候補に対応するコピー数である。
Siは、i番目の種特異的共通配列候補が出現した菌株の数である。
Sallはターゲット菌株の総数である。
株種カバー率の所定値は必要に応じて決定すればよい。所定値が高いほどスクリーニングされる種特異的共通配列がカバーするターゲット菌株の数は多くなり、より代表性を有す
るようになる。最適には、株種カバー率の所定値は100%とする。ただし、実状において100%に達し得ない場合には、例えば、100%、99%、98%、97%、96%というように、順次逓減させてもよい。
有効コピー数の所定値は必要に応じて決定すればよい。有効コピー数の所定値は、例えば、2、3、4、10、20等というように、1よりも大きいことを推奨する。
式(I)は、Ci(Si/Sall)の合計を求めることを意味する。式中のiの範囲はCminからCmaxであり、iの数はnである。Cminは全ての種特異的共通配列候補のコピー数の最小値であり、Cmaxは全ての種特異的共通配列候補のコピー数の最大値である。
各種特異的共通配列候補を全てのターゲット菌株における全ゲノムとそれぞれアライメントすることで、種特異的共通配列候補の株種カバー率及び有効コピー数を統計することが可能である。
更に、種特異的共通配列候補を各ターゲット菌株の全ゲノム配列と再びアライメントすることで、1つの種特異的共通配列候補が1つのターゲット菌株の全ゲノム中にコピーをいくつ有するかを計算する。このようにして、全てのターゲット菌株の全ゲノムにおける当該種特異的共通配列候補のコピー数を統計し、Sall個のコピー数の値を取得する。次に、コピー数の値を小さい順に並べ、各コピー数にいくつのカバー菌株が対応しているかを計算する。
具体的に、図1-1の場合を例示すると、5つのターゲット菌株の全てに含まれていた種特異的共通配列候補の領域であるcluster43領域は、株種カバー率が100%(5/5)となる。また、コピー数の分布9(5)とは、コピー数が9個の菌株が5つあり、コピー数の勾配が1であることを意味している。つまり、n=1、Cmin及びCmaxはいずれも9、Si及びSallはいずれも5である。これらを式(I)に代入すると、有効コピー数=9*(1/1)=9となる。よって、当該cluster43領域の有効コピー数は9となる。
また、例えば、図1-1において、5つのターゲット菌株の全てに含まれていた種特異的共通配列候補の領域であるcluster226領域は、株種カバー率が100%(5/5)となる。且つ、コピー数の分布7(1)|8(2)|9(2)とは、コピー数が7個の菌株が1つ、コピー数が8個の菌株が2つ、コピー数が9個の菌株が2つあり、コピー数が3つの勾配を有していることを意味する。つまり、n=3、Cmin及びCmaxはそれぞれ7及び9、C1=7、C2=8、C3=9、S1=1、S2=2、S3=2、Sall=5となる。そして、これらを式(I)に代入すると、有効コピー数=7*(1/5)+8*(2/5)+9*(2/5)=8.2となることがわかる。従って、当該cluster226領域の有効コピー数は8.2となる。
ステップS100では、クラスタリング後に、類似する特異的多コピー配列から1つの集合を形成する。各集合は1つの共通配列に対応する。
クラスタリングに採用するクラスタリングアルゴリズムによれば、全ての特異的配列をクラスタリング可能であり、配列類似性の原理に基づいて、異なるグループからそのグループを最も代表可能な配列を共通配列として選別する。なお、当該共通配列とは、当該グループ中の全配列との距離が最も近い配列である。
前記特異的配列とは、同一ターゲット菌株に属する標的断片のことである。また、前記標
的断片が存在する領域が前記ターゲット菌株の特異的領域である。前記特異的領域は、特異的単一コピー領域としてもよいし、特異的多コピー領域としてもよいが、多コピー領域に基づく増幅のほうが操作性に優れている。よって、好ましくは特異的多コピー領域とする。また、1つのターゲット菌株は複数の特異的多コピー配列を有し得る。
前記特異的領域の取得方法は、以下のステップを含む。
ステップS110:微生物の標的断片を1又は複数の比較菌株における全ゲノム配列とそれぞれ1対1でアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を1回目の切断片T~Tとして取得する。ここで、nは≧1の整数とする。
ステップS120:前記1回目の切断片T~Tを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得する。
ステップS130:特異的領域の検証及び取得:特異的領域候補が以下の条件を満たしているか否かを判断する。
1)共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探す。
2)特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探す。
特異的領域候補が上記の条件をいずれも満たしていない場合には、これを微生物の標的断片における特異的領域とする。
上記の方法によって、前記微生物標的断片の由来菌株と比較菌株が同一の種又は亜種であるか否かを区別することができる。
上記のステップにおいて、前記類似度とは、微生物の標的断片のカバー率と一致率の積である。

カバー率=(類似配列断片の長さ/(微生物の標的断片の終端値-微生物の標的断片の始端値+1))%
一致率とは、微生物の標的断片と比較菌株をアライメントしたときのidentity値である。2つの配列をアライメントしたときのidentity値は、needle、water又はblat等のソフトウェアを用いて取得すればよい。
類似配列の長さとは、2つの配列をアライメントしたときに、一致した断片が標的断片に占める塩基数のことをいう。即ち、一致する断片の長さである。
類似度の所定値は必要に応じて決定すればよく、類似度の所定値が高いほど除去される断片は少なくなる。類似度の所定値は、例えば、96%、97%、98%、99%、100%というように、95%よりも大きいことを推奨する。
具体的な配列を図1-2に示す。図中の淡色の塩基は、類似度が所定値を超えている配列断片を表す。
微生物の標的断片のカバー率及び一致率は、needle、water或いはblatといったソフトウェアを利用して計算可能である。
例えば、計算結果は図1-3に示すようになる。配列Aは微生物の標的断片、配列Bは比較菌株1であり、配列AとBをアライメントしたところ、下記のようになった。

配列Aのカバー率=(187/(187-1+1))*100%=100%
また、配列Aと配列Bの一致率=98.4%となっている。
よって、AとBの類似度=100%*98.4%=98.4%となる。
ステップS110における微生物の標的断片と比較菌株は共有データベースから取得する。なお、前記共有データベースとしては主にncbiを選択する(https://www.ncbi.nlm.nih.gov)。
上記の方法は、更に以下のステップを含む。
ステップS111:選定した隣り合う微生物の標的断片を2つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示する。これにより、異常データや人為的エラーによる冗長データを除去可能である。
ステップS110における微生物の標的断片は、微生物の全ゲノムとしてもよいし、微生物の遺伝子断片としてもよい。
ステップS120において、アライメントの速度を加速するために、好ましい実施形態では、前記1回目の切断片T~Tを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントする。
具体的には、図1-4に示すように、1回目の切断片Tを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする際には、以下のステップを含む。
ステップS121:残りの比較菌株をP個のグループに分割する。各グループには複数の比較菌株が含まれている。
ステップS122:1回目の切断片Tを第1グループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を1回目の切断片Tにおける1回目の配列候補ライブラリとして取得する。
ステップS123:1回目の切断片Tにおける前回の配列候補ライブラリを、次のグループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を1回目の切断片Tにおける次の配列候補ライブラリとして取得する。こうして、P回目の配列候補ライブラリを1回目の切断片Tの特異的配列候補ライブラリとして取得するまで、ステップS12
2を1回目の配列候補ライブラリから繰り返し実行する。
そして、1回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とする。
マルチスレッドがブロックされないよう、比較菌株の各グループに含まれる比較菌株の数は、演算環境のハードウェア構成に基づいて設定すべきである。当該数量は、動作環境の全体構成に基づいて設定したスレッド数とすればよく、一般的には1~50スレッドとすればよい。具体的には、1~4スレッド、4~8スレッド、8~10スレッド、10~20スレッド、20~50スレッドとすればよく、好ましくは4スレッドとする。なお、図1-2に示す実施形態では8スレッドとしている。
例えば、図1-4に示すように、標的配列が2541個の微生物標的断片を含んでおり、且つ、比較菌株が588個、m=8であるとする。まず、微生物の標的断片1を588個の比較菌株における配列1~8と同時に比較して1回目の切断を行い、一致配列を除去して、全体を取りまとめることで1回目の特異的配列ライブラリを取得する。次に、当該ライブラリを588個の比較菌株における配列9~16と同時に比較して2回目の切断を行い、一致配列を除去して、全体を取りまとめることで2回目の特異的配列ライブラリを取得する。続いて、当該ライブラリを588個の比較菌株における配列17~24と同時に比較して3回目の切断を行い、一致配列を除去して、全体を取りまとめることで3回目の特異的配列ライブラリを取得する。・・・、このようにして、73回目の特異的配列ライブラリを588個の比較菌株における配列585~588と同時に比較して74回目の切断を行い、一致配列を除去して、全体を取りまとめることで74回目の特異的配列ライブラリ(即ち、標的断片1の特異的配列ライブラリ)を取得するまで順に実行する。
続いて、標的配列における微生物の標的断片2を588個の比較菌株における配列1~8と同時に比較して1回目の切断を行い、一致配列を除去して、全体を取りまとめることで1回目の特異的配列ライブラリを取得する。次に、当該ライブラリを588個の比較菌株における配列9~16と同時に比較して2回目の切断を行い、一致配列を除去して、全体を取りまとめることで2回目の特異的配列ライブラリを取得する。続いて、当該ライブラリを588個の比較菌株における配列17~24と同時に比較して3回目の切断を行い、一致配列を除去して、全体を取りまとめることで3回目の特異的配列ライブラリを取得する。・・・、このようにして、73回目の特異的配列ライブラリを588個の比較菌株における配列585~588と同時に比較して74回目の切断を行い、一致配列を除去して、全体を取りまとめることで74回目の特異的配列ライブラリ(即ち、標的断片2の特異的配列ライブラリ)を取得するまで順に実行する。
こうして、標的配列における2541個の微生物標的断片と588個の比較菌株とのアライメントが全て完了するまで順に実行することで得られる切断片が、微生物の標的断片における特異的領域候補となる。
好ましい実施形態では、ステップS120のあとに、更に、ステップS110及びS120を実行して標的配列における各微生物の標的断片の特異的領域候補を取得し、各微生物の標的断片における特異的領域候補の集合を標的配列の特異的領域候補とする。
標的配列は複数の標的断片を含み得る。複数の標的断片は、その他のスクリーニングステップによって微生物のゲノムから選別し、取得した断片としてもよい。例えば、特定の微生物の多コピー断片としてもよい。
ステップS130において、前記共有データベースとしては主にncbiを選択する(h
ttps://www.ncbi.nlm.nih.gov)。また、共有データベースを検索するアルゴリズムはblastアルゴリズムとすればよい。
更に、ステップS110、S120及びS130を実行する前に、演算環境のハードウェア構成に基づいて切断サイズを設定し、演算対象のデータをユニット切断する。具体的には、ステップS110において、演算対象のデータは標的断片である。また、ステップS120において、演算対象のデータは、一致配列を繰り返し除去するごとの該当特異的配列ライブラリである。また、ステップS130において、演算対象のデータは特異的領域候補である。
ユニット切断後のユニット数量*ユニットファイルの動作に必要な構成は、動作環境の全体構成を超えてはならない。
ユニット切断では、切断を要する配列の総数をスレッド数mで割ったものがユニット切断後のユニット数となる。マルチスレッド動作環境では、各スレッドが同一数の演算タスクを実行することで、最適な性能条件下における効率的な演算の実現を保証する。
多コピー領域の取得方法は、以下のステップを含む。
多コピー領域候補の探索ステップS140:微生物の標的断片につき内部アライメントを行って、類似度が所定値を満たす検出対象配列の対応領域を多コピー領域候補として探索する。前記類似度とは、検出対象配列のカバー率と一致率の積である。
多コピー領域の検証及び取得ステップS150:多コピー領域候補のコピー数の中央値を取得し、多コピー領域候補のコピー数の中央値が1よりも大きい場合には多コピー領域とする。
前記類似度の所定値は必要に応じて調整すればよい。類似度の所定値は、例えば、85%、90%、95%、96%、97%、98%、99%又は100%など、80%よりも大きいことを推奨する。

カバー率=(類似配列の長さ/(検出対象配列の終端値-検出対象配列の始端値+1))%
一致率とは、検出対象配列と別の配列をアライメントした際のidentity値である。2つの配列のアライメント時のidentity値は、needle、water又はblat等のソフトウェアを用いて取得すればよい。
類似配列の長さとは、検出対象配列と別の配列をアライメントした際に、一致した断片が検出対象配列に占める塩基数のことをいう。即ち、一致する断片の長さである。
例えば、多コピー領域候補に対応する検出対象配列のデータ状況を図1-1に示す。
配列Aは検出対象配列である。配列AとBをアライメントした場合、一致する断片の長さは187となっている。また、配列Aの始端値(即ち、開始位置)は1、終端値(即ち、終了位置)は187となっている。この場合、次のようになる。

配列Aのカバー率=(187/(187-1+1))*100%=100%
また、配列Aと配列Bの一致率に対応するidentityは98.4%となっている。
即ち、AとBの類似度=100%*98.4%=98.4%となる。類似度の所定値を80%とすると、AとBの類似度は所定値を満たしているため、多コピー領域候補となる。
アライメントする2つの配列は、それぞれの塩基の位置が交差していない(即ち、2つのアライメント配列は、微生物の標的断片において完全に分離しており、重畳部分が存在しない)。なお、アライメント前に重畳領域を有するアライメント配列対を除去してもよいし、アライメント後に、重畳領域を有するアライメント配列対から取得した類似度の値を除去してもよい。例えば、図1-3に示すように、前記配列Aの位置が1~187の場合、配列Bの各塩基の位置が1~187の間に出現することはない。また、カバー率と一致率を算出したあとに、uniq関数を用いて重複を除去してもよい。
ステップS150において、多コピー領域候補のコピー数の中央値を取得する方法としては、微生物の標的断片における各多コピー領域候補の位置を特定し、検証対象の多コピー領域候補の各塩基位置を覆っているその他の多コピー領域候補の数を取得して、当該検証対象の多コピー領域候補のコピー数の中央値を算出する。前記その他の多コピー領域候補とは、検証対象の多コピー領域候補以外の多コピー領域候補のことをいう。
具体的に、例えば、図1-5では、1行目が微生物の標的断片の配列を表しており、微生物の標的断片の配列のうち、枠内の断片が検証対象の多コピー領域候補である。2行目の数字は、検証対象の多コピー領域候補の各塩基に対応する多コピー数である。また、図中のグレー部分は、検証対象の多コピー領域候補以外の多コピー領域候補を表している(以下、反復断片と略称)。左側より、枠内における1行目の1つ目の塩基Aは5つの反復断片に対応して出現している(即ち、5つの反復断片に覆われている)。よって、当該位置に対応する反復断片の数は5とみなされるため、当該位置の多コピー数は5となる。また、図中の枠内における最後の塩基Gは、当該位置に対応する反復断片の数が4のため、当該位置の多コピー数は4となる。以下同様に、検証対象の多コピー領域候補の各塩基位置を覆っている反復断片の数を統計する。統計結果について、図中の2行目の多コピー数を参照し、各位置のコピー数の数値を組み合わせることで、多コピー領域候補のコピー数の中央値を算出可能である。中央値とは、統計した全数値のうちの各変数値を大きい方から順に並べて1つの数列とした場合に、変数列の中央に位置する変数値のことをいう。
前記反復断片とは、検証対象の多コピー領域候補以外の多コピー領域候補のことをいう。各反復断片の位置は、全ゲノムにおける当該反復断片の元の位置に対応している。
更に、ステップS140において、微生物の標的断片は1本の鎖としてもよいし、不完全な複数本のモチーフとしてもよい。
微生物の標的断片を不完全な複数本のモチーフとする場合には、各モチーフを接続してから多コピー領域候補を探索する。モチーフの接続順は特に限定せず、任意の順序で接続すればよい。例えば、各モチーフをランダムな順序で1本の鎖となるよう接続する。類似度が所定値を満たす領域に異なるモチーフが含まれている場合には、当該領域を元のモチーフの接続点に従って切断し、2つの領域に分けてから、2つの領域が多コピー領域候補か否かをそれぞれ判断する。
各モチーフの接続方式はランダムとする。
微生物の標的断片が不完全な複数本のモチーフからなるとは、微生物の標的断片の一部配
列が連続した1本の配列からなるのではなく、複数の異なる大きさのモチーフからなることをいう。モチーフは、従来の次世代シーケンシング条件において、読み取り長が短く、連結が不完全なために生じる。
本発明における上記の方法は、全ゲノム配列が存在するか否かに制限されず、ターゲット菌株とアライメント菌株の名称を提供するか、ローカルから配列ファイルをアップロードすることで演算タスクを提出することができる。また、検出範囲について比較すると、本方法は、細菌、ウィルス、真菌、アメーバ、クリプトスポリジウム、鞭毛虫、微胞子虫、ピロプラズマ原虫、マラリア原虫、トキソプラズマ、トリコモナス原虫、キネトプラスト類等を含む(ただし、これらに限らない)全ての病原性微生物に適用可能である。
好ましい実施形態において、ステップS150では、更に、多コピー領域候補のコピー数の95%信頼区間を算出してもよい。信頼区間とは、サンプル統計量で構成される全パラメータの推定区間である。即ち、そのターゲット領域の全コピー数についての区間推定である。信頼区間は、当該ターゲット領域におけるコピー数の真の値が一定の確率で測定結果の周辺に位置する度合を表すものであり、測定されるパラメータの測定値の信頼度を示す。
多コピー領域候補のコピー数の95%信頼区間を算出する際には、多コピー領域候補の塩基数をサンプル数とし、多コピー領域候補の各塩基に対応するコピーの数値をサンプル値として計算する。
図1-5に示すように、長さ500bpの当該多コピーターゲット領域において、各塩基にコピーの数値が1つずつ対応している場合、コピーの数値は合計500個となる。
上記で言及したコピー数の中央値以外に、本発明では、この500個のコピーの数値の95%信頼区間を用いて、有意水準を0.05、信頼度を95%とした場合の当該多コピーターゲット領域全体のコピー数の区間推定を評価する。信頼水準が同じ場合、サンプル量が多いほど信頼区間は狭くなり、平均値に近くなる。
前記微生物の標的断片は、微生物の全ゲノムとしてもよいし、微生物の遺伝子断片としてもよい。
多コピー領域の取得メカニズムとしては、通常の状況であれば、これら500個のコピーの数値を表す中央値と95%信頼区間によって、当該多コピー領域候補の真の状況を反映することができる。本モジュール設計によれば、多コピーを更に検証できるだけでなく、一部の特殊な状況を排除することも可能である。例えば、当該500bpの多コピー領域候補において、5つの塩基のコピー数のみが1000であり、残り495個の塩基のコピー数は1であったとする。この場合、コピー数の中央値は1、平均値は10.99、95%信頼区間は(2.25~19.73)となる。つまり、平均値は多コピーであることを示しているが、中央値はこの95%信頼区間の範囲内にはないため、多コピー領域候補を多コピーであると判定することはできない。
より好ましい技術方案では、更に次のステップを含む。
ステップS300:初回スクリーニング種特異的共通配列について、プローブ・プライマー設計の規則に基づき、プローブ・プライマー設計を行ってプローブ・プライマー候補を取得する。次に、プローブ・プライマー候補の配列を全てのターゲット菌株の全ゲノムとアライメントし、各プローブ・プライマー配列に対応する菌株カバー率を算出して、菌株カバー率が所定値を満たすプローブ・プライマー候補をスクリーニングする。そして、ス
クリーニングしたプローブ・プライマー候補に対応する初回スクリーニング種特異的共通配列を最終的な種特異的共通配列とする。
一実施形態では、更に次のステップを含む。
ステップS400:ステップS200において、共通配列候補の株種カバー率がいずれも所定値に達していない場合には、共通配列候補を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングする。そして、スクリーニングした組み合わせを共通配列候補とし、ステップS200で初回スクリーニング種特異的共通配列を検証及び取得する。
他の実施形態では、更に次のステップを含む。
ステップS500:ステップS300において、前記プローブ・プライマー候補の菌株カバー率がいずれも所定値に達していない場合には、初回スクリーニング種特異的共通配列を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングする。そして、スクリーニングした組み合わせを共通配列候補とし、ステップS200で初回スクリーニング種特異的共通配列を検証及び取得する。
ステップS400及びS500では、共通配列の数を低い順に組み合わせて選択すればよい。
具体的に、まずは2つずつの共通配列の組み合わせに進む。全ての菌株を1つでカバー可能な共通配列が存在しなくても、各々がカバーする株種カバー率の合計が株種カバー率の所定値以上となるような2つの共通配列を探せばよい。そして、このような2つの共通配列が存在する場合にはそれらを結果に組み込む。一方、存在しない場合には、3つずつの共通配列の組み合わせに進む。即ち、1つ又は2つで株種カバー率の所定値を満たし得る共通配列が存在しなくても、各々がカバーする株種カバー率の合計が株種カバー率の所定値以上となるような3つの共通配列を探せばよい。そして、このような3つの共通配列が存在する場合にはそれらを結果に組み込む。一方、存在しない場合には、4つずつの共通配列の組み合わせに進む。このようにして、全体の株種カバー率の所定値を満たし得る共通配列の組み合わせを発見し、結果に組み込むまで、組み合わせを無限に繰り返す設計を進める。
バイオマーカーデータベースの持続的な更新を保証するために、演算タスクを新たに提出することで最新データの再計算を実現する。また、配列更新カバー率モジュールを用い、更新された配列データセットにおける既存のバイオマーカーのカバー率を検証してもよい。前記ターゲット菌株の数を更新する場合には、元のプローブ・プライマー候補を更新されたターゲット菌株の全ゲノムとアライメントしてカバー率を算出し、更新されたターゲット菌株を元のプローブ・プライマー候補がカバー可能か否かを検証する。
本発明における上記の方法でスクリーニングされる種特異的共通配列は、特異性、感度及び保守性等の複数の条件を同時に満たし得る。
図2に示すように、本発明の一実施例における微生物の種特異的共通配列の取得装置は、少なくとも以下のモジュールを含む。
共通配列候補探索モジュール:クラスタリングアルゴリズムに基づき、同一菌種に属する各ターゲット菌株の特異的配列をクラスタリングすることで、複数の種特異的共通配列候補を取得する。
初回スクリーニング種特異的共通配列検証・取得モジュール:種特異的共通配列候補が以下の条件を満たしているか否かを判断する。
1)株種カバー率が所定値を満たしている。
2)有効コピー数が所定値を満たしている。
種特異的共通配列候補が上記全ての条件を満たしている場合には、これを種特異的共通配列とする。
また、株種カバー率=(当該種特異的共通配列候補が出現したターゲット菌株数/ターゲット菌株の総数)*100%である。
前記有効コピー数は式(I)により算出する。
Figure 0007333482000004
nは、種特異的共通配列候補のコピー数の勾配の合計である。
Ciは、i番目の種特異的共通配列候補に対応するコピー数である。
Siは、i番目の種特異的共通配列候補が出現した菌株の数である。
Sallはターゲット菌株の総数である。
前記特異的配列とは、同一ターゲット菌株に属する標的断片のことである。また、前記標的断片が存在する領域が前記ターゲット菌株の特異的領域である。
前記特異的領域は特異的多コピー領域である。
前記装置は、更に、特異的領域を取得するための以下のモジュールを含む。
1回目切断片取得モジュール:微生物の標的断片を1又は複数の比較菌株における全ゲノム配列とそれぞれ1対1でアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を1回目の切断片T~Tとして取得する。ここで、nは≧1の整数とする。
特異的領域候補取得モジュール:前記1回目の切断片T~Tを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得する。
特異的領域検証・取得モジュール:特異的領域候補が以下の条件を満たしているか否かを判断する。
1)共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探す。
2)特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探す。
特異的領域候補が上記の条件をいずれも満たしていない場合には、これを微生物の標的断片における特異的領域とする。
上記の装置によって、前記微生物標的断片の由来菌株と比較菌株が同一の種又は亜種であるか否かを区別することができる。
前記類似度とは、微生物の標的断片のカバー率と一致率の積である。また、前記カバー率=(類似配列断片の長さ/(微生物の標的断片の終端値-微生物の標的断片の始端値+1))%である。
前記類似度の所定値は80%よりも大きい。
アライメントする2つの配列は、それぞれの塩基の位置が交差していない。
選択的に、1回目切断片取得モジュールは、更に以下のサブモジュールを含む。
元データ類似度比較サブモジュール:選定した隣り合う微生物の標的断片を2つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示する。
前記特異的領域候補取得モジュールは、前記1回目の切断片T~Tを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントする。
選択的に、1回目の切断片Tを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする場合、前記特異的領域候補取得モジュールは以下のサブモジュールを含む。
比較菌株グループ分けサブモジュール:残りの比較菌株をP個のグループに分割する。各グループには複数の比較菌株が含まれている。
1回目配列候補ライブラリ取得サブモジュール:1回目の切断片Tを第1グループにおける各比較菌株の全ゲノム配列と2つずつ同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を1回目の切断片Tにおける1回目の配列候補ライブラリとして取得する。
特異的領域候補取得サブモジュール:1回目の切断片Tにおける前回の配列候補ライブラリを、次のグループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去する。そして、残ったいくつかの断片を1回目の切断片Tにおける次の配列候補ライブラリとして取得する。こうして、P回目の配列候補ライブラリを1回目の切断片Tの特異的配列候補ライブラリとして取得するまで、特異的領域候補取得サブモジュールに1回目の配列候補ライブラリから繰り返し実行させる。
そして、1回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とする。
更に、前記装置は、多コピー領域を取得するための以下のモジュールを含む。
多コピー領域候補探索モジュール:微生物の標的断片につき内部アライメントを行って、類似度が所定値を満たす検出対象配列の対応領域を多コピー領域候補として探索する。前記類似度とは、検出対象配列のカバー率と一致率の積である。
多コピー領域検証・取得モジュール:多コピー領域候補のコピー数の中央値を取得し、多コピー領域候補のコピー数の中央値が1よりも大きい場合に多コピー領域とする。

カバー率=(類似配列の長さ/(検出対象配列の終端値-検出対象配列の始端値+1))%
微生物の標的断片が不完全な複数本のモチーフである場合には、各モチーフを接続してから多コピー領域候補を探索する。
前記多コピー領域検証・取得モジュールには、更に、多コピー領域候補のコピー数の中央値を取得するサブモジュールが含まれる。当該サブモジュールは、微生物の標的断片における各多コピー領域候補の位置を特定し、検証対象の多コピー領域候補の各塩基位置を覆っているその他の多コピー領域候補の数を取得して、当該検証対象の多コピー領域候補のコピー数の中央値を算出する。
一実施形態において、前記装置は、最終種特異的共通配列スクリーニングモジュールを更に含む。当該モジュールは、初回スクリーニング種特異的共通配列について、プローブ・プライマー設計の規則に基づき、プローブ・プライマー設計を行ってプローブ・プライマー候補を取得する。次に、プローブ・プライマー候補の配列を全てのターゲット菌株の全ゲノムとアライメントし、各プローブ・プライマー配列に対応する菌株カバー率を算出して、菌株カバー率が所定値を満たすプローブ・プライマー候補をスクリーニングする。そして、スクリーニングしたプローブ・プライマー候補に対応する初回スクリーニング種特異的共通配列を最終的な種特異的共通配列とする。
一実施形態において、前記装置は、第1共通配列組み合わせスクリーニングモジュールを更に含む。当該モジュールは、初回スクリーニング種特異的共通配列検証・取得モジュールにおいて、共通配列候補の株種カバー率がいずれも所定値に達していない場合に、共通配列候補を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングする。そして、スクリーニングした組み合わせを共通配列候補とし、初回スクリーニング種特異的共通配列検証・取得モジュールを用いて、初回スクリーニング種特異的共通配列を検証及び取得する。
一実施形態において、前記装置は、第2共通配列組み合わせスクリーニングモジュールを更に含む。当該モジュールは、最終種特異的共通配列スクリーニングモジュールにおいて、前記プローブ・プライマー候補の菌株カバー率がいずれも所定値に達していない場合に、初回スクリーニング種特異的共通配列を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングする。そして、スクリーニングした組み合わせを共通配列候補とし、初回スクリーニング種特異的共通配列検証・取得モジュールを用いて、初回スクリーニング種特異的共通配列を検証及び取得する。
第1共通配列組み合わせスクリーニングモジュールと第2共通配列組み合わせスクリーニングモジュールは、共通配列の数を低い順に組み合わせて選択する。
一実施形態において、前記装置は、配列更新カバー率モジュールを更に含む。当該モジュールは、前記ターゲット菌株の数を更新する場合に、元のプローブ・プライマー候補を更新されたターゲット菌株の全ゲノムとアライメントしてカバー率を算出し、更新されたターゲット菌株を元のプローブ・プライマー候補がカバー可能か否かを検証する。
ユーザは、インターフェースを通じて最新の配列データセットを提供する。前記配列更新カバー率モジュールは、当該データセットをデータベースに新たに統合し、元のプローブ・プライマー配列を更新された配列とアライメントし直してカバー率を算出する。算出結果は、更新された菌株を元のプローブ・プライマー配列がカバー可能か否かを反映し得る。
選択的に、多コピー領域検証・取得モジュールは、更に、多コピー領域候補のコピー数の95%信頼区間を算出する。好ましくは、多コピー領域候補のコピー数の95%信頼区間を算出する際には、多コピー領域候補の塩基数をサンプル数とし、多コピー領域候補の各塩基に対応するコピーの数値をサンプル値として計算する。
本実施例の装置と上記方法の実施例の原理は基本的に同様のため、上記の方法及び装置の実施例では、同様の特徴についての定義、算出方法、実施形態の提示、及び好ましい実施形態の提示に関する詳細な記載は互いに共通とできる。よって、繰り返し詳述することはしない。
説明すべき点として、上記の装置における各モジュールの区分は論理機能の区分にすぎず、実際に実現する際には全部或いは一部を1つの物理的実体に集積してもよいし、物理的に切り離してもよいと解釈すべきである。且つ、これらのモジュールは、全てを処理素子でソフトウェアを呼び出す形式で実現してもよいし、全てをハードウェア形式で実現してもよいし、また、一部のモジュールを処理素子でソフトウェアを呼び出す形式で実現して一部のモジュールをハードウェア形式で実現してもよい。例えば、取得モジュールは、単独で設置される処理素子としてもよいし、いずれかのチップに集積して実現してもよい。また、プログラムコードの形式でメモリに記憶してもよいし、いずれかの処理素子により上記取得モジュールの機能を呼び出して実行してもよい。その他のモジュールの実現についてもこれと同様である。また、これらのモジュールの全部又は一部は一体的に集積してもよいし、個別に実現してもよい。ここでいう処理素子は、信号処理能力を有する集積回路とすればよい。実現過程において、上記方法の各ステップ又は上記の各モジュールは、処理素子におけるハードウェアの集積論理回路又はソフトウェア形式の命令により完了してもよい。
例えば、上記のモジュールは上記方法を実施する1又は複数の集積回路として配置すればよい。例えば、1又は複数の特定用途向け集積回路(Application Specific Integrated Circuit,ASICと略称)、或いは、1又は複数のマイクロプロセッサ(digital singnal processor,DSPと略称)、或いは、1又は複数のフィールドプログラマブルゲートアレイ(Field Programmable Gate Array,FPGAと略称)、グラフィックスプロセッシングユニット(Graphics Processing Unit,GPUと略称)等とすればよい。また、上記いずれかのモジュールを処理素子によりプログラムコードを呼び出す形式で実現する場合、当該処理素子は、例えば中央処理装置(Central Processing Unit,CPUと略称)やプログラムコードを呼び出し可能
なその他のプロセッサといった汎用のプロセッサとすればよい。また、これらのモジュールは一体的に集積し、システムオンチップ(System-on-a-chip,SOCと略称)形式で実現してもよい。
本発明のいくつかの実施例では、更に、コンピュータで読取可能な記憶媒体を提供する。当該記憶媒体にはコンピュータプログラムが記憶されている。当該プログラムは、プロセッサで実行される際に上記の微生物の標的断片における特異的領域の識別方法を実現する。
本発明のいくつかの実施例では、更に、プロセッサ及び前記コンピュータで読取可能な記憶媒体を含むコンピュータ処理デバイスを提供する。前記プロセッサは、前記コンピュータで読取可能な記憶媒体上のコンピュータプログラムを実行することで、上記の微生物の標的断片における特異的領域の識別方法のステップを実現する。
本発明のいくつかの実施例では、更に、プロセッサ、メモリ及び通信機を含む電子端末を提供する。前記メモリはコンピュータプログラムを記憶するために用いられ、前記通信機は外部機器との通信接続に用いられる。前記プロセッサは、前記端末に上記の微生物の標的断片における特異的領域の識別方法を実行及び実現させるよう、前記メモリに記憶されているコンピュータプログラムを実行するために用いられる。
図3は、本発明で提供する電子端末を示す図である。前記電子端末は、プロセッサ31、メモリ32、通信機33、通信インターフェース34及びシステムバス35を含む。メモリ32及び通信インターフェース34は、システムバス35を介してプロセッサ31及び通信機33に接続され、相互の通信を完了する。メモリ32はコンピュータプログラムを記憶するために用いられ、通信機33、通信インターフェース34はその他のデバイスとの通信に用いられる。プロセッサ31及び通信機33は、電子端末に上記の画像分析方法の各ステップを実行させるよう、コンピュータプログラムを動作させるために用いられる。
上記で言及したシステムバスは、ペリフェラルコンポーネントインターコネクト基準(Peripheral Pomponent Interconnect,PCIと略称)のバスや、イーアイサ(Extended Industry Standard Architecture,EISAと略称)バス等とすればよい。当該システムバスは、アドレスバス、データバス、制御バス等に分けられる。なお、表示の便宜上、図中では1本の太い線のみで示しているが、これは1本のバス又は1種類のバスのみを有することを意味しない。通信インターフェースは、データベースアクセス装置とその他のデバイス(例えば、クライアント、リーダ/ライタライブラリ、リードオンリーライブラリ)との通信の実現に用いられる。メモリは、ランダムアクセスメモリ(Random Access Memory,RAMと略称)を含んでもよいし、更に不揮発性メモリ(non-volatile memory)を含んでもよく、例えば少なくとも1つの磁気ディスクメモリを含む。
上記のプロセッサは、中央処理装置(Central Processing Unit,CPUと略称)、ネットワークプロセッサ(Network Processor,NPと略称)等を含む汎用のプロセッサとしてもよいし、デジタルシグナルプロセッサ(Digital Signal Processing,DSPと略称)、特定用途向け集積回路(Application Specific Integrated Circuit,ASICと略称)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array,FPGAと略称)、グラフィックスプロセッサ(Graphics Processing Unit,GPUと略称)、又は、その他のプ
ログラマブルロジックデバイス、ディスクリートゲート、又はトランジスタの論理デバイス、ディスクリートハードウェアユニットとしてもよい。
当業者であれば理解可能なように、上記各方法の実施例を実現する全部又は一部のステップは、コンピュータプログラムに関連するハードウェアで完了可能である。前記コンピュータプログラムは、コンピュータで読取可能な記憶媒体に記憶可能である。当該プログラムは、実行時に上記各方法の実施例に含まれるステップを実行する。前記コンピュータで読取可能な記憶媒体には、フロッピーディスク、光ディスク、CD-ROM(Compact Disc Read-Only Memory)、MOディスク、ROM(Read only memory)、RAM(Random access memory)、EPROM(消去可能プログラマブルROM)、EEPROM(電気的消去可能プログラマブルROM)、磁気カード又は光カード、フラッシュメモリ、或いは、機器で実行可能な命令の記憶に適したその他のタイプの媒体/機械可読媒体が含まれる(ただし、これらに限らない)。前記コンピュータで読取可能な記憶媒体は、コンピュータデバイスに未接続の製品としてもよいし、コンピュータデバイスに接続されて使用される部材としてもよい。
具体的に実現する場合、前記コンピュータプログラムは、特定のタスクの実行又は特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、アセンブリ、データ構造等とする。
上記の微生物の種特異的共通配列の取得方法、上記の微生物の種特異的共通配列の取得装置、コンピュータで読取可能な記憶媒体、コンピュータ処理デバイス又は電子端末は、ヌクレオチド増幅における鋳型配列のスクリーニングに使用可能である。
スクリーニングにおいては、種特異的共通配列を鋳型配列とする。前記種特異的共通配列は、ステップS200又は初回スクリーニング種特異的共通配列検証・取得モジュールにより取得される初回スクリーニング種特異的共通配列としてもよいし、ステップS300又は最終種特異的共通配列スクリーニングモジュールにより取得される最終的な種特異的共通配列としてもよい。
本発明の一実施例は、微生物の菌種鑑定方法を提供する。当該方法では、上記方法で取得した種特異的共通配列がターゲット菌株に含まれているか否かを増幅法によって鑑定する。
上記の方法によって、前記微生物標的断片の由来菌株と比較菌株が同一の種又は亜種であるか否かを区別することができる。
微生物は、細菌、ウィルス、真菌、アメーバ、クリプトスポリジウム、鞭毛虫、微胞子虫、ピロプラズマ原虫、マラリア原虫、トキソプラズマ、トリコモナス原虫又はキネトプラスト類の1又は複数から選択される。
上記の実施例は本発明の原理と効果を例示的に説明するものにすぎず、本発明を制限するものではない。本技術を熟知する者であれば、本発明の精神及び範囲を逸脱しないことを前提に、上記の実施例を補足又は変更することが可能である。従って、当業者が本発明で開示した精神及び技術的思想から逸脱することなく遂行するあらゆる等価の補足又は変更もまた本発明の特許請求の範囲に含まれる。

Claims (31)

  1. クラスタリングアルゴリズムに基づき、同一菌種に属する各ターゲット菌株の特異的配列をクラスタリングすることで、複数の種特異的共通配列候補を取得する共通配列候補の探索ステップS100と、
    種特異的共通配列候補が、
    1)株種カバー率が所定値を満たしている、及び
    2)有効コピー数が所定値を満たしている、
    との条件を満たしているか否かを判断し、
    種特異的共通配列候補が上記全ての条件を満たしている場合には、当該種特異的共通配列候補を種特異的共通配列とする初回スクリーニング種特異的共通配列の検証及び取得ステップS200と、を少なくとも含み、
    株種カバー率=(当該種特異的共通配列候補が出現したターゲット菌株数/ターゲット菌株の総数)*100%であり、
    前記有効コピー数は式(I)により算出し、
    nは、種特異的共通配列候補のコピー数の勾配の合計であり、
    Ciは、i番目の種特異的共通配列候補に対応するコピー数であり、
    Siは、i番目の種特異的共通配列候補が出現した菌株の数であり、
    Sallはターゲット菌株の総数である
    ことを特徴とする微生物の種特異的共通配列の取得方法。
  2. 前記特異的配列とは、同一ターゲット菌株に属する標的断片のことであり、前記標的断片
    が存在する領域が前記ターゲット菌株の特異的領域であることを特徴とする請求項1に記載の微生物の種特異的共通配列の取得方法。
  3. 前記特異的領域は特異的多コピー領域であることを特徴とする請求項2に記載の微生物の種特異的共通配列の取得方法。
  4. 前記特異的領域の取得方法は、
    微生物の標的断片を1又は複数の比較菌株における全ゲノム配列とそれぞれ2つずつアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を1回目の切断片T~Tとして取得し、nは≧1の整数であるステップS110と、
    前記1回目の切断片T~Tを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得するステップS120と、
    特異的領域候補が以下の条件を満たしているか否かを判断し、
    1)共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探し、
    2)特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探し、
    特異的領域候補が上記の条件をいずれも満たしていない場合には、当該特異的領域候補を微生物の標的断片における特異的領域とする特異的領域の検証及び取得ステップS130と、
    を含むことを特徴とする請求項2に記載の微生物の種特異的共通配列の取得方法。
  5. a.請求項4の方法によって、前記微生物標的断片の由来菌株と比較菌株が同一の種又は亜種であるか否かを区別可能であり、
    b.前記類似度とは、微生物の標的断片のカバー率と一致率の積であり、前記微生物の標的断片のカバー率=(類似配列断片の長さ/(微生物の標的断片の終端値-微生物の標的断片の始端値+1))%であり、
    c.ステップS120において、前記1回目の切断片T~Tを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントし、
    d.前記類似度の所定値は80%よりも大きく、
    e.アライメントする2つの配列はそれぞれの塩基の位置が交差しておらず、
    f.上記の方法は、更に、選定した微生物の標的断片を2つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示するステップS111を含む、
    との特徴のうちの1又は複数を更に含むことを特徴とする請求項4に記載の微生物の種特異的共通配列の取得方法。
  6. 1回目の切断片Tを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする際には、
    残りの比較菌株をP個のグループに分割し、各グループに複数の比較菌株が含まれており、比較菌株の各グループに含まれる比較菌株の数は、演算環境のハードウェア構成に基づいて設定され、当該数量は動作環境の全体構成に基づいて設定したスレッド数とするステップS121と、
    1回目の切断片Tを第1グループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を1回目の切断片Tにおける1回目の配列候補ライブラリとして取得するステップS122と、
    1回目の切断片Tにおける前回の配列候補ライブラリを、次のグループにおける各比較
    菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を1回目の切断片Tにおける次の配列候補ライブラリとして取得し、P回目の配列候補ライブラリを1回目の切断片Tの特異的配列候補ライブラリとして取得するまで、ステップS122を1回目の配列候補ライブラリから繰り返し実行し、1回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とするステップS123と、
    を含むことを特徴とする請求項5に記載の微生物の種特異的共通配列の取得方法。
  7. 多コピー領域の取得方法は、
    微生物の標的断片につき内部アライメントを行って、検出対象配列のカバー率と一致率の積である類似度が所定値を満たす検出対象配列の対応領域を多コピー領域候補として探索する多コピー領域候補の探索ステップS140と、
    多コピー領域候補のコピー数の中央値を取得し、多コピー領域候補のコピー数の中央値が1よりも大きい場合には多コピー領域とする多コピー領域の検証及び取得ステップS150と、
    を含むことを特徴とする請求項3に記載の微生物の種特異的共通配列の取得方法。
  8. a.カバー率=(類似配列の長さ/(検出対象配列の終端値-検出対象配列の始端値+1))%であり、
    b.微生物の標的断片が不完全な複数本のモチーフである場合には、各モチーフを接続してから多コピー領域候補を探索し、
    c.多コピー領域候補のコピー数の中央値を取得する方法として、微生物の標的断片における各多コピー領域候補の位置を特定し、検証対象の多コピー領域候補の各塩基位置を覆っているその他の多コピー領域候補の数を取得して、当該検証対象の多コピー領域候補のコピー数の中央値を算出し、
    d.ステップS150では、更に、多コピー領域候補のコピー数の95%信頼区間を算出してもよい、
    との特徴のうちの1又は複数を更に含むことを特徴とする請求項7に記載の微生物の種特異的共通配列の取得方法。
  9. ステップS150では、多コピー領域候補のコピー数の95%信頼区間を算出する際には、多コピー領域候補の塩基数をサンプル数とし、多コピー領域候補の各塩基に対応するコピーの数値をサンプル値として計算することを特徴とする請求項8に記載の微生物の種特異的共通配列の取得方法。
  10. 初回スクリーニング種特異的共通配列について、プローブ・プライマー設計の規則に基づき、プローブ・プライマー設計を行ってプローブ・プライマー候補を取得し、プローブ・プライマー候補の配列を全てのターゲット菌株の全ゲノムとアライメントし、各プローブ・プライマー配列に対応する菌株カバー率を算出して、菌株カバー率が所定値を満たすプローブ・プライマー候補をスクリーニングし、スクリーニングしたプローブ・プライマー候補に対応する初回スクリーニング種特異的共通配列を最終的な種特異的共通配列とするステップS300を更に含むことを特徴とする請求項1に記載の微生物の種特異的共通配列の取得方法。
  11. ステップS200において、共通配列候補の株種カバー率がいずれも所定値に達していない場合には、共通配列候補を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングして、スクリーニングした組み合わせを共通配列候補とし、ステップS200で初回スクリーニング種特異的共通配列を検証及び取得するステップS400更に含むことを特徴とする請求項1に記載の微生物の種特異的共通配列の取得方法。
  12. ステップS300において前記プローブ・プライマー候補の菌株カバー率がいずれも所定値に達していない場合には、初回スクリーニング種特異的共通配列を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングして、スクリーニングした組み合わせを共通配列候補とし、ステップS200で初回スクリーニング種特異的共通配列を検証及び取得するステップS500を更に含むことを特徴とする請求項10に記載の微生物の種特異的共通配列の取得方法。
  13. ステップS400では、共通配列の数を低い順に組み合わせて選択することを特徴とする請求項11に記載の微生物の種特異的共通配列の取得方法。
  14. ステップS500では、共通配列の数を低い順に組み合わせて選択することを特徴とする請求項12に記載の微生物の種特異的共通配列の取得方法。
  15. 前記ターゲット菌株の数を更新する場合には、元のプローブ・プライマー候補を更新されたターゲット菌株の全ゲノムとアライメントしてカバー率を算出し、更新されたターゲット菌株を元のプローブ・プライマー候補がカバー可能か否かを検証することを特徴とする請求項10又は12に記載の微生物の種特異的共通配列の取得方法。
  16. クラスタリングアルゴリズムに基づき、同一菌種に属する各ターゲット菌株の特異的配列をクラスタリングすることで、複数の種特異的共通配列候補を取得する共通配列候補探索モジュールと、
    種特異的共通配列候補が、
    1)株種カバー率が所定値を満たしている、及び
    2)有効コピー数が所定値を満たしている、
    との条件を満たしているか否かを判断し、
    種特異的共通配列候補が上記全ての条件を満たしている場合には、当該種特異的共通配列候補を種特異的共通配列とする初回スクリーニング種特異的共通配列検証・取得モジュールと、を少なくとも含み、
    株種カバー率=(当該種特異的共通配列候補が出現したターゲット菌株数/ターゲット菌株の総数)*100%であり、
    前記有効コピー数は式(I)により算出し、
    nは、種特異的共通配列候補のコピー数の勾配の合計であり、
    Ciは、i番目の種特異的共通配列候補に対応するコピー数であり、
    Siは、i番目の種特異的共通配列候補が出現した菌株の数であり、
    Sallはターゲット菌株の総数である
    ことを特徴とする微生物の種特異的共通配列の取得装置。
  17. 前記特異的配列とは、同一ターゲット菌株に属する標的断片のことであり、前記標的断片が存在する領域が前記ターゲット菌株の特異的領域であることを特徴とする請求項16に記載の微生物の種特異的共通配列の取得装置。
  18. 前記特異的領域は特異的多コピー領域であることを特徴とする請求項17に記載の微生物
    の種特異的共通配列の取得装置。
  19. 前記装置は、更に、特異的領域を取得するためのモジュールとして、
    微生物の標的断片を1又は複数の比較菌株における全ゲノム配列とそれぞれ2つずつアライメントし、類似度が所定値を超えている断片を除去して、残りのいくつかの断片を1回目の切断片T~Tとして取得し、nは≧1の整数である1回目切断片取得モジュールと、
    前記1回目の切断片T~Tを残りの比較菌株における全ゲノム配列とそれぞれアライメントし、類似度が所定値を超えている断片を除去して、残った切断片の集合を微生物の標的断片における特異的領域候補として取得する特異的領域候補取得モジュールと、
    特異的領域候補が以下の条件を満たしているか否かを判断し、
    1)共有データベースを検索して、特異的領域候補との類似度が所定値よりも大きいその他の種が存在するか否かを探し、
    2)特異的領域候補を、各比較菌株の全ゲノム配列、及び微生物標的断片の由来菌株の宿主における全ゲノム配列とそれぞれアライメントし、類似度が所定値よりも大きい断片が存在するか否かを探し、
    特異的領域候補が上記の条件をいずれも満たしていない場合には、当該特異的領域候補を微生物の標的断片における特異的領域とする特異的領域検証・取得モジュール、
    を含むことを特徴とする請求項16に記載の微生物の種特異的共通配列の取得装置。
  20. a.請求項19の装置によって、前記微生物標的断片の由来菌株と比較菌株が同一の種又は亜種であるか否かを区別可能であり、
    b.前記類似度とは、微生物の標的断片のカバー率と一致率の積であり、前記微生物の標的断片のカバー率=(類似配列断片の長さ/(微生物の標的断片の終端値-微生物の標的断片の始端値+1))%であり、
    c.前記特異的領域候補取得モジュールは、前記1回目の切断片T~Tを残りの比較菌株における全ゲノム配列とそれぞれグループ別に繰り返しアライメントし、
    d.前記類似度の所定値は80%よりも大きく、
    e.アライメントする2つの配列はそれぞれの塩基の位置が交差しておらず、
    f.1回目切断片取得モジュールは、更に、選定した微生物の標的断片を2つずつアライメントし、類似度が所定値よりも低いとのアライメント結果が出た場合には、警報を発するとともに、ターゲット株種に対応するスクリーニング条件を表示する元データ類似度比較サブモジュールを含む、
    との特徴のうちの1又は複数を更に含むことを特徴とする請求項19に記載の微生物の種特異的共通配列の取得装置。
  21. 1回目の切断片Tを残りの比較菌株における全ゲノム配列とグループ別に繰り返しアライメントする場合、前記特異的領域候補取得モジュールは、
    残りの比較菌株をP個のグループに分割し、各グループに複数の比較菌株が含まれており、比較菌株の各グループに含まれる比較菌株の数は、演算環境のハードウェア構成に基づいて設定され、当該数量は動作環境の全体構成に基づいて設定したスレッド数とする比較菌株グループ分けサブモジュールと、
    1回目の切断片Tを第1グループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を1回目の切断片Tにおける1回目の配列候補ライブラリとして取得する1回目配列候補ライブラリ取得サブモジュールと、
    1回目の切断片Tにおける前回の配列候補ライブラリを、次のグループにおける各比較菌株の全ゲノム配列と1対1で同時にアライメントし、類似度が所定値を超えている断片を除去して、残ったいくつかの断片を1回目の切断片Tにおける次の配列候補ライブラリとして取得し、P回目の配列候補ライブラリを1回目の切断片Tの特異的配列候補ラ
    イブラリとして取得するまで、特異的領域候補取得サブモジュールに1回目の配列候補ライブラリから繰り返し実行させ、1回目の切断片における全ての特異的配列候補ライブラリの集合を特異的領域候補とする特異的領域候補取得サブモジュール、
    を含むことを特徴とする請求項20に記載の微生物の種特異的共通配列の取得装置。
  22. 前記装置は、更に、多コピー領域を取得するためのモジュールとして、
    微生物の標的断片につき内部アライメントを行って、類似度が所定値を満たす検出対象配列の対応領域を多コピー領域候補として探索し、前記類似度とは、検出対象配列のカバー率と一致率の積である多コピー領域候補探索モジュールと、
    多コピー領域候補のコピー数の中央値を取得し、多コピー領域候補のコピー数の中央値が1よりも大きい場合に多コピー領域とする多コピー領域検証・取得モジュール、
    を含むことを特徴とする請求項18に記載の微生物の種特異的共通配列の取得装置。
  23. a.カバー率=(類似配列の長さ/(検出対象配列の終端値-検出対象配列の始端値+1))%であり、
    b.微生物の標的断片が不完全な複数本のモチーフである場合には、各モチーフを接続してから多コピー領域候補を探索し、
    c.前記多コピー領域検証・取得モジュールには、更に、多コピー領域候補のコピー数の中央値を取得するサブモジュールが含まれ、当該サブモジュールは、微生物の標的断片における各多コピー領域候補の位置を特定し、検証対象の多コピー領域候補の各塩基位置を覆っているその他の多コピー領域候補の数を取得して、当該検証対象の多コピー領域候補のコピー数の中央値を算出し、
    d.多コピー領域検証・取得モジュールは、更に、多コピー領域候補のコピー数の95%信頼区間を算出する
    との特徴のうちの1又は複数を更に含むことを特徴とする請求項22に記載の微生物の種特異的共通配列の取得装置。
  24. 多コピー領域検証・取得モジュールは、多コピー領域候補のコピー数の95%信頼区間を算出する際に、多コピー領域候補の塩基数をサンプル数とし、多コピー領域候補の各塩基に対応するコピーの数値をサンプル値として計算することを特徴とする請求項22に記載の微生物の種特異的共通配列の取得装置。
  25. 前記装置は、更に、
    初回スクリーニング種特異的共通配列検証・取得モジュールにおいて、共通配列候補の株種カバー率がいずれも所定値に達していない場合に、共通配列候補を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングして、スクリーニングした組み合わせを共通配列候補とし、初回スクリーニング種特異的共通配列検証・取得モジュールを用いて、初回スクリーニング種特異的共通配列を検証及び取得する第1共通配列組み合わせスクリーニングモジュール、
    を含むことを特徴とする請求項16に記載の微生物の種特異的共通配列の取得装置。
  26. 第1共通配列組み合わせスクリーニングモジュールは、共通配列の数を低い順に組み合わせて選択することを特徴とする請求項25に記載の微生物の種特異的共通配列の取得装置。
  27. 前記装置は、更に、
    初回スクリーニング種特異的共通配列について、プローブ・プライマー設計の規則に基づき、プローブ・プライマー設計を行ってプローブ・プライマー候補を取得し、プローブ・プライマー候補の配列を全てのターゲット菌株の全ゲノムとアライメントし、各プローブ・プライマー配列に対応する菌株カバー率を算出して、菌株カバー率が所定値を満たすプ
    ローブ・プライマー候補をスクリーニングし、スクリーニングしたプローブ・プライマー候補に対応する初回スクリーニング種特異的共通配列を最終的な種特異的共通配列とする最終種特異的共通配列スクリーニングモジュール、
    含むことを特徴とする請求項16に記載の微生物の種特異的共通配列の取得装置。
  28. 前記装置は、更に、
    最終種特異的共通配列スクリーニングモジュールにおいて、前記プローブ・プライマー候補の菌株カバー率がいずれも所定値に達していない場合に、初回スクリーニング種特異的共通配列を組み合わせ、その中から、株種カバー率が所定値に達し得、且つ共通配列が最も少ない組み合わせをスクリーニングして、スクリーニングした組み合わせを共通配列候補とし、初回スクリーニング種特異的共通配列検証・取得モジュールを用いて、初回スクリーニング種特異的共通配列を検証及び取得する第2共通配列組み合わせスクリーニングモジュール、を含むことを特徴とする請求項27に記載の微生物の種特異的共通配列の取得装置。
  29. 2共通配列組み合わせスクリーニングモジュールは、共通配列の数を低い順に組み合わせて選択することを特徴とする請求項28に記載の微生物の種特異的共通配列の取得装置。
  30. 前記装置は、更に、
    前記ターゲット菌株の数を更新する場合に、元のプローブ・プライマー候補を更新されたターゲット菌株の全ゲノムとアライメントしてカバー率を算出し、更新されたターゲット菌株を元のプローブ・プライマー候補がカバー可能か否かを検証する配列更新カバー率モジュール、を含むことを特徴とする請求項27又は28に記載の微生物の種特異的共通配列の取得装置。
  31. コンピュータプログラムが記憶されている記憶媒体であって、
    当該プログラムは、プロセッサで実行される際に、請求項1~15のいずれかに記載の微生物の種特異的共通配列の取得方法を実現することを特徴とするコンピュータで読取可能な記憶媒体。
JP2022560033A 2020-04-02 2020-05-14 微生物の種特異的共通配列の取得方法、装置及び応用 Active JP7333482B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010254696.6 2020-04-02
CN202010254696.6A CN111477276B (zh) 2020-04-02 2020-04-02 微生物的种特异共有序列的获得方法、装置及应用
PCT/CN2020/090177 WO2021196357A1 (zh) 2020-04-02 2020-05-14 微生物的种特异共有序列的获得方法、装置及应用

Publications (2)

Publication Number Publication Date
JP2023515249A JP2023515249A (ja) 2023-04-12
JP7333482B2 true JP7333482B2 (ja) 2023-08-24

Family

ID=71749828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022560033A Active JP7333482B2 (ja) 2020-04-02 2020-05-14 微生物の種特異的共通配列の取得方法、装置及び応用

Country Status (6)

Country Link
US (1) US20230154565A1 (ja)
EP (1) EP4116982A4 (ja)
JP (1) JP7333482B2 (ja)
CN (1) CN111477276B (ja)
AU (1) AU2020439910A1 (ja)
WO (1) WO2021196357A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992277B (zh) * 2021-03-18 2021-10-26 南京先声医学检验实验室有限公司 一种微生物基因组数据库构建方法及其应用
CN113921083B (zh) * 2021-10-27 2022-11-25 云舟生物科技(广州)股份有限公司 自定义序列的分析方法、计算机存储介质及电子设备
CN114752694A (zh) * 2022-05-31 2022-07-15 湖南大学 用于鉴定变形杆菌属的16SrRNA基因特异性序列片段及其筛选方法
CN115148288A (zh) * 2022-06-29 2022-10-04 慕恩(广州)生物科技有限公司 一种微生物识别的方法、识别装置及相关设备
CN115719616B (zh) * 2022-11-24 2023-09-29 江苏先声医疗器械有限公司 一种病原物种特异性序列的筛选方法及系统
CN117737272A (zh) * 2023-12-29 2024-03-22 深圳吉因加医学检验实验室 一种用于目标微生物标记物的筛选方法及其应用
CN118506875B (zh) * 2024-07-12 2024-10-01 中国科学院心理研究所 Rna病毒引物优选的设计的方法、设备、介质和程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006515987A (ja) 2002-11-27 2006-06-15 セクエノム,インコーポレイティド 配列変化検出及び発見用の断片化をベースとする方法及びシステム
JP2012531211A (ja) 2009-06-26 2012-12-10 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 系統発生分析のための方法およびシステム
CN103714267A (zh) 2013-12-27 2014-04-09 中国人民解放军军事医学科学院生物工程研究所 基于种特有序列的检测或辅助检测待测菌株的方法
CN110111843A (zh) 2018-01-05 2019-08-09 深圳华大基因科技服务有限公司 对核酸序列进行聚类的方法、设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010016071A2 (en) * 2008-08-05 2010-02-11 Swati Subodh Identification of genomic signature for differentiating highly similar sequence variants of an organism
US20140288844A1 (en) * 2013-03-15 2014-09-25 Cosmosid Inc. Characterization of biological material in a sample or isolate using unassembled sequence information, probabilistic methods and trait-specific database catalogs
US10350280B2 (en) * 2016-08-31 2019-07-16 Medgenome Inc. Methods to analyze genetic alterations in cancer to identify therapeutic peptide vaccines and kits therefore
US20200239937A1 (en) * 2017-02-23 2020-07-30 The Council Of The Queensland Institute Of Medical Research Biomarkers for diagnosing conditions
WO2018162376A1 (en) * 2017-03-07 2018-09-13 F. Hoffmann-La Roche Ag Method for discovery of alternative antigen specific antibody variants
WO2018223055A1 (en) * 2017-06-02 2018-12-06 Affymetrix, Inc. Array-based methods for analysing mixed samples using differently labelled allele-specific probes
CN110021353B (zh) * 2017-09-30 2020-11-06 厦门艾德生物医药科技股份有限公司 一种用于捕获富集基因组的特定区域的分子反向探针的筛选方法
US20190112640A1 (en) * 2017-10-13 2019-04-18 Genomic Vision Method for mapping spinal muscular atrophy (“sma”) locus and other complex genomic regions using molecular combing
US12073921B2 (en) * 2017-11-07 2024-08-27 Echelon Diagnostics, Inc. System for increasing the accuracy of non invasive prenatal diagnostics and liquid biopsy by observed loci bias correction at single base resolution
CN110875082B (zh) * 2018-09-04 2022-05-31 深圳华大因源医药科技有限公司 一种基于靶向扩增测序的微生物检测方法和装置
CN110970093B (zh) * 2018-09-30 2022-12-23 深圳华大因源医药科技有限公司 一种筛选引物设计模板的方法、装置及应用
CN109949867B (zh) * 2019-01-25 2023-05-30 中国农业科学院特产研究所 一种多条序列比对算法的优化方法和系统、存储介质
CN110246545B (zh) * 2019-06-06 2021-04-13 武汉希望组生物科技有限公司 一种序列的校正方法及其校正装置
CN110808086B (zh) * 2019-09-30 2022-10-28 广州白云山和记黄埔中药有限公司 一种鉴定关键酶基因的植物物种特异性序列片段的方法
CN110895959B (zh) * 2019-11-08 2022-05-20 至本医疗科技(上海)有限公司 基因拷贝数评估方法、装置、系统以及计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006515987A (ja) 2002-11-27 2006-06-15 セクエノム,インコーポレイティド 配列変化検出及び発見用の断片化をベースとする方法及びシステム
JP2012531211A (ja) 2009-06-26 2012-12-10 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 系統発生分析のための方法およびシステム
CN103714267A (zh) 2013-12-27 2014-04-09 中国人民解放军军事医学科学院生物工程研究所 基于种特有序列的检测或辅助检测待测菌株的方法
CN110111843A (zh) 2018-01-05 2019-08-09 深圳华大基因科技服务有限公司 对核酸序列进行聚类的方法、设备及存储介质

Also Published As

Publication number Publication date
CN111477276B (zh) 2020-12-15
WO2021196357A1 (zh) 2021-10-07
CN111477276A (zh) 2020-07-31
US20230154565A1 (en) 2023-05-18
JP2023515249A (ja) 2023-04-12
EP4116982A1 (en) 2023-01-11
EP4116982A4 (en) 2023-12-20
AU2020439910A1 (en) 2022-11-10

Similar Documents

Publication Publication Date Title
JP7333482B2 (ja) 微生物の種特異的共通配列の取得方法、装置及び応用
CN112020565B (zh) 用于确保基于测序的测定的有效性的质量控制模板
Lazar et al. Batch effect removal methods for microarray gene expression data integration: a survey
US11954614B2 (en) Systems and methods for visualizing a pattern in a dataset
US20210381056A1 (en) Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
US6567750B1 (en) Process for evaluating chemical and biological assays
KR20020075265A (ko) 임상 진단 서비스를 제공하는 방법
JP2005531853A (ja) Snp遺伝子型クラスタリングのためのシステムおよび方法
Jung et al. An automatic block and spot indexing with k-nearest neighbors graph for microarray image analysis
CN115719616A (zh) 一种病原物种特异性序列的筛选方法及系统
Xiao et al. Modified screening and ranking algorithm for copy number variation detection
CN109949866B (zh) 病原体操作组的检测方法、装置、计算机设备和存储介质
CN111477275B (zh) 微生物目标片段中多拷贝区域的识别方法、装置及应用
CN111477274B (zh) 微生物目标片段中特异性区域的识别方法、装置及应用
US20220042091A1 (en) Mitochondrial DNA Quality Control
CN115762641A (zh) 一种指纹图谱构建方法及系统
KR20240032064A (ko) 염색체 및 아염색체 카피수 변이 검출
Lauria Research Article Rank-Based miRNA Signatures for Early Cancer Detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221011

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230628

TRDD Decision of grant or rejection written
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230630

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230814

R150 Certificate of patent or registration of utility model

Ref document number: 7333482

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150