JP6327473B2 - Method for identifying Mycobacterium tuberculosis strain and method for detecting gene mutation - Google Patents

Method for identifying Mycobacterium tuberculosis strain and method for detecting gene mutation Download PDF

Info

Publication number
JP6327473B2
JP6327473B2 JP2014558586A JP2014558586A JP6327473B2 JP 6327473 B2 JP6327473 B2 JP 6327473B2 JP 2014558586 A JP2014558586 A JP 2014558586A JP 2014558586 A JP2014558586 A JP 2014558586A JP 6327473 B2 JP6327473 B2 JP 6327473B2
Authority
JP
Japan
Prior art keywords
strain
mycobacterium tuberculosis
gene sequence
tuberculosis
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014558586A
Other languages
Japanese (ja)
Other versions
JPWO2014115747A1 (en
Inventor
秋山 徹
徹 秋山
切替 照雄
照雄 切替
香世 奥村
香世 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nipro Corp
National Center for Global Health and Medicine
Obihiro University of Agriculture and Veterinary Medicine NUC
Original Assignee
Nipro Corp
National Center for Global Health and Medicine
Obihiro University of Agriculture and Veterinary Medicine NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nipro Corp, National Center for Global Health and Medicine, Obihiro University of Agriculture and Veterinary Medicine NUC filed Critical Nipro Corp
Publication of JPWO2014115747A1 publication Critical patent/JPWO2014115747A1/en
Application granted granted Critical
Publication of JP6327473B2 publication Critical patent/JP6327473B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、結核菌の菌株の同定及び結核菌ゲノムの遺伝子変異の同定・検出方法、これらの方法に用いる結核菌のコンセンサスゲノム情報の製造方法に関する。   The present invention relates to identification of Mycobacterium tuberculosis strains, identification / detection methods for gene mutations in Mycobacterium tuberculosis genome, and methods for producing consensus genome information of Mycobacterium tuberculosis used in these methods.

結核は単一の感染症中では年間の死亡数が最大の感染疾患である。WHOは、年間に約1千万人が結核に感染し、2.5百万人がこの疾患で死亡していると推定している。また、Mycobacterium tuberculosis(結核菌)の多剤耐性結核菌株の出現など事態は悪化している。結核の制御において、患者の迅速な診断と感染源の同定が重要である。M.tuberculosis株のタイピングが爆発的流行に関する研究に極めて有用であることは証明され,
様々な疫学的問題の解決に応用されている。
Tuberculosis is the infectious disease with the highest number of deaths per year in a single infection. The WHO estimates that about 10 million people are infected with tuberculosis annually and 2.5 million people die from the disease. In addition, the situation is getting worse, such as the emergence of multi-drug resistant tuberculosis strains of Mycobacterium tuberculosis. In the control of tuberculosis, rapid patient diagnosis and identification of the source of infection are important. M. tuberculosis strain typing has proven to be very useful for explosive epidemic research,
It is applied to solve various epidemiological problems.

現在、結核菌の検出および同定は、患者から採取したサンプルを培養し、得られた培養菌を用いて、VNTR、スポリゴタイピングやIS6110‐RFLPにより実施されている。VNTRは、結核菌の遺伝子中に別個に複数存在する反復領域のそれぞれの反復数を計数し、各領域の数を比較して菌株特定を行うものである。   Currently, detection and identification of Mycobacterium tuberculosis is performed by culturing a sample collected from a patient and using the obtained culture, using VNTR, sporigotyping, or IS6110-RFLP. VNTR counts the number of repeats of each of a plurality of repeat regions present separately in the gene of Mycobacterium tuberculosis, and compares the number of each region to identify a strain.

スポリゴタイピングは、結核菌ゲノムに特異的に存在する36bpのダイレクトリピートに挟まれたスペーサー配列を含む領域の解析を行うものである。スペーサ配列は菌株によりその数(最大で50個程度)と配列が異なっており、PCR法で同領域を増幅後、スペーサの配列を利用してハイブリダイゼーションを行う。その結果、たとえば、ある菌株は、スペーサ1と2と3と5を保有、他の菌株はスペーサ2と4を保有、などという方法で菌株を特定するものである。   Sporigotyping analyzes a region containing a spacer sequence sandwiched between 36 bp direct repeats that are specifically present in the Mycobacterium tuberculosis genome. The number of spacer sequences varies from strain to strain (up to about 50) depending on the strain. After amplification of the same region by the PCR method, hybridization is performed using the spacer sequence. As a result, for example, a certain strain has spacers 1, 2, 3, and 5, and another strain has spacers 2 and 4.

IS6110‐RFLPは、結核菌ゲノム中に最大で10個程度存在するほぼ同一の配列を持つ部分を検出するものである。結核菌ゲノムをPvuIIという制限酵素で切断後、電気泳動にて各断片を分離してサザントランスファーを行い、IS6110の配列を検証する。菌株毎にIS6110の数と、それらが含まれる断片の長さが異なるため、菌株の特定に使用されている。   IS6110-RFLP detects a portion having approximately the same sequence present in about 10 at most in the Mycobacterium tuberculosis genome. After cutting the Mycobacterium tuberculosis genome with a restriction enzyme called PvuII, each fragment is separated by electrophoresis and subjected to Southern transfer to verify the sequence of IS6110. Since each strain has a different number of IS6110 and the length of the fragment containing them, it is used to identify the strain.

しかしながら、そのような方法は、培養に時間を相当に要することや、それらの方法自体が煩雑であったりする。また、結核菌ゲノムの遺伝子配列情報を直接に利用するものではないため、その同定精度も問題となる。   However, such methods require a considerable amount of time for culturing, and the methods themselves are complicated. Moreover, since the gene sequence information of the Mycobacterium tuberculosis genome is not directly used, the identification accuracy is also a problem.

一方、世界的にゲノム解析が進むなかで、結核菌においてもその全ゲノム解析が終了している(非特許文献1を参照)。そのような中で、結核菌の全遺伝子をPCR法で用いて増幅し、このPCR産物を固着化したDNAチップを作成することも提案されている(非特許文献2および非特許文献3)。このようなチップを用いて、結核菌等のゲノム構造の違いを検出する方法である。   On the other hand, as genome analysis progresses worldwide, the whole genome analysis has been completed also in Mycobacterium tuberculosis (see Non-Patent Document 1). Under such circumstances, it has also been proposed to amplify the entire gene of Mycobacterium tuberculosis using the PCR method and to prepare a DNA chip on which this PCR product is immobilized (Non-patent Document 2 and Non-patent Document 3). This is a method for detecting differences in the genome structure of M. tuberculosis using such a chip.

例えば、結核菌に特異的なオリゴヌクレオチドを利用するプローブ固相化基体を用いる結核菌の同定方法が開示されている(特許文献1)。また、結核菌の同定のために特異的な配列を用いたタイピング法の発明が開示されている(特許文献2、特許文献3)。これらの方法などにより、現在、世界中の結核菌は概ね10系統に分類することが可能となっている。   For example, a method for identifying Mycobacterium tuberculosis using a probe-immobilized substrate using an oligonucleotide specific for Mycobacterium tuberculosis has been disclosed (Patent Document 1). In addition, inventions of typing methods using specific sequences for the identification of Mycobacterium tuberculosis have been disclosed (Patent Documents 2 and 3). With these methods, M. tuberculosis around the world can now be roughly classified into 10 strains.

特開2004‐113196「特異的繰り返し遺伝子配列が多数含まれる結核菌特異的遺伝子群を用いたタイピング用DNAチップおよびその利用」Japanese Patent Application Laid-Open No. 2004-113196 "Typing DNA chip using Mycobacterium tuberculosis-specific gene group including many specific repetitive gene sequences and use thereof" 特許第3631252号「直列変異反復配列オリゴタイピングによる結核菌群細菌の検出および鑑別」Patent No. 3612552 “Detection and differentiation of Mycobacterium tuberculosis group bacteria by tandem mutation repeat sequence oligotyping” 特許第3134940号「鳥型結核菌複合種の増幅および検出」Patent No. 3134940 “Amplification and detection of Mycobacterium avium complex”

Nature,393:537−544、(1998)Nature, 393: 537-544, (1998). Science, 284:1520−1523,(1999)Science, 284: 1520-1523 (1999). Proc Natl Acad Sci USA,98:7534−7539,(2001)Proc Natl Acad Sci USA, 98: 7534-7539, (2001)

そこで、本発明は、サンプル中の結核菌ゲノムの遺伝子配列情報から、結核菌のコンセンサスゲノム情報を用いてサンプル中の結核菌の菌株の同定や遺伝子変異を同定・検出する方法、該コンセンサスゲノム情報を生産する方法を提供することを課題とする。   Therefore, the present invention provides a method for identifying and detecting a strain of Mycobacterium tuberculosis in a sample and a gene mutation from the gene sequence information of the Mycobacterium tuberculosis genome in the sample using the consensus genomic information of Mycobacterium tuberculosis, and the consensus genomic information. It is an object to provide a method of producing

上記課題を解決するために、本発明のコンピューターによるサンプル中の結核菌の菌株を同定する方法は次の構成を備える。すなわち、コンピューターによるサンプル中の結核菌の菌株を同定する方法であって、コンピューターが入力されたサンプル中の結核菌のゲノム情報を記憶する工程と、コンピューターが記憶している結核菌のコンセンサスゲノム情報に含まれる特定の菌株の遺伝子配列と、サンプル中の結核菌の遺伝子配列についてアライメント(Alignment)処理を行う工程と、サンプル中の結核菌のゲノム情報における特定の遺伝子配列が、結核菌のコンセンサスゲノム情報に含まれる特定の遺伝子配列と一致を検出することで、予め記憶された該特定の遺伝子配列に対応する菌株の種類に基づき特定の菌株であることを同定する工程と、サンプル中の結核菌の菌株の同定結果を表示する工程を具備することを特徴とする。ここで、サンプル中の結核菌のゲノム情報における特定の遺伝子配列が、結核菌のコンセンサスゲノム情報に含まれる特定の遺伝子配列と一致するとは、全部又は一部の一致であっても良い。なお、サンプル中の結核菌のゲノム情報における特定の遺伝子配列が、結核菌のコンセンサスゲノム情報に含まれる特定の遺伝子配列と一致することで菌株と同定する場合に、ある菌株を特徴付ける遺伝子配列は公知の情報を用いることもできる。   In order to solve the above-mentioned problems, a computerized method for identifying a strain of Mycobacterium tuberculosis in a sample according to the present invention comprises the following arrangement. That is, a method for identifying a Mycobacterium tuberculosis strain in a sample by a computer, the computer storing a genome information of the Mycobacterium tuberculosis in the sample inputted, and a consensus genome information of the Mycobacterium tuberculosis stored in the computer Alignment process for the gene sequence of a specific strain contained in the sample and the gene sequence of Mycobacterium tuberculosis in the sample, and the specific gene sequence in the genome information of Mycobacterium tuberculosis in the sample is the consensus genome of Mycobacterium tuberculosis A step of identifying a specific strain based on the type of strain corresponding to the specific gene sequence stored in advance by detecting a coincidence with the specific gene sequence included in the information, and a tubercle bacillus in the sample And a step of displaying the identification result of the strain. Here, the specific gene sequence in the genomic information of Mycobacterium tuberculosis in the sample may coincide with the specific gene sequence included in the consensus genomic information of Mycobacterium tuberculosis may be all or a partial match. In addition, the gene sequence that characterizes a certain strain is known when the specific gene sequence in the genomic information of Mycobacterium tuberculosis in the sample matches the specific gene sequence included in the consensus genomic information of Mycobacterium tuberculosis. It is also possible to use this information.

また、本発明であるコンピューターによるサンプル中の結核菌の菌株及び変異を同定する方法は次の構成を備える。すなわち、コンピューターが入力されたサンプル中の結核菌のゲノム情報を記憶させる工程と、コンピューターが記憶している結核菌のコンセンサスゲノム情報に含まれる特定の菌株の遺伝子配列情報とサンプル中の結核菌の遺伝子配列情報とについてアライメント処理を行う工程と、サンプル中の結核菌のゲノム情報における特定の遺伝子配列が、結核菌のコンセンサスゲノム情報に含まれる特定の遺伝子配列と一致を検出することで、予め記憶された該特定の遺伝子配列に対応する菌株の種類に基づき特定の菌株であることを同定する工程と、同定された菌株に対応する結核菌コンセンサスゲノム情報に含まれる遺伝子配列を基準遺伝子配列とし、基準遺伝子配列とサンプル中の結核菌の遺伝子配列とを比較処理して、該基準遺伝子配列と異なる遺伝子情報を遺伝子変異情報として同定する工程と、サンプル中の結核菌の菌株の同定結果、及び遺伝子変異情報の結果を表示する工程とを具備することを特徴とする。   Moreover, the method for identifying the strain and mutation of M. tuberculosis in a sample according to the present invention has the following configuration. That is, the step of storing the genome information of M. tuberculosis in the sample input by the computer, the gene sequence information of the specific strain contained in the consensus genome information of M. tuberculosis stored by the computer and the M. tuberculosis in the sample Alignment processing for gene sequence information and specific gene sequence in Mycobacterium tuberculosis genome information in the sample is detected in advance to match with the specific gene sequence included in the consensus genome information of Mycobacterium tuberculosis. A step of identifying a specific strain based on the type of strain corresponding to the specific gene sequence, and a gene sequence included in the M. tuberculosis consensus genome information corresponding to the identified strain as a reference gene sequence, The reference gene sequence is compared with the gene sequence of Mycobacterium tuberculosis in the sample, and the reference gene sequence A step of identifying the different genetic information as a gene mutation information, identification results of strains of Mycobacterium tuberculosis in a sample, and characterized by comprising the step of displaying the result of genetic mutation information.

結核菌のコンセンサスゲノム情報は、結核菌H37Rv株、結核菌KZN605株、結核菌RGTB423株、結核菌RGTB327株、結核菌Erdman株、結核菌CTRI-2株、結核菌CDC1551株、結核菌CCDC5180株、結核菌CCDC5079株、結核菌KZN4207株、結核菌KZN1435株、結核菌F11株、結核菌H37Ra株、類縁菌CIPT 140010059株、類縁菌GM041182株、類縁菌BCG str. Mexico株、類縁菌BCG str. Moreau RDJ株、類縁菌BCG str. Tokyo 172株、類縁菌BCG Pasteur 1173P2株の一部又は全部のゲノム情報に対して、それぞれの遺伝子配列の逆位若しくは転移を補正して、アライメント処理した遺伝子配列について、共通する遺伝子配列領域を共通遺伝子配列領域として、菌株間で異なる遺伝子配列領域を菌株の特有の遺伝子配列領域としてコンセンサスゲノム情報に含ませることを特徴としても良い。また、ここに挙げる結核菌の菌株、及び類縁菌の菌株の一部は、変更又は欠損させても良い。   The consensus genome information of M. tuberculosis is M. tuberculosis H37Rv, M. tuberculosis KZN605, M. tuberculosis RGTB423, M. tuberculosis RGTB 327, M. tuberculosis Erdman, M. tuberculosis CTRI-2, M. tuberculosis CDC 1551, M. tuberculosis CCDC 5180, Mycobacterium tuberculosis CCDC5079, Mycobacterium tuberculosis KZN4207, Mycobacterium tuberculosis KZN1435, Mycobacterium tuberculosis F11, Mycobacterium tuberculosis H37Ra, Mycobacterium CIPT 140010059, Mycobacterium GM041182, Mycobacterium BCG str. Mexico, Mycobacterium BCG str. Moreau About partial or complete genome information of RDJ strain, related bacteria BCG str. Tokyo 172 strain, related bacteria BCG Pasteur 1173P2 The consensus genome information may include a common gene sequence region as a common gene sequence region and a gene sequence region different among strains as a gene sequence region unique to the strain. In addition, some of the Mycobacterium tuberculosis strains and related strains listed here may be altered or deleted.

結核菌のコンセンサスゲノム情報を構築における遺伝子配列の逆位の補正が、結核菌KZN605株の遺伝子配列932051番目と932052番目の間、3479594番目と3459595番目の間、結核菌KZN1435株の遺伝子配列931985番目と931986番目の間、3479865番目と3479866番目の間、結核菌KZN4207株の遺伝子配列932007番目と932008番目の間、3476553番目と3476554番目の間の遺伝子配列を対象とすることを特徴とするものであっても良い。ここに挙げた遺伝子配列の逆位の補正は、全て実施してもよく、1又は2以上の補正をした結核菌のコンセンサスゲノム情報としても良い。また、結核菌ゲノムの遺伝子配列の補正は、必要に応じて逆位の補正だけではなく、転移の補正をしても良い。   The correction of the inversion of the gene sequence in constructing the consensus genome information of M. tuberculosis is between gene sequences 932051 and 932052 of M. tuberculosis strain KZN605, between positions 3479594 and 3459595, and gene sequence 93.1985 of M. tuberculosis strain KZN1435. Between the 3 and 1986th, between the 3479865th and 3479866th, between the gene sequence 932007 and 932008, and between the 3475655th and 3476554th of the Mycobacterium tuberculosis strain KZN4207 There may be. The correction of the inversion of the gene sequence mentioned here may be carried out altogether or may be consensus genome information of Mycobacterium tuberculosis with one or more corrections. In addition, the correction of the gene sequence of the Mycobacterium tuberculosis genome may be performed not only by correcting the inversion but also by correcting metastasis as necessary.

結核菌のコンセンサスゲノム情報は、遺伝子配列1としても良い。また、サンプル中の結核菌の同定や遺伝子変異が検出できる範囲で、遺伝子配列1の遺伝子配列に含まれる1又は2以上の塩基について、置換、欠損又は付加されていても良い。   The consensus genome information of Mycobacterium tuberculosis may be gene sequence 1. In addition, one, two or more bases contained in the gene sequence of gene sequence 1 may be substituted, deleted or added as long as identification of Mycobacterium tuberculosis in the sample and gene mutation can be detected.

遺伝子変異情報の結果を表示する工程は、遺伝子変異を含む遺伝子配列領域に関する情報をも表示できるものとしても良い。本発明のコンセンサスゲノムによりサンプル中の結核菌の菌株を同定し、その遺伝子配列と比較した場合にサンプル中の結核菌の遺伝子配列に変異がある場合には、その変異箇所を示すとともに、その変異が含まれる遺伝子領域に関する名称、機能、特定番号や詳細情報へのリンク情報などの情報を示すことができるものであっても良い。   The step of displaying the result of the gene mutation information may be capable of displaying information on the gene sequence region containing the gene mutation. When the M. tuberculosis strain in the sample is identified by the consensus genome of the present invention and compared with its gene sequence, if there is a mutation in the M. tuberculosis gene sequence in the sample, the mutation location is indicated and the mutation It may be possible to show information such as a name, a function, a specific number, or link information to detailed information related to a gene region containing.

また、本発明のコンピューターによるサンプル中の結核菌の薬剤耐性若しくは薬剤感受性を示す薬剤応答変異遺伝子を同定する方法は次の構成を備える。前記の基準遺伝子配列と異なる遺伝子情報を遺伝子変異情報として同定する工程において、コンピューターが記憶している結核菌の薬剤応答変異遺伝子情報と比較処理して、該遺伝子変異情報が特定の薬剤応答変異遺伝子情報である場合にはこれを同定するものであって、遺伝子変異情報の結果を表示する工程において、遺伝子変異情報と薬剤応答変異遺伝子情報の結果を表示できるものであっても良い。つまり、サンプル中の結核菌ゲノムの遺伝子配列に変異がある場合に、これが特定の薬剤に対する耐性若しくは感受性に関与する遺伝子変異であるときに、これを同定して結果表示させるものである。すなわち、サンプル中の結核菌ゲノムと結核菌コンセンサスゲノムに含まれる遺伝子配列を比較させて、サンプル中の結核菌の遺伝子配列に変異がある場合に、その遺伝子変異情報と予めコンピューターが記憶している結核菌の菌株毎の薬剤応答変異遺伝子情報とを比較して、該遺伝子変異が薬剤応答変異遺伝子情報であると同定する。   In addition, a method for identifying a drug-responsive mutant gene showing drug resistance or drug sensitivity of Mycobacterium tuberculosis in a sample using the computer of the present invention comprises the following arrangement. In the step of identifying gene information different from the reference gene sequence as gene mutation information, the gene mutation information is compared with drug response mutation gene information of Mycobacterium tuberculosis stored in the computer, and the gene mutation information is a specific drug response mutation gene. In the case of information, this is identified, and in the step of displaying the result of gene mutation information, the result of gene mutation information and drug response mutation gene information may be displayed. That is, when there is a mutation in the gene sequence of the Mycobacterium tuberculosis genome in the sample, if this is a genetic mutation involved in resistance or sensitivity to a specific drug, this is identified and displayed as a result. That is, if the gene sequence contained in the M. tuberculosis genome in the sample and the M. tuberculosis consensus genome are compared, and there is a mutation in the M. tuberculosis gene sequence in the sample, the gene mutation information and the computer are stored in advance. The drug response mutation gene information for each strain of Mycobacterium tuberculosis is compared, and the gene mutation is identified as drug response mutation gene information.

本発明のコンピューターによるサンプル中の結核菌の薬剤耐性若しくは薬剤感受性を示す薬剤応答変異遺伝子を同定する方法は次の構成としても良い。すなわち、薬剤応答変異遺伝子を有する配列を含んだ結核菌のコンセンサスゲノム情報を用いることを特徴とするものである。本発明の結核菌コンセンサスゲノムに薬剤応答変異遺伝子を有する結核菌株の遺伝子配列情報を加えることで、サンプル中の結核菌の遺伝子配列と比較して、直接に結核菌の薬剤応答変異株までをも同定することができる。すなわち、結核菌の菌株が薬剤応答変異の観点からも分類され同定できるものである。   A method for identifying a drug-responsive mutant gene showing drug resistance or drug sensitivity of Mycobacterium tuberculosis in a sample by the computer of the present invention may be configured as follows. That is, it is characterized by using consensus genome information of Mycobacterium tuberculosis containing a sequence having a drug-responsive mutant gene. By adding the gene sequence information of Mycobacterium tuberculosis strains having drug-responsive mutant genes to the Mycobacterium tuberculosis consensus genome of the present invention, the drug-responsive mutant strains of Mycobacterium tuberculosis can be directly compared with the gene sequence of Mycobacterium tuberculosis in the sample. Can be identified. That is, Mycobacterium tuberculosis strains can be classified and identified from the viewpoint of drug response mutation.

結核菌のコンセンサスゲノム情報の製造・作製にあっては、結核菌H37Rv株、結核菌KZN605株、結核菌RGTB423株、結核菌RGTB327株、結核菌Erdman株、結核菌CTRI-2株、結核菌CDC1551株、結核菌CCDC5180株、結核菌CCDC5079株、結核菌KZN4207株、結核菌KZN1435株、結核菌F11株、結核菌H37Ra株、類縁菌CIPT 140010059株、類縁菌GM041182株、類縁菌BCG str. Mexico株、類縁菌BCG str. Moreau RDJ株、類縁菌BCG str. Tokyo 172株、類縁菌BCG Pasteur 1173P2株の一部又は全部のゲノム情報のうち、それぞれの遺伝子配列の逆位を補正若しくは転移して、アライメント処理した遺伝子配列について、共通する遺伝子配列領域を共通遺伝子配列領域として、菌株間で異なる遺伝子配列領域を菌株の特有の遺伝子配列領域としてコンセンサスゲノム情報に含ませることを特徴としても良い。また、ここに挙げた遺伝子配列の転移や逆位の補正は、全て又は一部を実施することによる結核菌のコンセンサスゲノム情報としても良い。   In the production and production of M. tuberculosis consensus genome information, M. tuberculosis H37Rv, M. tuberculosis KZN605, M. tuberculosis RGTB423, M. tuberculosis RGTB 327, M. tuberculosis Erdman, M. tuberculosis CTRI-2, M. tuberculosis CDC1551 M. tuberculosis CCDC5180, M. tuberculosis CCDC5079, M. tuberculosis KZN4207, M. tuberculosis KZN1435, M. tuberculosis F11, M. tuberculosis H37Ra, M. tuberculosis CIPT 140010059, M. tuberculosis GM041182 Among the genome information of a part or all of the related bacteria BCG str. Moreau RDJ strain, related bacteria BCG str. Tokyo 172 strain, related bacteria BCG Pasteur 1173P2 strain, the inversion of each gene sequence is corrected or transferred, Regarding the gene sequences subjected to the alignment processing, the consensus genome information may include a common gene sequence region as a common gene sequence region and a gene sequence region different among strains as a unique gene sequence region of the strain. Moreover, the correction | amendment of the transfer of a gene sequence and the inversion mentioned here is good also as consensus genome information of M. tuberculosis by implementing all or one part.

上記の発明はコンピューターシステムとしてもよい。すなわち、コンピューターが入力されたサンプル中の結核菌のゲノム情報を記憶する結核菌サンプル情報記憶部と、コンピューターが結核菌コンセンサスゲノム情報を記憶するコンセンサスゲノム情報記憶部と、サンプル中の結核菌の遺伝子配列と結核菌コンセンサスゲノム情報に含まれる遺伝子配列についてアライメント処理するアライメント処理部と、サンプル中の結核菌のゲノム情報における特定の遺伝子配列が、結核菌のコンセンサスゲノム情報に含まれる特定の遺伝子配列と一致を検出することで、予め記憶された該特定の遺伝子配列に対応する菌株の種類に基づき特定の菌株であることを同定する菌株同定処理部と、前記菌株同定処理部で同定された特定菌株に対応する結核菌コンセンサスゲノム情報に含まれる特定菌株の基準遺伝子配列を同定する基準遺伝子配列同定処理部と、前記基準遺伝子配列とサンプル中の結核菌の遺伝子配列とを比較処理して、前記基準遺伝子配列と異なる遺伝子情報を同定する変異遺伝子情報検出部と、サンプル中の結核菌の菌株の同定結果、及び遺伝子変異情報を表示する情報出力部とを具備するサンプル中の結核菌の菌株及びその遺伝子変異を同定するコンピューターシステムとしてもよい。なお、請求項1乃至請求項8までの発明を、コンピューターシステムの発明としてもよい。   The above invention may be a computer system. That is, a tuberculosis sample information storage unit that stores information on the genome of Mycobacterium tuberculosis in the sample input by the computer, a consensus genome information storage unit in which the computer stores information on the Mycobacterium tuberculosis consensus, and a gene for Mycobacterium tuberculosis in the sample An alignment processing unit that performs alignment processing on the sequence and the gene sequence included in the M. tuberculosis consensus genome information, and the specific gene sequence in the M. tuberculosis genome information in the sample is a specific gene sequence included in the M. tuberculosis consensus genome information. A strain identification processing unit that identifies a specific strain based on the type of strain corresponding to the specific gene sequence stored in advance by detecting a match, and the specific strain identified by the strain identification processing unit Of specific strains contained in the Mycobacterium tuberculosis consensus genome information corresponding to A reference gene sequence identification processing unit for identifying a gene sequence, and a mutant gene information detection unit for comparing the reference gene sequence with a gene sequence of Mycobacterium tuberculosis in a sample to identify gene information different from the reference gene sequence And a computer system for identifying the Mycobacterium tuberculosis strain in the sample and the gene mutation thereof, comprising the identification result of the Mycobacterium tuberculosis strain in the sample and an information output unit for displaying gene mutation information. The inventions according to claims 1 to 8 may be computer system inventions.

本発明の結核菌コンセンサスゲノムを利用する結核菌の菌株及び変異を同定する方法によると、サンプル中の結核菌の遺伝子配列情報により結核菌のすべての菌株同定とSNPレベルのタイピング、遺伝子変異の検出が可能となり、菌株の分類などの疫学的解析の解像度、解析時間が格段に向上することができる。   According to the method for identifying M. tuberculosis strains and mutations using the Mycobacterium tuberculosis consensus genome of the present invention, all strains of M. tuberculosis are identified, SNP level typing, and gene mutation detection based on the gene sequence information of M. tuberculosis in the sample. The resolution and analysis time of epidemiological analysis such as strain classification can be significantly improved.

結核菌ゲノム中に存在する逆位を示す説明図Explanatory diagram showing inversions present in the Mycobacterium tuberculosis genome 結核菌ゲノム中に存在する逆位の補正処理を示す説明図(H37Rv vs ErdmanのHarrプロット)Explanatory diagram showing correction of inversion in the Mycobacterium tuberculosis genome (H37Rv vs Erdman Harr plot) 結核菌ゲノム中に存在する逆位の補正処理を示す説明図(H37Rv vs KZN1405(補正前)のHarrプロット)Explanatory diagram showing the processing to correct the inversion present in the Mycobacterium tuberculosis genome (Harr plot of H37Rv vs KZN1405 (before correction)) 結核菌ゲノム中に存在する逆位の補正処理を示す説明図(H37Rv vs KZN 1405(補正後)のHarrプロット)Explanatory diagram showing the correction process of the inversion present in the Mycobacterium tuberculosis genome (Harr plot of H37Rv vs KZN 1405 (after correction)) 結核菌の全ゲノム規模でのアライメントの一部を示すコンピューター画像Computer image showing part of the alignment of Mycobacterium tuberculosis on a genome-wide scale 結核菌コンセンサスゲノムとの比較による変異位置を示すリストList of mutation positions by comparison with Mycobacterium tuberculosis consensus genome 結核菌コンセンサスゲノムを利用して得られた結核菌・類縁菌の系統図(無根系統樹)Phylogenetic diagram of Mycobacterium tuberculosis and related bacteria obtained using the Mycobacterium tuberculosis consensus genome (rootless phylogenetic tree) 結核菌コンセンサスゲノムを利用して得られた結核菌・類縁菌の系統図(無根系統樹)Phylogenetic diagram of Mycobacterium tuberculosis and related bacteria obtained using the Mycobacterium tuberculosis consensus genome (rootless phylogenetic tree) 結核菌H37Rv株を利用して得られた結核菌・類縁菌の系統図(有根系統樹)Systematic diagram of Mycobacterium tuberculosis and related bacteria obtained using M. tuberculosis H37Rv strain (rooted phylogenetic tree) 全結核菌株のゲノムを利用して得られた結核菌・類縁菌の系統図(有根系統樹)Phylogenetic diagram of Mycobacterium tuberculosis and related bacteria obtained using the genome of all Mycobacterium tuberculosis strains (Rooted phylogenetic tree) VNTRパターンの比較結果を示す図The figure which shows the comparison result of VNTR pattern スポリゴタイピングパターンの比較結果を示す図Figure showing comparison results of sporigotyping patterns 結核菌コンセンサスゲノムを利用する解析ソフトウェアのイメージ図Image of analysis software using Mycobacterium tuberculosis consensus genome 結核菌コンセンサスゲノムを利用する薬剤応答変異遺伝子情報を同定した説明図Explanatory diagram identifying drug-responsive mutant gene information using the Mycobacterium tuberculosis consensus genome

これまでのタイピング法などでは菌株識別の解像度が不十分で集団発生株間の差異などの解析は事実上不可能であった。しかし、本発明者は、次世代シーケンサー出現によりゲノムワイドで配列情報を得ることが可能となり、全ゲノムレベルの比較が容易に実施可能となったことを鑑みて、既存の全ゲノム情報が登録されている13株の結核菌、さらに医学的に重要な類縁菌6株の標準的な情報をすべて組み込んだ仮想的なコンセンサスゲノム配列を作製し、これを利用することでサンプル中の結核菌の菌株及び遺伝子変異を同定できるとの知見を得て、本発明に至った。本方法によりサンプル中の結核菌の遺伝子配列情報により結核菌のすべての菌株同定とSNPレベルのタイピング、遺伝子変異の検出が可能となり、菌株の分類などの疫学的解析の解像度、解析時間が格段に向上することができる。   So far, typing methods have not been able to analyze strain differences due to insufficient resolution of strain identification. However, the present inventor is able to obtain genome-wide sequence information with the advent of next-generation sequencers, and in view of the fact that comparison at the whole genome level can be easily performed, existing whole genome information is registered. A virtual consensus genome sequence that incorporates all standard information on 13 strains of Mycobacterium tuberculosis and 6 medically important related strains was created and used to create a strain of Mycobacterium tuberculosis in the sample. The present inventors have obtained knowledge that gene mutations can be identified, and have reached the present invention. This method enables identification of all Mycobacterium tuberculosis strains, typing of SNP levels, and detection of gene mutations based on the gene sequence information of Mycobacterium tuberculosis in the sample. Can be improved.

以下に、図面等を基に本発明を説明する。ここでは、実験例及び実施例の一部を挙げるが、本発明の実施形態は、本発明の趣旨から逸脱しない範囲で、適宜設計変更可能である。   The present invention will be described below with reference to the drawings. Here, some experimental examples and examples are given, but the design of the embodiment of the present invention can be changed as appropriate without departing from the spirit of the present invention.

(結核菌コンセンサスゲノムを構成する結核菌及び類縁菌)
本発明の構成要素である結核菌のコンセンサスゲノム情報の構築について説明する。既存の全ゲノム情報が登録されている13株の結核菌、さらに医学的に重要な類縁菌6株のゲノムに含まれる遺伝子配列について準備をした。表1は、本発明における結核菌コンセンサスゲノムの構築に利用した結核菌の菌株を示したものであり、左から通し番号、菌株の名称とアクセッションナンバーを掲げている。表2は、本発明における結核菌コンセンサスゲノムの構築に利用した結核菌の類縁菌株を示したものであり、左から通し番号、菌株の名称とアクセッションナンバーを掲げている。ここで、医学的に重要な類縁菌6株とは、ヒトから抽出される菌株であり、結核菌ゲノムと近似しており、且つ結核菌コンセンサスゲノムの構築に利用できるとの理由等から検討し選択したものである。
(Mycobacterium tuberculosis and related bacteria constituting the Mycobacterium tuberculosis consensus genome)
The construction of consensus genome information of Mycobacterium tuberculosis that is a component of the present invention will be described. Preparations were made for the gene sequences contained in the genomes of 13 strains of Mycobacterium tuberculosis, for which existing genome-wide information was registered, and 6 medically important related strains. Table 1 shows the Mycobacterium tuberculosis strains used for the construction of the Mycobacterium tuberculosis consensus genome in the present invention, and lists serial numbers, strain names and accession numbers from the left. Table 2 shows the M. tuberculosis related strains used for the construction of the M. tuberculosis consensus genome in the present invention, and lists the serial number, strain name and accession number from the left. Here, 6 medically important related strains are strains extracted from humans, which are similar to the Mycobacterium tuberculosis genome and are considered for the reason that they can be used to construct the Mycobacterium tuberculosis consensus genome. It is a selection.

Figure 0006327473
Figure 0006327473

Figure 0006327473
Figure 0006327473

(遺伝子配列の逆位補正)
次に、それぞれの遺伝子配列について、その逆位の補正を行った。感染症を引き起こす結核菌などの細菌やウイルスは、ゲノム遺伝子の中で、転移や逆位を起こしやすい。ここで、逆位とは、染色体の一部が180°反転して、同位置に収まった場合を指す。転移とは染色体の一部が当初の位置から外れ、染色体の他の位置に移動した場合を指す。本発明者は、結核菌に逆位・転移が少ないことを見出し、この逆位を全て補正することで、結核菌のコンセンサスゲノムの構築を実現することができた。逆位・転移の補正を行うことで、各遺伝子配列における重複配列を増やすことができ、結核菌の菌株同定や遺伝子変異の検出のための最適なコンセンサスゲノムを構築することができる。
(Inversion of gene sequence)
Next, the inversion of each gene sequence was corrected. Bacteria and viruses, such as Mycobacterium tuberculosis, that cause infectious diseases are prone to transfer and inversion in genomic genes. Here, the inversion refers to the case where a part of the chromosome is inverted 180 ° and fits in the same position. Metastasis refers to the case where a part of a chromosome moves out of its original position and moves to another position on the chromosome. The present inventor has found that M. tuberculosis has less inversion / metastasis, and by correcting all of this inversion, construction of a consensus genome of M. tuberculosis has been realized. By correcting inversion and metastasis, it is possible to increase the number of overlapping sequences in each gene sequence, and to construct an optimal consensus genome for identifying strains of Mycobacterium tuberculosis and detecting gene mutations.

結核菌ゲノムの遺伝子配列における逆位の検出手順について説明する。
ゲノムの先頭から、一定数のヌクレオチドの単位(Windowという)ごとに相同性を比較し、相同性が極端に低くなった場合に、代替の場所がゲノムの他の場所にあるかどうかを探索することを繰り返す。ちなみに、これは遺伝子配列の転移の探索についても同様である。比較をする際に相補的な配列も探索することで逆位を検出する。パラメータの設定により、相同性が低い部分でも検出され、これらの遺伝子配列逆位の検出作業は一般的な遺伝子解析ソフト(http://asap.ahabs.wisc.edu/mauve/index.php)を用いることにより実施可能である。ただし、遺伝子配列の逆位の正確な塩基の位置を特定するためには目視による確認は必要である。
A procedure for detecting an inversion in the gene sequence of the Mycobacterium tuberculosis genome will be described.
Homology is compared from the beginning of the genome for each unit of a certain number of nucleotides (called Window), and if the homology becomes extremely low, it is searched whether there is an alternative place elsewhere in the genome. Repeat that. Incidentally, the same applies to the search for gene sequence transfer. When comparing, the inversion is detected by searching for complementary sequences. By setting the parameters, even parts with low homology are detected, and these gene sequence inversions can be detected using general gene analysis software (http://asap.ahabs.wisc.edu/mauve/index.php). It can be implemented by using. However, visual confirmation is necessary to specify the exact base position of the inversion of the gene sequence.

本発明の実施例では、上述した遺伝子配列の逆位の検出手順により結核菌KZN605株、結核菌KZN1435株と結核菌KZN4207株の3株について逆位の検出を実施した。その後に、アライメントを行って、コンセンサスゲノムを構築したものである。結核菌のゲノムサイズは約4.4Mbpであるが、この3株は共にゲノムの約0.9Mbp付近と3.4Mbp付近で遺伝子の逆位が起きていたことを見出した(図1)。このうち、3.4Mbp付近の遺伝子の向きが入れ替わる部位にはIS6110という結核菌の中に数カ所以上存在する繰り返し配列が存在しているので、これを指標にその前後の、配列を逆位が発生していない株と比較することで、ゲノムの入れ替わっている0.9Mbp付近の前方転移位置を探索した。なお、この部分には3株とも、hypothetical proteinとしてannotateされている機能不明の同一蛋白質がコードされている。   In the examples of the present invention, inversion detection was carried out for 3 strains of Mycobacterium tuberculosis KZN605 strain, Mycobacterium tuberculosis KZN1435 strain and Mycobacterium tuberculosis KZN4207 strain by the above-described detection procedure of gene sequence inversion. After that, alignment is performed to construct a consensus genome. The genome size of Mycobacterium tuberculosis was about 4.4 Mbp, but it was found that gene inversion occurred in these three strains in the vicinity of about 0.9 Mbp and 3.4 Mbp of the genome (FIG. 1). Among these, there are repeat sequences existing in several places in Mycobacterium tuberculosis called IS6110 at the site where the direction of the gene near 3.4 Mbp is switched. By comparing with a strain that did not, the forward metastasis position near 0.9 Mbp where the genome was replaced was searched. In this part, all three strains encode the same protein of unknown function that is annotated as hypothetical protein.

図1は、Genome rearrangement map(ゲノム再構成地図)と呼ばれる図であり、上下二つのゲノムが左から右に5'->3'と並べられている。上下それぞれで対応する遺伝子がある部分を線で結んでいる。結核菌は類似性が高いのでほとんどの部分が線分で結ばれるので、塗りつぶされるように表示されている。途中の三角形になっているように見える部分は、1,000,000bpより少し5'側の部分付近から、上下ゲノムの対応か所(3,400,000bp付近)が反転(逆位)になっていることを示す。逆位の補正位置に対応して、1,000,000付近から3,400,000付近が反転していることを示している。   FIG. 1 is a diagram called a genome rearrangement map (genome rearrangement map), in which two upper and lower genomes are arranged in the order of 5 ′-> 3 ′ from left to right. The part where the corresponding gene exists in each of the upper and lower sides is connected with a line. Since M. tuberculosis is highly similar, most parts are connected by line segments, so they are displayed as filled. The part that appears to be a triangle in the middle indicates that the corresponding part of the upper and lower genomes (near 3,400,000 bp) is inverted (inverted) from the part slightly 5 'to 1,000,000 bp. Corresponding to the inverted correction position, the vicinity of 1,000,000 to 3,400,000 is reversed.

次に、結核菌KZN605株、結核菌KZN1435株と結核菌KZN4207株の3株について逆位の検出をした後に、逆位している遺伝子配列を逆転させることで補正を行った。具体的には、結核菌KZN605株の遺伝子配列932051番目と932052番目の間、3479594番目と3459595番目の間、結核菌KZN1435の遺伝子配列931985番目と931986番目の間、3479865番目と3479866番目の間、結核菌KZN4207遺伝子配列932007番目と932008番目の間、3476553番目と3476554番目の間の遺伝子配列が逆位であったので、これを逆転させることで補正を行った。   Next, after detecting the inversion of 3 strains of M. tuberculosis KZN605, M. tuberculosis KZN1435 and M. tuberculosis KZN4207, correction was performed by reversing the inverted gene sequence. Specifically, between gene sequences 932051 and 932052 of Mycobacterium tuberculosis KZN605, between 3479594 and 3459595, between gene sequences 931985 and 931986 of Mycobacterium tuberculosis KZN1435, between 3479865 and 3479866, The gene sequence between Mycobacterium tuberculosis KZN4207 gene sequence 932007 and 932008, and between 3475553 and 3476554, was inverted, and correction was performed by reversing it.

これらの結核菌ゲノムの逆位の補正の結果についてHarrプロットを用いて説明する。図2では、H37Rv vs Erdman(a)、H37Rv vs KZN1405(補正前)(b)、H37Rv vs KZN1405(補正後)(c)を示している。グラフの縦軸はH37Rvであり、横軸はErdman、KZN1405としており、それぞれ結核菌のゲノム内の位置を表し、0の位置が5'末端、それぞれ値が大きくなるほど3'に近づき、一番大きな値が、約4.4Mbpである。図2aのように、線分が左下から右上に繋がっている場合には塩基配列が大まかにそれぞれの位置で一致していることを示している。図2bは、中央部分に線分が左上から右下へ伸びており、当該部分が二つの菌間で逆位になっていることが分かる。この部分を検出して逆位を補正した後に同様の解析を行ったのが図2cであり、図2aと同様に線分が左下から右上に向かうようになって、アライメントが可能になる。   The result of correcting the inversion of these M. tuberculosis genomes will be described using a Harr plot. FIG. 2 shows H37Rv vs Erdman (a), H37Rv vs KZN1405 (before correction) (b), and H37Rv vs KZN1405 (after correction) (c). The vertical axis of the graph is H37Rv, the horizontal axis is Erdman, KZN1405, each represents the position in the genome of Mycobacterium tuberculosis, the position of 0 is the 5 'end, each closer to 3' as the value increases, the largest The value is about 4.4 Mbp. As shown in FIG. 2a, when the line segment is connected from the lower left to the upper right, it indicates that the base sequences roughly match at each position. In FIG. 2b, it can be seen that a line segment extends from the upper left to the lower right in the central portion, and the portion is inverted between the two bacteria. FIG. 2c shows the same analysis performed after detecting this portion and correcting the inversion. As in FIG. 2a, the line segments are directed from the lower left to the upper right, thereby enabling alignment.

(結核菌コンセンサスゲノム構築のためのアライメント工程)
このように結核菌ゲノムの遺伝子配列の逆位を補正した後に、この結核菌とその類縁菌のゲノムの遺伝子配列についてアライメント処理を行った(図3)。アライメント処理は、2以上の遺伝子配列についてコンピューターに入力し、それぞれを5'側から3'側となるようにコンピューターの画面上に表示させて、各遺伝子配列の共通する部分が最大となるように計算して、並び替える(アライメント)処理を行う。必要に応じて、各遺伝子配列の共通する部分が最大となるように、ギャップを入れることがある。この処理方法は既にいくつかの公知技術があり本発明にあってはそれらを利用している。図3は、結核菌の全ゲノム規模でのアライメント処理の一部を示すコンピューター画像を示している。
(Alignment process for M. tuberculosis consensus genome construction)
After correcting the inversion of the gene sequence of the Mycobacterium tuberculosis genome in this way, alignment processing was performed on the gene sequence of the Mycobacterium tuberculosis and its related bacteria (FIG. 3). Alignment process inputs two or more gene sequences to a computer and displays them on the computer screen from the 5 'side to the 3' side so that the common part of each gene sequence is maximized Calculation and rearrangement (alignment) processing is performed. If necessary, a gap may be made so that the common part of each gene sequence is maximized. There are already several known techniques for this processing method, and these are used in the present invention. FIG. 3 shows a computer image showing a part of the alignment process of Mycobacterium tuberculosis on a genome-wide scale.

本発明において、各結核菌ゲノムの遺伝子配列の逆位を補正することで、アライメント処理により多くの重複した遺伝子部分(具体的には、約95%の重複部分)を得ることができ、これにより初めて結核菌コンセンサスゲノムを構築することができた。他方で、この逆位の補正処理をしないと、アライメント処理をしても、僅かに、約40%のみの相同性となる。   In the present invention, by correcting the inversion of the gene sequence of each Mycobacterium tuberculosis genome, it is possible to obtain many overlapping gene parts (specifically, about 95% overlapping parts) by the alignment process, The first tuberculosis consensus genome was constructed. On the other hand, if this inversion correction process is not performed, even if the alignment process is performed, the homology is only about 40%.

このようにして得られた重複配列部分は、その遺伝子配列情報を取り出して、結核菌のコンセンサスゲノムの構成要素とする。他方で、重複していない遺伝子配列についても、それぞれについて結核菌を特徴付ける遺伝子配列として結核菌のコンセンサスゲノムの構成要素とする。すなわち、結核菌ゲノムの重複部分と複数の重複していない遺伝子配列が連結した人工的な遺伝子配列となり、自然界に存在する結核菌ゲノムと比較して、重複していない遺伝子配列が複数連結することから、その情報量は大きくなるものである。具体的には、自然界に存在する結核菌ゲノムの情報量は約4.4Mbpであるのに対して、本発明のコンセンサスゲノムの情報量は約4.9Mbpとなる。   The overlapping sequence portion thus obtained is extracted from the gene sequence information and used as a constituent element of the consensus genome of Mycobacterium tuberculosis. On the other hand, non-overlapping gene sequences are also used as components of the M. tuberculosis consensus genome as a gene sequence that characterizes M. tuberculosis. That is, it becomes an artificial gene sequence in which the overlapping part of the Mycobacterium tuberculosis genome and a plurality of non-overlapping gene sequences are linked, and a plurality of non-overlapping gene sequences are linked in comparison with the naturally occurring M. tuberculosis genome. Therefore, the amount of information becomes large. Specifically, the information amount of the Mycobacterium tuberculosis genome existing in nature is about 4.4 Mbp, whereas the information amount of the consensus genome of the present invention is about 4.9 Mbp.

(結核菌コンセンサスゲノムの遺伝子配列とその利用)
配列番号1は、本発明における結核菌ゲノムのコンセンサスゲノムの遺伝子配列の実施例である。遺伝子の大きさは、約4.9Mbpである。本発明における結核菌ゲノムのコンセンサスゲノムは、拡張することもでき、たとえば、今後、新しい結核菌株や結核菌類縁菌株が発見された場合には、これらの菌株のゲノム遺伝子について、遺伝子配列にある逆位や転移の補正をした後に、アライメント処理をすることで本発明の結核菌ゲノムのコンセンサスゲノムに追加することができる。
(Genetic sequence of Mycobacterium tuberculosis consensus genome and its use)
SEQ ID NO: 1 is an example of the gene sequence of the consensus genome of the Mycobacterium tuberculosis genome in the present invention. The gene size is about 4.9 Mbp. The consensus genome of the Mycobacterium tuberculosis genome in the present invention can be expanded. For example, when new Mycobacterium tuberculosis strains or Mycobacterium tuberculosis related strains are discovered in the future, the genomic genes of these strains are reversed in the gene sequence. After correcting the position and metastasis, alignment processing can be performed to add to the consensus genome of the Mycobacterium tuberculosis genome of the present invention.

本発明において構築した結核菌コンセンサスゲノムは、サンプル中にある未知の結核菌株の同定をするほかに、その菌株のゲノムにある遺伝子変異についても検出することができる。まず、このサンプル中の結核菌のゲノム解析を行い(例えば、illumina社のMiSeq, Genome Analyzerシリーズ、HiSeqシリーズ、Lifetechnologies社のion proton、ion PGM, SoLid シリーズ、Roche社のGSシリーズ、PacBio社のPacBio RSシリーズなどの従来のサンガー法を基本原理とした塩基配列解析法とは異なる新たな塩基配列解析法を採用している次世代シークエンサー、さらに従来のサンガー法による遺伝子配列解析など)、得られた全ゲノムの遺伝子配列情報についてコンピューターに入力する。次に、本発明において構築した結核菌コンセンサスゲノムの遺伝子配列情報とアライメント処理を行う。このアライメント処理は、市販されているコンピューターソフトウェアを用いた。   In addition to identifying an unknown Mycobacterium tuberculosis strain in a sample, the Mycobacterium tuberculosis consensus genome constructed in the present invention can detect gene mutations in the genome of the strain. First, genome analysis of M. tuberculosis in this sample was performed (for example, illumina MiSeq, Genome Analyzer series, HiSeq series, Lifetechnologies ion proton, ion PGM, SoLid series, Roche GS series, PacBio PacBio Next-generation sequencer that adopts a new base sequence analysis method that is different from the base sequence analysis method based on the conventional Sanger method such as RS series, and gene sequence analysis by the conventional Sanger method) Enter the genome sequence information of the whole genome into a computer. Next, the gene sequence information of the M. tuberculosis consensus genome constructed in the present invention and alignment processing are performed. For this alignment process, commercially available computer software was used.

なお、結核菌ゲノムの遺伝子配列にある逆位を補正することでコンセンサスゲノムが構築されるが、サンプル中の菌株の遺伝子配列と結核菌コンセンサスゲノムの遺伝子配列とをアライメントすると、遺伝子配列にある逆位の補正により遺伝子配列の一致率が減少することもある。そこで、結核菌コンセンサスゲノムの中で、逆位を補正した遺伝子配列に補正処理したことを示す特定の情報を付加させて、サンプル中の菌株の遺伝子配列とアライメント処理する際に、一致確率を増やすように、逆位の補正を解除した遺伝子配列をも生成させて、逆位の補正の処理と未処理でのアライメント処理等ができるようにしても良い。   The consensus genome is constructed by correcting the inversion in the gene sequence of the Mycobacterium tuberculosis genome, but if the gene sequence of the strain in the sample is aligned with the gene sequence of the Mycobacterium tuberculosis consensus genome, The correction of the position may reduce the coincidence rate of the gene sequence. Therefore, in the M. tuberculosis consensus genome, by adding specific information indicating that correction processing has been performed to the gene sequence corrected for inversion, the probability of matching is increased when aligning with the gene sequence of the strain in the sample. As described above, a gene sequence from which inversion correction is canceled may be generated so that inversion correction processing and unprocessed alignment processing can be performed.

本発明の結核菌コンセンサスゲノムには、表1及び表2に含まれる結核菌とその類縁菌を特徴付ける遺伝子配列が含まれているので、結核菌コンセンサスゲノムとアライメント処理することで、サンプル中にある未知の菌株について、菌株を同定することができる。すなわち、表1及び表2に含まれる結核菌とその類縁菌を特徴付ける遺伝子配列のいずれかの遺伝子配列と、サンプル中の未知の菌株の遺伝子配列と一致(部分一致も含む)する遺伝子配列があることを検知することで、菌株を同定することができる。   The Mycobacterium tuberculosis consensus genome of the present invention contains a gene sequence that characterizes the Mycobacterium tuberculosis and its related bacteria included in Tables 1 and 2, so that it is present in the sample by alignment with the Mycobacterium tuberculosis consensus genome. For unknown strains, strains can be identified. That is, there is a gene sequence that matches (including partial matches) the gene sequence of any of the gene sequences that characterize M. tuberculosis and related bacteria included in Tables 1 and 2 and the gene sequence of an unknown strain in the sample. By detecting this, the strain can be identified.

(結核菌コンセンサスゲノムの結核菌対応配列検出率)
表3は、本発明の結核菌コンセンサスゲノムの結核菌対応配列検出率を示す。この結核菌対応配列検出率によって、本発明の結核菌コンセンサスゲノムが高度に標準化した結核菌ゲノムであることを示す。複数の結核菌の菌株が含まれる検体を試料として、結核菌標準株である結核菌H37Rv株のゲノム情報と本発明の結核菌コンセンサスゲノムを用いて、試料中の結核菌群の結核菌対応遺伝子配列の検出率を測定した。加熱殺菌した2種類の結核菌培養物の検体を用い、NEB社の遺伝子増幅キットにより遺伝子増幅して、QIAGEN社の遺伝子精製キットにより精製した遺伝子を遺伝子解析装置MiSeq(Illumina社)にて遺伝子配列の解析を行った。得られた遺伝子配列データは、仮想的に全ゲノムの遺伝子配列を反映していると考えられ、試料中の結核菌対応遺伝子配列の検出率を測定することができる。遺伝子配列の解析の結果、2種類の結核菌培養物の検体において、それぞれ約200万塩基のデータを得ることができた。この遺伝子配列情報をそれぞれ本発明の結核菌コンセンサスゲノムと結核菌H37Rv株のゲノム情報にマッピングして、結核菌対応遺伝子配列の検出率を測定した。いずれの検体においても、本発明の結核菌コンセンサスゲノムは検出率が高く、結核菌標準株である結核菌H37Rv株よりも優れた標準ゲノム情報を有することが示された。
(Detection rate of Mycobacterium tuberculosis-corresponding sequences in the Mycobacterium tuberculosis consensus genome)
Table 3 shows the M. tuberculosis-corresponding sequence detection rate of the M. tuberculosis consensus genome of the present invention. The detection rate of M. tuberculosis-corresponding sequences indicates that the M. tuberculosis consensus genome of the present invention is a highly standardized M. tuberculosis genome. Using a sample containing a plurality of Mycobacterium tuberculosis strains as a sample, using the genome information of Mycobacterium tuberculosis H37Rv strain, which is a standard strain of Mycobacterium tuberculosis, and the Mycobacterium tuberculosis consensus genome of the present invention, a gene corresponding to Mycobacterium tuberculosis in the sample The detection rate of the sequence was measured. Using a sample of two types of heat-sterilized tuberculosis cultures, the gene was amplified with a gene amplification kit from NEB, and the gene purified with the gene purification kit from QIAGEN was sequenced using a gene analyzer MiSeq (Illumina). Was analyzed. The obtained gene sequence data is considered to virtually reflect the gene sequence of the entire genome, and the detection rate of the gene sequence corresponding to M. tuberculosis in the sample can be measured. As a result of gene sequence analysis, it was possible to obtain data of about 2 million bases in each of two types of tuberculosis culture specimens. The gene sequence information was mapped to the genome information of the Mycobacterium tuberculosis consensus genome and the Mycobacterium tuberculosis H37Rv strain of the present invention, respectively, and the detection rate of the gene sequence corresponding to Mycobacterium tuberculosis was measured. In any specimen, the Mycobacterium tuberculosis consensus genome of the present invention had a high detection rate and was shown to have standard genome information superior to that of the Mycobacterium tuberculosis H37Rv strain, which is a Mycobacterium tuberculosis standard strain.

Figure 0006327473
Figure 0006327473

(結核菌コンセンサスゲノムを用いた遺伝子変異の同定)
本発明の結核菌コンセンサスゲノムを利用することで、サンプル中の菌株の同定をするだけではなく、その遺伝子変異についても検出することができる。本発明の実施例として、配列番号1の結核菌ゲノムのコンセンサスゲノムを用いて、ある結核菌のサンプルにおいて、結核菌株の遺伝子変異について同定した。サンプルの結核菌ゲノムの全遺伝子配列解析を行い、その情報をコンピューターに入力して、本発明である結核菌コンセンサスゲノムと比較処理を行った。図4では、結核菌コンセンサスゲノムとの比較による遺伝子変異に関する情報が表示されたものを示す。
(Identification of gene mutation using Mycobacterium tuberculosis consensus genome)
By utilizing the Mycobacterium tuberculosis consensus genome of the present invention, not only the strain in the sample can be identified, but also its gene mutation can be detected. As an example of the present invention, using a consensus genome of the Mycobacterium tuberculosis genome of SEQ ID NO: 1, a gene mutation of a Mycobacterium tuberculosis strain was identified in a sample of Mycobacterium tuberculosis. The entire gene sequence analysis of the Mycobacterium tuberculosis genome of the sample was performed, and the information was input into a computer, and a comparison process was performed with the Mycobacterium tuberculosis consensus genome of the present invention. In FIG. 4, the information regarding the gene mutation by the comparison with the M. tuberculosis consensus genome is displayed.

図4は、本発明の結核菌コンセンサスゲノムとあるサンプル中の結核菌の遺伝子配列をアライメント処理して、サンプル中の結核菌ゲノムにある遺伝子変異を検出したものである。左側から、コンセンサス配列中の変異の位置(結核菌コンセンサスゲノムの特定の遺伝子(塩基)とその位置)、query側の塩基(この遺伝子と対応するサンプル中の結核菌ゲノムの遺伝子配列にある塩基(欠落している変異はドットで表示))、query側の変異の位置、隣までのミスマッチまでの距離、query側の配列名が表示されている。query側の変異の位置で、1TBと連続して表示されているのは、遺伝子変異が連続して存在していることが分かり、3574TBや5393TBと表示されているのは、遺伝子変異が分散していることが分かる。query側の配列名が、KZN4207とあるのは、サンプル中の結核菌がKZN4207であることが同定されたことを示す。   FIG. 4 shows an alignment process of the M. tuberculosis consensus genome of the present invention and the gene sequence of M. tuberculosis in a sample to detect a gene mutation in the M. tuberculosis genome in the sample. From the left, the position of the mutation in the consensus sequence (a specific gene (base) and its position in the M. tuberculosis consensus genome), the base on the query side (the base in the gene sequence of the M. tuberculosis genome in the sample corresponding to this gene ( Missing mutations are displayed as dots)), the position of the mutation on the query side, the distance to the next mismatch, and the sequence name on the query side. In the query position, the position of the mutation that is displayed continuously with 1 TB indicates that there are consecutive mutations in the gene, and 3574 TB and 5393 TB are displayed because the mutations are dispersed. I understand that The query-side sequence name is KZN4207, indicating that the tuberculosis bacterium in the sample is identified as KZN4207.

(結核菌コンセンサスゲノムを用いた結核菌の系統分析)
本発明の結核菌コンセンサスゲノムを用いて、結核菌の系統分析をした実施例を説明する。図5は、本発明の結核菌コンセンサスゲノムを利用して得られた結核菌・類縁菌の系統図を示す。系統樹の作成方法は、各菌株がいつ頃分岐したかを推定可能とするBayesの事後確率法を用いた。横棒と共に小さく記載されている「90.0」という数字は「900年」を意味している。これまで、菌株の系統解析は、16S rRNAの塩基配列やハウスキーピング遺伝子の多型、結核菌では、スポリゴタイピングやVNTRにより実施され、近年では全ゲノムデータを利用したSNP concatenationによる方法で実施されてきた。しかし、これらは全ゲノムの一部の情報しか使用しておらず、そのため、ここの分岐部内で見た場合には利にかなった結果が得られている場合でも、系統樹全体のトポロジーが正しいかどうかの判断が困難であった。それに対し、全ゲノムワイドのアライメントが可能になったことで、全ゲノム情報を真に反映した「究極の系統樹」が作製可能となったものである。
(A systematic analysis of Mycobacterium tuberculosis using the Mycobacterium tuberculosis consensus genome)
The Example which carried out the systematic analysis of M. tuberculosis using the M. tuberculosis consensus genome of this invention is demonstrated. FIG. 5 shows a systematic diagram of M. tuberculosis and related bacteria obtained using the M. tuberculosis consensus genome of the present invention. The phylogenetic tree was created using Bayes' posterior probability method, which makes it possible to estimate when each strain diverged. The number "90.0", which is written in small with the horizontal bar, means "900 years". So far, phylogenetic analysis of strains has been performed by 16S rRNA nucleotide sequence and housekeeping gene polymorphism, and by tuberculosis by sporigotyping and VNTR, and recently by SNP concatenation using whole genome data. I came. However, these use only a part of the information of the whole genome, so the topology of the whole phylogenetic tree is correct even when the results seen in the bifurcation here are good. It was difficult to judge whether or not. On the other hand, since the entire genome-wide alignment is possible, the “ultimate phylogenetic tree” that truly reflects the entire genome information can be created.

次に、本発明の結核菌コンセンサスゲノムを用いた結核菌の系統分析の精度を説明する。図6aは、本発明の結核菌コンセンサスゲノムを用いて結核菌の系統分析をした実施例、図6bは、結核菌標準株である結核菌H37Rv株を用いて結核菌の系統分析をした実施例、図6cは、全結核菌株(本発明の結核菌コンセンサスゲノムの構築に用いた13種類の結核菌とその類縁菌)のゲノムを用いて結核菌の系統分析をした実施例である。図6aと図6cは、ほぼ同様の系統分類が得られているが、図6bでは、結核菌RGTB423株がいずれのグループにも属さず異なる系統図となった。結核菌13株については「MTB」と表示して1つのグループとすることができる(図6a、図6c)。すなわち、本発明の結核菌コンセンサスゲノムを用いた結核菌の系統分析は、結核菌標準株である結核菌H37Rv株を用いたものよりも、その精度において優位であることが示された。なお、系統分析に生じた違いは、結核菌RGTB423株が結核菌H37Rv株との比較において検出されるSNP情報に基づくものである。すなわち、本発明の結核菌コンセンサスゲノムは標準化の程度が高いために、対象とする結核菌RGTB423株に固有のSNPが検出される確率が高くなるが、結核菌H37Rv株と比較した場合には、この結核菌H37Rv株自体の固有のSNPも検出されてしまうためである。なお、図6のなかの「300」の数字は「300年」を意味している。また、図5と図6は、いずれも結核菌の系統分析を表示したのであるが、図5は無根系統樹、図6は有根系統樹とした。   Next, the accuracy of the phylogenetic analysis of M. tuberculosis using the M. tuberculosis consensus genome of the present invention will be described. FIG. 6a is an example of phylogenetic analysis of Mycobacterium tuberculosis using the Mycobacterium tuberculosis consensus genome of the present invention, and FIG. 6b is an example of phylogenetic analysis of Mycobacterium tuberculosis using the Mycobacterium tuberculosis H37Rv strain, which is a standard strain of Mycobacterium tuberculosis. FIG. 6c is an example in which a phylogenetic analysis of M. tuberculosis was performed using the genomes of all M. tuberculosis strains (13 types of M. tuberculosis and its related bacteria used for the construction of the M. tuberculosis consensus genome of the present invention). 6a and 6c have almost the same lineage classification, but in FIG. 6b, the tubercle bacilli RGTB423 strain does not belong to any group and has different lineage diagrams. About 13 M. tuberculosis strains, it can be displayed as “MTB” to form one group (FIGS. 6a and 6c). That is, it was shown that the phylogenetic analysis of M. tuberculosis using the M. tuberculosis consensus genome of the present invention is superior in accuracy to that using the M. tuberculosis H37Rv strain, which is a M. tuberculosis standard strain. In addition, the difference which arose in the system | strain analysis is based on the SNP information detected in the comparison with M. tuberculosis RGTB423 strain with M. tuberculosis H37Rv strain. That is, since the Mycobacterium tuberculosis consensus genome of the present invention has a high degree of standardization, there is a high probability that a SNP unique to Mycobacterium tuberculosis RGTB423 is detected, but when compared with the Mycobacterium tuberculosis H37Rv strain, This is because the unique SNP of the Mycobacterium tuberculosis H37Rv strain itself is also detected. The number “300” in FIG. 6 means “300 years”. 5 and 6 both show the phylogenetic analysis of Mycobacterium tuberculosis. FIG. 5 is an unrooted phylogenetic tree, and FIG. 6 is a rooted phylogenetic tree.

(ロングシーケンス多型解析と結核菌コンセンサスゲノムを用いた結核菌系統の解析)
次に、19種類の結核菌及びその類縁菌に対して結核菌系統の解析をするために、ロングシーケンス多型解析方法と本発明の結核菌コンセンサスゲノムを用いたバーチャル判定方法を行った。表4では、ロングシーケンス多型解析方法による系統判定の結果を菌株毎に示す。ロングシーケンス多型解析方法は、spoligotypingやVNTRとは異なる系統分類法であり、H37Rvという代表的な結核菌株とそれ以外の系統の結核菌との比較で、特定の系統にだけ欠落している配列を見いだすものである(Proc Natl Acad Sci U S A. 2006 Feb 21;103(8):2869-73. Epub 2006 Feb
13.)。この方法は、人類進化と人類との結核菌共生の関係の解析などに応用されている(Nat Genet.
2013 Oct;45(10):1176-82. doi: 10.1038/ng.2744. Epub 2013 Sep 1.)。他方で、本発明の結核菌コンセンサスゲノムを用いたバーチャル判定方法では、系統分類の方法は、PCRによる特定領域の増幅の有無に基づいた、spoligotyping法、VNTR法、Long sequence polymorphism法の3法において、PCRによる増幅の標的となっている配列の有無をバーチャルに判定することで実施した。この2つの方法での結核菌系統の解析結果では、19種類の結核菌及びその類縁菌に対して18種類については同一の結果を得たが、F11菌株においては、ロングシーケンス多型解析方法では「系統5」となり、結核菌コンセンサスゲノムを用いたバーチャル判定方法では、「系統4」であった。この違いは、ロングシーケンス多型解析方法では、「系統5」でないことを示す領域の一部が欠損していたため、「系統5」と判定された。この実施例により、従来のタイピング法の判定結果が本来の菌株の性質一致しない例外的な菌株が存在することを示すと共に、これらをバーチャルな手法で実際の実験無しに証明でき、本手法の有用性を示すことができた。
(Long sequence polymorphism analysis and analysis of Mycobacterium tuberculosis strains using Mycobacterium tuberculosis consensus genome)
Next, a long sequence polymorphism analysis method and a virtual determination method using the M. tuberculosis consensus genome of the present invention were performed in order to analyze M. tuberculosis strains against 19 types of M. tuberculosis and related bacteria. In Table 4, the result of the system | strain determination by a long sequence polymorphism analysis method is shown for every strain. The long sequence polymorphism analysis method is a phylogenetic method different from spoligotyping and VNTR, and is a sequence that is missing only in certain strains in comparison with a representative tuberculosis strain called H37Rv and other strains of tuberculosis. (Proc Natl Acad Sci US A. 2006 Feb 21; 103 (8): 2869-73. Epub 2006 Feb
13.). This method has been applied to the analysis of the relationship between human evolution and M. tuberculosis symbiosis with humans (Nat Genet.
2013 Oct; 45 (10): 1176-82. Doi: 10.1038 / ng.2744. Epub 2013 Sep 1.). On the other hand, in the virtual determination method using the Mycobacterium tuberculosis consensus genome of the present invention, the phylogenetic method is based on the presence or absence of amplification of a specific region by PCR in three methods of spoligotyping method, VNTR method, and Long sequence polymorphism method. This was carried out by virtually determining the presence or absence of a sequence that was the target of amplification by PCR. As a result of analysis of M. tuberculosis strains by these two methods, the same results were obtained for 18 types of 19 types of M. tuberculosis and related strains. In the virtual determination method using the Mycobacterium tuberculosis consensus genome, it was “Strain 4”. This difference was determined to be “line 5” because part of the region indicating that it was not “line 5” was missing in the long sequence polymorphism analysis method. This example shows that there are exceptional strains in which the results of the conventional typing method do not match the properties of the original strain, and these can be proved by a virtual method without actual experimentation. I was able to show gender.

Figure 0006327473
Figure 0006327473

(VNTR及びスポリゴタイピングを用いた結核菌コンセンサスゲノムによる結核菌株の同定)
次に、サンプル中の結核菌についてVNTR (variable number of tandem repeat、反復配列多型)を調べ、このデータを本発明のコンセンサスゲノムにマッピングすることで、結核菌の菌株の同定ができるかを調べた(図7)。VNTRはゲノム中に数百〜数千箇所の存在が確認されている数塩基〜数十塩基を単位とする繰り返し配列である。反復配列多型分析とは、結核菌ゲノム上に存在するミニサテライトDNA中の繰り返し配列のコピー数を調べることによって、結核菌をタイピングする方法である。この繰り返しの数に多型が見られ、また多型性に富むことから、これまで有用な多型マーカーとして連鎖解析等に用いられてきた。図7は、任意に選んだ結核菌について、VNTRを調べて、このデータを本発明のコンセンサスゲノムにマッピングした結果を表示したものである。コンピューター処理によって、サンプル中の結核菌のVNTRのパターンに近似するコンセンサスゲノムに含まれる結核菌の菌株のVNTRのパターンを表示させて、この2つを比較できるように並び替えることができる。各表の上段には各VNTRの名称が表示され、その下にそのVNTRの数が表示されている。表の中段は、本発明のコンセンサスゲノムにおいて同定された菌株の名称とVNTRのデータが表示され、下段にはサンプル中の結核菌のVNTRのデータが表示されている。この2つのデータが合致しない点は、斜線の囲みでマークされている。本発明のコンセンサスゲノムを利用したVNTRの比較処理により、任意の結核菌の菌株の同定をすることができる。
(Identification of Mycobacterium tuberculosis strains by Mycobacterium tuberculosis consensus genome using VNTR and sporigotyping)
Next, VNTR (variable number of tandem repeats) is investigated for M. tuberculosis in the sample, and it is investigated whether this data can be identified by mapping this data to the consensus genome of the present invention. (FIG. 7). VNTR is a repetitive sequence of several bases to several tens of bases whose presence in hundreds to thousands of places has been confirmed in the genome. The repetitive sequence polymorphism analysis is a method for typing M. tuberculosis by examining the copy number of repetitive sequences in minisatellite DNA existing on the M. tuberculosis genome. Since polymorphism is seen in the number of repetitions and the polymorphism is rich, it has been used for linkage analysis and the like as a useful polymorphic marker so far. FIG. 7 shows the result of examining VNTR for arbitrarily selected tuberculosis bacteria and mapping this data to the consensus genome of the present invention. By computer processing, the VNTR pattern of M. tuberculosis strains contained in the consensus genome that approximates the VNTR pattern of M. tuberculosis in the sample can be displayed and rearranged so that the two can be compared. The name of each VNTR is displayed at the top of each table, and the number of the VNTR is displayed below it. The middle part of the table displays the names of strains identified in the consensus genome of the present invention and VNTR data, and the lower part displays VNTR data of Mycobacterium tuberculosis in the sample. Points where these two data do not match are marked with a hatched box. By the comparative processing of VNTR using the consensus genome of the present invention, any strain of Mycobacterium tuberculosis can be identified.

スポリゴタイピング法は、結核菌群のゲノムDR領域に複数存在するdirect repeats(DR)配列に挟まれたスペーサ配列を可視化し、菌株間でその有無を比較することによって、結核菌の遺伝子型を解析する手法である。DR領域は、結核菌群のみに特異的に検出される36bpからなる複数の反復配列(Directrepeat:DR)が存在し、さらに37〜41bpからなるそれぞれ異なった塩基配列で構成されたスペーサー配列を介して10〜50コピーほど連なっている。DR領域に含まれるDRの数は菌株間で異なり、その間にあるスペーサ配列も菌株間で異なることから、43個のスペーサ配列の有無を菌株間で比較することにより、菌株の遺伝子型を判別する。図8は、任意に選んだ結核菌について、スポリゴタイピングを調べて、このデータを本発明のコンセンサスゲノムにマッピングした結果を表示したものである。コンピューター処理によって、サンプル中の結核菌のスポリゴタイピングのパターンに近似するコンセンサスゲノムに含まれる結核菌の菌株のスポリゴタイピングのパターンを表示させて、この2つを比較できるように並び替えることができる。   The sporigotyping method visualizes the spacer sequence between multiple direct repeats (DR) sequences present in the genomic DR region of the Mycobacterium tuberculosis group, and compares the presence or absence between strains to determine the genotype of Mycobacterium tuberculosis. It is a technique to analyze. In the DR region, there are multiple repeat sequences (Directrepeat: DR) consisting of 36 bp that are specifically detected only in the Mycobacterium tuberculosis group, and through a spacer sequence composed of 37-41 bp each of different base sequences. About 10-50 copies. The number of DRs contained in the DR region varies from strain to strain, and the spacer sequence between them also varies from strain to strain, so the strain genotype is determined by comparing the presence or absence of 43 spacer sequences between strains. . FIG. 8 shows the result of mapping the data to the consensus genome of the present invention by examining the sporigotyping for arbitrarily selected M. tuberculosis. By computer processing, it is possible to display the sporigotyping pattern of M. tuberculosis strains contained in the consensus genome that approximates the M. tuberculosis sporigotyping pattern in the sample, and rearrange them so that the two can be compared. it can.

図8上段には各データの名称が表示され、その下に本発明のコンセンサスゲノムにおけるスポリゴタイピングのパターンが表示され、その下段にはサンプル中の結核菌のスポリゴタイピングのデータが表示されている。この2つのデータが合致しない点は、囲み線でマークされている。本発明のコンセンサスゲノムを利用したスポリゴタイピングの比較処理により、任意の結核菌の菌株の同定をすることができる。Distanceは、値の違う(黒か白か)の数を値の総数で割ったものである。SpolDB4 STのSTとはSequence
typeの略で、ある特定パターンのスポリゴタイピングパターンを持つものに番号を付けるものである。パターンの黒・白の表示は、43個の特定遺伝子領域の有無の判定を示し、その判定は43個の特定遺伝子領域の有無をPCRとハイブリダイゼーションで行う。図8のスポリゴタイピングパターンでは、例えば1番目の領域が「有り」なら1番目は黒、2番目の領域が「無し」なら2番目は白、と表示している。
The upper part of FIG. 8 displays the names of the respective data, and the lower part displays the sporgotyping pattern in the consensus genome of the present invention. The lower part displays the sporgotyping data of Mycobacterium tuberculosis in the sample. Yes. Points where these two data do not match are marked with a box. An arbitrary strain of Mycobacterium tuberculosis can be identified by a comparison process of sporigotyping using the consensus genome of the present invention. Distance is the number of different values (black or white) divided by the total number of values. What is SpolDB4 ST ST?
It is an abbreviation of type, and it numbers things that have a certain pattern of sporigotyping patterns. The black / white display of the pattern indicates the presence / absence of 43 specific gene regions, and the determination is performed by PCR and hybridization based on the presence / absence of 43 specific gene regions. 8, for example, if the first area is “present”, the first is black, and if the second area is “none”, the second is white.

サンプル中の結核菌のゲノムについて、VNTRパターン又はスポリゴタイピングパターンを調べて、本発明の結核菌コンセンサスゲノムにマッピングすることで結核菌の菌株を同定できることを示すことができた。すなわち、サンプル中の結核菌のゲノムの全遺伝子配列の情報を得ることなく、従来方法である結核菌のVNTRパターン又はスポリゴタイピングパターンの情報があれば、本発明の結核菌コンセンサスゲノムを利用することで菌株の同定をすることができる。   It was shown that the strain of M. tuberculosis can be identified by examining the VNTR pattern or the sporigotyping pattern of the M. tuberculosis genome in the sample and mapping it to the M. tuberculosis consensus genome of the present invention. That is, without obtaining information on the entire gene sequence of the Mycobacterium tuberculosis genome in the sample, if there is information on the VNTR pattern or sporigotyping pattern of Mycobacterium tuberculosis, which is a conventional method, the Mycobacterium tuberculosis consensus genome of the present invention is used. Thus, the strain can be identified.

したがって、本発明の変形例として、コンピューターによるサンプル中の結核菌の菌株を同定する方法であって、コンピューターが入力されたサンプル中の結核菌のVNTRパターン又はスポリゴタイピングパターンを記憶する工程と、コンピューターが記憶している結核菌のコンセンサスゲノム情報に含まれる特定の菌株のVNTRパターン又はスポリゴタイピングパターンと、サンプル中の結核菌のVNTRパターン又はスポリゴタイピングパターンについてアライメント処理を行う工程と、サンプル中の結核菌のゲノム情報における特定のVNTRパターン又はスポリゴタイピングパターンが、結核菌のコンセンサスゲノム情報に含まれる特定のVNTRパターン又はスポリゴタイピングパターンと一致することで、特定の菌株であることを同定する工程と、サンプル中の結核菌の菌株の同定結果を表示する工程とを具備する結核菌の菌株を同定する方法としても良い。   Therefore, as a modification of the present invention, a method for identifying a strain of M. tuberculosis in a sample by a computer, the computer storing a VNTR pattern or a sporigotyping pattern of M. tuberculosis in a sample input; A process of performing alignment processing on the VNTR pattern or sporigotyping pattern of a specific strain included in the consensus genome information of Mycobacterium tuberculosis stored in the computer, and the VNTR pattern or sporigotyping pattern of M. tuberculosis in the sample, and the sample The specific VNTR pattern or sporigotyping pattern in the genome information of Mycobacterium tuberculosis is consistent with the specific VNTR pattern or sporigotyping pattern contained in the consensus genomic information of Mycobacterium tuberculosis. Identifying process and sun Identification results of strain of Mycobacterium tuberculosis in Le may method of identifying strains of M. tuberculosis and a step of displaying.

(結核菌コンセンサスゲノムを利用するコンピューターシステム)
結核菌コンセンサスゲノムを利用するコンピューターシステムについて説明する。このサンプル中の結核菌の菌株及び変異を同定するコンピューターシステムは、コンピューターが入力されたサンプル中の結核菌のゲノム情報を記憶する結核菌サンプル情報記憶部と、コンピューターが結核菌コンセンサスゲノム情報を記憶するコンセンサスゲノム情報記憶部と、サンプル中の結核菌のゲノム情報に含まれる遺伝子配列と結核菌コンセンサスゲノム情報に含まれる遺伝子配列についてアライメント処理するアライメント処理部と、サンプル中の結核菌の特定の遺伝子配列が、結核菌のコンセンサスゲノム情報に含まれる特定の遺伝子配列と一致することで、特定の菌株であることを同定する菌株同定処理部と、前記菌株同定処理部で同定された特定菌株に対応する結核菌コンセンサスゲノム情報に含まれる特定菌株の基準遺伝子配列を同定する基準遺伝子配列同定処理部と、前記基準遺伝子配列とサンプル中の結核菌の遺伝子配列とを比較処理して、前記基準遺伝子配列と異なる遺伝子情報を遺伝子変異情報として同定する変異遺伝子情報検出部と、サンプル中の結核菌の菌株の同定結果、及び遺伝子変異情報を表示する情報出力部と、を具備することを特徴とする。また、遺伝子変異の箇所等の任意の遺伝子配列の部位における、当該遺伝子の機能・名称等の情報も表示させることができる。また、コンピューターシステムは、解析ソフトウェアとして提供しても良い。なお、サンプル中の結核菌等の菌株の系統解析も行えるように実装することも挙げられる。
(Computer system using Mycobacterium tuberculosis consensus genome)
A computer system using the M. tuberculosis consensus genome will be described. The computer system for identifying strains and mutations of M. tuberculosis in this sample is a M. tuberculosis sample information storage unit that stores the genome information of M. tuberculosis in the sample input by the computer, and the computer stores M. tuberculosis consensus genome information. A consensus genome information storage unit, an alignment processing unit that aligns a gene sequence included in the genome information of Mycobacterium tuberculosis in the sample and a gene sequence included in the Mycobacterium tuberculosis consensus genome information, and a specific gene of Mycobacterium tuberculosis in the sample Corresponds to the specific strain identified by the strain identification processing unit and the strain identification processing unit that identifies the specific strain by matching the specific gene sequence included in the consensus genome information of Mycobacterium tuberculosis Reference strains of specific strains included in the consensus genome information of Mycobacterium tuberculosis A mutant gene for identifying a gene information different from the reference gene sequence as a gene mutation information by comparing a reference gene sequence identification processing unit for identifying a child sequence with the reference gene sequence and a gene sequence of Mycobacterium tuberculosis in a sample. An information detection unit, and an information output unit for displaying the identification result of the M. tuberculosis strain in the sample and gene mutation information are provided. In addition, information such as the function and name of the gene at any gene sequence site such as a gene mutation site can be displayed. The computer system may be provided as analysis software. In addition, implementation is also possible so that systematic analysis of strains such as Mycobacterium tuberculosis in the sample can be performed.

(結核菌コンセンサスゲノムを用いた北京型、モダン型又はアンセストラル型のバーチャル判定)
結核菌のうち特にアジアで流行している北京型株は高病原性であるとされており、さらに北京型のうちモダン型は薬剤耐性化しやすく(Nat Genet. 2013 Jul;45(7):784-90)、その識別は重要である。従来、北京型の判定は主にスポリゴタイピング法またはPCR法、モダン型とアンセストラル型への分類はPCR法により実施されてきた(例えばGenome Res. 2005 Oct;15(10):1357-64.)。本実施例では、本発明の結核菌コンセンサスゲノムを用いたバーチャル判定方法を行った。表5は、その結果を示すものである。従来利用されている北京型の判定であるスポリゴタイピング法では、CDC5079とCCDC5180の2株は北京型と判定されるものであるが、本発明の結核菌コンセンサスゲノムを用いたバーチャル判定方法では、CCDC5180株のみが、北京型且つモダン型と判定された。ちなみに、PCRベースの手法においても、同様の結果を得ることができる。これは、本発明の結核菌コンセンサスゲノムに「IS6110という挿入配列の特定部位」が保存されており、この配列を指標として判定することができたため、正確に判定できたものである。IS6110は、結核菌ゲノム中に複数個存在しており、その存在位置や個数を元に結核菌の亜型分類が可能となっている。IS6110の挿入配列は、遺伝子配列2に示す。以上の結果は、複数のタイピング法の判定結果が一致しない例外的な菌株が存在することを示すと共に、これらをバーチャルな手法で実際の実験無しに証明でき、本手法の有用性を示すことができた。
(Virtual judgment of Beijing type, modern type, or ancestral type using Mycobacterium tuberculosis consensus genome)
Among the Mycobacterium tuberculosis, the Beijing-type strain that is particularly prevalent in Asia is said to be highly pathogenic, and among the Beijing-type, the modern type tends to be resistant to drugs (Nat Genet . 2013 Jul; 45 (7): 784 -90), the identification is important. Conventionally, Beijing type determination has been mainly performed by the sporigotyping method or PCR method, and classification into modern type and ancestral type has been performed by PCR method (for example, Genome Res. 2005 Oct; 15 (10): 1357-64). .). In this example, a virtual determination method using the M. tuberculosis consensus genome of the present invention was performed. Table 5 shows the results. In the Sporigotyping method, which is a Beijing type determination that has been used in the past, the CDC5079 and CCDC5180 strains are determined to be Beijing type, but in the virtual determination method using the Mycobacterium tuberculosis consensus genome of the present invention, Only CCDC5180 was determined to be Beijing and modern. By the way, similar results can be obtained in the PCR-based method. This is because the “specific site of the insertion sequence called IS6110” is stored in the Mycobacterium tuberculosis consensus genome of the present invention, and this sequence can be determined as an index, so that it can be determined accurately. There are multiple IS6110s in the genome of Mycobacterium tuberculosis, and subtype classification of Mycobacterium tuberculosis is possible based on their location and number. The insertion sequence of IS6110 is shown in gene sequence 2. The above results show that there are exceptional strains that do not match the judgment results of multiple typing methods, and that these can be proved by virtual methods without actual experimentation, indicating the usefulness of this method. did it.

Figure 0006327473
Figure 0006327473

(結核菌コンセンサスゲノムを利用する薬剤応答変異遺伝子の同定)
薬剤耐性検出法は、結核菌の場合、薬剤耐性は遺伝子の点突然変異により発生するので、薬剤耐性を誘発する遺伝子の変異を検出することで薬剤耐性の有無を判定する。薬剤耐性を誘発する遺伝子の具体例は、rpoB, katG, mabA-inhA, embB, pncA, gryA, rpsL, rrsの遺伝子等があるので、これらの変異を解析する。例えば、katGでは、232番目のアミノ酸がPからSに変化する点突然変異(この残基はH37Rvという標準株ではゲノム中の2155418番目の塩基(同残基がCからTに変異))の有無で判定を行う。本発明のソフトウェア内では、コンセンサスゲノムを用いて、それぞれの変異に寄与する残基のannotationを行った情報を利用して薬剤耐性検出を行うものとしても良い。
(Identification of drug-responsive mutant genes using the Mycobacterium tuberculosis consensus genome)
In the drug resistance detection method, in the case of Mycobacterium tuberculosis, drug resistance is caused by a point mutation of a gene. Therefore, the presence or absence of drug resistance is determined by detecting a mutation in a gene that induces drug resistance. Specific examples of genes that induce drug resistance include rpoB, katG, mabA-inhA, embB, pncA, gryA, rpsL, and rrs genes, and these mutations are analyzed. For example, in katG, the presence or absence of a point mutation that changes the amino acid at position 232 from P to S (this residue is the base at position 2155418 in the standard strain H37Rv (the residue is changed from C to T)) Make a decision with. In the software of the present invention, drug resistance detection may be performed using information obtained by annotating residues contributing to each mutation using a consensus genome.

例えば、コンピューターに予め結核菌の薬剤応答変異遺伝子情報を記憶させておき、あるサンプル中の結核菌の遺伝子配列を本発明のコンセンサスゲノムと比較処理し、サンプル中の結核菌の遺伝子変異情報を検出し、これが特定の薬剤応答変異遺伝子情報に合致する場合にはこれを同定しても良い。すなわち遺伝子変異情報の結果の表示において、遺伝子変異情報と薬剤応答変異遺伝子情報の両方の結果を表示する方法が挙げられる。また、この薬剤応答変異遺伝子情報には、その薬剤名、薬剤に関する情報、薬剤に対する感受性又は耐性の性質、薬剤応答変異遺伝子の名称、遺伝子配列関連情報などを含まれることが挙げられる。他方で、本発明の結核菌のコンセンサスゲノム情報は、13種類の結核菌・類縁菌に基づいて構築されているが、これに薬剤応答変異遺伝子を有する配列を含んだ結核菌のゲノム情報を加えたコンセンサスゲノム情報を構築しても良い。この場合には、サンプル中の結核菌の遺伝子配列情報が、薬剤応答変異結核菌の遺伝子配列情報と直接に比較処理することができることとなる。   For example, the drug-responsive mutation gene information of M. tuberculosis is stored in advance in a computer, the gene sequence of M. tuberculosis in a sample is compared with the consensus genome of the present invention, and the gene mutation information of M. tuberculosis in the sample is detected. If this matches the specific drug response mutant gene information, it may be identified. That is, there is a method of displaying the results of both gene mutation information and drug response mutation gene information in displaying the results of gene mutation information. The drug response mutation gene information includes the drug name, information about the drug, the sensitivity or resistance property to the drug, the name of the drug response mutation gene, gene sequence related information, and the like. On the other hand, the consensus genome information of Mycobacterium tuberculosis according to the present invention is constructed based on 13 types of Mycobacterium tuberculosis and related bacteria, and genome information of Mycobacterium tuberculosis including a sequence having a drug-responsive mutant gene is added thereto. Consensus genome information may also be constructed. In this case, the gene sequence information of M. tuberculosis in the sample can be directly compared with the gene sequence information of the drug-responsive mutant M. tuberculosis.

図10は、結核菌コンセンサスゲノムを利用する薬剤応答変異遺伝子情報の同定を示したものである。左の縦列より、「種の名称」「菌株の名称」が表示される。EMB(エタンブトール)、FQ(フルオロキノロン)、INH(イソニコチン酸ヒドラジッド)、PZA(ピラジナミド)、RIF(リファンピシン)、STR(硫酸ストレプトマイシン)はそれぞれ薬剤の名称であり、その下にその薬剤の代謝に関連する遺伝子の名称が表示されている。薬剤応答変異遺伝子情報の1つとして、菌株毎にそれぞれの薬剤に対する感受性又は耐性の性質が、「R」(耐性)及び「S」(感受性)として示されている。この結果により、結核菌コンセンサスゲノムを利用する薬剤応答変異遺伝子に関する情報が得られたことが示される。なお、菌株毎にそれぞれの薬剤に対する感受性又は耐性の性質が異なるのは、薬剤の代謝に関連する遺伝子に変異があるためであり、本発明ではその遺伝子変異情報も表示させることができる。   FIG. 10 shows identification of drug response mutant gene information using the Mycobacterium tuberculosis consensus genome. From the left column, “species name” and “strain name” are displayed. EMB (ethambutol), FQ (fluoroquinolone), INH (isonicotinic acid hydrazide), PZA (pyrazinamide), RIF (rifampicin), STR (streptomycin sulfate) are the names of drugs, respectively, and the metabolism of the drug is The names of related genes are displayed. As one of the drug response mutation gene information, the sensitivity or resistance property to each drug is shown as “R” (resistance) and “S” (sensitivity) for each strain. This result indicates that information on drug-responsive mutant genes using the Mycobacterium tuberculosis consensus genome was obtained. Note that the sensitivity or resistance property to each drug differs for each strain because there is a mutation in a gene related to drug metabolism. In the present invention, the gene mutation information can also be displayed.

Claims (9)

コンピューターによるサンプル中の結核菌の菌株を同定する方法であって、
(1)コンピューターが入力されたサンプル中の結核菌のゲノム情報を記憶する工程と、
(2)コンピューターが記憶している結核菌のコンセンサスゲノム情報に含まれる特定の菌株の遺伝子配列と、サンプル中の結核菌の遺伝子配列についてアライメント処理を行う工程と、
(3)サンプル中の結核菌のゲノム情報における特定の遺伝子配列が、結核菌のコンセンサスゲノム情報に含まれる特定の遺伝子配列と一致することで、特定の菌株であることを同定する工程と、
(4)サンプル中の結核菌の菌株の同定結果を表示する工程と、
具備し、
前記結核菌のコンセンサスゲノム情報は、結核菌H37Rv株、結核菌KZN605株、結核菌RGTB423株、結核菌RGTB327株、結核菌 Erdman株、結核菌CTRI-2株、結核菌CDC1551株、結核菌CCDC5180株、結核菌CCDC5079株、結核菌KZN4207株、結核菌KZN1435株、結核菌F11株、結核菌H37Ra株、類縁菌CIPT 140010059株、類縁菌GM041182株、類縁菌BCG str. Mexico株、類縁菌BCG str. Moreau RDJ株、類縁菌BCG str. Tokyo 172株、類縁菌BCG Pasteur 1173P2株の一部又は全部のゲノム情報に対して、それぞれの遺伝子配列の逆位若しくは転移を補正して、アライメント処理した遺伝子配列について、共通する遺伝子配列領域を共通遺伝子配列領域として、菌株間で異なる遺伝子配列領域を菌株の特有の遺伝子配列領域としてコンセンサスゲノム情報に含ませることを特徴とするコンピューターによるサンプル中の結核菌の菌株を同定する方法。
A computerized method for identifying Mycobacterium tuberculosis strains in a sample,
(1) storing a genome information of Mycobacterium tuberculosis in a sample input by a computer;
(2) a step of performing an alignment process on the gene sequence of a specific strain included in the consensus genome information of M. tuberculosis stored in the computer, and the gene sequence of M. tuberculosis in the sample;
(3) identifying a specific strain by matching a specific gene sequence in the genomic information of Mycobacterium tuberculosis in the sample with a specific gene sequence included in the consensus genomic information of Mycobacterium tuberculosis;
(4) displaying the identification result of the strain of Mycobacterium tuberculosis in the sample;
Comprising
The consensus genome information of the Mycobacterium tuberculosis is Mycobacterium tuberculosis H37Rv strain, Mycobacterium tuberculosis KZN605 strain, Mycobacterium tuberculosis RGTB423 strain, Mycobacterium tuberculosis RGTB327 strain, Mycobacterium tuberculosis Erdman strain, Mycobacterium tuberculosis CTRI-2 strain, Mycobacterium tuberculosis CDC1551 strain, Mycobacterium tuberculosis CCDC5180 strain Mycobacterium tuberculosis CCDC5079 strain, Mycobacterium tuberculosis KZN4207 strain, Mycobacterium tuberculosis KZN1435 strain, Mycobacterium tuberculosis F11 strain, Mycobacterium tuberculosis H37Ra strain, related strain CIPT 140010059 strain, related strain GM041182 strain, related strain BCG str. Mexico strain, related strain BCG str. More than RDJ strain, related strain BCG str. Tokyo 172 strain, related strain BCG Pasteur 1173P2 partial or complete genome information, corrected for inversion or transposition of each gene sequence, aligned gene sequence The consensus genome information includes a common gene sequence region as a common gene sequence region and a gene sequence region different among strains as a unique gene sequence region of the strain, which is included in a computer sample. To identify strains of
コンピューターによるサンプル中の結核菌の菌株及び変異を同定する方法であって、
(1)コンピューターが入力されたサンプル中の結核菌のゲノム情報を記憶する工程と、
(2)コンピューターが記憶している結核菌のコンセンサスゲノム情報に含まれる特定の菌株の遺伝子配列と、サンプル中の結核菌の遺伝子配列についてアライメント処理を行う工程と、
(3)サンプル中の結核菌のゲノム情報における特定の遺伝子配列が、結核菌のコンセンサスゲノム情報に含まれる特定の遺伝子配列と一致することで、特定の菌株であることを同定する工程と、
(4)同定された菌株に対応する結核菌コンセンサスゲノム情報に含まれる遺伝子配列を基準遺伝子配列とし、基準遺伝子配列とサンプル中の結核菌の遺伝子配列とを比較処理して、該基準遺伝子配列と異なる遺伝子情報を遺伝子変異情報として同定する工程と、
(5)サンプル中の結核菌の菌株の同定結果、及び遺伝子変異情報の結果を表示する工程と、
具備し、
前記結核菌のコンセンサスゲノム情報は、結核菌H37Rv株、結核菌KZN605株、結核菌RGTB423株、結核菌RGTB327株、結核菌 Erdman株、結核菌CTRI-2株、結核菌CDC1551株、結核菌CCDC5180株、結核菌CCDC5079株、結核菌KZN4207株、結核菌KZN1435株、結核菌F11株、結核菌H37Ra株、類縁菌CIPT 140010059株、類縁菌GM041182株、類縁菌BCG str. Mexico株、類縁菌BCG str. Moreau RDJ株、類縁菌BCG str. Tokyo 172株、類縁菌BCG Pasteur 1173P2株の一部又は全部のゲノム情報に対して、それぞれの遺伝子配列の逆位若しくは転移を補正して、アライメント処理した遺伝子配列について、共通する遺伝子配列領域を共通遺伝子配列領域として、菌株間で異なる遺伝子配列領域を菌株の特有の遺伝子配列領域としてコンセンサスゲノム情報に含ませることを特徴とするコンピューターによるサンプル中の結核菌の菌株及びその遺伝子変異を同定する方法。
A computerized method for identifying Mycobacterium tuberculosis strains and mutations in a sample comprising:
(1) storing a genome information of Mycobacterium tuberculosis in a sample input by a computer;
(2) a step of performing an alignment process on the gene sequence of a specific strain included in the consensus genome information of M. tuberculosis stored in the computer, and the gene sequence of M. tuberculosis in the sample;
(3) identifying a specific strain by matching a specific gene sequence in the genomic information of Mycobacterium tuberculosis in the sample with a specific gene sequence included in the consensus genomic information of Mycobacterium tuberculosis;
(4) The gene sequence included in the Mycobacterium tuberculosis consensus genome information corresponding to the identified strain is used as a reference gene sequence, and the reference gene sequence and the gene sequence of M. tuberculosis in the sample are compared, and the reference gene sequence and Identifying different genetic information as genetic mutation information;
(5) a step of displaying the identification result of the Mycobacterium tuberculosis strain in the sample and the result of the gene mutation information;
Comprising
The consensus genome information of the Mycobacterium tuberculosis is Mycobacterium tuberculosis H37Rv strain, Mycobacterium tuberculosis KZN605 strain, Mycobacterium tuberculosis RGTB423 strain, Mycobacterium tuberculosis RGTB327 strain, Mycobacterium tuberculosis Erdman strain, Mycobacterium tuberculosis CTRI-2 strain, Mycobacterium tuberculosis CDC1551 strain, Mycobacterium tuberculosis CCDC5180 strain Mycobacterium tuberculosis CCDC5079 strain, Mycobacterium tuberculosis KZN4207 strain, Mycobacterium tuberculosis KZN1435 strain, Mycobacterium tuberculosis F11 strain, Mycobacterium tuberculosis H37Ra strain, related strain CIPT 140010059 strain, related strain GM041182 strain, related strain BCG str. Mexico strain, related strain BCG str. More than RDJ strain, related strain BCG str. Tokyo 172 strain, related strain BCG Pasteur 1173P2 partial or complete genome information, corrected for inversion or transposition of each gene sequence, aligned gene sequence The consensus genome information includes a common gene sequence region as a common gene sequence region and a gene sequence region different among strains as a unique gene sequence region of the strain, which is included in a computer sample. Of identifying strains of E. coli and gene mutations thereof.
結核菌のコンセンサスゲノム情報を構築における遺伝子配列の逆位の補正が、結核菌KZN605株の遺伝子配列932051番目と932052番目の間、3479594番目と3459595番目の間、結核菌KZN1435株の遺伝子配列931985番目と931986番目の間、3479865番目と3479866番目の間、結核菌KZN4207株の遺伝子配列932007番目と932008番目の間、3476553番目と3476554番目の間の遺伝子配列の一部又は全部を対象とすることを特徴とする請求項1又は2のいずれかに記載のコンピューターによる同定方法。 Compensation of the inversion of the gene sequence in the construction of the consensus genome information of M. tuberculosis is between gene sequence 932051 and 932052 of M. tuberculosis strain KZN605, between gene 3479594 and 334595, gene sequence 93.1985 of M. tuberculosis strain KZN1435 And between 93 and 1986, between 3479865 and 3479866, between gene sequence 932007 and 932008 of Mycobacterium tuberculosis strain KZN4207, and part or all of the gene sequence between 3476553 and 3476554 The identification method by a computer according to claim 1 or 2, characterized by the above-mentioned. 結核菌のコンセンサスゲノム情報が遺伝子配列1であることを特徴とする請求項1、2又は3のいずれかに記載のコンピューターによる同定方法。 4. The computer identification method according to claim 1, wherein the consensus genome information of Mycobacterium tuberculosis is gene sequence 1. 遺伝子変異情報の結果を表示する工程において、該遺伝子変異を含む遺伝子配列領域に関する情報をも表示できることを特徴とする、請求項2、3又は4のいずれかに記載のコンピューターによる同定方法。   5. The computer identification method according to claim 2, 3 or 4, wherein in the step of displaying the result of the gene mutation information, information on the gene sequence region containing the gene mutation can also be displayed. 前記の基準遺伝子配列と異なる遺伝子情報を遺伝子変異情報として同定する工程において、コンピューターが記憶している結核菌の薬剤応答変異遺伝子情報と比較処理して、該遺伝子変異情報が特定の薬剤応答変異遺伝子情報である場合にはこれを同定するものであって、遺伝子変異情報の結果を表示する工程において、遺伝子変異情報と薬剤応答変異遺伝子情報の結果を表示することを特徴とする、請求項2、3、4又は5のいずれかに記載のコンピューターによる同定方法。 In the step of identifying gene information different from the reference gene sequence as gene mutation information, the gene mutation information is compared with drug response mutation gene information of Mycobacterium tuberculosis stored in the computer, and the gene mutation information is a specific drug response mutation gene. If it is information, this is identified, and in the step of displaying the result of gene mutation information, the result of gene mutation information and drug-responsive mutation gene information is displayed. The identification method by a computer according to any one of 3, 4, and 5 . 薬剤応答変異遺伝子を有する配列を含んだ結核菌のコンセンサスゲノム情報を用いることを特徴とする、請求項2、3、4、又は5のいずれかに記載のコンピューターによる同定方法。 6. The computer identification method according to any one of claims 2, 3, 4, and 5 , wherein consensus genome information of Mycobacterium tuberculosis containing a sequence having a drug-responsive mutant gene is used. 結核菌のコンセンサスゲノム情報を生産する方法であって、結核菌H37Rv株、結核菌KZN605株、結核菌RGTB423株、結核菌RGTB327株、結核菌Erdman株、結核菌CTRI-2株、結核菌CDC1551株、結核菌CCDC5180株、結核菌CCDC5079株、結核菌KZN 4207株、結核菌KZN1435株、結核菌F11株、結核菌H37Ra株、類縁菌CIPT 140010059株、類縁菌GM041182株、類縁菌BCG str. Mexico株、類縁菌BCG str. Moreau RDJ株、類縁菌BCG str.Tokyo 172株、類縁菌BCG Pasteur 1173P2株の一部又は全部のゲノム情報に対して、それぞれの遺伝子配列の逆位若しくは転移を補正して、アライメント処理した遺伝子配列について、共通する遺伝子配列領域を共通遺伝子配列領域として、菌株間で異なる遺伝子配列領域を菌株の特有の遺伝子配列領域としてコンセンサスゲノム情報に含ませることを特徴とする、結核菌のコンセンサスゲノム情報を生産する方法。   A method of producing consensus genome information of Mycobacterium tuberculosis, including Mycobacterium tuberculosis H37Rv strain, Mycobacterium tuberculosis KZN605 strain, Mycobacterium tuberculosis RGTB423 strain, Mycobacterium tuberculosis RGTB327 strain, Mycobacterium tuberculosis Erdman strain, Mycobacterium tuberculosis CTRI-2 strain, Mycobacterium tuberculosis CDC1551 strain Mycobacterium tuberculosis CCDC5180 strain, Mycobacterium tuberculosis CCDC5079 strain, Mycobacterium tuberculosis KZN 4207 strain, Mycobacterium tuberculosis KZN1435 strain, Mycobacterium tuberculosis F11 strain, Mycobacterium tuberculosis H37Ra strain, related strain CIPT 140010059 strain, related strain GM041182 strain, related strain BCG str. Mexico strain For some or all of the genome information of related BCG str. Moreau RDJ strain, related BCG str. Tokyo 172 strain, related BCG Pasteur 1173P2 strain, correct the inversion or transfer of each gene sequence. Characterized in that the consensus genome information includes a common gene sequence region as a common gene sequence region and a gene sequence region that differs between strains as a unique gene sequence region of the strain, in the consensus genome information. Consensus Method of producing a genome information. サンプル中の結核菌の菌株及び変異を同定するコンピューターシステムであって、
(1)コンピューターが入力されたサンプル中の結核菌のゲノム情報を記憶する結核菌サンプル情報記憶部と、
(2)コンピューターが結核菌コンセンサスゲノム情報を記憶するコンセンサスゲノム情報記憶部と、
(3)サンプル中の結核菌のゲノム情報に含まれる遺伝子配列と結核菌コンセンサスゲノム情報に含まれる遺伝子配列についてアライメント処理するアライメント処理部と、
(4)サンプル中の結核菌の特定の遺伝子配列が、結核菌のコンセンサスゲノム情報に含まれる特定の遺伝子配列と一致することで、特定の菌株であることを同定する菌株同定処理部と、
(5)前記菌株同定処理部で同定された特定菌株に対応する結核菌コンセンサスゲノム情報に含まれる特定菌株の基準遺伝子配列を同定する基準遺伝子配列同定処理部と、
(6)前記基準遺伝子配列とサンプル中の結核菌の遺伝子配列とを比較処理して、前記基準遺伝子配列と異なる遺伝子情報を遺伝子変異情報として同定する変異遺伝子情報検出部と、
(7)サンプル中の結核菌の菌株の同定結果、及び遺伝子変異情報を表示する情報出力部と、
を具備し、
前記結核菌のコンセンサスゲノム情報は、結核菌H37Rv株、結核菌KZN605株、結核菌RGTB423株、結核菌RGTB327株、結核菌 Erdman株、結核菌CTRI-2株、結核菌CDC1551株、結核菌CCDC5180株、結核菌CCDC5079株、結核菌KZN4207株、結核菌KZN1435株、結核菌F11株、結核菌H37Ra株、類縁菌CIPT 140010059株、類縁菌GM041182株、類縁菌BCG str. Mexico株、類縁菌BCG str. Moreau RDJ株、類縁菌BCG str. Tokyo 172株、類縁菌BCG Pasteur 1173P2株の一部又は全部のゲノム情報に対して、それぞれの遺伝子配列の逆位若しくは転移を補正して、アライメント処理した遺伝子配列について、共通する遺伝子配列領域を共通遺伝子配列領域として、菌株間で異なる遺伝子配列領域を菌株の特有の遺伝子配列領域としてコンセンサスゲノム情報に含ませることを特徴とすることを特徴とするサンプル中の結核菌の菌株及びその遺伝子変異を同定するコンピューターシステム。
A computer system for identifying Mycobacterium tuberculosis strains and mutations in a sample,
(1) Mycobacterium tuberculosis sample information storage unit for storing genome information of Mycobacterium tuberculosis in a sample input by a computer;
(2) a consensus genome information storage unit in which a computer stores information on Mycobacterium tuberculosis consensus genome;
(3) an alignment processing unit that performs alignment processing on the gene sequence included in the genome information of M. tuberculosis in the sample and the gene sequence included in the M. tuberculosis consensus genome information;
(4) a strain identification processing unit for identifying a specific strain by matching a specific gene sequence of M. tuberculosis in a sample with a specific gene sequence included in the consensus genome information of M. tuberculosis;
(5) a reference gene sequence identification processing unit for identifying a reference gene sequence of a specific strain included in the M. tuberculosis consensus genome information corresponding to the specific strain identified by the strain identification processing unit;
(6) a mutant gene information detection unit that compares the reference gene sequence with a gene sequence of Mycobacterium tuberculosis in a sample and identifies gene information different from the reference gene sequence as gene mutation information;
(7) an information output unit displaying the identification result of the strain of Mycobacterium tuberculosis in the sample, and gene mutation information;
Comprising
The consensus genome information of the Mycobacterium tuberculosis is Mycobacterium tuberculosis H37Rv strain, Mycobacterium tuberculosis KZN605 strain, Mycobacterium tuberculosis RGTB423 strain, Mycobacterium tuberculosis RGTB327 strain, Mycobacterium tuberculosis Erdman strain, Mycobacterium tuberculosis CTRI-2 strain, Mycobacterium tuberculosis CDC1551 strain, Mycobacterium tuberculosis CCDC5180 strain Mycobacterium tuberculosis CCDC5079 strain, Mycobacterium tuberculosis KZN4207 strain, Mycobacterium tuberculosis KZN1435 strain, Mycobacterium tuberculosis F11 strain, Mycobacterium tuberculosis H37Ra strain, related strain CIPT 140010059 strain, related strain GM041182 strain, related strain BCG str. Mexico strain, related strain BCG str. More than RDJ strain, related strain BCG str. Tokyo 172 strain, related strain BCG Pasteur 1173P2 partial or complete genome information, corrected for inversion or transposition of each gene sequence, aligned gene sequence Tuberculosis in a sample characterized in that the consensus genome information includes a common gene sequence region as a common gene sequence region and a gene sequence region different between strains as a unique gene sequence region of the strain Fungus A computer system for identifying strains and their gene mutations.
JP2014558586A 2013-01-25 2014-01-22 Method for identifying Mycobacterium tuberculosis strain and method for detecting gene mutation Expired - Fee Related JP6327473B2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2013012546 2013-01-25
JP2013012546 2013-01-25
JP2013136645 2013-06-28
JP2013136645 2013-06-28
PCT/JP2014/051208 WO2014115747A1 (en) 2013-01-25 2014-01-22 Method for identifying strain of mycobacterium tuberculosis and method for detecting gene variation

Publications (2)

Publication Number Publication Date
JPWO2014115747A1 JPWO2014115747A1 (en) 2017-01-26
JP6327473B2 true JP6327473B2 (en) 2018-05-23

Family

ID=51227538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014558586A Expired - Fee Related JP6327473B2 (en) 2013-01-25 2014-01-22 Method for identifying Mycobacterium tuberculosis strain and method for detecting gene mutation

Country Status (2)

Country Link
JP (1) JP6327473B2 (en)
WO (1) WO2014115747A1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106349350A (en) * 2015-07-16 2017-01-25 广东体必康生物科技有限公司 Protein capable of specifically detecting mycobacterium tuberculosis infection
CN108165561B (en) * 2017-12-01 2021-06-18 北京蛋白质组研究中心 Mycobacterium tuberculosis H37Rv encoding gene and application thereof
US11781191B2 (en) * 2019-08-08 2023-10-10 King Abdullah University Of Science And Technology Compositions and method for detecting Mycobacterium riyadhense
CN112725484A (en) * 2021-01-21 2021-04-30 哈尔滨医科大学 Mycobacterium tuberculosis sRNA real-time fluorescence quantitative PCR standard substance and application thereof
CN113897417B (en) * 2021-11-23 2023-09-29 湖南超亟检测技术有限责任公司 Group of probes, detection kit and detection method for detecting bovine tuberculosis bacillus
CN114574606B (en) * 2022-04-02 2023-04-28 予果生物科技(北京)有限公司 Primer group for detecting mycobacterium tuberculosis in metagenome and high-throughput sequencing method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003135099A (en) * 2001-10-31 2003-05-13 Mitsubishi Kagaku Bio-Clinical Laboratories Inc Method for identifying acid-fast bacterium by phylogenetic analysis
JP2003330934A (en) * 2002-05-10 2003-11-21 Celestar Lexico-Sciences Inc Variant sequence analyzer, variant sequence analysis method, program, and recording medium
JP5469882B2 (en) * 2009-02-27 2014-04-16 株式会社日立ソリューションズ Species identification method and system
JP2011217703A (en) * 2010-04-14 2011-11-04 Research Institute Of Tuberculosis Japan Anti-Tuberculosis Association Typing method of tubercle bacillus
JP5403563B2 (en) * 2011-05-19 2014-01-29 独立行政法人放射線医学総合研究所 Gene identification method and expression analysis method in comprehensive fragment analysis

Also Published As

Publication number Publication date
WO2014115747A1 (en) 2014-07-31
JPWO2014115747A1 (en) 2017-01-26

Similar Documents

Publication Publication Date Title
JP6327473B2 (en) Method for identifying Mycobacterium tuberculosis strain and method for detecting gene mutation
Magi et al. Nanopore sequencing data analysis: state of the art, applications and challenges
Cuscó et al. Microbiota profiling with long amplicons using Nanopore sequencing: full-length 16S rRNA gene and the 16S-ITS-23S of the rrn operon
Homolka et al. High resolution discrimination of clinical Mycobacterium tuberculosis complex strains based on single nucleotide polymorphisms
Coll et al. PolyTB: a genomic variation map for Mycobacterium tuberculosis
Comas et al. Whole-genome sequencing of rifampicin-resistant Mycobacterium tuberculosis strains identifies compensatory mutations in RNA polymerase genes
Dippenaar et al. Whole genome sequence analysis of Mycobacterium suricattae
Lavezzo et al. Third generation sequencing technologies applied to diagnostic microbiology: benefits and challenges in applications and data analysis
Neparáczki et al. Revising mtDNA haplotypes of the ancient Hungarian conquerors with next generation sequencing
Thierry et al. Genotyping of French Bacillus anthracis strains based on 31-loci multi locus VNTR analysis: epidemiology, marker evaluation, and update of the internet genotype database
Gan et al. Deep whole-genome sequencing to detect mixed infection of Mycobacterium tuberculosis
Sahl et al. Phylomark, a tool to identify conserved phylogenetic markers from whole-genome alignments
Mikalová et al. Human Treponema pallidum 11q/j isolate belongs to subsp. endemicum but contains two loci with a sequence in TP0548 and TP0488 similar to subsp. pertenue and subsp. pallidum, respectively
Mandel et al. Comparative genomics-based investigation of resequencing targets in Vibrio fischeri: focus on point miscalls and artefactual expansions
Senghore et al. Whole-genome sequencing illuminates the evolution and spread of multidrug-resistant tuberculosis in Southwest Nigeria
WO2012168815A2 (en) Method for assembly of nucleic acid sequence data
EP3051450A1 (en) Method of typing nucleic acid or amino acid sequences based on sequence analysis
Maixner et al. Metagenomic analysis reveals presence of Treponema denticola in a tissue biopsy of the Iceman
Joseph et al. Direct amplification, sequencing and profiling of Chlamydia trachomatis strains in single and mixed infection clinical samples
Fuller et al. Extensive recombination suppression and epistatic selection causes chromosome-wide differentiation of a selfish sex chromosome in Drosophila pseudoobscura
Hughes et al. Genetic architecture and evolution of the mating type locus in fusaria that cause soybean sudden death syndrome and bean root rot
Azam et al. Genetic characterization and comparative genome analysis of Brucella melitensis Isolates from India
Saha et al. Whole genome analysis of more than 10 000 SARS-CoV-2 virus unveils global genetic diversity and target region of NSP6
Lopes et al. SNP typing reveals similarity in Mycobacterium tuberculosis genetic diversity between Portugal and Northeast Brazil
Ouassa et al. High prevalence of shared international type 53 among Mycobacterium tuberculosis complex strains in retreated patients from Cote d’Ivoire

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171212

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180320

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180404

R150 Certificate of patent or registration of utility model

Ref document number: 6327473

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees