CN112176046A

CN112176046A - Amplification method for analyzing CGG repeat number of upstream untranslated region of FMR1 gene

Info

Publication number: CN112176046A
Application number: CN202011096517.7A
Authority: CN
Inventors: 杜利军; 朱应竹; 谢正顺
Original assignee: Huadu District People's Hospital Of Guangzhou
Current assignee: Huadu District People's Hospital Of Guangzhou
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-05

Abstract

The invention discloses an amplification method for analyzing the CGG repeat number of an upstream untranslated region of an FMR1 gene, which comprises the following steps: (1) constructing a compound of three TALEs covalently coupled with deaminase; (2) expressing the three complexes in escherichia coli; (3) testing the protein activity expressed by the three complexes; (4) extracting target DNA; (5) adding a reaction buffer solution and recombinant TALE-deaminase into the target DNA for reaction; (6) amplifying DNA after deamination reaction by PCR; (7) the sequence of the PCR amplification product was determined by Sanger sequencing. The invention belongs to the technical field of medical inspection science, and discloses a method for analyzing the duplication number of CGG in an upstream untranslated region of an FMR1 gene.

Description

Amplification method for analyzing CGG repeat number of upstream untranslated region of FMR1 gene

Technical Field

The invention belongs to the technical field of medical inspection science, and particularly relates to an amplification method for analyzing the number of CGG repeats in an upstream untranslated region of an FMR1 gene.

Background

Fragile X Syndrome (FXS) is an X-chromosome linked genetic disease. It is typically characterized by moderate to severe intellectual impairment, giant testis (50% of patients have 30-50 ml of testis volume, 20ml of normal value), big ear, language disorder, mental retardation, and Intelligence Quotient (IQ) of 0-50. The patients are mostly male and the male symptoms are severe. Women have two X chromosomes which are mostly carriers, wherein 2/3 have normal intelligence and 1/3 has slight mental retardation. In the Fragile X syndrome family, diseases related to the causes of the Fragile X syndrome may occur, including Fragile X-Associated tremor ataxia syndrome (FXTAS), Fragile X-Associated Primary Ovarian Insufficiency (FXPOI), and the like.

Fragile X syndrome is caused by the absence and deletion of the Familial Mental Retardation Protein (FMRP), more than 95% of Fragile X syndrome is caused by the extension of CGG repeats in the untranslated region upstream of the FMR1 gene, and the extension of large segments of CGG leads to hypermethylation in this region and thus to inhibition of transcription of the FMR1 gene. Less than 5% of patients are caused by FMRP protein dysfunction due to deletion mutations or point mutations in the FMR1 gene.

The detection of the number of CGG repeats can be used for diagnosing FXS, the sensitivity of the index is more than 99%, and the specificity is 100%. CpG islands are not methylated when the (CGG) n repeat number is 5-44, (CGG) n repeat is stable, FMRP expression is normal, and no pathogenicity exists; CpG islands are not methylated when the number of (CGG) n repeats is 45-54, (CGG) n repeats are uncertain in stability, FMRP expression is normal and non-pathogenic; when the number of (CGG) n repeats is 55-200, called premutations (pretutations), CpG islands are not methylated, (CGG) n repeats are easily expandable, when FMRP transcription increases, translation decreases, Fragile X-Associated tremator ataxia syndrome (FXTAS) and Fragile X-Associated Primary Ovarian Insufficiency (FXPOI) occur; when the number of (CGG) n repeats is greater than 200, called full mutations, CpG islands are methylated, and (CGG) n repeats are easily expanded and FMRP is not expressed, then men will show Fragile X Syndrome (FXS) and women will be carriers. 1/4,000 men were full mutations, with 0.61% full mutations and 1.7% pre-mutations in women. The genetic pattern is X-linked and may be expanded by the next generation.

Detection of CGG repeat numbers is diagnostic rather than predictive for males because the penetrance of males is 100%. Full mutations may be diagnosable in women, but less than 50% of women carrying full mutations exhibit mental retardation, which may manifest avoidant personality and stereotyped movements. The identification of a premutation in asymptomatic men and women is predictive, since FXPOI and FXTAS are not all dominant, related to age and the number of repeats in CGG.

Carrier screening and neonatal screening in populations is not currently recommended and can only be conducted as a scientific research. Prenatal screening can be performed using amniotic fluid or villous puncture. It should be noted that methylation has not occurred at this point. Because of somatic mutations, full mutations may show streaks, which may vary in size, which is inconsistent with blood samples. Chimeras of trophoblast and somatic cells are present, and amniocentesis may be a full mutation if villous puncture shows a premutation. The shortest number of repeats found to be capable of expanding to full mutations in the next generation is 56, and pregnant women carrying this number of repeats need to be prenatally diagnosed with possible chimeras, including chimeras of the number of repeats and methylated chimeras.

The detection method commonly used at present comprises the following steps:

DNA hybridization (Southern blot): small pro-mutations are easily detected when the normal fragment is small and/or the electrophoretic mobility is long, whereas large/diffuse full mutations are more easily detected when the normal fragment is large and/or the electrophoretic mobility is short. In female samples, it should be noted that the phenotype of two different sized normal repeats on DNA hybridization may be consistent with the phenotype on DNA hybridization carrying one normal mutation and a pre-mutation. The fully mutated band may be diffuse and weak and the signal-to-noise ratio to be tested is good. In males, the full mutation is unlikely to be overlooked because the normal band would be absent or light in color (in the case of size chimeras), but if the background interference is large, the full mutation may be missed in the female sample. If enzymes sensitive to methylation are used for digestion in DNA hybridization, this may help: 1) if the repeat size is well around a threshold, e.g., 200, it can help to distinguish between pre-mutations and full mutations; 2) rare methylated chimera individuals are detected; 3) abnormal chromosome types, e.g. 45, X or 47, XXY, are detected. The methylation level of the RMR1 gene cannot be used to assess the severity of disease in fetuses and newborns, whether the DNA is from amniotic fluid, villi, or blood.

2. Polymerase Chain Reaction (Polymerase Chain Reaction, PCR): PCR labeled with the radioisotope P-32 and electrophoresed on polyacrylamide gel, or fluorescence labeled primers and subjected to capillary electrophoresis. If there is a polymorphism in the primer binding region, the PCR detection fails, but no polymorphic site affecting the binding of the usual primer has been found so far. Product size standards are necessary. Capillary Electrophoresis (CE) may use fluorescently labeled standards and polyacrylamide electrophoresis may use standard molecular scales. Conventional PCR strategy amplification cannot amplify large repeats and therefore cannot distinguish between a normally homozygous woman and a heterozygous woman carrying a normal gene and a non-amplifiable gene. Similarly, a sample may show only the premutation if it is a chimera of the premutation and the full mutation. Even if the PCR strategy is able to detect large repeats, the amplification will be biased towards small repeats in all samples containing multiple repeats. For example, chimeras in female samples, form heteroduplexes (heteroduplexes) when the female sample and chimeras are amplified. Ordinary PCR amplification is not affected by methylation, but PCR can be adjusted to detect methylation. When a PCR strategy is used to detect full mutations, the hot spots of deletion mutations in the CGG repeats need to be noted. If the primer is exactly in the deletion mutation hotspot, amplification will fail; if prior to the deletion mutation, a significant size chimera results. The three-primer PCR method (TRP-PCR) can improve the amount of amplified full mutation, but the amplification product is diffuse, and the normal repetition can suppress the repetition of expansion, which can influence the detection accuracy.

Deaminase can catalyze the hydrolytic deamination of cytosine and 5-methylcytosine to form uracil and thymine, converting the CG base to the TA base. This property of deaminase may be useful in the fields of gene therapy and the like.

Transcription Activator-Like Effectors (TALEs) are Transcription Activator-Like Effectors secreted by the plant pathogen Xanthomonas (Xanthomonas) and recognize DNA sequences. The DNA binding domain of the TALE protein is formed by connecting amino acid sequence modules capable of recognizing single nucleotide bases in series, and the amino acid sequence has a determined corresponding relation with the nucleic acid sequence of a target site. The sequence module of TALE can be used for assembling recombinant protein which is specifically combined with any DNA sequence, thereby achieving the purpose of identifying the DNA sequence.

Disclosure of Invention

In view of the above, in order to overcome the defects that the amount of total mutation is suppressed by normal repetition when CGG is repeated by PCR (TRP-PCR) amplification and the amplification product is diffuse, the invention provides a method for analyzing the number of CGG repeats in an upstream untranslated region of an FMR1 gene, which can detect the number of CGG repeats related to fragile X syndrome with higher signal-to-noise ratio, particularly the previous mutation and the total mutation with larger length, and can diagnose the fragile X syndrome more reliably.

The technical scheme adopted by the invention is as follows: the amplification method for analyzing the number of CGG repeats in the upstream untranslated region of the FMR1 gene comprises the following steps:

(1) constructing a compound of three Transcription Activator Like Effectors (TALE) and deaminase which are covalently coupled, wherein the TALE and the deaminase are flexibly connected by using 15 glycines, and the three compounds are CGG-TALE-downstream deaminase, TAA-TALE-downstream deaminase and CGG-TALE-upstream deaminase respectively;

(2) expressing the three complexes in escherichia coli;

(3) testing the activity of the protein expressed by the three compounds, mixing the three compounds after the activity is tested to obtain recombinant TALE-deaminase, and adjusting the activity of each compound to be 1U/mu L, wherein 1U is defined as the enzyme activity of converting 50 percent of 1ug of guanine into adenine in a 10uL reaction system at 37 ℃ within 60 minutes;

(4) extracting target DNA, and adjusting the concentration of the target DNA to be between 100 and 500 ng/. mu.L;

(5) adding 10 mu L of reaction buffer solution and 1 mu L of recombinant TALE-deaminase into 10 mu L of target DNA, reacting for 4 hours AT 37 ℃, deaminating GC base in a specific region in the target DNA in a directional manner to convert the GC base into AT base, and inactivating for 10 minutes AT 95 ℃ after the reaction is finished;

(6) amplifying DNA after deamination reaction by PCR;

(7) determining the sequence of the PCR amplification product by a Sanger sequencing method;

(8) and (6) analyzing the result.

By adopting the steps, the invention has the following beneficial effects: according to the scheme, a TALE-deaminase is utilized to process a sample, and GC bases in a specific region in target DNA are deaminated and converted into AT bases in a directional mode, so that the GC content in the sample is reduced, isometric amplification and sequencing of the gene are feasible, the CGG repetition number of the upstream untranslated region of the FMR1 gene is analyzed more accurately, and the method is used as a basis for diagnosing fragile X syndrome and related genetic diseases.

Drawings

The accompanying drawings, which are included to provide a further understanding of the invention and are incorporated in and constitute a part of this specification, illustrate embodiments of the invention and together with the description serve to explain the principles of the invention and not to limit the invention. In the drawings:

FIG. 1 is a schematic diagram showing the method of amplifying the number of CGG repeats in the upstream untranslated region of FMR1 gene according to the present invention;

FIG. 2 shows the sequencing result of male (CGG) with n-repeats of 20 according to the amplification method of the present invention for analyzing the number of CGG repeats in the upstream untranslated region of FMR1 gene;

FIG. 3 shows the sequencing result of male (CGG) with n-repeat number of 51 according to the amplification method of the present invention for analyzing the CGG-repeat number of the upstream untranslated region of FMR1 gene;

FIG. 4 shows the sequencing result of 78 for male (CGG) n repeat number according to the amplification method for analyzing the CGG repeat number of the upstream untranslated region of FMR1 gene of the present invention;

FIG. 5 shows the sequencing result of male (CGG) with n-repeat number 217 according to the amplification method of the present invention for analyzing the CGG-repeat number of the untranslated region upstream of FMR1 gene.

Wherein, 1, deaminase, 2, target DNA before deamination, 3, transcription activator like effector, 4, partial deamination DNA, 5 and DNA after deamination reaction.

Detailed Description

The technical solutions in the embodiments of the present invention will be clearly and completely described below with reference to the drawings in the embodiments of the present invention, and it is obvious that the described embodiments are only a part of the embodiments of the present invention, and not all of the embodiments; all other embodiments, which can be derived by a person skilled in the art from the embodiments given herein without making any creative effort, shall fall within the protection scope of the present invention.

The invention relates to an amplification method for analyzing the number of CGG repeats in an upstream untranslated region of an FMR1 gene, which comprises the following steps:

(1) constructing a compound of three Transcription Activator Like Effectors (TALEs) and deaminase which are covalently coupled, wherein the TALEs and the deaminase are flexibly connected by using 15 glycines, and the three compounds are CGG-TALE-downstream deaminase, TAA-TALE-downstream deaminase and CGG-TALE-upstream deaminase respectively;

(2) expressing the three complexes in escherichia coli;

(3) testing the activity of the protein expressed by the three compounds, mixing the three enzymes after the determination to obtain the recombinant TALE-deaminase, and adjusting the activity of each enzyme to 1U/mu L;

(5) adding 10 mu L of reaction buffer solution and 1 mu L of recombinant TALE-deaminase into 10 mu L of target DNA, reacting for 4 hours AT 37 ℃, directionally changing GC base of a specific region in the target DNA into AT base, and inactivating for 10 minutes AT 95 ℃ after the reaction is finished;

(6) amplifying DNA after deamination reaction by PCR;

(7) determining the sequence of the PCR amplification product by adopting a Sanger sequencing method;

(8) and (6) analyzing the result.

Example (b): the detection of the number of CGG repeats in the upstream region of the upstream untranslated region of the human FMR1 gene was carried out by an amplification method for analyzing the number of CGG repeats in the upstream untranslated region of the FMR1 gene.

(I) preparing experimental components and experimental tools

(1) Preparing the components required by the experiment:

preparing the recombinant TALE-deaminase: cloning a gene sequence of TALE-deaminase to an escherichia coli expression vector PET28 a;

wherein, CGG-TALE-downstream deaminase expression sequence (containing an initiation codon and a stop codon):

ATGCATGGCCTGACTCCGGACCAAGTGGTGGCTATCGCCAGCCACGATGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACAAGGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACAAGGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACTCCGGACCAAGTGGTGGCTATCGCCAGCCACGATGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACAAGGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACAAGGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACTCCGGACCAAGTGGTGGCTATCGCCAGCCACGATGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACAAGGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACAAGGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACTCCGGACCAAGTGGTGGCTATCGCCAGCCACGATGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACAAGGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACAAGGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACTCCGGACCAAGTGGTGGCTATCGCCAGCCACGATGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACAAGGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACAAGGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGATGTAGAAAAATTAATTGCTGAATCGAAAAAAGCACGGGAGCAAGCGTATGTCCCGTATTCAAAATTCCCAGTTGGAGCGGCGTTGTTAGCCGAAGATGGGACTATCTATCACGGCTGTAATATTGAAAACTCCGCTTATAGCATGACCAATTGTGCAGAACGAACAGCATTTTTTAAAGCTGTTTCCGACGGCGTACGTAGCTTCAAAGCGCTTGCAGTAGTTGCAGATACAGAAGGACCTGTTTCCCCGTGTGGAGCATGCAGACAAGTAATTGCGGAGTTTTGTAATGGCTCGATGCCTGTCTACCTCACGAACCTAAAAGGGGACATTGAAGAAACAACTGTAGCAAAATTATTACCAGGCGCATTTTCAAAGGAGGATCTTTCATATGCAGCAGAACAATAA

ATT-TALE-downstream deaminase expression sequence (containing start and stop codons):

ATGCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACATTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACATTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACATTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACATTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACATTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGATGTAGAAAAATTAATTGCTGAATCGAAAAAAGCACGGGAGCAAGCGTATGTCCCGTATTCAAAATTCCCAGTTGGAGCGGCGTTGTTAGCCGAAGATGGGACTATCTATCACGGCTGTAATATTGAAAACTCCGCTTATAGCATGACCAATTGTGCAGAACGAACAGCATTTTTTAAAGCTGTTTCCGACGGCGTACGTAGCTTCAAAGCGCTTGCAGTAGTTGCAGATACAGAAGGACCTGTTTCCCCGTGTGGAGCATGCAGACAAGTAATTGCGGAGTTTTGTAATGGCTCGATGCCTGTCTACCTCACGAACCTAAAAGGGGACATTGAAGAAACAACTGTAGCAAAATTATTACCAGGCGCATTTTCAAAGGAGGATCTTTCATATGCAGCAGAACAATAA

ATT-TALE-upstream deaminase expression sequence (containing start codon and stop codon):

ATGGATGTAGAAAAATTAATTGCTGAATCGAAAAAAGCACGGGAGCAAGCGTATGTCCCGTATTCAAAATTCCCAGTTGGAGCGGCGTTGTTAGCCGAAGATGGGACTATCTATCACGGCTGTAATATTGAAAACTCCGCTTATAGCATGACCAATTGTGCAGAACGAACAGCATTTTTTAAAGCTGTTTCCGACGGCGTACGTAGCTTCAAAGCGCTTGCAGTAGTTGCAGATACAGAAGGACCTGTTTCCCCGTGTGGAGCATGCAGACAAGTAATTGCGGAGTTTTGTAATGGCTCGATGCCTGTCTACCTCACGAACCTAAAAGGGGACATTGAAGAAACAACTGTAGCAAAATTATTACCAGGCGCATTTTCAAAGGAGGATCTTTCATATGCAGCAGAACAAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGAGGACATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACATTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACATTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACATTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACATTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACATTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACCATGGCCTGACCCCGGACCAAGTGGTGGCTATCGCCAGCAACGGTGGCGGCAAGCAAGCGCTCGAAACGGTGCAGCGGCTGTTGCCGGTGCTGTGCCAGGACTAA

for each protein, after sequencing the plasmid to determine the sequence, transformed into BL21(DE3) type Escherichia coli, then inoculated into LB medium, at 37 degrees C and 220rpm rotation speed oscillation culture to OD value of 0.5-0.6, adding a final concentration of 50ug/mL isopropyl-beta-D-thiogalactoside (IPTG), at 37 degrees C and 220rpm speed oscillation culture for 1.5 hours, 5000g centrifugal 10 minutes, abandon the supernatant, using PBS heavy suspension, 5000g centrifugal 10 minutes, using PBS heavy suspension, adding a final concentration of 5 u L/mL lysozyme, room temperature for 2 hours, ultrasonic cell breaker ultrasonic treatment for 30 minutes, nickel column purification of the protein, and using the ultraviolet method for determination of the concentration of the collected protein. And adjusting the activity to 1U/mu L;

(2) a metal bath;

(3) enzyme solution: kod-plus DNA polymerase, glycerol, tris, sodium chloride;

(4) PCR reaction solution I: dNTPs, tris, sodium chloride, upstream primer: 5' -AGCGCATCGCACTCAGGGTGTGACGGAGGCGCCGCTG, downstream primer: 5' -CGAGCTCACGCCTGTGAGCCTCCATCTTCTCTTCAGCCCTGCTA;

(5) PCR reaction solution II: dNTPs, MgSO4, tris, sodium chloride, upstream primer: 5' -AGCGCATCGCACTCAGGGT, downstream primer: 5' -CGAGCTCACGCCTGTGAGC.

(6) A polyethylene PCR reaction tube;

(7) equipment: ABI7500 fluorescent quantitative PCR instrument.

(II) the experimental operation steps are as follows:

1) eluting the target DNA with purified water, and adjusting the concentration of the target DNA to be between 100 and 500 ng/. mu.L;

2) adding 10 mu L of reaction buffer solution and 1U of TALE-deaminase into 10 mu LDNA, reacting for 2 hours at 37 ℃, and inactivating for 10 minutes at 95 ℃ after the reaction is finished;

3) the first step of PCR reaction: taking 1 mu L of the inactivated sample in the step 2, placing the sample in a PCR tube, and adding 23.5 mu L of PCR reaction solution I and 0.5 mu L of enzyme solution, wherein the reaction procedure is as follows: 94 ℃ for 1 min; 94 ℃, 15s, 60 ℃, 60s, 26 circles; at 20 deg.C for 1 min;

4) the second step of PCR reaction: taking 1 μ L of the sample in the step 3, placing the sample in a PCR tube, and adding 23.5 μ L of the PCR reaction solution II and 0.5 μ L of the enzyme solution, wherein the reaction procedure is as follows: 94 ℃ for 1 min; 94 ℃, 15s, 60 ℃, 60s, 26 circles; at 20 deg.C for 1 min;

5) performing Sanger sequencing on the PCR amplification product;

6) and (6) analyzing the result.

FIG. 1 is a schematic diagram showing the amplification method of the present invention for analyzing the number of CGG repeats in the upstream untranslated region of FMR1 gene, the amplification method being as follows: the GC bases of a specific region in the target DNA are deaminated to AT bases using TALE-deaminase.

The experimental results are shown in FIGS. 2 to 5:

FIG. 2: sequencing results for male (CGG) n repeat number 20: GTGACGGAGGCGCCGCTGCCAGGGGGCGTGCAATAATATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATTAAATCTCGAGCGCCCGCAGCCCACCTCTCGGGGGCGGGCTCCCGGCGCCGAGCTCACGCCTGTGAGCCTCCATCTTCTCTTCAGCCCTGCTA are provided.

FIG. 3: sequencing results for male (CGG) with a repeat number of n of 51: GTGACGGAGGCGCCGCTGCCAGGGGGCGTGCAATAATATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATTAAATCTCGAGCGCCCGCAGCCCACCTCTCGGGGGCGGGCTCCCGGCGCCGAGCTCACGCCTGTGAGCCTCCATCTTCTCTTCAGCCCTGCTA are provided.

FIG. 4: sequencing result for male (CGG) n repeat number 78: GTGACGGAGGCGCCGCTGCCAGGGGGCGTGCAATAATATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATTAAATCTCGAGCGCCCGCAGCCCACCTCTCGGGGGCGGGCTCCCGGCGCCGAGCTCACGCCTGTGAGCCTCCATCTTCTCTTCAGCCCTGCTA are provided.

FIG. 5: sequencing result for male (CGG) with n-repeat number 217: GTGACGGAGGCGCCGCTGCCAGGGGGCGTGCAATAATATAATAATAATAATAATAATAATAATAATAAAAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAAAAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATTAAATCTCGAGCGCCCGCAGCCCACCTCTCGGGGGCGGGCTCCCGGCGCCGAGCTCACGCCTGTGAGCCTCCATCTTCTCTTCAGCCCTGCTA are provided.

As shown in FIGS. 2-5, the analysis can be more clearly performed by the method for samples with less than 218 CGG repeats.

It is noted that, herein, relational terms such as first and second, and the like may be used solely to distinguish one entity or action from another entity or action without necessarily requiring or implying any actual such relationship or order between such entities or actions. Also, the terms "comprises," "comprising," or any other variation thereof, are intended to cover a non-exclusive inclusion, such that a process, method, article, or apparatus that comprises a list of elements does not include only those elements but may include other elements not expressly listed or inherent to such process, method, article, or apparatus.

Although embodiments of the present invention have been shown and described, it will be appreciated by those skilled in the art that changes, modifications, substitutions and alterations can be made in these embodiments without departing from the principles and spirit of the invention, the scope of which is defined in the appended claims and their equivalents.

Sequence listing

<110> Guangzhou city flower city district people hospital

<120> amplification method for analyzing CGG repeat number in untranslated region upstream of FMR1 Gene

<160> 3

<170> SIPOSequenceListing 1.0

<210> 1

<211> 1986

<212> PRT

<213> CGG-TALE-downstream deaminase expression sequence (containing start codon and stop codon)

<400> 1

Ala Thr Gly Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Thr Cys

1 5 10 15

Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys

20 25 30

Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Cys Ala Cys Gly Ala Thr

35 40 45

Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys

50 55 60

Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly

65 70 75 80

Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly

85 90 95

Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys

100 105 110

Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr

115 120 125

Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys

130 135 140

Ala Ala Cys Ala Ala Gly Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys

145 150 155 160

Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr

165 170 175

Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly

180 185 190

Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys

195 200 205

Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala

210 215 220

Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys

225 230 235 240

Gly Cys Cys Ala Gly Cys Ala Ala Cys Ala Ala Gly Gly Gly Cys Gly

245 250 255

Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala

260 265 270

Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly

275 280 285

Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys

290 295 300

Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys

305 310 315 320

Thr Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly

325 330 335

Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Cys Ala Cys Gly

340 345 350

Ala Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys

355 360 365

Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly

370 375 380

Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys

385 390 395 400

Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly

405 410 415

Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala

420 425 430

Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala

435 440 445

Gly Cys Ala Ala Cys Ala Ala Gly Gly Gly Cys Gly Gly Cys Ala Ala

450 455 460

Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly

465 470 475 480

Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys

485 490 495

Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala

500 505 510

Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly

515 520 525

Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala

530 535 540

Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Ala Ala Gly Gly Gly

545 550 555 560

Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys

565 570 575

Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys

580 585 590

Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly

595 600 605

Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly

610 615 620

Ala Cys Thr Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly

625 630 635 640

Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Cys Ala

645 650 655

Cys Gly Ala Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala

660 665 670

Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys

675 680 685

Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr

690 695 700

Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr

705 710 715 720

Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys

725 730 735

Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys

740 745 750

Cys Ala Gly Cys Ala Ala Cys Ala Ala Gly Gly Gly Cys Gly Gly Cys

755 760 765

Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala

770 775 780

Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr

785 790 795 800

Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly

805 810 815

Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys

820 825 830

Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys

835 840 845

Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Ala Ala Gly

850 855 860

Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys

865 870 875 880

Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly

885 890 895

Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly

900 905 910

Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys

915 920 925

Thr Gly Ala Cys Thr Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr

930 935 940

Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys

945 950 955 960

Cys Ala Cys Gly Ala Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys

965 970 975

Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr

980 985 990

Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly

995 1000 1005

Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys

1010 1015 1020

Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala

1025 1030 1035 1040

Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys

1045 1050 1055

Gly Cys Cys Ala Gly Cys Ala Ala Cys Ala Ala Gly Gly Gly Cys Gly

1060 1065 1070

Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala

1075 1080 1085

Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly

1090 1095 1100

Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys

1105 1110 1115 1120

Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys

1125 1130 1135

Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly

1140 1145 1150

Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Ala

1155 1160 1165

Ala Gly Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys

1170 1175 1180

Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly

1185 1190 1195 1200

Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys

1205 1210 1215

Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly

1220 1225 1230

Cys Cys Thr Gly Ala Cys Thr Cys Cys Gly Gly Ala Cys Cys Ala Ala

1235 1240 1245

Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala

1250 1255 1260

Gly Cys Cys Ala Cys Gly Ala Thr Gly Gly Cys Gly Gly Cys Ala Ala

1265 1270 1275 1280

Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly

1285 1290 1295

Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys

1300 1305 1310

Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala

1315 1320 1325

Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly

1330 1335 1340

Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala

1345 1350 1355 1360

Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Ala Ala Gly Gly Gly

1365 1370 1375

Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys

1380 1385 1390

Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys

1395 1400 1405

Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly

1410 1415 1420

Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly

1425 1430 1435 1440

Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly

1445 1450 1455

Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala

1460 1465 1470

Cys Ala Ala Gly Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala

1475 1480 1485

Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys

1490 1495 1500

Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr

1505 1510 1515 1520

Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Gly Gly Ala

1525 1530 1535

Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly

1540 1545 1550

Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly

1555 1560 1565

Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Ala Thr Gly Thr Ala

1570 1575 1580

Gly Ala Ala Ala Ala Ala Thr Thr Ala Ala Thr Thr Gly Cys Thr Gly

1585 1590 1595 1600

Ala Ala Thr Cys Gly Ala Ala Ala Ala Ala Ala Gly Cys Ala Cys Gly

1605 1610 1615

Gly Gly Ala Gly Cys Ala Ala Gly Cys Gly Thr Ala Thr Gly Thr Cys

1620 1625 1630

Cys Cys Gly Thr Ala Thr Thr Cys Ala Ala Ala Ala Thr Thr Cys Cys

1635 1640 1645

Cys Ala Gly Thr Thr Gly Gly Ala Gly Cys Gly Gly Cys Gly Thr Thr

1650 1655 1660

Gly Thr Thr Ala Gly Cys Cys Gly Ala Ala Gly Ala Thr Gly Gly Gly

1665 1670 1675 1680

Ala Cys Thr Ala Thr Cys Thr Ala Thr Cys Ala Cys Gly Gly Cys Thr

1685 1690 1695

Gly Thr Ala Ala Thr Ala Thr Thr Gly Ala Ala Ala Ala Cys Thr Cys

1700 1705 1710

Cys Gly Cys Thr Thr Ala Thr Ala Gly Cys Ala Thr Gly Ala Cys Cys

1715 1720 1725

Ala Ala Thr Thr Gly Thr Gly Cys Ala Gly Ala Ala Cys Gly Ala Ala

1730 1735 1740

Cys Ala Gly Cys Ala Thr Thr Thr Thr Thr Thr Ala Ala Ala Gly Cys

1745 1750 1755 1760

Thr Gly Thr Thr Thr Cys Cys Gly Ala Cys Gly Gly Cys Gly Thr Ala

1765 1770 1775

Cys Gly Thr Ala Gly Cys Thr Thr Cys Ala Ala Ala Gly Cys Gly Cys

1780 1785 1790

Thr Thr Gly Cys Ala Gly Thr Ala Gly Thr Thr Gly Cys Ala Gly Ala

1795 1800 1805

Thr Ala Cys Ala Gly Ala Ala Gly Gly Ala Cys Cys Thr Gly Thr Thr

1810 1815 1820

Thr Cys Cys Cys Cys Gly Thr Gly Thr Gly Gly Ala Gly Cys Ala Thr

1825 1830 1835 1840

Gly Cys Ala Gly Ala Cys Ala Ala Gly Thr Ala Ala Thr Thr Gly Cys

1845 1850 1855

Gly Gly Ala Gly Thr Thr Thr Thr Gly Thr Ala Ala Thr Gly Gly Cys

1860 1865 1870

Thr Cys Gly Ala Thr Gly Cys Cys Thr Gly Thr Cys Thr Ala Cys Cys

1875 1880 1885

Thr Cys Ala Cys Gly Ala Ala Cys Cys Thr Ala Ala Ala Ala Gly Gly

1890 1895 1900

Gly Gly Ala Cys Ala Thr Thr Gly Ala Ala Gly Ala Ala Ala Cys Ala

1905 1910 1915 1920

Ala Cys Thr Gly Thr Ala Gly Cys Ala Ala Ala Ala Thr Thr Ala Thr

1925 1930 1935

Thr Ala Cys Cys Ala Gly Gly Cys Gly Cys Ala Thr Thr Thr Thr Cys

1940 1945 1950

Ala Ala Ala Gly Gly Ala Gly Gly Ala Thr Cys Thr Thr Thr Cys Ala

1955 1960 1965

Thr Ala Thr Gly Cys Ala Gly Cys Ala Gly Ala Ala Cys Ala Ala Thr

1970 1975 1980

Ala Ala

1985

<210> 2

<211> 1986

<212> PRT

<213> ATT-TALE-downstream deaminase expression sequence (containing start codon and stop codon)

<400> 2

Ala Thr Gly Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys

1 5 10 15

Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys

20 25 30

Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Ala Thr Thr

35 40 45

Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys

50 55 60

Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly

65 70 75 80

Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly

85 90 95

Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys

100 105 110

Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr

115 120 125

Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys

130 135 140

Ala Ala Cys Gly Gly Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys

145 150 155 160

Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr

165 170 175

Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly

180 185 190

Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys

195 200 205

Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala

210 215 220

Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys

225 230 235 240

Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr Gly Gly Cys Gly

245 250 255

Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala

260 265 270

Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly

275 280 285

Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys

290 295 300

Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys

305 310 315 320

Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly

325 330 335

Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Ala

340 345 350

Thr Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys

355 360 365

Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly

370 375 380

Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys

385 390 395 400

Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly

405 410 415

Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala

420 425 430

Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala

435 440 445

Gly Cys Ala Ala Cys Gly Gly Thr Gly Gly Cys Gly Gly Cys Ala Ala

450 455 460

Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly

465 470 475 480

Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys

485 490 495

Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala

500 505 510

Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly

515 520 525

Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala

530 535 540

Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr Gly Gly

545 550 555 560

Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys

565 570 575

Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys

580 585 590

Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly

595 600 605

Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly

610 615 620

Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly

625 630 635 640

Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala

645 650 655

Cys Ala Thr Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala

660 665 670

Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys

675 680 685

Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr

690 695 700

Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr

705 710 715 720

Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys

725 730 735

Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys

740 745 750

Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr Gly Gly Cys Gly Gly Cys

755 760 765

Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala

770 775 780

Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr

785 790 795 800

Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly

805 810 815

Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys

820 825 830

Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys

835 840 845

Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr

850 855 860

Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys

865 870 875 880

Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly

885 890 895

Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly

900 905 910

Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys

915 920 925

Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr

930 935 940

Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys

945 950 955 960

Ala Ala Cys Ala Thr Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys

965 970 975

Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr

980 985 990

Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly

995 1000 1005

Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys

1010 1015 1020

Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala

1025 1030 1035 1040

Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys

1045 1050 1055

Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr Gly Gly Cys Gly

1060 1065 1070

Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala

1075 1080 1085

Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly

1090 1095 1100

Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys

1105 1110 1115 1120

Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys

1125 1130 1135

Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly

1140 1145 1150

Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly

1155 1160 1165

Gly Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys

1170 1175 1180

Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly

1185 1190 1195 1200

Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys

1205 1210 1215

Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly

1220 1225 1230

Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala

1235 1240 1245

Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala

1250 1255 1260

Gly Cys Ala Ala Cys Ala Thr Thr Gly Gly Cys Gly Gly Cys Ala Ala

1265 1270 1275 1280

Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly

1285 1290 1295

Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys

1300 1305 1310

Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala

1315 1320 1325

Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly

1330 1335 1340

Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala

1345 1350 1355 1360

Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr Gly Gly

1365 1370 1375

Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys

1380 1385 1390

Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys

1395 1400 1405

Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly

1410 1415 1420

Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly

1425 1430 1435 1440

Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly

1445 1450 1455

Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala

1460 1465 1470

Cys Gly Gly Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala

1475 1480 1485

Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys

1490 1495 1500

Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr

1505 1510 1515 1520

Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Gly Gly Ala

1525 1530 1535

Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly

1540 1545 1550

Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly

1555 1560 1565

Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Ala Thr Gly Thr Ala

1570 1575 1580

Gly Ala Ala Ala Ala Ala Thr Thr Ala Ala Thr Thr Gly Cys Thr Gly

1585 1590 1595 1600

Ala Ala Thr Cys Gly Ala Ala Ala Ala Ala Ala Gly Cys Ala Cys Gly

1605 1610 1615

Gly Gly Ala Gly Cys Ala Ala Gly Cys Gly Thr Ala Thr Gly Thr Cys

1620 1625 1630

Cys Cys Gly Thr Ala Thr Thr Cys Ala Ala Ala Ala Thr Thr Cys Cys

1635 1640 1645

Cys Ala Gly Thr Thr Gly Gly Ala Gly Cys Gly Gly Cys Gly Thr Thr

1650 1655 1660

Gly Thr Thr Ala Gly Cys Cys Gly Ala Ala Gly Ala Thr Gly Gly Gly

1665 1670 1675 1680

Ala Cys Thr Ala Thr Cys Thr Ala Thr Cys Ala Cys Gly Gly Cys Thr

1685 1690 1695

Gly Thr Ala Ala Thr Ala Thr Thr Gly Ala Ala Ala Ala Cys Thr Cys

1700 1705 1710

Cys Gly Cys Thr Thr Ala Thr Ala Gly Cys Ala Thr Gly Ala Cys Cys

1715 1720 1725

Ala Ala Thr Thr Gly Thr Gly Cys Ala Gly Ala Ala Cys Gly Ala Ala

1730 1735 1740

Cys Ala Gly Cys Ala Thr Thr Thr Thr Thr Thr Ala Ala Ala Gly Cys

1745 1750 1755 1760

Thr Gly Thr Thr Thr Cys Cys Gly Ala Cys Gly Gly Cys Gly Thr Ala

1765 1770 1775

Cys Gly Thr Ala Gly Cys Thr Thr Cys Ala Ala Ala Gly Cys Gly Cys

1780 1785 1790

Thr Thr Gly Cys Ala Gly Thr Ala Gly Thr Thr Gly Cys Ala Gly Ala

1795 1800 1805

Thr Ala Cys Ala Gly Ala Ala Gly Gly Ala Cys Cys Thr Gly Thr Thr

1810 1815 1820

Thr Cys Cys Cys Cys Gly Thr Gly Thr Gly Gly Ala Gly Cys Ala Thr

1825 1830 1835 1840

Gly Cys Ala Gly Ala Cys Ala Ala Gly Thr Ala Ala Thr Thr Gly Cys

1845 1850 1855

Gly Gly Ala Gly Thr Thr Thr Thr Gly Thr Ala Ala Thr Gly Gly Cys

1860 1865 1870

Thr Cys Gly Ala Thr Gly Cys Cys Thr Gly Thr Cys Thr Ala Cys Cys

1875 1880 1885

Thr Cys Ala Cys Gly Ala Ala Cys Cys Thr Ala Ala Ala Ala Gly Gly

1890 1895 1900

Gly Gly Ala Cys Ala Thr Thr Gly Ala Ala Gly Ala Ala Ala Cys Ala

1905 1910 1915 1920

Ala Cys Thr Gly Thr Ala Gly Cys Ala Ala Ala Ala Thr Thr Ala Thr

1925 1930 1935

Thr Ala Cys Cys Ala Gly Gly Cys Gly Cys Ala Thr Thr Thr Thr Cys

1940 1945 1950

Ala Ala Ala Gly Gly Ala Gly Gly Ala Thr Cys Thr Thr Thr Cys Ala

1955 1960 1965

Thr Ala Thr Gly Cys Ala Gly Cys Ala Gly Ala Ala Cys Ala Ala Thr

1970 1975 1980

Ala Ala

1985

<210> 3

<211> 1986

<212> PRT

<213> ATT-TALE-upstream deaminase expression sequence (containing start codon and stop codon)

<400> 3

Ala Thr Gly Gly Ala Thr Gly Thr Ala Gly Ala Ala Ala Ala Ala Thr

1 5 10 15

Thr Ala Ala Thr Thr Gly Cys Thr Gly Ala Ala Thr Cys Gly Ala Ala

20 25 30

Ala Ala Ala Ala Gly Cys Ala Cys Gly Gly Gly Ala Gly Cys Ala Ala

35 40 45

Gly Cys Gly Thr Ala Thr Gly Thr Cys Cys Cys Gly Thr Ala Thr Thr

50 55 60

Cys Ala Ala Ala Ala Thr Thr Cys Cys Cys Ala Gly Thr Thr Gly Gly

65 70 75 80

Ala Gly Cys Gly Gly Cys Gly Thr Thr Gly Thr Thr Ala Gly Cys Cys

85 90 95

Gly Ala Ala Gly Ala Thr Gly Gly Gly Ala Cys Thr Ala Thr Cys Thr

100 105 110

Ala Thr Cys Ala Cys Gly Gly Cys Thr Gly Thr Ala Ala Thr Ala Thr

115 120 125

Thr Gly Ala Ala Ala Ala Cys Thr Cys Cys Gly Cys Thr Thr Ala Thr

130 135 140

Ala Gly Cys Ala Thr Gly Ala Cys Cys Ala Ala Thr Thr Gly Thr Gly

145 150 155 160

Cys Ala Gly Ala Ala Cys Gly Ala Ala Cys Ala Gly Cys Ala Thr Thr

165 170 175

Thr Thr Thr Thr Ala Ala Ala Gly Cys Thr Gly Thr Thr Thr Cys Cys

180 185 190

Gly Ala Cys Gly Gly Cys Gly Thr Ala Cys Gly Thr Ala Gly Cys Thr

195 200 205

Thr Cys Ala Ala Ala Gly Cys Gly Cys Thr Thr Gly Cys Ala Gly Thr

210 215 220

Ala Gly Thr Thr Gly Cys Ala Gly Ala Thr Ala Cys Ala Gly Ala Ala

225 230 235 240

Gly Gly Ala Cys Cys Thr Gly Thr Thr Thr Cys Cys Cys Cys Gly Thr

245 250 255

Gly Thr Gly Gly Ala Gly Cys Ala Thr Gly Cys Ala Gly Ala Cys Ala

260 265 270

Ala Gly Thr Ala Ala Thr Thr Gly Cys Gly Gly Ala Gly Thr Thr Thr

275 280 285

Thr Gly Thr Ala Ala Thr Gly Gly Cys Thr Cys Gly Ala Thr Gly Cys

290 295 300

Cys Thr Gly Thr Cys Thr Ala Cys Cys Thr Cys Ala Cys Gly Ala Ala

305 310 315 320

Cys Cys Thr Ala Ala Ala Ala Gly Gly Gly Gly Ala Cys Ala Thr Thr

325 330 335

Gly Ala Ala Gly Ala Ala Ala Cys Ala Ala Cys Thr Gly Thr Ala Gly

340 345 350

Cys Ala Ala Ala Ala Thr Thr Ala Thr Thr Ala Cys Cys Ala Gly Gly

355 360 365

Cys Gly Cys Ala Thr Thr Thr Thr Cys Ala Ala Ala Gly Gly Ala Gly

370 375 380

Gly Ala Thr Cys Thr Thr Thr Cys Ala Thr Ala Thr Gly Cys Ala Gly

385 390 395 400

Cys Ala Gly Ala Ala Cys Ala Ala Gly Gly Ala Gly Gly Ala Gly Gly

405 410 415

Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala

420 425 430

Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly Gly Ala Gly

435 440 445

Gly Ala Gly Gly Ala Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys

450 455 460

Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly

465 470 475 480

Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Ala

485 490 495

Thr Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys

500 505 510

Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly

515 520 525

Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys

530 535 540

Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly

545 550 555 560

Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala

565 570 575

Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala

580 585 590

Gly Cys Ala Ala Cys Gly Gly Thr Gly Gly Cys Gly Gly Cys Ala Ala

595 600 605

Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly

610 615 620

Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys

625 630 635 640

Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala

645 650 655

Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly

660 665 670

Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala

675 680 685

Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr Gly Gly

690 695 700

Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys

705 710 715 720

Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys

725 730 735

Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly

740 745 750

Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly

755 760 765

Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly

770 775 780

Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala

785 790 795 800

Cys Ala Thr Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala

805 810 815

Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys

820 825 830

Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr

835 840 845

Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr

850 855 860

Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys

865 870 875 880

Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys

885 890 895

Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr Gly Gly Cys Gly Gly Cys

900 905 910

Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala

915 920 925

Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr

930 935 940

Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly

945 950 955 960

Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys

965 970 975

Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys

980 985 990

Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr

995 1000 1005

Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys

1010 1015 1020

Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly

1025 1030 1035 1040

Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly

1045 1050 1055

Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys

1060 1065 1070

Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr

1075 1080 1085

Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys

1090 1095 1100

Ala Ala Cys Ala Thr Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys

1105 1110 1115 1120

Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr

1125 1130 1135

Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly

1140 1145 1150

Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys

1155 1160 1165

Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala

1170 1175 1180

Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys

1185 1190 1195 1200

Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr Gly Gly Cys Gly

1205 1210 1215

Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala

1220 1225 1230

Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly

1235 1240 1245

Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys

1250 1255 1260

Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys

1265 1270 1275 1280

Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly

1285 1290 1295

Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly

1300 1305 1310

Gly Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys

1315 1320 1325

Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly

1330 1335 1340

Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys

1345 1350 1355 1360

Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly

1365 1370 1375

Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala

1380 1385 1390

Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala

1395 1400 1405

Gly Cys Ala Ala Cys Ala Thr Thr Gly Gly Cys Gly Gly Cys Ala Ala

1410 1415 1420

Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly

1425 1430 1435 1440

Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys

1445 1450 1455

Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala

1460 1465 1470

Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly

1475 1480 1485

Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala

1490 1495 1500

Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr Gly Gly

1505 1510 1515 1520

Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys

1525 1530 1535

Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys

1540 1545 1550

Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly

1555 1560 1565

Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly

1570 1575 1580

Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly

1585 1590 1595 1600

Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala

1605 1610 1615

Cys Gly Gly Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala

1620 1625 1630

Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys

1635 1640 1645

Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr

1650 1655 1660

Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr

1665 1670 1675 1680

Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys

1685 1690 1695

Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys

1700 1705 1710

Cys Ala Gly Cys Ala Ala Cys Ala Thr Thr Gly Gly Cys Gly Gly Cys

1715 1720 1725

Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala

1730 1735 1740

Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr

1745 1750 1755 1760

Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly

1765 1770 1775

Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys Thr Gly Ala Cys Cys Cys

1780 1785 1790

Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr Gly Gly Thr Gly Gly Cys

1795 1800 1805

Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys Ala Ala Cys Gly Gly Thr

1810 1815 1820

Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys Ala Ala Gly Cys Gly Cys

1825 1830 1835 1840

Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr Gly Cys Ala Gly Cys Gly

1845 1850 1855

Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly Gly Thr Gly Cys Thr Gly

1860 1865 1870

Thr Gly Cys Cys Ala Gly Gly Ala Cys Cys Ala Thr Gly Gly Cys Cys

1875 1880 1885

Thr Gly Ala Cys Cys Cys Cys Gly Gly Ala Cys Cys Ala Ala Gly Thr

1890 1895 1900

Gly Gly Thr Gly Gly Cys Thr Ala Thr Cys Gly Cys Cys Ala Gly Cys

1905 1910 1915 1920

Ala Ala Cys Gly Gly Thr Gly Gly Cys Gly Gly Cys Ala Ala Gly Cys

1925 1930 1935

Ala Ala Gly Cys Gly Cys Thr Cys Gly Ala Ala Ala Cys Gly Gly Thr

1940 1945 1950

Gly Cys Ala Gly Cys Gly Gly Cys Thr Gly Thr Thr Gly Cys Cys Gly

1955 1960 1965

Gly Thr Gly Cys Thr Gly Thr Gly Cys Cys Ala Gly Gly Ala Cys Thr

1970 1975 1980

Ala Ala

1985

Claims

1. An amplification method for analyzing the number of CGG repeats in an upstream untranslated region of an FMR1 gene, comprising: comprises the following steps:

(1) constructing a compound of three transcription activator-like effectors and deaminase which are covalently coupled, wherein the transcription activator-like effectors and the deaminase are flexibly connected by adopting 15 glycines, and the three compounds are CGG-TALE-downstream deaminase, TAA-TALE-downstream deaminase and CGG-TALE-upstream deaminase respectively;

(2) expressing the three complexes in escherichia coli;

(3) testing the activity of the protein expressed by the three compounds, mixing the three compounds after the determination to obtain the recombinant TALE-deaminase, and adjusting the activity of each compound to 1U/mu L;

(6) amplifying DNA after deamination reaction by PCR;

(8) and (6) analyzing the result.