CN110564883A - 一种基于its序列和机器学习的钩藤属植物鉴定方法 - Google Patents
一种基于its序列和机器学习的钩藤属植物鉴定方法 Download PDFInfo
- Publication number
- CN110564883A CN110564883A CN201910719799.2A CN201910719799A CN110564883A CN 110564883 A CN110564883 A CN 110564883A CN 201910719799 A CN201910719799 A CN 201910719799A CN 110564883 A CN110564883 A CN 110564883A
- Authority
- CN
- China
- Prior art keywords
- uncaria
- identifying
- sequence
- machine learning
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000157352 Uncaria Species 0.000 title claims abstract description 143
- 238000010801 machine learning Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 34
- 241000894007 species Species 0.000 claims abstract description 29
- 239000002773 nucleotide Substances 0.000 claims abstract description 24
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 24
- 241000157373 Uncaria rhynchophylla Species 0.000 claims description 22
- 241000196324 Embryophyta Species 0.000 claims description 18
- 241000123748 Uncaria macrophylla Species 0.000 claims description 17
- 241000837064 Uncaria yunnanensis Species 0.000 claims description 15
- 244000081822 Uncaria gambir Species 0.000 claims description 13
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 claims description 12
- 238000012408 PCR amplification Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 10
- 241000123747 Uncaria hirsuta Species 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 101100213970 Schizosaccharomyces pombe (strain 972 / ATCC 24843) ypt3 gene Proteins 0.000 claims description 7
- 241000214513 Uncaria sinensis Species 0.000 claims description 7
- 239000000843 powder Substances 0.000 claims description 7
- 238000002474 experimental method Methods 0.000 claims description 6
- 239000008223 sterile water Substances 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- LZZYPRNAOMGNLH-UHFFFAOYSA-M Cetrimonium bromide Chemical compound [Br-].CCCCCCCCCCCCCCCC[N+](C)(C)C LZZYPRNAOMGNLH-UHFFFAOYSA-M 0.000 claims description 4
- 238000007400 DNA extraction Methods 0.000 claims description 4
- 240000008691 Sagittaria lancifolia Species 0.000 claims description 4
- 244000055292 Scheffiera scandens Species 0.000 claims description 4
- 244000057214 Stachys sieboldii Species 0.000 claims description 4
- 235000005116 Stachys sieboldii Nutrition 0.000 claims description 4
- 238000007605 air drying Methods 0.000 claims description 4
- 238000001816 cooling Methods 0.000 claims description 4
- 239000007788 liquid Substances 0.000 claims description 4
- 229910052757 nitrogen Inorganic materials 0.000 claims description 4
- 241001107098 Rubiaceae Species 0.000 claims description 3
- 238000000137 annealing Methods 0.000 claims description 3
- 238000004925 denaturation Methods 0.000 claims description 3
- 230000036425 denaturation Effects 0.000 claims description 3
- 230000035772 mutation Effects 0.000 claims description 3
- 238000012257 pre-denaturation Methods 0.000 claims description 3
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 claims description 2
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 claims description 2
- 241000588724 Escherichia coli Species 0.000 claims description 2
- AVKUERGKIZMTKX-NJBDSQKTSA-N ampicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=CC=C1 AVKUERGKIZMTKX-NJBDSQKTSA-N 0.000 claims description 2
- 229960000723 ampicillin Drugs 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000012216 screening Methods 0.000 abstract description 2
- 239000006228 supernatant Substances 0.000 description 11
- 239000000243 solution Substances 0.000 description 7
- 238000002156 mixing Methods 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 238000005406 washing Methods 0.000 description 6
- 241000607122 Uncaria tomentosa Species 0.000 description 5
- 235000011472 cat’s claw Nutrition 0.000 description 5
- KFZMGEQAYNKOFK-UHFFFAOYSA-N Isopropanol Chemical compound CC(C)O KFZMGEQAYNKOFK-UHFFFAOYSA-N 0.000 description 4
- 244000076999 Parameria laevigata Species 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 239000002244 precipitate Substances 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000001954 sterilising effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 244000272636 Artabotrys uncinatus Species 0.000 description 2
- 235000011853 Artabotrys uncinatus Nutrition 0.000 description 2
- 244000293323 Cosmos caudatus Species 0.000 description 2
- 235000005956 Cosmos caudatus Nutrition 0.000 description 2
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 2
- 241000207963 Harpagophytum Species 0.000 description 2
- VMHLLURERBWHNL-UHFFFAOYSA-M Sodium acetate Chemical compound [Na+].CC([O-])=O VMHLLURERBWHNL-UHFFFAOYSA-M 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 239000007983 Tris buffer Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000001914 calming effect Effects 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000000227 grinding Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 235000013809 polyvinylpolypyrrolidone Nutrition 0.000 description 2
- 229920000523 polyvinylpolypyrrolidone Polymers 0.000 description 2
- 230000001376 precipitating effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007894 restriction fragment length polymorphism technique Methods 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 238000002791 soaking Methods 0.000 description 2
- 235000017281 sodium acetate Nutrition 0.000 description 2
- 239000001632 sodium acetate Substances 0.000 description 2
- 238000004659 sterilization and disinfection Methods 0.000 description 2
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 2
- DGVVWUTYPXICAM-UHFFFAOYSA-N β‐Mercaptoethanol Chemical compound OCCS DGVVWUTYPXICAM-UHFFFAOYSA-N 0.000 description 2
- 229920001817 Agar Polymers 0.000 description 1
- 206010010904 Convulsion Diseases 0.000 description 1
- 244000088438 Mucuna macrophylla Species 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 241000130975 Uncaria lancifolia Species 0.000 description 1
- 241000130978 Uncaria scandens Species 0.000 description 1
- 244000004962 Uvularia sessilifolia Species 0.000 description 1
- 239000011543 agarose gel Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000000499 gel Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013095 identification testing Methods 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000011027 product recovery Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/686—Polymerase chain reaction [PCR]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/6895—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Botany (AREA)
- Mycology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于ITS序列和机器学习鉴定钩藤属植物的方法,包括以下步骤:(1)收集钩藤属植物的ITS序列;(2)利用机器学习提取鉴别钩藤属植物的特异核苷酸位点;(3)对钩藤属植物进行鉴别。将ITS序列和机器学习结合用于钩藤属植物鉴定的方法,能够实现快速、高准确性、高特异性地鉴定11个钩藤属物种。该方法减少了从众多变异位点中手动筛选核苷酸位点来鉴定物种的时间,提高了鉴定效率;同时,该方法提取的核苷酸位点是物种的特异核苷酸位点,避免了将非特异位点作为鉴定钩藤属物种的依据而造成鉴定失败的情况,保证了鉴定钩藤属物种的特异性,并提高了钩藤属物种的鉴定成功率。
Description
技术领域
本发明涉及一种钩藤属植物鉴定方法,更具体地,涉及一种基于ITS序列和 机器学习鉴定钩藤属植物的方法。
背景技术
钩藤为茜草科钩藤属植物,主要分布在广西、贵州、云南等西南地区。《中 国药典》2015年版规定钩藤为茜草科植物一般钩藤Uncaria rhynchophulla(Miq) Jack.、大叶钩藤U.macrophylla Wall.、华钩藤U.sinensis(Oliv)Havil.、U.hirsute Havil.和无柄果钩藤U.sessilifructus Roxb.五种药材。钩藤是中医常用药,药用历 史悠久,具有息风定惊,清热平肝的功效。
钩藤因具有较高的药用价值和应用前景而受到广泛关注,对钩藤植物化学成 分的分析报道层出不穷,但对其鉴定方面的研究较少。目前,中药钩藤的分类鉴 定主要依据形态学、组织学和化学成分分析等方法。但钩藤各品种间外形相似, 而不同种钩藤的药效成分具有明显差别,加之某些地区的品种面临濒危,导致市 场上销售的钩藤种类较为混乱,出现互混、互代、以次充好等现象,影响用药的 安全性和有效性。单靠药材性状、化学组分分析不能全面、科学地鉴定与评估钩 藤药材的质量。因此,需要一种能够对钩藤属植物进行更精确、更快速的鉴定方 法。
已有利用ITS区序列对侯钩藤进行鉴定的报道,报道中确定了7个变异位点 作为鉴定侯钩藤的位点,但其必须满足至少两个位点的条件才能鉴定为侯钩藤, 但当某个物种某个位点发生突变,无法满足多个位点同时存在的条件,就可能导 致鉴定失败;另有利用ITS区序列鉴定11个钩藤属物种(一般钩藤、华钩藤、 大叶钩藤、鹰爪风、攀茎钩藤、北越钩藤、毛钩藤、倒挂钩藤、白钩藤、平滑钩 藤、云南钩藤)的报道,报道中使用RELP(Restriction Fragment Length Polymorphism)法确定并比较了45个位点作为鉴定10个钩藤属植物(鹰爪风除 外)的位点,分别列举了2-7个单一位点来鉴定10个钩藤属物种,鉴定具体的 物种仅需满足2-7个位点中的其中一个位点,但该报道所找的用于鉴别钩藤属物种的位点并不都是特异位点,可能导致鉴定失败。以上两个报道的共同点为:鉴 定位点需人工从众多位点中逐个筛选,费时费力,且可能面临鉴定失败的情况, 无法满足快速、准确、特异性鉴定钩藤属植物的要求。
机器学习是近20多年兴起的一门多领域交叉学科,为了充分且有效地利用 生物学数据,生物学与机器学习的交叉研究日益活跃。目前,国内外尚未有将ITS 序列和机器学习相结合用于钩藤属植物鉴定的报道。
发明内容
为了克服已有技术的不足,本发明的目的在于提供一种结合ITS序列与机器 学习的方法来准确、快速、特异地鉴定钩藤属物种。
本发明上述目的通过以下技术方案实现:
一种基于ITS序列和机器学习的钩藤属植物鉴定方法,包括如下步骤:
S1:数据的获取和数据集的建立
获取钩藤属植物的ITS区序列,并进行比对,切除引物端后,去除中间存在 高变的插入或缺失的序列,得到用于机器学习的数据集。
具体地,上述S1中,ITS区序列一部分来自于实验获取,物种是一般钩藤、 华钩藤、毛钩藤、白钩藤、大叶钩藤、侯钩藤、北越钩藤,通过分子生物学实验 及测序获得该7个钩藤属物种的ITS区序列,具体包括如下步骤:
S11.以改良的CTAB法,提取7个待测物种样品的总DNA;
优选地,上述待测样品为新鲜采集的茜草科钩藤属植物的叶片,待测叶片先 经过预处理后才进行DNA的提取,所述预处理是将叶片浸泡于75%乙醇溶液中, 5min后取出放置于无菌环境中风干,然后再液氮冷却的条件下研磨至粉末,该 粉末即为待测样品。
S12.以7个待测物种样品的总DNA为模板,利用引物ITS5和ITS4进行 PCR扩增得到钩藤属植物的ITS区序列;上述引物ITS5和ITS4是针对钩藤属 植物而设计的专用引物,其中,引物ITS4的核苷酸序列如SEQ ID NO:1所示, ITS5的核苷酸序列如SEQ ID NO:2所示。
SEQ NO.1:tcctccgctt attgatatgc 20
SEQ NO.2:ggaagtaaaa gtcgtaacaa gg 22
优选地,PCR扩增反应体系总体积为20μL,该反应体系包含2.5mmol/L 10×PCRBuffer(含MgCl2)2μL,2.5mmol/L dNTP 1.6μL,10μmol/L引物ITS40.8 μL,10μmol/L引物ITS50.8μL,5U/μL HiFi DNA聚合酶0.1μL,加入DNA模 板50ng,其余体积用无菌水补足。
优选地,所述PCR扩增反应过程为:95℃预变性3min,94℃变性1min, 56℃退火1min,72℃延伸1min,30个循环,72℃延伸10min。
具体地,上述S1中,ITS区序列一部分来自于GenBank,物种是一般钩藤、 华钩藤、毛钩藤、白钩藤、大叶钩藤、北越钩藤、平滑钩藤、倒挂钩藤、攀茎钩 藤、云南钩藤。
进一步地,将实验获得的ITS区序列与从GenBank下载的ITS区序列合为 一个文件,所用比对软件采用MEGA(版本7.0)软件。
S2:利用机器学习提取鉴定钩藤属物种的核苷酸特征
将步骤1得到的数据集以Barcoding with logic作为机器学习进行100次-1000次迭代计算,得到鉴定钩藤属植物的核苷酸特征。
进一步地,以Barcoding with logic作为机器学习方法,是将S1得到的数据 集随机分成训练集和测试集,其中训练集占总集合的90%,测试集占总集合的 10%,进行1000次迭代计算。
S3:11个钩藤属植物的鉴定
鉴定11个钩藤属植物的特异核苷酸位点,具体标准是:
若第486位碱基为G,则鉴定为平滑钩藤U.laevigata;
若第497位碱基为T,则鉴定为华钩藤U.sinensis;
若第631为碱基为A,则鉴定为云南钩藤U.yunnanensis;
若第589位碱基为T,则鉴定为侯钩藤U.rhynchophylloides;
若第118位碱基为T,则鉴定为一般钩藤U.rhynchophylla;
若第608位碱基为T,则鉴定为北越钩藤U.homomllla;
若第468位碱基为C,则鉴定为毛钩藤U.hirsuta;
若第651位碱基为A,则鉴定为白钩藤U.sessilifructus;
若第574位碱基为C,则鉴定为大叶钩藤U.macrophylla;
若第485位碱基为C且第589位碱基为C,则鉴定为倒挂钩藤U.lancifolia;
若第482位碱基为T,则鉴定为攀茎钩藤U.scandens。
上述核苷酸位点为鉴定钩藤属物种的特异位点(species-specific positions)。第486位碱基G是平滑钩藤区别于另外10个物种的特异碱基,所有平滑钩藤在 该位点未发生变异;第497位碱基T是华钩藤区别于另外10个物种的特异碱基, 所有华钩藤在该位点未发生变异;第631位碱基A是云南钩藤区别于另外10个 物种的特异碱基,所有云南钩藤在该位点未发生种内变异;第589位碱基T是 侯钩藤区别于另外10个物种的特异碱基,所有侯钩藤在该位点未发生变异;第 118位碱基T是一般钩藤区别于另外10个物种的特异碱基,所有一般钩藤在该 位点未发生变异;第608位碱基T是北越钩藤区别于另外10个物种的特异碱基, 所有北越钩藤在该位点未发生变异;第468位碱基C是毛钩藤区别于另外10个 物种的特异碱基,所有毛钩藤在该位点未发生变异;第651位碱基A是白钩藤 区别于另外10个物种的特异碱基,所有白钩藤在该位点未发生变异;第574位 碱基C是大叶钩藤区别于另外10个物种的特异碱基,所有大叶钩藤在该位点未 发生变异;第482位碱基T是攀茎钩藤区别于另外10个物种的特异碱基,所有 攀茎钩藤在该位点未发生变异;第485位碱基C和第589位碱基C不是倒挂钩 藤区别于另外10个物种的特异碱基,但这两个位点结合可以鉴别倒挂钩藤,所 有倒挂钩藤在这两个位点未发生变异。
与现有技术相比,本发明有如下有益效果:
本发明首次将ITS序列与机器学习相结合的方法用于钩藤属植物的鉴定,得 到了鉴定11个钩藤属植物的核苷酸位点,这些核苷酸位点是鉴定11个钩藤属物 种的特异位点,可以实现仅由1-2个位点分别对11个钩藤属植物进行快速、准 确、特异性地鉴定。该方法无需进行人工筛选鉴定位点,就可以快速、准确、特 异性地从众多位点中筛选出鉴定11个钩藤属物种的特异位点,说明ITS序列与 机器学习结合的方法用于鉴定钩藤属植物的结果是可靠的。本发明弥补了基于形 态学等传统鉴定方法以及仅基于DNA条形码的分子鉴定的局限性,填补了将生 物学信息与机器学习结合鉴定钩藤属植物的空白,为物种鉴定、分类和物种检测 提供了重要的核苷酸信息,也为中药钩藤的规范用药、安全用药提供了必要保证。
具体实施方式
以下结合具体实施例来进一步说明本发明,但实施例并不对本发明做任何形 式的限定。除非特别说明,本发明采用的试剂、方法和设备为本技术领域常规试 剂、方法和设备。
除非特别说明,以下实施例所用试剂和材料均为市购。
实施例1 7个钩藤属植物ITS区序列的获得
1、样品DNA的提取
(1)待测样品:从不同地区采集多份钩藤属植物共39份样品,如表1所示。
表1 7个钩藤属物种样品采集地点
(2)按照下述方法分别对表1的钩藤属植物样品进行DNA的提取
1)将待测样品浸泡在75%乙醇中5min,取出,放置在无菌环境中自然风 干;
2)取2g待测样品,加液氮研磨至粉末状,置于10mL离心管中,然后加 入65℃预热的3×CTAB提取液5mL,混匀后65℃水浴2h,期间每隔15-20min 轻轻震荡摇匀;所述3×CTAB提取液配方为:4%CTAB,0.1mol/LTris-HCL, 1.4mol/LNaCl,2%PVPP,25mmol/L EDTA,高温高压灭菌;其中2%β-巯基 乙醇于灭菌、冷却后加入;体系中的“%”代表体积分数;
3)水浴结束后,12000rpm离心5min,取上清分装至1.5mL离心管,加 等体积Tris饱和酚-氯仿-异戊醇(25:24:1),混匀后12000rpm离心10min;
4)取上清液至新1.5mL离心管,加等体积氯仿-异戊醇(24:1),混匀后12000 rpm离心10min;
5)取上清液至新1.5mL离心管,加0.6倍体积异丙醇,再加3mol/L醋酸 钠至终浓度为0.3mol/L,-20℃沉淀1h,12000rpm离心10min;
6)弃上清液,用1mL预冷的70%乙醇洗涤沉淀,12000rpm离心5min;
7)弃上清液,重复洗涤2-3次;
8)洗涤完毕后,风干沉淀,加100μL无菌水或1×TE溶液进行溶解,置于 -20℃保存,得到待测样品的DNA。
2、ITS区序列片段的扩增
(1)引物ITS5和ITS4的序列如下所示
引物ITS5(如SEQ ID NO.1所示):5’GGAAGTAAAAGTCGTAACAAGG3’
引物ITS4(如SEQ ID NO.2所示):5’TCCTCCGCTTATTGAATAATGC3’
引物由生工生物工程(上海)股份有限公司合成。
(2)PCR反应体系:在20μL体系含有2.5mmol/L 10×PCR Buffer(含MgCl2) 2μL,2.5mmol/L dNTP 1.6μL,10μmol/L引物ITS40.8μL,10μmol/L引物ITS5 0.8μL,5U/μLHiFiDNA聚合酶0.1μL,加入DNA模板50ng,其余体积用无菌 水补足。
3、PCR产物纯化、链接及转化
PCR扩增产物采用DNA凝胶回收试剂盒(TaKaRa MiniBEST Agarose GelDNAExtraction Kit)进行割胶回收。钩藤ITS序列的PCR扩增产物从1%的琼脂 凝胶中割胶纯化。纯化产物连接到PMD18-T-Vecter(TaKaRa),连接产物转化到 Escherichia coliJM109感受态细胞,进行氨苄青霉素选择。
4、ITS区序列测定
挑取单克隆菌落送至睿博兴科生物技术有限公司进行测序,测序引物与上述 PCR引物一致。
5、ITS区序列分析
(1)选取我国常见的10种钩藤属药用植物,包括一般钩藤(Uncariarhynchophylla)、华钩藤(U.sinensis)、毛钩藤(U.hirsuta)、白钩藤(U.sessilifructus)、大叶钩藤(U.macrophylla)、北越钩藤(U.homomalla)、平滑钩 藤(U.laevigata)、倒挂钩藤(U.lancifolia)、攀茎钩藤(U.scandens)、云南钩 藤(U.yunnanensis)共10种,并在NCBI数据库上查询和下载其ITS区序列的 FASTA格式文件,共97条序列,见表2。
表2 从GenBank下载的钩藤属植物ITS序列
(2)根据测序结果可知,18条一般钩藤序列存在7个位点的差异,4条华 钩藤序列存在3个位点的差异,3条毛钩藤序列完全相同,5条白钩藤序列存在 5个位点的差异,5条大叶钩藤序列存在2个位点的差异,3条侯钩藤序列存在 一个位点的差异(经过研究验证显示,下述鉴别11个钩藤属植物的位点均不存 在种内差异)。实验获取的序列已上传至NCBI,GenBank登录号为MF033267-MF033305。
(3)将实验获得的ITS区序列和从GenBank下载的ITS区序列,一起导入 MEGA(版本7.0)软件进行比对,切除引物端后,去除中间存在高变的插入或 缺失的序列,得到用于机器学习的数据集。
(4)以Barcoding with logic作为机器学习方法,将数据集随机分成训练集 和测试集,其中训练集占总集合的90%,测试集占总集合的10%,进行1000次 迭代计算,获得鉴定钩藤属植物的特异核苷酸位点。
6、11个钩藤属植物的鉴定
根据机器学习结果可知,训练集和测试集对11个钩藤属物种的鉴定成功率 均为100%。鉴定11个钩藤属植物的特异核苷酸位点,具体标准是:
若第486位碱基为G,则鉴定为平滑钩藤U.laevigata;
若第497位碱基为T,则鉴定为华钩藤U.sinensis;
若第631为碱基为A,则鉴定为云南钩藤U.yunnanensis;
若第589位碱基为T,则鉴定为侯钩藤U.rhynchophylloides;
若第118位碱基为T,则鉴定为一般钩藤U.rhynchophylla;
若第608位碱基为T,则鉴定为北越钩藤U.homomllla;
若第468位碱基为C,则鉴定为毛钩藤U.hirsuta;
若第651位碱基为A,则鉴定为白钩藤U.sessilifructus;
若第574位碱基为C,则鉴定为大叶钩藤U.macrophylla;
若第485位碱基为C且第589位碱基为C,则鉴定为倒挂钩藤U.lancifolia;
若第482位碱基为T,则鉴定为攀茎钩藤U.scandens。
实施例2:白钩藤、大叶钩藤、北越钩藤、平滑钩藤的鉴定试验
1、基因组DNA的提取
从不同产地收集多份根据形态分别鉴定为白钩藤、大叶钩藤、北越钩藤、平 滑钩藤的样品,如表3所示:
表3 4个钩藤属物种样品采集地点
分别按照下述方法进行鉴定:
步骤1:
将待测样品浸泡在75%乙醇中5min,取出,放置在无菌环境中自然风干, 取2g待测样品,加液氮研磨至粉末状,置于10mL离心管中,然后加入65℃ 预热的3×CTAB提取液5mL,混匀后65℃水浴2h,期间每隔15-20min轻轻震 荡摇匀;所述3×CTAB提取液配方为:4%CTAB,0.1mol/LTris-HCL,1.4mol/L NaCl,2%PVPP,25mmol/L EDTA,高温高压灭菌;其中2%β-巯基乙醇于灭菌、 冷却后加入;体系中的“%”代表体积分数。
水浴结束后,12000rpm离心5min,取上清分装至1.5mL离心管,加等体 积Tris饱和酚-氯仿-异戊醇(25:24:1),混匀后12000rpm离心10min,取上清 液至新1.5mL离心管,加等体积氯仿-异戊醇(24:1),混匀后12000rpm离心 10min。
取上清液至新1.5mL离心管,加0.6倍体积异丙醇,再加3mol/L醋酸钠至 终浓度为0.3mol/L,-20℃沉淀1h,12000rpm离心10min,弃上清液,用1mL 预冷的70%乙醇洗涤沉淀,12000rpm离心5min,弃上清液,重复洗涤2-3次, 洗涤完毕后,风干沉淀,加100μL无菌水或1×TE溶液进行溶解,置于-20℃保 存,得到待测样品的DNA。
步骤2:
以步骤1提取的DNA为模板,用引物ITS4和ITS5进行PCR扩增。
PCR反应体系:在20μL体系含有2.5mmol/L 10×PCR Buffer(含MgCl2)2 μL,2.5mmol/L dNTP 1.6μL,10μmol/L引物ITS40.8μL,10μmol/L引物ITS5 0.8μL,5U/μLHiFiDNA聚合酶0.1μL,加入DNA模板50ng,其余体积用无菌 水补足。
PCR扩增反应过程:95℃预变性3min,94℃变性1min,56℃退火1min, 72℃延伸1min,30个循环,72℃延伸10min。
采用TaKaRa的PCR产物回收试剂盒纯化税收扩增产物并送交测序。
步骤3:
将步骤2获得的序列和从GenBank下载的序列一起导入MEGA(版本7.0) 软件进行比对,切除引物端后,去除中间存在高变的插入或缺失的序列。其中, 将步骤2得到作为测试集,将从GenBank下载的序列作为训练集,以Barcoding with logic作为机器学习方法,进行1000次迭代计算,获得鉴定钩藤属植物的特 异核苷酸位点。
根据机器学习结果可知,训练集的鉴定成功率为100%,从训练集中获取的 鉴别钩藤属植物的核苷酸规则如下:
若第486位碱基为G,则鉴定为平滑钩藤U.laevigata;
若第497位碱基为T,则鉴定为华钩藤U.sinensis;
若第631为碱基为A,则鉴定为云南钩藤U.yunnanensis;
若第589位碱基为T,则鉴定为侯钩藤U.rhynchophylloides;
若第118位碱基为T,则鉴定为一般钩藤U.rhynchophylla;
若第608位碱基为T,则鉴定为北越钩藤U.homomllla;
若第468位碱基为C,则鉴定为毛钩藤U.hirsuta;
若第651位碱基为A,则鉴定为白钩藤U.sessilifructus;
若第574位碱基为C,则鉴定为大叶钩藤U.macrophylla;
若第485位碱基为C且第589位碱基为C,则鉴定为倒挂钩藤U.lancifolia;
若第482位碱基为T,则鉴定为攀茎钩藤U.scandens。
根据机器学习结果可知,测试集的鉴定成功率为100%,说明训练集生成的 核苷酸规则适用于测试集,4个钩藤属待测物种得到了准确的鉴定。
本发明上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发 明的实施方式的限定。在不脱离本发明精神和范围的前提下本发明还会有各种变 化和改进,这些变化和改进都落入要求保护的范围内。
Claims (10)
1.一种基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,包括以下步骤:
S1.数据的获取和数据集的建立
获取钩藤属植物的ITS区序列,并进行比对,切除引物端后,去除中间存在高变的插入或缺失的序列,得到用于机器学习的数据集;
S2.利用机器学习提取鉴定钩藤属物种的核苷酸特征
将S1得到的数据集以Barcoding with logic作为机器学习进行100次-1000次迭代计算,得到鉴定钩藤属植物的核苷酸特征;
S3.11个钩藤属植物的鉴定
鉴定11个钩藤属植物的特异核苷酸位点,具体标准是:
若第486位碱基为G,则鉴定为平滑钩藤Uncaria.laevigata;
若第497位碱基为T,则鉴定为华钩藤U.sinensis;
若第631为碱基为A,则鉴定为云南钩藤U.yunnanensis;
若第589位碱基为T,则鉴定为侯钩藤U.rhynchophylloides;
若第118位碱基为T,则鉴定为一般钩藤U.rhynchophylla;
若第608位碱基为T,则鉴定为北越钩藤U.homomllla;
若第468位碱基为C,则鉴定为毛钩藤U.hirsuta;
若第651位碱基为A,则鉴定为白钩藤U.sessilifructus;
若第574位碱基为C,则鉴定为大叶钩藤U.macrophylla;
若第485位碱基为C且第589位碱基为C,则鉴定为倒挂钩藤U.lancifolia;
若第482位碱基为T,则鉴定为攀茎钩藤U.scandens。
2.根据权利要求1所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S1中,ITS区序列一部分来自于实验获取,物种是一般钩藤、华钩藤、毛钩藤、白钩藤、大叶钩藤、侯钩藤、北越钩藤,通过分子生物学实验及测序获得该7个钩藤属物种的ITS区序列,具体包括如下步骤:
S11.以改良的CTAB法,提取7个待测物种样品的总DNA;
S12.以7个待测物种样品的总DNA为模板,利用引物ITS5和ITS4进行PCR扩增;
S13.扩增产物纯化后连接到载体PMD18-T,连接产物转化到E.coli JM109感受态细胞,进行氨苄青霉素选择,对阳性菌落进行测序,测序引物与PCR扩增引物一致,得到ITS区序列。
3.根据权利要求1所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S1中,ITS区序列一部分来自于GenBank,物种是一般钩藤、华钩藤、毛钩藤、白钩藤、大叶钩藤、北越钩藤、平滑钩藤、倒挂钩藤、攀茎钩藤、云南钩藤。
4.根据权利要求3所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S1中,将实验获得的ITS区序列与从GenBank下载的ITS区序列合为一个文件,采用MEGA7.0作为比对软件。
5.根据权利要求2所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S11中,待测样品为新鲜采集的茜草科钩藤属植物的叶片,待测叶片先经过预处理后才进行DNA的提取,所述预处理是将叶片浸泡于75%乙醇溶液中,5min后取出放置于无菌环境中风干,然后再液氮冷却的条件下研磨至粉末,该粉末即为待测样品。
6.根据权利要求5所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S12中,所述引物ITS4的核苷酸序列如SEQ ID NO:1所示,ITS5的核苷酸序列如SEQ ID NO:2所示,
SEQ NO.1:tcctccgctt attgatatgc20
SEQ NO.2:ggaagtaaaa gtcgtaacaa gg22。
7.根据权利要求6所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S12中,PCR扩增反应体系总体积为20μL,该反应体系包含2.5mmol/L 10×PCRBuffer(含MgCl2)2μL,2.5mmol/L dNTP 1.6μL,10μmol/L引物ITS4 0.8μL,10μmol/L引物ITS5 0.8μL,5U/μL HiFi DNA聚合酶0.1μL,加入DNA模板50ng,其余体积用无菌水补足。
8.根据权利要求7所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S12中,PCR扩增反应过程为:95℃预变性3min,94℃变性1min,56℃退火1min,72℃延伸1min,30个循环,72℃延伸10min。
9.根据权利要求1所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S2中,以Barcoding with logic作为机器学习方法,将S1得到的数据集随机分成训练集和测试集,其中训练集占总集合的90%,测试集占总集合的10%,进行1000次迭代计算。
10.根据权利要求1所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S3中,鉴别钩藤属物种的核苷酸特征为鉴别钩藤属植物的物种特异位点(species-specific positions),各钩藤属植物在其特异位点未发生变异。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910719799.2A CN110564883A (zh) | 2019-08-06 | 2019-08-06 | 一种基于its序列和机器学习的钩藤属植物鉴定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910719799.2A CN110564883A (zh) | 2019-08-06 | 2019-08-06 | 一种基于its序列和机器学习的钩藤属植物鉴定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110564883A true CN110564883A (zh) | 2019-12-13 |
Family
ID=68774594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910719799.2A Pending CN110564883A (zh) | 2019-08-06 | 2019-08-06 | 一种基于its序列和机器学习的钩藤属植物鉴定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110564883A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111254211A (zh) * | 2020-02-28 | 2020-06-09 | 广东药科大学 | 一种基于its序列和机器学习的沉香属植物鉴定方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101772579A (zh) * | 2007-07-26 | 2010-07-07 | 株式会社津村 | 钩藤属植物的种的鉴别方法 |
-
2019
- 2019-08-06 CN CN201910719799.2A patent/CN110564883A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101772579A (zh) * | 2007-07-26 | 2010-07-07 | 株式会社津村 | 钩藤属植物的种的鉴别方法 |
US20100267029A1 (en) * | 2007-07-26 | 2010-10-21 | Tsumura & Co. | Method of identifying the plant species of the genus uncaria |
Non-Patent Citations (2)
Title |
---|
MENGYUE GUO等: "A Systematic Study on DNA Barcoding of Medicinally Important Genus Epimedium L. (Berberidaceae)", 《GENES》 * |
王业胜等: "一种钩藤属植物的rDNA ITS序列分析", 《中国当代医药》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111254211A (zh) * | 2020-02-28 | 2020-06-09 | 广东药科大学 | 一种基于its序列和机器学习的沉香属植物鉴定方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102605090A (zh) | 一种同时鉴别食品中四种肉类成分的多重pcr方法 | |
CN104911256B (zh) | 一种当归scar分子标记及其鉴定方法和特异性引物对 | |
CN105779628B (zh) | 用于鉴别霍山石斛的snp标记及其分子检测方法 | |
CN106939342B (zh) | 一种与谷子米色连锁的snp标记、引物及应用 | |
CN110564883A (zh) | 一种基于its序列和机器学习的钩藤属植物鉴定方法 | |
CN107164525B (zh) | 一种鉴别6种紫檀属木材的dna组合条形码及其鉴别方法和应用 | |
KR102298751B1 (ko) | 더덕 속 식물을 구별하기 위한 엽록체 게놈 서열 기반 분자마커 및 이의 용도 | |
KR102226016B1 (ko) | 감탕나무 유래 엽록체 식별용 마커 및 완도호랑가시나무 식별용 프라이머 세트 | |
CN106636412A (zh) | 一种采用its序列识别黄檀属和紫檀属木种的方法 | |
CN111254211A (zh) | 一种基于its序列和机器学习的沉香属植物鉴定方法 | |
CN109609679A (zh) | 鉴别灵芝菌株gims1524的特征性核苷酸序列、核酸分子探针、试剂盒和方法 | |
KR102283596B1 (ko) | 백수오와 이엽우피소 판별용 InDel 마커 및 이를 이용한 판별 방법 | |
CN108517373A (zh) | 一个用于区分五个辣椒栽培种的InDel标记引物对及其应用 | |
CN109929944B (zh) | 鉴别猕猴桃品种的dna条带及基于其的快速鉴定方法 | |
CN107419003A (zh) | 辽东栎的ssr分子标记引物和鉴定辽东栎品种的方法及其应用 | |
CN110129420B (zh) | 一种基于hrm技术的马尾松snp基因分型方法 | |
CN107446991A (zh) | 一套适用于鉴定啤酒花品种及纯度的snp位点及其应用 | |
Lee et al. | Single nucleotide polymorphism assay for genetic identification of lophophora williamsii | |
CN112680542A (zh) | 一种兰科植物通用型ssr分子标记引物组合物及其应用 | |
CN107868846B (zh) | 栎属的ssr分子标记引物和鉴定近缘栎属品种的方法及其应用 | |
KR102401157B1 (ko) | 오우옥 종 식별을 위한 조성물 및 이를 이용한 오우옥 종 식별방법 | |
He et al. | Construction of fingerprint of Michelia germplasm by fluorescent SSR markers | |
KR20160025124A (ko) | 유전자 검사를 통한 대륙사슴 감별 방법 | |
CN104164494A (zh) | 基于dna条形码的鉴别乌梢蛇的引物及pcr-rflp方法和试剂盒 | |
KR101828774B1 (ko) | 분자표지자를 이용한 소나무와 구주소나무의 식별 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191213 |