CN110564883A - 一种基于its序列和机器学习的钩藤属植物鉴定方法 - Google Patents

一种基于its序列和机器学习的钩藤属植物鉴定方法 Download PDF

Info

Publication number
CN110564883A
CN110564883A CN201910719799.2A CN201910719799A CN110564883A CN 110564883 A CN110564883 A CN 110564883A CN 201910719799 A CN201910719799 A CN 201910719799A CN 110564883 A CN110564883 A CN 110564883A
Authority
CN
China
Prior art keywords
uncaria
identifying
sequence
machine learning
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910719799.2A
Other languages
English (en)
Inventor
朱爽
冯婷婷
邓锦思
丘思敏
林月霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Pharmaceutical University
Original Assignee
Guangdong Pharmaceutical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Pharmaceutical University filed Critical Guangdong Pharmaceutical University
Priority to CN201910719799.2A priority Critical patent/CN110564883A/zh
Publication of CN110564883A publication Critical patent/CN110564883A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/6895Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Botany (AREA)
  • Mycology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于ITS序列和机器学习鉴定钩藤属植物的方法,包括以下步骤:(1)收集钩藤属植物的ITS序列;(2)利用机器学习提取鉴别钩藤属植物的特异核苷酸位点;(3)对钩藤属植物进行鉴别。将ITS序列和机器学习结合用于钩藤属植物鉴定的方法,能够实现快速、高准确性、高特异性地鉴定11个钩藤属物种。该方法减少了从众多变异位点中手动筛选核苷酸位点来鉴定物种的时间,提高了鉴定效率;同时,该方法提取的核苷酸位点是物种的特异核苷酸位点,避免了将非特异位点作为鉴定钩藤属物种的依据而造成鉴定失败的情况,保证了鉴定钩藤属物种的特异性,并提高了钩藤属物种的鉴定成功率。

Description

一种基于ITS序列和机器学习的钩藤属植物鉴定方法
技术领域
本发明涉及一种钩藤属植物鉴定方法,更具体地,涉及一种基于ITS序列和 机器学习鉴定钩藤属植物的方法。
背景技术
钩藤为茜草科钩藤属植物,主要分布在广西、贵州、云南等西南地区。《中 国药典》2015年版规定钩藤为茜草科植物一般钩藤Uncaria rhynchophulla(Miq) Jack.、大叶钩藤U.macrophylla Wall.、华钩藤U.sinensis(Oliv)Havil.、U.hirsute Havil.和无柄果钩藤U.sessilifructus Roxb.五种药材。钩藤是中医常用药,药用历 史悠久,具有息风定惊,清热平肝的功效。
钩藤因具有较高的药用价值和应用前景而受到广泛关注,对钩藤植物化学成 分的分析报道层出不穷,但对其鉴定方面的研究较少。目前,中药钩藤的分类鉴 定主要依据形态学、组织学和化学成分分析等方法。但钩藤各品种间外形相似, 而不同种钩藤的药效成分具有明显差别,加之某些地区的品种面临濒危,导致市 场上销售的钩藤种类较为混乱,出现互混、互代、以次充好等现象,影响用药的 安全性和有效性。单靠药材性状、化学组分分析不能全面、科学地鉴定与评估钩 藤药材的质量。因此,需要一种能够对钩藤属植物进行更精确、更快速的鉴定方 法。
已有利用ITS区序列对侯钩藤进行鉴定的报道,报道中确定了7个变异位点 作为鉴定侯钩藤的位点,但其必须满足至少两个位点的条件才能鉴定为侯钩藤, 但当某个物种某个位点发生突变,无法满足多个位点同时存在的条件,就可能导 致鉴定失败;另有利用ITS区序列鉴定11个钩藤属物种(一般钩藤、华钩藤、 大叶钩藤、鹰爪风、攀茎钩藤、北越钩藤、毛钩藤、倒挂钩藤、白钩藤、平滑钩 藤、云南钩藤)的报道,报道中使用RELP(Restriction Fragment Length Polymorphism)法确定并比较了45个位点作为鉴定10个钩藤属植物(鹰爪风除 外)的位点,分别列举了2-7个单一位点来鉴定10个钩藤属物种,鉴定具体的 物种仅需满足2-7个位点中的其中一个位点,但该报道所找的用于鉴别钩藤属物种的位点并不都是特异位点,可能导致鉴定失败。以上两个报道的共同点为:鉴 定位点需人工从众多位点中逐个筛选,费时费力,且可能面临鉴定失败的情况, 无法满足快速、准确、特异性鉴定钩藤属植物的要求。
机器学习是近20多年兴起的一门多领域交叉学科,为了充分且有效地利用 生物学数据,生物学与机器学习的交叉研究日益活跃。目前,国内外尚未有将ITS 序列和机器学习相结合用于钩藤属植物鉴定的报道。
发明内容
为了克服已有技术的不足,本发明的目的在于提供一种结合ITS序列与机器 学习的方法来准确、快速、特异地鉴定钩藤属物种。
本发明上述目的通过以下技术方案实现:
一种基于ITS序列和机器学习的钩藤属植物鉴定方法,包括如下步骤:
S1:数据的获取和数据集的建立
获取钩藤属植物的ITS区序列,并进行比对,切除引物端后,去除中间存在 高变的插入或缺失的序列,得到用于机器学习的数据集。
具体地,上述S1中,ITS区序列一部分来自于实验获取,物种是一般钩藤、 华钩藤、毛钩藤、白钩藤、大叶钩藤、侯钩藤、北越钩藤,通过分子生物学实验 及测序获得该7个钩藤属物种的ITS区序列,具体包括如下步骤:
S11.以改良的CTAB法,提取7个待测物种样品的总DNA;
优选地,上述待测样品为新鲜采集的茜草科钩藤属植物的叶片,待测叶片先 经过预处理后才进行DNA的提取,所述预处理是将叶片浸泡于75%乙醇溶液中, 5min后取出放置于无菌环境中风干,然后再液氮冷却的条件下研磨至粉末,该 粉末即为待测样品。
S12.以7个待测物种样品的总DNA为模板,利用引物ITS5和ITS4进行 PCR扩增得到钩藤属植物的ITS区序列;上述引物ITS5和ITS4是针对钩藤属 植物而设计的专用引物,其中,引物ITS4的核苷酸序列如SEQ ID NO:1所示, ITS5的核苷酸序列如SEQ ID NO:2所示。
SEQ NO.1:tcctccgctt attgatatgc 20
SEQ NO.2:ggaagtaaaa gtcgtaacaa gg 22
优选地,PCR扩增反应体系总体积为20μL,该反应体系包含2.5mmol/L 10×PCRBuffer(含MgCl2)2μL,2.5mmol/L dNTP 1.6μL,10μmol/L引物ITS40.8 μL,10μmol/L引物ITS50.8μL,5U/μL HiFi DNA聚合酶0.1μL,加入DNA模 板50ng,其余体积用无菌水补足。
优选地,所述PCR扩增反应过程为:95℃预变性3min,94℃变性1min, 56℃退火1min,72℃延伸1min,30个循环,72℃延伸10min。
具体地,上述S1中,ITS区序列一部分来自于GenBank,物种是一般钩藤、 华钩藤、毛钩藤、白钩藤、大叶钩藤、北越钩藤、平滑钩藤、倒挂钩藤、攀茎钩 藤、云南钩藤。
进一步地,将实验获得的ITS区序列与从GenBank下载的ITS区序列合为 一个文件,所用比对软件采用MEGA(版本7.0)软件。
S2:利用机器学习提取鉴定钩藤属物种的核苷酸特征
将步骤1得到的数据集以Barcoding with logic作为机器学习进行100次-1000次迭代计算,得到鉴定钩藤属植物的核苷酸特征。
进一步地,以Barcoding with logic作为机器学习方法,是将S1得到的数据 集随机分成训练集和测试集,其中训练集占总集合的90%,测试集占总集合的 10%,进行1000次迭代计算。
S3:11个钩藤属植物的鉴定
鉴定11个钩藤属植物的特异核苷酸位点,具体标准是:
若第486位碱基为G,则鉴定为平滑钩藤U.laevigata;
若第497位碱基为T,则鉴定为华钩藤U.sinensis;
若第631为碱基为A,则鉴定为云南钩藤U.yunnanensis;
若第589位碱基为T,则鉴定为侯钩藤U.rhynchophylloides;
若第118位碱基为T,则鉴定为一般钩藤U.rhynchophylla;
若第608位碱基为T,则鉴定为北越钩藤U.homomllla;
若第468位碱基为C,则鉴定为毛钩藤U.hirsuta;
若第651位碱基为A,则鉴定为白钩藤U.sessilifructus;
若第574位碱基为C,则鉴定为大叶钩藤U.macrophylla;
若第485位碱基为C且第589位碱基为C,则鉴定为倒挂钩藤U.lancifolia;
若第482位碱基为T,则鉴定为攀茎钩藤U.scandens。
上述核苷酸位点为鉴定钩藤属物种的特异位点(species-specific positions)。第486位碱基G是平滑钩藤区别于另外10个物种的特异碱基,所有平滑钩藤在 该位点未发生变异;第497位碱基T是华钩藤区别于另外10个物种的特异碱基, 所有华钩藤在该位点未发生变异;第631位碱基A是云南钩藤区别于另外10个 物种的特异碱基,所有云南钩藤在该位点未发生种内变异;第589位碱基T是 侯钩藤区别于另外10个物种的特异碱基,所有侯钩藤在该位点未发生变异;第 118位碱基T是一般钩藤区别于另外10个物种的特异碱基,所有一般钩藤在该 位点未发生变异;第608位碱基T是北越钩藤区别于另外10个物种的特异碱基, 所有北越钩藤在该位点未发生变异;第468位碱基C是毛钩藤区别于另外10个 物种的特异碱基,所有毛钩藤在该位点未发生变异;第651位碱基A是白钩藤 区别于另外10个物种的特异碱基,所有白钩藤在该位点未发生变异;第574位 碱基C是大叶钩藤区别于另外10个物种的特异碱基,所有大叶钩藤在该位点未 发生变异;第482位碱基T是攀茎钩藤区别于另外10个物种的特异碱基,所有 攀茎钩藤在该位点未发生变异;第485位碱基C和第589位碱基C不是倒挂钩 藤区别于另外10个物种的特异碱基,但这两个位点结合可以鉴别倒挂钩藤,所 有倒挂钩藤在这两个位点未发生变异。
与现有技术相比,本发明有如下有益效果:
本发明首次将ITS序列与机器学习相结合的方法用于钩藤属植物的鉴定,得 到了鉴定11个钩藤属植物的核苷酸位点,这些核苷酸位点是鉴定11个钩藤属物 种的特异位点,可以实现仅由1-2个位点分别对11个钩藤属植物进行快速、准 确、特异性地鉴定。该方法无需进行人工筛选鉴定位点,就可以快速、准确、特 异性地从众多位点中筛选出鉴定11个钩藤属物种的特异位点,说明ITS序列与 机器学习结合的方法用于鉴定钩藤属植物的结果是可靠的。本发明弥补了基于形 态学等传统鉴定方法以及仅基于DNA条形码的分子鉴定的局限性,填补了将生 物学信息与机器学习结合鉴定钩藤属植物的空白,为物种鉴定、分类和物种检测 提供了重要的核苷酸信息,也为中药钩藤的规范用药、安全用药提供了必要保证。
具体实施方式
以下结合具体实施例来进一步说明本发明,但实施例并不对本发明做任何形 式的限定。除非特别说明,本发明采用的试剂、方法和设备为本技术领域常规试 剂、方法和设备。
除非特别说明,以下实施例所用试剂和材料均为市购。
实施例1 7个钩藤属植物ITS区序列的获得
1、样品DNA的提取
(1)待测样品:从不同地区采集多份钩藤属植物共39份样品,如表1所示。
表1 7个钩藤属物种样品采集地点
(2)按照下述方法分别对表1的钩藤属植物样品进行DNA的提取
1)将待测样品浸泡在75%乙醇中5min,取出,放置在无菌环境中自然风 干;
2)取2g待测样品,加液氮研磨至粉末状,置于10mL离心管中,然后加 入65℃预热的3×CTAB提取液5mL,混匀后65℃水浴2h,期间每隔15-20min 轻轻震荡摇匀;所述3×CTAB提取液配方为:4%CTAB,0.1mol/LTris-HCL, 1.4mol/LNaCl,2%PVPP,25mmol/L EDTA,高温高压灭菌;其中2%β-巯基 乙醇于灭菌、冷却后加入;体系中的“%”代表体积分数;
3)水浴结束后,12000rpm离心5min,取上清分装至1.5mL离心管,加 等体积Tris饱和酚-氯仿-异戊醇(25:24:1),混匀后12000rpm离心10min;
4)取上清液至新1.5mL离心管,加等体积氯仿-异戊醇(24:1),混匀后12000 rpm离心10min;
5)取上清液至新1.5mL离心管,加0.6倍体积异丙醇,再加3mol/L醋酸 钠至终浓度为0.3mol/L,-20℃沉淀1h,12000rpm离心10min;
6)弃上清液,用1mL预冷的70%乙醇洗涤沉淀,12000rpm离心5min;
7)弃上清液,重复洗涤2-3次;
8)洗涤完毕后,风干沉淀,加100μL无菌水或1×TE溶液进行溶解,置于 -20℃保存,得到待测样品的DNA。
2、ITS区序列片段的扩增
(1)引物ITS5和ITS4的序列如下所示
引物ITS5(如SEQ ID NO.1所示):5’GGAAGTAAAAGTCGTAACAAGG3’
引物ITS4(如SEQ ID NO.2所示):5’TCCTCCGCTTATTGAATAATGC3’
引物由生工生物工程(上海)股份有限公司合成。
(2)PCR反应体系:在20μL体系含有2.5mmol/L 10×PCR Buffer(含MgCl2) 2μL,2.5mmol/L dNTP 1.6μL,10μmol/L引物ITS40.8μL,10μmol/L引物ITS5 0.8μL,5U/μLHiFiDNA聚合酶0.1μL,加入DNA模板50ng,其余体积用无菌 水补足。
3、PCR产物纯化、链接及转化
PCR扩增产物采用DNA凝胶回收试剂盒(TaKaRa MiniBEST Agarose GelDNAExtraction Kit)进行割胶回收。钩藤ITS序列的PCR扩增产物从1%的琼脂 凝胶中割胶纯化。纯化产物连接到PMD18-T-Vecter(TaKaRa),连接产物转化到 Escherichia coliJM109感受态细胞,进行氨苄青霉素选择。
4、ITS区序列测定
挑取单克隆菌落送至睿博兴科生物技术有限公司进行测序,测序引物与上述 PCR引物一致。
5、ITS区序列分析
(1)选取我国常见的10种钩藤属药用植物,包括一般钩藤(Uncariarhynchophylla)、华钩藤(U.sinensis)、毛钩藤(U.hirsuta)、白钩藤(U.sessilifructus)、大叶钩藤(U.macrophylla)、北越钩藤(U.homomalla)、平滑钩 藤(U.laevigata)、倒挂钩藤(U.lancifolia)、攀茎钩藤(U.scandens)、云南钩 藤(U.yunnanensis)共10种,并在NCBI数据库上查询和下载其ITS区序列的 FASTA格式文件,共97条序列,见表2。
表2 从GenBank下载的钩藤属植物ITS序列
(2)根据测序结果可知,18条一般钩藤序列存在7个位点的差异,4条华 钩藤序列存在3个位点的差异,3条毛钩藤序列完全相同,5条白钩藤序列存在 5个位点的差异,5条大叶钩藤序列存在2个位点的差异,3条侯钩藤序列存在 一个位点的差异(经过研究验证显示,下述鉴别11个钩藤属植物的位点均不存 在种内差异)。实验获取的序列已上传至NCBI,GenBank登录号为MF033267-MF033305。
(3)将实验获得的ITS区序列和从GenBank下载的ITS区序列,一起导入 MEGA(版本7.0)软件进行比对,切除引物端后,去除中间存在高变的插入或 缺失的序列,得到用于机器学习的数据集。
(4)以Barcoding with logic作为机器学习方法,将数据集随机分成训练集 和测试集,其中训练集占总集合的90%,测试集占总集合的10%,进行1000次 迭代计算,获得鉴定钩藤属植物的特异核苷酸位点。
6、11个钩藤属植物的鉴定
根据机器学习结果可知,训练集和测试集对11个钩藤属物种的鉴定成功率 均为100%。鉴定11个钩藤属植物的特异核苷酸位点,具体标准是:
若第486位碱基为G,则鉴定为平滑钩藤U.laevigata;
若第497位碱基为T,则鉴定为华钩藤U.sinensis;
若第631为碱基为A,则鉴定为云南钩藤U.yunnanensis;
若第589位碱基为T,则鉴定为侯钩藤U.rhynchophylloides;
若第118位碱基为T,则鉴定为一般钩藤U.rhynchophylla;
若第608位碱基为T,则鉴定为北越钩藤U.homomllla;
若第468位碱基为C,则鉴定为毛钩藤U.hirsuta;
若第651位碱基为A,则鉴定为白钩藤U.sessilifructus;
若第574位碱基为C,则鉴定为大叶钩藤U.macrophylla;
若第485位碱基为C且第589位碱基为C,则鉴定为倒挂钩藤U.lancifolia;
若第482位碱基为T,则鉴定为攀茎钩藤U.scandens。
实施例2:白钩藤、大叶钩藤、北越钩藤、平滑钩藤的鉴定试验
1、基因组DNA的提取
从不同产地收集多份根据形态分别鉴定为白钩藤、大叶钩藤、北越钩藤、平 滑钩藤的样品,如表3所示:
表3 4个钩藤属物种样品采集地点
分别按照下述方法进行鉴定:
步骤1:
将待测样品浸泡在75%乙醇中5min,取出,放置在无菌环境中自然风干, 取2g待测样品,加液氮研磨至粉末状,置于10mL离心管中,然后加入65℃ 预热的3×CTAB提取液5mL,混匀后65℃水浴2h,期间每隔15-20min轻轻震 荡摇匀;所述3×CTAB提取液配方为:4%CTAB,0.1mol/LTris-HCL,1.4mol/L NaCl,2%PVPP,25mmol/L EDTA,高温高压灭菌;其中2%β-巯基乙醇于灭菌、 冷却后加入;体系中的“%”代表体积分数。
水浴结束后,12000rpm离心5min,取上清分装至1.5mL离心管,加等体 积Tris饱和酚-氯仿-异戊醇(25:24:1),混匀后12000rpm离心10min,取上清 液至新1.5mL离心管,加等体积氯仿-异戊醇(24:1),混匀后12000rpm离心 10min。
取上清液至新1.5mL离心管,加0.6倍体积异丙醇,再加3mol/L醋酸钠至 终浓度为0.3mol/L,-20℃沉淀1h,12000rpm离心10min,弃上清液,用1mL 预冷的70%乙醇洗涤沉淀,12000rpm离心5min,弃上清液,重复洗涤2-3次, 洗涤完毕后,风干沉淀,加100μL无菌水或1×TE溶液进行溶解,置于-20℃保 存,得到待测样品的DNA。
步骤2:
以步骤1提取的DNA为模板,用引物ITS4和ITS5进行PCR扩增。
PCR反应体系:在20μL体系含有2.5mmol/L 10×PCR Buffer(含MgCl2)2 μL,2.5mmol/L dNTP 1.6μL,10μmol/L引物ITS40.8μL,10μmol/L引物ITS5 0.8μL,5U/μLHiFiDNA聚合酶0.1μL,加入DNA模板50ng,其余体积用无菌 水补足。
PCR扩增反应过程:95℃预变性3min,94℃变性1min,56℃退火1min, 72℃延伸1min,30个循环,72℃延伸10min。
采用TaKaRa的PCR产物回收试剂盒纯化税收扩增产物并送交测序。
步骤3:
将步骤2获得的序列和从GenBank下载的序列一起导入MEGA(版本7.0) 软件进行比对,切除引物端后,去除中间存在高变的插入或缺失的序列。其中, 将步骤2得到作为测试集,将从GenBank下载的序列作为训练集,以Barcoding with logic作为机器学习方法,进行1000次迭代计算,获得鉴定钩藤属植物的特 异核苷酸位点。
根据机器学习结果可知,训练集的鉴定成功率为100%,从训练集中获取的 鉴别钩藤属植物的核苷酸规则如下:
若第486位碱基为G,则鉴定为平滑钩藤U.laevigata;
若第497位碱基为T,则鉴定为华钩藤U.sinensis;
若第631为碱基为A,则鉴定为云南钩藤U.yunnanensis;
若第589位碱基为T,则鉴定为侯钩藤U.rhynchophylloides;
若第118位碱基为T,则鉴定为一般钩藤U.rhynchophylla;
若第608位碱基为T,则鉴定为北越钩藤U.homomllla;
若第468位碱基为C,则鉴定为毛钩藤U.hirsuta;
若第651位碱基为A,则鉴定为白钩藤U.sessilifructus;
若第574位碱基为C,则鉴定为大叶钩藤U.macrophylla;
若第485位碱基为C且第589位碱基为C,则鉴定为倒挂钩藤U.lancifolia;
若第482位碱基为T,则鉴定为攀茎钩藤U.scandens。
根据机器学习结果可知,测试集的鉴定成功率为100%,说明训练集生成的 核苷酸规则适用于测试集,4个钩藤属待测物种得到了准确的鉴定。
本发明上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发 明的实施方式的限定。在不脱离本发明精神和范围的前提下本发明还会有各种变 化和改进,这些变化和改进都落入要求保护的范围内。

Claims (10)

1.一种基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,包括以下步骤:
S1.数据的获取和数据集的建立
获取钩藤属植物的ITS区序列,并进行比对,切除引物端后,去除中间存在高变的插入或缺失的序列,得到用于机器学习的数据集;
S2.利用机器学习提取鉴定钩藤属物种的核苷酸特征
将S1得到的数据集以Barcoding with logic作为机器学习进行100次-1000次迭代计算,得到鉴定钩藤属植物的核苷酸特征;
S3.11个钩藤属植物的鉴定
鉴定11个钩藤属植物的特异核苷酸位点,具体标准是:
若第486位碱基为G,则鉴定为平滑钩藤Uncaria.laevigata;
若第497位碱基为T,则鉴定为华钩藤U.sinensis;
若第631为碱基为A,则鉴定为云南钩藤U.yunnanensis;
若第589位碱基为T,则鉴定为侯钩藤U.rhynchophylloides;
若第118位碱基为T,则鉴定为一般钩藤U.rhynchophylla;
若第608位碱基为T,则鉴定为北越钩藤U.homomllla;
若第468位碱基为C,则鉴定为毛钩藤U.hirsuta;
若第651位碱基为A,则鉴定为白钩藤U.sessilifructus;
若第574位碱基为C,则鉴定为大叶钩藤U.macrophylla;
若第485位碱基为C且第589位碱基为C,则鉴定为倒挂钩藤U.lancifolia;
若第482位碱基为T,则鉴定为攀茎钩藤U.scandens。
2.根据权利要求1所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S1中,ITS区序列一部分来自于实验获取,物种是一般钩藤、华钩藤、毛钩藤、白钩藤、大叶钩藤、侯钩藤、北越钩藤,通过分子生物学实验及测序获得该7个钩藤属物种的ITS区序列,具体包括如下步骤:
S11.以改良的CTAB法,提取7个待测物种样品的总DNA;
S12.以7个待测物种样品的总DNA为模板,利用引物ITS5和ITS4进行PCR扩增;
S13.扩增产物纯化后连接到载体PMD18-T,连接产物转化到E.coli JM109感受态细胞,进行氨苄青霉素选择,对阳性菌落进行测序,测序引物与PCR扩增引物一致,得到ITS区序列。
3.根据权利要求1所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S1中,ITS区序列一部分来自于GenBank,物种是一般钩藤、华钩藤、毛钩藤、白钩藤、大叶钩藤、北越钩藤、平滑钩藤、倒挂钩藤、攀茎钩藤、云南钩藤。
4.根据权利要求3所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S1中,将实验获得的ITS区序列与从GenBank下载的ITS区序列合为一个文件,采用MEGA7.0作为比对软件。
5.根据权利要求2所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S11中,待测样品为新鲜采集的茜草科钩藤属植物的叶片,待测叶片先经过预处理后才进行DNA的提取,所述预处理是将叶片浸泡于75%乙醇溶液中,5min后取出放置于无菌环境中风干,然后再液氮冷却的条件下研磨至粉末,该粉末即为待测样品。
6.根据权利要求5所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S12中,所述引物ITS4的核苷酸序列如SEQ ID NO:1所示,ITS5的核苷酸序列如SEQ ID NO:2所示,
SEQ NO.1:tcctccgctt attgatatgc20
SEQ NO.2:ggaagtaaaa gtcgtaacaa gg22。
7.根据权利要求6所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S12中,PCR扩增反应体系总体积为20μL,该反应体系包含2.5mmol/L 10×PCRBuffer(含MgCl2)2μL,2.5mmol/L dNTP 1.6μL,10μmol/L引物ITS4 0.8μL,10μmol/L引物ITS5 0.8μL,5U/μL HiFi DNA聚合酶0.1μL,加入DNA模板50ng,其余体积用无菌水补足。
8.根据权利要求7所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S12中,PCR扩增反应过程为:95℃预变性3min,94℃变性1min,56℃退火1min,72℃延伸1min,30个循环,72℃延伸10min。
9.根据权利要求1所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S2中,以Barcoding with logic作为机器学习方法,将S1得到的数据集随机分成训练集和测试集,其中训练集占总集合的90%,测试集占总集合的10%,进行1000次迭代计算。
10.根据权利要求1所述的基于ITS序列和机器学习的钩藤属植物鉴定方法,其特征在于,在步骤S3中,鉴别钩藤属物种的核苷酸特征为鉴别钩藤属植物的物种特异位点(species-specific positions),各钩藤属植物在其特异位点未发生变异。
CN201910719799.2A 2019-08-06 2019-08-06 一种基于its序列和机器学习的钩藤属植物鉴定方法 Pending CN110564883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910719799.2A CN110564883A (zh) 2019-08-06 2019-08-06 一种基于its序列和机器学习的钩藤属植物鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910719799.2A CN110564883A (zh) 2019-08-06 2019-08-06 一种基于its序列和机器学习的钩藤属植物鉴定方法

Publications (1)

Publication Number Publication Date
CN110564883A true CN110564883A (zh) 2019-12-13

Family

ID=68774594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910719799.2A Pending CN110564883A (zh) 2019-08-06 2019-08-06 一种基于its序列和机器学习的钩藤属植物鉴定方法

Country Status (1)

Country Link
CN (1) CN110564883A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111254211A (zh) * 2020-02-28 2020-06-09 广东药科大学 一种基于its序列和机器学习的沉香属植物鉴定方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101772579A (zh) * 2007-07-26 2010-07-07 株式会社津村 钩藤属植物的种的鉴别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101772579A (zh) * 2007-07-26 2010-07-07 株式会社津村 钩藤属植物的种的鉴别方法
US20100267029A1 (en) * 2007-07-26 2010-10-21 Tsumura & Co. Method of identifying the plant species of the genus uncaria

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENGYUE GUO等: "A Systematic Study on DNA Barcoding of Medicinally Important Genus Epimedium L. (Berberidaceae)", 《GENES》 *
王业胜等: "一种钩藤属植物的rDNA ITS序列分析", 《中国当代医药》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111254211A (zh) * 2020-02-28 2020-06-09 广东药科大学 一种基于its序列和机器学习的沉香属植物鉴定方法

Similar Documents

Publication Publication Date Title
CN102605090A (zh) 一种同时鉴别食品中四种肉类成分的多重pcr方法
CN104911256B (zh) 一种当归scar分子标记及其鉴定方法和特异性引物对
CN105779628B (zh) 用于鉴别霍山石斛的snp标记及其分子检测方法
CN106939342B (zh) 一种与谷子米色连锁的snp标记、引物及应用
CN110564883A (zh) 一种基于its序列和机器学习的钩藤属植物鉴定方法
CN107164525B (zh) 一种鉴别6种紫檀属木材的dna组合条形码及其鉴别方法和应用
KR102298751B1 (ko) 더덕 속 식물을 구별하기 위한 엽록체 게놈 서열 기반 분자마커 및 이의 용도
KR102226016B1 (ko) 감탕나무 유래 엽록체 식별용 마커 및 완도호랑가시나무 식별용 프라이머 세트
CN106636412A (zh) 一种采用its序列识别黄檀属和紫檀属木种的方法
CN111254211A (zh) 一种基于its序列和机器学习的沉香属植物鉴定方法
CN109609679A (zh) 鉴别灵芝菌株gims1524的特征性核苷酸序列、核酸分子探针、试剂盒和方法
KR102283596B1 (ko) 백수오와 이엽우피소 판별용 InDel 마커 및 이를 이용한 판별 방법
CN108517373A (zh) 一个用于区分五个辣椒栽培种的InDel标记引物对及其应用
CN109929944B (zh) 鉴别猕猴桃品种的dna条带及基于其的快速鉴定方法
CN107419003A (zh) 辽东栎的ssr分子标记引物和鉴定辽东栎品种的方法及其应用
CN110129420B (zh) 一种基于hrm技术的马尾松snp基因分型方法
CN107446991A (zh) 一套适用于鉴定啤酒花品种及纯度的snp位点及其应用
Lee et al. Single nucleotide polymorphism assay for genetic identification of lophophora williamsii
CN112680542A (zh) 一种兰科植物通用型ssr分子标记引物组合物及其应用
CN107868846B (zh) 栎属的ssr分子标记引物和鉴定近缘栎属品种的方法及其应用
KR102401157B1 (ko) 오우옥 종 식별을 위한 조성물 및 이를 이용한 오우옥 종 식별방법
He et al. Construction of fingerprint of Michelia germplasm by fluorescent SSR markers
KR20160025124A (ko) 유전자 검사를 통한 대륙사슴 감별 방법
CN104164494A (zh) 基于dna条形码的鉴别乌梢蛇的引物及pcr-rflp方法和试剂盒
KR101828774B1 (ko) 분자표지자를 이용한 소나무와 구주소나무의 식별 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191213