CN110400604B - 芸香科多物种密码子使用模式分析方法和系统 - Google Patents

芸香科多物种密码子使用模式分析方法和系统 Download PDF

Info

Publication number
CN110400604B
CN110400604B CN201910580198.8A CN201910580198A CN110400604B CN 110400604 B CN110400604 B CN 110400604B CN 201910580198 A CN201910580198 A CN 201910580198A CN 110400604 B CN110400604 B CN 110400604B
Authority
CN
China
Prior art keywords
codon
species
sequence
value
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910580198.8A
Other languages
English (en)
Other versions
CN110400604A (zh
Inventor
万晓华
申泽南
张法
张金智
甘志猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201910580198.8A priority Critical patent/CN110400604B/zh
Publication of CN110400604A publication Critical patent/CN110400604A/zh
Application granted granted Critical
Publication of CN110400604B publication Critical patent/CN110400604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种芸香科多物种的密码子使用模式分析方法,包括:通过芸香科的多个物种的基因数据,获取每个该物种的密码子序列;提取该密码子序列的第一特征值,以该第一特征值的关系验证该多个物种的进化关系;提取该密码子序列的第二特征值,以该第二特征值绘制特征关系图,以验证该多个物种的进化保守性程度;提取该密码子序列中的高频密码子/密码子对,以该高频密码子/密码子对的关系验证该多个物种的进化保守性相关度;将该密码子序列的密码子RSCU值与植物物种的密码子RSCU值进行聚类,以聚类结果验证该多个物种的所属纲目;获取该密码子序列GC3含量之间的欧式距离,以验证该多个物种的亲缘关系。

Description

芸香科多物种密码子使用模式分析方法和系统
技术领域
本发明属于生物基因数据分析系统领域,具体涉及一种芸香科物种密码子使用模式分析方法和系统。
背景技术
随着基因测序技术越来越成熟,越来越多的行业通过分析基因数据来进行诊断,识别,预测等工作。密码子是由mRNA上相邻的三个碱基组成,决定了合成蛋白质的氨基酸种类和排列次序。因此,自从Paul M.Sharp和Wen-Hsiung Li开始对单细胞密码使用模式分析之后,越来越多的动植物以及微生物的密码子使用偏好性被揭露,为物种的重要性状研究和分子进化研究等提供基础理论数据。但是,现有的分析模式大多是针对单个物种的分析,关于进化遗传方向的分析也仅仅是停留在较宏观的层次,对于同一属内不同物种的遗传进化分析仍处于空白。我国是柑橘的重要产地之一,经过4000多年的栽培,柑橘已经分化出现了橘、柑、橙、金柑,柚、枳等多个物种。综上,设计一种同属内不同物种的密码子使用模式分析流程是一个十分关键的问题。
关于动植物以及微生物的密码子数据分析已经得到了广泛的研究,如梧桐叶绿体密码子使用偏好性分析、昆虫基因组密码子使用及进化分析以及单细胞生物同义密码子的进化分析等。这些研究的分析的基本单位均是单个物种。同时,现有的多物种密码子使用模式的分析还未涉及到同属内物种的层次。由于同属内多物种亲缘关系较近,依据现有的一些分析方法所分析出的数据在数值上的差异并不大,无法通过密码子的分析结果来验证物种之间已有的遗传关系的结论。
针对多物种密码子使用模式的遗传相关性分析,已有一些研究提出分析思路,在早期的单物种分析方法中,有人提出了计算出所分析物种以及植物界其他纲中有代表性的几类物种的相对同义密码子使用度(RSCU)的值,然后将其聚类分析,从而判断亲缘关系以及相似性的方法。然而,这些方法仅适用于跨度较大范围的物种之间的比较分析,对于同一属内的物种来说,因为其亲缘关系较近,因此在使用密码子RSCU值聚类时几乎观察不到大的差异,这虽然可以作为遗传进化史上基因变异较少的佐证,但实际上其中不同的部分更加具有研究价值。
为了解决问题,另一种通过判断密码子GC3(三连密码子第三位GC含量百分比)和RSCU(相对同义密码子使用度)之间关系的相关性来衡量物种亲缘关系的方法被提出,其在使用聚类方法比较的同时,还考虑到比较密码子各项特征指标的相关性变化,从而来进一步描述多物种密码子的遗传关系。该方法的关键在于将分析的视角着眼于能够直接观察判断的数据,而不是抽象的聚类图像。然而,该方法的制定的分析策略还不够充分,并不能为所分析的多个物种之间的遗传保守性提供充足的数据佐证。
中国国家发明“利用植物病毒密码子偏爱性设计用于在植物中的多肽表达的核酸分子的方法和组合物”(申请号:CN200680019920.1),涉及设计核酸的方法以提高植物中所编码的多肽的表达。在所述方法中,密码子使用频率偏好于植物病毒、植物病毒组或源自其的一组核酸分子的密码子使用频率。在优选实施方式中,所编码的多肽影响所述植物的表型。本发明还涉及对杀虫性多肽进行编码的核酸分子,其中所述核酸分子经设计是植物病毒密码子偏好的。本发明还涉及具有提高的杀虫性多肽表达的转基因植物及其后代以具有对昆虫或其他害虫的提高的抵抗力,所述昆虫或其他害虫对具有农业价值的植物有害。该发明主要通过分析密码子的使用频率的高低来筛选出需要修改的核酸中特定的密码子,从而达到设计核酸的目的。
中国国家发明“大黄鱼清道夫受体家族基因的密码子偏好性分析方法”(申请号:CN201811123784.1),公开了大黄鱼清道夫受体家族基因的密码子偏好性分析方法,包括,获得大黄鱼清道夫受体家族基因;利用密码子偏好性分析软件CodonW统计所有基因的第三位密码子频率和密码子第三位为G或C的频率,同时计算所述受体家族基因的偏好性指数,得出清道夫受体家族在进化中的密码子偏好性使用情况。本发明分析方法简单可行,可准确地判断大黄鱼清道夫受体家族基因的密码子偏好性,更好地帮助认识清道夫受体家族基因特征,在后续改造基因以及实现其高效表达中发挥重要作用。该发明主要针对单个物种的密码子偏好性分析,只分析了密码子的特征值所表达的含义,却无法得出大黄鱼与其他鱼类物种的家族关系。
发明内容
解决现有技术的密码子数据分析的分析方法单一的问题,本发明提出了一种芸香科多物种的密码子使用模式分析方法,包括:通过芸香科的多个物种的基因数据,获取每个该物种的密码子序列;提取该密码子序列的第一特征值,以该第一特征值的关系验证该多个物种的进化关系;该第一特征值包括该密码子序列的GC含量;提取该密码子序列的第二特征值,以该第二特征值绘制特征关系图,以验证该多个物种的进化保守性程度;该第二特征值包括该密码子序列的GC12平均值、GC3平均值、GC3s平均值和ENC平均值;提取该密码子序列中的高频密码子/密码子对,以该高频密码子/密码子对的关系验证该多个物种的进化保守性相关度;将该密码子序列的密码子RSCU值与植物物种的密码子RSCU值进行聚类,以聚类结果验证该多个物种的所属纲目;获取该密码子序列GC3含量之间的欧式距离,以验证该多个物种的亲缘关系。
本发明所述的密码子使用模式分析方法,其中通过对该基因数据预处理获取该密码子序列,包括:从该基因数据中提取长度大于或等于300个碱基对的基因数据,作为第一预处理基因数据;从该第一预处理基因数据中提取以起始密码子开头的基因数据,作为第二预处理基因数据;从该第二预处理基因数据中提取基因序列中间不包含终止密码子的基因数据,作为第三预处理基因数据;从该第三预处理基因数据中提取基因序列长度为3的整数倍的基因数据,作为该密码子序列。
本发明所述的密码子使用模式分析方法,其中该第一特征值具体包括:每个该物种的密码子序列的总平均GC含量、第1位GC1含量、第2位GC2含量、第3位GC3含量,以及每个该物种的同义密码子的GC3s含量。
本发明所述的密码子使用模式分析方法,其中获得每个该物种密码子序列的GC12平均值、GC3平均值、GC3s平均值和ENC平均值,以绘制该特征关系图。
本发明所述的密码子使用模式分析方法,其中当该密码子序列的密码子的RSCU值大于1.5,或该密码子序列的密码子的出现频率占到了其同义密码子的60%以上,则判定该密码子序列的密码子为高频密码子/密码子对。
本发明所述的密码子使用模式分析方法,其中该植物物种的密码子为通过JGI数据库获取的23类植物物种的密码子数据。
本发明所述的密码子使用模式分析方法,其中将密码子序列按照5’端到3’端的顺序等分为n份,计算出每一份的GC3平均值,绘出散点图并求出两两物种间GC3的欧式距离d(p,q),其中:
Figure GDA0003109772090000041
p、q分别为该多个物种中的任意两个物种,pi为p物种的平均GC3值,qi为q物种的平均GC3值,n为正整数。
本发明还提出一种芸香科多物种的密码子使用模式分析系统,包括:预处理模块,用于通过芸香科的多个物种的基因数据,获取每个该物种的密码子序列;进化关系验证模块,用于提取该密码子序列的第一特征值,以该第一特征值的关系验证该多个物种的进化关系;其中该第一特征值包括该密码子序列的GC含量;进化保守性程度验证模块,用于提取该密码子序列的第二特征值,以该第二特征值绘制特征关系图,以验证该多个物种的进化保守性程度;其中该第二特征值包括该物种密码子序列5’到3’端每百分之一的GC12平均值、GC3平均值、GC3s平均值和ENC平均值;进化保守性相关度验证模块,用于提取该密码子序列中的高频密码子/密码子对,以该高频密码子/密码子对的关系验证该多个物种的进化保守性相关度;纲目验证模块,用于将该密码子序列的密码子RSCU值与植物物种的密码子RSCU值进行聚类,以聚类结果验证该多个物种的所属纲目;亲缘关系验证模块,用于获取该密码子序列GC3含量之间的欧式距离,以验证该多个物种的亲缘关系。
本发明还提出一种可读存储介质,存储有可执行指令,该可执行指令用于执行如前述的芸香科多物种的密码子使用模式分析方法。
本发明还提出一种数据处理装置,包括:如前述的可读存储介质;处理器,用于调取并执行该可读存储介质中的可执行指令,以实现芸香科多物种的密码子使用模式分析。
附图说明
图1是本发明的芸香科多物种密码子使用模式分析方法示意图。
图2是本发明的芸香科多物种密码子使用模式分析方法流程图。
图3是本发明的芸香科7个物种密码子特征值表图。
图4是本发明的芸香科7个物种密码子的中性图。
图5是本发明的芸香科7个物种密码子的ENC绘图。
图6是本发明的芸香科7个物种密码子的(ENCexp-ENCobs)/ENCexp结果分布图。
图7A、7B是本发明的芸香科7个物种高频密码子特征值表图。
图8是本发明的芸香科7个物种密码子及23类植物物种的57种密码子的聚类分析图。
图9是本发明的芸香科7个物种密码子的GC3分布散点图。
图10是本发明的芸香科7个物种密码子的欧式距离热图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明提出的基于密码子的柑橘基因组使用模式分析方法和系统进一步详细说明。应当理解,此处所描述的具体实施方法仅仅用以解释本发明,并不用于限定本发明。
发明人在进行多物种密码子使用模式分析的时候,发现现有技术在计算物种的密码子特征数据之后,缺少数据之间的对比分析环节,也就无法得出这些物种的遗传进化关系。由此可见,能否找到一个合适的用于衡量物种的在进化过程中受到自然选择压力强弱的方法具有很大的影响。在现有技术中,大多是通过计算密码子的GC含量或者某些高频密码子来得出的。经过调研发现,在亲缘关近的物种中,总GC含量的值十分接近,几乎观察不到差异。这说明,仅仅凭借传统的分析方法,难以得出多个亲缘物种之间的进化关系。因此,我们提出通过计算密码子3’端到5’端GC3含量的变化规律,并且将这种规律通过欧几里得距离量化从而能够定量比较,最终再与传统方法相结合的方法,设计出了柑橘密码子使用模式分析这一总工作流程。
本发明的技术难点包括两方面。(1)因为从宏观的角度来讲,本发明所分析物种的亲缘关系较近,因此密码子的某些数据上也存在着相似的地方,那么如何找出其中的差异是一个值得考究的难点(2)传统的密码子分析大多都是针对单一物种,没有一个统一的标准来衡量遗传关系的远近,因此如何评价同一属内多物种的保守性程度也是一个难点。
图1是本发明的芸香科多物种密码子使用模式分析方法示意图。如图1所示,本发明的目的是解决上述技术难点中缺少衡量物种亲缘关系远近标准以及从密码子中寻找物种差异的问题,以芸香科酒饼簕属的酒饼簕(Atlantia bifolaux,A.b),芸香科柑橘属的莽山野橘(Citrus reticulata'Mangshan',C.r)、宜昌橙(Citrus ichangensis,C.i)、枸橼(Citrus medica,C.m)、柚子(Citrus grandis,C.g)、甜橙(Citrus sinensis,C.s)和克里曼丁桔(Citrus clementina,C.c)这7个物种的密码子数据为基础,设计多物种密码子差异性分析的方法以及保守性评价。与此同时,建立基于密码子的基因组使用模式分析流程,使得获得同属内不同物种的植物基因组密码子数据时能够应用到该流程中并进行求解分析。
本发明还通过上述7类芸香科物种与其他23类物种进行的属内比较和种间比较,验证了这7种芸香科物种具有双子叶植物密码子普遍的GC含量占比较高的特性。同时,也验证了7种芸香科物种在历史进化过程中的亲代演绎关系。
本发明重点在于在以往的单物种密码子分析流程上增加了亲缘关系较近的物种之间变异程度比较分析的方法,同时,为了衡量进化的程度,增加了使用欧式距离来量化物种之间的进化“远近”关系,在保留单物种密码子部分分析策略的情况下,将新增加的分析方法整合到一起。
图2是本发明的芸香科多物种密码子使用模式分析方法流程图。如图2所示,为了从密码子的角度分析同属内多物种的遗传关系以及保守性强弱,本发明提出的一种用于比较亲缘关系较近的多物种密码子使用模式分析方法包括:(1)数据预处理;(2)密码子相关特征值的比较分析;(3)特征关系绘图分析;(4)高频密码子/密码子对的比较分析;(5)对比聚类分析;(6)特征量化分析。在密码子使用偏好性分析中,本方法不仅有数据的定性对比,还有定量比较。
本发明具体包括以下步骤:
步骤S1:对选取的芸香科物种的基因数据进行预处理。因为测序出的基因数据中包含相当数量的噪声数据,这些噪声大概占到总数据量的5%~10%左右,如果不将噪声滤去,在一定程度上会影响结果的准确性,通过对基因数据的预处理,得到密码子的有效数据。数据预处理过程包括下列子步骤:
步骤S101:删去长度小于300bp(碱基对)的基因序列,这些基因序列的三联密码子数量不大于100,因此其所构成的氨基酸复杂性低,功能简单,不具有分析的价值。
步骤S102:删去不是以起始密码子开头的基因序列,起始密码子是翻译的起点,只有以ATG碱基开头的基因序列才被认为是有效序列。
步骤S103:删去基因序列中间包含终止密码子的基因序列。终止密码子是翻译过程的终点,有效的基因序列只有在结尾才出现终止密码子,标志着翻译过程的结束。因此应当滤去在基因序列中间包含有终止密码子的基因序列,这些可能是错误的基因序列。
步骤S104:删去长度不为3的倍数的基因序列。翻译过程的最小单位是密码子,每个密码子由3个碱基组成,而基因序列的基本单位又是碱基,如果碱基的个数不为3的倍数,那么其中必然发生了某些碱基的缺失或者增加,在具体缺失/增加了哪些碱基无法判断的情况下,采取删去的策略来保证结果的正确性。
步骤S2:密码子特征值的计算。包括,对平均GC含量的计算,密码子在第1、2、3位GC含量的计算,以及序列中同义密码子的GC含量计算。7类柑橘物种的计算结果如图3所示。结果表明,从GC含量的表现中是能够看出一定的进化关系的,距离进化树根部越近的物种,其GC3和GC3s的平均值就越低,相反GC1的平均值在逐渐上升,GC2的分布看不出有明显的变化规律。
步骤S3:特征关系绘图分析,将每个物种的密码子序列均匀的分成100份,然后计算出每一份的GC12,GC3和GC3s和ENC的平均值,通过绘制特征关系图的方式将密码子特征值间的关系变化模型展示出来,具体包括:
步骤S301:GC3-GC12绘图分析,以GC3含量为x轴,GC12含量为y轴,绘出GC含量关系图,如图4所示。并且计算出每个物种对应的回归曲线以及相关系数,当相关系数在范围0.03至0.04之间时,说明该物种在进化过程中受到的定向突变压力较小。如表1所示:
Figure GDA0003109772090000071
Figure GDA0003109772090000081
表1
从表1中可以看出,甜橙(Citrus sinensis)的相关系数最大,达到0.3047,表明其是所有柑橘物种中受到定向突变压力最大的物种。
步骤S302:GC3s-ENC绘图分析,以GC3s含量为x轴,ENC含量为y轴,绘出ENC分布图,并且根据公式(1)通过GC3s的值(公式中以符号F表示)计算出每个GC3s对应的ENC期望值,在图5中用实线绘出。从图5中可以看出,80%以上的ENC低于期望值,证明条件突变在密码子的偏好性中影响较小。
ENC=2+F+(29/F2+(1-F2)) (1)
步骤S303;为了进一步将ENC期望和实际值的差距具体量化出来,计算出期望值与实际值的差占期望值的百分比,再以柱状图的形式展现出来。如图6所示,60%左右的比值分布在0~0.1之间,证明ENC的实际值与期望值较为接近,进一步证明了条件突变在密码子的偏好性中影响较小的结论。
步骤S4:高频密码子/密码子对的分析。如果一个密码子的RSCU值大于1.5,或者出现频率占到了其同义密码子的60%以上,那么就被鉴定为高频密码子/密码子对。分别计算出每个物种使用频率最高的几个密码子/密码子对,如图7A、7B所示,从结果中可以发现,这七类柑橘物种的高频密码子的使用频率十分接近,偏好性相差小,证明柑橘在进化的过程中保守性程度高。
步骤S5:对比聚类分析。将7类柑橘物种和JGI数据库下载的其他23类植物物种的57种密码子(除去起始密码子和3种终止密码子)的RSCU值计算出,使用层次聚类方法进行聚类分析,计算两个集合各自数据点的两两距离的平均值,将平均值最小的两组化为一类。依次递推,得到最终的聚类结果。如图8所示,包含7类柑橘属在内的总计22类物种被聚成一大类,成为双子叶植物类,同时这些物种在GC和GC3的含量上也具有相近的数值。其中,图8所展示的植物物种如表2所示:
Figure GDA0003109772090000082
Figure GDA0003109772090000091
表2
步骤S6:特征分析,这一部分主要是通过芸香科7个物种的密码子GC3含量之间的欧式距离去定量的评价物种间的亲缘关系远近,包括以下步骤:
步骤S601:GC3波动曲线绘制,从序列的5’端到3’端等分成n份计算出每一份的GC3平均值,用散点图的形式表现出来。如图9所示,虽然在GC3的波动区间上,所分析物种的数值很接近,但是他们的变化趋势却有所不同,枸橼(Citrus medica)在序列3’端结束时GC3含量呈下降趋势,而甜橙(Citrus medica)和宜昌橙(Citrus ichangensis)却呈现上升趋势。于本发明的实施例中,n值取100,也可以取其他数值,例如是10或1000,本发明并不以此为限。
步骤S602:为了能更好的将这些变化趋势的不同量化为亲缘关系的远近,以5‘到3’端每百分之一序列的平均GC3值为数据,通过公式(2)计算出物种之间两两的欧式距离d(p,q),并作出他们的热图,欧式距离越小,说明亲缘关系越近。通过图10可以计算出,酒饼簕(Atlantia bifolaux)与其他物种的欧式距离的平均值为0.118,高于0.1,也高于表中其他物种间的欧式距离,说明亲缘关系较远,这也验证了在现有的柑橘进化树中这一物种距离根部最近的结论。
Figure GDA0003109772090000101
p、q表示芸香科7个物种中的任意两个物种,pi表示p物种的平均GC3值,qi表示表示q物种的平均GC3值,n为正整数。
本方法主要从GC含量和相对同义密码子使用度两个方面来分析,从密码子的角度探究柑橘进化过程中受到的影响,进化的保守性和不同柑橘物种之间的亲缘进化关系。通过分析总的GC含量,判断多种柑橘物种的GC含量没有发生明显的差异,初步证实柑橘物种在进化过程中具有保守性。为了进一步验证该结论,通过相对同义密码子使用度计算出每个物种的高频密码子/密码子对,发现这些物种间不仅高频密码子/密码子对的数量相差很小,并且按照使用频率高低进行排序之后,同一密码子在不同物种间使用频率的差值在0.05以内,证明了柑橘的进化保守性。为了探究柑橘物种间的亲缘关系,依据物种密码子的相对同义密码子的数值进行聚类分析,通过聚类结果可以看出,7个柑橘物种首先聚成一大类,其次再与其他双子叶植物聚成一类,最后是单子叶植物和藻类植物。为了验证该结果,计算了每百分之一的GC3含量,得到每个物种之间的每百分比的GC3含量的欧氏距离,欧式距离越大,则关系越疏远,例如物种酒饼簕(Atlantia bifolaux)与其他物种的欧式距离的平均值在0.1以上,说明亲缘关系较远。通过分析GC3-GC12,以及GC3s-ENC关系绘图,得到进化过程中条件突变和进化突变对于柑橘物种的影响大小。
与现有的密码子使用及进化分析流程相比,本发明具有以下有益效果:
(1)因为GC3的含量变化在一定程度上可以反应出基因在自然选择过程中突变的压力大小。因此,除了原有的分析指标外,新增了5’到3’端GC3含量的波动情况。
(2)使用欧式距离来量化数值间的差异,从而可以从数值上来判断物种间亲缘关系的远近。
(3)建立了从数据预处理到分析再到最终得出亲缘性保守性评价的一站式工作流程,并对不同物种的柑橘密码子数据进行了分析。
本发明实施例还提供一种可读存储介质,以及一种数据处理装置。本发明的可读存储介质存储有计可执行指令,可执行指令被数据处理装置的处理器执行时,实现上述芸香科多物种密码子使用模式分析方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成,所述程序可以存储于可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域中的普通技术人员,在不脱离本发明的精神和范围内,可以做出若干变形和改进,故本发明的保护范围当视后附的申请专利范围所界定者为准。

Claims (10)

1.一种芸香科多物种的密码子使用模式分析方法,其特征在于,包括:
通过芸香科的多个物种的基因数据,获取每个该物种的密码子序列;
提取该密码子序列的第一特征值,以该第一特征值的关系验证该多个物种的进化关系;该第一特征值包括该密码子序列的GC含量;
提取该密码子序列的第二特征值,以该第二特征值绘制特征关系图,以验证该多个物种的进化保守性程度;该第二特征值包括该密码子序列的GC12平均值、GC3平均值、GC3s平均值和ENC平均值;
提取该密码子序列中的高频密码子/密码子对,以该高频密码子/密码子对的关系验证该多个物种的进化保守性相关度;
将该密码子序列的密码子RSCU值与植物物种的密码子RSCU值进行聚类,以聚类结果验证该多个物种的所属纲目;
获取该密码子序列GC3含量之间的欧式距离,以验证该多个物种的亲缘关系。
2.如权利要求1所述的密码子使用模式分析方法,其特征在于,通过对该基因数据预处理获取该密码子序列,包括:
从该基因数据中提取长度大于或等于300个碱基对的基因数据,作为第一预处理基因数据;
从该第一预处理基因数据中提取以起始密码子开头的基因数据,作为第二预处理基因数据;
从该第二预处理基因数据中提取基因序列中间不包含终止密码子的基因数据,作为第三预处理基因数据;
从该第三预处理基因数据中提取基因序列长度为3的整数倍的基因数据,作为该密码子序列。
3.如权利要求1所述的密码子使用模式分析方法,其特征在于,该第一特征值具体包括:每个该物种的密码子序列的平均GC含量、第1位GC1含量、第2位GC2含量、第3位GC3含量,以及每个该物种的同义密码子的GC3s含量。
4.如权利要求1所述的密码子使用模式分析方法,其特征在于,获得每个该物种密码子序列的GC12平均值、GC3平均值、GC3s平均值和ENC平均值,以绘制该特征关系图。
5.如权利要求1所述的密码子使用模式分析方法,其特征在于,当该密码子序列的密码子的RSCU值大于1.5,或该密码子序列的密码子的出现频率占到了其同义密码子的60%以上,则判定该密码子序列的密码子为高频密码子/密码子对。
6.如权利要求1所述的密码子使用模式分析方法,其特征在于,该植物物种的密码子为通过JGI数据库获取的23类植物物种的密码子数据。
7.如权利要求1所述的密码子使用模式分析方法,其特征在于,将密码子序列按照5’端到3’端的顺序等分为n份,计算出每一份的GC3的平均值,绘出散点图并求出两两物种间GC3的欧式距离d(p,q),其中:
Figure FDA0003109772080000021
p、q分别为该多个物种中的任意两个物种,pi为p物种的平均GC3值,qi为q物种的平均GC3值,n为正整数。
8.一种芸香科多物种的密码子使用模式分析系统,其特征在于,包括:
预处理模块,用于通过芸香科的多个物种的基因数据,获取每个该物种的密码子序列;
进化关系验证模块,用于提取该密码子序列的第一特征值,以该第一特征值的关系验证该多个物种的进化关系;其中该第一特征值包括该密码子序列的GC含量;
进化保守性程度验证模块,用于提取该密码子序列的第二特征值,以该第二特征值绘制特征关系图,以验证该多个物种的进化保守性程度;其中该第二特征值包括该物种密码子序列5’到3’端每百分之一的GC12平均值、GC3平均值、GC3s平均值和ENC平均值;
进化保守性相关度验证模块,用于提取该密码子序列中的高频密码子/密码子对,以该高频密码子/密码子对的关系验证该多个物种的进化保守性相关度;
纲目验证模块,依据密码子的RSCU值,将该多个物种与其他植物物种进行聚类,以聚类结果验证这些物种的所属纲目;
亲缘关系验证模块,用于获取该密码子序列GC3含量之间的欧式距离,以验证该多个物种的亲缘关系。
9.一种可读存储介质,存储有可执行指令,该可执行指令用于执行如权利要求1~7任一项所述的芸香科多物种的密码子使用模式分析方法。
10.一种数据处理装置,其特征在于,包括:
如权利要求9所述的可读存储介质;
处理器,用于调取并执行该可读存储介质中的可执行指令,以实现芸香科多物种的密码子使用模式分析。
CN201910580198.8A 2019-06-28 2019-06-28 芸香科多物种密码子使用模式分析方法和系统 Active CN110400604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910580198.8A CN110400604B (zh) 2019-06-28 2019-06-28 芸香科多物种密码子使用模式分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910580198.8A CN110400604B (zh) 2019-06-28 2019-06-28 芸香科多物种密码子使用模式分析方法和系统

Publications (2)

Publication Number Publication Date
CN110400604A CN110400604A (zh) 2019-11-01
CN110400604B true CN110400604B (zh) 2021-10-08

Family

ID=68323610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910580198.8A Active CN110400604B (zh) 2019-06-28 2019-06-28 芸香科多物种密码子使用模式分析方法和系统

Country Status (1)

Country Link
CN (1) CN110400604B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363905A (zh) * 2018-02-07 2018-08-03 南京晓庄学院 一种用于植物外源基因改造的CodonPlant系统及其改造方法
CN112908410A (zh) * 2021-03-01 2021-06-04 上海欧易生物医学科技有限公司 一种基于snakemake流程的正选择基因的检测方法和系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003058205A2 (en) * 2002-01-11 2003-07-17 Cornell Research Foundation, Inc. Methods of identifying putative effector proteins
CN101930502B (zh) * 2010-09-03 2011-12-21 深圳华大基因科技有限公司 表型基因的检测及生物信息分析的方法及系统
CN102880813A (zh) * 2012-10-19 2013-01-16 万俊松 污染成分琥珀腈降解微生物根瘤菌usda 110及其同属物种密码子库
US20180045715A1 (en) * 2015-02-17 2018-02-15 Boyce Thompson Institute For Plant Research, Inc. Structure and function of the salicyclic acid binding sites on human hmgb1 and methods of use thereof for the rational design of both salicyclic acid derivatives and other agents that alter animal and plant hmgbs activities
CN105063761A (zh) * 2015-09-02 2015-11-18 云南大学 一种用dna条形码鉴别捕食线虫丝孢菌节丛孢属的方法
CN106023121B (zh) * 2016-04-29 2018-08-31 中国科学院生物物理研究所 一种贝叶斯显微成像方法
CN106202998B (zh) * 2016-07-05 2019-01-25 集美大学 一种非模式生物转录组基因序列结构分析的方法
CN106682452A (zh) * 2017-01-17 2017-05-17 新疆大学 一种通过熵变分析生物进化规律的方法
CN109166601B (zh) * 2018-08-03 2021-09-07 河北大学 一种使用三支概念判断物种间系统发育的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363905A (zh) * 2018-02-07 2018-08-03 南京晓庄学院 一种用于植物外源基因改造的CodonPlant系统及其改造方法
CN112908410A (zh) * 2021-03-01 2021-06-04 上海欧易生物医学科技有限公司 一种基于snakemake流程的正选择基因的检测方法和系统

Also Published As

Publication number Publication date
CN110400604A (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
Raphael et al. A novel method for multiple alignment of sequences with repeated and shuffled elements
US8129990B2 (en) Image processing apparatus and computer program product
CN109816031A (zh) 一种基于数据不均衡度量的变压器状态评估聚类分析方法
CN105404793A (zh) 基于概率框架和重测序技术快速发现表型相关基因的方法
CN110232445A (zh) 一种基于知识蒸馏的文物真伪鉴定方法
CN112687344A (zh) 一种基于宏基因组的人腺病毒分子分型和溯源方法及系统
CN107563448A (zh) 基于近红外光谱分析的样本空间聚类划分法
CN110400604B (zh) 芸香科多物种密码子使用模式分析方法和系统
CN110929888A (zh) 一种基于随机紧凑高斯核函数的粮食作物病害预测方法
CN105223164A (zh) 鉴别荞麦或燕麦粉掺假小麦粉的方法及系统
Rust Parameter selection for constrained solutions to ill-posed problems
Sammeth et al. Divide-and-conquer multiple alignment with segment-based constraints
CN116312779A (zh) 检测样本污染和识别样本错配的方法和装置
Liao et al. LeafletAnalyzer, an automated software for quantifying, comparing and classifying blade and serration features of compound leaves during development, and among induced mutants and natural variants in the legume Medicago truncatula
RU2679383C1 (ru) Самокорректирующиеся способ и устройство распознавания для устройства распознавания ценных документов
CN105488521B (zh) 一种基于核函数的扩容样本筛选方法
Earley et al. Genomic regions associate with major axes of variation driven by gas exchange and leaf construction traits in cultivated sunflower (Helianthus annuus L.)
Yadav et al. In-silico analysis and homology modelling of coat-protein of Mungbean Yellow Mosaic India Virus
JP2010044605A (ja) 鋼板製造実績データベース検索装置,鋼板製造実績データベース検索プログラム
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
Sun et al. Using COVAIN to analyze metabolomics data
Spang et al. Sequence database search using jumping alignments.
Leontovich et al. Adaptive algorithm of automated annotation
CN111883205B (zh) 一种基于全基因组选择烟草有害成分预测方法及应用
Mu et al. Investigation on tree molecular genome of Arabidopsis thaliana for internet of things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant