CN105787296B - 一种宏基因组和宏转录组样本相异度的比较方法 - Google Patents

一种宏基因组和宏转录组样本相异度的比较方法 Download PDF

Info

Publication number
CN105787296B
CN105787296B CN201610100159.XA CN201610100159A CN105787296B CN 105787296 B CN105787296 B CN 105787296B CN 201610100159 A CN201610100159 A CN 201610100159A CN 105787296 B CN105787296 B CN 105787296B
Authority
CN
China
Prior art keywords
sample
tuple
dissimilarity
frequency
markov
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610100159.XA
Other languages
English (en)
Other versions
CN105787296A (zh
Inventor
王颖
廖伟楠
刘暾东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201610100159.XA priority Critical patent/CN105787296B/zh
Publication of CN105787296A publication Critical patent/CN105787296A/zh
Application granted granted Critical
Publication of CN105787296B publication Critical patent/CN105787296B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种宏基因组和宏转录组样本相异度的比较方法,涉及信息和生物技术。生成样本的tuple频度向量,对样本中出现的长度为1~10的tuple的频度进行统计,并生成相应样本的频度向量;计算tuple的马尔克夫概率,基于变阶次马尔克夫模型估计频度向量中每一个tuple的马尔克夫概率;生成样本间相异度矩阵,计算各个样本频度向量间的距离,生成一个样本间的相异度矩阵;生成聚类树,根据相异度矩阵生成一个聚类树。无需人工选择马尔克夫阶次,能根据数据特效自动地选择马尔克夫阶次;对宏基因组和宏转录组数据的聚类效果明显优于定阶次马尔克夫模型的聚类效果。

Description

一种宏基因组和宏转录组样本相异度的比较方法
技术领域
本发明涉及信息和生物技术,尤其是涉及一种宏基因组和宏转录组样本相异度的比较方法。
背景技术
微生物群落间的比较对于理解微生物和环境之间的关系至关重要。高通量测序技术已经成为表征微生物群落的一个强有力的工具。对于不同基因间的比较,基于配准的序列比较方法,如Smith-Waterman算法和Blast算法已经被广泛应用。然而对于高通量测序数据,基于配准的方法变得不再适用,主要由于以下原因:首先,基于配准的方法高度依赖已知数据库或已知基因,然而许多微生物的基因是未知的,这就影响了配准的准确性。其次,基于配准的方法要对短序列进行组装,这项工程太耗时。因此,免配准的方法为基因间的比较提供了更好的选择。k-tuple方法是一个经典的免配准方法。生物样本是由A、C、G、T四种碱基组成的序列,因此可以看成是由A、C、G、T四种字符组成的文本序列。k-tuple是指长度为k的连续字符串。之前的研究表明,来自同一个基因组的k-tuple频度相近,但不同基因组的k-tuple频度有很大区别。因此,基于k-tuple频度的相异度方法D2被提出用来评估比较两个生物样本之间的距离。此后,在D2基础上改进的相继被提出用于比较样本之间的距离。
计算距离时需要用到一个合适的背景模型。在之前的研究中,用到的是定阶次马尔克夫模型。然而由于微生物群落是各种基因组的混合物,很难用几个确定的阶次模拟背景模型。对于定阶次马尔克夫模型,阶次越高模型越准确,然而阶次越高,需要的数据量也越多,一般情况下,我们获取的数据量是很难满足需求的。
发明内容
本发明的目的是针对宏基因组合宏转录组样本,提供一种宏基因组和宏转录组样本相异度的比较方法。
本发明包括以下步骤:
步骤1:生成样本的tuple频度向量,对样本中出现的长度为1~10的tuple的频度进行统计,并生成相应样本的频度向量;
步骤2:计算tuple的马尔克夫概率,基于变阶次马尔克夫模型估计频度向量中每一个tuple的马尔克夫概率;
步骤3:生成样本间相异度矩阵,计算各个样本频度向量间的距离,生成一个样本间的相异度矩阵;
步骤4:生成聚类树,根据相异度矩阵生成一个聚类树。
在步骤1中,所述样本中可能出现的字符串组合为tuple元素,并选择长度为1~10的字符串组合作为tuple元素。
在步骤2中,所述计算tuple的马尔克夫概率的具体方法可为:
步骤2-1:基于样本的频度向量构建前缀树;
步骤2-2:基于相对熵对所述前缀树进行剪枝;
步骤2-3:基于剪枝后的前缀树计算tuple的马尔克夫概率。
在步骤2-1中,所述基于样本的频度向量构建前缀树时,前缀树父节点和子节点的关系是:子节点表示的tuple包含父节点表示的tuple,并且子节点tuple比父节点tuple多出的一个字符出现在父节点表示的tuple之前;例如,父节点tuple为CGT,则子节点tuple可能为ACGT,CCGT,TCGT或者GCGT。
在步骤2-2中,所述基于相对熵对所述前缀树进行剪枝时,通过计算父节点表示的tuple与子节点表示的tuple之间的相对熵判断是否剪去子节点:当相对熵小于一定的阈值K时,剪掉相应的子节点,相对熵DKL的计算公式如下:
其中,ω表示父节点,μω表示子节点,X表示下一个时刻的状态,表示由μω转移到X的转移概率,表示由ω转移到状态X的转移概率,N(ω)表示字符串ω的频度,N(ωX)表示字符串ωX的频度,N(μω)表示字符串μω的频度,N(μωX)表示字符串μωX的频度;所述阈值K由赤池信息量准则确定,具体公式如下:
其中,表示样本的伪似然度,d表示测序深度,表示剪枝后的前缀树的节点个数,表示自由参数的选择范围,表示自由参数的个数,选择使的值最小的K作为剪枝的阈值。
在步骤3中,所述计算各个样本频度向量间的距离可采用不同的相异度方法计算各个样本频率向量间的相异度距离,所用到的相异度方法包括计算公式如下:
其中,表示样本X的频度向量,表示样本Y的频度向量,表示样本X第i个tuple的频度,表示样本Y的第i个tuple的频度,nX表示样本X中tuple个数的总和,nY表示样本Y中tuple个数的总和,pX,i表示样本X中第i个tuple的马尔克夫概率,pY,i表示样本Y中第i个样本的马尔克夫概率。
在步骤4中,所述生成聚类树,根据相异度矩阵生成一个聚类树可根据层次聚类算法由相异度矩阵得到聚类树。
由于定阶次马尔克夫模型存在以上局限性,本发明提出了应用变阶次马尔克夫模型的基于k-tuple频度的微生物群落的比较方法。定阶次马尔克夫模型是变阶次马尔克夫模型的一种特殊情况,在变阶次马尔克夫模型中,阶次根据数据性质可以为任意阶次,无需人为选择阶次。变阶次马尔克夫模型最大的优势是其在实际应用中的灵活性和适应性。
与现有技术相比,本发明具有如下优点:本发明使用的方法无需人工选择马尔克夫阶次,能根据数据特效自动地选择马尔克夫阶次;本发明对宏基因组和宏转录组数据的聚类效果明显优于定阶次马尔克夫模型的聚类效果。
具体实施方式
以下将详细说明本发明的实施方式,借此本发明的实施人员可充分理解本发明如何利用技术手段来解决技术问题。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各个实施例的各个特征可以相互结合,所形成的技术方案均在本发明的技术保护范围之内。
利用高通量测序技术能从微生物群落中获取大量的宏基因组合宏转录组样本,通过比较这些宏基因组或者宏转录组样本,能够更深入地了解微生物和环境之间的关系。
本发明针对由高通量测序获得的宏基因组或者宏转录组样本,对微生物群落进行比较。接下来详细描述本发明的方法的实施过程。虽然在以下内容中展示了执行步骤的逻辑过程,但在某些情况下,可以不同此处的顺序执行。
执行本发明的方法,首先执行步骤1,获取宏基因组或宏转录组样本的k-tuple频度向量。k-tuple是指长度为k的连续字符串。在本发明中,通过统计这些字符串在样本中出现的频度,并将这些频度组合成一个k-tuple频度向量,以此来代表整个样本的特征。在本发明中,选择长度为1~10的字符串作为k-tuple的tuple元素。
为了计算tuple元素的变阶次马尔克夫概率在本实施例中需要执行步骤2。在步骤2中,首先执行步骤2-1:根据样本的所有tuple建立一个前缀树。前缀树父节点和子节点的关系如下,父节点表示的tuple包含在子节点表示的tuple中,并且子节点tuple比父节点tuple多出的一个字符出现在父节点tuple之前。
在本实施例步骤2中,为了对实施例中的前缀树进行剪枝操作,需要执行步骤2-2,依次判断前缀树中每一个叶子节点是否可以被剪去。剪枝策略是通过计算叶子节点所代表的tuple与其父节点所代表的tuple之间的相对熵,当它们之间的相对熵小于某一个特定的阈值K时,叶子节点将被剪去。
在步骤2中,按照步骤2-2所示的方法循环检查叶子节点是否符合剪枝条件,直到没有叶子节点可以被剪去时,剪枝完成,进而进行步骤2中的2-3子步骤操作。由剪枝的过程可知,被剪去叶子转移到下一个状态的概率可以用与其最接近的未被剪去的祖先节点的转移概率替代。根据这一原则,可以估算出每一个tuple的马尔可夫概率。
为了计算实施例中k-tuple向量之间的距离,接下来实施步骤3。对k-tuple向量分别采取的相异度方法计算距离。其中用到的tuple的变阶次马尔克夫概率,在步骤2中已求得。
实施例步骤3可以得到一个相异度矩阵,由这个相异度矩阵进行步骤4,即进行层次聚类分析,可最终得到一个聚类树。通过观察聚类树,可以判断聚类情况的好坏。
虽然本发明公开的实施方式如上,但所述的内容只是为了便于理解本发明采样的实施方式,本发明所述的方法还可有多种实施例。在不背离本发明实质的情况下,熟悉本领域的技术人员当可根据本发明做出各种相应的改变或变形,但这些相应的改变或变形都应属于本发明。

Claims (7)

1.一种宏基因组和宏转录组样本相异度的比较方法,其特征在于包括以下步骤:
步骤1:生成样本的tuple频度向量,对样本中出现的长度为1~10的tuple的频度进行统计,并生成相应样本的频度向量;
步骤2:计算tuple的马尔克夫概率,基于变阶次马尔克夫模型估计频度向量中每一个tuple的马尔克夫概率;
步骤3:生成样本间相异度矩阵,计算各个样本频度向量间的距离,生成一个样本间的相异度矩阵;
步骤4:生成聚类树,根据相异度矩阵生成一个聚类树。
2.如权利要求1所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤1中,所述样本中连续出现的所有字符串组合为tuple元素,并选择长度为1~10的字符串组合作为tuple元素。
3.如权利要求1所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤2中,所述计算tuple的马尔克夫概率的具体方法为:
步骤2-1:基于样本的频度向量构建前缀树;
步骤2-2:基于相对熵对所述前缀树进行剪枝;
步骤2-3:基于剪枝后的前缀树计算tuple的马尔克夫概率。
4.如权利要求3所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤2-1中,所述基于样本的频度向量构建前缀树时,前缀树父节点和子节点的关系是:父节点tuple是子节点tuple的子串,并且子节点tuple比父节点tuple多出的字符出现在父节点tuple字符串的左端;例如子节点ACGT的父节点tuple为CGT。
5.如权利要求3所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤2-2中,所述基于相对熵对所述前缀树进行剪枝时,通过计算父节点表示的tuple与子节点表示的tuple之间的相对熵判断是否剪去子节点:当相对熵小于一定的阈值K时,剪掉相应的子节点,相对相对熵DKL的计算公式如下:
其中ω表示父节点,μω表示子节点,X表示下一个时刻的状态,表示由μω转移到X的转移概率,表示由ω转移到状态X的转移概率,N(ω)表示字符串ω的频度,N(ωX)表示字符串ωX的频度,N(μω)表示字符串μω的频度,N(μωX)表示字符串μωX的频度;所述阈值K由赤池信息量准则确定,具体公式如下:
其中R表示样本数据集,表示以K为阈值,对样本数据R采用步骤2计算求得的马尔科夫概率,表示对步骤2求得的马尔科夫概率的自然对数,即为样本的伪似然度,
d表示测序深度,表示步骤2-2中剪枝后的前缀树,表示剪枝后的前缀树的节点个数,表示自由参数的选择范围,表示自由参数的个数,选择使的值最小的K作为剪枝的阈值。
6.如权利要求1所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤3中,所述计算样本间的相异度,可采用所有基于频度概率期望的距离度量方法计算各个样本频率向量间的相异度距离,例如计算公式如下:
其中,表示样本X的频率向量,表示样本Y的频度向量,表示样本X第i个tuple的频度,表示样本Y的第i个tuple的频度。nX表示样本X中tuple个数的总和,nY表示样本Y中tuple个数的总和,pX,i表示样本X中第i个tuple的马尔克夫概率,pY,i表示样本Y中第i个样本的马尔克夫概率。是两种非中心化的相异度距离度量定义,被称为相异度和相异度,而相异度中心化后的相异度距离度量定义,被称为相异度,相异度中心化后的相异度距离度量定义,被称为相异度。表示样本X和样本Y的相异度,表示样本X和样本Y的相异度,表示样本X和样本Y的相异度,表示样本X和样本Y的相异度。
7.如权利要求1所述一种宏基因组和宏转录组样本相异度的比较方法,其特征在于在步骤4中,所述生成聚类树,根据相异度矩阵生成一个聚类树是根据层次聚类算法由相异度矩阵得到聚类树。
CN201610100159.XA 2016-02-24 2016-02-24 一种宏基因组和宏转录组样本相异度的比较方法 Expired - Fee Related CN105787296B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610100159.XA CN105787296B (zh) 2016-02-24 2016-02-24 一种宏基因组和宏转录组样本相异度的比较方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610100159.XA CN105787296B (zh) 2016-02-24 2016-02-24 一种宏基因组和宏转录组样本相异度的比较方法

Publications (2)

Publication Number Publication Date
CN105787296A CN105787296A (zh) 2016-07-20
CN105787296B true CN105787296B (zh) 2018-07-17

Family

ID=56402865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610100159.XA Expired - Fee Related CN105787296B (zh) 2016-02-24 2016-02-24 一种宏基因组和宏转录组样本相异度的比较方法

Country Status (1)

Country Link
CN (1) CN105787296B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202999B (zh) * 2016-07-21 2018-12-11 厦门大学 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN110634538A (zh) * 2019-08-26 2019-12-31 上海科技发展有限公司 利福平耐药结核菌的检测方法、装置、设备和存储介质
CN111564179B (zh) * 2020-05-09 2022-04-29 厦门大学 一种基于三元组神经网络的物种生物学分类方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012097152A2 (en) * 2011-01-13 2012-07-19 Laboratory Corporation Of America Holdings Methods and systems for predictive modeling of hiv-1 replication capacity
CN104616264A (zh) * 2015-02-12 2015-05-13 厦门大学 基因芯片图像的自动对比度增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0317335D0 (en) * 2003-07-24 2003-08-27 Sec Dep For The Home Departmen Improvements in and relating to interpretation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012097152A2 (en) * 2011-01-13 2012-07-19 Laboratory Corporation Of America Holdings Methods and systems for predictive modeling of hiv-1 replication capacity
EP2663943A2 (en) * 2011-01-13 2013-11-20 Laboratory Corporation of America Holdings Methods and systems for predictive modeling of hiv-1 replication capacity
CN104616264A (zh) * 2015-02-12 2015-05-13 厦门大学 基因芯片图像的自动对比度增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Comparison of Metatranscriptomic Samples Based on k-Tuple Frequencies";王颖 等;《PloS one》;20140930;第9卷(第1期);第1-8页 *
"基于k-tuple频度统计的微生物群落测序数据分析";刘麟;《中国优秀硕士论文全文数据库 基础科学辑》;20140815(第8期);第6-7、9-10、19页 *

Also Published As

Publication number Publication date
CN105787296A (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
WO2017157183A1 (zh) 一种自动多阀值特征过滤方法及装置
CN106202999B (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN110516818A (zh) 一种基于集成学习技术的高维度数据预测方法
CN111564179B (zh) 一种基于三元组神经网络的物种生物学分类方法及系统
CN107145523B (zh) 基于迭代匹配的大型异构知识库对齐方法
CN105787296B (zh) 一种宏基因组和宏转录组样本相异度的比较方法
CN113377964B (zh) 知识图谱链接预测方法、装置、设备及存储介质
CN107229945A (zh) 一种基于竞争学习的深度聚类方法
Wang et al. GAEM: a hybrid algorithm incorporating GA with EM for planted edited motif finding problem
CN117059169A (zh) 基于参数自适应成长优化器的生物多序列比对方法及系统
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
Comin et al. Fast entropic profiler: An information theoretic approach for the discovery of patterns in genomes
CN113658641B (zh) 一种噬菌体分类方法、装置、设备及存储介质
CN113066528B (zh) 基于主动半监督图神经网络的蛋白质分类方法
Roos et al. Analysis of textual variation by latent tree structures
KR101522087B1 (ko) 미스매치를 고려한 염기 서열 정렬 시스템 및 방법
CN106156107A (zh) 一种新闻热点的发现方法
CN114400043B (zh) 基于孪生神经网络的半监督宏基因组分箱方法
CN116504315A (zh) 一种基于改进的began网络的单细胞rna测序数据缺失的插补方法
Elishco et al. The capacity of some Pólya string models
CN104462817A (zh) 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法
CN115543803A (zh) 基于改进遗传算法的软件测试用例智能生成方法及系统
CN105162648A (zh) 基于骨干网络扩展的社团检测方法
Liu et al. Discovery of deep order-preserving submatrix in DNA microarray data based on sequential pattern mining
CN113033768A (zh) 一种基于图卷积网络的缺失特征重表示方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180717