CN101846658A - 一种寡核苷酸色谱保留时间预测方法 - Google Patents
一种寡核苷酸色谱保留时间预测方法 Download PDFInfo
- Publication number
- CN101846658A CN101846658A CN200910191822A CN200910191822A CN101846658A CN 101846658 A CN101846658 A CN 101846658A CN 200910191822 A CN200910191822 A CN 200910191822A CN 200910191822 A CN200910191822 A CN 200910191822A CN 101846658 A CN101846658 A CN 101846658A
- Authority
- CN
- China
- Prior art keywords
- oligonucleotide
- oligonucleotides
- base
- retention time
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种寡核苷酸色谱保留时间预测方法,包括如下步骤:a)基于主成分分析方法,建立核酸序列结构表征方法-碱基三维性质得分;b)用碱基三维性质得分表征寡核苷酸的结构;c)用自交叉协方差方法对每个寡核苷酸的表征变量做归一化处理;d)用遗传算法挑选与寡核苷酸的色谱保留指数密切相关的性质参数;e)应用径向基核支持向量机建立寡核苷酸色谱保留时间预测模型,分别以自取代检验,留一法交互检验以及外部检验三种方法验证模型的预测能力。该方法可用于寡核苷酸色谱保留时间预测,寡核苷酸定量结构保留关系分析,优化选择合适的色谱实验条件以及参数。
Description
技术领域
本发明涉及一种DNA定量色谱保留预测方法,特别是一种寡核苷酸色谱保留时间预测方法。
背景技术
寡核苷酸常用来作为探针确定DNA或RNA的结构,其被广泛应用于基因芯片、电泳和荧光原位杂交等过程中。其众多分离分析方法中,反相高压液相色谱技术具有快捷、高效和高选择性等优点(Huber,et al.,J Chromatogr A,1998,806:1)。运用液相色谱进行大规模纯化需要选择适合的实验条件以及参数,通过实验进行优化在理论上可行,但实践上比较困难(Gilar et al.,J Chromatogr A,2002,958:167)。定量结构-保留关系模型则为选择最佳分离条件提供了重要工具。它通过在化合物的微观结构和宏观性质之间建立起定量联系,寻找出结构与色谱保留值之间的量变规律,实现色谱保留值的预测,其对于选择最佳分离条件,从而实现大规模、高效率纯化具有十分重要的意义。本发明公开一种基于定量结构-保留关系模型的寡核苷酸色谱保留时间预测方法。
发明内容
有鉴于此,为了解决上述问题,本发明提供了一种寡核苷酸色谱保留时间预测方法,其可用于寡核苷酸定量结构保留关系分析,选择合适的色谱实验条件以及参数,便于运用液相色谱进行大规模纯化。
本发明的目的是这样实现的:一种寡核苷酸色谱保留时间预测方法,包括如下步骤:
a)具体包括a1)精选5种碱基的585种三维性质参数;a2)对585种性质参数做主成分分析,得到4个主成分;a3)计算各主成分得分,建立碱基三维性质得分;
b)用碱基三维性质得分涉及的4个主成分得分对寡核苷酸的结构进行表征,其中的每个碱基用4个碱基三维性质得分表征;
c)用自交叉协方差处理得到的每个寡核苷酸的表征变量,设置步长l为9,使每个寡核苷酸的表征变量数目一致;
d)用遗传算法挑选与寡核苷酸的色谱保留时间密切相关的性质参数,并作为模型的输入变量;
e)应用径向基核支持向量机建立寡核苷酸色谱保留时间预测模型,以自取代检验,留一法交互检验以及外部检验验证模型的预测能力,将每个寡核苷酸样本的输入变量带入模型并计算色谱保留时间。
本发明的一种寡核苷酸色谱保留时间预测方法,是基于一个新颖的定量结构-保留关系模型提出的。其中选取的碱基三维性质得分所含信息量大、表征能力强、拓展性能好及操作简便;自交叉协方差方法可较大程度地减少原始变量信息的损失,同时可充分考虑相邻碱基之间的交互效应及相互影响;径向基核支持向量机通过核函数技术,可以很好地相关寡核苷酸表征变量及色谱保留时间之间的关系,可以有效的防止模型的过拟合,同时,采用的自取代检验,留一法交互检验及外部检验验证方法可以较大程度地保证所建方法的预测能力,所建方法具有良好的泛化性能。
本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书,权利要求书中所特别指出的结构来实现和获得。
具体实施方式
以下对采用本发明的方法用于寡核苷酸色谱保留时间预测为例进行详细的描述,包括以下步骤:
a)精选5种碱基(A,C,G,T与U)的585种三维性质参数,包括:Randic分子剖面参数,几何特征参数,基于不同原子间距的径向基函数描述子(RDF),基于电衍射法的分子结构表征(MoRSE)得到的描述子,加权整体不变分子的(WHIM)描述子及几何、拓扑与原子重量的集合(GETAWAY)参数;
采用主成分分析处理585种性质参数,得到4个主成分,其累计解释原始数据矩阵(5×585)99.68%的方差,其主成分得分见表1,因此,可用此4个主成分得分矩阵(5×4)代替原始变量矩阵(5×585)。为方便,称此4个主成分得分矢量为碱基三维性质得分,因为此4个得分综合了585种性质参数的大部分信息,因此,可将其用于核酸序列结构表征。
表15种碱基的585种三维性质参数的4个主成分得分
b)用碱基三维性质得分涉及的4个主成分得分对寡核苷酸的结构进行表征,其中的每个碱基用4个碱基三维性质得分表征;
选择39条寡核苷酸序列(Gilar et al.,J.Chromatogr.A,2002,958:167),用碱基三维性质得分矢量所涉及的4个主成分对所选序列沿5’→3’方向进行表征,序列中的每个碱基用4个碱基广义性质得分表征。每个序列根据其含有的碱基数目(定义为n),以n×4个变量表征。
c)用自交叉协方差处理得到的每个寡核苷酸的表征变量,设置步长l为9,使每个寡核苷酸的表征变量数目一致;
用自交叉协方差处理得到每个寡核苷酸序列的表征变量,该法考虑了序列不同位点碱基参数之间所有交互效应,因此,在数据变换过程中可最大程度地降低信息损失。设样本集中最短序列长度为l+1,对任意一个含有n个碱基的序列,自交叉协方差(ACC)处理如下:
式中:l为步长;i和i+l为序列中碱基所处位置;a和b分别为第i和i+l个碱基相应描述子分量号,对于碱基三维性质得分矢量,其a,b=1,2,3,4。可看到,当计算所有可能步长时(l=1,2,3,...,l),样本集中不同长度的序列经自交叉协方差处理后其描述子数目最终都为42×l个,此处选择步长l为9,这样每条序列可由42×9=144个变量表征,将经自交叉协方差处理得到的变量作为寡核苷酸色谱保留时间预测模型的自变量。
d)用遗传算法挑选与寡核苷酸的色谱保留时间密切相关的性质参数,并作为模型的输入变量;
用遗传算法(Hasegawa et al.,J Chem.Inf.Comput.Sci.,1997,37:306)挑选与与寡核苷酸的色谱保留时间密切相关的结构性质参数,经比较,以144个原始自变量作为支持向量机的输入,无论建模还是外部预测效果都较差,故用遗传算法挑选与其色谱保留时间密切相关的变量,挑选出52个变量,作为模型的输入变量。
e)用径向基核支持向量机建立寡核苷酸色谱保留时间预测模型,以自取代检验,留一法交互检验以及外部检验验证模型的预测能力,将每个寡核苷酸样本的输入变量带入模型并计算色谱保留时间;
以挑选出的52个变量作为输入,用径向基核支持向量机建立寡核苷酸色谱保留时间预测模型。先将39个总样本按照2∶1分为训练集样本和测试集样本,然后用自取代检验,留一法交互检验验证模型的内部预测能力,用对测试集的外部预测结果评价模型的外部预测能力。
模型预测能力由如下适应度函数评价:Q2 cv=1-PRESS/SSY,式中,Q2 cv为留一法交互验证的复相关系数R2;PRESS为预测残差平方和;SSY为Y值(色谱保留时间值)离差平方和。
预测结果见表2,可看出,当C为512.0,e为0.00098,γ为0.03125时,自取代检验、留一法交互检验和外部检验的相关系数分别为R2=0.999,Q2 cv=0.856,Q2 ext=0.916,误差(MSE)分别为0.0016、0.1268和0.0691。结果表明,所建方法具有较强的色谱保留时间预测能力。
表2寡核苷酸色谱保留时间预测结果
以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (1)
1.一种寡核苷酸色谱保留时间预测方法,其特征在于包括如下步骤:
a)具体包括a1)精选5种碱基的585种三维性质参数;a2)对585种性质参数做主成分分析,得到4个主成分;a3)计算各主成分得分,建立碱基三维性质得分;
b)用碱基三维性质得分涉及的4个主成分得分对寡核苷酸的结构进行表征,其中的每个碱基用4个碱基三维性质得分表征;
c)用自交叉协方差处理得到的每个寡核苷酸的表征变量,设置步长l为9,使每个寡核苷酸的表征变量数目一致;
d)用遗传算法挑选与寡核苷酸的色谱保留时间密切相关的性质参数,并作为模型的输入变量;
e)应用径向基核支持向量机建立寡核苷酸色谱保留预测模型,以自取代检验,留一法交互检验以及外部检验验证模型的预测能力,将每个寡核苷酸样本的输入变量带入模型并计算色谱保留时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101918221A CN101846658B (zh) | 2009-12-08 | 2009-12-08 | 一种寡核苷酸色谱保留时间预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101918221A CN101846658B (zh) | 2009-12-08 | 2009-12-08 | 一种寡核苷酸色谱保留时间预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101846658A true CN101846658A (zh) | 2010-09-29 |
CN101846658B CN101846658B (zh) | 2012-07-04 |
Family
ID=42771346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101918221A Expired - Fee Related CN101846658B (zh) | 2009-12-08 | 2009-12-08 | 一种寡核苷酸色谱保留时间预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101846658B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102445504A (zh) * | 2011-09-26 | 2012-05-09 | 天津大学 | 以非线性塔板理论预测多阶程序升温保留时间的方法 |
CN106442787A (zh) * | 2016-09-30 | 2017-02-22 | 中国烟草总公司郑州烟草研究院 | 液相色谱保留指数的建立及其在化合物定性方面的应用 |
CN108490106A (zh) * | 2018-06-26 | 2018-09-04 | 华中科技大学 | 一种全二维气相色谱法中第二维保留指数的简便测定方法 |
CN109997040A (zh) * | 2016-11-07 | 2019-07-09 | 赫洛马莱翁特责任有限公司 | 通过在液相色谱中使用新型保留指数系统鉴定未知化合物 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1226621C (zh) * | 2003-03-28 | 2005-11-09 | 中国石油化工股份有限公司 | 一种色-质联用预测原油馏分性质的方法 |
CN101509905B (zh) * | 2009-03-04 | 2012-02-01 | 中国人民解放军第二军医大学 | 一种气相色谱二阶程序升温色谱峰保留时间预测的方法 |
-
2009
- 2009-12-08 CN CN2009101918221A patent/CN101846658B/zh not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102445504A (zh) * | 2011-09-26 | 2012-05-09 | 天津大学 | 以非线性塔板理论预测多阶程序升温保留时间的方法 |
CN102445504B (zh) * | 2011-09-26 | 2013-06-26 | 天津大学 | 以非线性塔板理论预测多阶程序升温保留时间的方法 |
CN106442787A (zh) * | 2016-09-30 | 2017-02-22 | 中国烟草总公司郑州烟草研究院 | 液相色谱保留指数的建立及其在化合物定性方面的应用 |
CN106442787B (zh) * | 2016-09-30 | 2019-04-12 | 中国烟草总公司郑州烟草研究院 | 液相色谱保留指数的建立及其在化合物定性方面的应用 |
CN109997040A (zh) * | 2016-11-07 | 2019-07-09 | 赫洛马莱翁特责任有限公司 | 通过在液相色谱中使用新型保留指数系统鉴定未知化合物 |
CN108490106A (zh) * | 2018-06-26 | 2018-09-04 | 华中科技大学 | 一种全二维气相色谱法中第二维保留指数的简便测定方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101846658B (zh) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696624B (zh) | 基于自注意力机制的dna结合蛋白鉴定和功能注释的深度学习方法 | |
CN107038348B (zh) | 基于蛋白-配体相互作用指纹图谱的药物靶标预测方法 | |
Zeng et al. | Revealing high-fidelity phase selection rules for high entropy alloys: A combined CALPHAD and machine learning study | |
Liu et al. | A computational interactome for prioritizing genes associated with complex agronomic traits in rice (Oryza sativa) | |
CN101846658B (zh) | 一种寡核苷酸色谱保留时间预测方法 | |
Troyanskaya | Putting microarrays in a context: integrated analysis of diverse biological data | |
CN103617203B (zh) | 基于查询驱动的蛋白质-配体绑定位点预测方法 | |
JP5211458B2 (ja) | 化合物の仮想スクリーニング方法および装置 | |
Contreras-Moreira et al. | FootprintDB: analysis of plant cis-regulatory elements, transcription factors, and binding interfaces | |
CN109215737A (zh) | 蛋白质特征提取、功能模型生成、功能预测的方法及装置 | |
KR20180017827A (ko) | 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 시스템 | |
CN101710364A (zh) | 一种蛋白质与rna相互作用位点计算识别方法 | |
Zomer et al. | Active learning support vector machines for optimal sample selection in classification | |
Fujibuchi et al. | PROSPECT improves cis-acting regulatory element prediction by integrating expression profile data with consensus pattern searches | |
CN110223730B (zh) | 蛋白质与小分子结合位点预测方法、预测装置 | |
Chen et al. | iEsGene-ZCPseKNC: Identify Essential Genes Based on Z Curve Pseudo $ k $-Tuple Nucleotide Composition | |
Pham et al. | Mining yeast transcriptional regulatory modules from factor DNA-binding sites and gene expression data | |
EP4128246A1 (en) | Biologics engineering via aptamomimetic discovery | |
US20140171332A1 (en) | System for the efficient discovery of new therapeutic drugs | |
Villar et al. | Substructural analysis in drug discovery | |
McNally et al. | Exploring ‘omics’ of genetic resources to mitigate the effects of climate change | |
Opiyo et al. | Mining the Arabidopsis and rice genomes for cyclophilin protein families | |
Runge et al. | RnaBench: A Comprehensive Library for In Silico RNA Modelling | |
CN116741264A (zh) | 考虑转移熵和空间近邻进化信息的基于集成模型的蛋白质变构位点预测方法 | |
Skuse et al. | Bioinformatics tools for plant genomics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120704 Termination date: 20121208 |