CN103020489A - 基于ARM微处理器的siRNA干扰效率预测新方法 - Google Patents

基于ARM微处理器的siRNA干扰效率预测新方法 Download PDF

Info

Publication number
CN103020489A
CN103020489A CN2013100001141A CN201310000114A CN103020489A CN 103020489 A CN103020489 A CN 103020489A CN 2013100001141 A CN2013100001141 A CN 2013100001141A CN 201310000114 A CN201310000114 A CN 201310000114A CN 103020489 A CN103020489 A CN 103020489A
Authority
CN
China
Prior art keywords
sirna
sequence
frequency
mrna
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100001141A
Other languages
English (en)
Other versions
CN103020489B (zh
Inventor
刘元宁
张�浩
段云娜
常亚萍
张晓旭
韩烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201310000114.1A priority Critical patent/CN103020489B/zh
Publication of CN103020489A publication Critical patent/CN103020489A/zh
Application granted granted Critical
Publication of CN103020489B publication Critical patent/CN103020489B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种RNA干扰时预测siRNA干扰效率的方法,涉及生物信息学研究领域,其目的在于解决现有预测siRNA干扰效率方法中准确率不高的问题。本发明包括如下的步骤:将siRNA序列输入CPLD;按照特征提取规则表将siRNA序列重新编码,由于靶mRNA的序列和结构特征也对siRNA干扰效率有影响,故对siRNA序列编码的同时,也对靶mRNA进行编码;最后用随机森林模型进行siRNA干扰效率预测,在预测时首先用已知样本建立优化的模型,采用bootstrap抽样方法产生的OOB数据进行OOB估计,通过不断的调解模型的参数,使模型的泛化误差达到最小,然后再用优化的模型进行siRNA干扰效率预测。

Description

基于ARM微处理器的siRNA干扰效率预测新方法
技术领域
本发明属生物信息学研究领域,尤其涉及在RNA干扰(RNA干扰是指由双链RNA诱发同源mRNA高效特异性降解的现象)技术中进行siRNA分子设计时预测siRNA干扰效率的方法。
背景技术
RNA干扰技术是近年来发展起来的一种有效基因研究工具,它的广泛应用加快了功能基因组学的研究步伐,同时也推动了基因治疗等相关领域的研究,影响RNA干扰效率的关键因素之一是siRNA序列(siRNA序列是由A、U、G、C四种碱基组成的长度为19或21的一串字符)设计。RNA干扰技术要求siRNA序列与靶点处的mRNA序列严格匹配,单个碱基错配可能使RNA干扰失效,因此,设计有效的siRNA序列能够提高基因沉默的效率。大量实验表明,针对同一靶mRNA设计的siRNA作用效果差别大,原因是siRNA的沉默效率受到靶mRNA序列和自身序列等因素影响。对于一个靶基因,按照传统的设计规则,会有成百上千个候选的siRNA序列,从中找到最有效的序列是siRNA设计领域中的难题之一。由于采用生物实验方法进行siRNA设计需要大量的人力物力,实验成本高、周期长、效率低,所以通过生物信息学与计算机辅助手段来优化siRNA设计,成为实现RNA干扰的有效手段。
由于RNA干扰的广泛应用,近年来出现了多个预测siRNA效率的方法,分为两类:第一类是基于规则的效率预测方法;第二类是基于机器学习的效率预测方法。在第一种方法中,研究者们比较、分析了高效siRNA序列与低效siRNA序列的差异,总结出能提高siRNA设计效率的规则,对候选的siRNA序列按照其满足规则的情况进行打分,一般情况下,得分较高的认为会有较高的沉默效率。但这种方法将每条规则的权重视为相同,没有区别对待;此外,这种方法还不能定量评估侯选siRNA序列的效率,只能区分siRNA有效或无效。因此,此类方法效率较低。第二类是基于机器学习的效率预测方法,这类方法能定量的预测siRNA的效率,提高了设计的准确性。所以本方法也采用机器学习的方法来进行siRNA干扰效率预测。目前siRNA效率预测大多数都考虑siRNA的特征、双链的能量特征等,但是没有考虑mRNA的motif特征、结构特征。我们认为mRNA全局的序列特征、结构特征对siRNA的干扰效率有影响,所以提出基于mRNA全局特征的siRNA干扰效率预测方法。
随机森林(random forest)是2001年Breiman提出的一种新的组合分类器算法。它的特点如下:具有较高的准确率,且不容易出现过拟合;采用bootstrap重抽样方法和随机选择特征进行分裂相结合,使该算法能较好地容忍噪声;可采用有效的估计方法来处理有缺失的数据,即使缺失数据的比重较大,也可以有很高的准确率。结合随机森林的特点,我们采用随机森林对siRNA的效率进行回归预测。这里Bootstrap抽样方法是指:对于一个含有N个样本的数据集,有放回的随机抽取N次,每一次都从N个样本中抽一个,由于每一次都是随机抽取,每一个样本被抽取的概率是一样的,所以有的样本可能被抽中多次,有的可能一次也没有被抽中。一次也没有被抽中的样本称为袋外数据OOB(out-of-bag)数据,采用OOB数据来估计模型的性能称为OOB估计。对于每一棵树,我们都可以得到它的OOB误差估计,取森林中所有树的OOB误差估计的均值,即可得到随机森林的泛化误差估计。
发明内容
本发明的目的在于提供一种能快速、准确地预测siRNA干扰效率的方法。该方法所需要的硬件设备包括处理器、内存、主板。
本发明包括下列步骤:
1.将siRNA序列输入CPLD。CPLD(Complex Programmable Logic Device)为复杂可编程逻辑器件,从PAL和GAL器件发展而来,相对而言规模大,结构复杂,属于大规模集成电路范围,是一种用户根据各自需要而自行构造逻辑功能的数字集成电路。CPLD基本设计方法借助集成开发软件平台,用原理图、硬件描述语言等方法,生成相应的目标文件,通过下载电缆(“在系统”编程)将代码传送到目标芯片中来实现设计。PAL指可编程阵列逻辑,是70年代末由MMI公司率先推出的一种低密度、一次性可编程逻辑器件。GAL为通用阵列逻辑,从PAL发展而来,因为采用了EECMOS工艺使得该器件的编程非常方便。
2.CPLD通过特征提取规则表(存放的是特征对应的编码,通过查此表,即可获得相应siRNA的编码序列),将siRNA序列以编码的形式存储于SRAM中,特征提取规则表存在于计算机系统中,由于数据存在存储器中,我们可以根据需要,实时调用它,它将所获取的siRNA序列,转换为易于系统分析的数字模式(通过查特征提取规则表,即可得到siRNA序列所对应的数字编码)。SRAM是静态存储器,它是一种具有静止存取功能的内存,不需要刷新电路即能保存它内部存储的数据。
本方法所提取的特征包括两大类:
第一类:siRNA序列特征:
1)siRNA序列中每位碱基的数字化编码,A为0.1,U为0.2,G为0.3,C为0.4;
2)siRNA序列中motif(1-3mer)的频率,1mer频率指碱基A、U、G、C在siRNA序列中的频率,2mer频率指碱基组合AA、AU、AG、AC等16个碱基组合在siRNA序列中的频率,3mer频率指AAA、AAU、AAG、AAC等64个碱基组合在siRNA序列中的频率;
3)由能量表示的靶序列与siRNA反义链形成的双链稳定性,按Watson-Crick碱基结合能量规则计算双链结合能,每次取相邻两对碱基结合能量,最后将所有能量求和;
4)siRNA双链5’端能量差,反义链5’端4对碱基能量和与正义链5’端4对碱基能量和之间的差。
第二类:mRNA序列特征和结构特征:
1)mRNA序列中motif(1-3mer)的频率,1mer频率指碱基A、U、G、C在mRNA序列中的频率,2mer频率指碱基组合AA、AU、AG、AC等16个碱基组合在mRNA序列中的频率,3mer频率指AAA、AAU、AAG、AAC等64个碱基组合在mRNA序列中的频率;
2)mRNA的GC含量,计算碱基G、C在mRNA序列所占比例;
3)mRNA长度,mRNA中碱基个数;
4)mRNA茎比率,mRNA通过结构预测得到的茎区比例。
3.选用ARM微处理器进行siRNA干扰效率预测。ARM微处理器具有强大的处理能力和极低的功耗,现在越来越多的公司在产品选型的时候使用它。用ARM微处理器进行siRNA干扰效率预测,具体包括下列步骤:
1)将siRNA序列对应的数字化信息,载入到随机森林模型中。
2)根据已知样本的siRNA序列对应的数字化信息,建立优化的随机森林模型,通过调解相应的参数,使模型的泛化误差(即分类器对训练集之外数据的误分率)最小。
A、首先采用bootstrap重抽样方法从初始样本集中随机抽取ntree个训练集,每个训练集的大小约为初始样本集的三分之二,为每一个训练集分别建立分类回归树,则会产生由ntree棵决策树构成的一片森林,每棵决策树都不进行剪枝。由于随机森林不裁剪回归树,所以树的总个数ntree默认为500。
B、假设初始样本有M个特征,则在每棵回归树的每个内部节点处随机抽取mtry个特征作为候选特征(mtry<<M),选择这mtry个特征上最好的分裂方式对节点进行分裂。在回归模型中,默认参数mtry=M/3,在整个森林的生长过程中,mtry的值保持不变。
C、每棵回归树开始自顶向下的递归分枝,一般情况下,设定叶节点包含样本的个数nodesize为5(回归问题),将此作为终止回归树生长的条件。
D、随机森林采用bootstrap重抽样方法来抽取训练样本,大约有三分之一的数据未被抽中,这些数据称为袋外(out-of-bag)数据。将由ntree棵回归树组成的随机森林回归模型,其回归效果评价采用袋外数据(OOB)预测的残差均方。
3)输入需要预测的siRNA序列对应的数字化信息到已建立的随机森林模型中,进行干扰效率预测,最后将预测的结果输出到LCD液晶显示器。
本发明首先将siRNA序列进行编码,编码时既考虑siRNA的序列特征也考虑mRNA序列和结构信息,将编码后的数字化信息,载入到随机森林中进行效率预测。首先通过调解相应的参数,使模型的泛化误差达到最小,从而建立优化的预测模型;然后再把需要预测的siRNA序列相对应的数字化信息输入到已建好的模型中,进行siRNA干扰效率的预测。
本发明使用并行技术将siRNA的干扰效率更快速准确的预测出来,本发明还能对国际公共数据库中随机选取的siRNA序列进行测试与分析。
附图说明
图1为基于ARM微处理器的siRNA干扰效率预测新方法流程图
图2为基于ARM微处理器的siRNA干扰效率预测新方法的系统结构示意图
图3为100条负样本中碱基A在每一列中出现的频率
图4为100条负样本中碱基U在每一列中出现的频率
图5为100条负样本中碱基G在每一列中出现的频率
图6为100条负样本中碱基C在每一列中出现的频率
图7为100条正样本中碱基A在每一列中出现的频率
图8为100条正样本中碱基U在每一列中出现的频率
图9为100条正样本中碱基G在每一列中出现的频率
图10为100条正样本中碱基C在每一列中出现的频率
从图3和图7可以看出碱基A在正负样本中出现的频率有很大差异,在正样本每列中出现的频率相对稳定;由图4和图8可以看出,碱基U在负样本中出现的频率在0.2左右,在正样本中出现的频率在0.28左右;由图5和图9可以看出,碱基G在负样本中出现的频率在0.25左右,在正样本中出现的频率在0.175左右;由图6和图10可以看出,碱基C在负样本中出现的频率在0.25左右,在正样本中出现的频率在0.2左右。
具体实施方式
本发明是一种基于ARM微处理器的siRNA干扰效率预测新方法,如图1所示,将所得siRNA序列输入CPLD,通过特征提取规则表把siRNA序列进行编码,使siRNA序列以编码序列的形式存储于SRAM中,然后用ARM微处理器,进行siRNA干扰效率预测,在预测前需要先建立基于随机森林的回归模型,通过调解参数,使模型的泛化误差达到最小,然后把需要预测的siRNA序列相对应的数字化信息载入到已建立的随机森林模型中,进行干扰效率预测,最后将预测的结果输出到LCD液晶显示器。

Claims (8)

1.基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于包括下列步骤:
1)进行siRNA序列预处理(siRNA序列是由A、U、G、C四种碱基组成的长度为19或21的一串字符);
2)进行siRNA干扰效率的预测。
2.按权利要求1所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于步骤1)所述的siRNA序列预处理包括下列步骤:
1)将siRNA序列输入CPLD(CPLD是复杂可编程逻辑器件,属于大规模集成电路范围,用户能够根据需要自行构造逻辑功能);
2)通过特征提取规则表(存放的是特征对应的编码,通过查此表,即可获得相应siRNA的编码序列)将siRNA序列以编码的形式存储于SRAM(SRAM是静态存储器)中。
3.按权利要求1所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于步骤2)所述的siRNA序列干扰效率预测包括下列步骤:
1)将siRNA序列对应的数字化信息,载入到随机森林模型中;
2)根据已知样本的siRNA序列对应的数字化信息,建立优化的随机森林模型,通过调解相应的参数,使模型的泛化误差(泛化误差是分类器对训练集之外数据的误分率)最小;
3)输入需要预测的siRNA序列对应的数字化信息到已建立的随机森林模型中,进行干扰效率预测,最后将预测的结果输出到LCD液晶显示器。
4.按权利要求2所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于步骤2)所述的特征提取规则表中所用特征如下:
1)siRNA序列特征;
2)mRNA序列特征和结构特征。
5.按权利要求2所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于步骤2)所述的特征提取规则表存在于计算机系统中,并可实时调用,它将所获取的siRNA序列,转换为易于系统分析的数字模式。
6.按权利要求3所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于步骤2),采用bootstrap抽样方法产生OOB(out-of-bag)数据,进行OOB估计,得到随机森林的泛化误差估计。
7.按权利要求4所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于所用特征1)中提取了下列特征:
1)siRNA序列中每位碱基的数字化编码,A为0.1,U为0.2,G为0.3,C为0.4;
2)siRNA序列中motif(1-3mer)的频率,1mer频率指碱基A、U、G、C在siRNA序列中的频率,2mer频率指碱基组合AA、AU、AG、AC等16个碱基组合在siRNA序列中的频率,3mer频率指AAA、AAU、AAG、AAC等64个碱基组合在siRNA序列中的频率;
3)由能量表示的靶序列与siRNA反义链形成的双链稳定性,按Watson-Crick碱基结合能量规则计算双链结合能,每次取相邻两对碱基结合能量,最后将所有能量求和;
4)siRNA双链5’端能量差,反义链5’端4对碱基能量和与正义链5’端4对碱基能量和之间的差。
8.按权利要求4所述的基于ARM微处理器的siRNA干扰效率预测新方法,其特征在于所用特征2)提取了下列特征:
1)mRNA序列中motif(1-3mer)的频率,1mer频率指碱基A、U、G、C在mRNA序列中的频率,2mer频率指碱基组合AA、AU、AG、AC等16个碱基组合在mRNA序列中的频率,3mer频率指AAA、AAU、AAG、AAC等64个碱基组合在mRNA序列中的频率;
2)mRNA的GC含量,计算碱基G、C在mRNA序列所占比例;
3)mRNA长度,mRNA中碱基个数;
4)mRNA茎比率,mRNA通过结构预测得到的茎区比例。
CN201310000114.1A 2013-01-04 2013-01-04 基于ARM微处理器的siRNA干扰效率预测系统 Expired - Fee Related CN103020489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310000114.1A CN103020489B (zh) 2013-01-04 2013-01-04 基于ARM微处理器的siRNA干扰效率预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310000114.1A CN103020489B (zh) 2013-01-04 2013-01-04 基于ARM微处理器的siRNA干扰效率预测系统

Publications (2)

Publication Number Publication Date
CN103020489A true CN103020489A (zh) 2013-04-03
CN103020489B CN103020489B (zh) 2016-04-20

Family

ID=47969087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310000114.1A Expired - Fee Related CN103020489B (zh) 2013-01-04 2013-01-04 基于ARM微处理器的siRNA干扰效率预测系统

Country Status (1)

Country Link
CN (1) CN103020489B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572786A (zh) * 2013-10-29 2015-04-29 华为技术有限公司 随机森林分类模型的可视化优化处理方法及装置
CN107577922A (zh) * 2017-09-20 2018-01-12 吉林大学 一种基于ARM处理器的玉米lncRNA筛选分类方法
CN109212553A (zh) * 2018-09-14 2019-01-15 南京林业大学 无人机LiDAR和随机森林提取银杏生物物理特性的方法
CN110400601A (zh) * 2019-08-23 2019-11-01 元码基因科技(无锡)有限公司 基于rna靶向测序和机器学习的癌症亚型分型方法及装置
CN112951322A (zh) * 2021-03-08 2021-06-11 深圳市新合生物医疗科技有限公司 一种基于网格搜索的规则权重分配siRNA设计方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354420B (zh) * 2020-03-08 2020-12-22 吉林大学 一种用于COVID-19病毒药物治疗的siRNA研发方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LIANGJIANG WANG 等: "《Proceedings of The ISIBM International Joint Conferences on Bioinformatics, Systems Biology and Intelligent Computing (IJCBS)》", 1 December 2010 *
吴祖建: "《生物信息学分析实践》", 30 June 2010 *
李建龙 等: "《siRNA活性与mRNA二级结构关系的研究》", 《生物医学工程研究》 *
江澎: "《基于机器学习算法的DNA重组与非编码RNA预测模型研究》", 《万方学位论文全文数据库》 *
马薇: "《非编码RNA的生物信息学研究》", 《万方学位论文全文数据库》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572786A (zh) * 2013-10-29 2015-04-29 华为技术有限公司 随机森林分类模型的可视化优化处理方法及装置
WO2015062209A1 (zh) * 2013-10-29 2015-05-07 华为技术有限公司 随机森林分类模型的可视化优化处理方法及装置
CN107577922A (zh) * 2017-09-20 2018-01-12 吉林大学 一种基于ARM处理器的玉米lncRNA筛选分类方法
CN107577922B (zh) * 2017-09-20 2020-07-03 吉林大学 一种基于ARM处理器的玉米lncRNA筛选分类方法
CN109212553A (zh) * 2018-09-14 2019-01-15 南京林业大学 无人机LiDAR和随机森林提取银杏生物物理特性的方法
CN110400601A (zh) * 2019-08-23 2019-11-01 元码基因科技(无锡)有限公司 基于rna靶向测序和机器学习的癌症亚型分型方法及装置
CN112951322A (zh) * 2021-03-08 2021-06-11 深圳市新合生物医疗科技有限公司 一种基于网格搜索的规则权重分配siRNA设计方法
CN112951322B (zh) * 2021-03-08 2023-09-26 深圳市新合生物医疗科技有限公司 一种基于网格搜索的规则权重分配siRNA设计方法

Also Published As

Publication number Publication date
CN103020489B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
Luo et al. Greater than the sum of the parts: how the species composition in different forest strata influence ecosystem function
CN103020489A (zh) 基于ARM微处理器的siRNA干扰效率预测新方法
CN104216954B (zh) 突发事件话题状态的预测装置及预测方法
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN111354420B (zh) 一种用于COVID-19病毒药物治疗的siRNA研发方法
CN105335491B (zh) 基于用户点击行为来向用户推荐图书的方法和系统
CN108509413A (zh) 文摘自动提取方法、装置、计算机设备及存储介质
CN101404033A (zh) 本体层级结构的自动生成方法及系统
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN104572449A (zh) 一种基于用例库的自动化测试方法
CN105893787A (zh) 一种蛋白质翻译后修饰甲基化位点的预测方法
CN101727500A (zh) 一种基于流聚类的中文网页文本分类方法
CN104679738A (zh) 互联网热词挖掘方法及装置
CN103324632B (zh) 一种基于协同学习的概念识别方法及装置
CN107168868B (zh) 一种基于采样和集成学习的软件更改缺陷预测方法
Gal et al. Fluctuations in water level and the dynamics of zooplankton: a data‐driven modelling approach
Williams et al. Plant microRNA prediction by supervised machine learning using C5. 0 decision trees
CN108920446A (zh) 一种工程文本的处理方法
CN103390171A (zh) 一种安全的半监督学习方法
Tan et al. Fracturing productivity prediction model and optimization of the operation parameters of shale gas well based on machine learning
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN107577922B (zh) 一种基于ARM处理器的玉米lncRNA筛选分类方法
CN105320720B (zh) 相关规则分析装置以及相关规则分析方法
CN109656712A (zh) 一种提取grib码数据的方法及系统
CN116861800B (zh) 一种基于深度学习的油井增产措施优选及效果预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160420

Termination date: 20180104