CN111354420A - 一种用于COVID-19病毒药物治疗的siRNA研发方法 - Google Patents

一种用于COVID-19病毒药物治疗的siRNA研发方法 Download PDF

Info

Publication number
CN111354420A
CN111354420A CN202010154526.0A CN202010154526A CN111354420A CN 111354420 A CN111354420 A CN 111354420A CN 202010154526 A CN202010154526 A CN 202010154526A CN 111354420 A CN111354420 A CN 111354420A
Authority
CN
China
Prior art keywords
sirna
index
base
sense strand
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010154526.0A
Other languages
English (en)
Other versions
CN111354420B (zh
Inventor
朱晓冬
陈梦欣
刘元宁
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202010154526.0A priority Critical patent/CN111354420B/zh
Publication of CN111354420A publication Critical patent/CN111354420A/zh
Application granted granted Critical
Publication of CN111354420B publication Critical patent/CN111354420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种用于COVID‑19病毒药物治疗的siRNA研发方法,其方法为:第一部分:基于多指标进行潜在高效siRNA的初步筛选,具体步骤为:步骤一、选取S基因序列作为靶序列;步骤二、得出相应的siRNA双链;步骤三、在36‑53%的siRNA序列;步骤四、筛选出自由能的siRNA;步骤五、定义并计算指标一;步骤六、在前50%的siRNA;步骤七、定义并计算指标二;步骤八、筛选出指标二>=5的siRNA;步骤九、定义并计算指标三;步骤十、排名在前50%的siRNA;步骤十一、直接取步骤十选出的全部候选siRNA;步骤十二、特异性靶向目标靶序列;步骤十三、取剩余的siRNA作为经过初步筛选的siRNA;第二部分:用机器学习模型进行干扰效率预测择优,有益效果:实现了安全可靠,高干扰效率的siRNA设计。

Description

一种用于COVID-19病毒药物治疗的siRNA研发方法
技术领域
本发明涉及一种药物治疗的siRNA研发方法,特别涉及一种用于COVID-19病毒药物治疗的siRNA研发方法。
背景技术
目前,RNA干扰技术是近年来发展起来的一种有效的基因研究工具,它的广泛应用加快了功能基因组学的研究步伐,同时也推动了基因治疗等相关领域的研究。影响RNA干扰效率的一个关键因素就是siRNA序列的设计,RNA干扰技术要求siRNA序列与靶点处的mRNA序列要严格匹配,单个碱基的错配就有可能使RNA干扰失效,因此,设计有效的siRNA序列能够提高基因沉默的效率。大量实验表明,针对同一靶mRNA设计的siRNA作用效果差别很大,原因是siRNA的沉默效率受到靶mRNA序列和自身序列等诸多因素的影响。对于一个靶基因,按照传统的设计规则,可能会有成百上千个候选的siRNA序列,因此,从候选的siRNA序列中找到最有效的序列,是siRNA设计领域中的一个难题。由于采用生物实验的方法来进行siRNA设计,需要大量的人力物力,实验成本高、周期长、效率低,所以通过生物信息学与计算机辅助手段来优化siRNA设计,成为实现RNA干扰的有效手段。
由于RNA干扰的广泛应用,近几年来出现了很多预测siRNA效率的方法,这些方法可以分为两类,一类是基于规则的效率预测方法:研究者们通过比较、分析高效的siRNA序列和低效率的siRNA序列的差异,总结出一些提高siRNA设计效率的原则,对于候选的siRNA序列按照其满足规则的情况进行打分,一般情况下,得分较高的认为会有较高的沉默效率。由于所用的样本集不同、且样本量不够大使得经验规则中给出的特定位的碱基偏好性,并不是完全一致的,这样使得候选siRNA的数目很多,所以从大量候选的siRNA中,选择出最有效的siRNA序列是目前迫切需要解决的问题。基于规则的方法来进行siRNA效率预测,把每条规则的权重看成是一样的,没有考虑按不同的权重来区别对待每条规则,并且基于规则的设计方法,不能定量的评估候选siRNA序列的效率。这类方法只能区分出有效的siRNA和无效的siRNA,不能进行定量的预测,这类方法的效率较低,因此往往满足单一评选方法的候选siRNA的数量很多。我们通过对以往设计siRNA的方法及原则进行研究,提出一种用于高效siRNA筛选的新指标:指标一,用于对目标靶序列的全部候选siRNA进行初步筛选。第二类是基于机器学习的效率预测方法,这类方法能定量的预测siRNA的效率,提高了设计的准确性。所以该方法也采用机器学习的方法来进行siRNA干扰效率预测以进一步择优。目前siRNA效率预测大多数都是考虑siRNA的特征、以及双链的能量特征等,但是没有考虑mRNA的motif特征、结构特征。我们认为mRNA全局的序列特征、结构特征对siRNA的干扰效率是有影响的。所以我们提出考虑mRNA的全局特征来进行siRNA干扰效率的预测。
随机森林(random forest)是2001年Breiman提出的一种新的组合分类器算法。在目前的机器学习方法中,随机森林具有较高的准确率,且不容易出现过拟合;采用bootstrap重抽样方法和随机选择特征进行分裂相结合,使该算法能较好地容忍噪声;可采用有效的估计方法来处理有缺失的数据,即使缺失数据的比重较大,也可以有很高的准确率。所以我们用随机森林对siRNA的效率进行回归预测,以从经过多重经验规则筛选出的siRNA中定量选取预测干扰效率高的部分siRNA作为针对该靶序列设计的siRNA的最终设计结果。
发明内容
本发明的主要目的是为了解决基于规则的设计方法不能定量的评估候选siRNA序列的效率的问题;
本发明的另一个目的是用随机森林对siRNA的效率进行回归预测,以从经过多重经验规则筛选出的siRNA中定量选取预测干扰效率高的部分siRNA作为针对该靶序列设计的siRNA的最终设计结果;
本发明为了达到上述目的、解决上述问题而提供的一种用于COVID-19病毒药物治疗的siRNA研发方法。
本发明提供的用于COVID-19病毒药物治疗的siRNA研发方法,其方法如下所述:
siRNA研发方法包括初步筛选、机器学习模型预测择优两部分,具体步骤如下:
第一部分:基于多指标进行潜在高效siRNA的初步筛选,具体步骤如下:
步骤一、选取COVID-19病毒基因组中S基因序列作为靶序列,将COVID-19病毒所有其他变异毒株的基因组进行多序列比对分析,确定目标靶序列的保守区域;
步骤二、对目标靶序列的保守区域的基因编码序列进行19nt长的核苷酸子序列的搜索,并根据基因互补规则,得出相应的siRNA双链;
步骤三、在步骤二中所得候选siRNA中,筛选出C、G含量在36-53%的siRNA序列;
步骤四、在步骤三中所得候选siRNA中,筛选出反义链5’端自由能大于或等于3’端自由能的siRNA;
步骤五、定义并计算指标一;
步骤六、对所选出的候选siRNA筛选出指标一排名在前50%的siRNA;
步骤七、定义并计算指标二;
步骤八、从候选siRNA筛选出指标二>=5的siRNA;
步骤九、定义并计算指标三;
步骤十、对所选出的候选siRNA筛选出指标三排名在前50%的siRNA;
步骤十一、若上述步骤选出的siRNA数量超过50,则按指标三从高到低排名,保留该排名中前50名的siRNA;否则直接取步骤十选出的全部候选siRNA;
步骤十二、对上述步骤选出的候选siRNA的靶序列与siRNA使用物种的基因进行BLAST同源分析,排除发生脱靶效应可能性高的siRNA,确保所设计的siRNA仅特异性靶向目标靶序列;
步骤十三、对上述步骤选出的候选siRNA的靶序列进行二级结构预测,排除靶序列二级结构复杂的siRNA,取剩余的siRNA作为经过初步筛选的siRNA;
第二部分:对经过初步筛选的siRNA用机器学习模型进行干扰效率预测择优,具体步骤如下:
步骤一、将已知干扰效率的siRNA数据集的序列输入CPLD;
CPLD(Complex Programmable Logic Device)复杂可编程逻辑器件,是从PAL和GAL器件发展出来的器件,相对而言规模大,结构复杂,属于大规模集成电路范围。是一种用户根据各自需要而自行构造逻辑功能的数字集成电路。其基本设计方法是借助集成开发软件平台,用原理图、硬件描述语言等方法,生成相应的目标文件,通过下载电缆(“在系统”编程)将代码传送到目标芯片中,实现设计的数字系统。PAL是指可编程阵列逻辑,是70年代末由MMI公司率先推出的一种低密度,一次性可编程逻辑器件。GAL是通用阵列逻辑,GAL器件是从PAL发现过来的,其采用了EECMOS工艺使得该器件的编程非常方便。
步骤二、CPLD通过特征提取规则表,将siRNA序列以编码的形式存储于SRAM中;
特征提取规则表存在于计算机系统中,由于数据存在存储器中,我们可以根据需要,实时调用它,它将所获取的siRNA序列,转换为易于系统分析的数字模式(通过查特征提取规则表,即可得到siRNA序列所对应的数字编码)。SRAM是英文Static RAM的缩写,它是一种具有静止存取功能的内存,不需要刷新电路即能保存它内部存储的数据。
步骤三、采用ARM微处理器作为运行平台,进行siRNA干扰效率预测。
由于节能的特点,ARM处理器非常适用于移动通信领域,符合其主要设计目标为低成本、高性能、低耗电的特性。ARM微处理器凭借强大的处理能力和极低的功耗,现在越来越多的公司在产品选型的时候考虑到使用ARM微处理器。
第一部分中步骤五中指标一的计算方式如下:
说明:有义链放置方向与靶序列从5‘端到3‘端的方向一致,位数即从左往右碱基在整个序列中的位数,具体如下:
第一步、指标一的值初始化为有义链最右端第1个到第3个碱基三个碱基中不含C、G个数减去有义链最左端三个碱基中不含C、G个数之差;
第二步、若有义链左端第1位碱基为C,G,则指标一+1;若有义链左端第1位碱基为U,则指标一-1;
第三步、若有义链左端第3位碱基为A,则指标一+1;
第四步、若有义链第6位碱基为A,则指标一+1;若有义链第6位碱基为C,则指标一-1;
第五步、若有义链左端第10位碱基为U,则指标一+1;
第六步、若有义链第11位碱基为C或G,则指标一+1;
第七步、若有义链第13位碱基为A,则指标一+1;若有义链第13位碱基为G,则指标一-1;
第八步、若有义链第16位为G,则指标一+1;
第九步、若有义链左端第17个碱基为C、G,则指标一-1;
第十步、若有义链最右端第19个碱基为A、U,指标一+1,若为G,则指标一-1;
第十一步、若有义链二级结构自由能>=-0.9,则指标一+1。
第一部分中步骤七中指标二的计算方式如下:
说明:有义链放置方向与靶序列从5‘端到3‘端的方向一致,位数即从左往右碱基在整个序列中的位数,具体如下:
第一步、指标二的值初始化为有义链最右端第1个到第5个碱基五个碱基中不含C、G碱基的个数;
第二步、若有义链最右端第19位碱基为A,则指标二+1,为C或G,则指标二-1;
第三步、若有义链第3位碱基为A,指标二+1;
第四步、若有义链第10位碱基为U,指标二+1,若为G,则指标二-1;
第五步、若有义链第13位碱基为G,则指标二-1;
第六步、若有义链二级结构自由能>=-0.9,则指标二+1。
第一部分中步骤八中的指标三的计算方式如下:
指标三的碱基参数如下表所示:
Figure BDA0002403602510000061
Figure BDA0002403602510000071
将有义链的每个碱基对应的上表中相应位数的碱基参数进行累加,即得到指标三。
第二部分中的siRNA干扰效率预测方法所提取的特征包括两大类,具体如下:
第一类、siRNA序列特征:把siRNA序列中每位碱基进行数字化:siRNA由21个碱基A、U、G、C组成,将每个碱基数字化,A编码为0.1、U编码为0.2、G编码为0.3、C编码为0.4;
siRNA序列中motif即1-3mer的频率:motif是指连续1个即1mer、连续2个即2mer、连续3个即3mer碱基所构成的小片断,1mer频率为碱基A、U、G、C在siRNA序列中的频率;2mer频率为碱基组合AA、AU、AG和AC 16个碱基组合在siRNA序列中的频率;3mer频率为AAA、AAU、AAG和AAC 64个碱基组合在siRNA序列中的频率;
靶序列与siRNA反义链所形成的双链稳定性:按照Watson-Crick碱基结合的能量规则计算双链结合的能量;
siRNA双链5’端的能量差:反义链5’端4对碱基能量和减去正义链5’端4对碱基能量和;
第二类:mRNA序列特征和结构特征:mRNA序列中motif即1-3mer的频率:如第一类特征所示计算mRNA的motif即1-3mer的频率;
mRNA的GC含量:碱基G和C在mRNA序列中所占比例;
mRNA的长度:mRNA中碱基的个数;
mRNA的茎比率:mRNA通过结构预测得到的茎区比例。
第二部分步骤三中进行siRNA干扰效率预测的具体步骤如下:
第一步、把siRNA序列相对应的数字化信息,载入到random forest中;
第二步、根据已知样本的siRNA序列相对应的数字化信息,建立相应的randomforest模型,通过调解相应的参数,使模型的泛化误差最小,建立random forest模型的具体步骤如下:
A、首先采用bootstrap重抽样方法从初始样本集中随机抽取ntree个训练集,每个训练集的大小为初始样本集的三分之二,为每一个训练集分别建立分类回归树,则会产生由ntree棵决策树构成的一片森林,每棵决策树都不进行剪枝,由于随机森林不裁剪回归树,所以树的总个数ntree默认为500;
B、假设初始样本有M个特征,则在每棵回归树的每个内部节点处随机抽取mtry个特征作为候选特征即mtry<<M,选择这mtry个特征上最好的分裂方式对节点进行分裂,在回归模型中,默认参数mtry=M/3,在整个森林的生长过程中,mtry的值保持不变;
C、每棵回归树开始自顶向下的递归分枝,一般情况下,设定叶节点包含样本的个数nodesize为5、将此作为终止回归树生长的条件;
D、随机森林采用bootstrap重抽样方法来抽取训练样本,有三分之一的数据未被抽中,这些数据称为袋外即out-of-bag数据,将由ntree棵回归树组成随机森林回归模型,其回归效果评价采用袋外数据OOB预测的残差均方;
第三步、输入第一阶段筛选后的siRNA序列相对应的数字化信息到已建立的random forest模型中,进行干扰效率预测,最后将预测的结果输出到LCD液晶显示器;
第四步、选取预测干扰效率在90%以上的候选siRNA,在其反义链3‘端、正义链5‘端分别添加UU碱基对,作为针对该靶基因设计的siRNA的最终结果。
本发明的有益效果:
本发明提出一种用于COVID-19病毒治疗药物研发的siRNA设计新方法。首先,将目标靶序列的所有候选siRNA综合多特征进行多种规则初步筛选,并利用多指标进行动态自适应性筛选,得到潜在高效siRNA。然后对已知干扰效率的siRNA数据集提取数字特征用于训练随机森林机器学习模型。在提取数字特征阶段,对siRNA序列进行编码,编码时既考虑siRNA的序列特征也考虑mRNA的序列和结构信息,然后将编码后的数字化信息,载入到random forest中进行训练。通过调解相应的参数,使模型的泛化误差达到最小,从而建立优化的预测模型,然后再把初步筛选出的siRNA序列相对应的数字化信息输入到已建好的模型中,进行siRNA干扰效率的预测。最终选取预测的沉默效率在90%以上的siRNA,在其反义链3‘端、正义链5‘端分别添加UU碱基对,作为针对该靶序列设计的siRNA最终结果。
本发明综合多种指标通过动态自适应性筛选选出潜在的高效siRNA,并结合机器学习技术量化预测siRNA的沉默效率,建立了轻量化多规则智能模型,并通过靶序列与使用siRNA物种基因组进行对照,确保siRNA仅针对靶序列的特异性,实现了安全可靠,高干扰效率的siRNA设计。本发明的预测siRNA干扰效率技术使用并行技术将siRNA的干扰效率更快速准确的预测出来。本发明提出一种用于COVID-19病毒治疗药物研发的siRNA设计的新方法,将有助于利用生物信息学方法设计出针对COVID-19病毒高干扰效率、安全可靠的siRNA,有效阻断宿主体内COVID-19病毒复制。本发明能有效抗击新冠肺炎疫情,并在抗病毒siRNA设计、治疗基因疾病以及基因功能研究方面具有广泛的应用前景。
附图说明
图1为本发明所述研发方法的流程示意图。
图2为本发明所述siRNA干扰效率预测方法的系统结构示意图。
具体实施方式
请参阅图1至图2所示:
本发明提供的用于COVID-19病毒药物治疗的siRNA研发方法,其方法如下所述:
siRNA研发方法包括初步筛选、机器学习模型预测择优两部分,具体步骤如下:
第一部分:基于多指标进行潜在高效siRNA的初步筛选,具体步骤如下:
步骤一、选取COVID-19病毒基因组中S基因序列作为靶序列,将COVID-19病毒所有其他变异毒株的基因组进行多序列比对分析,确定目标靶序列的保守区域;
步骤二、对目标靶序列的保守区域的基因编码序列进行19nt长的核苷酸子序列的搜索,并根据基因互补规则,得出相应的siRNA双链;
步骤三、在步骤二中所得候选siRNA中,筛选出C、G含量在36-53%的siRNA序列;
步骤四、在步骤三中所得候选siRNA中,筛选出反义链5’端自由能大于或等于3’端自由能的siRNA;
步骤五、定义并计算指标一;
步骤六、从候选siRNA筛选出指标一排名在前50%的siRNA;
步骤七、定义并计算指标二;
步骤八、对所选出的候选siRNA筛选出指标二>=5的siRNA;
步骤九、定义并计算指标三;
步骤十、对所选出的候选siRNA筛选出指标三排名在前50%的siRNA;
步骤十一、若上述步骤选出的siRNA数量超过50,则按指标三从高到低排名,保留该排名中前50名的siRNA;否则直接取步骤十选出的全部候选siRNA;
步骤十二、对上述步骤选出的候选siRNA的靶序列与siRNA使用物种的基因进行BLAST同源分析,排除发生脱靶效应可能性高的siRNA,确保所设计的siRNA仅特异性靶向目标靶序列;
步骤十三、对上述步骤选出的候选siRNA的靶序列进行二级结构预测,排除靶序列二级结构复杂的siRNA,取剩余的siRNA作为经过初步筛选的siRNA;
第二部分:对经过初步筛选的siRNA用机器学习模型进行干扰效率预测择优,具体步骤如下:
步骤一、将已知干扰效率的siRNA数据集的序列输入CPLD;
CPLD(Complex Programmable Logic Device)复杂可编程逻辑器件,是从PAL和GAL器件发展出来的器件,相对而言规模大,结构复杂,属于大规模集成电路范围。是一种用户根据各自需要而自行构造逻辑功能的数字集成电路。其基本设计方法是借助集成开发软件平台,用原理图、硬件描述语言等方法,生成相应的目标文件,通过下载电缆(“在系统”编程)将代码传送到目标芯片中,实现设计的数字系统。PAL是指可编程阵列逻辑,是70年代末由MMI公司率先推出的一种低密度,一次性可编程逻辑器件。GAL是通用阵列逻辑,GAL器件是从PAL发现过来的,其采用了EECMOS工艺使得该器件的编程非常方便。
步骤二、CPLD通过特征提取规则表,将siRNA序列以编码的形式存储于SRAM中;
特征提取规则表存在于计算机系统中,由于数据存在存储器中,我们可以根据需要,实时调用它,它将所获取的siRNA序列,转换为易于系统分析的数字模式(通过查特征提取规则表,即可得到siRNA序列所对应的数字编码)。SRAM是英文Static RAM的缩写,它是一种具有静止存取功能的内存,不需要刷新电路即能保存它内部存储的数据。
步骤三、采用ARM微处理器作为运行平台,进行siRNA干扰效率预测。
由于节能的特点,ARM处理器非常适用于移动通信领域,符合其主要设计目标为低成本、高性能、低耗电的特性。ARM微处理器凭借强大的处理能力和极低的功耗,现在越来越多的公司在产品选型的时候考虑到使用ARM微处理器。
第一部分中步骤五中指标一的计算方式如下:
说明:有义链放置方向与靶序列从5‘端到3‘端的方向一致,位数即从左往右碱基在整个序列中的位数,具体如下:
第一步、指标一的值初始化为有义链最右端第1个到第3个碱基三个碱基中不含C、G个数减去有义链最左端三个碱基中不含C、G个数之差;
第二步、若有义链左端第1位碱基为C,G,则指标一+1;若有义链左端第1位碱基为U,则指标一-1;
第三步、若有义链左端第3位碱基为A,则指标一+1;
第四步、若有义链第6位碱基为A,则指标一+1;若有义链第6位碱基为C,则指标一-1;
第五步、若有义链左端第10位碱基为U,则指标一+1;
第六步、若有义链第11位碱基为C或G,则指标一+1;
第七步、若有义链第13位碱基为A,则指标一+1;若有义链第13位碱基为G,则指标一-1;
第八步、若有义链第16位为G,则指标一+1;
第九步、若有义链左端第17个碱基为C、G,则指标一-1;
第十步、若有义链最右端第19个碱基为A、U,指标一+1,若为G,则指标一-1;
第十一步、若有义链二级结构自由能>=-0.9,则指标一+1。
第一部分中步骤七中指标二的计算方式如下:
说明:有义链放置方向与靶序列从5‘端到3‘端的方向一致,位数即从左往右碱基在整个序列中的位数,具体如下:
第一步、指标二的值初始化为有义链最右端第1个到第5个碱基五个碱基中不含C、G碱基的个数;
第二步、若有义链最右端第19位碱基为A,则指标二+1,为C或G,则指标二-1;
第三步、若有义链第3位碱基为A,指标二+1;
第四步、若有义链第10位碱基为U,指标二+1,若为G,则指标二-1;
第五步、若有义链第13位碱基为G,则指标二-1;
第六步、若有义链二级结构自由能>=-0.9,则指标二+1。
第一部分中步骤八中的指标三的计算方式如下:
指标三的碱基参数如下表所示:
Figure BDA0002403602510000131
将有义链的每个碱基对应的上表中相应位数的碱基参数进行累加,即得到指标三。
第二部分中的siRNA干扰效率预测方法所提取的特征包括两大类,具体如下:
第一类、siRNA序列特征:把siRNA序列中每位碱基进行数字化:siRNA由21个碱基A、U、G、C组成,将每个碱基数字化,A编码为0.1、U编码为0.2、G编码为0.3、C编码为0.4;
siRNA序列中motif即1-3mer的频率:motif是指连续1个即1mer、连续2个即2mer、连续3个即3mer碱基所构成的小片断,1mer频率为碱基A、U、G、C在siRNA序列中的频率;2mer频率为碱基组合AA、AU、AG和AC 16个碱基组合在siRNA序列中的频率;3mer频率为AAA、AAU、AAG和AAC 64个碱基组合在siRNA序列中的频率;
靶序列与siRNA反义链所形成的双链稳定性:按照Watson-Crick碱基结合的能量规则计算双链结合的能量;
siRNA双链5’端的能量差:反义链5’端4对碱基能量和减去正义链5’端4对碱基能量和;
第二类:mRNA序列特征和结构特征:mRNA序列中motif即1-3mer的频率:如第一类特征所示计算mRNA的motif即1-3mer的频率;
mRNA的GC含量:碱基G和C在mRNA序列中所占比例;
mRNA的长度:mRNA中碱基的个数;
mRNA的茎比率:mRNA通过结构预测得到的茎区比例。
第二部分步骤三中进行siRNA干扰效率预测的具体步骤如下:
第一步、把siRNA序列相对应的数字化信息,载入到random forest中;
第二步、根据已知样本的siRNA序列相对应的数字化信息,建立相应的randomforest模型,通过调解相应的参数,使模型的泛化误差最小,建立random forest模型的具体步骤如下:
A、首先采用bootstrap重抽样方法从初始样本集中随机抽取ntree个训练集,每个训练集的大小为初始样本集的三分之二,为每一个训练集分别建立分类回归树,则会产生由ntree棵决策树构成的一片森林,每棵决策树都不进行剪枝,由于随机森林不裁剪回归树,所以树的总个数ntree默认为500;
B、假设初始样本有M个特征,则在每棵回归树的每个内部节点处随机抽取mtry个特征作为候选特征即mtry<<M,选择这mtry个特征上最好的分裂方式对节点进行分裂,在回归模型中,默认参数mtry=M/3,在整个森林的生长过程中,mtry的值保持不变;
C、每棵回归树开始自顶向下的递归分枝,一般情况下,设定叶节点包含样本的个数nodesize为5、将此作为终止回归树生长的条件;
D、随机森林采用bootstrap重抽样方法来抽取训练样本,有三分之一的数据未被抽中,这些数据称为袋外即out-of-bag数据,将由ntree棵回归树组成随机森林回归模型,其回归效果评价采用袋外数据OOB预测的残差均方;
第三步、输入第一阶段筛选后的siRNA序列相对应的数字化信息到已建立的random forest模型中,进行干扰效率预测,最后将预测的结果输出到LCD液晶显示器;
第四步、选取预测干扰效率在90%以上的siRNA,在其反义链3‘端、正义链5‘端分别添加UU碱基对,作为针对该靶基因设计的siRNA的最终结果。
本发明是一种用于COVID-19病毒药物治疗的siRNA研发方法,如图1所示,对靶序列进行同源性分析,获得其保守区域。然后在靶序列保守区域的基因编码区域搜索出全部的19nt序列,利用基因互补规则得出对应的siRNA。根据候选siRNA的G、C含量、反义链5’、3’端自由能对候选siRNA进行筛选。对候选siRNA进行指标一、指标二、指标三的计算,并根据各指标逐次对候选siRNA进行筛选。将靶序列与候选siRNA使用物种的基因组进行比对,确保siRNA仅特异性靶向靶序列。对剩余候选siRNA的靶序列进行二级结构预测,排除二级结构复杂的siRNA,得到初步筛选的候选siRNA。
然后,建立random forest模型,并利用已知干扰效率的siRNA数据集对其进行训练,用训练好的模型对初步筛选的候选siRNA进行干扰效率预测,具体操作如下。如图2所示,将已知干扰效率的siRNA序列输入CPLD,通过特征提取规则表把siRNA序列进行编码,使siRNA序列以编码序列的形式存储于SRAM中,然后用ARM微处理器,进行siRNA干扰效率预测,在预测前需要先建立基于random forest的回归模型,通过调解参数,使模型的泛化误差达到最小,然后把需要预测的siRNA序列相对应的数字化信息载入到已建立的randomforest模型中,进行干扰效率预测,将预测的结果输出到LCD。最后取所有预测的干扰效率在90%及以上的siRNA作为针对该靶序列设计的siRNA的最终结果。

Claims (6)

1.一种用于COVID-19病毒药物治疗的siRNA研发方法,其特征在于:其方法如下所述:
siRNA研发方法包括初步筛选、机器学习模型预测择优两部分,具体步骤如下:
第一部分:基于多指标进行潜在高效siRNA的初步筛选,具体步骤如下:
步骤一、选取COVID-19病毒基因组中S基因序列作为靶序列,将COVID-19病毒所有其他变异毒株的基因组进行多序列比对分析,确定目标靶序列的保守区域;
步骤二、对目标靶序列的保守区域的基因编码序列进行19nt长的核苷酸子序列的搜索,并根据基因互补规则,得出相应的siRNA双链;
步骤三、在步骤二中所得候选siRNA中,筛选出C、G含量在36-53%的siRNA序列;
步骤四、在步骤三中所得候选siRNA中,筛选出反义链5’端自由能大于或等于3’端自由能的siRNA;
步骤五、定义并计算指标一;
步骤六、对所选出的候选siRNA筛选出指标二排名在前50%的siRNA;
步骤七、定义并计算指标二;
步骤八、从候选siRNA筛选出指标一>=5的siRNA;
步骤九、定义并计算指标三;
步骤十、对所选出的候选siRNA筛选出指标三排名在前50%的siRNA;
步骤十一、若上述步骤选出的siRNA数量超过50,则按指标三从高到低排名,保留该排名中前50名的siRNA;否则直接取步骤十选出的全部候选siRNA;
步骤十二、对上述步骤选出的候选siRNA的靶序列与siRNA使用物种的基因进行BLAST同源分析,排除发生脱靶效应可能性高的siRNA,确保所设计的siRNA仅特异性靶向目标靶序列;
步骤十三、对上述步骤选出的候选siRNA的靶序列进行二级结构预测,排除靶序列二级结构复杂的siRNA,取剩余的siRNA作为经过初步筛选的siRNA;
第二部分:对经过初步筛选的siRNA用机器学习模型进行干扰效率预测择优,具体步骤如下:
步骤一、将已知干扰效率的siRNA数据集的序列输入CPLD;
步骤二、CPLD通过特征提取规则表,将siRNA序列以编码的形式存储于SRAM中;
步骤三、采用ARM微处理器作为运行平台,进行siRNA干扰效率预测。
2.根据权利要求1所述的一种用于COVID-19病毒药物治疗的siRNA研发方法,其特征在于:所述的第一部分中步骤五中指标一的计算方式如下:
说明:有义链放置方向与靶序列从5‘端到3‘端的方向一致,位数即从左往右碱基在整个序列中的位数,具体如下:
第一步、指标一的值初始化为有义链最右端第1个到第3个碱基三个碱基中不含C、G个数减去有义链最左端三个碱基中不含C、G个数之差;
第二步、若有义链左端第1位碱基为C,G,则指标一+1;若有义链左端第1位碱基为U,则指标一-1;
第三步、若有义链左端第3位碱基为A,则指标一+1;
第四步、若有义链第6位碱基为A,则指标一+1;若有义链第6位碱基为C,则指标一-1;
第五步、若有义链左端第10位碱基为U,则指标一+1;
第六步、若有义链第11位碱基为C或G,则指标一+1;
第七步、若有义链第13位碱基为A,则指标一+1;若有义链第13位碱基为G,则指标一-1;
第八步、若有义链第16位为G,则指标一+1;
第九步、若有义链左端第17个碱基为C、G,则指标一-1;
第十步、若有义链最右端第19个碱基为A、U,指标一+1,若为G,则指标一-1;
第十一步、若有义链二级结构自由能>=-0.9,则指标一+1。
3.根据权利要求1所述的一种用于COVID-19病毒药物治疗的siRNA研发方法,其特征在于:所述的第一部分中步骤七中指标二的计算方式如下:
说明:有义链放置方向与靶序列从5‘端到3‘端的方向一致,位数即从左往右碱基在整个序列中的位数,具体如下:
第一步、指标二的值初始化为有义链最右端第1个到第5个碱基五个碱基中不含C、G碱基的个数;
第二步、若有义链最右端第19位碱基为A,则指标二+1,为C或G,则指标二-1;
第三步、若有义链第3位碱基为A,指标二+1;
第四步、若有义链第10位碱基为U,指标二+1,若为G,则指标二-1;
第五步、若有义链第13位碱基为G,则指标二-1;
第六步、若有义链二级结构自由能>=-0.9,则指标二+1。
4.根据权利要求1所述的一种用于COVID-19病毒药物治疗的siRNA研发方法,其特征在于:所述的第一部分中步骤八中的指标三的计算方式如下:
指标三的碱基参数如下表所示:
Figure FDA0002403602500000031
Figure FDA0002403602500000041
将有义链的每个碱基对应的上表中相应位数的碱基参数进行累加,即得到指标三。
5.根据权利要求1所述的一种用于COVID-19病毒药物治疗的siRNA研发方法,其特征在于:所述的第二部分中的siRNA干扰效率预测方法所提取的特征包括两大类,具体如下:
第一类、siRNA序列特征:把siRNA序列中每位碱基进行数字化:siRNA由21个碱基A、U、G、C组成,将每个碱基数字化,A编码为0.1、U编码为0.2、G编码为0.3、C编码为0.4;
siRNA序列中motif即1-3mer的频率:motif是指连续1个即1mer、连续2个即2mer、连续3个即3mer碱基所构成的小片断,1mer频率为碱基A、U、G、C在siRNA序列中的频率;2mer频率为碱基组合AA、AU、AG和AC 16个碱基组合在siRNA序列中的频率;3mer频率为AAA、AAU、AAG和AAC 64个碱基组合在siRNA序列中的频率;
靶序列与siRNA反义链所形成的双链稳定性:按照Watson-Crick碱基结合的能量规则计算双链结合的能量;
siRNA双链5’端的能量差:反义链5’端4对碱基能量和减去正义链5’端4对碱基能量和;
第二类:mRNA序列特征和结构特征:mRNA序列中motif即1-3mer的频率:如第一类特征所示计算mRNA的motif即1-3mer的频率;
mRNA的GC含量:碱基G和C在mRNA序列中所占比例;
mRNA的长度:mRNA中碱基的个数;
mRNA的茎比率:mRNA通过结构预测得到的茎区比例。
6.根据权利要求1所述的一种用于COVID-19病毒药物治疗的siRNA研发方法,其特征在于:所述的第二部分步骤三中进行siRNA干扰效率预测的具体步骤如下:
第一步、把siRNA序列相对应的数字化信息,载入到random forest中;
第二步、根据已知样本的siRNA序列相对应的数字化信息,建立相应的random forest模型,通过调解相应的参数,使模型的泛化误差最小,建立random forest模型的具体步骤如下:
A、首先采用bootstrap重抽样方法从初始样本集中随机抽取ntree个训练集,每个训练集的大小为初始样本集的三分之二,为每一个训练集分别建立分类回归树,则会产生由ntree棵决策树构成的一片森林,每棵决策树都不进行剪枝,由于随机森林不裁剪回归树,所以树的总个数ntree默认为500;
B、假设初始样本有M个特征,则在每棵回归树的每个内部节点处随机抽取mtry个特征作为候选特征即mtry<<M,选择这mtry个特征上最好的分裂方式对节点进行分裂,在回归模型中,默认参数mtry=M/3,在整个森林的生长过程中,mtry的值保持不变;
C、每棵回归树开始自顶向下的递归分枝,一般情况下,设定叶节点包含样本的个数nodesize为5、将此作为终止回归树生长的条件;
D、随机森林采用bootstrap重抽样方法来抽取训练样本,有三分之一的数据未被抽中,这些数据称为袋外即out-of-bag数据,将由ntree棵回归树组成随机森林回归模型,其回归效果评价采用袋外数据OOB预测的残差均方;
第三步、输入第一阶段筛选后的siRNA序列相对应的数字化信息到已建立的randomforest模型中,进行干扰效率预测,最后将预测的结果输出到LCD液晶显示器;
第四步、选取预测干扰效率在90%以上的siRN,在其反义链3‘端、正义链5‘端分别添加UU碱基对,作为针对该靶基因设计的siRNA的最终结果。
CN202010154526.0A 2020-03-08 2020-03-08 一种用于COVID-19病毒药物治疗的siRNA研发方法 Active CN111354420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010154526.0A CN111354420B (zh) 2020-03-08 2020-03-08 一种用于COVID-19病毒药物治疗的siRNA研发方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010154526.0A CN111354420B (zh) 2020-03-08 2020-03-08 一种用于COVID-19病毒药物治疗的siRNA研发方法

Publications (2)

Publication Number Publication Date
CN111354420A true CN111354420A (zh) 2020-06-30
CN111354420B CN111354420B (zh) 2020-12-22

Family

ID=71197444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010154526.0A Active CN111354420B (zh) 2020-03-08 2020-03-08 一种用于COVID-19病毒药物治疗的siRNA研发方法

Country Status (1)

Country Link
CN (1) CN111354420B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951322A (zh) * 2021-03-08 2021-06-11 深圳市新合生物医疗科技有限公司 一种基于网格搜索的规则权重分配siRNA设计方法
CN112951319A (zh) * 2021-02-25 2021-06-11 深圳市新合生物医疗科技有限公司 一种筛选siRNA序列以降低脱靶效应的方法及系统
CN113066527A (zh) * 2021-04-14 2021-07-02 吉优诺(上海)基因科技有限公司 一种siRNA敲减mRNA的靶点预测方法和系统
CN113817730A (zh) * 2021-02-04 2021-12-21 南京吉迈生物技术有限公司 一种抑制新型冠状病毒(CoV19)的siRNA及其组合物和应用
CN114250229A (zh) * 2021-07-19 2022-03-29 深圳大学 抑制新冠病毒2019-nCoV的siRNA及其用途
CN116798513A (zh) * 2023-02-21 2023-09-22 苏州赛赋新药技术服务有限责任公司 筛选siRNA序列以降低脱靶效应的方法及系统
CN116825199A (zh) * 2023-02-21 2023-09-29 王全军 筛选siRNA序列以降低脱靶效应的方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102250953A (zh) * 2011-07-19 2011-11-23 马玲娣 人STAT3基因SiRNA慢病毒载体及其构建方法
CN103020489B (zh) * 2013-01-04 2016-04-20 吉林大学 基于ARM微处理器的siRNA干扰效率预测系统
CN107577922A (zh) * 2017-09-20 2018-01-12 吉林大学 一种基于ARM处理器的玉米lncRNA筛选分类方法
US20180357372A1 (en) * 2017-06-13 2018-12-13 Alexander Bagaev Systems and methods for generating, visualizing and classifying molecular functional profiles
CN109754844A (zh) * 2019-01-09 2019-05-14 北京林业大学 一种在全基因组水平上预测植物内源siRNAs的方法
CN109785902A (zh) * 2019-02-20 2019-05-21 成都分迪科技有限公司 一种泛素化降解目标蛋白质的预测方法
CN110358765A (zh) * 2018-04-09 2019-10-22 湖南师范大学 抑制人TNFAIP1基因表达的siRNA及其应用
US20190323015A1 (en) * 2015-12-13 2019-10-24 Nitto Denko Corporation Sirna structures for high activity and reduced off target
US10504612B2 (en) * 2012-06-15 2019-12-10 Emerald Therapeutics, Inc. Polynucleotide probe design

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102250953A (zh) * 2011-07-19 2011-11-23 马玲娣 人STAT3基因SiRNA慢病毒载体及其构建方法
US10504612B2 (en) * 2012-06-15 2019-12-10 Emerald Therapeutics, Inc. Polynucleotide probe design
CN103020489B (zh) * 2013-01-04 2016-04-20 吉林大学 基于ARM微处理器的siRNA干扰效率预测系统
US20190323015A1 (en) * 2015-12-13 2019-10-24 Nitto Denko Corporation Sirna structures for high activity and reduced off target
US20180357372A1 (en) * 2017-06-13 2018-12-13 Alexander Bagaev Systems and methods for generating, visualizing and classifying molecular functional profiles
CN107577922A (zh) * 2017-09-20 2018-01-12 吉林大学 一种基于ARM处理器的玉米lncRNA筛选分类方法
CN110358765A (zh) * 2018-04-09 2019-10-22 湖南师范大学 抑制人TNFAIP1基因表达的siRNA及其应用
CN109754844A (zh) * 2019-01-09 2019-05-14 北京林业大学 一种在全基因组水平上预测植物内源siRNAs的方法
CN109785902A (zh) * 2019-02-20 2019-05-21 成都分迪科技有限公司 一种泛素化降解目标蛋白质的预测方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113817730A (zh) * 2021-02-04 2021-12-21 南京吉迈生物技术有限公司 一种抑制新型冠状病毒(CoV19)的siRNA及其组合物和应用
CN113817730B (zh) * 2021-02-04 2023-02-07 南京吉迈生物技术有限公司 一种抑制新型冠状病毒(CoV19)的siRNA及其组合物和应用
CN112951319A (zh) * 2021-02-25 2021-06-11 深圳市新合生物医疗科技有限公司 一种筛选siRNA序列以降低脱靶效应的方法及系统
CN112951319B (zh) * 2021-02-25 2024-01-09 深圳市新合生物医疗科技有限公司 一种筛选siRNA序列以降低脱靶效应的方法及系统
CN112951322A (zh) * 2021-03-08 2021-06-11 深圳市新合生物医疗科技有限公司 一种基于网格搜索的规则权重分配siRNA设计方法
CN112951322B (zh) * 2021-03-08 2023-09-26 深圳市新合生物医疗科技有限公司 一种基于网格搜索的规则权重分配siRNA设计方法
CN113066527A (zh) * 2021-04-14 2021-07-02 吉优诺(上海)基因科技有限公司 一种siRNA敲减mRNA的靶点预测方法和系统
CN113066527B (zh) * 2021-04-14 2024-02-09 吉优诺(上海)基因科技有限公司 一种siRNA敲减mRNA的靶点预测方法和系统
CN114250229B (zh) * 2021-07-19 2023-12-26 深圳大学 抑制新冠病毒2019-nCoV的siRNA及其用途
CN114250229A (zh) * 2021-07-19 2022-03-29 深圳大学 抑制新冠病毒2019-nCoV的siRNA及其用途
CN116798513A (zh) * 2023-02-21 2023-09-22 苏州赛赋新药技术服务有限责任公司 筛选siRNA序列以降低脱靶效应的方法及系统
CN116798513B (zh) * 2023-02-21 2023-12-15 苏州赛赋新药技术服务有限责任公司 筛选siRNA序列以降低脱靶效应的方法及系统
CN116825199A (zh) * 2023-02-21 2023-09-29 王全军 筛选siRNA序列以降低脱靶效应的方法及系统

Also Published As

Publication number Publication date
CN111354420B (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN111354420B (zh) 一种用于COVID-19病毒药物治疗的siRNA研发方法
SaeTrom et al. Weighted sequence motifs as an improved seeding step in microRNA target prediction algorithms
Barash et al. A simple hyper-geometric approach for discovering putative transcription factor binding sites
Pavesi et al. RNAProfile: an algorithm for finding conserved secondary structure motifs in unaligned RNA sequences
CN103546162B (zh) 基于非连续上下文建模和最大熵原则的基因压缩方法
Hu et al. Evolution of RNA interference proteins dicer and argonaute in Basidiomycota
CN113094713B (zh) 一种自适应的主机入侵检测序列特征提取方法及系统
CN112270958A (zh) 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
Yones et al. High precision in microRNA prediction: A novel genome-wide approach with convolutional deep residual networks
Chakraborty et al. Predicting MicroRNA sequence using CNN and LSTM stacked in Seq2Seq architecture
CN103020489A (zh) 基于ARM微处理器的siRNA干扰效率预测新方法
CN107577922B (zh) 一种基于ARM处理器的玉米lncRNA筛选分类方法
Ali et al. A novel approach for protein classification using fourier transform
Gohardani et al. A multi-objective imperialist competitive algorithm (MOICA) for finding motifs in DNA sequences
Paul et al. Identification of weak motifs in multiple biological sequences using genetic algorithm
Yu et al. A new efficient algorithm for quorum planted motif search on large DNA datasets
WO2020124275A1 (en) Method, system, and computing device for optimizing computing operations of gene sequencing system
Lu et al. Biclustering of the gene expression data by coevolution cuckoo search
Liland et al. Tsetlin Machine in DNA sequence classification: Application to prokaryote gene prediction/A match made in silico
Michal et al. Finding a common motif of RNA sequences using genetic programming: The GeRNAMo system
Kong et al. Bi-Phase evolutionary biclustering algorithm with the NSGA-II algorithm
Pavesi et al. Methods for pattern discovery in unaligned biological sequences
Bu et al. An efficient deep learning based predictor for identifying miRNA-triggered phasiRNA loci in plant
Deng et al. Union With Recursive Feature Elimination: A Feature Selection Framework to Improve the Classification Performance of Multicategory Causes of Death in Colorectal Cancer
Han et al. Effective small interfering RNA design based on convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant