CN116825199A - 筛选siRNA序列以降低脱靶效应的方法及系统 - Google Patents

筛选siRNA序列以降低脱靶效应的方法及系统 Download PDF

Info

Publication number
CN116825199A
CN116825199A CN202310144980.1A CN202310144980A CN116825199A CN 116825199 A CN116825199 A CN 116825199A CN 202310144980 A CN202310144980 A CN 202310144980A CN 116825199 A CN116825199 A CN 116825199A
Authority
CN
China
Prior art keywords
sirna
screening
data
sequence
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310144980.1A
Other languages
English (en)
Inventor
王全军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202310144980.1A priority Critical patent/CN116825199A/zh
Publication of CN116825199A publication Critical patent/CN116825199A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Analytical Chemistry (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及siRNA序列筛选生物信息技术领域,尤其涉及筛选siRNA序列以降低脱靶效应的方法及系统。该方法包括获取siRNA候选序列数据和特征数据,根据特征数据建立机器学习模型,利用训练集对机器学习模型进行训练并得到siRNA序列筛选模型,提取测试集中的数据,输入至siRNA序列筛选模型,即可得到筛选评分,筛选评分最高者,即为最优siRNA。采用该方法及系统不仅筛选效率、精确度、敏感度、特异性和MCC值均显著高于对比例,并且不存在训练多度的情况发生;并且几乎可以免于siRNA对靶mRNA的脱靶效应产生,对将来siRNA干扰效率预测领域有重要参考价值。

Description

筛选siRNA序列以降低脱靶效应的方法及系统
技术领域
本发明涉及siRNA序列筛选生物信息技术领域,尤其涉及筛选siRNA序列以降低脱靶效应的方法及系统。
背景技术
RNA干扰(siRNA)是自然界普遍存在的导致目标mRNA降解的生物现象。以siRNA为基础的基因沉默已经成为功能基因分析的高效工具,有试验结果表明,反义RNA通过与mRNA序列互补结合,抑制了基因的表达。siRNA的沉默作用非常强大,在细胞中1~3个双链siRNA就可以介导基因沉默。siRNA是由Dicer酶剪切双链RNA(dsRNA)产生的,并可与酶复合物结合成RNA-induced silencing complex(RISC),双链、iRNA解旋成单链,然后通过其反义链与目标mRNA结合,促进目标mRNA的酶性降解。siRNA成功的关键取决于siRNA和mRNAs有效地相互作用,因此设计高效特异的siRNA成为siRNA应用过程中极具挑战性问题。目前,已有许多高效siRNA的设计网站,但是对siRNA的高效性起决定作用的特征参数并不是很清楚。siRNA与mRNA之间复杂的作用机制决定了siRNA序列中各个位置的碱基必然有一定的偏好胜,然而现有的siRNA设计规则存在很多的不一致,这些规则的机制也并不完全清楚,从而导致了现有的siRNA设计不能很好抑制靶基因的表达,影响了siRNA技术的发展。多项研究已经证明,这些规则并不是完全适用于所有的靶基因,对于不同的目标基因来说,它们的价值不同,这就需要对现有的siRNA设计规则进行重新认识,并进一步优化,以减少由于设计规则的不一致性带来的影响。
大量生物试验表明,结合在同一mRNA不同靶点的siRNA具有不同的沉默效率。鉴于通过生物实验的方式寻找mRNA上合适的siRNA结合靶点效率高、免于脱靶或者脱靶率低、成本高、周期长、干扰因素多,借助计算机技术预测mRNA上合适的siRNA结合靶点具有显著意义。早期,siRNA沉默mRNA的靶点预测主要依据研究人员观察siRNA结合mRNA靶点样本上各种碱基出现的频次,效率较低,也难以得到最优结果。随着siRNA结合mRNA靶点样本的增加以及机器学习方法的兴起,通过提取siRNA结合mRNA靶点的碱基序列特征,再利用大样本数据训练预测模型,大幅提高了siRNA沉默mRNA的靶点预测效率和准确性。但是,现有的预测模型仅考虑siRNA结合mRNA靶点的碱基序列特征,并没有考虑结合mRNA靶点处的RNA二级结构特征,导致预测效果仍不能令人满意。
发明内容
为解决或缓解上述部分技术问题,因此,本发明提出一种新的筛选siRNA序列以降低脱靶效应的方法及系统。该方法采用了全新的机器学习模型和训练方法,对候选siRNA进行筛选评分,更加评分最高者筛选得到最合适的siRNA。采用该方法及系统不仅筛选效率、精确度、敏感度、特异性和MCC值均显著高于对比例,并且不存在训练多度的情况发生;并且几乎可以免于siRNA对靶mRNA的脱靶效应产生,对将来siRNA干扰效率预测领域有重要参考价值。为此,本发明提供了以下技术方案:
第一方面,本发明提供了一种获得免于脱靶miRNA的siRNA序列筛选方法,其特征在于,包括:
S100、获取siRNA候选序列数据;
S200、根据siRNA候选序列数据提取特征数据,并将特征数据组成训练集和测试集;所述特征数据包括各siRNA候选序列对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据;
S300、根据序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据构建机器学习模型;
S400、利用训练集对机器学习模型进行训练,并得到siRNA序列筛选模型;
S500、提取测试集中的特征向量,输入siRNA序列筛选模型,其中,特征向量包括序列特征向量、二级结构特征向量和热动力学特征向量;以及
S600、根据分别得到筛选评分筛选对mRNA中靶效果最优的siRNA并输出数据,输出数据包括最优siRNA的序列数据、特征值和筛选评分;其中,筛选评分最高者,即为最优siRNA。
进一步的,所述siRNA候选序列包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的siRNA;所述训练集包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的siRNA对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据。
进一步的,所述序列特征包括G/C含量、U-T1、U-T2、U-T3、U-T4、A、N、(G-C)%、(A-U)%、(G+C)%和(A+U)%,所述二级结构特征包括氢键系数,所述热力学特征包括ΔGm、ΔGs、ΔGd、P、W和M。
进一步的,G/C含量的特征提取方法为候选siRNA中G和C分别占的百分比例;
U-T1的特征提取方法为判断反义链5’端是否为A/U,若是则特征值为1,否则为0;
U-T2的特征提取方法为判断正义链5’端是否为G/C,若是则特征值为1,否则为0;
U-T3的特征提取方法为判断是否在反义链5’末端1/3区富含AU,若是则特征值为1,否则为0;
U-T4的特征提取方法为判断是否存在连续超过9位的GC区,若是则特征值为1,否则为0;
A的特征提取方法为判断是否同时满足U-T1/U-T2/U-T3/U-T4,若是则特征值为1,否则为0;
N的特征提取方法为判断是否同时不满足U-T1/U-T2/U-T3/U-T4,若是则特征值为1,否则为0;
(G-C)%的特征提取方法为计算100×(G%-C%)/(G%+C%);
(A-U)%的特征提取方法为计算100×(A%-U%)/(A%+U%);
(G+C)%的特征提取方法为计算G%+C%;
(A+U)%的特征提取方法为计算A%+U%。
进一步的,氢键系数的特征提取方法包括采用如下公式的进行计算:
在此公式中,i表示siRNA所对应的靶siRNA区域中的核苷酸序数,PH-bond是第i个核苷酸与同一条mRNA中其他核苷酸形成氢键的可能性。
进一步的,ΔGm的特征提取方法为计算打开靶标mRNA结合位点的能量;
ΔGs的特征提取方法为计算打开siRNA的能量;
ΔGd的特征提取方法为计算siRNA与mRNA结合释放的能量(单位为kcal/mol)
P的特征提取方法为计算判断自第一个与siRNA结合碱基的位置,从mRNA5’端起的长度与mRNA长度的商;
W的特征提取方法为计算靶标mRNA形成二级结构未发生互补配体的个数;
M的特征提取方法为计算靶标mRNA形成二级结构所释放的能量。
进一步的,所述机器学习模型为
其中,S为针对某一靶标mRNA的某一siRNA的筛选评分;m为针对某一靶标mRNA的上述全部候选siRNA的数量;n为特征数量;T1为针对某一靶标mRNA的siRNA序列特征值,T2为针对某一靶标mRNA的二级结构特征值,T3为针对某一靶标mRNA的热力学特征值;p、q和j为模型参数。
进一步的,所述步骤S400具体包括:
S401、获取所述训练集后,提取每一训练样本中的序列特征值、二级结构特征值和热动力学特征值,分别形成对应的特征向量;
S402、使用所述机器学习模型对训练样本中的这些特征进行训练,使用10倍交叉验证来确认所述机器学习模型的最优参数;
S403、根据确定的所述最优参数,建立所述siRNA序列筛选模型。
第二方面,本发明提供了一种获得免于脱靶miRNA的siRNA序列筛选装置,包括:
输入单元,用于接收siRNA候选序列数据;
存储单元,用于存储siRNA候选序列的siRNA筛选模型的程序以及siRNA候选序列的特征数据;所述siRNA候选序列的特征数据包括各种siRNA序列数据对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据;
运算单元,利用程序对siRNA候选序列进行扫描;
输出单元,输出siRNA候选序列分析结果的装置。
第三方面,本发明提供了一种获得免于脱靶miRNA的siRNA序列筛选的系统,包括第二方面所述的筛选装置;
数据库,用于存储siRNA数据集,所述siRNA数据集包括各编码的mRNA的已知siRNA序列数据、沉默数据、试验数据及临床信息数据;以及
学习装置,确定机器学习模型的最优参数。
本发明提供的获得免于脱靶miRNA的siRNA序列筛选方法、装置及系统的更多技术效果将在实施例中具体阐述。
附图说明
图1为本发明实施例提供的获得免于脱靶miRNA的siRNA序列筛选方法的流程示意图。
图2为图1中S400步骤的具体流程示意图。
图3为本发明实施例提供的筛选的针对NOX4基因mRNA序列的siRNA序列干扰小鼠MFC胃癌细胞的mRNA表达量的电泳结果图,泳道依次为Marker和10个筛选的siRNA序列。
图4为本发明对比例提供的筛选的针对NOX4基因mRNA序列的siRNA序列干扰小鼠MFC胃癌细胞的mRNA表达量的电泳结果图,泳道依次为Marker和10个筛选的siRNA序列。
图5为本发明实施例提供的筛选的针对SLC22A17基因mRNA序列的siRNA序列干扰小鼠MFC胃癌细胞的mRNA表达量的电泳结果图,泳道依次为Marker和10个筛选的siRNA序列。
图6为本发明对比例提供的筛选的针对SLC22A17基因mRNA序列的siRNA序列干扰小鼠MFC胃癌细胞的mRNA表达量的电泳结果图,泳道依次为Marker和10个筛选的siRNA序列。
图7为本发明实施例提供的获得免于脱靶miRNA的siRNA序列筛选装置框架示意图。
图8为本发明实施例提供的获得免于脱靶miRNA的siRNA序列筛选系统框架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明中未详细单独说明的试剂均为常规试剂,均可从商业途径获得;未详细特别说明的方法均为常规实验方法,可从现有技术中获知。
下述技术对应于一种全新的降低siRNA对靶标mRNA脱靶率的筛选技术。
图1是获得免于脱靶miRNA的siRNA序列筛选方法的流程图的实例。
步骤S100中,筛选装置获取siRNA候选序列数据。siRNA候选序列数据包括在各种siRNA的数据,例如,可以从常规的公共可用数据库)中获得,或者Huesken等网站获得针对不同mRNA的多个siRNA序列数据,例如,本发明实施例根据Huesken网站,针对52个影响胃癌或肝癌生存率的免疫相关siRNACGB5、INHBB、TMSBI5A、DKK1、GDF7、SLC22A17、GHR、MMP12、PGF、FGFR4、IGHV3-35、INHBA、IGHD3-16、IGLV3-22、MASP1、BMP8A、CARD11、NOX4、NPR3、IGHA1、ZNF385DAS2、Z995721、U623174、SLC22A11、SIGLECI2、RNU7154P、REC114、PITPNM2AS1、PAKS、PAD13、MTND1P23、MTC02P12、MPEG1、MMP3、LRRN4CL、LINC00886、LCN2、IGLV170、IGLV460、IGKV6D21、IGKV3D20、IGKV320、IGKV10R2108、IGKVIDB、IGKV1D43、IGKV18、IGHV349、IGHV322、IGHV320、HDGFLI、GGTAIP和GCK对应的编码mRNA进行siRNA设计,共得到2799条siRNAs,并给出了给出了他们的靶标siRNA的cDNA序列、siRNA精确的干扰抑制效率。表1给出了这些mRNA分别设计得到的siRNA相关数据。
其中,对各自mRNA靶标的中靶率>90%的siRNA的数量为528,中靶率70%~90%的siRNA的数量为894,中靶率50%~70%的siRNA的数量为739,中靶率<50%的siRNA的数量为638。
具体的,这些siRNA序列数据通过RNA-seq生成的SAM文件和siRNA注释FASTA文件,输入数据的格式要求是:SAM格式和FASTA格式。
步骤S200中,筛选装置提取特征数据并将特征数据组成训练集和测试集。特征数据包括各种siRNA序列数据对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据。
其中,序列特征数据包括G/C含量、U-T1、U-T2、U-T3、U-T4、A、N、(G-C)%、(A-U)%、(G+C)%和(A+U)%的数值。在本发明中与siRNA中靶率相关的siRNA序列特征如表1所示。
表1siRNA序列特征
二级结构特征数据为氢键系数值。由于mRNA某些部分自身折叠形成了较为紧密的二级结构,比如发夹结构,从而影响了针对该部分序列的siRNA与mRNA的结合,使得这部分siRNA对该siRNA表达的抑制作用不明显。由以上两点可以看出,较小的空间位阻和较为松散的二级结构可以使siRNA更容易与靶mRNA结合,是保证产生较强siRNA沉默效应及中靶率的关键。因此,接下来的工作是通过一系列计算,预测siRNA对应的mRNA革巴序列处形成复杂二级结构的难易程度,并借此选择合适的siRNA序列。
与siRNA对应的mRNA靶序列形成复杂二级结构的难易程度可由氢键系数进行评定氢键系数可由以下公式计算。
在此公式中,i表示siRNA所对应的靶siRNA区域中的核苷酸序数,PH-bond是第i个核苷酸与同一条mRNA中其他核苷酸形成氢键的可能性,PH-bond是基于由Mfold提出的所有mRNA可能的二级结构而计算得出。
PH-bond=1-第i个核苷酸可以形成的氢键数/mRNA所有可能的二级结构数
NHB是第i个核苷酸可以形成的氢键数,如果是G或C,NHB就等于3,而如果是A或T就等于2。
热力学特征数据为ΔGm、ΔGs、ΔGd、P、W和M的数值。本发明提取的siRNA与mRNA结合热动力学特征如表2所示。
表2siRNA与mRNA结合热动力学特征
在一些实施例中,筛选装置可以采用现有的RNAup软件实现特征数据的提取步骤,或者由C#语言编程实现提取。
在一些实施例中,分别选取2799条siRNAs中中靶率大于90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的siRNA中的80%条siRNAs为作为训练集的训练样本,其余的作为测试集的测试样本。
步骤300中,提供了一种机器学习模型,正对上述实施例涉及的某一mRNA得到的某一siRNA的筛选评分:
其中,S为针对某一靶标mRNA的某一siRNA的筛选评分;m为针对某一靶标mRNA的上述全部候选siRNA的数量;n为特征数量,例如在上述的siRNA序列特征,n1=11;对于上述二级结构特征n2=1;对于上述热力学特征,n3=6。
其中,T1为针对某一靶标mRNA的siRNA序列特征值,T2为针对某一靶标mRNA的二级结构特征值,T3为针对某一靶标mRNA的热力学特征值。p、q和j为模型参数。
步骤S400中,利用训练集对机器学习模型进行有监督的训练学习,并得到siRNA序列筛选模型;其中,训练集为对应的siRNAs的序列特征值、二级结构特征值和热动力学特征值。
在步骤S400的实施例中,其包括S401~S404。
在S401步骤中,筛选装置在获取训练集后,提取每一训练样本中的序列特征值、二级结构特征值和热动力学特征值,分别形成对应的特征向量,比如共19维的特征向量。筛选装置将每一训练样本对应的全部特征向量存储为一行,用来表示其对应的训练样本。也即每一行对应一个实例。
在S402步骤中,使用上述机器学习模型对训练样本中的这些特征进行训练,使用10倍交叉验证来确认机器学习模型的最优参数;
在S403步骤中,根据确定的最优参数,建立siRNA序列筛选模型。
步骤S500,提取测试集中的特征向量,输入siRNA序列筛选模型。其中,特征向量包括序列特征向量、二级结构特征向量和热动力学特征向量。
步骤S600,根据分别得到筛选评分筛选对mRNA中靶效果最优的siRNA并输出数据,输出数据包括最优siRNA的序列数据、特征值和筛选评分。其中,筛选评分最高者,即为最优siRNA。
在一个对比例中,采用支持向量机(SVM)对数据训练和最优siRNA筛选。具体如下:
在该对比例中,采用版本号为286-1的LIBSVM和版本为R2012a的MATLAB进行数据训练和筛选。SVM训练过程包括:
(1)将所有训练集数据处理为LIBSVM软件包所要求的格式;
(2)验证是否进行数据归一操作;
(3)选用RBF核函数进行采用交叉验证以确定最优参数-c和-g;
(4)根据最优参数-c和-g对整个训练集进行训练获取支持向量机模型;
(5)利用获取的模型进行测试与预测。
模型评价:
分别采用实施例和对比例提供的机器学习模型和筛选方法对上述针对52个影响胃癌或肝癌生存率的免疫相关siRNA的2799条siRNAs分别提取特征值、构建训练集和测试集,并进行数据训练和最优siRNA筛,并对模型进行评价。模型评价采用精确度、敏感度、特异性和MCC值进行评价。
表3实施例和对比例的模型训练表现
由表3可知,采用对比例提供的模型训练方法,其在训练5~15次之间,其精确度、敏感度、特异性和MCC值均缓慢增加,但在训练15~20次后无变化,说明其训练次数不宜过高,避免形成训练多度。并且,其训练方法得到的精确度最高为8863%,敏感度最高为8647%,特异性最高8809%、MCC值最高07832。
而采用本发明提供的机器学习模型进行训练,其在训练5~15次之间,其精确度、敏感度、特异性和MCC值均缓慢增加,并且在训练20次后达到最大。在训练20次后,精确度最高为9882%,敏感度最高为9636%,特异性最高9727%、MCC值最高09125。采用本发明提供的机器学习模型进行训练,其精确度、敏感度、特异性和MCC值均显著高于对比例,并且不存在训练多度的情况发生。
由此可见,采用本发明的机器学习模型进行训练和对mRNA的最优siRNA干扰筛选效果可知,具有更优的效果,对将来siRNA干扰效率预测领域有重要参考价值。
为进一步验证采用本发明提供的机器学习模型和筛选方法能够更加准确地筛选对mRNA最优siRNA,并且有效降低对mRNA的中靶率。
本发明提供了进一步针对20个影响胃癌或肝癌生存率的免疫相关siRNACGB5、INHBB、TMSBI5A、DKK1、GDF7、SLC22A17、GHR、MMP12、PGF、FGFR4、IGHV3-35、INHBA、IGHD3-16、IGLV3-22、MASP1、BMP8A、CARD11、NOX4、NPR3和IGHA1对应的编码mRNA进行siRNA设计,分别采用http://design dharmacon siRNA网站、WI siRNA Selection Program(http://siRNAwi mit edu/)、http://design siRNAjp/、wwwinvitrogencom/maisiRNA Search、http://sisearchcgbkise/、http://optirnaunledu/和http://sourceforgenet/分别涉及siRNA,合并重合的siRNA,最终得到1093条siRNA序列。
对此1093条siRNA序列采用S100~S400的步骤,以及采用对比例提供的模型训练方法和筛选方法,分别得到参数优化的siRNA筛选模型。采用参数优化的siRNA筛选模型分别预测NOX4siRNA和SLC22A17siRNA对应的编码mRNA的siRNA序列,如表4~7所示。将实施例和对比例分别得到的3条最佳的siRNA序列分别干扰试验。
干扰试验步骤大致包括:
(1)重组载体
分别设计针对该2个影响胃癌生存率的免疫相关siRNA的编码mRNA的siRNA序列的重组载体。例如,将筛选的siRNA进行shRNA合成。将合成的寡聚核着酸单链退火合成双链DNA模板。pLL3.7载体经限制性内切酶Hpa I和Xho I进行双酶切反应,并用琼脂糖凝胶DNA回收试剂盒对酶切产物进行回收。将回收的线性化载体与双链shRNA进行连接,16℃水浴过夜。取连接产物5μL,转化E.coli DH5α感受态细胞30μL。氨苄西林固体培养基筛选后,挑取阳性菌落扩大培养后由上海生工生物工程技术服务有限公司测序部进行测序。测序成功进行重组载体的提取。
(2)转染
细胞株:小鼠MFC胃癌细胞,购自上海细胞研究所。
将上述重组载体分别转染培养60hd MFC细胞,提取总RNA,并用核酸蛋白检测仪器测定RNA的浓度及纯度。然后依据反转录试剂盒的操作将提取的总RNA反转录成cDNA,-20℃保藏。以GAPDH为内参基因,分别设计NOX4和SLC22A17的检测引物(NOX4-F:gccaccatggctgtgtcctggaggagc,SEQ ID NO.81;
NOX4-R:gtgctgaaagactctttattgtattcaaatct,SEQ ID NO.82;
SLC22A17-F:cccttgtctctaaggattggcg,SEQ ID NO.83;
SLC22A17-R:atctgccgcttcactatcagcc,SEQ ID NO.84),使用Premix ExTaqTM试剂盒进行qRT-PCR反应,每个样品设置3个重复,反应体系:Premix Ex Taq(2×)10μL,10μmol/L上、下游引物各0.4μL,DNA模板(<100ng)2μL,ddH2O(灭菌纯化水)7.2μL。反应程序:95℃预变性30s;95℃变性5s,51℃退火20s,72℃延伸30s,共40个循环;95℃10s,51℃15s,95℃10s。反应结束后确认扩增曲线和融解曲线,目的基因的相对表达量采用2-△△Ct法计算,重复3次试验。假设检验采用单因素方差分析(AVONA)。同时采用上述方法检测未转染重组载体的小鼠MFC胃癌细胞中NOX4和SLC22A17的mRNA的相对表达量
表4~7中,沉默效率为转染后的小鼠MFC胃癌细胞中NOX4和SLC22A17的mRNA的相对表达量占未转染重组载体的小鼠MFC胃癌细胞中NOX4和SLC22A17的mRNA的相对表达量的百分比例。
表4实施例筛选的针对NOX4基因mRNA序列的siRNA序列的沉默效率
表5对比例筛选的针对NOX4基因mRNA序列的siRNA序列
如图3和4所示分别为实施例筛选的针对NOX4基因mRNA序列的siRNA序列干扰小鼠MFC胃癌细胞的mRNA表达量的电泳结果图。由图可知,图3中的目的条带几乎不可见,而图4中的最后3个泳道中的目的条带较为明亮,说明实施例提供的siRNA的沉默效率较高。
由表4和5所示,实施例筛选的针对NOX4基因mRNA序列的siRNA序列的沉默效率均高于90%。而对比例筛选的针对NOX4基因mRNA序列的siRNA序列沉默效率较低,并且有部分siRNA经上述试验并发现具有沉默效率,脱靶率为30%(所谓脱靶率即为沉默效率为0的siRNA占10条siRNA的总数)。
表6实施例筛选的针对SLC22A17基因mRNA序列的siRNA序列
表7对比例筛选的针对SLC22A17基因mRNA序列的siRNA序列
如图5和6所示分别为实施例筛选的针对NOX4基因mRNA序列的siRNA序列干扰小鼠MFC胃癌细胞的mRNA表达量的电泳结果图。由图可知,图5中的目的条带几乎不可见,而图6中的最后5个泳道中的目的条带较为明亮,说明实施例提供的siRNA的沉默效率较高。
由表6和7所示,实施例筛选的针对NOX4基因mRNA序列的siRNA序列的沉默效率均高于90%。而对比例筛选的针对NOX4基因mRNA序列的siRNA序列沉默效率较低,并且有部分siRNA经上述试验并发现具有沉默效率,脱靶率为50%(所谓脱靶率即为沉默效率为0的siRNA占10条siRNA的总数)。
由此说明,采用本发明提供的筛选siRNA的方法能够获得更准确和更高沉默效率的干扰mRNA的siRNA序列,并且几乎无脱靶效应产生。
在下文中,将描述使用的获得免于脱靶miRNA的siRNA序列筛选装置或系统进行分析的过程。研究人员将上述获得免于脱靶miRNA的siRNA序列筛选装置或系统作为专用网络中的Web应用程序来实现,并测试了结果。该网络应用程序可以在安装了目标siRNA筛选程序的网络服务器上运行。
图7示出了siRNA序列筛选装置的一个例子。siRNA序列筛选装置(800)包括输入单元(810)、存储单元(820)、运算单元(830)和输出单元(840)。
输入单元(810)接收siRNA候选序列数据。iRNA候选序列数据包括在各种siRNA的数据,例如,可以从常规的公共可用数据库)中获得,或者Huesken等网站获得针对不同mRNA的多个siRNA序列数据。具体的,这些siRNA序列数据通过RNA-seq生成的SAM文件和siRNA注释FASTA文件,输入数据的格式要求是:SAM格式和FASTA格式。输入单元(810)可以是物理接口装置,例如键盘鼠标触摸板。或者,输入单元(810)可以是接收从外部存储介质(USB等)存储的多路复用数据的装置。或者,输入单元(810)可以是从外部网络接收多路复用数据的通信装置。
存储单元(820)存储siRNA候选序列的siRNA筛选模型的程序以及siRNA候选序列的特征数据。siRNA候选序列的特征数据包括各种siRNA序列数据对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据。程序利用训练集数据对多个siRNA候选序各自进行与miRNA的关联度运算,并运算siRNA各自的出现与miRNA靶向干扰之间的相关关系。程序通过对前述关联度和相关关系进行数学运算来运算得到筛选评分S,程序以筛选评分为标准筛选siRNA候选序列。筛选评分的siRNA筛选模型如上实施例提供。
运算单元(830)利用程序对siRNA候选序列进行扫描。运算单元(830)从多个siRNA中筛选出免于脱靶或低脱靶miRNA的siRNA,并对筛选出的siRNA进行筛选评分S运算。运算单元(830)是指通过程序处理特定运算的处理器装置,如CPU AP(Application processor)等。
输出单元(840)是输出siRNA候选序列分析结果的装置。输出单元(840)可以是输出视频的显示装置文本的打印机等。进而,输出单元(840)可以是将分析的结果传递给其它装置的通信装置。
进一步地,为获得参数优化的siRNA筛选模型,如图8所示,本发明还提供了一种获得免于脱靶miRNA的siRNA序列筛选的系统,其包括上述获得免于脱靶miRNA的siRNA序列筛选装置及数据库(900)和学习装置(910)。
数据库(900),用于存储siRNA数据集。该siRNA数据集包括各编码的mRNA的已知siRNA序列数据、沉默数据、试验数据及临床信息数据。进而,数据库(900)可以存储siRNA数据集。siRNA数据集是未公开的数据,包含由特定研究室研究和实验结果导出的信息。
例如,上述实施例提供的针对52个影响胃癌或肝癌生存率的免疫相关siRNACGB5、INHBB、TMSBI5A、DKK1、GDF7、SLC22A17、GHR、MMP12、PGF、FGFR4、IGHV3-35、INHBA、IGHD3-16、IGLV3-22、MASP1、BMP8A、CARD11、NOX4、NPR3、IGHA1、ZNF385DAS2、Z995721、U623174、SLC22A11、SIGLECI2、RNU7154P、REC114、PITPNM2AS1、PAKS、PAD13、MTND1P23、MTC02P12、MPEG1、MMP3、LRRN4CL、LINC00886、LCN2、IGLV170、IGLV460、IGKV6D21、IGKV3D20、IGKV320、IGKV10R2108、IGKVIDB、IGKV1D43、IGKV18、IGHV349、IGHV322、IGHV320、HDGFLI、GGTAIP和GCK对应的编码mRNA进行siRNA设计得到的共得到2799条siRNAs的序列数据、沉默效率数据、中靶率数据等。
学习装置(910)确定机器学习模型的最优参数。学习装置以筛选出的siRNA为对象,确定siRNA筛选评分的相关关系(920)。例如,学习装置可以确定mRNA-siRNA表达的相关关系,即执行S401~S403的步骤,尤其包括使用上述机器学习模型对训练样本中的这些特征进行训练,使用10倍交叉验证来确认机器学习模型的最优参数。
学习装置(910)对筛选出的siRNA与mRNA的关联度进行相应的筛选评分运算;用筛选评分反映相关关系(siRNA筛选模型(930)来运算。
学习装置(910)从数据库(900)接收多路复用数据。数据库(900)保留上述siRNA数据及临床信息。学习装置(910)通过对siRNA数据进行分析,采用前述实施例提供的方法对siRNA候选序列进行扫描和分析,并对机器学习模型执行SS401~S403的步骤,使用10倍交叉验证来确认机器学习模型的最优参数。
siRNA序列筛选系统可以多种方式进行分析,并提供可视化的分析结果。siRNA序列筛选系统可基于集成的siRNA涉及及分析在线搜索目标siRNA。为此,构建siRNA序列筛选系统以方便访问胃癌或肝癌的多组学数据集,并考虑到临床影响以及数据可视化,siRNA沉默效率分析,中靶率分析,从而访问每种亚型的目标siRNA可以提供排序功能。
另外,如上所述的siRNA筛选方法可以被实现为包括可以在计算机上执行的可执行算法的程序(或应用)。可以通过将程序存储在非暂时性计算机可读介质中来提供程序。
非暂时性可读介质是指半永久性地存储数据并且可以被设备读取的介质,而不是诸如寄存器,高速缓存和存储器之类的短时间存储数据的介质。具体地,可以通过将上述各种应用或程序存储在诸如CD,DVD,硬盘,蓝光盘,USB,存储卡,ROM等的非暂时性可读介质中来提供。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (7)

1.获得免于脱靶miRNA的siRNA序列筛选方法,其特征在于,包括:
S100、获取siRNA候选序列数据;
S200、根据siRNA候选序列数据提取特征数据,并将特征数据组成训练集和测试集;所述特征数据包括各siRNA候选序列对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据;
S300、根据序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据构建机器学习模型;
S400、利用训练集对机器学习模型进行训练,并得到siRNA序列筛选模型;
S500、提取测试集中的特征向量,输入siRNA序列筛选模型,其中,特征向量包括序列特征向量、二级结构特征向量和热动力学特征向量;以及
S600、根据分别得到筛选评分筛选对mRNA中靶效果最优的siRNA并输出数据,输出数据包括最优siRNA的序列数据、特征值和筛选评分;其中,筛选评分最高者,即为最优siRNA;
所述机器学习模型为:
其中,S为针对某一靶标mRNA的某一siRNA的筛选评分;m为针对某一靶标mRNA的上述全部候选siRNA的数量;n为特征数量;T1为针对某一靶标mRNA的siRNA序列特征值,T2为针对某一靶标mRNA的二级结构特征值,T3为针对某一靶标mRNA的热力学特征值;p、q和j为模型参数。
2.根据权利要求1所述的筛选方法,其特征在于,所述siRNA候选序列包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的siRNA;所述训练集包括中靶率>90%、中靶率70%~90%、中靶率50%~70%和中靶率<50%的siRNA对应的序列特征数据、二级结构特征数据、热力学特征数据和中靶率数据。
3.根据权利要求1所述的筛选方法,其特征在于,所述序列特征包括G/C含量、U-T1、U-T2、U-T3、U-T4、A、N、(G-C)%、(A-U)%、(G+C)%和(A+U)%,所述二级结构特征包括氢键系数,所述热力学特征包括ΔGm、ΔGs、ΔGd、P、W和M。
4.根据权利要求3所述的筛选方法,其特征在于,G/C含量的特征提取方法为候选siRNA中G和C分别占的百分比例;
U-T1的特征提取方法为判断反义链5’端是否为A/U,若是则特征值为1,否则为0;
U-T2的特征提取方法为判断正义链5’端是否为G/C,若是则特征值为1,否则为0;
U-T3的特征提取方法为判断是否在反义链5’末端1/3区富含AU,若是则特征值为1,否则为0;
U-T4的特征提取方法为判断是否存在连续超过9位的GC区,若是则特征值为1,否则为0;
A的特征提取方法为判断是否同时满足U-T1/U-T2/U-T3/U-T4,若是则特征值为1,否则为0;
N的特征提取方法为判断是否同时不满足U-T1/U-T2/U-T3/U-T4,若是则特征值为1,否则为0;
(G-C)%的特征提取方法为计算100×(G%-C%)/(G%+C%);
(A-U)%的特征提取方法为计算100×(A%-U%)/(A%+U%);
(G+C)%的特征提取方法为计算G%+C%;
(A+U)%的特征提取方法为计算A%+U%。
5.根据权利要求3所述的筛选方法,其特征在于,
氢键系数的特征提取方法包括采用如下公式的进行计算:
在此公式中,i表示siRNA所对应的靶siRNA区域中的核苷酸序数,PH-bond是第i个核苷酸与同一条mRNA中其他核苷酸形成氢键的可能性。
6.根据权利要求3所述的筛选方法,其特征在于,
ΔGm的特征提取方法为计算打开靶标mRNA结合位点的能量;
ΔGs的特征提取方法为计算打开siRNA的能量;
ΔGd的特征提取方法为计算siRNA与mRNA结合释放的能量(单位为kcal/mol)
P的特征提取方法为计算判断自第一个与siRNA结合碱基的位置,从mRNA5’端起的长度与mRNA长度的商;
W的特征提取方法为计算靶标mRNA形成二级结构未发生互补配体的个数;
M的特征提取方法为计算靶标mRNA形成二级结构所释放的能量。
7.根据权利要求1所述的筛选方法,其特征在于,所述步骤S400具体包括:
S401、获取所述训练集后,提取每一训练样本中的序列特征值、二级结构特征值和热动力学特征值,分别形成对应的特征向量;
S402、使用所述机器学习模型对训练样本中的这些特征进行训练,使用交叉验证来确认所述机器学习模型的最优参数;
S403、根据确定的所述最优参数,建立所述siRNA序列筛选模型。
CN202310144980.1A 2023-02-21 2023-02-21 筛选siRNA序列以降低脱靶效应的方法及系统 Pending CN116825199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310144980.1A CN116825199A (zh) 2023-02-21 2023-02-21 筛选siRNA序列以降低脱靶效应的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310144980.1A CN116825199A (zh) 2023-02-21 2023-02-21 筛选siRNA序列以降低脱靶效应的方法及系统

Publications (1)

Publication Number Publication Date
CN116825199A true CN116825199A (zh) 2023-09-29

Family

ID=88120996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310144980.1A Pending CN116825199A (zh) 2023-02-21 2023-02-21 筛选siRNA序列以降低脱靶效应的方法及系统

Country Status (1)

Country Link
CN (1) CN116825199A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080009012A1 (en) * 2006-03-16 2008-01-10 Dharmacon, Inc. Methods, libraries and computer program products for determining whether siRNA induced phenotypes are due to off-target effects
US20080234941A1 (en) * 2003-10-27 2008-09-25 Jackson Aimee L Method of Designing Sirnas for Gene Silencing
WO2009042115A2 (en) * 2007-09-24 2009-04-02 Rosetta Inpharmatics Llc Methods of designing short hairpin rnas (shrnas) for gene silencing
US20090264510A1 (en) * 2006-01-31 2009-10-22 Maciej Wieczorek Double helical oligonucleotides interfering with mRNA used as effective anticancer agents
CN104419702A (zh) * 2013-09-04 2015-03-18 北京中康万达医药科技有限公司 一种基于生物信息学筛选siRNA的方法
CN108182346A (zh) * 2016-12-08 2018-06-19 杭州康万达医药科技有限公司 预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用
CN110010194A (zh) * 2019-04-10 2019-07-12 浙江科技学院 一种rna二级结构的预测方法
CN111354420A (zh) * 2020-03-08 2020-06-30 吉林大学 一种用于COVID-19病毒药物治疗的siRNA研发方法
CN112951319A (zh) * 2021-02-25 2021-06-11 深圳市新合生物医疗科技有限公司 一种筛选siRNA序列以降低脱靶效应的方法及系统
CN113066527A (zh) * 2021-04-14 2021-07-02 吉优诺(上海)基因科技有限公司 一种siRNA敲减mRNA的靶点预测方法和系统
KR20220083620A (ko) * 2020-12-11 2022-06-20 주식회사 뉴클릭스바이오 몬테카를로 트리 탐색을 사용하여 rna 압타머 서열을 스크리닝하는 방법 및 장치

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080234941A1 (en) * 2003-10-27 2008-09-25 Jackson Aimee L Method of Designing Sirnas for Gene Silencing
US20090264510A1 (en) * 2006-01-31 2009-10-22 Maciej Wieczorek Double helical oligonucleotides interfering with mRNA used as effective anticancer agents
US20080009012A1 (en) * 2006-03-16 2008-01-10 Dharmacon, Inc. Methods, libraries and computer program products for determining whether siRNA induced phenotypes are due to off-target effects
WO2009042115A2 (en) * 2007-09-24 2009-04-02 Rosetta Inpharmatics Llc Methods of designing short hairpin rnas (shrnas) for gene silencing
CN104419702A (zh) * 2013-09-04 2015-03-18 北京中康万达医药科技有限公司 一种基于生物信息学筛选siRNA的方法
CN108182346A (zh) * 2016-12-08 2018-06-19 杭州康万达医药科技有限公司 预测siRNA针对某类细胞的毒性的机器学习模型的建立方法及其应用
US20200020420A1 (en) * 2016-12-08 2020-01-16 Hangzhou Converd Co., Ltd. Method for Establishing Machine Learning Model for Predicting Toxicity of siRNA to Certain Type of Cells and Application Thereof
CN110010194A (zh) * 2019-04-10 2019-07-12 浙江科技学院 一种rna二级结构的预测方法
CN111354420A (zh) * 2020-03-08 2020-06-30 吉林大学 一种用于COVID-19病毒药物治疗的siRNA研发方法
KR20220083620A (ko) * 2020-12-11 2022-06-20 주식회사 뉴클릭스바이오 몬테카를로 트리 탐색을 사용하여 rna 압타머 서열을 스크리닝하는 방법 및 장치
CN112951319A (zh) * 2021-02-25 2021-06-11 深圳市新合生物医疗科技有限公司 一种筛选siRNA序列以降低脱靶效应的方法及系统
CN113066527A (zh) * 2021-04-14 2021-07-02 吉优诺(上海)基因科技有限公司 一种siRNA敲减mRNA的靶点预测方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANG ZHANG 等: "Secretion of human soluble programmed cell death protein 1 by chimeric antigen receptor-modified T cells enhances anti-tumor efficacy", 《CYTOTHERAPY》, vol. 22, no. 12, pages 734 - 743 *
严婉荣;肖彤斌;赵志祥;肖敏;陈绵才;: "辣椒MicroRNA靶标的预测及其与病毒的关系分析", 基因组学与应用生物学, no. 06, pages 143 - 149 *
刘元宁;徐宝林;张浩;陈竟博;韩烨;禹剑龙;: "基于siRNA-mRNA结合热力学特征的高效siRNA筛选", 吉林大学学报(工学版), no. 01, pages 196 - 200 *

Similar Documents

Publication Publication Date Title
US10400288B2 (en) MicroRNA-based method for early detection of prostate cancer in urine samples
Keller et al. Can circulating miRNAs live up to the promise of being minimal invasive biomarkers in clinical settings?
Sloma et al. Improving RNA secondary structure prediction with structure mapping data
Barbato et al. Computational challenges in miRNA target predictions: to be or not to be a true target?
US8084598B1 (en) Bioionformality detectable group of novel regulatory oligonucleotides and uses thereof
Zhang et al. A review on recent computational methods for predicting noncoding RNAs
CN112823213A (zh) 用于甲基化核酸的高深度测序的方法和系统
Morgado et al. Computational tools for plant small RNA detection and categorization
US20080318210A1 (en) Bioinformatically detectable group of novel regulatory viral and viral associated oligonucleotides and uses thereof
CN106295246A (zh) 找到与肿瘤相关的lncRNA并预测其功能
CN106951731A (zh) 一种大片段插入或缺失的预测方法及系统
CN113066527B (zh) 一种siRNA敲减mRNA的靶点预测方法和系统
US20240240257A1 (en) Compositions and methods for improved 5-hydroxymethylated cytosine resolution in nucleic acid sequencing
Harrison et al. aPPRove: an HMM-based method for accurate prediction of RNA-pentatricopeptide repeat protein binding events
Wu et al. Genome-wide characterization of intergenic polyadenylation sites redefines gene spaces in Arabidopsis thaliana
US7842800B2 (en) Bioinformatically detectable group of novel regulatory bacterial and bacterial associated oligonucleotides and uses thereof
CN116798513B (zh) 筛选siRNA序列以降低脱靶效应的方法及系统
US20050222399A1 (en) Bioinformatically detectable group of novel regulatory oligonucleotides associated with alzheimer&#39;s disease and uses thereof
US20140088937A1 (en) Methods of Predicting The Probability of Modulation of Transcript Levels By RNAI Compounds
CN116825199A (zh) 筛选siRNA序列以降低脱靶效应的方法及系统
Choi et al. Investigation of the putative role of antisense transcripts as regulators of sense transcripts by correlation analysis of sense‐antisense pairs in colorectal cancers
Rezaei et al. Identification of Novel miRNAs in the F8 Gene Via Bioinformatics Tools
Zhang et al. Novel long noncoding RNA (lncRNA) panel as biomarkers for prognosis in lung squamous cell carcinoma via competitive endogenous RNA (ceRNA) network analysis
CN110462056A (zh) 基于dna测序数据的样本来源检测方法、装置和存储介质
Shin et al. Novel discovery of LINE-1 in a Korean individual by a target enrichment method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240816

AD01 Patent right deemed abandoned