CN112951319B - 一种筛选siRNA序列以降低脱靶效应的方法及系统 - Google Patents
一种筛选siRNA序列以降低脱靶效应的方法及系统 Download PDFInfo
- Publication number
- CN112951319B CN112951319B CN202110213616.7A CN202110213616A CN112951319B CN 112951319 B CN112951319 B CN 112951319B CN 202110213616 A CN202110213616 A CN 202110213616A CN 112951319 B CN112951319 B CN 112951319B
- Authority
- CN
- China
- Prior art keywords
- sequence
- sirna
- sequences
- target
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108020004459 Small interfering RNA Proteins 0.000 title claims abstract description 239
- 238000012216 screening Methods 0.000 title claims abstract description 74
- 230000009437 off-target effect Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000002372 labelling Methods 0.000 claims abstract description 86
- 230000001363 autoimmune Effects 0.000 claims abstract description 27
- 238000006243 chemical reaction Methods 0.000 claims abstract description 20
- 108090000623 proteins and genes Proteins 0.000 claims description 62
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 claims description 40
- 108091070501 miRNA Proteins 0.000 claims description 32
- 239000002679 microRNA Substances 0.000 claims description 31
- 230000030279 gene silencing Effects 0.000 claims description 23
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 claims description 20
- 229930024421 Adenine Natural products 0.000 claims description 20
- 229960000643 adenine Drugs 0.000 claims description 20
- 229940035893 uracil Drugs 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 18
- 108700028369 Alleles Proteins 0.000 claims description 16
- 230000006472 autoimmune response Effects 0.000 claims description 15
- 241000282414 Homo sapiens Species 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 239000004055 small Interfering RNA Substances 0.000 description 169
- 230000000694 effects Effects 0.000 description 13
- 229940079593 drug Drugs 0.000 description 6
- 239000003814 drug Substances 0.000 description 6
- 108020004999 messenger RNA Proteins 0.000 description 6
- 108091030071 RNAI Proteins 0.000 description 3
- 230000009368 gene silencing by RNA Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 108091081021 Sense strand Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 229940125644 antibody drug Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007385 chemical modification Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001415 gene therapy Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 229940126586 small molecule drug Drugs 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提出了一种筛选siRNA序列以降低脱靶效应的方法及系统,包括:步骤S1:整合siRNA候选序列数据,对siRNA序列目标区域基因组区间进行有无常见SNP的标注;步骤S2:对siRNA正负链序列特征进行分析,对siRNA正负链序列进行是否能正确识别正负链的标注;步骤S3:对siRNA序列的负链特征进行分析,对siRNA序列的负链进行是否能够引发自身免疫反应的标注;步骤S4:对siRNA正负链序列特异性进行分析,对siRNA正负链序列进行siRNA序列特异性标注;步骤S5:综合上述所有标注结果,对候选siRNA序列进行筛选。所述系统包括与所述方法的步骤对应的单元模块。
Description
技术领域
本发明涉及小分子干扰RNA(siRNA)技术的疾病治疗领域,特别涉及一种筛选siRNA序列以降低脱靶效应的方法及系统。
背景技术
近年来对RNAi研究的不断深入为疾病的基因治疗开辟了新路径。小分子干扰RNA通过互补原则精准靶向至目标基因mRNA以达到沉默基因的效果。由于这种明确而又快速的基因转录后水平的调控能力,siRNA技术已经成为开发药物最有效手段之一。较之于传统的小分子和抗体药物治疗手段,siRNA分子药物具有半衰期长、用药方便、高效等技术优势。但随着RNAi治疗领域的不断扩大与siRNA分子药物的不断深入研究,暴露了此类药物在临床上面临的一些技术难题,其中之一便是脱靶效应。当siRNA非特异性地作用于非目标基因,与非靶标mRNA结合时便会产生脱靶效应;当外源性siRNA作用于体内引发自身免疫反应时也会带来脱靶效应;当双链siRNA进入RISC后错误保留了正义链,同样会带来脱靶效应。为了保证siRNA分子药物的有效性及安全性,如何针对以上脱靶效应的产生原因,对候选的siRNA序列进行逐一筛选,从而减少其脱靶效应,成为其临床开发的主要技术难点。因此亟需一种全面的筛选方法,对候选的siRNA分子药物序列进行筛选,以降低脱靶效应。
发明内容
本发明提供了一种筛选siRNA序列以降低脱靶效应的方法及系统,用以解决现有技术中沉默效率较低,脱靶效应较高的问题,通过对每一个候选的siRNA序列进行不同维度的信息标注,考虑到是否包含SNP位点、是否能正确识别正负链、是否能避免引起自身免疫反应、是否具有序列特异性,对原始的候选siRNA序列进行筛选,从而得到一系列沉默效率提高、脱靶效应降低的siRNA候选序列。本发明所采取的技术方案如下:
本发明提出的一种筛选siRNA序列以降低脱靶效应的方法,包括:
步骤S1:整合siRNA候选序列数据,对siRNA序列目标区域基因组区间进行有无次等位基因频率达到百分之一及以上的常见SNP的标注;
步骤S2:对siRNA正负链序列特征进行分析,对siRNA正负链序列进行是否能正确识别正负链的标注;
步骤S3:对siRNA序列的负链特征进行分析,对siRNA序列的负链进行是否能够引发自身免疫反应的标注;
步骤S4:对siRNA正负链序列特异性进行分析,对siRNA正负链序列进行siRNA序列特异性标注;
步骤S5:综合上述所有标注结果,对候选siRNA序列进行筛选,过滤候选siRNA序列中产生脱靶效应的部分,以获得不产生脱靶效应的siRNA序列。
进一步地,所述步骤S1:整合siRNA候选序列数据,对siRNA序列目标区域基因组区间进行有无次等位基因频率达到百分之一及以上的常见SNP的标注;包括:
步骤S101:对于目标沉默基因内,所有可能目标位置的siRNA序列进行整合,得到候选的siRNA序列列表进行后续筛选;
步骤S102:根据人类常见SNP数据,得到该目标沉默基因上次等位基因频率达到百分之一及以上的常见SNP位点信息;
步骤S103:根据S102步骤得到的常见SNP位点信息,得到S101步骤得到的候选序列的目标区域是否包含常见SNP位点的信息,并进行标注。
进一步地,所述步骤S2:对siRNA正负链序列特征进行分析,对siRNA正负链序列进行是否能正确识别正负链的标注;包括:
步骤S201:进行siRNA正链序列与负链序列的特征分析;
步骤S202:对比正负链的序列特征,分析负链序列的5’端前5以及前7个碱基的GC含量是否低于3’端对应的前5及前7个碱基,并完成标注。
进一步地,所述步骤S3:对siRNA序列的负链特征进行分析,对siRNA序列的负链进行是否能够引发自身免疫反应的标注;包括:
步骤S301:收集能够引发自身免疫反应的特殊序列特征集合;
步骤S302:查看siRNA序列中,是否包含所述引发自身免疫反应的特殊序列特征集合的元素并标注。
进一步地,所述步骤S4:对siRNA正负链序列特异性进行分析,对siRNA正负链序列进行siRNA序列特异性标注;包括:
步骤S401:对所有基因序列以及miRNA种子区域序列进行数据库构建;
步骤S402:利用构建的数据库,分别用候选的siRNA序列和siRNA序列的对应种子区域与所诉数据库中的种子区域序列进行比对搜索;
步骤S403:通过搜索确定所述siRNA序列和siRNA序列的对应种子区域中是否有目标基因以外的序列相似度达到15/19的对比结果或完全一致的miRNA种子区域比对结果;如果有,则对所述目标基因以外的高度相似比对结果或高度相似的miRNA种子区域比对结果进行标注。
进一步地,所述步骤S5:综合上述所有标注结果,对候选siRNA序列进行筛选;包括:
步骤S501:对所有标注结果进行整合;
步骤S502:对每条siRNA候选序列的脱靶指标进行加权求和,即:对于步骤S1中标注了包含SNP位点的siRNA,脱靶指标加1。对于步骤S2中标注了5’端GC含量高于3’端的siRNA,脱靶指标加1。对于步骤S3中标注了包含能够引起自身免疫反应序列的siRNA,脱靶指标权重加1。对于步骤S4中标注了不满足序列特异性的siRNA,脱靶指标权重加1。最后,对于脱靶权重大于1的siRNA进行过滤,筛选出脱靶权重仅为0或1的siRNA。
一种筛选siRNA序列以降低脱靶效应的系统,包括:
SNP位点标注单元,用于收集的次等位基因频率达到百分之一及以上的常见SNP位点信息,对候选siRNA序列的目标区域基因组位置是否包含SNP位点进行标注;
正负链识别标注单元,用于根据正负链的序列特征,进行是否能正确识别正负链的标注;
引起自身免疫标注单元,用于收集能够引发自身免疫反应的序列特征集合,进行候选序列是否包含集合元素的标注;
序列特异性标注单元,用于根据基因组序列和miRNA种子序列建立数据库,进行候选序列的序列特异性标注;
筛选单元,用于根据标注结果,对候选序列进行筛选。
进一步地,所述SNP位点标注单元包括:
候选siRNA序列列表获取子单元,用于对于目标沉默基因内,所有可能目标位置的siRNA序列进行整合,得到候选的siRNA序列列表进行后续筛选;
点位信息收集子单元,用于收集人类次等位基因频率达到百分之一及以上的常见SNP数据,并得到该目标沉默基因上常见的SNP位点信息;
对比及标注子单元,用于根据得到的目标沉默基因上常见SNP位点信息,对比候选序列的目标区域,查看是否包含常见SNP位点的信息,并进行标注。
进一步地,所述正负链识别标注单元包括:
正负链特征分析子单元,用于进行siRNA正链序列与负链序列的特征分析;
稳定度分析子单元,用于对比正负链的序列特征,分析是否负链序列的5’端前5以及前7个碱基的GC含量是否低于3’端对应的前5及前7个碱基,并完成标注。
进一步地,所述引起自身免疫标注单元包括:
特征集合收集子单元,用于收集能够引发自身免疫反应的特殊序列特征集合;
查看及标注子单元,用于查看siRNA序列中,是否包含上述序列集合的元素并标注。
进一步地,所述序列特异性标注单元包括:
数据库构建子单元,用于对所有基因序列以及miRNA种子区域序列进行数据库构建;
比对搜索子单元,用于利用构建的数据库,分别用候选的siRNA序列和siRNA序列的对应种子区域与所诉数据库中的种子区域序列进行比对搜索;
结果标注子单元,用于通过搜索确定所述siRNA序列和siRNA序列的对应种子区域中是否有目标基因以外的高度相似对比结果或相似的miRNA种子区域比对结果;如果有,则对所述目标基因以外的高度相似比对结果或高度相似的miRNA种子区域比对结果进行标注。
进一步地,所述筛选单元包括:
整合子单元,用于对所有标注结果进行整合;
序列筛选子单元,用于综合考虑每条siRNA候选序列的所有标注结果,进行筛选。
本发明有益效果:
本发明提出的一种筛选siRNA序列以降低脱靶效应的方法及系统,从引发RNAi脱靶效应的分类来说,本发明提出的方法及系统充分利用增强序列特异性、确保正负链识别有效性和避免产生自身免疫反应的手段,从序列本身的角度降低脱靶效应。其中,本发明提出的方法和系统通过对于SNP位点的避免,能够有效提高作用群体的广泛性;通过序列特异性的筛选,去除目标基因外还能产生配对的候选序列;同时,利用RISC复合体识别保留负链的偏好性,筛选包含偏好性序列特征的候选序列;并且,去除包含能够引起序列自身免疫反应的序列motifs。
另一方面,本发明提出的筛选siRNA序列以降低脱靶效应的方法及系统从筛选方法上说,区别于传统的需要利用后期化学修饰等方式对siRNA分子进行改造的方法,本发明能够从序列本身的角度出发,在序列筛选阶段,就对引起脱靶效应的siRNA序列进行排除,从而可以从本源上降低siRNA序列引起脱靶效应的可能性。
附图说明
图1为本发明实施例中所述筛选siRNA序列以降低脱靶效应的方法示意图;
图2为本发明实施例中所述筛选siRNA序列以降低脱靶效应的方法流程图;
图3为本发明实施例中所述筛选siRNA序列以降低脱靶效应的系统的系统框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提出的一种筛选siRNA序列以降低脱靶效应的方法,如图1和图2所示,所述方法包括:
步骤S1:整合siRNA候选序列数据,对siRNA序列目标区域基因组区间进行有无次等位基因频率达到百分之一及以上的常见SNP的标注;
步骤S2:对siRNA正负链序列特征进行分析,对siRNA正负链序列进行是否能正确识别正负链的标注;
步骤S3:对siRNA序列的负链特征进行分析,对siRNA序列的负链进行是否能够引发自身免疫反应的标注;
步骤S4:对siRNA正负链序列特异性进行分析,对siRNA正负链序列进行siRNA序列特异性标注;
步骤S5:综合上述所有标注结果,对候选siRNA序列进行筛选,过滤候选siRNA序列中产生脱靶效应的部分,以获得不产生脱靶效应的siRNA序列。
上述技术方案的工作原理为:基于每一个目标基因产生的候选的siRNA序列,要避免其产生脱靶效应并且保证其高效性,必须要对其进行分析和筛选;本实施例通过整合、分析、标注、筛选,四步保证筛选siRNA序列的准确。
上述技术方案的效果为:本实施例提出的筛选siRNA序列以降低脱靶效应的方法,对每一个预测的候选siRNA序列,考虑到序列特异性、正负链识别有效性以及能否引发自身免疫反应等不同维度信息,充分考虑到引起脱靶效应的各个原因类型,从而能够降低脱靶效应且提高沉默效率。
本发明的一个实施例,所述步骤S1:整合siRNA候选序列数据,对siRNA序列目标区域基因组区间进行有无次等位基因频率达到百分之一及以上的常见SNP的标注;包括:
步骤S101:对于目标沉默基因内,所有可能目标位置的siRNA序列进行整合,得到候选的siRNA序列列表进行后续筛选;
在此步骤中,编写代码,首先对目标基因的mRNA序列进行滑窗选取有效的目标序列,根据碱基互补配对原则,得到一系列候选的siRNA序列。
其中,优选的,程序默认设计的候选siRNA序列长度为19。
步骤S102:根据人类常见SNP数据,得到该目标沉默基因上次等位基因频率达到百分之一及以上的常见SNP位点信息;
在此步骤中,首先收集人类常见的SNP数据库作为参考文件。
优选的,在NCBI FTP服务器上选取人类对应的次等位基因频率达到百分之一及以上的常见SNP位点文件common_all_20180418.vcf.gz。
步骤S103:根据S102步骤得到的常见SNP位点信息,得到S101步骤得到的候选序列的目标区域是否包含常见SNP位点的信息,并进行标注。
在此步骤中,编写代码,首先根据得到的SNP文件,读入程序中。再进行候选序列目标区域内的SNP查找,最后进行标注。
优选的,利用字典数据类型对SNP进行存储。
优选的,对候选序列目标区域内所有位点进行查找。
可选的,将目标区域内不包含任何次等位基因频率达到百分之一及以上的常见SNP位点的候选siRNA序列标注为TRUE,其它标注为FALSE。
上述技术方案的工作原理为:本实施例中,首先,对目标沉默基因内,所有可能目标位置的siRNA序列进行整合,然后,结合常见SNP数据,以人类常见SNP数据为标准,获取所述目标沉默基因上常见的SNP位点信息;最后,根据在所述目标沉默基因上得到的常见SNP位点信息,确定候选序列的目标区域是否包含常见SNP位点的信息,并进行标注。
上述技术方案的效果为:有效提高目标沉默基因内,常见SNP位点的信息的获取效率和速度,同时有效提高作用群体的广泛性,为后续的筛选提供准确信息,有效降低脱靶效应且提高沉默效率。
本发明的一个实施例,所述步骤S2:对siRNA正负链序列特征进行分析,对siRNA正负链序列进行是否能正确识别正负链的标注;包括:
步骤S201:进行siRNA正链序列与负链序列的特征分析;在此步骤中,编写代码对候选siRNA的正负链序列进行序列特征分析。优选的,分析序列5’端前5个碱基中的腺嘌呤和尿嘧啶的个数。同时,优选的,分析序列5’端前7个碱基中的腺嘌呤和尿嘧啶的个数。
步骤S202:对比正负链的序列特征,分析负链序列的5’端前5以及前7个碱基的GC含量是否低于3’端对应的前5及前7个碱基,并完成标注。
在此步骤中,编写代码,比较分析是否序列的5’端有较低的稳定度。
优选的,比较负链序列的5’端前5个碱基中,腺嘌呤和尿嘧啶的含量是否高于正链序列的5’端前5个碱基中腺嘌呤和尿嘧啶的含量。
优选的,比较负链序列的5’端前7个碱基中,腺嘌呤和尿嘧啶的含量是否高于正链序列的5’端前7个碱基中腺嘌呤和尿嘧啶的含量。
可选的,将负链序列的5’端前5个碱基中腺嘌呤和尿嘧啶的含量较高并且前7个碱基中腺嘌呤和尿嘧啶的含量较高的siRNA序列标注为TRUE,其它标注为FALSE。
上述技术方案的工作原理为:本实施例中,首先,进行siRNA正链序列与负链序列的特征分析;然后,对比正负链的序列特征,分析负链序列的5’端前5以及前7个碱基的GC含量是否低于3’端对应的前5及前7个碱基,并完成标注。
上述技术方案的效果为:通过利用RISC复合体识别保留负链的偏好性,筛选包含偏好性序列特征的候选序列,在序列筛选阶段,通过选包含偏好性序列特征的候选序列的方式,对引起脱靶效应的siRNA序列进行排除,从而可以从本源上降低siRNA序列引起脱靶效应。
本发明的一个实施例,所述步骤S3:对siRNA序列的负链特征进行分析,对siRNA序列的负链进行是否能够引发自身免疫反应的标注;包括:
步骤S301:收集能够引发自身免疫反应的特殊序列特征集合;在此步骤中,收集能够引起自身免疫反应的motifs序列特征。
步骤S302:查看siRNA序列中,是否包含所述引发自身免疫反应的特殊序列特征集合的元素并标注。
在此步骤中,编写代码,查看siRNA序列中是否包含步骤S301收集到的序列特征集合的元素,并进行标注。
优选的,查看siRNA序列中是否包含GUCCUUCAA序列。
优选的,查看siRNA序列中是否包含UGUGU序列。
可选的,将不包含任何能够引发自身免疫反应序列特征的siRNA序列标注为TRUE,其它标注为FALSE。
上述技术方案的工作原理为:首先,收集能够引发自身免疫反应的特殊序列特征集合;然后,查看siRNA序列中,是否包含所述引发自身免疫反应的特殊序列特征集合的元素并标注。
上述技术方案的效果为:去除包含能够引起序列自身免疫反应的序列motifs,为后续的筛选提供准确信息,有效降低脱靶效应且提高沉默效率。
本发明的一个实施例,所述步骤S4:对siRNA正负链序列特异性进行分析,对siRNA正负链序列进行siRNA序列特异性标注;包括:
步骤S401:对所有基因序列以及miRNA种子区域序列进行数据库构建;
在此步骤中,首先收集人类所有基因的mRNA序列以及miRNA序列,然后对mRNA序列以及miRNA的种子区域序列进行数据库构建。
优选的,使用BLASTn进行数据库的构建。
其中,构建数据库的命令行和参数如下:
makeblastdb\
-in input.fa\
-input_type fasta\
-dbtype nucl\
-title dbtitle\
-out dbname\
-logfile logname
其中:
-in代表构建数据库参考的序列文件
-input_type代表参考序列文件的文件类型,为fasta
-dbtype代表构建的数据库类型,nucl代表核苷酸
-title代表构建的数据库的标题
-out代表构建的数据库的名称
-logfile代表日志文件
步骤S402:利用构建的数据库,分别用候选的siRNA序列和siRNA序列的对应种子区域与所诉数据库中的种子区域序列进行比对搜索;
步骤S403:通过搜索确定所述siRNA序列和siRNA序列的对应种子区域中是否有目标基因以外的序列相似度达到15/19的对比结果或完全一致的miRNA种子区域比对结果;如果有,则对所述目标基因以外的高度相似比对结果或高度相似的miRNA种子区域比对结果进行标注。
优选的,利用BLASTn对siRNA序列进行比对搜索。
其中,命令行及参数如下::
blastn\
-query input.fa\
-strand both\
-db dbname\
-out output.tsv\
-word_size 7\
-outfmt 7\
-max_target_seqs 5000\
-num_threads 10
其中:
-query代表需要比对搜索的输入文件,即上述siRNA序列。
-strand代表需要查找的链,both代表正负链。
-db代表查找的数据库名称,即上述mRNA序列构建的数据库
-out代表输出文件名
-word_size代表查找最佳匹配的长度
-outfmt代表输出文件的格式,7代表有注释行的tsv文件
-max_target_seqs代表结果文件保留的最大比对结果数
-num_threads代表线程数
优选的,利用BLASTn对siRNA种子区域序列进行比对搜索。
其中,命令行及参数如下::
blastn\
-query input.fa\
-strand both\
-db dbname\
-out output.tsv\
-word_size 4\
-outfmt 7\
-max_target_seqs 5000\
-num_threads 10
其中:
-query代表需要比对搜索的输入文件,即上述siRNA序列的“种子区域”,第2-7位。
-strand代表需要查找的链,both代表正负链。
-db代表查找的数据库名称,即上述miRNA序列种子区域构建的数据库
-out代表输出文件名
-word_size代表查找最佳匹配的长度
-outfmt代表输出文件的格式,7代表有注释行的tsv文件
-max_target_seqs代表结果文件保留的最大比对结果数
-num_threads代表线程数。
优选的,记录对于目标基因外与其他基因序列存在达到或超过15/19相似度的siRNA序列。
优选的,记录5’端第2至7位碱基与miRNA种子区域序列完全一致的siRNA序列。
可选的,对不包含任何上述相似序列的siRNA序列标注为TRUE,其他标注为FALSE。
上述技术方案的工作原理为:首先,对所有基因序列以及miRNA种子区域序列进行数据库构建;然后,利用构建的数据库,分别用候选的siRNA序列和siRNA序列的对应种子区域与所诉数据库中的种子区域序列进行比对搜索;最后,通过搜索确定所述siRNA序列和siRNA序列的对应种子区域中是否有目标基因以外的高度相似对比结果或相似的miRNA种子区域比对结果;如果有,则对所述目标基因以外的高度相似比对结果或高度相似的miRNA种子区域比对结果进行标注。
上述技术方案的效果为:通过对序列特异性的筛选,有效去除目标基因外还能产生配对的候选序列,从基因序列本源上去除造成脱靶效应的因素,有效降低脱靶效应且提高沉默效率。
本发明的一个实施例,所述步骤S5:综合上述所有标注结果,对候选siRNA序列进行筛选;包括:
步骤S501:对所有标注结果进行整合;
步骤S502:对每条siRNA候选序列的脱靶指标进行加权求和,即:对于步骤S1中标注了包含SNP位点的siRNA,脱靶指标加1。对于步骤S2中标注了5’端GC含量高于3’端的siRNA,脱靶指标加1。对于步骤S3中标注了包含能够引起自身免疫反应序列的siRNA,脱靶指标权重加1。对于步骤S4中标注了不满足序列特异性的siRNA,脱靶指标权重加1。最后,对于脱靶权重大于1的siRNA进行过滤,筛选出脱靶权重仅为0或1的siRNA。
上述技术方案的工作原理为:首先,对所有标注结果进行整合;然后,综合考虑每条siRNA候选序列的所有标注结果,进行筛选。
上述技术方案的效果为:对标注的结果进行统一筛选,一次性统一筛选出造成脱靶效应的因素,效降低脱靶效应且提高沉默效率。
本发明实施例提出了一种筛选siRNA序列以降低脱靶效应的系统,如图3所示,包括:
SNP位点标注单元,用于收集的常见SNP位点信息,对候选siRNA序列的目标区域基因组位置是否包含SNP位点进行标注;
正负链识别标注单元,用于根据正负链的序列特征,进行是否能正确识别正负链的标注;
引起自身免疫标注单元,用于收集能够引发自身免疫反应的序列特征集合,进行候选序列是否包含集合元素的标注;
序列特异性标注单元,用于根据基因组序列和miRNA种子序列建立数据库,进行候选序列的序列特异性标注;
筛选单元,用于根据标注结果,对候选序列进行筛选。
上述技术方案的工作原理为:首先,利用SNP位点标注单元收集的常见SNP位点信息,对候选siRNA序列的目标区域基因组位置是否包含SNP位点进行标注;然后,采用正负链识别标注单元根据正负链的序列特征,进行是否能正确识别正负链的标注;随后,利用引起自身免疫标注单元收集能够引发自身免疫反应的序列特征集合,进行候选序列是否包含集合元素的标注;并,通过序列特异性标注单元根据基因组序列和miRNA种子序列建立数据库,进行候选序列的序列特异性标注;最后,采用筛选单元根据标注结果,对候选序列进行筛选。
上述技术方案的效果为:本实施例提出的筛选siRNA序列以降低脱靶效应的系统,对每一个预测的候选siRNA序列,考虑到序列特异性、正负链识别有效性以及能否引发自身免疫反应等不同维度信息,充分考虑到引起脱靶效应的各个原因类型,从而能够降低脱靶效应且提高沉默效率。
本发明的一个实施例,所述SNP位点标注单元包括:
候选siRNA序列列表获取子单元,用于对于目标沉默基因内,所有可能目标位置的siRNA序列进行整合,得到候选的siRNA序列列表进行后续筛选;
点位信息收集子单元,用于收集人类次等位基因频率达到百分之一及以上的常见SNP数据,并得到该目标沉默基因上常见的SNP位点信息;
对比及标注子单元,用于根据得到的目标沉默基因上常见SNP位点信息,对比候选序列的目标区域,查看是否包含常见SNP位点的信息,并进行标注。
上述技术方案的工作原理为:首先,利用候选siRNA序列列表获取子单元对目标沉默基因内,所有可能目标位置的siRNA序列进行整合,得到候选的siRNA序列列表进行后续筛选;然后,采用点位信息收集子单元收集人类常见SNP数据,并得到该目标沉默基因上常见的SNP位点信息;最后,通过对比及标注子单元根据得到的目标沉默基因上常见SNP位点信息,对比候选序列的目标区域,查看是否包含常见SNP位点的信息,并进行标注。
上述技术方案的效果为:有效提高目标沉默基因内,常见SNP位点的信息的获取效率和速度,同时有效提高作用群体的广泛性,为后续的筛选提供准确信息,有效降低脱靶效应且提高沉默效率。
本发明的一个实施例,所述正负链识别标注单元包括:
正负链特征分析子单元,用于进行siRNA正链序列与负链序列的特征分析;
稳定度分析子单元,用于对比正负链的序列特征,分析是否负链序列的5’端前5以及前7个碱基的GC含量是否低于3’端对应的前5及前7个碱基,并完成标注。
上述技术方案的工作原理为:首先,利用正负链特征分析子单元进行siRNA正链序列与负链序列的特征分析;然后,通过稳定度分析子单元对比正负链的序列特征,分析是否负链序列的5’端有较低的稳定度,并完成标注。
上述技术方案的效果为:通过利用RISC复合体识别保留负链的偏好性,筛选包含偏好性序列特征的候选序列,在序列筛选阶段,通过选包含偏好性序列特征的候选序列的方式,对引起脱靶效应的siRNA序列进行排除,从而可以从本源上降低siRNA序列引起脱靶效应。
本发明的一个实施例,所述引起自身免疫标注单元包括:
特征集合收集子单元,用于收集能够引发自身免疫反应的特殊序列特征集合;
查看及标注子单元,用于查看siRNA序列中,是否包含上述序列集合的元素并标注。
上述技术方案的工作原理为:首先,通过特征集合收集子单元收集能够引发自身免疫反应的特殊序列特征集合;然后,采用查看及标注子单元查看siRNA序列中,是否包含上述序列集合的元素并标注。
上述技术方案的效果为:去除包含能够引起序列自身免疫反应的序列motifs,为后续的筛选提供准确信息,有效降低脱靶效应且提高沉默效率。
本发明的一个实施例,所述序列特异性标注单元包括:
数据库构建子单元,用于对所有基因序列以及miRNA种子区域序列进行数据库构建;
比对搜索子单元,用于利用构建的数据库,分别用候选的siRNA序列和siRNA序列的对应种子区域与所诉数据库中的种子区域序列进行比对搜索;
结果标注子单元,用于通过搜索确定所述siRNA序列和siRNA序列的对应种子区域中是否有目标基因以外的高度相似对比结果或相似的miRNA种子区域比对结果;如果有,则对所述目标基因以外的高度相似比对结果或高度相似的miRNA种子区域比对结果进行标注。
上述技术方案的工作原理为:首先,通过数据库构建子单元对所有基因序列以及miRNA种子区域序列进行数据库构建;然后,通过比对搜索子单元利用构建的数据库,分别用候选的siRNA序列和siRNA序列的对应种子区域与所诉数据库中的种子区域序列进行比对搜索;最后,采用结果标注子单元通过搜索确定所述siRNA序列和siRNA序列的对应种子区域中是否有目标基因以外的高度相似对比结果或相似的miRNA种子区域比对结果;如果有,则对所述目标基因以外的高度相似比对结果或高度相似的miRNA种子区域比对结果进行标注。
上述技术方案的效果为:通过对序列特异性的筛选,有效去除目标基因外还能产生配对的候选序列,从基因序列本源上去除造成脱靶效应的因素,有效降低脱靶效应且提高沉默效率。
本发明的一个实施例,所述筛选单元包括:
整合子单元,用于对所有标注结果进行整合;
序列筛选子单元,用于综合考虑每条siRNA候选序列的所有标注结果,进行筛选。
上述技术方案的工作原理为:首先,通过整合子单元对所有标注结果进行整合;然后,利用序列筛选子单元综合考虑每条siRNA候选序列的所有标注结果,进行筛选。
上述技术方案的效果为:对标注的结果进行统一筛选,一次性统一筛选出造成脱靶效应的因素,效降低脱靶效应且提高沉默效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种筛选siRNA序列以降低脱靶效应的方法,其特征在于,包括:
步骤S1:整合siRNA候选序列数据,对siRNA序列目标区域基因组区间进行有无次等位基因频率达到百分之一及以上的常见SNP的标注;
步骤S2:对siRNA正负链序列特征进行分析,对siRNA正负链序列进行是否能正确识别正负链的标注;
步骤S3:对siRNA序列的负链特征进行分析,对siRNA序列的负链进行是否能够引发自身免疫反应的标注;
步骤S4:对siRNA正负链序列特异性进行分析,对siRNA正负链序列进行siRNA序列特异性标注;
步骤S5:综合上述所有标注结果,对候选siRNA序列进行筛选,过滤候选siRNA序列中产生脱靶效应的部分,以获得不产生脱靶效应的siRNA序列;
其中,所述步骤S2:对siRNA正负链序列特征进行分析,对siRNA正负链序列进行是否能正确识别正负链的标注;包括:
步骤S201:进行siRNA正链序列与负链序列的特征分析,即分析序列5’端前5个碱基中的腺嘌呤和尿嘧啶的个数,和/或分析序列5’端前7个碱基中的腺嘌呤和尿嘧啶的个数;
步骤S202:对比正负链的序列特征,分析负链序列的5’端前5以及前7个碱基的GC含量是否低于3’端对应的前5及前7个碱基,并完成标注,比较负链序列的5’端前5个碱基中,腺嘌呤和尿嘧啶的含量是否高于正链序列的5’端前5个碱基中腺嘌呤和尿嘧啶的含量;和/或,比较负链序列的5’端前7个碱基中,腺嘌呤和尿嘧啶的含量是否高于正链序列的5’端前7个碱基中腺嘌呤和尿嘧啶的含量。
2.如权利要求1所述的筛选siRNA序列以降低脱靶效应的方法,其特征在于,所述步骤S1:整合siRNA候选序列数据,对siRNA序列目标区域基因组区间进行有无次等位基因频率达到百分之一及以上的常见SNP的标注;包括:
步骤S101:对于目标沉默基因内,所有可能目标位置的siRNA序列进行整合,得到候选的siRNA序列列表进行后续筛选;
步骤S102:根据人类常见SNP数据,得到该目标沉默基因上次等位基因频率达到百分之一及以上的常见SNP位点信息;
步骤S103:根据S102步骤得到的常见SNP位点信息,得到S101步骤得到的候选序列的目标区域是否包含常见SNP位点的信息,并进行标注。
3.如权利要求1所述的筛选siRNA序列以降低脱靶效应的方法,其特征在于,所述步骤S3:对siRNA序列的负链特征进行分析,对siRNA序列的负链进行是否能够引发自身免疫反应的标注;包括:
步骤S301:收集能够引发自身免疫反应的特殊序列特征集合;
步骤S302:查看siRNA序列中,是否包含所述引发自身免疫反应的特殊序列特征集合的元素并标注。
4.如权利要求1所述的筛选siRNA序列以降低脱靶效应的方法,其特征在于,所述步骤S4:对siRNA正负链序列特异性进行分析,对siRNA正负链序列进行siRNA序列特异性标注;包括:
步骤S401:对所有基因序列以及miRNA种子区域序列进行数据库构建;
步骤S402:利用构建的数据库,分别用候选的siRNA序列和siRNA序列的对应种子区域与所诉数据库中的种子区域序列进行比对搜索;
步骤S403:通过搜索确定所述siRNA序列和siRNA序列的对应种子区域5’端第2至7位中是否有目标基因以外的序列相似度达到15/19的对比结果或完全一致的miRNA种子区域比对结果;如果有,则对所述目标基因以外的高度相似比对结果或高度相似的miRNA种子区域比对结果进行标注。
5.如权利要求1所述的筛选siRNA序列以降低脱靶效应的方法,其特征在于,所述步骤S5:综合上述所有标注结果,对候选siRNA序列进行筛选;包括:
步骤S501:对所有标注结果进行整合;
步骤S502:对每条siRNA候选序列的脱靶指标进行加权求和,即:对于步骤S1中标注了包含SNP位点的siRNA,脱靶指标加1;对于步骤S2中标注了5’端GC含量高于3’端的siRNA,脱靶指标加1;对于步骤S3中标注了包含能够引起自身免疫反应序列的siRNA,脱靶指标权重加1;对于步骤S4中标注了不满足序列特异性的siRNA,脱靶指标权重加1;最后,对于脱靶权重大于1的siRNA进行过滤,筛选出脱靶权重仅为0或1的siRNA。
6.一种筛选siRNA序列以降低脱靶效应的系统,其特征在于,包括:
SNP位点标注单元,用于收集的次等位基因频率达到百分之一及以上的常见SNP位点信息,对候选siRNA序列的目标区域基因组位置是否包含SNP位点进行标注;
正负链识别标注单元,用于根据正负链的序列特征,进行是否能正确识别正负链的标注;
引起自身免疫标注单元,用于收集能够引发自身免疫反应的序列特征集合,进行候选序列是否包含集合元素的标注;
序列特异性标注单元,用于根据基因组序列和miRNA种子序列建立数据库,进行候选序列的序列特异性标注;
筛选单元,用于根据标注结果,对候选序列进行筛选;
其中,所述正负链识别标注单元包括:
正负链特征分析子单元,用于进行siRNA正链序列与负链序列的特征分析,即分析序列5’端前5个碱基中的腺嘌呤和尿嘧啶的个数,和/或分析序列5’端前7个碱基中的腺嘌呤和尿嘧啶的个数;
稳定度分析子单元,用于对比正负链的序列特征,分析是否负链序列的5’端前5以及前7个碱基的GC含量是否低于3’端对应的前5及前7个碱基,并完成标注,比较负链序列的5’端前5个碱基中,腺嘌呤和尿嘧啶的含量是否高于正链序列的5’端前5个碱基中腺嘌呤和尿嘧啶的含量;和/或,比较负链序列的5’端前7个碱基中,腺嘌呤和尿嘧啶的含量是否高于正链序列的5’端前7个碱基中腺嘌呤和尿嘧啶的含量。
7.如权利要求6所述的筛选siRNA序列以降低脱靶效应的系统,其特征在于,所述SNP位点标注单元包括:
候选siRNA序列列表获取子单元,用于对于目标沉默基因内,所有可能目标位置的siRNA序列进行整合,得到候选的siRNA序列列表进行后续筛选;
点位信息收集子单元,用于收集人类次等位基因频率达到百分之一及以上的常见SNP数据,并得到该目标沉默基因上常见的SNP位点信息;
对比及标注子单元,用于根据得到的目标沉默基因上常见SNP位点信息,对比候选序列的目标区域,查看是否包含常见SNP位点的信息,并进行标注。
8.如权利要求6所述的筛选siRNA序列以降低脱靶效应的系统,其特征在于,所述引起自身免疫标注单元包括:
特征集合收集子单元,用于收集能够引发自身免疫反应的特殊序列特征集合;
查看及标注子单元,用于查看siRNA序列中,是否包含上述序列集合的元素并标注。
9.如权利要求6所述的筛选siRNA序列以降低脱靶效应的系统,其特征在于,所述序列特异性标注单元包括:
数据库构建子单元,用于对所有基因序列以及miRNA种子区域序列进行数据库构建;
比对搜索子单元,用于利用构建的数据库,分别用候选的siRNA序列和siRNA序列的对应种子区域与所诉数据库中的种子区域序列进行比对搜索;
结果标注子单元,用于通过搜索确定所述siRNA序列和siRNA序列的对应种子区域中是否有目标基因以外的高度相似对比结果或相似的miRNA种子区域比对结果;如果有,则对所述目标基因以外的高度相似比对结果或高度相似的miRNA种子区域比对结果进行标注。
10.如权利要求6所述的筛选siRNA序列以降低脱靶效应的系统,其特征在于,所述筛选单元包括:
整合子单元,用于对所有标注结果进行整合;
序列筛选子单元,用于综合考虑每条siRNA候选序列的所有标注结果,进行筛选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213616.7A CN112951319B (zh) | 2021-02-25 | 2021-02-25 | 一种筛选siRNA序列以降低脱靶效应的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213616.7A CN112951319B (zh) | 2021-02-25 | 2021-02-25 | 一种筛选siRNA序列以降低脱靶效应的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112951319A CN112951319A (zh) | 2021-06-11 |
CN112951319B true CN112951319B (zh) | 2024-01-09 |
Family
ID=76246278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110213616.7A Active CN112951319B (zh) | 2021-02-25 | 2021-02-25 | 一种筛选siRNA序列以降低脱靶效应的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112951319B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114550817B (zh) * | 2022-01-25 | 2022-12-23 | 云南大学 | 基于多特征的ctcf介导染色质环预测方法 |
CN116825199A (zh) * | 2023-02-21 | 2023-09-29 | 王全军 | 筛选siRNA序列以降低脱靶效应的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015093769A1 (ko) * | 2013-12-17 | 2015-06-25 | 성균관대학교산학협력단 | 오프-타겟을 막기 위해 변형된 rna 간섭 유도 핵산 및 그 용도 |
WO2017045654A1 (zh) * | 2015-09-18 | 2017-03-23 | 广州华大基因医学检验所有限公司 | 确定受体cfDNA样本中供体来源cfDNA比例的方法 |
CN111354420A (zh) * | 2020-03-08 | 2020-06-30 | 吉林大学 | 一种用于COVID-19病毒药物治疗的siRNA研发方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8680063B2 (en) * | 2003-09-12 | 2014-03-25 | University Of Massachusetts | RNA interference for the treatment of gain-of-function disorders |
US20070218495A1 (en) * | 2006-03-16 | 2007-09-20 | Dharmacon, Inc. | Methods, libraries and computer program products for gene silencing with reduced off-target effects |
-
2021
- 2021-02-25 CN CN202110213616.7A patent/CN112951319B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015093769A1 (ko) * | 2013-12-17 | 2015-06-25 | 성균관대학교산학협력단 | 오프-타겟을 막기 위해 변형된 rna 간섭 유도 핵산 및 그 용도 |
WO2017045654A1 (zh) * | 2015-09-18 | 2017-03-23 | 广州华大基因医学检验所有限公司 | 确定受体cfDNA样本中供体来源cfDNA比例的方法 |
CN111354420A (zh) * | 2020-03-08 | 2020-06-30 | 吉林大学 | 一种用于COVID-19病毒药物治疗的siRNA研发方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112951319A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alam et al. | FASTAptamer: a bioinformatic toolkit for high-throughput sequence analysis of combinatorial selections | |
Barash et al. | A simple hyper-geometric approach for discovering putative transcription factor binding sites | |
Puton et al. | CompaRNA: a server for continuous benchmarking of automated methods for RNA secondary structure prediction | |
CN112951319B (zh) | 一种筛选siRNA序列以降低脱靶效应的方法及系统 | |
AU2021218122A1 (en) | Diagnostic methods | |
JP7319197B2 (ja) | 標的核酸のシークエンシングデータをアライメントする方法 | |
CN105653893A (zh) | 一种基因组重测序分析系统及方法 | |
Spinozzi et al. | VISPA2: a scalable pipeline for high-throughput identification and annotation of vector integration sites | |
CN103975329A (zh) | 鲁棒的变异识别和验证 | |
Grinev et al. | ORFhunteR: An accurate approach to the automatic identification and annotation of open reading frames in human mRNA molecules | |
Ebrahimi et al. | Fast and accurate matching of cellular barcodes across short-reads and long-reads of single-cell RNA-seq experiments | |
US20080263002A1 (en) | Base Sequence Retrieval Apparatus | |
Cheng et al. | REHUNT: a reliable and open source package for restriction enzyme hunting | |
KR20200102182A (ko) | 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치 | |
Yamamoto et al. | dsRID: in silico identification of dsRNA regions using long-read RNA-seq data | |
CN110462056B (zh) | 基于dna测序数据的样本来源检测方法、装置和存储介质 | |
Crespo et al. | Identifying biological mechanisms for favorable cancer prognosis using non-hypothesis-driven iterative survival analysis | |
Gopal et al. | A computational investigation of kinetoplastid trans-splicing | |
Mulroney et al. | Using Nanocompore to Identify RNA Modifications from Direct RNA Nanopore Sequencing Data | |
Cascitti et al. | RNACache: A scalable approach to rapid transcriptomic read mapping using locality sensitive hashing | |
Nielsen et al. | Regmex: a statistical tool for exploring motifs in ranked sequence lists from genomics experiments | |
Course et al. | A complete pipeline for isolating and sequencing microRNAs, and analyzing them using open source tools | |
Hassan et al. | Nm-Nano: Predicting 2’-O-Methylation (Nm) Sites in Nanopore RNA Sequencing Data | |
KR20200104672A (ko) | 클러스터링 기법을 이용한 생물종 서식지 추적 방법 및 장치 | |
US20070202504A1 (en) | Method Of Searching Specific Base Sequence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |