CN113838529A - 一种植物中sgRNA活性预测方法及装置 - Google Patents
一种植物中sgRNA活性预测方法及装置 Download PDFInfo
- Publication number
- CN113838529A CN113838529A CN202111138368.0A CN202111138368A CN113838529A CN 113838529 A CN113838529 A CN 113838529A CN 202111138368 A CN202111138368 A CN 202111138368A CN 113838529 A CN113838529 A CN 113838529A
- Authority
- CN
- China
- Prior art keywords
- sgrna
- plant
- activity
- neural network
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 130
- 238000000034 method Methods 0.000 title claims abstract description 60
- 108091027544 Subgenomic mRNA Proteins 0.000 title claims abstract description 58
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 239000002773 nucleotide Substances 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 108020004707 nucleic acids Proteins 0.000 claims description 3
- 102000039446 nucleic acids Human genes 0.000 claims description 3
- 150000007523 nucleic acids Chemical class 0.000 claims description 3
- 238000011282 treatment Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 2
- 241000196324 Embryophyta Species 0.000 description 72
- 108091033409 CRISPR Proteins 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 7
- 241000209140 Triticum Species 0.000 description 6
- 235000021307 Triticum Nutrition 0.000 description 6
- 240000008042 Zea mays Species 0.000 description 6
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 6
- 125000003729 nucleotide group Chemical group 0.000 description 6
- 244000068988 Glycine max Species 0.000 description 5
- 235000010469 Glycine max Nutrition 0.000 description 5
- 240000006394 Sorghum bicolor Species 0.000 description 5
- 235000011684 Sorghum saccharatum Nutrition 0.000 description 5
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 5
- 235000005822 corn Nutrition 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 241000894007 species Species 0.000 description 5
- 238000010354 CRISPR gene editing Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 101150038500 cas9 gene Proteins 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000010362 genome editing Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 241000219194 Arabidopsis Species 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108020005004 Guide RNA Proteins 0.000 description 1
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000011337 individualized treatment Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 235000009973 maize Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
Abstract
本发明提供一种植物中sgRNA活性预测方法及装置,方法包括:下载sgRNA活性序列数据集,sgRNA活性序列数据集包括植物sgRNA活性数据;采用热编码方法对植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;采用k‑mer编码方法对植物sgRNA序列数据进行二次编码;通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;通过卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;将待预测的植物sgRNA活性序列输入卷积神经网络预测模型sgRNACNN中,得到预测结果。本发明的卷积神经网络预测模型sgRNACNN泛化性能较好,可应用于多物种植物sgRNA活性预测,能够实现对sgRNA活性的准确识别,具有较好的实用性能。
Description
技术领域
本发明主要涉及生物信息处理技术领域,具体涉及一种植物中sgRNA活性预测方法及装置。
背景技术
近年来,CRISPR/Cas9系统因其高靶向性和简单快速的操作,被广泛用于各种物种的基因编辑,并为生物和农业研究创造了大规模的突变体资源。单导RNA(single-guideRNA,sgRNA)是一种引导RNA,可以结合到cas9蛋白,并引导cas9酶到基因组DNA的目标区域被切割。CRISPR/Cas9可以通过sgRNA和Cas9蛋白实现基因的插入、删除和替换。CRISPR/Cas9系统已成功应用于多种模型和作物,具有编辑和更新有害基因以进行个体化治疗的潜力,并改变了植物生物学的不同领域。SgRNA活性与CRISPR/Cas9突变的效率直接相关。实现高效和特异性编辑的有效策略是使用具有高活性和特异性的sgRNAs。脱靶突变是不可取的。因此,在基因编辑之前设计和确定sgRNAs的靶活性是非常重要的,能够有效识别sgRNA活性具有重要意义。目前机器学习算法被广泛应用于sgRNA活性预测,但是这些研究数据集大部分序列来自人类、小鼠和拟南芥基因组,但在农学领域,预测sgRNA活性的工具或研究很少。而且对于小麦、玉米等基因组测序技术的发展,sgRNA活性数据猛增。而目前,并没有有效的方法对植物sgRNA的活性预测,无法提供可靠的预测结果。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种植物中sgRNA活性预测方法及装置。
本发明解决上述技术问题的技术方案如下:一种植物中sgRNA活性预测方法,包括如下步骤:
S1、下载原始的sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
S2、采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
S3、采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
S4、通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
S5、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;n为大于0的整数;
S6、将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述S1中,所述植物sgRNA活性数据包括高活性植物sgRNA序列数据和低活性植物sgRNA序列数据。
采用上述进一步方案的有益效果是:能够分析植物sgRNA活性数据中的高活性植物sgRNA序列数据和低活性植物sgRNA序列数据,从而对高活性植物sgRNA序列数据进行活性预测。
进一步,所述S2中,采用热编码所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据的过程包括:
采用one-hot热编码方法所述植物sgRNA活性数据进行编码:
将所述植物sgRNA活性数据中高活性植物sgRNA序列数据和低活性植物sgRNA序列数据的A、T、C、G四个碱基分别用[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1]表示。
采用上述进一步方案的有益效果是:通过one-hot热编码方法对植物sgRNA活性数据进行编码,提高预测准确性。
进一步,所述S3中,采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码的过程包括:
S31、对k-mer编码方法中频率k进行设定,所述频率k表示核酸出现的次数,其中,k=1,2,3;
S32、当k=1时,就是1-mer,则得到4个核苷酸的频率特征Pi,其计算公式为:
Pi=Si/l,
其中,l为序列长度,Si={A,C,G,T};
S33、当k=2时,就是2-mer,则得到2个相邻核苷酸的频率特征mi,其计算公式为:
其中,l为序列长度,Si,i+1={AA,AC,AT,AG,GA,GC,GT,...,TT};
S34、当k=3时,就是3-mer,则得到3个相邻核苷酸的频率特征ni,其计算公式为:
其中,l为序列长度,
Si,i+1,i+2={AAA,AAC,AAT,AAG,GAA,GAC,GAT,...,TTT}。
采用上述进一步方案的有益效果是:采用k-mer编码方法对植物sgRNA序列数据进行二次编码,提高预测准确性。
进一步,所述S4中,通过编码后的sgRNA活性序列数据集构建卷积神经网络模型的过程包括:
S41、对编码后的sgRNA活性序列数据集进行一维卷积,核尺寸为3,核数目为32,得到C1层,以尺寸为2对C1层进行平均池化处理,得到P1层;对所述P1层进行核尺寸为5、核数目为256的一维卷积,得到C2层;对所述P1层进行参数为0.2的随机失活操作,得到D1层;对所述D1层进行核尺寸为5、核数目为256的一维卷积,得到C3层;
S42、将步骤S41中得到的所述C2层和所述C3层输入到预先建立的长短期记忆网络中,得到输出A1层;
S43、将步骤S41中P1层的输出和步骤S42中A1层的输出进行特征融合,得到flat向量,所述flat向量用于对不同层级特征进行信息互补,实现不同层级特征的信息互补;
S44、通过卷积模拟层级特征的分化,并通过卷积权值池化网络参数的数量级,从而得到卷积神经网络模型。
采用上述进一步方案的有益效果是:构建初步的卷积神经网络模型,作为卷积神经网络预测模型sgRNACNN原始模型的基础。
进一步,所述S5中,通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN的过程包括:
S51、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,所述n为5,得到5个训练模型,分别为第一训练模型、第二训练模型、第三训练模型、第四训练模型和第五训练模型,并依据评价指标对各模型性能评估;
S52、基于投票算法将所述五个训练模型集成,得到最终的卷积神经网络预测模型sgRNACNN。
采用上述进一步方案的有益效果是:通过多个卷积神经网络模型集成卷积神经网络预测模型sgRNACNN,在集成前,对多个卷积神经网络模型的预测结果正确性的判定,根据判定结果决定是否集成最终的卷积神经网络预测模型sgRNACNN。
进一步,得到最终的卷积神经网络预测模型sgRNACNN后,还包括基于投票算法对卷积神经网络预测模型sgRNACNN进行评估的步骤:
若五个训练模型预测正确的数量大于或等于设定值a,其中a=3,则sgRNACNN预测结果正确;若预测正确的数量小于所述设定值a,则sgRNACNN预测结果错误,并将预测正确和错误的个数作为评价指标,评估所述卷积神经网络预测模型sgRNACNN的性能。
采用上述进一步方案的有益效果是:对卷积神经网络预测模型sgRNACNN作进一步评估,来判断其预测结果是否正确。
本发明解决上述技术问题的另一技术方案如下:一种植物中sgRNA活性预测装置,包括:
下载模块,用于下载sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
编码模块,用于采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
模型构建模块,用于通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;n为大于0的整数;
将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
本发明的有益效果是:
(1)本发明通过构建的卷积神经网络预测模型sgRNACNN对植物sgRNA活性进行预测识别,实现了sgRNA高低活性的准确识别,为相应药物开发提供了理论基础。
(2)本发明的卷积神经网络预测模型sgRNACNN处理数据的时间消耗较少,降低了复杂度,提高了植物sgRNA活性的效率。
(3)本发明的卷积神经网络预测模型sgRNACNN泛化性能较好,可应用于多物种植物sgRNA活性预测,能够实现对sgRNA活性的准确识别,具有较好的实用性能。
附图说明
图1所示为本发明实施例提供的植物中sgRNA活性预测方法的流程示意图;
图2所示为本发明实施例提供的植物中sgRNA活性预测装置的功能模块示意图;
图3所示为本发明实施例提供的大豆数据集下的单一模型和集成模型的效果示意图之一;
图4所示为本发明实施例提供的玉米数据集下的单一模型和集成模型的效果示意图之二;
图5所示为本发明实施例提供的高粱数据集下的单一模型和集成模型的效果示意图之三;
图6所示为本发明实施例提供的小麦数据集下的单一模型和集成模型的效果示意图之四。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1:
如图1所示,一种植物中sgRNA活性预测方法,包括如下步骤:
S1、下载原始的sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
S2、采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
S3、采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
S4、通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
S5、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;
S6、将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
具体地,sgRNA活性序列数据集为小麦、玉米、高粱和大豆四个物种的sgRNA活性序列数据,对sgRNA活性序列数据进行去冗余处理。
上述实施例中,本发明通过构建的卷积神经网络预测模型sgRNACNN对植物sgRNA活性进行预测识别,实现了sgRNA高低活性的准确识别,为相应药物开发提供了理论基础。
本发明的卷积神经网络预测模型sgRNACNN的结构比较简易,时间消耗较少,时间复杂度低,提高了植物sgRNA活性的效率。
本发明的卷积神经网络预测模型sgRNACNN泛化性能较好,可应用于多物种植物sgRNA活性预测,能够实现对sgRNA活性的准确识别,具有较好的实用性能。
具体地,所述S1中,所述植物sgRNA活性数据包括高活性植物sgRNA序列数据和低活性植物sgRNA序列数据。
将高活性植物sgRNA序列数据作为正例数据集,将低活性植物sgRNA序列数据作为反例数据集。
本发明实施例中,植物sgRNA活性序列数据集包括4个物种的序列数据,分别为小麦(正例高活性sgRNA序列数量为135800,反例低活性sgRNA序列数量为122880)、玉米(正例数量为643939,反例数量为442190)、高粱(正例序列数量为722906,反例序列数量为837222)和大豆(正例序列数量为581120,反例序列数量为429900)。
上述实施例中,能够分析植物sgRNA活性数据中的高活性植物sgRNA序列数据和低活性植物sgRNA序列数据,从而对高活性植物sgRNA序列数据进行活性预测。
具体地,所述S2中,采用热编码所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据的过程包括:
采用one-hot热编码方法所述植物sgRNA活性数据进行编码:
将所述植物sgRNA活性数据中高活性植物sgRNA序列数据和低活性植物sgRNA序列数据的A、T、C、G四个碱基分别用[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1]表示。
上述实施例中,通过one-hot热编码方法对植物sgRNA活性数据进行编码,提高预测准确性。
具体地,所述S3中,采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码的过程包括:
S31、对k-mer编码方法中频率k进行设定,所述频率k表示核酸出现的次数,其中,k=1,2,3;
S32、当k=1时,就是1-mer,则得到4个核苷酸{A,C,G,T}的频率特征Pi,其计算公式为:
Pi=Si/l,
其中,l为序列长度,Si={A,C,G,T};
S33、当k=2时,就是2-mer,则得到2个相邻核苷酸的频率特征mi,其计算公式为:
其中,l为序列长度,Si,i+1={AA,AC,AT,AG,GA,GC,GT,...,TT};
S34、当k=3时,就是3-mer,则得到3个相邻核苷酸的频率特征ni,其计算公式为:
其中,l为序列长度,
Si,i+1,i+2={AAA,AAC,AAT,AAG,GAA,GAC,GAT,...,TTT}。
上述实施例中,采用k-mer编码方法对植物sgRNA序列数据进行二次编码,提高预测准确性。
具体地,所述S4中,通过编码后的sgRNA活性序列数据集构建卷积神经网络模型的过程包括:
S41、对编码后的sgRNA活性序列数据集进行一维卷积,核尺寸为3,核数目为32,得到C1层,以尺寸为2对C1层进行平均池化处理,得到P1层;对所述P1层进行核尺寸为5、核数目为256的一维卷积,得到C2层;对所述P1层进行参数为0.2的随机失活操作,得到D1层;对所述D1层进行核尺寸为5、核数目为256的一维卷积,得到C3层;
S42、将步骤S41中得到的所述C2层和所述C3层输入到预先建立的长短期记忆网络中,得到输出A1层;
S43、将步骤S41中P1层的输出和步骤S42中A1层的输出进行特征融合,得到flat向量,所述flat向量用于对不同层级特征进行信息互补,实现不同层级特征的信息互补;
S44、通过卷积模拟层级特征的分化,并通过卷积权值池化网络参数的数量级,从而得到卷积神经网络模型。
上述实施例中,构建初步的卷积神经网络模型,作为卷积神经网络预测模型sgRNACNN原始模型的基础。
具体地,所述S5中,通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN的过程包括:
S51、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,所述n为5,得到五个训练模型,分别为第一训练模型、第二训练模型、第三训练模型、第四训练模型和第五训练模型,并依据评价指标对各模型性能评估;
S52、基于投票算法将所述五个训练模型集成,得到最终的卷积神经网络预测模型sgRNACNN。
得到最终的卷积神经网络预测模型sgRNACNN后,还包括基于投票算法对卷积神经网络预测模型sgRNACNN进行评估的步骤:
若五个训练模型预测正确的数量大于或等于设定值a,其中a=3,则sgRNACNN预测结果正确;若预测正确的数量小于所述设定值a,则sgRNACNN预测结果错误,并将预测正确和错误的个数作为评价指标,评估所述卷积神经网络预测模型sgRNACNN的性能。
本发明实施例中,对预测结果进行评价的指标包括SE、SP、ACC、和MCC,其计算公式如下:
其中TP表示预测正确的高活性sgRNA个数,FP表示预测正确的低活性sgRNA个数,TN表示预测错误的高活性sgRNA个数,FN表示预测错误的低活性sgRNA个数。
上述实施例中,通过多个卷积神经网络模型集成卷积神经网络预测模型sgRNACNN,在集成前,对多个卷积神经网络模型的预测结果正确性的判定,根据判定结果决定是否集成最终的卷积神经网络预测模型sgRNACNN。
下面以一组具体实验例对本发明的识别效果作进一步描述。
首先,为了评价预测器的广义性能,我们对4个物种进行了单个模型和集成模型实验,并对。图3(A-C)至图6-C分别为大豆、玉米、高粱和小麦四个物种的5个单独的CNN模型与集成模型的独立测试集结果、集成模型10个重复实验的箱型图和十次实验的雷达图。通过图3(A)、图4(A)和图5(A)雷达的趋势图,可以观察到这5个单一模型和集成模型的各评价指标的分布图,可以发现在大豆数据集上集成模型的各项指标均最高,各模型间差异较小。在玉米上集成模型对ACC、AUC、SE和MCC指标的效果最好。在高粱上集成模型效果最好,各评价指标间差异较小,在小麦上集成模型也取得了良好的效果。然后,通过图3(B-C)至图6(B-C)展示的10次实验的ACC、AUC、SE、SP和MCC的值及指标的平均值和箱形图,能够证明模型的稳定性。
最后,在得到集成模型后,通过ACC、SE、SP、MCC四个指标对不同分类器产生的分类结果进行比较,以证明sgRNACNN的优越性。选择了三个分类器(RF、SVM和NB),结果如表1所示。由表1可知,与随机森林RF、支持向量机SVM和最近邻NB算法相比,sgRNACNN在四个农业数据集上的ACC、AUC、SE、SP、MCC五个指标上取得了更好的结果,正确率分别为0.8243、0.8126、0.7825、0.8749。通过对评价指标的比较可以看出,sgRNACNN与其他三种方法相比具有显著的优势。
表1
实施例2:
一种植物中sgRNA活性预测装置,包括:
下载模块,用于下载sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
编码模块,用于采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
模型构建模块,用于通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;
将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种植物中sgRNA活性预测方法,其特征在于,包括如下步骤:
S1、下载sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
S2、采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
S3、采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
S4、通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
S5、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;
S6、将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
2.根据权利要求1所述的植物中sgRNA活性预测方法,其特征在于,所述S1中,所述植物sgRNA活性数据包括高活性植物sgRNA序列数据和低活性植物sgRNA序列数据。
3.根据权利要求2所述的植物中sgRNA活性预测方法,其特征在于,所述S2中,采用热编码所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据的过程包括:
采用one-hot热编码方法所述植物sgRNA活性数据进行编码,具体为:
将所述植物sgRNA活性数据中高活性植物sgRNA序列数据和低活性植物sgRNA序列数据的A、T、C、G四个碱基分别用[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1]表示。
4.根据权利要求1所述的植物中sgRNA活性预测方法,其特征在于,所述S3中,采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码的过程包括:
S31、对k-mer编码方法中频率k进行设定,所述频率k表示核酸出现的次数,其中,k=1,2,3;
S32、当k=1时,则得到4个核苷酸的频率特征Pi,其计算公式为:
Pi=Si/l,
其中,l为序列长度,Si={A,C,G,T};
S33、当k=2时,则得到2个相邻核苷酸的频率特征mi,其计算公式为:
其中,l为序列长度,Si,i+1={AA,AC,AT,AG,GA,GC,GT,...,TT};
S34、当k=3时,则得到3个相邻核苷酸的频率特征ni,其计算公式为:
其中,l为序列长度,
Si,i+1,i+2={AAA,AAC,AAT,AAG,GAA,GAC,GAT,...,TTT}。
5.根据权利要求1所述的植物中sgRNA活性预测方法,其特征在于,所述S4中,通过编码后的sgRNA活性序列数据集构建卷积神经网络模型的过程包括:
S41、对编码后的sgRNA活性序列数据集进行一维卷积,核尺寸为3,核数目为32,得到C1层,以尺寸为2对C1层进行平均池化处理,得到P1层;对所述P1层进行核尺寸为5、核数目为256的一维卷积,得到C2层;对所述P1层进行参数为0.2的随机失活操作,得到D1层;对所述D1层进行核尺寸为5、核数目为256的一维卷积,得到C3层;
S42、将步骤S41中得到的所述C2层和所述C3层输入到预先建立的长短期记忆网络中,得到输出A1层;
S43、将步骤S41中P1层的输出和步骤S42中A1层的输出进行特征融合,得到flat向量,所述flat向量用于对不同层级特征进行信息互补;
S44、通过卷积模拟层级特征的分化,并通过卷积权值池化网络参数的数量级,从而得到卷积神经网络模型。
6.根据权利要求1所述的植物中sgRNA活性预测方法,其特征在于,所述S5中,通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN的过程包括:
S51、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,所述n为5,得到五个训练模型,分别为第一训练模型、第二训练模型、第三训练模型、第四训练模型和第五训练模型,并依据评价指标对各模型性能评估;
S52、基于投票算法将所述五个训练模型集成,得到最终的卷积神经网络预测模型sgRNACNN。
7.根据权利要求6所述的植物中sgRNA活性预测方法,其特征在于,得到最终的卷积神经网络预测模型sgRNACNN后,还包括基于投票算法对卷积神经网络预测模型sgRNACNN进行评估的步骤:
若五个训练模型预测正确的数量大于或等于设定值a,其中a=3,则sgRNACNN预测结果正确;若预测正确的数量小于所述设定值a,则sgRNACNN预测结果错误,并将预测正确和错误的个数作为评价指标,评估所述卷积神经网络预测模型sgRNACNN的性能。
8.一种植物中sgRNA活性预测装置,其特征在于,包括:
下载模块,用于下载sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
编码模块,用于采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
模型构建模块,用于通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;
将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
9.一种植物中sgRNA活性预测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述计算机程序时,实现如权利要求1至7任一项所述的植物中sgRNA活性预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138368.0A CN113838529A (zh) | 2021-09-27 | 2021-09-27 | 一种植物中sgRNA活性预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138368.0A CN113838529A (zh) | 2021-09-27 | 2021-09-27 | 一种植物中sgRNA活性预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113838529A true CN113838529A (zh) | 2021-12-24 |
Family
ID=78970689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111138368.0A Pending CN113838529A (zh) | 2021-09-27 | 2021-09-27 | 一种植物中sgRNA活性预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113838529A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017188797A1 (ko) * | 2016-04-28 | 2017-11-02 | 연세대학교 산학협력단 | In vivo에서 rna-가이드 뉴클레아제의 활성을 고처리량 방식으로 평가하는 방법 |
CN111613274A (zh) * | 2020-05-21 | 2020-09-01 | 中山大学 | 一种基于深度学习的CRISPR/Cas9 sgRNA活性预测方法 |
CN113409889A (zh) * | 2021-05-25 | 2021-09-17 | 电子科技大学长三角研究院(衢州) | 一种sgRNA的靶标活性预测方法、装置、设备和存储介质 |
-
2021
- 2021-09-27 CN CN202111138368.0A patent/CN113838529A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017188797A1 (ko) * | 2016-04-28 | 2017-11-02 | 연세대학교 산학협력단 | In vivo에서 rna-가이드 뉴클레아제의 활성을 고처리량 방식으로 평가하는 방법 |
CN111613274A (zh) * | 2020-05-21 | 2020-09-01 | 中山大学 | 一种基于深度学习的CRISPR/Cas9 sgRNA活性预测方法 |
CN113409889A (zh) * | 2021-05-25 | 2021-09-17 | 电子科技大学长三角研究院(衢州) | 一种sgRNA的靶标活性预测方法、装置、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
MENGTING NIU, YUAN LIN, QUAN ZOU: "gRNACNN: identifying sgRNA on-target activity in four crops using ensembles of convolutional neural networks", PLANT MOLECULAR BIOLOGY, no. 105, 1 January 2021 (2021-01-01), pages 483 - 495 * |
MENGTING NIU, YUAN LIN, QUAN ZOU: "sgRNACNN: identifying sgRNA on-target activity in four crops using ensembles of convolutional neural networks", PLANT MOLECULAR BIOLOGY, no. 105, 1 January 2021 (2021-01-01), pages 483 - 495 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220348903A1 (en) | Method and apparatus using machine learning for evolutionary data-driven design of proteins and other sequence defined biomolecules | |
Liu et al. | Inferring gene regulatory networks using the improved Markov blanket discovery algorithm | |
Flannick et al. | Automatic parameter learning for multiple local network alignment | |
Wekesa et al. | A deep learning model for plant lncRNA-protein interaction prediction with graph attention | |
Osama et al. | Machine learning techniques in plant biology | |
Meng et al. | Gene selection integrated with biological knowledge for plant stress response using neighborhood system and rough set theory | |
CN102622535A (zh) | 一种基于多序列比对遗传算法的处理方法及装置 | |
Pugalenthi et al. | Nglyc: a random forest method for prediction of N-glycosylation sites in eukaryotic protein sequence | |
CN118098372B (zh) | 基于自注意力编码和池化机制的毒力因子识别方法及系统 | |
CN113642613A (zh) | 基于改进樽海鞘群算法的医学疾病特征选择方法 | |
Li et al. | Biological data mining and its applications in healthcare | |
Zhao et al. | LncRNA-encoded short peptides identification using feature subset recombination and ensemble learning | |
Zheng et al. | Methods for evaluating unsupervised vector representations of genomic regions | |
CN113838529A (zh) | 一种植物中sgRNA活性预测方法及装置 | |
Xiang et al. | Using machine learning to realize genetic site screening and genomic prediction of productive traits in pigs | |
Tan et al. | Hierarchical data-efficient representation learning for tertiary structure-based rna design | |
Ray et al. | Combining multisource information through functional-annotation-based weighting: gene function prediction in yeast | |
Yu et al. | Predicting phenotypes from high-dimensional genomes using gradient boosting decision trees | |
Pan et al. | A Meta-learning based Graph-Hierarchical Clustering Method for Single Cell RNA-Seq Data | |
Jensen | Predicting Protein Temperature Adaptation from Prokaryotes to Plants | |
Wani et al. | Evaluation of computational methods for single cell multi-omics integration | |
Chen et al. | Stack-VTP: prediction of vesicle transport proteins based on stacked ensemble classifier and evolutionary information | |
Re et al. | Ensemble based data fusion for gene function prediction | |
Cui et al. | IEEE access special section editorial: Feature representation and learning methods with applications in large-scale biological sequence analysis | |
Anzi et al. | Evaluation of Corona Virus Mutations Using Deep Learning Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |