CN113838529A - 一种植物中sgRNA活性预测方法及装置 - Google Patents

一种植物中sgRNA活性预测方法及装置 Download PDF

Info

Publication number
CN113838529A
CN113838529A CN202111138368.0A CN202111138368A CN113838529A CN 113838529 A CN113838529 A CN 113838529A CN 202111138368 A CN202111138368 A CN 202111138368A CN 113838529 A CN113838529 A CN 113838529A
Authority
CN
China
Prior art keywords
sgrna
plant
activity
neural network
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111138368.0A
Other languages
English (en)
Inventor
邹权
牛梦婷
丁漪杰
杜军平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202111138368.0A priority Critical patent/CN113838529A/zh
Publication of CN113838529A publication Critical patent/CN113838529A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

本发明提供一种植物中sgRNA活性预测方法及装置,方法包括:下载sgRNA活性序列数据集,sgRNA活性序列数据集包括植物sgRNA活性数据;采用热编码方法对植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;采用k‑mer编码方法对植物sgRNA序列数据进行二次编码;通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;通过卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;将待预测的植物sgRNA活性序列输入卷积神经网络预测模型sgRNACNN中,得到预测结果。本发明的卷积神经网络预测模型sgRNACNN泛化性能较好,可应用于多物种植物sgRNA活性预测,能够实现对sgRNA活性的准确识别,具有较好的实用性能。

Description

一种植物中sgRNA活性预测方法及装置
技术领域
本发明主要涉及生物信息处理技术领域,具体涉及一种植物中sgRNA活性预测方法及装置。
背景技术
近年来,CRISPR/Cas9系统因其高靶向性和简单快速的操作,被广泛用于各种物种的基因编辑,并为生物和农业研究创造了大规模的突变体资源。单导RNA(single-guideRNA,sgRNA)是一种引导RNA,可以结合到cas9蛋白,并引导cas9酶到基因组DNA的目标区域被切割。CRISPR/Cas9可以通过sgRNA和Cas9蛋白实现基因的插入、删除和替换。CRISPR/Cas9系统已成功应用于多种模型和作物,具有编辑和更新有害基因以进行个体化治疗的潜力,并改变了植物生物学的不同领域。SgRNA活性与CRISPR/Cas9突变的效率直接相关。实现高效和特异性编辑的有效策略是使用具有高活性和特异性的sgRNAs。脱靶突变是不可取的。因此,在基因编辑之前设计和确定sgRNAs的靶活性是非常重要的,能够有效识别sgRNA活性具有重要意义。目前机器学习算法被广泛应用于sgRNA活性预测,但是这些研究数据集大部分序列来自人类、小鼠和拟南芥基因组,但在农学领域,预测sgRNA活性的工具或研究很少。而且对于小麦、玉米等基因组测序技术的发展,sgRNA活性数据猛增。而目前,并没有有效的方法对植物sgRNA的活性预测,无法提供可靠的预测结果。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种植物中sgRNA活性预测方法及装置。
本发明解决上述技术问题的技术方案如下:一种植物中sgRNA活性预测方法,包括如下步骤:
S1、下载原始的sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
S2、采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
S3、采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
S4、通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
S5、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;n为大于0的整数;
S6、将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述S1中,所述植物sgRNA活性数据包括高活性植物sgRNA序列数据和低活性植物sgRNA序列数据。
采用上述进一步方案的有益效果是:能够分析植物sgRNA活性数据中的高活性植物sgRNA序列数据和低活性植物sgRNA序列数据,从而对高活性植物sgRNA序列数据进行活性预测。
进一步,所述S2中,采用热编码所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据的过程包括:
采用one-hot热编码方法所述植物sgRNA活性数据进行编码:
将所述植物sgRNA活性数据中高活性植物sgRNA序列数据和低活性植物sgRNA序列数据的A、T、C、G四个碱基分别用[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1]表示。
采用上述进一步方案的有益效果是:通过one-hot热编码方法对植物sgRNA活性数据进行编码,提高预测准确性。
进一步,所述S3中,采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码的过程包括:
S31、对k-mer编码方法中频率k进行设定,所述频率k表示核酸出现的次数,其中,k=1,2,3;
S32、当k=1时,就是1-mer,则得到4个核苷酸的频率特征Pi,其计算公式为:
Pi=Si/l,
其中,l为序列长度,Si={A,C,G,T};
S33、当k=2时,就是2-mer,则得到2个相邻核苷酸的频率特征mi,其计算公式为:
Figure BDA0003283103240000031
其中,l为序列长度,Si,i+1={AA,AC,AT,AG,GA,GC,GT,...,TT};
S34、当k=3时,就是3-mer,则得到3个相邻核苷酸的频率特征ni,其计算公式为:
Figure BDA0003283103240000032
其中,l为序列长度,
Si,i+1,i+2={AAA,AAC,AAT,AAG,GAA,GAC,GAT,...,TTT}。
采用上述进一步方案的有益效果是:采用k-mer编码方法对植物sgRNA序列数据进行二次编码,提高预测准确性。
进一步,所述S4中,通过编码后的sgRNA活性序列数据集构建卷积神经网络模型的过程包括:
S41、对编码后的sgRNA活性序列数据集进行一维卷积,核尺寸为3,核数目为32,得到C1层,以尺寸为2对C1层进行平均池化处理,得到P1层;对所述P1层进行核尺寸为5、核数目为256的一维卷积,得到C2层;对所述P1层进行参数为0.2的随机失活操作,得到D1层;对所述D1层进行核尺寸为5、核数目为256的一维卷积,得到C3层;
S42、将步骤S41中得到的所述C2层和所述C3层输入到预先建立的长短期记忆网络中,得到输出A1层;
S43、将步骤S41中P1层的输出和步骤S42中A1层的输出进行特征融合,得到flat向量,所述flat向量用于对不同层级特征进行信息互补,实现不同层级特征的信息互补;
S44、通过卷积模拟层级特征的分化,并通过卷积权值池化网络参数的数量级,从而得到卷积神经网络模型。
采用上述进一步方案的有益效果是:构建初步的卷积神经网络模型,作为卷积神经网络预测模型sgRNACNN原始模型的基础。
进一步,所述S5中,通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN的过程包括:
S51、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,所述n为5,得到5个训练模型,分别为第一训练模型、第二训练模型、第三训练模型、第四训练模型和第五训练模型,并依据评价指标对各模型性能评估;
S52、基于投票算法将所述五个训练模型集成,得到最终的卷积神经网络预测模型sgRNACNN。
采用上述进一步方案的有益效果是:通过多个卷积神经网络模型集成卷积神经网络预测模型sgRNACNN,在集成前,对多个卷积神经网络模型的预测结果正确性的判定,根据判定结果决定是否集成最终的卷积神经网络预测模型sgRNACNN。
进一步,得到最终的卷积神经网络预测模型sgRNACNN后,还包括基于投票算法对卷积神经网络预测模型sgRNACNN进行评估的步骤:
若五个训练模型预测正确的数量大于或等于设定值a,其中a=3,则sgRNACNN预测结果正确;若预测正确的数量小于所述设定值a,则sgRNACNN预测结果错误,并将预测正确和错误的个数作为评价指标,评估所述卷积神经网络预测模型sgRNACNN的性能。
采用上述进一步方案的有益效果是:对卷积神经网络预测模型sgRNACNN作进一步评估,来判断其预测结果是否正确。
本发明解决上述技术问题的另一技术方案如下:一种植物中sgRNA活性预测装置,包括:
下载模块,用于下载sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
编码模块,用于采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
模型构建模块,用于通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;n为大于0的整数;
将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
本发明的有益效果是:
(1)本发明通过构建的卷积神经网络预测模型sgRNACNN对植物sgRNA活性进行预测识别,实现了sgRNA高低活性的准确识别,为相应药物开发提供了理论基础。
(2)本发明的卷积神经网络预测模型sgRNACNN处理数据的时间消耗较少,降低了复杂度,提高了植物sgRNA活性的效率。
(3)本发明的卷积神经网络预测模型sgRNACNN泛化性能较好,可应用于多物种植物sgRNA活性预测,能够实现对sgRNA活性的准确识别,具有较好的实用性能。
附图说明
图1所示为本发明实施例提供的植物中sgRNA活性预测方法的流程示意图;
图2所示为本发明实施例提供的植物中sgRNA活性预测装置的功能模块示意图;
图3所示为本发明实施例提供的大豆数据集下的单一模型和集成模型的效果示意图之一;
图4所示为本发明实施例提供的玉米数据集下的单一模型和集成模型的效果示意图之二;
图5所示为本发明实施例提供的高粱数据集下的单一模型和集成模型的效果示意图之三;
图6所示为本发明实施例提供的小麦数据集下的单一模型和集成模型的效果示意图之四。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1:
如图1所示,一种植物中sgRNA活性预测方法,包括如下步骤:
S1、下载原始的sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
S2、采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
S3、采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
S4、通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
S5、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;
S6、将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
具体地,sgRNA活性序列数据集为小麦、玉米、高粱和大豆四个物种的sgRNA活性序列数据,对sgRNA活性序列数据进行去冗余处理。
上述实施例中,本发明通过构建的卷积神经网络预测模型sgRNACNN对植物sgRNA活性进行预测识别,实现了sgRNA高低活性的准确识别,为相应药物开发提供了理论基础。
本发明的卷积神经网络预测模型sgRNACNN的结构比较简易,时间消耗较少,时间复杂度低,提高了植物sgRNA活性的效率。
本发明的卷积神经网络预测模型sgRNACNN泛化性能较好,可应用于多物种植物sgRNA活性预测,能够实现对sgRNA活性的准确识别,具有较好的实用性能。
具体地,所述S1中,所述植物sgRNA活性数据包括高活性植物sgRNA序列数据和低活性植物sgRNA序列数据。
将高活性植物sgRNA序列数据作为正例数据集,将低活性植物sgRNA序列数据作为反例数据集。
本发明实施例中,植物sgRNA活性序列数据集包括4个物种的序列数据,分别为小麦(正例高活性sgRNA序列数量为135800,反例低活性sgRNA序列数量为122880)、玉米(正例数量为643939,反例数量为442190)、高粱(正例序列数量为722906,反例序列数量为837222)和大豆(正例序列数量为581120,反例序列数量为429900)。
上述实施例中,能够分析植物sgRNA活性数据中的高活性植物sgRNA序列数据和低活性植物sgRNA序列数据,从而对高活性植物sgRNA序列数据进行活性预测。
具体地,所述S2中,采用热编码所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据的过程包括:
采用one-hot热编码方法所述植物sgRNA活性数据进行编码:
将所述植物sgRNA活性数据中高活性植物sgRNA序列数据和低活性植物sgRNA序列数据的A、T、C、G四个碱基分别用[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1]表示。
上述实施例中,通过one-hot热编码方法对植物sgRNA活性数据进行编码,提高预测准确性。
具体地,所述S3中,采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码的过程包括:
S31、对k-mer编码方法中频率k进行设定,所述频率k表示核酸出现的次数,其中,k=1,2,3;
S32、当k=1时,就是1-mer,则得到4个核苷酸{A,C,G,T}的频率特征Pi,其计算公式为:
Pi=Si/l,
其中,l为序列长度,Si={A,C,G,T};
S33、当k=2时,就是2-mer,则得到2个相邻核苷酸的频率特征mi,其计算公式为:
Figure BDA0003283103240000091
其中,l为序列长度,Si,i+1={AA,AC,AT,AG,GA,GC,GT,...,TT};
S34、当k=3时,就是3-mer,则得到3个相邻核苷酸的频率特征ni,其计算公式为:
Figure BDA0003283103240000092
其中,l为序列长度,
Si,i+1,i+2={AAA,AAC,AAT,AAG,GAA,GAC,GAT,...,TTT}。
上述实施例中,采用k-mer编码方法对植物sgRNA序列数据进行二次编码,提高预测准确性。
具体地,所述S4中,通过编码后的sgRNA活性序列数据集构建卷积神经网络模型的过程包括:
S41、对编码后的sgRNA活性序列数据集进行一维卷积,核尺寸为3,核数目为32,得到C1层,以尺寸为2对C1层进行平均池化处理,得到P1层;对所述P1层进行核尺寸为5、核数目为256的一维卷积,得到C2层;对所述P1层进行参数为0.2的随机失活操作,得到D1层;对所述D1层进行核尺寸为5、核数目为256的一维卷积,得到C3层;
S42、将步骤S41中得到的所述C2层和所述C3层输入到预先建立的长短期记忆网络中,得到输出A1层;
S43、将步骤S41中P1层的输出和步骤S42中A1层的输出进行特征融合,得到flat向量,所述flat向量用于对不同层级特征进行信息互补,实现不同层级特征的信息互补;
S44、通过卷积模拟层级特征的分化,并通过卷积权值池化网络参数的数量级,从而得到卷积神经网络模型。
上述实施例中,构建初步的卷积神经网络模型,作为卷积神经网络预测模型sgRNACNN原始模型的基础。
具体地,所述S5中,通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN的过程包括:
S51、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,所述n为5,得到五个训练模型,分别为第一训练模型、第二训练模型、第三训练模型、第四训练模型和第五训练模型,并依据评价指标对各模型性能评估;
S52、基于投票算法将所述五个训练模型集成,得到最终的卷积神经网络预测模型sgRNACNN。
得到最终的卷积神经网络预测模型sgRNACNN后,还包括基于投票算法对卷积神经网络预测模型sgRNACNN进行评估的步骤:
若五个训练模型预测正确的数量大于或等于设定值a,其中a=3,则sgRNACNN预测结果正确;若预测正确的数量小于所述设定值a,则sgRNACNN预测结果错误,并将预测正确和错误的个数作为评价指标,评估所述卷积神经网络预测模型sgRNACNN的性能。
本发明实施例中,对预测结果进行评价的指标包括SE、SP、ACC、和MCC,其计算公式如下:
Figure BDA0003283103240000111
Figure BDA0003283103240000112
Figure BDA0003283103240000113
Figure BDA0003283103240000114
其中TP表示预测正确的高活性sgRNA个数,FP表示预测正确的低活性sgRNA个数,TN表示预测错误的高活性sgRNA个数,FN表示预测错误的低活性sgRNA个数。
上述实施例中,通过多个卷积神经网络模型集成卷积神经网络预测模型sgRNACNN,在集成前,对多个卷积神经网络模型的预测结果正确性的判定,根据判定结果决定是否集成最终的卷积神经网络预测模型sgRNACNN。
下面以一组具体实验例对本发明的识别效果作进一步描述。
首先,为了评价预测器的广义性能,我们对4个物种进行了单个模型和集成模型实验,并对。图3(A-C)至图6-C分别为大豆、玉米、高粱和小麦四个物种的5个单独的CNN模型与集成模型的独立测试集结果、集成模型10个重复实验的箱型图和十次实验的雷达图。通过图3(A)、图4(A)和图5(A)雷达的趋势图,可以观察到这5个单一模型和集成模型的各评价指标的分布图,可以发现在大豆数据集上集成模型的各项指标均最高,各模型间差异较小。在玉米上集成模型对ACC、AUC、SE和MCC指标的效果最好。在高粱上集成模型效果最好,各评价指标间差异较小,在小麦上集成模型也取得了良好的效果。然后,通过图3(B-C)至图6(B-C)展示的10次实验的ACC、AUC、SE、SP和MCC的值及指标的平均值和箱形图,能够证明模型的稳定性。
最后,在得到集成模型后,通过ACC、SE、SP、MCC四个指标对不同分类器产生的分类结果进行比较,以证明sgRNACNN的优越性。选择了三个分类器(RF、SVM和NB),结果如表1所示。由表1可知,与随机森林RF、支持向量机SVM和最近邻NB算法相比,sgRNACNN在四个农业数据集上的ACC、AUC、SE、SP、MCC五个指标上取得了更好的结果,正确率分别为0.8243、0.8126、0.7825、0.8749。通过对评价指标的比较可以看出,sgRNACNN与其他三种方法相比具有显著的优势。
表1
Figure BDA0003283103240000121
实施例2:
一种植物中sgRNA活性预测装置,包括:
下载模块,用于下载sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
编码模块,用于采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
模型构建模块,用于通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;
将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种植物中sgRNA活性预测方法,其特征在于,包括如下步骤:
S1、下载sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
S2、采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
S3、采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
S4、通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
S5、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;
S6、将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
2.根据权利要求1所述的植物中sgRNA活性预测方法,其特征在于,所述S1中,所述植物sgRNA活性数据包括高活性植物sgRNA序列数据和低活性植物sgRNA序列数据。
3.根据权利要求2所述的植物中sgRNA活性预测方法,其特征在于,所述S2中,采用热编码所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据的过程包括:
采用one-hot热编码方法所述植物sgRNA活性数据进行编码,具体为:
将所述植物sgRNA活性数据中高活性植物sgRNA序列数据和低活性植物sgRNA序列数据的A、T、C、G四个碱基分别用[1,0,0,0],[0,1,0,0],[0,0,1,0]和[0,0,0,1]表示。
4.根据权利要求1所述的植物中sgRNA活性预测方法,其特征在于,所述S3中,采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码的过程包括:
S31、对k-mer编码方法中频率k进行设定,所述频率k表示核酸出现的次数,其中,k=1,2,3;
S32、当k=1时,则得到4个核苷酸的频率特征Pi,其计算公式为:
Pi=Si/l,
其中,l为序列长度,Si={A,C,G,T};
S33、当k=2时,则得到2个相邻核苷酸的频率特征mi,其计算公式为:
Figure FDA0003283103230000021
其中,l为序列长度,Si,i+1={AA,AC,AT,AG,GA,GC,GT,...,TT};
S34、当k=3时,则得到3个相邻核苷酸的频率特征ni,其计算公式为:
Figure FDA0003283103230000022
其中,l为序列长度,
Si,i+1,i+2={AAA,AAC,AAT,AAG,GAA,GAC,GAT,...,TTT}。
5.根据权利要求1所述的植物中sgRNA活性预测方法,其特征在于,所述S4中,通过编码后的sgRNA活性序列数据集构建卷积神经网络模型的过程包括:
S41、对编码后的sgRNA活性序列数据集进行一维卷积,核尺寸为3,核数目为32,得到C1层,以尺寸为2对C1层进行平均池化处理,得到P1层;对所述P1层进行核尺寸为5、核数目为256的一维卷积,得到C2层;对所述P1层进行参数为0.2的随机失活操作,得到D1层;对所述D1层进行核尺寸为5、核数目为256的一维卷积,得到C3层;
S42、将步骤S41中得到的所述C2层和所述C3层输入到预先建立的长短期记忆网络中,得到输出A1层;
S43、将步骤S41中P1层的输出和步骤S42中A1层的输出进行特征融合,得到flat向量,所述flat向量用于对不同层级特征进行信息互补;
S44、通过卷积模拟层级特征的分化,并通过卷积权值池化网络参数的数量级,从而得到卷积神经网络模型。
6.根据权利要求1所述的植物中sgRNA活性预测方法,其特征在于,所述S5中,通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN的过程包括:
S51、通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,所述n为5,得到五个训练模型,分别为第一训练模型、第二训练模型、第三训练模型、第四训练模型和第五训练模型,并依据评价指标对各模型性能评估;
S52、基于投票算法将所述五个训练模型集成,得到最终的卷积神经网络预测模型sgRNACNN。
7.根据权利要求6所述的植物中sgRNA活性预测方法,其特征在于,得到最终的卷积神经网络预测模型sgRNACNN后,还包括基于投票算法对卷积神经网络预测模型sgRNACNN进行评估的步骤:
若五个训练模型预测正确的数量大于或等于设定值a,其中a=3,则sgRNACNN预测结果正确;若预测正确的数量小于所述设定值a,则sgRNACNN预测结果错误,并将预测正确和错误的个数作为评价指标,评估所述卷积神经网络预测模型sgRNACNN的性能。
8.一种植物中sgRNA活性预测装置,其特征在于,包括:
下载模块,用于下载sgRNA活性序列数据集,所述sgRNA活性序列数据集包括植物sgRNA活性数据;
编码模块,用于采用热编码方法对所述植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;
采用k-mer编码方法对所述植物sgRNA序列数据进行二次编码;
模型构建模块,用于通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;
通过所述卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;
将待预测的植物sgRNA活性序列输入所述卷积神经网络预测模型sgRNACNN中,得到预测结果。
9.一种植物中sgRNA活性预测装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行所述计算机程序时,实现如权利要求1至7任一项所述的植物中sgRNA活性预测方法。
CN202111138368.0A 2021-09-27 2021-09-27 一种植物中sgRNA活性预测方法及装置 Pending CN113838529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111138368.0A CN113838529A (zh) 2021-09-27 2021-09-27 一种植物中sgRNA活性预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111138368.0A CN113838529A (zh) 2021-09-27 2021-09-27 一种植物中sgRNA活性预测方法及装置

Publications (1)

Publication Number Publication Date
CN113838529A true CN113838529A (zh) 2021-12-24

Family

ID=78970689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111138368.0A Pending CN113838529A (zh) 2021-09-27 2021-09-27 一种植物中sgRNA活性预测方法及装置

Country Status (1)

Country Link
CN (1) CN113838529A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017188797A1 (ko) * 2016-04-28 2017-11-02 연세대학교 산학협력단 In vivo에서 rna-가이드 뉴클레아제의 활성을 고처리량 방식으로 평가하는 방법
CN111613274A (zh) * 2020-05-21 2020-09-01 中山大学 一种基于深度学习的CRISPR/Cas9 sgRNA活性预测方法
CN113409889A (zh) * 2021-05-25 2021-09-17 电子科技大学长三角研究院(衢州) 一种sgRNA的靶标活性预测方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017188797A1 (ko) * 2016-04-28 2017-11-02 연세대학교 산학협력단 In vivo에서 rna-가이드 뉴클레아제의 활성을 고처리량 방식으로 평가하는 방법
CN111613274A (zh) * 2020-05-21 2020-09-01 中山大学 一种基于深度学习的CRISPR/Cas9 sgRNA活性预测方法
CN113409889A (zh) * 2021-05-25 2021-09-17 电子科技大学长三角研究院(衢州) 一种sgRNA的靶标活性预测方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENGTING NIU, YUAN LIN, QUAN ZOU: "gRNACNN: identifying sgRNA on-target activity in four crops using ensembles of convolutional neural networks", PLANT MOLECULAR BIOLOGY, no. 105, 1 January 2021 (2021-01-01), pages 483 - 495 *
MENGTING NIU, YUAN LIN, QUAN ZOU: "sgRNACNN: identifying sgRNA on-target activity in four crops using ensembles of convolutional neural networks", PLANT MOLECULAR BIOLOGY, no. 105, 1 January 2021 (2021-01-01), pages 483 - 495 *

Similar Documents

Publication Publication Date Title
US20220348903A1 (en) Method and apparatus using machine learning for evolutionary data-driven design of proteins and other sequence defined biomolecules
Liu et al. Inferring gene regulatory networks using the improved Markov blanket discovery algorithm
Flannick et al. Automatic parameter learning for multiple local network alignment
Wekesa et al. A deep learning model for plant lncRNA-protein interaction prediction with graph attention
Osama et al. Machine learning techniques in plant biology
Meng et al. Gene selection integrated with biological knowledge for plant stress response using neighborhood system and rough set theory
CN102622535A (zh) 一种基于多序列比对遗传算法的处理方法及装置
Pugalenthi et al. Nglyc: a random forest method for prediction of N-glycosylation sites in eukaryotic protein sequence
CN118098372B (zh) 基于自注意力编码和池化机制的毒力因子识别方法及系统
CN113642613A (zh) 基于改进樽海鞘群算法的医学疾病特征选择方法
Li et al. Biological data mining and its applications in healthcare
Zhao et al. LncRNA-encoded short peptides identification using feature subset recombination and ensemble learning
Zheng et al. Methods for evaluating unsupervised vector representations of genomic regions
CN113838529A (zh) 一种植物中sgRNA活性预测方法及装置
Xiang et al. Using machine learning to realize genetic site screening and genomic prediction of productive traits in pigs
Tan et al. Hierarchical data-efficient representation learning for tertiary structure-based rna design
Ray et al. Combining multisource information through functional-annotation-based weighting: gene function prediction in yeast
Yu et al. Predicting phenotypes from high-dimensional genomes using gradient boosting decision trees
Pan et al. A Meta-learning based Graph-Hierarchical Clustering Method for Single Cell RNA-Seq Data
Jensen Predicting Protein Temperature Adaptation from Prokaryotes to Plants
Wani et al. Evaluation of computational methods for single cell multi-omics integration
Chen et al. Stack-VTP: prediction of vesicle transport proteins based on stacked ensemble classifier and evolutionary information
Re et al. Ensemble based data fusion for gene function prediction
Cui et al. IEEE access special section editorial: Feature representation and learning methods with applications in large-scale biological sequence analysis
Anzi et al. Evaluation of Corona Virus Mutations Using Deep Learning Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination