CN113409889A

CN113409889A - 一种sgRNA的靶标活性预测方法、装置、设备和存储介质

Info

Publication number: CN113409889A
Application number: CN202110569021.5A
Authority: CN
Inventors: 邹权; 牛梦婷
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-09-17

Abstract

本申请提供了一种sgRNA的靶标活性预测方法、装置、设备和存储介质。方法包括：获取sgRNA序列数据集；对所述sgRNA序列数据集进行序列特征提取，得到多个特征信息；将所述多个特征信息进行融合，得到特征集；基于所述特征集对种子模型进行训练，得到活性预测模型；获取待预测sgRNA序列；基于所述活性预测模型，预测所述待预测sgRNA序列的靶标活性。能够确定sgRNA的靶标活性。

Description

一种sgRNA的靶标活性预测方法、装置、设备和存储介质

技术领域

本申请涉及生物信息技术领域，特别是涉及一种sgRNA的靶标活性预测方法、装置、设备和存储介质。

背景技术

单导RNA(single-guide RNA，sgRNA)是一种引导RNA，由两个RNA(tracRNA和crRNA)融合而成。这些RNA可以结合到cas9蛋白，并引导cas9酶到基因组DNA的目标区域，并对DNA进行切割。sgRNA是CRISPR/Cas9基因敲除系统的重要组成部分，在基因编辑和疾病治疗方面具有重要意义。高活性的sgRNA对靶标将显示出较高的突变效率，提高后续筛选和鉴定方案的效率。

因此，在基因编辑之前，如何确定sgRNA的靶标活性是亟待解决的问题。

发明内容

本申请提供一种sgRNA的靶标活性预测方法、装置、设备和存储介质，能够确定sgRNA的靶标活性。

本申请实施例第一方面提供了一种sgRNA的靶标活性预测方法，包括：

获取sgRNA序列数据集；

对所述sgRNA序列数据集进行序列特征提取，得到多个特征信息；

将所述多个特征信息进行融合，得到特征集；

基于所述特征集对种子模型进行训练，得到活性预测模型；

获取待预测sgRNA序列；

基于所述活性预测模型，预测所述待预测sgRNA序列的靶标活性。

可选地，基于所述特征集对种子模型进行训练，得到活性预测模型，包括：

从所述特征集中选取出最优特征信息，得到不平衡特征集；

对所述不平衡特征集进行上采样处理，得到平衡特征集；

基于所述平衡特征集对所述种子模型进行训练，得到活性预测模型。

可选地，对所述不平衡特征集进行上采样处理，得到平衡特征集，包括：

获取采样率；

基于所述采样率对所述不平衡特征集进行上采样处理，得到平衡特征集。

可选地，获取采样率，包括：

基于所述不平衡特征集运行支持向量机，得到支持向量集；

确定所述支持向量集中的元素的多个邻域；

基于所述多个邻域，对所述支持向量集中的元素进行分类，得到多数类样本、边界样本和少数类样本；

基于所述多数类样本、所述边界样本和所述少数类样本，确定采样率。

可选地，基于所述采样率对所述不平衡特征集进行上采样处理，得到平衡特征集，包括：

获取边界样本和少数类样本的多个最近邻；

基于所述边界样本和所述多个最近邻，对所述少数类样本进行插值处理，以使插值处理后的所述少数类样本与所述多数类样本的数量相平衡，以获得平衡特征集。

可选地，所述sgRNA序列数据集包括：高活性sgRNA序列数据和低活性sgRNA序列数据。

本申请实施例第二方面提供一种sgRNA的靶标活性预测装置，包括：

第一获取模块，用于获取sgRNA序列数据集；

特征提取模块，用于对所述sgRNA序列数据集进行序列特征提取，得到多个特征信息；

特征融合模块，用于将所述多个特征信息进行融合，得到特征集；

模型训练模块，用于基于所述特征集对种子模型进行训练，得到活性预测模型；

第二获取模块，用于获取待预测sgRNA序列；

活性预测模块，用于基于所述活性预测模型，预测所述待预测sgRNA序列的靶标活性。

本申请实施例第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

采用本申请实施例提供的sgRNA的靶标活性预测方法，实现了对sgRNA的靶标活性的预测，为相应药物开发提供了理论基础。针对不平衡数据集，进行上采样处理，从而使得不平衡数据集变成平衡数据集，有效提高了少数类别sgRNA的靶标活性的预测精度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的sgRNA的靶标活性预测方法的流程图；

图2为本申请实施例提供的不同数据集下的特征维数和精度曲线示意图。

图3为本申请实施例提供的不平衡数据集下CS-Smote的ACC效果示意图。

图4为本申请实施例提供的不平衡数据集下CS-Smote的G-mean效果示意图。

图5为本申请实施例提供的在不同分类器下的结果示意图。

图6为本申请实施例提供的的与现有识别算法的识别效果对比示意图。

图7为本申请实施例提供的sgRNA的靶标活性预测装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请一种sgRNA的靶标活性预测方法的流程图。如图1所示，该方法包括以下步骤：

S101、获取sgRNA序列数据集。

其中，sgRNA活性序列数据集包括正例数据集和反例数据集，正例数据集为高活性sgRNA序列，反例数据集为低活性sgRNA序列。

在一些可选地实施方式中，sgRNA活性序列数据总共有8个样本集对，包括：G17(正例高活性sgRNA序列数量为1059，反例低活性sgRNA序列数量为4251)、Gr(正例高活性sgRNA序列数量为731，反例低活性sgRNA序列数量为438)、Gnr(正例高活性sgRNA序列数量为671，反例低活性sgRNA序列数量为237)、Gm(正例高活性sgRNA序列数量为830，反例低活性sgRNA序列数量为231)、hela(正例高活性sgRNA序列数量为2019，反例低活性sgRNA序列数量为536)、hct116(正例高活性sgRNA序列数量为3873，反例低活性sgRNA序列数量为536)、hek293t(正例高活性sgRNA序列数量为404，反例低活性sgRNA序列数量为536)和h160(正例高活性sgRNA序列数量为2467，反例低活性sgRNA序列数量为536)。

S102、对所述sgRNA序列数据集进行序列特征提取，得到多个特征信息。

在一些可选地实施方式中，基于多种不同地特征提取算法对所述sgRNA序列数据集进行序列特征提取，得到多个特征信息。在一些可选地实施方式中，特征提取算法包括核苷酸组成方法、序列的自相关方法、核苷酸组成方法以及序列的结构特征方法；所述核苷酸组成方法包括k-mer提取算法和Subsequence提取算法；所述自组织相关性特征提取算法包括基于自动协方差DAC的特征提取算法、基于交叉协方差DCC的提取算法、基于自动交叉协方差DACC的提取算法、Geary自相关GAC的算法和归一化Moreau-Broto自相关NMBAC的算法；所述伪核酸组成特征提取算法包括基于平行相关性伪二核苷酸组成的算法和基于连续相关性伪二核苷酸组成方法；所述结构特征提取算法包括局部结构序列三重元特征Triplet提取算法。

在一些可选地实施方式中，在k-mer提取算法中，相邻核酸的发生频率k取k＝2和k＝3时分别得到一个特征文件，因此采用上述10中特征提取算法共得到11个特征文件，11个特征文件的维数分布如图2所示。

S103、将所述多个特征信息进行融合，得到特征集。

在一些可选地实施方式中，采用前期融合的方式对上述11个特征文件进行拼接融合。当然，在其他一些可选地实施方式中，还可以选择后期融合的方式进行特征融合。

S104、基于所述特征集对种子模型进行训练，得到活性预测模型。

步骤S104包括以下子步骤S1041-S104

S1041、从所述特征集中选取出最优特征信息，得到不平衡特征集。

在一些可选地实施方式中，采用MRMD2.0算法对特征集进行特征选择，得到特征与实例类别具有强相关性且特征之间具有低冗余性的特征子集。

在MRMD2.0算法中，特征与实例类别之间的相关性用皮尔逊系数表征，皮尔逊系数越大说明特征与实例类别之间的相关性越强，关系越紧密；特征之间的冗余性用欧式距离表征，欧式距离又与Euclidean距离ED，Cosine距离COS和Tanimoto系数TC相关，欧式距离越大说明特征之间的冗余性越低。

基于上述理论，采用MRMD2.0算法对特征集进行特征选择的依据为max(MR_i+MD_i)，其中MR_i表示第i个sgRNA实例类别与特征之间的皮尔逊系数，MD_i表示第i个sgRNA实例特征之间的欧式距离，其中maxMR_i值的计算公式如下：

maxMD_i值的计算公式如下：

其中PCC(·)表示皮尔逊系数，F_i表示第i个sgRNA实例的特征向量，C_i表示第i个sgRNA实例的类别向量，M表示sgRNA实例的特征维数，S_FiCi表示F_i中所有元素和C_i中所有元素的协方差，S_Fi表示F_i中所有元素的标准差，S_Ci表示C_i中所有元素的标准差，f_k表示F_i中的第k个元素，c_k表示C_i中的第k个元素，N为F_i和C_i中的元素数量，

为F_i中所有元素的平均值，

为C_i中所有元素的平均值，ED_i表示第i个sgRNA实例特征之间的Euclidean距离，COS_i表示第i个sgRNA实例特征之间的Cosine距离，TC_i表示第i个sgRNA实例特征之间的Tanimoto系数。

经过特征选择后，得到不平衡特征集。

S1042、对所述不平衡特征集进行上采样处理，得到平衡特征集。

在一些可选地实施方式中，采用CS-Smote算法处理平衡特征集，以改善预测效率，步骤S1042，包括：获取采样率；基于所述采样率对所述不平衡特征集进行上采样处理，得到平衡特征集。更具体地，步骤“获取采样率”包括：

a、基于所述不平衡特征集运行支持向量机，得到支持向量集；

在不平衡特征集S上运行SVM，得到支持向量集SV。

b、确定所述支持向量集中的元素的多个邻域；

利用欧氏距离计算点sv_i的m个邻域，sv_i∈SV，并假设m个邻域中的m′为多数样本，0≤m′≤m。

c、基于所述多个邻域，对所述支持向量集中的元素进行分类，得到多数类样本、边界样本和少数类样本。

如果m′＝m，则表示sv_i的所有m个邻域都属于多数类样本。将sv_i视为噪声点，删除sv_i。

m/t<m′<m，表示sv_i的邻域内最多样本点的个数占足够大的比例，sv_i属于边界样本。

若0<m′<m/t(t为参数，一般t＝2)，表示sv_i的邻域样本点数量占很大比例，sv_i属于安全样本。

最终确定m的具体取值，并利用m-m′得到少数类样本。

d、基于所述多数类样本、所述边界样本和所述少数类样本，确定采样率。

边界样本为sv_i′，sv_i′与m′多数类样本的距离之和为ai1；sv_i′和m-m′个少数类样本之间的距离之和计算为ai2，则采样倍率为Ui＝ai1/ai2。

步骤“基于所述采样率对所述不平衡特征集进行上采样处理，得到平衡特征集”包括：

a、获取边界样本和少数类样本的多个最近邻。

计算sv_i′和少数类样本的k个最近邻。

b、基于所述边界样本和所述多个最近邻，对所述少数类样本进行插值处理，以使插值处理后的所述少数类样本与所述多数类样本的数量相平衡，以获得平衡特征集。

根据采样倍率进行插值生成新的少数类样本s_n。插值公式如下:

s_n＝sv_i′+ch_i(k_i-sv_i′)

其中k_i表示k邻居的第i个样本，ch₁∈(0,1)，是一个随机数。ch_i＝μ*ch_i-1*(1-ch_i-1)，μ∈[3.75,4)。

最终获得平衡特征集。

S1043、基于所述平衡特征集对所述种子模型进行训练，得到活性预测模型。

种子模型可以选用随机森林模型，基于所述平衡特征集对随机森林模型进行分类训练，得到训练好的分类模型。步骤S1043具体包括：

将平衡特征集中的特征数据划分为10份。

遍历每份特征数据，将其中一份作为测试集，剩余9份作为训练集，采用RF算法(随机森林模型)对其中的sgRNA活性序列进行分类训练。

对分类效果进行评价。

在一些可选地实施方式中，对分类效果进行评价的指标包括SE、SP、ACC、MCC和G-mean，其计算公式如下：

其中TP表示预测正确的高活性sgRNA个数，FP表示预测正确的低活性sgRNA个数，TN表示预测错误的高活性sgRNA个数，FN表示预测错误的低活性sgRNA个数。

S105、获取待预测sgRNA序列；

S106、基于所述活性预测模型，预测所述待预测sgRNA序列的靶标活性。

采用训练好的分类模型构建sgRNA-RF分类器，并将特征子集输入sgRNA-RF分类器得到分类结果，完成对sgRNA活性的预测。

下面以一组具体实验例对本发明的识别效果作进一步描述。

使用MRMD2.0来选择重要的特性。生成特征维度与ACC之间的关系图，如图2所示。在G17上进行特征选择，确定特征尺寸曲线及其精度。当特征维数为161时准确率最高，为0.8043。161是特征选择后得到的特征维数。然后在其他数据集上执行MRMD2.0，得到准确率最高的特征维数是：187，585，470，523，365，459和156。通过比较精度差异，发现每个数据集的精度差异最多为0.1。因此，我们取特征维数为116。

基于G17数据集，使用ACC、G-mean来评价CS-Smote、original data、smote和bsmote的性能。Smote算法是一种经典的过采样算法。Bsmote算法主要在少数类和大部分类样本的边缘选取少量样本集，是smote算法的一种改进算法。结果如图3和图4所示。从图3可以看出，原始数据集的ACC普遍较低。MED12基因的分类准确率最高，约为91％，而NF2基因的分类准确率最低，约为73％，差异约为18％。经典平滑算法对12个基因的分类效果最好，分类准确率最高。在这些基因中，MED12基因的分类准确率达到或超过95％，THY1基因的分类准确率最低，约为80％。然后对bsmote和CS-Smote方法进行了测试，其预测精度相对于原始数据有所提高。此外，本分析所采用的算法对CD28、CUL3和TAD2B基因的分类准确率最高，在一定程度上说明了本研究算法的有效性。然后用G-mean分析了四个案例的表现。从图4可以看出，CS-Smote的g均值最好，其次是smote和原始数据。其中17个基因的CS-Smote值最高，大多数基因的CS-Smote值在0.8左右。这一结果也证明了CS-Smote方法的有效性。综合ACC和G-mean表明，CS-Smote算法在一定程度上提高了不平衡数据集的预测性能。

接着通过特征选择和不平衡数据处理，获得了较好的数据集，并比较了ACC、SN、SP和MCC四种分类器(RF、SVM、NB和J48)生成的性能。结果如图5所示。从图5可以看出，从sgRNA-RF的折线位置可以看出，在所有数据集上，sgRNA-RF都取得了良好的结果，在第5个数据集上，4个基因总体上都取得了良好的结果。对于Gr、Gnr和Gm数据集，一般识别效果较差，但相比之下，sgRNA-RF识别效果最好，证明了其有效性。然而，需要构造一个分类器来适应额外的数据集。

最后将本发明与现有的优秀识别算法的研究成果进行比较，在比较时，保证了使用的数据集一致的基础上，使用一致的评价指标ACC，如图6所示。为了证明sgRNA-RF的有效性，在G17数据集中，我们将其与其他研究的预测因子进行了比较，并执行10倍交叉验证。Ge-CRISPR、Az-imuth、CRISPRpred、sgRNA-psm和sgRNA-expsm是先前研究中预测sgRNA靶点活性的六个最先进的预测因子。10倍交叉验证的对比结果表明，sgRNA的性能都优于前人的研究，sgRNA-RF在sgRNA活性预测上具有一定的有效性，并且可以为sgRNA的研究提供一种新的思路。

基于同一发明构思，本申请一实施例提供一种sgRNA的靶标活性预测装置。参考图7，图7是本申请一实施例提供的sgRNA的靶标活性预测装置的示意图。如图7所示，该装置包括：

第一获取模块701，用于获取sgRNA序列数据集；

特征提取模块702，用于对所述sgRNA序列数据集进行序列特征提取，得到多个特征信息；

特征融合模块703，用于将所述多个特征信息进行融合，得到特征集；

模型训练模块704，用于基于所述特征集对种子模型进行训练，得到活性预测模型；

第二获取模块705，用于获取待预测sgRNA序列；

活性预测模块706，用于基于所述活性预测模型，预测所述待预测sgRNA序列的靶标活性。

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种植物抗性蛋白识别方法、装置、设备和存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种sgRNA的靶标活性预测方法，其特征在于，包括：

获取sgRNA序列数据集；

将所述多个特征信息进行融合，得到特征集；

基于所述特征集对种子模型进行训练，得到活性预测模型；

获取待预测sgRNA序列；

2.如权利要求1所述的活性预测方法，其特征在于，基于所述特征集对种子模型进行训练，得到活性预测模型，包括：

从所述特征集中选取出最优特征信息，得到不平衡特征集；

对所述不平衡特征集进行上采样处理，得到平衡特征集；

3.如权利要求2所述的活性预测方法，其特征在于，对所述不平衡特征集进行上采样处理，得到平衡特征集，包括：

获取采样率；

4.如权利要求3所述的活性预测方法，其特征在于，获取采样率，包括：

基于所述不平衡特征集运行支持向量机，得到支持向量集；

确定所述支持向量集中的元素的多个邻域；

5.如权利要求4所述的活性预测方法，其特征在于，基于所述采样率对所述不平衡特征集进行上采样处理，得到平衡特征集，包括：

获取边界样本和少数类样本的多个最近邻；

6.如权利要求1所述的活性预测方法，其特征在于，所述sgRNA序列数据集包括：高活性sgRNA序列数据和低活性sgRNA序列数据。

7.一种sgRNA的靶标活性预测装置，其特征在于，包括：

第一获取模块，用于获取sgRNA序列数据集；

第二获取模块，用于获取待预测sgRNA序列；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一所述的方法中的步骤。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-6任一所述的方法的步骤。