CN114496070A

CN114496070A - 转录组序列分类方法、装置、电子设备及可读存储介质

Info

Publication number: CN114496070A
Application number: CN202210074550.2A
Authority: CN
Inventors: 朱怀球; 李墨; 尹衡闯
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-05-13

Abstract

本发明实施例提供了一种转录组序列分类方法、装置、电子设备及计算机可读存储介质，本发明实施例中，转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列，从而，本发明实施例采用的转录组序列分类预测模型，可以结合待分类转录组序列的碱基序列、密码子序列和氨基酸序列，准确地预测该待分类转录组序列所属的微生物类别。本发明实施例中，通过对转录组序列进行比对和预测，可以确定转录组序列所属的微生物类别。从而可以从虫媒介宏转录组中发现更多的未知的RNA病毒(主要的人类病毒)，以作为疾病的检测、防控，以及新病毒或其他病原体的研究的基础。

Description

转录组序列分类方法、装置、电子设备及可读存储介质

技术领域

本发明涉及生物信息处理技术领域，特别是涉及一种转录组序列分类方法、装置、电子设备及计算机可读存储介质。

背景技术

虫媒介是指能够在不同宿主之间传播病原(包括细菌、病毒等致病微生物)的昆虫，例如蚊子、蜱虫等。虫媒介是重要的人类传染性病的传播途径，它们携带着大量人类致病原，尤其是病毒。当这些病原体接触到人时，会造成疾病，或者大范围流行病的发生，对人类健康造成巨大的威胁。例如，蚊子、蜱虫、白蛉、虱子等昆虫在对人进行叮咬时可能将其所携带的病原体传给人从而引起疾病，包括疟疾、登革热、黄热病、鼠疫等。对这些虫媒介所携带微生物的研究对于疾病的检测、防控，以及新病毒或其他病原体的发现具有重要意义。

目前，宏转录组测序方法是对虫媒介所携带的微生物进行检测的常规方法。宏转录组测序是指对特定样品中所有的RNA进行提取并进行高通量测序的研究技术。其中，所提取的RNA包含细胞及所有微生物的转录产物，及RNA病毒的基因组序列，从而可以对包含RNA病毒在内所有种类的微生物进行检测。

在人类疾病防控相关的研究中，研究者们常对媒介生物进行碾压，然后采用宏转录组的方式来检测及研究其中的可能感染人的病毒。这类研究通常采用去除核糖体RNA(rRNA)的total RNA-seq的方式进行测序，即，在提取样本中全部的RNA物质后，首先要去掉样品中大量的来源于环境宿主的rRNA，并进一步对RNA进行纯化后进行建库并测序。这样，测得的序列中包含了宿主的RNA序列、病毒、细菌、古菌、真菌等不同微生物的RNA序列，如果要对RNA序列所属的微生物类别进行鉴定，需要利用算法来实现。

然而，目前几乎所有的序列分类方法都是基于宏基因组测序的基础上所设计的，还没有专门针对宏转录组测序数据进行序列分类的方法。可以理解，宏基因组测序技术是通过对样品中所有的双链DNA物质进行提取并测序，对基因组的编码区和非编码区没有偏好性，且不包含样品中的RNA病毒的基因组；而宏转录组是通过对RNA进行富集及进行测序，序列主要来源于各类微生物的转录组和RNA病毒的基因组，从而在编码区序列上有更多富集。所以宏转录组测序样本和宏基因组测序样本在序列组成上有很大的差异。因此，基于宏基因组测序数据的序列分类方法无法应用于宏转录组测序数据。

由此可见，目前亟需一种可以实现对转录组序列进行准确地分类的技术方案。

发明内容

鉴于上述问题，提出了本发明实施例提供一种转录组序列分类方法、装置、电子设备及计算机可读存储介质，可以实现对虫媒介宏转录组中的转录组序列所属类别进行准确地鉴定。

本发明实施例的第一方面，提供了一种转录组序列分类方法，所述方法包括：

获取宏转录组中的待分类转录组序列；

将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对；

在比对成功的情况下，通过已知数据库确定所述待分类转录组序列所属类别；

在比对失败的情况下，利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测；

其中，所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。

可选地，在利用转录组序列分类预测模型对所述待分类转录组序列所属的物种分类进行预测之前，所述方法还包括：

提取所述待分类转录组序列的六个可能的读码框的相位序列；

对六个相位序列分别进行分析，得到所述六个相位序列各自对应的六连体序列串；

通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分，以及最大编码可能性得分对应的连续子序列；

将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列，作为所述待分类转录组序列的编码序列；

根据所述编码序列，确定所述待分类转录组序列的密码子序列和氨基酸序列。

可选地，通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分，以及最大编码可能性得分对应的连续子序列，包括：

根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率，和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值，确定该单个六连体序列在单个微生物类别中的编码可能性得分；

对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算，确定该相位序列在对应微生物类别中的最大编码可能性得分，以及所述最大编码可能性得分对应的连续子序列。

可选地，所述方法还包括：

获得多条已知类别的微生物的转录组序列，并为每条转录组序列添加对应的类别标签；

将具有标签的转录组序列中的一部分添加到验证集，剩余部分添加到训练集；

提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列；

将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练，得到所述转录组序列分类预测模型。

可选地，所述方法还包括：

获得多条序列长度为指定长度范围的已知类别的微生物的转录组序列，并为每条转录组序列添加对应的类别标签；

针对每种长度范围：将具有标签的转录组序列中的一部分添加到验证集，剩余部分添加到训练集；提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列；将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练，得到与该长度范围相对应的转录组序列分类预测模型；

利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测，包括：

根据所述待分类转录组序列所属的长度范围，确定相对应的目标转录组序列分类预测模型；

利用所述目标转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。

本发明实施例的第二方面，提供一种转录组序列分类装置，所述装置包括：

获取模块，用于获取宏转录组中的待分类转录组序列；

比对模块，用于将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对；

第一确定模块，用于在比对成功的情况下，利用LCA算法确定所述待分类转录组序列所属类别；

预测模块，用于在比对失败的情况下，利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测；

可选地，所述装置包括：

提取模块，用于提取所述待分类转录组序列的六个可能的读码框的相位序列；

分析模块，用于对所述六个相位序列分别进行分析，得到所述六个相位序列各自对应的六连体序列串；

计算模块，用于通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分，以及最大编码可能性得分对应的连续子序列；

第二确定模块，用于将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列，作为所述待分类转录组序列的编码序列；

第三确定模块，用于根据所述编码序列，确定所述待分类转录组序列的密码子序列和氨基酸序列。

可选地，所述计算模块包括：

第一编码可能性得分确定子模块，用于根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率，和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值，确定该单个六连体序列在单个微生物类别中的编码可能性得分；

第二编码可能性得分确定子模块，对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算，确定该相位序列在对应微生物类别中的最大编码可能性得分，以及所述最大编码可能性得分对应的连续子序列。

可选地，所述装置还包括：

第一样本获取模块，用于获得多条已知类别的微生物的转录组序列，并为每条转录组序列添加对应的类别标签；

样本划分模块，用于将具有标签的转录组序列中的一部分添加到验证集，剩余部分添加到训练集；

特征提取模块，用于提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列；

第一训练模块，用于将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练，得到所述转录组序列分类预测模型。

可选地，所述装置还包括：

第二样本获取模块，用于获得多条序列长度为指定长度范围的已知类别的微生物的转录组序列，并为每条转录组序列添加对应的类别标签；

第二训练模块，用于针对每种长度范围：将具有标签的转录组序列中的一部分添加到验证集，剩余部分添加到训练集；提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列；将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练，得到与该长度范围相对应的转录组序列分类预测模型；

所述预测模块，具体用于：

根据所述待分类转录组序列所属的长度范围，确定相对应的目标转录组序列分类预测模型；利用所述目标转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。

本发明实施例的第三方面，提供一种电子设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器被配置为：执行如上述第一方面所述的任一种转录组序列分类方法。

本发明实施例的第四方面，提供一种计算机可读存储介质，其存储的计算机程序使得处理器执行如上述第一方面所述的任一种转录组序列分类方法。

本发明实施例中，转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列，从而，本发明实施例采用的转录组序列分类预测模型，可以结合待分类转录组序列的碱基序列、密码子序列和氨基酸序列，准确地预测该待分类转录组序列所属的微生物类别。

本发明实施例中，通过对转录组序列进行比对和预测，可以确定转录组序列所属的微生物类别。从而可以从虫媒介宏转录组中发现更多的未知的RNA病毒(主要的人类病毒)，以作为疾病的检测、防控，以及新病毒或其他病原体的研究的基础。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种转录组序列分类方法的步骤流程图；

图2是本发明实施例中的一种确定待分类转录组序列的密码子序列和氨基酸序列的方法的步骤流程图；

图3是本发明实施例中的一种转录组序列分类模型的训练方法的步骤流程图；

图4是本发明实施例中的另一种转录组序列分类模型的训练方法的步骤流程图；

图5是本发明实施例中的一种转录组序列分类装置的示意图；

图6是本发明实施例中的一种相位序列的编码可能性得分计算过程示例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

虫媒介昆虫通常携带了细菌、古菌、真菌、病毒四种类型的微生物。因此，本发明实施例提出，采用序列比对与深度学习结合的方法，对虫媒介宏转录组中的待分类转录组序列所属的微生物类别进行鉴定。其中，微生物类别包括：细菌、古菌、真菌、病毒。

以下，对本发明实施例中的一种转录组序列分类方法进行具体的介绍，图1示出了本发明实施例中的一种转录组序列分类方法的步骤流程图，如图1所示，该转录组序列分类方法具体可以包括以下步骤：

步骤S101，获取宏转录组中的待分类转录组序列。

本发明实施例中，可以通过对库蚊、蜱虫等媒介生物进行碾压，通过提取RNA、建库、测序等步骤后，从而获得对应生物的宏转录组，进而对宏转录组中的病毒等微生物进行检测。

本发明实施例中，在对宏转录组中的转录组序列进行检测之前还可以先去除样品中大量的来源于环境宿主的rRNA，并进一步对转录组序列组进行纯化后进行建库并测序，这样，测得的序列中包含的转录组序列有：宿主的转录组序列、病毒、细菌、古菌、真菌等不同微生物的转录组序列。进而本发明实施例可以对这些转录组序列进行分类鉴定。

步骤S102，将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对。

本发明实施例中，首先采用序列对比的方式的待分类转录组序列进行鉴定。具体地，待分类转录组序列先通过DIAMOND(v2.0.9.147)与NCBI的非冗余蛋白库(nr库)进行序列比对，以对数据库中已知的序列进行注释。

本发明实施例中，DIAMOND还可以通过LCA(Least Common Ancestors)算法找到序列所属的物种分类。从而确定待分类转录组序列所属的类别(细菌、古菌、真菌、病毒中的任意一种)。

步骤S103，在比对成功的情况下，通过已知数据库确定所述待分类转录组序列所属类别。

本发明实施例中，可以对比对结果设置较为严格的阈值，例如：90％的相似度及e值小于0.00001，以保证比对过程所得到的结果的可靠性。从而，在相似性大于90％且e值小于0.00001，表明比对成功，将比对到的已知数据库中的已知序列所属的类别，作为所述待分类转录组序列所属类别。

步骤S104，在比对失败的情况下，利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。

本发明实施例中，对于不能比对上数据库，以及不能通过LCA找到具体物种分类的序列，可以通过转录组序列分类预测模型来进行四类微生物水平的鉴定，以对待分类转录组序列进行初步的分类，同时也可以鉴定出新的可能的病毒序列。从而可以对鉴定出的新的可能的病毒序列进行后续的分析研究。

本发明实施例中，所述转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列。

本发明实施例中，采用的预设模型是一个三通道的卷积神经网络，每个通道输入序列的三个维度的信息，其中第一个通道是碱基序列，第二个通道是密码子序列，第三个通道是密码子序列。因此，本发明实施例中，可以通过多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列对该预设模型进行训练得到转录组序列分类预测模型。该转录组序列分类预测模型可以基于输入的转录组序列的碱基序列特征、密码子序列特征和密码子序列特征，预测该转录组序列所述的微生物类别。

其中，对转录组序列的碱基序列特征、密码子序列特征和密码子序列特征进行提取的方法可以采用相关技术中可行的任意方法。本发明对此不作具体限制。

在本发明实施例一种可选地实施方式中，提供了一种确定待分类转录组序列的密码子序列和氨基酸序列的方法，如图2所示，所述方法包括：

步骤S201，提取所述待分类转录组序列的六个可能的读码框的相位序列。

在转录组数据中，通常混合了非编码区的序列，以及不完整的转录本序列，因此，在本发明实施例中，首先需要提取待分类转录组序列的编码信息，以确定其密码子序列和氨基酸序列。

本发明实施例中，对于每条待分类转录组序列，首先提取其六个可能的读码框的相位的序列，即原序列从第1，2，3个碱基开始的序列和反向互补序列从第1，2，3个碱基开始的序列。

在得到待分类转录组序列的六个相位序列之后，再对各个相位序列进行下一步的编码信息的分析。

步骤S202，对六个相位序列分别进行分析，得到所述六个相位序列各自对应的六连体序列串。

本发明实施例中，可以对每个相位序列进行分析，得到对应的六连体序列串，从而基于每个六连体的编码可能性得分判定其编码蛋白的可能性。

本发明实施例中，对于每个相位序列，可以从起始密码子到终止密码子进行截取，然后每隔三个碱基截取一个六连体，从而将相位序列转换为对应的六连体序列串。

步骤S203，通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分，以及最大编码可能性得分对应的连续子序列。

本发明实施例中，事先计算了病毒、细菌、古菌和真菌四类微生物的编码序列所有六连体的频率，以及非编码序列的所有六连体频率，从而可以通过以这四类微生物为背景的六连体编码频率分布，利用“最大子串和”(Maximum Subarray Sum,MSS)动态规划的方法，确定使相位序列的编码可能性得分最大化的六连体序列子串，将该六连体序列子串中所有的单个六连体在单个微生物类别中的编码可能性得分求和，从而得到该相位的编码可能性得分。同时也确定出了最大编码可能性得分对应的连续子序列。

具体地，步骤S203包括：

步骤S2031，根据单个六连体序列在单个微生物类别中的已知编码序列中出现的频率，和所述单个六连体序列在单个微生物类别中的已知非编码序列中出现的频率的比值，确定该单个六连体序列在单个微生物类别中的编码可能性得分。

本发明实施例中，可以采用以下公式1计算单个六连体序列在单个微生物类别中的编码可能性得分：

其中，H表示一个六连体序列，F_c(H)和F_nc(H)分别表示六连体序列H在已知的某个种类的微生物的编码序列中的频率和非编码序列中的频率，λ(H)表示六连体序列H在该种类的微生物中的编码可能性得分。

步骤S2032，对一个相位序列对应的六连体序列串包括的所有单个六连体序列在单个微生物类别中的编码可能性得分进行最大子串和计算，确定该相位序列在对应微生物类别中的最大编码可能性得分，以及所述最大编码可能性得分对应的连续子序列。

本发明实施例中，可以采用以下公式2计算各个六连体序列串在对应微生物类别中的编码可能性得分：

其中，S表示一个六连体序列串，H_i表示组成六连体序列串S的六连体序列。

图6是本发明实施例中所提供的一种相位序列的编码可能性得分计算过程示例图。如图6所示，本发明实施例在将序列转换为六连体序列串之后，通过“最大子串和”算法来计算每条序列中编码可能性得分最大的值所对应的序列。该算法利用动态规划来找出一个使相位序列的编码可能性得分值最大的连续子序列(如图6中的H3-H10)，从而得到每一个相位序列的编码可能性得分。

步骤S204，将最大编码可能性得分最高且高于预设阈值的相位序列对应的连续子序列，作为所述待分类转录组序列的编码序列。

本发明实施例中，在确定每个相位序列相对于四种类别的微生物分别对应的编码可能性得分之后，可以取四个值中的最大值作为最终的编码可能性得分值。

然后取六个相位序列中编码可能性得分值最大的相位序列作为可能编码蛋白的序列，并且，如果该最大的编码可能性得分值大于给定的阈值，则可以将该可能编码蛋白的序列在步骤S203中确定的编码可能性得分值最大的连续的子序列(如图6中的H3-H10)作为该待分类转录组序列的编码序列，否则，将该序列被认定为非编码序列。

步骤S205，根据所述编码序列，确定所述待分类转录组序列的密码子序列和氨基酸序列。

本发明实施例中，在确定编码序列之后，即可根据该编码序列，确定待分类转录组序列的密码子序列和氨基酸序列。

具体地，将编码序列翻译成密码子，即得到待分类转录组序列的密码子序列。将编码序列翻译成氨基酸，即得到待分类转录组序列的氨基酸序列。

本发明实施例提出了一种转录组序列分类模型的训练方法，如图3所示，具体可以包括以下步骤：

步骤S301，获得多条已知类别的微生物的转录组序列，并为每条转录组序列添加对应的类别标签。

本发明实施例中，将添加了类别标签的转录组序列作为模型训练的样本集。

步骤S302，将具有标签的转录组序列中的一部分添加到验证集，剩余部分添加到训练集。

其中，训练集用于训练预设模型，验证集用于在训练过程中对模型参数进行调整，以使模型在验证集上能够达到最好的表现。

本发明实施例中，还可以包括测试集，用于评估训练得到的转录组序列分类预测模型的性能。

本发明实施例中，为了训练可以预测病毒序列及其他三类微生物序列的预测模型，构建了含有细菌、病毒、古菌和真菌等四类微生物的宏转录组训练集、验证集和测试集，数据来源为NCBI的RefSeq数据库的全基因组及编码区(CDS)序列。

具体地，对于病毒序列，截至2021年2月，RefSeq上共有10450个病毒的全基因组序列，本发明实施例以2019年为时间节点，2019年前所发表基因组的8126个病毒物种作为测试集，2019年及之后发表基因组的2322个病毒物种中，随机选一半作为验证集，另一半作为测试集。

对于细菌、古菌及真菌，由于这三类微生物的基因组相对于病毒基因组较大，全部用于训练会造成数据的不平衡，因此，本发明实施例中只选取了代表性物种的基因组进行模型的训练和评估。

其中，对于细菌，本发明实施例筛选了有全基因组的2772个细菌物种，然后选取了拥有20个以上基因组的门，其中包含变形菌门1217个，厚壁菌门492个，放线菌门472个，拟杆菌门218个，及其他6个门的258个物种。这些门水平的细菌中，本发明实施例进一步在每个属水平选取一个作为代表基因组，最终得到308个物种作为训练集物种，99个物种作为验证集物种，以及99个基因组作为测试集物种。

对于古菌序列，在古菌的421个代表物种中，本发明实施例在其中按比例随机选取了广古菌门(Euryarchaeota)的280个物种，泉古菌门(Crenarchaeota)的45个物种和剩下的其他门中的8个物种作为训练集，在除去训练集中的物种后，继续选取广古菌门中的6个物种，泉古菌门中的1个物种和其他古菌门中的1个物种组成验证集，以及以和验证集同样的方式选取8个物种作为测试集(训练集，验证集和测试集的物种互不重合)。

对于真菌序列，本发明实施例在子囊菌门(Ascomycota)中随机选取80个物种，担子菌门(Basidiomycota)中随机选取14个物种，其他真菌门的物种中随机选取2个物种组成训练集，然后在子囊菌门随机选取14个物种，担子菌门中随机选取3个物种，及其他真菌门中随机选取1个物种作为验证集，并以和验证集相同的方式选取18个物种作为测试集(训练集，验证集和测试集的物种互不重合)。

在本发明一种可选的实施方式中，考虑到待检测样品中可能含有DNA序列污染，还在样本集中加入了部分来自全基因组的序列，具体包括：在细菌、古菌和真菌三种微生物的三个物种库中，以4:1的比例从编码序列和全基因组序列中随机抽取序列片段，添加到样本集中。

对于病毒序列而言，部分RNA病毒除了其逆转录产物可以被测到，其基因组序列也能大量被测到，因此，本发明实施例中，还可以增加RNA病毒基因组序列的比例。

此外，为了提高人类病毒的检测效率，本发明实施例中还可以提高样本集中人类病毒的覆盖度。

在模拟每个类型的序列时，本发明实施例中，可以通过Grinder软件指定特定的序列条数和序列长度。

步骤S303，提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列。

本发明实施例中，可以参照上述确定待分类转录组序列的密码子序列和氨基酸序列的方法，提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列。

步骤S304，将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练，得到所述转录组序列分类预测模型。

本发明实施例中，预设模型是三通道卷积神经网络。对于一条给定的碱基序列，预设模型将其三个维度的信息，即碱基序列、密码子序列和氨基酸序列进行one-hot编码后，分别输入三个平行且构造一致的通道中。所述预设模型的每一层的具体设置如下：

第一层：一维卷积层。卷积核(过滤器)个数为64，每个卷积核的长度为3，激活函数为ReLU。

第二层：一维最大池化层。池大小(pooling size)设为3。

第三层：批量正则化层(batch normalization)。由于在训练过程中受到参数初始化的随机性和输入数据的随机性的影响，该层对输入的数据的每一维进行中心化和标准化。神经网络的每一层输入都有对应的分布，在网络的训练过程中，随着前一层参数的变化，当前层的输入分布也随之变化，使得当前层需要不断地重新调整到新的分布。这个问题对于深层网络尤其严重，因为较浅的隐藏层的微小变化会随着它们在网络中的传播而被放大，从而导致更深的隐藏层发生显著变化。因此，批量正则化用来减少这些不需要的转变，以加快训练速度并生成更可靠的模型。该层之后紧接着dropout操作，即随机删掉部分单元，以防止过拟合。本发明实施例中，dropout的单元的比例为0.25。

第四层-第六层：与第一层-第三层的结构一致，不同的是，在第四层卷积层中，卷积核的个数为128。

第七层：一维卷积层，三个通道各有256个卷积核，卷积核的长度为3，并使用ReLU作为激活函数。

第八层：一维全局平均池化层。该层对以上输出的特征图中的值取全局的平均值。

第九层：批量正则化层(batch normalization)。将三个通道的信息合并后输入批量正则化层，随后执行dropout操作，比例为0.25。

第十层-第十三层：两个全连接层，中间通过批量正则化层和一个ReLU激活函数相连，最后的全连接层的激活函数使用softmax，输出四类微生物的得分。

本发明实施例中，使用“one-hot”的方式对序列进行编码。“one-hot”是一种“0”，“1”编码方法，以使序列转换为能够输入深度学习模型的形式。

具体地，本发明对一条转录组序列进行三种形式的编码：(1)对于转录组序列本身，每一个碱基，分别由一个的向量来表示。(2)从转录组序列中确定编码序列后，将编码序列翻译成64个密码子，每个密码子对应一个的向量。(3)从转录组序列中确定编码序列后，将编码序列翻译成21种氨基酸，每种氨基酸对应一个向量。

本发明实施例中，在利用多条已知类别的微生物的转录组序列，对预设模型进行训练之后，可以得到转录组序列分类预测模型。

为了能够使模型适用于不同的长度的转录组序列，本发明实施例还提出了另外一种转录组序列分类模型的训练方法，如图4所示，具体可以包括以下步骤：

步骤S401，获得多条序列长度为指定长度范围的已知类别的微生物的转录组序列，并为每条转录组序列添加对应的类别标签。

其中，所述指定长度范围包括三种长度范围：0-400bp，400-1000bp，，1000-2000bp。

本发明实施例中，对于每种长度范围，可以用Grinder软件模拟相同数目的病毒、细菌、古菌和真菌序列各500000条作为训练集，各50000条序列作为验证集，以及各50000条序列作为测试集。

步骤S402，针对每种长度范围：将具有标签的转录组序列中的一部分添加到测试集，剩余部分添加到训练集；提取训练集中的每个具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列；将训练集中具有标签的转录组序列的碱基序列、密码子序列和氨基酸序列输入预设模型进行训练，得到与该长度范围相对应的转录组序列分类预测模型。

本发明实施例中，具体的模型训练方法可以参照上述步骤S03-S304。

在本发明实施例中，上述步骤S104可以包括子步骤：

S1041，根据所述待分类转录组序列所属的长度范围，确定相对应的目标转录组序列分类预测模型。

S1042，利用所述目标转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测。

本发明实施例中，在确定待分类转录组序列之后，可以采用与该序列长度相对应的目标转录组序列分类预测模型进行类别预测。如果所述待分类转录组序列长度在2000bp以上，则将其切断成长度为2000bp的片段，对于分割得到的每个片段，使用长度范围为1000-2000bp的转录组序列分类预测模型进行预测，剩下的不足2000bp长度的片段依照对应长度范围的转录组序列分类预测模型进行预测，最后，将片段的长度作为权重，对每个片段的打分进行加权平均后得到整条序列的得分，从而确定该待分类转录组序列所属的微生物类别。

参考图5，示出了一种转录组序列分类装置，所述装置包括：

获取模块501，用于获取宏转录组中的待分类转录组序列；

比对模块502，用于将所述待分类转录组序列与已知数据库中的各个已知序列分别进行比对；

第一确定模块503，用于在比对成功的情况下，利用LCA算法确定所述待分类转录组序列所属类别；

预测模块504，用于在比对失败的情况下，利用转录组序列分类预测模型对所述待分类转录组序列所属类别进行预测；

可选地，所述装置包括：

提取模块，用于提取所述待分类转录组序列的六个可能的编码框的相位序列；

分析模块，用于对六个相位序列分别进行分析，得到所述六个相位序列各自对应的六连体序列串；

可选地，所述计算模块包括：

可选地，所述装置还包括：

所述预测模块503，具体用于：

需要说明的是，装置实施例与方法实施例相近，故描述的较为简单，相关之处参见方法实施例即可。

本发明实施例还提供了一种电子设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器被配置为：执行如上述任一实施例所述的转录组序列分类方法。

本发明实施例还提供了一种计算机可读存储介质，其存储的计算机程序使得处理器执行上述任一实施例所述的转录组序列分类方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种转录组序列分类方法、装置、设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种转录组序列分类方法，其特征在于，所述方法包括：

获取宏转录组中的待分类转录组序列；

2.根据权利要求1所述的方法，其特征在于，在利用转录组序列分类预测模型对所述待分类转录组序列所属的物种分类进行预测之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，通过每一个相位序列各自对应的六连体序列串确定每一个相位序列的最大编码可能性得分，以及最大编码可能性得分对应的连续子序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种转录组序列分类装置，其特征在于，所述装置包括：

获取模块，用于获取宏转录组中的待分类转录组序列；

7.根据权利要求6所述的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述计算模块包括：

9.一种电子设备，其特征在于，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器被配置为：执行如权利要求1至5任一项所述的转录组序列分类方法。

10.一种计算机可读存储介质，其特征在于，其存储的计算机程序使得处理器执行如权利要求1至5任一项所述的转录组序列分类方法。