CN113393898A

CN113393898A - 一种基于自监督学习的宏基因组重叠群分类方法

Info

Publication number: CN113393898A
Application number: CN202110727538.2A
Authority: CN
Inventors: 杨金; 蔡云鹏; 杨博凯
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-14
Anticipated expiration: 2041-06-29
Also published as: CN113393898B

Abstract

本发明公开了一种基于自监督学习的宏基因组重叠群分类方法。该方法包括：将序列划分为固定长度的重叠短序列；将各短序列视作词，获取序列所有的词，通过对不同的词进行数字编码，将字符型的序列转化为数值型序列，其中不同词组成的集合作为词典；将所述数值型序列输入经训练的自监督学习神经网络模型，提取序列特征；对所提取的序列特征进行降维，以映射到低维可分类特征空间，并利用聚类算法进行分类，获得分类结果。利用本发明能够提高宏基因组重叠群分类的效率和准确度。

Description

一种基于自监督学习的宏基因组重叠群分类方法

技术领域

本发明涉及计算机应用技术领域，更具体地，涉及一种基于自监督学习的宏基因组重叠群分类方法。

背景技术

微生物是一类对于人类生命健康，生存环境具有重大影响的生物。微生物在自然环境下，往往以群落的形式存在。获取微生物群落的物种组成是了解微生物群落功能与代谢的关键步骤。随着测序技术的发展，宏基因组测序技术被广泛应用于自然环境样本中微生物遗传物质的获取。宏基因组技术可以直接从自然环境中获取全部微生物的遗传物质，无需进行实验室培养。宏基因组技术为相关领域研究学者对微生物群落组成，微生物与环境之间的关联，以及微生物与疾病的作用机制的研究提供了新的思路。

目前，主流的宏基因组测序方法都只能获取到微生物的短片段，且各种不同的微生物的短片段混合在一起。短片段组装工具可以将短序列片段拼接为更长的基因片段，这种长基因片段被称为重叠群(contig)。然而，由于组装工具的局限性，尚且无法获取微生物完整的基因序列。针对这一问题，后续需要进行重叠群分类，即将同种微生物的重叠群划分为一类，不同种微生物的重叠群划分为不同的类。

在现有技术中，有多种重叠群分类方法。例如，传统方法是运用序列比对方式，将重叠群比对至参考序列数据库，将比对最相似的参考序列的类别作为重叠群的类别。另外一种方法是运用重叠群的4mer频率和丰度信息，手动构建特征向量，通过搭建统计学习模型，对特征向量进行分类或聚类。此外，近年来深度学习方法在生物序列分类问题上得到了广泛应用。卷积神经网络，循环神经网络，自编码器等深度神经网络结构显著提升了模型对序列的特征提取能力，从而能获取到微生物群落中更多、更详细的微生物物种信息。深度学习方法主要包括有监督的深度学习模型和无监督的深度学习模型。有监督的深度学习模型依赖于标记数据来保证模型的泛化性，需要大量标记数据的训练来减少数据的虚假相关性；然而宏基因组数据存在标记数据少、标记成本高的特点，难以直接应用于宏基因组数据的分类上。自监督学习模型是一种无监督的模型，为解决宏基因组数据的分类提供了思路。自监督学习旨在还原数据本身的信息，通过半自动化的方式从原始数据中获取标签，对深度学习模型进行训练，从而恢复原始数据。

经检索分析，现有的宏基因组重叠群分类方法包括以下几类。专利申请CN112466404A(一种宏基因组重叠群无监督聚类方法及系统)提出采用4mer频率作特征向量，基于Kmeans算法和概率模型不断更新聚类中心，从而对重叠群进行聚类。专利申请CN106055928A(一种宏基因组重叠群的分类方法)，同样采用4mer频率作为序列的特征向量，提出了一种改进的模糊C均值算法进行聚类。这些方法仅仅运用了序列的4mer频率作为特征，以手工的形式获取4mer频率特征向量。然而基因序列本身是高维时序数据，上述方法直接将基因序列数据简化为低维特征向量，难以获取到全面的信息。专利申请CN107292124A(基于分层主元深度学习的宏基因组操作分类单元识别方法)采用6mer频率作为特征向量，并对其进行主元分析，以实现降维目的，并根据降维结果建立神经网络分类模型，从而获取基因序列的分类。该方法同样采用了手工设计的特征，且需要大量标记数据来训练神经网络分类模型，难以保证模型的泛化性能。

总之，现有的重叠群分类方法仅简单地利用了重叠群的碱基组成和丰度信息进行分类，依赖于大量的已标记数据进行模型训练，并且忽略了基因中碱基之间的相互作用关系，缺少对基因信息的理解，从而影响了分类准确性和分类效率。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于自监督学习的重叠群分类方法。该方法包括以下步骤：

将序列划分为固定长度的重叠短序列；

将各短序列视作词，获取序列所有的词，通过对不同的词进行数字编码，将字符型的序列转化为数值型序列，其中不同词组成的集合作为词典；

将所述数值型序列输入经训练的自监督学习神经网络模型，提取序列特征；

对所提取的序列特征进行降维，以映射到低维可分类特征空间，并利用聚类算法进行分类，获得分类结果。

与现有技术相比，本发明的优点在于，通过自监督学习方式，无需任何标记数据指导训练，便能够对序列的特征进行准确提取，进一步地，用无监督流形学习对高维特征向量进行映射，实现高效地聚类，从而实现对重叠群序列的准确分类。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于自监督学习的宏基因组重叠群分类方法的流程图；

图2是根据本发明一个实施例的基于自监督学习的宏基因组重叠群分类方法的过程示意图；

图3是根据本发明一个实施例的5-mer生成示意图；

图4是根据本发明一个实施例的自监督学习神经网络模型示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明设计了一种自动提取特征的方式，通过将序列本身的信息作为标签，训练神经网络模型，在恢复整个序列信息的过程中，将字符型的序列信息转化为数值型的高维特征信息；然后利用流形学习技术对特征信息降维，最后再应用聚类算法划分重叠群。

本发明提供的基于自监督学习的宏基因组重叠群分类方法整体上包括无监督的预训练过程以及利用预训练结果指导无监督的分类过程。具体地，参见图2所示，所提出的基于自监督学习的重叠群分类方法的框架主要包括两个模块：自监督学习模块和无监督分类模块。自监督学习模块负责图2中的预训练通道，对大量无标记重叠群序列进行还原，以此学习序列的特征表示。无监督分类模块负责图2中的聚类通道，采用预训练通道训练完毕后的模型参数对编码器部分进行初始化，输入测试数据集，经过编码器的编码，输出数据的高维特征向量，再利用流形学习方法对序列的高维特征向量进行降维，获取降维后的特征向量，最后利用谱聚类的方法对降维后的特征进行聚类。

进一步地，结合图1和图2所示，所提供的基于自监督学习的重叠群分类方法包括以下步骤。

步骤S110，构建自监督学习神经网络模型，并以设定的损失函数为目标进行训练。

在一个实施例中，自监督学习的序列特征表示模型主要包括划分序列为Kmer集合以及基于BERT的重叠群序列还原。具体包括以下步骤。

步骤S111，将序列划分为固定长度的重叠短序列。

具体地，将序列(reads)划分为固定长度为K的重叠短序列，这种短序列被称作Kmer。Kmer是指序列中以滑动窗口形成的子串序列，K为短序列的长度，可设置为任意整数。例如，将K设置为5，5-mer的产生过程如图3所示。Kmer的长度K对表征序列的程度具有重要的影响。k值过小或过大，都会造成序列特征信息的丢失。

步骤S112，基于BERT的重叠群序列还原。

首先，将Kmer视作词，获取序列所有的词，不同词组成的集合为词典。通过对不同的词进行数字编码，从而将字符型的序列转化为神经网络模型中可计算的数值。预训练阶段的神经网络模型主要包含编码器和解码器两个部分，网络模型如图4所示。

在图4的实施例中，编码器采用BERT中的Transformer网络，Transformer网络的个数为超参数。Transformer网络主要包含嵌入层、多头注意力层和前馈神经网络层。嵌入层主要包括：位置嵌入和序列内容嵌入，可随机初始化序列的嵌入层参数。注意力机制将任意位置的两个词的距离转换成1，以解决时序数据的长期依赖问题。多头注意力层是指将多个注意力网络层进行拼接，实现了在不同的特征子空间中提取数据特征的目的。经过N层Transformer网络堆叠而成的编码器网络的编码，模型隐含层的数据就是序列的特征表示。序列解码部分采用与编码器相对应的架构，经过解码获取到序列每个Kmer的嵌入向量，在结尾添加线性连接层(标记为全连接层)和softmax层，对Kmer进行分类，即输出Kmer预测为词典中的各个Kmer的概率。

进一步，对上述神经网络模型进行训练即可获得满足设定损失的模型参数。

在一个实施例中，整个模型的训练采用掩码语言模型(Masked Language Model，以下简称MLM)。MLM的基本思想是针对输入序列，随机将序列中的一些单词遮挡，然后预测这些被遮挡的单词。模型的自监督模块只对被遮挡的单词进行预测和还原。预测被遮挡的单词相当于将该单词分类为词典中的某一类。例如，训练的损失函数采用负对数似然函数，表示为：

上述公式表示求取被遮挡的每个单词的负对数损失和，其中N表示被遮挡的单词总数，V表示词典集合，|V|表示词典的数量，p(m＝m_j|θ)表示预测的单词为词典中的第j个单词的概率，其中θ表示模型的神经网络模型参数(即需训练的参数)。

步骤S120，利用经训练的自监督学习神经网络模型指导无监督分类，获得分类结果。

在自监督学习模块的预训练结束后，可以获取到模型的参数。在无监督分类模型，采用这些参数初始化编码器网络，获取编码器对序列的编码向量。编码器对序列提取的特征具有通用性，获取的特征空间维度高，难以直接用于聚类算法。优选地，通过流形学习将高维特征映射到低维可分类特征空间，再借助聚类算法对序列进行快速准确分类。

具体地，流形学习方法旨在通过保持数据在高维中的拓扑结构或邻域关系，将高维数据映射为低维数据。UMAP(一致的流形近似和投影)的核心思想是使用图布局算法使数据的高维图表示和低维图在结构上尽可能地相似。例如，Python scikit-learn工具提供UMAP程序包，最常用的两个参数为n_neighbors和min_dist。n_neighbors参数为每个节点的最近邻数量，该参数控制了UMAP中构建的图的稀疏程度，该参数越大，考虑的结构范围越广；该参数越小，考虑的结构范围越小，图模型越关注局部的拓扑结构。min_dist参数是低维空间中点的最小距离，该参数越小，表明将数据点更紧密地聚在一起，该参数越大，表明更松散地聚合。

对特征向量进行降维后，再选取合适的聚类算法进行聚类。UMAP降维算法基于图理论来保持高维图结构和低维图结构的相似性，因此在聚类算法中，采用图聚类算法能与充分利用UMAP算法的优势，将UMAP挖掘到的图模式转变为相应的类别。在一个实施例中，优选采用谱聚类算法，通过构建向量之间的相似矩阵，构建无向权重图，权重为向量之间的相似性；再利用最小切图算法，按照每个切图权重最大的原则将大图切分为多个小图，每个小图中的节点即为一个聚类模块。

需说明的是，对于自监督学习神经网络模型的训练过程，可采用随机抽样法划分数据集为训练数据集和测试数据集，该数据集中的序列被划分为固定长度的重叠短序列，并将各短序列视作词。首先，利用训练数据集进行训练，训练过程遮挡训练数据集中的序列的部分词，例如，采用掩码语言模型随机将15％的单词遮挡，并利用自监督学习神经网络模型将被遮挡单词的还原为获取序列的特征向量，还原方式是：将遮挡单词分类为词典中对应的单词。在初步训练完成后，可进一步采用测试数据集验证模型的精确度，而测试数据集中的序列无需遮挡。在实际应用中，利用经训练的模型进行宏基因组重叠群的分类过程与测试过程类似，在此不再赘述。

步骤S130，将分类结果进行可视化显示。

优选地，可将聚类结果或分类结果进行可视化显示，以供用户查看和核对。例如，采用TSNE(T分布和随机近邻嵌入)方法对聚类结果进行可视化。

需说明的是，在不违背本发明精神和范围的前提下，本领域技术人员可对上述实施例进行适当的改变或变型。例如，采用其他结构的神经网络模型，或采用k-means聚类方法。又如，采用平方损失函数、或绝对值损失函数来衡量预测值和真实值之间的差异。

综上所述，本发明设计了重叠群序列还原方法，利用自监督方式并基于序列本身的信息作为标签，对神经网络模型进行训练，在恢复输入序列的过程中，获取序列的特征表示。另一方面，提供自监督学习指导无监督分类，将自监督学习和无监督分类进行融合，协同指导重叠群序列的分类。此外，无监督的流形学习方法对自监督获取的特征空间进行映射，将高维特征转换为可分的无冗余低维特征。自监督学习方法获取的高维特征是各个子空间的融合，而无监督流形学习在保持数据之间的高维拓扑结构的情况下，将数据映射为低维特征向量，从而实现更高效的聚类分析。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于自监督学习的宏基因组重叠群分类方法，包括以下步骤：

将序列划分为固定长度的重叠短序列；

2.根据权利要求1所述的方法，其中，根据以下步骤训练所述自监督学习神经网络模型：

针对输入序列，将各短序列视作词，并采用掩码语言模型随机将输入序列中的多个单词遮挡；

以优化设定的损失函数为目标训练所述自监督学习神经网络模型，对被遮挡的单词进行预测和还原。

3.根据权利要求2所述的方法，其中，所述损失函数采用负对数似然损失函数，表示为：

其中N表示被遮挡的单词总数，V表示词典集合，|V|表示词典的数量，p(m＝m_j|θ)表示预测的单词为词典中的第j个单词的概率，θ表示神经网络模型参数。

4.根据权利要求1所述的方法，其中，所述自监督学习神经网络模型包括编码器、解码器、全连接层和softmax层，所述编码器针对输入序列获取特征表示，所述解码器获取序列中每个短序列的嵌入向量，所述全连接层用于将学到的特征表示映射到样本标记空间，所述softmax层用于对各短序列进行分类，输出为词典中各短序列的预测概率。

5.根据权利要求4所述的方法，其中，所述编码器采用Transformer网络，包括嵌入层、多头注意力层和前馈神经网络层，所述嵌入层用于位置嵌入和序列内容嵌入；所述多头注意力层用于对多个注意力网络层进行拼接并将任意位置的两个词的距离转换成1。

6.根据权利要求1所述的方法，其中，所述对所提取的序列特征进行降维，以映射到低维可分类特征空间，并利用聚类算法进行分类包括：

通过流形学习将高维特征映射到低维可分类特征向量空间；

针对所获得的低维可分类特征向量，利用谱聚类算法构建向量之间的相似矩阵，并构建无向权重图，其中权重为向量之间的相似性；

利用最小切图算法，按照每个切图权重最大的原则将大图切分为多个小图，以获得聚类结果。

7.根据权利要求1所述的方法，其中，还包括将所述分类结果利用T分布和随机近邻嵌入方法进行可视化。

8.根据权利要求1所述的方法，其中，所述短序列利用滑动窗口机制获得，该滑动窗口的长度根据对序列的表征影响程度确定。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。