CN116665776A

CN116665776A - 一种序列合成周期预测模型的构建方法及其应用

Info

Publication number: CN116665776A
Application number: CN202310633003.8A
Authority: CN
Inventors: 庞逍逸; 蔡晓辉; 申姝茵; 杨平
Original assignee: Synbio Technologies
Current assignee: Synbio Technologies
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-29

Abstract

本发明公开了一种序列合成周期预测模型的构建方法及其应用，所述方法包括选取若干已知不同长度、不同合成周期的基因序列，对所述已知序列进行序列特征提取，将提取的序列特征与所述已知序列作为数据库的训练数据，然后利用深度学习中的Embedding技术、Transformer模型和两个神经网络建立序列合成周期预测模型。本发明所述方法可以对不同复杂度的基因序列合成周期进行预测，操作简单，准确率高，有利于基因合成的统筹安排，提高合成效率。

Description

一种序列合成周期预测模型的构建方法及其应用

技术领域

本发明属于分子生物学及生物信息学技术领域，具体涉及一种序列合成周期预测模型的构建方法及其应用。

背景技术

生物技术和信息技术的结合，基因合成技术以超摩尔定律的速度普及，基因合成作为生命科学的基础，在生物医药、疾病研究等多个领域得到应用，市场需求持续攀升。基因合成不依赖于序列模板，而是在体外化学人工合成双链DNA，合成片段相对较长可达kb级别，基因合成在流程上是一个不断设计、改造、验证、修正的试错过程。目前，大多商业化DNA合成公司通常采用柱式合成法，即基于四步法亚磷酰胺化学合成方法，在固相上进行寡核苷酸合成。这些寡核苷酸通常可以合成多达100nt～200nt，错误率在0.5％或以下，每个单体耦合效率通常可达99％。

目前，大多数的基因合成是通过外包服务的模式，由基因合成公司代为设计合成的，随着基因合成需求的日益增长，客户对于交付时间有了更明确的要求。但是待合成的基因序列不仅长度不同，其合成难度也各不相同，很难准确的预估序列的合成周期，基因合成公司通常是依据多年的合成经验，给客户提供大致的交付周期。

如CN111192629A公开了一种基因序列难度分析模型，该模型使用机器学习中常用的几种回归算法构建定量预测模型，选取一定量的已知序列进行训练，最终输入序列中提取的特征，即可预估基因序列的难度，以预测待测基因的合成周期。但其用于训练模型的基因序列数据量有限，导致模型不够准确；序列特征只考虑了序列GC含量，没有考虑AT含量和AT富集情况，且只考虑了重复序列的长度，虽然也考虑了正向和反向重复占序列总长度与重复覆盖区的比例，但其核心仍然是长度，并没有考虑重复序列与序列中位置的关联关系，而重复序列出现的位置可能会影响序列合成难度；此外，只使用传统机器学习回归算法，难以处理大规模复杂数据。

发明内容

针对现有技术的不足和实际需求，本发明提供一种序列合成周期预测模型的构建方法及其应用，所述方法可以对不同复杂度的基因序列合成周期进行预测，操作简单，准确率高，有利于基因合成的统筹安排，提高合成效率。

为达上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种序列合成周期预测模型的构建方法，包括：

选取若干已知序列，所述已知序列包括已知不同长度、不同合成周期的基因序列；

对所述已知序列进行序列特征提取，将提取的序列特征与所述已知序列作为数据库的训练数据；

将所述训练数据，利用深度学习中的Embedding技术、Transformer模型和两个神经网络建立序列合成周期预测模型。

在深度学习中，Embedding是一种常用技术，它可以将离散型的输入特征映射为连续的向量表示，以便神经网络理解和处理，从而提高模型的表现。

Transformer是一种用于处理序列数据的深度学习模型，最初由Vaswani等人在2017年提出。传统的序列模型，如循环神经网络(RNN)或卷积神经网络(CNN)，在处理长序列时存在一些问题，如梯度消失、梯度爆炸等。相比之下，Transformer模型采用了一种完全不同的思路，它不使用循环或卷积，而是使用注意力机制(Attention Mechanism)来处理输入序列。该机制也是模仿人脑的信息处理过程，即将有限的注意力集中到重点信息上，从而节省资源，快速获得有效信息。与传统的序列模型相比，Transformer模型具有如下优点：支持并行计算，因而可以提高计算效率；支持长序列建模，能够同时考虑序列中的所有元素，因而提高模型准确率；具有较好的泛化性能，已在机器翻译和文本生成等任务上取得了较好的效果。

优选地，所述神经网络包括Linear神经网络和Dense神经网络。

优选地，所述Linear神经网络包含4个线性变换层，所述Dense神经网络包含3个线性变换层。

优选地，所述序列特征包括碱基类型、序列重复情况、AT/GC富集情况、序列长度、总重复序列得分、AT富集分、GC富集分以及最长重复子序列长度。

第二方面，本发明提供第一方面所述的构建方法构建得到的预测模型在预测基因序列合成周期中的应用。

第三方面，本发明提供一种序列合成周期预测装置，包括：

序列特征提取单元，用于对已知序列进行序列特征提取；除了为预测模型单元准备训练数据外，还需要为预测单元提供服务；

数据库单元，用于获取已知不同长度、不同合成周期的基因序列和经过序列特征提取单元处理后获取的序列特征信息，划分为训练集和测试集；这些数据将被输入预测模型单元，以训练模型参数，形成最终的预测模型；

预测模型单元，用于训练数据库单元中的训练集数据，构建预测模型；

预测单元，用于输入待测序列，调用序列特征提取单元和预测模型单元，预测序列的合成周期。

优选地，所述预测模型单元包括：Linear子单元、Embedding子单元、Encoder子单元、Dense子单元和Represent子单元。

优选地，所述Embedding子单元包括两层结构，第一层使用PyTorch中的Embedding类，第二层将Embedding的结果相加，然后使用PyTorch中的nn.LayerNorm实现层归一化。

PyTorch是一个基于Torch的Python开源机器学习库，提供了大量的工具和接口，可以用于构建各种深度学习模型，包括卷积神经网络、循环神经网络、变分自编码器等。此外，PyTorch还提供了许多高级功能，如自动微分、分布式训练等，使得深度学习变得更加容易和高效。

与现有技术相比，本发明具有以下有益效果：

本发明提供的序列合成周期预测模型的构建方法，用于构建序列数据库的不同长度、不同合成周期的序列大于20000条，且都来源于真实的业务案例，因此有助于构建更准确的预测模型；本发明在提取序列特征时，综合考虑了GC和AT的含量与各自在序列中的富集情况，对非重复序列、普通重复序列和最长重复序列所在的位置赋予不同的数值，这样既区分了不同的重复情况，又记录并关联了重复位置与重复情况，进一步提高了预测模型的准确率；本发明使用了深度学习中的优秀模型，不仅可以处理大规模数据，而且可以使用分布式计算提升训练速度。

附图说明

图1为基因序列合成周期预测模型结构示意图；

图2为数据库单元的数据准备流程图；

图3为预测模型单元的结构示意图；

图4为预测模型单元的Linear模块结构示意图；

图5为预测模型单元的Embedding模块结构示意图；

图6为预测模型单元的Encoder模块中，每一层Encoder的结构示意图；

图7为预测模型单元的Dense模块结构示意图；

图8为预测单元的工作流程图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例1基因序列合成周期预测模型的构建

本实施例提供一种基因序列合成周期预测模型，共包含4个模块，如图1所示，各模块的构成和使用方法具体如下：

1、序列特征提取单元

序列特征提取单元，对于每一条需要处理的基因合成序列，首先获取其中所含有的正向重复序列，反向重复序列，回文序列，AT序列，GC序列等信息。正向重复序列是指基因序列中的2段完全相同的子序列；反向重复序列是指基因序列中的2段子序列，具有反向互补关系；回文序列是指基因序列中的一段子序列与自身具有反向互补关系；AT序列是指仅由AT碱基组成的子序列；GC序列是指仅由GC碱基组成的子序列，这些序列长度最低要求8bp以上。根据这些信息计算所需的序列特征。

1)综合序列特征

综合序列特征包含5个元素，第1个元素是字符序列长度；第2个元素是总重复序列得分，是上述正向重复序列，反向重复序列，回文序列所占基因序列比例；第3个元素是AT富集分，由上述AT序列的数量和长度计算得到，一个长度为n的AT序列的分数的一种计算方式为n*min(n-8+1,8)，AT富集分则为所有AT序列分数的和；第4个元素是GC富集分，由上述GC序列的数量和长度计算得到，计算方法与AT富集分类似；第5个元素是最长的重复子序列的长度。

2)序列碱基特征

读取完整序列，并按表1所示的规则，将字符序列逐位转化为纯数字序列，即可得到序列碱基特征。

表1

字符	数字
		A	1
T	2
		C	3
G	4

3)序列重复特征

首先，读取所有长度大于8的正向重复序列，反向重复序列，回文序列的相关信息(包括重复类型、第一次和第二次出现的位置、子序列长度及子序列内容)，然后按长度降序排序，其中第一条记录则为长度最长的重复子序列。

随后，创建一个与基因序列长度一致的数字字符串序列(记为序列重复特征)，并首先将所有元素的值设为1；然后对于重复序列列表中的每项内容，将序列重复特征对应位置的元素值设为2；最后将最长重复子序列在序列重复特征中对应的元素位置设为3。

4)序列富集特征

首先，读取所有长度大于8的AT序列、GC序列的相关信息(包括出现的位置、子序列长度及子序列内容)构成富集序列列表。

随后，创建一个与基因序列长度一致的数字字符串序列(记为序列富集特征)，并首先将所有元素的值设为1；然后对于富集序列列表中的每项内容，如果是GC序列，则将序列富集特征对应位置的元素值设为2；如果是AT序列，则将序列富集特征对应位置的元素值设为3。

2、数据库单元

数据库单元的数据准备流程如图2所示。

首先，需要收集业务数据，包括真实的基因合成序列和真实的合成周期(单位为天)。对于每条未经处理的序列，调用序列特征提取单元，调用结束后，系统将读取到三种数据：

1)真实合成周期

指当前序列真实的合成周期，单位为天，数据类型为正整数。

2)序列碱基特征、序列重复特征、序列富集特征

指当前序列在经过特定计算后得到的特征，分别与基因序列的碱基类型、序列重复情况和AT/GC富集情况有关。这三种特征的数据类型都是列表，长度(即所含元素个数)都与当前序列的长度(即碱基个数)相等，且所含元素的值都取自(1,2,3,4)之中。

3)综合序列特征

指当前序列在经过特定计算后得到的特征(参考序列特征提取单元)，包含五个元素，第一个元素是字符序列长度；第二个元素是总重复序列得分；第三个元素是AT富集分；第四个元素是GC富集分；第五个元素是最长的重复子序列的长度。

对于第二种数据，系统需要在其尾部添加0，使列表总长度达到一个给定值MAX_LENGTH，而在实际操作时，该值通常设为5000，即可满足大多数情况的需要。添加完成后，将上述三种数据串联成一组数据，该组的第一个元素是填充后的序列碱基特征，第二个元素是填充后的序列重复特征，第三个元素是填充后的序列富集特征，第四个元素是综合序列特征，第五个元素是真实合成周期。随后，将这一组数据加入到结果列表中。

重复以上步骤直至所有序列处理完毕。

随后，打乱结果列表的顺序，采用分层抽样方式，抽取80％的数据作为训练集，20％的数据作为测试集。最终，系统选取大于20,000条数据作为训练集。

3、预测模型单元

3.1模型结构

预测模型单元的结构如图3所示。Linear模块是一个包含4个线性变换层的神经网络；Embedding模块是一个使用了深度学习中的Embedding技术和层归一化技术的两层结构；Encoder模块是一个使用了8个深度学习中Transformer模型的Encoder(编码器)的多层网络；Dense模块是一个包含3个线性变换层的神经网络；Represent模块是一个处理输出结果的展示模块。

在训练模型(即获取各模块使用的各种参数的数值)时，系统使用数据库单元中的训练集数据，并且使用早停法，即通过监控验证集中损失的变化，确定是否需要提前停止训练。同时，系统使用了GPU并行训练，大大提升了训练速度。在训练完成后，保存模型和最优参数，转换为ONNX格式，方便预测单元的调用。

3.2Linear模块

Linear模块是一个包含4个线性变换层的神经网络，如图4所示。

Linear模块的输入是综合序列特征(参见数据库单元一节)。第一层的输入维度是5，输出维度是256，使用的激活函数是ReLU函数(Rectified Linear Unit)；第二层和第三层的输入与输出维度都是256，使用的激活函数都是ReLU函数；第四层的输入与输出维度也是256，但不使用激活函数，直接输出结果。

其中，ReLU函数的计算公式为：

3.3Embedding模块

Embedding模块实际由两层组成，第一层使用的是PyTorch中的Embedding类，共4个；第二层是将Embedding的结果相加，然后使用PyTorch中的nn.LayerNorm实现层归一化，如图5所示。

在深度学习中，Embedding是一种常用技术，它可以将离散型的输入特征映射为连续的向量表示，以便神经网络理解和处理，从而提高模型的表现。序列碱基特征、序列重复特征和序列富集特征都是从序列中获取的列表型数据，其中包含的元素都是离散的整数，因此需要通过Embedding层进行处理。最后一个序列位置特征并非来自序列，而是系统预设的、与序列碱基特征列数等长的一个张量，其内容是0，1，2，3……n这样的整数。

在深度学习中，Normalization(归一化)也是一种常用技术，可以使每个样本的特征在神经网络中的传播具有一致性，从而提高模型的稳定性和训练效果。具体来说，nn.LayerNorm类可以对输入的每个样本在指定维度上进行均值和方差归一化，并对归一化后的结果进行线性变换和偏置，从而得到最终的输出。

3.4Encoder模块

Encoder模块使用了8层Transformer模型的Encoder(编码器)。

Transformer模型是一种用于处理序列数据的深度学习模型，它在自然语言处理等领域有着广泛的应用。其中，编码器用于将输入序列转换为一组特征向量。

每一层Encoder都包含一个Multi-HeadAttention模块和一个全连接前馈神经网络模块，如图6所示。在Multi-HeadAttention模块中，模型会对输入序列中的每个位置进行注意力计算，得到上下文向量表示。这些上下文向量表示会被输入到全连接前馈神经网络模块中进行处理，从而得到最终的编码器输出。

3.5Dense模块

Dense模块是一个包含3个线性变换层的神经网络，如图7所示。

Dense模块的输入是Encoder模块和Linear模块的输出。第一层的输入维度是512，输出维度是128，使用的激活函数是ReLU函数；第二层的输入维度是128，输出维度是128，使用的激活函数是ReLU函数；第三层的输入维度是128，输出维度是1，不使用激活函数，直接输出结果。

3.6Represent模块

Represent模块的输入是Dense模块的输出，本模块主要做三个操作：

1)将输入结果代入ReLU函数计算结果，这样可以去掉负数值。

2)压缩维度，即合并维度为一的行；减少维度，方便提取信息。

3)计算以自然常数e为底的指数函数的结果。

4、预测单元

预测单元的工作流程如图8所示，首先，需要输入真实的基因合成序列，随后，系统调用序列特征提取单元，提取所需特征，并监控这期间是否有报错。如果有报错，输出错误信息，结束流程；否则使用ONNX Runtime框架加载预测模型单元中产生的ONNX格式的最终预测模型，获取预测结果。由于该结果是一个小数列表，表示了可能性从高到低的一系列结果，所以取第一个值，并按四舍五入法取得整数结果，即为预测出的周期。

申请人声明，以上所述仅为本发明的实施例，并非因此限制本发明的权利要求保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明权利要求的保护范围内。

Claims

1.一种序列合成周期预测模型的构建方法，其特征在于，包括：

2.根据权利要求1所述的构建方法，其特征在于，所述神经网络包括Linear神经网络和Dense神经网络。

3.根据权利要求2所述的构建方法，其特征在于，所述Linear神经网络包含4个线性变换层，所述Dense神经网络包含3个线性变换层。

4.根据权利要求1所述的构建方法，其特征在于，所述序列特征包括碱基类型、序列重复情况、AT/GC富集情况、序列长度、总重复序列得分、AT富集分、GC富集分以及最长重复子序列长度。

5.一种如权利要求1-4任一项所述的构建方法构建得到的预测模型在预测基因序列合成周期中的应用。

6.一种序列合成周期预测装置，其特征在于，包括：

序列特征提取单元，用于对已知序列进行序列特征提取；

数据库单元，用于获取已知序列和经过序列特征提取单元处理后获取的序列特征信息，划分为训练集和测试集；

7.根据权利要求6所述的预测装置，其特征在于，所述预测模型单元包括：Linear子单元、Embedding子单元、Encoder子单元、Dense子单元和Represent子单元。

8.根据权利要求7所述的预测装置，其特征在于，所述Embedding子单元包括两层结构，第一层使用PyTorch中的Embedding类，第二层将Embedding的结果相加，然后使用PyTorch中的nn.LayerNorm实现层归一化。