CN116417068A

CN116417068A - 一种基于深度学习预测工程化核酸序列实验室来源的方法、系统及装置

Info

Publication number: CN116417068A
Application number: CN202310124930.7A
Authority: CN
Inventors: 滕越; 刘拓宇
Original assignee: Academy of Military Medical Sciences AMMS of PLA
Current assignee: Academy of Military Medical Sciences AMMS of PLA
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-07-11
Anticipated expiration: 2043-02-03
Also published as: CN116417068B

Abstract

本发明通过采用提出的基于卷积神经网络的工程化核酸序列实验室来源识别模型。通过采用由四组包括卷积层、Dropout层、池化层及批归一化层的处理层组合依次串接的方式，浅层的处理层组合得到工程化核酸序列的全局特征，进而深层的处理层组合得到工程化核酸序列的局部特征，实现了全局特征和局部特征的有效融合，提高了特征提取的精确度。本发明通过在现有卷积神经网络的卷积层和池化层之间增加随机失活层，能够减少卷积层输出的特征数量，降低识别过程的冗余度，从而提高了每层各个特征之间的正交性，达到正则化的效果。本发明在降低计算资源消耗的基础上，能够实现本发明系统在小型化、便携式计算平台中的集成。

Description

一种基于深度学习预测工程化核酸序列实验室来源的方法、系统及装置

技术领域

本发明属于核酸序列实验室来源检测技术领域，具体涉及一种基于深度学习的鉴别核酸序列实验室来源的方法、系统及装置。

背景技术

自DNA双螺旋结构的解析以来，现代生物技术发展日新月异，生物科学领域不断取得突破性进展，推动着科学的进步和经济的发展，正在成为引领新一轮科技革命和产业变革的核心。然而，生物技术是典型的两用性（dual-use）技术，其被误用、谬用和滥用后，可能对人类健康、工农业发展及生态环境等造成严重负面影响，并产生灾难性的后果。在DNA设计、合成及构建技术与工具的推动下，工程化DNA的规模和复杂性正在呈指数增长。这些生物技术的发展加大了技术误用和蓄意滥用的安全风险，目前已出现由人工设计DNA所驱动的危险病原体改造案例，对生物安全形成重大威胁。

合成生物学（Synthetic Biology）合成生物学是以工程化设计理念对现有或新的生物元件进行合理设计以构建具有特定功能的生物系统的新兴交叉学科，其引入工程学的模块化概念和系统设计理论，以人工设计合成DNA为基础，改造和优化现有自然生物体系或者重头合成具有预定功能的全新人工生物体系。合成生物学时代见证了DNA设计、合成及构建工具的快速进步，促进了大型遗传系统的设计与改造，使得生命科学已经进入到 “从头设计”遗传信息时代。很多DNA设计工具或方法会使得其在序列中留下“印记”。例如，研究人员对基因调控元件（启动子或核糖体结合位点）的选择可能具有一定的偏好性，可能来源于此前工作经验或某类元件库；不同类型的计算机辅助计算设计工具会有特定的差异，比如采用不同的基因优化算法会产生不一样的特定密码子；采用不同的DNA构建方法（例如基于限制性内切酶的酶切与连接构建法）会在DNA中留下“疤痕（scar）”序列；此外，一些常用的基因（如绿色荧光蛋白），在实验室使用过程中会包含特定的沉默突变。总的来说，这些原因导致了核酸序列中会形成个人、实验室或研究所相关的独特“签名（signature）”。总体而言，这些人工设计核酸序列会具有自然来源的核酸序列所不同的标记。但即使是使用现有生物信息学工具，也会难以发现或不可能在一长串核苷酸序列中识别出独特的签名，核酸序列的实验室溯源是困难且极其耗时的。

卷积神经网络（Convolutional Neural Network，CNN）是一种基于深度学习模型的多层感知器，强大的特征提取能力使其在图像识别和目标检测等领域得到了广泛应用。卷积神经网络通过训练数据集进行图像特征学习，以识别出特定图片的类别特征。此外，卷积神经网络同样被应用于基于字符的文本分类，而不需要任何预先编码的单词或语义结构知识（例如，通过训练其可将新闻文章归纳到“体育”和“金融”不同板块）。利用功能性或非功能性的核酸序列数据集对卷积神经网络进行训练，可实现对核酸序列进行分类分析，以识别启动子、转录因子结合位点、特定基因等特征序列。

发明内容

通常，没有一个“确凿的证据”将 DNA 序列与实验室关联起来。相反，它是一种设计选择的组合，这些设计选择在个体上很常见，但在集体上却揭示了设计习惯。有鉴于此，本发明提供了一种基于深度学习的鉴别核酸序列实验室来源的方法、系统及装置，采用构建的基于卷积神经网络的核酸序列实验室来源识别模型，实现了对工程化核酸序列实验室来源的快速精确识别。

本发明提供的一种基于深度学习的工程化核酸序列实验室来源甄别方法，包括以下步骤：

工程DNA 的序列保存在许多大型公共、私有储存库、内部数据库(实验室、研究所、公司、财团)、出现在已发表的专利和论文中，以及在DNA合成公司的记录中。核酸序列与其他元数据相连，包括提交的实验室。Addgene是一个非营利存储库，负责对质粒进行存档、维护和分发给学术界。在全球范围内，实验室提交他们的质粒进行存储和再分配。我们从Addgene获得了一个质粒数据集，该数据集包含质粒的序列以及所属实验室，实验室所在国家，合成时间等信息。另外，数据集中的工程化核酸序列被标记为:(1)完整的核酸序列由Addgene提交，(2)完整的核酸序列由Depositor提交，(3)Partial Repository，由Addgene提交一个或多个片段的质粒，(4)Partial Depositor，由Depositor提交一个或多个片段的质粒。

在分析之前，为了有足够的质粒序列来学习实验室起源，我们对核酸序列原始数据进行了预处理，对于质粒来源，如果一个质粒具有被归类为完整库的关联核酸序列，我们只使用该核酸序列进行训练，忽略所有其他关联序列信息。如果没有完整的Repository核酸序列，而是有完整的 Depositor序列，我们只使用该核酸序列进行训练，忽略其他序列。如果相反，质粒只有部分储存库或部分存贮者 DNA 序列(通常由 Sanger 测序 reads 产生)我们将所有这些由48个连续的N分隔的部分序列串联起来，以创建训练序列。

选取的数量为大于50个质粒的实验室，这就得到了一组来自245个实验室的共40850个质粒序列。这些质粒随后被分为三组，分别为训练集，验证集和测试集。为了确保来自所有实验室的代表性，从每个实验室随机选择10%的质粒进行验证。训练集包含剩余的32680个序列。在本发明中，深度学习被用于预测 DNA 序列的实验室来源，在 Addgene 质粒数据集上训练了一个卷积神经网络，该数据集包含了截至 2022年 1月来自 245个实验室的 40850个工程核酸序列。该网络正确识别源实验室的概率为 74%。

建立基于卷积神经网络的工程化核酸序列实验室来源识别模型，所述识别模型依次包括输入层、卷积层、随机失活（Dropout）层、池化层、批归一化（BN）层、展平（Flatten）层及全连接层，随机产生输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置，采用交叉损失熵函数和自适应矩估计（Adam）优化器求解所述识别模型的输出权值矩阵，完成所述识别模型的训练；

采用按照所述设定的编码规则编码过的未知来源核酸序列矩阵输入到训练得到的所述识别模型中，判断所述未知实验室来源的核酸序列来自某实验室的分值。

进一步地，采用激活函数对识别得到的各实验室分值进行处理，得到所述未知来源核酸序列为某特定实验室的概率值。

进一步地，所述序列长度阈值包括序列长度的最大值和最小值，此时，选取对应的工程化核酸序列的过程为：在合Addgene实验室质粒数据集中，删除序列长度小于所述最小值的工程化核酸序列；保留序列长度大于最小值且小于最大值的工程化核酸序列；对于序列长度大于最大值的工程化核酸序列，截取其中的个数为最大值的碱基对。

进一步地，所述最小值为1000个碱基对，所述最大值为5000个碱基对。在任何核酸序列字符不是 A、T、G、C 或N的罕见情况下，该字符被转换为N。我们用N填充得到的序列，使其总长度为5000bp，然后用48N的间隔序列将该序列的反向互补序列连接在其自身之后。

进一步地，将最终序列中的每个nt编码为一个one-hot向量，其中A=[1000]，T=[0100]，G=[0010]，C=[0001]，N=[0000]。同样，实验室的身份也被编码为长度为长度为245的 one-hot 向量。这些 one-hot 向量序列输入和实验室标签被用来训练神经网络。

进一步地，所述输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置采用贝叶斯优化器寻优获得。

进一步地，CNNs的输入是编码为10048*4矩阵的核酸序列，其中每个 nt 由一个one-hot 向量表示。所有序列为5000个nts(较短的序列用N进行扩展，较长的序列被截断)，还包括反向互补序列，用48 N分隔，以避免两者之间的位置效应。这将喂入一个由512个滤波器组成的卷积层，每个滤波器的滑动窗口由48个nts构成。卷积层的数量、滤波器数量和窗口大小是通过贝叶斯优化确定的。每个滤波器都应用了一个最大池化层，从而减小了表示的大小。它还消除了沿着核酸序列特征的位置依赖性。之后，来自 512 个滤波器的最大池化信号依次喂入到128个滤波器、64个滤波器、32个滤波器的卷积层，每层之后都经过最大池化层。最后输入到两个全连接层，其中每个全连接层16个神经元和245个神经元，后者对应实验室的数量。第二个全连接层为每个实验室生成输出，这些输出使用softmax 函数转换为概率。这些概率代表预测的相对强度，即查询核酸序列与每个类别(实验室)相关联，并被归一化为跨类别的总和为统一。

本发明提供的一种基于深度学习的鉴别核酸序列实验室来源的系统，包括数据预处理模块、工程化核酸序列实验室来源识别模块、识别结果数据后处理模块和工程化核酸序列实验室来源识别模型训练模块；

所述数据预处理模块，按照所述序列长度阈值，在输入的未知来源工程化核酸序列中选取符合条件的核酸序列；再将选出的核酸序列，按照所述编码方式编码为工程化核酸序列矩阵，并将工程化核酸序列矩阵发送至所述工程化核酸序列实验室来源识别模块；

所述工程化核酸序列实验室来源识别模块，采用识别模型识别所述工程化核酸序列矩阵分别为各实验室来源的分值，并将所述分值发送至所述识别结果数据后处理模块；

所述识别结果数据后处理模块，将所述分值转换为对应的概率值，即为所述待处理工程化核酸序列分别为各实验室来源的概率值；

所述工程化核酸序列实验室来源识别模型训练模块，采用所述数据预处理模块在Addgene数据集中选取核酸序列生成对应的核酸序列矩阵，所述核酸序列矩阵作为输入及其来源作为输出形成所述识别模型的训练样本集；随机产生由输入层、卷积层、随机失活（Dropout）层、池化层、批归一化（BN）层、展平（Flatten）层及全连接层依次组成的所述识别模型中的参数，所述参数包括输入层到各卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置；采用所述训练样本集输入所述工程化核酸序列实验室来源识别模块训练所述识别模型，采用交叉损失熵函数和自适应矩估计（Adam）优化器求解所述识别模型的输出权值矩阵，完成所述识别模型的训练。

进一步地，所述系统封装于便携式设备中。

进一步地，所述识别模型为增强型识别模型，所述增强型识别模型为在所述识别模型的BN层与Flatten层之间依次连接了第一卷积层、第一Dropout层、第一池化层、第一BN层、第二卷积层、第二Dropout层、第二池化层、第二BN层、第三卷积层、第三Dropout层、第三池化层和第三BN层；所述增强型识别模型中BN层到第一卷积层、第一BN层到第二卷积层、第二BN层到第三卷积层之间的输入权值矩阵及偏置，由所述工程化核酸序列实验室来源识别模型训练模块随机产生。

本发明提供的一种识别核酸序列实验室来源的装置，包括深度学习芯片单元、显示器、鼠标与键盘；

所述深度学习芯片单元用于实现工程化DNA来源的识别；

所述显示器作为输出端，用于显示识别结果；

所述鼠标与键盘作为输入端，用于实现人机交互。

本发明的有益效果包括：

1、本发明通过在现有卷积神经网络的卷积层和池化层之间增加随机失活（Dropout）层，能够减少卷积层输出的特征数量，降低识别过程的冗余度，从而提高了每层各个特征之间的正交性，达到正则化的效果。同时，也能有效缓解模型训练过程中过拟合现象的发生，降低了计算资源的消耗，提高了计算效率，有效的降低了计算耗时。

2、本发明通过采用由四组包括卷积层、Dropout层、池化层及批归一化（BN）层的处理层组合依次串接的方式，浅层的处理层组合得到工程化核酸序列的全局特征，在此基础上，深层的处理层组合得到工程化核酸序列的局部特征，实现了全局特征和局部特征的有效融合，提高了特征提取的精确度；

3、本发明通过采用提出的基于卷积神经网络的工程化核酸序列实验室来源识别模型，在降低计算资源消耗的基础上，能够实现本发明提出的基于深度学习的实验室质粒来源甄别系统在小型化、便携式计算平台中的集成。

附图说明

图1为本发明提供的一种基于深度学习的工程化DNA实验室来源甄别方法的基本流程示意图。

图2为本发明提供的一种基于深度学习的增强型工程化DNA实验室来源甄别方法的基本流程示意图。

图3为本发明提供的一种基于深度学习的工程化DNA实验室来源甄别系统的基本结构示意图。

图4为本发明提供的一种识别工程化DNA实验室来源的装置的基本结构图。

实施方式

下面结合附图并举实施例，对本发明的优选实施方式做详细说明。

实施例1

本发明提供的一种基于深度学习的实验室来源甄别方法的建立。如图1所示，具体包括以下步骤：

步骤1、数据预处理

首先，从Addgene质粒数据集中，按照设定的序列长度阈值，选取对应的工程化核酸序列。其中，Addgene中工程化核酸序列被标记为：(1)完整的核酸序列由Addgene提交，(2)完整的核酸序列由Depositor提交，(3)Partial Repository，由Addgene提交一个或多个片段的质粒，(4)Partial Depositor，由Depositor提交一个或多个片段的质粒。

序列长度阈值可以为取值范围，例如，将核酸序列长度固定为1000个碱基对到5000个碱基对，对应的核酸序列选取过程为：若核酸序列长度小于1000个碱基对，则删除该核酸序列；若核酸序列长度大于1000个碱基对且小于5000个碱基对，则保留该核酸序列；若核酸序列长度大于5000个碱基对，则顺序截取该核酸序列中的5000个碱基对形成新的核酸序列。然后用48N的间隔序列将该序列的反向互补序列连接在其自身之后。

然后，采用设定的编码规则，将核酸序列编码为核酸序列矩阵，采用核酸序列矩阵及其来源构建训练样本集，其中，输出为核酸序列矩阵的来源，即各实验室来源，输入为核酸序列矩阵。

本发明采用的编码规则为，将核酸序列中的A编码为[1,0,0,0]、T编码为[0,1,0,0]、C编码为[0,0,1,0]、G编码为[0,0,0,1]，其他碱基及未知碱基为N，编码为[0,0,0,0]。采用该编码规则，即可将核酸序列编码为4*DNA总序列的长度的核酸序列矩阵。

步骤2、建立和训练基于卷积神经网络的核酸序列实验室来源识别模型

本发明提出的基于卷积神经网络的核酸序列实验室来源识别模型，如图1中虚线框内结构所示，依次包括输入层、卷积层、随机失活（Dropout）层、池化层、批归一化（BN）层、展平（Flatten）层及全连接层，随机产生输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置，采用交叉损失熵函数和自适应矩估计（Adam）优化器求解所述识别模型的输出权值矩阵，完成所述识别模型的训练。

现有技术中，卷积神经网络的 Dropout层一般加在全连接层防止过拟合提升模型泛化能力，而本发明中，设计为在卷积层后接Dropout层，能够减少中间特征的数量，从而减少冗余，增加每层各个特征之间的正交性。

其中，卷积层提取了输入核酸序列的特征信息，所得到的特征映射矩阵是卷积层的输出，卷积核的数量是卷积层输出的维度。Dropout层是使卷积层的神经元以一定概率失活，在一次训练时的迭代中，对卷积层中的神经元以该概率随机剔除，用余下的神经元所构成的网络来训练本次迭代中的数据。池化层对Dropout层的输出进行处理，提取其中的显著序列特征。批归一化层将池化层的输出矩阵中的数值作归一化处理，即将池化层的输出矩阵进行标准(正态)化处理。展平层将归一化处理后的数据矩阵展开为一维数组。全连接层对展平层的输出特征进行加权和的操作，得到输入核酸序列分别属于各实验室的分值。

在此基础上，采用激活函数对识别得到的核酸序列分别属于各实验室分值进行数据后处理，得到所述核酸序列归属于各实验室的概率值。

此外，为了进一步提高特征提取的精确度，本发明可以在提出的基于卷积神经网络的核酸序列实验室来源识别模型的基础进行增强，形成增强型识别模型，如图2中虚线框内结构所示。增强型识别模型为在识别模型的BN层与Flatten层之间依次连接了第一卷积层、第一Dropout层、第一池化层、第一BN层、第二卷积层、第二Dropout层、第二池化层、第二BN层、第三卷积层、第三Dropout层、第三池化层和第三BN层，其中，随机产生输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置，以及BN层到第一卷积层、第一BN层到第二卷积层、第二BN层到第三卷积层之间的输入权值矩阵及偏置。

基于卷积神经网络的核酸序列实验室来源识别模型及增强型识别模型的各项参数可以由贝叶斯优化器寻优获得，以提高模型识别的精度和效率。

步骤3、采用基于卷积神经网络的核酸序列实验室来源识别模型识别工程化核酸序列的实验室来源，将待处理工程化核酸序列处理为工程化核酸序列矩阵，输入到步骤2训练得到的基于卷积神经网络的工程化核酸序列实验室来源识别模型，便可得到当前输入工程化核酸序列的来源，即工程化核酸序列具体来源于哪个实验室。

采用本发明提出的基于深度学习的工程化DNA实验室来源甄别方法，构建了一种基于深度学习的工程化DNA实验室来源甄别系统，能够质粒的实验室来源。如图3所示，包括数据预处理模块、工程化核酸序列实验室来源识别模块、识别结果数据后处理模块和工程化核酸序列实验室来源识别模型训练模块。

其中，数据预处理模块，按照设定的序列长度阈值，在输入的工程化核酸序列中选取对应的工程化核酸序列；再将选出的工程化核酸序列，按照设定的编码方式进行编码，得到工程化核酸序列矩阵，将该工程化核酸序列矩阵输出给工程化核酸序列实验室来源识别模块。

工程化核酸序列实验室来源识别模块，采用识别模型对输入的待处理工程化核酸序列进行来源识别，得到该待处理工程化核酸序列分别为各实验室的分值，并将该分值输出给识别结果数据后处理模块。

识别结果数据后处理模块，采用激活函数对输入的各分值进行计算，得到各分值的概率值，即为待处理工程化核酸序列分别为各实验室来源的概率值。

工程化核酸序列实验室来源识别模型训练模块，采用数据预处理模块在Addgene质粒数据集中选取核酸序列生成对应的核酸序列矩阵，核酸序列矩阵作为输入及其来源作为输出形成识别模型的训练样本集；随机产生由输入层、卷积层、随机失活（Dropout）层、池化层、批归一化（BN）层、展平（Flatten）层及全连接层依次组成的所述识别模型中的参数，参数包括输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置；采用训练样本集输入核酸序列实验室来源识别模块训练识别模型，采用交叉损失熵函数和自适应矩估计（Adam）优化器求解识别模型的输出权值矩阵，完成识别模型的训练。

本发明提出的一种基于深度学习的工程化DNA实验室来源甄别系统，可以封装于便携式设备中，以满足使用过程中的小型化、便携式的要求。为此，本发明提供了一种识别工程化核酸序列实验室来源的装置，如图4所示，包括深度学习芯片单元、显示器、鼠标与键盘，其中，深度学习芯片单元用于实现工程化核酸序列实验室来源的识别；显示器作为输出端，用于显示识别结果；鼠标与键盘作为输入端，用于实现人机交互。

实施例2

采用本发明提出的一种基于深度学习的工程化DNA实验室来源甄别方法，甄别质粒序列来源于具体某实验室。本实施例中，在Windows环境下，主要使用python(version3.7)语言，使用Keras(version 2.9.)，tensorflow(version 2.0)深度学习框架用于构建深度学习网络及训练模型，Numpy(1.22)程序包和其他的程序包包括(pickle)用于读取数据以及将数据转换为网络可接受的输入数据格式，在NVIDIA GeForece RTX 3090GPU下实现和训练训练模型。

将每个实验室的序列作为分类网络的一类，将样本集按8：1：1的比例，分为训练集、验证集、和测试集。对输入所述模型的核酸序列样本进行数据预处理，将核酸序列长度固定为1000个碱基对到5000个碱基对，对应的核酸序列选取过程为：若核酸序列长度小于1000个碱基对，则删除该核酸序列；若核酸序列长度大于1000个碱基对且小于5000个碱基对，则保留该核酸序列；若核酸序列长度大于5000个碱基对，则顺序截取该核酸序列中的5000个碱基对形成新的核酸序列。然后用48N的间隔序列，将核酸序列的A换成T，T换成A，C换成G，G换成C作为反向互补序列，并将修改后的逆序核酸序列连接到增加了48个N的样本后面，这样每个样本的序列长度为50048。将该序列的连接在其自身之后。最后将A编码为[1,0,0,0]，T编码为[0,1,0,0]，C编码为[0,0,1,0]，G编码为[0,0,0,1]，N和其他编码为[0,0,0,0]，终每个样本的大小为[10048,4]。输出为输入的核酸序列实验室来源的识别结果，即来源于某个实验室的结果。

核酸序列在训练模型中识别正确条目数，来体现训练模型的准确性。将核酸序列读入训练模型中，训练模型将输出实验室的名字和判断条目数。

下表为来自实验室PI：Root, David的443条数据，其在Addgene数据集中具有最多的质粒条目数，其测试数据被识别为5个实验室。

实验室PI名	真实实验室条目数	识别实验室条目数
			Root, David	443	391
Hahn, William	0	49
			Arrowsmith, Cheryl	0	1
Rosenbluh, Sefi	0	1
			Conaway, Joan	0	1

下表为来自实验室PI：Davidson, Michael的275条数据，其在Addgene数据集中具有第二多的质粒条目数，其测试数据被识别为16个实验室

序列名称	标记（自然=0；人工=1）	识别结果（自然=0；人工=1）
			Davidson, Michael	275	257
Parton, Rob	0	1
			Largman, Corey	0	1
Root, David	0	2
			Chan, Edward	0	1
Hahn, William	0	2
			Frommer, Wolf	0	1
Verkhusha, Vladislav	0	1
			Reeves, Roger	0	1
Tabin, Cliff	0	1
			Yamada, Kenneth	0	1
Ye, Yihong	0	1
			Izaurralde, Elisa	0	2
Moon, Randall	0	1
			Sabatini, David	0	1
Takahashi, Joseph	0	1

实验证明，本发明提供的一种基于深度学习的工程化DNA实验室来源甄别方法，可以较为准确判断质粒序列的来源归属某个具体实验室。

实施例3

测试集核酸序列经模型预测实验室来源，来体现训练模型的准确性。将不同核酸序列读入训练模型中，训练模型将输出核酸序列的评估准确率。

选取序列条数前列实验室的准确率见下表：

实验室PI	准确率
		Root, David	0.8826
Davidson, Michael	0.9345
		Cowan, Chad	1
Arrowsmith, Cheryl	0.7407
		Hahn, William	0.4304
Burgess-Brown, Nicola	0.9420
		Weiss, Ron	0.9545
Ekker, Stephen	0.9333
		Deplancke, Bart	0.9423
Cheeseman, Iain	0.9184
		Wright, Gavin	0.9583
Lindquist, Susan	0.7111
		Sabatini, David	0.7045
Esposito, Dominic	0.9524
		Voigt, Christopher	0.8750
Matthews, Brian	1
		Voytas, Daniel	0.5526
Simpson, Elizabeth	0.8684
		Bartel, David	0.7568

上述实验结果可以发现，本发明提供的一种基于深度学习的工程化DNA实验室来源甄别方法，在大部分实验室能以大于90%准确率鉴定出经过质粒来源实验室。其中，Hahn,William实验室的预测结果较差，可能是该实验室还没有形成固定的质粒设计习惯等原因导致。

Claims

1.一种基于深度学习的工程化核酸序列实验室来源甄别的建立方法，包括以下步骤：

1）选取来自确定实验室的工程化核酸序列，将分为三组，分别为训练集，验证集和测试集（具体地按8：1：1的比例分为训练集、验证集、和测试集）；优选地，从每个实验室随机选择10%的工程化核酸序列进行验证；更优选地，采用设定的编码规则，将核酸序列编码为核酸序列矩阵，采用核酸序列矩阵及其来源构建训练样本集；其中，输出为核酸序列矩阵的来源，即各实验室来源，输入为核酸序列矩阵；

更具体地，采用的编码规则为：将核酸序列中的A编码为[1,0,0,0]、T编码为[0,1,0,0]、C编码为[0,0,1,0]、G编码为[0,0,0,1]，其他碱基及未知碱基为N，编码为[0,0,0,0]。采用该编码规则，即可将核酸序列编码为4*DNA总序列的长度的核酸序列矩阵；

2）建立基于卷积神经网络的工程化核酸序列实验室来源识别模型，所述识别模型依次包括输入层、卷积层、随机失活层、池化层、批归一化层、展平层及全连接层，随机产生输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置，采用交叉损失熵函数和自适应矩估计优化器求解所述识别模型的输出权值矩阵，完成所述识别模型的训练；

优选地，卷积层提取输入核酸序列的特征信息，所得到的特征映射矩阵是卷积层的输出，卷积核的数量是卷积层输出的维度；Dropout层是使卷积层的神经元以一定概率失活，在一次训练时的迭代中，对卷积层中的神经元以该概率随机剔除，用余下的神经元所构成的网络来训练本次迭代中的数据；池化层对Dropout层的输出进行处理，提取其中的显著序列特征；批归一化层将池化层的输出矩阵中的数值作归一化处理，即将池化层的输出矩阵进行标准(正态)化处理。展平层将归一化处理后的数据矩阵展开为一维数组。全连接层对展平层的输出特征进行加权和的操作，得到输入核酸序列分别属于各实验室的分值；

3）采用按照所述设定的编码规则编码过的未知来源核酸序列矩阵输入到训练得到的所述识别模型中，判断所述未知实验室来源的核酸序列来自某实验室的分值；

4）采用激活函数对识别得到的各实验室分值进行处理，得到所述未知来源核酸序列为某特定实验室的概率值。

2.如权利要求1所述的方法，其特征在于，

选取的第1）步所述核酸序列的长度阈值包括序列长度的最大值和最小值，具体地选取对应的工程化核酸序列的过程为：在Addgene网站提供的全球实验室质粒数据集中，删除序列长度小于所述最小值的工程化核酸序列；保留序列长度大于最小值且小于最大值的工程化核酸序列；对于序列长度大于最大值的工程化核酸序列，截取其中的个数为最大值的碱基对。

3.如权利要求1所述的方法，其特征在于，所述最小值为1000个碱基对，所述最大值为5000个碱基对；在任何核酸序列字符不是 A、T、G、C 或N的情况下，该字符被转换为N；当序列长度不是5000个碱基对时，用N填充得到的序列，使其总长度为5000bp，然后用48N的间隔序列将该序列的反向互补序列连接在其自身之后；

进一步地，将最终序列中的每个nt编码为一个one-hot向量，其中A=[1000]，T=[0100]，G=[0010]，C=[0001]，N=[0000]；实验室的身份也被编码为长度为245的 one-hot 向量；这些 one-hot 向量序列输入和实验室标签被用来训练神经网络。

4.如权利要求1所述的方法，其特征在于，所述输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置采用贝叶斯优化器寻优获得。

5.如权利要求2所述的方法，其特征在于，卷积神经网络的输入是编码为10048*4矩阵的核酸序列，其中每个 nt 由一个 one-hot 向量表示；所有序列为5000个nts(较短的序列用N进行扩展，较长的序列被截断)，还包括反向互补序列，用48 N分隔，以避免两者之间的位置效应，因而喂入一个由512个滤波器组成的卷积层，每个滤波器的滑动窗口由48个nts构成。

6.如权利要求5所述的方法，其特征在于，卷积层的数量、滤波器数量和窗口大小是通过贝叶斯优化确定的；每个滤波器都应用了一个最大池化层；之后，来自 512 个滤波器的最大池化信号依次喂入到128个滤波器、64个滤波器、32个滤波器的卷积层，每层之后都经过最大池化层；最后输入到两个全连接层，其中每个全连接层16个神经元和245个神经元，后者对应实验室的数量；第二个全连接层为每个实验室生成输出，这些输出使用softmax函数转换为概率；这些概率代表预测的相对强度，即查询核酸序列与每个实验室相关联，并被归一化为跨类别的总和为统一。

7.一种利用如权利要求1至6任一项所述的建立方法获得的基于深度学习的鉴别核酸序列实验室来源的系统，包括数据预处理模块、工程化核酸序列实验室来源识别模块、识别结果数据后处理模块和工程化核酸序列实验室来源识别模型训练模块；

所述工程化核酸序列实验室来源识别模型训练模块，采用所述数据预处理模块在Addgene数据集中选取核酸序列生成对应的核酸序列矩阵，所述核酸序列矩阵作为输入及其来源作为输出形成所述识别模型的训练样本集；随机产生由输入层、卷积层、随机失活层、池化层、批归一化层、展平层及全连接层依次组成的所述识别模型中的参数，所述参数包括输入层到各卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、展平层到全连接层之间的输入权值矩阵及偏置；采用所述训练样本集输入所述工程化核酸序列实验室来源识别模块训练所述识别模型，采用交叉损失熵函数和自适应矩估计优化器求解所述识别模型的输出权值矩阵，完成所述识别模型的训练。

8.如权利要求7所述的系统，其特征在于，所述识别模型为增强型识别模型，所述增强型识别模型为在所述识别模型的BN层与展平层之间依次连接了第一卷积层、第一随机失活层、第一池化层、第一BN层、第二卷积层、第二随机失活层、第二池化层、第二BN层、第三卷积层、第三随机失活层、第三池化层和第三BN层；所述增强型识别模型中BN层到第一卷积层、第一BN层到第二卷积层、第二BN层到第三卷积层之间的输入权值矩阵及偏置，由所述工程化核酸序列实验室来源识别模型训练模块随机产生。

9.一种用于鉴别核酸序列实验室来源的装置，其特征在于将如权利要求7或8所述的系统封装于便携式设备中。

10.如权利要求9所述的装置，其特征在于，包括如权利要求7或8所述的系统构建成的深度学习芯片单元、显示器、鼠标与键盘；所述显示器作为输出端，用于显示识别结果；所述鼠标与键盘作为输入端，用于实现人机交互。