CN116417068A - 一种基于深度学习预测工程化核酸序列实验室来源的方法、系统及装置 - Google Patents
一种基于深度学习预测工程化核酸序列实验室来源的方法、系统及装置 Download PDFInfo
- Publication number
- CN116417068A CN116417068A CN202310124930.7A CN202310124930A CN116417068A CN 116417068 A CN116417068 A CN 116417068A CN 202310124930 A CN202310124930 A CN 202310124930A CN 116417068 A CN116417068 A CN 116417068A
- Authority
- CN
- China
- Prior art keywords
- layer
- nucleic acid
- acid sequence
- laboratory
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 150000007523 nucleic acids Chemical group 0.000 title claims abstract description 180
- 108091028043 Nucleic acid sequence Proteins 0.000 title claims abstract description 151
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013135 deep learning Methods 0.000 title claims description 27
- 238000011176 pooling Methods 0.000 claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 22
- 238000010606 normalization Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000002779 inactivation Effects 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 5
- 238000013528 artificial neural network Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 73
- 238000012549 training Methods 0.000 claims description 47
- 239000013612 plasmid Substances 0.000 claims description 29
- 101150063416 add gene Proteins 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 13
- 210000002569 neuron Anatomy 0.000 claims description 11
- 238000012805 post-processing Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 10
- 230000002441 reversible effect Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000000295 complement effect Effects 0.000 claims description 6
- 238000010200 validation analysis Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 125000006850 spacer group Chemical group 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000000415 inactivating effect Effects 0.000 claims 1
- 230000002829 reductive effect Effects 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000004927 fusion Effects 0.000 abstract description 2
- 230000010354 integration Effects 0.000 abstract description 2
- 108020004414 DNA Proteins 0.000 description 21
- 238000013461 design Methods 0.000 description 11
- 230000036961 partial effect Effects 0.000 description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- 108010043121 Green Fluorescent Proteins Proteins 0.000 description 1
- 102000004144 Green Fluorescent Proteins Human genes 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000005090 green fluorescent protein Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 231100000241 scar Toxicity 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 230000037432 silent mutation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Computational Linguistics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Public Health (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明通过采用提出的基于卷积神经网络的工程化核酸序列实验室来源识别模型。通过采用由四组包括卷积层、Dropout层、池化层及批归一化层的处理层组合依次串接的方式,浅层的处理层组合得到工程化核酸序列的全局特征,进而深层的处理层组合得到工程化核酸序列的局部特征,实现了全局特征和局部特征的有效融合,提高了特征提取的精确度。本发明通过在现有卷积神经网络的卷积层和池化层之间增加随机失活层,能够减少卷积层输出的特征数量,降低识别过程的冗余度,从而提高了每层各个特征之间的正交性,达到正则化的效果。本发明在降低计算资源消耗的基础上,能够实现本发明系统在小型化、便携式计算平台中的集成。
Description
技术领域
本发明属于核酸序列实验室来源检测技术领域,具体涉及一种基于深度学习的鉴别核酸序列实验室来源的方法、系统及装置。
背景技术
自DNA双螺旋结构的解析以来,现代生物技术发展日新月异,生物科学领域不断取得突破性进展,推动着科学的进步和经济的发展,正在成为引领新一轮科技革命和产业变革的核心。然而,生物技术是典型的两用性(dual-use)技术,其被误用、谬用和滥用后,可能对人类健康、工农业发展及生态环境等造成严重负面影响,并产生灾难性的后果。在DNA设计、合成及构建技术与工具的推动下,工程化DNA的规模和复杂性正在呈指数增长。这些生物技术的发展加大了技术误用和蓄意滥用的安全风险,目前已出现由人工设计DNA所驱动的危险病原体改造案例,对生物安全形成重大威胁。
合成生物学(Synthetic Biology)合成生物学是以工程化设计理念对现有或新的生物元件进行合理设计以构建具有特定功能的生物系统的新兴交叉学科,其引入工程学的模块化概念和系统设计理论,以人工设计合成DNA为基础,改造和优化现有自然生物体系或者重头合成具有预定功能的全新人工生物体系。合成生物学时代见证了DNA设计、合成及构建工具的快速进步,促进了大型遗传系统的设计与改造,使得生命科学已经进入到 “从头设计”遗传信息时代。很多DNA设计工具或方法会使得其在序列中留下“印记”。例如,研究人员对基因调控元件(启动子或核糖体结合位点)的选择可能具有一定的偏好性,可能来源于此前工作经验或某类元件库;不同类型的计算机辅助计算设计工具会有特定的差异,比如采用不同的基因优化算法会产生不一样的特定密码子;采用不同的DNA构建方法(例如基于限制性内切酶的酶切与连接构建法)会在DNA中留下“疤痕(scar)”序列;此外,一些常用的基因(如绿色荧光蛋白),在实验室使用过程中会包含特定的沉默突变。总的来说,这些原因导致了核酸序列中会形成个人、实验室或研究所相关的独特“签名(signature)”。总体而言,这些人工设计核酸序列会具有自然来源的核酸序列所不同的标记。但即使是使用现有生物信息学工具,也会难以发现或不可能在一长串核苷酸序列中识别出独特的签名,核酸序列的实验室溯源是困难且极其耗时的。
卷积神经网络(Convolutional Neural Network,CNN)是一种基于深度学习模型的多层感知器,强大的特征提取能力使其在图像识别和目标检测等领域得到了广泛应用。卷积神经网络通过训练数据集进行图像特征学习,以识别出特定图片的类别特征。此外,卷积神经网络同样被应用于基于字符的文本分类,而不需要任何预先编码的单词或语义结构知识(例如,通过训练其可将新闻文章归纳到“体育”和“金融”不同板块)。利用功能性或非功能性的核酸序列数据集对卷积神经网络进行训练,可实现对核酸序列进行分类分析,以识别启动子、转录因子结合位点、特定基因等特征序列。
发明内容
通常,没有一个“确凿的证据”将 DNA 序列与实验室关联起来。相反,它是一种设计选择的组合,这些设计选择在个体上很常见,但在集体上却揭示了设计习惯。有鉴于此,本发明提供了一种基于深度学习的鉴别核酸序列实验室来源的方法、系统及装置,采用构建的基于卷积神经网络的核酸序列实验室来源识别模型,实现了对工程化核酸序列实验室来源的快速精确识别。
本发明提供的一种基于深度学习的工程化核酸序列实验室来源甄别方法,包括以下步骤:
工程DNA 的序列保存在许多大型公共、私有储存库、内部数据库(实验室、研究所、公司、财团)、出现在已发表的专利和论文中,以及在DNA合成公司的记录中。核酸序列与其他元数据相连,包括提交的实验室。Addgene是一个非营利存储库,负责对质粒进行存档、维护和分发给学术界。在全球范围内,实验室提交他们的质粒进行存储和再分配。我们从Addgene获得了一个质粒数据集,该数据集包含质粒的序列以及所属实验室,实验室所在国家,合成时间等信息。另外,数据集中的工程化核酸序列被标记为:(1)完整的核酸序列由Addgene提交,(2)完整的核酸序列由Depositor提交,(3)Partial Repository,由Addgene提交一个或多个片段的质粒,(4)Partial Depositor,由Depositor提交一个或多个片段的质粒。
在分析之前,为了有足够的质粒序列来学习实验室起源,我们对 核酸序列原始数据进行了预处理,对于质粒来源,如果一个质粒具有被归类为完整库的关联核酸序列,我们只使用该核酸序列进行训练,忽略所有其他关联序列信息。如果没有完整的Repository核酸序列,而是有完整的 Depositor序列,我们只使用该 核酸序列进行训练,忽略其他序列。如果相反,质粒只有部分储存库或部分存贮者 DNA 序列(通常由 Sanger 测序 reads 产生)我们将所有这些由48个连续的N分隔的部分序列串联起来,以创建训练序列。
选取的数量为大于50个质粒的实验室,这就得到了一组来自245个实验室的共40850个质粒序列。这些质粒随后被分为三组,分别为训练集,验证集和测试集。为了确保来自所有实验室的代表性,从每个实验室随机选择10%的质粒进行验证。训练集包含剩余的32680个序列。在本发明中,深度学习被用于预测 DNA 序列的实验室来源,在 Addgene 质粒数据集上训练了一个卷积神经网络,该数据集包含了截至 2022年 1月来自 245个实验室的 40850个工程 核酸序列。该网络正确识别源实验室的概率为 74%。
建立基于卷积神经网络的工程化核酸序列实验室来源识别模型,所述识别模型依次包括输入层、卷积层、随机失活(Dropout)层、池化层、批归一化(BN)层、展平(Flatten)层及全连接层,随机产生输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置,采用交叉损失熵函数和自适应矩估计(Adam)优化器求解所述识别模型的输出权值矩阵,完成所述识别模型的训练;
采用按照所述设定的编码规则编码过的未知来源核酸序列矩阵输入到训练得到的所述识别模型中,判断所述未知实验室来源的核酸序列来自某实验室的分值。
进一步地,采用激活函数对识别得到的各实验室分值进行处理,得到所述未知来源核酸序列为某特定实验室的概率值。
进一步地,所述序列长度阈值包括序列长度的最大值和最小值,此时,选取对应的工程化核酸序列的过程为:在合Addgene实验室质粒数据集中,删除序列长度小于所述最小值的工程化核酸序列;保留序列长度大于最小值且小于最大值的工程化核酸序列;对于序列长度大于最大值的工程化核酸序列,截取其中的个数为最大值的碱基对。
进一步地,所述最小值为1000个碱基对,所述最大值为5000个碱基对。在任何 核酸序列字符不是 A、T、G、C 或N的罕见情况下,该字符被转换为N。我们用N填充得到的序列,使其总长度为5000bp,然后用48N的间隔序列将该序列的反向互补序列连接在其自身之后。
进一步地,将最终序列中的每个nt编码为一个one-hot向量,其中A=[1000],T=[0100],G=[0010],C=[0001],N=[0000]。同样,实验室的身份也被编码为长度为长度为245的 one-hot 向量。这些 one-hot 向量序列输入和实验室标签被用来训练神经网络。
进一步地,所述输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置采用贝叶斯优化器寻优获得。
进一步地,CNNs的输入是编码为10048*4矩阵的核酸序列,其中每个 nt 由一个one-hot 向量表示。所有序列为5000个nts(较短的序列用N进行扩展,较长的序列被截断),还包括反向互补序列,用48 N分隔,以避免两者之间的位置效应。这将喂入一个由512个滤波器组成的卷积层,每个滤波器的滑动窗口由48个nts构成。卷积层的数量、滤波器数量和窗口大小是通过贝叶斯优化确定的。每个滤波器都应用了一个最大池化层,从而减小了表示的大小。它还消除了沿着核酸序列特征的位置依赖性。之后,来自 512 个滤波器的最大池化信号依次喂入到128个滤波器、64个滤波器、32个滤波器的卷积层,每层之后都经过最大池化层。最后输入到两个全连接层,其中每个全连接层16个神经元和245个神经元,后者对应实验室的数量。第二个全连接层为每个实验室生成输出,这些输出使用softmax 函数转换为概率。这些概率代表预测的相对强度,即查询核酸序列与每个类别(实验室)相关联,并被归一化为跨类别的总和为统一。
本发明提供的一种基于深度学习的鉴别核酸序列实验室来源的系统,包括数据预处理模块、工程化核酸序列实验室来源识别模块、识别结果数据后处理模块和工程化核酸序列实验室来源识别模型训练模块;
所述数据预处理模块,按照所述序列长度阈值,在输入的未知来源工程化核酸序列中选取符合条件的核酸序列;再将选出的核酸序列,按照所述编码方式编码为工程化核酸序列矩阵,并将工程化核酸序列矩阵发送至所述工程化核酸序列实验室来源识别模块;
所述工程化核酸序列实验室来源识别模块,采用识别模型识别所述工程化核酸序列矩阵分别为各实验室来源的分值,并将所述分值发送至所述识别结果数据后处理模块;
所述识别结果数据后处理模块,将所述分值转换为对应的概率值,即为所述待处理工程化核酸序列分别为各实验室来源的概率值;
所述工程化核酸序列实验室来源识别模型训练模块,采用所述数据预处理模块在Addgene数据集中选取核酸序列生成对应的核酸序列矩阵,所述核酸序列矩阵作为输入及其来源作为输出形成所述识别模型的训练样本集;随机产生由输入层、卷积层、随机失活(Dropout)层、池化层、批归一化(BN)层、展平(Flatten)层及全连接层依次组成的所述识别模型中的参数,所述参数包括输入层到各卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置;采用所述训练样本集输入所述工程化核酸序列实验室来源识别模块训练所述识别模型,采用交叉损失熵函数和自适应矩估计(Adam)优化器求解所述识别模型的输出权值矩阵,完成所述识别模型的训练。
进一步地,所述系统封装于便携式设备中。
进一步地,所述识别模型为增强型识别模型,所述增强型识别模型为在所述识别模型的BN层与Flatten层之间依次连接了第一卷积层、第一Dropout层、第一池化层、第一BN层、第二卷积层、第二Dropout层、第二池化层、第二BN层、第三卷积层、第三Dropout层、第三池化层和第三BN层;所述增强型识别模型中BN层到第一卷积层、第一BN层到第二卷积层、第二BN层到第三卷积层之间的输入权值矩阵及偏置,由所述工程化核酸序列实验室来源识别模型训练模块随机产生。
本发明提供的一种识别核酸序列实验室来源的装置,包括深度学习芯片单元、显示器、鼠标与键盘;
所述深度学习芯片单元用于实现工程化DNA来源的识别;
所述显示器作为输出端,用于显示识别结果;
所述鼠标与键盘作为输入端,用于实现人机交互。
本发明的有益效果包括:
1、本发明通过在现有卷积神经网络的卷积层和池化层之间增加随机失活(Dropout)层,能够减少卷积层输出的特征数量,降低识别过程的冗余度,从而提高了每层各个特征之间的正交性,达到正则化的效果。同时,也能有效缓解模型训练过程中过拟合现象的发生,降低了计算资源的消耗,提高了计算效率,有效的降低了计算耗时。
2、本发明通过采用由四组包括卷积层、Dropout层、池化层及批归一化(BN)层的处理层组合依次串接的方式,浅层的处理层组合得到工程化核酸序列的全局特征,在此基础上,深层的处理层组合得到工程化核酸序列的局部特征,实现了全局特征和局部特征的有效融合,提高了特征提取的精确度;
3、本发明通过采用提出的基于卷积神经网络的工程化核酸序列实验室来源识别模型,在降低计算资源消耗的基础上,能够实现本发明提出的基于深度学习的实验室质粒来源甄别系统在小型化、便携式计算平台中的集成。
附图说明
图1为本发明提供的一种基于深度学习的工程化DNA实验室来源甄别方法的基本流程示意图。
图2为本发明提供的一种基于深度学习的增强型工程化DNA实验室来源甄别方法的基本流程示意图。
图3为本发明提供的一种基于深度学习的工程化DNA实验室来源甄别系统的基本结构示意图。
图4为本发明提供的一种识别工程化DNA实验室来源的装置的基本结构图。
实施方式
下面结合附图并举实施例,对本发明的优选实施方式做详细说明。
实施例1
本发明提供的一种基于深度学习的实验室来源甄别方法的建立。如图1所示,具体包括以下步骤:
步骤1、数据预处理
首先,从Addgene质粒数据集中,按照设定的序列长度阈值,选取对应的工程化核酸序列。其中,Addgene中工程化核酸序列被标记为:(1)完整的核酸序列由Addgene提交,(2)完整的核酸序列由Depositor提交,(3)Partial Repository,由Addgene提交一个或多个片段的质粒,(4)Partial Depositor,由Depositor提交一个或多个片段的质粒。
序列长度阈值可以为取值范围,例如,将核酸序列长度固定为1000个碱基对到5000个碱基对,对应的核酸序列选取过程为:若核酸序列长度小于1000个碱基对,则删除该核酸序列;若核酸序列长度大于1000个碱基对且小于5000个碱基对,则保留该核酸序列;若核酸序列长度大于5000个碱基对,则顺序截取该核酸序列中的5000个碱基对形成新的核酸序列。然后用48N的间隔序列将该序列的反向互补序列连接在其自身之后。
然后,采用设定的编码规则,将核酸序列编码为核酸序列矩阵,采用核酸序列矩阵及其来源构建训练样本集,其中,输出为核酸序列矩阵的来源,即各实验室来源,输入为核酸序列矩阵。
本发明采用的编码规则为,将核酸序列中的A编码为[1,0,0,0]、T编码为[0,1,0,0]、C编码为[0,0,1,0]、G编码为[0,0,0,1],其他碱基及未知碱基为N,编码为[0,0,0,0]。采用该编码规则,即可将核酸序列编码为4*DNA总序列的长度的核酸序列矩阵。
步骤2、建立和训练基于卷积神经网络的核酸序列实验室来源识别模型
本发明提出的基于卷积神经网络的核酸序列实验室来源识别模型,如图1中虚线框内结构所示,依次包括输入层、卷积层、随机失活(Dropout)层、池化层、批归一化(BN)层、展平(Flatten)层及全连接层,随机产生输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置,采用交叉损失熵函数和自适应矩估计(Adam)优化器求解所述识别模型的输出权值矩阵,完成所述识别模型的训练。
现有技术中,卷积神经网络的 Dropout层一般加在全连接层防止过拟合提升模型泛化能力,而本发明中,设计为在卷积层后接Dropout层,能够减少中间特征的数量,从而减少冗余,增加每层各个特征之间的正交性。
其中,卷积层提取了输入核酸序列的特征信息,所得到的特征映射矩阵是卷积层的输出,卷积核的数量是卷积层输出的维度。Dropout层是使卷积层的神经元以一定概率失活,在一次训练时的迭代中,对卷积层中的神经元以该概率随机剔除,用余下的神经元所构成的网络来训练本次迭代中的数据。池化层对Dropout层的输出进行处理,提取其中的显著序列特征。批归一化层将池化层的输出矩阵中的数值作归一化处理,即将池化层的输出矩阵进行标准(正态)化处理。展平层将归一化处理后的数据矩阵展开为一维数组。全连接层对展平层的输出特征进行加权和的操作,得到输入核酸序列分别属于各实验室的分值。
在此基础上,采用激活函数对识别得到的核酸序列分别属于各实验室分值进行数据后处理,得到所述核酸序列归属于各实验室的概率值。
此外,为了进一步提高特征提取的精确度,本发明可以在提出的基于卷积神经网络的核酸序列实验室来源识别模型的基础进行增强,形成增强型识别模型,如图2中虚线框内结构所示。增强型识别模型为在识别模型的BN层与Flatten层之间依次连接了第一卷积层、第一Dropout层、第一池化层、第一BN层、第二卷积层、第二Dropout层、第二池化层、第二BN层、第三卷积层、第三Dropout层、第三池化层和第三BN层,其中,随机产生输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置,以及BN层到第一卷积层、第一BN层到第二卷积层、第二BN层到第三卷积层之间的输入权值矩阵及偏置。
基于卷积神经网络的核酸序列实验室来源识别模型及增强型识别模型的各项参数可以由贝叶斯优化器寻优获得,以提高模型识别的精度和效率。
步骤3、采用基于卷积神经网络的核酸序列实验室来源识别模型识别工程化核酸序列的实验室来源,将待处理工程化核酸序列处理为工程化核酸序列矩阵,输入到步骤2训练得到的基于卷积神经网络的工程化核酸序列实验室来源识别模型,便可得到当前输入工程化核酸序列的来源,即工程化核酸序列具体来源于哪个实验室。
采用本发明提出的基于深度学习的工程化DNA实验室来源甄别方法,构建了一种基于深度学习的工程化DNA实验室来源甄别系统,能够质粒的实验室来源。如图3所示,包括数据预处理模块、工程化核酸序列实验室来源识别模块、识别结果数据后处理模块和工程化核酸序列实验室来源识别模型训练模块。
其中,数据预处理模块,按照设定的序列长度阈值,在输入的工程化核酸序列中选取对应的工程化核酸序列;再将选出的工程化核酸序列,按照设定的编码方式进行编码,得到工程化核酸序列矩阵,将该工程化核酸序列矩阵输出给工程化核酸序列实验室来源识别模块。
工程化核酸序列实验室来源识别模块,采用识别模型对输入的待处理工程化核酸序列进行来源识别,得到该待处理工程化核酸序列分别为各实验室的分值,并将该分值输出给识别结果数据后处理模块。
识别结果数据后处理模块,采用激活函数对输入的各分值进行计算,得到各分值的概率值,即为待处理工程化核酸序列分别为各实验室来源的概率值。
工程化核酸序列实验室来源识别模型训练模块,采用数据预处理模块在Addgene质粒数据集中选取核酸序列生成对应的核酸序列矩阵,核酸序列矩阵作为输入及其来源作为输出形成识别模型的训练样本集;随机产生由输入层、卷积层、随机失活(Dropout)层、池化层、批归一化(BN)层、展平(Flatten)层及全连接层依次组成的所述识别模型中的参数,参数包括输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置;采用训练样本集输入核酸序列实验室来源识别模块训练识别模型,采用交叉损失熵函数和自适应矩估计(Adam)优化器求解识别模型的输出权值矩阵,完成识别模型的训练。
本发明提出的一种基于深度学习的工程化DNA实验室来源甄别系统,可以封装于便携式设备中,以满足使用过程中的小型化、便携式的要求。为此,本发明提供了一种识别工程化核酸序列实验室来源的装置,如图4所示,包括深度学习芯片单元、显示器、鼠标与键盘,其中,深度学习芯片单元用于实现工程化核酸序列实验室来源的识别;显示器作为输出端,用于显示识别结果;鼠标与键盘作为输入端,用于实现人机交互。
实施例2
采用本发明提出的一种基于深度学习的工程化DNA实验室来源甄别方法,甄别质粒序列来源于具体某实验室。本实施例中,在Windows环境下,主要使用python(version3.7)语言,使用Keras(version 2.9.),tensorflow(version 2.0)深度学习框架用于构建深度学习网络及训练模型,Numpy(1.22)程序包和其他的程序包包括(pickle)用于读取数据以及将数据转换为网络可接受的输入数据格式,在NVIDIA GeForece RTX 3090GPU下实现和训练训练模型。
将每个实验室的序列作为分类网络的一类,将样本集按8:1:1的比例,分为训练集、验证集、和测试集。对输入所述模型的核酸序列样本进行数据预处理,将核酸序列长度固定为1000个碱基对到5000个碱基对,对应的核酸序列选取过程为:若核酸序列长度小于1000个碱基对,则删除该核酸序列;若核酸序列长度大于1000个碱基对且小于5000个碱基对,则保留该核酸序列;若核酸序列长度大于5000个碱基对,则顺序截取该核酸序列中的5000个碱基对形成新的核酸序列。然后用48N的间隔序列,将核酸序列的A换成T,T换成A,C换成G,G换成C作为反向互补序列,并将修改后的逆序核酸序列连接到增加了48个N的样本后面,这样每个样本的序列长度为50048。将该序列的连接在其自身之后。最后将A编码为[1,0,0,0],T编码为[0,1,0,0],C编码为[0,0,1,0],G编码为[0,0,0,1],N和其他编码为[0,0,0,0],终每个样本的大小为[10048,4]。输出为输入的核酸序列实验室来源的识别结果,即来源于某个实验室的结果。
核酸序列在训练模型中识别正确条目数,来体现训练模型的准确性。将核酸序列读入训练模型中,训练模型将输出实验室的名字和判断条目数。
下表为来自实验室PI:Root, David的443条数据,其在Addgene数据集中具有最多的质粒条目数,其测试数据被识别为5个实验室。
实验室PI名 | 真实实验室条目数 | 识别实验室条目数 |
Root, David | 443 | 391 |
Hahn, William | 0 | 49 |
Arrowsmith, Cheryl | 0 | 1 |
Rosenbluh, Sefi | 0 | 1 |
Conaway, Joan | 0 | 1 |
下表为来自实验室PI:Davidson, Michael的275条数据,其在Addgene数据集中具有第二多的质粒条目数,其测试数据被识别为16个实验室
序列名称 | 标记(自然=0;人工=1) | 识别结果(自然=0;人工=1) |
Davidson, Michael | 275 | 257 |
Parton, Rob | 0 | 1 |
Largman, Corey | 0 | 1 |
Root, David | 0 | 2 |
Chan, Edward | 0 | 1 |
Hahn, William | 0 | 2 |
Frommer, Wolf | 0 | 1 |
Verkhusha, Vladislav | 0 | 1 |
Reeves, Roger | 0 | 1 |
Tabin, Cliff | 0 | 1 |
Yamada, Kenneth | 0 | 1 |
Ye, Yihong | 0 | 1 |
Izaurralde, Elisa | 0 | 2 |
Moon, Randall | 0 | 1 |
Sabatini, David | 0 | 1 |
Takahashi, Joseph | 0 | 1 |
实验证明,本发明提供的一种基于深度学习的工程化DNA实验室来源甄别方法,可以较为准确判断质粒序列的来源归属某个具体实验室。
实施例3
测试集核酸序列经模型预测实验室来源,来体现训练模型的准确性。将不同核酸序列读入训练模型中,训练模型将输出核酸序列的评估准确率。
选取序列条数前列实验室的准确率见下表:
实验室PI | 准确率 |
Root, David | 0.8826 |
Davidson, Michael | 0.9345 |
Cowan, Chad | 1 |
Arrowsmith, Cheryl | 0.7407 |
Hahn, William | 0.4304 |
Burgess-Brown, Nicola | 0.9420 |
Weiss, Ron | 0.9545 |
Ekker, Stephen | 0.9333 |
Deplancke, Bart | 0.9423 |
Cheeseman, Iain | 0.9184 |
Wright, Gavin | 0.9583 |
Lindquist, Susan | 0.7111 |
Sabatini, David | 0.7045 |
Esposito, Dominic | 0.9524 |
Voigt, Christopher | 0.8750 |
Matthews, Brian | 1 |
Voytas, Daniel | 0.5526 |
Simpson, Elizabeth | 0.8684 |
Bartel, David | 0.7568 |
上述实验结果可以发现,本发明提供的一种基于深度学习的工程化DNA实验室来源甄别方法,在大部分实验室能以大于90%准确率鉴定出经过质粒来源实验室。其中,Hahn,William实验室的预测结果较差,可能是该实验室还没有形成固定的质粒设计习惯等原因导致。
Claims (10)
1.一种基于深度学习的工程化核酸序列实验室来源甄别的建立方法,包括以下步骤:
1)选取来自确定实验室的工程化核酸序列,将分为三组,分别为训练集,验证集和测试集(具体地按8:1:1的比例分为训练集、验证集、和测试集);优选地,从每个实验室随机选择10%的工程化核酸序列进行验证;更优选地,采用设定的编码规则,将核酸序列编码为核酸序列矩阵,采用核酸序列矩阵及其来源构建训练样本集;其中,输出为核酸序列矩阵的来源,即各实验室来源,输入为核酸序列矩阵;
更具体地,采用的编码规则为:将核酸序列中的A编码为[1,0,0,0]、T编码为[0,1,0,0]、C编码为[0,0,1,0]、G编码为[0,0,0,1],其他碱基及未知碱基为N,编码为[0,0,0,0]。采用该编码规则,即可将核酸序列编码为4*DNA总序列的长度的核酸序列矩阵;
2)建立基于卷积神经网络的工程化核酸序列实验室来源识别模型,所述识别模型依次包括输入层、卷积层、随机失活层、池化层、批归一化层、展平层及全连接层,随机产生输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置,采用交叉损失熵函数和自适应矩估计优化器求解所述识别模型的输出权值矩阵,完成所述识别模型的训练;
优选地,卷积层提取输入核酸序列的特征信息,所得到的特征映射矩阵是卷积层的输出,卷积核的数量是卷积层输出的维度;Dropout层是使卷积层的神经元以一定概率失活,在一次训练时的迭代中,对卷积层中的神经元以该概率随机剔除,用余下的神经元所构成的网络来训练本次迭代中的数据;池化层对Dropout层的输出进行处理,提取其中的显著序列特征;批归一化层将池化层的输出矩阵中的数值作归一化处理,即将池化层的输出矩阵进行标准(正态)化处理。展平层将归一化处理后的数据矩阵展开为一维数组。全连接层对展平层的输出特征进行加权和的操作,得到输入核酸序列分别属于各实验室的分值;
3)采用按照所述设定的编码规则编码过的未知来源核酸序列矩阵输入到训练得到的所述识别模型中,判断所述未知实验室来源的核酸序列来自某实验室的分值;
4)采用激活函数对识别得到的各实验室分值进行处理,得到所述未知来源核酸序列为某特定实验室的概率值。
2.如权利要求1所述的方法,其特征在于,
选取的第1)步所述核酸序列的长度阈值包括序列长度的最大值和最小值,具体地选取对应的工程化核酸序列的过程为:在Addgene网站提供的全球实验室质粒数据集中,删除序列长度小于所述最小值的工程化核酸序列;保留序列长度大于最小值且小于最大值的工程化核酸序列;对于序列长度大于最大值的工程化核酸序列,截取其中的个数为最大值的碱基对。
3.如权利要求1所述的方法,其特征在于,所述最小值为1000个碱基对,所述最大值为5000个碱基对;在任何 核酸序列字符不是 A、T、G、C 或N的情况下,该字符被转换为N;当序列长度不是5000个碱基对时,用N填充得到的序列,使其总长度为5000bp,然后用48N的间隔序列将该序列的反向互补序列连接在其自身之后;
进一步地,将最终序列中的每个nt编码为一个one-hot向量,其中A=[1000],T=[0100],G=[0010],C=[0001],N=[0000];实验室的身份也被编码为长度为245的 one-hot 向量;这些 one-hot 向量序列输入和实验室标签被用来训练神经网络。
4.如权利要求1所述的方法,其特征在于,所述输入层到卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、Flatten层到全连接层之间的输入权值矩阵及偏置采用贝叶斯优化器寻优获得。
5.如权利要求2所述的方法,其特征在于,卷积神经网络的输入是编码为10048*4矩阵的核酸序列,其中每个 nt 由一个 one-hot 向量表示;所有序列为5000个nts(较短的序列用N进行扩展,较长的序列被截断),还包括反向互补序列,用48 N分隔,以避免两者之间的位置效应,因而喂入一个由512个滤波器组成的卷积层,每个滤波器的滑动窗口由48个nts构成。
6.如权利要求5所述的方法,其特征在于,卷积层的数量、滤波器数量和窗口大小是通过贝叶斯优化确定的;每个滤波器都应用了一个最大池化层;之后,来自 512 个滤波器的最大池化信号依次喂入到128个滤波器、64个滤波器、32个滤波器的卷积层,每层之后都经过最大池化层;最后输入到两个全连接层,其中每个全连接层16个神经元和245个神经元,后者对应实验室的数量;第二个全连接层为每个实验室生成输出,这些输出使用softmax函数转换为概率;这些概率代表预测的相对强度,即查询核酸序列与每个实验室相关联,并被归一化为跨类别的总和为统一。
7.一种利用如权利要求1至6任一项所述的建立方法获得的基于深度学习的鉴别核酸序列实验室来源的系统,包括数据预处理模块、工程化核酸序列实验室来源识别模块、识别结果数据后处理模块和工程化核酸序列实验室来源识别模型训练模块;
所述数据预处理模块,按照所述序列长度阈值,在输入的未知来源工程化核酸序列中选取符合条件的核酸序列;再将选出的核酸序列,按照所述编码方式编码为工程化核酸序列矩阵,并将工程化核酸序列矩阵发送至所述工程化核酸序列实验室来源识别模块;
所述工程化核酸序列实验室来源识别模块,采用识别模型识别所述工程化核酸序列矩阵分别为各实验室来源的分值,并将所述分值发送至所述识别结果数据后处理模块;
所述识别结果数据后处理模块,将所述分值转换为对应的概率值,即为所述待处理工程化核酸序列分别为各实验室来源的概率值;
所述工程化核酸序列实验室来源识别模型训练模块,采用所述数据预处理模块在Addgene数据集中选取核酸序列生成对应的核酸序列矩阵,所述核酸序列矩阵作为输入及其来源作为输出形成所述识别模型的训练样本集;随机产生由输入层、卷积层、随机失活层、池化层、批归一化层、展平层及全连接层依次组成的所述识别模型中的参数,所述参数包括输入层到各卷积层之间的输入权值矩阵及偏置、池化层到批归一化层之间的输入权值矩阵及偏置、展平层到全连接层之间的输入权值矩阵及偏置;采用所述训练样本集输入所述工程化核酸序列实验室来源识别模块训练所述识别模型,采用交叉损失熵函数和自适应矩估计优化器求解所述识别模型的输出权值矩阵,完成所述识别模型的训练。
8.如权利要求7所述的系统,其特征在于,所述识别模型为增强型识别模型,所述增强型识别模型为在所述识别模型的BN层与展平层之间依次连接了第一卷积层、第一随机失活层、第一池化层、第一BN层、第二卷积层、第二随机失活层、第二池化层、第二BN层、第三卷积层、第三随机失活层、第三池化层和第三BN层;所述增强型识别模型中BN层到第一卷积层、第一BN层到第二卷积层、第二BN层到第三卷积层之间的输入权值矩阵及偏置,由所述工程化核酸序列实验室来源识别模型训练模块随机产生。
9.一种用于鉴别核酸序列实验室来源的装置,其特征在于将如权利要求7或8所述的系统封装于便携式设备中。
10.如权利要求9所述的装置,其特征在于,包括如权利要求7或8所述的系统构建成的深度学习芯片单元、显示器、鼠标与键盘;所述显示器作为输出端,用于显示识别结果;所述鼠标与键盘作为输入端,用于实现人机交互。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310124930.7A CN116417068B (zh) | 2023-02-03 | 2023-02-03 | 一种基于深度学习预测工程化核酸序列实验室来源的方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310124930.7A CN116417068B (zh) | 2023-02-03 | 2023-02-03 | 一种基于深度学习预测工程化核酸序列实验室来源的方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116417068A true CN116417068A (zh) | 2023-07-11 |
CN116417068B CN116417068B (zh) | 2024-01-16 |
Family
ID=87052217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310124930.7A Active CN116417068B (zh) | 2023-02-03 | 2023-02-03 | 一种基于深度学习预测工程化核酸序列实验室来源的方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116417068B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682569A (zh) * | 2016-09-28 | 2017-05-17 | 天津工业大学 | 一种基于卷积神经网络的快速交通标识牌识别方法 |
CN108595913A (zh) * | 2018-05-11 | 2018-09-28 | 武汉理工大学 | 鉴别mRNA和lncRNA的有监督学习方法 |
CN114723953A (zh) * | 2022-03-29 | 2022-07-08 | 南昌工学院 | 一种面向图像来源检测的深度神经网络 |
US20220254450A1 (en) * | 2021-02-09 | 2022-08-11 | National Taiwan University | method for classifying individuals in mixtures of DNA and its deep learning model |
-
2023
- 2023-02-03 CN CN202310124930.7A patent/CN116417068B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682569A (zh) * | 2016-09-28 | 2017-05-17 | 天津工业大学 | 一种基于卷积神经网络的快速交通标识牌识别方法 |
CN108595913A (zh) * | 2018-05-11 | 2018-09-28 | 武汉理工大学 | 鉴别mRNA和lncRNA的有监督学习方法 |
US20220254450A1 (en) * | 2021-02-09 | 2022-08-11 | National Taiwan University | method for classifying individuals in mixtures of DNA and its deep learning model |
CN114723953A (zh) * | 2022-03-29 | 2022-07-08 | 南昌工学院 | 一种面向图像来源检测的深度神经网络 |
Non-Patent Citations (1)
Title |
---|
刘阳;孟艾;: "基于卷积神经网络的多聚脯氨酸二型二级结构预测", 计算机与现代化, no. 02, pages 69 - 73 * |
Also Published As
Publication number | Publication date |
---|---|
CN116417068B (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tran et al. | Genetic programming for multiple-feature construction on high-dimensional classification | |
Baek et al. | LncRNAnet: long non-coding RNA identification using deep learning | |
Gordon | Classification | |
Lewis et al. | Support vector machine learning from heterogeneous data: an empirical analysis using protein sequence and structure | |
Pan et al. | ToxDL: deep learning using primary structure and domain embeddings for assessing protein toxicity | |
CN112599187B (zh) | 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法 | |
Yu et al. | Perturbnet predicts single-cell responses to unseen chemical and genetic perturbations | |
Li et al. | SRHiC: a deep learning model to enhance the resolution of Hi-C data | |
Yang et al. | DeepBarcoding: deep learning for species classification using DNA barcoding | |
Guo et al. | Identifying polyadenylation signals with biological embedding via self-attentive gated convolutional highway networks | |
Teng et al. | i6mA-Vote: cross-species identification of DNA N6-methyladenine sites in plant genomes based on ensemble learning with voting | |
CN113764034B (zh) | 基因组序列中潜在bgc的预测方法、装置、设备及介质 | |
Saha et al. | Improvement of new automatic differential fuzzy clustering using SVM classifier for microarray analysis | |
Downey et al. | alineR: An R package for optimizing feature-weighted alignments and linguistic distances | |
Zhang et al. | A deep learning approach for orphan gene identification in moso bamboo (Phyllostachys edulis) based on the CNN+ Transformer model | |
CN116417068B (zh) | 一种基于深度学习预测工程化核酸序列实验室来源的方法、系统及装置 | |
US20230410941A1 (en) | Identifying genome features in health and disease | |
Li et al. | ExamPle: explainable deep learning framework for the prediction of plant small secreted peptides | |
CN115472305A (zh) | 一种预测微生物-药物关联作用的方法及系统 | |
Zhu et al. | Uni-Fold MuSSe: De Novo Protein Complex Prediction with Protein Language Models | |
Shi et al. | Plant6mA: A predictor for predicting N6-methyladenine sites with lightweight structure in plant genomes | |
Zhang et al. | A multi-scale information fusion-based multiple correlations for unsupervised attribute selection | |
JP5087518B2 (ja) | 評価装置、及び、コンピュータプログラム | |
Ioannidis | GUANinE v1. 0: Benchmark Datasets for Genomic AI Sequence-to-Function Models | |
CN117541044B (zh) | 基于项目风险分析的项目分类方法、系统、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |