CN108388768A

CN108388768A - 利用生物知识搭建的神经网络模型的生物特性预测方法

Info

Publication number: CN108388768A
Application number: CN201810125383.3A
Authority: CN
Inventors: 冯雪阳; 徐宥; 盛嘉元
Original assignee: Nanjing Kay Biology Technology Co Ltd
Current assignee: Nanjing Kay Biology Technology Co Ltd
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2018-08-10

Abstract

一种利用生物知识搭建的神经网络模型的生物特性预测方法，包含以下步骤：提供已监督训练过的神经网络模型，该神经网络模型包含对应至基因表达的输入层、对应至蛋白质的中间层与对应至细胞表型的输出层；将对应至该输入层的多个基因表达数据输入至该输入层；以及利用该神经网络模型计算出该多个基因表达数据所对应生物的特性的预测值。

Description

利用生物知识搭建的神经网络模型的生物特性预测方法

技术领域

本申请属于计算器科学和生物学应用领域，特别是属于利用深度神经网络模型以基因表达数据预测生物代谢和细胞特征的方法。

背景技术

高通量测序技术将整个生命科学带入了一个全新的“大数据”时代——前所未有的大量基因组和转录组数据。随着高通量测序的成本(测量个人基因组成本在7000元以下)不断下降，以及速度不断提升(测量个人基因组只需要不超过一天时间)，一次高通量测序可以生成近PB级别的数据量(Eisenstein,M.Big data:The power of petabytes.Nature527,S2-S4(2015))。然而，如何从大量的数据中，提取高层的生物信息，如细胞特征(细胞的类型，大小)和代谢特征(如细胞生长速度，细胞内的信息和物质的流向)等。如何填补基因测序和高层细胞特性之间的知识鸿沟，依旧是生物学中达成“从数据到知识”中最大的挑战。

自2014年开始，以深度神经网络为代表的人工智能领域(深度学习)获得了长足进步。深度学习技术引进成功的应用在其他复杂系统的建模上，可以参见LeCun,Y.,Bengio,Y.&Hinton,G.Deep learning.Nature 521,436-444(2015)以及Schmidhuber,J.Deeplearning in neural networks:An overview.Neural Networks 61,85-117(2015)。一些深度学习系统，如AlexNet(Krizhevsky,A.,Sutskever,I.&Hinton,G.E.in Advances inneural information processing systems 1097-1105(2012))和Deep Speech(Hannun,A.et al.Deep speech:Scaling up end-to-end speech recognition.arXiv preprintarXiv:1412.5567(2014)),在图像识别和语音识别领域获得了极大成功。2016年以来，以DeepSEA(Zhou,J.&Troyanskaya,O.G.Predicting effects of noncoding variants withdeep learning-based sequence model.Nat Meth 12,931-934(2015))和DeepChem(Altae-Tran,H.,Ramsundar,B.,Pappu,A.S.&Pande,V.Low Data Drug Discovery withOne-Shot Learning.ACS Central Science(2017))为代表的深度学习系统已经在序列更改和药物发现等生物化学领域应用。

以上所提的范例都是学术界的研究范畴，而浙江大学的CN104317834B号已获证专利提供了一种基于深度神经网络的跨媒体排序方法。中国科学院自动化研究所的CN104318215B号已获证专利提供了一种基于域鲁棒卷积特征学习的交叉视角人脸识别方法。中科创达软件股份有限公司的CN104408470B号已获证专利则提供一种基于平均脸预学习的性别检测方法。这些已获证专利都是利用计算器科学领域的深度神经网络算法，对于不同的高度复杂的问题进行建模，令模型进行训练学习之后，再根据模型对复杂的表达数据进行预测。可以见得利用大量的运算资源的深度神经网络的机器深度学习算法，具有工业上利用的价值，能够提供有价值的预测产出，进而做后续的利用。

由于深度神经网络模型经过学习之后，可以对复杂的问题进行预测。因此，如何建构有效率的深度神经网络模型，以便从基因测序的大量数据当中进行学习，然后利用此模型对于细胞的特征与其代谢特征进行预测。接着，可以根据预测的结果加以验证，而不再需要从广大的基因数据组合中，随机猜测与验证某个基因数据组合与那一些细胞特性有关系。据此，能够较为快速地将数据转换为知识，填补从基因到细胞表型(以下可简称为表型)之间的知识鸿沟。

发明内容

本申请的目的在于解决利用已知生物的基因表达数据来预测生物特性的问题。为此，本申请主要系利用计算器科学当中的神经网络模型算法，搭配上生物知识的先验条件。利用少数确定的标注配对样本，来建构预测率准确的神经网络模型，以便将预测结果应用于生物科技产业上。

本申请提供了一种利用生物知识搭建的神经网络模型的生物特性预测方法，其特征在于包含以下步骤：提供已监督训练过的神经网络模型，该神经网络模型包含对应至基因表达的输入层、对应至蛋白质的中间层与对应至细胞表型的输出层；将对应至该输入层的多个基因表达数据输入至该输入层；以及利用该神经网络模型计算出该多个基因表达数据所对应生物的特性的一预测值。

本申请提供了提供一种利用生物知识搭建的神经网络模型的生物特性预测系统，其特征在于包含一或多个联网处理器，用于自非挥发性存储器当中提取与执行多个指令，用于实现以下步骤：提供已监督训练过的神经网络模型，该神经网络模型包含对应至基因表达的输入层、对应至蛋白质的中间层与对应至细胞表型的输出层；将对应至该输入层的多个基因表达数据输入至该输入层；以及利用该神经网络模型计算出该多个基因表达数据所对应生物的特性的预测值。

本申请提供一种利用生物知识搭建的神经网络模型的建构方法，其特征在于包含：提供具有五层的深度神经网络模型，该深度神经网络模型包含对应至基因表达的第一层、对应至蛋白质的第二层、对应至细胞表型的第三层、对应至重建蛋白质的第四层、对应至重建基因表达的第五层，第一层至第二层的多个连接与第五层至第四层的多个连接方式相同，第二层至第三层的多个连接与第四层至第三层的多个连接方式相同；提供多组基因表达数据至该深度神经网络模型进行非监督式学习，使得该深度神经网络模型的多个输出数据等于输入的多个基因表达数据；提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接；提供多组标注的基因表达数据与细胞表型配对至该神经网络模型进行监督式学习，使得该输出层输出的细胞表型与输入的基因表达数据所配对的细胞表型相符。

本申请提供一种利用生物知识搭建的神经网络模型的建构系统，其特征在于包含一或多个联网处理器，用于自非挥发性存储器当中提取与执行多个指令，用于实现以下步骤：提供具有五层的深度神经网络模型，该深度神经网络模型包含对应至基因表达的第一层、对应至蛋白质的第二层、对应至细胞表型的第三层、对应至重建蛋白质的第四层、对应至重建基因表达的第五层，第一层至第二层的多个连接与第五层至第四层的多个连接方式相同，第二层至第三层的多个连接与第四层至第三层的多个连接方式相同；提供多组基因表达数据至该深度神经网络模型进行非监督式学习，使得该深度神经网络模型的多个输出数据等于输入的多个基因表达数据；提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接；提供多组标注的基因表达数据与细胞表型配对至该神经网络模型进行监督式学习，使得该输出层输出的细胞表型与输入的基因表达数据所配对的细胞表型相符。

本申请提供一种利用生物知识搭建的神经网络模型的生物特性预测方法，其特征在于包含以下步骤：提供具有五层的深度神经网络模型，该深度神经网络模型包含对应至基因表达的第一层、对应至蛋白质的第二层、对应至细胞表型的第三层、对应至重建蛋白质的第四层、对应至重建基因表达的第五层，第一层至第二层的多个连接与第五层至第四层的多个连接方式相同，第二层至第三层的多个连接与第四层至第三层的多个连接方式相同；提供多组基因表达数据至该深度神经网络模型进行非监督式学习，使得该深度神经网络模型的多个输出数据等于输入的多个基因表达数据；提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接；提供多组标注的基因表达数据与细胞表型配对至该神经网络模型进行监督式学习，使得该输出层输出的细胞表型与输入的基因表达数据所配对的细胞表型相符；将对应至该输入层的多个基因表达数据输入至该输入层；以及利用该神经网络模型计算出该多个基因表达数据所对应生物的特性的预测值。

本申请提供一种利用生物知识搭建的神经网络模型的生物特性预测系统，其特征在于包含一或多个联网处理器，用于自非挥发性存储器当中提取与执行多个指令，用于实现以下步骤：提供具有五层的深度神经网络模型，该深度神经网络模型包含对应至基因表达的第一层、对应至蛋白质的第二层、对应至细胞表型的第三层、对应至重建蛋白质的第四层、对应至重建基因表达的第五层，第一层至第二层的多个连接与第五层至第四层的多个连接方式相同，第二层至第三层的多个连接与第四层至第三层的多个连接方式相同；提供多组基因表达数据至该深度神经网络模型进行非监督式学习，使得该深度神经网络模型的多个输出数据等于输入的多个基因表达数据；提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接；提供多组标注的基因表达数据与细胞表型配对至该神经网络模型进行监督式学习，使得该输出层输出的细胞表型与输入的基因表达数据所配对的细胞表型相符；将对应至该输入层的多个基因表达数据输入至该输入层；以及利用该神经网络模型计算出该多个基因表达数据所对应生物的特性的预测值。

总上所述，本申请所提供的方法与系统，透过生物结构搭建的深度神经网络模型，可以在样本数较小的情况下，训练较佳的模型，以便得到较准确的预测结果。能够弥补从基因到细胞表型之间的知识鸿沟，较为快速地将数据转换为知识。

附图说明

图1为根据本申请一实施例的调节与使用深度神经网络模型的流程示意图。

图2为根据本申请一实施例的使用深度神经网络模型进行预测细胞特征或代谢活动的一流程示意图。

图3A为根据本申请一实施例的使用深度神经网络模型进行预测癌症方法的一示意图。

图3B为根据本申请一实施例的使用深度神经网络模型进行预测细胞特征或代谢活动方法的一示意图。

图4A为根据本申请一实施例的调节深度神经网络参数的非监督式模型的一示意图。

图4B为根据本申请一实施例的学习精调深度神经网络参数的监督式模型的一示意图。

图5为根据本申请一实施例的深度神经网络模型系统的方块示意图。

图6为根据本申请一实施例的生物特性预测方法的一流程示意图。

图7为根据本申请一实施例的利用生物知识搭建的神经网络模型的建构方法的一流程示意图。

具体实施方式

本申请将详细描述一些实施例如下。然而，除了所揭露的实施例外，本发明亦可以广泛地运用在其他的实施例施行。本申请的范围并不受这些实施例的限定，乃以申请专利的范围为准。而为提供更清楚的描述及使熟悉该项技艺者能理解本申请的申请内容，图示内各部分并不一定依照其相对的尺寸而绘图，某些尺寸与其他相关尺度的比例会被凸显而显得夸张，且不相关或不重要的细节部分亦未完全绘出，以求图示的简洁。除非有特别说明，否则流程图的各个步骤之间可以插入其他未说明步骤。而如果没有特别说明先后顺序关系，本申请并不限定各个步骤的实施先后顺序。

一种基于按照生物结构搭建的深度学习神经网络的，以基因表达，预测高层生物学认知(包含但不限于细胞代谢和细胞特征)的方法，系统和技术。

本申请所指的深度神经网络(Deep Neural Network)，包含了至少超过三个层(layer)的神经网络模型(model)，亦即除了输入层与输出层之外，还包含多个中间层。每个层包含多个节点(node)，两个相邻层之间具有多个连接(connection)。后一层的节点可以与前一层的一个以上节点建立连接，前一层节点的输出即透过连接成为后一层节点的输入，而每个连接具有权重(weight)参数。两个相邻层之间的节点可以全部互相连接，称为全连接，但也可以不完全连接。

本领域的普通技术人员可以理解到，上述的节点的实现包含了运算资源与存储资源，能利用普通计算器加以实现各节点。举例而言，一般的计算器或处理器所提供的运算资源可以执行某一节点的计算。亦即从存储器中取得输入数据，经由权重加乘之后，再进行总和运算。其运算结果可以储存在存储器当中，提供下一个节点。因此，可以由一个或多个联网的计算器或处理器轮流或同时执行一或多个节点的存储与运算功能。实现某一个节点所需要的存储与运算功能可以全由软件模块构成，也可以全由硬件构成，还可以由硬件与软件模块联合组成。同样地，各节点之间的连接也可以由软件模块构成，也可以由硬件之间的连接网络(interconnection network)构成，还可以由硬件与软件模块联合组成。本申请并不限定其实现深度神经网络的形式。

在一种实现中，该方法准确地预测了细胞特征(包含但不限于以下特征：细胞类型，细胞大小，细胞结构)和细胞代谢(包含但不限于以下特征：生长率，产物，定量代谢通道)，预测的准确性超过不通过生物结构搭建的深度神经网络。

本领域的普通技术人员可以理解到，本申请可以适用于单细胞生物，但也可以适用于多细胞生物。简而言之，本申请可以适用于有基因的生物上，利用基因数据来预测单个细胞特征与/或代谢，还可以预测多个细胞的集合特征与/或代谢。除了上述提到的三个细胞特征与三个代谢特征以外，本申请还可以预测其他的细胞特征与代谢特征。

传统不通过生物结构搭建的普通深度神经网络可以适用于生物学之上，但由于具有标注的数据太少，导致普通深度神经网络模型的预测准确性太低，学习率太差。因此，本申请透过生物结构搭建的深度神经网络模型，可以在样本数较小的情况下，训练较佳的模型，以便得到较准确的预测结果。这里所指的较佳的模型，包含但不限于以下的特性：节点数较少，连接数较少，参数数量减少，学习速度较快，以及模型预测的准确率较高等特性。

图1概括了这个方法的主要部分。在一个两步过程中，网络参数分别由两个不同的训练步骤和两组不同的训练数据来调节。第一步是通过基因表达数据104非监督调节106一个初始模型102,第二步采用标注的基因型-表型数据110监督式调节112系统的模型参数。

非监督调节106提供了一个粗调的模型108，刻画了基因型，表型间的基本关系。而监督式调节112微调模型114，从基因表达数据116产出高质量的细胞特征或细胞代谢预测118。

图2是以该方法预测细胞特征和代谢活动的一种系统实现。图1的两步学习完成后，一个微调后的模型204，以基因表达数据202为输入，预测细胞特征206或/和细胞代谢行为208为输出。在这个应用中，基因表达数据202是模型204的唯一输入，模型的输出为细胞特征206，包括但不限于以下特征：细胞类型，细胞大小，细胞结构，和细胞代谢行为208，包括但不限于以下特征：生长率，产物，定量代谢通道。

图3A与图3B是预测细胞特征(细胞类型)和细胞代谢行为(生长率，产物)的一个例子。

图3A中，从基因表达数据302可以预测细胞类型(癌细胞或者普通细胞)304。图3B中，从基因表达数据306可以预测细胞的生长率和产物(丁二酸和乙醇的产量)308。因基因数目众多，302和306只绘出了一部分基因表达数据做为样例。

在机器学习中，深度人工神经网络是一种可在非线性，和高维数据中提取信息，分类和预测数据的方法。在本申请的一个实现中，采用生物学指导下的深度人工神经网络结构，参数训练后的模型114可用来从基因表达数据预测大肠杆菌的生长率和代谢产物(丁二酸和乙醇)的产量。

以下是深度神经网络在这个实现中的具体描述。图4A和4B分别展示了一个可用来调节系统网络参数的非监督模型，和一个使用监督式学习精调参数的统一系统。在该系统的一个实现中，采用一个五层402,406,410,414,和418的深度神经网络模型/自动编码器进行非监督参数调节。前三层402,406,410是编码部分，刻画从基因表达到表型的联系404和408。后三层410,414,418是解码部分，刻画了从表型到基因表达的联系412和416。层404是中间层，既是编码部分也是解码部分。

自动编码器模型里的每一层都有对应的生物意义。第一层402表征了大肠杆菌的1,366个核心基因(其他文献报告)的表达程度。第二层406表征了对应的1,366个蛋白质的量。第三层410是编码层，表征了大肠杆菌的表型110。第四层414和第五层418是重建的蛋白质量层和重建的基因表达层。自动编码器里的每一个节点都有对应的生物意义。比如说，第一层302的1,366个节点一一对应了1,366个基因。

在这个实现中，自动编码器之间的层不是全部连接的。系统应用生物学的先验知识限制自动编码器层之间的连接，以提高模型效率，降低模型的参数，加快模型训练速度。第一层402和第二层406之间的连接404是基于充分研究的，全基因的大肠杆菌(如iJO1366)模型。第二层(蛋白质)和第三层(表型层)410之间的连接采用COBRA Toolbox全基因模型(请参见Schellenberger,J.et al.Quantitative prediction of cellular metabolismwith constraint-based models:the COBRA Toolbox v2.0.Nat.Protocols 6,1290-1307(2011))，连接蛋白质和对应表型(如只和大肠杆菌生长相关的蛋白质)。第一层和第二层之间一共建立了1,366个连接404。第二层和第三层间一共建立了16,135个连接408。第三层(表型层)和第四层(重建蛋白层)之间的连接412和第二(蛋白层)，第三层(表型层)之间的连接一一对应。同样道理，第四层(重建蛋白层)和第五层(重建基因表达层)之间的连接和第一，第二层之间的连接一一对应。

监督式学习模型只采用了自动编码器的第一层420，第二层424和第三层428。因为采用了严格的生物学先验知识422和426，第三层(表型层)428和对应的表型之间有着一一对应。在监督学习中，训练第三层网络的输出和预测的表型相符。在此实现中，从基因表达数据420训练大肠杆菌的三种表型，即生长率(h^-1),丁二酸产出(cmol/cmol)和乙醇产出(cmol/cmol)。在这个实现中，我们采用ADAM随机梯度下降算法优化自动编码器。批次样本的大小设为5000，学习速率最初设置为0.001.基因表达层和蛋白层的连接简化为一对一连接，由线性关系刻画。蛋白质层和表型层间的连接426由非线性关系刻画。

图5刻画了整个系统的一个实现。一个或多个硬件处理器502可以和多个内存设备506相连。一个或多个硬件处理器502可以接受一例基因表达数据510.基因表达数据510可以存储在存储设备504上。存储设备504可以和一个或多个硬件处理器502，或者通过计算机网络，或者作为本地存储设备相连。一个或多个硬件处理器可以通过微调好的模型508预测细胞特征和细胞代谢行为，并将结果存储到内存设备506或者存储设备504.

一个以生物知识为先验结构的深度学习神经网络，用以从基因表达预测生物代谢和细胞特征的系统。系统包括：以基因表达数据，非监督式调节模型参数；以基因型表型数据，监督式调节模型参数；生物知识指导下的监督式和非监督式模型结构设计；预测细胞特征，细胞类型，细胞大小，细胞结构等，和细胞代谢，如生长率，产物，定量代谢通道等。系统还包括：将该方法延伸到其他种生物中。

请参考图6所示，其为根据本申请一实施例的生物特性预测方法600的一流程示意图。该预测方法600可以使用图5所示的计算器系统实现，其实现为储存于非挥发性存储器的指令，用于指示处理器进行计算。该预测方法600可以使用图1所示的微调模型114或图2所示的微调模型204，包含下列以下步骤：

步骤610：提供已监督训练过的神经网络模型，该神经网络模型包含对应至基因表达的输入层、对应至蛋白质的中间层与对应至细胞表型的输出层。本步骤所指的神经网络模型，可以是图1所示的微调模型114或图2所示的微调模型204或图4B所示出的神经网络模型。输入层可以是第一层420，中间层可以是第二层424，输出层可以是第三层428。

步骤620：将对应至该输入层的多个基因表达数据输入至该输入层。

步骤630：利用该神经网络模型计算出该多个基因表达数据所对应生物的特性的一预测值。例如图2所示的细胞特征206或细胞代谢行为特征208。

请参考图7所示，其为根据本申请一实施例的利用生物知识搭建的神经网络模型的建构方法700的一流程示意图。该建构方法700可以使用图5所示的计算器系统实现，其实现为储存于非挥发性存储器的指令，用于指示处理器进行计算。该建构方法700可以建构出图1所示的微调模型114或图2所示的微调模型204，提供给图6所示的预测方法使用，包含下列以下步骤：

步骤710：提供具有五层的深度神经网络模型，该深度神经网络模型包含对应至基因表达的第一层、对应至蛋白质的第二层、对应至细胞表型的第三层、对应至重建蛋白质的第四层、对应至重建基因表达的第五层，第一层至第二层的多个连接与第五层至第四层的多个连接方式相同，第二层至第三层的多个连接与第四层至第三层的多个连接方式相同。此步骤所指的五层深度神经网络模型，可以参照图4A所示的范例。

步骤720：提供多组基因表达数据至该深度神经网络模型进行非监督式学习，使得该深度神经网络模型的多个输出数据等于输入的多个基因表达数据。此步骤当中，输出数据与基因表达数据的绝对差值落在一误差范围内时，即可认为两者相等。

步骤730：提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接。此步骤可以等同于将删去该深度神经网络模型的该第四层与该第五层，移除该第四层与该第五层相关的连接，其余的部分即为该神经网络模型。

步骤740：提供多组标注的基因表达数据与细胞表型配对至该神经网络模型进行监督式学习，使得该输出层输出的细胞表型与输入的基因表达数据所配对的细胞表型相符。

在步骤740当中建构出的神经网络模型，可供图6的步骤620与630加以运用预测。

在本申请的一实施例当中，例如图2与图6所示范的实现范例，该实施例提供一种利用生物知识搭建的神经网络模型的生物特性预测方法，其特征在于包含以下步骤：提供已监督训练过的神经网络模型，该神经网络模型包含对应至基因表达的输入层、对应至蛋白质的中间层与对应至细胞表型的输出层；将对应至该输入层的多个基因表达数据输入至该输入层；以及利用该神经网络模型计算出该多个基因表达数据所对应生物的特性的预测值。

在本申请的一实施例当中，例如图2与图6所示范的实现范例，该实施例提供一种利用生物知识搭建的神经网络模型的生物特性预测系统，其特征在于包含一或多个联网处理器，用于自非挥发性存储器当中提取与执行多个指令，用于实现以下步骤：提供已监督训练过的神经网络模型，该神经网络模型包含对应至基因表达的输入层、对应至蛋白质的中间层与对应至细胞表型的输出层；将对应至该输入层的多个基因表达数据输入至该输入层；以及利用该神经网络模型计算出该多个基因表达数据所对应生物的特性的预测值。

在上述的实施例当中，为了找出在生物科技产业上较为有用的特性，该预测值为下列其中之一：细胞特征与细胞代谢特征。在上述的实施例当中，为了找出在生物科技产业上较为有用的特性，该预测值为下列其中之一：细胞大小、细胞类型、细胞结构、生产率、产量或定量代谢通道。

在上述的实施例当中，当该生物为大肠杆菌时，该输入层有1366个节点，该中间层有1366个节点，该输出层有110个节点，该输入层的1366个节点与该中间层的1366个节点具有一对一的连接，该中间层与该输出层之间具有16135个连接，该预测值为下列其中之一：细胞生长率、丁二酸产率或乙醇产率。

在上述的实施例当中，为了简化该神经网络模型与/或提高预测准确率，该输入层的节点数量与该中间层的节点数量相同。在上述的实施例当中，为了简化该神经网络模型与/或提高预测准确率，该输入层与该中间层的连接数量等于该输入层的节点数量。

在上述的实施例当中，由于在生物知识当中的细胞表型数量大于蛋白质数量，该中间层的节点数量大于该输出层的节点数量。

在上述的实施例当中，为了简化该神经网络模型与/或提高预测准确率，根据该生物的先验知识，该输入层与该中间层的各节点是部分连接或非完全连接。在上述的实施例当中，为了简化该神经网络模型与/或提高预测准确率，根据该生物的先验知识，该中间层与该输出层的各节点是部分连接或非完全连接。

在上述的实施例当中，为了简化该神经网络模型与/或提高预测准确率，该输入层与该中间层的连接为线性关系，该中间层与该输出层的连接为非线性关系。

在本申请的一实施例当中，例如图1与图4A及4B所示范的实现范例，该实施例提供一种利用生物知识搭建的神经网络模型的建构方法，其特征在于包含：提供具有五层的深度神经网络模型，该深度神经网络模型包含对应至基因表达的第一层、对应至蛋白质的第二层、对应至细胞表型的第三层、对应至重建蛋白质的第四层、对应至重建基因表达的第五层，第一层至第二层的多个连接与第五层至第四层的多个连接方式相同，第二层至第三层的多个连接与第四层至第三层的多个连接方式相同；提供多组基因表达数据至该深度神经网络模型进行非监督式学习，使得该深度神经网络模型的多个输出数据等于输入的多个基因表达数据；提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接；以及提供多组标注的基因表达数据与细胞表型配对至该神经网络模型进行监督式学习，使得该输出层输出的细胞表型与输入的基因表达数据所配对的细胞表型相符。

在本申请的一实施例当中，例如图1与图4A及4B所示范的实现范例，该实施例提供一种利用生物知识搭建的神经网络模型的建构系统，其特征在于包含一或多个联网处理器，用于自非挥发性存储器当中提取与执行多个指令，用于实现以下步骤：提供具有五层的深度神经网络模型，该深度神经网络模型包含对应至基因表达的第一层、对应至蛋白质的第二层、对应至细胞表型的第三层、对应至重建蛋白质的第四层、对应至重建基因表达的第五层，第一层至第二层的多个连接与第五层至第四层的多个连接方式相同，第二层至第三层的多个连接与第四层至第三层的多个连接方式相同；提供多组基因表达数据至该深度神经网络模型进行非监督式学习，使得该深度神经网络模型的多个输出数据等于输入的多个基因表达数据；提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接；提供多组标注的基因表达数据与细胞表型配对至该神经网络模型进行监督式学习，使得该输出层输出的细胞表型与输入的基因表达数据所配对的细胞表型相符。

在上述的实施例当中，为了找出在生物科技产业上较为有用的特性，该细胞表型为下列其中之一：细胞特征与细胞代谢特征。在上述的实施例当中，为了找出在生物科技产业上较为有用的特性，该细胞表型为下列其中之一：细胞大小、细胞类型、细胞结构、生产率、产量或定量代谢通道。

在上述的实施例当中，当该生物为大肠杆菌时，该第一层、该第五层与该输入层有1366个节点，该第二层、该第四层与该中间层有1366个节点，该第三层与该输出层有110个节点，该输入层的1366个节点与该中间层的1366个节点具有一对一的连接，该中间层与该输出层之间具有16135个连接，该细胞表型为下列其中之一：细胞生长率、丁二酸产率或乙醇产率。

在上述的实施例当中，为了简化该神经网络模型与/或提高预测准确率，该输入层的节点数量与该中间层的节点数量相同。换言之，该第一层、该第二层、该第四层、该第五层、该输入层与该中间层的节点数量相同。在上述的实施例当中，为了简化该神经网络模型与/或提高预测准确率，该输入层与该中间层的连接数量等于该输入层的节点数量。换言之，该第一层至第二层、第四层至第五层、该输入层与该中间层的连接数量相同。

在上述的实施例当中，由于在生物知识当中的细胞表型数量大于蛋白质数量，该中间层的节点数量大于该输出层的节点数量，该第三层的节点数量小于该第二层的节点数量与该第四层的节点数量。

在上述的实施例当中，为了简化该神经网络模型与/或提高预测准确率，根据该生物的先验知识，该深度神经网络模型与该神经网络模型相邻各层的各节点是部分连接或非完全连接。

在本申请的一实施例当中，该实施例提供一种利用生物知识搭建的神经网络模型的生物特性预测方法，其特征在于包含以下步骤：提供具有五层的深度神经网络模型，该深度神经网络模型包含对应至基因表达的第一层、对应至蛋白质的第二层、对应至细胞表型的第三层、对应至重建蛋白质的第四层、对应至重建基因表达的第五层，第一层至第二层的多个连接与第五层至第四层的多个连接方式相同，第二层至第三层的多个连接与第四层至第三层的多个连接方式相同；提供多组基因表达数据至该深度神经网络模型进行非监督式学习，使得该深度神经网络模型的多个输出数据等于输入的多个基因表达数据；提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接；提供多组标注的基因表达数据与细胞表型配对至该神经网络模型进行监督式学习，使得该输出层输出的细胞表型与输入的基因表达数据所配对的细胞表型相符；将对应至该输入层的多个基因表达数据输入至该输入层；以及利用该神经网络模型计算出该多个基因表达数据所对应生物的特性的预测值。

在本申请的一实施例当中，该实施例提供一种利用生物知识搭建的神经网络模型的生物特性预测系统，其特征在于包含一或多个联网处理器，用于自非挥发性存储器当中提取与执行多个指令，用于实现以下步骤：提供具有五层的深度神经网络模型，该深度神经网络模型包含对应至基因表达的第一层、对应至蛋白质的第二层、对应至细胞表型的第三层、对应至重建蛋白质的第四层、对应至重建基因表达的第五层，第一层至第二层的多个连接与第五层至第四层的多个连接方式相同，第二层至第三层的多个连接与第四层至第三层的多个连接方式相同；提供多组基因表达数据至该深度神经网络模型进行非监督式学习，使得该深度神经网络模型的多个输出数据等于输入的多个基因表达数据；提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接；提供多组标注的基因表达数据与细胞表型配对至该神经网络模型进行监督式学习，使得该输出层输出的细胞表型与输入的基因表达数据所配对的细胞表型相符；将对应至该输入层的多个基因表达数据输入至该输入层；以及利用该神经网络模型计算出该多个基因表达数据所对应生物的特性的预测值。

Claims

1.一种利用生物知识搭建的神经网络模型的生物特性预测方法，其特征在于，包含以下步骤：

提供已监督训练过的神经网络模型，该神经网络模型包含对应至基因表达的输入层、对应至蛋白质的中间层与对应至细胞表型的输出层；

将对应至该输入层的多个基因表达数据输入至该输入层；以及

利用该神经网络模型计算出该多个基因表达数据所对应生物的特性的预测值。

2.根据权利要求1所述的生物特性预测方法，其特征在于，该预测值为下列其中之一：

细胞特征；与

细胞代谢特征。

3.根据权利要求1所述的生物特性预测方法，其特征在于，该预测值为下列其中之一：细胞大小、细胞类型、细胞结构、生产率、产量或定量代谢通道。

4.根据权利要求1所述的生物特性预测方法，其特征在于，当该生物为大肠杆菌时，该输入层有1366个节点，该中间层有1366个节点，该输出层有110个节点，该输入层的1366个节点与该中间层的1366个节点具有一对一的连接，该中间层与该输出层之间具有16135个连接，该预测值为下列其中之一：细胞生长率、丁二酸产率或乙醇产率。

5.根据权利要求1所述的生物特性预测方法，其特征在于，该输入层的节点数量与该中间层的节点数量相同。

6.根据权利要求5所述的生物特性预测方法，其特征在于，该输入层与该中间层的连接数量等于该输入层的节点数量。

7.根据权利要求1所述的生物特性预测方法，其特征在于，该中间层的节点数量大于该输出层的节点数量。

8.根据权利要求1所述的生物特性预测方法，其特征在于，该输入层与该中间层的各节点是部分连接或非完全连接，该中间层与该输出层的各节点是部分连接或非完全连接。

9.根据权利要求1所述的生物特性预测方法，其特征在于，该输入层与该中间层的连接为线性关系，该中间层与该输出层的连接为非线性关系。

10.一种利用生物知识搭建的神经网络模型的生物特性预测系统，其特征在于，包含一或多个联网处理器，用于自非挥发性存储器当中提取与执行多个指令，用于实现以下步骤：

11.一种利用生物知识搭建的神经网络模型的建构方法，其特征在于，包含：

提供具有五层的深度神经网络模型，该深度神经网络模型包含对应至基因表达的第一层、对应至蛋白质的第二层、对应至细胞表型的第三层、对应至重建蛋白质的第四层、对应至重建基因表达的第五层，第一层至第二层的多个连接与第五层至第四层的多个连接方式相同，第二层至第三层的多个连接与第四层至第三层的多个连接方式相同；

提供多组基因表达数据至该深度神经网络模型进行非监督式学习，使得该深度神经网络模型的多个输出数据等于输入的多个基因表达数据；

提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接；以及

提供多组标注的基因表达数据与细胞表型配对至该神经网络模型进行监督式学习，使得该输出层输出的细胞表型与输入的基因表达数据所配对的细胞表型相符。

12.根据权利要求11所述的建构方法，其特征在于，该细胞表型为下列其中之一：

细胞特征；与

细胞代谢特征。

13.根据权利要求11所述的建构方法，其特征在于，该细胞表型为下列其中之一：细胞大小、细胞类型、细胞结构、生产率、产量或定量代谢通道。

14.根据权利要求11所述的建构方法，其特征在于，当该生物为大肠杆菌时，该第一层、该第五层与该输入层有1366个节点，该第二层、该第四层与该中间层有1366个节点，该第三层与该输出层有110个节点，该输入层的1366个节点与该中间层的1366个节点具有一对一的连接，该中间层与该输出层之间具有16135个连接，该细胞表型为下列其中之一：细胞生长率、丁二酸产率或乙醇产率。

15.根据权利要求11所述的建构方法，其特征在于，该第一层、该第二层、该第四层、该第五层、该输入层与该中间层的节点数量相同。

16.根据权利要求15所述的建构方法，其特征在于，该第一层至第二层、第四层至第五层、该输入层与该中间层的连接数量相同。

17.根据权利要求11所述的建构方法，其特征在于，该中间层的节点数量大于该输出层的节点数量，该第三层的节点数量小于该第二层的节点数量与该第四层的节点数量。

18.根据权利要求11所述的建构方法，其特征在于，该深度神经网络模型与该神经网络模型相邻各层的各节点是部分连接或非完全连接。

19.根据权利要求11所述的建构方法，其特征在于，该输入层与该中间层的连接为线性关系，该中间层与该输出层的连接为非线性关系。

20.一种利用生物知识搭建的神经网络模型的建构系统，其特征在于，包含一或多个联网处理器，用于自非挥发性存储器当中提取与执行多个指令，用于实现以下步骤：

提供多组基因表达数据至该深度神经网络模型进行非监督式学习，使得该深度神经网络模型的多个输出数据等于输入的多个基因表达数据；提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接；以及

21.一种利用生物知识搭建的神经网络模型的生物特性预测方法，其特征在于，包含以下步骤：

提供具有三层的神经网络模型，该神经网络模型包含分别对应至非监督式学习后的该深度神经网络模型第一层、第二层与第三层的输入层、中间层与输出层，该输入层至该中间层的多个连接对应至该深度神经网络模型第一层至第二层的多个连接，该中间层至该输出层的多个连接对应至该深度神经网络模型第二层至第三层的多个连接；

提供多组标注的基因表达数据与细胞表型配对至该神经网络模型进行监督式学习，使得该输出层输出的细胞表型与输入的基因表达数据所配对的细胞表型相符；

22.一种利用生物知识搭建的神经网络模型的生物特性预测系统，其特征在于，包含一或多个联网处理器，用于自非挥发性存储器当中提取与执行多个指令，用于实现以下步骤：