CN114743601A

CN114743601A - 基于多组学数据和深度学习的育种方法、装置、设备

Info

Publication number: CN114743601A
Application number: CN202210404221.XA
Authority: CN
Inventors: 刘毓文; 马文龙; 王超; 郑伟刚; 李奎; 唐中林
Original assignee: Agricultural Genomics Institute at Shenzhen of CAAS
Current assignee: Agricultural Genomics Institute at Shenzhen of CAAS
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-12
Anticipated expiration: 2042-04-18
Also published as: CN114743601B

Abstract

本发明实施例公开了基于多组学数据和深度学习的育种方法、装置、设备，能够提高表型预测的准确度。其中，育种方法包括获取目标物种的生物遗传信息；其中，所述生物遗传信息包括多组学数据，所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据；根据所述生物遗传信息获取基于深度学习的基因组选择模型；根据所述基因组选择模型获取与目标物种的待测基因型信息对应的表型信息，以用于育种。

Description

基于多组学数据和深度学习的育种方法、装置、设备

技术领域

本发明涉及生物技术领域。更具体地说，本发明涉及基于多组学数据和深度学习的育种方法、装置、设备和介质。

背景技术

生物表型性状的预测在生物技术领域具有广泛的应用，例如选择性育种、疾病控制等。以育种为例，选择性育种作为现代农业产业链中的重要环节，是获取优良农业品种的重要途径之一。在数字化信息时代背景下，传统经验育种模式逐渐发展成为更加精密的，依赖于高密度分子遗传标记的基因组选择(genomic selection，GS)辅助育种体系，在当前选择性育种领域中占据重要地位。该育种策略本质上是一门预测的科学，根据高通量测序的全基因组分子标记，依托表型预测模型辅助品种选择，实现了育种的精细化、信息化、定量化。

虽然基因组选择理论体系日渐成熟，在实践中取得了巨大的成就，然而当前关注的重点多集中于单一的基因组数据。由遗传信息传递到最终的表型还包括表观修饰、转录、翻译等多个中间过程，每一个中间过程都代表着一个模糊了遗传信息和性状之间联系的额外复杂水平，这表明当前的基因组选择模型还有很大的发展空间。

当前基因组选择领域研究最多的是根据单一的基因型数据来预测目的表型。这种策略，在最初的研究阶段，极大的促进了GS在农业品种改良理论体系的完善。然而，由遗传突变传递到表型并不是一蹴而就的，譬如说，核苷酸突变影响转录水平的变化，进一步影响蛋白功能的变化，反过来影响蛋白复合体、细胞进程、细胞器，直至影响细胞、组织，甚至是复杂生物的表型。

随着后基因组工具的发展，以及功能组学数据的累积，整合多组学数据的模型开始进入了人们的视野，与单一组学数据相比，切实提升了预测性能。

但是如何利用多组学数据生成能够提高表型预测准确度的基因组选择模型，在目前仍然存在很大的挑战。

发明内容

本发明的一个目的是解决上述问题，并提供后面将说明的优点。

本发明还有一个目的是提供一种基于多组学数据和深度学习的育种方法、装置、设备和介质，能够提高物种表型预测的准确度。

具体地，本发明通过如下技术方案实现：

本发明实施例的第一方面提供了基于多组学数据和深度学习的育种方法，包括：

获取目标物种的生物遗传信息；其中，所述生物遗传信息包括多组学数据，所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据；

根据所述生物遗传信息获取基于深度学习的基因组选择模型；

根据所述基因组选择模型获取与目标物种的待测基因型信息对应的表型信息，以用于育种。

在一些实施方式中，所述生物遗传信息还包括：根据所述多组学数据获取的组学背景信息、功能背景信息、功能调控网络信息中的至少一种；其中，

所述多组学背景信息包括非编码区序列的调控模式信息、编码区基因的表达模式信息和编码区基因的功能信息中的至少一种；

所述功能背景信息包括单核苷酸多态性在非编码区的功能信息和单核苷酸多态性在编码区的功能信息；

所述调控网络信息包括根据单核苷酸多态性、基因调控元件、基因、基因功能形成的调控信息。

在一些实施方式中，所述生物遗传信息还包括组学背景信息、功能背景信息、功能调控网络信息；

所述获取目标物种的生物遗传信息，包括：

根据目标物种的样本群体信息获取所述多组学数据；

根据所述表观基因组数据、所述转录组数据、所述基因功能注释数据获取所述组学背景信息；

根据所述组学背景信息获取所述功能背景信息；

根据所述功能背景信息获取所述功能调控网络信息。

在一些实施方式中，根据所述生物遗传信息对选取的深度学习模型进行训练，获得所述基因组选择模型，包括：

获取深度学习模型，所述深度学习模型包括输入层、输出层以及位于所述输入层和所述输出层之间的至少一个中间可见层和至少一个中间隐藏层；

对所述深度学习模型各层的超参数进行优化，确定最优超参数，得到优化的深度学习模型；其中，所述超参数包括核函数、节点数、激活函数、丢弃率、正则化类型中的至少一种；

根据所述生物遗传信息对所述优化的深度学习模型进行训练，得到所述基因组选择模型。

在一些实施方式中，所述至少一个中间可见层包括第一中间可见层、第二中间可见层、第三中间可见层，所述至少一个隐藏层包括第一中间隐藏层、第二中间隐藏层、第三中间隐藏层；

所述输入层、所述第一中间可见层、所述第二中间可见层、所述第三中间可见层、所述第一中间隐藏层、所述第二中间隐藏层、所述第三中间隐藏层、所述输出层依次连接；

所述输入层的输入数据包括所述基因型数据；

所述第一中间可见层的输入数据包括所述功能背景信息；

所述第二中间可见层的输入数据包括所述组学背景信息；

所述第三中间可见层的输入数据包括所述调控网络信息；

所述输出层的输入数据包括所述表型数据。

在一些实施方式中，所述获取目标物种的生物遗传信息，包括：

获取目标物种的样本群体信息；

根据所述样本群体信息中的个体信息获取所述基因型数据和所述表型数据；

根据所述样本群体信息获取所述表观基因组数据、所述转录组数据、所述基因功能注释数据；

其中，所述表观基因组数据和转录组数据可以根据样本群体在不同发育时期的不同组织信息获取；

所述表观基因组数据至少包括染色质开放区数据。

在一些实施方式中，所述组学背景信息包括非编码区序列的调控模式信息、编码区基因的表达模式信息和编码区基因的功能信息中的至少一种，所述功能背景信息包括单核苷酸多态性在非编码区的功能信息和单核苷酸多态性在编码区的功能信息，所述调控网络信息包括根据单核苷酸多态性、基因调控元件、基因、基因功能形成的调控信息；

所述根据所述表观基因组数据、所述转录组数据、所述基因功能注释数据获取所述组学背景信息，包括：根据所述表观基因组数据获取对应的染色体上峰值区域的位置信息，构建表观基因组数据的标记矩阵，根据所述标记矩阵获取所述非编码区序列的调控模式信息；根据所述转录组数据获取基因表达水平信息，构建基因表达矩阵，根据所述基因表达矩阵和所述基因功能注释数据获取所述编码区基因的表达模式信息和所述编码区基因的功能信息；

所述根据所述组学背景信息获取功能背景信息，包括：根据所述非编码区序列的调控模式信息，获取单核苷酸多态性在非编码区的功能信息；根据所述编码区基因的表达模式信息和所述编码区基因的功能信息，获取单核苷酸多态性与编码区基因的位置信息，根据所述位置信息和单核苷酸多态性对蛋白质结构和功能的影响程度信息，获取所述单核苷酸多态性在编码区的功能信息；

所述根据所述功能背景信息获取功能调控网络信息，包括：根据所述单核苷酸多态性在编码区的功能信息、所述单核苷酸多态性在非编码区的功能信息，获取所述调控信息。

本发明的第二方面提供了基于多组学数据和深度学习的育种装置，包括：

生物遗传信息获取模块，用于获取目标物种的生物遗传信息；其中，所述生物遗传信息包括多组学数据，所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据；

基因组选择模型获取模块，用于根据所述生物遗传信息获取基于深度学习的基因组选择模型；

表型获取模块，用于根据所述基因组选择模型获取与目标物种的待测基因型信息对应的表型信息，以用于育种。

本发明的第三方面提供了电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机指令程序，所述计算机指令程序被所述处理器执行时实现第一方面所述的基于多组学数据和深度学习的育种方法的步骤。

本发明的第四方面提供了计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令程序，所述计算机指令程序被处理器执行时实现第一方面所述的基于多组学数据和深度学习的育种方法的步骤。

本发明的实施例的技术效果至少包括：

根据本申请实施例提供的育种方法，能够将目标物种的多组学数据和深度学习模型结合在一起，获得对育种性状表达更加准确的基因组选择模型。因此，根据所述基因组选择模型，可以为目标物种的待测基因型更加准确地预测到待育种个体的表型，从而使得物种的育种工作更加高效、精准和便捷。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明实施例的基于多组学数据和深度学习的育种方法的一个流程图；

图2为本发明实施例的基于多组学数据和深度学习的育种方法的又一个流程图；

图3为本发明实施例的基于多组学数据和深度学习的育种方法的又一个流程图；

图4为本发明实施例的基于多组学数据和深度学习的育种方法的又一个流程图；

图5为本发明实施例的基于多组学数据和深度学习的育种方法的又一个流程图；

图6为本发明实施例的基于多组学数据和深度学习的育种方法的又一个流程图；

图7为本发明实施例的基于多组学数据和深度学习的育种装置的一个图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本申请实施例中的术语“包括”和“设置有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

除以上所述外，仍需要强调的是，在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在相同遗传力的前提下，基因组选择的准确度很大程度上取决于基因型和表型间复杂关联的捕捉，而这种复杂关联的精确识别依赖于基因组选择模型的设计和应用。

在农业育种工作中，应用深度学习技术来整合多层级组学数据，可以切实提升表型预测的精度。但是，具体如何通过深度学习技术整合多层级组学信息来获取高准确度的基因组选择模型，在目前，仍然面临诸多困难。

譬如说，从遗传角度来讲，生物遗传性状的形成是一个复杂的调控过程，遗传信息通过包括表观修饰、转录、翻译等多个复杂中间过程传递到表型的，每一个中间过程都代表着一个模糊了遗传信息和性状之间联系的额外复杂水平。也就是说，生物的表型性状除了受到基因型的直接调控以外，还会受到诸多其他相关因素的影响。这就导致如何准确地获取到基因型和表型之间的对应关系提供了很多难以克服的困难。

从技术角度来说，以深度学习算法为代表的人工智能技术促进了海量的多组学数据的深入挖掘，能够过滤冗余噪音，提升数据信息的利用率。因此，本发明在深度学习算法和多组学数据的支持下，构建基因组选择模型，对遗传分子标记和表型的复杂关联进行捕捉，提升表型预测的准确度，能够帮助理解生物遗传性状形成的分子机制，切实推进农业种业育种工作。

基于此，如图1所示，本发明实施例的第一方面提供了一种基于多组学数据和深度学习的育种方法，包括以下步骤S101至S103：

S101、获取目标物种的生物遗传信息；其中，所述生物遗传信息包括多组学数据，所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据。

需要说明的是，表观基因记录着一生物体的DNA和组蛋白的一系列化学变化。这些变化可以被传递给该生物体的子代；改变表观基因会导致染色体结构以及基因作用发生变化；表观基因参与基因表达、个体发展、组织分化和转座子的抑制过程。因此，表观基因组数据能够反映出生物体的基因表达信息。基因组功能注释(Genome annotation)是利用生物遗传信息学方法和工具，对基因组所有基因的生物学功能进行高通量注释。因此，基因功能注释数据能够反映出基因组中各基因的功能信息。

目标物种可以由本领域技术人员根据需要选择，例如猪马牛羊等动物，也可以是水稻、小麦等植物。

S102、根据所述生物遗传信息获取基于深度学习的基因组选择模型。

具体来说，可以将所述生物遗传信息作为样本，再选择相应的深度学习模型对其进行训练，即可得到所述基因组选择模型。所述基因组选择模型包含目标物种的基因型与表型之间的对应关系。

容易理解的是，深度学习模型一般包括输入层、至少一个中间层和输出层。因此，对于本实施例中的深度学习模型，可以按照如下方式进行训练：将基因型数据作为输入层的输入数据，表型数据作为输出层的输出数据；将多组学数据中的其他数据，例如根据表观基因组数据、转录组数据、基因功能注释数据等形成的数据作为深度学习模型的中间层的输入数据，这样就可以获取到目标物种的基因型与表型之间的对应关系。根据该对应关系即可得到所述基因组选择模型。这里的深度学习模型，本领域技术人员可以根据实际需要进行确定，例如DSPN(the Deep Structured Phenotype Network)模型、DeepGS(predictphenotypes from genotypes using a deep convolutional neural network)模型等。

S103、根据所述基因组选择模型获取与目标物种的待测基因型信息对应的表型信息，以用于育种。具体地，在获取到步骤S102中所述的基因组选择模型后，可以向基因组选择模型中输入待测基因型信息，基因组选择模型即可以输出对应的表型信息。更具体地，可以利用基因编辑的方式设计出一种待测基因型，生成所述待测基因型信息；当然，在某些实施方式中，也可以根据目标物种选取其待育种的个体的待测基因型信息，然后通过所述基因组选择模型预测待测基因型信息对应的表型信息，根据该表型信息判断如何进行进一步的育种工作。

相比于传统的统计学回归模型，机器学习(machine learning,ML)模型通过对分子标记数据的智能挖掘，往往能够取得更高的表型预测精度。同时，相比于单一的基因型数据，整合多种类型的组学数据可以有效提升这种复杂关联的捕捉。因此，以机器学习的一种——深度学习为切入点，通过海量组学数据的深入挖掘，构建关于物种的多层级功能映射网络系统，可以提升基因组选择的准确度；同时还能够实现因果分子标记的精细定位，定量由遗传突变逐层传递到育种经济性状的复杂中间过程。

综上，根据本申请实施例提供的育种方法，能够将目标物种的多组学数据和深度学习模型结合在一起，获得对育种性状表达更加准确的基因组选择模型。因此，根据所述基因组选择模型，可以为目标物种的待测基因型更加准确地预测到待育种个体的表型，从而使得物种的育种工作更加高效、精准和便捷。

此外，根据上述育种方法不仅可以获取高精度的基因组选择模型，还可以扩展到人类遗传疾病等的研究中。该发明将辅助推测遗传突变到农业育种表型的多层级传递过程，辅助加深育种工作者对基因组选择的理解，将更精确地指导育种工作的进行，节省大量的人力、物力、财力，将促进基因组选择成果的交流和推广，推动我国乃至全世界育种工作的进程。

在一些实施例中，所述生物遗传信息还包括：根据所述多组学数据获取的组学背景信息、功能背景信息、功能调控网络信息中的至少一种。

在至少一个实施例中，所述组学背景信息包括非编码区序列的调控模式信息、编码区基因的表达模式信息和编码区基因的功能信息中的至少一种。

在至少一个实施例中，所述功能背景信息包括单核苷酸多态性(英文简称为SNP)在非编码区的功能信息和单核苷酸多态性在编码区的功能信息。需要说明的是，单核苷酸多态性在非编码区的功能信息指的是单核苷酸多态性在全基因组的非编码区的功能信息，单核苷酸多态性在编码区的功能信息指的是单核苷酸多态性在全基因组的编码区的功能信息，

在至少一个实施例中，所述调控网络信息包括根据单核苷酸多态性、基因调控元件、基因、基因功能形成的调控信息。示例性地，所述基因调控元件包括启动子、增强子、SD(Shine-Dalgarno)序列与终止子中的至少一种。

在上文基础上，继续如图2所示，在一些实施例中，当所述生物遗传信息还包括所述组学背景信息时，步骤S101、获取目标物种的生物遗传信息，包括：

S1011、根据目标物种的样本群体获取所述多组学数据；

S1012、根据所述表观基因组数据、所述转录组数据、所述基因功能注释数据获取所述组学背景信息。

进一步地，当所述生物遗传信息还包括所述功能背景信息时，步骤S101、获取目标物种的生物遗传信息，还包括：

S1013、根据所述组学背景信息获取所述功能背景信息。

进一步地，当所述生物遗传信息还包括所述功能调控网络信息时，步骤S101、获取目标物种的生物遗传信息，还包括：

S1014、根据所述功能背景信息获取所述功能调控网络信息。

在一些实施例中，如图3所示，步骤S102、根据所述生物遗传信息获取基于深度学习的基因组选择模型，包括：

S1021、获取深度学习模型，所述深度学习模型包括输入层、输出层以及位于所述输入层和所述输出层之间的至少一个中间可见层和至少一个中间隐藏层；其中，每个所述中间可见层的输入数据包括功能背景信息、组学背景信息、功能调控网络信息中的其中一种。

S1022、对所述深度学习模型各层的超参数进行优化，确定最优超参数，得到优化的深度学习模型；其中，所述超参数包括核函数、节点数、激活函数、丢弃率、正则化类型中的至少一种。各层的超参数指的是输入层的超参数、输出层的超参数、中间可见层的超参数、中间隐藏层的超参数。

S1023、根据所述生物遗传信息对所述优化的深度学习模型进行训练，得到所述基因组选择模型。

在一些实施例中，所述输入层、所述至少一个中间可见层、所述至少一个隐藏层、所述输出层依次连接。譬如说，所述至少一个中间可见层包括第一中间可见层、第二中间可见层、第三中间可见层，所述至少一个隐藏层包括第一中间隐藏层、第二中间隐藏层、第三中间隐藏层；那么输入层、第一中间可见层、第二中间可见层、第三中间可见层、第一中间隐藏层、第二中间隐藏层、第三中间隐藏层、输出层依次连接。

容易理解的是，每个所述中间可见层的输入数据包括所述功能背景信息、所述组学背景信息、所述功能调控网络信息中的其中一种之外，还可以包括与其连接的前一层的输出数据。譬如说，第一中间可见层的输入数据还可以包括输入层的输出数据，第二中间可见层的输入数据还可以包括第一中间可见层的输出数据。

进一步地，在一些实施例中，所述第一中间可见层的输入数据包括所述功能背景信息和所述输入层的输出数据；所述第二中间可见层的输入数据包括所述组学背景信息和所述第一中间可见层的输出数据；所述第三中间可见层的输入数据包括所述调控网络信息和所述第二中间可见层的输出数据。

上述实施例提供的育种方法聚焦基因组、转录组、表观基因组、基因功能注释等多组学数据和深度学习技术到基因组选择模型上，把基因型数据作为底层，功能背景信息、组学背景信息和调控网络信息作为中间层，根据前述各种信息生成的更高维度聚合特征作为隐藏层，表型数据作为顶层，能够大大提升基因组选择的准确度。同时在此基础上，还可以用于实现自下而上自主学习各层的中间分子标记和表型的关联关系，自上而下反向逆推显著关联分子标记的传递过程，辅助因果分子标记的精细定位，从而提高基因组选择模型中基因型与表型间对应关系的准确度，为分子设计育种提供更好的设计思路。

在一些实施例中，S1023、根据所述生物遗传信息对所述优化的深度学习模型进行训练，得到所述基因组选择模型包括：

在所述深度学习模型的迭代更新中，根据所述生物遗传信息获取所述深度学习模型的各中间可见层的分子标记；在一些实施例中，所述分子标记携带有可遗传的并可检测的DNA序列信息、蛋白质信息或者基因功能信息；

获取所述各中间可见层的分子标记的权重的错误发现率；

根据所述错误发现率计算所述各中间可见层的分子标记与表型关联的显著性信息；

根据所述显著性信息获取所述各中间可见层的分子标记中与表型显著关联的分子标记；以及

根据所述显著关联的分子标记建立所述各中间可见层与所述生物遗传信息的对应关系。具体来说，在一些实施方式中，就是建立功能调控网络信息与第三中间可见层之间的对应关系，组学背景信息和第二中间可见层之间的对应关系，功能背景信息和第一中间可见层之间的对应关系。

上述实施例的目的是为了在训练过程中对所述深度学习模型迭代更新，以获取更加准确的基因组选择模型。

具体来说，在迭代更新中，通过读取、检索所述深度学习模型保存的变量和变量值文件，获得所述深度学习模型各中间可见层的分子标记的权重，通过秩和检验获取随机情形下分子标记的权重，统计分子标记的权重的错误发现率，以此来计算各中间可见层的分子标记与表型关联的显著性信息，从而可以获取到各中间可见层与表型显著关联的分子标记。

根据显著关联的分子标记在所述深度学习模型中的层级顺序，将功能调控网络和第三中间可见层对应起来，将全基因组的编码区的基因和第二中间可见层对应起来，将全基因组的非编码区和编码区的SNP和第一中间可见层对应起来，实现功能调控网络信息、组学背景信息、功能背景信息和深度学习模型的各中间可见层一一对应。

这样可以辅助预测多层级功能映射下分子标记与表型关联的网络。同时可以实现自下而上的学习关联水平，自上而下的反向逆推因果变异，在多组学数据的层面辅助精细定位出与表型相关的因果分子标记。

在一些实施例中，所述至少一个中间隐藏层与所述至少一个中间可见层的数量相等。

在一些实施例中，如图4所示，步骤S1011、所述根据目标物种的样本群体信息获取所述多组学数据包括：

S10111、获取目标物种的样本群体信息。具体地，可以先选取目标物种的样本群体，然后采集样本群体信息并保存，留待使用。譬如说，采集样本群体中每个个体的生物遗传信息，记录并保存，即可得到所述样本群体信息。

S10112、根据所述样本群体信息中的个体信息获取所述基因型数据和所述表型数据；容易理解的是，每个个体都拥有一套基因型信息和表型信息，因此从样本群体中选择或者确定一个个体，根据该个体信息就能够获取到目标物种的基因型数据和表型数据。

S10113、根据所述样本群体信息获取所述表观基因组数据、所述转录组数据、所述基因功能注释数据。

需要说明的是，在某些实施方式中，这里的表观基因组数据和转录组数据可以根据样本群体在不同发育时期的不同组织获取；需要说明的是，这里的组织指的是生物学上的器官组织。

进一步地，所述表观基因组数据至少包括染色质开放区数据。在一些实施例中，所述表观基因组数据还可以包括组蛋白数据、转录因子修饰数据、甲基化数据、非编码RNA数据、三维基因组结构数据中的一种或者多种；所述基因功能注释数据可以根据GO数据库获取，在某些实施例中，也可以根据GO数据库和KEGG数据库的共同作用来获取。

需要说明的是，染色质开放区数据可以根据ATAC-seq(Assay for Transposase-Accessible Chromatin with high throughput sequencing)技术获取，ATAC-seq是一种创新的表观遗传学研究技术，该技术通过转座酶对某种特定时空下开放的核染色质区域进行切割，进而获得在该特定时空下基因组中所有活跃转录的调控序列。组蛋白数据和转录因子修饰数据数据可以根据ChIP-seq(Chromatin Immunoprecipitation sequencing)技术获取。甲基化数据数据可以根据WGBS(Whole Genome Bisulfite Sequencing)技术获取。非编码RNA数据可以根据RNA-seq技术获取。三维基因组结构数据可以根据Hi-C(Chromosome conformation capture,3C)技术获取。

需要说明的是，所述基因功能注释数据可以根据GO(Gene Ontology)数据库获取，它涵盖生物学的三个方面：细胞组分、分子功能、生物过程；还可以根据KEGG(KyotoEncyclopedia of Genes and Genomes)数据库获取，它是一个整合了基因组、化学和系统功能信息的数据库，把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来。

在一些实施例中，如图5所示，步骤S1012、根据所述表观基因组数据、所述转录组数据、所述基因功能注释数据获取所述组学背景信息，包括：

S10121、根据所述表观基因组数据获取对应的染色体上峰值区域的位置信息，构建表观基因组数据的标记矩阵，根据所述标记矩阵获取所述非编码区序列的调控模式信息。

更进一步地，可以通过深度学习模型，对所述标记矩阵和峰值区域序列信息建模，得到所述非编码区序列的调控模式信息。

需要说明的是，根据相关研究表明，根据序列特征可以高精度地学习表观基因组信息，并用于未知表观基因组信息序列的综合推断，比如基于深度学习技术的DeepSEA模型。因此，利用深度学习表观基因组的调控模式的方法，用于非编码区SNP功能的预测，就能够实现全基因组非编码区SNP调控功能注释的补全，从而获取到非编码区序列的调控模式信息。

S10122、根据所述转录组数据获取基因表达水平信息，构建基因表达矩阵，根据所述基因表达矩阵和所述基因功能注释数据获取所述编码区基因的表达模式信息和所述编码区基因的功能信息。

更进一步地，可以通过主成分分析(principle component analysis,PCA)方法，对所述基因表达矩阵进行分解，结合所述基因功能注释数据得到编码区基因的表达模式信息和编码区基因的功能信息。

需要说明的是，根据相关研究表明，基于样本的第一主成分(英文名称为principle component 1,简称PC1)可以解释原数据80％到90％的信息。因此根据上述方法能够更加准确地获取到编码区基因的表达模式信息和编码区基因的功能信息。

在一些实施例中，如图6所示，步骤S1013、根据所述组学背景信息数据获取功能背景信息，包括：

S10131、根据所述非编码区序列的调控模式信息，获取所述单核苷酸多态性在非编码区的功能信息；示例性地，可以利用DeepSEA模型学习全基因组范围内非编码区表观基因组信号特征，以用于获取所述单核苷酸多态性在非编码区的功能信息。

S10132、根据所述编码区基因的表达模式信息和所述编码区基因的功能信息，获取单核苷酸多态性与编码区基因的位置信息，根据所述位置信息和单核苷酸多态性对蛋白质结构和功能的影响程度信息，获取所述单核苷酸多态性在编码区的功能信息。

基因功能是编码区蛋白功能注释的重要依据之一，是解释分子标记和表型关联的重要基础，因此基因功能的准确注释是解析相关调控机制的重要前提。有研究表明可以通过转录组数据辅助基因功能注释数据的完善，对基因表达数据进行矩阵分解(matrixfactorization,MF)，得到反映基因关联的增幅矩阵(amplitude matrix,AM)，其中的系数值代表每个基因对于每个表达模式(metagene)的相对贡献，根据GO和KEGG等数据库注释的功能信息，构建统计学检验模型，实现基因功能补全。更具体地，可以从GO和KEGG等数据库下载对应的基因功能注释文件，利用easyMF模型从转录组数据中学习每一类基因功能的表达特征，进而补全所有基因的基因功能。

然后，通过定位SNP与编码区基因的位置，结合SNP对蛋白质结构和功能的影响，将基因的功能赋值给SNP，就可以实现全基因组编码区SNP功能注释的补全。

在一些实施例中，步骤S1014、根据所述功能背景信息获取功能调控网络信息，包括：

根据所述单核苷酸多态性在编码区的功能信息、所述单核苷酸多态性在非编码区的功能信息，获取所述调控信息。

在一些实施例中，所述育种方法还包括:

根据皮尔森相关系数(PCC)对所述基因组选择模型的预测效果进行评估。

更具体是，结合皮尔森相关系数，将所述基因组选择模型与rrBLUP等经典基因组选择模型进行比较分析，随后通过建立的独立验证集，综合评估基因组选择效果。

根据本发明实施例提供的育种方法在纯种杜洛克公猪上进行性能分析，结果表明不管是在测试集还是独立验证集，逐层加入转录调控多层级功能注释信息的DeepAnnotation模型预测性能均优于经典的rrBLUP模型。

基于与前述第一方面实施例提供的育种方法同样的构思，本发明实施例的第二方面提供了基于多组学数据和深度学习的育种装置10，包括：

生物遗传信息获取模块100，用于获取目标物种的生物遗传信息；其中，所述生物遗传信息包括多组学数据，所述多组学数据包括目标物种的表观基因组数据、转录组数据、基因功能注释数据中的至少一种、基因型数据和表型数据；

基因组选择模型获取模块200，用于根据所述生物遗传信息获取基于深度学习的基因组选择模型；

表型获取模块300，用于根据所述基因组选择模型获取与目标物种的选育个体的待测基因型对应的表型，以用于育种。

本发明实施例的第三方面提供了电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机指令程序，所述计算机指令程序被所述处理器执行时实现第一方面所述的基于多组学数据和深度学习的育种方法的步骤。

本发明实施例的第四方面提供了计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令程序，所述计算机指令程序被处理器执行时实现第一方面所述的基于多组学数据和深度学习的育种方法的步骤。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于多组学数据和深度学习的育种方法，其特征在于，包括：

2.根据权利要求1所述的育种方法，其特征在于，所述生物遗传信息还包括：根据所述多组学数据获取的组学背景信息、功能背景信息、功能调控网络信息中的至少一种；其中，

所述组学背景信息包括非编码区序列的调控模式信息、编码区基因的表达模式信息和编码区基因的功能信息中的至少一种；

3.根据权利要求1所述的育种方法，其特征在于，所述生物遗传信息还包括组学背景信息、功能背景信息、功能调控网络信息；

所述获取目标物种的生物遗传信息，包括：

根据目标物种的样本群体信息获取所述多组学数据；

根据所述组学背景信息获取所述功能背景信息；

根据所述功能背景信息获取所述功能调控网络信息。

4.根据权利要求1所述的育种方法，其特征在于，根据所述生物遗传信息对选取的深度学习模型进行训练，获得所述基因组选择模型，包括：

5.根据权利要求4所述的育种方法，其特征在于，所述至少一个中间可见层包括第一中间可见层、第二中间可见层、第三中间可见层，所述至少一个隐藏层包括第一中间隐藏层、第二中间隐藏层、第三中间隐藏层；

所述输入层的输入数据包括所述基因型数据；

所述第一中间可见层的输入数据包括所述功能背景信息；

所述第二中间可见层的输入数据包括所述组学背景信息；

所述第三中间可见层的输入数据包括所述调控网络信息；

所述输出层的输入数据包括所述表型数据。

6.根据权利要求1所述的育种方法，其特征在于，所述获取目标物种的生物遗传信息，包括：

获取目标物种的样本群体信息；

其中，所述表观基因组数据和所述转录组数据根据所述样本群体在不同发育时期的不同组织信息获取；

所述表观基因组数据至少包括染色质开放区数据。

7.根据权利要求3所述的育种方法，其特征在于，所述多组学背景信息包括非编码区序列的调控模式信息、编码区基因的表达模式信息和编码区基因的功能信息中的至少一种，所述功能背景信息包括单核苷酸多态性在非编码区的功能信息和单核苷酸多态性在编码区的功能信息，所述调控网络信息包括根据单核苷酸多态性、基因调控元件、基因、基因功能形成的调控信息；

根据所述表观基因组数据、所述转录组数据、所述基因功能注释数据获取所述组学背景信息，包括：根据所述表观基因组数据获取对应的染色体上峰值区域的位置信息，构建表观基因组数据的标记矩阵，根据所述标记矩阵获取所述非编码区序列的调控模式信息；根据所述转录组数据获取基因表达水平信息，构建基因表达矩阵，根据所述基因表达矩阵和所述基因功能注释数据获取所述编码区基因的表达模式信息和所述编码区基因的功能信息；

所述根据所述组学背景信息获取功能背景信息，包括：根据所述非编码区序列的调控模式信息，获取所述单核苷酸多态性在非编码区的功能信息；根据所述编码区基因的表达模式信息和所述编码区基因的功能信息，获取单核苷酸多态性与编码区基因的位置信息，根据所述位置信息和单核苷酸多态性对蛋白质结构和功能的影响程度信息，获取所述单核苷酸多态性在编码区的功能信息；

所述根据所述功能背景信息获取功能调控网络信息数据，包括：根据所述单核苷酸多态性在编码区的功能信息、所述单核苷酸多态性在非编码区的功能信息，获取所述调控信息。

8.基于多组学数据和深度学习的育种装置，其特征在于，包括：

9.电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机指令程序，所述计算机指令程序被所述处理器执行时实现权利要求1-7任一所述的基于多组学数据和深度学习的育种方法的步骤。

10.计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令程序，所述计算机指令程序被处理器执行时实现权利要求1-7所述的基于多组学数据和深度学习的育种方法的步骤。