CN117116355A

CN117116355A - 一种优异多效基因的挖掘方法、装置、设备及介质

Info

Publication number: CN117116355A
Application number: CN202311109290.9A
Authority: CN
Inventors: 张丹丹; 赵瑞雪; 鲜国建; 寇远涛
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-11-24
Anticipated expiration: 2043-08-30
Also published as: CN117116355B

Abstract

本发明涉及基因挖掘技术领域，公开了一种优异多效基因的挖掘方法、装置、设备及介质，包括：选取实体类并确定对应的数据属性及对象属性，来构建性状调控基因本体模型；从多源数据库中抽取各类实体及其之间的关系来构建三元组，并通过多源知识融合来生成性状调控基因知识图谱；基于不同实体之间的连接关系构建性状调控基因预测模型；基于预测模型计算未知性状基因与不同已知性状基因之间的相似度，若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状，当预测的性状超过预设个数则未知性状基因为优异多效基因。本发明能够提高知识发现结果的可解释性，增加生物学意义上的特征考虑，进而提高优异多效基因挖掘的可靠性与准确率。

Description

一种优异多效基因的挖掘方法、装置、设备及介质

技术领域

本发明涉及基因挖掘技术领域，具体涉及一种优异多效基因的挖掘方法、装置、设备及介质。

背景技术

在作物育种科学研究中，性状主要受控于关键功能基因。挖掘同时具有抗旱、抗病等优异组合性状的多效基因(一个基因调控的性状大于等于2以上时，为多效基因)并进行功能分析，是获得高产、优质新品种的关键。现有的全基因组关联分析(GWAS)方法和数量性状位点(QTL)定位方法旨在建立基因组数据(遗传变异位点)和表型数据(目标性状)之间的联系，都只考虑了基因组层面的科学数据，而未综合考量其他相关数据(包括候选基因的通路数据、蛋白层面数据等)，难以准确建立基因与性状间的数据联系，知识发现结果的准确率低且可解释性差。因此，现有的方法无法同时考虑到多维度多类型的科学数据，缺少跨物种基因间的关联揭示，为优异多效基因的挖掘带来了挑战。

发明内容

有鉴于此，本发明提供了一种优异多效基因的挖掘方法、装置、设备及介质，以解决优异多效基因挖掘准确率低且可解释性差的问题。

第一方面，本发明提供了一种优异多效基因的挖掘方法，方法包括：

根据优异多效基因挖掘目的选取实体类，并确定实体类内不同实体的数据属性及实体之间的对象属性，基于实体类、数据属性及对象属性构建性状调控基因本体模型；

基于性状调控基因本体模型，从多源数据库中抽取各类实体及其之间的关系，来构建表征不同实体之间关系的三元组，并根据三元组进行多源知识关联融合，来生成性状调控基因知识图谱；

基于性状调控基因知识图谱中不同实体之间的连接关系来构建性状调控基因预测模型，并确认性状调控基因预测模型计算所需的多源数据；

获取多源数据并输入性状调控基因预测模型来计算未知性状基因和不同已知性状基因之间的相似度，若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状，当预测的性状超过预设个数则将该未知性状基因作为优异多效基因。

本发明实施例提供的优异多效基因的挖掘方法，通过选择实体类并确定对应的数据属性和对象属性，构建性状调控基因本体模型，基于性状调控基因本体模型从多源预设数据库中抽取各类实体及其之间的关系，来构建不同实体之间的三元组，基于三元组生成性状调控基因知识图谱，并基于不同实体之间的关系来构建性状调控基因预测模型，获取性状调控基因预测模型计算所需的多源数据来计算未知性状基因与已知性状基因之间的相似度，若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状，当预测的性状超过预设个数则将该未知性状基因作为优异多效基因。本发明通过构建本体模型，并对其进行填充后生成知识图谱，在此基础上进行性状调控基因预测，能够提高知识发现结果的可解释性，增加生物学意义上的特征考虑，进而提高优异多效基因挖掘的准确率。

在一种可选的实施方式中，实体类，包括：蛋白、基因、性状、信号通路、基因符号、蛋白家族、结构域、亚细胞定位、细胞组分、分子功能、生物学过程、代谢通路及酶，并以蛋白、基因及性状作为中心实体；数据属性为对应实体的特性，对象属性为不同实体之间的关系。

本发明通过选取实体类，并根据实体类之间的数据属性及对象属性构建性状调控基因本体模型，能够通过逻辑模型描述实体之间在抽象层次上的关系，可借助模型框架来梳理本体模型中实体及实体核心属性的取值范围，解决性状调控基因发现结果可解释性差的问题。

在一种可选的实施方式中，多源数据库，包括：文献数据库及领域科学数据库。

本发明通过一种组织关联文献数据库和领域科学知识库中多维度科学数据的数据层构建方式，将领域内的最新学科知识融入到体系化学科知识中，能够解决优异多效基因发现困难的问题。

在一种可选的实施方式中，基于性状调控基因本体模型，从多源数据库中抽取各类实体及其之间的关系，来构建表征不同实体之间关系的三元组的过程，包括：以性状实体为检索词，基于文献数据库获取与性状实体相关的蛋白实体，并对性状实体与蛋白实体的关系进行检验后，构建蛋白-有关-性状三元组；基于各类型的领域科学数据库获取不同物种的蛋白序列，并基于蛋白序列抽取蛋白实体的同源蛋白及对应基因，构建蛋白-同源-蛋白三元组及蛋白-对应-基因三元组；基于各类型的领域科学数据库获取与蛋白实体和基因实体相关的结构化数据，对结构化数据进行清洗后，根据不同领域科学数据库中的共用蛋白唯一标识符属性构建除蛋白、基因和性状之外的其他实体之间的三元组。

本发明通过现有数据抽取各类实体之间的关系，并构建对应的三元组，同时对三元组进行多源知识关联融合，能够解决多个来源的有关同一实体或概念的描述信息实现低冗余、高准确率的合并，从而根据三元组对本体模型进行填充，生成涵盖所有实体的性状调控基因知识图谱，为优异多效基因挖掘提供数据支持。

在一种可选的实施方式中，性状调控基因预测模型用于计算未知性状基因与已知性状基因之间的相似度，所需多源数据包括：不同基因之间共连的节点个数、不同基因之间共连的节点类型数量、不同基因所对应蛋白之间的蛋白序列相似度值、不同基因所对应蛋白之间共连的节点个数及不同基因所对应蛋白之间共连的节点类型数量，计算公式如下：

S(g1，g2)＝C(k)·D(k)·S(p1，p2)·C(m)·D(m)

其中，g1为已知性状基因，p1为已知性状基因所对应的蛋白，g2为未知性状基因，p2为未知性状基因所对应的蛋白，S(g1，g2)为未知性状基因与已知性状基因之间的相似度，C(k)为不同基因之间共连的节点个数，D(k)不同基因之间共连的节点类型数量，S(p1，p2)为不同基因所对应蛋白之间的蛋白序列相似度值、C(m)为不同基因所对应蛋白之间共连的节点个数，D(m)为不同基因所对应蛋白之间共连的节点类型数量。

本发明根据知识图谱中不同实体之间的关系结构，提出一种融合图谱中节点的属性信息、拓扑结构信息的性状调控基因挖掘方法，能够解决调控基因预测结果准确率低的问题，并且能够保证优异多效基因挖掘结果的可靠性。

在一种可选的实施方式中，获取性状调控基因预测模型计算所需的多源数据的过程，包括：基于性状调控基因知识图谱查询与已知性状基因g1相连的第一实体节点集合N(g1)和与未知性状基因相连的第二实体节点集合N(g2)；选择第一实体节点集合N(g1)和第二实体节点集合N(g2)中共有的实体节点作为已知性状基因和未知性状基因之间共连的节点，判断公式如下：

k＝N(g1)∩N(g2)

确定已知性状基因和未知性状基因之间共连的节点个数C(k)，并根据节点的实体类型进行划分，获取已知性状基因和未知性状基因之间共连的节点类型数量D(k)；基于性状调控基因知识图谱查询与已知性状基因g1所对应蛋白p1相连的第三实体节点集合N(p1)和与未知性状基因g2所对应蛋白p2相连的第四实体节点集合N(p2)；选择第三实体节点集合N(p1)和第四实体节点集合N(p2)中共有的实体节点作为已知性状基因和未知性状基因所对应蛋白之间共连的节点，判断公式如下：

m＝N(p1)∩N(p2)

确定已知性状基因和未知性状基因所对应蛋白之间共连的节点个数C(m)，并根据节点的实体类型进行划分，获取已知性状基因和未知性状基因所对应蛋白之间共连的节点类型数量D(m)；获取不同蛋白的蛋白序列并计算蛋白序列之间的相似度S(p1，p2)。

本发明通过性状调控基因知识图谱来获取预测模型所需要的多源数据，知识图谱中涵盖了实体的所有节点信息，根据不同基因实体的共连节点来计算基因之间的相似度，共连节点数量越多，共连节点类型越多，代表基因之间的相似度越高，能够实现跨物种间多维度科学数据的融合，增加知识发现结果的可解释性。

在一种可选的实施方式中，确定预设阈值的过程包括：

从预设年份期间的文献数据库中选取已知的基因-有关-性状三元组作为数据集，并计算基因之间的相似度分值；基于基因初次被发现的年份，将数据集按照预设比例进行划分，获得训练集和验证集；将训练集中基因的相似度分值进行升序排序，并由小到大进行遍历，以遍历得到的相似度分值依次作为阈值，并计算对应的Macro-F1值；选取Macro-F1值为最大值时，所对应的基因实体相似度分值作为预设阈值，并根据验证集进行验证后获取最终的预设阈值。

本发明通过对已有的、确定的基因-有关-性状数据进行相似度判断预设阈值的确定，能够保证相似度超过预设阈值的未知性状基因确实与已知性状基因具有相同性状调控效果，从而提高优异多效基因挖掘的准确率与可靠性。

第二方面，本发明提供了一种优异多效基因的挖掘装置，装置包括：

本体模型构建模块，用于根据优异多效基因挖掘目的选取实体类，并确定实体类内不同实体的数据属性及实体之间的对象属性，基于实体类、数据属性及对象属性构建性状调控基因本体模型；

知识图谱生成模块，用于基于性状调控基因本体模型，从多源数据库中抽取各类实体及其之间的关系，来构建表征不同实体之间关系的三元组，并根据三元组进行多源知识关联融合，来生成性状调控基因知识图谱；

预测模型构建模块，用于基于性状调控基因知识图谱中不同实体之间的连接关系来构建性状调控基因预测模型，并确认性状调控基因预测模型计算所需的多源数据；

多效基因挖掘模块，用于获取多源数据并输入性状调控基因预测模型来计算未知性状基因和不同已知性状基因之间的相似度，若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状，当预测的性状超过预设个数则将该未知性状基因作为优异多效基因。

本发明实施例提供的优异多效基因的挖掘装置，通过选择实体类并确定对应的数据属性和对象属性，构建性状调控基因本体模型，基于性状调控基因本体模型从多源预设数据库中抽取各类实体及其之间的关系，来构建不同实体之间的三元组，基于三元组生成性状调控基因知识图谱，并基于不同实体之间的关系来构建性状调控基因预测模型，获取性状调控基因预测模型计算所需的多源数据来计算基因之间的相似度，若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状，当预测的性状超过预设个数则将该未知性状基因作为优异多效基因。本发明通过构建本体模型，并对其进行填充后生成知识图谱，在此础上进行性状调控基因预测，能够提高知识发现结果的可解释性，增加生物学意义上的特征考虑，进而提高优异多效基因挖掘的准确率。

第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的优异多效基因的挖掘方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的优异多效基因的挖掘方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的优异多效基因的挖掘方法的流程示意图；

图2是根据本发明实施例的优异多效基因的挖掘方法的性状调控基因本体模型示意图；

图3是根据本发明实施例的优异多效基因的挖掘方法的基因相似度计算示意图；

图4是根据本发明实施例的优异多效基因的挖掘方法的优异多效基因挖掘示意图；

图5是根据本发明实施例的优异多效基因的挖掘装置的结构框图；

图6是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例适用于对未知性状基因进行多效性状挖掘的场景。本发明实施例提供了一种优异多效基因的挖掘方法，通过构建性状调控基因知识图谱并根据知识图谱进行优异多效基因挖掘以达到提高基因挖掘准确率、增加可解释性的效果。需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种优异多效基因的挖掘方法，可用于上述的计算机，图1是根据本发明实施例的优异多效基因的挖掘方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，根据优异多效基因挖掘目的选取实体类，并确定实体类内不同实体的数据属性及实体之间的对象属性，基于实体类、数据属性及对象属性构建性状调控基因本体模型。

具体地，在本发明实施例中，13种实体类、16种数据属性和14个对象属性来构建性状调控基因本体模型，但不以此为限。其中，13种实体类包括：蛋白(Protein)、基因(Gene)、性状(Trait)、信号通路(Signal Pathway)、基因符号(Gene Symbol)、蛋白家族(ProteinFamily)、结构域(Domain)、亚细胞定位(Subcellular Location)、细胞组分(CellularComponent)、分子功能(Molecular Function)、生物学过程(Biological Process)、代谢通路(Metabolic Pathway)及酶(Enzyme)，并以蛋白、基因及性状作为中心实体，而数据属性为对应实体的特性，对象属性为不同实体之间的关系，以此构建的性状调控基因本体模型如图2所示。以蛋白类型实体为例，通过有关(associates with)对象属性将性状类型与已知性状的蛋白类型进行连接，实现已知性状蛋白与性状关联关系的建立。同时，添加描述蛋白自身数据属性：蛋白标识符(protein identity，protein ID)、物种(species)、首次被发现时间(date of creation)、功能描述(function description)、影响表型描述(phenotype disruption)和PubMed文献编号(PubMed identity，PMID)。此外，通过同源(homologous to)对象属性建立起两个蛋白之间的关联，作为本体模型中的关键对象属性，也是实现跨物种间多维度科学数据融合的重要基础。在此基础上，通过相对应(corresponding to)构建起蛋白和基因间的关联关系，并添加描述基因自身数据属性：基因标识符(gene identity，gene ID)、物种(species)、物理位置(location)、PANTHER数据库编号(panther identity)、转录本名称(transcript name)。通过一致(identify with)对象属性建立蛋白和基因符号间的关联关系，作为跨物种间基因功能知识发现的关键，仅作为举例，不以此为限。

步骤S102，基于性状调控基因本体模型，从多源数据库中抽取各类实体及其之间的关系，来构建表征不同实体之间关系的三元组，并根据三元组进行多源知识关联融合，来生成性状调控基因知识图谱。

具体地，在本发明实施例中，性状调控基因本体模型只是描述了不同实体类型之间存在不同类型的对象属性，但是还需要对性状调控基因本体模型进行填充，得到性状调控基因知识图谱。本发明实施例通过在文献数据库及领域科学数据库内现有且已确定的数据中抽取不同实体及其之间的关系，但不以此为限。其中，文献数据库的文献包含领域内的最新成果，文献中的相关知识被抽取代表了最新的知识和领域研究进展。因为科学家最新的成果发现一般都在先发表在文献中。因此，从文献中抽取的知识是领域内最新颖的知识。领域科学数据库包含着体系化、规范化的领域知识，对这些知识进行重新组织与融合可以提高知识抽取的效率，且扩展领域知识图谱的知识关联，对于领域知识发现具有重要的意义。本发明实施例分别选取Pubmed文献数据库及Unipro领域科学数据库，但是在实际操作中通过Unipro领域科学数据库溯源到Pubmed文献数据库，仅作为举例，不以此为限。两类数据库的融合是将最新颖的知识与规范化和体系化的知识进行融合，既提高了知识抽取的效率，且扩展领域知识图谱的知识关联，进而实现了新的学科知识的发现。

在一种可选的实施方式中，本发明实施例以性状(traits)描述关键词为检索词，通过Uniprot领域科学数据库连接到Pubmed文献数据库中来获取得到蛋白ID，并进一步人工校验文献与性状间的关系，建立蛋白-有关-性状三元组。

在一种可选的实施方式中，本发明实施例在Uniport数据库中下载得到不同物种的蛋白序列，然后利用BLAST计算工具计算不同物种的蛋白序列之间的相似度，从而获取蛋白-蛋白同源关系和蛋白-基因对应关系，构建起蛋白-同源-蛋白三元组及蛋白-对应-基因三元组。

在一种可选的实施方式中，本发明实施例从各类型领域科学数据库中下载有关基因、蛋白相关的结构化数据，并通过pandas进行数据清洗。根据不同科学数据库中的共用蛋白唯一标识符登录号，利用蛋白唯一标识符属性关联进行除蛋白、基因和性状之外的其他实体之间三元组的构建。

在一种可选的实施方式中，本发明实施例对以上所抽取的实体三元组进行多源知识关联融合，主要解决多个来源的有关同一实体或概念的描述信息实现低冗余、高准确率的合并。最终形成涵盖13种实体类、16种数据属性和14个对象属性的性状调控基因知识图谱，图3所示为局部的性状调控基因知识图谱。

步骤S103，基于性状调控基因知识图谱中不同实体之间的连接关系来构建性状调控基因预测模型，并确认性状调控基因预测模型计算所需的多源数据。

具体地，在本发明实施例中，如图3所示，性状调控基因知识图谱中展示了不同实体之间的连接关系，其中基因和性状间知识层次结构所涵盖的科学数据维度广泛。因此本发明实施例综合知识图谱中基因和性状间多维度科学数据的关联特征，提出了一个性状调控基因预测模型，用于计算未知性状基因与已知性状基因之间的相似度，所需多源数据包括：不同基因之间共连的节点个数、不同基因之间共连的节点类型数量、不同基因所对应蛋白之间的蛋白序列相似度值、不同基因所对应蛋白之间共连的节点个数及不同基因所对应蛋白之间共连的节点类型数量，计算公式如下：

S(g1，g2)＝C(k)·D(k)·S(p1，p2)·C(m)·D(m)

步骤S104，获取多源数据并输入性状调控基因预测模型来计算未知性状基因和不同已知性状基因之间的相似度，若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状，当预测的性状超过预设个数则将该未知性状基因作为优异多效基因。

具体地，在本发明实施例中，在性状调控基因知识图谱中获取性状调控基因预测模型计算所需的多源数据，即获取已知性状基因与未知性状基因之间共连的节点个数C(k)和共连的节点类型数量D(k)、已知性状基因与未知性状基因所对应蛋白之间共连的节点个数C(m)和共连的节点类型数量D(m)及所对应蛋白之间的蛋白序列相似度值S(p1，p2)，获取过程如下所示：

1.基于性状调控基因知识图谱查询与已知性状基因g1相连的第一实体节点集合N(g1)和与未知性状基因相连的第二实体节点集合N(g2)；

2.选择第一实体节点集合N(g1)和第二实体节点集合N(g2)中共有的实体节点作为已知性状基因和未知性状基因之间共连的节点，判断公式如下：

k＝N(g1)∩N(g2)

3.确定已知性状基因和未知性状基因之间共连的节点个数C(k)，并根据节点的实体类型进行划分，获取已知性状基因和未知性状基因之间共连的节点类型数量D(k)；

4.基于性状调控基因知识图谱查询与已知性状基因g1所对应蛋白p1相连的第三实体节点集合N(p1)和与未知性状基因g2所对应蛋白p2相连的第四实体节点集合N(p2)；

5.选择第三实体节点集合N(p1)和第四实体节点集合N(p2)中共有的实体节点作为已知性状基因和未知性状基因所对应蛋白之间共连的节点，判断公式如下：

m＝N(p1)∩N(p2)

6.确定已知性状基因和未知性状基因所对应蛋白之间共连的节点个数C(m)，并根据节点的实体类型进行划分，获取已知性状基因和未知性状基因所对应蛋白之间共连的节点类型数量D(m)；

7.获取不同蛋白的蛋白序列并计算蛋白序列之间的相似度S(p1，p2)。

在一种可选的实施方式中，基于性状调控基因预测模型计算出未知性状基因与已知性状基因之间的相似度，若分值越高，则说明该基因与已知性状基因的紧密度越高，调控相同性状的可能性越大。本发明实施例在相似度超过预设阈值时预设未知性状基因与已知性状基因调控相同的性状。在通过多次挖掘后，当挖掘的性状超过预设个数则将该未知性状基因作为优异多效基因，本发明实施例将性状个数大于等于两个的未知性状基因作为优异多效基因，但不以此为限。其中，预设阈值的确定过程如下所示：

1.从预设年份期间的文献数据库中选取已知的基因-有关-性状三元组作为数据集，并计算基因之间的相似度分值。本发明实施例选取1988-2023年文献数据中所抽取的基因-性状关联数据集开展实验，但不以此为限。

2.基于基因初次被发现的年份，将数据集按照预设比例进行划分，获得训练集和验证集。本发明实施例根据现有研究结果将数据集按照8：2的预设比例进行划分，即选取1988-2017年文献中所抽取的基因-性状关联数据集为训练集，2018-2023年的基因-性状关联数据集为验证集。

3.将训练集中基因的相似度分值进行升序排序，并由小到大进行遍历，以遍历得到的相似度分值依次作为阈值，并计算对应的Macro-F1值。其中，Macro-F1值的计算公式如下所示：

其中，TP代表实际为正样本且预测为正样本，FP代表实际为负样本而预测为正样本，FN代表实际为正样本而预测为负样本，TN代表实际为负样本而预测为负样本，Precision代表查准率，Recall代表查全率。

5.选取Macro-F1值为最大值时，所对应的基因实体相似度分值作为预设阈值，并根据验证集进行验证后获取最终的预设阈值。通过以2018-2023年文献数据集开展验证，筛选出验证集中权重分值大于等于阈值的基因预测为性状的调控基因，并进行准确率的评估以验证模型的科学性和有效性，从而确定本发明实施例的预设阈值为2009.44，但不以此为限。

在一种可选的实施方式中，本发明实施例根据性状调控基因预测模型对基因实体LOC_Os05g12260和基因实体LOC_Os02g15640进行相似度计算。从如图3所示的局部性状调控基因知识图谱中可以看到，两个基因实体之间的重合节点数量是13，重合节点类别数量是4，对应的蛋白质是Q6I5C3和Q6EN42，它们之间的蛋白序列相似度为79.191，两个蛋白实体之间的重合节点数量是2，重合节点类别数量是2。根据性状调控基因预测模型得出两个基因实体之间的相似度分值是13*4*79.19*2*2＝16471.72，显著大于基因相似度阈值2009.44。因此推测基因LOC_Os02g15640很可能也与抗旱性状相关，而且2019年经科学家证实水稻基因LOC_Os02g15640确实与抗旱性状相关(Han etal.，2019)，这也进一步证实了性状调控基因预测模型的科学性。

在一种可选的实施方式中，如图4所示，本发明实施例以优异多效小麦基因TraesCS2A02G338300的挖掘为例。经文献报道证实，拟南芥基因AT5G39610与抗盐(Saltresistance)性状相关(He X J，2010)、水稻基因LOC_Os11g03370与抗旱(Droughtresistance)和抗盐性状相关(Zheng X，2009)、水稻基因LOC_Os04g38720与粒重(Grainweight)和株高(Pant height)性状相关(Jiang，Dagang，Chen，2018；Chen X，Lu S，Wang Y，2015)、水稻基因LOC_Os12g03050与抗病(Disease resistant)性状相关(Chromosomes TR，Consortia S，2005)。基于性状调控基因预测模型进行基因相似度计算，计算结果显示小麦基因TraesCS5B02G054200与这4个基因间的相似度分值均显著超过了阈值，因此预测该基因可能具有一因多效的功能，是一个优异多效基因，即该基因可能调控粒重、抗盐、抗旱、抗病和株高五个性状。目前，经文献报道证实，小麦基因TraesCS2A02G338300确实与抗旱性状相关(Lv S，Guo H，Zhang M，2020)。

在一种可选的实施方式中，本发明实施例对所发现的优异多效基因，从转录水平的基因表达量、蛋白水平的蛋白含量测定以及单倍型分析等分子生物学实验方法来进一步验证发现结果的准确性。

本发明实施例提供的优异多效基因的挖掘方法，通过选择实体类并确定对应的数据属性和对象属性，构建性状调控基因本体模型，基于性状调控基因本体模型从多源预设数据库中抽取各类实体及其之间的关系，来构建不同实体之间的三元组，基于三元组生成性状调控基因知识图谱，并基于不同实体之间的关系来构建性状调控基因预测模型，获取性状调控基因预测模型计算所需的多源数据来计算基因之间的相似度，若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状，当预测的性状超过预设个数则将该未知性状基因作为优异多效基因。本发明通过构建本体模型，并对其进行填充后生成知识图谱，在此础上进行性状调控基因预测，能够提高知识发现结果的可解释性，增加生物学意义上的特征考虑，进而提高优异多效基因挖掘的准确率。

本实施例提供一种优异多效基因的挖掘装置，如图5所示，包括：

本体模型构建模块501，用于根据优异多效基因挖掘目的选取实体类，并确定实体类内不同实体的数据属性及实体之间的对象属性，基于实体类、数据属性及对象属性构建性状调控基因本体模型。

知识图谱生成模块502，用于基于性状调控基因本体模型，从多源数据库中抽取各类实体及其之间的关系，来构建表征不同实体之间关系的三元组，并根据三元组进行多源知识关联融合，来生成性状调控基因知识图谱。

预测模型构建模块503，用于基于性状调控基因知识图谱中不同实体之间的连接关系来构建性状调控基因预测模型，并确认性状调控基因预测模型计算所需的多源数据。

多效基因挖掘模块504，用于获取多源数据并输入性状调控基因预测模型来计算未知性状基因和不同已知性状基因之间的相似度，若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状，当预测的性状超过预设个数则将该未知性状基因作为优异多效基因。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的优异多效基因的挖掘装置是以功能单元的形式来呈现，这里的单元是指ASIC(Application Specific Integrated Circuit，专用集成电路)电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图5所示的优异多效基因的挖掘装置。

请参阅图6，图6是本发明可选实施例提供的一种计算机设备的结构示意图，如图6所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，存储器20存储有可由至少一个处理器10执行的指令，以使至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口30，用于该计算机设备与其他设备或通信网络通信。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种优异多效基因的挖掘方法，其特征在于，包括：

根据优异多效基因挖掘目的选取实体类，并确定所述实体类内不同实体的数据属性及实体之间的对象属性，基于所述实体类、数据属性及对象属性构建性状调控基因本体模型；

基于所述性状调控基因本体模型，从多源数据库中抽取各类实体及其之间的关系，来构建表征不同实体之间关系的三元组，并根据所述三元组进行多源知识关联融合，来生成性状调控基因知识图谱；

基于所述性状调控基因知识图谱中不同实体之间的连接关系来构建性状调控基因预测模型，并确认所述性状调控基因预测模型计算所需的多源数据；

获取所述多源数据并输入所述性状调控基因预测模型来计算未知性状基因和不同已知性状基因之间的相似度，若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状，当预测的性状超过预设个数则将该未知性状基因作为优异多效基因。

2.根据权利要求1所述的方法，其特征在于，所述实体类，包括：蛋白、基因、性状、信号通路、基因符号、蛋白家族、结构域、亚细胞定位、细胞组分、分子功能、生物学过程、代谢通路及酶，并以所述蛋白、基因及性状作为中心实体；

所述数据属性为对应实体的特性，所述对象属性为不同实体之间的关系。

3.根据权利要求1所述的方法，其特征在于，所述多源数据库，包括：文献数据库及领域科学数据库。

4.根据权利要求2或3所述的方法，其特征在于，所述基于所述性状调控基因本体模型，从多源数据库中抽取各类实体及其之间的关系，来构建表征不同实体之间关系的三元组的过程，包括：

以性状实体为检索词，基于文献数据库获取与性状实体相关的蛋白实体，并对性状实体与蛋白实体的关系进行检验后，构建蛋白-有关-性状三元组；

基于各类型的领域科学数据库获取不同物种的蛋白序列，并基于蛋白序列抽取蛋白实体的同源蛋白及对应基因，构建蛋白-同源-蛋白三元组及蛋白-对应-基因三元组；

基于各类型的领域科学数据库获取与蛋白实体和基因实体相关的结构化数据，对所述结构化数据进行清洗后，根据不同领域科学数据库中的共用蛋白唯一标识符属性构建除蛋白、基因和性状之外的其他实体之间的三元组。

5.根据权利要求2所述的方法，其特征在于，所述性状调控基因预测模型用于计算未知性状基因与已知性状基因之间的相似度，所需多源数据包括：不同基因之间共连的节点个数、不同基因之间共连的节点类型数量、不同基因所对应蛋白之间的蛋白序列相似度值、不同基因所对应蛋白之间共连的节点个数及不同基因所对应蛋白之间共连的节点类型数量，计算公式如下：

S(g1，g2)＝C(k)·D(k)·S(p1，p2)·C(m)·D(m)

6.根据权利要求5所述的方法，其特征在于，所述获取所述多源数据的过程，包括：

基于所述性状调控基因知识图谱查询与已知性状基因g1相连的第一实体节点集合N(g1)和与未知性状基因相连的第二实体节点集合N(g2)；

选择所述第一实体节点集合N(g1)和第二实体节点集合N(g2)中共有的实体节点作为已知性状基因和未知性状基因之间共连的节点，判断公式如下：

k＝N(g1)∩N(g2)

确定已知性状基因和未知性状基因之间共连的节点个数C(k)，并根据节点的实体类型进行划分，获取已知性状基因和未知性状基因之间共连的节点类型数量D(k)；

基于所述性状调控基因知识图谱查询与已知性状基因g1所对应蛋白p1相连的第三实体节点集合N(p1)和与未知性状基因g2所对应蛋白p2相连的第四实体节点集合N(p2)；

选择所述第三实体节点集合N(p1)和第四实体节点集合N(p2)中共有的实体节点作为已知性状基因和未知性状基因所对应蛋白之间共连的节点，判断公式如下：

m＝N(p1)∩N(p2)

确定已知性状基因和未知性状基因所对应蛋白之间共连的节点个数C(m)，并根据节点的实体类型进行划分，获取已知性状基因和未知性状基因所对应蛋白之间共连的节点类型数量D(m)；

获取不同蛋白的蛋白序列并计算蛋白序列之间的相似度S(p1，p2)。

7.根据权利要求4所述的方法，其特征在于，确定所述预设阈值的过程包括：

从预设年份期间的文献数据库中选取已知的基因-有关-性状三元组作为数据集，并计算基因之间的相似度分值；

基于基因初次被发现的年份，将所述数据集按照预设比例进行划分，获得训练集和验证集；

将所述训练集中基因的相似度分值进行升序排序，并由小到大进行遍历，以遍历得到的相似度分值依次作为阈值，并计算对应的Macro-F1值；

选取Macro-F1值为最大值时，所对应的基因实体相似度分值作为预设阈值，并根据所述验证集进行验证后获取最终的预设阈值。

8.一种优异多效基因的挖掘装置，其特征在于，所述装置包括：

本体模型构建模块，用于根据优异多效基因挖掘目的选取实体类，并确定所述实体类内不同实体的数据属性及实体之间的对象属性，基于所述实体类、数据属性及对象属性构建性状调控基因本体模型；

知识图谱生成模块，用于基于所述性状调控基因本体模型，从多源数据库中抽取各类实体及其之间的关系，来构建表征不同实体之间关系的三元组，并根据所述三元组进行多源知识关联融合，来生成性状调控基因知识图谱；

预测模型构建模块，用于基于所述性状调控基因知识图谱中不同实体之间的连接关系来构建性状调控基因预测模型，并确认所述性状调控基因预测模型计算所需的多源数据；

多效基因挖掘模块，用于获取所述多源数据并输入所述性状调控基因预测模型来计算未知性状基因和不同已知性状基因之间的相似度，若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状，当预测的性状超过预设个数则将该未知性状基因作为优异多效基因。

9.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至7中任一项所述的优异多效基因的挖掘方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至7中任一项所述的优异多效基因的挖掘方法。