CN112509640B - 基因本体项名称生成方法、装置及存储介质 - Google Patents

基因本体项名称生成方法、装置及存储介质 Download PDF

Info

Publication number
CN112509640B
CN112509640B CN202011135040.9A CN202011135040A CN112509640B CN 112509640 B CN112509640 B CN 112509640B CN 202011135040 A CN202011135040 A CN 202011135040A CN 112509640 B CN112509640 B CN 112509640B
Authority
CN
China
Prior art keywords
gene
information
name
gene ontology
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011135040.9A
Other languages
English (en)
Other versions
CN112509640A (zh
Inventor
魏忠钰
张言健
陈琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202011135040.9A priority Critical patent/CN112509640B/zh
Publication of CN112509640A publication Critical patent/CN112509640A/zh
Application granted granted Critical
Publication of CN112509640B publication Critical patent/CN112509640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明的目的是提供一种基因本体项名称生成方法方法、装置及存储介质,所述基因本体项名称生成方法,所述方法包括:获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;至少根据所述基因信息中的单词、所述基因别名和描述、所述目标基因本体项的关联特性,确定所述目标基因本体项名称,避免人为命名造成的低效和不一致问题。

Description

基因本体项名称生成方法、装置及存储介质
技术领域
本发明涉及生物学领域,尤其涉及一种基因本体项名称生成方法、装置及存储介质。
背景技术
一种数据集,基因本体(Gene Ontology,GO),中包含的基因本体项有很多广泛应用于生物学和生物医学。基因本体(Gene Ontology,GO)是一种应用广泛的生物本体论,包含了大量描述基因功能的基因本体项,可以进行分子功能、生物过程和细胞成分三个方面的描述。所述基因本体项像树形结构一样按照层次结构组织,可以用于注释基因。由于基因本体在蛋白质功能分析和疾病关联预测等诸多应用领域的巨大价值,基因本体在生物医学和生物学研究领域得到了广泛的研究。
基因本体的一个主要关注点是基因本体的构建,包括所述基因本体项发现、命名和组织等。通常,所述基因本体项命名是由特定生物学领域的专家手工定义和组织的,鉴于每年出版的大量生物学文献,比较费时和低效的。此外,不同的专家可能会使用不同的表达来描述相同的生物学概念,从而造成所述基因本体项命名的不一致问题。
发明内容
本说明书实施方式的目的是提供一种基因本体项名称生成方法、装置及存储介质,能够根据目标基因本体项对应的基因,通过获取所述基因文本信息,生成所述目标基因本体项名称,避免人为命名造成的低效和不一致问题。
为实现上述目的,本说明书实施方式提供了一种基因本体项名称生成方法,所述方法包括:获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
在一个实施方式中,在至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称的步骤中,包括:构建异构图;其中,所述异构图的节点用于表示所述基因信息中的单词、或所述基因简称、或所述目标基因本体项;所述异构图的边表示所述基因信息中的单词、所述基因简称、所述目标基因本体项之间的关联特性。
在一个实施方式中,在至少根据基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述基因本体项名称的步骤中,包括:基于图卷积网络(GraphConvolutional Network,GCN),进行编码,以更新所述节点。
在一个实施方式中,在至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称的步骤中,包括:基于解码器,逐个生成目标词,以形成所述目标基因本体项名称。
在一个实施方式中,所述异构图的边的至少包括以下之一:所述单词与所述基因别名和描述的边;或,所述基因简称与所述目标基因本体项的边。
在一个实施方式中,确定所述目标基因本体项名称的步骤中还包括:获取样本数据集;其中,所述样本数据集包括至少一个样本基因本体项名称,以及所述样本基因本体项名称对应的至少一组基因信息;根据所述样本数据集,以及根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
在一个实施方式中,所述样本数据集至少包括:训练集、验证集和测试集;其中,所述训练集、所述验证集和所述测试集的词汇量比例为8:1:1。
在一个实施方式中,确定所述目标基因本体项名称的步骤中还包括:根据预设阈值,在所述基因信息中的单词组成的二元组或三元组出现次数大于等于所述阈值时,将该二元组或三元组作为新词。
本说明书实施方式还提供了一种基因本体项名称生成装置,所述装置包括:获取单元,所述获取单元用于获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;确定单元,所述确定单元用于至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
本说明书实施方式还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
由以上本说明书实施方式提供的技术方案可见,本说明书实施方式通过所述目标基因本体项对应的基因,提取所述基因信息,通过所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,生成所述目标基因本体项名称,避免人为命名造成的低效和不一致问题。
附图说明
为了更清楚地说明本说明书实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书提供的一种基因本体项名称生成方法的流程示意图;
图2是本说明书提供的一个名为“细胞生长的调节”的基因本体项和相关基因的别名和描述的树形结构示意图;
图3是本说明书提供的一个样本数据集的统计信息和分布示意图;
图4是本说明书提供的一个基于图的生成模型的总体架构示意图;
图5是本说明书提供的一个专注的权重可视化示意图。
具体实施方式
下面将结合本说明书实施方式中的附图,对本说明书实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本说明书一部分实施方式,而不是全部的实施方式。基于本说明书中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。
请参阅图1。本说明书提供的一种基因本体项名称生成方法。所述基因本体项名称生成方法可以包括以下步骤。
在本实施方式中,执行所述基因本体项名称生成方法的客体可以是具有逻辑运算功能的电子设备。所述电子设备可以是服务器和客户端。所述客户端可以为台式电脑、平板电脑、笔记本电脑、工作站等。当然,客户端并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软体。还可以是一种通过程序开发形成的程序软件,该程序软件可以运行于上述电子设备中。
步骤S10:获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述。
在本实施方式中,所述基因本体项是可以指一种集合,用于描述集合中基因功能。所述基因本体项名称可以是指该集合名称。所述基因本体项可以是一种数据集,基因本体(Gene Ontology,GO)的子集。请参阅图2,所述基因本体项图形结构可以是树形结构,像树一样按照层次结构组织,可以用于注释基因。请参阅图2,Term为基因本体项,GO:0001558为该基因本体项ID,“regulation of cell growth”为该基因本体项名称。在本实施方式中,所述基因本体项名称可以是由一个一个单词按顺序组成。图2中,Gene为该基因本体项对应的至少一个基因,“IGFBP3”等为所述基因简称。图2中:Alias后方内容为基因别名,例如,基因“IGFBP3”的别名为“Insulin like growth factor binding protein 3”。Description后方内容为基因描述,用于描述基因。例如,基因“IGFBP3”的描述为“altering theirinteraction with cell surface receptors”。在本实施方式中,所述基因文本信息可以是指目标基因本体项关联的多组基因信息。其中,请参阅图2,每组所述基因信息至少包括基因简称、基因别名、基因描述。
在本实施方式中,所述基因本体涉及的基因和基因产物词汇可以分为三大类,涵盖生物学的三个方面:细胞组分(cellular component):细胞的每个部分和细胞外环境。分子功能(molecular function):可以描述为分子水平的活性(activity),如催化(catalytic)或结合(binding)活性。生物过程(biological process):生物学过程系指由一个或多个分子功能有序组合而产生的系列事件。其定义有广义和狭义之分,在词义上可以区分为泛指和特指。一般规律是,一个过程是由多个不同的步骤组成。
在本实施方式中,获取基因文本信息可以是从数据集基因本体(Gene Ontology,GO)采集得到,也可以根据所述目标基因本体项对应的多个基因简写,从其他数据集中采集得到。具体的,例如,从Gene Ontology Consortium1中收集基因本体项ID、基因本体项名称和对应基因的ID。另外,从GeneCards获取基因别名和描述,其中包含Universal ProteinResource(UniProt)3的信息。
在本实施方式中,可以从现有GO中的提取样本,形成样本数据集。每个样本都包含一个基因本体项ID、基因本体项名称以及相关的带有别名和描述的基因。将该划分为训练集,验证集和测试集,使用训练集的样本进行训练,在测试集上进行结果的衡量,相应测试集结果可用于评价在模型没有遇见过的样本的表现。
在一个场景示例中,所述样本数据集包含了包含18,092个样本。关于该样本数据集的统计信息和分布如表1和图3所示。
表1样本数据集的统计
Figure BDA0002736398980000041
从本场景示例中,通过计算重合率,得到所述基因本体项名称和相关基因之间共有约51.3%的词,这表明利用所述基因文本信息来生成所述基因本体项名的可行性很大。其中,如果一个所述基因本体项名称中的单词在相应的基因别名或者基因描述中出现了,就说明这个单词重合,对每个基因本体项项中的单词计算重合率(重合词数/所述基因本体项名称单词数),然后取平均得到51.3%。在本场景示例中,还统计所述样本基因本体项名称中经常出现的单词,以进行标记。具体的,例如,统计所述样本基因本体项名称中出现的各个单词及出现次数,当出现次数不小于预设次数时,将该单词进行标记。比如“调节”出现了1000次,比预设次数500次多,将该单词标记为红色。
步骤S12:至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
在本实施方式中,确定所述目标基因本体项名称,可以是通过异构图构建生成模型,通过该模型生成所述目标基因本体项名称。具体的,该模型可以至少包括两个组件,基于图卷积网络(Graph Convolutional Network,GCN)的编码器和基于图注意力的解码器。请参阅图4,基于图的生成模型的总体架构。Prob(“beta”,g)和Prob(“beta”,c)分别表示基于生成模式和复制模式的概率。在本实施方式中,所述解码器是循环神经网络,而所述编码器是基于图卷积网络的模型。在本实施方式输入中不定长的序列是基因文本,对于基因节点的初始化的时候即为GRU(门控循环单元,循环神经网络的一种),在获取这个初始表示之后还使用图卷积网络进行进一步处理。在本实施方式中,所述异构图指的是图中的节点有不同的形式,图中节点之间的关系也有多种不同的形式。
在本实施方式中,所述异构图的节点用于表示所述基因信息中的单词、或所述基因简称、或所述目标基因本体项;所述异构图的边表示所述基因信息中的单词、所述基因简称、所述目标基因本体项之间的关联特性。在本实施方式中,而节点之间为包含关系,所述目标基因本体项包含基因,所述基因包含单词。这些单词来自所述基因文本信息。所述异构图的边,至少包括两种:word-gene(单词与基因的边)和gene-term(基因与目标本体项的边)。word-gene边的值是基因文本中单词的规范化计数,而如果基因可以由基因本体项注释,则gene-term边的值为1。其中,规范化计数,可以是例如一个基因中有7个单词,每个单词只在基因中出现一次,那么每个基因-单词连边的权重就为1/7。而如果是六个单词且只出现一次,每个基因-词连边的权重就为1/6。
在本实施方式中,基于GCN的编码器旨在编码基因、单词和基因本体项之间的关系,以促进基因本体项名称的生成。
在本实施方式中,通过表示学习以获取节点的最初表示和更新节点。具体的,对于基因节点,采用GRU(门控循环单元,循环神经网络的一种)模型编码的所述基因别名和所述基因描述作为初始表示。对于所述目标基因本体项节点,所有相关基因节点表示上的池被用作初始表示。其中,文本初始表示是使用Xaiver随机初始化的长度为300的向量。而GRU的获得句子表示是经过GRU处理过后的长度为300的向量。
在本实施方式中,由于GCN模型对结构信息建模的有效性,通过GCN模型更新节点表示,公式如下:
Figure BDA0002736398980000061
其中
Figure BDA0002736398980000062
A是图的邻接矩阵,I是单位矩阵。X是节点的初始表示,记为X=(t,g1…gm;w1…wn),对应的X’为(t’,g1’…gm’;w1’…wn’),其中,gi,wi,t分别表示第i个基因、所述基因信息中的单词和所述目标基因本体项第t个单词的初始表示。W(0)和W(1)表示GCN第一层和第二层的权重矩阵。ReLU一种人工神经网络中常用的激活函数。
在本实施方式中,所述基于图注意力的解码器用于逐个生成目标词,以形成所述目标基因本体项名称。具体的,利用GCN的注意词节点表示,表示为:
Figure BDA0002736398980000063
αj=softmax(vTtanh(Wa[ht-1;w′j]))
其中,ht-1为前一隐藏状态,w'j为GCN表示学习后的第j个词节点,具体的,为w1’…wn’的第j个表示;v为参数向量,Wa为参数矩阵。
在本实施方式中,考虑到单词在基因文本和所述目标基因本体项名称之间会有重叠,利用CopyNet中的复制机制进行解码,从而可以从所述训练集的词汇表或当前的基因文本中生成单词。其中,所述训练集中的所述样本基因本体项名称的所有单词可以作为训练集的词汇表。初始隐藏状态h0是基因本体项节点表示(也就是t’),由GCN得到。可以通过下述公式更新隐藏状态:
ht=f([ht-1;wt-1;at;w′SR])
其中,其中f为RNN函数,wt-1为前一个生成单词的嵌入词,w'SR为CopyNet中的选择性读取(SR)向量。当前面生成的单词出现在基因文本中时,下一个单词也可能来自于它,因此,w'SR是前面单词的节点表示;否则它就是零向量。
在本实施方式中,所述目标基因本体项名称由逐个单词组成,这些单词可以称为所述目标词。其中,生成目标词yt的概率可以是生成模式和复制模式概率的混合,计算如下:
Figure BDA0002736398980000071
其中ψg(yt)和ψc(xj)分别是生成模式和复制模式的评分函数。基因本体项名称是在解码器中逐个生成的单词,yt表示生成的第t个基因本体项的词,即目标词。
Figure BDA0002736398980000072
其中V表示训练集中的单词词汇,S表示所述基因文本信息中的源词集。
在本实施方式中,还可以是预设阈值,例如,预设阈值为500、1000等,根据预设阈值,在所述基因信息中的单词组成的二元组或三元组出现次数大于等于所述阈值时,将该二元组或三元组作为新词对待。基于所述基因本体项名称有许多固定模式,将出现次数大于等于所述阈值的二元组或三元组作为新词对待,可以优化所述目标基因本体项名称生成方法。
在一个实施场景中,所述样本数据集按8:1:1的比例分为训练集、验证集和测试集。采用BLEU1-3和Rouge1;2;L等评价指标进行生成任务。单词嵌入N(0,1)维数为300,并在训练中更新。GRU和GCN的隐藏单位维数为300。我们使用Xavier方案根据均匀分布初始化参数,使用Dropout(漏码率)防止过拟合的方法。Dropout是一种防止过拟合的方式,比率可以为0.5,0.4,0.3。在一个实施场景中,使用了常见的Dropout比率为0.5。经过在验证集上超参数调优,我们训练采用学习率为1e-3的Adam方法。其中,学习率衡量每一步参数更新的快慢,通过对1e-1到1e-4的学习率的试验(Adam优化器的学习率一般会比较大),发现1e-3的结果更好一些。为了评估所述目标基因本体项名称生成方法模型的有效性,将表现较好的基线模型应用于两类比较。请参阅表2。1)TF-IDF;(2)LexRank(Erkan and Radev,2004);(3)Seq2Seq(Sutskever et al.,2014);(4)HRNNLM(Lin et al.,2015);(5)Transformer(Vaswani et al.,2017)。前两种是提取模型,从所述基因文本信息中提取单词作为词名;后三种是生成模型,从词汇空间中生成单词作为词名。
表2不同模型的整体性能(最好的结果已用粗体标记)
Figure BDA0002736398980000081
在一个实验中,实验结果见表2。通过将语言概率纳入到生成中,生成模型的表现优于提取模型,使得生成的基因本体项名更加连贯。而提取模型通常单独提取关键字,难以形成完整而简短的所述目标基因本体项名称。值得注意的是,基于图形的生成模型通过将基因、单词和所述基因本体项之间的关系整合到生成中,可以取得较好的效果。而现有其他生成模式可能会带来不必要的多基因序列信息,对生成所述目标基因本体项名称产生副作用。
从消融研究中,在将一些频繁出现的二元组或三元组当作新单词处理,然后将其恢复,可以进一步提高性能。此外,复制机制可以帮助改善模型的表现,特别是在衡量BLEU得分,这证明根据基因和所述基因本体项之间的共享词,生成所述基因本体项名称的有效性。
在一个验证基因本体项名称生成方法有效性的实验中,随机抽取一个生成的与真实数据相同的所述基因本体项名称,并绘制所述基因本体项名称中的单词及其对应的基因别名的注意热图。请参阅图5。图5为专注的权重可视化视图。纵轴和横轴分别表示基因本体项名称和基因别名中的单词,图中每个单位方块代表生成纵轴中的每个基因本体项的词中对各个基因别名的词的注意力权重分配,颜色越深,代表注意力分配的权重越大。在基因别名中代表一个基因组的Tweety与词名中作为转运体和活性的词高度相关,这表明了建模词、基因和词之间的关系以提高词名生成性能的潜力。所述基因本体项名称生成方法是有效的。
在一个实施方式中,在至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称的步骤中,包括:构建异构图;其中,所述异构图的节点用于表示所述基因信息中的单词、或所述基因别名和描述、或所述目标基因本体项;所述异构图的边表示所述基因信息中的单词、所述基因简称、所述目标基因本体项之间的关联特性。
在一个实施方式中,在至少根据基因信息中的单词、所述基因别名和描述、所述目标基因本体项的关联特性,确定所述基因本体项名称的步骤中,包括:基于图卷积网络(Graph Convolutional Network,GCN),进行编码,以更新所述节点。
在一个实施方式中,在至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称的步骤中,包括:基于解码器,逐个生成目标词,以形成所述目标基因本体项名称。
在一个实施方式中,所述异构图的边的至少包括以下之一:所述单词与所述基因简称的边;或,所述基因简称与所述目标基因本体项的边。
在一个实施方式中,确定所述目标基因本体项名称的步骤中还包括:获取样本数据集;其中,所述样本数据集至少包括至少一个样本基因本体项名称,以及所述样本基因本体项名称对应的至少一组基因信息;根据所述样本数据集,以及根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
在一个实施方式中,所述样本数据集至少包括:训练集、验证集和测试集;其中,所述训练集、所述验证集和所述测试集的词汇量比例为8:1:1。所述训练集、所述验证集和所述测试集的词汇量比例可以按照如下比例划分4:3:3,6:2:2,8:1:1,相比之下8:1:1训练集的比例会大一些,数据更大能够减少过拟合的现象。
在一个实施方式中,确定所述目标基因本体项名称的步骤中还包括:根据预设阈值,在所述基因信息中的单词组成的二元组或三元组出现次数大于等于所述阈值时,将该二元组或三元组作为新词。
本说明书实施方式还提供了一种基因本体项名称生成装置,如上面的实施方式所述。由于一种基因本体项名称生成装置解决问题的原理与一种基因本体项名称生成方法相似,因此一种基因本体项名称生成装置的实施可以参见一种基因本体项名称生成方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。该装置具体可以包括:获取单元,所述获取单元用于获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;确定单元,所述确定单元用于至少根据所述基因信息中的单词、所述基因别名与描述、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
本说明书实施方式还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;至少根据所述基因信息中的单词、所述基因别名和描述、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
在本实施方式中,所述存储器包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本说明书实施方式提出一种基因本体项名称方法、装置及存储介质最本质的特点是,至少根据所述基因信息中的单词、所述基因别名和描述、所述目标基因本体项的关联特性,确定所述目标基因本体项名称,避免人为命名造成的低效和不一致问题。
尽管本申请内容中提到一种基因本体项名称方法、装置或计算机存储介质,但是,本申请并不局限于必须是行业标准或实施例所描述的情况等,某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、处理、输出、判断方式等的实施例,仍然可以属于本申请的可选实施方案范围之内。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请。

Claims (6)

1.一种基因本体项名称生成方法,其特征在于,所述方法包括:
获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;
至少根据所述基因信息中的单词、所述基因别名和描述、所述目标基因本体项的关联特性,确定所述目标基因本体项名称,其中包括构建异构图;其中,所述异构图的节点用于表示所述基因信息中的单词、或所述基因简称、或所述目标基因本体项;所述异构图的边表示所述基因信息中的单词、所述基因别名和描述、所述目标基因本体项之间的关联特性;还包括基于图卷积网络(Graph Convolutional Network,GCN),进行编码,以更新所述节点;
其中,该方法还包括以下步骤:
获取样本数据集;其中,所述样本数据集包括至少一个样本基因本体项名称,以及所述样本基因本体项名称对应的至少一组基因信息;
根据所述样本数据集,以及根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称;
其中,所述样本数据集至少包括:训练集、验证集和测试集;其中,所述训练集、所述验证集和所述测试集的词汇量比例为8:1:1。
2.如权利要求1所述方法,其特征在于,在至少根据所述基因信息中的单词、所述基因别名和描述、所述目标基因本体项的关联特性,确定所述目标基因本体项名称的步骤中,包括:
基于解码器,逐个生成目标词,以形成所述目标基因本体项名称。
3.如权利要求1所述方法,其特征在于,所述异构图的边的至少包括以下之一:
所述单词与所述基因简称的边;
或,所述基因与所述目标基因本体项的边。
4.如权利要求1所述方法,其特征在于,确定所述目标基因本体项名称的步骤中还包括:
根据预设阈值,在所述基因信息中的单词组成的二元组或三元组出现次数大于等于所述阈值时,将该二元组或三元组作为新词。
5.一种基因本体项名称生成装置,其特征在于,所述装置包括:
获取单元,所述获取单元用于获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;
确定单元,所述确定单元用于至少根据所述基因信息中的单词、所述基因别名和描述、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
6.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:
获取基因文本信息,所述基因文本信息至少包括目标基因本体项关联的至少一组基因信息,每组所述基因信息至少包括基因简称、基因别名、基因描述;
至少根据所述基因信息中的单词、所述基因简称、所述目标基因本体项的关联特性,确定所述目标基因本体项名称。
CN202011135040.9A 2020-10-22 2020-10-22 基因本体项名称生成方法、装置及存储介质 Active CN112509640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011135040.9A CN112509640B (zh) 2020-10-22 2020-10-22 基因本体项名称生成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011135040.9A CN112509640B (zh) 2020-10-22 2020-10-22 基因本体项名称生成方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112509640A CN112509640A (zh) 2021-03-16
CN112509640B true CN112509640B (zh) 2022-08-19

Family

ID=74955052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011135040.9A Active CN112509640B (zh) 2020-10-22 2020-10-22 基因本体项名称生成方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112509640B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240352A1 (en) * 2004-04-23 2005-10-27 Invitrogen Corporation Online procurement of biologically related products/services using interactive context searching of biological information
CN101359349A (zh) * 2008-07-01 2009-02-04 上海大学 一种基因注释语义相似度的计算方法
CN109325226B (zh) * 2018-09-10 2023-04-14 广州杰赛科技股份有限公司 基于深度学习网络的术语提取方法、装置与存储介质
CN109492691A (zh) * 2018-11-07 2019-03-19 南京信息工程大学 一种超图卷积网络模型及其半监督分类方法
CN110349632B (zh) * 2019-06-28 2020-06-16 南方医科大学 一种从PubMed文献筛选基因关键词的方法
CN111581969B (zh) * 2020-05-08 2023-03-31 医渡云(北京)技术有限公司 医疗术语向量表示方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112509640A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
Kim et al. Application of machine learning in rheumatic disease research
CN113535984A (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
US20220130541A1 (en) Disease-gene prioritization method and system
Nssibi et al. Advances in nature-inspired metaheuristic optimization for feature selection problem: A comprehensive survey
US20220188657A1 (en) System and method for automated retrosynthesis
Hanson et al. LCA*: an entropy-based measure for taxonomic assignment within assembled metagenomes
CN113554175B (zh) 一种知识图谱构建方法、装置、可读存储介质及终端设备
Raza et al. A parallel rough set based dependency calculation method for efficient feature selection
Ayadi et al. A memetic algorithm for discovering negative correlation biclusters of DNA microarray data
Bezáková et al. Graph model selection using maximum likelihood
CN112529071A (zh) 一种文本分类方法、系统、计算机设备和存储介质
Ekstrøm et al. Sequential rank agreement methods for comparison of ranked lists
Yang et al. A heuristic sampling method for maintaining the probability distribution
Mantes et al. Neural admixture: rapid population clustering with autoencoders
Sun et al. SEE: a novel multi-objective evolutionary algorithm for identifying SNP epistasis in genome-wide association studies
Ramezani Modern statistical modeling in machine learning and big data analytics: Statistical models for continuous and categorical variables
Shi et al. A vector representation of DNA sequences using locality sensitive hashing
Lorena et al. Evaluation of noise reduction techniques in the splice junction recognition problem
Xia et al. A model-free feature selection technique of feature screening and random forest-based recursive feature elimination
CN112509640B (zh) 基因本体项名称生成方法、装置及存储介质
Foote et al. A computational analysis of social media scholarship
CN116049644A (zh) 特征筛选和聚类分箱方法、装置、电子设备及存储介质
CN115410642A (zh) 一种生物关系网络信息建模方法与系统
Hasanin et al. Experimental Studies on the Impact of Data Sampling with Severely Imbalanced Big Data
Ghosh et al. Understanding Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant