CN116343913A - 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 - Google Patents

基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 Download PDF

Info

Publication number
CN116343913A
CN116343913A CN202310248570.1A CN202310248570A CN116343913A CN 116343913 A CN116343913 A CN 116343913A CN 202310248570 A CN202310248570 A CN 202310248570A CN 116343913 A CN116343913 A CN 116343913A
Authority
CN
China
Prior art keywords
phenotype
genes
species
semantic
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310248570.1A
Other languages
English (en)
Other versions
CN116343913B (zh
Inventor
郭洋帆
贾佳
侯宗柳
孟明耀
李琳
王晓丹
罗薇
张爱丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanan Hospital of Kunming City
Original Assignee
Yanan Hospital of Kunming City
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanan Hospital of Kunming City filed Critical Yanan Hospital of Kunming City
Priority to CN202310248570.1A priority Critical patent/CN116343913B/zh
Publication of CN116343913A publication Critical patent/CN116343913A/zh
Application granted granted Critical
Publication of CN116343913B publication Critical patent/CN116343913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法,属于计算机技术领域,包括以下步骤:S1:基于实时更新的公开数据库创建人类及模式动物的表型—基因型关系数据集;S2:构建基于表型语义关联基因的聚类调控网络预测模型SSGPN(Semantic Similarity of Genotype‑Phenotype Network);S3:利用所述数据集训练所述SSGPN模型;S4:将待查询的表型术语输入训练好的SSGPN模型中,计算关系数据集的表型信息含量和语义相关性,倒序输出与所述待查询的表型术语相关的基因及对应的语义相似度值。

Description

基于表型语义关联基因聚类调控网络预测单基因遗传病潜在 致病机制的分析方法
技术领域
本发明属于计算机技术领域,具体涉及一种基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法。
背景技术
随着对疾病与基因关系研究的不断深入,标准化的人类表型可以越来越准确地描述已知疾病所呈现的异常表型及其层级关系。这使得通过对表型之间的语义相似性进行自动量化,进而为疾病诊断及发现致病基因提供了新的可能性。自2009年以来,先后出现了一系列基于基因型—表型—疾病三者关系,进行遗传病辅助诊断的工具及应用。它们分别采用了不同的数学模型及算法,用于对三者关系进行分析。例如,有的通过自然语言处理(Natural Language Processing,NLP)方法优化对于罕见遗传疾病表型的查询;有的通过随机漫步(Random Walk,RW)方法,确定表型相关致病基因的优先级。
对以上提及的多种基于不同数学模型的基因型——表型相关性预测算法进行分析及试用后可知,这些算法仅基于已知的人源基因型表型知识图谱建立预测模型,没有收录来源于模式动物的研究成果。近年来,基于各类模式动物,构建出大量具有典型人类疾病特征的动物模型,基于更有力的证据证实了大量基因型-表型之间的相关性。已知模型均未包含此类基因型表型关系研究的最新科研成果,将会造成模型的偏倚和预测结果的不准确。因此,亟待开发一个涉及多个物种,包含多个数据来源,基于证据可信度加权评分的基因型——表型相关性预测算法,已满足对于遗传病致病机制研究的实际需求。
发明内容
有鉴于此,本发明的目的在于提供一种适用于单基因遗传病致病机制研究的语义关联聚类调控网络建模方法,使用基于语义相似度构建的基因型——表型预测网络发现单基因遗传病潜在致病机制。基于基因型—表型关系,以及各表型本体之间的相互关系,计算各基因与目标表型之间的关联系数,从而推测与特定表型相关的致病基因。可通过该方法的运用,为开发单基因遗传病的机制研究和诊疗方案提供数据支撑和算法支撑。
为达到上述目的,本发明提供如下技术方案:
一种基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法,包括以下步骤:
S1:基于实时更新的公开数据库创建人类及模式动物的表型—基因型关系数据集;
S2:构建基于表型语义关联基因的聚类调控网络预测模型SSGPN(SemanticSimilarity of Genotype-Phenotype Network);
S3:利用所述数据集训练所述SSGPN模型;
S4:将待查询的表型术语输入训练好的SSGPN模型中,计算关系数据集的表型信息含量和语义相关性,倒序输出与所述待查询的表型术语相关的基因及对应的语义相似度值。
进一步,步骤S1中,使用实时更新的公开数据库中的数据资源,分别提取基因—疾病,疾病—表型,基因型—表型之间的数据关系,并将其相互整合,构建一个完整的基因型—表型关系数据集。
在该数据集中,p值代表与某个特定表型及其子表型相关的基因数量,特定表型对应的基因数量来源于所有使用的参考数据库中的基因型—表型关系,根据不同物种的证据强度程度赋予权重,进行加和计算:
p=avg[fhuman∑(phuman)+fspecies1∑(pspecies1)+...+fspeciesn∑(pspeciesn)]
其中fhuman表示人源基因型表型数据库的权重评分,∑(phuman)表示人源基因型表型数据库中特定表型及其子表型相关的基因交集后的数量,fspecies表示特定物种来源的表型数据库的权重评分,∑(pspecies)表示该物种来源的表型数据库库中特定表型及其子表型相关的基因交集后的数量;
Ω代表与模型中收录的与单基因遗传病相关的所有基因的数量,根据不同物种对应人类的同源基因取并集计算:
Ω=(Ωhuman)∪(fhomologΩspecies(1))∪...∪(fhomologΩspecies(n))
其中Ωhumax表示人源基因型表型数据库收录的基因数量,fhomolog表示特定物种来源数据库的权重,Ωspecies1~Ωspecies(n)表示特定物种来源数据库收录的基因数量;
特定表型的IC值,是由特定表型与致病基因的关联程度所决定的,如公式所示:
ICp=-ln(|p|/|Ω|)
其中ICp表示特定表型P的信息含量,|p|表示该表型及其子表型相关的基因数量,|Ω|表示整个数据集网络中的基因数量。
进一步,步骤S2中所述的SSGPN模型用于计算输入的查询表型术语与数据集中标注了关联基因的表型术语之间的相似度值,其计算方法如下:
S21:输入一个或多个待查询表型术语Qp;
S22:将每一个输入的表型术语Qp,与数据集中各个基因的所有相关表型术语Dp做比对,找到其中相似度值最大的表型MICA(Qp,Dp)
Figure BDA0004126885250000031
其中CA(Dp1)~CA(Dpn)表示该基因中每个Qp与Dp之间的共同父系表型,取其中最大的作为相似度值最大的表型MICA。
S23:将获得所述表型MICA(Qp,Dp)的信息含量IC(MICA(Qp,Dp)),作为Dp与Qp的相似度值;将所有相似度最大的值取平均数,得到待查询表型与数据集中表型相关基因的语义相似度:
Figure BDA0004126885250000032
S24:对步骤S23中的公式进行优化,使用其对称版本,分别计算待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,及该基因对应表型术语集D与待查询表型术语Q的语义相似度,并取其平均值,公式如下:
simsymmetric(Q,D)=avg[sim(Q→D)+sim(Q→Q)]
其中,simsymmetric(Q,D)表示数据集表型术语D与待查询表型术语Q的对称语义相似度,sim(Q→D)表示待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,sim(D→Q)表示该基因对应表型术语集D与待查询表型术语Q的语义相似度;
S25:将输入表型与数据集中所有的基因进行对称语义相似度计算;
S26:按对称语义相似度的值从高到低排序输出与输入表型相关的基因,并得到其对应的语义相似度值。
本发明的有益效果在于:基于本体论结构化的表型和基因型数据存在层级关系,对其语义相似性进行量化分析可实现对两者相关性的评估,并可根据量化相关系数研究功能相近的基因之间的聚类调控网络机制,本发明对多个基因型表型数据库的数据进行结构化整合,建立综合性的疾病—基因型—表型数据集,创新性地将语义相似度理论与基因聚类网络调控相结合,建立相关预测模型,从数据关系层面为开发单基因遗传病的机制研究提供数据支撑和算法支撑,提高了准确度和易用性。
本发明的其他优点、目标和特征将在随后的说明书中进行阐述,并且在某种程度上对本领域技术人员而言是显而易见的,或者本领域技术人员可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为不同数据库间的数据相互关联结构图;
图2为最大信息量共同父表型示意图;
图3为语言相似度计算示意图;
图4为SSGPN模型的构建与分析流程示意图;
图5为利用SSGPN模型对先天性糖基化障碍的致病基因进行预测的实际效果图,其中A为样本的相似度得分分布情况,B为SSGPN模型的ROC性能评估曲线。
具体实施方式
步骤一:创建表型—基因型关系数据集
想要根据遗传病异常表型预测新的潜在靶点基因和突变位点,首要基础就是尽可能完整地掌握现有疾病—表型—致病基因之间的本体结构关系、相互作用关系、以及基因和致病变异之间的数据关系。为此,可分别使用ClinVar、MedGen、Orphanet、HPO、OMIM等实时更新的公开数据库中的数据资源,分别提取了基因—疾病,疾病—表型,基因型—表型之间的数据关系,并将其相互整合,构建一个相对完整的基因型—表型关系数据集,作为训练SSGPN模型的基础数据集(训练集)。不同数据库间的数据相互关联结构如图1所示。
步骤二:利用SSGPN模型计算关系数据集的表型信息含量和语义相关性:
(1)临床诊断中,异常表型对于鉴定疾病的重要程度往往决定于其特异性。根据本体论的概念,特异性是由术语的信息含量(information content,IC)所决定的。术语的频率被定义为由该术语及其派生术语所注释对象的出现比例。IC值则是该频率的负自然对数。因此,随着从根部术语逐渐向更具体的叶部术语变化,IC值是在逐渐升高的。在针对遗传疾病表型—基因型相关性的研究中,特定表型的IC值,是由特定表型与致病基因的关联程度所决定的。|p|值代表与某个特定表型及其子表型相关的基因数量,|Ω|代表与模型中收录的与单基因遗传病相关的所用基因的数量,如公式1所示:
ICp=-ln (|p|/|Ω|) (1)
(2)对于两个不同的表型,它们之间的最大信息量共同父表型(most informativecommon ancestor,MICA)的IC值,可被认为是这两个表型之间的相似度,具体如公式2所示。例如,对于先天性糖基化障碍疾病CDG,如图2所示,CDG的两个典型表型:大脑皮层萎缩(Cerebral cortical atrophy,HP:0002120)和小脑发育缺陷/发育不全(Aplasia/Hypoplasia of the cerebellum,HP:0007360),其最近的共同父系节点表型是脑形态学异常(Abnormality of brain morphology,HP:0012443),则HP:0002120和HP:0007360的相似度值就等于HP:0012443的IC值。
Figure BDA0004126885250000051
其中CA(Dp1)~CA(Dpn)表示该基因中每个Qp与Dp之间的共同父系表型,取其中最大的作为相似度值最大的表型MICA。
基于以上方法,可以计算输入的待查询表型术语Q与数据集中标注了关联基因的表型术语D之间的相似度值。具体来说,首先可将每一个输入的查询表型Qp,与数据集中各个基因的所有相关表型Dp做比对,找到其中相似度值最大的表型(MICA(QpDp)),并获得该相似度值IC(MICA(QpDp))。之后,将所有相似度最大的值取平均数,就能得到查询表型与数据集中表型相关基因的语义相似度(semantic similarity)。具体如公式3所示:
Figure BDA0004126885250000052
例如,使用淋巴管扩张(HP:0031842)和肝硬化(HP:0001394)作为输入表型,查询它们与PMM2基因和MPI基因的语义相似度。根据训练集可知,MPI有58个相关表型,其中包含输入的HP:0031842和HP:0001394。因此,根据公式,MPI和输入表型的语义相似度,就是这两个表型的IC值的平均数,计算可得sim(QP,MPI)=5.155。而对于PMM2来说,其有20个相关表型,其中包含HP:0031842,但并不包含HP:0001394。根据HPO结构关系可知,HP:0001394与MPI相关表型中的肝纤维化(HP:0001395)相似度最高,拥有共同父表型异常肝脏形态(HP:0410042)。则HP:0410042的IC值就是两者的MICA值。根据公式计算可得,输入表型与PMM2的语义相似度sim(QP,PMM2)=4.245。具体计算过程如图2所示。
(3)观察公式可知,查询表型与数据集中表型的匹配度越高,返回的术语间相似度值也就越大。图2展示了该方法的基本步骤,这种方法可称为本体相似度查询法(Ontological Similarity Search,OSS)。然而,上方公式并没有考虑到除了与查询表型有最大相似度的表型之外,每个基因还会有其他的相关表型。例如如下情况:数据集中两个基因(GeneA and GeneB)的相关表型中,都正好有与查询表型一致的表型,但GeneA比GeneB还存在更多的与查询表型相似,但不完全一样的表型。根据经验可知,在这种情况下,GeneA比GeneB与查询表型更相关。但如只按照上述公式的方法计算,则查询表型与两个基因之间的语言相似度是一样的,这显然与事实情况不符。因此可对上述公式进行优化,使用其对称版本,分别计算待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,及该基因对应表型术语集D与待查询表型术语Q的语义相似度,并取其平均值。这样就能得到更准确的对称语义相似度(symmetric semantic similarity)。具体如公式4所示:
sinsymmetric(Q,D)=avg[sim(Q→D)+sin(D→Q)] (4)
其中,sinsymmetric(Q,D)表示数据集表型术语D与待查询表型术语Q的对称语义相似度,sin(Q→D)表示待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,sim(D→Q)表示该基因对应表型术语集D与待查询表型术语Q的语义相似度。
由此可根据对称语义相似度来评价输入表型与特定基因之间的相关性。语义相似度的值越大,就代表两者的相关程度越高。将输入表型与数据集中所有的基因进行语义相似度计算,结果按倒序排序,就能得到与输入表型最相关基因,并得到其对应的语义相似度值(valueof symmetric semantic similarity,Simsymmetric)。
作为评价输入表型与基因相关程度的对称语言相似度Simsymmetric,其得分会受到查询术语和数据库中表型术语的数量和特异性的影响。因此,无法对于Simsymmetric设定一个统一的阈值,作为评价匹配程度好坏的标准,只能针对同一批输入表型创建的模型,评价特定基因与表型之间的相关性。对于这种情况,可通过对特定基因相似度进行归一化,作为其预测概率,具体如公式5所示:
Figure BDA0004126885250000061
所述构建SSGPN模型的理论方法的具体流程包括:
(1)收集并整合有关遗传病——基因型——表型的多个公开数据资源;利用收集的多来源数据资源构建一个完整的表型-基因型关系数据集;
(2)通过信息量及语义相似度理论计算各表型之间的语义相似度值;
(3)计算特定表型与基因之间的相关性,建立基于输入表型对潜在致病基因进行预测的SSGPN模型;
(4)将多个疾病亚型的典型表型作为模型输入表型,预测致病基因,量化评价SSGPN模型的预测能力;
(5)根据疾病的综合表型组合,利用SSGPN预测潜在新致病基因,通过第三方数据对预测结构进一步验证及研究。实验流程如图4所示。
对于模型的评价标准,除了常用的混淆矩阵外,还可以使用ROC曲线作为对该模型的评估方法。图5展示了利用该模型对先天性糖基化障碍(Congenital disorder ofglycosylation,CDG)的致病基因进行预测的实际效果,其中A为样本的相似度得分分布情况,B为SSGPN模型的ROC性能评估曲线。先天性糖基化障碍是一系列会导致糖基化异常的代谢类遗传疾病的统称。CDG的患者往往都是缺少糖基化过程中所必须的酶,导致糖基化过程出现异常。患者的CDG类型取决于缺少哪种类型的酶。根据最新的研究成果,现已发现的CDG类型已超过130种,且随着每年新的糖基化障碍病例的发现,该数字还在不断增长中。CDG大多是单基因遗传疾病,遗传模式通常为常染色体隐性遗传,但也有少部分呈现常染色体显性遗传和性伴遗传模式。按照实验流程,为了对SSGPN模型的有效性进行评价,我们首先将不同CDG亚型的临床特征作为输入表型,使用SSGPN模型预测其对应的致病基因。具体来说,我们将Orphanet数据库中收录的共计28个CDG亚型的表型数据,分别作为28个患有CDG亚型的模拟患者样本数据,合并9例非CDG患者亚型数据,输入SSGPN模型,计算各样本分别对应的基因语义相似度列表,并查询其真实致病基因的语义相似度值,以及计算归一化得分。将各样本数据分别进行计算后,结果如图5A所示。28个CDG亚型的归一化系数平均值为0.848。另一方面,CDG亚型样本的预测结果和非CDG样本的差距也进一步明显,这意味着模型可以更容易的区分正样本和负样本。通过ROC曲线对模型预测结果评价后可知(图5B),对于表型数量大于5的CDG亚型样本及非CDG样本,ROC曲线下的面积(Area under curve,AUC)为0.893,属于较为理想的预测模型。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施示例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (3)

1.一种基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法,其特征在于:包括以下步骤:
S1:基于实时更新的公开数据库创建人类及模式动物的表型-基因型关系数据集;
S2:构建基于表型语义关联基因的聚类调控网络预测模型SSGPN;
S3:利用所述数据集训练所述SSGPN模型;
S4:将待查询的表型术语输入训练好的SSGPN模型中,计算关系数据集的表型信息含量和语义相关性,倒序输出与所述待查询的表型术语相关的基因及对应的语义相似度值。
2.根据权利要求1所述的基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法,其特征在于:步骤S1中,使用实时更新的公开数据库中的数据资源,分别提取基因-疾病,疾病-表型,基因型-表型之间的数据关系,并将其相互整合,构建一个完整的基因型-表型关系数据集;
一个完整的基因型-表型关系数据集中,p值代表与某个特定表型及其子表型相关的基因数量,特定表型对应的基因数量来源于所有使用的参考数据库中的基因型-表型关系,根据不同物种的证据强度程度赋予权重,进行加和计算:
p=avg[fhuman∑(phuman)+fspecies(1)∑(pspecies(1))+…+fspecies(n)∑(pspecies(n))]
其中fhuman表示人源基因型表型数据库的权重评分,∑(phuman)表示人源基因型表型数据库中特定表型及其子表型相关的基因交集后的数量,fspecies表示特定物种来源的表型数据库的权重评分,∑(pspecies)表示该物种来源的表型数据库库中特定表型及其子表型相关的基因交集后的数量;
Ω代表与模型中收录的与单基因遗传病相关的所有基因的数量,根据不同物种对应人类的同源基因取并集计算:
Ω=(Ωhuman)∪(fhomologΩspecies(1))∪...∪(fhomologΩspecies(n))
其中Ωhuman表示人源基因型表型数据库收录的基因数量,fhomolog表示特定物种来源数据库的权重,Ωspecies1~Ωspecies(n)表示特定物种来源数据库收录的基因数量;
特定表型的IC值,是由特定表型与致病基因的关联程度所决定的,如公式所示:
ICp=-ln(|p|/|Ω|)
其中ICp表示特定表型P的信息含量,|p|表示该表型及其子表型相关的基因数量,|Ω|表示整个数据集网络中的基因数量。
3.根据权利要求1所述的基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法,其特征在于:步骤S2中所述的SSGPN模型用于计算输入的查询表型术语与数据集中标注了关联基因的表型术语之间的相似度值,其计算方法如下:
S21:输入一个或多个待查询表型术语Qp;
S22:将每一个输入的表型术语Qp,与数据集中各个基因的所有相关表型术语Dp做比对,找到其中相似度值最大的表型MICA(Qp,Dp):
Figure FDA0004126885240000021
其中CA(Dp1)~CA(Dpn)表示该基因中每个Qp与Dp之间的共同父系表型,取其中最大的作为相似度值最大的表型MICA;
S23:将获得所述表型MICA(Qp,Dp)的信息含量IC(MICA(Qp,Dp)),作为Dp与Qp的相似度值;将所有相似度最大的值取平均数,得到待查询表型与数据集中表型相关基因的语义相似度:
Figure FDA0004126885240000022
S24:对步骤S23中的公式进行优化,使用其对称版本,分别计算待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,及该基因对应表型术语集D与待查询表型术语Q的语义相似度,并取其平均值,公式如下:
simsymmetric(QiD)=avg[sim(Q→D)+sim(D→Q)]
其中,simsymmetric(Q,D)表示数据集表型术语D与待查询表型术语Q的对称语义相似度,sim(Q→D)表示待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,sim(D→Q)表示该基因对应表型术语集D与待查询表型术语Q的语义相似度;
S25:将输入表型与数据集中所有的基因进行对称语义相似度计算;
S26:按对称语义相似度的值从高到低排序输出与输入表型相关的基因,并得到其对应的语义相似度值。
CN202310248570.1A 2023-03-15 2023-03-15 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 Active CN116343913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310248570.1A CN116343913B (zh) 2023-03-15 2023-03-15 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310248570.1A CN116343913B (zh) 2023-03-15 2023-03-15 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法

Publications (2)

Publication Number Publication Date
CN116343913A true CN116343913A (zh) 2023-06-27
CN116343913B CN116343913B (zh) 2023-11-14

Family

ID=86878367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310248570.1A Active CN116343913B (zh) 2023-03-15 2023-03-15 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法

Country Status (1)

Country Link
CN (1) CN116343913B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118503687A (zh) * 2024-07-19 2024-08-16 国网山东省电力公司信息通信公司 基于预训练语言模型的电力数据质量特征提取方法及系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989297A (zh) * 2009-07-30 2011-03-23 陈越 用于计算机上的疾病基因相关药物发掘系统
CN104094266A (zh) * 2011-11-07 2014-10-08 独创系统公司 用于识别原因性基因组变体的方法和系统
US20150310163A1 (en) * 2012-09-27 2015-10-29 The Children's Mercy Hospital System for genome analysis and genetic disease diagnosis
US20170242959A1 (en) * 2016-02-24 2017-08-24 Ucb Biopharma Sprl Method and system for quantifying the likelihood that a gene is casually linked to a disease
CN108363902A (zh) * 2018-01-30 2018-08-03 成都奇恩生物科技有限公司 一种致病遗传变异的精确预测方法
CN109155150A (zh) * 2016-01-18 2019-01-04 朱利安.高夫 从基因型测定表型
CN109558493A (zh) * 2018-10-26 2019-04-02 复旦大学 一种基于疾病本体的疾病相似度计算方法
CN109830261A (zh) * 2019-01-23 2019-05-31 西南大学 一种筛选数量性状候选基因的方法
CN110060730A (zh) * 2019-04-03 2019-07-26 安徽大学 一种基因模块分析方法
CN112289436A (zh) * 2020-10-19 2021-01-29 浙江大学 一种基于表型距离信息构建罕见病地图及导航的方法
CN113519028A (zh) * 2019-03-11 2021-10-19 先锋国际良种公司 用于估算或预测基因型和表型的方法和组成
US20210375407A1 (en) * 2017-10-06 2021-12-02 The Trustees Of Columbia University In The City Of New York Diagnostic genomic predictions based on electronic health record data
CN115547408A (zh) * 2022-07-15 2022-12-30 宋炜宸 一种基于人体全基因组基因型预测个体表型的方法和设备
CN115641956A (zh) * 2022-10-26 2023-01-24 中科(厦门)数据智能研究院 一种面向疾病预测的表型分析方法
CN115691660A (zh) * 2022-07-28 2023-02-03 中国科学院植物研究所 玉米籽粒镉积累性状的全基因组选择研究的方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101989297A (zh) * 2009-07-30 2011-03-23 陈越 用于计算机上的疾病基因相关药物发掘系统
CN104094266A (zh) * 2011-11-07 2014-10-08 独创系统公司 用于识别原因性基因组变体的方法和系统
US20150310163A1 (en) * 2012-09-27 2015-10-29 The Children's Mercy Hospital System for genome analysis and genetic disease diagnosis
CN109155150A (zh) * 2016-01-18 2019-01-04 朱利安.高夫 从基因型测定表型
US20170242959A1 (en) * 2016-02-24 2017-08-24 Ucb Biopharma Sprl Method and system for quantifying the likelihood that a gene is casually linked to a disease
US20210375407A1 (en) * 2017-10-06 2021-12-02 The Trustees Of Columbia University In The City Of New York Diagnostic genomic predictions based on electronic health record data
CN108363902A (zh) * 2018-01-30 2018-08-03 成都奇恩生物科技有限公司 一种致病遗传变异的精确预测方法
CN109558493A (zh) * 2018-10-26 2019-04-02 复旦大学 一种基于疾病本体的疾病相似度计算方法
CN109830261A (zh) * 2019-01-23 2019-05-31 西南大学 一种筛选数量性状候选基因的方法
CN113519028A (zh) * 2019-03-11 2021-10-19 先锋国际良种公司 用于估算或预测基因型和表型的方法和组成
CN110060730A (zh) * 2019-04-03 2019-07-26 安徽大学 一种基因模块分析方法
CN112289436A (zh) * 2020-10-19 2021-01-29 浙江大学 一种基于表型距离信息构建罕见病地图及导航的方法
CN115547408A (zh) * 2022-07-15 2022-12-30 宋炜宸 一种基于人体全基因组基因型预测个体表型的方法和设备
CN115691660A (zh) * 2022-07-28 2023-02-03 中国科学院植物研究所 玉米籽粒镉积累性状的全基因组选择研究的方法
CN115641956A (zh) * 2022-10-26 2023-01-24 中科(厦门)数据智能研究院 一种面向疾病预测的表型分析方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHRISTOPHER J. MUNGALL等: "The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species", 《NUCLEIC ACIDS RESEARCH》, vol. 45, pages 712 - 722 *
SEBASTIAN KO¨HLER等: "Clinical Diagnostics in Human Genetics with Semantic Similarity Searches in Ontologies", 《THE AMERICAN JOURNAL OF HUMAN GENETICS》, vol. 85, pages 457 - 464 *
张哲等: "数据整合方法构建大鼠分子调控网络", 《系统仿真学报》, vol. 21, no. 5, pages 1479 - 1483 *
李建华: "基于疾病、基因和药物网络的关联预测与挖掘", 《中国博士学位论文全文数据库 基础科学辑》, no. 1, pages 002 - 60 *
邓岳: "本体在疾病相关问题中的应用研究", 《中国博士学位论文全文数据库 医药卫生科技辑》, no. 12, pages 080 - 12 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118503687A (zh) * 2024-07-19 2024-08-16 国网山东省电力公司信息通信公司 基于预训练语言模型的电力数据质量特征提取方法及系统

Also Published As

Publication number Publication date
CN116343913B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN108198621B (zh) 一种基于神经网络的数据库数据综合诊疗决策方法
Pathan et al. Identifying stroke indicators using rough sets
CN116343913B (zh) 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法
CN108335756B (zh) 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
WO2020010569A1 (zh) 大数据综合分析处理服务系统
Nordon et al. Building causal graphs from medical literature and electronic medical records
CN114003734A (zh) 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法
Sybrandt et al. Large-scale validation of hypothesis generation systems via candidate ranking
CN117370565A (zh) 一种信息检索方法及系统
Shen et al. Constructing node embeddings for human phenotype ontology to assist phenotypic similarity measurement
CN108320797B (zh) 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
Zamani et al. Stochastic retrieval-conditioned reranking
Yang et al. Academic network analysis: A joint topic modeling approach
CN116798653A (zh) 药物相互作用预测方法、装置、电子设备及存储介质
Chen et al. Hypothesis generation and data quality assessment through association mining
Saiyed et al. A survey on naive bayes based prediction of heart disease using risk factors
Wang et al. Prediction of the disease causal genes based on heterogeneous network and multi-feature combination method
Kaliappan A Hybrid Clustering Approach and Random Rotation Perturbation (RRP) for Privacy Preserving Data Mining.
Nagi et al. Cluster analysis of cancer data using semantic similarity, sequence similarity and biological measures
GhoshRoy et al. Leveraging sampling schemes on skewed class distribution to enhance male fertility detection with ensemble AI learners
CN116738972B (zh) 基于人工智能的药学服务推广分析方法
CN118398233B (zh) 一种面向不平衡医疗数据集的分析处理方法
Babu et al. A Comprehensive Study on Enhanced Clustering Technique of Association Rules over Transactional Datasets
Yang et al. Identifying event-specific opinion leaders by local weighted LeaderRank
Alghamdi Ontology design patterns and methods for integrating phenotype ontologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant