CN116343913A - 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 - Google Patents
基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 Download PDFInfo
- Publication number
- CN116343913A CN116343913A CN202310248570.1A CN202310248570A CN116343913A CN 116343913 A CN116343913 A CN 116343913A CN 202310248570 A CN202310248570 A CN 202310248570A CN 116343913 A CN116343913 A CN 116343913A
- Authority
- CN
- China
- Prior art keywords
- phenotype
- genes
- species
- semantic
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000026350 Inborn Genetic disease Diseases 0.000 title claims abstract description 21
- 208000016361 genetic disease Diseases 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 title claims abstract description 11
- 230000003950 pathogenic mechanism Effects 0.000 title claims abstract description 10
- 108091008053 gene clusters Proteins 0.000 title claims abstract description 7
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 88
- 238000012549 training Methods 0.000 claims abstract description 6
- 241001465754 Metazoa Species 0.000 claims abstract description 5
- 241000894007 species Species 0.000 claims description 25
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 18
- 239000010445 mica Substances 0.000 claims description 14
- 229910052618 mica group Inorganic materials 0.000 claims description 14
- 201000010099 disease Diseases 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 3
- 241000282412 Homo Species 0.000 claims description 2
- 201000002200 Congenital disorder of glycosylation Diseases 0.000 description 17
- 230000001717 pathogenic effect Effects 0.000 description 9
- 230000013595 glycosylation Effects 0.000 description 8
- 238000006206 glycosylation reaction Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 239000000523 sample Substances 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 208000035475 disorder Diseases 0.000 description 5
- 206010010356 Congenital anomaly Diseases 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 102100035362 Phosphomannomutase 2 Human genes 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 206010003694 Atrophy Diseases 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 241000976806 Genea <ascomycete fungus> Species 0.000 description 2
- 101001094831 Homo sapiens Phosphomannomutase 2 Proteins 0.000 description 2
- 230000037444 atrophy Effects 0.000 description 2
- 230000002490 cerebral effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- ZJNLYGOUHDJHMG-UHFFFAOYSA-N 1-n,4-n-bis(5-methylhexan-2-yl)benzene-1,4-diamine Chemical compound CC(C)CCC(C)NC1=CC=C(NC(C)CCC(C)C)C=C1 ZJNLYGOUHDJHMG-UHFFFAOYSA-N 0.000 description 1
- 208000015972 Abnormal liver morphology Diseases 0.000 description 1
- 208000024804 Abnormality of brain morphology Diseases 0.000 description 1
- 206010002961 Aplasia Diseases 0.000 description 1
- 206010019668 Hepatic fibrosis Diseases 0.000 description 1
- 101150050813 MPI gene Proteins 0.000 description 1
- 101150022360 PMM2 gene Proteins 0.000 description 1
- 101710133554 Phosphomannomutase 2 Proteins 0.000 description 1
- 208000037340 Rare genetic disease Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 208000021018 autosomal dominant inheritance Diseases 0.000 description 1
- 208000021024 autosomal recessive inheritance Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000001638 cerebellum Anatomy 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 208000019425 cirrhosis of liver Diseases 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000001054 cortical effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001926 lymphatic effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000008722 morphological abnormality Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000008775 paternal effect Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 239000013610 patient sample Substances 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000004379 similarity theory Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法,属于计算机技术领域,包括以下步骤:S1:基于实时更新的公开数据库创建人类及模式动物的表型—基因型关系数据集;S2:构建基于表型语义关联基因的聚类调控网络预测模型SSGPN(Semantic Similarity of Genotype‑Phenotype Network);S3:利用所述数据集训练所述SSGPN模型;S4:将待查询的表型术语输入训练好的SSGPN模型中,计算关系数据集的表型信息含量和语义相关性,倒序输出与所述待查询的表型术语相关的基因及对应的语义相似度值。
Description
技术领域
本发明属于计算机技术领域,具体涉及一种基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法。
背景技术
随着对疾病与基因关系研究的不断深入,标准化的人类表型可以越来越准确地描述已知疾病所呈现的异常表型及其层级关系。这使得通过对表型之间的语义相似性进行自动量化,进而为疾病诊断及发现致病基因提供了新的可能性。自2009年以来,先后出现了一系列基于基因型—表型—疾病三者关系,进行遗传病辅助诊断的工具及应用。它们分别采用了不同的数学模型及算法,用于对三者关系进行分析。例如,有的通过自然语言处理(Natural Language Processing,NLP)方法优化对于罕见遗传疾病表型的查询;有的通过随机漫步(Random Walk,RW)方法,确定表型相关致病基因的优先级。
对以上提及的多种基于不同数学模型的基因型——表型相关性预测算法进行分析及试用后可知,这些算法仅基于已知的人源基因型表型知识图谱建立预测模型,没有收录来源于模式动物的研究成果。近年来,基于各类模式动物,构建出大量具有典型人类疾病特征的动物模型,基于更有力的证据证实了大量基因型-表型之间的相关性。已知模型均未包含此类基因型表型关系研究的最新科研成果,将会造成模型的偏倚和预测结果的不准确。因此,亟待开发一个涉及多个物种,包含多个数据来源,基于证据可信度加权评分的基因型——表型相关性预测算法,已满足对于遗传病致病机制研究的实际需求。
发明内容
有鉴于此,本发明的目的在于提供一种适用于单基因遗传病致病机制研究的语义关联聚类调控网络建模方法,使用基于语义相似度构建的基因型——表型预测网络发现单基因遗传病潜在致病机制。基于基因型—表型关系,以及各表型本体之间的相互关系,计算各基因与目标表型之间的关联系数,从而推测与特定表型相关的致病基因。可通过该方法的运用,为开发单基因遗传病的机制研究和诊疗方案提供数据支撑和算法支撑。
为达到上述目的,本发明提供如下技术方案:
一种基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法,包括以下步骤:
S1:基于实时更新的公开数据库创建人类及模式动物的表型—基因型关系数据集;
S2:构建基于表型语义关联基因的聚类调控网络预测模型SSGPN(SemanticSimilarity of Genotype-Phenotype Network);
S3:利用所述数据集训练所述SSGPN模型;
S4:将待查询的表型术语输入训练好的SSGPN模型中,计算关系数据集的表型信息含量和语义相关性,倒序输出与所述待查询的表型术语相关的基因及对应的语义相似度值。
进一步,步骤S1中,使用实时更新的公开数据库中的数据资源,分别提取基因—疾病,疾病—表型,基因型—表型之间的数据关系,并将其相互整合,构建一个完整的基因型—表型关系数据集。
在该数据集中,p值代表与某个特定表型及其子表型相关的基因数量,特定表型对应的基因数量来源于所有使用的参考数据库中的基因型—表型关系,根据不同物种的证据强度程度赋予权重,进行加和计算:
p=avg[fhuman∑(phuman)+fspecies1∑(pspecies1)+...+fspeciesn∑(pspeciesn)]
其中fhuman表示人源基因型表型数据库的权重评分,∑(phuman)表示人源基因型表型数据库中特定表型及其子表型相关的基因交集后的数量,fspecies表示特定物种来源的表型数据库的权重评分,∑(pspecies)表示该物种来源的表型数据库库中特定表型及其子表型相关的基因交集后的数量;
Ω代表与模型中收录的与单基因遗传病相关的所有基因的数量,根据不同物种对应人类的同源基因取并集计算:
Ω=(Ωhuman)∪(fhomologΩspecies(1))∪...∪(fhomologΩspecies(n))
其中Ωhumax表示人源基因型表型数据库收录的基因数量,fhomolog表示特定物种来源数据库的权重,Ωspecies1~Ωspecies(n)表示特定物种来源数据库收录的基因数量;
特定表型的IC值,是由特定表型与致病基因的关联程度所决定的,如公式所示:
ICp=-ln(|p|/|Ω|)
其中ICp表示特定表型P的信息含量,|p|表示该表型及其子表型相关的基因数量,|Ω|表示整个数据集网络中的基因数量。
进一步,步骤S2中所述的SSGPN模型用于计算输入的查询表型术语与数据集中标注了关联基因的表型术语之间的相似度值,其计算方法如下:
S21:输入一个或多个待查询表型术语Qp;
S22:将每一个输入的表型术语Qp,与数据集中各个基因的所有相关表型术语Dp做比对,找到其中相似度值最大的表型MICA(Qp,Dp)
其中CA(Dp1)~CA(Dpn)表示该基因中每个Qp与Dp之间的共同父系表型,取其中最大的作为相似度值最大的表型MICA。
S23:将获得所述表型MICA(Qp,Dp)的信息含量IC(MICA(Qp,Dp)),作为Dp与Qp的相似度值;将所有相似度最大的值取平均数,得到待查询表型与数据集中表型相关基因的语义相似度:
S24:对步骤S23中的公式进行优化,使用其对称版本,分别计算待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,及该基因对应表型术语集D与待查询表型术语Q的语义相似度,并取其平均值,公式如下:
simsymmetric(Q,D)=avg[sim(Q→D)+sim(Q→Q)]
其中,simsymmetric(Q,D)表示数据集表型术语D与待查询表型术语Q的对称语义相似度,sim(Q→D)表示待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,sim(D→Q)表示该基因对应表型术语集D与待查询表型术语Q的语义相似度;
S25:将输入表型与数据集中所有的基因进行对称语义相似度计算;
S26:按对称语义相似度的值从高到低排序输出与输入表型相关的基因,并得到其对应的语义相似度值。
本发明的有益效果在于:基于本体论结构化的表型和基因型数据存在层级关系,对其语义相似性进行量化分析可实现对两者相关性的评估,并可根据量化相关系数研究功能相近的基因之间的聚类调控网络机制,本发明对多个基因型表型数据库的数据进行结构化整合,建立综合性的疾病—基因型—表型数据集,创新性地将语义相似度理论与基因聚类网络调控相结合,建立相关预测模型,从数据关系层面为开发单基因遗传病的机制研究提供数据支撑和算法支撑,提高了准确度和易用性。
本发明的其他优点、目标和特征将在随后的说明书中进行阐述,并且在某种程度上对本领域技术人员而言是显而易见的,或者本领域技术人员可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为不同数据库间的数据相互关联结构图;
图2为最大信息量共同父表型示意图;
图3为语言相似度计算示意图;
图4为SSGPN模型的构建与分析流程示意图;
图5为利用SSGPN模型对先天性糖基化障碍的致病基因进行预测的实际效果图,其中A为样本的相似度得分分布情况,B为SSGPN模型的ROC性能评估曲线。
具体实施方式
步骤一:创建表型—基因型关系数据集
想要根据遗传病异常表型预测新的潜在靶点基因和突变位点,首要基础就是尽可能完整地掌握现有疾病—表型—致病基因之间的本体结构关系、相互作用关系、以及基因和致病变异之间的数据关系。为此,可分别使用ClinVar、MedGen、Orphanet、HPO、OMIM等实时更新的公开数据库中的数据资源,分别提取了基因—疾病,疾病—表型,基因型—表型之间的数据关系,并将其相互整合,构建一个相对完整的基因型—表型关系数据集,作为训练SSGPN模型的基础数据集(训练集)。不同数据库间的数据相互关联结构如图1所示。
步骤二:利用SSGPN模型计算关系数据集的表型信息含量和语义相关性:
(1)临床诊断中,异常表型对于鉴定疾病的重要程度往往决定于其特异性。根据本体论的概念,特异性是由术语的信息含量(information content,IC)所决定的。术语的频率被定义为由该术语及其派生术语所注释对象的出现比例。IC值则是该频率的负自然对数。因此,随着从根部术语逐渐向更具体的叶部术语变化,IC值是在逐渐升高的。在针对遗传疾病表型—基因型相关性的研究中,特定表型的IC值,是由特定表型与致病基因的关联程度所决定的。|p|值代表与某个特定表型及其子表型相关的基因数量,|Ω|代表与模型中收录的与单基因遗传病相关的所用基因的数量,如公式1所示:
ICp=-ln (|p|/|Ω|) (1)
(2)对于两个不同的表型,它们之间的最大信息量共同父表型(most informativecommon ancestor,MICA)的IC值,可被认为是这两个表型之间的相似度,具体如公式2所示。例如,对于先天性糖基化障碍疾病CDG,如图2所示,CDG的两个典型表型:大脑皮层萎缩(Cerebral cortical atrophy,HP:0002120)和小脑发育缺陷/发育不全(Aplasia/Hypoplasia of the cerebellum,HP:0007360),其最近的共同父系节点表型是脑形态学异常(Abnormality of brain morphology,HP:0012443),则HP:0002120和HP:0007360的相似度值就等于HP:0012443的IC值。
其中CA(Dp1)~CA(Dpn)表示该基因中每个Qp与Dp之间的共同父系表型,取其中最大的作为相似度值最大的表型MICA。
基于以上方法,可以计算输入的待查询表型术语Q与数据集中标注了关联基因的表型术语D之间的相似度值。具体来说,首先可将每一个输入的查询表型Qp,与数据集中各个基因的所有相关表型Dp做比对,找到其中相似度值最大的表型(MICA(QpDp)),并获得该相似度值IC(MICA(QpDp))。之后,将所有相似度最大的值取平均数,就能得到查询表型与数据集中表型相关基因的语义相似度(semantic similarity)。具体如公式3所示:
例如,使用淋巴管扩张(HP:0031842)和肝硬化(HP:0001394)作为输入表型,查询它们与PMM2基因和MPI基因的语义相似度。根据训练集可知,MPI有58个相关表型,其中包含输入的HP:0031842和HP:0001394。因此,根据公式,MPI和输入表型的语义相似度,就是这两个表型的IC值的平均数,计算可得sim(QP,MPI)=5.155。而对于PMM2来说,其有20个相关表型,其中包含HP:0031842,但并不包含HP:0001394。根据HPO结构关系可知,HP:0001394与MPI相关表型中的肝纤维化(HP:0001395)相似度最高,拥有共同父表型异常肝脏形态(HP:0410042)。则HP:0410042的IC值就是两者的MICA值。根据公式计算可得,输入表型与PMM2的语义相似度sim(QP,PMM2)=4.245。具体计算过程如图2所示。
(3)观察公式可知,查询表型与数据集中表型的匹配度越高,返回的术语间相似度值也就越大。图2展示了该方法的基本步骤,这种方法可称为本体相似度查询法(Ontological Similarity Search,OSS)。然而,上方公式并没有考虑到除了与查询表型有最大相似度的表型之外,每个基因还会有其他的相关表型。例如如下情况:数据集中两个基因(GeneA and GeneB)的相关表型中,都正好有与查询表型一致的表型,但GeneA比GeneB还存在更多的与查询表型相似,但不完全一样的表型。根据经验可知,在这种情况下,GeneA比GeneB与查询表型更相关。但如只按照上述公式的方法计算,则查询表型与两个基因之间的语言相似度是一样的,这显然与事实情况不符。因此可对上述公式进行优化,使用其对称版本,分别计算待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,及该基因对应表型术语集D与待查询表型术语Q的语义相似度,并取其平均值。这样就能得到更准确的对称语义相似度(symmetric semantic similarity)。具体如公式4所示:
sinsymmetric(Q,D)=avg[sim(Q→D)+sin(D→Q)] (4)
其中,sinsymmetric(Q,D)表示数据集表型术语D与待查询表型术语Q的对称语义相似度,sin(Q→D)表示待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,sim(D→Q)表示该基因对应表型术语集D与待查询表型术语Q的语义相似度。
由此可根据对称语义相似度来评价输入表型与特定基因之间的相关性。语义相似度的值越大,就代表两者的相关程度越高。将输入表型与数据集中所有的基因进行语义相似度计算,结果按倒序排序,就能得到与输入表型最相关基因,并得到其对应的语义相似度值(valueof symmetric semantic similarity,Simsymmetric)。
作为评价输入表型与基因相关程度的对称语言相似度Simsymmetric,其得分会受到查询术语和数据库中表型术语的数量和特异性的影响。因此,无法对于Simsymmetric设定一个统一的阈值,作为评价匹配程度好坏的标准,只能针对同一批输入表型创建的模型,评价特定基因与表型之间的相关性。对于这种情况,可通过对特定基因相似度进行归一化,作为其预测概率,具体如公式5所示:
所述构建SSGPN模型的理论方法的具体流程包括:
(1)收集并整合有关遗传病——基因型——表型的多个公开数据资源;利用收集的多来源数据资源构建一个完整的表型-基因型关系数据集;
(2)通过信息量及语义相似度理论计算各表型之间的语义相似度值;
(3)计算特定表型与基因之间的相关性,建立基于输入表型对潜在致病基因进行预测的SSGPN模型;
(4)将多个疾病亚型的典型表型作为模型输入表型,预测致病基因,量化评价SSGPN模型的预测能力;
(5)根据疾病的综合表型组合,利用SSGPN预测潜在新致病基因,通过第三方数据对预测结构进一步验证及研究。实验流程如图4所示。
对于模型的评价标准,除了常用的混淆矩阵外,还可以使用ROC曲线作为对该模型的评估方法。图5展示了利用该模型对先天性糖基化障碍(Congenital disorder ofglycosylation,CDG)的致病基因进行预测的实际效果,其中A为样本的相似度得分分布情况,B为SSGPN模型的ROC性能评估曲线。先天性糖基化障碍是一系列会导致糖基化异常的代谢类遗传疾病的统称。CDG的患者往往都是缺少糖基化过程中所必须的酶,导致糖基化过程出现异常。患者的CDG类型取决于缺少哪种类型的酶。根据最新的研究成果,现已发现的CDG类型已超过130种,且随着每年新的糖基化障碍病例的发现,该数字还在不断增长中。CDG大多是单基因遗传疾病,遗传模式通常为常染色体隐性遗传,但也有少部分呈现常染色体显性遗传和性伴遗传模式。按照实验流程,为了对SSGPN模型的有效性进行评价,我们首先将不同CDG亚型的临床特征作为输入表型,使用SSGPN模型预测其对应的致病基因。具体来说,我们将Orphanet数据库中收录的共计28个CDG亚型的表型数据,分别作为28个患有CDG亚型的模拟患者样本数据,合并9例非CDG患者亚型数据,输入SSGPN模型,计算各样本分别对应的基因语义相似度列表,并查询其真实致病基因的语义相似度值,以及计算归一化得分。将各样本数据分别进行计算后,结果如图5A所示。28个CDG亚型的归一化系数平均值为0.848。另一方面,CDG亚型样本的预测结果和非CDG样本的差距也进一步明显,这意味着模型可以更容易的区分正样本和负样本。通过ROC曲线对模型预测结果评价后可知(图5B),对于表型数量大于5的CDG亚型样本及非CDG样本,ROC曲线下的面积(Area under curve,AUC)为0.893,属于较为理想的预测模型。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施示例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (3)
1.一种基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法,其特征在于:包括以下步骤:
S1:基于实时更新的公开数据库创建人类及模式动物的表型-基因型关系数据集;
S2:构建基于表型语义关联基因的聚类调控网络预测模型SSGPN;
S3:利用所述数据集训练所述SSGPN模型;
S4:将待查询的表型术语输入训练好的SSGPN模型中,计算关系数据集的表型信息含量和语义相关性,倒序输出与所述待查询的表型术语相关的基因及对应的语义相似度值。
2.根据权利要求1所述的基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法,其特征在于:步骤S1中,使用实时更新的公开数据库中的数据资源,分别提取基因-疾病,疾病-表型,基因型-表型之间的数据关系,并将其相互整合,构建一个完整的基因型-表型关系数据集;
一个完整的基因型-表型关系数据集中,p值代表与某个特定表型及其子表型相关的基因数量,特定表型对应的基因数量来源于所有使用的参考数据库中的基因型-表型关系,根据不同物种的证据强度程度赋予权重,进行加和计算:
p=avg[fhuman∑(phuman)+fspecies(1)∑(pspecies(1))+…+fspecies(n)∑(pspecies(n))]
其中fhuman表示人源基因型表型数据库的权重评分,∑(phuman)表示人源基因型表型数据库中特定表型及其子表型相关的基因交集后的数量,fspecies表示特定物种来源的表型数据库的权重评分,∑(pspecies)表示该物种来源的表型数据库库中特定表型及其子表型相关的基因交集后的数量;
Ω代表与模型中收录的与单基因遗传病相关的所有基因的数量,根据不同物种对应人类的同源基因取并集计算:
Ω=(Ωhuman)∪(fhomologΩspecies(1))∪...∪(fhomologΩspecies(n))
其中Ωhuman表示人源基因型表型数据库收录的基因数量,fhomolog表示特定物种来源数据库的权重,Ωspecies1~Ωspecies(n)表示特定物种来源数据库收录的基因数量;
特定表型的IC值,是由特定表型与致病基因的关联程度所决定的,如公式所示:
ICp=-ln(|p|/|Ω|)
其中ICp表示特定表型P的信息含量,|p|表示该表型及其子表型相关的基因数量,|Ω|表示整个数据集网络中的基因数量。
3.根据权利要求1所述的基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法,其特征在于:步骤S2中所述的SSGPN模型用于计算输入的查询表型术语与数据集中标注了关联基因的表型术语之间的相似度值,其计算方法如下:
S21:输入一个或多个待查询表型术语Qp;
S22:将每一个输入的表型术语Qp,与数据集中各个基因的所有相关表型术语Dp做比对,找到其中相似度值最大的表型MICA(Qp,Dp):
其中CA(Dp1)~CA(Dpn)表示该基因中每个Qp与Dp之间的共同父系表型,取其中最大的作为相似度值最大的表型MICA;
S23:将获得所述表型MICA(Qp,Dp)的信息含量IC(MICA(Qp,Dp)),作为Dp与Qp的相似度值;将所有相似度最大的值取平均数,得到待查询表型与数据集中表型相关基因的语义相似度:
S24:对步骤S23中的公式进行优化,使用其对称版本,分别计算待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,及该基因对应表型术语集D与待查询表型术语Q的语义相似度,并取其平均值,公式如下:
simsymmetric(QiD)=avg[sim(Q→D)+sim(D→Q)]
其中,simsymmetric(Q,D)表示数据集表型术语D与待查询表型术语Q的对称语义相似度,sim(Q→D)表示待查询表型术语Q与特定基因对应表型表型术语集D的语义相似度,sim(D→Q)表示该基因对应表型术语集D与待查询表型术语Q的语义相似度;
S25:将输入表型与数据集中所有的基因进行对称语义相似度计算;
S26:按对称语义相似度的值从高到低排序输出与输入表型相关的基因,并得到其对应的语义相似度值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310248570.1A CN116343913B (zh) | 2023-03-15 | 2023-03-15 | 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310248570.1A CN116343913B (zh) | 2023-03-15 | 2023-03-15 | 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116343913A true CN116343913A (zh) | 2023-06-27 |
CN116343913B CN116343913B (zh) | 2023-11-14 |
Family
ID=86878367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310248570.1A Active CN116343913B (zh) | 2023-03-15 | 2023-03-15 | 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343913B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118503687A (zh) * | 2024-07-19 | 2024-08-16 | 国网山东省电力公司信息通信公司 | 基于预训练语言模型的电力数据质量特征提取方法及系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989297A (zh) * | 2009-07-30 | 2011-03-23 | 陈越 | 用于计算机上的疾病基因相关药物发掘系统 |
CN104094266A (zh) * | 2011-11-07 | 2014-10-08 | 独创系统公司 | 用于识别原因性基因组变体的方法和系统 |
US20150310163A1 (en) * | 2012-09-27 | 2015-10-29 | The Children's Mercy Hospital | System for genome analysis and genetic disease diagnosis |
US20170242959A1 (en) * | 2016-02-24 | 2017-08-24 | Ucb Biopharma Sprl | Method and system for quantifying the likelihood that a gene is casually linked to a disease |
CN108363902A (zh) * | 2018-01-30 | 2018-08-03 | 成都奇恩生物科技有限公司 | 一种致病遗传变异的精确预测方法 |
CN109155150A (zh) * | 2016-01-18 | 2019-01-04 | 朱利安.高夫 | 从基因型测定表型 |
CN109558493A (zh) * | 2018-10-26 | 2019-04-02 | 复旦大学 | 一种基于疾病本体的疾病相似度计算方法 |
CN109830261A (zh) * | 2019-01-23 | 2019-05-31 | 西南大学 | 一种筛选数量性状候选基因的方法 |
CN110060730A (zh) * | 2019-04-03 | 2019-07-26 | 安徽大学 | 一种基因模块分析方法 |
CN112289436A (zh) * | 2020-10-19 | 2021-01-29 | 浙江大学 | 一种基于表型距离信息构建罕见病地图及导航的方法 |
CN113519028A (zh) * | 2019-03-11 | 2021-10-19 | 先锋国际良种公司 | 用于估算或预测基因型和表型的方法和组成 |
US20210375407A1 (en) * | 2017-10-06 | 2021-12-02 | The Trustees Of Columbia University In The City Of New York | Diagnostic genomic predictions based on electronic health record data |
CN115547408A (zh) * | 2022-07-15 | 2022-12-30 | 宋炜宸 | 一种基于人体全基因组基因型预测个体表型的方法和设备 |
CN115641956A (zh) * | 2022-10-26 | 2023-01-24 | 中科(厦门)数据智能研究院 | 一种面向疾病预测的表型分析方法 |
CN115691660A (zh) * | 2022-07-28 | 2023-02-03 | 中国科学院植物研究所 | 玉米籽粒镉积累性状的全基因组选择研究的方法 |
-
2023
- 2023-03-15 CN CN202310248570.1A patent/CN116343913B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101989297A (zh) * | 2009-07-30 | 2011-03-23 | 陈越 | 用于计算机上的疾病基因相关药物发掘系统 |
CN104094266A (zh) * | 2011-11-07 | 2014-10-08 | 独创系统公司 | 用于识别原因性基因组变体的方法和系统 |
US20150310163A1 (en) * | 2012-09-27 | 2015-10-29 | The Children's Mercy Hospital | System for genome analysis and genetic disease diagnosis |
CN109155150A (zh) * | 2016-01-18 | 2019-01-04 | 朱利安.高夫 | 从基因型测定表型 |
US20170242959A1 (en) * | 2016-02-24 | 2017-08-24 | Ucb Biopharma Sprl | Method and system for quantifying the likelihood that a gene is casually linked to a disease |
US20210375407A1 (en) * | 2017-10-06 | 2021-12-02 | The Trustees Of Columbia University In The City Of New York | Diagnostic genomic predictions based on electronic health record data |
CN108363902A (zh) * | 2018-01-30 | 2018-08-03 | 成都奇恩生物科技有限公司 | 一种致病遗传变异的精确预测方法 |
CN109558493A (zh) * | 2018-10-26 | 2019-04-02 | 复旦大学 | 一种基于疾病本体的疾病相似度计算方法 |
CN109830261A (zh) * | 2019-01-23 | 2019-05-31 | 西南大学 | 一种筛选数量性状候选基因的方法 |
CN113519028A (zh) * | 2019-03-11 | 2021-10-19 | 先锋国际良种公司 | 用于估算或预测基因型和表型的方法和组成 |
CN110060730A (zh) * | 2019-04-03 | 2019-07-26 | 安徽大学 | 一种基因模块分析方法 |
CN112289436A (zh) * | 2020-10-19 | 2021-01-29 | 浙江大学 | 一种基于表型距离信息构建罕见病地图及导航的方法 |
CN115547408A (zh) * | 2022-07-15 | 2022-12-30 | 宋炜宸 | 一种基于人体全基因组基因型预测个体表型的方法和设备 |
CN115691660A (zh) * | 2022-07-28 | 2023-02-03 | 中国科学院植物研究所 | 玉米籽粒镉积累性状的全基因组选择研究的方法 |
CN115641956A (zh) * | 2022-10-26 | 2023-01-24 | 中科(厦门)数据智能研究院 | 一种面向疾病预测的表型分析方法 |
Non-Patent Citations (5)
Title |
---|
CHRISTOPHER J. MUNGALL等: "The Monarch Initiative: an integrative data and analytic platform connecting phenotypes to genotypes across species", 《NUCLEIC ACIDS RESEARCH》, vol. 45, pages 712 - 722 * |
SEBASTIAN KO¨HLER等: "Clinical Diagnostics in Human Genetics with Semantic Similarity Searches in Ontologies", 《THE AMERICAN JOURNAL OF HUMAN GENETICS》, vol. 85, pages 457 - 464 * |
张哲等: "数据整合方法构建大鼠分子调控网络", 《系统仿真学报》, vol. 21, no. 5, pages 1479 - 1483 * |
李建华: "基于疾病、基因和药物网络的关联预测与挖掘", 《中国博士学位论文全文数据库 基础科学辑》, no. 1, pages 002 - 60 * |
邓岳: "本体在疾病相关问题中的应用研究", 《中国博士学位论文全文数据库 医药卫生科技辑》, no. 12, pages 080 - 12 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118503687A (zh) * | 2024-07-19 | 2024-08-16 | 国网山东省电力公司信息通信公司 | 基于预训练语言模型的电力数据质量特征提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116343913B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198621B (zh) | 一种基于神经网络的数据库数据综合诊疗决策方法 | |
Pathan et al. | Identifying stroke indicators using rough sets | |
CN116343913B (zh) | 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法 | |
CN108335756B (zh) | 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
WO2020010569A1 (zh) | 大数据综合分析处理服务系统 | |
Nordon et al. | Building causal graphs from medical literature and electronic medical records | |
CN114003734A (zh) | 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法 | |
Sybrandt et al. | Large-scale validation of hypothesis generation systems via candidate ranking | |
CN117370565A (zh) | 一种信息检索方法及系统 | |
Shen et al. | Constructing node embeddings for human phenotype ontology to assist phenotypic similarity measurement | |
CN108320797B (zh) | 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
Zamani et al. | Stochastic retrieval-conditioned reranking | |
Yang et al. | Academic network analysis: A joint topic modeling approach | |
CN116798653A (zh) | 药物相互作用预测方法、装置、电子设备及存储介质 | |
Chen et al. | Hypothesis generation and data quality assessment through association mining | |
Saiyed et al. | A survey on naive bayes based prediction of heart disease using risk factors | |
Wang et al. | Prediction of the disease causal genes based on heterogeneous network and multi-feature combination method | |
Kaliappan | A Hybrid Clustering Approach and Random Rotation Perturbation (RRP) for Privacy Preserving Data Mining. | |
Nagi et al. | Cluster analysis of cancer data using semantic similarity, sequence similarity and biological measures | |
GhoshRoy et al. | Leveraging sampling schemes on skewed class distribution to enhance male fertility detection with ensemble AI learners | |
CN116738972B (zh) | 基于人工智能的药学服务推广分析方法 | |
CN118398233B (zh) | 一种面向不平衡医疗数据集的分析处理方法 | |
Babu et al. | A Comprehensive Study on Enhanced Clustering Technique of Association Rules over Transactional Datasets | |
Yang et al. | Identifying event-specific opinion leaders by local weighted LeaderRank | |
Alghamdi | Ontology design patterns and methods for integrating phenotype ontologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |