CN114743603A - 基因可靠性分析方法、装置、存储介质及服务器 - Google Patents
基因可靠性分析方法、装置、存储介质及服务器 Download PDFInfo
- Publication number
- CN114743603A CN114743603A CN202210076198.6A CN202210076198A CN114743603A CN 114743603 A CN114743603 A CN 114743603A CN 202210076198 A CN202210076198 A CN 202210076198A CN 114743603 A CN114743603 A CN 114743603A
- Authority
- CN
- China
- Prior art keywords
- gene
- analysis
- reliability
- genes
- analysis strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 375
- 238000004458 analytical method Methods 0.000 title claims abstract description 190
- 201000010099 disease Diseases 0.000 claims abstract description 66
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 66
- 210000004556 brain Anatomy 0.000 claims abstract description 43
- 210000002569 neuron Anatomy 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 12
- 230000004850 protein–protein interaction Effects 0.000 claims abstract description 11
- 230000014509 gene expression Effects 0.000 claims description 106
- 210000001519 tissue Anatomy 0.000 claims description 66
- 238000003559 RNA-seq method Methods 0.000 claims description 26
- 238000013518 transcription Methods 0.000 claims description 20
- 230000035897 transcription Effects 0.000 claims description 20
- 230000002964 excitative effect Effects 0.000 claims description 14
- 230000002401 inhibitory effect Effects 0.000 claims description 14
- 108020004999 messenger RNA Proteins 0.000 claims description 14
- 230000006916 protein interaction Effects 0.000 claims description 14
- 230000001717 pathogenic effect Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008827 biological function Effects 0.000 claims description 6
- 210000003855 cell nucleus Anatomy 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000007918 pathogenicity Effects 0.000 abstract description 12
- 238000013507 mapping Methods 0.000 description 8
- 230000004186 co-expression Effects 0.000 description 6
- 230000001537 neural effect Effects 0.000 description 6
- 210000004940 nucleus Anatomy 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 208000012902 Nervous system disease Diseases 0.000 description 4
- 208000025966 Neurological disease Diseases 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 230000002103 transcriptional effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 208000014644 Brain disease Diseases 0.000 description 2
- 238000000729 Fisher's exact test Methods 0.000 description 2
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 2
- 102100026066 Phosphoprotein associated with glycosphingolipid-enriched microdomains 1 Human genes 0.000 description 2
- 210000004727 amygdala Anatomy 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 210000003198 cerebellar cortex Anatomy 0.000 description 2
- 210000003710 cerebral cortex Anatomy 0.000 description 2
- 230000002490 cerebral effect Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000010835 comparative analysis Methods 0.000 description 2
- 230000001605 fetal effect Effects 0.000 description 2
- 229930195712 glutamate Natural products 0.000 description 2
- 210000001320 hippocampus Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000001577 neostriatum Anatomy 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000001103 thalamus Anatomy 0.000 description 2
- 208000014001 urinary system disease Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种基因可靠性分析方法、装置、存储介质及服务器。该基因可靠性分析方法包括:接收第一用户在终端配置的分析策略信息;根据所述分析策略信息在后台调取第一基因分析策略;其中,第一基因分析策略包括:基因在组织中的分析策略、基因在神经元中的分析策略、基因在人类大脑中的分析策略或蛋白间相互作用的分析策略中的一种或多种;基于所述第一基因分析策略分析基因是某种疾病的致病基因或风险基因的可靠性。本申请解决了由于基因致病性的分析采用人为判断,或者采用人为结合基因数据库判断,智能化程度不高操作麻烦,且用来判断的策略较为单一的技术问题。
Description
技术领域
本申请涉及线上基因分析领域,具体而言,涉及一种基因可靠性分 析方法、装置、存储介质及服务器。
背景技术
发明人发现,基因致病性的分析采用人为判断,或者采用人为结 合基因数据库判断,智能化程度不高,操作麻烦,且用来判断的策略 较为单一。
针对相关技术中基因致病性的分析采用人为判断,或者采用人为 结合基因数据库判断,智能化程度不高,操作麻烦,且用来判断的策 略较为单一的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种基因可靠性分析方法、装置、存储 介质及服务器,以解决基因致病性的分析采用人为判断,或者采用人 为结合基因数据库判断,智能化程度不高,操作麻烦,且用来判断的 策略较为单一的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基因可 靠性分析方法。
根据本申请的基因可靠性分析方法包括:接收第一用户在终端配置 的分析策略信息;根据所述分析策略信息在后台调取第一基因分析策略; 其中,第一基因分析策略包括:基因在组织中的分析策略、基因在神经 元中的分析策略、基因在人类大脑中的分析策略或蛋白间相互作用的分 析策略中的一种或多种;基于所述第一基因分析策略分析基因是某种疾 病的致病基因或风险基因的可靠性。
进一步的,基于基因在组织中的分析策略分析基因是某种疾病的致 病基因或风险基因的可靠性包括:获取已知组织的基因表达数据;根据 所述基因表达数据确定每个基因在每个组织中的表达量;选取表达量排 在预设范围内且判断为满足预设RPKM值的组织作为基因的优先表达组织; 根据优先表达组织确定基因是某种疾病的致病基因或风险基因的可靠性。
进一步的,基于基因在神经元中的分析策略分析基因是某种疾病的 致病基因或风险基因的可靠性包括:获取单核RNA测序数据;根据所述 单核RNA测序数据确定每个基因在每个细胞核中的mRNA表达水平,并据 其统计每个基因各神经元类型的平均表达水平;使用平均表达水平评估 抑制性和兴奋性神经元的转录谱,并根据评估结果统计转录水平的差异; 根据转录水平的差异确定基因是某种疾病的致病基因或风险基因的可靠 性。
进一步的,基于基因在人类大脑中的分析策略分析基因是某种疾病 的致病基因或风险基因的可靠性包括:获取人类大脑RNA测序数据;根 据大脑RNA测序数据对人类大脑中的所有组织样本进行WGCNA分析;基 于WGCNA分析结果进行标准化,得到基因的标准化平均表达值;根据标 准化平均表达值和预先划分的时间节点、空间区分析基因是某种疾病的致病基因或风险基因的可靠性。
进一步的,基于蛋白间相互作用的分析策略分析基因是某种疾病的 致病基因或风险基因的可靠性包括:采用预先构建的蛋白相互作用网络 确定基因间的相互作用关联性;基于基因间的相互作用关联性,通过Gene Onto l ogy数据库进行生物学功能的聚类分析,研判这些基因是否聚类在 该疾病已知的或可能的信号通路中,得到基因是某种疾病的致病基因或 风险基因的可靠性。
为了实现上述目的,根据本申请的另一方面,提供了一种基因可 靠性分析装置。
根据本申请的基因可靠性分析装置包括:接收模块,用于接收第一 用户在终端配置的分析策略信息;调取模块,用于根据所述分析策略信 息在后台调取第一基因分析策略;其中,第一基因分析策略为:基因在 组织中的分析策略、基因在神经元中的分析策略、基因在人类大脑中的 分析策略或蛋白间相互作用的分析策略;分析模块,用于基于所述第一 基因分析策略分析基因是某种疾病的致病基因或风险基因的可靠性。
进一步的,所述分析模块包括:获取已知组织的基因表达数据;根 据所述基因表达数据确定每个基因在每个组织中的表达量;选取表达量 排在预设范围内且判断为满足预设RPKM值的组织作为基因的优先表达组 织;根据优先表达组织确定基因是某种疾病的致病基因或风险基因的可 靠性。
进一步的,所述分析模块包括:获取单核RNA测序数据;根据所述 单核RNA测序数据确定每个基因在每个细胞核中的mRNA表达水平,并据 其统计每个基因各神经元类型的平均表达水平;使用平均表达水平评估 抑制性和兴奋性神经元的转录谱,并根据评估结果统计转录水平的差异; 根据转录水平的差异确定基因是某种疾病的致病基因或风险基因的可靠 性。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机 可读存储介质。
根据本申请的计算机可读存储介质,所述计算机可读存储介质中存 储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一 项所述的基因可靠性分析方法。
为了实现上述目的,根据本申请的另一方面,提供了一种服务器。
根据本申请的服务器,包括:存储器和处理器,所述存储器中存储 有计算机程序,其中,所述处理器被设置为运行所述计算机程序以执行 上述任一项所述的基因可靠性分析方法。
在本申请实施例中,采用预设基因分析策略的方式,通过接收第 一用户在终端配置的分析策略信息;根据所述分析策略信息在后台调取 第一基因分析策略;其中,第一基因分析策略包括:基因在组织中的分 析策略、基因在神经元中的分析策略、基因在人类大脑中的分析策略或 蛋白间相互作用的分析策略中的一种或多种;基于所述第一基因分析策 略分析基因是某种疾病的致病基因或风险基因的可靠性;达到了采用全 自动判断替代人为判断,或者人为结合基因数据库判断基因致病性的 目的,从而实现了提升智能化程度,操作简单,且用来判断的策略足 够多样化的技术效果,进而解决了由于基因致病性的分析采用人为判 断,或者采用人为结合基因数据库判断,智能化程度不高,操作麻烦, 且用来判断的策略较为单一的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使 得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施 例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在 附图中:
图1是根据本申请实施例的基因可靠性分析方法的流程示意图;
图2是根据本申请实施例的基因可靠性分析装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申 请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部 的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创 造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范 围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语 “第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺 序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便 这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们 的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或 单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤 或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或 设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、 “底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示 的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是 为了更好地描述本实用新型及其实施例,并非用于限定所指示的装置、 元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可 能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某 种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体 情况理解这些术语在本实用新型中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接” 应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造; 可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间 接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本 领域普通技术人员而言,可以根据具体情况理解上述术语在本实用新型 中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中 的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本发明实施例,提供了一种基因可靠性分析方法,如图1所示, 该方法包括如下的步骤S101至步骤S103:
步骤S101、接收第一用户在终端配置的分析策略信息;
终端可以是电脑、手机、平板等智能设备;第一用户通过在终端浏 览器输入网址,就可以在网页中输出配置界面,在该配置界面中第一用 户可以选择一种或多种分析策略,具体地,第一用户通过点击选中需要 选择的分析策略,选择完毕后,点击该页面内的分析按钮即可。操作简 单,仅需要根据界面内容进行简单的操作即可。
本实施例中,分析策略信息为分析策略的名称,预先建立了名称与 分析策略之间的映射关系,以便于后续的调取。
本实施例中,第一用户可以根据实际情况选择一个或多个分析策略 信息,在点击分析按钮。提供了多种分析策略供用户选择,实现用来判 断的策略足够多样化。
步骤S102、根据所述分析策略信息在后台调取第一基因分析策略; 其中,第一基因分析策略包括:基因在组织中的分析策略、基因在神经 元中的分析策略、基因在人类大脑中的分析策略或蛋白间相互作用的分 析策略中的一种或多种;
参照预先建立的映射关系,可以根据分析策略信息从后台调取与其 对应的第一基因分析策略;具体地,可以根据分析策略信息从后台调取 与其对应的基因在组织中的分析策略、基因在神经元中的分析策略、基 因在人类大脑中的分析策略或蛋白间相互作用的分析策略中的一种或多 种,为后续基于上述的任一种或多种基因分析策略进行分析提供保障。
步骤S103、基于所述第一基因分析策略分析基因是某种疾病的致病 基因或风险基因的可靠性。
基于用户选择的第一基因分析策略可以分析出基因与组织、神经元、 人类大脑间的关系,以及蛋白间相互作用关系,再基于这些关系可以判 断出可能导致的疾病;从而通过第一基因分析策略可以实现基因是某种 疾病的致病基因或风险基因的可靠性的智能判断,替代人为判断,或者 人为结合基因数据库判断基因致病性,大大提升了智能化水平。
从以上的描述中,可以看出,本发明实现了如下技术效果:
在本申请实施例中,采用预设基因分析策略的方式,通过接收第 一用户在终端配置的分析策略信息;根据所述分析策略信息在后台调取 第一基因分析策略;其中,第一基因分析策略包括:基因在组织中的分 析策略、基因在神经元中的分析策略、基因在人类大脑中的分析策略或 蛋白间相互作用的分析策略中的一种或多种;基于所述第一基因分析策 略分析基因是某种疾病的致病基因或风险基因的可靠性;达到了采用全 自动判断替代人为判断,或者人为结合基因数据库判断基因致病性的 目的,从而实现了提升智能化程度,操作简单,且用来判断的策略足 够多样化的技术效果,进而解决了由于基因致病性的分析采用人为判 断,或者采用人为结合基因数据库判断,智能化程度不高,操作麻烦, 且用来判断的策略较为单一的技术问题。
根据本发明实施例,优选的,基于基因在组织中的分析策略分析基 因是某种疾病的致病基因或风险基因的可靠性包括:
获取已知组织的基因表达数据;
根据所述基因表达数据确定每个基因在每个组织中的表达量;
选取表达量排在预设范围内且判断为满足预设RPKM值的组织作为基 因的优先表达组织;
根据优先表达组织确定基因是某种疾病的致病基因或风险基因的可 靠性。
利用Genotype-Tissue Expression(GTEx)数据库中的54种组织的 基因表达数据。通过计算每个基因在每种组织中的表达量,基因在这些 组织中的表达量排在前50%的为优先表达组织。此外,通常还使用Reads Per Kilobase Per Million mapping Reads(RPKM)值等于1来定义表达 基因的阈值。本实施例中,Fisher精确检验用于计算每个组织的p值。 如此,可以根据优先表达组织确定基因是某种疾病的致病基因或风险基 因的可靠性。比如:某基因优先在大脑中表达,则可以确定为神经性疾 病;又比如:某基因在膀胱中优先表达,则就是和泌尿系统疾病相关。 从而实现了基于已知组织的基因表达数据判断出最有可能的疾病,智能 化程度高。
根据本发明实施例,优选的,基于基因在神经元中的分析策略分析 基因是某种疾病的致病基因或风险基因的可靠性包括:
获取单核RNA测序数据;
根据所述单核RNA测序数据确定每个基因在每个细胞核中的mRNA表 达水平,并据其统计每个基因各神经元类型的平均表达水平;
使用平均表达水平评估抑制性和兴奋性神经元的转录谱,并根据评 估结果统计转录水平的差异;
根据转录水平的差异确定基因是某种疾病的致病基因或风险基因的 可靠性。
基于从Allen Brian Map数据库下载的单核RNA测序数据,我们分 析了PAGs的抑制性-兴奋性神经元表达谱。
具体的,该数据集包含75种转录不同的细胞类型15928个核,包括 45个Gaba能(抑制)神经元类型,24种谷氨酸(兴奋性)神经元类型,6种 非神经元类型。对于每个细胞核中的每个基因,根据百万分计数计算RPKM 值,即mRNA表达水平。然后统计每个基因各神经元类型的平均表达水平。 为了进行比较分析,我们利用一个转换公式对平均表达式值进行标准化 化:
平均表达标准化值=log2平均蛋白表达值
然后,我们使用标准化的平均表达值来评估抑制性和兴奋性神经元 的转录谱,并使用wilcoxon秩次检验对转录水平的差异进行统计评估。
转录水平的差异统计结果可以直观的反应基因是某种疾病的致病基 因或风险基因的可靠性,从而实现了基于单核RNA测序数据判断出最有 可能的神经疾病,智能化程度高。
根据本发明实施例,优选的,基于基因在人类大脑中的分析策略分 析基因是某种疾病的致病基因或风险基因的可靠性包括:
获取人类大脑RNA测序数据;
根据大脑RNA测序数据对人类大脑中的所有组织样本进行WGCNA表 达;
基于WGCNA表达结果进行标准化,得到基因的标准化平均表达值;
根据标准化平均表达值和预先划分的时间节点、空间区分析基因是 某种疾病的致病基因或风险基因的可靠性。
BrainSpan数据库中的人类大脑RNA测序数据包含524个不同发育阶 段(从胎儿期到成年期)和16个表达数据的组织样本的脑区。对所有的组 织样本进行了加权基因共表达网络分析(WGCNA)聚类的时空表达模式,每 个基因使用7的幂的标准方法。表达式值通过转换公式进行标准化,如 下所示:
标准化平均表达值=log2表达值/平均表达值
在每个共表达模块中,将时间模式划分为12个时间节点(6个出生前 时间节点和6个出生后时间节点);空间格局分为海马区、杏仁核区、纹 状体区、丘脑内侧核区、小脑皮层区和脑区等16个脑区11个大脑皮层 区。
结合标准化平均表达值以及每个共表达模块中划分的时间节点、空 间区能够判断出基因所能导致的人脑中的疾病,从而实现了基于 BrainSpan数据库中的人类大脑RNA测序数据判断出最有可能的大脑疾病, 智能化程度高。
根据本发明实施例,优选的,基于蛋白间相互作用的分析策略分析 基因是某种疾病的致病基因或风险基因的可靠性包括:
采用预先构建的蛋白相互作用网络确定基因间的相互作用关联性;
基于基因间的相互作用关联性,通过Gene Ontology数据库进行生 物学功能的聚类分析,得到基因是某种疾病的致病基因或风险基因的可 靠性。
使用STRING v11.0数据库构建一个蛋白相互作用网络,将置信评分 设置为大于0.7。以此证明这些基因具有重要的相互作用关联。此外,这 个功能网络内的基因通过GeneOntology数据库的分析,对其进行生物 学功能的聚类分析。以此验证这些基因在已知的疾病发病过程中发挥着 重要的作用。从而实现了基于蛋白相互作用网络判断出最有可能的疾病, 智能化程度高。
根据本发明实施例,优选的,综合基因在不同组织中的分析结果、 基因在兴奋/抑制神经元中的分析结果、基因在人类大脑中时空表达或蛋 白间相互作用的结果中的至少两种,得出某基因是否可靠的结论。具体 地,采用以上的分析策略,可以针对一个基因分析出不同的结果,如此, 可以设置权重模型,按照以上分析结果的重要程度,给以上的至少两种 分析结果配置不同的权重,最终可计算出来该基因的可靠性百分比,为 基因与疾病关系的判断提供多层次的依据,而且能够提升判断的精确性。
可选的,还可以取一个基因不同分析结果的可靠性的平均值,作为 综合可靠性。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机 可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺 序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的 步骤。
根据本发明实施例,还提供了一种用于实施上述基因可靠性分析方 法的装置,如图2所示,该装置包括:
接收模块10,用于接收第一用户在终端配置的分析策略信息;
终端可以是电脑、手机、平板等智能设备;第一用户通过在终端浏 览器输入网址,就可以在网页中输出配置界面,在该配置界面中第一用 户可以选择一种或多种分析策略,具体地,第一用户通过点击选中需要 选择的分析策略,选择完毕后,点击该页面内的分析按钮即可。操作简 单,仅需要根据界面内容进行简单的操作即可。
本实施例中,分析策略信息为分析策略的名称,预先建立了名称与 分析策略之间的映射关系,以便于后续的调取。
本实施例中,第一用户可以根据实际情况选择一个或多个分析策略 信息,在点击分析按钮。提供了多种分析策略供用户选择,实现用来判 断的策略足够多样化。
调取模块20,用于根据所述分析策略信息在后台调取第一基因分析 策略;其中,第一基因分析策略为:基因在组织中的分析策略、基因在 神经元中的分析策略、基因在人类大脑中的分析策略或蛋白间相互作用 的分析策略;
参照预先建立的映射关系,可以根据分析策略信息从后台调取与其 对应的第一基因分析策略;具体地,可以根据分析策略信息从后台调取 与其对应的基因在组织中的分析策略、基因在神经元中的分析策略、基 因在人类大脑中的分析策略或蛋白间相互作用的分析策略中的一种或多 种,为后续基于上述的任一种或多种基因分析策略进行分析提供保障。
分析模块30,用于基于所述第一基因分析策略分析基因是某种疾病 的致病基因或风险基因的可靠性。
基于用户选择的第一基因分析策略可以分析出基因与组织、神经元、 人类大脑间的关系,以及蛋白间相互作用关系,再基于这些关系可以判 断出可能导致的疾病;从而通过第一基因分析策略可以实现基因是某种 疾病的致病基因或风险基因的可靠性的智能判断,替代人为判断,或者 人为结合基因数据库判断基因致病性,大大提升了智能化水平。
从以上的描述中,可以看出,本发明实现了如下技术效果:
在本申请实施例中,采用预设基因分析策略的方式,通过接收第 一用户在终端配置的分析策略信息;根据所述分析策略信息在后台调取 第一基因分析策略;其中,第一基因分析策略包括:基因在组织中的分 析策略、基因在神经元中的分析策略、基因在人类大脑中的分析策略或 蛋白间相互作用的分析策略中的一种或多种;基于所述第一基因分析策 略分析基因是某种疾病的致病基因或风险基因的可靠性;达到了采用全 自动判断替代人为判断,或者人为结合基因数据库判断基因致病性的 目的,从而实现了提升智能化程度,操作简单,且用来判断的策略足 够多样化的技术效果,进而解决了由于基因致病性的分析采用人为判 断,或者采用人为结合基因数据库判断,智能化程度不高,操作麻烦, 且用来判断的策略较为单一的技术问题。
根据本发明实施例,优选的,基于基因在组织中的分析策略分析基 因是某种疾病的致病基因或风险基因的可靠性包括:
获取已知组织的基因表达数据;
根据所述基因表达数据确定每个基因在每个组织中的表达量;
选取表达量排在预设范围内且判断为满足预设RPKM值的组织作为基 因的优先表达组织;
根据优先表达组织确定基因是某种疾病的致病基因或风险基因的可 靠性。
利用Genotype-Tissue Expression(GTEx)数据库中的54种组织的 基因表达数据。通过计算每个基因在每种组织中的表达量,基因在这些 组织中的表达量排在前50%的为优先表达组织。此外,通常还使用Reads Per Kilobase Per Million mapping Reads(RPKM)值等于1来定义表达 基因的阈值。本实施例中,Fisher精确检验用于计算每个组织的p值。 如此,可以根据优先表达组织确定基因是某种疾病的致病基因或风险基 因的可靠性。比如:某基因优先在大脑中表达,则可以确定为神经性疾 病;又比如:某基因在膀胱中优先表达,则就是和泌尿系统疾病相关。 从而实现了基于已知组织的基因表达数据判断出最有可能的疾病,智能 化程度高。
根据本发明实施例,优选的,基于基因在神经元中的分析策略分析 基因是某种疾病的致病基因或风险基因的可靠性包括:
获取单核RNA测序数据;
根据所述单核RNA测序数据确定每个基因在每个细胞核中的mRNA表 达水平,并据其统计每个基因各神经元类型的平均表达水平;
使用平均表达水平评估抑制性和兴奋性神经元的转录谱,并根据评 估结果统计转录水平的差异;
根据转录水平的差异确定基因是某种疾病的致病基因或风险基因的 可靠性。
基于从Allen Brian Map数据库下载的单核RNA测序数据,我们分 析了PAGs的抑制性-兴奋性神经元表达谱。
具体的,该数据集包含75种转录不同的细胞类型15928个核,包括 45个Gaba能(抑制)神经元类型,24种谷氨酸(兴奋性)神经元类型,6种 非神经元类型。对于每个细胞核中的每个基因,根据百万分计数计算RPKM 值,即mRNA表达水平。然后统计每个基因各神经元类型的平均表达水平。 为了进行比较分析,我们利用一个转换公式对平均表达式值进行标准化 化:
平均表达标准化值=log2平均蛋白表达值
然后,我们使用标准化的平均表达值来评估抑制性和兴奋性神经元 的转录谱,并使用wilcoxon秩次检验对转录水平的差异进行统计评估。
转录水平的差异统计结果可以直观的反应基因是某种疾病的致病基 因或风险基因的可靠性,从而实现了基于单核RNA测序数据判断出最有 可能的神经疾病,智能化程度高。
根据本发明实施例,优选的,基于基因在人类大脑中的分析策略分 析基因是某种疾病的致病基因或风险基因的可靠性包括:
获取人类大脑RNA测序数据;
根据大脑RNA测序数据对人类大脑中的所有组织样本进行WGCNA表 达;
基于WGCNA表达结果进行标准化,得到基因的标准化平均表达值;
根据标准化平均表达值和预先划分的时间节点、空间区分析基因是 某种疾病的致病基因或风险基因的可靠性。
BrainSpan数据库中的人类大脑RNA测序数据包含524个不同发育阶 段(从胎儿期到成年期)和16个表达数据的组织样本的脑区。对所有的组 织样本进行了加权基因共表达网络分析(WGCNA)聚类的时空表达模式,每 个基因使用7的幂的标准方法。表达式值通过转换公式进行标准化,如 下所示:
标准化平均表达值=log2表达值/平均表达值
在每个共表达模块中,将时间模式划分为12个时间节点(6个出生前 时间节点和6个出生后时间节点);空间格局分为海马区、杏仁核区、纹 状体区、丘脑内侧核区、小脑皮层区和脑区等16个脑区11个大脑皮层 区。
结合标准化平均表达值以及每个共表达模块中划分的时间节点、空 间区能够判断出基因所能导致的人脑中的疾病,从而实现了基于 BrainSpan数据库中的人类大脑RNA测序数据判断出最有可能的大脑疾病, 智能化程度高。
根据本发明实施例,优选的,基于蛋白间相互作用的分析策略分析 基因是某种疾病的致病基因或风险基因的可靠性包括:
采用预先构建的蛋白相互作用网络确定基因间的相互作用关联性;
基于基因间的相互作用关联性,通过Gene Ontology数据库进行生 物学功能的聚类分析,得到基因是某种疾病的致病基因或风险基因的可 靠性。
使用STRING v11.0数据库构建一个蛋白相互作用网络,将置信评分 设置为大于0.7。以此证明这些基因具有重要的相互作用关联。此外,这 个功能网络内的基因通过GeneOntology数据库的分析,对其进行生物 学功能的聚类分析。以此验证这些基因在已知的疾病发病过程中发挥着 重要的作用。从而实现了基于蛋白相互作用网络判断出最有可能的疾病, 智能化程度高。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步 骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上, 或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装 置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计 算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不 限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本 领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申 请的保护范围之内。
Claims (10)
1.一种基因可靠性分析方法,其特征在于,包括:
接收第一用户在终端配置的分析策略信息;
根据所述分析策略信息在后台调取第一基因分析策略;其中,第一基因分析策略包括:基因在不同组织中的分析策略、基因在兴奋/抑制神经元中的分析策略、基因在人类大脑中时空表达的分析策略或蛋白间相互作用的分析策略中的一种或多种;
基于所述第一基因分析策略分析基因是某种疾病的致病基因或风险基因的可靠性。
2.根据权利要求1所述的基因可靠性分析方法,其特征在于,基于基因在不同组织中的表达分析策略分析基因是某种疾病的致病基因或风险基因的可靠性包括:
获取已知组织的基因表达数据;
根据所述基因表达数据确定每个基因在每个组织中的相对表达量;
选取表达量排在预设范围内且判断为满足预设RPKM值的组织作为基因的优先表达组织;
根据优先表达组织确定基因是某种疾病的致病基因或风险基因的可靠性。
3.根据权利要求1所述的基因可靠性分析方法,其特征在于,基于基因在兴奋/抑制神经元中的分析策略分析基因是某种疾病的致病基因或风险基因的可靠性包括:
获取单核RNA测序数据;
根据所述单核RNA测序数据确定每个基因在每个细胞核中的mRNA表达水平,并据其统计每个基因各神经元类型的平均表达水平;
使用平均表达水平评估抑制性和兴奋性神经元的转录谱,并根据评估结果统计转录水平的差异;
根据转录水平的差异确定基因是某种疾病的致病基因或风险基因的可靠性。
4.根据权利要求1所述的基因可靠性分析方法,其特征在于,基于基因在人类大脑中时空表达的分析策略分析基因是某种疾病的致病基因或风险基因的可靠性包括:
获取人类大脑RNA测序数据;
根据大脑RNA测序数据对人类大脑中的所有组织样本进行WGCNA分析;
基于WGCNA分析结果进行标准化,得到基因的标准化平均表达值;
根据标准化平均表达值和预先划分的时间节点、空间区分析基因是某种疾病的致病基因或风险基因的可靠性。
5.根据权利要求1所述的基因可靠性分析方法,其特征在于,基于蛋白间相互作用的分析策略分析基因是某种疾病的致病基因或风险基因的可靠性包括:
采用预先构建的蛋白相互作用网络确定基因间的相互作用关联性;
基于基因间的相互作用关联性,通过Gene Ontology数据库进行生物学功能的聚类分析,得到基因是某种疾病的致病基因或风险基因的可靠性。
6.一种基因可靠性分析装置,其特征在于,包括:
接收模块,用于接收第一用户在终端配置的分析策略信息;
调取模块,用于根据所述分析策略信息在后台调取第一基因分析策略;其中,第一基因分析策略为:基因在不同组织中的分析策略、基因在兴奋/抑制神经元中的分析策略、基因在人类大脑中时空表达的分析策略或蛋白间相互作用的分析策略;
分析模块,用于基于所述第一基因分析策略分析基因是某种疾病的致病基因或风险基因的可靠性。
7.根据权利要求1所述的基因可靠性分析装置,其特征在于,所述分析模块包括:
获取已知组织的基因表达数据;
根据所述基因表达数据确定每个基因在每个组织中的表达量;
选取表达量排在预设范围内且判断为满足预设RPKM值的组织作为基因的优先表达组织;
根据优先表达组织确定基因是某种疾病的致病基因或风险基因的可靠性。
8.根据权利要求1所述的基因可靠性分析装置,其特征在于,所述分析模块包括:
获取单核RNA测序数据;
根据所述单核RNA测序数据确定每个基因在每个细胞核中的mRNA表达水平,并据其统计每个基因各神经元类型的平均表达水平;
使用平均表达水平评估抑制性和兴奋性神经元的转录谱,并根据评估结果统计转录水平的差异;
根据转录水平的差异确定基因是某种疾病的致病基因或风险基因的可靠性。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5中任一项所述的基因可靠性分析方法。
10.一种服务器,包括:存储器和处理器,其特征在于,所述存储器中存储有计算机程序,其中,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5中任一项所述的基因可靠性分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210076198.6A CN114743603B (zh) | 2022-01-21 | 2022-01-21 | 基因可靠性分析方法、装置、存储介质及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210076198.6A CN114743603B (zh) | 2022-01-21 | 2022-01-21 | 基因可靠性分析方法、装置、存储介质及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114743603A true CN114743603A (zh) | 2022-07-12 |
CN114743603B CN114743603B (zh) | 2023-12-12 |
Family
ID=82275835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210076198.6A Active CN114743603B (zh) | 2022-01-21 | 2022-01-21 | 基因可靠性分析方法、装置、存储介质及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114743603B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100692319B1 (ko) * | 2006-02-20 | 2007-03-12 | 한국생명공학연구원 | 단백질 상호작용 네트워크 분석을 통한 새로운 질병관련유전자 선정방법 |
CN110349625A (zh) * | 2019-07-23 | 2019-10-18 | 中国科学院心理研究所 | 一种人类大脑基因表达时空常模的建立方法 |
CN110428867A (zh) * | 2019-07-30 | 2019-11-08 | 中国科学院心理研究所 | 一种人类大脑基因时空表达模式在线分析系统及其方法 |
CN111063392A (zh) * | 2019-12-17 | 2020-04-24 | 人和未来生物科技(长沙)有限公司 | 基于神经网络的基因突变致病性检测方法、系统及介质 |
US20210158967A1 (en) * | 2019-11-26 | 2021-05-27 | National Central University | Method of prediction of potential health risk |
KR20210124690A (ko) * | 2020-04-07 | 2021-10-15 | 제노플랜코리아 주식회사 | 유전자 분석의 신뢰도 검증 방법 및 장치 |
-
2022
- 2022-01-21 CN CN202210076198.6A patent/CN114743603B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100692319B1 (ko) * | 2006-02-20 | 2007-03-12 | 한국생명공학연구원 | 단백질 상호작용 네트워크 분석을 통한 새로운 질병관련유전자 선정방법 |
CN110349625A (zh) * | 2019-07-23 | 2019-10-18 | 中国科学院心理研究所 | 一种人类大脑基因表达时空常模的建立方法 |
CN110428867A (zh) * | 2019-07-30 | 2019-11-08 | 中国科学院心理研究所 | 一种人类大脑基因时空表达模式在线分析系统及其方法 |
US20210158967A1 (en) * | 2019-11-26 | 2021-05-27 | National Central University | Method of prediction of potential health risk |
CN111063392A (zh) * | 2019-12-17 | 2020-04-24 | 人和未来生物科技(长沙)有限公司 | 基于神经网络的基因突变致病性检测方法、系统及介质 |
KR20210124690A (ko) * | 2020-04-07 | 2021-10-15 | 제노플랜코리아 주식회사 | 유전자 분석의 신뢰도 검증 방법 및 장치 |
Non-Patent Citations (2)
Title |
---|
YUWEN LIU ET AL: "A Statistical Framework for Mapping Risk Genes from De Novo Mutations in Whole-Genome-Sequencing Studies", 《THE AMERICAN JOURNAL OF HUMAN GENETICS》, pages 1031 - 1047 * |
李津臣 等: "基于VarCards 数据库与ReVe 软件评估人类基因变异的致病性", 《2018中国遗传学会第十次全国会员代表大会暨学术讨论会论文摘要汇编》, pages 1 * |
Also Published As
Publication number | Publication date |
---|---|
CN114743603B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | A unified mixed‐effects model for rare‐variant association in sequencing studies | |
Struk et al. | Self-regulation and the foraging gene (PRKG1) in humans | |
JP2022507861A (ja) | 脳機能地図のサル-ヒト種間移行に基づいて精神疾患の個別的予測を行う方法およびシステム | |
CN109493979A (zh) | 一种基于智能决策的疾病预测方法和装置 | |
CN113053535B (zh) | 一种医疗信息预测系统及医疗信息预测方法 | |
CN113380327B (zh) | 一种人体生物学年龄预测与人体衰老程度评估方法 | |
CN110473634B (zh) | 一种基于多域融合学习的遗传代谢病辅助筛查方法 | |
CN107169264B (zh) | 一种复杂疾病诊断系统 | |
Loth et al. | The contribution of imaging genetics to the development of predictive markers for addictions | |
Gerkin et al. | Origins of correlated spiking in the mammalian olfactory bulb | |
CN114743603B (zh) | 基因可靠性分析方法、装置、存储介质及服务器 | |
CN108629148A (zh) | 基于表型分析的眼部生理信息的基因组分析方法和装置 | |
CN116525108A (zh) | 基于snp数据的预测方法、装置、设备及存储介质 | |
CN116013522A (zh) | 一种用于带状疱疹后遗神经痛的预测方法及系统 | |
CN113469274B (zh) | 一种阅读能力的测评方法、装置以及设备 | |
CN112485162A (zh) | 一种使用血液标志物预测性别的方法 | |
Frost et al. | A global test for gene‐gene interactions based on random matrix theory | |
CN111670476B (zh) | 患病风险预测方法、电子设备及存储介质 | |
CN111602201B (zh) | 获得细胞内确定性事件的方法、电子设备及存储介质 | |
US20070088509A1 (en) | Method and system for selecting a marker molecule | |
Kendler et al. | The impact of varying diagnostic thresholds on affected sib pair linkage analysis | |
CN117789819B (zh) | Vte风险评估模型的构建方法 | |
CN111192625B (zh) | 基于帕金森病基因组学关联模型的管理方法及装置 | |
CN117338298B (zh) | 情绪干预方法、装置、可穿戴情绪干预设备及存储介质 | |
CN117084638A (zh) | 一种基于游戏行为分析的认知障碍评估方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |