CN110993031B

CN110993031B - 自闭症候选基因的分析方法、分析装置、设备及存储介质

Info

Publication number: CN110993031B
Application number: CN201911081301.0A
Authority: CN
Inventors: 谢英俊; 孙筱放; 王鼎; 杨翌; 杨影虹
Original assignee: Third Affiliated Hospital of Guangzhou Medical University
Current assignee: Third Affiliated Hospital of Guangzhou Medical University
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-07-28
Anticipated expiration: 2039-11-07
Also published as: CN110993031A

Abstract

本发明涉及一种自闭症候选基因的分析方法、分析装置、设备及存储介质。本发明的自闭症候选基因的分析方法通过利用大数据及基因组拷贝数变异数据分析筛选自闭症候选基因，可加快寻找到与自闭症发病相关的未知易感基因，有利于了解自闭症的发病机制及预防。本发明的自闭症候选基因的分析方法是一种非疾病诊断目的的分析方法，通过本发明的分析方法得到的结果虽然不能直接作为诊断结果用于诊断是否患有自闭症，但可以作为中间结果与其他结果一起，用于疾病的辅助诊断和疾病的病理研究分析，具有重要的临床研究和使用价值。

Description

自闭症候选基因的分析方法、分析装置、设备及存储介质

技术领域

本发明涉及生物信息学技术领域，特别是涉及一种自闭症候选基因的分析方法、分析装置、设备及存储介质。

背景技术

自闭症(ASD)是一种严重地影响儿童健康的疾病，多数患儿表现为不同程度的社交障碍及精神发育迟滞，包括社会相互作用、语言动作和行为交往三方面的异常。近年来，流行病学研究提示ASD的患病率，在全球范围内呈不断上升趋势。自闭症无种族、社会、宗教之分，与家庭收入、生活方式、教育程度无关，是一种儿童脑功能的失常，从它被人认识开始，其原因一直被许多专家和父母所困惑。由于自闭症起病早，一般在3岁以前就会表现出来，从婴儿期开始出现，一直延续到终身，症状奇特和预后严重，且缺乏特效治疗，60％～70％的患儿不能独立生活，需终生照顾，给家庭和社会造成了沉重的精神和经济负担。

自闭症的病因至今未明，目前的共识认为遗传因素在ASD发生中的作用可能超过50％。遗传学发病机制可能涉及与神经发育相关的神经递质、蛋白质、酶、受体等的表达异常，引起神经元增殖及分化异常，包括过度修剪、异常突触连接以及由此导致的神经环路异常等。上世纪80年代，针对ASD的研究进入了全新阶段。研究人员从生物学领域着手探索病因，认识到ASD是受一定遗传因素作用。近十年来，研究人员通过采用经典细胞遗传学和分子遗传学结合关联分析对自闭症的遗传基础进行研究，取得一定的进展。目前国际上，发现了100多个与该疾病相关的基因及位点，但由于大多数是基因罕见的变异并且缺乏深入的对致病机制的研究，估计还有75％～80％的ASD遗传因素仍无法获知。

发明内容

基于此，有必要提供一种自闭症候选基因的分析方法、分析装置、设备及存储介质，以加快寻找到与自闭症发病相关的未知易感基因。

一种自闭症候选基因的分析方法，包括以下步骤：

步骤S1：获取自闭症患者的全基因组拷贝数变异数据；

步骤S2：将所述全基因组拷贝数变异数据与已知数据库的自闭症拷贝数变异数据进行比对，得到目标拷贝数变异数据；

步骤S3：根据所述目标拷贝数变异数据确定相关基因；

步骤S4：根据所述相关基因与已知自闭症基因的相互作用确定自闭症候选基因。

在其中一个实施例中，所述步骤S2包括：

将所述全基因组拷贝数变异数据与ClinVar数据库的自闭症拷贝数变异数据进行比对，取交集得到第一拷贝数变异数据；

将所述第一拷贝数变异数据与sfari gene数据库的自闭症拷贝数变异数据进行比对，取交集得到所述目标拷贝数变异数据。

在其中一个实施例中，所述步骤S2包括：

将所述第一拷贝数变异数据与sfari gene数据库的自闭症拷贝数变异数据进行比对，取交集得到第二拷贝数变异数据；

将所述第二拷贝数变异数据与DGV数据库的健康人拷贝数变异数据进行比对，排除所述第二拷贝数变异数据中与所述健康人拷贝数变异数据相同的部分，得到所述目标拷贝数变异数据。

在其中一个实施例中，所述步骤S3包括：

获取所述目标拷贝数变异数据的功能注释数据；

根据所述功能注释数据确定相关基因。

在其中一个实施例中，所述步骤S4包括：

构建所述相关基因与已知自闭症基因的相互作用网络；

分析所述相互作用网络中所述相关基因的核心程度，根据所述核心程度确定所述自闭症候选基因。

在其中一个实施例中，使用k-core算法来分析所述相互作用网络中所述相关基因的核心程度。

在其中一个实施例中，所述步骤S3中，所述相关基因包括编码基因和非编码基因。

一种自闭症候选基因的分析装置，包括：

CNV获取模块，用于获取自闭症患者的全基因组拷贝数变异数据；

比对模块，用于将所述全基因组拷贝数变异数据与已知数据库的自闭症拷贝数变异数据进行比对，得到目标拷贝数变异数据；

CNV分析模块，用于根据所述目标拷贝数变异数据确定相关基因；

基因分析模块，用于根据所述相关基因与已知自闭症基因的相互作用确定自闭症候选基因。

一种计算机设备，具有处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述自闭症候选基因的分析方法的步骤。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上述自闭症候选基因的分析方法的步骤。

拷贝数变异(Copy Number Variation,CNV)是指较之于参照基因组，DNA片段位点缺失或复制大于1Kb至1Mb的结构变异。拷贝数变异形式多样，包括基因组区域片段的缺失、嵌入、复制和复合多位点变异等。人类基因组中具有大量的拷贝数变异位点存在，可涵盖基因组区域的约30％，核苷酸总数远远超过了SNPs的总数。

本发明的自闭症候选基因的分析方法通过利用大数据及基因组拷贝数变异数据分析筛选自闭症候选基因，可加快寻找到与自闭症发病相关的未知易感基因，有利于了解自闭症的发病机制及预防。本发明的自闭症候选基因的分析方法是一种非疾病诊断目的的分析方法，通过本发明的分析方法得到的结果虽然不能直接作为诊断结果用于诊断是否患有自闭症，但可以作为中间结果与其他结果一起，用于疾病的辅助诊断和疾病的病理研究分析，具有重要的临床研究和使用价值。

附图说明

图1为本发明一实施例的自闭症候选基因的分析方法的流程示意图；

图2为图1所示的分析方法中步骤S12的流程示意图；

图3为另一实施例的自闭症候选基因的分析方法中步骤S12的流程示意图；

图4为图1所示的分析方法中步骤S13的流程示意图；

图5为图1所示的分析方法中步骤S14的流程示意图；

图6为本发明一实施例的自闭症候选基因的分析装置的结构示意图；

图7为图6中比对模块的结构示意图；

图8为另一实施例的自闭症候选基因的分析装置的比对模块的结构示意图；

图9为图6中CNV分析模块的结构示意图；

图10为图6中基因分析模块的结构示意图；

图11为自闭症患者的拷贝数变异信息数据图；

图12为自闭症相关基因的相互作用网络示意图。

具体实施方式

为了便于理解本发明，下面将对本发明进行更全面的描述，并给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，本发明一实施例的自闭症候选基因的分析方法，包括以下步骤：

步骤S11：获取自闭症患者的全基因组拷贝数变异数据。

步骤S12：将全基因组拷贝数变异数据与已知数据库的自闭症拷贝数变异数据进行比对，得到目标拷贝数变异数据。

步骤S13：根据目标拷贝数变异数据确定相关基因。

步骤S14：根据相关基因与已知自闭症基因的相互作用确定自闭症候选基因。

在一个具体示例中，步骤S11中采用全基因组基因芯片对自闭症患者的基因组DNA进行检测并通过扫描仪获取扫描信号图，然后利用软件对扫描信号图进行分析计算得到全基因组拷贝数变异数据。可选地，全基因组基因芯片可以是但不限于美国Affymetrix公司的CytoHD-SNP-Array微阵列，扫描仪可以是但不限于Affymetrix 7G扫描仪，软件可以是但不限于Chas软件。

在一个具体示例中，如图2所示，步骤S12包括：

步骤S121：将全基因组拷贝数变异数据与ClinVar数据库的自闭症拷贝数变异数据进行比对，取交集得到第一拷贝数变异数据。

步骤S122：将第一拷贝数变异数据与sfari gene数据库的自闭症拷贝数变异数据进行比对，取交集得到目标拷贝数变异数据。

在另一个具体示例中，如图3所示，步骤S12包括：

步骤S221：将全基因组拷贝数变异数据与ClinVar数据库的自闭症拷贝数变异数据进行比对，取交集得到第一拷贝数变异数据。

步骤S222：将第一拷贝数变异数据与sfari gene数据库的自闭症拷贝数变异数据进行比对，取交集得到第二拷贝数变异数据。

步骤S223：将第二拷贝数变异数据与DGV数据库的健康人拷贝数变异数据进行比对，排除第二拷贝数变异数据中与健康人拷贝数变异数据相同的部分，得到目标拷贝数变异数据。

在一个具体示例中，如图4所示，步骤S13包括：

步骤S131：获取目标拷贝数变异数据的功能注释数据。

步骤S132：根据功能注释数据确定相关基因。

在一个具体示例中，步骤S13中，上述相关基因包括编码基因和非编码基因。

在一个具体示例中，如图5所示，步骤S14包括：

步骤S141：构建相关基因与已知自闭症基因的相互作用网络。

具体地，使用STRING database(https://string-db.org/)构建相关基因，

R语言函数：barplot

R语言网址：https://cran.r-project.org/index.html

R语言中程序包topGO和pathview

核心基因利用R语言中的程序包snp寻找。

步骤S142：分析相互作用网络中相关基因的核心程度，根据核心程度确定自闭症候选基因。

在一个具体示例中，使用k-core算法来分析所述相互作用网络中所述相关基因的核心程度。

基于与上述方法相同的思想，如图6所示，本发明还提供了一种自闭症候选基因的分析装置30，其包括CNV获取模块31、比对模块32、CNV分析模块33和基因分析模块34。

其中，CNV获取模块31用于获取自闭症患者的全基因组拷贝数变异数据。比对模块32用于将全基因组拷贝数变异数据与已知数据库的自闭症拷贝数变异数据进行比对，得到目标拷贝数变异数据。CNV分析模块33用于根据目标拷贝数变异数据确定相关基因。基因分析模块34用于根据相关基因与已知自闭症基因的相互作用确定自闭症候选基因。

如图7所示，在一个具体示例中，比对模块32包括第一比对模块321和第二比对模块322。第一比对模块321用于将全基因组拷贝数变异数据与ClinVar数据库的自闭症拷贝数变异数据进行比对，取交集得到第一拷贝数变异数据。第二比对模块322用于将第一拷贝数变异数据与sfari gene数据库的自闭症拷贝数变异数据进行比对，取交集得到目标拷贝数变异数据。

如图8所示，在另一个具体示例中，比对模块42包括第一比对模块421、第二比对模块422和第三比对模块423。第一比对模块421用于将全基因组拷贝数变异数据与ClinVar数据库的自闭症拷贝数变异数据进行比对，取交集得到第一拷贝数变异数据。第二比对模块422用于将第一拷贝数变异数据与sfari gene数据库的自闭症拷贝数变异数据进行比对，取交集得到第二拷贝数变异数据。第三比对模块423用于将第二拷贝数变异数据与DGV数据库的健康人拷贝数变异数据进行比对，排除第二拷贝数变异数据中与健康人拷贝数变异数据相同的部分，得到目标拷贝数变异数据。

如图9所示，在一个具体示例中，CNV分析模块33包括第一分析模块331和第二分析模块332。第一分析模块331用于获取目标拷贝数变异数据的功能注释数据，第二分析模块332用于根据功能注释数据确定相关基因。

如图10所示，在一个具体示例中，基因分析模块34包括网络构建模块341和核心程度分析模块342。网络构建模块341用于构建相关基因与已知自闭症基因的相互作用网络，核心程度分析模块342用于分析相互作用网络中相关基因的核心程度，并根据核心程度确定自闭症候选基因。

基于如上所述的实施例，本发明还提供了一种可用于分析自闭症候选基因的计算机设备，具有处理器和存储器，存储器上存储有计算机程序，处理器执行该计算机程序时实现上述任一实施例的自闭症候选基因的分析方法的步骤。

本领域普通技术人员可以理解实现上述方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

据此，本发明还提供了一种可用于分析自闭症候选基因的计算机存储介质，其上存储有计算机程序，计算机程序被执行时实现上述任一实施例的自闭症候选基因的分析方法的步骤。

以下为具体实施例。

一、获取自闭症患者的全基因组拷贝数变异数据

提取自闭症患者的全基因组DNA(采用Qiangen试剂盒)，取500ng完整基因组DNA按实验手册进行SNP array(单核苷酸多态性微阵列分析实验)。SNP array中的全基因组基因芯片为美国Affymetrix公司提供的CytoHD-SNP-Array微阵列。采用Affymetrix 7G扫描仪扫描，扫描信号图经Affymetrix的Chas软件分析、计算产生每一个位点的基因型或信号相对强度，包括CNV和单核苷酸多态性(single nucleotide polymorphism，SNP)。如图11所示，为自闭症患者的拷贝数变异信息数据图。

二、将全基因组拷贝数变异数据与已知数据库的自闭症拷贝数变异数据进行比对

利用综合数据库NCBI和UCSC中的ClinVar记录的变异数据寻找与自闭症相关的CNVs，ClinVar记录的是已知的与疾病有关的染色体变异位点，并且这些变异与疾病的关系都是已经确诊的。同时，利用自闭症专业数据库sfari gene数据库记录的与自闭症广谱疾病(ASD)相关的数据，提取相应CNV区域。将从综合数据库和从专业数据库中提取的CNV进行比较，取交集作为相对可靠的与自闭症相关的CNVs。

另外，DGV数据库中提供了健康人的CNV区域，我们将以上找到的CNV区域减去DGV中报道的变异区域，得到与自闭症有关的潜在区域，共挑出403个CNV区域与自闭症相关。提取数据库中数据，统计这些CNV在人群中变异片段大小的分布和人群中的频率，分析其与自闭症的关系。

三、根据目标拷贝数变异数据确定相关基因

检索有特定基因、转录本、药物或疾病关联的拷贝数变异功能注释，功能注释数据的主要内容如表1所示。根据基因组注释信息和变异的形式(缺失/复制)，找到这些CNV区域影响的基因，包括编码基因与非编码基因，分析自闭症发病与上述所有信息的整合关联。在数据库中，这些基因可能已被排除与自闭症发病的关联，需要进一步比较确定特定临床表型与这些基因之间的关联。

表1

四、根据相关基因与已知自闭症基因的相互作用确定自闭症候选基因

用芯片找到的ASD显著相关的基因与已知基因构建基因相互作用网络，寻找相关基因与已知自闭症基因的联系，并利用k-core算法，确定核心基因。如图12所示为自闭症候选基因的相互作用网络示意图，其中，蓝色外圈是拷贝数增加的基因，排在前十的包括：KIAA0125、ADAM6、MIR650、TENM1、DHRSX、IGLL5、FGF13、LINC00226、RBFOX1、CD99等；绿色外圈是拷贝数减少的基因，排在前十的包括：PRSS3P2、BEND3P3、KRTAP9-7、BMPR1A、EYS、CD99P1、UGT2B15、DNAJC6、TJP2、ADAM5等。为了在这些基因中找到核心调控基因，我们引入k-core打分系统来简化对其的拓扑分析。在网络分析中，中心程度是评估网络中基因重要性的最简单和最重要的措施。核心程度(Degree)定义为一个节点与另一些节点的链接数。k-cores值表示某一子网络中所有节点连接到该子网络中至少k个其他基因，并且这些基因构成一个连接紧密的子网络。k-cores的值越大，表示该基因所在的子网络在网络中的核心程度越高，就被认为在网络中发挥越重要的作用。因此这些k-cores值最大的基因在网络中是核心基因，它们构成核心子网络，它们可作为进一步分析的自闭症候选基因，包括：AR、AFF2、EDA、MECP2、TENM1、ATRX、NHS、GPC3、MMGT1、ZDHHC15、AIFM1、CDKL5、DIAPH2、GPC4、MID2、ATP7A、OPHN1、TMEM255A、IL1RAPL1和NLGN4X。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种自闭症候选基因的分析方法，其特征在于，包括以下步骤：

步骤S1：获取自闭症患者的全基因组拷贝数变异数据；

步骤S3：根据所述目标拷贝数变异数据确定相关基因；

步骤S4：根据所述相关基因与已知自闭症基因的相互作用确定自闭症候选基因；

所述步骤S2包括：

将所述第一拷贝数变异数据与sfari gene数据库的自闭症拷贝数变异数据进行比对，取交集得到所述目标拷贝数变异数据；或

所述步骤S2包括：

2.根据权利要求1所述的分析方法，其特征在于，所述步骤S3包括：

获取所述目标拷贝数变异数据的功能注释数据；

根据所述功能注释数据确定相关基因。

3.根据权利要求1所述的分析方法，其特征在于，所述步骤S4包括：

构建所述相关基因与已知自闭症基因的相互作用网络；

分析所述相互作用网络中所述相关基因的核心程度，并根据所述核心程度确定所述自闭症候选基因。

4.根据权利要求3所述的分析方法，其特征在于，使用k-core算法来分析所述相互作用网络中所述相关基因的核心程度。

5.根据权利要求1～4任一项所述的分析方法，其特征在于，所述步骤S3中，所述相关基因包括编码基因和非编码基因。

6.根据权利要求1所述的分析方法，其特征在于，所述步骤S1中采用全基因组基因芯片对自闭症患者的基因组DNA进行检测并通过扫描仪获取扫描信号图，然后利用软件对扫描信号图进行分析计算得到全基因组拷贝数变异数据。

7.根据权利要求6所述的分析方法，其特征在于，所述全基因组基因芯片为CytoHD-SNP-Array微阵列。

8.一种自闭症候选基因的分析装置，其特征在于，包括：

基因分析模块，用于根据所述相关基因与已知自闭症基因的相互作用确定自闭症候选基因；

所述比对模块包括第一比对模块和第二比对模块；所述第一比对模块用于将全基因组拷贝数变异数据与ClinVar数据库的自闭症拷贝数变异数据进行比对，取交集得到第一拷贝数变异数据；所述第二比对模块用于将第一拷贝数变异数据与sfari gene数据库的自闭症拷贝数变异数据进行比对，取交集得到目标拷贝数变异数据；或

所述比对模块包括第一比对模块、第二比对模块和第三比对模块；所述第一比对模块用于将全基因组拷贝数变异数据与ClinVar数据库的自闭症拷贝数变异数据进行比对，取交集得到第一拷贝数变异数据；所述第二比对模块用于将第一拷贝数变异数据与sfarigene数据库的自闭症拷贝数变异数据进行比对，取交集得到第二拷贝数变异数据；所述第三比对模块用于将第二拷贝数变异数据与DGV数据库的健康人拷贝数变异数据进行比对，排除第二拷贝数变异数据中与健康人拷贝数变异数据相同的部分，得到目标拷贝数变异数据。

9.一种计算机设备，其特征在于，具有处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～7中任一项所述的自闭症候选基因的分析方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1～7中任一项所述的自闭症候选基因的分析方法的步骤。