CN111192625A

CN111192625A - 基于帕金森病基因组学关联模型的管理方法及装置

Info

Publication number: CN111192625A
Application number: CN201911424931.3A
Authority: CN
Inventors: 赵贵虎; 李津臣; 李滨; 唐北沙
Original assignee: Xiangya Hospital of Central South University
Current assignee: Xiangya Hospital of Central South University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-22
Anticipated expiration: 2039-12-31
Also published as: CN111192625B

Abstract

本申请公开了一种基于帕金森病基因组学关联模型的管理方法。该方法包括：接收用户在终端上传的基因组学文件；按照帕金森关联模型评估所述基因组学文件中基因与帕金森病相关联的可靠性。本申请解决了由于无法实现帕金森病与基因关联的智能判断造成的操作繁琐、缓慢，而且用户可选性弱的技术问题。

Description

基于帕金森病基因组学关联模型的管理方法及装置

技术领域

本申请涉及通信领域，具体而言，涉及一种基于帕金森病基因组学关联模型的管理方法及装置。

背景技术

帕金森病(Parkinson’s disease，PD)又称为震颤麻痹，是仅次于痴呆的第二大神经退行性疾病，好发于中老年，发病率随着年龄的增加而增加，广泛分布于在世界各地不同的种族人群。

流行病学调查显示，发达国家中PD的发病率为每年约8-18/10万，一般人群中其患病率约为0.3％，在60岁以上和80岁以上的人群中可分别达到1％和3％。本世纪初发表在Lancet上的流行病学调查的文章显示我国65 岁以上的人群患病率为1.7％。帕金森临床主要表现为静止性震颤、肌强直、运动迟缓和姿势步态异常四主征；亦可同时伴有多种非运动症状 (non-motor symptoms，NMS)如嗅觉减退，便秘，抑郁和睡眠障碍等；病理上主要表现为中脑黑质多巴胺(DA)神经元的变性和缺失。除此之外，α-synuclein的聚集和路易小体(Lewy body)的形成也是PD的重要表现之一。PD患者病程进展较慢，随疾病的发展，症状逐渐加重，直至长期卧床，生活不能自理。PD从诊断到死亡的平均时间为15年，如此长时间的病痛折磨，使患者的生活质量严重低下。现阶段帕金森的治疗主要依靠左旋多巴等药物延缓症状，但对仍无有效延缓帕金森患者神经元退化的进程的治疗手段。随着老龄化社会的发展，老龄化群体比重逐渐加大，PD显著的高致残率带来的经济和社会负担与日俱增。有研究预测2030年全球PD 患病人数达8.67×106例，中国约4.94×106例。

当前，PD发病机制尚未明确。研究表明：遗传因素，环境因素以及老龄化共同作用导致疾病的发生。大约10％-15％PD患者具有家族史。自1997 年在一个帕金森家系中鉴定了PD的第一个致病基因PARK1(SNCA)开始，遗传因素在PD中的起到的作用开始受到重视。随着高通量测序技术和生物信息分析方法的快速发展，通过连锁关联分析、纯合子区间定位、全外显子组测序、全基因组测序等方法的结合与补充，目前已成功克隆了20个 PD致病基因。其中与常染色体显性遗传性帕金森病发病相关的基因有10 个(SNCA、UCHL1、LRRK2、HTRA2、GIGYF2、VPS35、EIF4G1、DNAJC13、CHCHD2、 TMEM230)；与常染色体隐性遗传性帕金森病发病相关的基因有9个(PRKN、 DJ-1、PINK1、ATP13A2、PLA2G6、FBXO7、DNAJC6、SYNJ1、VPS13C)；与 X连锁遗传性帕金森病发病相关的基因有1个(RAB39B)。同时随着PD相关的多个全基因组关联分析(Genome-wide association studies，GWAS) 研究的开展，超过20个易感基因和位点的发现为从群体遗传学的角度解释 PD的遗传度提供了大量数据。

据不完全统计，目前已有超3000篇SCI文献报道了家系或者散发病例中发现的PD致病基因的罕见变异、常见变异、拷贝数变异。并且随着表观遗传学的发展，DNA甲基化对基因翻译和表达的有着显著的影响。与此同时，也有多篇文献报道通过人群队列中基因差异化表达来寻找帕金森病相关致病基因的研究。但是，发明人发现，这些研究一直以来，缺少一个全面的整理和数据分析平台，无法实现帕金森病与基因关联的智能判断，导致操作繁琐、缓慢，而且用户无法根据实际情况进行选择。

针对相关技术中无法实现帕金森病与基因关联的智能判断造成的操作繁琐、缓慢，而且用户可选性弱的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种基于帕金森病基因组学关联模型的管理方法及装置，以解决无法简单、快速的实现帕金森病与基因关联判断的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种基于帕金森病基因组学关联模型的管理方法。

根据本申请的基于帕金森病基因组学关联模型的管理方法包括：接收用户在终端上传的基因组学文件；按照帕金森关联模型评估所述基因组学文件中基因与帕金森病相关联的可靠性。

进一步的，接收用户在终端上传的基因组学文件之前还包括：获取第一遗传学数据和第二遗传学数据；对第一遗传学数据和第二遗传学数据进行注释，得到第一已注释数据和第二已注释数据；按照预设打分规则给所述第一已注释数据和所述第二遗传学数据打分；根据打分结果划分优先等级，构建出帕金森关联模型。

进一步的，获取第一遗传学数据和第二遗传学数据包括：获取在PubMed 中的文献数据和用户递交的基因数据；对所述文献数据进行清洗、降噪和同质性处理，得到罕见变异数据；将罕见变异数据作为第一遗传学数据，并将用户递交的基因数据作为第二遗传学数据。

进一步的，对第一遗传学数据和第二遗传学数据进行注释，得到第一已注释数据和第二已注释数据包括：通过23款软件配合算法对罕见变异数据进行注释，得到第一已注释数据；利用63款软件对第二遗传学数据进行注释，得到第二已注释数据。

进一步的，按照预设打分规则给所述已注释数据和所述第二遗传学数据打分包括：识别第一已注释数据和第二遗传数据的基因组学数据信息；根据所述遗传学种类在预设分值-数据表格中确定在单篇文献中单次出现该种类基因或变异的第一分值；统计该种类基因或变异在单篇文献中的出现次数；将突变位点、出现次数和第一分值输入评分模型，得到该种类基因或变异的总分值。

进一步的，根据打分结果划分优先等级，构建出帕金森关联模型包括：采用划分算法由高到低将打分结果划分为多个分值区域；根据分值高低给每个分值区域赋予置信度等级；根据置信度等级构建出帕金森关联模型。

为了实现上述目的，根据本申请的另一方面，提供了一种基于帕金森病基因组学关联模型的管理装置。

根据本申请的基于帕金森关联模型的管理装置包括：接收模块，用于接收用户在终端上传的基因组学文件；关联模块，用于按照帕金森关联模型评估所述基因组学文件中基因与帕金森病相关联的可靠性。

进一步的，所述获取模块包括：获取在PubMed中的文献数据和用户递交的基因数据；对所述文献数据进行清洗、降噪和同质性处理，得到罕见变异数据；将罕见变异数据作为第一遗传学数据，并将用户递交的基因数据作为第二遗传学数据。

进一步的，所述注释模块包括：通过23款软件配合算法对罕见变异数据进行注释，得到第一已注释数据；利用63款软件对第二遗传学数据进行注释，得到第二已注释数据。

在本申请实施例中，采用基于帕金森关联模型进行患病可靠性判断的方式，通过接收用户在终端上传的基因组学文件；按照帕金森关联模型评估所述基因组学文件中基因与帕金森病相关联的可靠性，达到了帕金森病与基因关联智能判断的目的，从而实现了操作简单、快速，且用户可选性强的技术效果，进而解决了由于无法实现帕金森病与基因关联的智能判断造成的操作繁琐、缓慢，而且用户可选性弱的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的基于帕金森病基因组学关联模型的管理方法流程示意图；

图2是根据本申请第二实施例的基于帕金森病基因组学关联模型的管理方法流程示意图；

图3是根据本申请第三实施例的基于帕金森病基因组学关联模型的管理方法流程示意图；

图4是根据本申请第四实施例的基于帕金森病基因组学关联模型的管理方法流程示意图；

图5是根据本申请第五实施例的基于帕金森病基因组学关联模型的管理方法流程示意图；

图6是根据本申请第六实施例的基于帕金森病基因组学关联模型的管理方法流程示意图；

图7是根据本申请第一实施例的基于帕金森病基因组学关联模型的管理装置流程示意图；

图8是根据本申请第二实施例的基于帕金森病基因组学关联模型的管理装置结构示意图；

图9是根据本申请一优选实施例的表格示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本实用新型及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本发明实施例，提供了一种基于帕金森病基因组学关联模型的管理方法，如图1所示，该方法包括如下的步骤S100至步骤S102：

步骤S100、接收用户在终端上传的基因组学文件；

步骤S102、按照帕金森关联模型评估所述基因组学文件中基因与帕金森病相关联的可靠性。

用户仅需要通过电脑或手机进入网站，上传VCF4格式的基因组学数据文件，然后自行填写简单的邮箱地址信息、选择基因型信息、选择识别共分离变异、选择综合性注释、选择临床信息、选择罕见变异、选择罕见变异中所需的预测算法、选择在不同人群里的等位基因频率等，然后点击提交，帕金森关联模型会根据选择、填写和上传的信息就可以自行评测提供的基因与帕金森病相关联的可靠性。达到智能判断帕金森病与基因关联性的目的，从而实现了操作简单、快速，且用户可选性强的技术效果。

从以上的描述中，可以看出，本发明实现了如下技术效果：

根据本发明实施例，优选的，如图2所示，接收用户在终端上传的基因组学文件之前还包括：

步骤S200、获取第一遗传学数据和第二遗传学数据；

根据本发明实施例，优选的，如图3所示，获取第一遗传学数据和第二遗传学数据包括：

步骤S300、获取在PubMed中的文献数据和用户递交的基因数据；

步骤S302、对所述文献数据进行清洗、降噪和同质性处理，得到罕见变异数据；

步骤S304、将罕见变异数据作为第一遗传学数据，并将用户递交的基因数据作为第二遗传学数据。

PubMed是指收录相关数据信息的文献数据库；采用接口与PubMed建立连接，从而可以从中获取文献数据。基因数据由用户通过APP或电脑软件上传到服务器，再由服务器存储。文献数据中包含了不是很多类型的数据，有一大部分不是本发明需要的数据，也有数据类型不兼容的情况，因此，对获取的文献数据进行清洗、降噪、同质性处理，获取得到罕见变异数据，使获取得到的数据更为精确，以方便数据在下一步中的使用。

本实施例中，罕见变异数据为第一遗传学数据，这些数据需要配合软件、算法进行注释；即需要注释后再打分的数据归为第一遗传学数据，等待注释并打分。

本实施例中，用户提交的基因数据为第二遗传学数据，这些数据无需注释后再打分；直接可运用于下一步的等级划分中。

第二遗传学数据包括但不限于，罕见变异、单核苷酸多态性、拷贝数变异、差异表达基因、DNA甲基化基因等数据。

步骤S202、对第一遗传学数据和第二遗传学数据进行注释，得到第一已注释数据和第二已注释数据；

根据本发明实施例，优选的，如图4所示，对第一遗传学数据和第二遗传学数据进行注释，得到第一已注释数据和第二已注释数据包括：

步骤S400、通过23款软件配合算法对罕见变异数据进行注释，得到第一已注释数据；

步骤S402、利用63款软件对第二遗传学数据进行注释，得到第二已注释数据。

23款软件分别为：SIFT,PolyPhen2 HDIV,PolyPhen2 HVAR,LRT,MutationTaster,MutationAssessor,FATHMM,PROVEAN,MetaSVM,MetaLR,VEST3 ,M-CAP,CADD,GERP++,DANN,fathmm-MKL,Eigen,GenoCanyon,ftCons,PhyloP,P hastCons,SiPhy,REVEL和ReVe。采用以上的软件对罕见变异数据进行在不同人群中的频率，在不同转录本中导致的氨基酸改变，不同预测软件预测的有害性等的注释；从而在后续建立模型或人员直接调取使用时，可以直接使用这些注释后的数据，提高了研究效率，也提高了模型构建效率。

同样，采用63款软件进行基因数据的注释，包括对基因的基本信息 (UniProt,NCBI Gene,BioSystem)基因对突变不耐受性信息(RVIS,LoFtool)；蛋白质相互作用(InBioMap)；基因不同组织表达(GTEx)；药物基因相互作用信息(DGIdb)等的注释；从而在后续建立模型或人员直接调取使用时，可以直接使用这些注释后的数据，提高了研究效率，也提高了模型构建效率。

步骤S204、按照预设打分规则给所述第一已注释数据和所述第二遗传学数据打分；

根据本发明实施例，优选的，如图5所示，按照预设打分规则给所述第一已注释数据和所述第二遗传学数据打分包括：

步骤S500、识别第一已注释数据和第二遗传数据的基因组学数据信息；

步骤S502、根据所述基因组学数据信息在预设分值-数据表格中确定在单篇文献中单次出现该种类基因或变异的第一分值；

步骤S504、统计该种类基因或变异在单篇文献中的出现次数；

步骤S506、将基因组学数据信息、出现次数和第一分值输入评分模型，得到该种类基因或变异的总分值。

采用识别算法，可以识别出注释后的罕见变异数据用户提交的基因数据中的遗传学种类和突变位点；比如：罕见变异可以分为LOF、有害变异、可忍受错义突变、其他变异四种种类，通过算法识别后，可以确定当前被识别的数据是以上哪个种类。

识别结束后，参照如图9所示的分值-数据图(部分，仅作说明)，可以根据识别结果从中查出该种类的某个变异或基因的分数；一篇文献中很有可能多次出现该种类的基因或变异，显然也会影响最终的总分值计算，因此，进行以每篇为单位进行了出现次数的统计，最终将次数、突变位点(在哪个位置发生突变)输入评分模型，能够计算得到某个种类变异或基因在某个位置的总分值，该分值可以一定程度的反应换帕金森病的概率，一般认为分数越高，患病的概率越大，基于此可以实现患帕金森病的概率判断。

步骤S206、根据打分结果划分优先等级，构建出帕金森关联模型。

根据本发明实施例，优选的，如图6所示，根据打分结果划分优先等级，构建出帕金森关联模型包括：

步骤S600、采用划分算法由高到低将打分结果划分为多个分值区域；

步骤S602、根据分值高低给每个分值区域赋予置信度等级；

步骤S604、根据置信度等级构建出帕金森关联模型。

分数越高，患病的概率越大；基于此逻辑，可以划分五个区域，高分区域、中高分区域、中分区域、中低分区域、低分区域；再将置信度等级和这五个分值区域相关联，高分区域对应高置信度患帕金森病，根据以上的五个区域置信度等级依次递减，如此，构建出了帕金森关联模型，使人员可以从中查看自己的提供的基因是否存在关联，进而判断帕金森患病概率。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述基于帕金森病基因组学关联模型的管理方法的装置，如图7所示，该装置包括：

接收模块10，用于接收用户在终端上传的基因组学文件；

关联模块20，用于按照帕金森关联模型评估所述基因组学文件中基因与帕金森病相关联的可靠性。

从以上的描述中，可以看出，本发明实现了如下技术效果：

根据本发明实施例，优选的，如图8所示，还包括：

获取模块30，用于获取第一遗传学数据和第二遗传学数据；

根据本发明实施例，优选的，获取第一遗传学数据和第二遗传学数据包括：

获取在PubMed中的文献数据和用户递交的基因数据；

对所述文献数据进行清洗、降噪和同质性处理，得到罕见变异数据；

将罕见变异数据作为第一遗传学数据，并将用户递交的基因数据作为第二遗传学数据。

注释模块40，用于对第一遗传学数据和第二遗传学数据进行注释，得到第一已注释数据和第二已注释数据；

根据本发明实施例，优选的，对第一遗传学数据和第二遗传学数据进行注释，得到第一已注释数据和第二已注释数据包括：

通过23款软件配合算法对罕见变异数据进行注释，得到第一已注释数据；

利用63款软件对第二遗传学数据进行注释，得到第二已注释数据。

打分模块50，用于按照预设打分规则给所述已注释数据和所述第二遗传学数据打分；

根据本发明实施例，优选的，按照预设打分规则给所述第一已注释数据和所述第二遗传学数据打分包括：

识别第一已注释数据和第二遗传数据的基因组学数据信息；

根据所述基因组学数据信息在预设分值-数据表格中确定在单篇文献中单次出现该种类基因或变异的第一分值；

统计该种类基因或变异在单篇文献中的出现次数；

将基因组学数据信息、出现次数和第一分值输入评分模型，得到该种类基因或变异的总分值。

构建模块60，用于根据打分结果划分优先等级，构建出帕金森关联模型。

根据本发明实施例，优选的，根据打分结果划分优先等级，构建出帕金森关联模型包括：

采用划分算法由高到低将打分结果划分为多个分值区域；

根据分值高低给每个分值区域赋予置信度等级；

根据置信度等级构建出帕金森关联模型。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于帕金森病基因组学关联模型的管理方法，其特征在于，包括：

接收用户在终端上传的基因组学文件；

按照帕金森关联模型评估所述基因组学文件中基因与帕金森病相关联的可靠性。

2.根据权利要求1所述的管理方法，其特征在于，接收用户在终端上传的基因组学文件之前还包括：

获取第一遗传学数据和第二遗传学数据；

对第一遗传学数据和第二遗传学数据进行注释，得到第一已注释数据和第二已注释数据；

按照预设打分规则给所述第一已注释数据和所述第二遗传学数据打分；

根据打分结果划分优先等级，构建出帕金森关联模型。

3.根据权利要求2所述的管理方法，其特征在于，获取第一遗传学数据和第二遗传学数据包括：

获取在PubMed中的文献数据和用户递交的基因数据；

4.根据权利要求2所述的管理方法，其特征在于，对第一遗传学数据和第二遗传学数据进行注释，得到第一已注释数据和第二已注释数据包括：

5.根据权利要求2所述的管理方法，其特征在于，按照预设打分规则给所述已注释数据和所述第二遗传学数据打分包括：

识别第一已注释数据和第二遗传数据的基因组学数据信息；

统计该种类基因或变异在单篇文献中的出现次数；

6.根据权利要求2所述的管理方法，其特征在于，根据打分结果划分优先等级，构建出帕金森关联模型包括：

采用划分算法由高到低将打分结果划分为多个分值区域；

根据分值高低给每个分值区域赋予置信度等级；

根据置信度等级构建出帕金森关联模型。

7.一种基于帕金森病基因组学关联模型的管理装置，其特征在于，包括：

接收模块，用于接收用户在终端上传的基因组学文件；

关联模块，用于按照帕金森关联模型评估所述基因组学文件中基因与帕金森病相关联的可靠性。

8.根据权利要求7所述的管理装置，其特征在于，还包括：

获取模块，用于获取第一遗传学数据和第二遗传学数据；

注释模块，用于对第一遗传学数据和第二遗传学数据进行注释，得到第一已注释数据和第二已注释数据；

打分模块，用于按照预设打分规则给所述第一已注释数据和所述第二遗传学数据打分；

构建模块，用于根据打分结果划分优先等级，构建出帕金森关联模型。

9.根据权利要求8所述的管理装置，其特征在于，所述获取模块包括：

获取在PubMed中的文献数据和用户递交的基因数据；

10.根据权利要求8所述的管理装置，其特征在于，所述注释模块包括：