免疫球蛋白A肾病RhoGTPase相关诊断标志物
技术领域
本申请涉及肾病检测技术领域,尤其是涉及免疫球蛋白A肾病RhoGTPase相关诊断标志物。
背景技术
免疫球蛋白A(IgA)肾病,由IgA复合物在肾脏沉积,导致肾脏局部自身免疫反应,引起肾组织病变,是一种最常见的原发性肾小球疾病。超过30%的患者在发病10-20年后进展至终末期肾脏病(ESRD),使得IgA肾病成为引起尿毒症最常见的病因之一。目前IgA肾病诊断金标准为肾穿刺的病理组织活检,然而有创肾穿刺存在几个缺陷:(1)肾穿刺无法进行早期诊断,只能够检测发病的肾损伤已经形成的病人。(2)肾穿刺存在风险,因为许多病人存在肾穿刺相对禁忌症,或者医院不具备肾穿刺病理诊断的条件,而导致病人无法获得明确诊断并进行针对性的治疗。(3)肾穿刺医疗费用高,相当于一次手术,需要住院一个星期。因此临床上亟需开发有助于IgA肾病诊断或病情判断的无创性生物标志物。
IgA肾病诊断的生物标志物大致可以分为两类:免疫诊断标志物和基因诊断标志物。免疫诊断标志物是指蛋白质或抗体,而基因诊断标志物是指包含遗传性IgA肾病的基因突变和基因分型的DNA检测、mRNA基因表达、调控基因表达的miRNA等。现有的IgA肾病免疫诊断标志物通常特异性介于25%-75%,敏感性介于60%-90%。其中研究较多的有:(1)半乳糖缺陷IgA1(Gd-IgA1)分子;(2)针对Gd-IgA1的抗糖抗体;(3)IgA/C3比例,补体通路的补体C3;(4)所有IgA复合物的总信号。然而,这些免疫诊断标志物的特异性不高,因此,有必要通过新的方法找到更具诊断价值的标志物。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种具有良好诊断价值的免疫球蛋白A肾病的标志物。
本申请的第一方面,提供定量检测样本中以下a~b中至少一种标志物的试剂在制备疫球蛋白A肾病的诊断试剂盒中的应用:
a.ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2;
b.ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG。
根据本申请实施例的应用,至少具有如下有益效果:
免疫球蛋白A肾病的发病机理与五个基因轴(Axis)相关,本申请从RhoGTPase通路轴(RhoGTPase Pathway Axis)出发,基于RhoGTPase通路上相关基因,从组织或外周血等不同样本来源的表达数据中进行筛选,得到上述两组共16个标志物,基于这16个标志物中至少一种对受试者进行定量检测都能够可以高效准确地诊断出是否患有IgA肾病,并且具有良好的特异性和灵敏度。
其中,ARFGAP1(ADP Ribosylation Factor GTPase Activating Protein 1)是ADP核糖基化因子的GTP酶激活蛋白1,它参与膜运输和/或囊泡运输,能够促进ARF1结合GTP的水解,是从高尔基体衍生膜和囊泡分离外壳蛋白所必需的条件,也是囊泡与靶区融合的先决条件。
ARHGEF5(Rho Guanine Nucleotide Exchange Factor 5)是Rho鸟嘌呤核苷酸交换因子5,它能够强激活RhoA/B,弱激活RhoC/G,同时参与调节细胞形状和肌动蛋白细胞骨架组织,通过产生肌动蛋白应力纤维的损失和膜皱褶和丝足的形成,在肌动蛋白组织中发挥作用。
ARHGEF6(Rac/Cdc42 Guanine Nucleotide Exchange Factor 6)是RAC/CDC42鸟嘌呤核苷酸交换因子6。
DOCK10(Dedicator Of Cytokinesis 10)是一种涉及细胞内信号转导网络的细胞因子蛋白质家族成员,属于DOCK家族中的D(或Zizimin)亚家族。
NUP62CL(Nucleoporin 62C-Terminal Like)是核致核蛋白62C末端蛋白,其是一种含有核孔蛋白结构域的蛋白质,该核孔蛋白是在核孔复合体中发现的糖蛋白。
RAB6B是Ras oncogene家族的RAS相关蛋白,其相关通路包括TBC/RabGaps和COPI独立的高尔基体-ER逆行。
RAP2A同样是Ras oncogene家族的RAS相关蛋白,参与调节细胞骨架重排、细胞迁移、细胞粘附和细胞扩散。
RASGRP2(RAS Guanyl Releasing Protein 2)是RAS鸟苷酸释放蛋白2,该蛋白质可以激活小GTP酶,包括RAS和RAP1/RAS3,并且可以通过钙和二酰基甘油刺激该蛋白质的核苷酸交换活性。
RHOBTB1(Rho Related BTB Domain Containing 1)是Rho相关BTB结构域1,该基因编码的蛋白属于小GTP酶超家族的Rho家族,在小GTP酶介导的信号转导和肌动蛋白丝的组织构建中起作用。而RHOBTB2是RHOBTB1的同源基因。
ARFGAP3(ADP Ribosylation Factor GTPase Activating Protein 3)是ADP核糖基化因子GTP酶激活蛋白(GAP)3,与高尔基体相关并调节蛋白质的早期分泌途径,其能够促进ADP-核糖基化因子1(ARF1)结合的GTP水解。
CDC42(Cell Division Cycle 42)是Rho亚家族的小GTP酶,调节指导传导通路,而该信号通路控制不同细胞功能,包括细胞形态、迁移、内吞作用和细胞周期进展等。
DOCK3(Dedicator Of Cytokinesis 3)同样是DOCK家族的成员之一,DOCK3和DOCK1、DOCK2和DOCK4在其同源区结构域中共享GEF活性所需的几个保守氨基酸,并通过其DHR-1结构域直接与WAVE蛋白结合。此外,还通过刺激波复合体的膜募集和激活小G蛋白Rac1,诱导中枢神经系统的轴突生长。
NUP153(Nucleoporin 153)是核心孔复合蛋白153,它是穿过核膜运输所需的核孔复合体(NPC)的组成部分。
RASA1(RAS P21 Protein Activator 1)是RAS P21蛋白激活剂1,位于细胞质中,是GTP酶激活蛋白GAP1家族的一部分。作为RAS功能抑制剂,能够增强RAS蛋白微弱的内在GTPase活性。
RHOG(Ras Homolog Family Member G)是RAS同源家族成员G,在非活性GDP结合态和活性GTP结合态之间循环,并在信号转导级联中作为分子开关发挥作用。另外能够促进肌动蛋白细胞骨架的重组并调节细胞形状、附着和运动。而且编码的蛋白质能够促进功能性鸟嘌呤核苷酸交换因子(GEF)复合物从细胞质转移到质膜,在质膜上激活ras相关C3肉毒毒素底物1,以促进板层形成和细胞迁移。
其中,试剂定量检测样本中a~b中至少一种标志物是指,试剂能够定量检测a中10个标志物所组成的组中的至少一种标志物,或是指试剂能够定量检测b中6个标志物所组成的组中的至少一种标志物,或是指试剂能够定量检测a和b中共计16个标志物所组成的组中的至少一种标志物。
在本申请的一些实施方式中,样本为组织或血液中的至少一种,试剂定量检测组织样本或血液样本中的至少一种待测材料中ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2中至少一种标志物。
在本申请的一些实施方式中,样本为组织,试剂定量检测组织样本中ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2中至少一种标志物。
在本申请的一些实施方式中,该试剂定量检测ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2中的至少两种,至少三种,至少四种,至少五种,至少六种,至少七种,至少八种,至少九种,全部十种标志物。
在本申请的一些实施方式中,样本为血液,试剂定量检测血液样本中ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG中至少一种标志物。
在本申请的一些实施方式中,该试剂定量检测ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG中的至少两种,至少三种,至少四种,至少五种,全部六种标志物。
可以理解的是,也可以采用a中的标志物组和b中的标志物组中任选多种联合得到新的标志物组合用于检测。
在本申请的一些实施方式中,该试剂定量检测ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1、RHOBTB2、ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG中的至少两种,至少三种,至少四种,至少五种,至少六种,至少七种,至少八种,至少九种,至少十种,至少十一种,至少十二种,至少十三种,至少十四种,至少十五种,至少十六种,至少十七种,全部十八种标志物。
在本申请的一些实施方式中,试剂在转录水平或蛋白水平上进行检测。
在本申请的一些实施方式中,试剂通过二代测序、三代测序、荧光定量PCR、数字PCR、基因芯片、质谱、电泳、免疫吸附等其中的任一种进行定量检测。
本申请的第二方面,提供IgA肾病的诊断试剂盒,该诊断试剂盒包括定量检测以下a~b中至少一种标志物的试剂:
a.ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2;
b.ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG。
在本申请的一些实施方式中,试剂在转录水平或蛋白水平上进行检测。
在本申请的一些实施方式中,试剂通过二代测序、三代测序、荧光定量PCR、数字PCR、基因芯片、质谱、电泳、免疫吸附等其中的任一种进行定量检测。根据不同的检测要求,可以对样本通过不同的检测平台或检测方法进行定量检测。
在本申请的一些实施方式中,该试剂定量检测ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2中的至少两种,至少三种,至少四种,至少五种,至少六种,至少七种,至少八种,至少九种,全部十种标志物。
在本申请的一些实施方式中,该试剂定量检测ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG中的至少两种,至少三种,至少四种,至少五种,全部六种标志物。
在本申请的一些实施方式中,该试剂定量检测ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1、RHOBTB2、ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG中的至少两种,至少三种,至少四种,至少五种,至少六种,至少七种,至少八种,至少九种,至少十种,至少十一种,至少十二种,至少十三种,至少十四种,至少十五种,全部十六种标志物。
本申请的第三方面,提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行以下操作:
步骤1:获取来自来自受试者样本中以下a~b中至少一种标志物的表达水平的信息:
a.ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2;
b.ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG;
步骤2:对表达水平进行数学关联以获得评分;评分用于指示受试者的免疫球蛋白A肾病的患病风险。
其中,受试者是指待评估免疫球蛋白A肾病的患病风险的待测人员,受试者样本是指待测人员的包含上述标志物的表达水平的信息的样本,具体包括但不限于血液样本(如外周血样本)、尿样、组织样本(如穿刺样本)等。进行数学关联以获得评分是指通过诸如建模的方式得到患病风险与这些标志物基因的表达水平的关系,而患病风险则以评分的方式体现。
在本申请的一些实施方式中,表达水平为标志物的转录水平或蛋白水平。根据实际样本来源的不同,可以在转录水平或蛋白质水平上对基因的表达进行检测。
在本申请的一些实施方式中,步骤1还包括对表达水平进行标准化。通过标准化处理以进一步避免可能引起的诊断结果误差。
在本申请的一些实施方式中,操作还包括步骤3:根据评分对受试者的免疫球蛋白A肾病的患病风险进行评估。具体可以通过患者组与正常人之间评分的差异得到区分正常人和患者的评分阈值,根据受试者的评分与评分阈值之间的关系对免疫球蛋白A肾病的患病风险进行评估。例如,如果受试者的评分达到设定的阈值或比之更高,判断受试者有较大的可能患有IgA肾病。
本申请的第四方面,提供一种电子设备,该电子设备包括处理器和存储器,存储器上存储有可在处理器上运行的计算机程序,所述处理器在运行所述计算机程序时实现以下操作:
步骤1:获取来自受试者样本中以下a~b中至少一种标志物的表达水平的信息:
a.ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2;
b.ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG;
步骤2:对表达水平进行数学关联以获得评分;评分用于指示受试者的免疫球蛋白A肾病的患病风险。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本申请实施例描述的标志物筛选方法或对受试者的免疫球蛋白A肾病风险进行评估。处理器通过运行存储在存储器中的非暂态软件程序以及指令,从而实现上述的标志物筛选方法或对受试者的免疫球蛋白A肾病风险进行评估。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述标志物筛选方法。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,比如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在其中一些具体的实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述的标志物筛选方法所需的非暂态软件程序以及指令存储在存储器中,当被一个或者多个处理器执行时,执行上述的标志物筛选方法。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
图1是本申请的实施例1筛选出的10个基因诊断标志物在组织样本中表达水平的箱线图。
图2是本申请的实施例1筛选出的6个基因诊断标志物在外周血单核细胞样本中表达水平的箱线图。
图3是本申请的实施例1筛选出的10个基因的组合作为诊断标志物对组织样本建模得出的ROC曲线。
图4是本申请的实施例1筛选出的6个基因的组合作为诊断标志物对外周血样本建模得出的ROC曲线。
图5是本申请的实施例1筛选出的10个基因的组合作为诊断标志物对外周血样本建模得出的ROC曲线。
图6是本申请的实施例1筛选出的6个基因的组合作为诊断标志物对组织样本建模得出的ROC曲线。
图7是本申请的实施例1筛选出的10个基因单独作为诊断标志物对组织样本建模得出的ROC曲线。
图8是本申请的实施例1筛选出的6个基因单独作为诊断标志物对外周血样本建模得出的ROC曲线。
图9是本申请的实施例1筛选出的10个基因组合中的多个不同基因作为诊断标志物建模得出的ROC曲线。
图10是本申请的实施例1筛选出的6个基因组合中的多个不同基因作为诊断标志物建模得出的ROC曲线。
具体实施方式
以下将结合实施例对本申请的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本申请的目的、特征和效果。显然,所描述的实施例只是本申请的一部分实施例,而不是全部实施例,基于本申请的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本申请保护的范围。
下面详细描述本申请的实施例,描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,若干的含义是一个以上,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本申请的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
实施例1:标志物的筛选
本申请实施例涉及诊断标志物的筛选,在先的研究表明,mRNA基因表达对肾病进行分子诊断的巨大潜力,同时免疫球蛋白A肾病的发病机理可能与RhoGTPase轴(RhoGTPasePathway Axis)在内的一些基因轴相关。
因此,根据文献及公开基因数据库,预先选定可能与IgAN发病机制相关的RhoGTPase通路上的基因如下表1所示,共计241个,需要说明的是,表中基因仅仅是根据通路上的功能的大致分类,并不对其构成唯一性的限定。
表1.RhoGTPase轴相关基因
数据集准备
1.样本按照不同的来源分为组织样本(Tissue)和外周血样本(PBMC),其中:
A.组织样本,从基因表达综合数据库(GEO)下载肾组织基因转录组基因芯片数据集GSE37460及GSE93798。GSE37460包含健康人(HC,Health Control)及IgA肾病(IgAN,IgANephropathy)病人肾组织样本各27例,此外还包含15例高血压肾病(HN,HypertensionNephropathy);GSE93798则包含健康人22例及IgA肾病病人肾组织样本20例,均有超过20000多个基因探针。后续建模数据选用HC及IgAN样本,HN样本留待探索模型对于其它肾病的诊断价值时使用。
B.外周血单核细胞样本,从基因表达综合数据库(GEO)下载外周血单细胞基因转录组基因芯片数据集GSE14795(健康8例,肾病12例),数据集GSE58539(健康9例,肾病8例),及数据集GSE73953(健康2例,肾病15例)。
2.数据标准化(Normalization):标准化分两步:(一)先对每个样本分别计算所有基因表达量的中位数,标准化表达为原表达量减去计算出的中位数,通过这种标准化方式去除样本mRNA输入量的差异;(二)为了便于把不同的数据集综合,分别对每个数据集进行四分位数(Interquartile)标准化,即把每个样本(或基因)的第一、第三个四分位数线性映射到0、1。
3.最后选定基因交集把表达数据堆栈起来,构成具有49例健康人及47例IgA肾病病人的肾组织综合数据集;以及包含19例健康人及35例IgA肾病病人的外周血单核细胞综合数据集。
标志物筛选
对于预先选定的241个RhoGTPase酶通路的基因。利用t-检验进行健康人与IgAN肾病病人之间表达水平的对比,选出两者表达水平之间的区别具有统计意义的部分。
其中,利用肾组织综合数据集经过t-检验筛选出的基因有89个:ARFGAP1、ARHGAP10、ARHGAP15、ARHGAP19、ARHGAP25、ARHGAP26、ARHGAP4、ARHGDIB、ARHGEF1、ARHGEF15、ARHGEF16、ARHGEF18、ARHGEF5、ARHGEF6、ARHGEF9、CDC42EP2、CDC42EP3、CDC42EP4、DOCK1、DOCK10、DOCK2、DOCK4、DOCK5、DOCK6、EZR、FAT2、FERMT1、KANK1、KANK3、MAGI2、NUP107、NUP214、NUP50、NUP62、NUP62CL、NUP85、NUP88、NUP93、NUPR1、PAK4、RAB11A、RAB11B、RAB11FIP2、RAB11FIP3、RAB17、RAB22A、RAB2A、RAB31、RAB35、RAB3GAP1、RAB5A、RAB6B、RABEP2、RABGEF1、RABGGTA、RAC1、RALGPS2、RAP2A、RAPGEF4、RAPGEF6、RASA3、RASAL2、RASGRF1、RASGRP1、RASGRP2、RASGRP3、RASIP1、RASL11B、RASL12、RASSF2、RASSF8、RGL2、RHOA、RHOB、RHOBTB1、RHOBTB2、RHOC、RHOF、RHOG、RHOT1、SNUPN、SOS2、SOSTDC1、SRGAP2、TIAM1、TNS1、TRIOBP、TRPC6、VAV1。将其按照p值从小到大排序。
同样,利用外周血单核细胞综合数据集经过t-检验筛选出的基因有31个:ARFGAP3、ARHGAP26、ARHGDIB、ARHGEF11、CDC42、DOCK1、DOCK3、DOCK9、EZR、GDI1、GDI2、NUP153、NUP188、PAK4、RAB11A、RAB11FIP2、RAB1A、RAB21、RAB35、RAB5A、RAB5B、RABGAP1L、RAP2B、RAP2C、RAPGEF1、RASA1、RASGRF1、RASGRP3、RHOG、SOSTDC1、TRIOBP。同样将其按照p值从小到大排序。
两者交集,即同时在组织和外周血中的表达均有统计意义上区别的基因共14个:ARHGAP26、ARHGDIB、DOCK1、EZR、PAK4、RAB11A、RAB11FIP2、RAB35、RAB5A、RASGRF1、RASGRP3、RHOG、SOSTDC1、TRIOBP。
本实施例采用多重迭代线性回归方法分别对肾组织综合数据集和外周血单核细胞综合数据集建立模型(可以理解的是,也可以采用其它监督的机器学习非线性算法替代,比如经典的SVM、PCA、神经网络等或者深度学习算法代替):
第一步:由于线性回归(Linear Regression)模型的建立比较适合于几个至几十个输入参变量,选定模型输入参变量的个数S,把基因组平均分为由S个基因组成的基因子集,对每个子集分别建立线性回归模型,其中的基因为输入参变量,样本类型编码,HC(健康人)=0,IgAN(IgA肾病病人)=1,为目标变量,把模型中p值小于0.10的基因保留。这里阈值0.10高于传统的0.05,是因为这些基因在下一轮的模型中也可能满足统计意义的p值。
第二步:把所有这样选出的基因合并,如果总个数大于S,对合并基因重复第一步,直到合并后的基因个数不超过S。
在建模过程中,遍历所有合理的模型大小,S=10,11,…,60,进行上述多重迭代线性回归建模步骤,最后,取每个S得出的R平方值(rsq)的最大值作为最优的模型大小。
最终得到肾组织数据的最优模型S=10,分别是ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2。
外周血数据的最优模型S=6,分别是ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG。最优线性回归模型分别如表2和表3,从表中可以看出,模型中每个基因对应的p值均小于0.05。
表2. 10个基因组成的组织数据最优线性回归模型及功能标注
表3. 6个基因组成的外周血数据最优线性回归模型及功能标注
从表2和表3的结果可以看出,两者建模得出的最优模型中,各个基因的p值均小于0.05。
单独对不同分组下的10个和6个基因表达水平的t检验结果的箱线图分别如图1和图2所示,其中,横坐标的0表示正常人的对照组,1表示IgA肾病的患者组,上述箱线图中对照组和患者组的组织和外周血样本中各个基因的表达均存在显著差异(p<0.05)。该结果表明,对于各自的组织或外周血的样本类型,这10个和6个基因对IgA肾病都具有较好的分离性,表达水平在HC与IgAN之间具有统计意义上的差异。
综合上述结果,总计16个基因中的至少一种作为IgA肾病的诊断标志物,可以对受试者检测其中至少一种标志物的表达水平,根据其结果对受试者的IgA肾病的患病风险进行评估。
模型交叉验证(Cross
Validation)
1、全组合验证
1.1 10基因组织样本验证
把上述49例健康人及47例IgAN病人的组织样本的数据分别随机平分,组合成两个平衡了HC与IgAN的数据子集,用其一以ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2为输入变量建立线性回归模型,以另一个子集为验证数据集,画出ROC图并计算AUC。结果如图3所示,其中最大AUC为1,中值AUC为0.968。该结果表明,以ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2这10个标志物为组合进行IgAN的诊断具有出色的结果。
1.2 6基因外周血样本验证
按照同样的方法将19例健康人及35例IgAN病人的外周血样本的数据分别随机平分,组合成两个平衡了HC与IgAN的数据子集,用其一以ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG为输入变量建立线性回归模型,以另一个子集为验证数据集,画出ROC图并计算AUC。结果如图4所示,最小AUC为0.6,最大AUC为0.989,中值AUC为0.911。由此可见,用这组基因来区分健康人与病人的外周血样本,其结果同样有较高的准确性,但比组织样本中的10基因组合稍有不足。
1.3 10基因外周血样本验证
按照同样的方法将19例健康人及35例IgAN病人的外周血样本的数据分别随机平分,组合成两个平衡了HC与IgAN的数据子集,用其一以ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2为输入变量建立线性回归模型,以另一个子集为验证数据集,画出ROC图并计算AUC。结果如图5所示,其中最大AUC为0.672,中值AUC为0.506,最小AUC为0.389。结合上述结果,采用10基因组合的模型应用在外周血单核细胞样本,其中值AUC为0.506,诊断价值有限。
1.4 6基因组织样本验证
把上述49例健康人及47例IgAN病人的组织样本的数据分别随机平分,组合成两个平衡了HC与IgAN的数据子集,用其一以ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG为输入变量建立线性回归模型,以另一个子集为验证数据集,画出ROC图并计算AUC。结果如图6所示,其中最大AUC为0.742,中值AUC为0.667,最小AUC为0.463。由此可见,用这组基因来区分健康人与病人样本,中值AUC为0.667,也有一定的诊断价值,但与组织样本建立的10基因组合相比,其中值AUC为0.968,6基因模型用于组织稍有不足。
2、单基因验证
按照同样的方法将上述组织样本随机分成两个数据子集,用其中一个子集以ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2分别为输入变量建立线性回归模型,以另一个子集为验证数据集,画出ROC图并计算AUC,重复20次后排序,结果如图7所示,从图中可以看出,10个基因的AUC值都在0.6以上,ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、RAP2A、RASGRP2、RHOBTB1和RHOBTB2共8个基因的AUC值在0.7以上,RASGRP2和RHOBTB2的AUC值更是达到0.8以上。
按照同样的方法将上述外周血样本随机分成两个数据子集,用其中一个子集以ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG分别为输入变量建立线性回归模型,以另一个子集为验证数据集,画出ROC图并计算AUC,重复20次后排序,结果如图8所示,从图中可以看出,6个基因的AUC值都在0.6以上,而ARFGAP3、DOCK3、NUP153的AUC值都在0.7以上,DOCK3的AUC值更是达到0.81。
3、多基因验证
按照同样的方法将上述组织样本随机分成两个数据子集,用其中一个子集以ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2中的任意两个或更多个为输入变量建立线性回归模型,以另一个子集为验证数据集,画出ROC图并计算AUC,重复20次后排序,部分结果的最大值、中间值和最小值如表4所示。
表4.不同数量诊断标志物应用于组织样本的AUC值
其中,部分ROC曲线如图9所示,从a~h分别是二基因组合、三基因组合、四基因组合、五基因组合、六基因组合、七基因组合、八基因组合、九基因组合的ROC曲线,从图9结合表4中的结果可以看出,上述标志物中任选两个、任选三个、任选四个、任选五个、任选六个、任选七个、任选八个、任选九个作为IgA肾病的诊断标志物都具有良好的诊断价值。
按照同样的方法将上述外周血样本随机分成两个数据子集,用其中一个子集以ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG中的任意两个或更多个为输入变量建立线性回归模型,以另一个子集为验证数据集,画出ROC图并计算AUC,重复20次后排序,部分结果的最大值、中间值和最小值如表5所示。
表5.不同数量标志物应用于外周血样本的AUC值
其中,部分ROC曲线如图10所示,从a~d分别是二基因组合、三基因组合、四基因组合、五基因组合的ROC曲线,从图10结合表5中的结果可以看出,上述标志物中任选两个、任选三个、任选四个、任选五个作为IgA肾病的诊断标志物都具有良好的诊断价值。
实施例2
本实施例提供一种IgA肾病风险评估的设备,该设备包括处理器和存储器,存储器上存储有可被处理器运行的计算机程序。运用该设备对受试者进行IgA肾病风险的评估的方法如下:
1.选择受试者的外周血样本提取外泌体mRNA。
2.将提取到的mRNA送入检测装置(例如标准qPCR平台)进行实施例1中提供的6个基因诊断标志物的表达的定量数据:ARFGAP3、CDC42、DOCK3、NUP153、RASA1和RHOG。
3.采用该设备利用作为目标变量的临床观察结果(如蛋白尿、eGFR、肾穿刺的病理分级、5年或10年尿毒症风险、药物的有效性预测、耐药性)重新训练线性回归模型,根据得出的最优线性回归模型确定针对外周血样本的参数向量wn(n=0~6),根据参数向量wn得到风险分数N与各个基因表达水平之间的线性回归模型N=w0+w1×ARFGAP3+w2×CDC42+w3×DOCK3+w4×NUP153+w5×RASA1+w6×RHOG,计算得到受试者的风险分数并确定合适的风险分数的门槛值。如果受试者的风险分数大于门槛值,则判断为阳性。
实施例3
本实施例提供一种试剂盒,包括能够定量ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RASGRP2、RHOBTB1和RHOBTB2的mRNA水平的试剂,该试剂包括逆转录酶、引物、Taq酶、荧光染料等。
实施例4
本实施例提供一种试剂盒,该试剂盒包括一个微流控芯片,该微流控芯片包括储液模块,储液模块中分别装设有能够定量ARFGAP1、ARHGEF5、ARHGEF6、DOCK10、NUP62CL、RAB6B、RAP2A、RHOBTB1、RHOBTB2基因的mRNA水平的试剂。利用该试剂盒可以应用到IgA肾病的诊断中,实现较为灵敏准确的诊断。
上面结合实施例对本申请作了详细说明,但是本申请不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本申请宗旨的前提下作出各种变化。此外,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。