CN116631510B

CN116631510B - 一种用于鉴别诊断克罗恩病和溃疡性结肠炎的装置

Info

Publication number: CN116631510B
Application number: CN202310559017.XA
Authority: CN
Inventors: 邓江; 张艳宇; 赵宁; 吕丽萍; 马平; 张阳阳
Original assignee: Academy of Military Medical Sciences AMMS of PLA
Current assignee: Academy of Military Medical Sciences AMMS of PLA
Priority date: 2022-10-28
Filing date: 2023-05-17
Publication date: 2024-01-12
Anticipated expiration: 2043-05-17
Also published as: CN116631510A

Abstract

本发明公开了一种辅助判断克罗恩病和溃疡性结肠炎的装置，包括参数采集设备和可读性载体；所述参数采集设备包括采集所述可读性载体中涉及的各项参数的设备；所述可读性载体上记载了P_UC＝exp(MMPs Scores)/(1+exp(MMPs Scores))(1)；其中P_UC为待测样本被预测为溃疡性结肠炎的概率；当P_UC小于0.5时，待测样本为克罗恩病。本发明的装置中构建的模型放弃了MMPs相关基因集的具体表达值，而是基于MMPs相关基因集转换的二元变量，因而较好的克服了不同芯片检测平台来源的批次差异问题，有更高的临床使用价值。

Description

一种用于鉴别诊断克罗恩病和溃疡性结肠炎的装置

技术领域

本发明涉及一种基于患者肠道粘膜基因表达的二元变量构建模型用于鉴别诊断克罗恩病和溃疡性结肠炎的装置，属于生物医疗领域。

背景技术

炎症性肠病(inflammatory bowel disease,IBD)导致慢性肠道炎症，并与显著的发病率相关，这是影响免疫反应的遗传和环境因素交叉作用的结果。克罗恩病(Crohn'sdisease,CD)和溃疡性结肠炎(Ulcerative colitis,UC)是两种主要的炎症性肠病。尽管CD和UC有一些共同的病理和临床特征，但它们有一些差异，表明它们是两种不同的疾病类型。CD的特征是溃疡破裂和粘膜下纤维化，以及肉芽肿性炎症和粘膜下纤维变性。然而，UC的特征性组织学发现是直肠隐窝变形、淋巴细胞浸润和慢性炎症，通常局限于固有层。临床上，IBD的鉴别诊断通常通过对临床表现和内镜、组织病理学、放射学和实验室检查结果的综合评估来确定。

目前，IBD结肠炎患者CD和UC两种疾病之间的鉴别诊断对于量身定制的治疗计划至关重要，因为2种疾病在诊断后面临着不同的治疗和应对机制。然而，这些亚型的鉴别诊断仍然是一个显著的临床挑战，因为目前UC和CD没有单一的诊断金标准。根据公开文献，约5％至15％的患者不符合UC或CD的严格标准，高达14％的患者对于UC或CD的诊断会经历至少一次的更改。因此，IBD的诊断，特别是当炎症病变仅限于结肠的患者中目前的方法仍然较困难。

发明内容

本发明的目的在于提供一种辅助判断克罗恩病和/或溃疡性结肠炎的装置及方法。

本发明提供一种辅助判断克罗恩病和/或溃疡性结肠炎的试剂盒，包括参数采集设备和可读性载体；

所述参数采集设备包括采集所述可读性载体中涉及的各项参数的设备；

所述可读性载体上记载了如下式(1)-(3)的内容，

P_UC＝exp(MMPs Scores)/(1+exp(MMPs Scores)) (1)

MMPs Scores＝-1.3813+[ANXA1×(0.6358)]+[CXCL13×(0.1000)]+[MMP1×(0.2507)]+[CXCL1×(0.4478)](2)

P_UC+P_CD＝1 (3)；

其中P_UC为待测样本被预测为溃疡性结肠炎的概率；P_CD为待测病例被预测为克罗恩病的概率；ANXA1、CXCL13、MMP1、CXCL1分别为ANXA1、CXCL13、MMP1、CXCL1基因的二元变量；如果待测样本中基因的表达值大于所述基因在溃疡性结肠炎样本中的表达值的中值，则所述基因的二元变量被赋值为1；否则，所述基因的二元变量被赋值为0；

当P_UC大于0.5时，待测样本为溃疡性结肠炎；当P_UC小于0.5时，待测样本为克罗恩病。

其中，所述参数采集设备为检测待测样本中ANXA1、CXCL13、MMP1、CXCL1基因表达量的装置。

其中，所述试剂盒还包括记录工具和/或计算工具；所述记录工具包括笔和/或计算机；所述计算工具包括计算器和/或所述计算机。

其中，所述可读性载体为试剂盒说明书；所述式Ⅰ的内容印刷在卡片上。

其中，所述可读性载体为计算机可读载体。

其中，所述基因在溃疡性结肠炎样本中的表达值的中值为，将至少10个溃疡性结肠炎样本使用相同检测装置进行基因表达量检测，将溃疡性结肠炎样本的表达量的取平均值即为溃疡性结肠炎样本中的表达值的中值。

本发明还提供一种辅助判断克罗恩病和/或溃疡性结肠炎的套装，包括检测ANXA1表达量的装置、检测CXCL13表达量的装置、检测MMP1表达量的装置、检测CXCL1表达量的装置和设置有参数运算模块的计算设备；所述参数运算模块能够进行如下式(1)-(3)的运算：

P_UC＝exp(MMPs Scores)/(1+exp(MMPs Scores)) (1)；

MMPs Scores＝-1.3813+[ANXA1×(0.6358)]+[CXCL13×(0.1000)]+[MMP1×(0.2507)]+[CXCL1×(0.4478)](2)；

P_UC+P_CD＝1 (3)；

其中P_UC为待测样本被预测为溃疡性结肠炎的概率；P_CD为待测病例被预测为克罗恩病的概率；ANXA1、CXCL13、MMP1、CXCL1分别为ANXA1、CXCL13、MMP1、CXCL1基因的二元变量；如果待测样本中基因的表达值大于所述基因在样本中的表达值的中值，则所述基因的二元变量被赋值为1；否则，所述基因的二元变量被赋值为0；

检测ANXA1、CXCL13、MMP1和CXCL1基因表达量的系统在制备判断克罗恩病和溃疡性结肠炎的产品中的应用也应在本发明的保护范围之内。

其中，所述检测ANXA1、CXCL13、MMP1和CXCL1基因表达量的系统为(AffymetrixHuman Gene 1.0ST Array/Affymetrix Human Genome U133 Plus 2.0Array/Agilent-014850Whole Human Genome Microarray 4x44K G4112F)。

上述ANXA1基因为annexin A1(NM_000700.3)；CXCL13基因为C-X-C motifchemokine ligand 13(NM_001371558.1)；MMP1基因为matrix metallopeptidase1(NM_002421)；CXCL1基因为C-X-C motif chemokine ligand 1(NM_001511)。

本发明提供了一种利用金属蛋白酶类家族相关基因(Metalloproteinases-associated genes,MMPs-associated genes)构建模型用于IBD鉴别诊断的方法，及其在多个中心数据队列的验证结果。基质金属蛋白酶类(MMPs)是一组锌依赖性中性肽酶，可降解细胞外基质(extracellular matrix,ECM)的所有成分，与广泛的粘膜降解和组织重塑相关，最终有利于溃疡、瘘管和狭窄的发展，因而MMPs是参与和调节炎症性肠病的病程进展的重要基因家族。迄今为止，有充分的证据表明，IBD相关的粘膜炎症与多种MMP的诱导增强有关，并在IBD治疗的背景下已公开报道了至少3项基质金属蛋白酶抑制剂的临床试验。我们的研究表明，MMPs相关基因集也是CD和UC之间的主要差异基因集。为了克服不同来源数据队列检测平台的差异，我们将MMPs相关基因集的表达量转化为二元变量，并以此为基础通过最小绝对收缩和选择算子(LASSO)logistic回归建立了鉴别诊断模型来区分CD和UC。最后，本专利还在目前已公开发表的符合要求的IBD队列中对模型进行了验证，取得较好效果。因此，我们的诊断模型提供了有前景的诊断工具，可能很快改善临床实践。

这项方法的优点包括：1)这个方法的建立和验证整合了目前公开报道的绝大部分CD和UC的芯片数据，对于异质性较高的IBD疾病，大样本量联合多中心研究的结果是非常关键的，同时，目前尚未见到公开报道的用于UC和CD鉴别诊断的基因表达模型报道；2)在本方法中采用了不同的技术路线对多中心的IBD队列进行了整合分析，有效的降低了单一整合数据集方法造成的偏倚；3)对模型的评价步骤严格遵循了目前临床模型评估指南TRIPOD(Transparent Reporting of a multivariable prediction model for IndividualPrognosis Or Diagnosis)，在指南的质量评价中属于最高一级别的证据，即分别在不同中心、不同队列进行区分度、校准度和临床适用性的评价；4)所构建的模型放弃了MMPs相关基因集的具体表达值，而是基于MMPs相关基因集转换的二元变量，因而较好的克服了不同芯片检测平台来源的批次差异问题，有更高的临床使用价值。

附图说明

图1为对基于RRA方法筛选得到的差异基因(differentially expressed genes,DEGs)构建得到的蛋白互作网络图，以及MCODE识别的重要基因模块图。

图2为基于数据整合寻找得到的DEGs构建得到的蛋白互作网络图，以及MCODE识别的重要基因模块图。

图3为基于LASSO回归和交叉验证，确定最终纳入模型基因的过程示意图。左侧虚线为经交叉验证确定的最优AUC面积对应的惩罚系数对数值log(λ)；右侧虚线为最优AUC面积+1标准误对应的惩罚系数对数值log(λ)。

图4为基于构建模型绘制的列线图。

图5为构建模型在训练队列中的诊断能力，包括ROC，校准曲线和决策曲线分析(DCA)。

图6为构建模型在验证队列(GSE75214)中的诊断能力，包括ROC曲线，校准曲线和决策曲线。

图7为构建模型在验证队列(GSE179285)中的诊断能力，包括ROC曲线，校准曲线和决策曲线。

具体实施方式

下面结合具体实施方式对本发明进行进一步的详细描述，给出的实施例仅为了阐明本发明，而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南，并不以任何方式构成对本发明的限制。

下述实施例中的实验方法，如无特殊说明，均为常规方法，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1

本发明提供一种利用金属蛋白酶类家族相关基因(Metalloproteinases-associated genes,MMPs-associated genes)构建模型用于IBD鉴别诊断的方法，及其在多个中心数据队列的验证结果。基质金属蛋白酶类(MMPs)是一组锌依赖性中性肽酶，可降解细胞外基质(extracellular matrix,ECM)的所有成分，与广泛的粘膜降解和组织重塑相关，最终有利于溃疡、瘘管和狭窄的发展，因而MMPs是参与和调节炎症性肠病的病程进展的重要基因家族。迄今为止，有充分的证据表明，IBD相关的粘膜炎症与多种MMP的诱导增强有关，并在IBD治疗的背景下已公开报道了至少3项基质金属蛋白酶抑制剂的临床试验。我们的研究表明，MMPs相关基因集也是CD和UC之间的主要差异基因集。为了克服不同来源数据队列检测平台的差异，我们将MMPs相关基因集的表达量转化为二元变量，并以此为基础通过最小绝对收缩和选择算子(LASSO)logistic回归建立了鉴别诊断模型来区分CD和UC。最后，本专利还在目前已公开发表的符合要求的IBD队列中对模型进行了验证，取得较好效果。因此，我们的诊断模型提供了有前景的诊断工具，可能很快改善临床实践。

一、确定和纳入待分析数据集

通过Gene Expression Omnibus(GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)检索，关键词如下：("Inflammatory Bowel Diseases"[MeSH Terms]ORInflammatory Bowel Diseases[All Fields])AND"Homo sapiens"[porgn]AND("Expression profiling by array"[Filter]AND(“2008/01/01”[PDAT]:“2022/01/01”[PDAT]).共检索到139个数据集，依据如下纳入标准进行人工筛查：(1)样本量大于15；(2)在数据集中同时涵盖CD和UC的样本；(3)数据来源于回肠或结肠的肠道粘膜，排除血液等其他来源；(4)有可用的基因注释信息。最终共纳入5个不同中心数据集，包括GSE75214(N＝59/74,样本量＝CD/UC，下同),GSE10616(N＝32/10),GSE36807(N＝13/15),和GSE9686(N＝11/5)。最终共包括115例CD患者和104例UC患者的基因芯片数据。5个数据队列的详细信息见表1。

表1

二、基于Robust Rank Aggregation(RRA)分析方法对不同数据集进行整合分析

基于RRA方法，我们对4个不同来源数据集(GSE75214、GSE10616、GSE36807和GSE9686)进行了整合，最终以logFC＞0.7和adjP＜0.05为标准识别了差异基因(differentially expressed genes,DEGs)，共识别到差异基因141个。详细信息见表2。以此利用String网站(https://cn.string-db.org/)和Cytoscape软件(v3.7.2)构建蛋白互作网络，并通过MCODE(molecular complex detection)插件识别重要的功能集团，其中得分最高的功能集团主要成员均为MMPs家族，见图1(图1A中，UC中上调的基因以橙色表示，CD中上调的基因以蓝色表示，通过软件识别的最重要的基因模块以黄色表示。将基因模块进一步展示于图1B中，黄色表示种子基因)，包括MMP1,MMP12,PLAU,MMP9,CXCL1,MMP10,PTGS2,TIMP1,和MMP7，以MMP3为基团的种子基因。

表2

三、基于批次校正和合并的方法对不同数据集进行整合分析

为了降低RRA方法带来的偏倚，引入了另一种方法对数据集进行整合分析。首先，由于GSE10616，GSE36807，和GSE9686数据集来源于相同的芯片平台(GPL570)，采用R软件中的SVA包对3个队列进行了批次校正和合并，新产生的数据集命名为合并合并数据集(Combined Datasets)，随后对Combined Datasets和GSE75214分别进行差异分析，最终以logFC＞0.6和adjP＜0.1为标准识别DEGs，最终对2个数据集识别的DEGs取交集，共得到65个DEGs，见表3。依据上述方法再次构建PPI网络并以MCODE识别最重要的基因模块，其中构成模块的基因仍然主要由MMPs家族基因构成，包括MMP12,MMP10,MMP3,MMP9,TIMP1,CXCL1,PLAU,S100A9,CXCL13,S100A8,ANXA1和S100A12，并以MMP7为种子基因，见图2(图2A中，UC中上调的基因以橙色表示，CD中上调的基因以蓝色表示，通过软件识别的最重要的基因模块以黄色表示。将基因模块进一步展示于图2B中，黄色表示种子基因)。

表3

/>

四、构建Lasso逻辑回归模型

基于上述两种不同技术路线，均认为MMPs相关基因为UC和CD中最重要的差异基因集，我们对上述2种方法识别到的基因集进行合并，剔除掉重复基因后共获得15个基因：MMP3,MMP1,MMP12,PLAU,MMP9,CXCL1,MMP10,PTGS2,TIMP1,MMP7,CXCL13,S100A12,S100A8,S100A9,和ANXA1。

为了克服不同芯片平台之间的批次差异导致的模型应用问题，我们对15个候选基因进行了二元变量转换：对于UC中表达增加的基因，如果该基因的表达值大于该基因在所有样本中的表达值的中值，则MMP相关基因的二元变量被赋值为1；否则，该指数被定义为0。对于CD中表达增加的基因，如果该基因的表达值小于该基因在所有样本中的表达值的中值，则MMP相关基因的二元变量被赋值为1；否则，将指数定义为0。因此，将15个基因的表达值从连续变量转换为二元变量。例如，对Combined Datasets中的某病人，其ANXA1，MMP10，CXCL13，TIMP1，MMP1，MMP3，MMP7，MMP9，S100A12，PLAU，MMP12，S100A9，PTGS2，CXCL1，S100A8均为在UC中表达上调的基因，其表达量分别为1.9734573，1.9701188，1.1136878，2.8159726，2.7689527，4.7186331，2.0414428，2.1097156，1.7163029，2.1842115，2.4673306，2.9328217，1.6551834，5.2526517，2.4706825，而其中位数分别为3.4117391，3.2046994，3.44135835，5.10064625，4.923122，5.00327205，3.33740685，4.17297635，2.2498484，3.638494，5.400392，3.835166，2.6820964，5.1378286，4.3677868，则15个基因的二元变量转换后更改为0，0，0，0，0，0，0，0，0，0，0，0，0，1，0。

随后将Combined Datasets设置为训练组，而将GSE75214设置为验证组，以验证模型的效果。为了确定最佳惩罚系数，我们进行了8重交叉验证，并将接受者操作特征曲线(ROC)曲线下的面积用作性能度量，以最大lambda(最优AUC对应lambda加一个标准误)为惩罚系数确定最终模型。模型构建的交叉验证示意图如图3所示(左侧虚线为最大AUC对应的lambda系数，右侧虚线为最大AUC对应的lambda加一个标准误的lambda系数，即为本方程选择的惩罚系数)。

最终构建的鉴别诊断模型为：

P_UC＝exp(MMPs Scores)/(1+exp(MMPs Scores)) (1)

P_UC+P_CD＝1 (3)

注：P_UC为根据模型计算，该病例被预测为UC的概率，由于该模型为UC和CD的鉴别模型，因此P_UC+P_CD＝1，该模型被预测为P_CD的概率可由P_UC间接得出。

为更方便的应用该鉴别模型，将该模型构建为列线图，并在图4展示。在图4中，我们以红色点作为应用举例。例如，对于对于CXCL13值为0、MMP1值为1、ANXA1值为0和CXCL1值为1的患者，UC诊断的预测概率为0.336，而CD诊断的预测可能性为0.664。根据0.5的截止值，根据本方法构建的模型，该患者被确定为患有CD。

五、模型评价

依据模型，对训练组(数据集GSE10616、GSE36807和GSE9686)、验证组1(数据集GSE75214)和验证组2(数据集GSE179285)，按照上述方法进行模型构建，并对构建的模型进行区分度(ROC曲线)，校准度(校准曲线)和临床适用性(DCA曲线)分别进行了检验，结果如下：

1.训练组数据结果显示：Combined Datasets的ROC曲线下面积为0.801，校准曲线结果显示校准效果较好(Sp>0.05，Brier评分<0.25)，DCA曲线显示有较好的临床适应性(如图5所示)。

2.验证组1数据结果显示：GSE75214的ROC曲线下面积为0.811，校准曲线结果显示校准效果较好(Sp>0.05，Brier评分<0.25)，DCA曲线显示有较好的临床适应性(如图6所示)。同时，训练组数据来自于芯片平台GPL570，验证组数据来自于芯片平台GPL6244，表明该模型在不同平台均有良好的表现。

3.验证组2数据结果展示：由于上述数据集均用于筛选基因，因此又选取了一组新发布的数据队GSE179285列用于模型的验证，GSE179285的ROC曲线下面积为0.751，校准曲线结果显示校准效果较好(Sp>0.05，Brier评分<0.25)，DCA曲线显示有较好的临床适应性(如图7所示)。同时，训练组数据来自于芯片平台GPL570，验证组数据来自于芯片平台GPL6480，表明该模型在不同平台均有良好的表现。

以上对本发明进行了详述。对于本领域技术人员来说，在不脱离本发明的宗旨和范围，以及无需进行不必要的实验情况下，可在等同参数、浓度和条件下，在较宽范围内实施本发明。虽然本发明给出了特殊的实施例，应该理解为，可以对本发明作进一步的改进。总之，按本发明的原理，本申请欲包括任何变更、用途或对本发明的改进，包括脱离了本申请中已公开范围，而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围，可以进行一些基本特征的应用。

Claims

1.一种辅助判断克罗恩病和溃疡性结肠炎的装置，包括参数采集设备和可读性载体；

所述可读性载体上记载了如下式(1)-(3)的内容，

P_UC＝exp(MMPs Scores)/(1+exp(MMPs Scores)) (1)

P_UC+P_CD＝1 (3)；

2.根据权利要求1所述的装置，其特征在于：所述参数采集设备为检测待测样本中ANXA1、CXCL13、MMP1、CXCL1基因表达量的装置。

3.根据权利要求1或2所述的装置，其特征在于：所述装置还包括记录工具和/或计算工具；所述记录工具包括笔和/或计算机；所述计算工具包括计算器和/或所述计算机。

4.根据权利要求1或2所述的装置，其特征在于：所述可读性载体为试剂盒说明书；所述式Ⅰ的内容印刷在卡片上。

5.根据权利要求1或2所述的装置，其特征在于：所述可读性载体为计算机可读载体。

6.根据权利要求1或2所述的装置，其特征在于：所述基因在溃疡性结肠炎样本中的表达值的中值为，将至少10个溃疡性结肠炎样本使用相同检测装置进行基因表达量检测，将溃疡性结肠炎样本的表达量的取平均值即为溃疡性结肠炎样本中的表达值的中值。

7.一种辅助判断克罗恩病和溃疡性结肠炎的套装，其特征在于，包括检测ANXA1表达量的装置、检测CXCL13表达量的装置、检测MMP1表达量的装置、检测CXCL1表达量的装置和设置有参数运算模块的计算设备；所述参数运算模块能够进行如下式(1)-(3)的运算：

P_UC＝exp(MMPs Scores)/(1+exp(MMPs Scores)) (1)

P_UC+P_CD＝1 (3)；