CN114317725A - 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法 - Google Patents

克罗恩病生物标志物、试剂盒及生物标志物的筛选方法 Download PDF

Info

Publication number
CN114317725A
CN114317725A CN202210137717.5A CN202210137717A CN114317725A CN 114317725 A CN114317725 A CN 114317725A CN 202210137717 A CN202210137717 A CN 202210137717A CN 114317725 A CN114317725 A CN 114317725A
Authority
CN
China
Prior art keywords
disease
crohn
screening
biomarker
homologous genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210137717.5A
Other languages
English (en)
Other versions
CN114317725B (zh
Inventor
朱瑞新
高升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202210137717.5A priority Critical patent/CN114317725B/zh
Publication of CN114317725A publication Critical patent/CN114317725A/zh
Application granted granted Critical
Publication of CN114317725B publication Critical patent/CN114317725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了克罗恩病生物标志物、试剂盒及生物标志物的筛选方法,克罗恩病生物标志物包括KO号为:K02761、K00368、K09953、K00285、K18692、K11895、K02796、K06148、K03710、K02240、K14393、K00689、K08652、K07251、K06286、K06175、K15726的微生物同源基因;克罗恩病生物标志物的筛选方法包括以下步骤:S1、获取疾病和正常对照组微生物测序数据及临床信息数据,并进行预处理;S2、将预处理后的微生物测序数据进行筛选,对微生物同源基因KO进行定量与注释;S3、对疾病患者和健康对照组的微生物同源基因数据进行差异分析,获得差异显著的微生物同源基因;S4、对差异同源基因进行筛选,确定同源基因最优生物标志物;综上,本发明提供的克罗恩病生物标志物及筛选方法取样方便、无创,具有较高的临床价值。

Description

克罗恩病生物标志物、试剂盒及生物标志物的筛选方法
技术领域
本发明涉及医药技术领域,具体是克罗恩病生物标志物、试剂盒及生物标志物的筛选方法。
背景技术
克罗恩病(Crohn’s Disease,CD)是炎症性肠病的一种主要形式,其特征是胃肠道的跳跃性病变和透壁性炎症。在过去的二十年中,CD的发病率在全球范围内呈上升趋势,给社会带来了巨大的经济负担。CD具有长期且多变的病程,最终发展为穿透性或狭窄性并发症。不幸的是,现有技术仍然无法完全治愈CD。临床上,CD的标准诊断主要依靠内镜和影像学表现。然而,CD的隐匿性和非特异性症状可能导致就诊时的误诊。此外,内窥镜检查是一种侵入性方法,其伴随的风险和复杂的结肠准备可能导致患者依从性差。因此,迫切需要一种高效、便捷的非侵入性CD诊断工具。
肠道菌群作为人体重要的组成部分,被认为与肠道疾病密切相关。据报道,肠道菌群与宿主防御反应之间的动态平衡在肠道疾病的发生和发展中起关键作用。已有研究表明,CD患者的肠道菌群生物多样性明显减少,稳定性降低。随着宏基因组学的发展,利用粪便样本宏基因组测序数据构建诊断模型的方法日趋成熟。然而,基于肠道菌群测序数据对克罗恩病进行诊断的研究尚停留在基于微生物丰度的阶段,存在一定局限性。
微生物同源基因(KEGG Orthology,KO)是基于不同物种的基因和蛋白质序列相似性构建的直系同源基因的集合。在肠道中,不同微生物可能通过同源的编码基因,翻译对应的蛋白质,并执行相似的致病机制。近年来研究表明,微生物同源基因KO可以用于诊断多种疾病。因此,微生物同源基因KO有望成为克罗恩病无创诊断的潜在标志物,用于诊断模型的构建,亟待研究。
发明内容
本发明提供了克罗恩病生物标志物、试剂盒及生物标志物的筛选方法。本发明基于宏基因组学研究克罗恩病中肠道微生物同源基因KO的改变特征,获得克罗恩病相关生物标志物,用于克罗恩病的无创诊断。对于优化克罗恩病的临床无创筛查,具有重要的意义和应用价值。
为达此目的,本发明提供如下的技术方案:
本发明的第一个方面,提供了一种克罗恩病生物标志物,包括KO号为:K02761、K00368、K09953、K00285、K18692、K11895、K02796、K06148、K03710、K02240、K14393、K00689、K08652、K07251、K06286、K06175、K15726的微生物同源基因。
上述生物标志物的具体信息如下表1所示:
表1生物标志物信息
Figure BDA0003505026680000021
Figure BDA0003505026680000031
*KEGG:Kyoto Encyclopedia of Genes and Genomes
优选的,克罗恩病生物标志物包括上述同源基因的随机组合。
进一步优选的,克罗恩病生物标志物包括KO号为:K02761、K00368、K09953、K00285、K18692、K11895、K02796、K06148、K03710、K02240、K14393、K00689、K08652、K07251、K06286、K06175、K15726的17种微生物同源基因的组合。
优选的,所述微生物包括细菌、真菌、古菌、病毒。
优选的,所述微生物样本来自于生物体排泄物,包括但不限于粪便、呕吐物。
本发明的第二个方面,提供了一种克罗恩病检测试剂盒,包括用于检测一种或多种本发明所述的微生物同源基因的试剂。
优选的,生物标志物,包括KO号为:K02761、K00368、K09953、K00285、K18692、K11895、K02796、K06148、K03710、K02240、K14393、K00689、K08652、K07251、K06286、K06175、K15726的微生物同源基因。
优选的,所述微生物包括细菌、真菌、古菌、病毒。
优选的,所述微生物样本来自于生物体排泄物,包括但不限于粪便、呕吐物。
本发明的第三个方面,提供了一种克罗恩病诊断筛查系统,包括:
1)正常及疾病人群肠道微生物的数据库;
2)微生物分离、培养试剂盒;
3)生物信息学分析、比对设备及数据库。
优选的,克罗恩病诊断筛查系统还包括:微生物同源基因KO检测试剂盒或检测设备。
优选的,所述正常及疾病人群肠道微生物的数据库包括美国国立卫生研究院人类微生物组计划IBDMDB数据库、美国国家生物技术信息中心SRA数据库、欧洲生物信息研究所ENA数据库。
优选的,所述微生物包括细菌、真菌、古菌、病毒。
优选的,所述微生物样本来自于生物体排泄物,包括但不限于粪便、呕吐物。
本发明的第四个方面,提供了一种克罗恩病生物标志物的筛选方法,包括以下步骤:
S1、获取疾病和正常对照组微生物测序数据及临床信息数据,并进行预处理;
S2、将预处理后的微生物测序数据进行筛选,对微生物同源基因KO进行定量与注释;
S3、对疾病患者和健康对照组的微生物同源基因数据进行差异分析,获得差异显著的微生物同源基因;
S4、对差异同源基因进行筛选,确定同源基因最优生物标志物。
优选的,步骤S1的预处理包括:
S11、去除低质量测序数据,去除碱基质量平均值低于阈值的滑窗;reads长度最小为50;切除首端与尾端质量小于3的碱基;
S12、将保留的高质量测序数据与人类基因组数据进行比对,去除来自人类基因组的污染。
优选的,步骤S2中的微生物同源基因定量与注释包括:
S21、根据测序数据进行同源基因的预测,并通过序列聚类,构建非冗余基因集;
S22、根据测序数据与非冗余基因集计算reads覆盖度,并对同源基因进行功能注释。
优选的,步骤S4中的差异同源基因筛选包括:对所有差异同源基因进行机器学习分类模型的构建;通过SHAP(SHapley Additive exPlanations)对特征重要性进行评估;保留特征重要性大于0.005的差异同源基因。
优选的,本发明的克罗恩病生物标志物的筛选方法还包括以下步骤:对同源基因最优生物标志物进行验证与评估。
优选的,所述的验证与评估方法包括交叉验证、留一法验证和特异性评估。
优选的,所述微生物包括细菌、真菌、古菌、病毒。
优选的,所述微生物样本来自于生物体排泄物,包括但不限于粪便、呕吐物。
本发明的第五个方面,提供了一种克罗恩病诊断筛查模型构建方法,包括以下步骤:
R1、根据本发明筛选的克罗恩病生物标志物进行模型的构建,并调整模型的超参数,对模型进行优化;
R2、对构建的诊断筛查模型进行验证与评估。
优选的,步骤R1包括:标志物采用前馈神经网络进行训练,通过调整神经网络层数、神经元数量、学习率进行超参数的优化。
优选的,步骤R2所述的验证与评估方法包括交叉验证、留一法验证及特异性评估。
优选的,临床信息包括但不限于年龄,性别,疾病状态和BMI(身体质量指数)。
优选的,克罗恩病诊断筛查模型包括:KO号为:K02761、K00368、K09953、K00285、K18692、K11895、K02796、K06148、K03710、K02240、K14393、K00689、K08652、K07251、K06286、K06175、K15726的17种微生物同源基因的组合。采用该模型进行克罗恩病诊断筛查相精确度、灵敏度相对单一生物标注物更高。
与现有技术相比,本发明有益效果及显著进步在于:
1、本发明首次发现了克罗恩病中肠道微生物同源基因KO生物标志物,通过检测肠道微生物的KO丰度,根据同源基因在疾病和正常人群中的差异特征预测克罗恩病发生的概率。本发明经过大量实验证明,本申请筛选的生物标志物对于克罗恩病的诊断具有较高的准确性;
2、本发明的克罗恩病相关微生物KO标志物是基于肠道微生物测序数据进行检测的,结果准确、安全;取样方法是无创的;
3、本发明提出了一种筛选克罗恩病标志物的新方法,利用简单的提取微生物遗传物质,然后进行比对,再经过严格的数据筛选,降噪处理,实验验证,最终能够筛选出高效的克罗恩病生物标志物;
4、本发明进一步提供了克罗恩病诊断模型构建方法,通过克罗恩病模型构建方法可以以本发明筛选的同源基因标志物为基础构建特异性更高、筛选效率和准确性更好的模型,从而更加有效的进行克罗恩病无创诊断;
5、本发明的克罗恩病相关微生物同源基因KO标志物可用于制备克罗恩病诊断试剂或试剂盒,可以全面、综合地获取疾病状态下的肠道微生物功能变化状况,用于克罗恩病患者的诊断。
附图说明
为更清楚地说明本发明的技术方案,下面将对本发明的实施例所需使用的附图作一简单介绍。
显而易见地,下面描述中的附图仅是本发明中的部分实施例的附图,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,但这些其他的附图同样属于本发明实施例所需使用的附图之内。
图1为本发明实施例1的最优微生物同源基因组合10折交叉验证结果图;
图2为本发明实施例2的不同队列内部交叉验证结果图;
图3为本发明实施例2的不同队列间交叉验证与留一法验证结果图;
图4为本发明实施例3的特异性评估实验的结果图。
具体实施方式
为使本发明实施例的目的、技术方案、有益效果及显著进步更加清楚,下面,将结合本发明实施例中所提供的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
显然,所有描述的这些实施例仅是本发明的部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明中的术语“同源基因”是指包括:是指从同一祖先垂直进化而来的基因。直系同源基因通常是编码生命必需的酶、辅酶或关键性的调控蛋白的基因,具有功能保守,进化缓慢,变化速度可覆盖整个进化历史,且序列变化速度与进化距离相当等特征。
本发明中的术语“微生物”是指包括:细菌、病毒、真菌以及一些小型的原生生物、显微藻类等在内的一大类生物群体,它个体微小,与人类关系密切。涵盖了有益跟有害的众多种类,广泛涉及食品、医药、工农业、环保、体育等诸多领域。在我国教科书中,将微生物划分为以下8大类:细菌、病毒、真菌、放线菌、立克次氏体、支原体、衣原体、螺旋体。有些微生物是肉眼可以看见的,像属于真菌的蘑菇、灵芝、香菇等。还有微生物是一类由核酸和蛋白质等少数几种成分组成的“非细胞生物”。
还需要说明的是,以下的具体实施例可以相互结合,对于其中相同或相似的概念或过程可能在某些实施例中不再赘述。
下面,以具体的实施例对本发明的技术方案进行详细说明。
实施例1基于微生物同源基因的克罗恩病无创诊断标志物筛选及诊断模型构建
1.1、收集数据
从美国国立卫生研究院人类微生物组计划IBDMDB数据库(网址:https://ibdmdb.org)、美国国家生物技术信息中心SRA数据库(网址:https://www.ncbi.nlm.nih.gov/sra)及欧洲生物信息研究所ENA数据库(网址:https://www.ebi.ac.uk/ena)获取克罗恩病患者和健康对照样本的粪便微生物宏基因组测序数据及临床信息数据(临床信息主要包括:疾病状态、年龄、性别和BMI)。
纳入本实施例的队列为:PRJNA398089,PRJNA389280,PRJNA400072,PRJNA385949,SRP057027;纳入实际分析的样本数为1148个,包括745例克罗恩病样本和403例健康对照。
1.2、数据预处理
使用KneadData(http://huttenhower.sph.harvard.edu/kneaddata)对测序数据进行质量控制。首先,利用Trimmomatic去除低质量测序数据,保留高质量测序数据,具体参数为“SLIDINGWINDOW:4:20 MINLEN:50 LEADING:3 TRAILING:3”(从reads的5’端开始,4bp为一个滑窗进行滑动滑窗质量过滤,去除碱基质量平均值低于阈值(20)的滑窗;reads长度最小为50;切除首端质量小于3的碱基;切除尾端质量小于3的碱基)。接着,使用bowtie2(http://bowtie-bio.sourceforge.net/bowtie2)将保留的高质量测序数据与人类基因组数据(https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39)进行比对,去除来自人类基因组的污染,保留高质量微生物测序数据。
1.3、微生物同源基因定量与注释
使用megahit软件对高质量微生物测序数据进行拼接。然后根据prodigal软件进行基因预测,并通过cd-hit进行基因序列聚类,并构建非冗余基因集。接着,根据测序数据与非冗余基因集,使用软件CoverM计算reads覆盖度,并将绝对丰度标准化为RPKM(ReadsPer Kilobase Million),并通过EggNOG数据库对reads进行注释,最终得到微生物同源基因丰度。
1.4、筛选差异微生物同源基因KO
由于本实施例中的样本来自不同的队列,可能存在一定的批次效应,即可能会存在不同的混杂因素。因此在挑选疾病组与健康组的差异同源基因时,需要进行混杂因素的校正。我们采用R包MMUPHin(https://huttenhower.sph.harvard.edu/mmuphin/)进行差异同源基因的挑选,其中,我们将队列信息设置为主要的混杂因素,样本年龄、性别和BMI设置为协变量,每个菌种中p值小于0.05的同源基因为差异同源基因,具体差异同源基因表达量如表2所示。
表2微生物同源基因表达量统计
Figure BDA0003505026680000081
Figure BDA0003505026680000091
1.5、筛选微生物同源基因诊断标志物
利用TensorFlow机器学习框架和SHAP对所有微生物的差异同源基因进行诊断标志物的筛选。首先,用TensorFlow基于差异同源基因丰度构建前馈神经网络模型;接着,通过SHAP解释机器学习模型的输出,并评估计算同源基因特征的重要性;最终,保留重要性shapely值>0.005的微生物同源基因为最优诊断标志物组合。
1.6、诊断模型的构建与评估
针对微生物同源基因生物标志物,我们首先对神经网络模型的超参数进行优化,主要包括:神经网络层数,神经元个数,学习率等。各同源基因的诊断模型10折交叉验证的平均AUC、灵敏度和特异度如下表3所示。
表3微生物单KO诊断模型
同源基因KO AUC 灵敏度 特异度
celB 0.777712 0.628162162 0.786756757
nirK 0.760937 0.679171171 0.770666667
lpxR 0.596009 0.504126126 0.639531532
dadA 0.804486 0.661837838 0.804126126
cshB 0.757072 0.672558559 0.773333333
impH 0.666856 0.501855856 0.744936937
manZ 0.754216 0.613585586 0.762648649
ABCC-BAC 0.739387 0.683351351 0.688864865
K03710 0.738306 0.604054054 0.761153153
comFA 0.76482 0.559981982 0.845837838
actP 0.676631 0.594684685 0.657657658
E2.4.1.5 0.784342 0.748954955 0.695531532
C5AP 0.742973 0.643099099 0.729117117
thiK 0.706982 0.524882883 0.757279279
ezrA 0.749514 0.730342342 0.684702703
truC 0.717369 0.601279279 0.768072072
czcA 0.713225 0.543513514 0.728630631
将上述的通过SHAP对特征重要性进行评估,然后保留特征重要性大于0.005的基因组合在一起,即celB,nirK,lpxR,dadA,cshB,impH,manZ,ABCC-BAC,K03710,comFA,actP,E2.4.1.5,C5AP,thiK,ezrA,truC,czcA,共17个同源基因的组合。组合基因组在不同列队内部10折交叉验证的结果如图1所述。组合基因组模型最高10折交叉验证平均AUC可达到0.94。可见,组合基因组模型更优于表2中的单一基因组模型。因此,将celB,nirK,lpxR,dadA,cshB,impH,manZ,ABCC-BAC,K03710,comFA,actP,E2.4.1.5,C5AP,thiK,ezrA,truC,czcA,共17个同源基因的组合确定为最优微生物同源基因组合方案。
实施例2不同队列交叉验证及留一法验证
实验材料:利用来自不同队列的公共数据进行交叉验证及留一法验证,检验微生物生物标志物的鲁棒性和通用性。
实验方法:
2.1、不同队列内部10折交叉验证
针对来自不同队列的公共数据,基于我们确认的最优微生物同源基因组合(celB,nirK,lpxR,dadA,cshB,impH,manZ,ABCC-BAC,K03710,comFA,actP,E2.4.1.5,C5AP,thiK,ezrA,truC,czcA,共17个同源基因),对每一个队列进行内部10折交叉验证,即每个队列内部随机平均分成10折,每一折依次作为测试集,剩下的9折作为训练集进行模型构建,获得10折的平均AUC。
2.2不同队列间交叉验证
针对来自不同队列的公共数据,基于我们确认的最优同源基因组合,将每一个队列分别作为训练集,剩下的所有队列依次作为测试集,即每两个队列都进行了互为训练集和测试集的模型构建获得其AUC,并获得平均AUC。
2.3、不同队列留一法验证
针对来自不同队列的公共数据,基于我们确认的最优同源基因组合,依次将其中一个队列留下作为测试集,其余所有队列作为训练集进行模型的构建,获得其AUC,并获得平均AUC;实验结果:不同队列内部10折交叉验证结果如图2所示,不同队列内部10折交叉验证的平均AUC最低为0.88,最高为0.98;不同队列间交叉验证和不同队列留一法结果如图3所示,不同队列间交叉验证的结果,平均为0.79;不同队列留一法验证平均为0.77,以上结果说明本实例的诊断标志物和无创诊断模型具有较高的鲁棒性和通用性,可适用于不同队列,具有很高的临床价值。
实施例3特异性验证
实验材料:收集数据库中除克罗恩病之外的其他肠道疾病微生物测序数据进行特异性验证,包括结直肠癌(PRJEB27928,疾病样本数为22,健康对照样本数为60)、阿尔兹海默(队列PRJEB17784,疾病样本数为30,健康对照样本数为28)、二型糖尿病(队列PRJEB1786,疾病样本数为53,健康对照样本数为43)及肝硬化(队列PRJEB6337,疾病样本数为126,健康对照样本数为94)。
实验方法:针对不同疾病测序数据,基于我们确认的最优同源基因标志物组合,分别对每一个疾病进行模型的构建,获得10折交叉验证的结果,即每个疾病数据内部随机平均分成10折,每一折依次作为测试集,剩下的9折作为训练集进行模型构建,获得10折平均AUC;
实验结果:如图4所示,图中每个疾病的每个箱形图上边缘为10折中最高的AUC,下边缘为10折中最低的AUC,箱体的上下边缘分别为10折AUC的两个四分位数,箱体中间的线为10折AUC的中位数,统计性检验结果显示克罗恩病的AUC显著高于其他肠道疾病,说明特异性验证证实同源基因标志物和诊断模型对克罗恩病有高度特异性,在临床应用上可以避免假阳性的出现,也可辅助进行鉴别诊断。
在上述说明书的描述过程中:
术语“本实施例”、“本发明实施例”、“如……所示”、“进一步的”、“进一步改进的技术分方案”等的描述,意指该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中;在本说明书中,对上述术语的示意性表述不是必须针对相同的实施例或示例,而且,描述的具体特征、结构、材料或者特点等可以在任意一个或者多个实施例或示例中以合适的方式结合或组合;此外,在不产生矛盾的前提下,本领域的普通技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合或组合。
最后应说明的是:
以上各实施例仅用以说明本发明的技术方案,而非是对其的限制;
尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,本领域技术人员根据本说明书内容所做出的非本质改进和调整或者替换,均属本发明所要求保护的范围。

Claims (17)

1.一种克罗恩病生物标志物,其特征在于,包括KO号为:K02761、K00368、K09953、K00285、K18692、K11895、K02796、K06148、K03710、K02240、K14393、K00689、K08652、K07251、K06286、K06175、K15726的微生物同源基因。
2.如权利要求1所述的克罗恩病生物标志物,其特征在于,所述微生物包括细菌、真菌、古菌、病毒。
3.一种克罗恩病检测试剂盒,其特征在于,包括用于检测一种或多种权利要求1或2所述的微生物同源基因的试剂。
4.一种克罗恩病诊断筛查系统,其特征在于,包括:
1)正常及疾病人群肠道微生物的数据库;
2)微生物分离、培养试剂盒;
3)生物信息学分析、比对设备及数据库。
5.如权利要求4所述的系统,其特征在于,还包括:微生物同源基因KO检测试剂盒或检测设备。
6.如权利要求4所述的系统,其特征在于,所述正常及疾病人群肠道微生物的数据库包括美国国立卫生研究院人类微生物组计划IBDMDB数据库、美国国家生物技术信息中心SRA数据库、欧洲生物信息研究所ENA数据库。
7.如权利要求4所述的系统,其特征在于,所述微生物包括细菌、真菌、古菌、病毒。
8.一种克罗恩病生物标志物的筛选方法,其特征在于,包括以下步骤:
S1、获取疾病和正常对照组微生物测序数据及临床信息数据,并进行预处理;
S2、将预处理后的微生物测序数据进行筛选,对微生物同源基因KO进行定量与注释;
S3、对疾病患者和健康对照组的微生物同源基因数据进行差异分析,获得差异显著的微生物同源基因;
S4、对差异同源基因进行筛选,确定同源基因最优生物标志物。
9.如权利要求8所述的克罗恩病生物标志物的筛选方法,其特征在于,步骤S1的预处理包括:
S11、去除低质量测序数据,去除碱基质量平均值低于阈值的滑窗;reads长度最小为50;切除首端与尾端质量小于3的碱基;
S12、将保留的高质量测序数据与人类基因组数据进行比对,去除来自人类基因组的污染。
10.权利要求8所述的克罗恩病生物标志物的筛选方法,其特征在于,步骤S2中的微生物同源基因KO定量与注释包括:
S21、根据测序数据进行同源基因的预测,并通过序列聚类,构建非冗余基因集;
S22、根据测序数据与非冗余基因集计算reads覆盖度,并对同源基因进行功能注释。
11.权利要求8所述的克罗恩病生物标志物的筛选方法,其特征在于,步骤S4中的差异同源基因筛选包括:对所有差异同源基因进行机器学习分类模型的构建;通过SHAP(SHapley Additive exPlanations)对特征重要性进行评估;保留特征重要性大于0.005的差异同源基因。
12.如权利要求8所述的克罗恩病生物标志物的筛选方法,其特征在于,还包括以下步骤:对同源基因最优生物标志物进行验证与评估。
13.如权利要求12所述的克罗恩病生物标志物的筛选方法,其特征在于,所述的验证与评估方法包括交叉验证、留一法验证和特异性评估。
14.如权利要求8所述的克罗恩病生物标志物的筛选方法,其特征在于,所述微生物包括细菌、真菌、古菌、病毒。
15.一种克罗恩病诊断筛查模型构建方法,其特征在于,包括以下步骤:
R1、根据权利要求8-14任意一项筛选的克罗恩病生物标志物进行模型的构建,并调整模型的超参数,对模型进行优化;
R2、对构建的诊断筛查模型进行验证与评估。
16.权利要求15所述的克罗恩病诊断筛查模型构建方法,其特征在于,步骤R1包括:标志物采用前馈神经网络进行训练,通过调整神经网络层数、神经元数量、学习率进行超参数的优化。
17.如权利要求15所述的克罗恩病诊断筛查模型构建方法,其特征在于,步骤R2所述的验证与评估方法包括交叉验证、留一法验证和特异性评估。
CN202210137717.5A 2022-02-15 2022-02-15 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法 Active CN114317725B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210137717.5A CN114317725B (zh) 2022-02-15 2022-02-15 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210137717.5A CN114317725B (zh) 2022-02-15 2022-02-15 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法

Publications (2)

Publication Number Publication Date
CN114317725A true CN114317725A (zh) 2022-04-12
CN114317725B CN114317725B (zh) 2023-07-14

Family

ID=81031633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210137717.5A Active CN114317725B (zh) 2022-02-15 2022-02-15 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法

Country Status (1)

Country Link
CN (1) CN114317725B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115932272A (zh) * 2022-09-23 2023-04-07 上海市第十人民医院 血清学生物标志物在克罗恩病临床诊断中的应用

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160110515A1 (en) * 2014-10-21 2016-04-21 Zachary Apte Method and system for microbiome-derived diagnostics and therapeutics
CN106886689A (zh) * 2015-12-15 2017-06-23 浙江大学 一种病原微生物基因组快速分析方法及系统
CN112111586A (zh) * 2020-08-11 2020-12-22 康美华大基因技术有限公司 一种克罗恩病相关微生物标志物集及其应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160110515A1 (en) * 2014-10-21 2016-04-21 Zachary Apte Method and system for microbiome-derived diagnostics and therapeutics
CN107075588A (zh) * 2014-10-21 2017-08-18 优比欧迈公司 用于微生物组来源的诊断和治疗的方法及系统
CN106886689A (zh) * 2015-12-15 2017-06-23 浙江大学 一种病原微生物基因组快速分析方法及系统
CN112111586A (zh) * 2020-08-11 2020-12-22 康美华大基因技术有限公司 一种克罗恩病相关微生物标志物集及其应用

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
B. M. LANG 等: "Genetic polymorphisms associated with smoking behaviour predict the risk of surgery in patients with Crohn’s disease", 《ALIMENT PHARMACOL THER》, pages 1 - 12 *
LUDOVICA F. BUTTÓ 等: "Mechanisms of Microbe–Host interaction in Crohn’s Disease: Dysbiosis vs. Pathobiont Selection", 《FRONT. IMMUNOL》, vol. 6, no. 555, pages 1 - 20 *
N. GASSLER 等: "Expression of clusterin in Crohn\'s disease of the terminal ileum", 《HISTOL HISTOPATHOL》, vol. 16, pages 755 - 762 *
宫幼喆 等: "基于16S rDNA高通量测序技术对克罗恩病患儿肠道菌群变化的研究", 《中国微生态学杂志》, vol. 33, no. 9, pages 993 - 999 *
王嘉源 等: "基于GEO 数据库的克罗恩病差异表达基因生物信息学分析", 《胃肠病学和肝病学杂志》, vol. 30, no. 3, pages 281 - 286 *
魏慧 等: "克罗恩病发病机制的研究进展", 《临床消化病杂志》, vol. 26, no. 4, pages 249 - 251 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115932272A (zh) * 2022-09-23 2023-04-07 上海市第十人民医院 血清学生物标志物在克罗恩病临床诊断中的应用
CN115932272B (zh) * 2022-09-23 2023-12-12 上海市第十人民医院 血清学生物标志物在克罗恩病临床诊断中的应用

Also Published As

Publication number Publication date
CN114317725B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
Blanco-Míguez et al. Extending and improving metagenomic taxonomic profiling with uncharacterized species using MetaPhlAn 4
CN105368944B (zh) 可检测疾病的生物标志物及其用途
CN105296590B (zh) 大肠癌标志物及其应用
CN112086129B (zh) 预测肿瘤组织cfDNA的方法及系统
WO2016049920A1 (en) Biomarkers for coronary artery disease
CN113614831A (zh) 用于从多个数据集导出和优化分类器的系统和方法
US20230222311A1 (en) Generating machine learning models using genetic data
CN107075453B (zh) 冠状动脉疾病的生物标记物
CN105132518B (zh) 大肠癌标志物及其应用
CN111206079B (zh) 基于微生物组测序数据和机器学习算法的死亡时间推断方法
WO2022170909A1 (zh) 药物敏感预测方法、电子设备及计算机可读存储介质
CN113362894A (zh) 一种对协同致死的癌症驱动基因进行预测的方法
KR102273311B1 (ko) 장내 미생물을 이용한 질병의 예측방법 및 시스템
CN114317725B (zh) 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法
CN110246543A (zh) 基于二代测序技术利用单样本检测拷贝数变异的方法和计算机系统
CN110358849A (zh) 源于肠道的诊断胰腺炎的生物标志物、筛选方法及其用途
CN113862351B (zh) 体液样本中鉴定胞外rna生物标志物的试剂盒及方法
CN114369673A (zh) 结直肠腺瘤生物标志物、试剂盒及生物标志物的筛选方法
CN116312800A (zh) 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质
CN115261499B (zh) 耐力相关的肠道微生物标记物及其应用
CN114657270B (zh) 一种基于肠道菌群的阿尔茨海默病生物标志物及其应用
CN115873956A (zh) 用于预测受试者患有结直肠癌风险的试剂盒、系统、应用和预测模型的建模方法
Jabeer et al. Identifying Taxonomic Biomarkers of Colorectal Cancer in Human Intestinal Microbiota Using Multiple Feature Selection Methods
Abdullahi et al. Pretrained convolutional neural networks for cancer genome classification
CN117402984A (zh) 儿童克罗恩病生物标志物、试剂盒及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant