CN117402984A - 儿童克罗恩病生物标志物、试剂盒及方法 - Google Patents
儿童克罗恩病生物标志物、试剂盒及方法 Download PDFInfo
- Publication number
- CN117402984A CN117402984A CN202311335281.1A CN202311335281A CN117402984A CN 117402984 A CN117402984 A CN 117402984A CN 202311335281 A CN202311335281 A CN 202311335281A CN 117402984 A CN117402984 A CN 117402984A
- Authority
- CN
- China
- Prior art keywords
- disease
- biomarker
- crohn
- children
- bacteroides
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000011231 Crohn disease Diseases 0.000 title claims abstract description 59
- 239000000090 biomarker Substances 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 22
- 244000005700 microbiome Species 0.000 claims abstract description 66
- 238000012216 screening Methods 0.000 claims abstract description 23
- 241000217846 Bacteroides caccae Species 0.000 claims abstract description 10
- 241000606124 Bacteroides fragilis Species 0.000 claims abstract description 10
- 241000606766 Haemophilus parainfluenzae Species 0.000 claims abstract description 10
- 241000204306 Parabacteroides merdae Species 0.000 claims abstract description 10
- 241000896231 Phocaeicola Species 0.000 claims abstract description 10
- 241000194023 Streptococcus sanguinis Species 0.000 claims abstract description 10
- 241001425419 Turicibacter Species 0.000 claims abstract description 10
- 241000606125 Bacteroides Species 0.000 claims abstract description 8
- 241001148536 Bacteroides sp. Species 0.000 claims abstract description 6
- 230000000813 microbial effect Effects 0.000 claims description 27
- 238000003745 diagnosis Methods 0.000 claims description 22
- 238000012163 sequencing technique Methods 0.000 claims description 22
- 201000010099 disease Diseases 0.000 claims description 17
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 17
- 241000894007 species Species 0.000 claims description 12
- 241000894006 Bacteria Species 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 241000385060 Prevotella copri Species 0.000 claims description 6
- 239000000091 biomarker candidate Substances 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 239000003153 chemical reaction reagent Substances 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 241000099223 Alistipes sp. Species 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 238000010197 meta-analysis Methods 0.000 claims description 2
- 230000002085 persistent effect Effects 0.000 claims 1
- 238000002360 preparation method Methods 0.000 claims 1
- 241000131009 Copris Species 0.000 abstract description 4
- 241000186359 Mycobacterium Species 0.000 abstract description 4
- 238000002790 cross-validation Methods 0.000 description 17
- 238000012795 verification Methods 0.000 description 11
- 239000003550 marker Substances 0.000 description 9
- 210000003608 fece Anatomy 0.000 description 8
- 230000000968 intestinal effect Effects 0.000 description 8
- 210000001035 gastrointestinal tract Anatomy 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 210000004916 vomit Anatomy 0.000 description 4
- 230000008673 vomiting Effects 0.000 description 4
- 241000233866 Fungi Species 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 208000028774 intestinal disease Diseases 0.000 description 3
- 230000002906 microbiologic effect Effects 0.000 description 3
- UHPMCKVQTMMPCG-UHFFFAOYSA-N 5,8-dihydroxy-2-methoxy-6-methyl-7-(2-oxopropyl)naphthalene-1,4-dione Chemical compound CC1=C(CC(C)=O)C(O)=C2C(=O)C(OC)=CC(=O)C2=C1O UHPMCKVQTMMPCG-UHFFFAOYSA-N 0.000 description 2
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 2
- 241001335905 Cellulosilyticum sp. Species 0.000 description 2
- 241001535058 Dialister pneumosintes Species 0.000 description 2
- 241000588724 Escherichia coli Species 0.000 description 2
- 241000223218 Fusarium Species 0.000 description 2
- 241000127263 Gordonibacter urolithinfaciens Species 0.000 description 2
- 241000588915 Klebsiella aerogenes Species 0.000 description 2
- 241000030714 Parabacteroides goldsteinii Species 0.000 description 2
- 241000588770 Proteus mirabilis Species 0.000 description 2
- 241001601862 Sellimonas intestinalis Species 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000001839 endoscopy Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000009885 systemic effect Effects 0.000 description 2
- 241000186361 Actinobacteria <class> Species 0.000 description 1
- 241000606161 Chlamydia Species 0.000 description 1
- 206010009900 Colitis ulcerative Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 206010016654 Fibrosis Diseases 0.000 description 1
- 240000008397 Ganoderma lucidum Species 0.000 description 1
- 235000001637 Ganoderma lucidum Nutrition 0.000 description 1
- 208000002720 Malnutrition Diseases 0.000 description 1
- 241000204031 Mycoplasma Species 0.000 description 1
- 108091005461 Nucleic proteins Proteins 0.000 description 1
- 241000606701 Rickettsia Species 0.000 description 1
- 208000020221 Short stature Diseases 0.000 description 1
- 241000589970 Spirochaetales Species 0.000 description 1
- 201000006704 Ulcerative Colitis Diseases 0.000 description 1
- 210000000436 anus Anatomy 0.000 description 1
- 208000002399 aphthous stomatitis Diseases 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 241000902900 cellular organisms Species 0.000 description 1
- 208000037976 chronic inflammation Diseases 0.000 description 1
- 208000037893 chronic inflammatory disorder Diseases 0.000 description 1
- 230000007882 cirrhosis Effects 0.000 description 1
- 208000019425 cirrhosis of liver Diseases 0.000 description 1
- 230000008984 colonic lesion Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000004665 defense response Effects 0.000 description 1
- 238000003748 differential diagnosis Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002550 fecal effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 244000005709 gut microbiome Species 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 230000001071 malnutrition Effects 0.000 description 1
- 235000000824 malnutrition Nutrition 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 208000015380 nutritional deficiency disease Diseases 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/689—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12R—INDEXING SCHEME ASSOCIATED WITH SUBCLASSES C12C - C12Q, RELATING TO MICROORGANISMS
- C12R2001/00—Microorganisms ; Processes using microorganisms
- C12R2001/01—Bacteria or Actinomycetales ; using bacteria or Actinomycetales
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12R—INDEXING SCHEME ASSOCIATED WITH SUBCLASSES C12C - C12Q, RELATING TO MICROORGANISMS
- C12R2001/00—Microorganisms ; Processes using microorganisms
- C12R2001/01—Bacteria or Actinomycetales ; using bacteria or Actinomycetales
- C12R2001/21—Haemophilus
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12R—INDEXING SCHEME ASSOCIATED WITH SUBCLASSES C12C - C12Q, RELATING TO MICROORGANISMS
- C12R2001/00—Microorganisms ; Processes using microorganisms
- C12R2001/01—Bacteria or Actinomycetales ; using bacteria or Actinomycetales
- C12R2001/46—Streptococcus ; Enterococcus; Lactococcus
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Organic Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pathology (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Zoology (AREA)
- Theoretical Computer Science (AREA)
- Bioethics (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了儿童克罗恩病生物标志物、试剂盒及方法,儿童克罗恩病的生物标志物包括10种微生物即为普雷沃氏菌属Prevotella copri、粪拟杆菌Bacteroides caccae、拟杆菌属Bacteroides sp.M10、血链球菌Streptococcus sanguinis、粪副拟杆菌Parabacteroides merdae、脆弱拟杆菌Bacteroides fragilis、苏黎世杆菌属Turicibacter bilis、多乐氏福西亚菌Phocaeicola dorei、副流感嗜血杆菌Haemophilus parainfluenzae、另枝菌属Alistipes sp.dk3624;本发明提供的儿童克罗恩病生物标志物及筛选方法取样方便、无创,具有较高的临床价值。
Description
技术领域
本发明涉及医药技术领域,具体是儿童克罗恩病生物标志物、试剂盒及方法。
背景技术
克罗恩病(Crohn's disease,CD)是一种由免疫系统失调引起的肠道慢性炎症疾病,能够影响从口腔到肛门的整个胃肠道。CD可发生于不同年龄段的人群中,以20-30岁的成年人为主,其中约25%的患者在儿童时期首次发病。有研究表明,CD在儿童时期的发病率和患病率正在持续攀升。该病的临床表现呈多样化,包括消化道表现、全身表现、肠外表现以及其并发症等。在肠外表现上,儿童CD常涉及回结肠和结肠病变,而成人CD更多地仅有回肠末端病变而没有结肠受累。在全身症状上,儿童患者也存在着更多的非典型特征,包括口腔溃疡、身材矮小等。同时由于儿童所处于快速生长发育时期,CD的出现会导致儿童出现营养不良、体重减轻等症状,甚至导致儿童生长发育迟缓。
临床上,儿童CD的标准诊断主要依靠内窥镜检查和影像学表现。然而内窥镜是一种侵入性检查,诊断初期的儿童接受度不高。此外,由于儿童肠道的生长发育尚未完成,影像学检查的结果的解读也存在困难。目前存在的生物标志物也大都疾病特异性表现不佳。因此,迫切需要一种高效、便捷的非侵入性儿童CD诊断工具。
肠道菌群作为人体重要的组成部分,被认为与肠道疾病密切相关。据报道,肠道菌群与宿主防御反应之间的动态平衡在肠道疾病的发生和发展中起关键作用。已有研究表明,儿童CD患者的肠道菌群生物多样性明显减少,稳定性降低。随着宏基因组学的发展,利用粪便样本宏基因组测序数据构建诊断模型的方法日趋成熟。因此,肠道微生物有望作为一种高效的非侵入式标志物,用于儿童克罗恩病的诊断。
发明内容
本发明提供了儿童克罗恩病生物标志物、试剂盒及生物标志物的筛选方法。本发明基于宏基因组学研究儿童克罗恩病中肠道微生物的种水平上丰度的改变特征,获得儿童克罗恩病相关生物标志物,用于儿童克罗恩病的无创诊断。对于优化儿童克罗恩病的临床无创筛查,具有重要的意义和应用价值。
为达此目的,本发明提供如下的技术方案:
本发明的第一个方面,提供了一种儿童克罗恩病生物标志物,包括10种微生物即普雷沃氏菌属Prevotella copri、粪拟杆菌Bacteroides caccae、拟杆菌属Bacteroidessp.M10、血链球菌Streptococcus sanguinis、粪副拟杆菌Parabacteroides merdae、脆弱拟杆菌Bacteroides fragilis、苏黎世杆菌属Turicibacter bilis、多乐氏福西亚菌Phocaeicola dorei、副流感嗜血杆菌Haemophilus parainfluenzae、另枝菌属Alistipessp.dk3624。
优选的,儿童克罗恩病生物标志物包括上述微生物的随机组合。
优选的,所述微生物仅包括细菌。
优选的,所述微生物样本来自于生物体排泄物,包括但不限于粪便、呕吐物。
本发明的第二个方面,提供了一种儿童克罗恩病检测试剂盒,包括用于检测本发明所述的微生物的试剂。
优选的,生物标志物,10种微生物即普雷沃氏菌属Prevotella copri、粪拟杆菌Bacteroides caccae、拟杆菌属Bacteroides sp.M10、血链球菌Streptococcussanguinis、粪副拟杆菌Parabacteroides merdae、脆弱拟杆菌Bacteroides fragilis、苏黎世杆菌属Turicibacter bilis、多乐氏福西亚菌Phocaeicola dorei、副流感嗜血杆菌Haemophilus parainfluenzae、另枝菌属Alistipes sp.dk3624。
优选的,所述微生物仅包括细菌。
优选的,所述微生物样本来自于生物体排泄物,包括但不限于粪便、呕吐物。
本发明的第三个方面,提供了一种儿童克罗恩病诊断筛查系统,包括:
1)正常儿童及疾病儿童群肠道微生物的数据库;
2)微生物分离、培养试剂盒;
3)生物信息学分析、比对设备及数据库。
优选的,儿童克罗恩病诊断筛查系统还包括:微生物丰度检测试剂盒或检测设备。
优选的,所述正常儿童及疾病儿童群肠道微生物的数据库包括美国国家生物技术信息中心SRA数据库、欧洲生物信息研究所ENA数据库。
优选的,所述微生物仅包括细菌。
优选的,所述微生物样本来自于生物体排泄物,包括但不限于粪便、呕吐物。
本发明的第四个方面,提供了一种儿童克罗恩病生物标志物的筛选方法,包括以下步骤:
S1、获取疾病和正常对照组微生物测序数据及临床信息数据,并进行预处理;
S2、将预处理后的微生物测序数据进行筛选,对微生物在种水平上进行定量与注释;
S3、对疾病患者和健康对照组的微生物数据进行差异分析,获得差异显著的微生物;
S4、对差异微生物进行筛选,确定微生物中的最优生物标志物。
优选的,步骤S1的预处理包括:
S11、去除低质量测序数据,去除碱基质量平均值低于阈值的滑窗;reads长度最小为50;切除首端与尾端质量小于3的碱基;
S12、将保留的高质量测序数据与人类基因组数据进行比对,去除来自人类基因组的污染。
优选的,步骤S2中的微生物同源基因定量与注释包括:
S21、根据测序数据进行种水平的物种分类,然后注释得到物种注释表;
S22、进行丰度的定量得到物种丰度表。
优选的,步骤S3中的差异微生物的鉴定包括:采用MMUPHin(Version 1.14.0)软件包中的lm_meta函数用于分别整合微生物不同队列的相关系数,同时将样本的性别和年龄作为在Maaslin2差异丰度测试模型中需要调整的协变量,以校正这些混杂因素的影响。最后将在荟萃分析中具有持续显著差异的微生物特征(P-value<0.05)确定为跨队列的差异特征;
优选的,步骤S4中的最优生物标志物的筛选包括:
S41、基于随机森林模型,逐一验证单个差异特征构建诊断模型的性能,将AUC值高于0.5的特征保留为有效特征;
S42、对有效特征进行相关性分析,保留相关性系数绝对值小于0.7的特征组合;
S43、利用递归特征消除的方法,将具有最高AUC值的最佳特征组合作为候选生物标志物;
S44、以候选生物标志物为特征构建诊断模型,按照特征的重要性顺序,逐步增加特征数量,当模型性能稳定时,得到构建克罗恩病诊断模型的最小特征组合,即为最优生物标志物。
S45、对微生物的最优生物标志物进行验证与评估;
优选的,所述的验证与评估方法包括交叉验证、留一法验证和特异性评估。
优选的,所述微生物仅包括细菌。
优选的,所述微生物样本来自于生物体排泄物,包括但不限于粪便、呕吐物。
本发明的第五个方面,提供了一种儿童克罗恩病诊断筛查模型构建方法,包括以下步骤:
R1、根据本发明筛选的儿童克罗恩病生物标志物进行模型的构建,并调整模型的超参数,对模型进行优化;
R2、对构建的诊断筛查模型进行验证与评估。
优选的,步骤R1包括:标志物采用随机森林模型进行训练,通过贝叶斯优化算法对随机森林模型进行超参数的优化。
优选的,步骤R2所述的验证与评估方法包括交叉验证、留一法验证及特异性评估。
优选的,临床信息包括但不限于年龄,性别。
优选的,克罗恩病诊断筛查模型包括:10种微生物即普雷沃氏菌属Prevotellacopri、粪拟杆菌Bacteroides caccae、拟杆菌属Bacteroides sp.M10、血链球菌Streptococcus sanguinis、粪副拟杆菌Parabacteroides merdae、脆弱拟杆菌Bacteroides fragilis、苏黎世杆菌属Turicibacter bilis、多乐氏福西亚菌Phocaeicoladorei、副流感嗜血杆菌Haemophilus parainfluenzae、另枝菌属Alistipes sp.dk3624的组合。采用该模型进行儿童克罗恩病诊断筛查相精确度、灵敏度相对单一生物标注物更高。
与现有技术相比,本发明有益效果及显著进步在于:
1、本发明首次针对儿童克罗恩病,鉴定出肠道微生物的标志物,具体该生物标志物为细菌,通过检测肠道微生物的种水平丰度,根据微生物在疾病和正常儿童中的差异特征预测患者克罗恩病发生的概率。本发明经过大量实验证明,申请筛选的生物标志物对于儿童克罗恩病的诊断具有较高的准确性;
2、本发明的儿童克罗恩病的微生物标志物是基于肠道微生物测序数据进行检测的,结果准确、安全;取样方法是无创的;
3、本发明提出了一种筛选儿童克罗恩病标志物的新方法,利用简单的提取微生物遗传物质,然后进行比对,再经过严格的数据筛选,降噪处理,实验验证,最终能够筛选出高效的儿童克罗恩病生物标志物;
4、本发明进一步提供了儿童克罗恩病诊断模型的构建方法。通过儿童克罗恩病诊断模型的构建方法,可以以本发明筛选的微生物标志物为基础构建特异性更高、筛选效率和准确性更好的模型,从而更加有效的进行儿童克罗恩病无创诊断;
5、本发明的儿童克罗恩病的微生物标志物可用于制备儿童克罗恩病诊断试剂或试剂盒,可以全面、综合地获取儿童患者疾病状态下的肠道微生物功能变化状况,用于克罗恩病儿童患者的诊断。
附图说明
为更清楚地说明本发明的技术方案,下面将对本发明的实施例所需使用的附图作一简单介绍。
显而易见地,下面描述中的附图仅是本发明中的部分实施例的附图,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,但这些其他的附图同样属于本发明实施例所需使用的附图之内。
图1为本发明实施例1的最优微生物标志物组合10折交叉验证结果图;
图2为本发明实施例2的不同队列内部交叉验证结果图;
图3为本发明实施例2的不同队列间交叉验证与留一法验证结果图;
图4为本发明实施例3的特异性评估实验的结果图。
具体实施方式
为使本发明实施例的目的、技术方案、有益效果及显著进步更加清楚,下面,将结合本发明实施例中所提供的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
显然,所有描述的这些实施例仅是本发明的部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明中的术语“微生物”是指包括:细菌、病毒、真菌以及一些小型的原生生物、显微藻类等在内的一大类生物群体,它个体微小,与人类关系密切。涵盖了有益跟有害的众多种类,广泛涉及食品、医药、工农业、环保、体育等诸多领域。在我国教科书中,将微生物划分为以下8大类:细菌、病毒、真菌、放线菌、立克次氏体、支原体、衣原体、螺旋体。有些微生物是肉眼可以看见的,像属于真菌的蘑菇、灵芝、香菇等。还有微生物是一类由核酸和蛋白质等少数几种成分组成的“非细胞生物”。
还需要说明的是,以下的具体实施例可以相互结合,对于其中相同或相似的概念或过程可能在某些实施例中不再赘述。
下面,以具体的实施例对本发明的技术方案进行详细说明。
实施例1基于微生物种水平丰度的儿童克罗恩病无创诊断标志物筛选及诊断模型构建
1.1、收集数据
从美国国家生物技术信息中心SRA数据库(网址:https://www.ncbi.nlm.nih.gov/sra)及欧洲生物信息研究所ENA数据库(网址:https://www.ebi.ac.uk/ena)获取儿童克罗恩病患者和健康对照样本的粪便微生物宏基因组测序数据及临床信息数据(临床信息主要包括:年龄、性别)。
纳入本实施例的队列为:PRJNA398089、SRP057027、PRJNA389280;纳入实际分析的样本数为534个,包括430例儿童克罗恩病样本和104例健康对照。
1.2、宏基因组测序数据的质量控制和处理
使用KneadData(http://huttenhower.sph.harvard.edu/kneaddata)对测序数据进行质量控制。首先,利用Trimmomatic去除低质量测序数据,保留高质量测序数据,具体参数为“SLIDINGWINDOW:4:20MINLEN:50LEADING:3TRAILING:3”(从reads的5’端开始,4bp为一个滑窗进行滑动滑窗质量过滤,去除碱基质量平均值低于阈值(20)的滑窗;reads长度最小为50;切除首端质量小于3的碱基;切除尾端质量小于3的碱基)。接着,使用bowtie2(http://bowtie-bio.sourceforge.net/bowtie2)将保留的高质量测序数据与人类基因组数据(https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.39)进行比对,去除来自人类基因组的污染,保留高质量微生物测序数据。
1.3、微生物种水平丰度的定量与注释
使用Kraken2快速将测序reads进行种水平的物种分类,注释得到物种注释表,然后通Braken进行丰度的定量得到物种丰度表。
1.4、微生物丰度的预处理
依据一个样本中所有菌的丰度之和为1的原则,将所有的丰度表数据转换成相对丰度。然后为了避免极低丰度带来的误差影响,过滤掉在所有样本中的平均丰度小于1×10-5且覆盖率小于10%的微生物;
1.5、筛选差异微生物
由于本实施例中的样本来自不同的队列,可能存在一定的批次效应,即可能会存在不同的混杂因素。因此在挑选疾病组与健康组的差异微生物时,需要进行混杂因素的校正。我们采用R包MMUPHin(https://huttenhower.sph.harvard.edu/mmuphin/)进行差异微生物的挑选,其中,我们将队列信息设置为主要的混杂因素,样本年龄和性别设置为协变量,每个菌种中p值小于0.05的微生物为差异微生物;
1.6、筛选最优微生物诊断标志物
首先,基于随机森林模型,逐一验证单个差异特征构建诊断模型的性能,将AUC值高于0.5的特征保留为有效特征;为了去除强相关特征,对有效特征进行相关性分析,保留相关性系数绝对值小于0.7的特征组合;利用递归特征消除的方法,将具有最高AUC值的最佳特征组合作为候选生物标志物。然后以候选生物标志物为特征构建诊断模型,并评估微生物标志物特征的重要性。微生物标志物特征的重要性如表1所示。
按照特征的重要性顺序,逐步增加特征数量,当模型性能稳定时,得到构建儿童克罗恩病诊断模型的最小特征组合,即为最优微生物诊断标志物。
表1微生物特征的重要性
微生物特征 | 平均重要性 | 重要性方差 |
Prevotella copri | 0.0725 | 0.0054 |
Bacteroides caccae | 0.0680 | 0.0081 |
Bacteroides sp.M10 | 0.0605 | 0.0064 |
Streptococcus sanguinis | 0.0515 | 0.0072 |
Parabacteroides merdae | 0.0305 | 0.0031 |
Bacteroides fragilis | 0.0283 | 0.0056 |
Turicibacter bilis | 0.0238 | 0.0041 |
Phocaeicola dorei | 0.0157 | 0.0050 |
Haemophilus parainfluenzae | 0.0064 | 0.0021 |
Alistipes sp.dk3624 | 0.0058 | 0.0020 |
Parabacteroides goldsteinii | 0.0047 | 0.0015 |
Sellimonas intestinalis | 0.0043 | 0.0017 |
Escherichia coli | 0.0037 | 0.0019 |
Gordonibacter urolithinfaciens | 0.0028 | 0.0013 |
Dialister pneumosintes | 0.0028 | 0.0009 |
Cellulosilyticum sp.WCF-2 | 0.0017 | 0.0006 |
Klebsiella aerogenes | 0.0006 | 0.0012 |
Lacticaseibacillus paracasei | 0.0006 | 0.0012 |
Proteus mirabilis | 0.0002 | 0.0006 |
1.7、诊断模型的构建与评估
针对微生物生物标志物,我们首先采用随机森林模型进行训练,通过贝叶斯优化对max_depth、max_features、max_samples、min_samples_leaf、min_samples_split、n_estimators进行超参数的优化。单一微生物特征的诊断模型的10折交叉验证的平均AUC、灵敏度和特异度如表2所示。按照特征重要性顺序,依次增加特征数量,获得的多微生物特征的诊断模型的10折交叉验证的平均AUC、灵敏度和特异度如表3所示。
表2单一微生物特征的诊断模型
微生物特征 | 平均AUC | 灵敏度 | 特异度 |
Prevotella copri | 0.73 | 0.39 | 0.78 |
Bacteroides caccae | 0.72 | 0.40 | 0.80 |
Bacteroides sp.M10 | 0.70 | 0.35 | 0.79 |
Streptococcus sanguinis | 0.66 | 0.72 | 0.52 |
Parabacteroides merdae | 0.77 | 0.53 | 0.85 |
Bacteroides fragilis | 0.70 | 0.42 | 0.86 |
Turicibacter bilis | 0.60 | 0.32 | 0.89 |
Phocaeicola dorei | 0.74 | 0.44 | 0.83 |
Haemophilus parainfluenzae | 0.63 | 0.34 | 0.79 |
Alistipes sp.dk3624 | 0.72 | 0.49 | 0.92 |
Parabacteroides goldsteinii | 0.74 | 0.49 | 0.83 |
Sellimonas intestinalis | 0.65 | 0.35 | 0.80 |
Escherichia coli | 0.63 | 0.52 | 0.66 |
Dialister pneumosintes | 0.55 | 0.26 | 0.75 |
Gordonibacter urolithinfaciens | 0.54 | 0.19 | 0.92 |
Cellulosilyticum sp.WCF-2 | 0.49 | 0.90 | 0.09 |
Lacticaseibacillus paracasei | 0.58 | 0.95 | 0.22 |
Klebsiella aerogenes | 0.56 | 1.00 | 0.13 |
Proteus mirabilis | 0.56 | 0.97 | 0.15 |
表3多微生物特征的诊断模型
当微生物特征数量达到10时,模型性能达到稳定,此时得到构建儿童克罗恩病诊断模型的最小特征组合,Prevotella copri、Bacteroides caccae、Bacteroides sp.M10、Streptococcus sanguinis、Parabacteroides merdae、Bacteroides fragilis、Turicibacter bilis、Phocaeicola dorei、Haemophilus parainfluenzae、Alistipessp.dk3624,即10个微生物的组合。组合微生物特征模型在不同列队内部10折交叉验证的结果如图1所述。组合微生物特征模型最高10折交叉验证平均AUC可达到0.98。可见,组合微生物特征模型更优单一微生物特征模型。因此,将Prevotella copri、Bacteroides caccae、Bacteroides sp.M10、Streptococcus sanguinis、Parabacteroides merdae、Bacteroidesfragilis、Turicibacter bilis、Phocaeicola dorei、Haemophilus parainfluenzae、Alistipes sp.dk3624,共10个微生物的组合确定为最优微生物标志物组合方案。
实施例2不同队列交叉验证及留一法验证
实验材料:利用来自不同队列的公共数据进行交叉验证及留一法验证,检验微生物生物标志物的鲁棒性和通用性。
实验方法:
2.1、不同队列内部10折交叉验证
针对来自不同队列的公共数据,基于我们确认的最优微生物组合(Prevotellacopri、Bacteroides caccae、Bacteroides sp.M10、Streptococcus sanguinis、Parabacteroides merdae、Bacteroides fragilis、Turicibacter bilis、Phocaeicoladorei、Haemophilus parainfluenzae、Alistipes sp.dk3624,共10个微生物的组合),对每一个队列进行内部10折交叉验证,即每个队列内部随机平均分成10折,每一折依次作为测试集,剩下的9折作为训练集进行模型构建,获得10折的平均AUC。
2.2不同队列间交叉验证
针对来自不同队列的公共数据,基于我们确认的最优微生物组合,将每一个队列分别作为训练集,剩下的所有队列依次作为测试集,即每两个队列都进行了互为训练集和测试集的模型构建获得其AUC,并获得平均AUC。
2.3、不同队列留一法验证
针对来自不同队列的公共数据,基于我们确认的最优微生物组合,依次将其中一个队列留下作为测试集,其余所有队列作为训练集进行模型的构建,获得其AUC,并获得平均AUC;
实验结果:不同队列内部10折交叉验证结果如图2所示,不同队列内部10折交叉验证的平均AUC分别为0.99和0.91;不同队列间交叉验证和不同队列留一法结果如图3所示,不同队列间交叉验证的结果,平均为0.89;不同队列留一法验证平均为0.83,以上结果说明本实例的诊断标志物和无创诊断模型具有较高的鲁棒性和通用性,可适用于不同队列,具有很高的临床价值。
实施例3特异性验证
实验材料:收集数据库中除克罗恩病之外的其他肠道疾病微生物测序数据进行特异性验证,包括溃疡性结肠炎(PRJNA398089、PRJNA389280、PRJNA759642,疾病样本数为43,健康对照样本数为120)、结直肠癌(PRJEB27928,疾病样本数为22,健康对照样本数为60)、肝硬化(PRJEB6337,疾病样本数为169,健康对照样本数为145)。
实验方法:针对不同疾病测序数据,基于我们确认的最优微生物标志物组合,分别对每一个疾病进行模型的构建,获得10折交叉验证的结果,即每个疾病数据内部随机平均分成10折,每一折依次作为测试集,剩下的9折作为训练集进行模型构建,获得10折平均AUC;
实验结果:如图4所示,图中每个疾病的每个箱形图上边缘为10折中最高的AUC,下边缘为10折中最低的AUC,箱体的上下边缘分别为10折AUC的两个四分位数,箱体中间的线为10折AUC的中位数,统计性检验结果显示儿童克罗恩病的AUC显著高于其他肠道疾病,说明特异性验证证实微生物标志物和诊断模型对儿童克罗恩病有高度特异性,在临床应用上可以避免假阳性的出现,也可辅助进行鉴别诊断。
在上述说明书的描述过程中:
术语“本实施例”、“本发明实施例”、“如……所示”、“进一步的”、“进一步改进的技术分方案”等的描述,意指该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中;在本说明书中,对上述术语的示意性表述不是必须针对相同的实施例或示例,而且,描述的具体特征、结构、材料或者特点等可以在任意一个或者多个实施例或示例中以合适的方式结合或组合;此外,在不产生矛盾的前提下,本领域的普通技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合或组合。
最后应说明的是:
以上各实施例仅用以说明本发明的技术方案,而非是对其的限制;
尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,本领域技术人员根据本说明书内容所做出的非本质改进和调整或者替换,均属本发明所要求保护的范围。
Claims (9)
1.一种儿童克罗恩病生物标志物,其特征在于,包括10种微生物即普雷沃氏菌属Prevotella copri、粪拟杆菌Bacteroides caccae、拟杆菌属Bacteroides sp.M10、血链球菌Streptococcus sanguinis、粪副拟杆菌Parabacteroides merdae、脆弱拟杆菌Bacteroides fragilis、苏黎世杆菌属Turicibacter bilis、多乐氏福西亚菌Phocaeicoladorei、副流感嗜血杆菌Haemophilus parainfluenzae、另枝菌属Alistipes sp.dk3624。
2.如权利要求1所述的儿童克罗恩病生物标志物,其特征在于,所述微生物仅包括细菌。
3.一种儿童克罗恩病检测试剂盒,其特征在于,包括用于检测权利要求1或2所述的微生物丰度的试剂。
4.权利要求1-2任意一项所述的生物标志物、权利要求3所述的试剂盒在制备儿童克罗恩病检测试剂中的应用。
5.一种儿童克罗恩病生物标志物的筛选方法,其特征在于,包括以下步骤:
S1、获取疾病和正常对照组微生物测序数据及临床信息数据,并进行预处理;
S2、将预处理后的微生物测序数据进行筛选,对微生物在种水平上进行定量与注释;
S3、对疾病患者和健康对照组的微生物数据进行差异分析,获得差异显著的微生物;
S4、对差异微生物进行筛选,确定微生物中的最优生物标志物。
6.如权利要求5所述的方法,其特征在于,步骤S1的预处理包括:
S11、去除低质量测序数据,去除碱基质量平均值低于阈值的滑窗;reads长度最小为50;切除首端与尾端质量小于3的碱基;
S12、将保留的高质量测序数据与人类基因组数据进行比对,去除来自人类基因组的污染。
7.如权利要求5所述的方法,其特征在于,步骤S2中的微生物同源基因定量与注释包括:
S21、根据测序数据进行种水平的物种分类,然后注释得到物种注释表;
S22、进行丰度的定量得到物种丰度表。
8.如权利要求5所述的方法,其特征在于,步骤S3中的差异微生物的鉴定包括:采用MMUPHin(Version 1.14.0)软件包中的lm_meta函数用于分别整合微生物不同队列的相关系数,同时将样本的性别和年龄作为在Maaslin2差异丰度测试模型中需要调整的协变量,以校正这些混杂因素的影响。最后将在荟萃分析中具有持续显著差异的微生物特征(P-value<0.05)确定为跨队列的差异特征。
9.如权利要求5所述的方法,其特征在于,步骤S4中的最优生物标志物的筛选包括:
S41、基于随机森林模型,逐一验证单个差异特征构建诊断模型的性能,将AUC值高于0.5的特征保留为有效特征;
S42、对有效特征进行相关性分析,保留相关性系数绝对值小于0.7的特征组合;
S43、利用递归特征消除的方法,将具有最高AUC值的最佳特征组合作为候选生物标志物;
S44、以候选生物标志物为特征构建诊断模型,按照特征的重要性顺序,逐步增加特征数量,当模型性能稳定时,得到构建克罗恩病诊断模型的最小特征组合,即为最优生物标志物。
S45、对微生物的最优生物标志物进行验证与评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311335281.1A CN117402984A (zh) | 2023-10-16 | 2023-10-16 | 儿童克罗恩病生物标志物、试剂盒及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311335281.1A CN117402984A (zh) | 2023-10-16 | 2023-10-16 | 儿童克罗恩病生物标志物、试剂盒及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117402984A true CN117402984A (zh) | 2024-01-16 |
Family
ID=89493633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311335281.1A Pending CN117402984A (zh) | 2023-10-16 | 2023-10-16 | 儿童克罗恩病生物标志物、试剂盒及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117402984A (zh) |
-
2023
- 2023-10-16 CN CN202311335281.1A patent/CN117402984A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111430027B (zh) | 基于肠道微生物的双相情感障碍生物标志物及其筛选应用 | |
CN105296590B (zh) | 大肠癌标志物及其应用 | |
CN112111586A (zh) | 一种克罗恩病相关微生物标志物集及其应用 | |
CN107075446B (zh) | 用于肥胖症相关疾病的生物标记物 | |
CN106156543B (zh) | 一种肿瘤ctDNA信息统计方法 | |
WO2020244018A1 (zh) | 一种精神分裂症的小规模生物标志物组合、其应用及metaphlan2筛选方法 | |
CN105132518B (zh) | 大肠癌标志物及其应用 | |
CN110904213B (zh) | 一种基于肠道菌群的溃疡性结肠炎生物标志物及其应用 | |
CN110838365A (zh) | 肠易激综合症相关菌群标志物及其试剂盒 | |
CN111863250A (zh) | 一种早期乳腺癌的联合诊断模型及系统 | |
CN108753974B (zh) | 一种结直肠癌肿瘤标志物及其检测方法与装置 | |
CN113380396A (zh) | 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用 | |
CN111676291A (zh) | 一种用于肺癌患病风险评估的miRNA标志物 | |
CN113913490A (zh) | 非酒精性脂肪肝标志微生物及其应用 | |
CN111020020A (zh) | 一种精神分裂症的生物标志物组合、其应用及metaphlan2筛选方法 | |
CN114317725B (zh) | 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法 | |
CN113862351B (zh) | 体液样本中鉴定胞外rna生物标志物的试剂盒及方法 | |
CN114369673B (zh) | 结直肠腺瘤生物标志物、试剂盒及生物标志物的筛选方法 | |
CN117402984A (zh) | 儿童克罗恩病生物标志物、试剂盒及方法 | |
CN115873956A (zh) | 用于预测受试者患有结直肠癌风险的试剂盒、系统、应用和预测模型的建模方法 | |
CN112992351B (zh) | 一种人体肠道健康状态的特征表达方法及其评估方法 | |
CN116312800A (zh) | 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质 | |
CN105733988B (zh) | 组合物及应用 | |
Wang et al. | The value of CT radiomic in differentiating mycoplasma pneumoniae pneumonia from streptococcus pneumoniae pneumonia with similar consolidation in children under 5 years | |
CN115261499A (zh) | 耐力相关的肠道微生物标记物及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |