CN112899368A - 一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试剂和应用 - Google Patents

一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试剂和应用 Download PDF

Info

Publication number
CN112899368A
CN112899368A CN202110144203.8A CN202110144203A CN112899368A CN 112899368 A CN112899368 A CN 112899368A CN 202110144203 A CN202110144203 A CN 202110144203A CN 112899368 A CN112899368 A CN 112899368A
Authority
CN
China
Prior art keywords
seq
nucleotide sequence
rrna
liver cancer
sequence shown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110144203.8A
Other languages
English (en)
Other versions
CN112899368B (zh
Inventor
彭涛
陈晓东
王向坤
庞世福
洪志帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Aisheng Life Technology Co ltd
First Affiliated Hospital of Guangxi Medical University
Original Assignee
Guangxi Aisheng Life Technology Co ltd
First Affiliated Hospital of Guangxi Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Aisheng Life Technology Co ltd, First Affiliated Hospital of Guangxi Medical University filed Critical Guangxi Aisheng Life Technology Co ltd
Priority to CN202110144203.8A priority Critical patent/CN112899368B/zh
Publication of CN112899368A publication Critical patent/CN112899368A/zh
Application granted granted Critical
Publication of CN112899368B publication Critical patent/CN112899368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Wood Science & Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Public Health (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Hospice & Palliative Care (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Oncology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试剂和应用,属于肝癌诊断技术领域。本发明通过16S rRNA测序的方法对检测对象的粪便标本提取细菌DNA后进行Illumina Miseq测序,鉴定出肝癌早期和健康对照的肠道生物标志物,并通过生物标志物建立特异性鉴定肝癌早期和健康人群样本的随机森林模型,绘制学习曲线评估模型的拟合情况,通过接受者操作特性曲线评估模型效果;预测模型的曲线下面积为0.95,测试结果的精度为0.97,召回率为1.0,特异度为0.98。由此可见,本发明的生物标志物、构建的随机森林训练模型和检测方法对肝癌早期诊断具有良好的市场前景。

Description

一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试 剂和应用
技术领域
本发明属于肝癌诊断技术领域,具体涉及一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试剂和应用。
背景技术
肝癌是世界上第6种最常见的恶性肿瘤。肝癌的病因较多,最常见的是乙肝病毒、丙肝病毒的持续感染;还有酒精和药物因素引起的肝硬化,肝硬化可以慢慢转变为肝癌;另外,肝癌和遗传以及精神因素也有关系。
肝癌(尤其是原发性肝癌)的临床病象极不典型,其症状一般不明显,特别是在病程早期,约70%左右的患者在肝癌肿瘤5cm以下时无明显症状。症状一旦出现,说明肿瘤已经较大,通常在数周内即呈现恶病质,往往在几个月至1年内即衰竭死亡。大部分肝癌患者在出现症状时已经是晚期,治愈率较低。
目前,用于肝癌诊断的生物标志物主要为甲胎蛋白,当血清中甲胎蛋白含量大于400μg/L,并保持持续性升高时(且能排除妊娠、活动性肝病、生殖腺胚胎源性肿瘤等),即可考虑进行肝癌的后续检测。但是,临床上约30%肝癌患者的甲胎蛋白不升高,由此可见,甲胎蛋白的诊断特异性不高,容易延误患者的治疗时机。因此,探索开发新思路用于肝癌早期诊断的方法具有深远的意义。
发明内容
有鉴于此,本发明的目的在于提供一种用于原发性肝细胞癌早期诊断的生物标志物,对原发性肝细胞癌早期诊断具有较高的特异性。
本发明的目的还在于提供一种原发性肝细胞癌早期诊断生物标志物的检测试剂及其应用,实现肝癌早期的筛查和诊断。
本发明的目的还在于提供一种肝癌早期诊断用预测模型的构建方法,采用构建的预测模型进行诊断具有较高的精度、召回率和特异度。
本发明提供了一种用于原发性肝细胞癌早期诊断的生物标志物,包括以下菌属:
布劳特氏菌属、大肠埃希菌-志贺氏菌属、胃球菌属、链球菌属、真杆菌属、多尔氏菌属、拟杆菌属、普雷沃氏菌属9、毛螺菌属、粪杆菌属、考拉杆菌属、巨单胞菌属(Megamonas)、Lachnospiraceae NK4A136 group。
优选的,所述布劳特氏菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:3所示的Blautia hydrogenotrophica、具有16S rRNA核苷酸序列如SEQ ID NO:4所示的Blautiasp.、具有16S rRNA核苷酸序列如SEQ ID NO:5所示的Blautia faecis、具有16S rRNA核苷酸序列如SEQ ID NO:6所示的uncultured Blautia sp.、具有16S rRNA核酸序列如SEQ IDNO:7所示的uncultured bacterium Blautia sp.、具有16S rRNA核苷酸序列如SEQ ID NO:8所示的Blautia obeum、具有16S rRNA核苷酸序列如SEQ ID NO:9所示的Blautiawexlerae;所述大肠埃希菌-志贺氏菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:1所示的Escherichia coli、具有16S rRNA核苷酸序列如SEQ ID NO:2所示的Shigella sonnei;所述胃球菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:10所示的UnculturedRuminococcus sp.、具有16S rRNA核苷酸序列如SEQ ID NO:11所示的unculturedbacterium[Ruminococcus]torques、具有16S rRNA核苷酸序列如SEQ ID NO:12所示的uncultured organism[Ruminococcus]torques、具有16S rRNA核苷酸序列如SEQ ID NO:13所示的Ruminococcus torques、具有16S rRNA核苷酸序列如SEQ ID NO:19所示的uncultured bacterium[Ruminococcus]gnavus、具有16S rRNA核苷酸序列如SEQ ID NO:20所示的[Ruminococcus]gnavus;所述链球菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:14所示的Streptococcus anginosus、具有16S rRNA核苷酸序列如SEQ ID NO:15所示的Streptococcus equinus、具有16S rRNA核苷酸序列如SEQ ID NO:16所示的Streptococcusgallolyticus、具有16S rRNA核苷酸序列如SEQ ID NO:17所示的Streptococcusthermophilus、具有16S rRNA核苷酸序列如SEQ ID NO:18所示的Streptococcussalivarius;所述真杆菌(Eubacterium)包括具有16S rRNA核苷酸序列如SEQ ID NO:21所示的unculturedbacterium[Eubacterium]hallii、具有16S rRNA核苷酸序列如SEQ ID NO:22所示的uncultured organism[Eubacterium]hallii、具有16S rRNA核苷酸序列如SEQ IDNO:23所示的[Eubacterium]hallii、具有16S rRNA核苷酸序列如SEQ ID NO:41所示的[Eubacterium]eligens;所述多尔氏菌属(Dorea)包括具有16S rRNA核苷酸序列如SEQ IDNO:24所示的Doreaformicigenerans、具有16S rRNA核苷酸序列如SEQ ID NO:25所示的Dorea longicatena;所述拟杆菌属(Bacteroides)包括具有16S rRNA核苷酸序列如SEQ IDNO:26所示的Bacteroides dorei、具有16S rRNA核苷酸序列如SEQ ID NO:27所示的Bacteroides eggerthii、具有16S rRNA核苷酸序列如SEQ ID NO:28所示的Bacteroidesfragilis、具有16S rRNA核苷酸序列如SEQ ID NO:29所示的Bacteroides massiliensis、具有16S rRNA核苷酸序列如SEQ ID NO:30所示的Bacteroides ovatus、具有16S rRNA核苷酸序列如SEQ ID NO:31所示的Bacteroides stercoris、具有16S rRNA核苷酸序列如SEQID NO:32所示的Bacteroides thetaiotaomicron、具有16S rRNA核苷酸序列如SEQ ID NO:33所示的Bacteroides uniformis、具有16S rRNA核苷酸序列如SEQ ID NO:34所示的uncultured Bacteroides sp.、具有16S rRNA核苷酸序列如SEQ ID NO:35所示的Bacteroides vulgatus;所述普雷沃氏菌属9包括具有16S rRNA核苷酸序列如SEQ ID NO:36所示的uncultured bacterium Prevotella 9sp.、具有16S rRNA核苷酸序列如SEQ IDNO:37所示的uncultured organism Prevotella 9 sp.、具有16S rRNA核苷酸序列如SEQID NO:38所示的Prevotella copri;所述毛螺菌属包括具有16SrRNA核苷酸序列如SEQ IDNO:39所示的uncultured bacterium Lachnospira sp.、具有16SrRNA核苷酸序列如SEQ IDNO:40所示的Lachnospira sp.;所述Lachnospiraceae NK4A136 group包括具有16S rRNA核苷酸序列如SEQ ID NO:49所示的Uncultured Lachnospiraceae bacterium、具有16SrRNA核苷酸序列如SEQ ID NO:50所示的Lachnospiraceae bacterium;所述粪杆菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:42所示的uncultured bacteriumFaecalibacterium sp.、具有16S rRNA核苷酸序列如SEQ ID NO:43所示的Faecalibacterium prausnitzii;所述考拉杆菌属包括具有16S rRNA核苷酸序列如SEQ IDNO:44所示的gut metagenome Phascolarctobacterium sp.、具有16S rRNA核苷酸序列如SEQ ID NO:45所示的uncultured bacterium Phascolarctobacterium sp.、具有16S rRNA核苷酸序列如SEQ ID NO:46所示的Phascolarctobacterium faecium;所述巨单胞菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:47所示的uncultured bacterium Megamonassp.、具有16S rRNA核苷酸序列如SEQ ID NO:48所示的Megamonas funiformis。
本发明提供了一种检测所述生物标志物的试剂在制备筛查和诊断肝癌早期的试剂盒中的应用。
本发明提供了一种用于检测所述生物标志物的检测试剂,所述检测试剂包括用于扩增16S rRNA的引物对;所述引物对包括上游引物和下游引物;所述上游引物的核苷酸序列如SEQ ID NO:51所示;所述下游引物的核苷酸序列如SEQ ID NO:52所示;其中N=A、G、C或T,W=A或T,H=A、C或T,V=A、G或C。
本发明提供了一种用于诊断肝癌早期的试剂盒,包括所述检测试剂。
本发明提供了一种用于肝癌早期诊断的预测模型的构建方法,包括以下步骤:
1)分别从健康人群和肝癌早期患者的粪便中提取细菌DNA,得到健康人群组的细菌DNA和肝癌早期患者组的细菌DNA;
2)对所述健康人群组的细菌DNA和肝癌早期患者组的细菌DNA分别进行16S DNA扩增、文库构建和16S rRNA测序,对测序数据进行生物信息学分析,得到两组样本中微生物属水平间的丰度差异;
3)根据所述两组样本中微生物属水平间的丰度差异筛选有显著差异的生物标志物;
4)通过所述生物标志物建立特异性鉴定肝癌早期和健康人群样本的随机森林模型,评估,得到肝癌早期诊断的预测模型。
优选的,步骤2)中所述生物信息学分析的方法为通过DADA2对测序数据进行过滤、去噪、拼接、去嵌合体形成16S rRNA基因的序列变异体,参考Silva数据库对所述序列变异体进行分类注释,并通过STAMP中Welch‘s t-test检验分析肝癌早期患者和健康人群中肠道微生物属水平间的丰度差异。
优选的,筛选有显著差异的生物标志物的方法为用线性判别分析和效应大小方法进行筛选。
优选的,步骤4)中通过所述生物标志物建立特异性鉴定肝癌早期和健康人群样本的随机森林模型的方法为将全部肝癌早期样本和健康人群样本分别按数量比4:1分为训练集和隔离集,使用python软件sklearn.ensemble.RandomForestClassifier模块对所述训练集进行随机森林模型训练;
所述评估的方法包括通过绘制学习曲线评估模型的拟合情况,同时通过接受者操作特性曲线评估模型效果,所述隔离集用于最终模型准确性评估。
优选的,所述随机森林模型训练包括使用网格搜索方法调整模型训练参数,用十次交叉验证训练随机森林模型;
所述模型训练参数设定如下:梯度n_estimators=[100,500,1000];max_depth=[1,2,3,7,9];max_features=["log2","sqrt"];
所述十次交叉验证训练随机森林模型的方法为使用python软件sklearn.model_selection.GridSearchCV模块搜索最佳参数,共计30种参数组合,每种参数组合下将训练集分割成10份子样本,一份单独的子样本被保留作为验证模型的数据,其他9份子样本用来训练;重复10次,每份子样本验证一次,平均10次的结果作为该参数组合下最终模型结果;总计模型训练次数为300次。
本发明提供的用于原发性肝细胞癌早期诊断的生物标志物,包括以下菌属:布劳特氏菌属、大肠埃希菌-志贺氏菌属、胃球菌属、链球菌属、真杆菌属、多尔氏菌属、拟杆菌属、普雷沃氏菌属9、毛螺菌属、粪杆菌属、考拉杆菌属、巨单胞菌属、LachnospiraceaeNK4A136 group、梭状芽胞杆菌属,共14个属。本发明利用16S rRNA对肠道微生物进行测序,鉴定出肝癌早期特异性的生物标志物,通过检测生物标志物的丰度上调或下调的变化,实现患者肝癌早期的风险评估,本发明将上述14属的特征微生物作为生物标志物进行诊断,具有较高的精度、召回率和特异度,分别为0.97、1和0.98。
本发明提供的用于检测所述生物标志物的检测试剂,包括用于扩增16S rRNA的引物对。所述引物对为上述14个微生物菌属的16S rRNA的通用扩增引物,能够同时实现对14个属的几十种细菌实现特异性扩增,基于生物标志物指示样本中患肝癌早期的风险的功能,通过检测生物标志物实现诊断样本是否患肝癌早期风险的目的。同时本发明采用一对引物进行PCR扩增,具有检测简便,技术要求低,诊断成本低等优点;本发明的检测对象为供试者的粪便,简单方便,并且无创性更易让患者接受。
附图说明
图1为通过线性判别分析效应大小鉴定肝癌早期特异性的肠道生物标志物;
图2为肝癌早期患者和健康对照生物标志物的丰度差异;
图3为基于肠道生物标志物建立随机森林模型的学习曲线;
图4为基于肠道生物标记物对肝癌早期患者和健康对照的诊断能力。
具体实施方式
本发明提供了一种用于原发性肝细胞癌早期诊断的生物标志物,包括以下菌属:布劳特氏菌属、大肠埃希菌-志贺氏菌属、胃球菌属、链球菌属、真杆菌属、多尔氏菌属、拟杆菌属、普雷沃氏菌属9、毛螺菌属、粪杆菌属、考拉杆菌属、巨单胞菌属、LachnospiraceaeNK4A136 group。
在本发明中,从141例肝癌早期患者粪便样本和194例健康人群粪便样本中经过提取DNA、16S rRNA扩增及测序,生物信息学分析,显著性差异分析,得到在肝癌早期患者和健康人群间丰度变化显著的特定菌属微生物即为生物标志物(见图1)。所述布劳特氏菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:3所示的Blautia hydrogenotrophica、具有16SrRNA核苷酸序列如SEQ ID NO:4所示的Blautia sp.、具有16S rRNA核苷酸序列如SEQ IDNO:5所示的Blautia faecis、具有16S rRNA核苷酸序列如SEQ ID NO:6所示的unculturedBlautia sp.、具有16S rRNA核酸序列如SEQ ID NO:7所示的uncultured bacteriumBlautia sp.、具有16S rRNA核苷酸序列如SEQ ID NO:8所示的Blautia obeum、具有16SrRNA核苷酸序列如SEQ ID NO:9所示的Blautia wexlerae;所述大肠埃希菌-志贺氏菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:1所示的Escherichia coli、具有16S rRNA核苷酸序列如SEQ ID NO:2所示的Shigellasonnei;
所述胃球菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:10所示的UnculturedRuminococcus sp.、具有16S rRNA核苷酸序列如SEQ ID NO:11所示的unculturedbacterium[Ruminococcus]torques、具有16S rRNA核苷酸序列如SEQ ID NO:12所示的uncultured organism[Ruminococcus]torques、具有16S rRNA核苷酸序列如SEQ ID NO:13所示的Ruminococcus torques、具有16S rRNA核苷酸序列如SEQ ID NO:19所示的uncultured bacterium[Ruminococcus]gnavus、具有16S rRNA核苷酸序列如SEQ ID NO:20所示的[Ruminococcus]gnavus;所述链球菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:14所示的Streptococcus anginosus、具有16S rRNA核苷酸序列如SEQ ID NO:15所示的Streptococcus equinus、具有16S rRNA核苷酸序列如SEQ ID NO:16所示的Streptococcusgallolyticus、具有16S rRNA核苷酸序列如SEQ ID NO:17所示的Streptococcusthermophilus、具有16S rRNA核苷酸序列如SEQ ID NO:18所示的Streptococcussalivarius;所述真杆菌(Eubacterium)包括具有16S rRNA核苷酸序列如SEQ ID NO:21所示的uncultured bacterium[Eubacterium]hallii、具有16S rRNA核苷酸序列如SEQ IDNO:22所示的uncultured organism[Eubacterium]hallii、具有16S rRNA核苷酸序列如SEQID NO:23所示的[Eubacterium]hallii、具有16S rRNA核苷酸序列如SEQ ID NO:41所示的[Eubacterium]eligens;所述多尔氏菌属(Dorea)包括具有16S rRNA核苷酸序列如SEQ IDNO:24所示的Dorea formicigenerans、具有16S rRNA核苷酸序列如SEQ ID NO:25所示的Dorea longicatena;
所述拟杆菌属(Bacteroides)包括具有16S rRNA核苷酸序列如SEQ ID NO:26所示的Bacteroides dorei、具有16S rRNA核苷酸序列如SEQ ID NO:27所示的Bacteroideseggerthii、具有16S rRNA核苷酸序列如SEQ ID NO:28所示的Bacteroides fragilis、具有16S rRNA核苷酸序列如SEQ ID NO:29所示的Bacteroides massiliensis、具有16S rRNA核苷酸序列如SEQ ID NO:30所示的Bacteroides ovatus、具有16S rRNA核苷酸序列如SEQ IDNO:31所示的Bacteroides stercoris、具有16S rRNA核苷酸序列如SEQ ID NO:32所示的Bacteroides thetaiotaomicron、具有16S rRNA核苷酸序列如SEQ ID NO:33所示的Bacteroides uniformis、具有16S rRNA核苷酸序列如SEQ ID NO:34所示的unculturedBacteroides sp.、具有16S rRNA核苷酸序列如SEQ ID NO:35所示的Bacteroidesvulgatus;所述普雷沃氏菌属9包括具有16S rRNA核苷酸序列如SEQ ID NO:36所示的uncultured bacterium Prevotella 9sp.、具有16S rRNA核苷酸序列如SEQ ID NO:37所示的uncultured organism Prevotella 9 sp.、具有16S rRNA核苷酸序列如SEQ ID NO:38所示的Prevotella copri;所述毛螺菌属包括具有16SrRNA核苷酸序列如SEQ ID NO:39所示的uncultured bacterium Lachnospira sp.、具有16SrRNA核苷酸序列如SEQ ID NO:40所示的Lachnospira sp.;所述Lachnospiraceae NK4A136 group包括具有16S rRNA核苷酸序列如SEQ ID NO:49所示的Uncultured Lachnospiraceae bacterium、具有16S rRNA核苷酸序列如SEQ ID NO:50所示的Lachnospiraceae bacterium;所述粪杆菌属包括具有16SrRNA核苷酸序列如SEQ ID NO:42所示的uncultured bacterium Faecalibacterium sp.、具有16S rRNA核苷酸序列如SEQ ID NO:43所示的Faecalibacterium prausnitzii;所述考拉杆菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:44所示的gut metagenomePhascolarctobacterium sp.、具有16S rRNA核苷酸序列如SEQ ID NO:45所示的uncultured bacterium Phascolarctobacterium sp.、具有16S rRNA核苷酸序列如SEQ IDNO:46所示的Phascolarctobacterium faecium;所述巨单胞菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:47所示的uncultured bacterium Megamonas sp.、具有16S rRNA核苷酸序列如SEQ ID NO:48所示的Megamonas funiformis。
在本发明中,布劳特氏菌属、大肠埃希菌-志贺氏菌属、链球菌属、胃球菌属(包括扭链瘤胃球菌Ruminococcus gnavus group和活泼瘤胃球菌Ruminococcus torquesgroup)、真杆菌属的霍氏真杆菌(Eubacterium hallii group)、多尔氏菌属在肝癌早期人群的粪便中相对丰度显著升高;而拟杆菌属、普雷沃氏菌属9、毛螺菌属、真杆菌属的挑剔真杆菌(Eubacterium eligens group)、粪杆菌属、考拉杆菌属、巨单胞菌属、Lachnospiraceae NK4A136 group在肝癌早期人群的粪便中相对丰度显著降低,菌属的丰度见表1。
表1标志物菌属的相对丰度表
Figure BDA0002929322810000041
Figure BDA0002929322810000051
本发明提供了一种检测所述生物标志物的检测试剂在制备筛查和诊断肝癌早期的试剂盒中的应用。在本发明中,所述检测试剂包括用于特异性扩增所述生物标志物的引物。所述引物为用于扩增16S rRNA的引物对;所述引物对包括上游引物和下游引物;所述上游引物的核苷酸序列如SEQ ID NO:51所示(CCTACGGGNGGCWGCAG);所述下游引物的核苷酸序列如SEQ ID NO:52所示(GACTACHVGGGTATCTAATCC);其中N=A、G、C或T,W=A或T,H=A、C或T,V=A、G或C。本发明对所述引物的来源不做具体限定,采用本领域所熟知的引物扩增来源即可。在本发明实施例中,所述引物委托北京擎科生物科技有限公司合成。
本发明提供了一种用于诊断肝癌早期的试剂盒,包括所述检测试剂,还优选包括PCR反应用混合液。本发明对所述PCR反应用混合液的来源不做具体限定,采用本领域所熟知的PCR反应用混合液即可。在本发明实施例中,所述PCR反应用混合液购自北京全式金生物技术(TransGen Biotech)有限公司。
本发明还提供了一种用于肝癌早期诊断的预测模型的构建方法,包括以下步骤:
1)分别从健康人群和肝癌早期患者的粪便中提取细菌DNA,得到健康人群组的细菌DNA和肝癌早期患者组的细菌DNA;
2)对所述健康人群组的细菌DNA和肝癌早期患者组的细菌DNA分别进行16S DNA扩增、文库构建和16S rRNA测序,对测序数据进行生物信息学分析,得到两组样本中微生物属水平间的丰度差异;
3)根据所述两组样本中微生物属水平间的丰度差异筛选有显著差异的生物标志物;
4)通过所述生物标志物建立特异性鉴定肝癌早期和健康人群样本的随机森林模型,评估,得到肝癌早期诊断的预测模型。
本发明分别从健康人群和肝癌早期患者的粪便中提取细菌DNA,得到健康人群组的细菌DNA和肝癌早期患者组的细菌DNA。
在本发明中,肝癌早期患者的粪便样本为从医学上确诊的肝癌早期患者处采集。健康人群的粪便样本为医学鉴定的健康人中采集。本发明对提取粪便中细菌DNA的方法没有特殊限制,采用本领域所熟知的细菌DNA提取方法即可,例如DNA提取试剂盒法进行。在本发明实施例中,提取DNA所用试剂盒购自广州赛百纯生物科技有限公司。
得到健康人群组的细菌DNA和肝癌早期患者组的细菌DNA,本发明对所述健康人群组的细菌DNA和肝癌早期患者组的细菌DNA分别进行16S DNA扩增、文库构建和16S rRNA测序,对测序数据进行生物信息学分析,得到两组样本中微生物属水平间的丰度差异。
在本发明中,16S rRNA扩增用引物为所述检测试剂,为了便于后续文库构建,所述检测试剂优选带接头,例如341F(SEQ ID NO:53)和805R(SEQ ID NO:54),其中划线部分为接头引物序列,非划线部分为16S v3v4区域序列,兼并碱基N=A、G、C或T,W=A或T,H=A、C或T,V=A、G或C。所述16S DNA扩增的反应程序优选如下:95℃3min;95℃30sec;55℃30sec;72℃30sec,25个循环;72℃5min。扩增结束后优选进行纯化,本发明对所述纯化的方法没有特殊限制,采用本领域所熟知的纯化方法即可。
本发明对所述文库构建的方法没有特殊限制,采用本领域所熟知的文库构建的方法即可。所述文库构建时优选对纯化后的PCR产物进行扩增。所述扩增用的引物优选包括Fwd和Rev;所述Fwd的核苷酸序列如SEQ ID NO:55所示和Rev的核苷酸序列如SEQ ID NO:56所示,其中[i5]和[i7]是标签序列,仅用于区分每个样本。文库扩增的反应程序优选如下:95℃3min;95℃30sec;55℃30sec;72℃30sec,8循环;72℃5min。
在本发明中,构建的文库优选适合IlluminaMiSeq测序技术。优选使用IlluminaMiSeq仪器对合并的文库进行测序,测序试剂盒采用MiSeq Reagent Kit v3(Illumina,Inc.,San Diego,CA,USA)。
在本发明中,所述生物信息学分析的方法优选为通过DADA2对测序数据进行过滤、去噪、拼接、去嵌合体形成16S rRNA基因的序列变异体,参考Silva数据库对所述序列变异体进行分类注释,并通过STAMP中Welch‘s t-test检验分析(p=0.05)肝癌早期患者和健康人群中肠道微生物属水平间的丰度差异。得到布劳特氏菌属(Blautia)、大肠埃希菌-志贺氏菌属(Escherichia-Shigella)、扭链瘤胃球菌(Ruminococcus torques group)、链球菌属(Streptococcus)、活泼瘤胃球菌(Ruminococcus gnavus group)、霍氏真杆菌(Eubacterium hallii group)、多尔氏菌属(Dorea)在肝癌早期人群的粪便中相对丰度显著升高;拟杆菌属(Bacteroides)、普雷沃氏菌属9(Prevotella 9)、毛螺菌属(Lachnospira)、挑剔真杆菌(Eubacterium eligens group)、粪杆菌属(Faecalibacterium)、考拉杆菌属(Phascolarctobacterium)、巨单胞菌属(Megamonas)、Lachnospiraceae NK4A136 group在肝癌早期人群的粪便中相对丰度显著降低。
在本发明中,筛选有显著差异的生物标志物的方法优选为用线性判别分析和效应大小方法进行筛选。
在本发明中,通过所述生物标志物建立特异性鉴定肝癌早期和健康人群样本的随机森林模型的方法优选为将全部肝癌早期样本和健康人群样本分别按数量比4:1分为训练集和隔离集,使用python软件sklearn.ensemble.RandomForestClassifier模块对所述训练集进行随机森林模型训练。所述随机森林模型训练优选包括使用网格搜索方法调整模型训练参数,用十次交叉验证训练随机森林模型;
所述模型训练参数设定如下:梯度n_estimators=[100,500,1000];max_depth=[1,2,3,7,9];max_features=["log2","sqrt"];
所述十次交叉验证训练随机森林模型的方法为使用python软件sklearn.model_selection.GridSearchCV模块搜索最佳参数,共计30种参数组合,每种参数组合下将训练集分割成10份子样本,一份单独的子样本被保留作为验证模型的数据,其他9份子样本用来训练;重复10次,每份子样本验证一次,平均10次的结果作为该参数组合下最终模型结果;总计模型训练次数为300次。
在本发明中,所述评估的方法优选包括通过绘制学习曲线评估模型的拟合情况,同时通过接受者操作特性曲线评估模型效果,所述隔离集用于最终模型准确性评估。学习曲线评估模型无过拟合和欠拟合情况。模型的曲线下面积为0.95。实验证明,用这14种生物标志物构建的预测模型具有区分肝癌和健康样本的能力。
在本发明中,进一步评估生物标志物建立预测模型对肝癌早期患者和健康对照的诊断能力。采用28例肝癌早期患者和39例健康人群)验证训练出的随机森林模型用于肝癌早期诊断的准确性,结果表明,测试的回归结果精度为0.97,召回率为1.0,特异度为0.98。本发明的生物标记物、随机森林训练模型以及检测方法可用于肝癌早期诊断。
下面结合实施例对本发明提供的一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试剂和应用进行详细的说明,但是不能把它们理解为对本发明保护范围的限定。
实施例1
肝癌早期肠道生物标志物的筛选
一、肠道细菌的DNA提取
从广西地区搜集肝癌早期患者粪便样本141例,健康人群对照粪便样本194例,用于筛选肝癌早期肠道生物标志物,具体步骤如下:
1:上述的粪便样本分装样本并冻存于-80℃;
2:提取S1所述肝癌患者和健康人群的粪便细菌DNA;
3:对粪便细菌DNA进行16S rRNA扩增和文库构建,具体步骤如下:
S1、核酸提取(Surbiopure粪便核酸提取试剂盒(磁珠法),广州赛百纯生物科技有限公司)。
S2.取0.25g粪便样本(同时设置一空白对照与MOCK对照)加入Dry beads Tube中,加入900μl S1-Lysis Enhancer涡旋彻底、混匀。
S3.加入100μl S2-Lysis Enhancer溶液至样品中,65℃孵育10min。
S4.剧烈涡旋震荡10min。
S5.12000 rpm离心5min,转移上清600μl到新的1.5ml的离心管中。
S6.加入400μl S3-Cleanup Buffer,立即彻底混匀。
S7.12000 rpm离心2min,转移全部上清液到预分装板的孔中。使用核酸自动提取仪(Gene Pure核酸提取仪,上海宝予德科学仪器有限公司)进行提取。
S8.将提取的DNA至新的离心管-20℃保存。
S9.使用超微量分光光度计Colibri LB 915(Brethold Technologies)对DNA纯度进行质控。
二、文库构建和测序
对提取的DNA使用QubitTM4.0(Thermo Fisher Scientifi)测量的每1μl DNA样品的浓度约为10~100ng/μl,使用TransStartFastPfu Fly DNA Polymerase试剂盒(北京全式金生物技术(Trans Gen Biotech)有限公司)通过扩增仪MiniAmp Plus Thermal Cycler(Thermo Fisher Scientifi)扩增细菌16S rRNA基因的V3~V4区,引物组为带接头的341F(5’-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGCCTACGGGNGGCWGCAG-3’,SEQ ID NO:53)和805R(5’-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGACTACHVGGGTATCTAATCC-3’,SEQ ID NO:54,其中划线部分为接头引物序列,非划线部分为16S v3v4区域序列,兼并碱基N=A,G,C,T,W=A,T,H=A,C,T,V=A,G,C),反应体系如表2所示。
表2 16S rRNA基因的PCR扩增反应体系
试剂 体积(ul)
细菌DNA(1ng/μl) 1
341F10μM 0.5
805R10μM 0.5
Fly聚合酶 0.5
缓冲液(5×) 5
dNTP 2
ddH<sub>2</sub>O 15.5
总计 25
16S rRNA基因的PCR扩增反应程序:95℃3min;95℃30sec;55℃30sec;72℃30sec,25个循环;72℃5min。
使用凝胶成像仪Bioanalytical Imaging System(Azure Biosystems)根据PCR产物的大小验证扩增的DNA后,使用磁珠法(Magnetic DNA Beads,北京全式金生物技术(TransGen Biotech)有限公司)进行纯化。
使用适合Illumina MiSeq的标签引物对上述PCR纯化产物进行文库扩增,引物为Fwd(5’-AATGATACGGCGACCACCGAGATCTACAC[i5]TCGTCGGCAGCGTC-3’,SEQ ID NO:55)和Rev(5’-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3’,SEQ ID NO:56),反应体系见表3。
表3文库扩增的PCR扩增体系
试剂 体积(μl)
DNA(1ng/μl) 1μl
Fwd引物 0.5μl
Rev引物 0.5μl
Fly聚合酶 0.25μl
Buffer(5×) 2.5μl
DNTP 0.5μl
ddH<sub>2</sub>O 7.25μl
总计 12.5μl
文库扩增的PCR反应程序如下:95℃3min;95℃30sec;55℃30sec;72℃30sec,8个循环;72℃5min。
PCR扩增结束后,使用磁珠法(Magnetic DNA Beads,北京全式金生物技术(TransGen Biotech)有限公司)纯化PCR产物。使用生物分析仪Agilent 2100(AgilentTechnologies)和QubitTM4.0(Thermo Fisher Scientifi)对纯化的产物进行定量。使用IlluminaMiSeq仪器对合并的文库进行测序,测序试剂盒采用MiSeq Reagent Kit v3(Illumina,Inc.,San Diego,CA,USA);随后在Illumina Miseq测序平台完成16S rRNA测序,并对测序文件进行质控过滤和生物信息学分析,主要通过DADA2对测序文件进行过滤、去噪、拼接、去嵌合体形成16S rRNA基因的序列变异体(过滤的参数为--p-trunc-q 2,降噪参数为--p-pooling-method'independent',合并的参数为--p-trunc-len-f 260,--p-trunc-len-r 220,overlap=12,去嵌合体的参数为--p-chimera-method'consensus',--p-min-fold-parent-over-abundance 1),参考Silva数据库对序列变异体进行分类注释(参见Quast C,Pruesse E,Yilmaz P,Gerken J,Schweer T,Yarza P,Peplies J,
Figure BDA0002929322810000081
FO.The SILVAribosomal RNA gene database project:improved data processingandweb-basedtools.NucleicAcids Res.2013Jan;41(Database issue):D590-6.doi:10.1093/nar/gks1219.Epub 2012 Nov 28.PMID:23193283;PMCID:PMC3531112.),并通过STAMP(参见Parks DH,Tyson GW,Hugenholtz P,Beiko RG.STAMP:statistical analysisoftaxonomic and functionalprofiles.Bioinformatics.2014 Nov 1;30(21):3123-4.doi:10.1093/bioinformatics/btu494.Epub 2014 Jul 23.PMID:25061070;PMCID:PMC4609014.)中Welch‘s t-test检验(p=0.05)分析肝癌早期患者和健康对照的肠道微生物属水平间的丰度差异。
三、使用线性判别分析和效应大小方法(LEfSe,具体参见SegataN,IzardJ,Waldron L,Gevers D,Miropolsky L,GarrettWS,Huttenhower C.Metagenomic biomarkerdiscovery and explanation.Genome Biol.2011Jun 24;12(6):R60.doi:10.1186/gb-2011-12-6-r60.PMID:21702898;PMCID:PMC3218848.)找到组间有显著差异的生物标志物。
结果:根据上述方法,找到了14个菌属在肝癌患者和健康人群间变化显著的生物标志物,包括如下菌属:布劳特氏菌属(Blautia)、大肠埃希菌-志贺氏菌属(Escherichia-Shigella)、扭链瘤胃球菌(Ruminococcus torques group)、链球菌属(Streptococcus)、活泼瘤胃球菌(Ruminococcus gnavus group)、霍氏真杆菌(Eubacterium hallii group)、多尔氏菌属(Dorea)、拟杆菌属(Bacteroides)、普雷沃氏菌属9(Prevotella 9)、毛螺菌属(Lachnospira)、挑剔真杆菌(Eubacterium eligens group)、粪杆菌属(Faecalibacterium)、考拉杆菌属(Phascolarctobacterium)、巨单胞菌属(Megamonas)、Lachnospiraceae NK4A136 group,如图1所示。其中,布劳特氏菌属(Blautia)、大肠埃希菌-志贺氏菌属(Escherichia-Shigella)、扭链瘤胃球菌(Ruminococcus torques group)、链球菌属(Streptococcus)、活泼瘤胃球菌(Ruminococcus gnavus group)、霍氏真杆菌(Eubacterium hallii group)、多尔氏菌属(Dorea)在肝癌早期人群的粪便中相对丰度显著升高;拟杆菌属(Bacteroides)、普雷沃氏菌属9(Prevotella 9)、毛螺菌属(Lachnospira)、挑剔真杆菌(Eubacterium eligens group)、粪杆菌属(Faecalibacterium)、考拉杆菌属(Phascolarctobacterium)、巨单胞菌属(Megamonas)、Lachnospiraceae NK4A136 group在肝癌早期人群的粪便中相对丰度显著降低,如图2所示。
实施例2
利用生物标志物建立预测模型对肝癌早期患者和健康对照的区分能力
期望通过以上找到的15种肠道生物标志物建立一个能够特异性鉴定肝癌早期和健康人群样本的随机森林模型。采集了113例肝癌早期和155例健康对照的粪便,采取与实施例1相同的处理方法,使用网格搜索方法调整模型训练参数并进行十次交叉验证对这268例粪便的15种肠道生物标志物训练随机森林模型,具体为设置随机森林模型参数梯度n_estimators=[100,500,1000];max_depth=[1,2,3,7,9];max_features=["log2","sqrt"]。使用python软件sklearn.model_selection.GridSearchCV模块搜索最佳参数,共计3*5*2=30种参数组合,每种参数组合下将训练集分割成10份子样本,一份单独的子样本被保留作为验证模型的数据,其他9份子样本用来训练。重复10次,每份子样本验证一次,平均10次的结果作为该参数组合下最终模型结果。总计模型训练次数为300次(30*10)。绘制学习曲线评估模型的拟合情况,通过接受者操作特性(Receiver operatingcharacteristic,ROC)曲线评估模型效果。
结果:一方面,通过学习曲线来评估模型的过拟合和欠拟合情况。训练集准确率与验证集准确率随着样本量增加而收敛,但收敛后的准确率远小于期望的准确率(Desiredaccuracy=1.0),即训练集和验证集的准确率具有较高偏差,说明模型欠拟合;模型在训练集有很高的的准确率而在验证集中有较低准确率,训练集和测试集的准确率有较大差距时,为高方差,说明模型过拟合。如图3所示,模型训练集和测试集都有较高的准确率,且随着样本量增加验证集准确率趋于水平,说明该模型结果较好。
另一方面,通过ROC曲线描述在各种不同阈值下真正率(True positive rate,TPR)相对于假正率(False positive rate,FPR)的取值变化情况来评估模型的效果。在机器学习中,TPR被称为灵敏度(Sensitivuty)或者召回率(Eecall),而FPR被称为Fall-out或虚警率(Probability of false alarm),具体计算说明见表4。ROC曲线的横坐标是假阳性比值(假正率),纵坐标是真阳性比值(真正率),假正率反应了模型虚报的响应程度,真正率反应了模型预测响应的覆盖程度。希望假正率越低,真正率越高,模型就越好。反应到ROC图形上,也就是曲线越陡峭,越朝着左上方突出,模型效果越好。我们通过计算曲线下面积(Area under curve,AUC)值评估模型的预测效果,在ROC曲线图上,如果我们连接对角线,它的面积正好是0.5,对角线的实际含义是:随机判断响应与不响应,正负样本覆盖率应该都是50%,表示随机效果。ROC曲线越陡越好,所以理想AUC值=1(参见TomFawcett.2006.An introduction to ROC analysis.Pattern Recogn.Lett.27,8(June2006),861–874.DOI:https://doi.org/10.1016/j.patrec.2005.10.010)。如图4所示,模型的ROC曲线AUC值为0.95。证明用这15种标志物构建的模型具有可以区分肝癌早期和健康样本的能力。
表4模型的混淆矩阵说明
测试值(早期癌症) 测试值(健康)
真实值(早期癌症) TP FN
真实值(健康) FP TN
注:TP:True Postive,真阳性:被模型预测成癌症的癌症样本;
FP:False Positive,假阳性:被模型预测成癌症的健康样本;
FN:False Negative,假阴性:被模型预测成健康的癌症样本;
TN:True Negative,真阴性:被模型预测成健康的健康样本;
精度(Precision)=查全率=TP/(TP+FP),是指在所有被预测为癌症的样本中实际为癌症样本的概率;
特异度=TN/(TN+FP),指在实际为健康样本预测成健康样本的概率;
真正率(TPR)=灵敏度=召回率=查全率=TP/(TP+FN),是指在实际为癌症的样本中被预测为癌症样本的概率;
假正率(FPR)=1-特异度=FP/(TN+FP),即实际为健康样本预测成癌症样本的概率。
实施例3
评估生物标志物建立预测模型对肝癌早期患者和健康对照的诊断能力
使用模型训练中分离出的隔离集数据(包括28例肝癌早期患者和39例健康人群)验证训练出的随机森林模型用于肝癌早期诊断的准确性。采取与实施例1相同的处理方式,欲验证筛选出的生物标记物和训练出的随机森林模型可用于肝癌早期诊断。
结果:混淆矩阵的结果表5,测试的回归结果精度为0.97,召回率为1.0,特异度为0.98。由此可见,本发明的生物标记物、随机森林训练模型以及检测方法可用于肝癌早期诊断。
表5 28例肝癌早期患者和39例健康人群对模型的测试结果
测试值(早期癌症) 测试值(健康)
真实值(早期癌症,n=28) TP=28 FN=0
真实值(健康,n=39) FP=1 TN=38
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
序列表
<110> 广西医科大学第一附属医院
广西爱生生命科技有限公司
<120> 一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试剂和应用
<160> 56
<170> SIPOSequenceListing 1.0
<210> 1
<211> 427
<212> DNA
<213> Escherichia coli
<400> 1
gaatattgca caatgggcgc aagcctgatg cagccatgcc gcgtgtatga agaaggcctt 60
cgggttgtaa agtactttca gcggggagga agggagtaaa gttaatacct ttgctcattg 120
acgttacccg cagaagaagc accggctaac tccgtgccag cagccgcggt aatacggagg 180
gtgcaagcgt taatcggaat tactgggcgt aaagcgcacg caggcggttt gttaagtcag 240
atgtgaaatc cccgggctca acctgggaac tgcatctgat actggcaagc ttgagtctcg 300
tagagggggg tagaattcca ggtgtagcgg tgaaatgcgt agagatctgg aggaataccg 360
gtggcgaagg cggccccctg gacgaagact gacgctcagg tgcgaaagcg tggggagcaa 420
acaggat 427
<210> 2
<211> 427
<212> DNA
<213> Shigella sonnei
<400> 2
gaatattgca caatgggcgc aagcctgatg cagccatgcc gcgtgtatga agaaggcctt 60
cgggttgtaa agtactttca gcggggagga agggagtaaa gttaatacct ttactcattg 120
acgttacccg cagaagaagc accggctaac tccgtgccag cagccgcggt aatacggagg 180
gtgcaagcgt taatcggaat tactgggcgt aaagcgcacg caggcggttt gttaagtcag 240
atgtgaaatc cccgggctca acctgggaac tgcatctgat actggcaagc ttgagtctcg 300
tagagggggg tagaattcca ggtgtagcgg tgaaatgcgt agagatctgg aggaataccg 360
gtggcgaagg cggccccctg gacgaagact gacgctcagg tgcgaaagcg tggggagcaa 420
acaggat 427
<210> 3
<211> 402
<212> DNA
<213> Blautia hydrogenotrophica
<400> 3
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgaagga agaagtatct 60
cggtatgtaa acttctatca gcagggaaga aagtgacggt acctgactaa gaagccccgg 120
ctaattacgt gccagcagcc gcggtaatac gtaaggggca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggtttggcaa gtctgatgtg aaaggcatgg gctcaacctg 240
tggactgcat tggaaactgt cagacttgag tgccggagag gcaagcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggcc tgctggacgg 360
taactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 4
<211> 402
<212> DNA
<213> Blautia sp.
<400> 4
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgaagga agaagtatct 60
cggtatgtaa acttctatca gcagggaaga taatgacggt acctgactaa gaagccccgg 120
ctaactacgt gccagcagcc gcggtaatac gtagggggcg agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggcgtatcaa gtctgatgtg aaaggcaggg gcttaacccc 240
tggactgcat tggaaactgg tatgcttgag tgccggaggg gtaagcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa taccagtggc gaaggcggct tactggacgg 360
taactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 5
<211> 402
<212> DNA
<213> Blautia faecis
<400> 5
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgaagga agaagtatct 60
cgatatgtaa acttctatca gcagggaaga taatgacggt acctgactaa gaagccccgg 120
ctaactacgt gccagcagcc gcggtaatac gtagggggca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggcgcagcaa gtctgatgtg aaaggcaggg gcttaacccc 240
tggactgcat tggaaactgc tgtgcttgag tgccggaggg gtaagcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct tactggacgg 360
taactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 6
<211> 402
<212> DNA
<213> uncultured Blautia sp.
<400> 6
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgaagga agaagtatct 60
cggtatgtaa acttctatca gcagggaaga aaatgacggt acctgactaa gaagccccgg 120
ctaactacgt gccagcagcc gcggtaatac gtagggggca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggcataacaa gtctgatgtg aaaggctggg gcttaacccc 240
gggactgcat tggaaactgt taagcttgag tgccggaggg gtaagcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct tactggacgg 360
taactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 7
<211> 402
<212> DNA
<213> uncultured bacterium Blautia sp.
<400> 7
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgaagga agaagtatct 60
cggtatgtaa acttctatca gcagggaaga tagtgacggt acctgactaa gaagccccgg 120
ctaactacgt gccagcagcc gcggtaatac gtagggggca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggattagcaa gtctgatgtg aaaggcaggg gctcaacccc 240
tggactgcat tggaaactgc cagtcttgag tgtcggagag gtaagcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct tactggacgg 360
caactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 8
<211> 402
<212> DNA
<213> Blautia obeum
<400> 8
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgaagga agaagtatct 60
cggtatgtaa acttctatca gcagggaaga tagtgacggt acctgactaa gaagccccgg 120
ctaactacgt gccagcagcc gcggtaatac gtagggggca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggactggcaa gtctgatgtg aaaggcgggg gctcaacccc 240
tggactgcat tggaaactgt tagtcttgag tgccggagag gtaagcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct tactggacgg 360
taactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 9
<211> 402
<212> DNA
<213> Blautia wexlerae
<400> 9
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgaagga agaagtatct 60
cggtatgtaa acttctatca gcagggaaga tagtgacggt acctgactaa gaagccccgg 120
ctaactacgt gccagcagcc gcggtaatac gtagggggca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggtgtggcaa gtctgatgtg aaaggcatgg gctcaacctg 240
tggactgcat tggaaactgt catacttgag tgccggaggg gtaagcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct tactggacgg 360
taactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 10
<211> 403
<212> DNA
<213> Uncultured Ruminococcus sp.
<400> 10
gaatattgcg caatgggggc aaccctgacg cagcgacgcc gcgtgcggga ggaaggccct 60
cgggccgcag accgctttcg gcggggacga atcacgacgg tacctgacta agaagcaccg 120
gctaaatacg tgccagcagc cgcggtaata cgtatggtgc aagcgttatc cggatttact 180
gggtgtaaag ggagcgtaga cggatgggca agtctgatgt gaaaacccgg ggctcaaccc 240
cgggactgca ttggaaactg ttcatctaga gtgctggaga ggtaagtgga attcctagtg 300
tagcggtgaa atgcgtagat attaggagga acaccagtgg cgaaggcggc ttactggaca 360
gtaactgacg ttgaggctcg aaagcgtggg gagcaaacag gat 403
<210> 11
<211> 403
<212> DNA
<213> uncultured bacterium [Ruminococcus] torques
<400> 11
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgagcga tgaagtattt 60
cggtatgtaa agctctatca gcagggaaga attaggacgg tacctgacta agaagcaccg 120
gctaaatacg tgccagcagc cgcggtaata cgtatggtgc aagcgttatc cggatttact 180
gggtgtaaag ggagcgtaga cggagaggta agtctgatgt gaaaacccgg ggctcaaccc 240
cgggactgca ttggaaactg tttttctaga gtgtcggaga ggtaagtgga attcctagtg 300
tagcggtgaa atgcgtagat attaggagga acaccagtgg cgaaggcggc ttactggacg 360
atgactgacg ttgaggctcg aaagcgtggg gagcaaacag gat 403
<210> 12
<211> 402
<212> DNA
<213> uncultured organism [Ruminococcus] torques
<400> 12
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgagcga tgaagtattt 60
cggtatgtaa agctctatca gcagggaaga aaatgacggt acctgactaa gaagcaccgg 120
ctaaatacgt gccagcagcc gcggtaatac gtatggtgca agcgttatcc agatttactg 180
ggtgtaaagg gagcgtagac ggagtggcaa gtctgatgtg aaaacccggg gctcaacccc 240
gggactgcat tggaaactgt caatctggag taccggagag gtaagcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct tactggacgg 360
taactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 13
<211> 402
<212> DNA
<213> Ruminococcus torques
<400> 13
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgagcga tgaagtattt 60
cggtatgtaa agctctatca gcagggaaga aaatgacggt acctgactaa gaagcaccgg 120
ctaaatacgt gccagcagcc gcggtaatac gtatggtgca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggagtggcaa gtctgatgtg aaaacccggg gctcaacccc 240
gggactgcat tggaaactgt caatctggag taccggagag gtaagcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct tactggacgg 360
taactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 14
<211> 427
<212> DNA
<213> Streptococcus anginosus
<400> 14
gaatcttcgg caatgggggg aaccctgacc gagcaacgcc gcgtgagtga agaaggtttt 60
cggatcgtaa agctctgttg ttaaggaaga acgagtgtga gaatggaaag ttcatgctgt 120
gacggtactt aaccagaaag ggacggctaa ctacgtgcca gcagccgcgg taatacgtag 180
gtcccgagcg ttgtccggat ttattgggcg taaagcgagc gcaggcggtt agaaaagtct 240
gaagtgaaag gcagtggctc aaccattgta ggctttggaa actgtttaac ttgagtgcag 300
aaggggagag tggaattcca tgtgtagcgg tgaaatgcgt agatatatgg aggaacaccg 360
gtggcgaaag cggctctctg gtctgtaact gacgctgagg ctcgaaagcg tggggagcga 420
acaggat 427
<210> 15
<211> 427
<212> DNA
<213> Streptococcus equinus
<400> 15
gaatcttcgg caatgggggg aaccctgacc gagcaacgcc gcgtgagtga agaaggtttt 60
cggatcgtaa agctctgttg taagagaaga acgtgtgtga gagtggaaaa ttcacacagt 120
gacggtaact taccagaaag ggacggctaa ctacgtgcca gcagccgcgg taatacgtag 180
gtcccgagcg ttgtccggat ttattgggcg taaagcgagc gcaggcggtt tgataagtct 240
gaagtaaaag gctgtggctt aaccatagta tgctttggaa actgtcaaac ttgagtgcag 300
aaggggagag tggaattcca tgtgtagcgg tgaaatgcgt agatatatgg aggaacaccg 360
gtggcgaaag cggctctctg gtctgtaact gacgctgagg ctcgaaagcg tggggagcaa 420
acaggat 427
<210> 16
<211> 427
<212> DNA
<213> Streptococcus gallolyticus
<400> 16
gaatcttcgg caatgggggc aaccctgacc gagcaacgcc gcgtgagtga agaaggtttt 60
cggatcgtaa agctctgttg taagagaaga acgtgtgtga gagtggaaag ttcacacagt 120
gacggtaact taccagaaag ggacggctaa ctacgtgcca gcagccgcgg taatacgtag 180
gtcccgagcg ttgtccggat ttattgggcg taaagagagc gcaggcggtt taataagtct 240
gaagttaaag gcagtggctt aaccattgtt cgctttggaa actgttaaac ttgagtgcag 300
aaggggagag tggaattcca tgtgtagcgg tgaaatgcgt agatatatgg aggaacaccg 360
gtggcgaaag cggctctctg gtctgtaact gacgctgagg ctcgaaagcg tggggagcaa 420
acaggat 427
<210> 17
<211> 427
<212> DNA
<213> Streptococcus thermophilus
<400> 17
gaatcttcgg caatgggggc aaccctgacc gagcaacgcc gcgtgagtga agaaggtttt 60
cggatcgtaa agctctgttg taagtcaaga acgggtgtga gagtggaaag ttcacactgt 120
gacggtagct taccagaaag ggacggctaa ctacgtgcca gcagccgcgg taatacgtag 180
gtcccgagcg ttgtccggat ttattgggcg taaagcgagc gcaggcggtt tgataagtct 240
gaagttaaag gctgtggctc aaccatagtt cgctttggaa actgtcaaac ttgagtgcag 300
aaggggagag tggaattcca tgtgtagcgg tgaaatgcgt agatatatgg aggaacaccg 360
gtggcgaaag cggctctctg gtctgtaact gacgctgagg ctcgaaagcg tggggagcga 420
acaggat 427
<210> 18
<211> 427
<212> DNA
<213> Streptococcus salivarius
<400> 18
gaatcttcgg caatgggggc aaccctgacc gagcaacgcc gcgtgagtga agaaggtttt 60
cggatcgtaa agctctgttg taagtcaaga acgagtgtga gagtggaaag ttcacactgt 120
gacggtagct taccagaaag ggacggctaa ctacgtgcca gcagccgcgg taatacgtag 180
gtcccgagcg ttgtccggat ttattgggcg taaagcgagc gcaggcggtt tgataagtct 240
gaagttaaag gctgtggctc aaccatagtt cgctttggaa actgtcaaac ttgagtgcag 300
aaggggagag tggaattcca tgtgtagcgg tgaaatgcgt agatatatgg aggaacaccg 360
gtggcgaaag cggctctctg gtctgtaact gacgctgagg ctcgaaagcg tggggagcga 420
acaggat 427
<210> 19
<211> 402
<212> DNA
<213> uncultured bacterium [Ruminococcus] gnavus
<400> 19
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgagcga tgaagtattt 60
cggtatgtaa agctctatca gcagggaaga aaatgacggt acctgactaa gaagccccgg 120
ctaactacgt gccagcagcc gcggtaatac gtagggggca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggcatggcaa gccagatgtg aaagcccggg gctcaacccc 240
gggactgcat ttggaactgt caggctagag tgtcggagag gtaagcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct tactggacga 360
tgactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 20
<211> 402
<212> DNA
<213> [Ruminococcus] gnavus
<400> 20
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgagcga tgaagtattt 60
cggtatgtaa agctctatca gcagggaaga aaatgacggt acctgactaa gaagccccgg 120
ctaactacgt gccagcagcc gcggtaatac gtagggggca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggcatggcaa gccagatgtg aaagcccggg gctcaacccc 240
gggactgcat ttggaactgt caggctagag tgtcggagag gaaagcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct ttctggacga 360
tgactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 21
<211> 402
<212> DNA
<213> uncultured bacterium [Eubacterium] hallii
<400> 21
gaatattgca caatgggggg aaccctgatg cagcaacgcc gcgtgagtga agaagtattt 60
cggtatgtaa agctctatca gcagggaaga taatgacggt acctgactaa gaagctccgg 120
ctaaatacgt gccagcagcc gcggtaatac gtatggagca agcgttatcc ggatttactg 180
ggtgtaaagg gtgcgtaggt ggcagtgcaa gtcagatgtg aaaggccggg gctcaacccc 240
ggagctgcat ttgaaactgc tcggctagag tacaggagag gcaggcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggcc tgctggactg 360
ttactgacac tgaggcacga aagcgtgggg agcaaacagg at 402
<210> 22
<211> 427
<212> DNA
<213> uncultured organism [Eubacterium] hallii
<400> 22
gaatattgca caatgggcgc aagcctgatg cagccatgcc gcgtgtatga agaaggcctt 60
cgggttgtaa agtactttca gcgaggagga aggcgttgtg gttaataacc gcagcgattg 120
acgttactcg cagaagaagc accggctaac tccgtgccag cagccgcggt aatacgtatg 180
gagcaagcgt tatccggatt tactgggtgt aaagggtgcg taggtggcag tgcaagtcag 240
atgtgaaagg ccggggctca accccggagc tgcatttgaa actgcatagc tagagtacag 300
gagaggcagg cggaattcct agtgtagcgg tgaaatgcgt agatattagg aggaacacca 360
gtggcgaagg cggcctgctg gactgttact gacactgagg cacgaaagcg tggggagcaa 420
acaggat 427
<210> 23
<211> 402
<212> DNA
<213> [Eubacterium] hallii
<400> 23
gaatattgca caatggggga aaccctgatg cagcaacgcc gcgtgagtga agaagtattt 60
cggtatgtaa agctctatca gcagggaaga taatgacggt acctgactaa gaagctccgg 120
ctaaatacgt gccagcagcc gcggtaatac gtatggagca agcgttatcc ggatttactg 180
ggtgtaaagg gtgcgtaggt ggcagtgcaa gtcagatgtg aaaggccggg gctcaacccc 240
ggagctgcat ttgaaactgc atagctagag tacaggagag gcaggcggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggcc tgctggactg 360
ttactgacac tgaggcacga aagcgtgggg agcaaacagg at 402
<210> 24
<211> 402
<212> DNA
<213> Dorea formicigenerans
<400> 24
gaatattgca caatgggcga aagcctgatg cagcgacgcc gcgtgaagga tgaagtattt 60
cggtatgtaa acttctatca gcagggaaga aaatgacggt acctgactaa gaagccccgg 120
ctaactacgt gccagcagcc gcggtaatac gtagggggca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggctgtgcaa gtctgaagtg aaaggcatgg gctcaacctg 240
tggactgctt tggaaactgt gcagctagag tgtcggagag gcaagccgaa ttccgagtgt 300
agcggtgaaa tgcgtagata ttcggaggaa caccagtggc gaaggcggct tgctgggctt 360
taactgacgc tgaggctcga aagtgtgggg agcaaacagg at 402
<210> 25
<211> 402
<212> DNA
<213> Dorea longicatena
<400> 25
gaatattgca caatggagga aactctgatg cagcgacgcc gcgtgaagga tgaagtattt 60
cggtatgtaa acttctatca gcagggaaga aaatgacggt acctgactaa gaagccccgg 120
ctaactacgt gccagcagcc gcggtaatac gtagggggca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggcacggcaa gccagatgtg aaagcccggg gctcaacccc 240
gggactgcat ttggaactgc tgagctagag tgtcggagag gcaagtggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct tgctggacga 360
tgactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 26
<211> 422
<212> DNA
<213> Bacteroides dorei
<400> 26
gaatattggt caatgggcga tggcctgaac cagccaagta gcgtgaagga tgactgccct 60
atgggttgta aacttctttt ataaaggaat aaagtcgggt atgcataccc gtttgcatgt 120
actttatgaa taaggatcgg ctaactccgt gccagcagcc gcggtaatac ggaggatccg 180
agcgttatcc ggatttattg ggtttaaagg gagcgtagat ggatgtttaa gtcagttgtg 240
aaagtttgcg gctcaaccgt aaaattgcag ttgatactgg atgtcttgag tgcagttgag 300
gcaggcggaa ttcgtggtgt agcggtgaaa tgcttagata tcacgaagaa ctccgattgc 360
gaaggcagcc tgctaagctg caactgacat tgaggctcga aagtgtgggt atcaaacagg 420
at 422
<210> 27
<211> 415
<212> DNA
<213> Bacteroides eggerthii
<400> 27
gaatattgca caatgggcgc aagcctgatg cagcgacgcc gcgtggggga tgacggcctt 60
cgggttgtaa actcctttcg cccgggacga agcccacctg gtgggtgacg gtaccgtgga 120
gaagaagcac cggctaacta cgtgccagca gccgcggtaa tacggaggat ccgagcgtta 180
tccggattta ttgggtttaa agggagcgta ggcgggtgct taagtcagtt gtgaaagttt 240
gcggctcaac cgtaaaattg cagttgatac tgggcgcctt gagtgcagca taggtaggcg 300
gaattcgtgg tgtagcggtg aaatgcttag atatcacgaa gaactccgat tgcgaaggca 360
gcttactgga ctgtaactga cgctgatgct cgaaagtgtg ggtatcaaac aggat 415
<210> 28
<211> 422
<212> DNA
<213> Bacteroides fragilis
<400> 28
gaatattggt caatgggcgc gagcctgaac cagccaagta gcgtgaagga tgactgccct 60
atgggttgta aacttctttt atattagaat aaagtgcagt atgtatactg ttttgtatgt 120
ataatatgaa taaggatcgg ctaactccgt gccagcagcc gcggtaatac ggaggatccg 180
agcgttatcc ggatttattg ggtttaaagg gagcgtaggt gggctggtaa gtcagttgtg 240
aaagtttgcg gctcaaccgt aaaattgcag ttgatactgt cagtcttgag tacagtagag 300
gtgggcggaa ttcgtggtgt agcggtgaaa tgcttagata tcacgaagaa ctccgattgc 360
gaaggcagct cactggactg caactgacac tgatgctcga aagtgtgggt atcaaacagg 420
at 422
<210> 29
<211> 422
<212> DNA
<213> Bacteroides massiliensis
<400> 29
gaatattggt caatggacga gagtctgaac cagccaagta gcgtgaagga tgaaggttct 60
atggattgta aacttctttt atacgggaat aaacggatcc acgtgtggat ttttgcatgt 120
accgtatgaa taaggatcgg ctaactccgt gccagcagcc gcggtaatac ggaggatccg 180
agcgttatcc ggatttattg ggtttaaagg gagcgtagat gggttgttaa gtcagttgtg 240
aaagtttgcg gctcaaccgt aaaattgcaa ttgatactgg cagtcttgag tacagttgag 300
gtaggcggaa ttcgtggtgt agcggtgaaa tgcttagata tcacgaagaa ctccgattgc 360
gaaggcagct tactaacctg taactgacat tgatgctcga aagtgtgggt atcaaacagg 420
at 422
<210> 30
<211> 422
<212> DNA
<213> Bacteroides ovatus
<400> 30
gaatattggt caatgggcga gagcctgaac cagccaagta gcgtgaagga tgaaggctct 60
atgggtcgta aacttctttt atatgggaat aaagttttcc acgtgtggaa ttttgtatgt 120
accatatgaa taaggatcgg ctaactccgt gccagcagcc gcggtaatac ggaggatccg 180
agcgttatcc ggatttattg ggtttaaagg gagcgtaggt ggattgttaa gtcagttgtg 240
aaagtttgcg gctcaaccgt aaaattgcag ttgaaactgg cagtcttgag tacagtagag 300
gtgggcggaa ttcgtggtgt agcggtgaaa tgcttagata tcacgaagaa ctccgattgc 360
gaaggcagct cactagactg ttactgacac tgatgctcga aagtgtgggt atcaaacagg 420
at 422
<210> 31
<211> 422
<212> DNA
<213> Bacteroides stercoris
<400> 31
gaatattggt caatggacga gagtctgaac cagccaagta gcgtgaagga tgactgccct 60
atgggttgta aacttctttt atacgggaat aaagtgagcc acgtgtggct ttttgtatgt 120
accgtatgaa taaggatcgg ctaactccgt gccagcagcc gcggtaatac ggaggatccg 180
agcgttatcc ggatttattg ggtttaaagg gagcgtaggc gggttgttaa gtcagttgtg 240
aaagtttgcg gctcaaccgt aaaattgcag ttgatgctgg cgaccttgag tgcaacagag 300
gtaggcggaa ttcgtggtgt agcggtgaaa tgcgtagata ttaggaggaa caccagtggc 360
gaaagcggct ttctggacga caactgacgc tgaggcgcga aagccagggg agcaaacggg 420
at 422
<210> 32
<211> 422
<212> DNA
<213> Bacteroides thetaiotaomicron
<400> 32
gaatattggt caatggacga gagtctgaac cagccaagta gcgtgaagga tgactgccct 60
atgggttgta aacttctttt atatgggaat aaagttttcc acgtgtggaa ttttgtatgt 120
accatatgaa taaggatcgg ctaactccgt gccagcagcc gcggtaatac ggaggatccg 180
agcgttatcc ggatttattg ggtttaaagg gagcgtaggt ggacagttaa gtcagttgtg 240
aaagtttgcg gctcaaccgt aaaattgcag ttgatactgg ctgtcttgag tacagtagag 300
gtgggcggaa ttcgtggtgt agcggtgaaa tgcttagata tcacgaagaa ctccgattgc 360
gaaggcagct cactggactg caactgacac tgatgctcga aagtgtgggt atcaaacagg 420
at 422
<210> 33
<211> 421
<212> DNA
<213> Bacteroides uniformis
<400> 33
gaatattgca caatgggcgc aagcctgatg cagccatgcc gcgtgtatga agaaggcctt 60
cggattgtaa acttctttta tacgggaata aagtgaggca cgtgtgcctt tttgtatgta 120
ccgtatgaat aaggatcggc taactccgtg ccagcagccg cggtaatacg gaggatccga 180
gcgttatccg gatttattgg gtttaaaggg agcgtaggcg gacgcttaag tcagttgtga 240
aagtttgcgg ctcaaccgta aaattgcagt tgatactggg tgtcttgagt acagtagagg 300
caggcggaat tcgtggtgta gcggtgaaat gcttagatat cacgaagaac tccgattgcg 360
aaggcagctt gctggactgt aactgacgct gatgctcgaa agtgtgggta tcaaacagga 420
t 421
<210> 34
<211> 422
<212> DNA
<213> uncultured Bacteroides sp.
<400> 34
gaatattggt caatggacga gagtctgaac cagccaagta gcgtgaagga tgaaggtcct 60
acggattgta aacttctttt ataagggaat aaaccctccc acgtgtggga gcttgtatgt 120
accttatgaa taagcatcgg ctaactccgt gccagcagcc gcggtaatac ggaggatgcg 180
agcgttatcc ggatttattg ggtttaaagg gagcgcagac gggtcgttaa gtcagctgtg 240
aaagtttggg gctcaacctt aaaattgcag ttgatactgg cgtccttgag tgcggttgag 300
gtgtgcggaa ttcgtggtgt agcggtgaaa tgcttagata tcacgaagaa ctccgattgc 360
gaaggcagca cactaatccg taactgacgt tcatgctcga aagtgtgggt atcaaacagg 420
at 422
<210> 35
<211> 422
<212> DNA
<213> Bacteroides vulgatus
<400> 35
gaatattggt caatgggcga gagcctgaac cagccaagta gcgtgaagga tgactgccct 60
atgggttgta aacttctttt ataaaggaat aaagtcgggt atggataccc gtttgcatgt 120
actttatgaa taaggatcgg ctaactccgt gccagcagcc gcggtaatac ggaggatccg 180
agcgttatcc ggatttattg ggtttaaagg gagcgtagat ggatgtttaa gtcagttgtg 240
aaagtttgcg gctcaaccgt aaaattgcag ttgatactgg atatcttgag tgcagttgag 300
gcaggcggaa ttcgtggtgt agcggtgaaa tgcttagata tcacgaagaa ctccgattgc 360
gaaggcagcc tgctaagctg caactgacat tgaggctcga aagtgtgggt atcaaacagg 420
at 422
<210> 36
<211> 422
<212> DNA
<213> uncultured bacterium Prevotella 9 sp.
<400> 36
gaatattggt caatgggcga gagcctgaac cagccaagta gcgtgcagga tgacggccct 60
atgggttgta aactgctttt atacggggat aaagtttggg acgtgtccca atttgcaggt 120
accgtatgaa taaggaccgg ctaattccgt gccagcagcc gcggtaatac ggaaggtcct 180
ggcgttatcc ggatttattg ggtttaaagg gagcgtaggc cggagattaa gcgtgttgtg 240
aaatgtagac gctcaacgtc tgcactgcag cgcgaactgg tttccttgag tacgcacaaa 300
gtgggcggaa ttcgtggtgt agcggtgaaa tgcttagata tcacgaagaa ctccgattgc 360
gaaggcagct cactggagcg caactgacgc tgaagctcga aagtgcgggt atcgaacagg 420
at 422
<210> 37
<211> 422
<212> DNA
<213> uncultured organism Prevotella 9 sp.
<400> 37
gaatattggt caatggacga gagtctgaac cagccaagta gcgtgcagga tgacagccct 60
atgggttgta aactgctttt ataagggaat aaagtgggag tcgtgactct ttttgcatgt 120
accttatgaa taaggaccgg ctaattccgt gccagcagcc gcggtaatac ggaaggtccg 180
ggcgttatcc ggatttattg ggtttaaagg gagcgtaggc cggagattaa gcgtgttgtg 240
aaatgtagac gctcaacgtc tgcactgcag cgcgaactgg tttccttgag tacgcacaaa 300
gtgggcggaa ttcgtggtgt agcggtgaaa tgcttagata tcacgaagaa ctccgattgc 360
gaaggcagct cactggagcg caactgacgc tgaagctcga aagtgcgggt atcgaacagg 420
at 422
<210> 38
<211> 422
<212> DNA
<213> Prevotella copri
<400> 38
gaatattggt caatggacga gagtctgaac cagccaagta gcgtgcagga tgacggccct 60
atgggttgta aactgctttt ataagggaat aaagtgagtc tcgtgagact ttttgcatgt 120
accttatgaa taaggaccgg ctaattccgt gccagcagcc gcggtaatac ggaaggtccg 180
ggcgttatcc ggatttattg ggtttaaagg gagcgtaggc cggagattaa gcgtgttgtg 240
aaatgtagac gctcaacgtc tgcactgcag cgcgaactgg tttccttgag tacgcacaaa 300
gtgggcggaa ttcgtggtgt agcggtgaaa tgcttagata tcacgaagaa ctccgattgc 360
gaaggcagct cactggagcg caactgacgc tgaagctcga aagtgcgggt atcgaacagg 420
at 422
<210> 39
<211> 402
<212> DNA
<213> uncultured bacterium Lachnospira sp.
<400> 39
gaatattgca caatggagga aactctgatg cagcgacgcc gcgtgagtga agaagtattt 60
cggtatgtaa agctctatca gcagggaaga cagtgacggt acctgactaa gaagctccgg 120
ctaaatacgt gccagcagcc gcggtaatac gtatggagca agcgttatcc ggatttactg 180
ggtgtaaagg gagtgtaggt ggtatcacaa gtcagaagtg aaagcccggg gctcaacccc 240
gggactgctt ttgaaactgt ggaactggag tgcaggagag gtaagtggaa ttcctagtgt 300
agcggtgaaa tgcatagata ttaggaggaa caccagtggc gaaggcggct tgctggactg 360
taactgacac tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 40
<211> 402
<212> DNA
<213> Lachnospira sp.
<400> 40
gaatattgca caatggagga aactctgatg cagcgacgcc gcgtgagtga agaagtagtt 60
cgctatgtaa agctctatca gcagggaaga tagtgacggt acctgactaa gaagctccgg 120
ctaaatacgt gccagcagcc gcggtaatac gtatggagca agcgttatcc ggatttactg 180
ggtgtaaagg gagtgtaggt ggccaggcaa gtcagaagtg aaagcccggg gctcaacccc 240
gggactgctt ttgaaactgc agggctagag tgcaggaggg gcaagtggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct tgctggactg 360
taactgacac tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 41
<211> 402
<212> DNA
<213> [Eubacterium] eligens
<400> 41
gaatattgca caatggagga aactctgatg cagcgacgcc gcgtgagtga agaagtaatt 60
cgttatgtaa agctctatca gcagggaaga tagtgacggt acctgactaa gaagctccgg 120
ctaaatacgt gccagcagcc gcggtaatac gtatggagca agcgttatcc ggatttactg 180
ggtgtaaagg gagtgtaggt ggccatgcaa gtcagaagtg aaaatccggg gctcaacccc 240
ggaactgctt ttgaaactgt gaggctggag tgcaggaggg gtgagtggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct cactggactg 360
taactgacac tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 42
<211> 405
<212> DNA
<213> uncultured bacterium Faecalibacterium sp.
<400> 42
ggatattgca caatgggggg aaccctgatg cagcaacgcc gcgtgaggga agaaggtttt 60
cggattgtaa acctctgtcc ctggtgacga agacagtgac ggtaaccagg gaggaagcca 120
cggctaacta cgtgccagca gccgcggtaa tacgtaggtc acaagcgttg tccggaatta 180
ctgggtgtaa agggagcgca ggcgggaaga caagttggaa gtgaaatcca tgggctcaac 240
ccatgaactg ctttcaaaac tgtttttctt gagtagtgca gaggtaggcg gaattcccgg 300
tgtagcggtg gaatgcgtag atatcgggag gaacaccagt ggcgaaggcg gcctactggg 360
caccaactga cgctgaggct cgaaagtgtg ggtagcaaac aggat 405
<210> 43
<211> 402
<212> DNA
<213> Faecalibacterium prausnitzii
<400> 43
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtggagga agaaggtctt 60
cggattgtaa actcctgttg ttgaggaaga taatgacggt actcaacaag gaagtgacgg 120
ctaactacgt gccagcagcc gcggtaaaac gtaggtcaca agcgttgtcc ggaattactg 180
ggtgtaaagg gagcgcaggc gggaagacaa gttggaagtg aaatccatgg gctcaaccca 240
tgaactgctt tcaaaactgt ttttcttgag tagtgcagag gtaggcggaa ttcccggtgt 300
agcggtggaa tgcgtagata tcgggaggaa caccagtggc gaaggcggcc tactgggcac 360
caactgacgc tgaggctcga aagtgtgggt agcaaacagg at 402
<210> 44
<211> 427
<212> DNA
<213> gut metagenome Phascolarctobacterium sp.
<400> 44
gaatcttccg caatgggcga aagcctgacg gagcaacgcc gcgtgagtga agaaggtctt 60
cggattgtaa agctctgttg tacatgacga atgtgccggt tgtgaataat ggctggtaat 120
gacggtagtg tacgaggaag ccacggctaa ctacgtgcca gcagccgcgg taatacgtag 180
gtggcaagcg ttgtccggaa ttattgggcg taaagagcat gtaggcggcc tattaagtcg 240
ggcgtgaaaa tgcggggctc aaccccgtat ggcgcccgat actggtgggc ttgagtgcag 300
gagaggaaag gggaattccc agtgtagcgg tgaaatgcgt agatattggg aggaacacca 360
gtggcgaagg cgcctttctg gactgtgtct gacgctgaga tgcgaaagcc aggggagcga 420
acgggat 427
<210> 45
<211> 402
<212> DNA
<213> uncultured bacterium Phascolarctobacterium sp.
<400> 45
ggatattgcg caatgggggc aaccctgacg cagcaacgcc gcgtgaagga tgaaggtttt 60
cggattgtaa acttctttta ttaaggacga aaaatgacgg tacttaatga ataagctccg 120
gctaactacg tgccagcagc cgcggtaata cgtaggtggc gagcgttgtc cggaattatt 180
gggcgtaaag agcatgtagg cggtttttta agtctggagt gaaaatgcgg ggctcaaccc 240
cgtatggctc tggatactgg aagacttgag tgcaggagag gaaaggggaa ttcccagtgt 300
agcggtgaaa tgcgtagata ttgggaggaa caccagtggc gaaggcgcct ttctggactg 360
tgtctgacgc tgagatgcga aagccagggt agcgaacggg at 402
<210> 46
<211> 427
<212> DNA
<213> Phascolarctobacterium faecium
<400> 46
gaatcttccg caatggacga aagtctgacg gagcaacgcc gcgtgagtga tgaaggattt 60
cggtctgtaa agctctgttg tttatgacga acgtgcagtg tgtgaacaat gcattgcaat 120
gacggtagta aacgaggaag ccacggctaa ctacgtgcca gcagccgcgg taatacgtag 180
gtggcgagcg ttgtccggaa ttattgggcg taaagagcat gtaggcggct taataagtcg 240
agcgtgaaaa tgcggggctc aaccccgtat ggcgctggaa actgttaggc ttgagtgcag 300
gagaggaaag gggaattccc agtgtagcgg tgaaatgcgt agatattggg aggaacacca 360
gtggcgaagg cgcctttctg gactgtgtct gacgctgaga tgcgaaagcc agggtagcga 420
acgggat 427
<210> 47
<211> 427
<212> DNA
<213> uncultured bacterium Megamonas sp.
<400> 47
gaatcttccg caatgggcga aagcctgacg gagcaacgcc gcgtgaacga tgaaggtctt 60
aggatcgtaa agttctgttg ttagggacga agggtaagaa taataatacg gtttttattt 120
gacggtacct aacgaggaag ccacggctaa ctacgtgcca gcagccgcgg taatacgtag 180
gcggcaagcg ttgtccggaa ttattgggcg taaagggagc gcaggcggga aactaagcgg 240
atcttaaaag tgcggggctc aaccccgtga tggggtccga actggttttc ttgagtgcag 300
gagaggaaag cggaattccc agtgtagcgg tgaaatgcgt agatattggg aagaacacca 360
gtggcgaagg cggctttctg gactgtaact gacgctgagg ctcgaaagct agggtagcga 420
acgggat 427
<210> 48
<211> 427
<212> DNA
<213> Megamonas funiformis
<400> 48
gaatcttccg caatgggcga aagcctgacg gagcaacgcc gcgtgaacga tgaaggtctt 60
aggatcgtaa agttctgttg ttagggacga agggcaaggg ttataataca gcctttgttt 120
gacggtacct aacgaggaag ccacggctaa ctacgtgcca gcagccgcgg taatacgtag 180
gcggcaagcg ttgtccggaa ttattgggcg taaagggagc gcaggcggga aactaagcgg 240
atcttaaaag tgcggggctc aaccccgtga tggggtccga actggttttc ttgagtgcag 300
gagaggaaag cggaattccc agtgtagcgg tgaaatgcgt agatattggg aagaacacca 360
gtggcgaagg cggctttctg gactgtaact gacgctgagg ctcgaaagct agggtagcga 420
acgggat 427
<210> 49
<211> 405
<212> DNA
<213> Uncultured Lachnospiraceae bacterium
<400> 49
gaatattgca caatggggga aaccctgatg cagcgacgcc gcgtgagtga agaagtattt 60
cggtatgtaa agctctatca gcagggaaga aaacaatgac ggtacctgac taagaagccc 120
cggctaacta cgtgccagca gccgcggtaa tacgtagggg gcaagcgtta tccggattta 180
ctgggtgtaa agggagcgta gacggtagac caagtctgaa gtgaaagccc ggggctcaac 240
cccggaactg ctttggaaac tggtaaacta gagtgcagga gaggtaagtg gaattcctag 300
tgtagcggtg aaatgcgtag atattaggag gaacaccagt ggcgaaggcg gcttactgga 360
ctgtaactga cgttgaggct cgaaagcgtg gggagcaaac aggat 405
<210> 50
<211> 402
<212> DNA
<213> Lachnospiraceae bacterium
<400> 50
gaatattgca caatggggga aaccctgatg cagcaacgcc gcgtgagtga agaagtattt 60
cggtatgtaa agctctatca gcaggaaaga aaatgacggt acctgactaa gaagccccgg 120
ctaactacgt gccagcagcc gcggtaatac gtagggggca agcgttatcc ggatttactg 180
ggtgtaaagg gagcgtagac ggttttgcaa gtctgaagtg aaagcccggg gcttaacccc 240
gggactgctt tggaaactgt agaactagag tgcaggagag gtaagtggaa ttcctagtgt 300
agcggtgaaa tgcgtagata ttaggaggaa caccagtggc gaaggcggct tactggactg 360
taactgacgt tgaggctcga aagcgtgggg agcaaacagg at 402
<210> 51
<211> 17
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 51
cctacgggng gcwgcag 17
<210> 52
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 52
gactachvgg gtatctaatc c 21
<210> 53
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 53
tcgtcggcag cgtcagatgt gtataagaga cagcctacgg gnggcwgcag 50
<210> 54
<211> 55
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 54
gtctcgtggg ctcggagatg tgtataagag acaggactac hvgggtatct aatcc 55
<210> 55
<211> 44
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (30)
<223> N=[i5]
<400> 55
aatgatacgg cgaccaccga gatctacacn tcgtcggcag cgtc 44
<210> 56
<211> 40
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (25)
<223> N=[i7]
<400> 56
caagcagaag acggcatacg agatngtctc gtgggctcgg 40

Claims (10)

1.一种用于原发性肝细胞癌早期诊断的生物标志物,其特征在于,包括以下菌属:
布劳特氏菌属(Blautia)、大肠埃希菌-志贺氏菌属(Escherichia-Shigella)、胃球菌属(Ruminococcus)、链球菌属(Streptococcus)、真杆菌属(Eubacterium)、多尔氏菌属(Dorea)、拟杆菌属(Bacteroides)、普雷沃氏菌属9(Prevotella 9)、毛螺菌属(Lachnospira)、粪杆菌属(Faecalibacterium)、考拉杆菌属(Phascolarctobacterium)、巨单胞菌属(Megamonas)、Lachnospiraceae NK4A136 group。
2.根据权利要求1所述用于原发性肝细胞癌早期诊断的生物标志物,其特征在于,所述布劳特氏菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:3所示的Blautiahydrogenotrophica、具有16S rRNA核苷酸序列如SEQ ID NO:4所示的Blautia sp.、具有16S rRNA核苷酸序列如SEQ ID NO:5所示的Blautia faecis、具有16S rRNA核苷酸序列如SEQ ID NO:6所示的unculturedBlautia sp.、具有16S rRNA核酸序列如SEQ ID NO:7所示的uncultured bacterium Blautia sp.、具有16S rRNA核苷酸序列如SEQ ID NO:8所示的Blautia obeum、具有16S rRNA核苷酸序列如SEQ ID NO:9所示的Blautia wexlerae;
所述大肠埃希菌-志贺氏菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:1所示的Escherichia coli、具有16S rRNA核苷酸序列如SEQ ID NO:2所示的Shigella sonnei;
所述胃球菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:10所示的UnculturedRuminococcus sp.、具有16S rRNA核苷酸序列如SEQ ID NO:11所示的unculturedbacterium[Ruminococcus]torques、具有16S rRNA核苷酸序列如SEQ ID NO:12所示的uncultured organism[Ruminococcus]torques、具有16S rRNA核苷酸序列如SEQ ID NO:13所示的Ruminococcus torques、具有16S rRNA核苷酸序列如SEQ ID NO:19所示的uncultured bacterium[Ruminococcus]gnavus、具有16S rRNA核苷酸序列如SEQ ID NO:20所示的[Ruminococcus]gnavus;
所述链球菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:14所示的Streptococcusanginosus、具有16S rRNA核苷酸序列如SEQ ID NO:15所示的Streptococcus equinus、具有16S rRNA核苷酸序列如SEQ ID NO:16所示的Streptococcus gallolyticus、具有16SrRNA核苷酸序列如SEQ ID NO:17所示的Streptococcus thermophilus、具有16S rRNA核苷酸序列如SEQ ID NO:18所示的Streptococcus salivarius;
所述真杆菌(Eubacterium)包括具有16S rRNA核苷酸序列如SEQ ID NO:21所示的uncultured bacterium[Eubacterium]hallii、具有16S rRNA核苷酸序列如SEQ ID NO:22所示的uncultured organism[Eubacterium]hallii、具有16S rRNA核苷酸序列如SEQ IDNO:23所示的[Eubacterium]hallii、具有16S rRNA核苷酸序列如SEQ ID NO:41所示的[Eubacterium]eligens;
所述多尔氏菌属(Dorea)包括具有16S rRNA核苷酸序列如SEQ ID NO:24所示的Doreaformicigenerans、具有16S rRNA核苷酸序列如SEQ ID NO:25所示的Dorea longicatena;
所述拟杆菌属(Bacteroides)包括具有16S rRNA核苷酸序列如SEQ ID NO:26所示的Bacteroides dorei、具有16S rRNA核苷酸序列如SEQ ID NO:27所示的Bacteroideseggerthii、具有16S rRNA核苷酸序列如SEQ ID NO:28所示的Bacteroides fragilis、具有16S rRNA核苷酸序列如SEQ ID NO:29所示的Bacteroides massiliensis、具有16S rRNA核苷酸序列如SEQ ID NO:30所示的Bacteroides ovatus、具有16S rRNA核苷酸序列如SEQ IDNO:31所示的Bacteroides stercoris、具有16S rRNA核苷酸序列如SEQ ID NO:32所示的Bacteroides thetaiotaomicron、具有16S rRNA核苷酸序列如SEQ ID NO:33所示的Bacteroides uniformis、具有16S rRNA核苷酸序列如SEQ ID NO:34所示的unculturedBacteroides sp.、具有16S rRNA核苷酸序列如SEQ ID NO:35所示的Bacteroidesvulgatus;
所述普雷沃氏菌属9包括具有16S rRNA核苷酸序列如SEQ ID NO:36所示的unculturedbacterium Prevotella 9sp.、具有16S rRNA核苷酸序列如SEQ ID NO:37所示的uncultured organism Prevotella 9sp.、具有16S rRNA核苷酸序列如SEQ ID NO:38所示的Prevotella copri;
所述毛螺菌属包括具有16SrRNA核苷酸序列如SEQ ID NO:39所示的unculturedbacterium Lachnospira sp.、具有16SrRNA核苷酸序列如SEQ ID NO:40所示的Lachnospira sp.;
所述Lachnospiraceae NK4A136 group包括具有16S rRNA核苷酸序列如SEQ ID NO:49所示的Uncultured Lachnospiraceae bacterium、具有16S rRNA核苷酸序列如SEQ ID NO:50所示的Lachnospiraceae bacterium;
所述粪杆菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:42所示的unculturedbacterium Faecalibacterium sp.、具有16S rRNA核苷酸序列如SEQ ID NO:43所示的Faecalibacterium prausnitzii;
所述考拉杆菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:44所示的gutmetagenomePhascolarctobacterium sp.、具有16S rRNA核苷酸序列如SEQ ID NO:45所示的uncultured bacterium Phascolarctobacterium sp.、具有16S rRNA核苷酸序列如SEQ IDNO:46所示的Phascolarctobacterium faecium;
所述巨单胞菌属包括具有16S rRNA核苷酸序列如SEQ ID NO:47所示的unculturedbacterium Megamonas sp.、具有16S rRNA核苷酸序列如SEQ ID NO:48所示的Megamonasfuniformis。
3.一种检测权利要求1或2所述生物标志物的试剂在制备筛查和诊断肝癌早期的试剂盒中的应用。
4.一种用于检测权利要求1或2所述生物标志物的检测试剂,其特征在于,所述检测试剂包括用于扩增16S rRNA的引物对;所述引物对包括上游引物和下游引物;所述上游引物的核苷酸序列如SEQ ID NO:51所示;所述下游引物的核苷酸序列如SEQ ID NO:52所示;其中N=A、G、C或T,W=A或T,H=A、C或T,V=A、G或C。
5.一种用于诊断肝癌早期的试剂盒,其特征在于,包括权利要求4所述检测试剂。
6.一种用于肝癌早期诊断的预测模型的构建方法,其特征在于,包括以下步骤:
1)分别从健康人群和肝癌早期患者的粪便中提取细菌DNA,得到健康人群组的细菌DNA和肝癌早期患者组的细菌DNA;
2)对所述健康人群组的细菌DNA和肝癌早期患者组的细菌DNA分别进行16SDNA扩增、文库构建和16S rRNA测序,对测序数据进行生物信息学分析,得到两组样本中微生物属水平间的丰度差异;
3)根据所述两组样本中微生物属水平间的丰度差异筛选有显著差异的生物标志物;
4)通过所述生物标志物建立特异性鉴定肝癌早期和健康人群样本的随机森林模型,评估,得到肝癌早期诊断的预测模型。
7.根据权利要求6所述用于肝癌早期诊断的预测模型的构建方法,其特征在于,步骤2)中所述生物信息学分析的方法为通过DADA2对测序数据进行过滤、去噪、拼接、去嵌合体形成16S rRNA基因的序列变异体,参考Silva数据库对所述序列变异体进行分类注释,并通过STAMP中Welch‘s t-test检验分析肝癌早期患者和健康人群中肠道微生物属水平间的丰度差异。
8.根据权利要求6所述用于肝癌早期诊断的预测模型的构建方法,其特征在于,步骤3)中筛选有显著差异的生物标志物的方法为用线性判别分析和效应大小方法进行筛选。
9.根据权利要求6~8任意一项所述用于肝癌早期诊断的预测模型的构建方法,其特征在于,步骤4)中通过所述生物标志物建立特异性鉴定肝癌早期和健康人群样本的随机森林模型的方法为将全部肝癌早期样本和健康人群样本分别按数量比4:1分为训练集和隔离集,使用python软件sklearn.ensemble.RandomForestClassifier模块对所述训练集进行随机森林模型训练;
所述评估的方法包括通过绘制学习曲线评估模型的拟合情况,同时通过接受者操作特性曲线评估模型效果,所述隔离集用于最终模型准确性评估。
10.根据权利要求9所述用于肝癌早期诊断的预测模型的构建方法,其特征在于,所述随机森林模型训练包括使用网格搜索方法调整模型训练参数,用十次交叉验证训练随机森林模型;
所述模型训练参数设定如下:梯度n_estimators=[100,500,1000];max_depth=[1,2,3,7,9];max_features=["log2","sqrt"];
所述十次交叉验证训练随机森林模型的方法为使用python软件sklearn.model_selection.GridSearchCV模块搜索最佳参数,共计30种参数组合,每种参数组合下将训练集分割成10份子样本,一份单独的子样本被保留作为验证模型的数据,其他9份子样本用来训练;重复10次,每份子样本验证一次,平均10次的结果作为该参数组合下最终模型结果;总计模型训练次数为300次。
CN202110144203.8A 2021-02-02 2021-02-02 一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试剂和应用 Active CN112899368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110144203.8A CN112899368B (zh) 2021-02-02 2021-02-02 一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试剂和应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110144203.8A CN112899368B (zh) 2021-02-02 2021-02-02 一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试剂和应用

Publications (2)

Publication Number Publication Date
CN112899368A true CN112899368A (zh) 2021-06-04
CN112899368B CN112899368B (zh) 2022-04-19

Family

ID=76121528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110144203.8A Active CN112899368B (zh) 2021-02-02 2021-02-02 一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试剂和应用

Country Status (1)

Country Link
CN (1) CN112899368B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782186A (zh) * 2021-09-08 2021-12-10 四川大学华西医院 一种辅助诊断衰弱的系统
CN114045337A (zh) * 2021-10-15 2022-02-15 温州医科大学附属第一医院 基于肠道微生物的胆管癌非侵入性标志物筛选、分析方法及应用
CN114067545A (zh) * 2021-11-15 2022-02-18 浙江时空智子大数据有限公司 一种基于遥感大数据的森林火灾监测方法及系统
CN114410730A (zh) * 2022-01-24 2022-04-29 山西医科大学 基于唾液微生物的甲状腺癌分子标志物及其应用

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112063715A (zh) * 2020-09-07 2020-12-11 清华大学 一种用于肝细胞癌早期筛查的系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112063715A (zh) * 2020-09-07 2020-12-11 清华大学 一种用于肝细胞癌早期筛查的系统

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
BEN-CHEN RAO, ET AL.: "Human microbiome is a diagnostic biomarker in hepatocellular carcinoma", 《HEPATOBILIARY PANCREAT DIS INT》 *
FEDERICO PIÑERO ET AL.: "A different gut microbiome linked to inflammation found in cirrhotic patients with and without hepatocellular carcinoma", 《ANN HEPATOL》 *
FRANCESCA ROMANA PONZIANI ET AL.: "Hepatocellular Carcinoma Is Associated With Gut Microbiota Profile and Inflammation in Nonalcoholic Fatty Liver Disease", 《HEPATOLOGY》 *
NA JIAO ET AL.: "Gut bacteria contributes to NAFLD pathogenesis by promoting secondary bile acids biosynthesis", 《THE FASEB JOURNAL》 *
QISHA LIU ET AL.: "Alteration in gut microbiota associated with hepatitis B and non-hepatitis virus related hepatocellular carcinoma", 《GUT PATHOG》 *
SHEHNAZ K. HUSSAIN ET AL.: "Dietary Protein, Fiber and Coffee Are Associated with Small Intestine Microbiome Composition and Diversity in Patients with Liver Cirrhosis", 《NUTRIENTS》 *
ZHIGANG REN ET AL.: "Gut microbiome analysis as a tool towards targeted non-invasive biomarkers for early hepatocellular carcinoma", 《GUT》 *
王炳予等: "基于16S rRNA技术探讨芪参汤治疗非酒精性脂肪性肝纤维化的作用机制", 《海南医院学报》 *
纪泽敏: "基于临床病例筛选高尿酸血症相关的肠道菌群", 《《中国优秀硕士学位论文全文数据库(医药卫生科技辑)》》 *
赵宏: "肝硬化患者合并感染的临床、免疫及肠道微生态特征", 《中国博士学位论文全文数据库(医药卫生科技辑)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782186A (zh) * 2021-09-08 2021-12-10 四川大学华西医院 一种辅助诊断衰弱的系统
CN114045337A (zh) * 2021-10-15 2022-02-15 温州医科大学附属第一医院 基于肠道微生物的胆管癌非侵入性标志物筛选、分析方法及应用
CN114067545A (zh) * 2021-11-15 2022-02-18 浙江时空智子大数据有限公司 一种基于遥感大数据的森林火灾监测方法及系统
CN114067545B (zh) * 2021-11-15 2023-05-12 浙江时空智子大数据有限公司 一种基于遥感大数据的森林火灾监测方法及系统
CN114410730A (zh) * 2022-01-24 2022-04-29 山西医科大学 基于唾液微生物的甲状腺癌分子标志物及其应用

Also Published As

Publication number Publication date
CN112899368B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN112899368B (zh) 一种用于原发性肝细胞癌早期诊断的生物标志物及其检测试剂和应用
US11655493B2 (en) Biomarker for mental disease
CN109266766B (zh) 肠道微生物作为胆管细胞癌诊断标志物的用途
US20150267249A1 (en) Determination of reduced gut bacterial diversity
CN111411150B (zh) 诊断肌少症的肠道菌群及其应用
CN114438214B (zh) 结直肠癌肿瘤标志物及其检测方法与装置
CN110541026A (zh) 一种检测溃疡性结肠炎的生物标志物及应用
CN113724862B (zh) 一种结直肠癌生物标志物及其筛选方法和应用
Tao et al. Bacterial community mapping of the intestinal tract in acute pancreatitis rats based on 16S rDNA gene sequence analysis
Sharma et al. Exploring the Genetic Basis of Tuberculosis Susceptibility in Human Populations
CN116042866A (zh) 用于评估二型糖尿病患者粪菌移植疗效的微生物标志物及其应用
CN113999922A (zh) 急性腹泻标志微生物及其应用
D’Adamo et al. Bacterial clade-specific analysis identifies distinct epithelial responses in inflammatory bowel disease
CN112048552B (zh) 诊断重症肌无力的肠道菌群及其应用
CN114381507B (zh) 格雷夫斯病标志微生物及其应用
CN111518894B (zh) 检测rs9273471位点多态性的试剂及其应用
CN114606317B (zh) 一种预测胃癌淋巴结转移的菌群标志物及其应用
CN112708687B (zh) 肠道菌群在肝性脑病检测中的应用
CN113930479B (zh) 系统性红斑狼疮标志微生物及其应用
CN111560430B (zh) 检测rs1766位点多态性的试剂及其应用
CN113337608B (zh) 用于肝癌早期诊断的组合标志物及其应用
CN115247207A (zh) 一种用于2型糖尿病鉴别的肠道微生物基因标记物组合及其应用
CN114774552A (zh) 一种痣样基底细胞癌综合征的诊断标志物、诊断试剂及应用
CN114410809A (zh) 慢传输便秘标志微生物及其应用
CN114891901A (zh) 溃疡性结肠炎标志微生物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant