CN110111841B

CN110111841B - 动脉粥样硬化的识别模型的构建方法

Info

Publication number: CN110111841B
Application number: CN201810010227.2A
Authority: CN
Inventors: 陈兴栋; 朱嗣博; 庆涛; 金力
Original assignee: Taizhou Institute Of Health Sciences Fudan University
Current assignee: Taizhou Institute Of Health Sciences Fudan University
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2023-03-10
Anticipated expiration: 2038-01-05
Also published as: CN110111841A

Abstract

本发明提供了一套基于宏基因组测序的动脉粥样硬化早期识别模型构建技术。本发明采用国际先进的Illumina NovaSeq平台，对人的粪便和口腔菌群宏基因组DNA采用Nextera转座子鸟枪宏基因组测序技术，配合传统的高通量测序，并产生宏基因组数据。进而运用数据库和系统等进行宏基因组测序数据分析。通过对数据进行训练集和验证机矫正，并配合机器学习和神经网络算法，产生可靠的早期动脉粥样硬化识别模型，并通过扩大宏基因组生物标志物进行验证。本发明基于较大规模的系统性队列研究，通过队列将病程变化和菌谱进行关联性分析，从而对早期标记物进行判断，在预防医学领域提供了更具价值的系统性研究方法。

Description

动脉粥样硬化的识别模型的构建方法

技术领域

本发明涉及生物技术领域，特别涉及模型及其构建方法。

背景技术

心血管疾病作为全球范围的主要致死因素，其中动脉粥样硬化则占到了主要的发病因素。传统研究分析结果表明，动脉粥样硬化的危险相关因素涉及男性、年龄、吸烟、高血压、高脂血症、肥胖和糖尿病等慢性炎性疾病。另一方面，生物标志物如循环系统中高敏感性C反应蛋白的升高，也暗示了粥样硬化的病因。近年来越来越多的证据表明，感染和慢性炎性疾病，例如类风湿性关节炎，也与动脉粥样硬化风险增加有关。其中细菌感染造成的炎症机制目前被认为是导致动脉粥样硬化形成的重要原因。

人体的微生物菌群主要位于肠道远端和口腔，其中下消化道含有近100万亿个微生物，其中大部分是细菌。目前在这个微生物群中已经鉴定出了1000多种细菌的种类和7000多个株，尤其是拟杆菌门和厚壁菌门占肠道微生物群中已知分类的90％以上。目前已知的微生物群的总编码基因超过了330万个，达到人类宿主基因组编码数的150多倍，其中许多微生物的产物对人体代谢和健康有重要影响。随着高通量测序技术的普及、人类微生物组计划的开展(Human Microbiome Project)及医学大数据模型的建立，肠道、口腔和动脉硬化粥样斑块等微生物组和宏基因组在动脉粥样硬化形成中的作用逐步被揭示。人体微生物共生菌群也作为检测靶点和生物标记物，为精准医疗提供重要诊疗价值。

Koren等人通过对15例患者和15例正常人的动脉粥样硬化斑块进行对比，并对牙菌斑及粪便进行16S rDNA测序，发现在所有的动脉粥样硬化斑块样品中均鉴定到了动脉粥样硬化的潜在标志物，即浅黄华丽单胞菌(Chryonomonas)。多数样本在粥样硬化斑块、粪便及口腔中均出现了韦荣球菌(Veillonella)和链球菌(Streptococcus)，且动脉粥样硬化斑块中的Veillonella和Streptococcus的综合丰度与口腔丰度相关。Mitra等人对颈动脉粥样硬化的研究表明，斑块组织中具有2％-16％的测序读段来自于细菌，其中

鼠李糖乳杆菌(Lactobacillus rhamnosus)和多糖奈瑟球菌(Neisseriapolysaccharea)等含量较高。具有缺血症状的病人斑块和无症状病人斑块菌群在碳水化合物和氨基酸能量代谢等基本通路上具有很大差异，提示病人菌群该方面的功能较差。Karlsson等人使用鸟枪法对12例动脉粥样硬化患者和13例正常人的肠道宏基因组进行测序，发现动脉粥样硬化患者中柯林斯氏菌

(Collinsella)明显丰富，而健康对照组中的罗氏菌(Roseburia)和真杆菌(Eubacterium)更丰富。进一步对宏基因组的功能进行分析，研究人员揭示了患者的肠道微生物可以合成和消耗植烯脱氢酶，且相应的患者血清β-胡萝卜素水平也降低，且肠道微生物丰富程度和宿主炎症状态有关联，从而影响动脉粥样硬化的进程。最近Zhu等人通过对一个由8个素食者和10个杂食者构成的肠道菌群短期队列进行研究发现，肠道微生物可以由膳食中的营养物质如胆碱、卵磷脂和l-肉碱等产生TMAO(氧化三甲胺)，杂食主义比素食主义者的血液TMAO含量更高，并更易促进血栓的形成和发展。同时该研究提示使用低剂量的阿斯匹林来减轻TMAO升高所导致的血小板聚。

根据上述消化道菌群和粥样硬化斑块相关研究，目前可将菌群影响动脉粥样化的形成归纳为三条路径(图1)：①病灶处或远端的感染造成炎症，并加剧斑块发展或触发斑块破裂；②肠道菌群使胆固醇和脂肪代谢失调会影响动脉粥样硬化斑块的发展；③被菌群代谢的饮食和特定营养成分可能会对动脉粥样硬化有不同影响，如已知膳食纤维是有益的，而细菌代谢产物三甲胺则被认为是有害。

尽管当前关于宏基因组的研究已为粥样硬化的肠道菌群部分分子标记物和部分病因机理提供了一些重要的结论，但上述研究在设计和技术层面上存在诸多不足之处，尤其是缺乏准确的流行病学病因结论及可为发病早期诊断提供标记物的可靠数据。其原因和不足具体如下：

1.目前的研究基本均针对西方人群，东方人群研究相对较少，且我国的宏基因组和心血管疾病研究也尚处于起步阶段；东西方人的遗传背景、免疫系统、生活习惯和饮食习惯具有较大差异，例如在受试者的饮食习惯方面，西方主要为高脂高热量饮食，而东方则以碳水化合物饮食为主；在天然状态下，东方人的肠道普雷氏菌含量就远高于西方人，而西方人则以拟杆菌含量占优。

2.大多数研究采用了样本-对照(Case-Control)的研究思路，缺乏系统性队列研究的偏倚控制，受试者的背景相对复杂，且对既往饮食内容、生活习惯的调查缺失；另一方面，研究对象是已经产生疾病的病人消化道宏基因组，属于横断面研究，不能通过队列将病程变化和菌谱进行关联性分析，从而对早期标记物进行判断，在预防医学领域所提供的价值极其有限；再次，既往的宏基因组研究入组人数较少，通常只有20-50例样本，缺乏上百例甚至更多的受试者的较大规模研究，抽样则可能存在误差。

3.技术层面的先进性问题。既往研究主要依靠细菌的16s rDNA高变区的测序，仅能对生物中的细菌界进行研究，而对其他诸如病毒、真菌、寄生虫等微生物无能为力；和检验效能更为可靠的宏基因组鸟枪测序(Shotgun)方法相比，16s rDNA测序只能知道微生物组中“谁在那儿”，而后者除此还可知道他们“在做什么”，这对解释临床表型和发病机理具有重要意义。

4.受试者临床表型的丰富度问题，尤其是既往研究颅部影像学资料不足，仅靠判定有无粥样斑块或梗死病变，而未对其进行病理分类和定量，是导致该类研究结论单一的原因。

发明内容

有鉴于此，本发明提供了模型及其构建方法。本发明基于较大规模的系统性队列研究，通过队列将病程变化和菌谱进行关联性分析，从而对早期标记物进行判断，在预防医学领域提供了更具价值的系统性研究方法。

为了实现上述发明目的，本发明提供以下技术方案：

本发明提供了动脉粥样硬化的识别模型的构建方法，包括如下步骤：

步骤1：获得待测样本的宏基因组DNA；

步骤2：建库、测序，获得宏基因组数据；

步骤3：所述宏基因组数据经分析，并经训练集和验证机矫正，再经机器学习，结合神经网络算法，获得动脉粥样硬化的识别模型。

在本发明的一些具体实施方案中，步骤1中所述待测样本包括粪便或口腔分泌物。

在本发明的一些具体实施方案中，所述口腔分泌物包括唾液或痰液。

在本发明的一些具体实施方案中，步骤2中所述测序采用Nextera转座子鸟枪宏基因组测序和高通量16s V3-V4 rDNA测序。

在本发明的一些具体实施方案中，步骤3中所述分析采用QIIME2，Silva数据库，DIAMOND，NCBI Blast nr数据库或MEGAN系统中的一种或多种。

在本发明的一些具体实施方案中，步骤3中所述分析包括质量控制、比对、距离矩阵计算、操作分类单元(OTU)划分、多样性分析、系统进化树构建和信号通路或差异菌群功能注释中的一种或多种。

在本发明的一些具体实施方案中，步骤2中所述建库包括DNA碎片化反应；

所述DNA碎片化反应的体系包括Tagment DNA buffer(2x)、Amplicon tagmentmix(Tn5)、宏基因组DNA和水。

在本发明的一些具体实施方案中，所述建库还包括宏基因组DNA扩增；

所述宏基因组DNA扩增的反应体系包括所述DNA碎片化反应的产物、NPM、i7llumina index preimer和i5 illumina index primer；

所述宏基因组DNA扩增的反应程序包括：72℃反应3min，95℃反应30s，16次循环(95℃反应10s+55℃反应30s+72℃反应30s)，72℃反应5min，10℃终止反应。

本发明还提供了所述的构建方法获得的动脉粥样硬化的识别模型。

本发明还提供了所述的动脉粥样硬化的识别模型在制备动脉粥样硬化的检测装置中的应用。

本发明提供了一套基于宏基因组测序的动脉粥样硬化早期识别模型构建技术。本发明采用国际先进的Illumina NovaSeq平台，对人的粪便和口腔菌群宏基因组DNA采用Nextera转座子鸟枪宏基因组测序技术，配合传统的高通量16s V3-V4 rDNA测序，并产生宏基因组数据。进而运用QIIME2，Silva数据库，DIAMOND，NCBI Blast nr数据库和MEGAN系统等进行宏基因组测序数据分析。通过对数据进行训练集和验证机矫正，并配合机器学习和神经网络算法，产生可靠的早期动脉粥样硬化识别模型，并通过扩大宏基因组生物标志物进行验证。该发明基于较大规模的系统性队列研究，通过队列将病程变化和菌谱进行关联性分析，从而对早期标记物进行判断，在预防医学领域提供了更具价值的系统性研究方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为细菌影响动脉粥样硬化斑块形成的方式及通路；

图2为宏基因组建库和测序技术流程图；

图3为宏基因组DNA提取纯化操作步骤；

图4为宏基因组PCR反应产物电泳检测图谱；

图5为宏基因组数据分析流程图；

图6为基于宏基因组数据的早期动脉粥样硬化识别模型构建流程图。

具体实施方式

本发明公开了模型及其构建方法，本领域技术人员可以借鉴本文内容，适当改进工艺参数实现。特别需要指出的是，所有类似的替换和改动对本领域技术人员来说是显而易见的，它们都被视为包括在本发明。本发明的方法及应用已经通过较佳实施例进行了描述，相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的方法和应用进行改动或适当变更与组合，来实现和应用本发明技术。

本发明旨在解决现有技术中存在的不足之处，构建一套基于宏基因组测序的动脉粥样硬化早期识别模型。

本发明是基于发明人的下列实施方案而完成的：

本发明针对582例中国泰州地区自然村落人群该队列的10年追踪记录，研究该队列中所有成员，包括健康人和已经产生部分早期颅部血管病灶的病人，对其各种队列信息进行采集和汇总，包括全面的饮食习惯、生活习惯、认知量表和血液生化指标、代谢物指标，以及准确的高解析脑血管定量MRI数据及病变分类。相较于传统的少数样本-对照(Case-Control)的横断面研究思路，该发明基于较大规模的系统性队列研究，通过队列将病程变化和菌谱进行关联性分析，从而对早期标记物进行判断，在预防医学领域所提供更具说服力的价值。

研究中，本发明采用国际先进的Illumina NovaSeq平台，对队列人群的粪便和口腔菌群宏基因组DNA采用Nextera转座子鸟枪宏基因组测序技术，配合传统的高通量16sV3-V4 rDNA测序，并产生宏基因组数据。相较于16srDNA高变区的测序，宏基因组鸟枪测序(Shotgun)方法在检验效能上更为可靠。

本发明产生的宏基因组数据可用于：

1.建一套完整的人群宏基因组相关分析技术体系标准，并建立中国人群正常肠道微生物图谱(Profile Draft)；

2.发现脑动脉粥样硬化早期识别标志物的菌群(Biomarkers)；

3.基于多种统计模式识别技术，建立“宏基因组+影像学+行为学+认知功能调查”的早期动脉粥样硬化识别模型。

本发明所用到的主要试剂盒有：①DNA抽提：MOBIO PowerSoil DNA IsolationKit，50purifications，Catalog#12888-50；②DNA浓度测定：Qubit dsDNA HighSensitivity Assay Kit，100assays，0.2-100ng，REF Q32851(亦可采用Nanodrop代替)；③宏基因组DNA建库：Illumina Nextera XT Library Prep Kit 96Samples，REF 15032254，LOT 20008041；Illumina Nextera XT Index Kit，96indexes，REF 15055294，LOT20007183。

本发明提供的模型及其构建方法中所用原料及试剂均可由市场购得。

下面结合实施例，进一步阐述本发明：

实施例1宏基因组DNA纯化：

宏基因组DNA提取纯化，具体实施步骤如下(图3)。

1、弃掉采样管内的保存液，将磁珠、裂解液直接加入采样管，震荡10min，至黏在棉签上的细菌、病毒尽可能脱落至裂解液，将混合液转移至试剂盒的PowerBead管中。

2、向上述含混合液的PowerBead管中加入60μl C1，震荡。

3、将PowerBead管用封口膜封好，用厚胶带将其水平固定于震荡器上，并调至最大振动速度，持续震荡10min。

4、室温10000G，离心30s。

5、取上清液400μl至2ml收集管中。

6、加入250μl的C2，4℃震荡，5min。

7、室温10000G，1min。

8、取上清液600μl至新的2ml管中。加入200μl的C3至有白色沉淀出现。4℃震荡混匀，5min。

9、室温10000G，1min。

10、取上清液650μl至新的2ml管中，加入1.2ml C4(加入C4前，先摇匀)。

11、取步骤10制得的溶液约650μl至Spin Filter中，室温10000G，1min。弃流出液，取步骤10制得的溶液约650μl至Spin Filter中，重复操作3次。

12、加人500μl的C5，室温10000G，30s。弃流出液。

13、室温10000G，空转1min。

14、将Spin Filter放入新的2ml收集管中。在膜中央加入50μl的C6洗脱。

15、室温10000G，30s。弃Spin Filter，溶液于-20℃保存。

16、采用Qubit或Nanodrop对提取的DNA浓度进行定量(表1)，将DNA浓度调整成1ng/μl后进行后续建库实验。

表1采用Qubit或Nanodrop进行DNA的浓度定量表

实施例2宏基因组DNA建库及测序(图2)：

采用Nextera XT鸟枪测序建库试剂盒，对受试者粪便和口腔唾液宏基因组DNA进行打断和建库并标记条形码和混样，后在NovaSeq S2高通量测序平台上完成测序，并产生不少于5M reads/样本的数据量。

宏基因组DNA建库及测序，具体步骤如下。

1、DNA碎片化反应：

加入1ng的纯化后的宏基因组DNA至反应体系，完成DNA碎片化反应体系配置(表2)。

表2DNA碎片化反应体系配置表

将上述反应体系置于55℃，反应5min(热盖关闭)，瞬时离心至管壁液滴离至管底，置于冰上迅速加入5μl的NT Buffer(1.25μl Revised)，室温反应5min后，置于冰上。

2、宏基因组PCR反应：

配置宏基因组PCR反应体系(表3)，设定如下反应程序并启动宏基因组PCR反应。

表3宏基因组PCR反应体系配置表

宏基因组PCR反应条件	1Test(μl)
		碎片化反应产物	25.00
NPM	15.00
		i7 llumina index preimer	5.00
i5 illumina index primer	5.00
		总体积(μl)	50.00

打开PCR仪(Biorad CFX96 PCR)，设置PCR仪热盖温度为105℃，72℃反应3min，95℃反应30s，16次循环(95℃反应10s+55℃反应30s+72℃反应30s)，72℃反应5min，10℃终止反应。

3、宏基因组PCR反应产物纯化：

于96孔板加入30μl磁珠(V磁珠/V产物＝0.6:1)，上下吹打10次，充分混匀磁珠，室温静置8min。

将96孔板置于磁力架上，静置5min，待溶液变成透明状，吸出并弃去所有上清液(避免碰到磁珠)。

将96孔板置于磁力架上，加入80％的乙醇200μl，静置30s，吸出并弃去所有上清液(避免碰到磁珠)。

重复上述步骤。

将96孔板置于磁力架上，在室温下晾干5-10min，期间利用10μl枪头吸去所有残余乙醇。

待管壁上磁珠聚集区产生细微裂痕后，将96孔板从磁力架上取下，并加入15μl的EB溶液(1mM Tris-HCl，或纯水)。吹打10次，使溶液充分混匀至咖啡色，并放置室温静置2分钟。

将96孔板置于磁力加上，静置2min，待溶液变成透明状，收集所有上清(约14μl，注意避免碰到磁珠)。

4、阶段性质控：

对上述样本进行Qubit HS DNA试剂盒定量，纯化后的宏基因组PCR反应产物正常范围在0.5ng/μl～10ng/μl。

对上述样本进行1μl的2100QC或8μl的电泳检测，纯化后的宏基因组PCR反应产物合理分布为250-1000bp弥散条带(图4，代表转座酶消化后加接头的典型文库长度范围)。

5、宏基因组测序：

将上述样本进行摩尔数换算，将每个样本稀释浓度至2nM，按照每个样本1:1混合。混合后，从总管中取10μl送测序公司做测序前2100QC，并测序。测序仪采用NovaSeq S2，测序模式为2x 150bp读长，总共800M reads。

实施例3宏基因组数据分析：

宏基因组数据分析，具体流程如下：

运用QIIME2，Silva数据库，NCBI Blast nr数据库和MEGAN系统等进行宏基因组测序数据分析：质量控制、比对、距离矩阵计算、操作分类单元(OTU)划分、多样性分析、系统进化树构建和信号通路及差异菌群功能注释等。匹配数据库包括660,000个物种(25,000个原核物种，84,000种动物，65,000种植物和17,000种病毒序列)进行类别计算。计算流程大致分为：质量控制和样本预处理，物质分类和谱系树绘制，功能分析和差异样本聚类分析等三大部分(图5)。

实施例4基于宏基因组数据的早期动脉粥样硬化识别模型构建：

早期动脉粥样硬化识别模型构建，具体流程如下。

通过对数据进行训练集和验证机矫正，并配合机器学习和神经网络算法，产生可靠的早期动脉粥样硬化识别模型，并通过扩大宏基因组生物标志物进行验证(图6)。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.动脉粥样硬化的识别模型的构建方法，其特征在于，包括如下步骤：

步骤1：获得待测样本的宏基因组DNA；

步骤2：建库、测序，获得宏基因组数据；

所述建库包括DNA碎片化反应；

所述DNA碎片化反应的体系包括Tagment DNA buffer(2x)、Amplicon tagment mix(Tn5)、宏基因组DNA和水；

所述建库还包括宏基因组DNA扩增；

所述宏基因组DNA扩增的反应体系包括所述DNA碎片化反应的产物、NPM、i7 lluminaindex preimer和i5 illumina index primer；

所述宏基因组DNA扩增的反应程序包括：72℃反应3min，95℃反应30s，16次循环(95℃反应10s+55℃反应30s+72℃反应30s)，72℃反应5min，10℃终止反应；

所述测序采用Nextera转座子鸟枪宏基因组测序和高通量16s V3-V4rDNA测序

步骤3：所述宏基因组数据经分析，并经训练集和验证集矫正，再经机器学习，结合神经网络算法，获得动脉粥样硬化的识别模型；

所述分析采用QIIME2，Silva数据库，DIAMOND，NCBI Blast nr数据库或MEGAN系统中的一种或多种；

所述分析包括质量控制、比对、距离矩阵计算、操作分类单元(OTU)划分、多样性分析、系统进化树构建和信号通路或差异菌群功能注释+中的一种或多种。

2.根据权利要求1所述的构建方法，其特征在于，步骤1中所述待测样本包括粪便或口腔分泌物。

3.根据权利要求2所述的构建方法，其特征在于，所述口腔分泌物包括唾液或痰液。