CN117995272A

CN117995272A - 一种构建梅毒cfDNA高通量测序的机器学习模型方法

Info

Publication number: CN117995272A
Application number: CN202410199125.5A
Authority: CN
Inventors: 邹弈君; 陈路; 姜君; 陈洋
Original assignee: Beijing Macro & Micro Test Bio Tech Co ltd
Current assignee: Beijing Macro & Micro Test Bio Tech Co ltd
Priority date: 2024-02-22
Filing date: 2024-02-22
Publication date: 2024-05-07

Abstract

本发明提供构建梅毒cfDNA高通量测序的机器学习模型方法，所述方法包括收集梅毒的血浆标本，建立临床样本队列，对所有收集的梅毒血浆标本取血浆提取的cfDNA，进行梅毒靶向探针杂交捕获文库构建及二代测序；输出模型数据集，将所述确诊样本队列中样本的样本名称、与梅毒序列丰度相关特征因素的标准化测序数据和临床原始诊断结果，预处理为矩阵格式，构造用于建立决策树模型的数据集；和机器学习决策树模型建立与评估。本发明方法可以得出测序数据中区分阴阳性样本的最优特征因素及其划分阈值。使用决策树模型对多因素进行评估并针对最优特征因素再进行决策分类得出阈值，提升了模型预测的性能。

Description

一种构建梅毒cfDNA高通量测序的机器学习模型方法

技术领域

本发明涉及机器学习领域，具体而言，涉及一种构建梅毒cfDNA高通量测序的机器学习模型方法。

背景技术

梅毒是由梅毒螺旋体(T.pallidum)引起的传染性性传播感染疾病，梅毒的早发现早治疗可避免其发展成为重要传染源，对梅毒传染控制具有重要意义。

梅毒的有效管理包括早期发现和适当治疗有临床和血清学证据表明感染了梅毒螺旋体的病例。目前，苄星青霉素是治疗各期梅毒的推荐药物。然而，约有15％-58％的患者会出现非梅毒螺旋体抗体滴度下降至一定程度(一般≤1:8)即不再下降而长期维持在低滴度或无法达到血清学治愈，这种情况被称为"血清固定状态"。最近一项研究表明34.6％的无症状梅毒患者同时患有无症状神经梅毒，这一比例明显高于阳性梅毒患者。因此，由于存在持续低水平梅毒螺旋体感染的潜在风险，血清固定状态成为医生和患者关注的焦点，这种感染可能发展为神经梅毒，并导致严重的并发症。

近年来，人们对血浆细胞游离DNA(cfDNA)进行了广泛研究，将其作为一种用于检测恶性肿瘤的标记物以及诊断胎儿染色体疾病、血源性感染和脑炎感染的非侵入性方法。然而，由于梅毒螺旋体cfDNA在梅毒患者血浆样本中的含量较低，因此检测梅毒螺旋体cfDNA仍具有挑战性。新一代测序(NGS)技术近年来发展迅速，已被应用于病原菌鉴定和指导靶向抗菌治疗。靶向二代测序技术(tNGS)通过先富集目的DNA序列再测序的方法，增加测序数据中目标序列的比例，进而提高检测的灵敏度。靶向富集的方法有两种，一种是多重PCR策略通过PCR反应增加目的片段的数量，另一种是通过核酸探针与目的片段进行杂交，从而抓取目的序列进行测序。液相杂交捕获技术已被证明可以提高NGS中靶标检测的灵敏度。在本发明中，我们将新型探针捕获与下一代测序(NGS)相结合，并构建了一个机器学习模型。我们希望建立一种非侵入性的方法，通过该机器学习模型帮助提高识别有持续低水平梅毒螺旋体感染风险的血清固定患者的灵敏度。

发明内容

为了解决上述技术问题，本发明提供一种构建梅毒cfDNA高通量测序的机器学习模型方法，其特征在于，所述方法包括以下步骤：

步骤S1，收集梅毒的血浆标本，建立临床样本队列，入组原则为：根据病例定义，将患者分为未治疗的活动性梅毒、血清学治愈和血清固定三组；通过该原则对经临床检测的样本进行评分，建立分为确诊样本队列和疑似样本队列的临床样本队列，其中确诊样本队列是未治疗的活动性梅毒病例和血清学治愈病例之和，疑似样本队列是血清固定病例；

步骤S2，对所有收集的梅毒血浆标本取血浆提取的cfDNA，进行梅毒靶向探针杂交捕获文库构建及二代测序；

步骤S3，构造模型数据集，包括：

步骤S31，高通量测序数据分析及处理，读取对应样本的二代测序下机原始数据，对连续4个碱基质量值小于20的低质量碱基和接头序列进行剪切，对N碱基含量大于等于5的reads进行过滤，得到质控后的reads；将质控后的reads比对到人类参考基因组，保留比对不上的非人源reads序列为clean reads；对所述clean reads进行物种鉴定，得出与梅毒序列丰度相关特征因素的统计数据；基于上述统计数据，标准化不同样本间测序深度的影响，得出与梅毒序列丰度相关特征因素的标准化数据；

步骤S32，输出模型数据集，将所述确诊样本队列中样本的样本名称、上述与梅毒序列丰度相关特征因素的标准化数据和临床原始诊断结果，预处理为矩阵格式，构造用于建立决策树模型的数据集；

步骤S4，机器学习模型建立与评估，对上述构造用于建立决策树模型的数据集进行随机分层抽样，分为训练集与测试集，每个子集中临床阴性/阳性标本的比例与原始数据集相差20％以内；采用机器学习的决策树模型对训练集数据构建决策树，对训练集的数据进行分类；使用多因素决策树模型选择出最好的数据集划分方式，在树生成过程中，使用基尼指数选择最优特征因素，基尼指数就越大，所获得的信息增益越大，输出基尼指数增益值最大的因素作为决策树的根结点，即为最优特征因素；

通过所述最优特征因素的具体数据进一步构建决策树分类器模型，其中结点表示一个因素上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果；决策树分类器选择适当的阈值判断结果，使得对该特征因素所有数据分类的错误率最小；

将训练集上已经学习好的决策树模型运用在测试集上评估模型性能。

在一种实施方式中，在步骤S31中，首先根据RefSeq数据库进行本地比对库构建，把RefSeq数据库中梅毒参考序列的全基因组分成大小为K的短片段K-mer，片段大小K为小于测序单条reads长度的单数，每条K-mer都包含了相应参考序列的物种信息；其次将K-mer与clean reads进行匹配，根据匹配得到的K-mer判断clean reads的物种信息；由此得到clean reads比对上的K-mer数Kmer，进一步将所有比对到该物种的K-mer进行去重后可以得到uniqkmer数Uniqkmer，并且针对比对结果文件，还可以统计输出clean reads比对上梅毒螺旋体种T.pallidum的reads数和密螺旋体属Treponema的reads数。

在一种实施方式中，片段大小K为31bp-141bp。

在一种实施方式中，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算梅毒螺旋体reads的RPM值RPM，

在一种实施方式中，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算梅毒螺旋体reads数与密螺旋体菌的reads数的比值TP_rate，

在一种实施方式中，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算uniqkmer数与kmer数的比值UK_rate，

在一种实施方式中，步骤S4中，利用R语言中的par-tykit软件包构建了基于训练队列五个特征因素的多因素决策树分析模型。

在一种实施方式中，步骤S4中，通过绘制的ROC曲线直观地评估模型在阈值下的分类性能，ROC曲线下面积AUC用来度量分类模型的性能。

在一种实施方式中，步骤S4中，在总样本中统计得出阈值诊断分类的混淆矩阵，TP：被正确分类的阳性样本个数，TN：被正确分类的阴性样本个数，FP：被错误分类的阳性样本个数，FN：被错误分类的阴性样本个数；并计算特异性Specificity＝TN/FP+TN、灵敏度Sensitivity＝TP/TP+FN、准确率Accuracy＝(TP+TN)/(TP+TN+FP+FN)。

本发明具有以下有益技术效果：

1.使用本发明所述梅毒靶向探针杂交捕获文库构建及二代测序方法，有效对临床样本cfDNA中的梅毒螺旋体核酸起到富集效果，提升了梅毒核酸序列信息的检测灵敏度。该方法采用血浆cfDNA作为捕获富集的核酸模板，是一种非侵入性的采样方法，创伤小，提高了患者的接受度，适用于更广泛的人群。

2.NGS测序的核心技术难题之一是阳性阈值及判读标准设定问题，应根据预期用途、标本类型、检测目标和技术特点，建立并验证阳性阈值及判读标准。本发明基于梅毒cfDNA临床确诊样本队列数据构建机器学习模型，提供了一种设定阳性阈值及判读标准的方法。

3.阳性阈值的指标通常包括但不限于特定微生物的检出序列数(reads数)、归一化每百万序列(readspermillion,RPM)的比值、检出物种的基因组覆盖度、置信区间等。本发明使用决策树模型对多因素进行评估筛选，提供了一种得出对数据集划分最优特征因素的方法，再进行决策树分类得到最优特征因素的阳性阈值，该方法展现出良好的模型预测的性能，提升了对其他未知样本梅毒cfDNA检测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明的多因素决策分析图；

图2为本发明决策树分析图；

图3为本发明测试队列20例样本梅毒诊断模型ROC曲线图。

具体实施方式

为了使本领域技术人员更好地理解本申请中的技术方案，下面将结合实施例对本发明作进一步说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都应当属于本申请保护的范围。下述实施例中，如无特殊说明，均为本领域常规方法。

述实施例中中未注明具体条件的实验方法，如无特殊说明，均为常规方法或按制造厂商所建议的条件。下述实施例中所用的试验材料以及各种化学试剂，如无特殊说明，均为市售产品。

实施例一构建梅毒cfDNA高通量测序的机器学习模型方法

本实施例以从医院获得的临床梅毒感染患者的血浆样本，来阐述本发明的技术流程。

1.临床队列建立

本实施例共收集了192例梅毒患者血浆标本，建立临床样本队列，入组原则为：根据病例定义，将患者分为未治疗的活动性梅毒(原发性梅毒、继发性梅毒、三期梅毒和潜伏性梅毒)、血清学治愈和血清固定三组。通过该原则对经临床检测的样本进行评分，建立样本队列，共有192人符合纳入标准，99例为确诊样本队列，其中包括48例活动性梅毒患者(阳性)和51例血清学治愈者(阴性)，93例血清固定病例为疑似样本队列。

2.梅毒靶向第二代测序

对所有192例临床血浆样本进行梅毒靶向探针杂交捕获文库构建及二代测序，步骤如下：

2.1.核酸提取

采集患者血液并在1h内处理。每位患者6mL血液于抗凝管以820g离心10min分离血浆和外周血细胞。再对血浆20,000g离心10min沉淀剩余细胞，将血浆保存在-80℃下。根据制造商的说明，使用QIAamp cir-culating nucleic acid kit(Qiagen)从2mL血浆中提取cfDNA，50μL AVE缓冲液洗脱后，通过Qubit进行定量。

2.2.文库构建

取血浆提取的cfDNA，用于构建双端测序文库。

(1)末端修复&加A

按照下表，使用DNA Library Preparation Module建库试剂盒，在冰上配制末端修复加A尾体系：

使用移液器吸打混匀(避免剧烈震荡混匀)，短暂离心；反应条件：热盖温度85℃，20℃30min，65℃30min，4℃Hold。

(2)接头连接

按下表在冰盒上配制反应体系：

涡旋震荡，直接在上一步反应管中加入28μL的接头连接反应体系，混合均匀，瞬时离心使全部反应液置于PCR管底部。在PCR仪上启动如下反应程序：关闭热盖，20℃15min，4℃Hold。

(3)连接后纯化

1)PCR反应结束后向样品中加入1.25×Agencourt AMPure XP磁珠，用移液器吸打混匀；

2)室温孵育5min后，将PCR管置于磁力架上3min待溶液澄清；

3)保持PCR管在磁力架上，移除上清，向PCR管中加入200μL 80％乙醇溶液，静置30s；

4)保持PCR管在磁力架上，移除上清，向PCR管中加入200μL 80％乙醇溶液，静置30s后彻底移除上清；

5)室温孵育5min，使残留的乙醇彻底挥发；

6)加入20μL Nuclease-free water，将PCR管从磁力架取下，吸打混匀，带着磁珠进入下一步PCR扩增。

(4)PCR扩增

按照下表在置于冰上的0.2mL PCR管中进行反应体系配制：

混合均匀，瞬时离心使全部反应液置于PCR管底部。将PCR管放置在PCR仪中启动如下程序：热盖温度105℃，98℃2min；98℃15s，60℃30s，72℃30s，共10个循环；72℃2min，4℃Hold。

(5)PCR扩增后纯化

将Agencourt AMPure XP磁珠从4℃冰箱取出，涡旋震荡混匀平衡至室温后备用。

1)在PCR扩增产物中，加入50μL磁珠，吸打混匀，室温静置5min后，将PCR管置于磁力架上3min，待溶液澄清；

2)保持PCR管置于磁力架上，移除上清，向PCR管内加入200μL 80％乙醇溶液，静置30s；

3)保持PCR管置于磁力架上，移除上清，再次向PCR管内加入200μL 80％乙醇溶液，静置30s后彻底移除上清；

4)室温静置3-5min，使残留乙醇彻底挥发；

5)加入30μL的Nuclease-free Water，将PCR管从磁力架取下，吸打混匀，静置2min；

6)将PCR管置于磁力架上2min待溶液澄清，吸取28μL上清液，转移到新的PCR管中，做好标记；

7)经质检后进行后续实验。

3.3.杂交捕获测序

使用本发明所述超敏梅毒高通量检测试剂盒用于梅毒靶向探针杂交捕获文库构建，利用生物素标记的梅毒特异捕获探针池与上述DNA文库直接杂交，使目标DNA片段通过生物素标记的探针锚定在带有亲和素的微珠上，洗去非目标DNA，洗脱靶标DNA文库进行PCR富集，富集的梅毒DNA文库用于后续反应。本发明提供的超敏梅毒高通量检测试剂盒的成分如下表1所示：

表1超敏梅毒高通量检测试剂盒

另外，本方案配合以上超敏梅毒高通量检测试剂盒提供一种梅毒文库靶向探针杂交捕获富集方法，包括以下步骤：

(1)封闭试剂配制

1)取出本发明试剂盒中的Cot-1 DNA Bloker 1、Universal Blocker 2、Oligopool Blocker 3、Oligo pool Blocker 4，室温放置，待平衡至室温后，振荡混匀，简短离心备用。

按照下表比例配制封闭Mix。

2)将配好的封闭试剂混匀后全部加入到混合好的1μg样品文库中，将管盖打一个口径为18-20mm孔。使用真空浓缩仪，在60℃下烘干(不超过1h)反应管中内容物。

(2)杂交反应

1)取出本发明试剂盒中的2×Hybridization Buffer、HybridizationComponent、TP Oligo pool，室温放置，待平衡至室温后，振荡混匀，简短离心备用。按照下表比例配制杂交缓冲液Mix。

2)将配置好的杂交缓冲体系混匀后加入至上一步烘干的反应管中，用封口膜封好，充分涡旋震荡后，12000rpm离心10s。

3)探针池的处理：每管分装3ng TP Oligo pool；在95℃10min，95℃剩余10s的时候取出探针池，立刻置于冰上孵育5min。

4)杂交文库的处理：在探针95℃10min处理8min剩余2min时，处理杂交文库，将其置于金属浴中95℃10min变性DNA，95℃剩余10s的时候取出杂交文库，于室温下12000rpm离心10s。

5)将变性后的文库转至分装TP Oligo pool的0.1mL PCR管中，涡旋3s，12000rpm离心10s，制备杂交反应液。

6)将杂交反应液放入PCR仪中，55℃(热盖温度65℃)杂交16h。

(3)文库洗脱

1)洗涤缓冲液的处理，55℃水浴孵育，按照每个样本需要400μL Stringent WashBuffer和100μL Wash Buffer I进行操作。

2)链霉亲和素磁珠的处理：取出100μL Capture Beads，磁力架吸附弃上清，取200μL 2×Bead Wash Buffer进行洗涤两次，弃上清；最后用100μL 2×Bead Wash Buffer进行重悬。将上述制备的杂交反应液15μL加到重悬的Capture Beads中，混匀后55℃孵育45min。

3)将100μL 55℃预热的Wash Buffer I，加到含有杂交反应液的链霉亲和素磁珠磁珠中，混匀后磁力悬浮弃上清。

4)加入200μL 55℃预热的Stringent Wash Buffer，混匀后55℃孵育5min，磁力架吸附弃上清，重复一次，共二次。

5)加入200μL Wash Buffer I，涡旋2min，磁力悬浮弃上清。

6)加入200μL Wash Buffer II，涡旋1min，磁力悬浮弃上清。

7)加入200μL Wash Buffer III，涡旋30s，磁力悬浮弃上清。

8)加入45μL Nuclease-free water重悬，回收杂交磁珠。

(4)PCR扩增

1)按照下表配制扩增反应液Mix并计算所需反应液的数量(每个文库配制2管)，设计加样表。

2)将配制好的Mix分装至PCR管中(每管30μL)；将杂交磁珠20μL加入至PCR管中。

3)将PCR扩增体系震荡离心，置于PCR仪中，设置如下程序：98℃45s；98℃15s，60℃30s，72℃30s，16个循环；72℃5min，4℃Hold。

(5)文库纯化

1)PCR结束后向样品加入55μL DNA Clean Beads，吸打混匀，室温静置5min；

2)短暂离心，将PCR管置于磁力架上3min待溶液澄清；

3)保持PCR管在磁力架上，移除上清，向PCR管内加入200μL 80％乙醇溶液，静置30s；

4)保持PCR管在磁力架上，移除上清，再次向PCR管内加入200μL 80％乙醇溶液，静置30s，彻底移除上清；

5)室温静置5min，使残留乙醇彻底挥发；

6)加入25μL Nuclease-free water，将PCR管从磁力架取下，吸打混匀，室温静置2min；

7)短暂离心，将PCR管置于磁力架上2min待溶液澄清，吸取23μL上清液转移到1.5mL离心管，标记样品信息。

9)取1μL样品进行片段长度测定，片段相对集中、无游离接头、无接头二聚体、主峰长度约在270-320bp之间。

10)取1μL文库进行Qubit4.0浓度测定，浓度应＞30ng/μL。

(6)二代测序

对梅毒捕获文库，利用illumina高通量测序平台PE150模式测序≥5M reads/sample，得到下机数据。

3.构造模型数据集

3.1.高通量测序数据分析及处理

读取对应样本的下机原始数据，通过fastp(version 0.20.1)软件进行质控，对连续4个碱基质量值小于20的低质量碱基和接头序列进行剪切，对N碱基含量大于等于5的reads进行过滤。

使用序列比对软件hisat2(2.2.1release)将质控后的reads比对到人类参考基因组(GRCh38/hg38)，保留比对不上的非人源reads序列为clean reads。

使用Kraken2(version 2.0.7-beta)软件，对clean reads进行物种鉴定，得出与梅毒序列丰度相关特征因素的统计数据。首先根据RefSeq数据库(https://ftp.ncbi.nih.gov/genomes/refseq)进行本地比对库构建。使用kraken2对把RefSeq数据库中参考序列的全基因组分成大小为K的短片段(K-mer)，片段大小K为小于测序单条reads长度(150bp)的单数，一般可为31bp-141bp，每条K-mer都包含了相应参考序列的物种信息。本实施例中根据软件推荐最佳比对特异性与灵敏度的参数，本地比对库设置为35个碱基长度K-mer。其次将K-mer与clean reads进行匹配，根据匹配得到的K-mer判断clean reads的物种信息。由此我们可以得到clean reads比对上的K-mer数(Kmer)，进一步将所有比对到该物种的K-mer进行去重后可以得到uniqkmer数(Uniqkmer)，并且针对比对结果文件，还可以统计输出clean reads比对上梅毒螺旋体种(T.pallidum)和密螺旋体属(Treponema)的reads数。

基于上述统计得到的数据，标准化不同样本间测序深度的影响，通过公式计算梅毒螺旋体reads的RPM值(RPM)、梅毒螺旋体reads数与密螺旋体菌的reads数的比值(TP_rate)、uniqkmer数与kmer数的比值(UK_rate)，得出与梅毒序列丰度相关特征因素的标准化数据。

需要进行标准化的特征因素值，以样本TP01为例，根据公式1计算其RPM为：

根据公式2计算其TP_rate为：

根据公式3计算其UK_rate为：

便于数据展示，数据集中不显示百分号。

3.2.输出模型数据集

将所述“确诊样本队列”中99例样本的样本名称、测序得到的五个特征因素(RPM、Kmer、Uniqkmer、TP_rate和UK_rate)数据和临床原始诊断结果(阳性为1，阴性为0)，预处理为矩阵格式，构造用于建立决策树模型的数据集(表2)。

表2梅毒确诊样本队列特征因素数据集

4.机器学习模型建立与评估

建立机器学习模型，首先需要对整体数据集按照8:2进行随机分层抽样，分为训练集与测试集，每个子集中临床阴性/阳性标本的比例与原始数据集相似(相差20％以内)。在本实施例中，基于表2的梅毒确诊样本队列特征因素数据集，首先使用Python对99例临床确诊样本队列(48例阳性，51例阴性)随机分层抽样，分为79例训练集(41例阳性，38例阴性)和20例测试集(7例阳性，13例阴性)，样本分类情况备注在表2中。

多因素决策树模型能够选择出最好的数据集划分方式，在树生成过程中，使用基尼(Gini)指数选择最优特征因素，Gini指数就越大，所获得的信息增益越大，输出Gini指数增益值最大的因素作为决策树的根结点，即为最优特征因素。在本实施例中，利用R语言中的par-tykit软件包(V1.2.12)，构建了基于79例训练队列五个特征因素的多因素决策树分析模型，根据软件计算图1，输出了五个特征因素中产生的信息增益最大，即Gini指数最大(Gini＝0.499)的TP_rate作为根结点，因此TP_rate为五个特征因素中的最优特征因素。

通过最优特征因素的具体数据进一步构建决策树分类器模型，其中结点表示一个因素上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。决策树分类器可以选择适当的阈值判断结果，使得对该特征因素所有数据分类的错误率最小。在本实施例中，使用训练集样本表2中的第1、5、7列数据，通过R语言中的par-tykit软件包(V1.2.12)，进一步进行决策树模型建立，输出的图2表示基于结点1的TP_rate因素判断，当训练队列的阴性/阳性区分阈值为0.033时对样本分类的错误率最小：≤0.033预测为阴性的样本分类结果输出为叶结点2，共43例，阴性预测的准确度为0.86(37/43)；＞0.033预测为阳性的样本分类结果输出为叶结点3，共36例，阳性预测的准确度为0.972(35/36)。采用机器学习的决策树模型对训练集数据构建决策树，可以高效地对测试集或其他未知的数据进行分类。

将训练集上已经学习好的决策树模型运用在测试集上评估模型性能。通过绘制的ROC曲线直观地评估模型在阈值下的分类性能，ROC曲线下面积(AUC)可以用来度量分类模型的性能，AUC的取值范围在0到1之间，一般AUC在0.85以上则表示性能很好，AUC值越接近于1，则模型的性能越好。在本实施例中，使用Python的sklearn软件包根据TP_rate因素的阈值0.033以及20例测试集样本表2中的第1、5、7列数据绘制ROC曲线，得到图3的AUC为91.7％(95％CI：80.7％-100.0％)，表明本实施例用训练集构建的决策树模型对测试集样本具有很好的预测分类能力。

最后在总样本中统计得出阈值诊断分类的混淆矩阵，TP：被正确分类的正例样本个数，TN：被正确分类的负例样本个数，FP：被错误分类的阳性例样本个数，FN：被错误分类的阴性例样本个数；并计算特异性(Specificity＝TN/FP+TN)、灵敏度(Sensitivity＝TP/TP+FN)、准确率(Accuracy＝(TP+TN)/(TP+TN+FP+FN))等评价模型临床效用。在本实施例中，20例测试集样本根据TP_rate阈值0.033进行诊断分类的混淆矩阵如表3所示，根据计算，其特异性为92.3％、灵敏度为71.4％、准确率为85％。

表3 20例测试集诊断结果混淆矩阵

	临床阳性	临床阴性	总计
				预测阳性	TP＝5	FP＝1	6
预测阴性	FN＝2	TN＝12	14
				总计	7	13	20

实施例二临床血清固定样本的表型预测

为展示本发明的建立的机器学习模型在非模型队列样本中实测的效果，发明人共收集了93例临床血清固定样本作为疑似样本进行梅毒预测，样本的提取、前处理与测序分析步骤同“确诊样本队列”。样本检测结果如下：

表6梅毒疑似样本检测结果

使用梅毒机器学习模型对临床血清固定样本进行预测，成功检出预测阳性样本20例(阳性率21.5％)，存在持续感染的可能性。为进一步验证本方法的可靠性，我们根据预测值将血清固定样本分为两组，对两组患者中的24例分别进行了再治疗，并在随访期间监测梅毒血清学检查的梅毒滴度(RPR)下降趋势。在预测阳性组中，57.1％(4/7)的患者在12个月内实现了血清学治愈，而在预测阴性组中仅有5.9％(1/17)。两组患者再次治疗后的RPR滴度比较显示出显著差异。

应该理解到披露的本发明不仅仅限于描述的特定的方法、方案和物质，因为这些均可变化。还应理解这里所用的术语仅仅是为了描述特定的实施方式方案的目的，而不是意欲限制本发明的范围，本发明的范围仅受限于所附的权利要求。

本领域的技术人员还将认识到，或者能够确认使用不超过常规实验，在本文中所述的本发明的具体的实施方案的许多等价物。这些等价物也包含在所附的权利要求中。

Claims

1.一种构建梅毒cfDNA高通量测序的机器学习模型方法，其特征在于，所述方法包括以下步骤：

步骤S3，构造模型数据集，包括：

步骤S31，高通量测序数据分析及处理，读取对应样本的二代测序下机原始数据，对连续4个碱基质量值小于20的低质量碱基和接头序列进行剪切，对N碱基含量大于等于5的reads进行过滤，得到质控后的reads；

将质控后的reads比对到人类参考基因组，保留比对不上的非人源reads序列为cleanreads；

对所述clean reads进行物种鉴定，得出与梅毒序列丰度相关特征因素的统计数据；

基于上述统计数据，标准化不同样本间测序深度的影响，得出与梅毒序列丰度相关特征因素的标准化数据；

步骤S4，机器学习模型建立与评估，对上述构造用于建立决策树模型的数据集进行随机分层抽样，分为训练集与测试集，每个子集中临床阴性/阳性标本的比例与原始数据集相差20％以内；

采用机器学习的决策树模型对训练集数据构建决策树，对训练集的数据进行分类；使用多因素决策树模型选择出最好的数据集划分方式，在树生成过程中，使用基尼指数选择最优特征因素，基尼指数就越大，所获得的信息增益越大，输出基尼指数增益值最大的因素作为决策树的根结点，即为最优特征因素；

2.根据权利要求1所述的方法，其特征在于，在步骤S31中，首先根据RefSeq数据库进行本地比对库构建，把RefSeq数据库中梅毒参考序列的全基因组分成大小为K的短片段K-mer，片段大小K为小于测序单条reads长度的单数，每条K-mer都包含了相应参考序列的物种信息；其次将K-mer与clean reads进行匹配，根据匹配得到的K-mer判断clean reads的物种信息；由此得到clean reads比对上的K-mer数Kmer，进一步将所有比对到该物种的K-mer进行去重后可以得到uniqkmer数Uniqkmer，并且针对比对结果文件，还可以统计输出clean reads比对上梅毒螺旋体种T.pallidum的reads数和密螺旋体属Treponema的reads数。

3.根据权利要求2所述的方法，其特征在于，片段大小K为31bp-141bp。

4.根据权利要求2所述的方法，其特征在于，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算梅毒螺旋体reads的RPM值RPM，

5.根据权利要求2所述的方法，其特征在于，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算梅毒螺旋体reads数与密螺旋体菌的reads数的比值TP_rate，

6.根据权利要求2所述的方法，其特征在于，得出与梅毒序列丰度相关特征因素的标准化数据包括，通过公式计算uniqkmer数与kmer数的比值UK_rate，

7.根据权利要求1所述的方法，其特征在于，步骤S4中，利用R语言中的par-tykit软件包构建了基于训练队列五个特征因素的多因素决策树分析模型。

8.根据权利要求1所述的方法，其特征在于，步骤S4中，通过绘制的ROC曲线直观地评估模型在阈值下的分类性能，ROC曲线下面积AUC用来度量分类模型的性能。

9.根据权利要求1所述的方法，其特征在于，步骤S4中，在总样本中统计得出阈值诊断分类的混淆矩阵，TP：被正确分类的阳性样本个数，TN：被正确分类的阴性样本个数，FP：被错误分类的阳性样本个数，FN：被错误分类的阴性样本个数；并计算特异性Specificity＝TN/FP+TN、灵敏度Sensitivity＝TP/TP+FN、准确率Accuracy＝(TP+TN)/(TP+TN+FP+FN)。