CN114822682B

CN114822682B - 与早发型重度子痫前期发生相关的基因组合及其应用

Info

Publication number: CN114822682B
Application number: CN202210382669.6A
Authority: CN
Inventors: 王挺; 邢彦如; 乔龙威; 廖正丽; 李红; 孔令印; 朱利平; 梁波; 陈萍; 吴晓; 薛莹
Original assignee: Suzhou Basecare Medical Device Co ltd; Suzhou Municipal Hospital
Current assignee: Suzhou Basecare Medical Device Co ltd; Suzhou Municipal Hospital
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2023-07-21
Anticipated expiration: 2042-04-12
Also published as: CN114822682A

Abstract

本发明公开一种与早发型重度子痫前期发生相关的靶标基因组合及其应用。所述靶标基因组合包括SNORD14C、ASPA、ARL13A、TRIM69、LINC01338、FIBIN、F8A2、MRPL20、BRF1、ZNF407‑AS1、BVES、TFDP1、COL4A4、ANKRD36BP2、DUS3L、ADCY1、KIF26A、SLC12A2、KLF4、CHKA和KIF26B。本发明发现早发型重度先兆子痫前期患者与健康孕妇血浆游离DNA部分基因的TSS特征存在显著差异，对TSS特征进行标准化和离散化后结合孕妇孕周信息，使用机器学习算法，构建的预测模型能够有效的预测早发型重度先兆子痫前期的发病风险。

Description

与早发型重度子痫前期发生相关的基因组合及其应用

技术领域

本发明属于生物技术领域，涉及与早发型重度子痫前期发生相关的基因组合及其应用。

背景技术

重度子痫前期(severe pre-eclampsia)是一种多因素的、累积多系统的产科并发症，会导致孕妇和胎儿病死率增高，其中以发生在24至34周之间的早发型重度子痫前期(early onset severe pre-eclampsia)尤为严重，目前唯一的治愈方法是终止妊娠。早发型重度子痫患者发病早、进展迅速、靶器官损害出现早且症状重，需进行必要的治疗、待胎儿成熟后再终止妊娠。对孕期状态进行预测，及早发现重度子痫前期高危人群并干预，如补钙和小剂量阿司匹林等，不仅可以减缓疾病进展，还可降低胎儿发生宫内生长受限的机率，显著降低母子不良妊娠结局。

当前，早发型重症子痫前期的风险评估多基于流行病史、平均动脉压(MAP)以及胎盘相关的分子标志物等。流行病学相关危险因素(主要包括早发型重症子痫前期病史、初产及年龄大于40岁和/或妊娠间隔大于10年等)及平均动脉压对早发型重症子痫前期的预测效能有限，而基于胎盘相关的分子标志物，如血管生成因子(sFlt-1)和血管生成因子(PlGF)的比值对于子痫前期具有较高的阴性预测价值，但中国人群的研究表明，阴性预测效果明显，但其阳性预测值都不高。由于疾病发病机制的复杂性，目前尚无一种指标或几种指标联合用于早发型重症子痫前期的早期临床预测。因此，寻找有效的早期分子标志物成为早发型重症子痫前期临床诊疗的关键问题。

研究发现外周血游离DNA在基因转录起始位点区域的分布情况能够表征基因的转录情况，血清游离DNA丰度在先兆子痫患者与健康孕妇中存在显著差异；如CN110305954A公开了一种早期准确检测先兆子痫的预测模型，发现外周血游离DNA在基因转录起始位点区域的分布情况能够反应孕妇与胎儿的生理状态，基于基因转录起始位点区域的血清游离DNA丰度在先兆子痫患者与健康孕妇中存在显著差异，对游离DNA丰度进行均一化校正后，使用机器学习算法，通过不同差异基因的优选组合，能够有效预测先兆子痫的发病，但该方法并没有对先兆子痫的亚型进行具体区分，无法判断其在早发型重度先兆子痫前期患者的情况。

综上所述，如何提供一种对先兆子痫的亚型进行具体区分的方法，是先兆子痫检测领域亟需解决问题之一。

发明内容

针对现有技术的不足和实际需求，本发明提供与早发型重度子痫前期发生相关的基因组合及其应用，利用所述靶标基因组合结合特殊设计的分析策略构建预测模型，能够有效对先兆子痫的亚型进行具体区分，预测早发型重度先兆子痫前期患病风险，提供是一种相对无创、经济方便且具备高准确性的早发型重度子痫前期预测的方法。

为达上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种与早发型重度子痫前期发生相关的靶标基因组合，所述靶标基因组合包括SNORD14C、ASPA、ARL13A、TRIM69、LINC01338、FIBIN、F8A2、MRPL20、BRF1、ZNF407-AS1、BVES、TFDP1、COL4A4、ANKRD36BP2、DUS3L、ADCY1、KIF26A、SLC12A2、KLF4、CHKA和KIF26B。

本发明对外周血游离DNA进行深入分析，发现外周血游离DNA在某些基因转录起始位点区域(Transcript Start Site,TSS)的分布情况在早发型重度先兆子痫和健康对照组存在差异，并筛选一种与早发型重度子痫前期发生相关的靶标基因组合，可有效作为筛查早发型重度子痫前期的标志物。

第二方面，本发明提供第一方面所述的与早发型重度子痫前期发生相关的靶标基因组合在作为筛查早发型重度子痫前期的标志物方面的应用。

第三方面，本发明提供第一方面所述的与早发型重度子痫前期发生相关的靶标基因组合在制备早发型重度子痫前期筛查产品中的应用。

第四方面，本发明提供一种用于早发型重度子痫前期检测的系统，所述用于早发型重度子痫前期检测的系统包括：

样本分析模块：将样本测序数据比对到参考基因组上并获取每个基因的转录起始位点区域覆盖情况；

筛选特征模块：筛选预测早发型重度先兆子痫前期的特征基因；

构建模型模块：构建预测早发型重度先兆子痫前期的模型；

计算模块：利用预测早发型重度先兆子痫前期的模型计算样本患早发型重度先兆子痫前期的概率；

所述特征基因为第一方面所述的与早发型重度子痫前期发生相关的靶标基因组合。

本发明基于外周血游离DNA高通量测序中基因转录起始位点及附近区域特征，对游离DNA TSS特征进行均一化校正后，利用与早发型重度子痫前期发生相关的靶标基因组合和孕周，使用机器学习方法构建预测模型，预测效果接收者操作特征曲线(ReceiverOperating characteristic Curve,ROC)中的曲线下面积(Area Under the Curve,AUC)达到0.9以上，预测准确性远优于当前早发型重度先兆子痫前期风险预测方法。

优选地，所述样本分析模块用于进行包括如下的操作：

(1-1)获取样本的高通量测序原始数据与参考基因组进行比对，并按照染色体进行排序；

(1-2)对比对的结果进行去重复；

(1-3)统计每个基因的转录起始位点区域的覆盖深度，对每个转录起始位点区域的覆盖深度加和得到每个基因的TSS_depth；

(1-4)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征；

TSS_i _normalized＝TSS_i _depth/total TSS_depth×10⁶ 公式(1)

其中，TSS_i _normalized为基因i的转录起始位点区域的特征，TSS_i _depth为基因i的转录起始位点区域的覆盖深度，total TSS_depth为所有基因的转录起始位点区域的覆盖深度加和。

优选地，所述样本包括血浆游离DNA。

优选地，所述转录起始位点区域的大小为转录起始位点上下游1kb。

优选地，所述筛选特征模块包括：

(2-1)将早发型重度先兆子痫前期患者和正常孕妇按照孕周进行匹配，使用差异分析软件寻找两组样本转录起始位点区域有显著差异的基因；

(2-2)使用最小绝对值收敛和选择算子对(2-1)差异基因筛选，得到预测模型的特征基因。

优选地，所述构建模型模块用于进行包括如下的操作：

(3-1)获取最佳截断值：按照公式(2)计算特征基因区分对照组和疾病组的最佳截断值best cut-off；

best cut-off＝max(sensitivity+specificity) 公式(2)；

其中，max(sensitivity+specificity)表示灵敏性(sensitivity)和特异性(specificity)加和的最大值；

(3-2)特征基因离散化：按照最佳截断值根据公式(3)将训练集样本中特征基因的转录起始位点TSS_{i normalized}进行离散化转化为0或1；

公式(3)：

TSS_i＝0，TSS_{i normalized}＞＝best cut-off；

TSS_i＝1，TSS_{i normalized}＜best cut-off；

其中，TSS_i为基因i最终离散化后的特征值；

(3-3)构建模型：使用机器学习的方法构建预测早发型重度先兆子痫前期的模型。

优选地，所述机器学习的方法包括贝叶斯统计、随机森林、支持向量机或广义线性模型中的任意一种。

优选地，(3-3)还包括使用10次交叉验证的方法对模型参数进行优化。

本发明中，预测模型使用R语言caret包进行构建，具体代码如下所述，其中trainx为训练集样本21个特征基因离散化后的结果和样本的孕周信息，trainy为训练集样本的患病结局，最终得到的模型有rf.model，svmLinear.model，naive_bayes.model和svmRadialWeights.model，代码为：

subsetSizes＝c(1：length(trainx))

seeds＜-veCtor(mode＝″list″，length＝51)

for(i in 1:50)seeds[[i]]<-sample.int(1000,length(subsetSizes)+1)seeds[[51]]<-sample.int(1000,1)

control＝trainControl(

method＝"repeatedcv",

number＝10,

repeats＝5,

p＝0.75,

search＝"grid",

initialWindow＝NULL,

horizon＝1,

fixedWindow＝TRUE,

skip＝0,

verboseIter＝FALSE,

returnData＝TRUE,

returnResamp＝"final",

savePredictions＝TRUE,

classProbs＝TRUE,

summaryFunction＝twoClassSummary,

selectionFunction＝"best",

preProcOptions＝list(thresh＝0.95,ICAcomp＝3,k＝5,freqCut＝95/5,uniqueCut＝10,cutoff＝0.9),

sampling＝NULL,

index＝NULL,

indexOut＝NULL,

indexFinal＝NULL,

timingSamps＝0,

predictionBounds＝rep(FALSE,2),

seeds＝seeds,

adaptive＝list(min＝5,alpha＝0.05,method＝"gls",complete＝TRUE),

trim＝FALSE,

allowParallel＝TRUE

)

rf.model<-train(trainx,trainy,method＝"rf",

metric＝"ROC",trControl＝control)

svmLinear.model<-train(trainx,trainy,method＝"svmLinear",

metric＝"ROC",trControl＝control)

naive_bayes.model<-train(trainx,trainy,method＝"naive_bayes",

metric＝"ROC",trControl＝control)

svmRadialWeights.model<-train(trainx,trainy,method＝"svmRadialWeights",metric＝"ROC",trControl＝control)。

优选地，所述计算模块用于进行包括如下的操作：

将特征基因离散化后的结果和孕周输入预测早发型重度先兆子痫前期的模型得到样本患早发型重度先兆子痫前期的概率。

作为优选的技术方案，所述用于早发型重度子痫前期检测的系统包括：

(1)样本分析模块，用于进行包括如下的操作：

(1-2)对比对的结果进行去重复；

TSS_i _normalized＝TSS_i _depth/total TSS_depth×10⁶ 公式(1)

其中，TSS_i _normalized为基因i的转录起始位点区域的特征，TSS_i _depth为基因i的转录起始位点区域的覆盖深度，total TSS_depth为所有基因的转录起始位点区域的覆盖深度加和；

(2)筛选特征模块，用于进行包括如下的操作：

(2-2)使用最小绝对值收敛和选择算子对(2-1)差异基因筛选，得到预测模型的特征基因；

(3)构建模型模块，用于进行包括如下的操作：

best cut-off ＝ max(sensitivity + specificity) 公式(2)

(3-2)特征基因离散化：按照最佳截断值根据公式(3)将训练集样本特征基因的转录起始位点TSS_{i normalized}进行离散化转化为0或1；

公式(3)：

TSS_i＝0，TSS_{i normalized}＞＝best cut-off；

TSS_i＝1，TSS_{i normalized}＜best cut-off；

(3-3)构建模型：使用机器学习的方法构建预测早发型重度先兆子痫前期的模型；

(4)计算模块，用于进行包括如下的操作：将(3-2)特征基因离散化后的结果和孕周输入预测早发型重度先兆子痫前期的模型得到样本患早发型重度先兆子痫前期的概率。

优选地，样本患早发型重度先兆子痫前期的概率大于等于0.5，则判断样本为早发型重度子痫前期高危，样本患早发型重度先兆子痫前期的概率小于0.5，则判断样本为早发型重度子痫前期低危。

与现有技术相比本发明具有以下有益效果：

(1)本发明筛选一种与早发型重度子痫前期发生相关的靶标基因组合，基因组合的TSS特征在患者与健康孕妇中存在显著差异，可有效作为筛查早发型重度子痫前期的标志物；

(2)本发明对游离DNA TSS特征进行均一化校正后，利用与早发型重度子痫前期发生相关的靶标基因组合和孕妇的孕周信息，使用机器学习方法构建预测模型，预测效果接收者操作特征曲线(Receiver Operating characteristic Curve，ROC)中的曲线下面积(Area Under the Curve，AUC)达到0.9以上，预测准确性远优于当前早发型重度先兆子痫前期风险预测方法。

附图说明

图1为本发明分析流程图；

图2为孕15周疾病和对照的差异基因热图；

图3为孕20周疾病和对照的差异基因热图；

图4为使用Lasso算法筛选得到的最终特征值及其系数图；

图5为基于21个特征和孕周构建的模型在训练集中的效果图；

图6为基于21个特征和孕周构建的模型在验证集中的效果图。

具体实施方式

为进一步阐述本发明所采取的技术手段及其效果，以下结合实施例和附图对本发明作进一步地说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本发明，而非对本发明的限定。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件，或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可通过正规渠道商购获得的常规产品。

本发明实施例中提供一种在基于血浆游离DNA的TSS特征预测早发型重度先兆子痫前期的模型，完整分析流程图如图1所示。

实施例1

本实施例构建预测早发型重度先兆子痫前期的模型。

1、血浆样本的获取

在本实施例中，以71例已确诊为早发型重度先兆子痫前期孕妇的发病前外周血样本和75例健康孕妇外周血样本进行对照研究，提取外周血中血浆游离DNA，对两种样本的血浆游离DNA进行高通量双端测序，基因组的平均测序深度达到4×以上。

2、血浆游离DNA的分析

在进行血浆游离DNA高通量测序后，将序列与人类基因组标准序列hg19比对，确定每条序列在人类基因组染色体上的位置，对每个基因TSS上下游1kb的覆盖深度加和得到每个基因TSS_depth，将每个基因的TSS按照下述公式(1)进行标准化得到每个基因TSS的特征。

TSS_{i normalized}＝TSS_{i depth}/total TSS_depth×10⁶ 公式(1)。

3、预测早发型重度先兆子痫前期的特征筛选

将早发型重度先兆子痫前期样本和对照组样本按照孕周进行匹配，分别在孕15周和孕20周使用差异分析软件(DEseq2)找到两组样本TSS特征显著差异的基因，孕15周疾病和对照的差异基因热图如图2所示，孕20周疾病和对照的差异基因热图如图2所示，使用Lasso算法将上述找到的差异基因进一步筛选，得到最终21个基因纳入预测模型的特征，结果如图4所示。

4、预测早发型重度先兆子痫前期的模型构建

(1)挑选57例早发型重度先兆子痫前期的血浆样本以及60例对照样本(健康)作为训练集，在训练集的样本中，按照公式(2)计算上述找到的每个特征区分对照组和疾病组的最佳截断值。

(2)按照最佳截断值将训练集样本特征基因的TSS_{i normalized}进行离散化。具体公式见公式(3)。

公式(3)：

TSS_i＝0，TSS_{i normlized}＞＝best cut-off；

TSS_i＝1，TSS_{i normalized}＜best cut-off。

(3)使用机器学习的方法，包括贝叶斯统计(naive_bayes)、随机森林(rf)和支持向量机(svmLinear，svmRadialWeights)在训练集中基于上述的确认的特征和孕周构建预测模型，并使用10次交叉验证的方法对模型参数进行优化，确认最终预测模型，基于预测效果接收者操作特征曲线(Receiver Operating characteristic Curve,ROC)，计算模型在训练集的AUC，结果如图5所示，naive_bayes构建的模型AUC达到0.93，rf构建的模型AUC达到1.00，svmLinear构建的模型AUC达到0.93，svmRadialWeights构建的模型AUC达到0.95，四种模型在训练集的AUC都高达0.9以上。

其中模型构建使用R语言caret包进行构建，具体代码如下所述，其中trainx为训练集样本21个特征基因离散化后的结果和样本的孕周信息，trainy为训练集样本的患病结局，最终得到的模型有rf.model，svmLinear.model，naive_bayes.model和svmRadialWeights.model。代码为：

subsetSizes＝c(1:length(trainx))

seeds<-vector(mode＝"list",length＝51)

for(i in 1:50)seeds[[i]]<-sample.int(1000,length(subsetSizes)+1)

seeds[[51]]<-sample.int(1000,1)

control＝trainControl(

method＝"repeatedcv",

number＝10,

repeats＝5,

p＝0.75,

search＝"grid",

initialWindow＝NULL,

horizon＝1,

fixedWindow＝TRUE,

skip＝0,

verboseIter＝FALSE,

returnData＝TRUE,

returnResamp＝"final",

savePredictions＝TRUE,

classProbs＝TRUE,

summaryFunction＝twoClassSummary,

selectionFunction＝"best",

preProcOptions＝list(thresh＝0.95,ICAcomp＝3,k＝5,freqCut＝95/5,

uniqueCut＝10,cutoff＝0.9),

sampling＝NULL,

index＝NULL,

indexOut＝NULL,

indexFinal＝NULL,

timingSamps＝0,

predictionBounds＝rep(FALSE,2),

seeds＝seeds,

adaptive＝list(min＝5,alpha＝0.05,method＝"gls",complete＝TRUE),

trim＝FALSE,

allowParallel＝TRUE

)

rf.model<-train(trainx,trainy,method＝"rf",

metric＝"ROC",trControl＝control)

svmLinear.model<-train(trainx,trainy,method＝"svmLinear",

metric＝"ROC",trControl＝control)

naive_bayes.model<-train(trainx,trainy,method＝"naive_bayes",

metric＝"ROC",trControl＝control)

svmRadialWeights.model<-train(trainx,trainy,method＝"svmRadialWeights",

metric＝"ROC",trControl＝control)。

实施例2

以14例早发型重度先兆子痫前期的血浆样本以及15例健康对照样本验证实施例1所构建模型的效果。

1、血浆样本获取和血浆游离DNA的分析的步骤同实施例1。

2、提取每例样本实施例1中获得的21个基因的TSS特征，按照实施例一在训练集中所确定的最佳截断值，按照公式(3)将测试集样本特征基因的TSS_{i normalized}进行离散化。离散化后的特征和孕周作为输入使用实施例1中构建的模型预测样本患早发型重度先兆子痫前期的概率。

3、计算模型在验证集中预测早发型重度先兆子痫前期的效果，基于预测效果接收者操作特征曲线(Receiver Operating characteristic Curve,ROC)，计算模型在验证集的曲线下面积(Area Under the Curve,AUC)，结果如图6所示，naive_bayes构建的模型AUC达到0.97，rf构建的模型AUC达到0.90，svmLinear构建的模型AUC达到0.94，svmRadialWeights构建的模型AUC达到0.92，四种模型在验证集的AUC都高达0.9以上。

综上所述，本发明发现，虽然早发型重度先兆子痫前期患者在怀孕15～20周尚未出现临床症状，但此时患者与健康孕妇血浆游离DNA部分基因的TSS特征在患者与健康孕妇中存在显著差异，对TSS特征进行标准化和离散化后结合孕妇孕周信息，使用机器学习算法，通过对疾病样本和健康样本的孕周进行匹配，筛选出15周和20周疾病样本和健康样本显著差异的基因组合，以此为基础构建的预测模型能够有效预测早发型重度先兆子痫前期的发病，所述模型基于孕15周和孕20周孕妇血浆游离DNA高通量测序结果中TSS特征差异，预测的早发型重度先兆子痫前期的发病风险，可应用于早发型重度先兆子痫前期筛查预测相关产品开发。

申请人声明，本发明通过上述实施例来说明本发明的详细方法，但本发明并不局限于上述详细方法，即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了，对本发明的任何改进，对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等，均落在本发明的保护范围和公开范围之内。

Claims

1.一种用于早发型重度子痫前期检测的系统，其特征在于，所述用于早发型重度子痫前期检测的系统包括：

构建模型模块：构建预测早发型重度先兆子痫前期的模型；

所述特征基因包括SNORD14C、ASPA、ARL13A、TRIM69、LINC01338、FIBIN、F8A2、MRPL20、BRF1、ZNF407-AS1、BVES、TFDP1、COL4A4、ANKRD36BP2、DUS3L、ADCY1、KIF26A、SLC12A2、KLF4、CHKA和KIF26B；

所述样本分析模块用于进行包括如下的操作：

(1-2)对比对的结果进行去重复；

TSS_{i normalized}＝TSS_{i depth}/total TSS_depth×10⁶ 公式(1)

其中，TSS_{i normalized}为基因i的转录起始位点区域的特征，TSS_{i depth}为基因i的转录起始位点区域的覆盖深度，total TSS_depth为所有基因的转录起始位点区域的覆盖深度加和；

所述样本包括血浆游离DNA；

所述转录起始位点区域的大小为转录起始位点上下游1kb；

所述筛选特征模块用于进行包括如下的操作：

所述构建模型模块用于进行包括如下的操作：

best cut-off＝max(sensitivity+specificity) 公式(2)；

其中，max(sensitivity+specificity)表示灵敏性sensitivity和特异性specificity加和的最大值；

(3-2)特征基因离散化：按照最佳截断值根据公式(3)将训练集样本中基因i的转录起始位点区域的特征TSS_{i normalized}进行离散化转化为0或1；

公式(3)：

TSS_i＝0，TSS_{i normalized}＞＝best cut-off；

TSS_i＝1，TSS_{i normalized}＜best cut-off；

其中，TSS_i为基因i最终离散化后的特征值；

(3-3)构建模型：使用机器学习的方法基于特征基因和孕周构建预测早发型重度先兆子痫前期的模型；

所述计算模块用于进行包括如下的操作：

2.根据权利要求1所述的用于早发型重度子痫前期检测的系统，其特征在于，所述机器学习的方法包括贝叶斯统计、随机森林、支持向量机或广义线性模型中的任意一种。

3.根据权利要求1所述的用于早发型重度子痫前期检测的系统，其特征在于，(3-3)还包括使用10次交叉验证的方法对模型参数进行优化。

4.根据权利要求1所述的用于早发型重度子痫前期检测的系统，其特征在于，样本患早发型重度先兆子痫前期的概率大于等于0.5，则判断样本为早发型重度子痫前期高危，样本患早发型重度先兆子痫前期的概率小于0.5，则判断样本为早发型重度子痫前期低危。