CN114822682B - 与早发型重度子痫前期发生相关的基因组合及其应用 - Google Patents
与早发型重度子痫前期发生相关的基因组合及其应用 Download PDFInfo
- Publication number
- CN114822682B CN114822682B CN202210382669.6A CN202210382669A CN114822682B CN 114822682 B CN114822682 B CN 114822682B CN 202210382669 A CN202210382669 A CN 202210382669A CN 114822682 B CN114822682 B CN 114822682B
- Authority
- CN
- China
- Prior art keywords
- early
- tss
- gene
- sample
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/166—Oligonucleotides used as internal standards, controls or normalisation probes
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Organic Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Zoology (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种与早发型重度子痫前期发生相关的靶标基因组合及其应用。所述靶标基因组合包括SNORD14C、ASPA、ARL13A、TRIM69、LINC01338、FIBIN、F8A2、MRPL20、BRF1、ZNF407‑AS1、BVES、TFDP1、COL4A4、ANKRD36BP2、DUS3L、ADCY1、KIF26A、SLC12A2、KLF4、CHKA和KIF26B。本发明发现早发型重度先兆子痫前期患者与健康孕妇血浆游离DNA部分基因的TSS特征存在显著差异,对TSS特征进行标准化和离散化后结合孕妇孕周信息,使用机器学习算法,构建的预测模型能够有效的预测早发型重度先兆子痫前期的发病风险。
Description
技术领域
本发明属于生物技术领域,涉及与早发型重度子痫前期发生相关的基因组合及其应用。
背景技术
重度子痫前期(severe pre-eclampsia)是一种多因素的、累积多系统的产科并发症,会导致孕妇和胎儿病死率增高,其中以发生在24至34周之间的早发型重度子痫前期(early onset severe pre-eclampsia)尤为严重,目前唯一的治愈方法是终止妊娠。早发型重度子痫患者发病早、进展迅速、靶器官损害出现早且症状重,需进行必要的治疗、待胎儿成熟后再终止妊娠。对孕期状态进行预测,及早发现重度子痫前期高危人群并干预,如补钙和小剂量阿司匹林等,不仅可以减缓疾病进展,还可降低胎儿发生宫内生长受限的机率,显著降低母子不良妊娠结局。
当前,早发型重症子痫前期的风险评估多基于流行病史、平均动脉压(MAP)以及胎盘相关的分子标志物等。流行病学相关危险因素(主要包括早发型重症子痫前期病史、初产及年龄大于40岁和/或妊娠间隔大于10年等)及平均动脉压对早发型重症子痫前期的预测效能有限,而基于胎盘相关的分子标志物,如血管生成因子(sFlt-1)和血管生成因子(PlGF)的比值对于子痫前期具有较高的阴性预测价值,但中国人群的研究表明,阴性预测效果明显,但其阳性预测值都不高。由于疾病发病机制的复杂性,目前尚无一种指标或几种指标联合用于早发型重症子痫前期的早期临床预测。因此,寻找有效的早期分子标志物成为早发型重症子痫前期临床诊疗的关键问题。
研究发现外周血游离DNA在基因转录起始位点区域的分布情况能够表征基因的转录情况,血清游离DNA丰度在先兆子痫患者与健康孕妇中存在显著差异;如CN110305954A公开了一种早期准确检测先兆子痫的预测模型,发现外周血游离DNA在基因转录起始位点区域的分布情况能够反应孕妇与胎儿的生理状态,基于基因转录起始位点区域的血清游离DNA丰度在先兆子痫患者与健康孕妇中存在显著差异,对游离DNA丰度进行均一化校正后,使用机器学习算法,通过不同差异基因的优选组合,能够有效预测先兆子痫的发病,但该方法并没有对先兆子痫的亚型进行具体区分,无法判断其在早发型重度先兆子痫前期患者的情况。
综上所述,如何提供一种对先兆子痫的亚型进行具体区分的方法,是先兆子痫检测领域亟需解决问题之一。
发明内容
针对现有技术的不足和实际需求,本发明提供与早发型重度子痫前期发生相关的基因组合及其应用,利用所述靶标基因组合结合特殊设计的分析策略构建预测模型,能够有效对先兆子痫的亚型进行具体区分,预测早发型重度先兆子痫前期患病风险,提供是一种相对无创、经济方便且具备高准确性的早发型重度子痫前期预测的方法。
为达上述目的,本发明采用以下技术方案:
第一方面,本发明提供一种与早发型重度子痫前期发生相关的靶标基因组合,所述靶标基因组合包括SNORD14C、ASPA、ARL13A、TRIM69、LINC01338、FIBIN、F8A2、MRPL20、BRF1、ZNF407-AS1、BVES、TFDP1、COL4A4、ANKRD36BP2、DUS3L、ADCY1、KIF26A、SLC12A2、KLF4、CHKA和KIF26B。
本发明对外周血游离DNA进行深入分析,发现外周血游离DNA在某些基因转录起始位点区域(Transcript Start Site,TSS)的分布情况在早发型重度先兆子痫和健康对照组存在差异,并筛选一种与早发型重度子痫前期发生相关的靶标基因组合,可有效作为筛查早发型重度子痫前期的标志物。
第二方面,本发明提供第一方面所述的与早发型重度子痫前期发生相关的靶标基因组合在作为筛查早发型重度子痫前期的标志物方面的应用。
第三方面,本发明提供第一方面所述的与早发型重度子痫前期发生相关的靶标基因组合在制备早发型重度子痫前期筛查产品中的应用。
第四方面,本发明提供一种用于早发型重度子痫前期检测的系统,所述用于早发型重度子痫前期检测的系统包括:
样本分析模块:将样本测序数据比对到参考基因组上并获取每个基因的转录起始位点区域覆盖情况;
筛选特征模块:筛选预测早发型重度先兆子痫前期的特征基因;
构建模型模块:构建预测早发型重度先兆子痫前期的模型;
计算模块:利用预测早发型重度先兆子痫前期的模型计算样本患早发型重度先兆子痫前期的概率;
所述特征基因为第一方面所述的与早发型重度子痫前期发生相关的靶标基因组合。
本发明基于外周血游离DNA高通量测序中基因转录起始位点及附近区域特征,对游离DNA TSS特征进行均一化校正后,利用与早发型重度子痫前期发生相关的靶标基因组合和孕周,使用机器学习方法构建预测模型,预测效果接收者操作特征曲线(ReceiverOperating characteristic Curve,ROC)中的曲线下面积(Area Under the Curve,AUC)达到0.9以上,预测准确性远优于当前早发型重度先兆子痫前期风险预测方法。
优选地,所述样本分析模块用于进行包括如下的操作:
(1-1)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(1-2)对比对的结果进行去重复;
(1-3)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的TSSdepth;
(1-4)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
TSSi normalized=TSSi depth/total TSSdepth×106 公式(1)
其中,TSSi normalized为基因i的转录起始位点区域的特征,TSSi depth为基因i的转录起始位点区域的覆盖深度,total TSSdepth为所有基因的转录起始位点区域的覆盖深度加和。
优选地,所述样本包括血浆游离DNA。
优选地,所述转录起始位点区域的大小为转录起始位点上下游1kb。
优选地,所述筛选特征模块包括:
(2-1)将早发型重度先兆子痫前期患者和正常孕妇按照孕周进行匹配,使用差异分析软件寻找两组样本转录起始位点区域有显著差异的基因;
(2-2)使用最小绝对值收敛和选择算子对(2-1)差异基因筛选,得到预测模型的特征基因。
优选地,所述构建模型模块用于进行包括如下的操作:
(3-1)获取最佳截断值:按照公式(2)计算特征基因区分对照组和疾病组的最佳截断值best cut-off;
best cut-off=max(sensitivity+specificity) 公式(2);
其中,max(sensitivity+specificity)表示灵敏性(sensitivity)和特异性(specificity)加和的最大值;
(3-2)特征基因离散化:按照最佳截断值根据公式(3)将训练集样本中特征基因的转录起始位点TSSi normalized进行离散化转化为0或1;
公式(3):
TSSi=0,TSSi normalized>=best cut-off;
TSSi=1,TSSi normalized<best cut-off;
其中,TSSi为基因i最终离散化后的特征值;
(3-3)构建模型:使用机器学习的方法构建预测早发型重度先兆子痫前期的模型。
优选地,所述机器学习的方法包括贝叶斯统计、随机森林、支持向量机或广义线性模型中的任意一种。
优选地,(3-3)还包括使用10次交叉验证的方法对模型参数进行优化。
本发明中,预测模型使用R语言caret包进行构建,具体代码如下所述,其中trainx为训练集样本21个特征基因离散化后的结果和样本的孕周信息,trainy为训练集样本的患病结局,最终得到的模型有rf.model,svmLinear.model,naive_bayes.model和svmRadialWeights.model,代码为:
subsetSizes=c(1:length(trainx))
seeds<-veCtor(mode=″list″,length=51)
for(i in 1:50)seeds[[i]]<-sample.int(1000,length(subsetSizes)+1)seeds[[51]]<-sample.int(1000,1)
control=trainControl(
method="repeatedcv",
number=10,
repeats=5,
p=0.75,
search="grid",
initialWindow=NULL,
horizon=1,
fixedWindow=TRUE,
skip=0,
verboseIter=FALSE,
returnData=TRUE,
returnResamp="final",
savePredictions=TRUE,
classProbs=TRUE,
summaryFunction=twoClassSummary,
selectionFunction="best",
preProcOptions=list(thresh=0.95,ICAcomp=3,k=5,freqCut=95/5,uniqueCut=10,cutoff=0.9),
sampling=NULL,
index=NULL,
indexOut=NULL,
indexFinal=NULL,
timingSamps=0,
predictionBounds=rep(FALSE,2),
seeds=seeds,
adaptive=list(min=5,alpha=0.05,method="gls",complete=TRUE),
trim=FALSE,
allowParallel=TRUE
)
rf.model<-train(trainx,trainy,method="rf",
metric="ROC",trControl=control)
svmLinear.model<-train(trainx,trainy,method="svmLinear",
metric="ROC",trControl=control)
naive_bayes.model<-train(trainx,trainy,method="naive_bayes",
metric="ROC",trControl=control)
svmRadialWeights.model<-train(trainx,trainy,method="svmRadialWeights",metric="ROC",trControl=control)。
优选地,所述计算模块用于进行包括如下的操作:
将特征基因离散化后的结果和孕周输入预测早发型重度先兆子痫前期的模型得到样本患早发型重度先兆子痫前期的概率。
作为优选的技术方案,所述用于早发型重度子痫前期检测的系统包括:
(1)样本分析模块,用于进行包括如下的操作:
(1-1)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(1-2)对比对的结果进行去重复;
(1-3)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的TSSdepth;
(1-4)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
TSSi normalized=TSSi depth/total TSSdepth×106 公式(1)
其中,TSSi normalized为基因i的转录起始位点区域的特征,TSSi depth为基因i的转录起始位点区域的覆盖深度,total TSSdepth为所有基因的转录起始位点区域的覆盖深度加和;
(2)筛选特征模块,用于进行包括如下的操作:
(2-1)将早发型重度先兆子痫前期患者和正常孕妇按照孕周进行匹配,使用差异分析软件寻找两组样本转录起始位点区域有显著差异的基因;
(2-2)使用最小绝对值收敛和选择算子对(2-1)差异基因筛选,得到预测模型的特征基因;
(3)构建模型模块,用于进行包括如下的操作:
(3-1)获取最佳截断值:按照公式(2)计算特征基因区分对照组和疾病组的最佳截断值best cut-off;
best cut-off = max(sensitivity + specificity) 公式(2)
(3-2)特征基因离散化:按照最佳截断值根据公式(3)将训练集样本特征基因的转录起始位点TSSi normalized进行离散化转化为0或1;
公式(3):
TSSi=0,TSSi normalized>=best cut-off;
TSSi=1,TSSi normalized<best cut-off;
(3-3)构建模型:使用机器学习的方法构建预测早发型重度先兆子痫前期的模型;
(4)计算模块,用于进行包括如下的操作:将(3-2)特征基因离散化后的结果和孕周输入预测早发型重度先兆子痫前期的模型得到样本患早发型重度先兆子痫前期的概率。
优选地,样本患早发型重度先兆子痫前期的概率大于等于0.5,则判断样本为早发型重度子痫前期高危,样本患早发型重度先兆子痫前期的概率小于0.5,则判断样本为早发型重度子痫前期低危。
与现有技术相比本发明具有以下有益效果:
(1)本发明筛选一种与早发型重度子痫前期发生相关的靶标基因组合,基因组合的TSS特征在患者与健康孕妇中存在显著差异,可有效作为筛查早发型重度子痫前期的标志物;
(2)本发明对游离DNA TSS特征进行均一化校正后,利用与早发型重度子痫前期发生相关的靶标基因组合和孕妇的孕周信息,使用机器学习方法构建预测模型,预测效果接收者操作特征曲线(Receiver Operating characteristic Curve,ROC)中的曲线下面积(Area Under the Curve,AUC)达到0.9以上,预测准确性远优于当前早发型重度先兆子痫前期风险预测方法。
附图说明
图1为本发明分析流程图;
图2为孕15周疾病和对照的差异基因热图;
图3为孕20周疾病和对照的差异基因热图;
图4为使用Lasso算法筛选得到的最终特征值及其系数图;
图5为基于21个特征和孕周构建的模型在训练集中的效果图;
图6为基于21个特征和孕周构建的模型在验证集中的效果图。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
本发明实施例中提供一种在基于血浆游离DNA的TSS特征预测早发型重度先兆子痫前期的模型,完整分析流程图如图1所示。
实施例1
本实施例构建预测早发型重度先兆子痫前期的模型。
1、血浆样本的获取
在本实施例中,以71例已确诊为早发型重度先兆子痫前期孕妇的发病前外周血样本和75例健康孕妇外周血样本进行对照研究,提取外周血中血浆游离DNA,对两种样本的血浆游离DNA进行高通量双端测序,基因组的平均测序深度达到4×以上。
2、血浆游离DNA的分析
在进行血浆游离DNA高通量测序后,将序列与人类基因组标准序列hg19比对,确定每条序列在人类基因组染色体上的位置,对每个基因TSS上下游1kb的覆盖深度加和得到每个基因TSSdepth,将每个基因的TSS按照下述公式(1)进行标准化得到每个基因TSS的特征。
TSSi normalized=TSSi depth/total TSSdepth×106 公式(1)。
3、预测早发型重度先兆子痫前期的特征筛选
将早发型重度先兆子痫前期样本和对照组样本按照孕周进行匹配,分别在孕15周和孕20周使用差异分析软件(DEseq2)找到两组样本TSS特征显著差异的基因,孕15周疾病和对照的差异基因热图如图2所示,孕20周疾病和对照的差异基因热图如图2所示,使用Lasso算法将上述找到的差异基因进一步筛选,得到最终21个基因纳入预测模型的特征,结果如图4所示。
4、预测早发型重度先兆子痫前期的模型构建
(1)挑选57例早发型重度先兆子痫前期的血浆样本以及60例对照样本(健康)作为训练集,在训练集的样本中,按照公式(2)计算上述找到的每个特征区分对照组和疾病组的最佳截断值。
(2)按照最佳截断值将训练集样本特征基因的TSSi normalized进行离散化。具体公式见公式(3)。
公式(3):
TSSi=0,TSSi normlized>=best cut-off;
TSSi=1,TSSi normalized<best cut-off。
(3)使用机器学习的方法,包括贝叶斯统计(naive_bayes)、随机森林(rf)和支持向量机(svmLinear,svmRadialWeights)在训练集中基于上述的确认的特征和孕周构建预测模型,并使用10次交叉验证的方法对模型参数进行优化,确认最终预测模型,基于预测效果接收者操作特征曲线(Receiver Operating characteristic Curve,ROC),计算模型在训练集的AUC,结果如图5所示,naive_bayes构建的模型AUC达到0.93,rf构建的模型AUC达到1.00,svmLinear构建的模型AUC达到0.93,svmRadialWeights构建的模型AUC达到0.95,四种模型在训练集的AUC都高达0.9以上。
其中模型构建使用R语言caret包进行构建,具体代码如下所述,其中trainx为训练集样本21个特征基因离散化后的结果和样本的孕周信息,trainy为训练集样本的患病结局,最终得到的模型有rf.model,svmLinear.model,naive_bayes.model和svmRadialWeights.model。代码为:
subsetSizes=c(1:length(trainx))
seeds<-vector(mode="list",length=51)
for(i in 1:50)seeds[[i]]<-sample.int(1000,length(subsetSizes)+1)
seeds[[51]]<-sample.int(1000,1)
control=trainControl(
method="repeatedcv",
number=10,
repeats=5,
p=0.75,
search="grid",
initialWindow=NULL,
horizon=1,
fixedWindow=TRUE,
skip=0,
verboseIter=FALSE,
returnData=TRUE,
returnResamp="final",
savePredictions=TRUE,
classProbs=TRUE,
summaryFunction=twoClassSummary,
selectionFunction="best",
preProcOptions=list(thresh=0.95,ICAcomp=3,k=5,freqCut=95/5,
uniqueCut=10,cutoff=0.9),
sampling=NULL,
index=NULL,
indexOut=NULL,
indexFinal=NULL,
timingSamps=0,
predictionBounds=rep(FALSE,2),
seeds=seeds,
adaptive=list(min=5,alpha=0.05,method="gls",complete=TRUE),
trim=FALSE,
allowParallel=TRUE
)
rf.model<-train(trainx,trainy,method="rf",
metric="ROC",trControl=control)
svmLinear.model<-train(trainx,trainy,method="svmLinear",
metric="ROC",trControl=control)
naive_bayes.model<-train(trainx,trainy,method="naive_bayes",
metric="ROC",trControl=control)
svmRadialWeights.model<-train(trainx,trainy,method="svmRadialWeights",
metric="ROC",trControl=control)。
实施例2
以14例早发型重度先兆子痫前期的血浆样本以及15例健康对照样本验证实施例1所构建模型的效果。
1、血浆样本获取和血浆游离DNA的分析的步骤同实施例1。
2、提取每例样本实施例1中获得的21个基因的TSS特征,按照实施例一在训练集中所确定的最佳截断值,按照公式(3)将测试集样本特征基因的TSSi normalized进行离散化。离散化后的特征和孕周作为输入使用实施例1中构建的模型预测样本患早发型重度先兆子痫前期的概率。
3、计算模型在验证集中预测早发型重度先兆子痫前期的效果,基于预测效果接收者操作特征曲线(Receiver Operating characteristic Curve,ROC),计算模型在验证集的曲线下面积(Area Under the Curve,AUC),结果如图6所示,naive_bayes构建的模型AUC达到0.97,rf构建的模型AUC达到0.90,svmLinear构建的模型AUC达到0.94,svmRadialWeights构建的模型AUC达到0.92,四种模型在验证集的AUC都高达0.9以上。
综上所述,本发明发现,虽然早发型重度先兆子痫前期患者在怀孕15~20周尚未出现临床症状,但此时患者与健康孕妇血浆游离DNA部分基因的TSS特征在患者与健康孕妇中存在显著差异,对TSS特征进行标准化和离散化后结合孕妇孕周信息,使用机器学习算法,通过对疾病样本和健康样本的孕周进行匹配,筛选出15周和20周疾病样本和健康样本显著差异的基因组合,以此为基础构建的预测模型能够有效预测早发型重度先兆子痫前期的发病,所述模型基于孕15周和孕20周孕妇血浆游离DNA高通量测序结果中TSS特征差异,预测的早发型重度先兆子痫前期的发病风险,可应用于早发型重度先兆子痫前期筛查预测相关产品开发。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
Claims (4)
1.一种用于早发型重度子痫前期检测的系统,其特征在于,所述用于早发型重度子痫前期检测的系统包括:
样本分析模块:将样本测序数据比对到参考基因组上并获取每个基因的转录起始位点区域覆盖情况;
筛选特征模块:筛选预测早发型重度先兆子痫前期的特征基因;
构建模型模块:构建预测早发型重度先兆子痫前期的模型;
计算模块:利用预测早发型重度先兆子痫前期的模型计算样本患早发型重度先兆子痫前期的概率;
所述特征基因包括SNORD14C、ASPA、ARL13A、TRIM69、LINC01338、FIBIN、F8A2、MRPL20、BRF1、ZNF407-AS1、BVES、TFDP1、COL4A4、ANKRD36BP2、DUS3L、ADCY1、KIF26A、SLC12A2、KLF4、CHKA和KIF26B;
所述样本分析模块用于进行包括如下的操作:
(1-1)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(1-2)对比对的结果进行去重复;
(1-3)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的TSSdepth;
(1-4)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
TSSi normalized=TSSi depth/total TSSdepth×106 公式(1)
其中,TSSi normalized为基因i的转录起始位点区域的特征,TSSi depth为基因i的转录起始位点区域的覆盖深度,total TSSdepth为所有基因的转录起始位点区域的覆盖深度加和;
所述样本包括血浆游离DNA;
所述转录起始位点区域的大小为转录起始位点上下游1kb;
所述筛选特征模块用于进行包括如下的操作:
(2-1)将早发型重度先兆子痫前期患者和正常孕妇按照孕周进行匹配,使用差异分析软件寻找两组样本转录起始位点区域有显著差异的基因;
(2-2)使用最小绝对值收敛和选择算子对(2-1)差异基因筛选,得到预测模型的特征基因;
所述构建模型模块用于进行包括如下的操作:
(3-1)获取最佳截断值:按照公式(2)计算特征基因区分对照组和疾病组的最佳截断值best cut-off;
best cut-off=max(sensitivity+specificity) 公式(2);
其中,max(sensitivity+specificity)表示灵敏性sensitivity和特异性specificity加和的最大值;
(3-2)特征基因离散化:按照最佳截断值根据公式(3)将训练集样本中基因i的转录起始位点区域的特征TSSi normalized进行离散化转化为0或1;
公式(3):
TSSi=0,TSSi normalized>=best cut-off;
TSSi=1,TSSi normalized<best cut-off;
其中,TSSi为基因i最终离散化后的特征值;
(3-3)构建模型:使用机器学习的方法基于特征基因和孕周构建预测早发型重度先兆子痫前期的模型;
所述计算模块用于进行包括如下的操作:
将特征基因离散化后的结果和孕周输入预测早发型重度先兆子痫前期的模型得到样本患早发型重度先兆子痫前期的概率。
2.根据权利要求1所述的用于早发型重度子痫前期检测的系统,其特征在于,所述机器学习的方法包括贝叶斯统计、随机森林、支持向量机或广义线性模型中的任意一种。
3.根据权利要求1所述的用于早发型重度子痫前期检测的系统,其特征在于,(3-3)还包括使用10次交叉验证的方法对模型参数进行优化。
4.根据权利要求1所述的用于早发型重度子痫前期检测的系统,其特征在于,样本患早发型重度先兆子痫前期的概率大于等于0.5,则判断样本为早发型重度子痫前期高危,样本患早发型重度先兆子痫前期的概率小于0.5,则判断样本为早发型重度子痫前期低危。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210382669.6A CN114822682B (zh) | 2022-04-12 | 2022-04-12 | 与早发型重度子痫前期发生相关的基因组合及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210382669.6A CN114822682B (zh) | 2022-04-12 | 2022-04-12 | 与早发型重度子痫前期发生相关的基因组合及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114822682A CN114822682A (zh) | 2022-07-29 |
CN114822682B true CN114822682B (zh) | 2023-07-21 |
Family
ID=82533832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210382669.6A Active CN114822682B (zh) | 2022-04-12 | 2022-04-12 | 与早发型重度子痫前期发生相关的基因组合及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114822682B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115831367A (zh) * | 2022-12-21 | 2023-03-21 | 北京博奥医学检验所有限公司 | 一种妊娠期并发症风险预测模型及其应用 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180009828A (ko) * | 2016-07-19 | 2018-01-30 | 의료법인 제일의료재단 | 태아 특이적 후성유전학적 바이오마커 dscr3 및 이를 포함하는 자간전증 진단용 조성물 |
RU2646448C1 (ru) * | 2017-05-02 | 2018-03-05 | Федеральное государственное автономное образовательное учреждение высшего образования "Белгородский государственный национальный исследовательский университет" (НИУ "БелГУ") | Способ прогнозирования риска развития преэклампсии на основе комбинаций генов матриксных металлопротеиназ |
CN110305970A (zh) * | 2019-07-19 | 2019-10-08 | 广州市达瑞生物技术股份有限公司 | 一种基于外周血游离dna检测的巨大儿预测模型 |
CN113223714A (zh) * | 2021-05-11 | 2021-08-06 | 吉林大学 | 一种用于预测子痫前期风险的基因组合、子痫前期风险预测模型及其构建方法 |
WO2022013186A1 (en) * | 2020-07-13 | 2022-01-20 | Helmholtz-Zentrum für Infektionsforschung GmbH | Method for prediction of the guide efficiency when targeting a gene of interest |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140273025A1 (en) * | 2013-03-15 | 2014-09-18 | Wallac Oy | System and method for determining risk of pre-eclampsia based on biochemical marker analysis |
CA2929810A1 (en) * | 2016-04-29 | 2017-10-29 | University Of Iowa Research Foundation | Improved early prediction of preeclampsia |
CN111630387A (zh) * | 2017-09-05 | 2020-09-04 | 艾基诺米公司 | 用于检测先兆子痫相关生物标志物的方法和装置 |
CN110580934B (zh) * | 2019-07-19 | 2022-05-10 | 南方医科大学 | 一种基于外周血游离dna高通量测序的妊娠期相关疾病预测方法 |
CN110305954B (zh) * | 2019-07-19 | 2022-10-04 | 广州市达瑞生物技术股份有限公司 | 一种早期准确检测先兆子痫的预测模型 |
CN112180098B (zh) * | 2019-12-06 | 2023-02-17 | 中山大学 | 胎盘相关疾病标志物的筛选方法及标志物 |
CN113249458B (zh) * | 2020-02-10 | 2023-07-07 | 北京优乐复生科技有限责任公司 | 一种预测胎盘源性疾病的评估和预测的方法和试剂盒 |
CN112210599B (zh) * | 2020-10-11 | 2022-12-27 | 宁夏医科大学总医院 | 用于子痫前期临床风险评估的长链非编码rna |
CN113092777B (zh) * | 2021-03-26 | 2023-11-14 | 泰达国际心血管病医院 | 孕早期进行重症子痫前期患者筛查的方法 |
-
2022
- 2022-04-12 CN CN202210382669.6A patent/CN114822682B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180009828A (ko) * | 2016-07-19 | 2018-01-30 | 의료법인 제일의료재단 | 태아 특이적 후성유전학적 바이오마커 dscr3 및 이를 포함하는 자간전증 진단용 조성물 |
RU2646448C1 (ru) * | 2017-05-02 | 2018-03-05 | Федеральное государственное автономное образовательное учреждение высшего образования "Белгородский государственный национальный исследовательский университет" (НИУ "БелГУ") | Способ прогнозирования риска развития преэклампсии на основе комбинаций генов матриксных металлопротеиназ |
CN110305970A (zh) * | 2019-07-19 | 2019-10-08 | 广州市达瑞生物技术股份有限公司 | 一种基于外周血游离dna检测的巨大儿预测模型 |
WO2022013186A1 (en) * | 2020-07-13 | 2022-01-20 | Helmholtz-Zentrum für Infektionsforschung GmbH | Method for prediction of the guide efficiency when targeting a gene of interest |
CN113223714A (zh) * | 2021-05-11 | 2021-08-06 | 吉林大学 | 一种用于预测子痫前期风险的基因组合、子痫前期风险预测模型及其构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114822682A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110305954B (zh) | 一种早期准确检测先兆子痫的预测模型 | |
KR101817785B1 (ko) | 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법 | |
KR20230110615A (ko) | 태아 염색체 이상을 검출하는 방법 및 시스템 | |
CN114822682B (zh) | 与早发型重度子痫前期发生相关的基因组合及其应用 | |
CN115798712B (zh) | 一种诊断待测者是否是乳腺癌的系统以及生物标志物 | |
CN110387414B (zh) | 一种利用外周血游离dna预测妊娠期糖尿病的模型 | |
CN117079723A (zh) | 一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用 | |
CN110580934B (zh) | 一种基于外周血游离dna高通量测序的妊娠期相关疾病预测方法 | |
CN111944900A (zh) | 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法 | |
CN115516103A (zh) | 确定孕妇的孕期状态的方法 | |
EP4318493A1 (en) | Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same | |
WO2022082436A1 (zh) | 确定孕妇的孕期状态的方法 | |
KR102659915B1 (ko) | 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용 | |
KR20230007010A (ko) | 대사질환 위험도 예측 방법 및 시스템 | |
CN110577988B (zh) | 胎儿生长受限的预测模型 | |
CN110305970A (zh) | 一种基于外周血游离dna检测的巨大儿预测模型 | |
CN117672350A (zh) | 一种与早产发生相关的靶标基因组合及其应用 | |
KR102142914B1 (ko) | 모체 혈액 유래 무세포 dna 단편을 이용한 비침습적 산전 검사 방법 | |
WO2023102840A1 (zh) | 基因标志物在预测孕妇子痫前期风险中的应用 | |
KR102519739B1 (ko) | 2단계 Z-score에 기반한 비침습적 산전 검사 방법 및 장치 | |
WO2023102786A1 (zh) | 基因标志物在预测孕妇早产风险中的应用 | |
CN118028446A (zh) | 检测标志物及其应用 | |
CN118841067A (zh) | 一种与子痫前期相关的预测模型构建方法、特征组合及其应用 | |
WO2024044749A1 (en) | Cell-free dna sequence data analysis techniques for estimating fetal fraction and predicting preeclampsia | |
Zhang et al. | Establishment and Verification of a Predictive Model for Preeclampsia Based on Bioinformatics Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |