CN118056016A - 基因标志物在预测孕妇早产风险中的应用 - Google Patents

基因标志物在预测孕妇早产风险中的应用 Download PDF

Info

Publication number
CN118056016A
CN118056016A CN202180102281.XA CN202180102281A CN118056016A CN 118056016 A CN118056016 A CN 118056016A CN 202180102281 A CN202180102281 A CN 202180102281A CN 118056016 A CN118056016 A CN 118056016A
Authority
CN
China
Prior art keywords
pregnant woman
premature
risk
gene
gene marker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180102281.XA
Other languages
English (en)
Inventor
王文婧
徐晨明
陈松长
孙井花
黄荷凤
徐讯
刘忠振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Obstetrics and Gynecology Hospital of Fudan University
Original Assignee
BGI Shenzhen Co Ltd
Obstetrics and Gynecology Hospital of Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd, Obstetrics and Gynecology Hospital of Fudan University filed Critical BGI Shenzhen Co Ltd
Publication of CN118056016A publication Critical patent/CN118056016A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了基因标志物在预测孕妇早产风险中的应用。本发明提供了一种用于预测孕妇胎膜早破早产及不明原因自发早产风险的方法,包括:获取来源于所述孕妇的生物样品中基因标志物的表达谱;基于基因标志物的表达谱,鉴别孕妇的胎膜早破早产风险及不明原因自发早产风险。本发明还提供了用于预测孕妇胎膜早破早产及不明原因自发早产风险的试剂盒和装置、以及孕妇早产风险预测模型的构建方法,还提供了涉及用于执行早产风险预测方法和模型构建方法的程序的存储介质和处理器。本发明通过基因标志物的表达谱与胎膜早破早产风险及不明原因自发早产的关联性,实现了对胎膜早破早产风险及不明原因自发早产的高特异性和高灵敏性的风险预测。

Description

基因标志物在预测孕妇早产风险中的应用 技术领域
本发明涉及孕妇早产领域,具体而言,涉及基因标志物在预测胎膜早破早产及不明原因自发早产风险中的应用。
背景技术
早产是指妊娠不足37周的生产。在全球,早产是五岁以下儿童的主要死亡原因,在几乎所有具有可靠数据的国家,早产率都在日益增加。早产是母婴领域的重要问题。
胎膜早破及不明原因可导致早产。胎膜早破是指在临产前胎膜自然破裂,孕龄小于37周的胎膜早破称为早产胎膜早破。预防早产带来的死亡和并发症要从健康妊娠做起。早预测早干预可改善妊娠结局。
目前,临床上有针对早产高风险人群进行宫颈长度检测以及阴道分泌物的fFN胎儿纤维连接蛋白检测用于评估早产风险,但主要针对高危人群,且灵敏度、特异性有限。一些研究和专利申请涉及利用基因表达、代谢物、蛋白/多肽、微生物进行早产预测和诊断,但是主要问题仍然在于这些方法对于早产风险预测的灵敏度和特异性较低。
到目前为止,还没有任何一种可以对胎膜早破早产或不明原因自发早产进行高特异性和灵敏性预测的基因标志物。所以,迫切需要开发一种可以高特异性和高灵敏性地对胎膜早破早产或不明原因自发早产进行预测的基因标志物。
发明内容
本发明的主要目的在于提供基因标志物在预测胎膜早破早产风险或不明原因自发早产风险中的应用,以提供一种对早产风险的高特异性和高灵敏性的预测方案。
为了实现上述目的,根据本发明的第一方面,提供了一种用于预测孕妇胎膜早破早产风险的方法,该方法包括:
步骤S1:获取来源于孕妇的生物样品中基因标志物的表达谱,基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1;
步骤S2:基于基因标志物的表达谱,鉴别孕妇的胎膜早破早产风险。
进一步地,在步骤S2中,鉴别孕妇的胎膜早破早产风险是通过利用孕妇胎膜早破早产风险预测模型来实施的,孕妇胎膜早破早产风险预测模型是通过利用来源于已发生胎膜早破早产的孕妇的生物样品中基因标志物的表达谱训练计算机而产生。
进一步地,训练计算机是通过机器学习方法来实施,优选机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林、支持向量机。
进一步地,生物样品为以下一种或多种:血浆、血清、全血、尿液、羊水;优选生物样品在孕妇第11至25孕周时采集获得。
进一步地,在步骤S1中,通过对生物样品中的胞外游离RNA进行定量分析,从而获取基因标志物的表达谱;
优选地,采用高通量测序法或RT-PCR法对生物样品中的胞外游离RNA进行定量分析;
更优选地,采用高通量测序法对生物样品中的胞外游离RNA进行定量分析。
根据本发明的第二方面,提供了一种用于预测孕妇胎膜早破早产风险的试剂盒,试剂盒包括基因标志物的检测试剂,基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。
进一步地,基因标志物的检测试剂包括用于检测基因标志物的探针和/或引物;优选为将基因标志物的RNA制备成高通量测序文库的相关试剂。
根据本发明的第三方面,提供了基因标志物的检测试剂在制备预测孕妇胎膜早破早产风险的试剂盒中的应用,基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。
进一步地,基因标志物的检测试剂包括用于检测基因标志物的探针和/或引物;优选为将基因标志物的RNA制备成高通量测序文库的相关试剂。
根据本发明的第四方面,提供了一种用于预测孕妇胎膜早破早产风险的装置,装置内置有孕妇胎膜早破早产风险预测模型,预测模型是通过利用来源于已发生胎膜早破早产的孕妇的生物样品中基因标志物的表达谱训练计算机而产生,基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、 LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。
根据本发明的第五方面,提供了一种孕妇胎膜早破早产风险预测模型的构建方法,构建方法包括:
检测来源于胎膜早破早产的孕妇群体和足月分娩的孕妇群体的生物样品中的基因标志物的差异表达;
将部分胎膜早破早产的孕妇群体和部分足月分娩的孕妇群体作为训练集,利用训练集筛选出最佳基因标志物;
在训练集中,利用最佳基因标志物训练计算机,从而得到孕妇胎膜早破早产风险预测模型;
将剩余部分的胎膜早破早产的孕妇群体和剩余部分的足月分娩的孕妇群体作为验证集,利用验证集验证孕妇胎膜早破早产风险预测模型;
其中,最佳基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。
进一步地,生物样品为以下一种或多种:血浆、血清、全血、尿液、羊水;优选生物样品在孕妇第11至25孕周时采集获得。
进一步地,训练计算机是通过机器学习方法来实施,优选机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林、支持向量机。
根据本发明的第六方面,提供了一种计算机可读存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明第一方面的用于预测孕妇胎膜早破早产风险的方法或本发明第五方面的孕妇胎膜早破早产风险预测模型的构建方法。
根据本发明的第七方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行本发明第一方面的用于预测孕妇胎膜早破早产风险的方法或本发明第五方面的孕妇胎膜早破早产风险预测模型的构建方法。
根据本发明的第八方面,提供了一种用于预测孕妇不明原因自发早产风险的方法,方法包括:
步骤S1:获取来源于孕妇的生物样品中基因标志物的表达谱,基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1;
步骤S2:基于基因标志物的表达谱,鉴别孕妇的不明原因自发早产风险。
进一步地,在步骤S2中,鉴别孕妇的不明原因自发早产风险是通过利用孕妇不明原因自发早产风险预测模型来实施的,孕妇不明原因自发早产风险预测模型是通过利用来源于已发生不明原因自发早产的孕妇的生物样品中基因标志物的表达谱训练计算机而产生。
进一步地,训练计算机是通过机器学习方法来实施,优选机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林、支持向量机。
进一步地,生物样品为以下一种或多种:血浆、血清、全血、尿液、羊水;优选生物样品在孕妇第11至25孕周时采集获得。
进一步地,在步骤S1中,通过对生物样品中的胞外游离RNA进行定量分析,从而获取基因标志物的表达谱;
优选地,采用高通量测序法或RT-PCR法对生物样品中的胞外游离RNA进行定量分析;
更优选地,采用高通量测序法对生物样品中的胞外游离RNA进行定量分析。
根据本发明的第九方面,提供了一种用于预测孕妇不明原因自发早产风险的试剂盒,试剂盒包括基因标志物的检测试剂,基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。
进一步地,基因标志物的检测试剂包括用于检测基因标志物的探针和/或引物;优选为将基因标志物的RNA制备成高通量测序文库的相关试剂。
根据本发明的第十方面,提供了基因标志物的检测试剂在制备预测孕妇不明原因自发早产风险的试剂盒中的应用,基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、 AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。
进一步地,基因标志物的检测试剂包括用于检测基因标志物的探针和/或引物;优选为将基因标志物的RNA制备成高通量测序文库的相关试剂。
根据本发明的第十一方面,提供了一种用于预测孕妇不明原因自发早产风险的装置,装置内置有孕妇不明原因自发早产风险预测模型,预测模型是通过利用来源于已发生不明原因自发早产的孕妇的生物样品中基因标志物的表达谱训练计算机而产生,基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。
根据本发明的第十二方面,提供了一种孕妇不明原因自发早产风险预测模型的构建方法,构建方法包括:
检测来源于不明原因自发早产的孕妇群体和足月的孕妇群体的生物样品中的基因标志物的差异表达;
将部分不明原因自发早产的孕妇群体和部分足月的孕妇群体作为训练集,利用训练集筛选出最佳基因标志物;
在训练集中,利用最佳基因标志物训练计算机,从而得到孕妇不明原因自发早产风险预测模型;
将剩余部分的不明原因自发早产的孕妇群体和剩余部分的足月的孕妇群体作为验证集,利用验证集验证孕妇不明原因自发早产风险预测模型;
其中,最佳基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。
进一步地,生物样品为以下一种或多种:血浆、血清、全血、尿液、羊水;优选生物样品在孕妇第11至25孕周时采集获得。
进一步地,训练计算机是通过机器学习方法来实施,优选机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林、支持向量机。
根据本发明的第十三方面,提供了一种计算机可读存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行本发明第八方面的用于预测孕妇不明原因自发早产风险的方法或本发明第十二方面的孕妇不明原因自发早产风险预测模型的构建方法。
根据本发明的第十四方面,提供了一种处理器,其特征在于,处理器用于运行程序,其中,程序运行时执行本发明第八方面的用于预测孕妇不明原因自发早产风险的方法或本发明第十二方面的孕妇不明原因自发早产风险预测模型的构建方法。
本发明针对现有技术中早产风险的预测准确性较低的问题,提出了采用本申请的基因标志物作为检测靶标,通过基因标志物的表达谱与胎膜早破早产风险及不明原因自发早产的关联性,实现了对胎膜早破早产风险及不明原因自发早产的高特异性和高灵敏性的风险预测。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的优选实施例中孕妇群体生物样品采集孕周的柱形图;
图2示出了根据本发明的优选实施例中孕妇群体分娩与生物样品采集间隔孕周的柱形图;
图3示出了根据本发明的优选实施例中基因标志物的筛选流程图;
图4示出了根据本发明的优选实施例中早产风险预测模型的构建流程图;
图5示出了根据本发明的优选实施例中预测胎膜早破早产的最佳基因标志物的重要性排序图以及模型预测的AUC曲线图;
图6示出了根据本发明的优选实施例中预测不明原因自发早产的最佳基因标志物的重要性排序图以及模型预测的AUC曲线图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
如背景技术部分所提到的,目前存在着对孕妇早产进行临床早期预测的需求。本申请基于来源于孕妇的生物样品,通过比较早产组及足月组在孕早、中期的基因表达量差异,结合机器学习算法,筛选出预测早产风险的基因标志物,并通过构建模型实现了在孕中期对早产的高准确度预测。本发明的基因标志物和预测模型对于早产风险、特别是胎膜早破早产和不明原因自发早产的预测具有较高的特异性和灵敏性,可在孕中期以较高准确度发现孕妇的早产风险,实现尽早干预。
在该研究结果的基础上,申请人提出了本申请的技术方案。在一种典型的实施方式中,提供了一种用于预测孕妇胎膜早破早产风险的方法,该方法包括:
步骤S1:获取来源于所述孕妇的生物样品中基因标志物的表达谱,基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1;
步骤S2:基于基因标志物的表达谱,鉴别孕妇的胎膜早破早产风险。
本申请首次发现孕妇生物样品中的基因标志物与孕妇胎膜早破早产疾病有着显著的相关性,因而可以作为预测孕妇胎膜早破早产的标志物。这些基因标志物包括21个mRNA基因和18个lncRNA基因,其中mRNA基因标志物包括CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10;lncRNA基因标志物包括AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。
在本发明的方法中,基因标志物优选包括DNAJC13、CCNB1IP1、AC022568.1、PLD5、WDR34、UPF1、KIF2A、SEPT10、FAM45A、ZBTB10、PROS1、COL9A2、LARP1B、AC009779.2、TMUB1、HCK、AC015878.2、AC084759.3、AP000688.4、AC092338.2中的一种或多种。
上面列出的各基因可单独或组合使用。例如,可以采用以下全部基因的组合作为基因标志物:DNAJC13、CCNB1IP1、AC022568.1、PLD5、WDR34、UPF1、KIF2A、SEPT10、FAM45A、ZBTB10、PROS1、COL9A2、LARP1B、AC009779.2、TMUB1、HCK、AC015878.2、AC084759.3、AP000688.4、AC092338.2,从而实现胎膜早破早产的风险预测。
在上述步骤S2中,鉴别孕妇的胎膜早破早产风险可以通过利用孕妇胎膜早破早产风险预测模型来实施,通过利用来源于已发生胎膜早破早产的孕妇的生物样品中上述基因标志物的表达谱训练计算机来产生孕妇胎膜早破早产风险预测模型。
训练计算机可通过机器学习方法来实施。机器学习方法选自回归法、分类法或其组合。“机器学习”一般表示在未明确编程的情况下,给予计算机学习能力的算法,包括从数据学习并对数据做出预测的算法。本发明所使用的机器学习方法可以包括随机森林、最小绝对收缩和选择算子逻辑回归、正则化逻辑回归、XGBoost、决策树学习、人工神经网络、深度神经网络、支持向量机、基于规则的机器学习、广义线性模型、梯度提升机等。优选机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林、支持向量机。
在预测模型中,可通过模型自动计算得出的风险分数,来评价和预测胎膜早破早产风险高低。例如,若风险分数大于0.5,认为胎膜早破早产高风险,若风险分数小于0.5,则认为胎膜早破早产低风险。
来源于孕妇的生物样品可以为以下一种或多种:血浆、血清、全血、尿液、羊水。优选采用来源于孕妇的血浆、血清或全血,用于本发明的检测和鉴别步骤。该生物样品最优选为血浆,例如,可以从孕妇获取外周血并实施血浆分离,从而获得待使用的血浆生物样品。除了血浆、血清或全血,还可以使用其他体液样品,如尿液、羊水等。生物样品的获取可以采用本领域常规的方法实施。
在本发明中,生物样品的采集可以在孕妇第11至25孕周时进行。通过采用上述特定的基因标志物作为预测因子,本发明的应用群体不必区分孕妇是否早产高危,可以适用于一般孕妇群体。利用上述基因标志物,本发明在孕中期可以实现胎膜早破早产的预测。本发明最高可以提早23周实现早产预测。因此,本发明的方法适用人群更广,更具有临床应用性。
在上述方法的步骤S1中,通过对生物样品中的胞外游离RNA(cfRNA)进行定量分析,从而获取所述基因标志物的表达谱;优选地,采用高通量测序法或RT-PCR法对生物样品中的胞外游离RNA进行定量分析;更优选地,采用下一代测序法对生物样品中的胞外游离RNA进行定量分析。
具体来说,生物样品中的胞外游离RNA可采用本领域常用的方法或试剂盒或两者组合提取获得。例如,可以使用TRIzol LS标准的RNA提取步骤,从血浆生物样品中提取胞外游离RNA。
在一种具体的实施方式中,对胞外游离RNA进行定量分析,优选包括利用全转录组测序,使用下一代测序法对孕妇生物样品(优选血浆样品)中的胞外游离RNA进行测序。该方法能同时对血浆游离mRNA和游离lncRNA进行测序。也可以采用RT-PCR的方法进行分析。还可以采用本领域已知的其他方法如qPCR法对胞外游离RNA的表达谱进行定量分析。
优选地,对胞外游离RNA进行定量分析,还包括将原始的胞外游离RNA测序数据进行质控的步骤,优选包括剪切接头,去除低质量读长,去除<17bp长度的读长,去除rRNA序列和value RNA及Y RNA序列,将剩余读长先比对到人源转录组(顺序为miRNA、tRNA和piRNA,mRNA和lncRNA,最后为其他RNA)。在优选的实施方式中,RNA比对用bowtie软件,定量用RSEM进行。
通过将本发明的基因标志物作为预测孕妇胎膜早破早产风险的标志物,根据现有试剂盒的制备原则,可以制备出针对本发明所述基因标志物的预测试剂盒。还可以针对这些基因标志物,制备出用于预测孕妇胎膜早破早产风险的检测探针、芯片等。
本发明通过采用特定的基因标志物作为检测靶标,基于基因标志物的表达谱与孕妇胎膜早破早产疾病的关联性,实现了对孕妇胎膜早破早产的高特异性和高灵敏性的风险预测。
在第二种典型的实施方式中,本发明提供了一种用于预测孕妇胎膜早破早产风险的试剂盒,该试剂盒包括基因标志物的检测试剂,基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。采用试剂盒进行预测,使得预测更加方便、简单、快速。优选上述基因标志物包括以下一种或多种基因:DNAJC13、CCNB1IP1、AC022568.1、PLD5、WDR34、UPF1、KIF2A、SEPT10、FAM45A、ZBTB10、PROS1、COL9A2、LARP1B、AC009779.2、TMUB1、HCK、AC015878.2、AC084759.3、AP000688.4、AC092338.2。
在试剂盒中,基因标志物的检测试剂可包括用于检测基因标志物的探针和/或引物,具体为一种或多种特异性结合(杂交)至基因标志物的探针和/或一种或多种特异性扩增基因标志物的引物。
由于RNA测序通常包括产生用于测序的cDNA分子的反转录步骤,因而在采用RNA测序时,本发明的试剂盒还可以包含将生物样品中的RNA转化为cDNA片段文库的试剂。
在第三种典型的实施方式中,提供了基因标志物的检测试剂在制备预测孕妇胎膜早破早产风险的试剂盒中的应用,基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。优选地,基因标志物包括以下一种或多种基因:DNAJC13、CCNB1IP1、AC022568.1、PLD5、WDR34、UPF1、KIF2A、SEPT10、FAM45A、ZBTB10、PROS1、COL9A2、LARP1B、AC009779.2、TMUB1、HCK、AC015878.2、AC084759.3、AP000688.4、AC092338.2。基因标志物的检测试剂包括用于检测基因标志物的探针和/或引物,具体地是一种或多种特异性结合(杂交)至基因标志物的探针和/或一种或多种特异性扩增基因标志物的引物。
在第四种典型的实施方式中,本发明提供了一种用于预测孕妇胎膜早破早产风险的装置,该装置内置有孕妇胎膜早破早产风险预测模型,该预测模型是通过利用来源于已发生胎膜早破早产的孕妇的生物样品中基因标志物的表达谱训练计算机而产生,所述基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。 优选地,基因标志物包括以下一种或多种基因:DNAJC13、CCNB1IP1、AC022568.1、PLD5、WDR34、UPF1、KIF2A、SEPT10、FAM45A、ZBTB10、PROS1、COL9A2、LARP1B、AC009779.2、TMUB1、HCK、AC015878.2、AC084759.3、AP000688.4、AC092338.2。在一种优选的实施方式中,该预测模型为广义线性模型、梯度提升机、随机森林或支持向量机模型。
在第五种典型的实施方式中,提供了一种孕妇胎膜早破早产风险预测模型的构建方法,该构建方法包括:检测来源于胎膜早破早产的孕妇群体和足月分娩的孕妇群体的生物样品中的基因标志物的差异表达;将部分胎膜早破早产的孕妇群体和部分足月分娩的孕妇群体作为训练集,利用训练集筛选出最佳基因标志物;在训练集中,利用最佳基因标志物训练计算机,从而得到孕妇胎膜早破早产风险预测模型;将剩余部分的胎膜早破早产的孕妇群体和剩余部分的足月分娩的孕妇群体作为验证集,利用验证集验证孕妇胎膜早破早产风险预测模型;其中,最佳基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。优选上述最佳基因标志物包括以下一种或多种基因:DNAJC13、CCNB1IP1、AC022568.1、PLD5、WDR34、UPF1、KIF2A、SEPT10、FAM45A、ZBTB10、PROS1、COL9A2、LARP1B、AC009779.2、TMUB1、HCK、AC015878.2、AC084759.3、AP000688.4、AC092338.2。
本发明的模型构建方法所采用的生物样品优选为以下一种或多种:血浆、血清、全血、尿液、羊水;特别优选血浆、血清、全血;最优选血浆。并且,生物样品可在孕妇第11至25孕周时采集获得。
本发明训练计算机时可采用机器学习方法,优选机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林和支持向量机。
在本发明的模型构建方法中,训练集和验证集可以根据需要按照一定比例进行拆分,优选地,将所有胎膜早破早产的孕妇按照7:3的人数比例随机拆分为训练集和验证集,将所有足月分娩的孕妇按照7:3的人数比例随机拆分为训练集和验证集。最佳基因标志物的筛选在训练集完成,验证集则用于检验最佳基因标志物及模型的预测效果。
在优选的实施方式中,通过比较胎膜早破早产孕妇群体和足月分娩孕妇群体的基因表达谱差异来初步筛选候选的基因标志物,基因标志物可包括mRNA基因和lncRNA基因。该步骤例如可使用DESeq2包(R软件包)实施。对于每一个基因,在两群体中的平均表达量的差异和稳定性会在该步骤中考虑(优选平均表达量差异倍数大于等于2,校正后p值小于0.2),最终通过筛选的基因成为候选的基因标志物。随后,可采用两种模型根据特征重要性进行筛选。两种模型共同使用有利于保证特征的稳定性。优选地,可用广义线性模型和随机森林根据特征重要性进行筛选,例如,每次筛选可从中筛选出30个最重要的分子,筛选过程进行20次,挑选出现频率较高的基因标志物作为最佳基因标志物。
在优选的实施方式中,在训练集中,基于最终筛选出来的最佳基因标记物,采用四种机器学习方法(广义线性模型,梯度提升机、随机森林和支持向量机)进行胎膜早破早产的风险预测。优选每一种算法都采用7折交叉验证的方式挑选出最优参数进行预测模型构建。形成的模型可在验证集中验证效果。
优选地,可通过验证集的效果验证,挑选出效果最优的模型并计算特征重要性。
优选的,mRNA基因和lncRNA基因可共同作为基因标志物进行效果验证,从而构建风险预测模型。
在优选的实施例中,本发明方法构建的预测模型可以在孕中期且最多可以提前23周,以及只需要采取孕妇外周血就可以用无创的方法对胎膜早破早产进行风险预测,预测的灵敏性可达75%,特异性可达83%,接收器工作特性曲线下面积(AUC)在训练集0.94,验证集0.82,均高于现有技术水平。
在第六种典型的实施方式中,提供了一种用于预测孕妇不明原因自发早产风险的方法,该方法包括:
步骤S1:获取来源于所述孕妇的生物样品中基因标志物的表达谱,基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1;
步骤S2:基于基因标志物的表达谱,鉴别孕妇的不明原因自发早产风险。
本申请首次发现孕妇生物样品中的基因标志物与孕妇不明原因自发早产疾病有着显著的相关性,因而可以作为预测孕妇不明原因自发早产的标志物。这些基因标志物包括16个mRNA基因和20个lncRNA基因,其中mRNA基因标志物包括AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR;lncRNA基因标志物包括AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。
在本发明的方法中,基因标志物优选包括FP671120.4、TTLL10-AS1、AL109936.2、LINC02076、AC021087.2、AL606760.3、AC018716.2、LINC00221、LINC00511、AC099689.1、AC005332.6、AL138921.1、AC093525.9、LINC00689、AP000688.4、AC022613.3、AC105020.6、AC084759.3、AC016727.1、AC092338.2中的一种或多种。
上面列出的各基因可单独或组合使用。例如,可以采用以下全部基因的组合作为基因标志物:FP671120.4、TTLL10-AS1、AL109936.2、LINC02076、AC021087.2、AL606760.3、 AC018716.2、LINC00221、LINC00511、AC099689.1、AC005332.6、AL138921.1、AC093525.9、LINC00689、AP000688.4、AC022613.3、AC105020.6、AC084759.3、AC016727.1、AC092338.2,从而实现不明原因自发早产的风险预测。
在上述步骤S2中,鉴别孕妇的不明原因自发早产风险可以通过利用孕妇不明原因自发早产风险预测模型来实施,通过利用来源于已发生不明原因自发早产的孕妇的生物样品中上述基因标志物的表达谱训练计算机来产生孕妇不明原因自发早产风险预测模型。
训练计算机可通过机器学习方法来实施。机器学习方法选自回归法、分类法或其组合。“机器学习”一般表示在未明确编程的情况下,给予计算机学习能力的算法,包括从数据学习并对数据做出预测的算法。本发明所使用的机器学习方法可以包括随机森林、最小绝对收缩和选择算子逻辑回归、正则化逻辑回归、XGBoost、决策树学习、人工神经网络、深度神经网络、支持向量机、基于规则的机器学习、广义线性模型、梯度提升机等。优选机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林、支持向量机。
在预测模型中,可通过模型自动计算得出的风险分数,来评价和预测不明原因自发早产风险高低。例如,若风险分数大于0.5,认为不明原因自发早产高风险,若风险分数小于0.5,则认为不明原因自发早产低风险。
来源于孕妇的生物样品可以为以下一种或多种:血浆、血清、全血、尿液、羊水。优选采用来源于孕妇的血浆、血清或全血,用于本发明的检测和鉴别步骤。该生物样品最优选为血浆,例如,可以从孕妇获取外周血并实施血浆分离,从而获得待使用的血浆生物样品。除了血浆、血清或全血,还可以使用其他体液样品,如尿液、羊水等。生物样品的获取可以采用本领域常规的方法实施。
在本发明中,生物样品的采集可以在孕妇第11至25孕周时进行。通过采用上述特定的基因标志物作为预测因子,本发明的应用群体不必区分孕妇是否早产高危,可以适用于一般孕妇群体。利用上述基因标志物,本发明在孕中期可以实现不明原因自发早产的预测。本发明最高可以提早23周实现早产预测。因此,本发明的方法适用人群更广,更具有临床应用性。
在上述方法的步骤S1中,通过对生物样品中的胞外游离RNA(cfRNA)进行定量分析,从而获取所述基因标志物的表达谱;优选地,采用高通量测序法或RT-PCR法对生物样品中的胞外游离RNA进行定量分析;更优选地,采用下一代测序法对生物样品中的胞外游离RNA进行定量分析。
具体来说,生物样品中的胞外游离RNA可采用本领域常用的方法或试剂盒或两者组合提取获得。例如,可以使用TRIzol LS标准的RNA提取步骤,从血浆生物样品中提取胞外游离RNA。
在一种具体的实施方式中,对胞外游离RNA进行定量分析,优选包括利用全转录组测序,使用下一代测序法对孕妇生物样品(优选血浆样品)中的胞外游离RNA进行测序。该方法能 同时对血浆游离mRNA和游离lncRNA进行测序。也可以采用RT-PCR的方法进行分析。还可以采用本领域已知的其他方法如qPCR法对胞外游离RNA的表达谱进行定量分析。
优选地,对胞外游离RNA进行定量分析,还包括将原始的胞外游离RNA测序数据进行质控的步骤,优选包括剪切接头,去除低质量读长,去除<17bp长度的读长,去除rRNA序列和value RNA及Y RNA序列,将剩余读长先比对到人源转录组(顺序为miRNA、tRNA和piRNA,mRNA和lncRNA,最后为其他RNA)。在优选的实施方式中,RNA比对用bowtie软件,定量用RSEM进行。
通过将本发明的基因标志物作为预测孕妇不明原因自发早产风险的标志物,根据现有试剂盒的制备原则,可以制备出针对本发明所述基因标志物的预测试剂盒。还可以针对这些基因标志物,制备出用于预测孕妇不明原因自发早产风险的检测探针、芯片等。
本发明通过采用特定的基因标志物作为检测靶标,基于基因标志物的表达谱与孕妇不明原因自发早产疾病的关联性,实现了对孕妇不明原因自发早产的高特异性和高灵敏性的风险预测。
在第七种典型的实施方式中,本发明提供了一种用于预测孕妇不明原因自发早产风险的试剂盒,该试剂盒包括基因标志物的检测试剂,基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。采用试剂盒进行预测,使得预测更加方便、简单、快速。优选上述基因标志物包括以下一种或多种基因:FP671120.4、TTLL10-AS1、AL109936.2、LINC02076、AC021087.2、AL606760.3、AC018716.2、LINC00221、LINC00511、AC099689.1、AC005332.6、AL138921.1、AC093525.9、LINC00689、AP000688.4、AC022613.3、AC105020.6、AC084759.3、AC016727.1、AC092338.2。
在试剂盒中,基因标志物的检测试剂可包括用于检测基因标志物的探针和/或引物,具体为一种或多种特异性结合(杂交)至基因标志物的探针和/或一种或多种特异性扩增基因标志物的引物。
由于RNA测序通常包括产生用于测序的cDNA分子的反转录步骤,因而在采用RNA测序时,本发明的试剂盒还可以包含将生物样品中的RNA转化为cDNA片段文库的试剂。
在第八种典型的实施方式中,提供了基因标志物的检测试剂在制备预测孕妇不明原因自发早产风险的试剂盒中的应用,基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、 LINC02076、TTLL10-AS1。优选地,基因标志物包括以下一种或多种基因:FP671120.4、TTLL10-AS1、AL109936.2、LINC02076、AC021087.2、AL606760.3、AC018716.2、LINC00221、LINC00511、AC099689.1、AC005332.6、AL138921.1、AC093525.9、LINC00689、AP000688.4、AC022613.3、AC105020.6、AC084759.3、AC016727.1、AC092338.2。基因标志物的检测试剂包括用于检测基因标志物的探针和/或引物,具体地是一种或多种特异性结合(杂交)至基因标志物的探针和/或一种或多种特异性扩增基因标志物的引物。
在第九种典型的实施方式中,本发明提供了一种用于预测孕妇不明原因自发早产风险的装置,该装置内置有孕妇不明原因自发早产风险预测模型,该预测模型是通过利用来源于已发生不明原因自发早产的孕妇的生物样品中基因标志物的表达谱训练计算机而产生,所述基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。优选地,基因标志物包括以下一种或多种基因:FP671120.4、TTLL10-AS1、AL109936.2、LINC02076、AC021087.2、AL606760.3、AC018716.2、LINC00221、LINC00511、AC099689.1、AC005332.6、AL138921.1、AC093525.9、LINC00689、AP000688.4、AC022613.3、AC105020.6、AC084759.3、AC016727.1、AC092338.2。在一种优选的实施方式中,该预测模型为广义线性模型、梯度提升机、随机森林或支持向量机模型。
在第十种典型的实施方式中,提供了一种孕妇不明原因自发早产风险预测模型的构建方法,该构建方法包括:检测来源于不明原因自发早产的孕妇群体和足月分娩的孕妇群体的生物样品中的基因标志物的差异表达;将部分不明原因自发早产的孕妇群体和部分足月分娩的孕妇群体作为训练集,利用训练集筛选出最佳基因标志物;在训练集中,利用最佳基因标志物训练计算机,从而得到孕妇不明原因自发早产风险预测模型;将剩余部分的不明原因自发早产的孕妇群体和剩余部分的足月分娩的孕妇群体作为验证集,利用验证集验证孕妇不明原因自发早产风险预测模型;其中,最佳基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。优选上述最佳基因标志物包括以下一种或多种基因:FP671120.4、TTLL10-AS1、AL109936.2、LINC02076、AC021087.2、AL606760.3、AC018716.2、LINC00221、LINC00511、AC099689.1、AC005332.6、AL138921.1、AC093525.9、LINC00689、AP000688.4、AC022613.3、AC105020.6、AC084759.3、AC016727.1、AC092338.2。
本发明的模型构建方法所采用的生物样品优选为以下一种或多种:血浆、血清、全血、尿液、羊水;特别优选血浆、血清、全血;最优选血浆。并且,生物样品可在孕妇第11至25孕周时采集获得。
本发明训练计算机时可采用机器学习方法,优选机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林和支持向量机。
在本发明的模型构建方法中,训练集和验证集可以根据需要按照一定比例进行拆分,优选地,将所有不明原因自发早产的孕妇按照7:3的人数比例随机拆分为训练集和验证集,将所有足月分娩的孕妇按照7:3的人数比例随机拆分为训练集和验证集。最佳基因标志物的筛选在训练集完成,验证集则用于检验最佳基因标志物及模型的预测效果。
在优选的实施方式中,通过比较不明原因自发早产孕妇群体和足月分娩孕妇群体的基因表达谱差异来初步筛选候选的基因标志物,基因标志物可包括mRNA基因和lncRNA基因。该步骤例如可使用DESeq2包(R软件包)实施。对于每一个基因,在两群体中的平均表达量的差异和稳定性会在该步骤中考虑(优选平均表达量差异倍数大于等于2,校正后p值小于0.2),最终通过筛选的基因成为候选的基因标志物。随后,可用广义线性模型和随机森林根据特征重要性进行筛选,例如,每次筛选可从中筛选出30个最重要的分子,筛选过程进行20次,挑选出现频率较高的基因标志物作为最佳基因标志物。
在优选的实施方式中,在训练集中,基于最终筛选出来的最佳基因标记物,采用四种机器学习方法(广义线性模型,梯度提升机、随机森林和支持向量机)进行不明原因自发早产的风险预测。优选每一种算法都采用7折交叉验证的方式挑选出最优参数进行预测模型构建。形成的模型可在验证集中验证效果。
优选地,可通过验证集的效果验证,挑选出效果最优的模型并计算特征重要性。
优选的,mRNA基因和lncRNA基因可共同作为基因标志物进行效果验证,从而构建风险预测模型。
在优选的实施例中,本发明方法构建的预测模型可以在孕中期且最多可以提前23周,以及只需要采取孕妇外周血就可以用无创的方法对不明原因自发早产进行风险预测,预测的灵敏性可达74%,特异性可达90%,接收器工作特性曲线下面积(AUC)在训练集0.96,验证集0.91,均高于现有技术水平。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解,本申请的技术方案中数据处理的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分的方法。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
显然,本领域的技术人员应该明白,上述的本申请的部分模块或步骤可以在通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
在一种优选的实施例中,提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述用于预测孕妇胎膜早破早产风险的方法或执行上述孕妇胎膜早破早产风险预测模型的构建方法。
在一种优选的实施例中,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述用于预测孕妇胎膜早破早产风险的方法或执行上述孕妇胎膜早破早产风险预测模型的构建方法。
在一种优选的实施例中,提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述用于预测孕妇不明原因自发早产风险的方法或执行上述孕妇不明原因自发早产风险预测模型的构建方法。
在一种优选的实施例中,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述用于预测孕妇不明原因自发早产风险的方法或执行上述孕妇不明原因自发早产风险预测模型的构建方法。
此外,本发明的基因标志物可能对预测孕妇分娩孕周有效果。
下面将结合具体的实施例来进一步说明本申请的有益效果。
实施例1
(1)孕妇血浆样品的获取
277例的单胎孕妇外周血从医院获取,血液收集孕周为11至25,如图1示出。血液来源于早产和足月的孕妇,其中胎膜早破早产104例,不明原因的自发早产74例,足月孕妇99例。早产孕妇从采血到分娩相差孕周为6~23周,如图2示出。所有血液样品立即存储在4℃下,并在8小时内实行血浆分离。血浆分离采用2步离心法,在4℃以1,600g转速离心10分钟,再以12,000g转速离心10分钟。血浆分离之后立即存储在-80℃等待下一步的处理。
(2)胞外游离RNA(cfRNA)的提取
在血浆中加入Trizol LS并立即震荡混匀,后续的cfRNA提取步骤使用TRIzol LS标准的RNA提取方法进行。
(3)cfRNA的测序
cfRNA的测序利用全转录组测序,使用下一代测序法对早产(分别为胎膜早破早产和不明原因自发早产)和足月孕妇的血浆样品进行测序。该方法能同时对血浆游离mRNA和游离lncRNA进行测序。
(4)cfRNA的表达谱定量
将原始的cfRNA测序数据进行质控,包括剪切接头,去除低质量读长,去除<17bp长度的的读长,去除rRNA序列和value RNA及Y RNA序列。将剩余读长比对到人转录组(顺序为miRNA、tRNA和piRNA,mRNA和lncRNA,最后为其他RNA),接着剩余读长比对到人基因组。长RNA(包括mRNA和lncRNA)的表达量矫正为TPM,公式如下:
TPM=(Ni/Li)*1000000/(sum(N1/L1+N2/L2+N3/L3+…+Nn/Ln))
Ni为比对到第i个基因的读长数;Li为第i个基因的长度;sum(N1/L1+N2/L2+...+Nn/Ln)为所有(n个)基因按长度进行标准化之后数值的和。
TotalMappingReads为所有比对上的读长数总和。
(5)最佳基因标志物的筛选
将胎膜早破早产孕妇群体、不明原因自发早产孕妇群体和足月分娩孕妇群体分别按照7:3的比例随机拆分成训练集和验证集,训练集包含72个胎膜早破早产的样本,51个不明原因自发早产的样本和69个足月样本,验证集包含32个胎膜早破早产的样本,23个不明原因自发早产的样本和30个足月样本。基因标志物的筛选在训练集完成,验证集用于检验基因标志物及模型的预测效果。孕妇群体的相关数据请参见表1。
表1:实施例1中早产孕妇群体和足月分娩孕妇群体的相关数据
通过比较胎膜早破早产、不明原因自发早产和足月分娩各孕妇组的表达谱差异来初步筛选候选的基因标志物,该步骤使用DESeq2包(R软件包)实现。对于每一个基因,两组中平均表达量的差异和稳定性在该步骤中加以考虑(平均表达量差异倍数大于等于2,校正后p值小于0.2),最终通过筛选的基因成为候选的基因标志物。用广义线性模型和随机森林根据特征重要性进行筛选,每次筛选都从中筛选出30个最重要的分子。这个过程进行20次,并挑选出现频率较高的基因标志物作为最佳基因标志物。基因标志物的筛选流程图见图3。
对mRNA和lncRNA分子进行特征挑选后,产生21个mRNA基因标志物(CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10)和18个lncRNA基因标志物(AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1),作为胎膜早破早产的最佳基因标志物;产生16个mRNA基因标志物(AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR)和20个lncRNA基因标志物(AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1),作为不明原因自发早产的最佳基因标志物。
本实施例筛选得到的胎膜早破早产的最佳基因标志物和不明原因自发早产的最佳基因标志物分别示出在以下表2和表3中。
表2:实施例1筛选得到的胎膜早破早产的最佳基因标志物的基因和转录本信息
基因名称 基因登记号 最长转录本登记号 最长转录本长度(bp)
SEPT10 ENSG00000186522.14_4 ENST00000356688.8_3 3091
AC004803.1 ENSG00000250132.6_6 ENST00000503602.6_1 3207
AC009779.2 ENSG00000258056.2_5 ENST00000552576.2_1 1443
AC011461.1 ENSG00000267197.1_6 ENST00000592671.1_1 357
AC015878.2 ENSG00000265948.1_6 ENST00000584331.1_1 361
AC016727.1 ENSG00000270820.5_5 ENST00000605437.1_1 569
AC022568.1 ENSG00000253474.1_5 ENST00000518222.1_1 833
AC084759.3 ENSG00000280362.1_5 ENST00000624468.1_1 3944
AC092338.2 ENSG00000260790.1_5 ENST00000568827.1_1 1415
AC093249.2 ENSG00000260167.1_5 ENST00000563540.1_1 482
AC103876.1 ENSG00000259986.1_5 ENST00000568634.1_1 418
AC105020.6 ENSG00000275454.1_5 ENST00000621523.1_1 1217
AC108099.1 ENSG00000260786.1_5 ENST00000564402.1_1 3258
AL031733.2 ENSG00000241666.2_5 ENST00000451992.2_1 2523
AL451074.2 ENSG00000224358.1_5 ENST00000423121.1_1 2150
AP000688.4 ENSG00000236677.1_5 ENST00000436303.1_1 446
CCNB1IP1 ENSG00000100814.17_2 ENST00000437553.6_1 1686
COL9A2 ENSG00000049089.14_5 ENST00000372748.7_2 2862
DNAJC13 ENSG00000138246.16_4 ENST00000260818.10_1 7730
FAM45A ENSG00000119979.17_4 ENST00000648560.1_1 2829
FBXO38 ENSG00000145868.16_3 ENST00000340253.9_2 4424
FZD3 ENSG00000104290.10_4 ENST00000537916.2_1 13740
HCK ENSG00000101336.13_4 ENST00000538448.5_2 2215
KIAA1257 ENSG00000114656.11_4 ENST00000265068.9_3 6034
KIF2A ENSG00000068796.16_4 ENST00000381103.6_1 3360
LARP1B ENSG00000138709.18_4 ENST00000326639.10_3 4891
LRRC56 ENSG00000161328.10_2 ENST00000270115.7_1 2769
NORAD ENSG00000260032.1_3 ENST00000565493.1_1 5339
PINK1-AS ENSG00000117242.7_6 ENST00000451424.1_1 4443
PLD5 ENSG00000180287.16_3 ENST00000536534.6_1 8721
PROS1 ENSG00000184500.15_3 ENST00000394236.8_2 3583
REV3L-IT1 ENSG00000229276.1_5 ENST00000411895.1_1 382
SLC41A3 ENSG00000114544.16_4 ENST00000383598.6_4 2330
SPIN1 ENSG00000106723.16_2 ENST00000375859.3_1 4484
TMUB1 ENSG00000164897.12_2 ENST00000392818.7_1 1563
TUBB4A ENSG00000104833.11_5 ENST00000264071.6_1 2552
UPF1 ENSG00000005007.12_3 ENST00000262803.9_2 5348
WDR34 ENSG00000119333.11_2 ENST00000372715.6_1 1755
ZBTB10 ENSG00000205189.11_2 ENST00000430430.5_1 10132
表3:实施例1筛选得到的不明原因自发早产的最佳基因标志物的基因和转录本信息
基因名称 基因登记号 最长转录本登记号 最长转录本长度(bp)
AC005332.6 ENSG00000278730.1_5 ENST00000620266.1_1 2921
AC016727.1 ENSG00000270820.5_5 ENST00000605437.1_1 569
AC018716.2 ENSG00000255267.3_5 ENST00000528390.1_1 2597
AC021087.2 ENSG00000260774.1_6 ENST00000565521.1_1 2881
AC022613.3 ENSG00000259644.1_6 ENST00000560740.1_1 1346
AC084759.3 ENSG00000280362.1_5 ENST00000624468.1_1 3944
AC092338.2 ENSG00000260790.1_5 ENST00000568827.1_1 1415
AC093525.9 ENSG00000279568.1_5 ENST00000624961.1_1 1746
AC099689.1 ENSG00000279416.1_6 ENST00000624383.1_1 1302
AC105020.6 ENSG00000275454.1_5 ENST00000621523.1_1 1217
AKAP2 ENSG00000241978.9_4 ENST00000374525.5_2 6866
AL109936.2 ENSG00000271420.1_5 ENST00000605350.1_1 650
AL138921.1 ENSG00000227492.1_5 ENST00000444359.1_1 846
AL606760.3 ENSG00000259818.1_5 ENST00000569869.1_1 3591
AP000688.4 ENSG00000236677.1_5 ENST00000436303.1_1 446
CCNB1IP1 ENSG00000100814.17_2 ENST00000437553.6_1 1686
CEACAM19 ENSG00000186567.12_3 ENST00000358777.8_1 2249
EMP3 ENSG00000142227.10_3 ENST00000270221.10_1 876
FAR1 ENSG00000197601.12_3 ENST00000532502.1_1 5820
FOXN3 ENSG00000053254.15_4 ENST00000345097.8_2 7832
FP671120.4 ENSG00000281383.1_5 ENST00000629969.1_1 917
GSAP ENSG00000186088.15_3 ENST00000257626.11_3 3251
GTF3C2 ENSG00000115207.13_3 ENST00000359541.6_1 3992
HPS3 ENSG00000163755.8_3 ENST00000296051.6_2 4665
LINC00221 ENSG00000270816.5_4 ENST00000603633.2_1 1652
LINC00511 ENSG00000227036.7_3 ENST00000650033.1_1 3766
LINC00689 ENSG00000231419.6_2 ENST00000413238.1_1 4684
LINC02076 ENSG00000220161.4_4 ENST00000577684.1_1 1871
MTURN ENSG00000180354.15_4 ENST00000324453.12_3 5937
NR1D2 ENSG00000174738.12_2 ENST00000312521.8_1 5258
PIK3CG ENSG00000105851.10_3 ENST00000359195.3_1 5377
TMUB1 ENSG00000164897.12_2 ENST00000392818.7_1 1563
TTLL10-AS1 ENSG00000205231.1_5 ENST00000379317.1_1 3532
UPF1 ENSG00000005007.12_3 ENST00000262803.9_2 5348
WDR34 ENSG00000119333.11_2 ENST00000372715.6_1 1755
ZFR ENSG00000056097.15_2 ENST00000265069.12_1 4738
上述基因标志物的具体序列信息可在Genbank中根据序列编号获取。
(6)基于最佳基因标志物的模型构建及验证
在训练集中,基于最终筛选出来的最佳基因标志物(包括mRNA和lncRNA),采用4种机器学习算法(广义线性模型,梯度提升机、随机森林和支持向量机)进行胎膜早破和不明原因自发早产的风险预测。每一种算法都采用7折交叉验证的方式挑选出最优参数进行预测模型构建。得到的模型在验证集中验证效果,并从中挑选最好的模型作为最优模型(胎膜早破采用随机森林模型作为最优模型;不明原因自发早产采用支持向量机作为最优模型)并计 算特征重要性。mRNA基因标志物和lncRNA基因标志物共同应用验证效果,一起构建模型。模型构建流程图可参见图4。
(7)基因标志物对早产风险的预测效果评估
(7.1)基因标志物对胎膜早破早产风险的预测效果
在筛选获得的针对胎膜早破早产的最佳基因标志物(21个mRNA基因标志物和18个lncRNA基因标志物)中,使用其中20个基因标志物(包括6个mRNA分子和14个lncRNA分子,在图5-A中示出,基因标志物的重要性进行了0到100的归一化)的组合,进行预测效果评估,结果可参见图5-B以及表4(其中,PPROM_Group3代表20个基因标志物的组合)。可以看到,该基因标志物的组合在验证集达到了很好的预测效果,敏感性75%,特异性83%,AUC(Area under the receiver operating characteristic curve,接收者操作特征曲线面积)0.818。同时,单独采用AC084759.3、AC092338.2、AP000688.4以及采用另外两种组合(分别是三个基因标志物的组合PPROM_Group1和六个基因标志物的组合PPROM_Group2)进行预测效果评估,发现这些基因标志物单独或组合使用对胎膜早破早产均有预测效果,结果可参见图5-B以及表4。
(7.2)基因标志物对不明原因自发早产风险的预测效果
在筛选获得的针对不明原因自发早产的最佳基因标志物(16个mRNA基因标志物和20个lncRNA基因标志物)中,使用其中20个基因标志物(包括20个lncRNA分子,在图6-A中示出,基因标志物的重要性进行了0到100的归一化)的组合,进行预测效果评估,结果可参见图6-B以及表4(其中,PTL_Group3代表20个基因标志物的组合)。可以看到,该基因标志物的组合在验证集达到了很好的预测效果,敏感性74%,特异性90%,AUC 0.91。同时,单独采用AC092338.2、AP000688.4、AC016727.1、AC084759.3以及采用另外两种组合(分别是四个基因标志物的组合PTL_Group1和六个基因标志物的组合PTL_Group2)进行预测效果评估,发现这些基因标志物单独或组合使用对不明原因自发早产均有预测效果,结果可参见图5-B以及表4。
从以上的结果可以看出,本发明上述的实施例实现了如下技术效果:利用血浆中本发明多个基因标志物的组合,结合机器学习模型,可最高提早23周预测胎膜早破早产和不明原因自发早产。本发明只需要采取孕妇外周血就可以用无创的方法对早产进行风险预测。本发明的基因标志物可以单独使用或组合使用。在单独使用的情况下,本发明的胎膜早破早产基因标志物的预测灵敏性和特异性分别可至少达到44%和57%,不明原因早产基因标志物的预测灵敏性和特异性分别可至少达到30%和70%,高于现有技术单独采用基因标志物的早产预测效果。本发明的基因标志物在随机组合的情况下,针对胎膜早破早产,可以实现63%以上的预测灵敏性和83%以上的预测特异性,针对不明原因早产,可以实现74%以上的预测灵敏性和80%以上的预测特异性,均高于现有技术水平。在20个基因组合的情况下,胎膜早破早产预测的灵敏性可达75%,特异性可达83%,接收器工作特性曲线下面积(AUC)在训练集达到0.94,验证集达到0.82,均高于现有技术水平;不明原因自发早产预测的灵敏性可达74%,特异性可达90%,接收器工作特性曲线下面积在训练集达到0.96,验证集达到0.91,远远高于现有技术水平。本发明的方法可适用于无症状的一般孕妇群体,不区分是否高危,在孕中期就可以预测,最高可提早23周预测早产,相比于现有技术提前了15周。本发明的方法适用人群更广,更具有临床应用性。经过数据验证,本发明的预测模型的准确性比较高,适合用于早期预测孕妇的早产风险,从而实现尽早干预。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (32)

  1. 一种用于预测孕妇胎膜早破早产风险的方法,其特征在于,所述方法包括:
    步骤S1:获取来源于所述孕妇的生物样品中基因标志物的表达谱;
    步骤S2:基于所述基因标志物的表达谱,鉴别所述孕妇的胎膜早破早产风险。
  2. 根据权利要求1所述的方法,其特征在于,在步骤S1中,所述基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。
  3. 根据权利要求1所述的方法,其特征在于,在步骤S2中,鉴别所述孕妇的胎膜早破早产风险是通过利用孕妇胎膜早破早产风险预测模型来实施的,所述孕妇胎膜早破早产风险预测模型是通过利用来源于已发生胎膜早破早产的孕妇的生物样品中所述基因标志物的表达谱训练计算机而产生。
  4. 根据权利要求3所述的方法,其特征在于,所述训练计算机是通过机器学习方法来实施,优选所述机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林、支持向量机。
  5. 根据权利要求1至4中任一项所述的方法,其特征在于,所述生物样品为以下一种或多种:血浆、血清、全血、尿液、羊水;优选所述生物样品在所述孕妇第11至25孕周时采集获得。
  6. 根据权利要求1至4中任一项所述的方法,其特征在于,在步骤S1中,通过对所述生物样品中的胞外游离RNA进行定量分析,从而获取所述基因标志物的表达谱;
    优选地,采用高通量测序法或RT-PCR法对所述生物样品中的胞外游离RNA进行定量分析;
    更优选地,采用高通量测序法对所述生物样品中的胞外游离RNA进行定量分析。
  7. 一种用于预测孕妇胎膜早破早产风险的试剂盒,其特征在于,所述试剂盒包括基因标志物的检测试剂,所述基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。
  8. 根据权利要求7所述的试剂盒,其特征在于,所述基因标志物的检测试剂包括用于检测所述基因标志物的探针和/或引物;优选为将所述基因标志物的RNA制备成高通量测序文库的相关试剂。
  9. 基因标志物的检测试剂在制备预测孕妇胎膜早破早产风险的试剂盒中的应用,其特征在于,所述基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。
  10. 根据权利要求9所述的应用,其特征在于,所述基因标志物的检测试剂包括用于检测所述基因标志物的探针和/或引物;优选为将所述基因标志物的RNA制备成高通量测序文库的相关试剂。
  11. 一种用于预测孕妇胎膜早破早产风险的装置,其特征在于,所述装置内置有孕妇胎膜早破早产风险预测模型,所述预测模型是通过利用来源于已发生胎膜早破早产的孕妇的生物样品中基因标志物的表达谱训练计算机而产生,所述基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。
  12. 一种孕妇胎膜早破早产风险预测模型的构建方法,其特征在于,所述构建方法包括:
    检测来源于胎膜早破早产的孕妇群体和足月分娩的孕妇群体的生物样品中的基因标志物的差异表达;
    将部分所述胎膜早破早产的孕妇群体和部分所述足月分娩的孕妇群体作为训练集,利用所述训练集筛选出最佳基因标志物;
    在所述训练集中,利用所述最佳基因标志物训练计算机,从而得到孕妇胎膜早破早产风险预测模型;
    将剩余部分的所述胎膜早破早产的孕妇群体和剩余部分的所述足月分娩的孕妇群体作为验证集,利用所述验证集验证所述孕妇胎膜早破早产风险预测模型;
    其中,所述最佳基因标志物包括以下一种或多种基因:CCNB1IP1、COL9A2、DNAJC13、FAM45A、FBXO38、FZD3、HCK、KIAA1257、KIF2A、LARP1B、LRRC56、PLD5、PROS1、SEPT10、SLC41A3、SPIN1、TMUB1、TUBB4A、UPF1、WDR34、ZBTB10、 AC004803.1、AC009779.2、AC011461.1、AC015878.2、AC016727.1、AC022568.1、AC084759.3、AC092338.2、AC093249.2、AC103876.1、AC105020.6、AC108099.1、AL031733.2、AL451074.2、AP000688.4、NORAD、PINK1-AS、REV3L-IT1。
  13. 根据权利要求12所述的构建方法,其特征在于,所述生物样品为以下一种或多种:血浆、血清、全血、尿液、羊水;优选所述生物样品在孕妇第11至25孕周时采集获得。
  14. 根据权利要求12或13的构建方法,其特征在于,所述训练计算机是通过机器学习方法来实施,优选所述机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林、支持向量机。
  15. 一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任一项所述的用于预测孕妇胎膜早破早产风险的方法或权利要求12至14中任一项所述的孕妇胎膜早破早产风险预测模型的构建方法。
  16. 一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任一项所述的用于预测孕妇胎膜早破早产风险的方法或权利要求12至14中任一项所述的孕妇胎膜早破早产风险预测模型的构建方法。
  17. 一种用于预测孕妇不明原因自发早产风险的方法,其特征在于,所述方法包括:
    步骤S1:获取来源于所述孕妇的生物样品中基因标志物的表达谱;
    步骤S2:基于所述基因标志物的表达谱,鉴别所述孕妇的不明原因自发早产风险。
  18. 根据权利要求17所述的方法,其特征在于,在步骤S1中,所述基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。
  19. 根据权利要求17所述的方法,其特征在于,在步骤S2中,鉴别所述孕妇的不明原因自发早产风险是通过利用孕妇不明原因自发早产风险预测模型来实施的,所述孕妇不明原因自发早产风险预测模型是通过利用来源于已发生不明原因自发早产的孕妇的生物样品中所述基因标志物的表达谱训练计算机而产生。
  20. 根据权利要求19所述的方法,其特征在于,所述训练计算机是通过机器学习方法来实施,优选所述机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林、支持向量机。
  21. 根据权利要求17至20中任一项所述的方法,其特征在于,所述生物样品为以下一种或多种:血浆、血清、全血、尿液、羊水;优选所述生物样品在所述孕妇第11至25孕周时采集获得。
  22. 根据权利要求17至20中任一项所述的方法,其特征在于,在步骤S1中,通过对所述生物样品中的胞外游离RNA进行定量分析,从而获取所述基因标志物的表达谱;
    优选地,采用高通量测序法或RT-PCR法对所述生物样品中的胞外游离RNA进行定量分析;
    更优选地,采用高通量测序法对所述生物样品中的胞外游离RNA进行定量分析。
  23. 一种用于预测孕妇不明原因自发早产风险的试剂盒,其特征在于,所述试剂盒包括基因标志物的检测试剂,所述基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。
  24. 根据权利要求23所述的试剂盒,其特征在于,所述基因标志物的检测试剂包括用于检测所述基因标志物的探针和/或引物;优选为将所述基因标志物的RNA制备成高通量测序文库的相关试剂。
  25. 基因标志物的检测试剂在制备预测孕妇不明原因自发早产风险的试剂盒中的应用,其特征在于,所述基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。
  26. 根据权利要求25所述的应用,其特征在于,所述基因标志物的检测试剂包括用于检测所述基因标志物的探针和/或引物;优选为将所述基因标志物的RNA制备成高通量测序文库的相关试剂。
  27. 一种用于预测孕妇不明原因自发早产风险的装置,其特征在于,所述装置内置有孕妇不明原因自发早产风险预测模型,所述预测模型是通过利用来源于已发生不明原因自发早产的孕妇的生物样品中基因标志物的表达谱训练计算机而产生,所述基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、 AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。
  28. 一种孕妇不明原因自发早产风险预测模型的构建方法,其特征在于,所述构建方法包括:
    检测来源于不明原因自发早产的孕妇群体和足月的孕妇群体的生物样品中的基因标志物的差异表达;
    将部分所述不明原因自发早产的孕妇群体和部分所述足月的孕妇群体作为训练集,利用所述训练集筛选出最佳基因标志物;
    在所述训练集中,利用所述最佳基因标志物训练计算机,从而得到孕妇不明原因自发早产风险预测模型;
    将剩余部分的所述不明原因自发早产的孕妇群体和剩余部分的所述足月的孕妇群体作为验证集,利用所述验证集验证所述孕妇不明原因自发早产风险预测模型;
    其中,所述最佳基因标志物包括以下一种或多种基因:AKAP2、CCNB1IP1、CEACAM19、EMP3、FAR1、FOXN3、GSAP、GTF3C2、HPS3、MTURN、NR1D2、PIK3CG、TMUB1、UPF1、WDR34、ZFR、AC005332.6、AC016727.1、AC018716.2、AC021087.2、AC022613.3、AC084759.3、AC092338.2、AC093525.9、AC099689.1、AC105020.6、AL109936.2、AL138921.1、AL606760.3、AP000688.4、FP671120.4、LINC00221、LINC00511、LINC00689、LINC02076、TTLL10-AS1。
  29. 根据权利要求28所述的构建方法,其特征在于,所述生物样品为以下一种或多种:血浆、血清、全血、尿液、羊水;优选所述生物样品在孕妇第11至25孕周时采集获得。
  30. 根据权利要求28或29的构建方法,其特征在于,所述训练计算机是通过机器学习方法来实施,优选所述机器学习方法包括以下一种或多种:广义线性模型、梯度提升机、随机森林、支持向量机。
  31. 一种计算机可读存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求17至22中任一项所述的用于预测孕妇不明原因自发早产风险的方法或权利要求28至30中任一项所述的孕妇不明原因自发早产风险预测模型的构建方法。
  32. 一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求17至22中任一项所述的用于预测孕妇不明原因自发早产风险的方法或权利要求28至30中任一项所述的孕妇不明原因自发早产风险预测模型的构建方法。
CN202180102281.XA 2021-12-08 2021-12-08 基因标志物在预测孕妇早产风险中的应用 Pending CN118056016A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/136566 WO2023102786A1 (zh) 2021-12-08 2021-12-08 基因标志物在预测孕妇早产风险中的应用

Publications (1)

Publication Number Publication Date
CN118056016A true CN118056016A (zh) 2024-05-17

Family

ID=86729272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180102281.XA Pending CN118056016A (zh) 2021-12-08 2021-12-08 基因标志物在预测孕妇早产风险中的应用

Country Status (2)

Country Link
CN (1) CN118056016A (zh)
WO (1) WO2023102786A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309929A (zh) * 2005-09-15 2008-11-19 创源生物科技(武汉)有限公司 胎膜早破的一个标志物
WO2018027171A1 (en) * 2016-08-05 2018-02-08 Sera Prognostics, Inc. Biomarkers for predicting preterm birth due to preterm premature rupture of membranes versus idiopathic spontaneous labor
CN109142565A (zh) * 2018-07-27 2019-01-04 重庆早柒天生物科技股份有限公司 基于iTRAQ技术的胎膜早破孕妇阴道分泌物差异蛋白的筛选方法
CA3126990A1 (en) * 2019-02-14 2020-08-20 Maneesh Jain Methods and systems for determining a pregnancy-related state of a subject

Also Published As

Publication number Publication date
WO2023102786A1 (zh) 2023-06-15

Similar Documents

Publication Publication Date Title
US20230203573A1 (en) Methods for detection of donor-derived cell-free dna
AU2020221278A1 (en) Methods and systems for determining a pregnancy-related state of a subject
Tarca et al. Maternal whole blood mRNA signatures identify women at risk of early preeclampsia: a longitudinal study
US10373708B2 (en) Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
US20130217011A1 (en) Diagnostic biomarkers of diabetes
WO2020077095A1 (en) tRNA-DERIVED FRAGMENTS AS BIOMARKERS FOR PARKINSON&#39;S DISEASE
CN113493829B (zh) 生物标志物在肺动脉高压诊疗中的应用
KR102156282B1 (ko) 뇌 종양의 예후 예측 방법
KR102104233B1 (ko) 뇌 종양의 예후 예측 방법
WO2015079060A2 (en) Mirnas as advanced diagnostic tool in patients with cardiovascular disease, in particular acute myocardial infarction (ami)
Zhi et al. Long non-coding RNA RP11-342L8. 2, derived from RNA sequencing and validated via RT-qPCR, is upregulated and correlates with disease severity in psoriasis patients
CN118056016A (zh) 基因标志物在预测孕妇早产风险中的应用
US20230332234A1 (en) Reagents, methods and kits for identifying pregnant human beings at risk for placental bed disorder(s)
CN113160895A (zh) 一种结直肠癌风险评估模型及系统
CN113159529A (zh) 一种肠道息肉的风险评估模型及相关系统
JP2023501760A (ja) 子癇前症に特異的な循環rnaシグネチャー
CN116287175A (zh) 标志物在制备预测妊娠期肝内胆汁淤积症的相关产品中的应用
WO2023102840A1 (zh) 基因标志物在预测孕妇子痫前期风险中的应用
EP4341438A2 (en) Methods and systems for methylation profiling of pregnancy-related states
JP2015522258A (ja) 子癇前症及び/またはhellp症候群の予測または早期検出のバイオマーカー検査
CN118028446A (zh) 检测标志物及其应用
KR102348173B1 (ko) 제2형 당뇨병에 대한 유전적 위험도 측정 방법 및 분석 장치
KR102519739B1 (ko) 2단계 Z-score에 기반한 비침습적 산전 검사 방법 및 장치
Abraham Quantifying Preterm Birth Risk and Heterogeneity Using Evolutionary History and Electronic Health Records
CN112992273A (zh) 一种预测早期结直肠癌风险评估模型及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination