CN116234929A - 用于确定对象的妊娠相关状态的方法和系统 - Google Patents

用于确定对象的妊娠相关状态的方法和系统 Download PDF

Info

Publication number
CN116234929A
CN116234929A CN202180070336.3A CN202180070336A CN116234929A CN 116234929 A CN116234929 A CN 116234929A CN 202180070336 A CN202180070336 A CN 202180070336A CN 116234929 A CN116234929 A CN 116234929A
Authority
CN
China
Prior art keywords
subject
pregnancy
premature
genes listed
genomic loci
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180070336.3A
Other languages
English (en)
Inventor
马尼什·简恩
欧金尼·纳姆萨拉伊夫
莫滕·拉斯穆森
琼·卡穆纳斯·索莱尔
法鲁克·西迪基
米特苏·雷迪
伊莱恩·吉
阿尔卡迪·霍杜尔斯基
罗里·诺兰
曼弗雷德·李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Milvey Co
Original Assignee
Milvey Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Milvey Co filed Critical Milvey Co
Publication of CN116234929A publication Critical patent/CN116234929A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/30ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/60ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to nutrition control, e.g. diets
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Ecology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本公开提供了针对妊娠相关状态的无细胞鉴定和/或监测的方法和系统。用于鉴定或监测对象的妊娠相关状态的存在或易感性的方法可以包括测定来源于所述对象的无细胞生物样本以检测生物标志物集,以及使用经训练算法分析生物标志物集以确定妊娠相关状态的存在或易感性。

Description

用于确定对象的妊娠相关状态的方法和系统
交叉引用
本申请要求于2020年8月13日提交的美国专利申请第63/065,130号、2020年12月31日提交的美国专利申请第63/132,741号、2021年4月2日提交的美国专利申请第63/170,151号和2021年4月8日提交的美国专利申请第63/172,249号的权益,其各自均通过引用整体并入本文。
背景技术
每年,全球报告约1500万例早产,超过30万女性死于妊娠相关并发症诸如出血和高血压疾病如先兆子痫。早产可能影响多达约10%的妊娠,其中大多数是自发性早产。早产等妊娠相关并发症是新生儿死亡和以后生活中并发症的主要原因。此外,此类妊娠相关并发症会对母体健康造成负面的健康影响。
发明内容
目前,可能缺乏可用于许多妊娠相关并发症(诸如早产)的有意义的、临床上可行的诊断筛查或测试。因此,为了使妊娠尽可能安全,需要快速、准确的方法来鉴定和监测妊娠相关的状态,这些方法是无创的并且有成本效益的,以改善母婴健康。
本公开提供了通过处理获得自或来源于对象的无细胞生物样本来鉴定或监测妊娠相关状态的方法、系统和试剂盒。可以分析从对象获得的无细胞生物样本(例如血浆样本)以鉴定妊娠相关状态(其中可能包括,例如,测量妊娠相关状态的存在、不存在或相对评估)。此类对象可以包括具有一种或多种妊娠相关状态的对象和没有妊娠相关状态的对象。妊娠相关状态可以包括,例如,早产、足月产、胎龄、预产期(例如,对象的未出生婴儿或胎儿的预产期)、分娩发作、妊娠相关高血压病症(例如先兆子痫)、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症(例如,产后抑郁、出血或出血过多、肺栓塞、心肌病、糖尿病、贫血和高血压疾病)、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况(例如贫血、呼吸暂停、心动过缓和其他心脏缺陷、支气管肺发育不良或慢性肺病、糖尿病、腹裂、脑积水、高胆红素血症、低钙血症、低血糖、脑室内出血、黄疸、坏死性小肠结肠炎、动脉导管未闭、脑室周围白质软化、持续性肺动脉高压、红细胞增多症、呼吸窘迫综合征、早产儿视网膜病变和暂时性呼吸急促),以及胎儿发育阶段或状态(例如,正常胎儿器官功能或发育和异常胎儿器官功能或发育)。例如,胎儿发育阶段或状态可能与胎儿器官的正常胎儿器官功能或发育和/或异常胎儿器官功能或发育有关,该胎儿器官选自心脏、大肠、小肠、视网膜、前额叶皮层、中脑、肾脏和食道。
在一方面,本公开提供了一种用于鉴定对象的妊娠相关状态的存在或易感性的方法,包括测定来源于对象的无细胞生物样本中的转录物和/或代谢物以检测生物标志物集,以及使用经训练算法分析该生物标志物集以确定妊娠相关状态的存在或易感性。在一些实施方案中,该方法包括测定来源于对象的无细胞生物样本中的转录物以检测该生物标志物集。在一些实施方案中,用核酸测序测定转录物。在一些实施方案中,该方法包括测定来源于对象的无细胞生物样本中的代谢物以检测该生物标志物集。在一些实施方案中,用代谢组学测定来测定代谢物。
在另一个方面,本公开提供了一种用于鉴定对象的妊娠相关状态的存在或易感性的方法,包括测定来源于对象的无细胞生物样本以检测生物标志物集,以及使用经训练算法分析该生物标志物集,从而以至少约80%的精度确定至少三种不同的妊娠相关状态的集之中的妊娠相关状态的存在或易感性。
在一些实施方案中,妊娠相关状态选自早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症(例如先兆子痫)、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症(例如,产后抑郁、出血或出血过多、肺栓塞、心肌病、糖尿病、贫血和高血压疾病)、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况(例如贫血、呼吸暂停、心动过缓和其他心脏缺陷、支气管肺发育不良或慢性肺病、糖尿病、腹裂、脑积水、高胆红素血症、低钙血症、低血糖、脑室内出血、黄疸、坏死性小肠结肠炎、动脉导管未闭、脑室周围白质软化、持续性肺动脉高压、红细胞增多症、呼吸窘迫综合征、早产儿视网膜病变和暂时性呼吸急促),以及胎儿发育阶段或状态(例如,正常胎儿器官功能或发育和异常胎儿器官功能或发育)。例如,胎儿发育阶段或状态可能与胎儿器官的正常胎儿器官功能或发育和/或异常胎儿器官功能或发育有关,该胎儿器官选自心脏、大肠、小肠、视网膜、前额叶皮层、中脑、肾脏和食道。
在一些实施方案中,妊娠相关状态是早产亚型,并且至少三种不同的妊娠相关状态包括至少两种不同的早产亚型。在一些实施方案中,早产亚型是早产分子亚型,并且至少两种不同的早产亚型包括至少两种不同的早产分子亚型。在一些实施方案中,不同的早产分子亚型包括选自以下早产分子亚型:既往早产的存在或病史、自发性早产的存在或病史、晚期流产的存在或病史、接受宫颈手术的存在或病史、子宫异常的存在或病史、种族特异性早产风险(例如,在非洲裔美国人中)的存在或病史,以及早产胎膜早破(PPROM)的存在或病史。
在一些实施方案中,妊娠相关状态是先兆子痫亚型,并且至少三种不同的妊娠相关状态包括至少两种不同的子痫亚型。在一些实施方案中,不同的先兆子痫分子亚型包括选自以下先兆子痫分子亚型:慢性或原有高血压的存在或病史、妊娠高血压的存在或病史、轻度先兆子痫的存在或病史(例如,分娩大于34周胎龄)、重度先兆子痫的存在或病史(分娩小于34周胎龄)、子痫的存在或病史,以及HELLP综合征的存在或病史。
在一些实施方案中,该方法进一步包括至少部分地基于妊娠相关状态的存在或易感性来鉴定对象的临床干预。在一些实施方案中,该临床干预选自多个临床干预。在一些实施方案中,该方法进一步包括确定所述对象的所述妊娠相关状态的所述易感性的似然性,之后可以向对象提供临床干预。在一些实施方案中,临床干预包括药理学、外科或规程治疗,以减轻所述对象的所述未来易感性妊娠相关状态的严重性、延迟或消除所述未来易感性妊娠相关状态(例如,用于先兆子痫的阿司匹林和用于早产的类固醇)。
在一些实施方案中,该生物标志物集包括与预产期相关联的基因组位点,其中基因组位点选自表1、表7和表10中列出的基因。在一些实施方案中,该生物标志物集包括与胎龄相关联的基因组位点,其中该基因组位点选自表2中列出的基因、表3中列出的基因、表4中列出的基因、表23中列出的基因、表24中列出的基因、表25中列出的基因和表26中列出的基因。在一些实施方案中,该生物标志物集包括与早产相关联的基因组位点,其中该基因组位点选自表5中列出的基因、表6中列出的基因、表8中列出的基因、RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。在一些实施方案中,该生物标志物集包括与早产相关联的基因组位点,其中该基因组位点选自表12中列出的基因、表14中列出的基因、表20中列出的基因、表21中列出的基因、表34中列出的基因、表40中列出的基因、表41中列出的基因、表42中列出的基因、表43中列出的基因、表44中列出的基因、表45中列出的基因、表46中列出的基因、表47中列出的基因。在一些实施方案中,所述一个或多个基因组位点的分组(panel)包括与先兆子痫相关联的基因组位点,其中该基因组位点选自表15中列出的基因、表17中列出的基因、表18中列出的基因、表19中列出的基因、表27中列出的基因、表33中列出的基因、CLDN7、PAPPA2、SNORD14A、PLEKHH1、MAGEA10、TLE6和FABP1。在一些实施方案中,所述一个或多个基因组位点的分组包括与胎儿器官发育相关联的基因组位点,其中该基因组位点选自表29中列出的基因。在一些实施方案中,该生物标志物集包括与妊娠期糖尿病相关联的基因组位点,其中该基因组位点选自表36中列出的基因、表37中列出的基因、表38中列出的基因和表39中列出的基因。
在一些实施方案中,该生物标志物集包括至少5个不同的基因组位点。在一些实施方案中,该生物标志物集包括至少10个不同的基因组位点。在一些实施方案中,该生物标志物集包括至少25个不同的基因组位点。在一些实施方案中,该生物标志物集包括至少50个不同的基因组位点。在一些实施方案中,该生物标志物集包括至少100个不同的基因组位点。在一些实施方案中,该生物标志物集包括至少150个不同的基因组位点。
在另一个方面,本公开提供了一种方法,该方法包括测定来源于对象的无细胞生物样本;确定所述对象患有先兆子痫或有患有先兆子痫的风险;以及在鉴定所述对象患有先兆子痫或有患有先兆子痫的风险后,向所述对象施用抗高血压药物。
在另一个方面,本公开提供了一种用于鉴定或监测对象的妊娠相关状态的存在或易感性的方法,包括:(a)使用第一测定处理来源于所述对象的无细胞生物样本,以生成第一数据集;(b)使用第二测定处理来源于所述对象的阴道或宫颈生物样本,以生成包括所述阴道或宫颈生物样本的微生物组谱的第二数据集;(c)使用算法(例如,经训练算法)处理至少所述第一数据集和所述第二数据集以确定所述妊娠相关状态的所述存在或易感性,该经训练算法在50个独立样本中具有至少约80%的准确度;以及(d)以电子方式输出指示所述对象的妊娠相关状态的所述存在或易感性的报告。
在另一个方面,本公开提供了一种用于鉴定或监测对象的妊娠相关状态的存在或易感性的方法,包括:(a)使用第一测定处理来源于所述对象的无细胞生物样本,以生成第一数据集;(b)使用第二测定处理来源于所述对象的第二样本,以生成包括所述第二生物样本的生物标志物谱(例如,DNA遗传谱、甲基化谱、RNA转录组谱、转录产物谱、蛋白质组谱、代谢组谱和/或微生物组谱)的第二数据集;(c)使用算法(例如,经训练算法)处理至少所述第一数据集和所述第二数据集以确定所述妊娠相关状态的所述存在或易感性,该经训练算法在50个独立样本中具有至少约80%的准确度;以及(d)以电子方式输出指示所述对象的妊娠相关状态的所述存在或易感性的报告。
在另一个方面,本公开提供了一种用于鉴定或监测对象的妊娠相关状态的存在或易感性的方法,包括:(a)使用第一测定处理来源于所述对象的无细胞生物样本,以生成第一数据集;(b)使用包含来源于对象的医疗记录的临床数据的第二数据集;(c)使用算法(例如,经训练算法)处理至少所述第一数据集和所述第二数据集以确定所述妊娠相关状态的所述存在或易感性,该经训练算法在50个独立样本中具有至少约80%的准确度;以及(d)以电子方式输出指示所述对象的妊娠相关状态的所述存在或易感性的报告。
在一些实施方案中,所述第一测定包括使用来源于所述无细胞生物样本的无细胞核糖核酸(cfRNA)分子来生成转录组学数据,使用来源于所述无细胞生物样本的转录产物(例如,信使RNA、转移RNA或核糖体RNA)来生成转录产物数据,使用来源于所述无细胞生物样本的无细胞脱氧核糖核酸(cfDNA)分子来生成基因组数据和/或甲基化数据,使用来源于所述无细胞生物样本的蛋白质(例如,对应于妊娠相关联基因组位点或基因的妊娠相关蛋白质)来生成蛋白质组学数据,或使用来源于所述无细胞生物样本的代谢物来生成代谢组学数据。在一些实施方案中,所述无细胞生物样本来自所述对象的血液。在一些实施方案中,所述无细胞生物样本来自所述对象的尿液。在一些实施方案中,所述第一测定包括使用来源于所述无细胞生物样本的无细胞核糖核酸(cfRNA)分子来生成转录组学数据,并且所述第二测定包括使用来源于所述无细胞生物样本的蛋白质(例如,对应于妊娠相关联基因组位点或基因的妊娠相关蛋白质)来生成蛋白质组学数据。在一些实施方案中,所述第一测定包括使用来源于所述无细胞生物样本的无细胞脱氧核糖核酸(cfDNA)分子来生成基因组数据和/或甲基化数据,并且所述第二测定包括使用来源于所述无细胞生物样本的蛋白质(例如,对应于妊娠相关联基因组位点或基因的妊娠相关蛋白质)来生成蛋白质组学数据。
在一些实施方案中,所述第一数据集包括与所述妊娠相关状态相关联的第一生物标志物集。在一些实施方案中,所述第二数据集包括与所述妊娠相关状态相关联的第二生物标志物集。在一些实施方案中,所述第二生物标志物集不同于所述第一生物标志物集。
在一些实施方案中,所述妊娠相关状态选自早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症、先兆子痫、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况,以及胎儿发育阶段或状态。
在一些实施方案中,所述妊娠相关状态包括早产。在一些实施方案中,所述妊娠相关状态包括胎龄。在一些实施方案中,所述妊娠相关状态包括先兆子痫。
在一些实施方案中,所述无细胞生物样本选自无细胞核糖核酸(cfRNA)、无细胞脱氧核糖核酸(cfDNA)、无细胞胎儿DNA(cffDNA)、血浆、血清、尿液、唾液、羊水及其衍生物。在一些实施方案中,所述无细胞生物样本是使用乙二胺四乙酸(EDTA)收集管、无细胞RNA收集管或无细胞DNA收集管获得自或来源于所述对象。在一些实施方案中,该方法进一步包括对所述对象的全血样本进行分级分离以获得所述无细胞生物样本。
在一些实施方案中,所述第一测定包括cfRNA测定或代谢组学测定。在一些实施方案中,所述代谢组学测定包括靶向质谱(MS)或免疫测定。在一些实施方案中,所述无细胞生物样本包括cfRNA或尿液。在一些实施方案中,所述第一测定或所述第二测定包括定量聚合酶链反应(qPCR)。在一些实施方案中,所述第一测定或所述第二测定包括被配置为在家庭环境中进行的家用测试。
在一些实施方案中,所述经训练算法以至少约80%的灵敏度确定所述对象的所述妊娠相关状态的所述存在或易感性。在一些实施方案中,所述经训练算法以至少约90%的灵敏度确定所述对象的所述妊娠相关状态的所述存在或易感性。在一些实施方案中,所述经训练算法以至少约95%的灵敏度确定所述对象的所述妊娠相关状态的所述存在或易感性。
在一些实施方案中,所述经训练算法以至少约70%的阳性预测值(PPV)确定所述对象的所述妊娠相关状态的所述存在或易感性。在一些实施方案中,所述经训练算法以至少约80%的阳性预测值(PPV)确定所述对象的所述妊娠相关状态的所述存在或易感性。在一些实施方案中,所述经训练算法以至少约90%的阳性预测值(PPV)确定所述对象的所述妊娠相关状态的所述存在或易感性。
在一些实施方案中,所述经训练算法以至少约0.90的曲线下面积(AUC)确定所述对象的所述妊娠相关状态的所述存在或易感性。在一些实施方案中,所述经训练算法以至少约0.95的曲线下面积(AUC)确定所述对象的所述妊娠相关状态的所述存在或易感性。在一些实施方案中,所述经训练算法以至少约0.99的曲线下面积(AUC)确定所述对象的所述妊娠相关状态的所述存在或易感性。
在一些实施方案中,所述对象针对以下一项或多项是无症状的:早产、分娩发作、妊娠相关高血压病症、先兆子痫、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况,以及异常胎儿发育阶段或状态。例如,胎儿发育阶段或状态可能与胎儿器官的正常胎儿器官功能或发育和/或异常胎儿器官功能或发育有关,该胎儿器官选自心脏、大肠、小肠、视网膜、前额叶皮层、中脑、肾脏和食道。
在一些实施方案中,所述无细胞生物样本是在给定胎龄间隔内收集自所述对象,用于检测妊娠相关状态。在一些实施方案中,所述给定胎龄间隔为给定胎龄的约1天、约2天、约3天、约4天、约5天、约6天、约7天、约8天、约9天、约10天、约11天、约12天、约13天、约14天、约3周或约4周内。在一些实施方案中,所述给定胎龄为约0周、约1周、约2周、约3周、约4周、约5周、约6周、约7周、约8周、约9周、约10周、约11周、约12周、约13周、约14周、约15周、约16周、约17周、约18周、约19周、约20周、约21周、约22周、约23周、约24周、约25周、约26周、约27周、约28周、约29周、约30周、约31周、约32周、约33周、约34周、约35周、约36周、约37周、约38周、约39周、约40周、约41周、约42周、约43周、约44周或约45周。所述妊娠相关状态包括以下一种或多种:早产、分娩发作、妊娠相关高血压病症、先兆子痫、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况,以及异常胎儿发育阶段或状态。例如,胎儿发育阶段或状态可能与胎儿器官的正常胎儿器官功能或发育和/或异常胎儿器官功能或发育有关,该胎儿器官选自心脏、大肠、小肠、视网膜、前额叶皮层、中脑、肾脏和食道。
在一些实施方案中,所述经训练算法使用至少约10个与所述妊娠相关状态的所述存在或易感性相关联的独立训练样本进行训练。在一些实施方案中,所述经训练算法使用不多于约100个与所述妊娠相关状态的所述存在或易感性相关联的独立训练样本进行训练。在一些实施方案中,所述经训练算法使用与所述妊娠相关状态的存在或易感性相关联的第一独立训练样本集和与所述妊娠相关状态的不存在或无易感性相关联的第二独立训练样本集进行训练。在一些实施方案中,该方法进一步包括使用所述经训练算法来处理所述对象的临床健康数据集,以确定所述妊娠相关状态的所述存在或易感性。
在一些实施方案中,(a)包括(i)使所述无细胞生物样本经受足以分离、富集或提取核糖核酸(RNA)分子、脱氧核糖核酸(DNA)分子、转录产物(例如信使RNA、转移RNA或核糖体RNA)、蛋白质(例如对应于妊娠相关联基因组位点或基因的妊娠相关蛋白质)或代谢物的集的条件,以及(ii)使用所述第一测定分析所述RNA分子、DNA分子、蛋白质或代谢物的集,以生成所述第一数据集。在一些实施方案中,该方法进一步包括从所述无细胞生物样本中提取核酸分子集,以及对所述核酸分子集进行测序以生成测序读数集,其中所述第一数据集包括所述测序读数集。在一些实施方案中,(b)包括(i)使所述阴道或宫颈生物样本经受于足以分离、富集或提取微生物群的条件,以及(ii)使用所述第二测定分析所述微生物群以生成所述第二数据集。
在一些实施方案中,所述测序是大规模并行测序。在一些实施方案中,所述测序包括核酸扩增。在一些实施方案中,所述核酸扩增包括聚合酶链反应(PCR)。在一些实施方案中,所述测序包括使用同时的逆转录(RT)和聚合酶链反应(PCR)。在一些实施方案中,该方法进一步包括使用探针,这些探针被配置为选择性地富集对应于一个或多个基因组位点的分组的所述核酸分子集。在一些实施方案中,所述探针是核酸引物。在一些实施方案中,所述探针具有与所述一个或多个基因组位点的所述分组的核酸序列互补的序列。
在一些实施方案中,所述一个或多个基因组位点的所述分组包括选自以下的至少一个基因组位点:ACTB、ADAM12、ALPP、ANXA3、APLF、ARG1、AVPR1A、CAMP、CAPN6、CD180、CGA、CGB、CLCN3、CPVL、CSH1、CSH2、CSHL1、CYP3A7、DAPP1、DCX、DEFA4、DGCR14、ELANE、ENAH、EPB42、FABP1、FAM212B-AS1、FGA、FGB、FRMD4B、FRZB、FSTL3、GH2、GNAZ、HAL、HSD17B1、HSD3B1、HSPB8、Immune、ITIH2、KLF9、KNG1、KRT8、LGALS14、LTF、LYPLAL1、MAP3K7CL、MEF2C、MMD、MMP8、MOB1B、NFATC2、OTC、P2RY12、PAPPA、PGLYRP1、PKHD1L1、PKHD1L1、PLAC1、PLAC4、POLE2、PPBP、PSG1、PSG4、PSG7、PTGER3、RAB11A、RAB27B、RAP1GAP、RGS18、RPL23AP7、S100A8、S100A9、S100P、SERPINA7、SLC2A2、SLC38A4、SLC4A1、TBC1D15、VCAN、VGLL1、B3GNT2、COL24A1、CXCL8和PTGS2。
在一些实施方案中,所述一个或多个基因组位点的所述分组包括至少5个不同的基因组位点。在一些实施方案中,所述一个或多个基因组位点的所述分组包括至少10个不同的基因组位点。
在一些实施方案中,所述一个或多个基因组位点的所述分组包括与早产相关联的基因组位点,其中所述基因组位点选自ADAM12、ANXA3、APLF、AVPR1A、CAMP、CAPN6、CD180、CGA、CGB、CLCN3、CPVL、CSH2、CSHL1、CYP3A7、DAPP1、DGCR14、ELANE、ENAH、FAM212B-AS1、FRMD4B、GH2、HSPB8、Immune、KLF9、KRT8、LGALS14、LTF、LYPLAL1、MAP3K7CL、MMD、MOB1B、NFATC2、P2RY12、PAPPA、PGLYRP1、PKHD1L1、PKHD1L1、PLAC1、PLAC4、POLE2、PPBP、PSG1、PSG4、PSG7、RAB11A、RAB27B、RAP1GAP、RGS18、RPL23AP7、TBC1D15、VCAN、VGLL1、B3GNT2、COL24A1、CXCL8和PTGS2。
在一些实施方案中,所述一个或多个基因组位点的所述分组包括与胎龄相关联的基因组位点,其中所述基因组位点选自ACTB、ADAM12、ALPP、ANXA3、ARG1、CAMP、CAPN6、CGA、CGB、CSH1、CSH2、CSHL1、CYP3A7、DCX、DEFA4、EPB42、FABP1、FGA、FGB、FRZB、FSTL3、GH2、GNAZ、HAL、HSD17B1、HSD3B1、HSPB8、ITIH2、KNG1、LGALS14、LTF、MEF2C、MMP8、OTC、PAPPA、PGLYRP1、PLAC1、PLAC4、PSG1、PSG4、PSG7、PTGER3、S100A8、S100A9、S100P、SERPINA7、SLC2A2、SLC38A4、SLC4A1、VGLL1、RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。
在一些实施方案中,所述一个或多个基因组位点的分组包括与预产期相关联的基因组位点,其中基因组位点选自表1、表7和表10中列出的基因。在一些实施方案中,所述一个或多个基因组位点的分组包括与胎龄相关联的基因组位点,其中基因组位点选自表2中列出的基因、表3中列出的基因、表4中列出的基因、表23中列出的基因、表24中列出的基因、表25中列出的基因和表26中列出的基因。在一些实施方案中,所述一个或多个基因组位点的分组包括与早产相关联的基因组位点,其中基因组位点选自表5中列出的基因、表6中列出的基因、表8中列出的基因、表12中列出的基因、表14中列出的基因、表20中列出的基因、表21中列出的基因、表34中列出的基因、表40中列出的基因、表41中列出的基因、表42中列出的基因、表43中列出的基因、表44中列出的基因、表45中列出的基因、表46中列出的基因、表47中列出的基因、RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。在一些实施方案中,所述一个或多个基因组位点的分组包括与先兆子痫相关联的基因组位点,其中该基因组位点选自表15中列出的基因、表17中列出的基因、表18中列出的基因、表19中列出的基因、表27中列出的基因、表33中列出的基因、CLDN7、PAPPA2、SNORD14A、PLEKHH1、MAGEA10、TLE6和FABP1。在一些实施方案中,所述一个或多个基因组位点的分组包括与胎儿器官发育相关联的基因组位点,其中该基因组位点选自表29中列出的基因。在一些实施方案中,该生物标志物集包括与妊娠期糖尿病相关联的基因组位点,其中该基因组位点选自表36中列出的基因、表37中列出的基因、表38中列出的基因和表39中列出的基因。在一些实施方案中,该一个或多个基因组位点的分组包括至少5个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括至少10个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括至少25个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括至少50个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括至少100个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括至少150个不同的基因组位点。
在一些实施方案中,所述无细胞生物样本在没有核酸分离、富集或提取的情况下进行处理。
在一些实施方案中,所述报告呈现在用户的电子设备的图形用户界面上。在一些实施方案中,所述用户是所述对象。
在一些实施方案中,该方法进一步包括确定所述对象的所述妊娠相关状态的所述存在或易感性的所述确定的似然性。
在一些实施方案中,所述经训练算法包括监督机器学习算法。在一些实施方案中,所述监督机器学习算法包括深度学习算法、支持向量机(SVM)、神经网络或随机森林。在一些实施方案中,所述经训练算法包括差异表达算法。在一些实施方案中,所述差异表达算法包括随机模型、广义泊松(GPseq)、混合泊松(TSPM)、泊松对数线性(PoissonSeq)、负二项式(edgeR、DESeq、baySeq、NBPSeq)、MAANOVA拟合的线性模型或其组合。
在一些实施方案中,该方法进一步包括向所述对象提供针对所述妊娠相关状态的所述存在或易感性的治疗性干预。在一些实施方案中,所述治疗性干预包括己酸羟孕酮、阴道黄体酮、天然黄体酮IVR产物、前列腺素F2α受体拮抗剂、或β2-肾上腺素能受体激动剂。
在一些实施方案中,该方法进一步包括监测所述妊娠相关状态的所述存在或易感性,其中所述监测包括在多个时间点评估所述对象的所述妊娠相关状态的所述存在或易感性,其中所述评估至少基于在所述多个时间点中的每一个处在(d)中确定的所述妊娠相关状态的所述存在或易感性。
在一些实施方案中,所述多个时间点之间对所述对象的所述妊娠相关状态的存在或易感性的所述评估的差异指示选自以下的一个或多个临床适应症:(i)所述对象的所述妊娠相关状态的所述存在或易感性的诊断,(ii)所述对象的所述妊娠相关状态的所述存在或易感性的预后,以及(iii)治疗所述对象的所述妊娠相关状态的所述存在或易感性的疗程的有效性或无效性。
在一些实施方案中,该方法进一步包括通过使用所述经训练算法从多个不同的早产分子亚型中确定所述早产分子亚型来对所述早产进行分层。在一些实施方案中,该多个不同的早产分子亚型包括选自以下的早产分子亚型:既往早产的存在或病史、自发性早产的存在或病史、晚期流产的存在或病史、接受宫颈手术的存在或病史、子宫异常的存在或病史、种族特异性早产风险(例如,在非洲裔美国人中)的存在或病史,以及早产胎膜早破(PPROM)的存在或病史。
在一些实施方案中,该方法进一步包括通过使用所述经训练算法从多个不同的先兆子痫分子亚型中确定所述先兆子痫分子亚型来对所述先兆子痫进行分层,该多个不同的先兆子痫分子亚型包括选自以下的先兆子痫分子亚型:慢性/原有高血压、妊娠高血压、轻度先兆子痫(分娩>34周)、重度先兆子痫(分娩<34周)、子痫、HELLP综合征。
在另一个方面,本公开提供了一种用于预测对象的早产风险的计算机实施的方法,包括:(a)接收所述对象的临床健康数据,其中所述临床健康数据包括所述对象的多个定量量度或分类量度;(b)使用算法(例如,经训练算法)处理所述对象的所述临床健康数据,以确定指示所述对象的所述早产风险的风险评分;以及(c)以电子方式输出指示所述对象的所述早产风险的所述风险评分的报告。
在另一个方面,本公开提供了一种用于预测对象的先兆子痫风险的计算机实施的方法,包括:(a)接收所述对象的临床健康数据,其中所述临床健康数据包括所述对象的多个定量量度或分类量度;(b)使用算法(例如,经训练算法)处理所述对象的所述临床健康数据,以确定指示所述对象的所述早产风险的风险评分;以及(c)以电子方式输出指示所述对象的所述先兆子痫风险的所述风险评分的报告。
在一些实施方案中,所述临床健康数据包括选自以下的一个或多个定量量度:年龄、体重、身高、体重指数(BMI)、血压、心率、血糖水平、既往妊娠次数和既往生育次数。在一些实施方案中,所述临床健康数据包括选自以下的一个或多个分类量度:人种、种族、、药物或其他临床治疗史、吸烟史、饮酒史、日常活动或健康水平、基因检测结果、血液测试结果、成像结果和胎儿筛查结果。
在一些实施方案中,所述经训练算法以以下灵敏度确定所述对象的所述早产风险:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%,至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。在一些实施方案中,所述经训练算法以以下特异性确定所述对象的所述早产风险:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。在一些实施方案中,所述经训练算法以以下阳性预测值(PPV)确定所述对象的所述早产风险:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。在一些实施方案中,所述经训练算法以以下阴性预测值(NPV)确定所述对象的所述早产风险:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。在一些实施方案中,所述经训练算法以以下曲线下面积(AUC)确定所述对象的所述早产风险:至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.81、至少约0.82、至少约0.83、至少约0.84、至少约0.85、至少约0.86、至少约0.87、至少约0.88、至少约0.89、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99。
在一些实施方案中,所述经训练算法以以下灵敏度确定所述对象的所述先兆子痫风险:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。在一些实施方案中,所述经训练算法以以下特异性确定所述对象的所述先兆子痫风险:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。在一些实施方案中,所述经训练算法以以下阳性预测值(PPV)确定所述对象的所述先兆子痫风险:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。在一些实施方案中,所述经训练算法以以下阴性预测值(NPV)确定所述对象的所述先兆子痫风险:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。在一些实施方案中,所述经训练算法以以下曲线下面积(AUC)确定所述对象的所述先兆子痫风险:至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.81、至少约0.82、至少约0.83、至少约0.84、至少约0.85、至少约0.86、至少约0.87、至少约0.88、至少约0.89、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99。
在一些实施方案中,所述对象针对以下一项或多项是无症状的:早产、分娩发作、妊娠相关高血压病症、先兆子痫、子痫、妊娠期糖尿病、所述对象的胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况,以及异常胎儿发育阶段或状态。例如,胎儿发育阶段或状态可能与胎儿器官的正常胎儿器官功能或发育和/或异常胎儿器官功能或发育有关,该胎儿器官选自心脏、大肠、小肠、视网膜、前额叶皮层、中脑、肾脏和食道。
在一些实施方案中,所述经训练算法使用至少约10个与早产相关联的独立训练样本进行训练。在一些实施方案中,所述经训练算法使用不多于约100个与早产相关联的独立训练样本进行训练。在一些实施方案中,所述经训练算法使用与早产的存在相关联的第一独立训练样本集和与早产的不存在相关联的第二独立训练样本集进行训练。
在一些实施方案中,所述经训练算法使用至少约10个与先兆子痫相关联的独立训练样本进行训练。在一些实施方案中,所述经训练算法使用不多于约100个与先兆子痫相关联的独立训练样本进行训练。在一些实施方案中,所述经训练算法使用与先兆子痫的存在相关联的第一独立训练样本集和与先兆子痫的不存在相关联的第二独立训练样本集进行训练。
在一些实施方案中,所述报告呈现在用户的电子设备的图形用户界面上。在一些实施方案中,所述用户是所述对象。
在一些实施方案中,所述经训练算法包括监督机器学习算法。在一些实施方案中,所述监督机器学习算法包括深度学习算法、支持向量机(SVM)、神经网络或随机森林。在一些实施方案中,所述经训练算法包括差异表达算法。在一些实施方案中,所述差异表达算法包括随机模型、广义泊松(GPseq)、混合泊松(TSPM)、泊松对数线性(PoissonSeq)、负二项式(edgeR、DESeq、baySeq、NBPSeq)、MAANOVA拟合的线性模型或其组合。
在一些实施方案中,该方法进一步包括至少部分基于指示所述早产风险的所述风险评分向所述对象提供治疗性干预。在一些实施方案中,所述治疗性干预包括己酸羟孕酮、阴道黄体酮、天然黄体酮IVR产物、前列腺素F2α受体拮抗剂、或β2-肾上腺素能受体激动剂。
在一些实施方案中,该方法进一步包括至少部分基于指示所述先兆子痫风险的所述风险评分向所述对象提供治疗性干预。在一些实施方案中,所述治疗性干预包括抗高血压药物治疗(诸如但不限于肼苯哒嗪、拉贝洛尔、硝苯地平和硝普钠)、管理或预防癫痫发作(诸如但不限于硫酸镁、苯妥英和地西泮),或通过低剂量阿司匹林治疗(例如,每天100g或更少)预防来先兆子痫的发病率。
在一些实施方案中,该方法进一步包括监测所述早产风险,其中所述监测包括在多个时间点评估所述对象的所述早产风险,其中所述评估至少基于在所述多个时间点中的每一个处在(b)中确定的指示所述早产风险的所述风险评分。
在一些实施方案中,该方法进一步包括监测所述先兆子痫风险,其中所述监测包括在多个时间点评估所述对象的所述先兆子痫风险,其中所述评估至少基于在所述多个时间点的每一个处在(b)中确定的指示所述先兆子痫风险的所述风险评分。
在一些实施方案中,该方法进一步包括通过对所述对象进行一项或多项后续临床测试来改进指示所述对象的所述早产风险的所述风险评分,以及使用经训练算法处理来源于所述一项或多项后续临床测试的结果,以确定指示所述对象的所述早产风险的经更新风险评分。在一些实施方案中,所述一项或多项后续临床测试包括超声成像或血液测试。在一些实施方案中,所述风险评分包括所述对象在预定持续时间内早产的似然性。
在一些实施方案中,该方法进一步包括通过对所述对象进行一项或多项后续临床测试来改进指示所述对象的所述先兆子痫的所述风险评分,以及使用经训练算法处理来源于所述一项或多项后续临床测试的结果,以确定指示所述对象的所述先兆子痫的经更新风险评分。在一些实施方案中,所述一项或多项后续临床测试包括超声成像或血液测试。在一些实施方案中,所述风险评分包括所述对象在预定持续时间内患有先兆子痫的似然性。
在一些实施方案中,所述预定持续时间为约1小时、约2小时、约4小时、约6小时、约8小时、约10小时、约12小时、约14小时、约16小时、约18小时、约20小时、约22小时、约24小时、约1.5天、约2天、约2.5天、约3天、约3.5天、约4天、约4.5天、约5天、约5.5天、约6天、约6.5天、约7天、约8天、约9天、约10天、约12天、约14天、约3周、约4周、约5周、约6周、约7周、约8周、约9周、约10周、约11周、约12周、约13周或大于约13周。
在另一方面,本公开提供了一种用于预测对象的早产风险的计算机系统,包括:数据库,被配置为存储所述对象的临床健康数据,其中所述临床健康数据包括所述对象的多个定量量度或分类量度;和一个或多个计算机处理器,可操作地耦联到所述数据库,其中所述一个或多个计算机处理器被单独或集体编程为:(i)使用算法(例如,经训练算法)处理所述对象的所述临床健康数据,以确定指示所述对象的所述早产风险的风险评分;以及(ii)以电子方式输出指示所述对象的所述早产风险的所述风险评分的报告。
在另一方面,本公开提供了一种用于预测对象的先兆子痫风险的计算机系统,包括:数据库,被配置为存储所述对象的临床健康数据,其中所述临床健康数据包括所述对象的多个定量量度或分类量度;和一个或多个计算机处理器,可操作地耦联到所述数据库,其中所述一个或多个计算机处理器被单独或集体编程为:(i)使用算法(例如,经训练算法)处理所述对象的所述临床健康数据,以确定指示所述对象的所述先兆子痫风险的风险评分;以及(ii)以电子方式输出指示所述对象的所述先兆子痫风险的所述风险评分的报告。
在一些实施方案中,该计算机系统进一步包括可操作地耦联到所述一个或多个计算机处理器的电子显示器,其中所述电子显示器包括被配置为显示所述报告的图形用户界面。
在另一方面,本公开提供了一种非暂时性计算机可读介质,包括机器可执行代码,其在由一个或多个计算机处理器执行时,实施用于预测对象的早产风险的方法,所述方法包括:(a)接收所述对象的临床健康数据,其中所述临床健康数据包括所述对象的多个定量量度或分类量度;(b)使用算法(例如,经训练算法)处理所述对象的所述临床健康数据,以确定指示所述对象的所述早产风险的风险评分;以及(c)以电子方式输出指示所述对象的所述早产风险的所述风险评分的报告。
在另一方面,本公开提供了一种非暂时性计算机可读介质,包括机器可执行代码,其在由一个或多个计算机处理器执行时,实施用于预测对象的先兆子痫风险的方法,所述方法包括:(a)接收所述对象的临床健康数据,其中所述临床健康数据包括所述对象的多个定量量度或分类量度;(b)使用算法(例如,经训练算法)处理所述对象的所述临床健康数据,以确定指示所述对象的所述早产风险的风险评分;以及(c)以电子方式输出指示所述对象的所述先兆子痫风险的所述风险评分的报告。
在另一方面,本公开提供了一种用于确定妊娠对象的胎儿的预产期、预产期范围或胎龄的方法,包括测定来源于所述妊娠对象的无细胞生物样本以检测生物标志物集,以及用经训练算法分析所述生物标志物集以确定所述胎儿的所述预产期、预产期范围、或胎龄。
在一些实施方案中,该方法进一步包括使用所述经训练算法分析所述妊娠对象的所述胎儿的估计预产期,其中所述估计预产期由所述胎儿的超声测量结果生成。在一些实施方案中,所述生物标志物集包括与预产期相关联的基因组位点,其中所述基因组位点选自表1、表7和表10中列出的基因。
在一些实施方案中,所述生物标志物集包括至少5个不同的基因组位点。在一些实施方案中,所述生物标志物集包括至少10个不同的基因组位点。在一些实施方案中,所述生物标志物集包括至少25个不同的基因组位点。在一些实施方案中,所述生物标志物集包括至少50个不同的基因组位点。在一些实施方案中,所述生物标志物集包括至少100个不同的基因组位点。在一些实施方案中,所述生物标志物集包括至少150个不同的基因组位点。
在一些实施方案中,该方法进一步包括至少部分地基于所述确定的预产期来鉴定所述妊娠对象的临床干预。在一些实施方案中,所述临床干预选自多个临床干预。在一些实施方案中,该方法进一步包括确定所述对象的所述妊娠相关状态的所述易感性的似然性,之后可以向对象提供临床干预。在一些实施方案中,临床干预包括药理学、外科或规程治疗,以减轻所述对象的所述未来易感性妊娠相关状态的严重性、延迟或消除所述未来易感性妊娠相关状态(例如,用于PE的阿司匹林和用于PTB的类固醇)。
在一些实施方案中,所述距分娩时间小于7.5周。在一些实施方案中,所述基因组位点选自ACKR2、AKAP3、ANO5、C1orf21、C2orf42、CARNS1、CASC15、CCDC102B、CDC45、CDIPT、CMTM1、COPS8、CTD-2267D19.3、CTD-2349P21.9、CXorf65、DDX11L1、DGUOK、DPAGT1、EIF4A1P2、FANK1、FERMT1、FKRP、GAMT、GOLGA6L4、KLLN、LINC01347、LTA、MAPK12、METRN、MKRN4P、MPC2、MYL12BP1、NME4、NPM1P30、PCLO、PIF1、PTP4A3、RIMKLB、RP13-88F20.1、S100B、SIGLEC14、SLAIN1、SPATA33、TFAP2C、TMSB4XP8、TRGV10和ZNF124。
在一些实施方案中,所述距分娩时间小于5周。在一些实施方案中,所述基因组位点选自C2orf68、CACNB3、CD40、CDKL5、CTBS、CTD-2272G21.2、CXCL8、DHRS7B、EIF5A2、IFITM3、MIR24-2、MTSS1、MYSM1、NCK1-AS1、NR1H4、PDE1C、PEMT、PEX7、PIF1、PPP2R3A、RABIF、SIGLEC14、SLC25A53、SPANXN4、SUPT3H、ZC2HC1C、ZMYM1和ZNF124。
在一些实施方案中,所述距分娩时间小于7.5周。在一些实施方案中,所述基因组位点选自ACKR2、AKAP3、ANO5、C1orf21、C2orf42、CARNS1、CASC15、CCDC102B、CDC45、CDIPT、CMTM1、collectionga、COPS8、CTD-2267D19.3、CTD-2349P21.9、DDX11L1、DGUOK、DPAGT1、EIF4A1P2、FANK1、FERMT1、FKRP、GAMT、GOLGA6L4、KLLN、LINC01347、LTA、MAPK12、METRN、MPC2、MYL12BP1、NME4、NPM1P30、PCLO、PIF1、PTP4A3、RIMKLB、RP13-88F20.1、S100B、SIGLEC14、SLAIN1、SPATA33、STAT1、TFAP2C、TMEM94、TMSB4XP8、TRGV10、ZNF124和ZNF713。
在一些实施方案中,所述距分娩时间小于5周。在一些实施方案中,所述基因组位点选自ATP6V1E1P1、ATP8A2、C2orf68、CACNB3、CD40、CDKL4、CDKL5、CEP152、CLEC4D、COL18A1、collectionga、COX16、CTBS、CTD-2272G21.2、CXCL2、CXCL8、DHRS7B、DPPA4、EIF5A2、FERMT1、GNB1L、IFITM3、KATNAL1、LRCH4、MBD6、MIR24-2、MTSS1、MYSM1、NCK1-AS1、NPIPB4、NR1H4、PDE1C、PEMT、PEX7、PIF1、PPP2R3A、PXDN、RABIF、SERTAD3、SIGLEC14、SLC25A53、SPANXN4、SSH3、SUPT3H、TMEM150C、TNFAIP6、UPP1、XKR8、ZC2HC1C、ZMYM1和ZNF124。
在一些实施方案中,所述距分娩时间在以下时间内:约1小时、约2小时、约3小时、约4小时、约5小时、约6小时、约7小时、约8小时、约9小时、约10小时、约11小时、约12小时、约13小时、约14小时、约15小时、约16小时、约17小时、约18小时、约19小时、约20小时、约21小时、约22小时、约23小时、约24小时、约2天、约3天、约4天、约5天、约6天、约7天、约8天、约9天、约10天、约11天、约12天、约13天、约14天或约3周。
在一些实施方案中,所述经训练算法包括线性回归模型或ANOVA模型。在一些实施方案中,所述ANOVA模型从多个时间窗口中确定对应于所述预产期的最大似然时间窗口。在一些实施方案中,所述最大似然时间窗口对应于1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周或20周的距分娩时间。在一些实施方案中,所述ANOVA模型从多个时间窗口中确定对应于所述预产期的时间窗口的概率或似然性。在一些实施方案中,所述ANOVA模型计算所述多个时间窗口的概率加权平均值,以确定平均或预期时间窗口距离。
在另一个方面,本公开提供了一种用于鉴定或监测对象的妊娠相关状态的存在或易感性的方法,包括:(a)使用第一测定处理来源于对象的第一无细胞生物样本,以生成第一数据集;(b)至少部分基于(a)中生成的第一数据集,使用不同于第一测定的第二测定处理来源于对象的第二无细胞生物样本,以大于第一数据集的特异性生成指示妊娠相关状态的存在或易感性的第二数据集;(c)使用经训练算法处理至少第二数据集以确定妊娠相关状态的存在或易感性,该经训练算法在50个独立样本中具有至少约80%的准确度;以及(d)以电子方式输出指示对象的妊娠相关状态的存在或易感性的报告。
在一些实施方案中,第一测定包括使用来源于第一无细胞生物样本的无细胞核糖核酸(cfRNA)分子来生成转录组学数据,使用来源于所述无细胞生物样本的转录产物(例如,信使RNA、转移RNA或核糖体RNA)来生成转录产物数据,使用来源于第一无细胞生物样本的无细胞脱氧核糖核酸(cfDNA)分子来生成基因组数据和/或甲基化数据,使用来源于第一无细胞生物样本的蛋白质(例如,对应于妊娠相关联基因组位点或基因的妊娠相关蛋白质)来生成蛋白质组学数据,或使用来源于第一无细胞生物样本的代谢物来生成代谢组学数据。在一些实施方案中,第一无细胞生物样本来自对象的血液。在一些实施方案中,第一无细胞生物样本来自对象的尿液。在一些实施方案中,第一数据集包括与妊娠相关状态相关联的第一生物标志物集。在一些实施方案中,第二数据集包括与妊娠相关状态相关联的第二生物标志物集。在一些实施方案中,第二生物标志物集不同于所述第一生物标志物集。
在一些实施方案中,妊娠相关状态选自早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症(例如先兆子痫)、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症(例如,产后抑郁、出血或出血过多、肺栓塞、心肌病、糖尿病、贫血和高血压疾病)、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况(例如贫血、呼吸暂停、心动过缓和其他心脏缺陷、支气管肺发育不良或慢性肺病、糖尿病、腹裂、脑积水、高胆红素血症、低钙血症、低血糖、脑室内出血、黄疸、坏死性小肠结肠炎、动脉导管未闭、脑室周围白质软化、持续性肺动脉高压、红细胞增多症、呼吸窘迫综合征、早产儿视网膜病变和暂时性呼吸急促),以及胎儿发育阶段或状态(例如,正常胎儿器官功能或发育和异常胎儿器官功能或发育)。例如,胎儿发育阶段或状态可能与胎儿器官的正常胎儿器官功能或发育和/或异常胎儿器官功能或发育有关,该胎儿器官选自心脏、大肠、小肠、视网膜、前额叶皮层、中脑、肾脏和食道。在一些实施方案中,妊娠相关状态包括早产。在一些实施方案中,妊娠相关状态包括胎龄。
在一些实施方案中,无细胞生物样本选自无细胞核糖核酸(cfRNA)、无细胞脱氧核糖核酸(cfDNA)、无细胞胎儿DNA(cffDNA)、血浆、血清、尿液、唾液、羊水及其衍生物。在一些实施方案中,第一无细胞生物样本或第二无细胞生物样本使用乙二胺四乙酸(EDTA)收集管、无细胞RNA收集管或无细胞DNA收集管获得自或来源于所述对象。在一些实施方案中,该方法进一步包括对对象的全血样本进行分级分离以获得第一无细胞生物样本或第二无细胞生物样本。在一些实施方案中,(i)第一测定包括cfRNA测定,第二测定包括代谢组学测定,或(ii)第一测定包括代谢组学测定,第二测定包括cfRNA测定。在一些实施方案中,(i)第一无细胞生物样本包括cfRNA,第二无细胞生物样本包括尿液,或(ii)第一无细胞生物样本包括尿液,第二无细胞生物样本包括cfRNA。在一些实施方案中,第一测定或第二测定包括定量聚合酶链反应(qPCR)。在一些实施方案中,第一测定或第二测定包括被配置为在家庭环境中进行的家用测试。在一些实施方案中,第一测定或第二测定包括代谢组学测定。在一些实施方案中,代谢组学测定包括靶向质谱(MS)或免疫测定。
在一些实施方案中,第一数据集以至少约80%的灵敏度指示妊娠相关状态的存在或易感性。在一些实施方案中,第一数据集以至少约90%的灵敏度指示妊娠相关状态的存在或易感性。在一些实施方案中,第一数据集以至少约95%的灵敏度指示妊娠相关状态的存在或易感性。在一些实施方案中,第一数据集以至少约70%的阳性预测值(PPV)指示妊娠相关状态的存在或易感性。在一些实施方案中,第一数据集以至少约80%的阳性预测值(PPV)指示妊娠相关状态的存在或易感性。在一些实施方案中,第一数据集以至少约90%的阳性预测值(PPV)指示妊娠相关状态的存在或易感性。在一些实施方案中,第二数据集以至少约90%的特异性指示妊娠相关状态的存在或易感性。在一些实施方案中,第二数据集以至少约95%的特异性指示妊娠相关状态的存在或易感性。在一些实施方案中,第二数据集以至少约99%的特异性指示妊娠相关状态的存在或易感性。在一些实施方案中,第二数据集以至少约90%的阴性预测值(NPV)指示妊娠相关状态的存在或易感性。在一些实施方案中,第二数据集以至少约95%的阴性预测值(NPV)指示妊娠相关状态的存在或易感性。在一些实施方案中,第二数据集以至少约99%的阴性预测值(NPV)指示妊娠相关状态的存在或易感性。在一些实施方案中,经训练算法以至少约0.90的曲线下面积(AUC)确定对象的妊娠相关状态的存在或易感性。在一些实施方案中,经训练算法以至少约0.95的曲线下面积(AUC)确定对象的妊娠相关状态的存在或易感性。在一些实施方案中,经训练算法以至少约0.99的曲线下面积(AUC)确定对象的妊娠相关状态的存在或易感性。
在一些实施方案中,对象针对以下一项或多项是无症状的:早产、分娩发作、妊娠相关高血压病症(例如先兆子痫)、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症(例如,产后抑郁、出血或出血过多、肺栓塞、心肌病、糖尿病、贫血和高血压疾病)、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况(例如贫血、呼吸暂停、心动过缓和其他心脏缺陷、支气管肺发育不良或慢性肺病、糖尿病、腹裂、脑积水、高胆红素血症、低钙血症、低血糖、脑室内出血、黄疸、坏死性小肠结肠炎、动脉导管未闭、脑室周围白质软化、持续性肺动脉高压、红细胞增多症、呼吸窘迫综合征、早产儿视网膜病变和暂时性呼吸急促),以及异常胎儿发育阶段或状态(例如,异常胎儿器官功能或发育)。例如,胎儿发育阶段或状态可能与胎儿器官的正常胎儿器官功能或发育和/或异常胎儿器官功能或发育有关,该胎儿器官选自心脏、大肠、小肠、视网膜、前额叶皮层、中脑、肾脏和食道。
在一些实施方案中,经训练算法使用至少约10个与妊娠相关状态相关联的独立训练样本进行训练。在一些实施方案中,经训练算法使用不多于约100个与妊娠相关状态相关联的独立训练样本进行训练。在一些实施方案中,经训练算法使用与妊娠相关状态的存在相关联的第一独立训练样本集和与妊娠相关状态的不存在相关联的第二独立训练样本集进行训练。在一些实施方案中,该方法进一步包括使用经训练算法来处理第一数据集,以确定妊娠相关状态的存在或易感性。在一些实施方案中,该方法进一步包括使用经训练算法来处理对象的临床健康数据集,以确定妊娠相关状态的存在或易感性。
在一些实施方案中,(a)包括(i)使第一无细胞生物样本经受足以分离、富集或提取核糖核酸(RNA)分子、脱氧核糖核酸(DNA)分子、蛋白质(例如对应于妊娠相关联基因组位点或基因的妊娠相关蛋白质)或代谢物的第一集的条件,以及(ii)使用第一测定分析RNA分子、DNA分子、蛋白质或代谢物的第一集,以生成第一数据集。在一些实施方案中,该方法进一步包括从第一无细胞生物样本中提取第一核酸分子集,以及对第一核酸分子集进行测序以生成第一测序读数集,其中第一数据集包括第一测序读数集。在一些实施方案中,该方法进一步包括从第一无细胞生物样本中提取第一代谢物集,以及测定第一代谢物集以生成第一数据集。在一些实施方案中,(b)包括(i)使第二无细胞生物样本经受足以分离、富集或提取核糖核酸(RNA)分子、脱氧核糖核酸(DNA)分子、蛋白质(例如对应于妊娠相关联基因组位点或基因的妊娠相关蛋白质)或代谢物的第二集的条件,以及(ii)使用第二测定分析RNA分子、DNA分子、蛋白质或代谢物的第二集,以生成第二数据集。在一些实施方案中,该方法进一步包括从第二无细胞生物样本中提取第二核酸分子集,以及对第二核酸分子集进行测序以生成第二测序读数集,其中第二数据集包括第二测序读数集。在一些实施方案中,该方法进一步包括从第二无细胞生物样本中提取第二代谢物集,以及测定第二代谢物集以生成第二数据集。在一些实施方案中,测序是大规模并行测序。在一些实施方案中,测序包括核酸扩增。在一些实施方案中,核酸扩增包括聚合酶链反应(PCR)。在一些实施方案中,测序包括使用同时的逆转录(RT)和聚合酶链反应(PCR)。
在一些实施方案中,该方法进一步包括使用探针,这些探针被配置为选择性地富集对应于一个或多个基因组位点的分组的第一核酸分子集或第二核酸分子集。在一些实施方案中,探针是核酸引物。在一些实施方案中,探针具有与一个或多个基因组位点的分组的核酸序列互补的序列。在一些实施方案中,该一个或多个基因组位点的分组包括选自以下的至少一个基因组位点:ACTB、ADAM12、ALPP、ANXA3、APLF、ARG1、AVPR1A、CAMP、CAPN6、CD180、CGA、CGB、CLCN3、CPVL、CSH1、CSH2、CSHL1、CYP3A7、DAPP1、DCX、DEFA4、DGCR14、ELANE、ENAH、EPB42、FABP1、FAM212B-AS1、FGA、FGB、FRMD4B、FRZB、FSTL3、GH2、GNAZ、HAL、HSD17B1、HSD3B1、HSPB8、Immune、ITIH2、KLF9、KNG1、KRT8、LGALS14、LTF、LYPLAL1、MAP3K7CL、MEF2C、MMD、MMP8、MOB1B、NFATC2、OTC、P2RY12、PAPPA、PGLYRP1、PKHD1L1、PKHD1L1、PLAC1、PLAC4、POLE2、PPBP、PSG1、PSG4、PSG7、PTGER3、RAB11A、RAB27B、RAP1GAP、RGS18、RPL23AP7、S100A8、S100A9、S100P、SERPINA7、SLC2A2、SLC38A4、SLC4A1、TBC1D15、VCAN、VGLL1、B3GNT2、COL24A1、CXCL8和PTGS2。
在一些实施方案中,该一个或多个基因组位点的分组包括至少5个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括至少10个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括与早产相关联的基因组位点,其中所述基因组位点选自ADAM12、ANXA3、APLF、AVPR1A、CAMP、CAPN6、CD180、CGA、CGB、CLCN3、CPVL、CSH2、CSHL1、CYP3A7、DAPP1、DGCR14、ELANE、ENAH、FAM212B-AS1、FRMD4B、GH2、HSPB8、Immune、KLF9、KRT8、LGALS14、LTF、LYPLAL1、MAP3K7CL、MMD、MOB1B、NFATC2、P2RY12、PAPPA、PGLYRP1、PKHD1L1、PKHD1L1、PLAC1、PLAC4、POLE2、PPBP、PSG1、PSG4、PSG7、RAB11A、RAB27B、RAP1GAP、RGS18、RPL23AP7、TBC1D15、VCAN、VGLL1、B3GNT2、COL24A1、CXCL8和PTGS2。在一些实施方案中,该一个或多个基因组位点的分组包括与胎龄相关联的基因组位点,其中所述基因组位点选自ACTB、ADAM12、ALPP、ANXA3、ARG1、CAMP、CAPN6、CGA、CGB、CSH1、CSH2、CSHL1、CYP3A7、DCX、DEFA4、EPB42、FABP1、FGA、FGB、FRZB、FSTL3、GH2、GNAZ、HAL、HSD17B1、HSD3B1、HSPB8、ITIH2、KNG1、LGALS14、LTF、MEF2C、MMP8、OTC、PAPPA、PGLYRP1、PLAC1、PLAC4、PSG1、PSG4、PSG7、PTGER3、S100A8、S100A9、S100P、SERPINA7、SLC2A2、SLC38A4、SLC4A1、VGLL1、B3GNT2、COL24A1、CXCL8和PTGS2。在一些实施方案中,所述一个或多个基因组位点的分组包括与预产期相关联的基因组位点,其中基因组位点选自表1、表7和表10中列出的基因。在一些实施方案中,所述一个或多个基因组位点的分组包括与胎龄相关联的基因组位点,其中该基因组位点选自表2中列出的基因、表3中列出的基因、表4中列出的基因、表23中列出的基因、表24中列出的基因、表25中列出的基因和表26中列出的基因。在一些实施方案中,所述一个或多个基因组位点的分组包括与早产相关联的基因组位点,其中基因组位点选自表5中列出的基因、表6中列出的基因、表8中列出的基因、表12中列出的基因、表14中列出的基因、表20中列出的基因、表21中列出的基因、表34中列出的基因、表40中列出的基因、表41中列出的基因、表42中列出的基因、表43中列出的基因、表44中列出的基因、表45中列出的基因、表46中列出的基因、表47中列出的基因、RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。在一些实施方案中,所述一个或多个基因组位点的分组包括与先兆子痫相关联的基因组位点,其中该基因组位点选自表15中列出的基因、表17中列出的基因、表18中列出的基因、表19中列出的基因、表27中列出的基因、表33中列出的基因、CLDN7、PAPPA2、SNORD14A、PLEKHH1、MAGEA10、TLE6和FABP1。在一些实施方案中,所述一个或多个基因组位点的分组包括与胎儿器官发育相关联的基因组位点,其中该基因组位点选自表29中列出的基因。在一些实施方案中,该生物标志物集包括与妊娠期糖尿病相关联的基因组位点,其中该基因组位点选自表36中列出的基因、表37中列出的基因、表38中列出的基因和表39中列出的基因。
在一些实施方案中,该一个或多个基因组位点的分组包括至少5个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括至少10个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括至少25个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括至少50个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括至少100个不同的基因组位点。在一些实施方案中,该一个或多个基因组位点的分组包括至少150个不同的基因组位点。在一些实施方案中,第一无细胞生物样本或第二无细胞生物样本在没有核酸分离、富集或提取的情况下进行处理。在一些实施方案中,报告呈现在用户的电子设备的图形用户界面上。在一些实施方案中,用户是对象。
在一些实施方案中,该方法进一步包括确定对象的妊娠相关状态的存在或易感性的确定的似然性。在一些实施方案中,经训练算法包括监督机器学习算法。在一些实施方案中,监督机器学习算法包括深度学习算法、支持向量机(SVM)、神经网络或随机森林。在一些实施方案中,所述经训练算法包括差异表达算法。在一些实施方案中,所述差异表达算法包括随机模型、广义泊松(GPseq)、混合泊松(TSPM)、泊松对数线性(PoissonSeq)、负二项式(edgeR、DESeq、baySeq、NBPSeq)、MAANOVA拟合的线性模型或其组合。在一些实施方案中,该方法进一步包括向对象提供用于妊娠相关状态的存在或易感性的治疗性干预。在一些实施方案中,治疗性干预包括黄体酮治疗,诸如己酸羟孕酮(例如,17-α己酸羟孕酮(17-P)、来自Lipocine的LPCN 1107、来自AMAG制药的Makena、阴道黄体酮或天然黄体酮IVR产品(例如,来源于Juniper Pharma的DARE-FRT1(JNP-0301));前列腺素F2α受体拮抗剂(例如,来源于ObsEva的OBE022);或β2-肾上腺素能受体激动剂(例如,来源于MediciNova的硫酸贝多拉君(bedoradrine sulfate)(MN-221)。例如,“WHO Recommendations on Interventions toImprove Preterm Birth Outcomes”,ISBN 9789241508988,世界卫生组织,2015,其通过引用整体并入本文。在一些实施方案中,该方法进一步包括监测妊娠相关状态的存在或易感性,其中监测包括在多个时间点评估对象的妊娠相关状态的存在或易感性,其中评估至少基于在多个时间点中的每一个处在(d)中确定的妊娠相关状态的存在或易感性。在一些实施方案中,多个时间点之间对对象的妊娠相关状态的存在或易感性的评估的差异指示选自以下的一个或多个临床适应症:(i)对象的妊娠相关状态的存在或易感性的诊断,(ii)对象的妊娠相关状态的存在或易感性的预后,以及(iii)治疗对象的妊娠相关状态的存在或易感性的治疗过程的有效性或无效性。
在一些实施方案中,该方法进一步包括通过使用经训练算法从多个不同的早产分子亚型中确定早产分子亚型来对早产进行分层。在一些实施方案中,该多个不同的早产分子亚型包括选自以下的早产分子亚型:既往早产的存在或病史、自发性早产的存在或病史、晚期流产的存在或病史、接受宫颈手术的存在或病史、子宫异常的存在或病史、种族特异性早产风险(例如,在非洲裔美国人中)的存在或病史,以及早产胎膜早破(PPROM)的存在或病史。
在一些实施方案中,该方法进一步包括通过使用所述经训练算法从多个不同的先兆子痫分子亚型中确定所述先兆子痫分子亚型来对先兆子痫进行分层。在一些实施方案中,该多个不同的先兆子痫分子亚型包括选自以下的先兆子痫分子亚型:慢性或原有高血压的存在或病史、妊娠高血压的存在或病史、轻度先兆子痫的存在或病史(例如,分娩大于34周胎龄)、重度先兆子痫的存在或病史(分娩小于34周胎龄)、子痫的存在或病史,以及HELLP综合征的存在或病史。
在另一方面,本公开提供了一种用于鉴定或监测对象的妊娠相关状态的存在或易感性的计算机系统,包括:数据库,被配置为存储第一数据集和第二数据集,其中第二数据集以大于第一数据集的特异性指示妊娠相关状态的存在或易感性;以及一个或多个计算机处理器,可操作地耦联到数据库,其中该一个或多个计算机处理器被单独或集体编程为:(i)使用经训练算法处理至少第二个数据集,以确定妊娠相关状态的存在或易感性,该训练算法在50个独立样本中具有至少约80%的准确度;以及(ii)以电子方式输出指示对象的妊娠相关状态的存在或易感性的报告。
在一些实施方案中,该计算机系统进一步包括可操作地耦联到一个或多个计算机处理器的电子显示器,其中电子显示器包括被配置为显示报告的图形用户界面。
在另一方面,本公开提供了一种非暂时性计算机可读介质,包括机器可执行代码,其在由一个或多个计算机处理器执行时,实施用于鉴定或监测对象的妊娠相关状态的存在或易感性的方法,该方法包括:(a)获得第一数据集和第二数据集,其中第二数据集以大于第一数据集的特异性指示妊娠相关状态的存在或易感性;(b)使用经训练算法处理至少第二数据集以确定妊娠相关状态,该经训练算法在50个独立样本上具有至少约80%的准确度;以及(c)以电子方式输出指示对象的妊娠相关状态的存在或易感性的报告。
在另一方面,本公开提供了一种用于鉴定对象的妊娠相关状态的存在或易感性的方法,包括(i)用第一测定来测定来源于对象的第一无细胞生物样本以生成第一数据集,(ii)用第二测定来测定来源于对象的第二无细胞生物样本以生成第二数据集,该第二数据集以大于第一数据集的特异性指示妊娠相关状态的存在或易感性,以及(iii)使用经训练算法处理至少第二数据集,以至少约80%的准确度确定妊娠相关状态的存在或易感性。在一些实施方案中,准确度至少为约90%。在一些实施方案中,妊娠相关状态选自早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症(例如先兆子痫)、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症(例如,产后抑郁、出血或出血过多、肺栓塞、心肌病、糖尿病、贫血和高血压疾病)、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况(例如贫血、呼吸暂停、心动过缓和其他心脏缺陷、支气管肺发育不良或慢性肺病、糖尿病、腹裂、脑积水、高胆红素血症、低钙血症、低血糖、脑室内出血、黄疸、坏死性小肠结肠炎、动脉导管未闭、脑室周围白质软化、持续性肺动脉高压、红细胞增多症、呼吸窘迫综合征、早产儿视网膜病变和暂时性呼吸急促),以及胎儿发育阶段或状态(例如,正常胎儿器官功能或发育和异常胎儿器官功能或发育)。例如,胎儿发育阶段或状态可能与胎儿器官的正常胎儿器官功能或发育和/或异常胎儿器官功能或发育有关,该胎儿器官选自心脏、大肠、小肠、视网膜、前额叶皮层、中脑、肾脏和食道。
在另一方面,本公开提供了一种用于确定对象处于早产风险的方法,包括测定来源于对象的无细胞生物样本以至少80%的特异性生成指示早产风险的数据集,以及使用在独立于无细胞生物样本的样本上训练的经训练算法以至少约80%的准确度确定对象处于先兆子痫风险中。在一些实施方案中,准确度至少为约90%。
在另一方面,本公开提供了一种用于确定对象处于先兆子痫风险的方法,包括测定来源于对象的无细胞生物样本以至少80%的特异性生成指示先兆子痫风险的数据集,以及使用在独立于无细胞生物样本的样本上训练的经训练算法以至少约80%的准确度确定对象处于先兆子痫风险中。在一些实施方案中,准确度至少为约90%。
在另一方面,本公开提供了一种用于检测妊娠对象的胎儿的产前代谢遗传病的存在或风险的方法,包括:测定来源于所述妊娠对象的无细胞生物样本中的核糖核酸(RNA),以检测生物标志物集;以及用算法(例如,经训练算法)分析所述生物标志物集,以检测所述产前代谢遗传病的所述存在或风险。
在另一方面,本公开提供了一种用于检测妊娠对象的胎儿或所述妊娠对象的至少两种健康或生理状况的方法,包括:测定在第一时间点获得自或来源于所述妊娠对象的第一无细胞生物样本以及在第二时间点获得自或来源于所述妊娠对象的第二无细胞生物样本,以检测所述第一时间点的第一生物标志物和所述第二时间点的第二生物标志物集,以及用经训练算法分析所述第一生物标志物集或所述第二生物标志物集以检测所述至少两种健康或生理状况。
在一些实施方案中,所述至少两种健康或生理状况选自早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症、子痫、妊娠期糖尿病、所述对象的胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘、宫内/胎儿生长受限、巨大儿、新生儿状况,以及胎儿发育阶段或状态。在一些实施方案中,所述生物标志物集包括与预产期相关联的基因组位点,其中所述基因组位点选自表1、表7和表10中列出的基因。在一些实施方案中,所述生物标志物集包括与胎龄相关联的基因组位点,其中所述基因组位点选自表2中列出的基因、表3中列出的基因、表4中列出的基因、表23中列出的基因、表24中列出的基因、表25中列出的基因和表26中列出的基因。在一些实施方案中,所述生物标志物集包括与早产相关联的基因组位点,其中所述基因组位点选自表5中列出的基因、表6中列出的基因、表8中列出的基因、表12中列出的基因、表14中列出的基因、表20中列出的基因、表21中列出的基因、表34中列出的基因、表40中列出的基因、表41中列出的基因、表42中列出的基因、表43中列出的基因、表44中列出的基因、表45中列出的基因、表46中列出的基因、表47中列出的基因、RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。在一些实施方案中,所述生物标志物集包括至少5个不同的基因组位点。在一些实施方案中,所述一个或多个基因组位点的分组包括与先兆子痫相关联的基因组位点,其中该基因组位点选自表15中列出的基因、表17中列出的基因、表18中列出的基因、表19中列出的基因、表27中列出的基因、表33中列出的基因、CLDN7、PAPPA2、SNORD14A、PLEKHH1、MAGEA10、TLE6和FABP1。在一些实施方案中,所述一个或多个基因组位点的分组包括与胎儿器官发育相关联的基因组位点,其中该基因组位点选自表29中列出的基因。在一些实施方案中,该生物标志物集包括与妊娠期糖尿病相关联的基因组位点,其中该基因组位点选自表36中列出的基因、表37中列出的基因、表38中列出的基因和表39中列出的基因。
在另一方面,本公开提供了一种方法,包括:测定获得自或来源于妊娠对象的一个或多个无细胞生物样本以检测生物标志物集;以及分析所述生物标志物集以鉴定(1)所述妊娠对象的胎儿的预产期或其范围,以及(2)所述妊娠对象的所述胎儿或所述妊娠对象的健康或生理状况。
在一些实施方案中,该方法进一步包括用经训练算法分析所述生物标志物集。在一些实施方案中,所述健康或生理状况选自早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症、子痫、妊娠期糖尿病、所述对象的胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘、宫内/胎儿生长受限、巨大儿、新生儿状况,以及胎儿发育阶段或状态。在一些实施方案中,所述生物标志物集包括与预产期相关联的基因组位点,其中所述基因组位点选自表1、表7和表10中列出的基因。在一些实施方案中,所述生物标志物集包括与胎龄相关联的基因组位点,其中所述基因组位点选自表2中列出的基因、表3中列出的基因、表4中列出的基因、表23中列出的基因、表24中列出的基因、表25中列出的基因和表26中列出的基因。在一些实施方案中,所述生物标志物集包括与早产相关联的基因组位点,其中所述基因组位点选自表5中列出的基因、表6中列出的基因、表8中列出的基因、表12中列出的基因、表14中列出的基因、表20中列出的基因、表21中列出的基因、表34中列出的基因、表40中列出的基因、表41中列出的基因、表42中列出的基因、表43中列出的基因、表44中列出的基因、表45中列出的基因、表46中列出的基因、表47中列出的基因、RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。在一些实施方案中,所述生物标志物集包括至少5个不同的基因组位点。在一些实施方案中,所述一个或多个基因组位点的分组包括与先兆子痫相关联的基因组位点,其中该基因组位点选自表15中列出的基因、表17中列出的基因、表18中列出的基因、表19中列出的基因、表27中列出的基因、表33中列出的基因、CLDN7、PAPPA2、SNORD14A、PLEKHH1、MAGEA10、TLE6和FABP1。在一些实施方案中,所述一个或多个基因组位点的分组包括与胎儿器官发育相关联的基因组位点,其中该基因组位点选自表29中列出的基因。在一些实施方案中,该生物标志物集包括与妊娠期糖尿病相关联的基因组位点,其中该基因组位点选自表36中列出的基因、表37中列出的基因、表38中列出的基因和表39中列出的基因。
在一些实施方案中,该方法进一步包括至少部分基于所述生物标志物集,选择针对所述妊娠对象的所述胎儿或所述妊娠对象的所述健康或生理状况的治疗性干预。在一些实施方案中,所述临床干预选自多个治疗性干预。在一些实施方案中,至少部分基于所述健康或生理状况(至少部分基于所述生物标志物集确定的)的分子亚型来选择所述治疗性干预。
在一些实施方案中,所述健康或生理状况包括先兆子痫。在一些实施方案中,用于所述先兆子痫的所述治疗性干预包括药物、补充剂或生活方式建议。在一些实施方案中,所述药物选自阿司匹林、黄体酮、硫酸镁、胆固醇药物(诸如普伐他汀)、胃灼热药物(诸如埃索美拉唑)、血管紧张素II受体拮抗剂(诸如氯沙坦)、钙通道阻滞剂(诸如硝苯地平)、糖尿病药物(诸如肌醇、二甲双胍、glucovance和利拉鲁肽)和勃起功能障碍药物(诸如枸橼酸西地那非)。在一些实施方案中,所述补充剂选自钙、维生素D、维生素B3和DHA。在一些实施方案中,所述生活方式建议选自运动、营养咨询、冥想、缓解压力、减肥或维持体重以及改善睡眠质量。在一些实施方案中,用于所述先兆子痫的所述治疗性干预选自如以下所公开的治疗性预防(例如,治疗或预防)“WHO recommendations:Prevention and treatment of pre-eclampsia and eclampsia”,世界卫生组织,ISBN 9789241548335,世界卫生组织,2011,其通过引用整体并入本文。在一些实施方案中,用于所述先兆子痫的所述治疗性干预选自如以下所公开的治疗性预防(例如,治疗或预防)“Summary of recommendations:Preventionand treatment of pre-eclampsia and eclampsia”,世界卫生组织,WHO参考编号WHO/RHR/11.30,世界卫生组织,2011,其通过引用整体并入本文。在一些实施方案中,用于所述先兆子痫的所述治疗性干预选自如以下所公开的治疗性预防(例如,治疗或预防)“WHOrecommendations:Drug treatment for severe hypertension in pregnancy”,世界卫生组织,ISBN 9789241550437,世界卫生组织,2018,其通过引用整体并入本文。
在一些实施方案中,所述健康或生理状况包括早产。在一些实施方案中,所述早产的所述治疗性干预包括药物、补充剂、生活方式建议、宫颈环扎、宫颈子宫托或电收缩抑制。在一些实施方案中,所述药物选自黄体酮、红霉素、宫缩抑制药物(诸如吲哚美辛)、皮质类固醇、阴道菌群(诸如克林霉素和甲硝唑)和抗氧化剂(诸如N-乙酰半胱氨酸)。在一些实施方案中,所述补充剂选自钙、维生素D和益生菌(诸如乳酸杆菌)。在一些实施方案中,所述生活方式建议选自运动、营养咨询、冥想、缓解压力、减肥或维持体重以及改善睡眠质量。在一些实施方案中,用于所述早产的所述治疗性干预选自如下所公开的治疗性干预(例如,治疗或预防)“WHO Recommendations on Interventions to Improve Preterm BirthOutcomes”ISBN 9789241508988,世界卫生组织,2015,其通过引用整体并入本文。
在一些实施方案中,所述健康或生理状况包括妊娠期糖尿病(GDM)。在一些实施方案中,用于所述GDM的所述治疗性干预包括药物、补充剂或生活方式建议。在一些实施方案中,所述药物选自胰岛素和糖尿病药物(诸如肌醇、二甲双胍、glucovance和利拉鲁肽)。在一些实施方案中,所述补充剂选自维生素D、胆碱、益生菌和DHA。在一些实施方案中,所述生活方式建议选自运动、营养咨询、冥想、缓解压力、减肥或维持体重以及改善睡眠质量。在一些实施方案中,用于所述妊娠期糖尿病(GDM)的所述治疗性干预选自如下所公开的治疗性干预(例如,治疗或预防)“Diagnostic criteria and classification ofhyperglycaemia first detected in pregnancy”WHO参考号WHO/NMH/MND/13.2,世界卫生组织,2013,其通过引用整体并入本文。
在另一方面,本公开提供了一种方法,包括:测定获得自或来源于妊娠对象的一个或多个无细胞生物样本以检测非人来源的核酸集;以及分析所述非人来源的核酸集以检测所述妊娠对象的所述胎儿或所述妊娠对象的健康或生理状况。在一些实施方案中,非人来源的核酸包扩非人生物体的DNA或RNA。在一些实施方案中,非人生物体是细菌、病毒或寄生虫。在一些实施方案中,该方法进一步包括用经训练算法分析所述非人来源的核酸集。
本公开的另一方面提供了一种非暂时性计算机可读介质,包括机器可执行代码,其在由一个或多个计算机处理器执行时,实施本文上述或其他地方的任何方法。
本公开的另一方面提供了一种系统,该系统包括一个或多个计算机处理器和与其耦联的计算机存储器。计算机存储器包括机器可执行代码,其在由一个或多个计算机处理器执行时,实施本文上述或其他地方的任何方法。
从下面的详细描述中,本公开的附加方面和优点对于本领域技术人员来说将变得显而易见,其中仅示出和描述了本公开的说明性实施方案。如将认识到的,本公开能够有其他和不同的实施方案,并且其若干细节能够在各种明显的方面进行修改,所有这些都不脱离本公开。因此,附图和描述应在本质上被视为说明性的,而不是限制性的。
援引并入
本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文,如同每个单独的出版物、专利或专利申请被明确且单独地指出为通过引用并入的程度相同。如果通过引用并入的出版物和专利或专利申请与说明书中包含的公开内容相矛盾,则该说明书旨在取代和/或优先于任何此类矛盾材料。
附图说明
在所附权利要求中具体阐述了本发明的新颖特征。通过参考以下阐述说明性实施方案(其中利用了本发明的原理)的具体实施方式,以及附图(本文中也称为“图”,将获得对本发明的特征和优点的更好理解,其中:
图1示出了根据所公开的实施方案的用于鉴定或监测对象的妊娠相关状态的方法的示例工作流程。
图2示出了经编程或以其他方式配置为实施本文提供的方法的计算机系统。
图3A显示了根据所公开的实施方案建立的对象(例如孕妇)的第一队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了一个或多个生物样本(例如,每个2或3个)并进行测定。
图3B显示了根据所公开的实施方案,基于每个参与者在提取病历时的年龄在第一队列中参与者的分布。
图3C显示了根据所公开的实施方案,基于每个参与者的人种在第一队列中100名参与者的分布。
图3D显示了根据所公开的实施方案,基于每个参与者在收集每个样本时的估计胎龄和妊娠三月期(trimester)在胎龄队列中所收集样本的分布。
图3E显示了根据所公开的实施方案,基于所收集样本的研究样本类型在第一队列中225个所收集样本的分布。
图4A显示了根据所公开的实施方案建立的对象(例如孕妇)的第二队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了一个或多个生物样本(例如,各1、2或3个)并进行测定。
图4B显示了根据所公开的实施方案,基于每个参与者在提取病历时的年龄在第二队列中参与者的分布。
图4C显示了根据所公开的实施方案,基于每个参与者的人种在第二队列中128名参与者的分布。
图4D显示了根据所公开的实施方案,基于每个参与者在收集每个样本时的估计胎龄和妊娠三月期在第二队列中所收集样本的分布。
图4E显示了根据所公开的实施方案,基于所收集样本的研究样本类型在第二队列中160个所收集样本的分布。
图5A显示了根据所公开的实施方案建立的对象(例如孕妇)的预产期队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了一个或多个生物样本(例如,各1或2个)并进行测定。
图5B显示了根据所公开的实施方案,基于样本收集日期和分娩日期(距分娩时间)之间的时间在预产期队列中所收集样本的分布。
图5C是显示了根据所公开的实施方案,在预产期的第一和第二预测模型中使用的基因的重叠的维恩图。第一预测模型共有51个最具预测性的基因,第二预测模型共有49个最具预测性的基因;此外,两个预测模型之间只有5个基因重叠。
图5D是显示根据所公开的实施方案,预产期队列中对象的预测距分娩时间(周)与观察到的(实际)距分娩时间(周)之间的一致性的图。
图5E显示了用于预测预产期的预测模型的总结,包括使用距分娩时间少于5周的样本的预测模型和使用距分娩时间少于7.5周的样本的预测模型;使用估计预产期信息(例如,使用来自超声测量结果的估计胎龄确定)和没有估计预产期信息的情况下生成不同的预测模型。
图6A显示了根据所公开的实施方案建立的对象(例如孕妇)的胎龄队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了一个或多个生物样本(例如,各1或2个)并进行测定。
图6B是显示整个转录组交互信息的视觉模型,其中根据所公开的实施方案,多个胎龄相关基因的表达在整个妊娠过程中随胎龄而变化。
图6C是显示根据所公开的实施方案,胎龄队列中对象的预测胎龄(周)与测量的胎龄(周)之间的一致性的图。对象在图中按主要人种(例如,白人、非黑人西班牙裔、亚洲人、非裔美国人、美洲原住民、混血人种(例如,两个或多个人种)或未知)分层。
图7A-图7B显示了根据所公开的实施方案,早产(PTB)队列对象(例如孕妇)的结果,其中包括早产病例样本(例如,来自早产女性)集和早产对照样本(例如,来自足月产的女性)集。在早产病例样本和早产对照样本中,收集时的胎龄分布相似(图7A),而分娩时胎龄的分布在统计学上显著可区分(图7B)。
图7C-图7E显示了根据所公开的实施方案,早产病例样本(左)和早产对照样本(右)之间B3GNT2、BPI和ELANE基因的表达差异。
图7F显示了根据所公开的实施方案,来自图7C-7E所示的早产病例样本和早产对照样本的结果的图例。
图7G显示了根据所公开的实施方案,显示用于10倍交叉验证中早产的预测模型的性能的受试者工作特征(ROC)曲线。
图8显示了美国产科医生估计的胎龄的阴道单胎分娩分布的实例。
图9A-图9E显示了预测妊娠对象胎儿的预产期的不同方法,包括预测实际日期(有误差)(图9A)、预测分娩周(或其他窗口)(图9B)、预测分娩是否预期发生在某个时间边界之前或之后(图9C)、预测分娩预期发生在多个箱(bin)(例如,6个箱)中的哪个箱(图9D)以及预测提前分娩或延迟分娩的相对风险或相对似然性(图9E)。
图10显示了被执行来开发预产期预测模型(例如,分类器)的数据工作流。
图11A-图11B显示了分别在270名和310名患者上训练的预产期预测模型的预测误差。
图12显示了针对获自高加索人对象的队列的79个样本的集使用22个基因的集时,用于早产预测模型的受试者工作特征(ROC)曲线。ROC曲线的平均曲线下面积(AUC)为0.91±0.10。
图13A显示了针对获自具有非洲或非裔美国人血统的对象的队列(AA队列)的45个样本的集使用基因集时,用于早产预测模型的受试者工作特征(ROC)曲线。ROC曲线的平均曲线下面积(AUC)为0.82±0.08。
图13B显示了三个不同AA队列(队列1、队列2和队列3)的早产预测模型的基因分组,包括RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。
图14A显示了使用获自妊娠对象的单个身体样本(例如,单次抽血)执行多种测定以评估多种妊娠相关状况的工作流程。
图14B显示了可以从妊娠对象的妊娠进展中通过单次抽血来测试的状况组合。
图15A显示了根据所公开的实施方案建立的310名混合人种对象(例如孕妇)的发现1队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从中收集了生物样本并进行测定。
图15B显示了根据所公开的实施方案分别建立的86名高加索人对象的发现2队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了生物样本并进行测定。
图15C显示了基于血液样本收集妊娠的发现1混合人种队列中参与者的分布。
图15D显示了基于血液样本收集妊娠的发现2高加索人队列中参与者的分布。
图15E显示了在出生前几周在发现1混合人种队列中收集的样本的分布。
图15F显示了出生前几周在发现2高加索人队列中参与者的分布。
图16A显示了出生前1周收集的样本之间的前4个基因(EFHD1、ADCY6、HTR1和PAPPA2)的集的表达趋势和显著丰度水平分离。
图16B显示了在几个发现和验证队列中3个基因(HTRA1、PAPPA2和EFHD1)的log10(p-值)的相关p值显著性超过阈值1。
图17A显示了根据所公开的实施方案建立的192名对象(例如孕妇)的第一队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了生物样本并进行测定。
图17B显示了根据所公开的实施方案,基于病历提取时每个参与者的年龄的病例组(上图)和对照组(下图)中的第一队列参与者分布。
图17C显示了根据所公开的实施方案,基于病历提取时每个参与者的人种的病例组(左图)和对照组(右图)中的第一队列参与者分布。
图17D显示了基于所收集样本的研究样本类型在第一队列中192个所收集样本的分布。
图18A显示了根据所公开的实施方案建立的76名对象(例如,孕妇)的第二队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了生物样本并进行测定。
图18B显示了根据所公开的实施方案,基于每个参与者的人种的病例组(左图)和对照组(右图)中的第二队列参与者分布。
图18C显示了基于所收集样本的研究样本类型在第二队列中76个所收集样本(25个早产样本和51个足月产对照)的分布。
图19A显示了第一队列中早产相关联基因信号的分位数-分位数(QQ)图。
图19B显示了使用第一队列中的所有差异表达基因的高早产预测模型的受试者工作特征(ROC)曲线。ROC曲线的平均曲线下面积(AUC)为0.75±0.08。
图19C显示了第一队列中前9个基因(EFHD1、ABI3BP、NEAT1、HSD17B1、CDR1-AS、GCM1、DAPK2、ZCCHC7、COL3A1和AKR7A2)的集的受试者工作特征(ROC)曲线。ROC曲线的平均曲线下面积(AUC)为0.80±0.07,每个基因都有相对贡献。
图20A显示了分析中包括的第二队列中早期PTB样本和对照的子集的人口统计数据的分布。
图20B显示了第二队列中早产相关基因中差异表达信号的分位数-分位数(QQ)图。
图20C显示了第二队列中早期PTB的前12个差异表达基因(ANGPTL3、NPM1P26、HIST1H4F、CRY1、BHMT、C2orf49、OASL、SELE、CHD4、IFIT1、DHX38和DNASE1)的箱线图和显著丰度水平分离。
图21显示了根据所公开的实施方案建立的第一队列18名对象(例如,孕妇)(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了生物样本并进行测定。
图22A显示了根据所公开的实施方案建立的130名对象(孕妇)的第二队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了144个生物样本并进行测定。
图22B显示了根据所公开的实施方案,基于每个参与者的人种的病例组(左图)和对照组(右图)中的第二队列130名参与者分布。
图22C显示了基于所收集样本的研究样本类型在第二队列中144个所收集样本的分布。
图23显示了第一队列中先兆子痫(PE)前20个差异表达基因的病例和健康对照之间的显著丰度水平分离。
图24A显示了第二队列中PE样本和对照子集的人口统计数据分布。
图24B显示了第二队列中先兆子痫相关联基因中差异表达信号的分位数-分位数(QQ)图。
图24C显示了第二队列中先兆子痫的前12个基因(AGAP9、ANKRD1、C1S、CCDC181、CIAPIN1、EPS8L1、FBLN1、FUNDC2P2、KISS1、MLF1、PAPPA2和TFPI2)的集的箱线图和显著丰度水平分离。
图25A显示了根据所公开的实施方案建立的351名对象(孕妇)的队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序排列)的不同时间点从中收集了351个生物样本并进行测定。
图25B显示了在有和没有慢性高血压对照对象的分析中先兆子痫相关联基因中差异表达信号的分位数-分位数(QQ)图。
图25C显示了使用实施例9队列中所有差异表达基因的先兆子痫预测模型的训练队列(实施例9)和检测队列(实施例10)的受试者工作特征(ROC)曲线。训练队列和检测队列的ROC曲线的平均曲线下面积(AUC)分别为0.75和0.66。
图25D显示了组合队列的受试者工作特征(ROC)曲线。ROC曲线的平均曲线下面积(AUC)为0.76。
图26A显示了来自实施例4和实施例8的早产队列的组合数据集,以及基于血液收集和分娩胎龄的附加队列。
图26B显示了根据所公开的实施方案建立的281名对象(孕妇)的队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序排列)的不同时间点从其中收集了281个生物样本并进行测定。
图26C显示了从胎龄20至28周之间的对象收集的血液样本在28至35周之间分娩的早产病例中差异表达信号的分位数-分位数(QQ)图。
图27A显示了基于采血和分娩胎龄的组合队列的组合数据集,其中包括不同人种的母体供体。
图27B是显示在留存检测数据中,胎龄队列中对象的预测胎龄(周)与测量的胎龄(周)之间的关系的图。灰色带表示一个和两个标准差。494个基因用于Lasso建模。
图27C是显示在留存检测数据中,胎龄队列中对象的预测胎龄(周)与测量的胎龄(周)之间的一致性的图。57个转录组特征用于Lasso建模。
图27D是显示在留存检测数据中,胎龄队列中对象的预测胎龄(周)与测量的胎龄(周)之间的一致性的图。使用70个基因用于RFE方法。
图27E是显示在妊娠首三个月建模中的留存检测数据中,胎龄队列中对象的预测胎龄(周)与测量的胎龄(周)之间的一致性的图。
图28A显示了外部训练集之一中整个转录组中先兆子痫与对照之间基因差异表达的分位数-分位数(QQ)图。标记FABP1以突出其在差异表达基因中的相对排名。
图28B显示了基于FABP1的先兆子痫预测线性模型的一百个留存的外部检测集的曲线下面积(AUC)的分布。外部检测集的平均AUC为0.67。
图28C显示了基于PAPPA2结合在先兆子痫病例和对照之间具有显著差异表达(经调整p值<0.05)的九个丰度基因,先兆子痫预测线性模型的一百个留存的外部检测集的曲线下面积(AUC)的分布。该九个丰度基因包括FABP1、CDCA2、HMGB3、ELANE、CDC20、SHCBP1、OLFM4、S100A9、S100A12。外部检测集的平均AUC为0.73。
图29A显示了训练队列中胎儿小肠、发育中的心脏和胎儿视网膜基因集的胎儿器官发育特征的向上时间图谱。在给定的收集窗口中,对所有样本的前3个上调的胚胎基因集的血浆转录组分数进行平均,误差线对应于平均值的95%置信区间。
图29B显示了训练和留存队列中胎儿小肠、发育中的心脏和胎儿视网膜基因集的胎儿器官发育特征的上升趋势作为胎龄的线性函数。
图29C显示了随着胎龄(在训练(H)和留存检测队列(A、B、G)中的肾单位祖细胞、食道C4上皮细胞和前额叶皮层(PFC)脑C4细胞)的前三个下降趋势基因集的验证模型。
图30显示了按胎龄划分的血浆采样和队列概述。标记的不同队列是A-H。圆圈代表来自液体活检的血浆样本。母体供体属于不同人种。
图31A-图31C显示了足月妊娠的胎龄建模。图31A:Lasso线性模型中留存测试cfRNA转录物数据的模型预测与超声预测的胎龄。深灰色区域为1个标准差,浅灰色区域为2个标准差。图31B:ANOVA解释的差异。图31C:胎龄建模的学习曲线。随着样本量的增加,对胎龄模型进行训练,绘制训练集(交叉验证)和留存检测集的误差。误差线为1个标准差。
图32A-图32C显示了来自胚胎基因集的发育特征的时间图谱。在给定收集窗口中,在所有样本中对每个基因集的母体血浆转录组分数进行平均。图32A:胎儿小肠基因集。图32B:发育心脏基因集。图32C:肾单位祖基因集。误差线对应于平均值的95%置信区间。CPM,每百万计数。对于每个时间点和基因集N=91。
图33A-图33B显示了用于预测先兆子痫的特征和模型性能。图33A:对先兆子痫女性与对照的Spearman p值排序的分位数-分位数图。p值是根据每个基因的队列校正数据的Spearman相关性计算的。标记模型中使用的基因。黑色虚线是期望值。图33B:没有中风险度组的先兆子痫逻辑回归模型的受试者工作特征曲线(平均值和95%置信区间)。
图34显示了胎龄模型中使用的所有样本的主成分分析。
图35A-图35B显示了妊娠期间妊娠相关内分泌特征的时间图谱。使用累积CPM在收集时间内对被鉴定为高度显著富集的(α=0.01)的七个妊娠相关基因本体论术语特征进行谱分析。在给定的收集窗口中,在所有样本中对每个基因集的血浆转录组分数进行平均,误差线对应于平均值的95%置信区间。分组对应于不同的CPM范围,以便于比较。CPM,每百万计数。对于每个时间点和基因集N=91。
图36显示了所有具有纵向样本的队列中基因集特征的验证。在收集时记录的相应胎龄的所有样本的转录组分数的线性拟合。实线周围的条带对应于95% CI。a,胎儿小肠基因集。b,发育心脏基因集。c,肾单位祖基因集。在0.05的置信水平下,所有胎龄系数的斜率都不同于0,队列G中的“肾单位祖细胞”集除外。
图37显示了数据中的时间结构决定了趋势。对于每个显著富集的基因集,通过自举(B=1,000)原始数据(蓝线)和通过重排收集时间获得的时间加扰数据(灰线)来评估趋势。a,胎儿小肠基因集。b,发育心脏基因集。c,肾单位祖基因集。
图38A-图38B显示了基因本体集的基因集富集分析。a,前20个上调基因集。b,前20个下调基因集。ES,富集得分。-ES,负富集得分。调整后p值的颜色渐变。
图39显示了ePTB病例中差异表达的分位数-分位数(QQ)图中差异表达信号的QQ图。
图40显示了妊娠期糖尿病(GDM)病例中差异表达的分位数-分位数(QQ)图中差异表达信号的QQ图,包括前4个差异表达基因。
图41显示了根据妊娠中间三月期实施的预测性检测的结果改善早期早产结果的临床干预护理计划算法。
图42显示了根据妊娠中间三月期实施的预测性检测的结果改善先兆子痫结果的临床干预护理计划算法。
图43显示了基于妊娠中间三月期实施的预测性检测来改善妊娠期糖尿病(GDM)结果的临床干预护理计划算法。
图44A显示了来自实施例4、8和11的早产队列以及基于血液收集和分娩胎龄的附加队列的组合数据集。
图44B显示了建立的150名对象(孕妇)的队列(x轴上显示患者识别号),在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄递增的顺序)的不同时间点从其中收集了150个生物样本并进行测定。
图44C显示了在妊娠17至28周之间收集的样本的早产病例中差异表达基因的分位数-分位数(QQ)图中差异表达信号的QQ图。
图44D显示了在妊娠23至26周之间收集的样本的早产病例中差异表达基因的分位数-分位数(QQ)图中差异表达信号的QQ图。
图44E显示了在妊娠17至23周之间收集的样本的早产病例中差异表达基因的分位数-分位数(QQ)图中差异表达信号的QQ图。
具体实施方式
虽然已在本文显示和描述了本发明的各种实施方案,但对于本领域技术人员来说,显而易见的是,这些实施方案仅作为实例提供。在不脱离本发明的情况下,本领域技术人员可以想到许多变化、改变和替换。应当理解,可以采用本文描述的本发明实施方案的各种替代物。
如本说明书和权利要求所用,单数形式“一个”、“一种”和“所述”包括复数指代,除非上下文另有明确规定。例如,术语“核酸”包括多种核酸,包括其混合物。
如本文所用,术语“对象”通常是指具有可测试或可检测遗传信息的实体或介质。对象可以是人、个体或患者。对象可以是脊椎动物,例如哺乳动物。哺乳动物的非限制性实例包括人类、猿类、农场动物、运动动物、啮齿动物和宠物。对象可以是怀孕的女性对象。对象可以是有胎儿(或多胎)或怀疑有胎儿(或多胎)的女性。对象可以是怀孕或怀疑怀孕的人。对象可能表现出表明对象的健康或生理状态或状况的症状,诸如对象的妊娠相关健康或生理状态或状况。替代性地,对象在此种健康或生理状态或病症方面可以是无症状的。
如本文所用,术语“妊娠相关状态”通常是指怀孕或怀疑怀孕的对象或对象的胎儿(或多胎)的任何健康、生理和/或生化状态或状况。妊娠相关状态的实例包括但不限于:早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症(例如先兆子痫)、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症(例如,产后抑郁、出血或出血过多、肺栓塞、心肌病、糖尿病、贫血和高血压疾病)、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况(例如贫血、呼吸暂停、心动过缓和其他心脏缺陷、支气管肺发育不良或慢性肺病、糖尿病、腹裂、脑积水、高胆红素血症、低钙血症、低血糖、脑室内出血、黄疸、坏死性小肠结肠炎、动脉导管未闭、脑室周围白质软化、持续性肺动脉高压、红细胞增多症、呼吸窘迫综合征、早产儿视网膜病变和暂时性呼吸急促),以及胎儿发育阶段或状态(例如,正常胎儿器官功能或发育和异常胎儿器官功能或发育)。例如,胎儿发育阶段或状态可能与胎儿器官的正常胎儿器官功能或发育和/或异常胎儿器官功能或发育有关,该胎儿器官选自心脏、大肠、小肠、视网膜、前额叶皮层、中脑、肾脏和食道。在某些情况下,妊娠相关状态与对象的胎儿(或多胎)的健康或生理状态或状况无关。
如本文所用,术语“样本”通常是指获得自或来源于一个或多个对象的生物样本。生物样本可以是无细胞生物样本或基本无细胞生物样本,或者可以被加工或分级分离以产生无细胞生物样本。例如,无细胞生物样本可以包括无细胞核糖核酸(cfRNA)、无细胞脱氧核糖核酸(cfDNA)、无细胞胎儿DNA(cffDNA)、血浆、血清、尿液、唾液、羊水及其衍生物。无细胞生物样本可以使用乙二胺四乙酸(EDTA)收集管、无细胞RNA收集管(例如Streck)或无细胞DNA收集管(例如Streck)获得自或来源于对象。无细胞生物样本可以通过分级分离来源于全血样本。生物样本或其衍生物可能含有细胞。例如,生物样本可以是血液样本或其衍生物(例如,通过收集管或滴血液收集的血液)、阴道样本(例如阴道拭子)或宫颈样本(例如宫颈拭子)。
如本文所用,术语“核酸”通常是指任何长度的核苷酸的聚合形式,脱氧核糖核苷酸(dNTP)或核糖核苷酸(rNTP),或其类似物。核酸可以具有任何三维结构,并且可以执行任何已知或未知的功能。核酸的非限制性实例包括脱氧核糖核酸(DNA)、核糖核酸(RNA)、基因或基因片段的编码或非编码区、由连锁分析定义的位点(locus)、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、cDNA、重组核酸、支链核酸、质粒、载体、任何序列的分离DNA、任何序列的分离RNA、核酸探针和引物。核酸可以包括一种或多种经修饰核苷酸,诸如甲基化的核苷酸和核苷酸类似物。如果存在,可以在核酸组装之前或之后对核苷酸结构进行修饰。核酸的核苷酸序列可能被非核苷酸组分中断。核酸在聚合后可以进一步被修饰,诸如通过与报告试剂(report agent)缀合或结合。
如本文所用,术语“靶核酸”通常是指在具有核苷酸序列的起始核酸分子群中的核酸分子,其存在、量和/或序列,或这些中的一个或多个的变化,是希望确定的。靶核酸可以是任何类型的核酸,包括DNA、RNA及其类似物。如本文所用,“靶核糖核酸(RNA)”通常是指即RNA的靶核酸。如本文所用,“靶脱氧核糖核酸(DNA)”通常是指即DNA的靶核酸。
如本文所用,术语“扩增(amplifying\amplification)”通常是指增加核酸分子的大小或数量。核酸分子可以是单链或双链的。扩增可以包括产生核酸分子的一个或多个拷贝或“扩增产物”。扩增可以例如通过延伸(例如引物延伸)或连接进行。扩增可以包括进行引物延伸反应以产生与单链核酸分子互补的链,并且在某些情况下产生该链和/或单链核酸分子的一个或多个拷贝。术语“DNA扩增”通常是指产生DNA分子或“扩增的DNA产物”的一个或多个拷贝。术语“逆转录扩增”通常是指通过逆转录酶的作用从核糖核酸(RNA)模板中产生脱氧核糖核酸(DNA)。
每年,全球报告约1500万例早产。早产可能影响多达约10%的妊娠,其中大多数是自发性早产。目前,可能缺乏可用于许多妊娠相关并发症(诸如早产)的有意义的、临床上可行的诊断筛查或测试。然而,早产等妊娠相关并发症是新生儿死亡和以后生活中并发症的主要原因。此外,此类妊娠相关并发症会对母体健康造成负面的健康影响。因此,为了使妊娠尽可能安全,需要快速、准确的方法来鉴定和监测妊娠相关的状态,这些方法是无创的并且有成本效益的,以改善母婴健康。
目前的产前检查可能是难以达到且不完整的。对于妊娠进展无妊娠相关并发症的病例,妊娠对象可以使用有限的妊娠监测方法,诸如分子检测、超声成像以及使用末次月经期估计胎龄和/或预产期。但是,此类监测方法可能是复杂、昂贵且不可靠的。例如,分子检测无法预测胎龄,超声成像价格昂贵并且最好在妊娠早期进行,使用末次月经期估计胎龄和/或预产期可能是不可靠的。此外,对于妊娠进展并伴有妊娠相关并发症(诸如自发性早产风险)的病例,分子检测、超声成像和人口统计学因素的临床效用可能是受限的。例如,分子检测可能具有受限的BMI(体重指数)范围、受限的胎龄和/或预产期范围(约2周)以及低阳性预测值(PPV);超声成像可能是昂贵的并且具有低PPV和特异性;使用人口统计学因素来预测妊娠相关并发症的风险可能是不可靠的。因此,临床上迫切需要用于检测和监测妊娠相关状态(例如,估计胎龄、预产期和/或分娩发作,以及预测早产等妊娠相关并发症)的准确且可负担的非侵入性诊断方法,以实现临床上可行的结果。
本公开提供了通过处理获得自或来源于对象(例如,妊娠女性对象)的无细胞生物样本来鉴定或监测妊娠相关状态的方法、系统和试剂盒。可以分析从对象获得的无细胞生物样本(例如血浆样本)以鉴定妊娠相关状态(其中可能包括,例如,测量妊娠相关状态的存在、不存在或定量评估(例如,风险))。此类对象可以包括具有一种或多种妊娠相关状态的对象和没有妊娠相关状态的对象。妊娠相关状态可包括,例如,早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症(例如先兆子痫)、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症(例如产后抑郁、出血或出血过多、肺栓塞、心肌病、糖尿病、贫血和高血压疾病)、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限和巨大儿(大于胎龄儿)。在一些实施方案中,妊娠相关状态与胎儿的健康无关。在一些实施方案中,妊娠相关状态包括新生儿状况(例如,贫血、呼吸暂停、心动过缓和其他心脏缺陷、支气管肺发育不良或慢性肺病、糖尿病、腹裂、脑积水、高胆红素血症、低钙血症、低血糖、脑室内出血、黄疸、坏死性小肠结肠炎、动脉导管未闭、脑室周围白质软化、持续性肺动脉高压、红细胞增多症、呼吸窘迫综合征、早产儿视网膜病变和暂时性呼吸急促)以及胎儿发育阶段或状态(例如,正常的胎儿器官功能或发育和异常的胎儿器官功能或发育)。例如,胎儿发育阶段或状态可能与胎儿器官的正常胎儿器官功能或发育和/或异常胎儿器官功能或发育有关,该胎儿器官选自心脏、大肠、小肠、视网膜、前额叶皮层、中脑、肾脏和食道。
图1示出了根据所公开的实施方案的用于鉴定或监测对象的妊娠相关状态的方法的示例工作流程。在一个方面,本公开提供了一种用于鉴定或监测对象的妊娠相关状态的方法100。方法100可以包括使用第一测定来处理来源于所述对象的第一无细胞生物样本,以生成第一数据集(如在操作102中)。接着,至少部分基于所生成的第一数据集,方法100可任选地包括使用第二测定(例如,不同于第一测定)来处理来源于对象的第二无细胞生物样本,以大于第一数据集的特异性生成指示妊娠相关状态的第二数据集。例如,可以对从第二无细胞血浆样本中提取的核糖核酸(RNA)分子进行测序以生成指示对象的妊娠相关状态的序列读数集(如在操作104中)。在一些实施方案中,可以在第一时间点从对象获得第一无细胞生物样本,以用第一测定进行处理。然后,任选地可以在第二时间点从同一对象获得第二无细胞生物样本,以用第二测定进行处理。在一些实施方案中,可以从对象获得无细胞生物样本,然后等分以产生第一无细胞生物样本和第二无细胞生物样本,然后分别用第一测定和第二测定处理它们。接着,可以使用经训练算法来处理第一数据集和/或第二数据集以确定对象的妊娠相关状态(如在操作106中)。经训练算法可以配置为在50个独立样本中以至少约80%的准确度鉴定妊娠相关状态。然后可以电子方式输出报告,其指示(例如,鉴定或指示)对象的妊娠相关状态的存在或易感性(如在操作108中)。
测定无细胞生物样本
无细胞生物样本可以获得自或来源于人对象(例如,怀孕的女性对象)。无细胞生物样本在处理前可以储存在各种储存条件下,诸如不同的温度(例如,在室温下,在冷藏或冷冻条件下,在25℃、在4℃、在-18℃、-20℃或-80℃)或不同的悬浮液(例如,EDTA收集管、无细胞RNA收集管或无细胞DNA收集管)。
无细胞生物样本可以获得自具有妊娠相关状态(例如,妊娠相关并发症)的对象,疑似具有妊娠相关状态(例如,妊娠相关并发症)的对象、或不具有或非疑似具有妊娠相关状态(例如,妊娠相关并发症)的对象。妊娠相关状态可以包括妊娠相关并发症,诸如早产、妊娠相关高血压病症(例如先兆子痫)、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症(例如,产后抑郁、出血或出血过多、肺栓塞、心肌病、糖尿病、贫血和高血压疾病)、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况(例如贫血、呼吸暂停、心动过缓和其他心脏缺陷、支气管肺发育不良或慢性肺病、糖尿病、腹裂、脑积水、高胆红素血症、低钙血症、低血糖、脑室内出血、黄疸、坏死性小肠结肠炎、动脉导管未闭、脑室周围白质软化、持续性肺动脉高压、红细胞增多症、呼吸窘迫综合征、早产儿视网膜病变和暂时性呼吸急促),以及异常胎儿发育阶段或状态(例如,异常胎儿器官功能或发育)。妊娠相关状态可以包括:足月产、正常胎儿发育阶段或状态(例如,正常胎儿器官功能或发育)、或不存在妊娠相关并发症(例如,早产、妊娠相关高血压病症(例如,先兆子痫)、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症(例如,产后抑郁、出血或出血过多、肺栓塞、心肌病、糖尿病、贫血和高血压疾病)、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况(例如贫血、呼吸暂停、心动过缓和其他心脏缺陷、支气管肺发育不良或慢性肺病、糖尿病、腹裂、脑积水、高胆红素血症、低钙血症、低血糖、脑室内出血、黄疸、坏死性小肠结肠炎、动脉导管未闭、脑室周围白质软化、持续性肺动脉高压、红细胞增多症、呼吸窘迫综合征、早产儿视网膜病变和暂时性呼吸急促),以及异常胎儿发育阶段或状态异常(例如,异常胎儿器官功能或发育))。妊娠相关状态可以包括妊娠的定量评估,诸如胎龄(例如,以天、周或月为单位测量)或预产期(例如,表示为预测或估计的日历日期或日历日期的范围)。妊娠相关状态可以包括妊娠相关并发症的定量评估,诸如妊娠相关并发症(例如,早产、分娩发作、妊娠相关高血压病症(例如先兆子痫)、子痫、妊娠期糖尿病、对象胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症(例如,产后抑郁、出血或出血过多、肺栓塞、心肌病、糖尿病、贫血和高血压疾病)、妊娠剧吐(晨吐)、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘(胎盘覆盖子宫颈)、宫内/胎儿生长受限、巨大儿(大于胎龄儿)、新生儿状况(例如贫血、呼吸暂停、心动过缓和其他心脏缺陷、支气管肺发育不良或慢性肺病、糖尿病、腹裂、脑积水、高胆红素血症、低钙血症、低血糖、脑室内出血、黄疸、坏死性小肠结肠炎、动脉导管未闭、脑室周围白质软化、持续性肺动脉高压、红细胞增多症、呼吸窘迫综合征、早产儿视网膜病变和暂时性呼吸急促),以及异常胎儿发育阶段或状态(例如,异常胎儿器官功能或发育)的似然性、易感性或风险(例如,表示为概率、相对概率、比值比或风险评分或风险指数)。例如,妊娠相关状态可以包括未来分娩发动的似然性或易感性(例如,在约1小时、约2小时、约4小时、约6小时、约8小时、约10小时、约12小时、约14小时、约16小时、约18小时、约20小时、约22小时、约24小时、约1.5天、约2天、约2.5天、约3天、约3.5天、约4天、约4.5天、约5天、约5.5天、约6天、约6.5天、约7天、约8天、约9天、约10天、约12天、约14天、约3周、约4周、约5周、约6周、约7周、约8周、约9周、约10周、约11周、约12周、约13周或大于约13周)。例如,胎儿发育阶段或状态可能与胎儿器官的正常胎儿器官功能或发育和/或异常胎儿器官功能或发育有关,该胎儿器官选自心脏、大肠、小肠、视网膜、前额叶皮层、中脑、肾脏和食道。
可以在治疗具有妊娠相关并发症的对象之前和/或之后收集无细胞生物样本。可以在治疗或治疗方案期间从对象获得无细胞生物样本。可以从对象获得多个无细胞生物样本,以监测治疗随时间推移的效果。无细胞生物样本可以取自已知或疑似具有妊娠相关状态(例如,妊娠相关并发症)的对象,其通过临床试验无法获得明确的阳性或阴性诊断。样本可以取自疑似具有妊娠相关并发症的对象。无细胞生物样本可以取自经历不明症状(诸如疲劳、恶心、体重减轻、疼痛、虚弱或出血)的对象。无细胞生物样本可以取自患有已解释症状的对象。无细胞生物样本可以取自由于以下因素而有发生妊娠相关并发症风险的对象:诸如家族史、年龄、高血压或高血压前期、糖尿病或糖尿病前期、超重或肥胖、环境暴露、生活方式风险因素(例如吸烟、饮酒或吸毒)或存在其他风险因素。
无细胞生物样本可以含有一种或多种能够被测定的分析物,诸如适于测定以生成转录组学数据的无细胞核糖核酸(cfRNA)分子、使用来源于所述无细胞生物样本的转录产物(例如,信使RNA、转移RNA或核糖体RNA)以生成转录产物数据、适于测定以生成基因组数据和/或甲基化数据的无细胞脱氧核糖核酸(cfDNA)分子、适于测定以生成蛋白质组学数据的蛋白质(例如,对应于妊娠相关联基因组位点或基因的妊娠相关蛋白质)、适于测定以生成代谢组学数据的代谢物,或其混合物或组合。可以从对象的一个或多个无细胞生物样本中分离或提取一种或多种此类分析物(例如,cfRNA分子、cfDNA分子、蛋白质或代谢物),以使用一种或多种合适的测定进行下游测定。
从对象获得无细胞生物样本后,可以处理无细胞生物样本以生成指示对象的妊娠相关状态的数据集。例如,处于妊娠相关状态相关联基因组位点的分组的无细胞生物样本的核酸分子的存在、不存在或定量评估(例如,处于妊娠相关状态相关联基因组位点的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质(例如,对应于妊娠相关联基因组位点或基因)的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据,可以指示妊娠相关状态。处理从对象获得的无细胞生物样本可以包括(i)使无细胞生物样本经受足以分离、富集或提取多个核酸分子、蛋白质(例如,对应于妊娠相关联基因组位点或基因的妊娠相关联蛋白质)和/或代谢物的条件,以及(ii)测定多个核酸分子、蛋白质和/或代谢物以生成数据集。
在一些实施方案中,从无细胞生物样本中提取多个核酸分子并进行测序以生成多个测序读数。核酸分子可以包括核糖核酸(RNA)或脱氧核糖核酸(DNA)。核酸分子(例如,RNA或DNA)可以通过多种方法从无细胞生物样本中提取,诸如MP Biomedicals的FastDNA试剂盒方案、Qiagen的QIAamp DNA无细胞生物迷你试剂盒或Norgen Biotek的无细胞生物DNA分离试剂盒方案。提取方法可以从样本中提取所有RNA或DNA分子。或者,提取方法可以选择性地从样本中提取一部分RNA或DNA分子。从样本中提取的RNA分子可以通过逆转录(RT)转化为DNA分子。
测序可以通过任何合适的测序方法进行,诸如大规模并行测序(MPS)、配对末端测序、高通量测序、二代测序(NGS)、鸟枪法测序、单分子测序、纳米孔测序、半导体测序、焦磷酸测序、合成测序(SBS)、连接测序、杂交测序和RNA-Seq(Illumina)。
测序可以包括核酸扩增(例如,RNA或DNA分子)。在一些实施方案中,核酸扩增是聚合酶链反应(PCR)。可以进行适当轮数的PCR(例如PCR、qPCR、逆转录酶PCR、数字PCR等),以将初始量的核酸(例如,RNA或DNA)充分扩增至随后测序所需的输入量。在某些情况下,PCR可以用于靶核酸的全局扩增。这可以包括使用接头序列,该接头序列可以首先连接到不同的分子上,然后使用通用引物进行PCR扩增。可以使用许多商业试剂盒中的任何一种进行PCR,例如,由Life Technologies、Affymetrix、Promega、Qiagen等提供的。在其他情况下,只有核酸群中的某些靶核酸可以被扩增。特异性引物,可能与接头连接联合使用,可以用于选择性扩增一些靶标以进行下游测序。PCR可以包括一个或多个基因组位点的靶向扩增,诸如与妊娠相关状态相关联的基因组位点。测序可以包括使用同时的逆转录(RT)和聚合酶链反应(PCR),诸如Qiagen、NEB、Thermo Fisher Scientific或Bio-Rad的OneStep RT-PCR试剂盒方案。
从无细胞生物样本中分离或提取的RNA或DNA分子可以例如,用可鉴定的标签进行标记,以允许多个样本的多重复用。任何数量的RNA或DNA样本都可以进行多重复用。例如,多重反应可以含有来自至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或大于100个初始无细胞生物样本的RNA或DNA。例如,可以用样本条形码标记多个无细胞生物样本,使得每个DNA分子可以追溯到DNA分子起源的样本(和对象)。此类标签可以通过连接或用引物进行PCR扩增而附接到RNA或DNA分子上。
在对核酸分子进行测序后,可以对序列读数进行合适的生物信息学处理,以生成指示妊娠相关状态的存在、不存在或相对评估的数据。例如,可以将序列读数与一个或多个参考基因组(例如,一个或多个物种的基因组如人类基因组)进行比对。可以在一个或多个基因组位点上定量比对的序列读数,以生成指示妊娠相关状态的数据集。例如,定量对应于与妊娠相关状态相关联的多个基因组位点的序列可以生成指示妊娠相关状态的数据集。
无细胞生物样本可以在没有任何核酸提取的情况下进行处理。例如,可以通过使用被配置为选择性富集对应于多个妊娠相关状态相关联基因组位点的核酸(例如,RNA或DNA)分子的探针在对象中鉴定或监测妊娠相关状态。探针可以是核酸引物。探针可以与来自多个妊娠相关状态相关联基因组位点或基因组区域中的一个或多个的核酸序列具有序列互补性。该多个妊娠相关状态相关联基因组位点或基因组区域可以包括至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少约25、至少约30、至少约35、至少约40个、至少约45个、至少约50个、至少约55个、至少约60个、至少约65个、至少约70个、至少约75个、至少约80个、至少约85个、至少约90个、至少约95个、至少约100个或更多不同的妊娠相关状态相关联基因组位点或基因组区域。该多个妊娠相关状态相关联基因组位点或基因组区域可以包括一个或多个(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、约25、约30、约35、约40、约45、约50、约55、约60、约65、约70、约75、约80个或更多)成员,其选自ACTB、ADAM12、ALPP、ANXA3、APLF、ARG1、AVPR1A、CAMP、CAPN6、CD180、CGA、CGB、CLCN3、CPVL、CSH1、CSH2、CSHL1、CYP3A7、DAPP1、DCX、DEFA4、DGCR14、ELANE、ENAH、EPB42、FABP1、FAM212B-AS1、FGA、FGB、FRMD4B、FRZB、FSTL3、GH2、GNAZ、HAL、HSD17B1、HSD3B1、HSPB8、Immune、ITIH2、KLF9、KNG1、KRT8、LGALS14、LTF、LYPLAL1、MAP3K7CL、MEF2C、MMD、MMP8、MOB1B、NFATC2、OTC、P2RY12、PAPPA、PGLYRP1、PKHD1L1、PKHD1L1、PLAC1、PLAC4、POLE2、PPBP、PSG1、PSG4、PSG7、PTGER3、RAB11A、RAB27B、RAP1GAP、RGS18、RPL23AP7、S100A8、S100A9、S100P、SERPINA7、SLC2A2、SLC38A4、SLC4A1、TBC1D15、VCAN、VGLL1、B3GNT2、COL24A1、CXCL8和PTGS2。妊娠相关状态相关联基因组位点或基因组区域可以与胎龄、早产、预产期、分娩发作或其他妊娠相关状态或并发症相关联,诸如由例如Ngo等人描述的基因组位点。(“Noninvasive bloodtests for fetal development predict gestational age and preterm delivery”,Science,360(6393),第1133-1136页,2018年6月08日),其在此通过引用整体并入。
探针可以是与一个或多个基因组位点(例如,妊娠相关状态相关联基因组位点)的核酸序列(例如,RNA或DNA)具有序列互补性的核酸分子(例如,RNA或DNA)。这些核酸分子可以是引物或富集序列。使用对一个或多个基因组位点(例如,妊娠相关状态相关联基因组位点)具有选择性的探针对无细胞生物样本的测定可以包括使用阵列杂交(例如,基于微阵列)、聚合酶链反应(PCR)或核酸测序(例如,RNA测序或DNA测序)。在一些实施方案中,DNA或RNA可以通过以下一种或多种进行测定:等温DNA/RNA扩增方法(例如,环介导等温扩增(LAMP)、解旋酶依赖性扩增(HDA)、滚环扩增(RCA)、重组酶聚合酶扩增(RPA))、免疫测定、电化学测定、表面增强拉曼光谱(SERS)、基于量子点(QD)的测定、分子倒置探针、液滴数字PCR(ddPCR)、基于CRISPR/Cas的检测(例如,CRISPR分型PCR(ctPCR)、特异性高灵敏度酶报告基因解锁(SHERLOCK)、DNA核酸内切酶靶向CRISPR反式报告基因(DETECTR)和CRISPR介导的模拟多事件记录装置(CAMERA))以及激光透射光谱(LTS)。
测定读数可以在一个或多个基因组位点(例如,妊娠相关状态相关联基因组位点)上进行定量,以生成指示妊娠相关状态的数据。例如,阵列杂交或聚合酶链反应(PCR)对应于多个基因组位点(例如,妊娠相关状态相关联基因组位点)的定量可以生成指示妊娠相关状态的数据。测定读数可以包括定量PCR(qPCR)值、数字PCR(dPCR)值、数字微滴PCR(ddPCR)值、荧光值等,或其标准化值。该测定可以是配置为在家庭环境中进行的家用测试。
在一些实施方案中,多重测定用于处理对象的无细胞生物样本。例如,第一测定可以用于处理获得自或来源于对象的第一无细胞生物样本以生成第一数据集;并且至少部分地基于第一数据集,不同于所述第一测定的第二测定可以用于处理获得自或来源于对象的第二无细胞生物样本,以生成指示所述妊娠相关状态的第二数据集。第一测定可以用于筛选或处理对象集的无细胞生物样本,而第二或后续测定可以用于筛选或处理对象集的较小子集的无细胞生物样本。第一测定可以具有检测一种或多种妊娠相关状态(例如妊娠相关并发症)的低成本和/或高灵敏度,其适于筛选或处理相对大的对象集的无细胞生物样本。第二测定可以具有检测一种或多种妊娠相关状态(例如妊娠相关并发症)的更高成本和/或更高特异性,其适于筛选或处理相对小的对象集(例如使用第一种测定筛选的对象子集)的无细胞生物样本。第二测定可以生成具有比使用第一测定生成的第一数据集更大的特异性(例如,对于一种或多种妊娠相关状态诸如妊娠相关并发症)的第二数据集。例如,可以在大的对象集上使用cfRNA测定处理一个或多个无细胞生物样本,然后在较小的对象子集上使用代谢组学测定,反之亦然。可以至少部分地基于第一次测定的结果选择较小的对象子集。
替代性地,可以使用多重测定同时处理对象的无细胞生物样本。例如,第一测定可以用于处理获得自或来源于对象的第一无细胞生物样本,以生成指示妊娠相关状态的第一数据集;并且不同于第一测定的第二测定可以用于处理获得自或来源于对象的第二无细胞生物样本,以生成指示妊娠相关状态的第二数据集。然后可以分析第一数据集和第二数据集的任何一个或全部以评估对象的妊娠相关状态。例如,可以基于第一个数据集和第二个数据集的组合生成单个诊断指标或诊断评分。作为另一个实例,可以基于第一数据集和第二数据集生成单独的诊断指标或诊断评分。
可以处理无细胞生物样本以鉴定生物标志物RNA转录物集,这些生物标志物RNA转录物指示相应的生物标志物蛋白(例如,对应于妊娠相关联基因组位点或基因的妊娠相关联蛋白质)、途径和/或代谢物集。例如,可以预期给定的生物标志物RNA转录物翻译成相应的给定生物标志物蛋白或相应的给定生物标志物蛋白的基因调节因子。因此,鉴定生物样本中给定生物标志物RNA转录物的存在或不存在可以指示相应的生物标志物蛋白的存在或不存在。作为另一个实例,可以预期给定的生物标志物RNA转录物与相应的给定途径相关。因此,鉴定生物样本中给定生物标志物RNA转录物的存在或不存在可以指示相应途径活性的存在或不存在。作为另一个实例,可以预期给定的生物标志物RNA转录物与相应的给定生物标志物代谢物相关。因此,鉴定生物样本中给定生物标志物RNA转录物的存在或不存在可以指示相应的生物标志物代谢物的存在或不存在。在一些实施方案中,相应的生物标志物蛋白、途径和/或代谢物集包括妊娠相关状态相关联蛋白质(例如,对应于妊娠相关联基因组位点或基因)、途径和/或代谢物。在一些实施方案中,相应的生物标志物蛋白、途径和/或代谢物集包括胎盘蛋白、途径和/或代谢物。例如,鉴定PAPPA基因的存在或不存在可以指示PAPPA蛋白类似物的存在或不存在。
无细胞生物样本可以使用代谢组学测定进行处理。例如,代谢组学测定可以用于鉴定对象的无细胞生物样本中多个妊娠相关状态相关联代谢物中每一种的定量量度(例如,指示存在、不存在或相对量)。代谢组学测定可以被配置为处理对象的无细胞生物样本,诸如血液样本或尿液样本(或其衍生物)。无细胞生物样本中妊娠相关状态相关联代谢物的定量量度(例如,指示存在、不存在或相对量)可以指示一种或多种妊娠相关状态。无细胞生物样本中的代谢物可以作为对应于妊娠相关状态相关联基因的一个或多个代谢途径的结果产生(例如,作为终产物或副产物)。测定无细胞生物样本的一种或多种代谢物可以包括从无细胞生物样本中分离或提取代谢物。代谢组学测定可以用于生成数据集,其指示对象的无细胞生物样本中多个妊娠相关状态相关联代谢物中每种的定量量度(例如,指示存在、不存在或相对量)。
代谢组学测定可以分析无细胞生物样本中的多种代谢物,诸如小分子、脂质、氨基酸、肽、核苷酸、激素和其他信号分子、细胞因子、矿物质和元素、多酚、脂肪酸、二羧酸、醇和多元醇、烷烃和烯烃、酮酸、糖脂、碳水化合物、羟基酸、嘌呤、前列腺素、儿茶酚胺、酰基磷酸酯、磷脂、环胺、氨基酮、核苷、甘油脂、芳香酸、类维生素A、氨基醇、蝶呤、类固醇、肉碱、白三烯、吲哚、卟啉、磷酸糖类、辅酶A衍生物、葡糖苷酸、酮、磷酸糖类、无机离子和气体、鞘脂类、胆汁酸、磷酸醇、氨基酸磷酸盐、醛、醌、嘧啶、吡哆醛、三羧酸、酰基甘氨酸、钴胺素衍生物、脂酰胺、生物素和多胺。
代谢组学测定可以包括,例如,以下一种或多种:质谱(MS)、靶向MS、气相色谱(GC)、高效液相色谱(HPLC)、毛细管电泳(CE)、核磁共振(NMR)波谱、离子迁移谱、拉曼光谱、电化学测定或免疫测定。
无细胞生物样本可以使用甲基化特异性测定进行处理。例如,甲基化特异性测定可以用于鉴定对象的无细胞生物样本中多个妊娠相关状态相关联基因组位点中每一个的甲基化的定量量度(例如,指示存在、不存在或相对量)。甲基化特异性测定可以配置为处理对象的无细胞生物样本,诸如血液样本或尿液样本(或其衍生物)。无细胞生物样本中妊娠相关状态相关联基因组位点甲基化的定量量度(例如,指示存在、不存在或相对量)可以指示一种或多种妊娠相关状态。甲基化特异性测定可以用于生成数据集,其指示对象的无细胞生物样本中多个妊娠相关状态相关联基因组位点中每个的甲基化的定量量度(例如,指示存在、不存在或相对量)。
甲基化特异性测定可以包括,例如,以下一种或多种:甲基化感知测序(例如,使用亚硫酸氢盐处理)、焦磷酸测序、甲基化敏感性单链构象分析(MS-SSCA)、高分辨熔解曲线分析(HRM)、甲基化敏感性单核苷酸引物延伸(MS-SnuPE)、碱基特异性切割/MALDI-TOF、基于微阵列的甲基化测定、甲基化特异性PCR、靶向亚硫酸氢盐测序、氧化亚硫酸氢盐测序、基于质谱的亚硫酸氢盐测序,或简化代表性重亚硫酸氢盐测序(RRBS)。
无细胞生物样本可以使用蛋白质组学测定进行处理。例如,蛋白质组学测定可以用于鉴定对象的无细胞生物样本中多个妊娠相关状态相关联蛋白质(例如,对应于妊娠相关联基因组位点或基因)或多肽中每一种的定量量度(例如,指示存在、不存在或相对量)。蛋白质组学测定可以配置为处理对象的无细胞生物样本,诸如血液样本或尿液样本(或其衍生物)。无细胞生物样本中妊娠相关状态相关联蛋白质(例如,对应于妊娠相关联基因组位点或基因)或多肽的定量量度(例如,指示存在、不存在或相对量)可以指示一种或多种妊娠相关状态。无细胞生物样本中的蛋白质或多肽可以作为对应于妊娠相关状态相关联基因的一个或多个生化途径的结果产生(例如,作为终产物、中间产物或副产物)。测定无细胞生物样本的一种或多种蛋白质或多肽可以包括从无细胞生物样本中分离或提取蛋白质或多肽。蛋白质组学测定可以用于生成数据集,其指示对象的无细胞生物样本中多个妊娠相关状态相关联蛋白质或多肽中每一种的定量量度(例如,指示存在、不存在或相对量)。
蛋白质组学测定可以分析无细胞生物样本中的多种蛋白质(例如,对应于妊娠相关联基因组位点或基因的妊娠相关联蛋白质)或多肽,诸如在不同细胞条件下(例如,发育、细胞分化或细胞周期)制造的蛋白质。蛋白质组学测定可以包括例如以下一种或多种:基于抗体的免疫测定、Edman降解测定、基于质谱的测定(例如,基质辅助激光解吸/电离(MALDI)和电喷雾电离(ESI))、自上而下的蛋白质组学测定、自下而上的蛋白质组学测定、质谱免疫测定(MSIA)、稳定同位素标准品-利用抗肽抗体捕获(SISCAPA)测定、二维差异荧光凝胶电泳(2-D DIGE)测定、定量蛋白质组学测定、蛋白质微阵列测定或反相蛋白质微阵列测定。蛋白质组学测定可以检测蛋白质或多肽的翻译后修饰(例如磷酸化、泛素化、甲基化、乙酰化、糖基化、氧化和亚硝基化)。蛋白质组学测定可以从数据库(例如,Human Protein Atlas、PeptideAtlas和UniProt)中鉴定或定量一种或多种蛋白质或多肽。
试剂盒
本公开提供了用于鉴定或监测对象的妊娠相关状态的试剂盒。试剂盒包括探针,其用于鉴定对象的无细胞生物样本中多个妊娠相关状态相关联基因组位点中每一个处的序列的定量量度(例如,指示存在、不存在或相对量)。无细胞生物样本中多个妊娠相关状态相关联基因组位点中的每一个处的序列的定量量度(例如,指示存在、不存在或相对量)可以指示一种或多种妊娠相关状态。探针可以对无细胞生物样本中多个妊娠相关状态相关联基因组位点处的序列具有选择性。试剂盒可以包括使用探针处理无细胞生物样本以生成数据集的说明书,数据集指示在对象的无细胞生物样本中多个妊娠相关状态相关联基因组位点的每一个处的序列的定量量度(例如,指示存在、不存在或相对量)。
试剂盒中的探针可以对无细胞生物样本中多个妊娠相关状态相关联基因组位点处的序列具有选择性。试剂盒中的探针可以被配置为选择性富集对应于多个妊娠相关状态相关联基因组位点的核酸(例如,RNA或DNA)分子。试剂盒中的探针可以是核酸引物。试剂盒中的探针可以与来自多个妊娠相关状态相关联基因组位点或基因组区域中的一个或多个的核酸序列具有序列互补性。该多个妊娠相关状态相关联基因组位点或基因组区域可以包括至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20或更多不同的妊娠相关状态相关联基因组位点或基因组区域。该多个妊娠相关状态相关联基因组位点或基因组区域可以包括一个或多个成员,其选自ACTB、ADAM12、ALPP、ANXA3、APLF、ARG1、AVPR1A、CAMP、CAPN6、CD180、CGA、CGB、CLCN3、CPVL、CSH1、CSH2、CSHL1、CYP3A7、DAPP1、DCX、DEFA4、DGCR14、ELANE、ENAH、EPB42、FABP1、FAM212B-AS1、FGA、FGB、FRMD4B、FRZB、FSTL3、GH2、GNAZ、HAL、HSD17B1、HSD3B1、HSPB8、Immune、ITIH2、KLF9、KNG1、KRT8、LGALS14、LTF、LYPLAL1、MAP3K7CL、MEF2C、MMD、MMP8、MOB1B、NFATC2、OTC、P2RY12、PAPPA、PGLYRP1、PKHD1L1、PKHD1L1、PLAC1、PLAC4、POLE2、PPBP、PSG1、PSG4、PSG7、PTGER3、RAB11A、RAB27B、RAP1GAP、RGS18、RPL23AP7、S100A8、S100A9、S100P、SERPINA7、SLC2A2、SLC38A4、SLC4A1、TBC1D15、VCAN、VGLL1、B3GNT2、COL24A1、CXCL8和PTGS2。
试剂盒中的说明书可以包括使用对无细胞生物样本中多个妊娠相关状态相关联基因组位点处的序列具有选择性的探针来测定无细胞生物样本的说明书。这些探针可以是具有与来自多个妊娠相关状态相关联基因组位点中的一个或多个的核酸序列(例如,RNA或DNA)具有序列互补性的核酸分子(例如,RNA或DNA)。这些核酸分子可以是引物或富集序列。测定无细胞生物样本的说明书可以包括进行阵列杂交、聚合酶链反应(PCR)或核酸测序(例如DNA测序或RNA测序)以处理无细胞生物样本生成数据集的说明,数据集指示在无细胞生物样本中多个妊娠相关状态相关联基因组位点中的每一个处的序列的定量量度(例如,指示存在、不存在或相对量)。无细胞生物样本中多个妊娠相关状态相关联基因组位点中的每一个处的序列的定量量度(例如,指示存在、不存在或相对量)可以指示一种或多种妊娠相关状态。
试剂盒中的说明书可以包括测量和解释测定读数的说明,其可以在多个妊娠相关状态相关联基因组位点中的一个或多个处进行定量,以生成指示在无细胞生物样本中多个妊娠相关状态相关联基因组位点中每一个处的序列的定量量度(例如,指示存在、不存在或相对量)的数据集。例如,对应于多个妊娠相关状态相关联基因组位点的阵列杂交或聚合酶链反应(PCR)的定量可以生成指示在无细胞生物样本中多个妊娠相关状态相关联基因组位点中每一个处的序列的定量量度(例如,指示存在、不存在或相对量)的数据集。测定读数可以包括定量PCR(qPCR)值、数字PCR(dPCR)值、数字微滴PCR(ddPCR)值、荧光值等,或其标准化值。
试剂盒可以包括代谢组学测定,其用于鉴定对象的无细胞生物样本中多个妊娠相关状态相关联代谢物中每一种的定量量度(例如,指示存在、不存在或相对量)。无细胞生物样本中妊娠相关状态相关联代谢物的定量量度(例如,指示存在、不存在或相对量)可以指示一种或多种妊娠相关状态。无细胞生物样本中的代谢物可以作为对应于妊娠相关状态相关联基因的一个或多个代谢途径的结果产生(例如,作为终产物或副产物)。试剂盒可以包括用于从无细胞生物样本中分离或提取代谢物和/或用于使用代谢组学测定生成数据集的说明书,这些数据集指示对象的无细胞生物样本中多个妊娠相关状态相关联代谢物中每一种的定量量度(例如,指示存在、不存在或相对量)。
经训练算法
在使用一种或多种测定处理来源于对象的一个或多个无细胞生物样本以生成一个或多个指示妊娠相关状态或妊娠相关并发症的数据集之后,可以使用经训练算法处理数据集中的一个或多个(例如,在多个妊娠相关状态相关联基因组位点中的每一个处)以确定妊娠相关状态。例如,经训练算法可以用于确定在无细胞生物样本中多个妊娠相关状态相关联基因组位点中的每一个处的序列的定量量度。经训练算法可以被配置为以以下准确度:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或高于99%,鉴定以下数量的独立样本的妊娠相关状态:至少约25、至少约50、至少约100、至少约150、至少约200、至少约250、至少约300、至少约350、至少约400、至少约450、至少约500个、或大于约500个独立样本。
经训练算法可以包括监督机器学习算法。经训练算法可以包括分类和回归树(CART)算法。监督机器学习算法可以包括例如随机森林、支持向量机(SVM)、神经网络或深度学习算法。经训练算法可以包括差异表达算法。该差异表达算法可以包括随机模型、广义泊松(GPseq)、混合泊松(TSPM)、泊松对数线性(PoissonSeq)、负二项式(edgeR、DESeq、baySeq、NBPSeq)、MAANOVA拟合的线性模型或其组合的使用比较。经训练算法可以包括无监督的机器学习算法。
经训练算法可以被配置为接受多个输入变量并基于该多个输入变量产生一个或多个输出值。该多个输入变量可以包括指示妊娠相关状态的一个或多个数据集。例如,输入变量可以包括与多个妊娠相关状态相关联基因组位点中的每一个相对应或对齐的若干序列。该多个输入变量还可以包括对象的临床健康数据。
经训练算法可以包括分类器,使得一个或多个输出值中的每一个包括固定数量的可能值(例如,线性分类器、逻辑回归分类器等)中的一个,其指示由分类器对无细胞生物样本的分类。经训练算法可以包括二进制分类器,使得一个或多个输出值中的每一个包括两个值(例如,{0,1},{阳性,阴性}或{高风险,低风险})中的一个,其指示由分类器对无细胞生物样本的分类。经训练算法可以是另一种类型的分类器,使得一个或多个输出值中的每一个包括多于两个值(例如,{0,1,2}},{阳性,阴性或不确定},或{高风险,中危或低风险})中的一个,其指示由分类器对无细胞生物样本的分类。输出值可以包括描述性标签、数值或其组合。一些输出值可以包括描述性标签。此类描述性标签可以提供对象的疾病或病症状态的鉴定或指示,并且可以包括例如阳性、阴性、高风险、中危、低风险或不确定。此类描述性标签可以提供针对对象的妊娠相关状态的治疗的标识,并且可以包括例如治疗性干预、治疗性干预的持续时间和/或适于治疗妊娠相关状况的治疗性干预的剂量。此类描述性标签可以提供可能适于对对象进行的二级临床试验的鉴定,并且可以包括例如成像检测、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X射线、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学检查、羊膜腔穿刺术、无创产前检查(NIPT)或其任何组合。例如,此类描述性标签可以提供对象的妊娠相关状态的预后。作为另一实例,此类描述性标签可以提供对象的妊娠相关状态(例如,以天、周或月表示的估计胎龄)的相对评估。一些描述性标签可以映射到数值,例如,通过将“阳性”映射到1,将“阴性”映射到0。
一些输出值可以包括数值,诸如二进制、整数或连续值。此类二进制输出值可以包括,例如,{0,1},{阳性,阴性}或{高风险,低风险}。此类整数输出值可以包括,例如,{0,1,2}。此类连续输出值可以包括,例如,至少为0且不超过1的概率值。此类连续输出值可以包括,例如,至少为0的非标准化概率值。此类连续的输出值可以指示对象的妊娠相关状态的预后。一些数值可以映射到描述性标签,例如,通过将1映射到“阳性”,将0映射到“阴性”。
一些输出值可以基于一个或多个截止值进行分配。例如,如果样本表明对象具有妊娠相关状态(例如,妊娠相关并发症)的概率至少为50%,则样本的二进制分类可以分配“阳性”或1的输出值。例如,如果样本表明对象具有妊娠相关状态(例如,妊娠相关并发症)的概率低于50%,则样本的二进制分类可以分配“阴性”或0的输出值。在该情况下,使用单个截止值50%将样本分类为两个可能的二进制输出值中的一个。单个截止值的实例可以包括约1%、约2%、约5%、约10%、约15%、约20%、约25%、约30%、约35%、约40%、约45%、约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%和约99%。
作为另一个实例,如果样本表明对象具有妊娠相关状态(例如,妊娠相关并发症)的概率为以下数值,则样本分类可以分配“阳性”或1的输出值:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更高。如果样本表明对象具有妊娠相关状态(例如,妊娠相关并发症)的概率为以下数值,则样本分类可以分配“阳性”或1的输出值:大于约50%、大于约55%、大于约60%、大于约65%、大于约70%、大于约75%、大于约80%、大于约85%、大于约90%、大于约91%、大于约92%、大于约93%、大于约94%、大于约95%、大于约96%、大于约97%、大于约98%或大于约99%。
如果样本表明对象具有妊娠相关状态(例如,妊娠相关并发症)的概率为以下数值,则样本分类可以分配“阴性”或0的输出值:小于约50%、小于约45%、小于约40%、小于约35%、小于约30%、小于约25%、小于约20%、小于约15%、小于约10%、小于约9%、小于约8%、小于约7%、小于约6%、小于约5%、小于约4%、小于约3%、小于约2%或小于约1%。如果样本表明对象具有妊娠相关状态(例如,妊娠相关并发症)的概率为以下数值,则样本分类可以分配“阴性”或0的输出值:不大于约50%、不大于约45%、不大于约40%、不大于约35%、不大于约30%、不大于约25%、不大于约20%、不大于约15%、不大于约10%、不大于约9%、不大于约8%、不大于约7%、不大于约6%、不大于约5%、不大于约4%、不大于约3%、不大于约2%或不大于约1%。
如果样本未分类为“阳性”、“阴性”、1或0,则样本的分类可以分配“不确定”或2的输出值。在该情况下,使用两个截止值集将样本分类为三个可能的输出值中的一个。截止值集的实例可以包括{1%,99%}、{2%,98%}、{5%,95%}、{10%,90%}、{15%,85%}、{20%,80%}、{25%,75%}、{30%,70%}、{35%,65%}、{40%,60%}和{45%,55%}。类似地,可以使用n个截止值的集将样本分类为n+1个可能的输出值中的一个,其中n是任何正整数。
经训练算法可以用多个独立训练样本进行训练。独立训练样本中的每一个可以包括来自对象的无细胞生物样本、通过测定无细胞生物样本获得的相关联数据集(如本文其他地方所述)、以及对应于无细胞生物样本的一个或多个已知输出值(例如,对象的妊娠相关状态的临床诊断、预后、不存在或疗效)。独立训练样本可以包括获得自或来源于多个不同对象的无细胞生物样本和相关联数据集和输出。独立训练样本可以包括在多个不同时间点(例如,定期诸如每周、每两周或每月)获得自同一对象的无细胞生物样本和相关联数据集和输出。独立训练样本可以与妊娠相关状态的存在相关联(例如,训练样本包括获得自或来源于已知具有妊娠相关状态的多个对象的无细胞生物样本和相关联数据集和输出)。独立训练样本可能与妊娠相关状态的不存在相关联(例如,训练样本包括获得自或来源于已知先前没有妊娠相关状态诊断或已接收到妊娠相关状态阴性检测结果的多个对象的无细胞生物样本和相关联数据集和输出)。
经训练算法可以用以下数量的独立训练样本进行训练:至少约5个、至少约10个、至少约15个、至少约20个、至少约25个、至少约30个、至少约35个、至少约40个、至少约45个、至少约50个、至少约100个、至少约150个、至少约200个、至少约250个、至少约300个、至少约350个、至少约400个、至少约450个、或至少约500个。独立训练样本可以包括与妊娠相关状态的存在相关联的无细胞生物样本和/或与妊娠相关状态的不存在相关联的无细胞生物样本。经训练算法可以用以下数量的与妊娠相关状态的存在相关联的独立训练样本进行训练:不多于约500个、不多于约450个、不多于约400个、不多于约350个、不多于约300个、不多于约250个、不多于约200个、不多于约150个、不多于约100个或不多于约50个。在一些实施方案中,无细胞生物样本独立于用于训练经训练算法的样本。
经训练算法可以用与妊娠相关状态的存在相关联的第一数量的独立训练样本和与妊娠相关状态的不存在相关联的第二数量的独立训练样本进行训练。与妊娠相关状态的存在相关联的第一数量的独立训练样本可以不多于与妊娠相关状态的不存在相关联的第二数量的独立训练样本。与妊娠相关状态的存在相关联的第一数量的独立训练样本可以等于与妊娠相关状态的不存在相关联的第二数量的独立训练样本。与妊娠相关状态的存在相关联的第一数量的独立训练样本可以大于与妊娠相关状态的不存在相关联的第二数量的独立训练样本。
经训练算法可以配置为以至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更高的准确度鉴定至少约5、至少约10、至少约15、至少约20、至少约25、至少约30、至少约35、至少约40、至少约45、至少约50、至少约100、至少约150、至少约200、至少约250、至少约300、至少约350、至少约400、至少约450或至少约500个独立训练样本的妊娠相关状态。通过经训练算法鉴定妊娠相关状态的准确度可以计算为独立检测样本(例如,已知具有妊娠相关状态的对象或妊娠相关状态为阴性临床试验结果的对象)的百分比,这些样本经正确鉴定或分类为具有或不具有妊娠相关状态。
经训练算法可以被配置为以以下阳性预测值(PPV)鉴定妊娠相关状态:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更高。使用经训练算法鉴定妊娠相关状态的PPV可以计算为鉴定或分类为具有与真正具有妊娠相关状态的对象相对应的妊娠相关状态的无细胞生物样本的百分比。
经训练算法可以被配置为以以下阴性预测值(NPV)鉴定妊娠相关状态:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更高。使用经训练算法鉴定妊娠相关状态的NPV可以计算为经鉴定或分类为不具有与真正不具有妊娠相关状态的对象相对应的妊娠相关状态的无细胞生物样本的百分比。
经训练算法可以被配置为以以下临床灵敏度鉴定妊娠相关状态:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更高。使用经训练算法鉴定妊娠相关状态的临床灵敏度可以计算为与妊娠相关状态(例如,已知具有妊娠相关状态的对象)的存在相关联的独立检测样本的百分比,这些样本经正确鉴定或分类为具有妊娠相关状态。
经训练算法可以被配置为以以下临床特异性鉴定妊娠相关状态:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更高。使用经训练算法鉴定妊娠相关状态的临床特异性可以计算为与妊娠相关状态的不存在相关联的独立检测样本(例如,妊娠相关状态为阴性临床试验结果的对象)的百分比,这些样本经正确鉴定或分类为不具有妊娠相关状态。
经训练算法被配置为以以下曲线下面积(AUC)鉴定妊娠相关状态:至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.81、至少约0.82、至少约0.83、至少约0.84、至少约0.85、至少约0.86、至少约0.87、至少约0.88、至少约0.89、至少约0.90、至少约0.91、至少约0.92、至少约0.93、至少约0.94、至少约0.95、至少约0.96、至少约0.97、至少约0.98、至少约0.99或更大。AUC可以计算为与经训练算法相关联的受试者工作特征(ROC)曲线(例如,ROC曲线下的面积)的积分,该算法将无细胞生物样本分类为具有或不具有妊娠相关状态。
可以调整或调节经训练算法,以改善鉴定妊娠相关状态的性能、准确度、PPV、NPV、临床灵敏度、临床特异性或AUC中的一个或多个。可以通过调整经训练算法的参数(例如,用于对本文其他地方描述的无细胞生物样本进行分类的截止值集,或神经网络的权重)调整或调节经训练算法。可以在训练过程中或在训练过程完成后连续调整或调节经训练算法。
在最初训练经训练算法后,可以将输入的子集鉴定为最有影响力或最重要的,以被包括在内,用于进行高质量的分类。例如,多个妊娠相关状态相关联基因组位点的子集可以被鉴定为最有影响力或最重要的,以被包括在内,用于对妊娠相关状态(或妊娠相关状态的亚型)进行高质量分类或鉴定。多个妊娠相关状态相关联基因组位点或其子集可以基于分类指标进行排序,这些指标指示每个基因组位点对妊娠相关状态(或妊娠相关状态的亚型)进行高质量分类或鉴定的影响力或重要性。在某些情况下,此类指标可以用于显著减少可以用于将经训练算法训练到所需性能水平的输入变量(例如,预测因子变量)的数量(例如,基于所需的最小精度、PPV、NPV、临床灵敏度、临床特异性、AUC或其组合)。例如,如果利用包括经训练算法中几十个或几百个输入变量的多个变量训练经训练算法导致分类准确度大于99%,则仅用以下数量的选定子集训练经训练算法:不多于约5、不多于约10、不多于15、不多于20、不多于25、不多于30、不多于35、不多于40、不多于45、不多于50或不多于约100个,此类多个输入变量中的最有影响力或最重要的输入变量可以产生降低的但仍可接受的分类准确度(例如,至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%)。可以通过对整个多个输入变量进行排序并选择预定数量(例如,不多于约5、不多于约10、不多于约15、不多于约20、不多于约25、不多于约30、不多于约35、不多于约40、不多于约45、不多于约50或不多于约100个)的具有最佳分类指标的输入变量来选择子集。
鉴定或监测妊娠相关状态
在使用经训练算法处理数据集后,可以在对象中鉴定或监测妊娠相关状态或与妊娠相关并发症。鉴定可以至少部分基于处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,在妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据。
可以在对象中以以下准确度鉴定妊娠相关状态:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更高。通过经训练算法鉴定妊娠相关状态的准确度可以计算为独立检测样本(例如,已知具有妊娠相关状态的对象或妊娠相关状态为阴性临床试验结果的对象)的百分比,这些样本经正确鉴定或分类为具有或不具有妊娠相关状态。
可以在对象中以以下阳性预测值(PPV)鉴定妊娠相关状态:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更高。使用经训练算法鉴定妊娠相关状态的PPV可以计算为鉴定或分类为具有与真正具有妊娠相关状态的对象相对应的妊娠相关状态的无细胞生物样本的百分比。
可以在对象中以以下阴性预测值(NPV)鉴定妊娠相关状态:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更高。使用经训练算法鉴定妊娠相关状态的NPV可以计算为经鉴定或分类为不具有与真正不具有妊娠相关状态的对象相对应的妊娠相关状态的无细胞生物样本的百分比。
可以在对象中以以下临床灵敏度鉴定妊娠相关状态:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更高。使用经训练算法鉴定妊娠相关状态的临床灵敏度可以计算为与妊娠相关状态(例如,已知具有妊娠相关状态的对象)的存在相关联的独立检测样本的百分比,这些样本经正确鉴定或分类为具有妊娠相关状态。
可以以下临床特异性鉴定妊娠相关状态:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更高。使用经训练算法鉴定妊娠相关状态的临床特异性可以计算为与妊娠相关状态的不存在相关联的独立检测样本(例如,妊娠相关状态为阴性临床试验结果的对象)的百分比,这些样本经正确鉴定或分类为不具有妊娠相关状态。
在一个方面,本公开提供了一种用于确定对象处于早产风险中的方法,包括测定来源于对象的无细胞生物样本,从而以至少80%的特异性生成指示所述早产风险的数据集,以及使用在独立于无细胞生物样本的样本上训练的经训练算法,从而以以下准确度确定对象处于早产风险:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更高。
在对象中鉴定妊娠相关状态之后,可以进一步鉴定妊娠相关状态的亚型(例如,选自妊娠相关状态的多个亚型)。可以至少部分基于以下确定妊娠相关状态的亚型:处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,在妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据。例如,对象可以鉴定为处于早产亚型的风险中(例如,选自多个早产亚型)。在将对象鉴定为处于早产亚型的风险中之后,可以至少部分基于对象被鉴定为所处的早产亚型风险来选择对对象的临床干预。在一些实施方案中,临床干预选自多种临床干预(例如,临床上指征用于早产的不同亚型的)。
在一些实施方案中,经训练算法可以确定对象处于以下的早产风险:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。
经训练算法可以以下准确度确定对象处于早产风险:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更高。
在鉴定对象具有妊娠相关状态时,可任选地向对象提供治疗性干预(例如,开具适当的治疗方案以治疗对象的妊娠相关状态)。治疗性干预可以包括有效剂量的药物处方、妊娠相关状态的进一步检测或评估、妊娠相关状态的进一步监测、引产或抑制分娩,或其组合。如果对象目前正在接受一个疗程的妊娠相关状态的治疗,则治疗性干预可包括随后的不同疗程(例如,由于当前疗程的无效而增加疗效)。
治疗性干预可包括推荐对象进行二次临床试验,以确认妊娠相关状态的诊断。该二级临床试验可包括成像检测、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X射线、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、羊膜腔穿刺术、无创产前检查(NIPT)或其任何组合。
可在一段时间内评估以下项:妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,处于妊娠相关状态相关联基因组位点的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据和/或包括妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据,以监测患者(例如,具有妊娠相关状态或正在接受妊娠相关状态治疗的对象)。在此类情况下,患者数据集的定量量度在治疗过程中可能会改变。例如,由于有效治疗而具有降低的妊娠相关状态风险的患者的数据集的定量量度可能向健康对象(例如,没有妊娠相关并发症的对象)的概况或分布转移。相反,例如,由于无效治疗而具有增加的妊娠相关状态风险的患者的数据集的定量量度可能向具有更高的妊娠相关状态风险或更晚期的妊娠相关状态的对象的概况或分布转移。
可以通过监测用于治疗对象的妊娠相关状态的疗程来监测对象的妊娠相关状态。监测可包括在两个或多个时间点评估对象的妊娠相关状态。评估可以至少基于处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,在妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括处于妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据。
在一些实施方案中,处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括在两个或多个时间点之间确定的妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据的差异可以指示一个或多个临床适应症,诸如(i)对象的妊娠相关状态的诊断,(ii)对象的妊娠相关状态的预后,(iii)对象的妊娠相关状态的风险增加,(iv)对象的妊娠相关状态的风险降低,(v)用于治疗对象的妊娠相关状态的疗程的疗效,以及(vi)用于治疗对象的妊娠相关状态的疗程的无效。
在一些实施方案中,处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括在两个或多个时间点之间确定的妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据的差异可以指示对象的妊娠相关状态的诊断。例如,如果在较早的时间点未在对象中检测到妊娠相关状态,但在较晚的时间点在对象中检测到,则差异指示对对象的妊娠相关状态的诊断。可以基于对象的妊娠相关状态的诊断这一指示做出临床行动或决定,例如,为对象开具新的治疗性干预处方。临床行动或决定可包括推荐对象进行二次临床试验,以确认妊娠相关状态的诊断。该二级临床试验可包括成像检测、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X射线、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、羊膜腔穿刺术、无创产前检查(NIPT)或其任何组合。
在一些实施方案中,处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括在两个或多个时间点之间确定的妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据的差异可以指示对象的妊娠相关状态的预后。
在一些实施方案中,处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括在两个或多个时间点之间确定的妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据的差异可以指示对象具有增加的妊娠相关状态的风险。例如,如果在较早的时间点和较晚的时间点在对象中检测到妊娠相关状态,并且差异为负差异(例如,处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据从较早时间点到较晚时间点增加),则该差异可以指示对象具有增加的妊娠相关状态的风险。可以基于妊娠相关状态风险增加的这一指示做出临床行动或决定,例如,为对象开具新的治疗性干预或切换治疗性干预处方(例如,结束当前的治疗并开具新的治疗处方)。临床行动或决定可包括推荐对象进行二次临床试验,以确认妊娠相关状态的风险增加。该二级临床试验可包括成像检测、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X射线、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、羊膜腔穿刺术、无创产前检查(NIPT)或其任何组合。
在一些实施方案中,处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括在两个或多个时间点之间确定的妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据的差异可以指示对象具有降低的妊娠相关状态的风险。例如,如果在较早的时间点和较晚的时间点在对象中检测到妊娠相关状态,并且差异为正差异(例如,处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据从较早时间点到较晚时间点降低),则该差异可以指示对象具有降低的妊娠相关状态的风险。可以基于对象的妊娠相关状态的风险降低的这一指示做出临床行动或决定(例如,继续或结束当前的治疗性干预)。临床行动或决定可包括推荐对象进行二次临床试验,以确认妊娠相关状态的风险降低。该二级临床试验可包括成像检测、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X射线、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、羊膜腔穿刺术、无创产前检查(NIPT)或其任何组合。
在一些实施方案中,处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括在两个或多个时间点之间确定的妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据的差异可以指示用于治疗对象的妊娠相关状态的疗程的疗效。例如,如果在较早的时间点在对象中检测到妊娠相关状态,但在较晚的时间点在对象中未检测到,则该差异可能指示该疗程对治疗对象的妊娠相关状态的疗效。可以基于该疗程对治疗对象的妊娠相关状态的疗效的这一指示做出临床行动或决定,例如,继续或结束对对象的当前治疗性干预。临床行动或决定可包括推荐对象进行二次临床试验,以确认该疗程对治疗妊娠相关状态的疗效。该二级临床试验可包括成像检测、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X射线、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、羊膜腔穿刺术、无创产前检查(NIPT)或其任何组合。
在一些实施方案中,处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括在两个或多个时间点之间确定的妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据的差异可以指示用于治疗对象的妊娠相关状态的疗程无效。例如,如果在较早的时间点和较晚的时间点在对象中检测到妊娠相关状态,并且如果该差异为负差异或零差异(例如,处于妊娠相关状态相关联基因组位点的分组的数据集的序列读数的定量量度(例如,妊娠相关状态相关联基因组位点处的RNA转录物或DNA的定量量度)、包括处于妊娠相关状态相关联蛋白质的分组的数据集的蛋白质的定量量度的蛋白质组学数据,和/或包括妊娠相关状态相关联代谢物的分组的定量量度的代谢组数据从较早时间点到较晚时间点增加或保持在恒定水平),并且如果在较早的时间点指示有效的治疗,则该差异可以指示该疗程对治疗对象的妊娠相关状态无效。可以基于该疗程对治疗对象的妊娠相关状态无效的这一指示做出临床行动或决定,例如,结束当前的治疗性干预和/或切换到(例如,开具处方)用于对象的不同的新治疗性干预。临床行动或决定可包括推荐对象进行二次临床试验,以确认该疗程对治疗妊娠相关状态无效。该二级临床试验可包括成像检测、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X射线、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、羊膜腔穿刺术、无创产前检查(NIPT)或其任何组合。
在另一个方面,本公开提供了一种用于预测对象的早产风险的计算机实施的方法,包括:(a)接收对象的临床健康数据,其中该临床健康数据包括所述对象的多个定量量度或分类量度;(b)使用经训练算法处理对象的临床健康数据,以确定指示对象的早产风险的风险评分;以及(c)以电子方式输出指示对象的早产风险的风险评分的报告。
在一些实施方案中,例如,临床健康数据包括对象的一个或多个定量量度,诸如年龄、体重、身高、体重指数(BMI)、血压、心率、血糖水平、既往妊娠次数和既往生育次数。作为另一个实例,临床健康数据可以包括一个或多个分类量度,诸如人种、种族、药物或其他临床治疗史、吸烟史、饮酒史、日常活动或健康水平、基因检测结果、血液测试结果、成像结果和胎儿筛查结果。
在一些实施方案中,使用计算机或移动设备应用程序执行用于预测对象的早产风险的计算机实施的方法。例如,对象可以使用计算机或移动设备应用程序输入自己的临床健康数据,包括定量和/或分类量度。然后,计算机或移动设备应用程序可以使用经训练算法来处理临床健康数据,以确定指示对象的早产风险的风险评分。然后,计算机或移动设备应用程序可以显示指示对象的早产风险的风险评分的报告。
在一些实施方案中,指示对象的早产风险的风险评分可以通过对对象执行一次或多次后续临床测试来细化。例如,医生可以基于初始风险评分将对象转诊进行一项或多项后续临床测试(例如,超声成像或血液测试)。接下来,计算机或移动设备应用程序可以使用经训练算法处理来自一个或多个后续临床测试的结果,以确定指示对象的早产风险的更新风险评分。
在一些实施方案中,风险评分包括对象在预定持续时间内早产的似然性。例如,预定持续时间可以为约1小时、约2小时、约4小时、约6小时、约8小时、约10小时、约12小时、约14小时、约16小时、约18小时、约20小时、约22小时、约24小时、约1.5天、约2天、约2.5天、约3天、约3.5天、约4天、约4.5天、约5天、约5.5天、约6天、约6.5天、约7天、约8天、约9天、约10天、约12天、约14天、约3周、约4周、约5周、约6周、约7周、约8周、约9周、约10周、约11周、约12周、约13周或大于约13周。
输出妊娠相关状态的报告
在鉴定对象的妊娠相关状态或监测妊娠相关状态的风险增加之后,可以以电子方式输出指示(例如,鉴定或提供指示)对象的妊娠相关状态的报告。对象可能没有表现出妊娠相关状态(例如,没有妊娠相关状态的症状,诸如妊娠相关并发症)。报告可以呈现在用户的电子设备的图形用户界面(GUI)上。用户可以是对象、护理人员、医生、护士或其他卫生保健工作者。
报告可以包括一种或多种临床适应症,诸如(i)对象的妊娠相关状态的诊断,(ii)对象的妊娠相关状态的预后,(iii)对象的妊娠相关状态的风险增加,(iv)对象的妊娠相关状态的风险降低,(v)疗程对对象的妊娠相关状态的疗效,(vi)疗程对治疗对象的妊娠相关状态无效。报告可以包括基于这些一种或多种临床适应症做出的一个或多个临床行动或决定。此类临床行动或决定可以针对治疗性干预、引产或抑制分娩,或对对象的妊娠相关状态进行进一步的临床评估或检测。
例如,对象的妊娠相关状态的诊断的临床适应症可以伴随着为对象开具新的治疗性干预处方的临床行动。作为另一实例,对象的妊娠相关状态的风险增加的临床适应症可以伴随着为对象开具新的治疗性干预处方或切换治疗性干预(例如,结束当前的治疗并开具新的治疗处方)的临床行动。作为另一实例,对象的妊娠相关状态的风险降低的临床适应症可以伴随着继续或结束对对象的当前治疗性干预的临床行动。作为另一实例,疗程对治疗对象的妊娠相关状态的疗程的疗效的临床适应症可以伴随着继续或结束对对象的当前治疗性干预的临床行动。作为另一实例,疗程对治疗对象的妊娠相关状态无效的临床适应症可以伴随着结束当前的治疗性干预和/或切换到(例如,开具处方)用于对象的不同的新治疗性干预。
计算机系统
本公开提供了编程为实施本公开的方法的计算机系统。图2示出了计算机系统201,其被编程或以其他方式配置为例如,(i)训练和测试经训练算法,(ii)使用经训练算法来处理数据以确定对象的妊娠相关状态,(iii)确定指示对象的妊娠相关状态的定量量度,(iv)鉴定或监测对象的妊娠相关状态,以及(v)以电子方式输出指示对象的妊娠相关状态的报告。
计算机系统201可以调节本公开的分析、计算和生成的各个方面,例如,(i)训练和测试经训练算法,(ii)使用经训练算法来处理数据以确定对象的妊娠相关状态,(iii)确定指示对象的妊娠相关状态的定量量度,(iv)鉴定或监测对象的妊娠相关状态,以及(v)以电子方式输出指示对象的妊娠相关状态的报告。计算机系统201可以是用户的电子设备或相对于该电子设备远程定位的计算机系统。电子设备可以是移动电子设备。
计算机系统201包括中央处理单元(CPU,本文中也称为“处理器”和“计算机处理器”)205,其可以是单核或多核处理器,也可以是用于并行处理的多个处理器。计算机系统201还包括存储器或存储单元210(例如,随机存取存储器、只读存储器、闪存)、电子存储单元215(例如硬盘)、用于与一个或多个其他系统通信的通信接口220(例如,网络适配器),以及外围设备225,诸如缓存、其他存储器、数据存储装置和/或电子显示适配器。存储器210、存储单元215、接口220和外围设备225通过诸如主板的通信总线(实线)与CPU 205通信。存储单元215可以是用于存储数据的数据存储单元(或数据存储库)。借助于通信接口220,计算机系统201可操作地耦联到计算机网络(“network”)230。网络230可以是因特网、互联网和/或外联网,或与因特网通信的内联网和/或外联网。
在某些情况下,网络230是电信和/或数据网络。网络230可以包括一个或多个计算机服务器,其能够启用分布式计算,诸如云计算。例如,一个或多个计算机服务器可以启用网络230(“云”)上的云计算来执行分析、计算并生成本公开的各个方面,例如,(i)训练和测试经训练算法,(ii)使用经训练算法来处理数据以确定对象的妊娠相关状态,(iii)确定指示对象的妊娠相关状态的定量量度,(iv)鉴定或监测对象的妊娠相关状态,以及(v)以电子方式输出指示对象的妊娠相关状态的报告。此种云计算可以由云计算平台提供,例如,Amazon Web Services(AWS)、Microsoft Azure、Google Cloud Platform和IBM云。在某些情况下,借助于计算机系统201,网络230可以实现对等网络,其可以启用耦联到计算机系统201的设备充当客户端或服务器。
CPU 205可以包括一个或多个计算机处理器和/或一个或多个图形处理器(GPU)。CPU 205可以执行一系列机器可读指令,这些指令可以体现在程序或软件中。指令可以存储在存储位置,诸如存储器210。指令可以定向到CPU 205,其随后可以对CPU 205进行编程或以其他方式进行配置以实施本公开的方法。由CPU 205执行的操作的实例可以包括获取、解码、执行和写回。
CPU 205可以是电路(诸如集成电路)的一部分。系统201的一个或多个其他组件可以包括在电路中。在某些情况下,电路是专用集成电路(ASIC)。
存储单元215可以存储文件,诸如驱动程序、库和保存的程序。存储单元215可以存储用户数据,例如用户偏好和用户程序。在某些情况下,计算机系统201可以包括一个或多个在计算机系统201外部的附加数据存储单元,诸如位于通过内联网或因特网与计算机系统201通信的远程服务器上。
计算机系统201可以通过网络230与一个或多个远程计算机系统通信。例如,计算机系统201可以与用户的远程计算机系统通信。远程计算机系统的实例包括个人电脑(例如便携式PC)、平板个人计算机或平板电脑(例如
Figure BDA0004176579550000851
iPad,/>
Figure BDA0004176579550000852
Galaxy Tab)、电话、智能手机(例如,/>
Figure BDA0004176579550000853
iPhone、支持Android的设备、/>
Figure BDA0004176579550000854
)或个人数字助理。用户可以通过网络230访问计算机系统201。
本文描述的方法可以通过存储在计算机系统201(例如在存储器210或电子存储单元215上)的电子存储位置上的机器(例如计算机处理器)可执行代码来实施。机器可执行或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器205执行。在某些情况下,代码可以从存储单元215检索并存储在存储器210上,以便处理器205随时访问。在某些情况下,可以排除电子存储单元215,并且机器可执行指令被存储在存储器210上。
代码可以预先编译和配置,以便与具有适于执行代码的处理器的机器一起使用,或可以在运行时编译。代码可以以编程语言提供,可以选择该编程语言以使代码能够以预编译或按编译的方式执行。
本文提供的系统和方法的各个方面,诸如计算机系统201,可以体现在编程中。技术的各个方面可以被认为是“产品”或“制品”,通常以机器(或处理器)可执行代码和/或相关数据的形式进行或体现在一种机器可读介质中。机器可执行代码可以存储在电子存储单元上,诸如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘。“存储”型介质可以包括计算机、处理器等的任何或所有有形存储器,或其相关模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以随时为软件编程提供非暂时性存储。软件的全部或部分有时可以通过互联网或各种其他电信网络进行通信。例如,此类通信例如可以使软件能够从一台计算机或处理器加载到另一台计算机或处理器中,例如,从管理服务器或主机加载到应用程序服务器的计算机平台中。因此,可以承载软件元素的另一种类型的介质包括光、电和电磁波,诸如通过有线和光学陆线网络以及通过各种空中链路在本地设备之间的物理接口上使用的。承载此类波的物理元件,诸如有线或无线链路、光链路等,也可以被视为承载软件的介质。如本文所用,除非限于非暂时的、有形的“存储”介质,诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质,诸如计算机可执行代码,可以采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如,光盘或磁盘(诸如任何计算机中的任何存储设备等),诸如可以用于实施数据库等,如附图所示。易失性存储介质包括动态存储器,诸如此种计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内总线的电线。载波传输介质可以采用电信号或电磁信号的形式,或者声波或光波的形式,诸如射频(RF)和红外(IR)数据通信期间产生的声波或光波。因此,计算机可读介质的常见形式包括例如:软盘、软磁盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡纸带、任何其他具有孔图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒、传输数据或指令的载波、传输此类载波的电缆或链路、或计算机可以从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多计算机可读介质可以参与将一个或多个指令的一个或多个序列传送到处理器供执行。
计算机系统201可以包括或与电子显示器235通信,该电子显示器包括用户界面(UI)240,用于提供例如(i)指示经训练算法的训练和测试的视觉显示,(ii)指示对象的妊娠相关状态的数据的视觉显示,(iii)对象的妊娠相关状态的定量量度,(iv)将对象鉴定为具有妊娠相关状态的对象,或(v)指示对象的妊娠相关状态的电子报告。UI的实例包括但不限于图形用户界面(GUI)和基于Web的用户界面。
本公开的方法和系统可以通过一种或多种算法来实施。算法可以在由中央处理单元205执行时通过软件的方式实施。算法可以例如,(i)训练和测试经训练算法,(ii)使用经训练算法来处理数据以确定对象的妊娠相关状态,(iii)确定指示对象的妊娠相关状态的定量量度,(iv)鉴定或监测对象的妊娠相关状态,以及(v)以电子方式输出指示对象的妊娠相关状态的报告。
实施例
实施例1:对象队列
如图3A所示,建立了对象(例如孕妇)的第一队列(x轴上显示患者识别号),使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了一个或多个生物样本(例如,每个2或3个)并进行测定。例如,估计胎龄(显示在y轴上)可以使用诸如超声成像、末次月经期(LMP)日期或其组合的方法来确定,并且可以在0至约42周的范围内。第一队列包括从其中收集不同样本类型用于不同研究的对象,包括用于预测分娩、预测预产期和预测每个对象胎儿实际胎龄的研究。图3B显示了基于每个参与者在提取病历时的年龄在第一队列中的参与者的分布。图3C显示了基于每个参与者的人种在第一队列中100名参与者的分布。图3D显示了基于每个参与者在收集每个样本时的估计胎龄和妊娠三月期在胎龄队列中所收集样本的分布。图3E显示了基于所收集样本的研究样本类型在第一队列中225个所收集样本的分布。
如图4A所示,建立了对象(例如孕妇)的第二队列(x轴上显示患者识别号),使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了一个或多个生物样本(例如,各1、2或3个)并进行测定。例如,估计胎龄(显示在y轴上)可以使用诸如超声成像、末次月经期(LMP)日期或其组合的方法来确定,并且可以在0至约42周的范围内。第二队列包括从其中收集不同样本类型用于不同研究的对象,包括用于预测分娩、预测预产期和预测每个对象胎儿实际胎龄的研究。图4B显示了基于每个参与者在提取病历时的年龄在第二队列中的参与者的分布。图4C显示了基于每个参与者的人种在第二队列中128名参与者的分布。图4D显示了基于每个参与者在收集每个样本时的估计胎龄和妊娠三月期在第二队列中所收集样本的分布。图4E显示了基于所收集样本的研究样本类型在第二队列中160个所收集样本的分布。
实施例2:预产期预测
如图5A所示,建立了对象(例如孕妇)的预产期队列(x轴上显示患者识别号),使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了一个或多个生物样本(例如,各1或2个)并进行测定。如实施例1所述,预产期队列包括来自第一队列和第二队列的对象。预产期队列包括从其中收集不同样本类型用于不同研究的对象,包括用于预测早产(例如,作为对照)、预测分娩、预测预产期和预测每个对象胎儿实际胎龄的研究。
图5B显示了基于样本收集日期和分娩日期(距分娩时间)之间的时间在预产期队列中所收集样本的分布。所有样本均在妊娠末三个月收集,即分娩日期前不到12周,其中59个样本的距分娩时间少于7.5周,43个样本的距分娩时间少于5周。使用本公开的系统和方法,从距分娩时间少于7.5周的59个样本中生成第一预测模型集,从距分娩时间少于5周的43个样本中生成第二预测模型集。预测模型集包括使用估计预产期信息(例如,使用超声测量结果的估计胎龄确定的)和不用估计预产期信息的预测模型。预测模型中的每一个都包括具有弹性网络正则化的线性回归模型。预测模型的生成包括鉴定在各个队列中与预产期(例如,通过距分娩时间测量)具有最高相关性(例如,最具预测性)的四个基因集,包括(1)少于7.5周的距分娩时间,具有估计预产期信息,(2)少于7.5周的距分娩时间,没有估计预产期信息,(3)少于5周的距分娩时间,具有估计预产期信息,以及(4)少于5周的距分娩时间,没有估计预产期信息。预测预产期的这四个基因集列于表1。
表1:按队列预测预产期的基因集
Figure BDA0004176579550000891
/>
Figure BDA0004176579550000901
/>
Figure BDA0004176579550000911
/>
Figure BDA0004176579550000921
/>
Figure BDA0004176579550000931
图5C是显示了在预产期的第一和第二预测模型中使用的基因的重叠的维恩图。第一预测模型共有51个最具预测性的基因,第二预测模型共有49个最具预测性的基因;此外,两个预测模型之间只有5个基因重叠。
图5D是显示预产期队列中对象的预测距分娩时间(周)与观察到的(实际)距分娩时间(周)之间的一致性的图。使用基于表1中列出的预测基因的相应预测模型生成预测的待距分娩时间结果。
图5E显示了用于预测预产期的预测模型的总结,包括使用距分娩时间少于5周的样本的预测模型和使用距分娩时间少于7.5周的样本的预测模型;使用估计预产期信息(例如,使用来自超声测量结果的估计胎龄确定)和没有估计预产期信息的情况下生成不同的预测模型。总共评估了约15,000个基因用于预测模型(例如,作为基因发现过程的一部分)。此外,在“<5周”和“<7.5周”样本集中,分别鉴定了总共130个基因和62个基因用于预测预产期。在“<5周”和“<7.5周”样本集中,分别鉴定了总共28个和47个基因用于包括在没有估计预产期信息(例如,来自超声)的情况下用于预测预产期的预测模型。在“<5周”和“<7.5周”样本集中,分别鉴定了总共50个和48个基因用于包括在具有估计预产期信息(例如,来自超声)的情况下用于预测预产期的预测模型。
实施例3:胎龄(GA)预测
如图6A所示,建立了对象(例如孕妇)的胎龄队列,使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点从其中收集了一个或多个生物样本(例如,各1或2个)并进行测定。如实施例1所述,胎龄队列包括来自第一队列的对象。胎龄队列包括从其中收集不同样本类型用于不同研究的对象,包括用于预测分娩、预测预产期和预测每个对象胎儿实际胎龄的研究。
图6B是显示整个转录组交互信息的视觉模型,其中多个胎龄相关基因的表达在整个妊娠过程中随胎龄而变化。如图所示,在整个妊娠过程中,不同的基因聚类在不同时间(例如,在不同的估计胎龄)表现出波动(例如,增加和减少)。例如,与先天免疫相关联的基因(例如,RSAD2、HES1、HIST1H3G、CSHL1、CSH1、EXOSC4和AXL)以及与细胞粘附相关联的基因(例如,PATL2、CCT6P1、ACSL4和TUBA4A)在妊娠后期表现出与妊娠早期相比增加的表达。作为另一个实例,与细胞周期相关联的基因(例如,UTRN、DOCK11、VPS50、ZMYM1、ZFAND1、FAM179B、C2CD5和ZNF236)在妊娠早期表现出与妊娠后期相比增加的表达。作为另一个实例,与RNA加工相关联的基因(例如,ZBTB4、ADK、HBS1L、EIF2D、CDK13、CCDC61、POLDIP3和C8orf88)在妊娠早期和中期表现出与妊娠后期相比增加的表达。因此,可以测定不同的基因集或聚类,用作“分子钟”,以跟踪和预测妊娠过程中胎儿的不同胎龄。这些预测胎龄的基因集列于表2中。此外,预测胎龄的途径按聚类列于表3中。
表2:按聚类预测胎龄的基因集
Figure BDA0004176579550000941
Figure BDA0004176579550000951
表3:按聚类的胎龄预测途径
Figure BDA0004176579550000952
/>
Figure BDA0004176579550000961
/>
Figure BDA0004176579550000971
/>
Figure BDA0004176579550000981
/>
Figure BDA0004176579550000991
/>
Figure BDA0004176579550001001
/>
Figure BDA0004176579550001011
图6C是显示胎龄队列中对象的预测胎龄(周)与测量的胎龄(周)之间的一致性的图。对象在图中按主要人种(例如,白人、非黑人西班牙裔、亚洲人、非裔美国人、美洲原住民、混血人种(例如,两个或多个人种)或未知)分层。值得注意的是,数据显示,与许多生物表型不同,妊娠生物标志物模型(例如,基于胎龄相关联生物标志物基因集的胎龄的预测)与人种或种族无关。这一观察结果表明,妊娠的潜在分子钟在人种/种族之间高度保守,这具有使针对胎龄的通用测定可行的实际意义。基于表2中列出的预测基因和/或表3中列出的预测途径,使用胎龄预测模型(利用10倍交叉验证生成的Lasso模型)生成预测胎龄。此外,用于预测胎龄的基因的预测模型权重列于表4中。
表4:用于预测胎龄的基因的预测模型权重
Figure BDA0004176579550001012
/>
Figure BDA0004176579550001021
/>
Figure BDA0004176579550001031
/>
Figure BDA0004176579550001041
实施例4:早产(PTB)预测
如图7A-7B所示,建立了对象(例如孕妇)的早产(PTB)队列,使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄的不同时间点从其中收集了一个或多个生物样本(例如,各1、2、3或多于3个)并进行测定。如实施例1所述,早产队列包括来自第二队列的对象。早产队列包括从其中收集不同样本类型用于不同研究的对象, 包括用于预测早产、预测分娩、预测预产期和预测每个对象胎儿实际胎龄的研究。如图所示,共收集了早产队列128名妊娠对象的160个样本并进行了测定,其中118个样本收集自100名足月产的妊娠对象,42个样本收集自28名早产的妊娠对象(例如,定义为发生在估计胎龄37周之前)。早产(PTB)队列包括早产病例样本(例如,来自早产女性)集和早产对照样本(例如,来自足月产的女性)集。在早产病例样本和早产对照样本中,收集时的胎龄分布相似(图7A), 而分娩时胎龄的分布在统计学上显著可区分(图7B)。
对早产病例样本和早产对照样本之间的差异表达基因进行分析,发现151个基因上调,37个基因下调。例如, 图7C-图7E显示了早产病例样本(左)和早产对照样本(右)之间B3GNT2、BPI和ELANE基因的差异基因表达。图7F显示了图7C-图7E所示的早产病例样本和早产对照样本结果的图例。用于预测早产(PTB)的基因集列于表5中。此外, 用于预测早产(PTB)的基因的预测模型权重列于表6中。
表5:用于预测早产(PTB)的基因的集
Figure BDA0004176579550001051
/>
Figure BDA0004176579550001061
/>
Figure BDA0004176579550001071
/>
Figure BDA0004176579550001081
/>
Figure BDA0004176579550001091
/>
Figure BDA0004176579550001101
/>
Figure BDA0004176579550001111
/>
Figure BDA0004176579550001121
/>
Figure BDA0004176579550001131
表6:用于预测早产(PTB)的基因的预测模型权重
Figure BDA0004176579550001132
/>
Figure BDA0004176579550001141
图7G显示了示出用于10倍交叉验证中早产的预测模型的性能的受试者工作特征(ROC)曲线。如图所示,用于预测早产的预测模型实现了0.90±0.08的平均曲线下面积(AUC),从而证明了用于预测早产的预测模型的出色性能。
实施例5:预产期(DD)预测
使用本公开的系统和方法,开发预测模型来预测妊娠对象胎儿的预产期。例如,预测的预产期可以是天数(例如,1天、2天、3天、4天、5天、6天或7天)或周数(例如,1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周、20周、21周、22周、23周、24周、25周、26周、27周、28周、29周、30周、31周、32周、33周、34周、35周、36周、37周、38周、39周、40周、41周、42周、43周、44周或45周),直到妊娠对象的胎儿预期分娩。作为另一实例,预测的预产期可以是预期发生妊娠对象胎儿分娩的未来日期。
预测模型可以基于在给定时间点(例如,在估计胎龄为1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周、20周、21周、22周、23周、24周、25周、26周、27周、28周、29周、30周、31周、32周、33周、34周、35周、36周、37周、38周、39周、40周、41周、42周、43周、44周或45周)测定妊娠对象的样本(例如,抽血)。
图8显示了美国产科医生估计的胎龄的阴道单胎分娩分布的实例。该图显示,只有23.7%的阴道单胎分娩发生在估计胎龄40周时,约67%的阴道单胎分娩发生在估计胎龄39-41周时。因此,距分娩时间的此种变化表明,使用本公开的系统和方法,需要使用分子钟的更好的分娩日期预测因子。
图9A-图9E显示了预测妊娠对象胎儿的预产期的不同方法,包括预测实际日期(有误差)(图9A)、预测分娩周(或其他窗口)(图9B)、预测分娩是否预期发生在某个时间边界之前或之后(图9C)、预测分娩预期发生在多个箱(例如,6个箱)中的哪个箱(图9D)以及预测提前分娩或延迟分娩的相对风险或相对似然性(图9E)。
例如,预产期预测模型可用于预测实际日期(有误差)(图9A)。例如,预测的预产期可以是天数(例如,1天、2天、3天、4天、5天、6天或7天)或周数(例如,1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周、20周、21周、22周、23周、24周、25周、26周、27周、28周、29周、30周、31周、32周、33周、34周、35周、36周、37周、38周、39周、40周、41周、42周、43周、44周或45周),直到妊娠对象的胎儿预期分娩。作为另一实例,预测的预产期可以是预期发生妊娠对象胎儿分娩的未来日期。作为另一实例,预测的预产期可以是预期发生妊娠对象的胎儿分娩的估计胎龄(例如,1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周、20周、21周、22周、23周、24周、25周、26周、27周、28周、29周、30周、31周、32周、33周、34周、35周、36周、37周、38周、39周、40周、41周、42周、43周、44周或45周)。预测的预产期可以与预测的预产期的误差或置信区间(例如,1天、2天、3天、4天、5天、6天、7天、2周、3周或4周)一起提供。预测的预产期可以与预测的预产期的估计似然性或置信度(例如,约50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%)一起提供。
作为另一实例,预产期预测模型可用于预测分娩周(或其他窗口)(图9B)。例如,预测的预产期可以是周数(例如,1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周、20周、21周、22周、23周、24周、25周、26周、27周、28周、29周、30周、31周、32周、33周、34周、35周、36周、37周、38周、39周、40周、41周、42周、43周、44周或45周),直到妊娠对象的胎儿预期分娩。作为另一实例,预测的预产期可以是预期发生妊娠对象胎儿分娩的未来一周(例如,日历上的一周)。作为另一实例,预测的预产期可以是预期发生妊娠对象胎儿分娩的估计胎龄(例如,1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周、20周、21周、22周、23周、24周、25周、26周、27周、28周、29周、30周、31周、32周、33周、34周、35周、36周、37周、38周、39周、40周、41周、42周、43周、44周或45周)。预测的预产期可以与预测的预产期的估计似然性或置信度(例如,约50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%)一起提供。
作为另一实例,预产期预测模型可以用于预测分娩是预期发生在某个时间边界之前还是之后(图9C)。例如,时间边界可以是估计胎龄的周数(例如,1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周、20周、21周、22周、23周、24周、25周、26周、27周、28周、29周、30周、31周、32周、33周、34周、35周、36周、37周、38周、39周、40周、41周、42周、43周、44周或45周),直到妊娠对象的胎儿预期分娩。例如,时间边界可以是估计胎龄40周。
作为另一实例,预产期预测模型可以用于预测多个箱(例如,6个箱)中的哪个箱预期会发生分娩(图9D)。例如,箱(例如,时间窗口)可以是相等的时间范围(例如,1周、2周、3周、4周、5周、6周、7周、8周、9周、10周、11周、12周、13周、14周、15周、16周、17周、18周、19周、20周、21周、22周、23周;或1个月、2个月、3个月、4个月或5个月;或妊娠首三个月、中间三月期或末三个月中的妊娠期)。预测的预产期可以与预测的预产期箱或时间窗口的估计似然性或置信度(例如,约50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%)一起提供。
作为另一实例,预产期预测模型可用于预测提前分娩或延迟分娩的相对风险或相对似然性(或其他窗口)(图9E)。例如,预测可以包括约10%、20%、30%、40%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的提前分娩或延迟分娩的相对风险或相对似然性。提前分娩可以定义为估计胎龄小于40周的预产期,而延迟分娩可以定义为估计胎龄超过40周的预产期。
使用从妊娠对象的胎龄(GA)队列中收集的样本训练预产期预测模型,所有对象的胎儿估计胎龄为34周至36周。使用270和312个样本的队列(其中约一半是高加索人,一半是AA)获得训练数据集,其中41个样本被指定为实验室异常值并且未使用,1个样本具有异常低CPM。此外,使用19个样本(其中大多数是高加索人)的队列(003_GA)和47个验证样本的队列(009_VG)获得64个样本的检测数据集(所有样本的估计胎龄为34周至36周,其中大多数是高加索人)。
进行基因发现以开发如下的预产期预测模型。使用241个输入基因(包括候选标记基因)的集。使用训练数据集,这些候选标记基因的子集被鉴定为具有大于0.5的高中位数(log2_CPM)值。使用248个基因的集(如表7所示)对训练样本的实际距分娩时间(例如,前100个基因的-7周对-2周,前100个基因的-6周对-3周)进行方差分析(ANOVA)。进行皮尔逊线性相关以鉴定候选标记基因中统计相关性最强的前100个基因。检测了许多不同的预测模型来预测距分娩时间箱。首先,使用护理标准,其中基于胎龄为40周的预测的预产期预测距分娩时间。其次,仅使用超声数据估计胎龄,使用收集时GA(collectionga)队列作为弹性网络预测模型的输入。再次,仅使用cfDNA估计胎龄,使用基因和混杂因素(例如,胎次、BMI、吸烟状况等)的log2_CPM输入作为弹性网络预测模型的输入。最后,使用cfDNA和超声的估计胎龄,使用弹性网络预测模型的基因、混杂因素和收集时GA输入的log2_CPM输入。
表7:ANOVA模型中使用的248个基因的集
Figure BDA0004176579550001181
/>
Figure BDA0004176579550001191
图10显示了被执行来开发预产期预测模型(例如,分类器)的数据工作流。首先,将训练数据(n=271个样本)随机分割成4个集,每个集67个样本。接下来,使用4个分割集中的3个的不同组合来训练模型,组合通过一次省略1个分割集(例如,分割1、2、3的第一组合;分割2、3、4的第二组合;分割1、3、4的第三组合;以及分割1、2、4的第四组合;每个具有n=203个样本)创建。接下来,使用n=271个样本执行交叉验证,其中4个模型中的每一个都在保留的分割集(n=67个样本)上进行检测。接下来,对模型中的每一个进行独立验证,从而在独立数据(例如,检测数据集)上检测模型。
图11A-图11B显示了分别在270名和310名患者上训练的预产期预测模型的预测误差。该图显示了具有给定预测误差的样本的百分比(例如,距分娩时间箱,组距为1周,其中正值表示分娩发生在预测的预产期之后,负值表示分娩发生在预测的预产期之前)。这些图显示,与标准护理(40周)模型和仅超声模型相比,使用仅cfRNA模型或cfRNA加超声模型预测预产期的准确性和误差更低。
实施例6:早产(PTB)预测
使用本公开的系统和方法,开发预测模型来预测妊娠对象的早产(PTB)风险。利用如表8所示的经修饰基因列表重新分析了获得自高加索人对象队列的数据集(如实施例4中所述)。图12显示了针对获自高加索人对象的队列的79个样本的集使用22个基因的集时,用于早产预测模型的受试者工作特征曲线(ROC)曲线。在总共79个样本中,23个样本具有早期PTB(定义为在估计胎龄34周之前分娩)。ROC曲线的平均曲线下面积(AUC)为0.91±0.10。
表8:用于预测早产(PTB)的基因(高加索人)
Figure BDA0004176579550001201
Figure BDA0004176579550001211
此外,图13A显示了针对获自具有非洲或非裔美国人血统的对象的队列(AA队列)的45个样本的集使用基因集时,用于早产预测模型的受试者工作特征(ROC)曲线。在总共45个样本中,18个样本具有早期PTB(定义为在估计胎龄34周之前分娩)。ROC曲线的平均曲线下面积(AUC)为0.82±0.08。
图13B显示了三个不同AA队列(队列1、队列2和队列3)的早产预测模型的基因分组,包括RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。
图14A显示了使用获自妊娠对象的单个身体样本(例如,单次抽血)执行多种测定以评估多种妊娠相关状况的工作流程。可以在妊娠期间进行多次抽血,以调查和检测妊娠进展。对在特定时间点(例如T1、T2和T3)获得的血样进行检测,以确定几周后可能发生的特定妊娠相关并发症的风险。对于胎儿发育,在每次抽血(T1、T2和T3)时进行纵向检测,以提供胎儿发育进展的结果。例如,可以在时间T1从妊娠对象获得第一血样(例如,在妊娠首三个月),可以在时间T2从妊娠对象获得第二血样(例如,在妊娠中间三月期),并且可以在时间T3从妊娠对象获得第三血样(例如,在妊娠末三个月)。在时间T1获得的血液样本可以用于测定妊娠相关状况,这些状况在妊娠早期或妊娠首三个月可以是可检测或预测的,诸如早产、自然流产、PE、GDM和胎儿发育。在时间T2获得的血液样本可以用于测定妊娠相关状况,这些状况在妊娠中期或妊娠中间三月期可以是可检测或预测的,诸如早产、PE、GDM、胎儿发育和IUGR。在时间T3获得的血液样本可以用于测定妊娠相关状况,这些状况在妊娠晚期或妊娠末三个月可以是可检测或预测的,诸如预产期、胎儿发育、胎盘植入、IUGR、产前代谢疾病和来自RNA的新生儿代谢遗传疾病。
图14B显示了可以从妊娠对象的妊娠进展中通过单次抽血来测试的状况组合。在时间T1获得的血液样本可以用于测定妊娠相关状况,这些状况在妊娠早期或妊娠首三个月可以是可检测或预测的,诸如早产、先兆子痫(妊娠相关高血压病症)、妊娠期糖尿病、自然流产和胎儿发育(正常和异常)。在时间T2获得的血液样本可以用于测定妊娠相关状况,这些状况在妊娠中期或妊娠中间三月期可以是可检测或预测的,诸如胎龄、先兆子痫(妊娠相关高血压病症)、妊娠期糖尿病、自然流产、前置胎盘、植入胎盘(出血或出血过多)、胎膜早破(PROM)、胎儿发育(正常和异常)和宫内/胎儿生长受限(IUGR)。在时间T3获得的血液样本可以用于测定妊娠相关状况,这些状况在妊娠晚期或妊娠末三个月可以是可检测或预测的,诸如预产期、先天性疾病、前置胎盘、植入胎盘(出血或出血过多)、胎膜早破(PROM)、胎儿发育(正常和异常)和宫内/胎儿生长受限(IUGR)、产后抑郁、产前代谢遗传病、产后心肌病、以及来自RNA的新生儿代谢遗传病。
实施例7:临产预测
使用本公开的系统和方法,开发预测模型来检测或预测妊娠对象临产的风险。例如,在接下来的1至3周内发生或预测将发生的分娩可以被认为是临产。预测模型开发包括获得对象队列,以及在对应于对象队列的训练数据集上训练预测模型。
如下获得对象队列。如图15A-图15B所示,分别建立了310名混血人种对象(例如孕妇)的发现1队列和86名高加索人对象的发现2队列(x轴上显示患者识别号)。从这些队列中,使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点收集一个或多个生物样本(例如,1或2个)并进行测定。例如,估计胎龄(显示在y轴上)可以使用诸如超声成像、末次月经期(LMP)日期或其组合的方法来确定,并且可以在0至约42周的范围内。发现队列包括在分娩/出生前1-10周之间收集血液的足月产和早产对象。
图15C-图15D分别显示了基于血液样本收集妊娠的发现1混合人种队列和发现2高加索人队列中参与者的分布。图15E-图15F分别显示了在出生前几周在发现1混合人种队列和发现2高加索人队列中收集的样本的分布。
表9显示了包括从其中收集不同样本类型用于不同研究的对象的临产验证队列,包括用于预测早产(例如,作为对照)、预测分娩、预测预产期和预测每个对象胎儿实际胎龄的研究。
表9:发现和验证队列
Figure BDA0004176579550001231
队列数据集的差异表达分析如下。如图15E所示,在从出生开始采血时,将来自发现队列的所有样本归入统计在妊娠1至10周。对与距分娩时间相关的基因进行了差异分析,发现9个基因在接近出生的10周时显示出显著的相关性。预测出生前1至10周的出生的9个基因(HTRA1、PAPPA2、ADCY6、PTPRB、TANGO2、IGFBP7、EFHD1、NFYB、ITGA5)的集列于表10。HTRA1基因尤为重要。HTRA1是一种切割胎儿纤连蛋白的丝氨酸蛋白酶,胎儿纤连蛋白可能在出生前或出生时存在于阴道分泌物中。
表10:预测1至3周内出生的基因
Figure BDA0004176579550001232
Figure BDA0004176579550001241
图16A显示了出生前1周收集的样本之间的前4个基因(EFHD1、ADCY6、HTR1、PAPPA2)的集的表达趋势和显著丰度水平分离。图16B显示了示出与接近分娩显著相关的基因的实例。该图表明,在几个发现和验证队列中3个基因(HTRA1、PAPPA2和EFHD1)的log10(p-值)的相关p值显著性超过阈值1。
实施例8:早产(PTB)预测
使用本公开的系统和方法,开发预测模型来检测或预测妊娠对象的早产(PTB)的风险。预测模型开发包括获得对象队列,以及在对应于对象队列的训练数据集上训练预测模型。
如下获得对象队列。如图17A所示,建立了192名对象(例如孕妇)的第一队列(x轴上显示患者识别号)。从这一队列中,使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点收集了一个或多个生物样本(例如,1或2个)并进行测定。例如,估计胎龄(显示在y轴上)可以使用诸如超声成像、末次月经期(LMP)日期或其组合的方法来确定,并且可以在0至约42周的范围内。第一队列包括从其中收集不同样本类型(早产、高危早产、流产或死产)用于不同类型的建模的对象,其中利用样本分类以鉴定不同亚型或类别中与早产、流产或死产相关的标志物。
图17B显示了基于每个参与者在提取病历时的年龄在第一队列中的参与者的分布。图17C显示了基于每个参与者的人种在第一队列中192名参与者的分布。图17D显示了基于所收集样本的研究样本类型在第一队列中192个所收集样本的分布。
此外,如图18A所示,建立了76名对象(例如孕妇)的第二队列(x轴上显示患者识别号)。从这一队列中,使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点收集了一个或多个生物样本(例如,1或2个)并进行测定。例如,估计胎龄(显示在y轴上)可以使用诸如超声成像、末次月经期(LMP)日期或其组合的方法来确定,并且可以在0至约42周的范围内。
图18B显示了基于每个参与者的人种在第二队列中76名参与者的分布。图18C显示了基于所收集样本的研究样本类型在第二队列中76个所收集样本(25个早产样本和51个足月产对照)的分布。图18D显示了基于所收集样本的研究样本类型在第二队列中76个所收集样本(25个早产样本和51个足月产对照)的分布。
第一队列数据集的差异表达分析如下。对早产病例样本和对照样本之间的差异表达基因进行分析,发现了所有病例和对照中的100个差异表达基因的集。
例如,表11显示了PTB病例不同亚型之间的差异基因表达。如果样本与以下妊娠并发症中的至少一种的既往史相关联,则将其归类为高风险组:自发性PTB、PPROM、晚期流产(例如,胎龄14周后)、宫颈手术和子宫异常。如果样本与没有上述风险因素的一般产前人群相关联,则样本被归类为低风险组。流产的特征是在胎龄24周之前分娩。
表11:不同亚型PTB的早产信号
Figure BDA0004176579550001251
如图19A所示,观察到不同亚型PTB中早产相关联基因中的信号由高风险组驱动,其显示了单个基因的观察到的P值与零假设的偏差的图形表示的分位数-分位数(QQ)图。在log10(p-值)为3.5时偏离中线的基因被认为在高风险人群中相对于健康对照真正差异表达。用于预测高危早产(PTB)的排名靠前的基因集列于表12中。
图19B显示了针对获自高加索人对象的高风险亚类队列的167个样本的集使用来自表11的所有差异表达基因时,用于早产预测模型的受试者工作特征曲线(ROC)曲线。在总共167个样本中,44个样本具有早期PTB(定义为在估计胎龄34周之前分娩)。ROC曲线的平均曲线下面积(AUC)为0.75±0.08。图19C显示了前9个基因(EFHD1、ABI3BP、NEAT1、HSD17B1、CDR1-AS、GCM1、DAPK2、ZCCHC7、COL3A1和AKR7A2)的集的受试者工作特征(ROC)曲线。ROC曲线的平均曲线下面积(AUC)为0.80±0.07,每个基因都有相对贡献。
表12:用于高危早产(PTB)的排名靠前的预测基因集
Figure BDA0004176579550001261
/>
Figure BDA0004176579550001271
/>
Figure BDA0004176579550001281
/>
Figure BDA0004176579550001291
/>
Figure BDA0004176579550001301
/>
Figure BDA0004176579550001311
/>
Figure BDA0004176579550001321
/>
Figure BDA0004176579550001331
第二队列数据集的差异表达分析如下。在第二队列中使用无细胞RNA样本进行生物标志物发现以鉴定早产的早期诊断标志物。为了减少胎龄的影响,样本集减少到来自早产孕妇的27个血浆样本和来自匹配对照的53个血浆样本,这些血浆样本是在等同妊娠周(例如,胎龄约25周)收集的,如表13所示。
表13:第二队列中早期PTB样本的人口统计学
样本 收集时的GA(周) BMI
早产病例 27 25.4±1.0 29.5±6.5
对照 53 25.4±1.0 26.2±8.0
图20A显示了分析中包括的第二队列中早期PTB样本和对照的子集的人口统计数据的分布。对早产病例样本和早产对照样本之间的差异表达基因进行分析。确定了用于预测高危早产(PTB)的前30个基因的集,如表14所示。
表14:第二队列中早期PTB排名靠前的差异表达基因的统计值
Figure BDA0004176579550001341
/>
Figure BDA0004176579550001351
图20B显示了第二队列中早期PTB的QQ图,其是观察到的P值与单个基因的零假设偏差的图示。在log10(p-值)为3.5时偏离中线的基因被认为在病例和健康对照之间真正差异表达。
图20C显示了第二队列中早期PTB的前12个差异表达基因(ANGPTL3、NPM1P26、HIST1H4F、CRY1、BHMT、C2orf49、OASL、SELE、CHD4、IFIT1、DHX38和DNASE1)的箱线图和显著丰度水平分离。结果表明,差异表达不是由母体对象的种族差异驱动的。
实施例9:先兆子痫(PE)预测
使用本公开的系统和方法,开发预测模型来检测或预测妊娠对象的先兆子痫(PE)风险。预测模型开发包括获得对象队列,以及在对应于对象队列的训练数据集上训练预测模型。
如下获得对象队列。如图21所示,建立了18名对象(例如孕妇)的第一队列(x轴为分娩)。从这一队列中,使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在x轴上,以分娩时估计胎龄的递增顺序)的不同时间点收集了一个或多个生物样本并进行测定。例如,估计胎龄(显示x轴和y轴上)可以使用诸如超声成像、末次月经期(LMP)日期或其组合的方法来确定,并且可以在0至约42周的范围内。第一队列包括6名PE病例,其中1名对象早发性PE导致妊娠32周前分娩,5名对象晚发性PE在妊娠36周后分娩。
此外,如图22A所示,建立了130名对象(例如孕妇)的第二队列(x轴上显示患者识别号)。从这一队列中,使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点收集了一个或多个生物样本(例如,1或2个)并进行测定。例如,估计胎龄(显示在y轴上)可以使用诸如超声成像、末次月经期(LMP)日期或其组合的方法来确定,并且可以在0至约42周的范围内。第一队列包括从其中收集不同样本类型用于不同类型的建模的对象,其中利用样本分类来鉴定不同亚型或类别中与早产相关联的标志物。
图22B显示了基于每个参与者的人种在第二队列中130名参与者的分布。图22C显示了基于所收集样本的研究样本类型在第二队列中144个所收集样本的分布。
第一队列数据集的差异表达分析如下。对先兆子痫病例样本和健康对照样本之间具有统计学意义的基因进行了从头发现分析,发现了3,869个差异表达基因的集。
例如,表15显示了前20个差异表达基因,其中前4个基因(SPTB、PLGRKT、ZNF69和KIF5C)满足小于先兆子痫病例和对照之间0.05的p值的Bonferroni校正阈值。
表15:先兆子痫(PE)中具有统计学意义的前20个差异表达基因
Figure BDA0004176579550001361
Figure BDA0004176579550001371
图23显示了第一队列中先兆子痫(PE)前20个差异表达基因的病例和健康对照之间的显著丰度水平分离。192名健康对照的另外集在同一妊娠期收集血液,并添加相似的人口统计学特征作为第二健康对照组,以显示先兆子痫对象的良好差异表达分离。
第二队列数据集的差异表达分析如下。我们在第二队列中使用无细胞RNA进行生物标志物发现以鉴定先兆子痫的早期诊断标志物。为了减少胎龄的影响,样本集减少到来自患有先兆子痫的36个血浆样本和来自匹配对照的74个血浆样本,这些血浆样本是在等同妊娠周(例如,胎龄约25周)和相当的母体体重指数(BMI)收集的,如表16所示。
表16:第二队列中PE样本的人口统计学
样本 收集时的GA(周) BMI
病例 36 25.3±1.0 29.8±7.2
对照 74 25.4±1.1 28.5±7.2
图24A显示了分析中包括的第二队列中PE样本和对照的子集的人口统计数据的分布。使用Wald检验在病例和对照之间进行差异表达分析,从而获得发生先兆子痫的妊娠和匹配对照之间的差异表达基因。
表17显示了PE的前19个差异表达基因。值得注意的是,在发现的排名靠前的基因中,有几个基因与胎盘发育有关,诸如PAPPA2。观察到,PAPPA2在对多重假设校正进行调整后表现出显著的统计学意义,并且在PE中差异表达的QQ图中也显示出与零假设的显著偏差(如图24B所示)。
另外,如图24C的箱线图所示,前12个基因(AGAP9、ANKRD1、C1S、CCDC181、CIAPIN1、EPS8L1、FBLN1、FUNDC2P2、KISS1、MLF1、PAPPA2和TFPI2)表达的差异不是由母体种族差异驱动的,这支持其作为先兆子痫的早期预测因子的作用。表17中总结了第二队列的差异表达分析的前19个基因。
表17:第二队列中预测先兆子痫(PE)的前19个差异表达基因
Figure BDA0004176579550001381
/>
Figure BDA0004176579550001391
实施例10:胎龄18周后收集血液的对象的先兆子痫(PE)预测和两个队列之间的验
此外,如图25A所示,建立了351名对象(例如孕妇)的队列(x轴上显示患者识别号)。从这一队列中,使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点收集了一个或多个生物样本(例如,1或2个)并进行测定。例如,估计胎龄(显示在y轴上)可以使用诸如超声成像、末次月经期(LMP)日期或其组合的方法来确定,并且可以在0至约42周的范围内。第一队列包括从其中收集不同样本类型用于不同类型的建模的对象,其中利用样本分类来鉴定不同亚型或类别中与早产相关联的标志物。
此外,351名对象的队列包括315名对照对象,在胎龄37周后分娩。275名对照对象被分类为健康对照,40名对照对象患有慢性高血压病史,无先兆子痫。36名对象被诊断为先兆子痫,并在胎龄37周前分娩。24名对象被诊断为新发(de novo)先兆子痫,12名对象患有先兆子痫并有慢性高血压病史。
队列数据集的差异表达分析如下。在第二队列中使用无细胞RNA进行生物标志物发现以鉴定先兆子痫的早期诊断标志物。为了估计慢性高血压的影响,进行了两次单独的差异表达分析来估计慢性高血压的影响。对36名先兆子痫病例和275名健康对照进行了第一项分析;此外,进行了第二项分析,其中添加了40名患有慢性高血压的对照对象,因此总共有315名对照对象。
表18显示了用于包括慢性高血压和不包括慢性高血压的比较的队列中PE的排名靠前的差异表达基因。来自两项分析的排名靠前的基因重叠,这表明与先兆子痫相关的信号,而不是慢性高血压。
PAPPA2基因是两种比较中显著表达基因列表中的一者。观察到,PAPPA2在对多重假设校正进行调整后表现出显著的统计学意义,并且在PE中差异表达的QQ图中也显示出与零假设的显著偏差(如图25B所示)。值得注意的是,PAPPA2基因也是实施例9中发现的排名靠前的基因之一。表17显示了其在两个不同队列之间的先兆子痫相关联信号中的重要性和一致性。表18中总结了队列的两次差异表达分析的排名靠前的基因。
表18:两次队列分析中预测先兆子痫(PE)的排名靠前的差异表达基因
Figure BDA0004176579550001401
/>
Figure BDA0004176579550001411
对来自实施例9的队列以及总共72名先兆子痫病例和452名对照的当前队列的组合先兆子痫数据集进行附加差异表达分析。
表19显示了组合集PE的前13个差异表达基因。值得注意的是,观察到PAPPA2显示在顶部,其在针对多重假设校正进行调整后具有显著的统计学意义。
表19:组合队列分析中预测先兆子痫(PE)的前13个差异表达基因
Figure BDA0004176579550001412
/>
Figure BDA0004176579550001421
为了验证先兆子痫预测建模,使用实施例9中的PE数据集(36名病例和137名对照)进行基因选择和训练,并使用当前队列(36名病例和315名对照)检测建模的可预测性。
图25C显示了使用训练队列中发现的前10个表达基因的所有差异表达基因,先兆子痫预测模型的受试者工作特征(ROC)曲线。训练集的ROC曲线的平均曲线下面积(AUC)为0.75,检测集为0.66,表明信号相关性很强。
对528名对象的组合队列数据集进行交叉验证PE建模。图25D显示了使用表19中的所有差异表达基因的先兆子痫预测模型的受试者工作特征(ROC)曲线。ROC曲线的平均曲线下面积(AUC)为0.76。
实施例11:组合的多队列的早产(PTB)预测
来自实施例4和实施例8的所有PTB队列加上一个附加队列被组合到单个数据集中,如图26A所示,共有255名在胎龄38周前早产的病例对象和796名在38周后胎龄分娩的健康对照对象。
如下获得对象的附加队列。如图26B所示,建立了281名对象(56名早产和225名足月产对照)的队列(x轴上显示患者识别号)。从这一队列中,使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点收集了一个或多个生物样本(例如,1或2个)并进行测定。例如,估计胎龄(显示在y轴上)可以使用诸如超声成像、末次月经期(LMP)日期或其组合的方法来确定,并且可以在0至约42周的范围内。
为了减轻采血对胎龄的影响,对组合队列进行了以下两项单独的差异表达分析。首先,对在胎龄20至28周之间收集的血液样本进行了早产病例样本(在28至35周之间分娩)和对照样本(在38周后分娩)之间差异表达基因的分析。在第二项分析中,针对在胎龄23至28周的更窄窗口之间收集的血液样本进行了早产病例样本(在28至35周之间分娩)和对照样本(在38周后分娩)之间的差异表达基因分析。
表20显示了利用在胎龄20至28周之间时从对象收集的血液样本,预测28至35周之间早产的前9个差异表达基因,其显示了在对多重假设校正进行调整后的显著统计学意义,并且还显示了在早产病例中差异表达的QQ图中与零假设的显著偏差(如图26C所示)。使用EdgeR进行差异表达分析,并考虑种族和队列效应(113名PTB病例和647名对照)。
表20:利用胎龄20-28周之间收集的血液预测28-35周之间早产的排名靠前的基因集
Figure BDA0004176579550001431
Figure BDA0004176579550001441
表21显示了利用在胎龄23至28周之间时从对象收集的血液样本,预测28至35周之间早产的前11个差异表达基因,其显示了在对多重假设校正进行调整后的显著统计学意义,并且还显示了在早产病例中差异表达的QQ图中与零假设的显著偏差。使用EdgeR进行差异表达分析,并考虑种族和队列效应(73名PTB病例和335名对照)。
表20和表21中只有约一半的基因重叠,表明采血时的胎龄对预测早产的基因列表有很强的影响。
表21:利用23-28周之间收集的血液预测28-35周之间早产的排名靠前的基因集
基因 logFC Log2倍数变化 P值 FDR
HRG -1.3829 1.507414 2.45E-08 0.000283
APOB -0.9663 2.503944 2.93E-07 0.001692
FGA -0.98087 1.986942 1.11E-06 0.003309
FGB -0.98335 1.9955 1.15E-06 0.003309
PAPPA2 -0.89151 1.504208 3.73E-06 0.008605
APOH -0.98788 1.572287 1.02E-05 0.019636
HPD -0.78336 2.01557 2.4E-05 0.037305
FGG -0.9384 1.369466 2.58E-05 0.037305
ALB -0.71179 5.593431 7.75E-05 0.099401
COL19A1 -0.66394 1.852947 9.37E-05 0.108189
实施例12:使用训练集和检测集预测组合的多个队列的GA
胎龄队列包括从其中收集不同样本类型用于不同研究的对象,包括预测采血时每个对象胎儿实际胎龄的研究。将来自实施例1-11中呈现的回顾性队列的所有健康妊娠样本组合到单个数据集中,如图27A所示。通过组合来自8个前瞻性收集的妊娠队列的样本,我们收集了来自不同种族且涵盖广泛胎龄的1,652名孕妇的2,428个血浆样本。组合的数据人口统计如表22所示。将8个不同的队列分批处理,并在数据建模之前进行校正。
表22.组合的数据集人口统计
Figure BDA0004176579550001451
使用三种不同的方法来开发基于组合队列的GA建模。
在第一种方法中,使用用于胎龄的预测模型生成预测胎龄。Lasso线性模型预测训练集中的胎龄,当使用超声估计胎龄作为基本事实时,检测集性能的平均绝对误差为2.0周。这一模型使用表23中列出的494个基因。
表23:通过Lasso线性模型预测胎龄的494个基因的集
Figure BDA0004176579550001452
/>
Figure BDA0004176579550001461
/>
Figure BDA0004176579550001471
/>
Figure BDA0004176579550001481
/>
Figure BDA0004176579550001491
/>
Figure BDA0004176579550001501
/>
Figure BDA0004176579550001511
/>
Figure BDA0004176579550001521
图27B是显示在留存检测数据中,胎龄队列中对象的预测胎龄(周)与测量的胎龄(周)之间的关系的图。在6周至36周的预测范围内的误差是恒定的,并且没有显示出与GA的任何相关性。这与随着妊娠的进展,误差逐渐增加的基于超声的年代测定形成对比。总体而言,模型的误差与妊娠中间三月期超声的误差相当,优于妊娠末三个月。ANOVA分析表明,模型中的大部分信号是由RNA转录物驱动的,BMI、母体年龄和人种或种族占信号的不到0.5%。妊娠生物标志物模型(例如,基于胎龄相关联生物标志物基因集的胎龄预测)与人种或种族无关。
在第二种方法中,来自所有健康妊娠的全转录组数据被分为训练集(1482个样本)和留存检测集(495个样本),确保按胎龄分层,因此,所有范围在训练和留存检测集中被同等地代表呈现。
使来自训练集的全转录组数据经受Lasso模型。表24显示了在将空间搜索限制到每百万平均计数高于1cpm的基因后,在使用Lasso方法生成的训练集中预测经预测胎龄的前57个转录组特征。模型使用54个基因和3个附加的转录组学特征(其使用Lasso选择),以当使用超声估计胎龄作为基本事实时,以平均绝对误差为2.33周的检测集性能预测胎龄。
表24:通过Lasso方法预测胎龄的57个转录组特征的集
Figure BDA0004176579550001531
/>
Figure BDA0004176579550001541
/>
Figure BDA0004176579550001551
在第三种方法中,通过递归特征消除(RFE)鉴定预测胎龄的基因。来自5个队列(不包括少于100个样本的队列,例如B、C和F)的健康个体的组合数据集被随机分为80%训练集(2390个样本)和20%检测集(478个样本),确保按胎龄分层,因此所有范围在训练集和留存检测集中同等地呈现。在建模之前,删除了由实验室QC指标鉴定的异常值。表达水平转换为log2 CPM水平。通过普通最小二乘法拟合基因特征的线性模型预测抽血时的胎龄。通过使用RFE执行特征排序来选择特征,RFE通过基于线性模型中的估计系数修剪(prune)重要性最低的特征来递归减少特征集。在递归特征消除之前,筛选表达水平与胎龄关系最小的转录物的基因特征。计算抽血时原始基因计数与胎龄的成对关系的Spearman等级相关系数,以评估每个基因在线性模型中预测胎龄方面的强度。基于为最小Spearman等级相关性设置的阈值,例如0.3、0.4、0.5或0.6,将整个转录组向下选择到RFE分析的基因库中。5倍交叉验证根据RFE靶向的基因的数量调整超参数。最终的线性模型在由RFE设定的训练集上训练为通过交叉验证鉴定的最佳基因数量。基于检测数据集上估计和观察到的胎龄之间的均方根误差、平均绝对误差(MAE)、中位绝对误差表现来评估模型。
表25显示了在使用Spearman阈值为0.4的RFE方法生成的训练集中,被鉴定用于预测经预测胎龄的前70个基因模型。当使用超声估计胎龄作为基本事实时,由RFE鉴定的70个基因线性模型以2.5周的平均绝对误差性能预测检测集中的胎龄。
表25:来自由RFE拟合的线性模型的预测胎龄的70个基因
Figure BDA0004176579550001561
/>
Figure BDA0004176579550001571
/>
Figure BDA0004176579550001581
图27D是显示在用于RFE胎龄建模的留存检测数据中,胎龄队列中对象的预测胎龄(周)与测量的胎龄(周)之间的一致性的图。
在另一种方法中,开发了线性回归模型来预测胎龄,作为更窄的胎龄转录物表达水平的函数。集中在6-16周之间的妊娠首三个月收集单个队列全转录组数据集。集中在妊娠首三个月收集单个队列全转录组数据集。数据被分为80%训练集(164个样本)和20%留存检测集(33个样本),确保按胎龄分层,因此,所有范围在训练和留存检测集中同等地呈现。训练数据集用于5倍交叉验证以选择基因特征并使用普通最小二乘法进行线性回归拟合建模。通过分层聚类进行特征选择。首先,基于皮尔逊相关系数阈值与胎龄的最小幅度筛选全转录组,例如,|R|≥0.2会将基因减少至全转录组的3.7%至547个基因进行聚类。然后根据基于成对皮尔逊相关系数计算的观察结果中的基因间相似性对筛选后的基因进行聚类。然后鉴定截止点以修剪分层聚类,将特征减少至目标聚类数。为每个聚类选择或计算代表性基因特征。聚类代表可以基于识别具有最大皮尔逊相关系数幅度与胎龄的单个基因来选择,或者可以是代表聚类内所有基因的平均值或中位数的聚合测量值。在每一轮交叉验证中,然后使用鉴定的特征在训练折叠上训练线性回归,并在未用于训练的折叠上评估模型。最终特征是基于线性模型中观察到的和预测的妊娠之间的最小RMSE性能确定的。
表26显示了通过分层聚类确定的线性模型中胎龄的20个预测基因。当使用超声估计胎龄作为基本事实时,预测妊娠首三个月(6至16周)胎龄的检测集性能为RMSE 2.1周。
表26:通过在妊娠6-16周之间收集的样本中分层聚类鉴定的预测胎龄的20个基因的集
Figure BDA0004176579550001591
/>
Figure BDA0004176579550001601
图27E是显示在妊娠首三个月建模中的留存检测数据中,胎龄队列中对象的预测胎龄(周)与测量的胎龄(周)之间的一致性的图。
实施例13:使用由中到高水平表达的基因选择的基因预测先兆子痫(PE)
此外,通过丰度基因搜索方法组合并分析来自实施例9和10中描述的两个队列的全转录组数据。541个样本的组合队列包含469个对照样本,抽血时胎龄至少为17周,并且分娩时胎龄低至21周。此外,这一组合队列包含72个诊断为先兆子痫的病例样本,抽血时胎龄至少为18周,并且分娩时胎龄早至26周。
进行逻辑回归以根据转录表达数据对妊娠个体中先兆子痫的概率进行建模。采用选择方法鉴定以中高丰度表达的预测先兆子痫的基因。在建模之前,基于患有和未患有先兆子痫的个体之间每个基因的原始计数的最小中位数倍数变化筛选基因。一个实施方案包括筛选在病例和对照之间表达中位倍数变化≤0.5且>1.5的基因,以包括在先兆子痫中上调和下调的丰度基因。此外,对基因进行筛选,使其在设定百分比的训练数据中具有最少读数。一个实施方案筛选在大于50%的训练样本中具有至少5个读数的基因。应用这两个筛选器将转录组还原为丰度基因的初始基因库,然后通过递归特征消除(RFE)将其列为逻辑模型的特征。在建模之前,原始基因计数被转换为标准化的log2 CPM水平。
执行嵌套重采样以估计RFE鉴定的丰度基因集的性能,而不会在训练和检测之间发生数据(调整RFE要对准的最佳特征数量所需要的)泄漏。外部重采样循环用于检测通过RFE在鉴定的基因特征上训练的逻辑模型的性能,而内部重采样环用于调整RFE所需的目标特征数量。将来自2个队列的组合数据集随机分割一百次,分为80%训练(432个样本)和20%留存监测(109个样本),以构成外部重采样循环,确保按病例和对照、胎龄和队列进行分层,以确保每个样本在训练集和留存检测集中得到等同的呈现。
对于每个训练和检测外部分割,将训练数据进一步分为80%训练(345个样本)和20%留存检测(87个样本)集,以构成内部重采样循环。这一内部重采样分割被随机执行一百次,以估计在给定的训练/测试分割中鉴定的基因特征的稳健性。
为了鉴定给定内部训练/检测数据集分割的丰度基因特征,在外部训练数据集上训练逻辑模型之前,对内部重采样循环执行交叉验证(CV)以鉴定最佳特征数量。对每个内部训练数据集执行4倍交叉验证(CV),以通过最大化检测集上的AUC性能来鉴定通过RFE训练逻辑模型的最佳特征数量。在每轮CV中,通过执行从1到最大特征数量的RFE来优化目标基因数量。在一个实施例中,鉴于训练数据集的大小,将最大特征数量设置为20以减少过拟合。对于所使用的多个RFE特征数量中的每一个,计算4个CV检测折叠的平均AUC,并基于4个CV折叠的最大平均AUC选择最佳特征数量。然后使用完整的内部训练集,通过具有最佳特征数量的RFE训练逻辑回归模型以鉴定丰度基因,并在配对的内部检测数据集上计算模型的AUC性能。在一百个随机内部分割中计算丰度基因的频率,并筛选这些数据以生成用于在外部训练数据集上训练最终逻辑模型的最终基因特征。然后,通过在留存外部测试数据集上评估经训练的逻辑模型来比较特征集的性能。鉴定基因特征的截止值包括基于内部循环中最频繁观察到的选择,例如选择前两个最频繁鉴定的基因,或者基于那些如通过Mann-Whitney等级检验计算的在先兆子痫病例与对照之间显示显著差异表达的丰度基因,其中多个检验的p值使用Bonferroni调整经由Holm step-down方法进行校正。
表27显示了在一百次内部重采样训练和检测分割的丰度基因搜索中鉴定出的132个基因。
表27.在一百次内部重采样训练和检测分割的丰度基因搜索中鉴定出的132个基因。
Figure BDA0004176579550001621
/>
Figure BDA0004176579550001631
/>
Figure BDA0004176579550001641
/>
Figure BDA0004176579550001651
/>
Figure BDA0004176579550001661
FABP1是实施例9和10以及这一分析中排名靠前的显著表达的基因之一。观察到,FABP1在对多重假设校正进行调整后显示出显著的统计学意义,并且在PE中差异表达的QQ图中也显示出与零假设的显著偏差(如图28A)。
为了评估先兆子痫预测建模,PE数据到80%训练和20%留存检测(87个样本)的多重分割用于建立预测线性建模,并在检测集上估计AUC。在一百次分割中的单个FABP1基因建模产生ROC曲线值的曲线下面积(AUC)的平均值为0.67(图28B)。
将来自实施例9和10的最佳基因PAPPA2与来自表27的具有显著差异表达(经调整p值<0.05)的九个丰度基因(包括FABP1、CDCA2、HMGB3、ELANE、CDC20、SHCBP1、OLFM4、S100A9、S100A12)组合提供了预测建模中的显著增加,外部检测集的平均AUC为0.73(图28C)。
实施例14:使用基因集在母亲血浆中检测和监测妊娠过程中的胎儿器官发育
使用本公开的系统和方法,开发了一种检测和测量母亲血浆中胎儿器官转录RNA信号的方法,以监测怀孕期间的各个胎儿发育阶段。
如实施例12所述从队列A、B、G和H获得的转录组数据(图27A)被分割为训练集(队列H)和留存检测集(队列A、B和G)。训练集包含每个对象在大约12、20、25和32周胎龄时收集的四个纵向血液样本。
表28中呈现的细胞类型特异性基因集来源于公开可用的基因本体数据库(gsea-msigdb.org),并且用于鉴定妊娠对象血浆中的胎儿器官发育信号。
表28.用于基因集富集分析的细胞类型特异性基因集集合(C8)
主要器官 细胞类型数量 成人或胎儿 PMID
肝脏 31 成人 31292543
发育中的心脏 25 胎儿5-25w 31292543
嗅觉的 26 成人 32066986
胚胎皮层 31 胎儿22-23w 29867213
食道 4 胎儿25w 29802404
大肠 9 胎儿24w 29802404
大肠 7 成人 29802404
小肠 7 胎儿24w 29802404
5 胎儿24w 29802404
骨髓 29 成人 30243574
胎儿视网膜 11 胎儿5-25w 31269016
肾脏 30 成人 31249312
肾脏 11 胎儿12-19w 30166318
中脑 26 胎儿和祖细胞 27716510
胰腺 9 成人 27693023
脐带血 10 成人和祖细胞 29545397
前额叶皮层 31 胎儿8-26w 29539641
比较了从妊娠早期和晚期(分别为12周和32周)收集的302个细胞类型特异性基因集的样本(表28)。这些基因集中有80个被鉴定为显著富集,包括31个上调和4个下调的胎儿细胞类型(表29)。发现与参与心脏、大肠和小肠、视网膜、前额叶皮层、中脑、肾脏和食道胎儿器官发育的细胞相关联的基因集。为了进一步评估妊娠过程中显著富集的胎儿器官基因集的活性变化,计算每个cfRNA样本的每个集的标准化转录组分数,并将该分数建模为记录胎龄的线性函数。结果,在这31个显著富集的胎儿基因集中,发现有19个在妊娠时间轴上具有显著的时间上升趋势,这4个中有3个显著下降趋势。
表30.在胎龄32周和12周收集的样本之间的比较中显著富集的胎儿器官基因集;使用Benjamini-Hochberg校正调整P值;NES(标准化富集分数)
Figure BDA0004176579550001681
/>
Figure BDA0004176579550001691
图29A描绘了具有最显著上升趋势的前三个胎儿器官基因集(基于置信水平0.05的收集年龄系数的p值)。这些集是“24周小肠上皮细胞祖细胞”、“胎儿视网膜小胶质细胞”和“发育中的心脏C6心外膜细胞”。
验证胎儿细胞类型特征趋势是否可以从训练队列推广到留存检测队列(A、B和G)。所选择的胎儿细胞类型特征是作为留存队列中胎龄线性函数的模型。图29B显示了训练和检测队列中每个签名基因集的难以区分的趋势。
此外,3个胎儿器官基因集被独立鉴定为在转录组分数空间中具有显著的向下轨迹(与32周的样本相比,其中3个在胎龄12周收集的样本中也显著富集)。表明这些分析、单个基因空间中的基因集富集和转录组分数空间中的线性趋势分析在跟踪胎儿级分方面并不等同。图29C显示了随着胎龄的前三个下降趋势基因集(肾单位祖细胞、食道C4上皮细胞和前额叶皮层脑C4细胞)的验证模型。
实施例15:来自液体活检的人cfRNA谱分析为母胎健康提供了分子窗口
母体循环的液体活检为母胎二联体的生物学进展提供了非侵入性窗口[Koh等人]。我们发现,来自此种液体活检的无细胞RNA(cfRNA)特征提供了关于胎龄、监测胎儿器官发育进展的准确信息,并提供了先兆子痫潜在风险的早期预警。
结果集中在来自八个独立的前瞻性收集队列的综合转录组数据集上,包括1,724例种族和人种多样化妊娠,以及对2,536个储存血浆样本的回顾性分析。这一数据集包括来自72名先兆子痫患者的样本,与来自两个独立队列的469名非病例相匹配。在分娩前14.5周(SD 4.5周)收集液体活检。
我们发现,cfRNA特征可以准确地确定妊娠日期,在整个怀孕期间平均绝对误差为15天。重要的是,分子特征与临床因素无关,诸如BMI、母体年龄和人种或种族,这些因素累积占模型方差的不到1%,该模型主要由转录物驱动(p<2e-16)。此外,在4个妊娠时间点使用纵向样本,我们发现随着妊娠的进展,来自心脏、肾脏和小肠的胎儿信号增加;在其他三个具有纵向数据(p<1E-5)的队列中证实了这一观察结果。此外,我们鉴定出具有生物学相关基因特征(p<1e-12)的cfRNA特征,在给定我们的研究发病率为13%的情况下能够以75%的灵敏度和30%的阳性预测值早期检测先兆子痫。
可以分析cfRNA谱,以提供非侵入性方法来评估母胎健康以及评估围产期病变(如先兆子痫)的风险。这一方法克服了基于临床因素(包括人种)的风险假设的偏差。因此,检测具有广泛的适用性,并为鉴定高风险妊娠提供了新的机会,从而可以采用更精确的治疗方法并改善母胎健康结果。
当代产科在胎儿非整倍体的微创筛查方面有着悠久而成功的历史(Rose等人,2020)。因此,非整倍体筛查可能是产前护理的一个常见方面,尽管其发病率较低(估计<1%,Nussbaum等人,2016),而相比之下,由于早产或先兆子痫导致的早期分娩发生率更高,其发生率高于10倍(占全球分娩的5%-18%,Blencowe等人,2102)。这些产科并发症是全世界母体和新生儿发病和死亡的主要原因(WHO)。针对这些更频繁的并发症的早期检测cfRNA检测可能代表着产科实践早就应该取得的进展,对全球母体和儿童健康产生影响。
除了开发更有效的产前风险分层的这一潜力之外,cfRNA分析还可以更深入地了解分子复杂性和生物学系统学,特别是那些随妊娠进展纵向变化的分子。妊娠的动态性和复杂性需要评估组织特异性分子分析物(诸如RNA),以充分捕获来自母体、胎盘和胎儿细胞的分子信息。此种检查可能提供目前尚不可用的诊断和治疗性干预途径。
在这一工作中,我们证实了cfRNA特征可以通过提供有关胎龄进展、胎儿器官发育的时间依赖性过程的准确信息以及鉴定个体不良妊娠结果(诸如先兆子痫)的风险来满足这些多重目标。
研究设计描述如下。其他研究可能使用cfRNA来监测妊娠并检测或诊断不良妊娠结果,诸如先兆子痫(Koh等人,2014;Ngo等人,2018;Munchel等人,2020;Del Vecchio等人,2020;Moufarrej等人,2021)。这些研究和其他研究的一个共同局限性是使用的样本量相对较小、种族和人种多样性低,验证不完整,这阻碍了在临床环境中的使用。在这一研究中,通过将技术应用于更大和更多样化的样本集,提高了普遍性。来自八个前瞻性收集的妊娠队列的样本组合提供了n=2,536个血浆样本,这些样本来自n=1,652个不同种族并且涵盖了广泛的胎龄的妊娠(图30)。我们数据的广泛人口统计学(表31)使我们能够检测最初发现是否可以广泛应用。所有涉及人类对象的研究程序都经过适当的当地机构审查委员会的审查和批准。所有样本均在受控条件下收集,仅包括从收集到消旋和冷冻储存时间少于8小时的样本。所有血浆样本均按照具有很小变化(补充方法)的主要实验室方案和标准化的生物信息学管道进行处理以测量每个cfRNA样本的基因计数和多个样本质量指标。将八个不同的队列分批处理,并在数据建模之前进行校正。补充信息中提供了每个队列和校正方法的更详细描述。
表31:从不同队列收集的样本的总结
Figure BDA0004176579550001721
Figure BDA0004176579550001722
观察到胎龄的分子特征与临床因素无关。虽然可以在妊娠期间使用多个样本预测胎龄(Ngo等人,2018),但我们旨在使用单个血液样本预测胎龄来检测性能。在给定样本的转录计数的情况下,可以在主成分分析中看到创建胎龄预测模型的潜力(图34)。在图34中,第一主成分在样本收集时按胎龄分离样本,表明胎龄是整个数据集中转录组变异性的主要驱动因素之一。在开始开发机器学习模型来捕获这一信号之前,我们将所有没有先兆子痫的足月妊娠的数据分为训练集(n=1,924个样本)和留存检测集(n=480个样本),确保按胎龄分层,因此所有年龄段在两个集中被同等地呈现。
在建模之前,首先对每个基因的计数进行标准化,以考虑由于测序深度引起的变异,然后进行转换,使得每个基因的平均值在各队列中相同(有关详细信息,请参阅补充文本)。我们将特征空间限制为所有样本(14,628个基因)中的中位表达大于零的基因。当使用妊娠首三个月胎儿超声生物统计学作为金标准测量时,拟合Lasso线性模型来预测训练集中的胎龄,检测集性能的平均绝对误差为15天(SD 1天)(图31A)。值得注意的是,我们对超声作为真实孕龄进行建模,因此在妊娠首三个月测量(Hadlock等人,1987)超声估计胎龄时,已知的5-7天误差是评估我们模型真实性能的限制。模型使用了699个可用的基因特征,尽管这包括贡献较低的长尾特征。使用前50个最具信息性的特征,可以训练线性模型以实现2.3周的平均绝对误差。
为了评估向我们的数据集添加更多样本是否会增加模型学习,用逐渐变小的数据子集重复建模以构建学习曲线(图31C)。当我们达到n=1,924个样本的完整训练集时,误差持续减少,这表明模型学习并没有穷尽,附加的样本将提高我们的性能。值得注意的是,如图31C所示,在交叉验证和独立留存检测数据上的相似性能表明模型没有过度拟合。为了确定模型可以外推多远,使用所有数据构建了最终模型,这给出了整个数据集13天的平均绝对误差,除了添加更多样本之外的改进可能来自已知受孕日期的样本,例如来自体外受精妊娠。与先前发表的结果(Ngo等人,2018)相比,这一模型在所有妊娠三月期中的准确性都优于先前。在我们的数据集中,cfRNA妊娠年代测定误差在6至36周的预测范围内是一致的(图31A)。这一结果与随着妊娠的进展,误差逐渐增加的基于超声的年代测定形成对比,在妊娠晚期增加到高于20天(Skupski等人,2017)。总体而言,我们模型的误差与妊娠中间三月期超声的误差相当,优于妊娠末三个月超声(Skupski等人,2017)。
接下来,我们探讨了是否包括临床因素改善了模型的性能。通过方差分析(ANOVA),我们发现模型几乎完全由cfRNA转录物的信息驱动,体重指数、母体年龄和人种/种族占总方差的不到1%(图31B)。因此,基于分子特征的液体活检测试独立于临床因素,并且可以帮助减少基于临床和人口统计学因素的风险假设引入的偏差。
这些数据表明,可以运送到中心实验室的简单血液测试具有广泛的适用性,可用作资源匮乏地区胎龄的主要评估,在这些地区,及时获得训练有素的超声医师的机会可能有限,并且高比例的小于胎龄儿妊娠进一步降低了胎儿超声生物统计学转化为胎龄估计的准确性。对于妊娠末三个月前无法进行确诊性超声检查的日期不准确妊娠(suboptimallydated pregnancy)也可能有辅助值。
此外,我们观察到胎儿器官发育的分子特征。我们探讨了妊娠期间母体循环中发现的转录物是否编码有关胎儿器官发育的信息。由于来自胎儿的单个转录物在母体血浆中相对罕见,我们通过分析基因集和靶向在人类胚胎细胞中发现的基因集来研究胎儿器官信号以进行此分析。我们使用了来自队列H的纵向样本(Gybel-Brask等人,2014),其中对怀孕个体在妊娠期间采样多达四次。可用于所有四次收集的共有91名女性的数据,这些收集是在妊娠第12、20、25和32周进行的(在给定的标准差内)。
基于妊娠早期和晚期样本之间的成对比较(在12周和32周时收集),我们鉴定了80个显著富集的细胞类型特异性基因集(表32)。其中,33个集为胚胎细胞类型特征,其中19个集显示出在妊娠时间轴上显著的时间上升趋势。在所有分析的基因集中,包括胎儿和成人,“24周小肠上皮细胞祖细胞”类型(Gao等人,2018)显示出最显著的趋势(图32A)。对于小肠基因集,我们评估了在四个时间点单调增加的样本数量,并确定了36名遵循这一严格标准的研究参与者(p<2e-16)。从“发育中的心脏C6心外膜细胞”中观察到随胎龄增加信号的另一个实例(图32B,Cui等人2019)。在剩余的基因组中,十三个显示出向下的轨迹,表达减少的基因集的实例是肾单位祖细胞(图32C,Menon等人,2018),其与作为胎龄的函数的肾源性区宽度的减小一致(Ryan等人,2018)。此外,对于这些基因集,我们确认了其他三个队列中表达的方向变化:A、B和G,其中至少处理了2个纵向样本(图36)。
Figure BDA0004176579550001751
表32:用于基因集富集分析的细胞类型特异性基因集集合(C8)
使用基因集的基因本体(GO)集合,我们鉴定了七个与妊娠相关的集,这些集在早期和晚期妊娠样本之间的比较中显著丰富(图35A-35B)。促性腺激素和雌激素途径中的三个基因集表现出与其已知生理学一致的显著变化(Tal等人,2015)。
接下来,我们将观察到的收集时间标签与随机排列的收集时间标签集进行比较。这一比较证明,所有选择的基因集实际上都与妊娠的纵向进展有关(图37)。此外,在去除胎龄模型中使用的所有699个基因后,我们重复了基因集分析,并重新发现了相同的80个基因集的差异表达。由于基因集的变化(上调或下调)仅在胎龄的背景下显著,无论有没有胎龄模型基因,我们从母体液体活检样本中展示了进入胎儿发育的第一个窗口。
先兆子痫是母体发病和死亡的主要原因。先兆子痫的诊断使母亲终生患心血管疾病的风险增加(Haug等人,2018)。然而,尽管这一诊断对女性妊娠和一生的健康意义重大,但在开发可靠的方法来识别妊娠早期处于风险的女性方面仍然存在挑战。
我们评估了从在妊娠中间三月期(16-27周)、平均在分娩前14.5周(SD 4.5周)的抽血中测量的分子特征对先兆子痫的可预测性。利用选自两个独立的队列(队列A和E)的72例先兆子痫和469例匹配的非病例进行病例对照研究。队列E包括34名慢性高血压对照和19名妊娠高血压对照,两个队列均包括非病例人群中的早产样本。先兆子痫的定义与2013Task Force on Hypertension in Pregnancy(ACOG 2013)的标准一致,每个病例都由两名委员会认证的医生裁决。在妊娠第16-27周,在先兆子痫体征或症状出现之前收集血液样本。和以前一样,在建模之前应用了队列校正。
我们使用Spearman相关性检测来识别转录特征,这些特征可以差异地区分表33中所示的先兆子痫病例和对照。
表33:预测先兆子痫(PE)的38种差异表达的转录特征集
Figure BDA0004176579550001771
/>
Figure BDA0004176579550001781
在每一轮交叉验证中,我们将经调整p值的特征保持在低于0.05,并一致地鉴定出七个基因:CLDN7、PAPPA2、SNORD14A、PLEKHH1、MAGEA10、TLE6和FABP1(图33A)。选择用于建模的七个基因中的每一个都可能具有与先兆子痫或胎儿发育相关的功能。PAPPA2或妊娠相关血浆蛋白2主要在胎盘中表达(Uhlén等人,2015),特别是在滋养层细胞中表达。它可能与先兆子痫的发展有关(Kramer等人,2016,Chen等人,2019),并与滋养层迁移、侵袭和管形成的抑制有关。PAPPA2是一种蛋白酶,其切割胰岛素生长因子结合蛋白5(IGFBP5)并影响胰岛素生长因子2的途径,其中较高的水平导致胎儿生长增加(White等人,2018)。Claudin 7(CLDN7)是一种参与紧密细胞连接形成的蛋白质,可能与囊胚植入有关;在健康妊娠中,CLDN7在植入时响应雌激素而降低(Poon等人,2013)。脂肪酸结合蛋白1(FABP1)可以从人细胞滋养层中检测和纯化,并且可以在胎儿肝脏中高表达,它对脂肪酸的摄取和运输至关重要(Wang等人,2020),并且当细胞滋养层在植入期间分化为合体滋养层时上调了3倍(Cunningham和McDermott 2009)。
基于这些已鉴定的基因特征,在留一法交叉验证设置中使用逻辑回归模型来估计先兆子痫的似然性。在给定我们的研究发病率为13.7%的情况下,在75%的灵敏度下,我们的模型实现了32.3%(SD 3%)的阳性预测值;模型的AUC为0.82(图33B)。与胎龄模型类似,添加临床因素(BMI、母体年龄和人种/种族)没有显著影响,并且基于ANOVA分析占方差的不到1%。
为了进一步了解分子特征的变化以及它们如何反映驱动先兆子痫的病理生理学,进行了差异基因集分析。排名靠前的上调的基因集以结构细胞功能为主,包括桥粒、血管形态发生和脉管系统发育(图38A),而绝大多数下调的基因集与免疫途径有关(图38B)。两者都与先兆子痫病理生理学知识(Redman&Sargent,2005)一致。
对照组包括血压正常的女性(n=416)和慢性高血压(n=34)和妊娠高血压(n=19)的女性。慢性或妊娠高血压组与正常血压组的比较显示,与先兆子痫显著的基因没有重叠(没有基因达到低于0.05的经调整p值)。虽然其他人已经发表了旨在确定高血压本身对基因表达影响的研究(例如Zeller等人,2017),但在本文我们证明了先兆子痫的信号和与慢性或妊娠高血压相关联的任何信号无关。由于一些人认为将先兆子痫和自发性早产理论化为具有重叠的分子途径(REF),我们还从非病例组中排除了妊娠第37周(n=89)之前分娩的样本。去除早产样本对我们的模型性能没有影响(补充方法),表明我们的签名可以将先兆子痫与自发性早产区分开。我们报告了一种独立的分子预测因子,其有可能成为先兆子痫的可靠的早期检测,该预测因子完全基于转录物,并且独立于体重指数、母体年龄和人种/种族等临床因素。
本文呈现的转录组数据集表明,来自液体活检的全面分子谱分析可以为母胎健康提供强大的窗口。我们已经表明,来自单个液体活检的转录物特征可以:(i)以与超声相当的性能水平准确估计胎龄,使其成为农村和资源匮乏环境的可行选择,以及在超声准确性有限的情况下确认超过妊娠首三个月的胎龄(Skupski等人,2017),(ii)提供对胎儿器官(包括胎儿心脏,小肠和肾脏)发育的非侵入性监测,以及(iii)有可能使用新的转录物特征在疾病发作之前可靠地鉴定先兆子痫的风险,其生物学意义进一步增加了我们的发现的严谨性。
通过扩展至多于一千例的妊娠,这些发现扩展了数十例妊娠的其他研究(Koh等人,2014,Ngo等人,2018)。这一规模使我们能够非侵入性地评估妊娠健康的分子基础,并能够从特定的胎儿器官中开发特征,这些特征可能会对先天性心脏病等出生缺陷发出早期预警。我们进一步提高了胎龄评估的准确性,使其与超声相当。这些结果的普遍性是由这一工作中使用的较大且种人种样化的队列提供的。
我们建立特异性的转录物特征,为早期识别先兆子痫的风险提供信息。然而,我们没有在用于先兆子痫建模的样本(第16-27周收集)中复制Moufarraj等人(2021)(在第16周之前收集的)中看到的先兆子痫的差异基因表达。我们也没有复制Munchel等人(2020)中选择的最终基因(在诊断时收集,通常在第34周之后)。不同研究之间的差异基因表达的比较可能会因样本收集的不同三个月而混淆。
本文提供的数据通过研究大小和地理上不同队列的使用得到加强。这确保了我们样本组成的多样性和结论的普遍性。然而,由于需要队列校正的不同队列的收集方案存在微小差异,前瞻性研究可能会将多样性和大小与用于收集样本、临床验证和效用研究的一致框架相结合。
所呈现的结果证明改进的方法克服目前我们评估妊娠期间母胎健康能力的限制。重要的是,液体活检方法克服了仅基于临床因素(包括人种和BMI)的风险假设引入的偏差。因此,基于cfRNA的分子检测具有广泛的适用性,并为鉴定高风险妊娠提供了新的机会,从而可以采用更精确的治疗方法并改善母胎健康结果。cfRNA平台能够从单个样本中早期检测多个临床相关终点(例如胎龄和先兆子痫),而无需当地专门的即时检测设施。
除了对不良妊娠结果进行风险分层的更有效方法外,母体-胎儿-胎盘转录组的液体活检还提供了一种载体,通过该载体可以改善对母胎健康和疾病的生物学基础的理解,并提供对母胎二联体相互作用的新见解。这有望提供可以针对先兆子痫和早产分子亚型的更有效、更精确的治疗性干预措施。
使用分子特征的非侵入性评估的影响可以从其在推进乳腺癌诊断中的作用来评估(Alimirzale等人,2019)。我们现在有机会通过鉴定在这十年中处于先兆子痫、早产和妊娠期糖尿病等不良后果风险的人,同样地推进母体和儿童健康领域。鉴于每年有6000万妇女经历某种形式的妊娠并发症,一种分子的精确的诊断和精确的医学方法有可能改变许多人的生活。
在这一工作中,我们已经证明了获得妊娠期间获得的转录物特征的潜力,这使我们能够深入了解妊娠的三个新方面:胎龄的估计、胎儿器官发育的监测以及妊娠后期先兆子痫风险的评估。这些见解都是通过分娩前平均14.5周进行的单次液体活检获得的。
队列描述
队列A(BWH)
LIFECODES是一家前瞻性的妊娠生物知识库,自2006年以来一直在马萨诸塞州大波士顿地区招募孕妇。18岁及以上并计划在布莱根妇女医院(Brigham and Women'sHospital)分娩的女性是符合条件的。排除了高阶(higher order)妊娠(三胞胎或更大)。迄今为止,已登记并随访N=5,569名孕妇,并通过分娩供纵向样本和数据。LIFECODES的人种和种族构成遵循美国的总体趋势,55%是高加索人,14.8%是非裔美国人,7.3%是亚洲人,18.4%是西班牙裔,4.5%是混血/其他。LIFECODES中每名对象的医疗记录由两名经认证的母胎医学医生独立审查。使用结构化编码工具编码每名对象的并发症和结果。然后将来自每个审查者的代码与妊娠结果或并发症的不一致进行比较,并由审查委员会决定。参考PMID 25797229
队列B(GAPPS)
Global Alliance to Prevent Prematurity and Stillbirth(GAPPS)(www.gapps.org)开发了一个一直招募孕妇及其婴儿的队列,旨在解决妊娠相关标本和可用于研究的随附数据的短缺。根据Advarra IRB(FWA00023875)协议号Pro00036408,在华盛顿州的产科和产前诊所招募了所有胎龄的参与者。获得所有参与者的书面知情同意,并且针对至少15岁的参与的未成年人获得父母许可和同意。在妊娠的每个三个月和产后纵向收集的生物标本存储库与整个妊娠期的综合患者数据相关联。从十个母体部位(阴道、宫颈、口腔和直肠粘膜、血液、尿液、胸部、优势手掌、肘前窝和鼻孔)、五种分娩产物(羊水、脐带血、胎盘膜、胎盘组织和脐带)和七个婴儿身体部位(右手掌、口腔和直肠粘膜、胎粪/粪便、胸部、鼻孔和呼吸道分泌物(如果插管))收集生物标本。所有血液在收集后两小时内处理并储存在-80℃。开发数据存储库的目的是支持早产和死产研究,并更好地了解相关的风险因素。
向孕妇提供了描述存储库项目的文献,并邀请她们参与研究。无法理解知情同意书或同意表格或被监禁的妇女排除在研究之外。进行全面的人口统计学、健康史和饮食评估调查,并记录相关临床数据(例如胎龄、身高、体重、血压、阴道pH值、诊断)。从新生儿出生和出院时以及产后六周获得相关临床信息。
在随后的产前检查、分娩和出院时,进行特征调查,记录相关临床数据并收集样本。分娩和出院时未收集阴道和直肠样本。在特定就诊中,具有以下任何一种情况的女性排除在取样范围之外:(1)由于精神、情感或身体限制而无法自我取样;(2)超过临床医生判断的最低阴道出血;(3)37周前胎膜破裂;(4)外阴阴道区域的活性疱疹病变;以及(5)经历活跃分娩。
队列C(IO)
通过母体胎儿组织库(IRB#200910784)在爱荷华大学获得样本和数据收集的知情同意。血液样本收集在ACD-A管中(Becton Dickinson)。血浆被等分、快速冷冻并储存在-80℃。所有冰柜都用温度监视器报警。样本收集和处理的时间记录在由UI Bioshare服务(Labmatrix,Biofortis)管理的研究信息系统中。所有样本均经过编码,并附有临床信息注释。(PMID:24965987)
队列D(KCL)
见解:预测早产的生物标志物是一项正在进行的观察性队列研究,旨在研究与低风险对照相比,自发性早产(sPTB)高风险女性。为当前分析提供的血浆样本(取自妊娠16-23+6周)是从英国四家三级产前诊所招募的单胎妊娠参与者中获得的。高风险妊娠的定义至少为以下一项;既往sPTB或晚期流产(妊娠16至37周)、既往破坏性宫颈手术或经阴道超声扫描偶然发现宫颈长度<25mm。从这些中心的常规产前或超声检查诊所招募没有sPTB风险因素且在其他方面情况良好的妇女作为低风险对照。高风险组和低风险组的排除标准均为多胎妊娠、已知严重先天性胎儿异常、胎膜破裂或当前阴道出血。获得London City andEast Research Ethics Committee的批准(13/LO/1393)。获得了所有参与者的知情书面同意。
参考文献:PMID:32694552,Cervicovaginal natural antimicrobialexpression in pregnancy and association with spontaneous preterm birth(Hezelgrave等人,2020)通过引用整体并入本文。
参考文献:Hezelgrave NL,Seed PT,Chin-Smith EC,Ridout AE,Shennan AH,Tribe RM.Cervicovaginal natural antimicrobial expression in pregnancy andassociation with spontaneous preterm birth.Sci Rep.2020Jul21;10(1):12018.doi:10.1038/s41598-020-68329-z通过引用整体并入本文。
队列E(MSU)
妊娠结果与社区卫生(POUCH)研究队列包括来自密歇根州五个社区的52家诊所的3,019名妊娠16-27周(1998-2004)的孕妇。资格包括单胎妊娠和无已知先天性异常,母体年龄>15岁,母体血清甲胎蛋白(MSAFP)筛查,无孕前糖尿病,讲英语。在招募研究中,护士采访参与者并收集生物样本(血液、尿液、头发、阴道液)。另外的家庭数据收集方案包括动态血压监测和连续三天的唾液和尿液收集,以测量应激激素。为了节约资源,对1,371名参与者的亚队列进行更深入的研究,即提取医疗记录、分析生物样本并检查胎盘。1亚队列为42%初产妇,57%为20-30岁,42%为非裔美国人,49%为非西班牙裔白人,57%通过医疗补助计划投保。
Holzman C,Senagore PK,Wang J.Mononuclear leukocyte infiltrate in theextra-placental membranes and preterm delivery.Am J Epidemiol,2013;177(10):1053-64.PMCID:PMC3649632通过引用整体并入本文。
队列F(PITT)
样本来自与NIH P01 HD HD030367联合收集的生物库。这些样本是PPG连续3次更新的一部分,收集于2001年至2012年期间。在所有情况下,样本从宾夕法尼亚州Magee-Womens Hospital Pittsburgh Pennsylvania护理的低风险孕妇的整个怀孕期间纵向收集。排除标准为既往高血压、糖尿病、多胎妊娠或肾脏疾病。由5名临床医生组成的陪审团对图表进行摘要和审查。人群中约有50%是非裔美国人,50%是高加索人,很少包括其他人种/种族。
Powers RW,Roberts JM,Plymire DA,Pucci D,Datwyler SA,Laird DM,SoginDC,Jeyabalan A,Hubel CA,Gandley RE.Low Placental Growth Factor AcrossPregnancy Identifies a Subset of Women With Preterm Preeclampsia Type 1VersusType 2Preeclampsia?Hypertension.2012;60:239-46通过引用整体并入本文。
队列G(PM)
Pemba Pregnancy and Discovery Cohort(PPNDC)研究正在坦桑尼亚桑给巴尔的奔巴岛进行。这项正在进行的研究是后续的延续,其方法类似于涉及3个地点(巴基斯坦、孟加拉国和奔巴)的AMANHI生物存储库研究,方法已经发表(参考文献:DOI:10.7189/jogh.07.021202通过引用整体并入本文)。
人口统计学:人群是岛上阿拉伯人和原始瓦斯瓦希里居民的混合。人群的很大一部分也鉴定为设拉子人。
研究目标:研究的主要目的是鉴定重要的生物标志物作为重要妊娠相关结果的预测因子,并且随着新方法和技术可用时扩展奔巴的生物库(从AMANHI开始)用于未来的研究。
研究参与者:育龄女性(18-49岁),打算在整个随访期间留在研究区域并同意收集流行病学数据和生物样本的岛上居民被纳入本研究。
方法:训练有素的女性现场工作人员(FW)每2-3个月对研究区域内的所有育龄女性进行家访,询问怀孕情况。如果一名女性报告连续两次或两次以上错过月经或怀疑妊娠,FW会进行尿液妊娠检测以确认。同意的孕妇接受超声筛查以确定怀孕日期。所有妊娠早期的女性,超声证实胎龄在8至19周之间,均同意参加研究。随机选择妊娠24-28周或32-36周的女性进行产前母体样本收集。婴儿的父亲也同意收集他们的唾液样本。
一名训练有素的研究工作者对队列中的所有女性进行了四次家访;在基线(入组后立即)、24-28周、32-36周和妊娠37周后收集这些妇女自我报告的发病率数据。在这些访问期间,研究人员测量了血压和蛋白质尿。
在入组时(8至19周)收集孕妇的生物标本(血液和尿液),并且产前(妊娠24-28或32-26周)收集一次。
参考文献:AMANHI(Alliance for Maternal and Newborn Health Improvement)Bio–banking Study group);Understanding biological mechanisms underlyingadverse birth outcomes in developing(PMID:29163938)通过引用整体并入本文。
队列H(RS)
这一前瞻性地收集来自丹麦Roskilde hospital的队列,在妊娠期间的第12、20、25和32周对参与者采样4次。所有大于18岁讲丹麦语的女性都有资格被纳入。每次就诊时,收集血液样本并进行详细的超声检查。在2010年收集结束时,队列包括1,214名参与者。
参考文献:Gybel-Brask,D.,
Figure BDA0004176579550001851
E.,Johansen,J.,Christensen,I.J.&Skibsted,L.Serum YKL-40and uterine artery Doppler-a prospective cohort study,with focus on preeclampsia and small-for-gestational-age.Acta Obstet GynecolScand 93,817–824(2014)通过引用整体并入本文。
方法
cfRNA分离
从我们的合作者那里在干冰上收到的血浆样本储存在-80℃,直到进一步处理。按照制造商的说明(血浆/血清循环和外泌体RNA纯化试剂盒,Norgen,cat 42800),使用基于柱的市售提取试剂盒从体积为~215μl至1ml的血浆中提取总循环核酸。我们在提取过程中添加了加标对照RNA以监测合格率。
提取后,使用Baseline-ZERO DNase(Epicentre)消化cfDNA,并使用RNA Cleanand Concentrator-5试剂盒(Zymo,cat R1016)或RNeasy MinElute Cleanup试剂盒(Qiagen,cat 74204)纯化剩余的cfRNA。
RT-qPCR测定
我们开发了一种基于RT-qPCR的方法,以评估从每个样本中提取的cfRNA的相对量。我们使用TaqPathTM1-Step Multiplex Master Mix试剂盒(cat A28526)和QuantStudio 5系统,使用3色多重qPCR测定测量并比较了每次RNA提取的阈值循环(Ct)值。我们测量了内源性管家基因(ACTB;Thermofisher Scientific,cat 4351368)和加标对照RNA以及监测DNA污染存在的测定(IDT)。
cfRNA文库制备
使用Stranded Total RNAseq-Pico Input Mammalian试剂盒(Takara,Cat634418)制备cfRNA文库。遵循制造商的说明,除了没有用尽ribo。按照评估RNA提取和片段分析仪分析5300(Agilent Technologies)所述的方法,通过RT-qPCR评估文库质量。
富集和测序
在池化目标捕获之前,对文库进行了规范化。我们使用SureSelect靶标富集试剂盒(Agilent Technologies,cat 5190-8645),并按照制造商的说明进行混合捕获。对样本进行定量,并在Novaseq S2上进行50个碱基对的配对末端测序。每次测序运行合并且测序98至144个样本。
异常值分析
在进行基因表达分析之前,监测ACTB的qPCR和加标对照RNA以及MultiQC测序指标,以消除样本异常值。与平均值相差超过3个标准差的单个样本作为异常值被删除。在这一筛选之后删除样本集。
特征规范化
对于每个基因,测量其与每个样本总计数的关系并使用线性模型残差(例如基因ACTB)校正。我们还考虑纠正基因,使每个队列的每个基因具有相同的平均值。然而,队列来自胎龄范围的不同部分。因此,仅校正与胎龄效应正交的队列效应(例如基因CAPN6)。每个队列都有自己的颜色。如果我们放大到妊娠中间三月期,这一校正的好处会变得更加明显。在这一范围内,来自亮绿色队列的CAPN6计数异常高,在校正版本中,这种影响已被消除。
数学细节
上述校正的步骤如下。
对于每个基因,将其计数建模为总计数、队列和胎龄的函数。这得到线性模型基因=β01总计数+β2队列+β3GA。
一旦这一模型拟合,我们就可以通过将模型残差作为校正值来校正这些变量的影响。
但是,我们不想纠正胎龄效应(我们希望将其保留在数据中,因为它是感兴趣的变量)。为避免这样做,请在计算拟合值和残差之前将系数3设置为零。
无队列校正的胎龄模型
在这一方法中,我们选择健康妊娠的所有样本,并将数据集分割为训练集(1482个样本,占数据的75%)和检测集(495个样本,占数据的25%),其中样本按队列分层。未通过基于基本测序指标的QC筛选的样本先前已被排除在分析之外(70个样本,占总数的3.5%)。我们训练了Lasso模型,使用平均绝对误差作为优化指标以及训练集中的10倍交叉验证来预测每个样本收集时的胎龄。我们使用所有具有平均log2(CPM+1)>1(12894个基因)的基因加上测序指标集作为训练的特征。在log2(CPM+1)空间中进行建模,并在使用训练集统计建模之前对所有数据进行居中和缩放。这导致使用455个转录组特征的留存检测集中的平均绝对误差为15.9天。然后,我们选择了这一模型的前55个特征,并使用上述相同方法重新训练Lasso,在留存检测集中实现了16.3天的平均绝对误差。
基因集富集分析(GSEA)
GSEA<PMIDs:12808457,16199517>是用快速gsea算法<doi:doi.org/10.1101/060012>使用Bioconductor fgsea包<DOI:10.18129/B9.bioc.fgsea>完成的。基因集是从分子特征数据库(MSigDB)<21546393,16199517>使用CRAN msigdbr v7.2 API编译的。我们专注于两个基因集的集合:本体基因集的基因本体(GO)子集合C5:GO和细胞类型特征基因集C8(表32)。基于log-fold change和相关联的Wald-test p值对基因进行排序,该值获得自使用Bioconductor的DESeq2,DOI:10.18129/B9.bioc.DESeq2,<25516281>作为-log10(p-值)*shrunkenLFC的差异表达分析。对Roskilde队列中的364个样本进行GSEA,这些样本收集自91名健康妊娠女性,在妊娠期间的4个时间间隔内:11-14周、17-xxx w、xxx-xxx w和xxx-xxx w。Log-fold change和相应的p值是通过集合1和2,1和3以及1和4之间的成对比较获得的。显著富集的基因集(Benjamini-Hochberg经调整p值<0.01用于下游分析,包括血浆转录组划分(partitioning)和集特异性纵向趋势的分析,其数量可预测地随着比较器之间的距离而变化(例如,表33))。
评估血浆转录组划分的变化
血浆转录组在现象学上可被视为在特征基因集之间划分。我们通过将原始基因计数转换为百万分之计数(CPM)并将每个集中所有基因的这些CPM相加来评估每个RNAseq样本中的这种划分。产生的累积CPM评分是整个转录组中每个基因集丰度的相对度量,用于直接比较收集时间点的基因集。计算每个RNAseq样本在集合1和4之间显著富集的所有基因集的累积CPM分数。使用线性模型将每个样本的分数回归到记录的胎龄(周)。胎龄系数经调整p值<0.01的基因集被认为其相对丰度具有显著(正或负)趋势。通过打乱时间结构并沿原始时间变量重新检查趋势,进一步验证了这些趋势与数据中时间分量的关联。对于每位母亲,我们还评估了累积CPM分数函数在收集时间上的单调性。由于4个收集时间有24种可能的顺序排列,其中只有一种排列允许单调的上升趋势(一种向下),我们能够使用卡方检验分析评估91位母亲中观察到的数字单调趋势的显著性。
参考文献
ACOG.Committee Opinion No.688:Management of Suboptimally DatedPregnancies.Obstetrics&Gynecology 129,e29–e32(2017)通过引用整体并入本文。
ACOG.Hypertension in pregnancy.Report of the American College ofObstetricians and Gynecologists’Task Force on Hypertension in Pregnancy.122,1122-1131(2013)通过引用整体并入本文。
Alimirzaie,S.,Bagherzadeh,M.和Akbari,M.R.Liquid biopsy in breastcancer:A comprehensive review.Clin Genet 95,643–660(2019)通过引用整体并入本文。
Blencowe,H.等人,National,regional,and worldwide estimates of pretermbirth rates in the year 2010with time trends since 1990for selectedcountries:a systematic analysis and implications.Lancet 379,2162-2172(2012)通过引用整体并入本文。
Chen,X.等人,The potential role of pregnancy-associated plasmaprotein-A2 in angiogenesis and development of preeclampsia.HypertensionResearch,1-11(2019).doi:10.1038/s41440-019-0224-8通过引用整体并入本文。
Cui,Y.等人,Single-Cell Transcriptome Analysis Maps the DevelopmentalTrack of the Human Heart.CellReports,26,1934-1950.e5(2019)通过引用整体并入本文。
Cunningham,P.和McDermott,L.Long chain PUFA transport in human termplacenta.J Nutr,139,636-639(2009)通过引用整体并入本文。
Feingold,K.R.,Anawalt,B.,Boyce,A.和Chrousos,G.Endocrinology ofPregnancy-Endotext.(2000)通过引用整体并入本文。
Gao,S.等人,Tracing the temporal-spatial transcriptome landscapes ofthe human fetal digestive tract using single-cell RNA-sequencing.Nat CellBiol,20,721-734(2018)通过引用整体并入本文。
Gybel-Brask,D.,
Figure BDA0004176579550001901
E.,Johansen,J.,Christensen,I.J.和Skibsted,L.Serum YKL-40and uterine artery Doppler-a prospective cohort study,withfocus on preeclampsia and small-for-gestational-age.Acta Obstet GynecolScand,93,817-824(2014)通过引用整体并入本文。
Hadlock,F.P.等人,Estimating fetal age using multiple parameters:aprospective evaluation in a racially mixed population.American Journal ofObstetrics&Gynecology,MFM 156,955-957(1987)通过引用整体并入本文。
Haug,E.B.等人,Life Course Trajectories of Cardiovascular Risk Factorsin Women With and Without Hypertensive Disorders in First Pregnancy:The HUNTStudy in Norway.J Am Heart Assoc,7,e009250(2018)通过引用整体并入本文。
Koh,W.等人,Noninvasive in vivo monitoring of tissue-specific globalgene expression in humans).Proc.Natl.Acad.Sci.U.S.A.111,7361-7366(2014)通过引用整体并入本文。
Kramer,A.W.,Lamale-Smith,L.M.和Winn,V.D.Differential expression ofhuman placental PAPP-A2 over gestation and in preeclampsia.Placenta,37,19-25(2016)通过引用整体并入本文。
Figure BDA0004176579550001902
M.和Lynch,V.J.Relaxed constraint and functional divergenceof the progesterone receptor(PGR)in the human stem-lineage.PLoS Genet 16,e1008666(2020)通过引用整体并入本文。
McLean,M.等人,Aplacental clock controlling the length of humanpregnancy.Nature Medicine,1,460-463(1995)通过引用整体并入本文。
Moufarrej,M.N.等人,RNAEarly prediction of preeclampsia in pregnancywith circulating,cell-free RNA.medRxiv 2021.03.11.21253393(2021).doi:10.1101/2021.03.11.21253393通过引用整体并入本文。
Munchel,S.等人,Circulating transcripts in maternal blood reflectamolecular signature of early-onset preeclampsia.Sci Transl Med,12,eaaz0131(2020)通过引用整体并入本文。
Myatt,L.和Roberts,J.M.Preeclampsia:Syndrome or Disease?Curr HypertensRep,17,83-8(2015)通过引用整体并入本文。
Ngo,T.T.M.等人,Noninvasive blood tests for fetal development predictgestational age and preterm delivery.Science 360,1133-1136(2018)通过引用整体并入本文。
Nussbaum等人,Principles of clinical cytogenetics and genome analysis.Thompson&Thompson genetics in medicine,(Elsevier,2016)通过引用整体并入本文。
Paik Soonmyung,S.S.T.G.K.C.B.J.C.M.B.F.L.W.M.G.W.D.P.T.H.W.F.E.R.W.D.L.B.J.W.N.A Multigene Assay to Predict Recurrence of Tamoxifen-Treated,Node-Negative Breast Cancer.1-10(2004)通过引用整体并入本文。
Pennington,K.A.,Schlitt,J.M.,Jackson,D.L.,Schulz,L.C.&Schust,D.J.Preeclampsia:multiple approaches for a multifactorial disease.Dis ModelMech 5,9-18(2012)通过引用整体并入本文。
Perschbacher,K.J.等人,Reduced mRNAExpression of RGS2(Regulator of GProtein Signaling-2)in the Placenta Is Associated With Human Preeclampsia andSufficient to Cause Features of the Disorder in Mice.Hypertension,75,569-579(2020)通过引用整体并入本文。
Poon,C.E.,Madawala,R.J.,Day,M.L.和Murphy,C.R.Claudin 7is reduced inuterine epithelial cells during early pregnancy in the rat.Histochem CellBiol,139,583-593(2013)。
Redman,C.W.和Sargent,I.L.Latest advances in understandingpreeclampsia.Science,308,1592-1594(2005)通过引用整体并入本文。
Ryan,D.等人,Development of the Human Fetal Kidney from Mid to LateGestation in Male and Female Infants.EBioMedicine,27,275-283(2018)通过引用整体并入本文。
Savitz,D.A.等人,Comparison of pregnancy dating by last menstrualperiod,ultrasound scanning,and their combination.YMOB 187,1660-1666(2002)通过引用整体并入本文。
Skupski,D.W.等人,Estimating Gestational Age From Ultrasound FetalBiometrics.Obstetrics&Gynecology,130,433-441(2017)通过引用整体并入本文。
Uhlén,M.等人,Tissue-based map of the human proteome.Science,347,1260419(2015)通过引用整体并入本文。
Del Vecchio,G.等人,Cell-free DNAMethylation and TranscriptomicSignature Prediction of Pregnancies with Adverse Outcomes.Epigenetics,00,1-20(2020)通过引用整体并入本文。
Wang,G.,Bonkovsky,H.L.,de Lemos,A.和Burczynski,F.J.Recent insightsinto the biological functions of liver fatty acid binding protein 1.JournalLipid Research,56,2238-2247(2020)通过引用整体并入本文。
White,V.等人,IGF2 stimulates fetal growth in a sex-and organ-dependent manner.Pediatric Research,83,183-189(2017)通过引用整体并入本文。
Wildman,D.E.Review:Toward an integrated evolutionary understanding ofthe mammalian placenta.Placenta,32Suppl 2,S142-5(2011)通过引用整体并入本文。
Yuqiong Hu,X.W.B.H.Y.M.Y.C.L.Y.J.Y.J.D.Y.W.W.W.L.W.J.Q.F.T.Dissectingthe transcriptome landscape of the human fetal neural retina and retinalpigment epithelium by single-cell RNA-seq analysis.1-26(2019).doi:10.1371/journal.pbio.3000365通过引用整体并入本文。
Yuqiong Hu,X.W.B.H.Y.M.Y.C.L.Y.J.Y.J.D.Y.W.W.W.L.W.J.Q.F.T.Dissectingthe transcriptome landscape of the human fetal neural retina and retinalpigment epithelium by single-cell RNA-seq analysis.1-26(2019).doi:10.1371/journal.pbio.3000365通过引用整体并入本文。
Zeller,T.等人,Transcriptome-Wide Analysis Identifies Novel AssociationsWith Blood Pressure.Hypertension,70,743-750(2017)通过引用整体并入本文。
实施例16:在组合的多队列预测极早期早产(ePTB)
来自实施例4和实施例8的所有PTB队列被组合到单个数据集中,如图26A所示,共有58名极早期早产分娩病例对象和487名足月产对象。极早期早产(ePTB)被定义为妊娠16周后和妊娠32周前分娩(包括晚期流产病例)。
如图26B所示,建立了545名对象(58名极早期早产和487名足月产对照)的队列(x轴上显示患者识别号)。从这一队列中,使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点收集了一个或多个生物样本(例如,1或2个)并进行测定。例如,估计胎龄(显示在y轴上)可以使用诸如超声成像、末次月经期(LMP)日期或其组合的方法来确定,并且可以在0至约42周的范围。
为了减轻这一分析中采血的胎龄影响,仅包括胎龄16至27周之间收集的样本。表34显示了利用在16至27周之间收集的血液,预测16至32周之间极早期早产的前30个差异表达基因,其显示了在对多重假设校正进行调整后的显著统计学意义,该表中总结的结果还显示了在极早期早产病例中差异表达的QQ图中与零假设的显著偏差。(如图39)。使用EdgeR进行差异表达分析,并考虑种族和队列效应(58名早产病例和487名对照)。
表34:利用胎龄16至27周之间收集的血液样本预测胎龄16至32周之间的ePTB的排名靠前的基因集
Figure BDA0004176579550001931
/>
Figure BDA0004176579550001941
/>
Figure BDA0004176579550001951
实施例17:组合的多队列预测妊娠期糖尿病(GDM)
使用本公开的系统和方法,开发预测模型来检测或预测妊娠对象的妊娠期糖尿病(GDM)风险。预测模型开发包括获得对象队列,以及在对应于表35所呈现的对象队列的训练数据集上训练预测模型。
此外,通过丰度基因搜索方法分析来自四个队列的全转录组数据。三个(K、M、P)队列包含组合的49个GDM样本和430个对照样本,抽血时胎龄中位数为21周。此外,R队列包括收集自11名被诊断患有妊娠期糖尿病的参与者和119名在胎龄约13、20、26和32周时多次抽血的健康参与者的血液样本。
表35:按队列的GDM病例和对照
队列 病例 对照
K 18 164
M 12 187
P 19 79
R,抽血1(约13周) 9 105
R,抽血2(约20周) 8 109
R,抽血3(约26周) 11 119
R,抽血4(约32周) 9 116
通过差异表达分析确定预测GDM的基因
使用DESeq对来自包含三个组合队列(P、M和K)的训练数据集的基因表达数据进行差异表达分析。训练集包括49名GDM病例和430名健康对照。通过QQ图鉴定前4个差异表达基因,如图40所示。训练集中前4个基因的Log2 RPM表达水平被用作训练逻辑模型(L2惩罚)的特征,其中为每个基因开发了单独的模型。检测集包括独立的队列(R),从一组母体对象中多次抽取血液。在检测队列中根据抽血3和4评估经训练模型,分别在胎龄约26周和32周时产生AUC指标,如表36所示。
表36.通过在胎龄约26周和32周时在独立的检测队列(R)上评估为差异表达而鉴定的前4个基因中的每一个开发的模型的性能
Figure BDA0004176579550001961
通过留一队列法分析发现的预测GDM的基因
通过在队列之间鉴定一致预测GDM的基因,在训练数据集上进行了稳健的特征发现。对于包括训练数据集的一组队列,每个队列都作为独立的检测集留存,而其余队列保留用于训练。基因表达值表示为标准化的Log2 RPM,并组合自三个队列(K、M和P),共有49名GDM病例和430名对照,其中位胎龄为21周,如表35所示。在每一轮中,使用两个队列进行训练,而其余队列则保留用于检测。在比较GDM病例与对照时,通过筛选Mann Whitney p值<0.05的基因来选择特征。然后进一步筛选那些绝对GDM效应大小的平均值>0.5且变异系数<0.5的基因。然后,当保留每个训练队列用于检测以进一步改善每个队列的特征时,基于基因的训练逻辑模型(L2惩罚)是否具有平均AUC>0.6进一步筛选基因。然后将前5个表现好的基因组合在一起,如上所述重复基因筛选。此外,在整个训练集(3个组合的队列)中进行了留一法分析,并应用了最终的AUC>0.6阈值。从整个训练数据集的留一队列法分析中鉴定出七个基因,如表37所示。
表37.通过训练数据集内的留一队列法分析鉴定的前8个GDM基因
# 基因名称
1 TMEM101
2 FCHO2
3 PPP1R15A
4 NOMO3
5 ANKRD54
6 MT-TH
7 OARD1
8 UBE2Q2
基于8个基因的逻辑模型(L2惩罚)在完整的3队列训练集上进行训练,并在独立的队列RS上进行评估(表35)。在独立检测中对模型的评估显示,在约20周胎龄时预测AUC为0.55(图2),在约26周胎龄时AUC为0.57(图3)。
通过效应大小发现的预测GDM的基因
在一个队列的小型训练集上进行留一法交叉验证,该队列具有约13周胎龄的样本(R,抽血1)。训练集包括9个GDM病例和105个对照。从如下训练数据中选择在GDM上调和下调的基因集合。将基因表达值转换为Log2计数。通过寻找计数总和最大化GDM效应大小的最佳基因集来鉴定基因集合。对效应大小阈值进行网格搜索,以根据所得求和集合的最大GDM效应来调整用于选择最高效应基因的超参数。针对上调(n=7)和下调(n=2)GDM效应生成基因集合(表38)。然后将这两个基因集合用作逻辑模型(L2惩罚)的特征,该模型在妊娠约13周时对R抽血1的样本进行训练,并在约20周的后期胎龄从同一队列收集的样本上进行检测(R抽血2,有8个病例和109个对照)。在检测集上观察性能,AUC为0.60。
表38.包括从妊娠首三个月(妊娠约13周)鉴定的上调和下调的基因集合的基因
# 基因名称 GDM效应大小集合
1 C1QTNF6 上调
2 AZIN2 上调
3 NEAT1 上调
4 PHYHD1 上调
5 PINK1-AS 上调
6 NPIPA5 上调
7 PGS1 上调
8 ADIRF 下调
9 PALMD 下调
预测GDM的PCA成分
特征鉴定自由来自三个队列(P、M和K,约21周妊娠)的Log2RPM基因表达数据构成的训练集。70%的训练数据被分割为训练集(36个病例和299个对照),而其余30%用作特征工程的检测集(13个案例和131个对照)。选择GDM中上调的效应大小大于效应大小阈值的候选基因。进行主成分分析(PCA)并在训练集中对照的标准化Log2 RPM计数上进行训练。然后对全部训练和检测集进行PCA变换。在根据训练数据计算的PCA成分上训练逻辑模型(L1惩罚),然后应用于根据测试数据集类似计算的主成分。通过基于优化检测集上AUC的网格搜索,优化了效应大小阈值和PCA方差阈值的超参数。效应大小阈值设置为0.6,产生表39所示的15个高效应基因,PCA方差阈值设置为0.6,在转化15个高效应基因后产生3个主成分。
表39.包括GDM模型中的主成分特征的15个高效应基因
Figure BDA0004176579550001991
Figure BDA0004176579550002001
基于15个高效应基因的最终主成分转化在具有49个GDM病例和430个对照的完整训练数据集(P、M和K)上重新训练,然后用作在完整训练数据集上训练的逻辑模型中的特征。模型在独立队列(R)上进行评估,观察到表现为抽血2的AUC为0.59(约20周时为8个病例和109个对照),抽血3的AUC为0.60(约26周时为11个病例和119个对照)。
实施例18:基于妊娠中间三月期中的预测检测施用来改善早期早产(ePTB)结果的 临床干预护理途径
使用本公开的系统和方法,开发了一种临床干预护理计划算法,以根据妊娠中间三月期施用的预测性检测的结果改善早期早产结果,如图41所示。
目前,没有可用于无既往早产史的无症状一般人群的早期早产检测,并且大多数妊娠遵循常规产前护理途径。在妊娠早期(胎龄13至26周)应用ePTB预测检测,为检测呈阳性的妊娠对象提供双组法。对于第一组,在妊娠中间三月期检测呈阳性的妊娠对象被转诊接受宫颈长度超声加强监测和低剂量阿司匹林治疗方案。然后,子宫颈短的妊娠对象进行可能的阴道黄体酮或手术环扎术治疗。在治疗的第一组中,可以减少或延迟约30%-40%的自发性ePTB。
在第二组,在妊娠末三个月检测呈阳性的妊娠对象被转诊以加强对早产症状的监测,并对宫颈分泌物进行常规胎儿纤连蛋白检测(fFN)。有活跃分娩表现和阳性fFN检测的妊娠对象提供产前类固醇治疗以改善新生儿结果的阈值较低。在治疗的第二组,可以减少约22%的新生儿死亡。
参考文献
Senarath,Sachintha,;Ades,Alex;FRANZCOG;Nanayakkara,Pavitra;MRANZCOG,Cervical Cerclage:A Review and Rethinking of Current Practice,Obstetrical&Gynecological Survey:2020.12-75卷-12期-第757-765页通过引用整体并入本文。
Child T,Leonard SA,Evans JS,Lass A.Systematic review of the clinicalefficacy of vaginal progesterone for luteal phase support in assistedreproductive technology cycles.Reprod Biomed Online.2018Jun;36(6):630-645.doi:10.1016/j.rbmo.2018.02.001.Epub 2018Feb 22.PMID:29550390通过引用整体并入本文。
McGoldrick E,Stewart F,Parker R,Dalziel SR.Antenatal corticosteroidsfor accelerating fetal lung maturation for women at risk of pretermbirth.Cochrane Database of Systematic Reviews 2020,Issue 12.Art.No.:CD004454.DOI:10.1002/14651858.CD004454.pub4.(访问日:2021.7.20)通过引用整体并入本文。
实施例19:基于妊娠中间三月期中的预测检测施用来改善先兆子痫(PE)结果的临 床干预护理途径
使用本公开的系统和方法,开发了一种临床干预护理计划算法,以根据妊娠中间三月期施用的预测性检测的结果改善先兆子痫结果,如图42所示。
目前,没有可用于无既往高血压史或既往先兆子痫的无症状一般人群的先兆子痫检测,并且大多数妊娠遵循常规产前护理途径。如果对妊娠早期(胎龄13至20周)的对象进行PE预测检测,为检测呈阳性的妊娠对象提供三组法。对于第一组,在中孕早期(妊娠13至16周)检测呈阳性的妊娠对象接受低剂量阿司匹林治疗方案,这可使先兆子痫的早发性减少24%。
在第二组,在妊娠中或末三个月检测呈阳性的妊娠对象被转诊接受家庭血压监测和低剂量阿司匹林治疗的加强监测。在第三组中,具有妊娠血压升高的妊娠对象进行肝或肾功能不全的连续血液测试,并使用抗高血压药物(例如,肼屈嗪、拉贝洛尔和口服硝苯地平)进行治疗,这可以将PE的发生率减少45%。通过向肝肾功能不全血液测试呈阳性的先兆子痫对象推荐进行产前观察、分娩指征以及产前类固醇治疗的可能较低阈值的组合,这可导致新生儿死亡估计减少22%。
参考文献
Yeo Jin Choi,Sooyoung Shin,Aspirin Prophylaxis During Pregnancy:ASystematic Review and Meta-Analysis;Am J Prev Med,2021Jul;61(1):e31-e45通过引用整体并入本文。
Eva G.Mulder,Chahinda Ghossein-Doha,Ella Cauffman,Veronica A.Lopesvan Balen,Veronique M.M.M.Schiffer,Robert-Jan Alers,Jolien Oben,Luc Smits,Sander M.J.van Kuijk,Marc E.A.Spaanderman;Preventing Recurrent Preeclampsiaby Tailored Treatment ofNonphysiologic Hemodynamic Adjustments to Pregnancy,Hypertension.2021;77:2045–2053通过引用整体并入本文。
McGoldrick E,Stewart F,Parker R,Dalziel SR.Antenatal corticosteroidsfor accelerating fetal lung maturation for women at risk of pretermbirth.Cochrane Database Syst Rev.2020Dec 25;12(12):CD004454.doi:10.1002/14651858.CD004454.pub4.PMID:33368142;PMCID:PMC8094626通过引用整体并入本文。
实施例20:基于妊娠中间三月期中的预测检测施用来改善妊娠期糖尿病(GDM)结 果的临床干预护理途径
使用本公开的系统和方法,开发了临床干预护理计划算法,以根据妊娠中间三月期施用的预测性检测的结果改善GDM结果,如图43所示。
目前,没有可用于中孕早期无症状的一般人群的妊娠期糖尿病检测,并且大多数妊娠遵循常规的在胎龄24-28周时进行诊断性口服葡萄糖耐量检测的产前护理途径。如果对妊娠早期(胎龄13至20周)的对象进行妊娠期糖尿病检测,为检测呈阳性的妊娠对象提供双组法。对于第一组,不建议在中孕早期(妊娠13至16周)检测呈阴性的妊娠对象在胎龄24-28周时进行口服葡萄糖耐量检测。
在第二组中,建议在妊娠中间三月期检测呈阳性的妊娠对象跳过1小时的葡萄糖耐量检测,并继续进行3小时的葡萄糖耐量检测以提高诊断的准确性。
实施例21:在组合的多队列上预测早产(PTB)
将来自实施例4、8和11的所有PTB队列加上附加队列(P)组合到单个数据集中,如图44A所示,共有255个来自胎龄35周前早产对象的样本和1269个来自37周后胎龄分娩的健康对照对象的样本。
如下获得对象的附加队列(P)。如图44B所示,建立了150名对象(54名早产和96名足月对照)的队列(x轴上显示患者识别号)。从这一队列中,使用本公开的方法和系统,在对应于每个对象胎儿的估计胎龄(显示在y轴上,以分娩时估计胎龄的递增顺序)的不同时间点收集了一个或多个生物样本(例如,1或2个)并进行测定。例如,估计胎龄(显示在y轴上)可以使用诸如超声成像、末次月经期(LMP)日期或其组合的方法来确定,并且可以在0至约42周的范围内。
为了减轻采血对胎龄的影响,对组合队列进行了以下三项单独的差异表达分析。首先,对在胎龄17-28周之间收集的血液样本(190名病例和859名对照)进行了早产病例样本(在35周之前分娩)和对照样本(在37周后分娩)之间差异表达基因的分析。在第二项分析中,针对在胎龄23-26周的窄窗口之间收集的血液样本(60名病例和271名对照)进行了早产病例样本(35周前分娩)和对照样本(在37周后分娩)之间的差异表达基因分析。在第三项分析中,针对在胎龄17-23周之间的更早窗口之间收集的血液样本(111名病例和505名对照)进行了早产病例样本(35周前分娩)和对照样本(37周后或37周时分娩)之间的差异表达基因分析。
使用EdgeR并考虑种族、队列效应和收集时的胎龄(190名PTB病例和859名对照),进行通过胎龄17-28周之间收集的血液样本预测早于胎龄35周早产的第一项差异表达分析。表40显示了根据多重假设校正(FDR值)调整后p值<0.1的前19个基因的集,并且还显示了在早产病例中差异表达的QQ图中与零假设的显著偏差(如图44C所示)。表41显示了通过胎龄17-28周之间收集的血液样本用于预测早于妊娠35周的早产,p值<0.1的附加基因集。基因根据其统计显著性(P值)进行排序。
表40:用于通过胎龄17-28周之间收集的血液样本预测早于妊娠35周的早产的根据多重假设校正(FDR值)调整后p值<0.1的前19个基因
# 基因 logFC P-值 FDR
1 FGA -1.04779 2.04E-15 1.46E-11
2 HRG -1.14768 2.49E-15 1.46E-11
3 FGB -0.84237 1.60E-11 6.21E-08
4 APOB -0.78279 7.49E-11 2.19E-07
5 APOH -0.82927 5.19E-10 1.21E-06
6 COL3A1 -0.98584 3.76E-08 7.31E-05
7 ALB -0.57285 5.51E-08 8.32E-05
8 HPD -0.59372 5.70E-08 8.32E-05
9 COL1A1 -1.00293 1.84E-07 0.00023915
10 FABP1 -0.56313 2.94E-07 0.0003184
11 CFH -0.42425 3.00E-07 0.0003184
12 COL1A2 -0.81295 3.19E-06 0.00309871
13 CYP2E1 -0.47476 9.33E-06 0.00837437
14 MUC3A -0.5149 1.25E-05 0.01042708
15 CDR1-AS -0.537 1.34E-05 0.01043626
16 ALDOB -0.48986 1.56E-05 0.01136251
17 ADH1B -0.46998 5.00E-05 0.03435136
18 HP -0.42634 0.0001198 0.07769152
19 DCN -0.66171 0.00014101 0.08662964
表41:用于通过胎龄17-28周之间收集的血液样本预测早于妊娠35周的早产的p值<0.1的附加基因集
Figure BDA0004176579550002051
/>
Figure BDA0004176579550002061
/>
Figure BDA0004176579550002071
/>
Figure BDA0004176579550002081
/>
Figure BDA0004176579550002091
/>
Figure BDA0004176579550002101
/>
Figure BDA0004176579550002111
/>
Figure BDA0004176579550002121
/>
Figure BDA0004176579550002131
/>
Figure BDA0004176579550002141
/>
Figure BDA0004176579550002151
使用EdgeR并考虑种族、队列效应和收集时的胎龄(60名PTB病例和271名对照),进行通过胎龄23-26周之间收集的血液样本预测早于胎龄35周早产的第二项差异表达分析。表42显示了根据多重假设校正(FDR值)调整后p值<0.1的前17个基因的集,并且还显示了在早产病例中差异表达的QQ图中与零假设的显著偏差(如图44D所示)。表43显示了用于通过胎龄23-26周之间收集的血液样本预测早于妊娠35周的早产,p值<0.1的基因的附加的集。基因根据其统计显著性(P值)进行排序。
表42:用于通过胎龄23-26周之间收集的血液样本预测早于妊娠35周的早产的根据多重假设校正(FDR值)调整后p值<0.1的前17个基因
Figure BDA0004176579550002152
Figure BDA0004176579550002161
表43:用于通过胎龄23-26周之间收集的血液样本预测早于妊娠35周的早产的p值<0.1的附加基因集
Figure BDA0004176579550002162
/>
Figure BDA0004176579550002171
/>
Figure BDA0004176579550002181
/>
Figure BDA0004176579550002191
/>
Figure BDA0004176579550002201
/>
Figure BDA0004176579550002211
/>
Figure BDA0004176579550002221
/>
Figure BDA0004176579550002231
/>
Figure BDA0004176579550002241
/>
Figure BDA0004176579550002251
使用EdgeR并考虑种族、队列效应和收集时的胎龄(111名PTB病例和505名对照),进行通过胎龄17-23周之间收集的血液样本预测早于胎龄35周早产的第三项差异表达分析。表44显示了根据多重假设校正(FDR值)调整后p值<0.1的前6个基因的集,并且还显示了在早产病例中差异表达的QQ图中与零假设的显著偏差(如图44E所示)。表45显示了用于通过胎龄17-23周之间收集的血液样本预测早于妊娠35周的早产,p值<0.1的基因的附加的集。基因根据其统计显著性(P值)进行排序。
表44:用于通过胎龄17-23周之间收集的血液样本预测早于妊娠35周的早产的根据多重假设校正(FDR值)调整后p值<0.1的前6个基因
# 基因 logFC P-值 FDR
1 FGA -0.8922522 2.07E-07 0.002408
2 COL3A1 -1.1822498 7.06E-07 0.004095
3 COL1A1 -1.2205151 1.51E-06 0.005844
4 COL1A2 -1.0088068 1.09E-05 0.031216
5 CDR1-AS -0.7115165 1.35E-05 0.031216
6 HSPA1B 0.57245175 1.74E-05 0.03368
表45:用于通过胎龄17-23周之间收集的血液样本预测早于妊娠35周的早产的p值<0.1的附加基因集
Figure BDA0004176579550002261
/>
Figure BDA0004176579550002271
/>
Figure BDA0004176579550002281
/>
Figure BDA0004176579550002291
/>
Figure BDA0004176579550002301
/>
Figure BDA0004176579550002311
/>
Figure BDA0004176579550002321
/>
Figure BDA0004176579550002331
/>
Figure BDA0004176579550002341
/>
Figure BDA0004176579550002351
/>
Figure BDA0004176579550002361
/>
Figure BDA0004176579550002371
实施例22:使用效应大小在组合的多队列上预测早产(PTB)
根据包含六个队列(图44A,在妊娠约25周时收集)的Log2 RPM基因表达数据的训练集鉴定特征。70%的训练数据被分为训练集(38名病例和186个对照),而其余30%用作特征工程的检测集(18名病例和79名对照)。选择PTB中上调的效应大小大于效应大小阈值的候选基因。主成分分析(PCA)在训练集中对照的标准化Log2 CPM计数上进行训练。然后对全部训练和检测集进行PCA变换。在根据训练数据计算的PCA成分上训练逻辑模型(L1惩罚),然后应用于根据测试数据集类似计算的主成分。通过基于优化检测集上AUC的网格搜索,优化了效应大小阈值和PCA方差阈值的超参数。效应大小阈值设置为0.3,产生837个高效应基因,PCA方差阈值设置为0.6,使用上述从训练集中获得的上述逻辑回归模型在测试集中获得0.56的AUC。
表46显示了占PTB模型总权重的20%的前50个基因的集。表47显示了占模型权重的80%的剩余787个基因。基因在建模中按总权重排序,通过PCA分量与逻辑回归模型权重之间的矩阵乘法获得。
表46.使用0.3的效应大小阈值鉴定的前50个高效应基因,占PTB模型总权重的20%。基因在模型中按总权重排序。前50个基因占模型总权重的20%。
Figure BDA0004176579550002372
/>
Figure BDA0004176579550002381
/>
Figure BDA0004176579550002391
表47.使用0.3的效应大小阈值鉴定的剩余787个高效应基因,占PTB模型权重的剩余80%
Figure BDA0004176579550002392
/>
Figure BDA0004176579550002401
/>
Figure BDA0004176579550002411
/>
Figure BDA0004176579550002421
/>
Figure BDA0004176579550002431
/>
Figure BDA0004176579550002441
/>
Figure BDA0004176579550002451
/>
Figure BDA0004176579550002461
/>
Figure BDA0004176579550002471
/>
Figure BDA0004176579550002481
/>
Figure BDA0004176579550002491
/>
Figure BDA0004176579550002501
/>
Figure BDA0004176579550002511
/>
Figure BDA0004176579550002521
/>
Figure BDA0004176579550002531
/>
Figure BDA0004176579550002541
/>
Figure BDA0004176579550002551
/>
Figure BDA0004176579550002561
/>
Figure BDA0004176579550002571
/>
Figure BDA0004176579550002581
/>
Figure BDA0004176579550002591
虽然已在本文显示和描述了本发明的优选实施方案,但对于本领域技术人员来说显而易见的是,此类实施方案仅作为实例提供。这并不意味着本发明受说明书中提供的具体实例的限制。虽然已经参考前述说明书描述了本发明,但本文的实施方案的描述和图示并不意味着以限制的意义来解释。在不脱离本发明的情况下,本领域技术人员会想到许多变化、改变和替换。此外,应当理解,本发明的所有方面不限于本文所阐述的特定描述、配置或相对比例,其取决于各种条件和变量。应当理解,在实施本发明时,可以采用本文描述的本发明实施方案的各种替代物。因此,预期本发明还应涵盖任何此类替代物、修改、变化或等同物。以下权利要求旨在限定本发明的范围,并且由此覆盖这些权利要求及其等同物范围内的方法和结构。

Claims (191)

1.一种用于鉴定对象的妊娠相关状态的存在或易感性的方法,包括:测定来源于所述对象的无细胞生物样本中的转录物或代谢物以检测生物标志物集,以及使用经训练算法分析所述生物标志物集以确定所述妊娠相关状态的所述存在或易感性。
2.根据权利要求1所述的方法,进一步包括测定来源于所述对象的所述无细胞生物样本中的所述转录物以检测所述生物标志物集。
3.根据权利要求2所述的方法,其中所述转录物通过核酸测序进行测定。
4.根据权利要求1所述的方法,进一步包括测定来源于所述对象的所述无细胞生物样本中的所述代谢物以检测所述生物标志物集。
5.根据权利要求4所述的方法,其中所述代谢物通过代谢组学测定进行测定。
6.一种用于鉴定对象的妊娠相关状态的存在或易感性的方法,进一步包括:测定来源于所述对象的无细胞生物样本以检测生物标志物集,以及使用经训练算法分析所述生物标志物集,从而以至少约80%的精度确定至少三种不同的妊娠相关状态的集之中的所述妊娠相关状态的所述存在或易感性。
7.根据权利要求1-6中任一项所述的方法,其中所述妊娠相关状态选自早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症、先兆子痫、子痫、妊娠期糖尿病、所述对象的胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘、宫内/胎儿生长受限、巨大儿、新生儿状况,以及胎儿发育阶段或状态。
8.根据权利要求6所述的方法,其中所述妊娠相关状态是早产亚型,并且其中所述至少三种不同的妊娠相关状态包括至少两种不同的早产亚型。
9.根据权利要求8所述的方法,其中所述早产亚型是早产分子亚型,并且其中所述至少两种不同的早产亚型包括至少两种不同的早产分子亚型。
10.根据权利要求9所述的方法,其中所述早产分子亚型选自既往的早产、自发性早产、种族特异性早产风险和早产胎膜早破(PPROM)的病史。
11.根据权利要求6所述的方法,进一步包括至少部分地基于所述妊娠相关状态的所述存在或易感性来鉴定所述对象的临床干预。
12.根据权利要求9所述的方法,其中所述临床干预选自多个临床干预。
13.根据权利要求6所述的方法,其中所述生物标志物集包括与预产期相关联的基因组位点,其中所述基因组位点选自表1、表7和表10中列出的基因。
14.根据权利要求6所述的方法,其中所述生物标志物集包括与胎龄相关联的基因组位点,其中所述基因组位点选自表2中列出的基因、表3中列出的基因、表4中列出的基因、表23中列出的基因、表24中列出的基因、表25中列出的基因和表26中列出的基因。
15.根据权利要求6所述的方法,其中所述生物标志物集包括与早产相关联的基因组位点,其中所述基因组位点选自表5中列出的基因、表6中列出的基因、表8中列出的基因、表12中列出的基因、表14中列出的基因、表20中列出的基因、表21中列出的基因、表34中列出的基因、表40中列出的基因、表41中列出的基因、表42中列出的基因、表43中列出的基因、表44中列出的基因、表45中列出的基因、表46中列出的基因、表47中列出的基因、RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。
16.根据权利要求6所述的方法,其中所述妊娠相关状态是先兆子痫亚型,并且其中所述至少三种不同的妊娠相关状态包括至少两种不同的先兆子痫亚型。
17.根据权利要求16所述的方法,其中所述先兆子痫亚型是先兆子痫分子亚型,并且其中所述至少两种不同的先兆子痫亚型包括至少两种不同的先兆子痫分子亚型。
18.根据权利要求16所述的方法,其中所述先兆子痫分子亚型选自慢性或原有高血压的病史、妊娠高血压的存在或病史、轻度先兆子痫的存在或病史(例如,分娩大于34周胎龄)、重度先兆子痫的存在或病史(分娩小于34周胎龄)、子痫的存在或病史,以及HELLP综合征的存在或病史。
19.根据权利要求6所述的方法,进一步包括至少部分地基于所述妊娠相关状态的所述存在或易感性来鉴定所述对象的临床干预。
20.根据权利要求19所述的方法,其中所述临床干预选自多个临床干预。
21.根据权利要求6所述的方法,其中所述生物标志物集包括与先兆子痫相关联的基因组位点,其中所述基因组位点选自表15中列出的基因、表17中列出的基因、表18中列出的基因、表19中列出的基因、表27中列出的基因、表33中列出的基因、CLDN7、PAPPA2、SNORD14A、PLEKHH1、MAGEA10、TLE6和FABP1。
22.根据权利要求6所述的方法,其中所述生物标志物集包括与胎儿器官发育相关联的基因组位点。
23.根据权利要求6所述的方法,其中所述生物标志物集包括与胎儿器官发育相关联的基因组位点,并且其中所述胎儿器官为至少1、至少2、至少3、至少4、至少5、至少6、至少7或至少8种特定的胎儿器官组织类型,所述胎儿器官组织类型选自心脏、小肠、大肠、视网膜、前额叶皮层、中脑、肾脏和食道。
24.根据权利要求6所述的方法,其中所述生物标志物集包括与胎儿器官发育相关联的基因组位点,其中所述基因组位点选自表29中列出的基因。
25.根据权利要求6所述的方法,其中所述生物标志物集包括与妊娠期糖尿病相关联的基因组位点,其中所述基因组位点选自表36中列出的基因、表37中列出的基因、表38中列出的基因和表39中列出的基因。
26.根据权利要求13-24中任一项所述的方法,其中所述生物标志物集包括至少5个不同的基因组位点。
27.根据权利要求13-24中任一项所述的方法,其中所述生物标志物集包括至少10个不同的基因组位点。
28.根据权利要求13-24中任一项所述的方法,其中所述生物标志物集包括至少25个不同的基因组位点。
29.根据权利要求13-24中任一项所述的方法,其中所述生物标志物集包括至少50个不同的基因组位点。
30.根据权利要求13-24中任一项所述的方法,其中所述生物标志物集包括至少100个不同的基因组位点。
31.根据权利要求13-24中任一项所述的方法,其中所述生物标志物集包括至少150个不同的基因组位点。
32.一种用于鉴定或监测对象的妊娠相关状态的存在或易感性的方法,包括:
(a)使用第一测定来处理来源于所述对象的无细胞生物样本,以生成第一数据集;
(b)使用第二测定来处理来源于所述对象的阴道或宫颈生物样本,以生成包括所述阴道或宫颈生物样本的微生物组谱的第二数据集;
(c)使用经训练算法处理至少所述第一数据集和所述第二数据集以确定所述妊娠相关状态的所述存在或易感性,所述经训练算法在至少50个独立样本上具有至少约80%的准确率;以及
(d)以电子方式输出指示所述对象的所述妊娠相关状态的所述存在或易感性的报告。
33.根据权利要求31所述的方法,其中所述第一测定包括使用来源于所述无细胞生物样本的无细胞核糖核酸(cfRNA)分子来生成转录组学数据,使用来源于所述无细胞生物样本的转录产物来生成转录产物数据,使用来源于所述无细胞生物样本的无细胞脱氧核糖核酸(cfDNA)分子来生成基因组数据和/或甲基化数据,使用来源于所述第一无细胞生物样本的蛋白质来生成蛋白质组学数据,或使用来源于所述第一无细胞生物样本的代谢物来生成代谢组学数据。
34.根据权利要求31所述的方法,其中所述无细胞生物样本来自所述对象的血液。
35.根据权利要求31所述的方法,其中所述无细胞生物样本来自所述对象的尿液。
36.根据权利要求31所述的方法,其中所述第一数据集包括与所述妊娠相关状态相关联的第一生物标志物集。
37.根据权利要求35所述的方法,其中所述第二数据集包括与所述妊娠相关状态相关联的第二生物标志物集。
38.根据权利要求36所述的方法,其中所述第二生物标志物集不同于所述第一生物标志物集。
39.根据权利要求31所述的方法,其中所述妊娠相关状态选自早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症、子痫、妊娠期糖尿病、所述对象的胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘、宫内/胎儿生长受限、巨大儿、新生儿状况,以及胎儿发育阶段或状态。
40.根据权利要求38所述的方法,其中所述妊娠相关状态包括早产。
41.根据权利要求38所述的方法,其中所述妊娠相关状态包括胎龄。
42.根据权利要求31所述的方法,其中所述无细胞生物样本选自无细胞核糖核酸(cfRNA)、无细胞脱氧核糖核酸(cfDNA)、无细胞胎儿DNA(cffDNA)、血浆、血清、尿液、唾液、羊水及其衍生物。
43.根据权利要求31所述的方法,其中所述无细胞生物样本是使用乙二胺四乙酸(EDTA)收集管、无细胞RNA收集管或无细胞脱氧核糖核酸(DNA)收集管而获得自或来源于所述对象。
44.根据权利要求31所述的方法,进一步包括对所述对象的全血样本进行分级分离以获得所述无细胞生物样本。
45.根据权利要求31所述的方法,其中所述第一测定包括无细胞核糖核酸(cfRNA)测定或代谢组学测定。
46.根据权利要求44所述的方法,其中所述代谢组学测定包括靶向质谱(MS)或免疫测定。
47.根据权利要求31所述的方法,其中所述无细胞生物样本包括无细胞核糖核酸(cfRNA)或尿液。
48.根据权利要求31所述的方法,其中所述第一测定或所述第二测定包括定量聚合酶链反应(qPCR)。
49.根据权利要求31所述的方法,其中所述第一测定或所述第二测定包括被配置为在家庭环境中进行的家用测试。
50.根据权利要求31所述的方法,其中所述经训练算法以至少约80%的灵敏度确定所述对象的所述妊娠相关状态的所述存在或易感性。
51.根据权利要求31所述的方法,其中所述经训练算法以至少约90%的灵敏度确定所述对象的所述妊娠相关状态的所述存在或易感性。
52.根据权利要求31所述的方法,其中所述经训练算法以至少约95%的灵敏度确定所述对象的所述妊娠相关状态的所述存在或易感性。
53.根据权利要求31所述的方法,其中所述经训练算法以至少约70%的阳性预测值(PPV)确定所述对象的所述妊娠相关状态的所述存在或易感性。
54.根据权利要求31所述的方法,其中所述经训练算法以至少约80%的阳性预测值(PPV)确定所述对象的所述妊娠相关状态的所述存在或易感性。
55.根据权利要求31所述的方法,其中所述经训练算法以至少约90%的阳性预测值(PPV)确定所述对象的所述妊娠相关状态的所述存在或易感性。
56.根据权利要求31所述的方法,其中所述经训练算法以至少约0.90的曲线下面积(AUC)确定所述对象的所述妊娠相关状态的所述存在或易感性。
57.根据权利要求31所述的方法,其中所述经训练算法以至少约0.95的曲线下面积(AUC)确定所述对象的所述妊娠相关状态的所述存在或易感性。
58.根据权利要求31所述的方法,其中所述经训练算法以至少约0.99的曲线下面积(AUC)确定所述对象的所述妊娠相关状态的所述存在或易感性。
59.根据权利要求31所述的方法,其中所述对象针对以下一项或多项是无症状的:早产、分娩发作、妊娠相关高血压病症、子痫、妊娠期糖尿病、所述对象的胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘、宫内/胎儿生长受限、巨大儿、新生儿状况,以及异常胎儿发育阶段或状态。
60.根据权利要求31所述的方法,其中所述经训练算法使用至少约10个与所述妊娠相关状态的所述存在或易感性相关联的独立训练样本进行训练。
61.根据权利要求31所述的方法,其中所述经训练算法使用不多于约100个与所述妊娠相关状态的所述存在或易感性相关联的独立训练样本进行训练。
62.根据权利要求31所述的方法,其中所述经训练算法使用与所述妊娠相关状态的存在或易感性相关联的第一独立训练样本集和与所述妊娠相关状态的不存在或无易感性相关联的第二独立训练样本集进行训练。
63.根据权利要求31所述的方法,其中(c)包括使用所述经训练算法或另一种经训练的算法来处理所述对象的临床健康数据集,以确定所述妊娠相关状态的所述存在或易感性。
64.根据权利要求31所述的方法,其中(a)包括(i)使所述无细胞生物样本经受足以分离、富集或提取核糖核酸(RNA)分子、脱氧核糖核酸(DNA)分子、蛋白质或代谢物的集的条件,以及(ii)使用所述第一测定分析所述RNA分子、DNA分子、蛋白质或代谢物的集,以生成所述第一数据集。
65.根据权利要求63所述的方法,进一步包括从所述无细胞生物样本中提取核酸分子集,以及对所述核酸分子集进行测序以生成测序读数集,其中所述第一数据集包括所述测序读数集。
66.根据权利要求31所述的方法,其中(b)包括(i)使所述阴道或宫颈生物样本经受于足以分离、富集或提取微生物群的条件,以及(ii)使用所述第二测定分析所述微生物群以生成所述第二数据集。
67.根据权利要求64所述的方法,其中所述测序是大规模平行测序。
68.根据权利要求64所述的方法,其中所述测序包括核酸扩增。
69.根据权利要求67所述的方法,其中所述核酸扩增包括聚合酶链反应(PCR)。
70.根据权利要求68所述的方法,其中所述测序包括使用实质上同时的逆转录(RT)和聚合酶链反应(PCR)。
71.根据权利要求64所述的方法,进一步包括使用探针,所述探针被配置为选择性地富集对应于一个或多个基因组位点的分组的所述核酸分子集。
72.根据权利要求70所述的方法,其中所述探针是核酸引物。
73.根据权利要求70所述的方法,其中所述探针具有与所述一个或多个基因组位点的所述分组的核酸序列互补的序列。
74.根据权利要求70所述的方法,其中所述一个或多个基因组位点的所述分组包括至少一个基因组位点,所述基因组位点选自ACTB、ADAM12、ALPP、ANXA3、APLF、ARG1、AVPR1A、CAMP、CAPN6、CD180、CGA、CGB、CLCN3、CPVL、CSH1、CSH2、CSHL1、CYP3A7、DAPP1、DCX、DEFA4、DGCR14、ELANE、ENAH、EPB42、FABP1、FAM212B-AS1、FGA、FGB、FRMD4B、FRZB、FSTL3、GH2、GNAZ、HAL、HSD17B1、HSD3B1、HSPB8、Immune、ITIH2、KLF9、KNG1、KRT8、LGALS14、LTF、LYPLAL1、MAP3K7CL、MEF2C、MMD、MMP8、MOB1B、NFATC2、OTC、P2RY12、PAPPA、PGLYRP1、PKHD1L1、PKHD1L1、PLAC1、PLAC4、POLE2、PPBP、PSG1、PSG4、PSG7、PTGER3、RAB11A、RAB27B、RAP1GAP、RGS18、RPL23AP7、S100A8、S100A9、S100P、SERPINA7、SLC2A2、SLC38A4、SLC4A1、TBC1D15、VCAN、VGLL1、B3GNT2、COL24A1、CXCL8和PTGS2。
75.根据权利要求70所述的方法,其中所述一个或多个基因组位点的所述分组包括至少5个不同的基因组位点。
76.根据权利要求70所述的方法,其中所述一个或多个基因组位点的所述分组包括至少10个不同的基因组位点。
77.根据权利要求70所述的方法,其中所述一个或多个基因组位点的所述分组包括与早产相关联的基因组位点,其中所述基因组位点选自ADAM12、ANXA3、APLF、AVPR1A、CAMP、CAPN6、CD180、CGA、CGB、CLCN3、CPVL、CSH2、CSHL1、CYP3A7、DAPP1、DGCR14、ELANE、ENAH、FAM212B-AS1、FRMD4B、GH2、HSPB8、Immune、KLF9、KRT8、LGALS14、LTF、LYPLAL1、MAP3K7CL、MMD、MOB1B、NFATC2、P2RY12、PAPPA、PGLYRP1、PKHD1L1、PKHD1L1、PLAC1、PLAC4、POLE2、PPBP、PSG1、PSG4、PSG7、RAB11A、RAB27B、RAP1GAP、RGS18、RPL23AP7、TBC1D15、VCAN、VGLL1、B3GNT2、COL24A1、CXCL8和PTGS2。
78.根据权利要求70所述的方法,其中所述一个或多个基因组位点的所述分组包括与胎龄相关联的基因组位点,其中所述基因组位点选自ACTB、ADAM12、ALPP、ANXA3、ARG1、CAMP、CAPN6、CGA、CGB、CSH1、CSH2、CSHL1、CYP3A7、DCX、DEFA4、EPB42、FABP1、FGA、FGB、FRZB、FSTL3、GH2、GNAZ、HAL、HSD17B1、HSD3B1、HSPB8、ITIH2、KNG1、LGALS14、LTF、MEF2C、MMP8、OTC、PAPPA、PGLYRP1、PLAC1、PLAC4、PSG1、PSG4、PSG7、PTGER3、S100A8、S100A9、S100P、SERPINA7、SLC2A2、SLC38A4、SLC4A1、VGLL1、RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。
79.根据权利要求70所述的方法,其中所述一个或多个基因组位点的所述分组包括与预产期相关联的基因组位点,其中所述基因组位点选自表1、表7和表10中列出的基因。
80.根据权利要求70所述的方法,其中所述一个或多个基因组位点的所述分组包括与胎龄相关联的基因组位点,其中所述基因组位点选自表2中列出的基因、表3中列出的基因、表4中列出的基因、表23中列出的基因、表24中列出的基因、表25中列出的基因和表26中列出的基因。
81.根据权利要求70所述的方法,其中所述一个或多个基因组位点的所述分组包括与早产相关联的基因组位点,其中所述基因组位点选自表5中列出的基因、表6中列出的基因、表8中列出的基因、表12中列出的基因、表14中列出的基因、表20中列出的基因、表21中列出的基因、表34中列出的基因、表40中列出的基因、表41中列出的基因、表42中列出的基因、表43中列出的基因、表44中列出的基因、表45中列出的基因、表46中列出的基因、表47中列出的基因、RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。
82.根据权利要求70所述的方法,其中所述一个或多个基因组位点的所述分组包括与先兆子痫相关联的基因组位点,其中所述基因组位点选自表15中列出的基因、表17中列出的基因、表18中列出的基因、表19中列出的基因、表27中列出的基因、表33中列出的基因、CLDN7、PAPPA2、SNORD14A、PLEKHH1、MAGEA10、TLE6和FABP1。
83.根据权利要求70所述的方法,其中所述生物标志物集包括与胎儿器官发育相关联的基因组位点。
84.根据权利要求70所述的方法,其中所述生物标志物集包括与胎儿器官发育相关联的基因组位点,并且其中所述胎儿器官为至少1、至少2、至少3、至少4、至少5、至少6、至少7或至少8种特定的胎儿器官组织类型,所述胎儿器官组织类型选自心脏、小肠、大肠、视网膜、前额叶皮层、中脑、肾脏和食道。
85.根据权利要求70所述的方法,其中所述一个或多个基因组位点的所述分组包括与胎儿器官发育相关联的基因组位点,其中所述基因组位点选自表29中列出的基因。
86.根据权利要求78-84中任一项所述的方法,其中所述一个或多个基因组位点的所述分组包括至少5个不同的基因组位点。
87.根据权利要求78-84中任一项所述的方法,其中所述一个或多个基因组位点的所述分组包括至少10个不同的基因组位点。
88.根据权利要求78-84中任一项所述的方法,其中所述一个或多个基因组位点的所述分组包括至少25个不同的基因组位点。
89.根据权利要求78-84中任一项所述的方法,其中所述一个或多个基因组位点的所述分组包括至少50个不同的基因组位点。
90.根据权利要求78-84中任一项所述的方法,其中所述一个或多个基因组位点的所述分组包括至少100个不同的基因组位点。
91.根据权利要求78-84中任一项所述的方法,其中所述一个或多个基因组位点的所述分组包括至少150个不同的基因组位点。
92.根据权利要求31所述的方法,其中所述无细胞生物样本在没有核酸分离、富集或提取的情况下进行处理。
93.根据权利要求31所述的方法,其中所述报告呈现在用户的电子设备的图形用户界面上。
94.根据权利要求92所述的方法,其中所述用户是所述对象。
95.根据权利要求31所述的方法,进一步包括确定所述对象的所述妊娠相关状态的所述存在或易感性的所述确定的似然性。
96.根据权利要求31所述的方法,其中所述经训练算法包括监督机器学习算法。
97.根据权利要求95所述的方法,其中所述监督机器学习算法包括深度学习算法、支持向量机(SVM)、神经网络或随机森林。
98.根据权利要求31所述的方法,进一步包括向所述对象提供针对所述妊娠相关状态的所述存在或易感性的治疗性干预。
99.根据权利要求97所述的方法,其中所述治疗性干预包括己酸羟孕酮、阴道黄体酮、天然黄体酮IVR产物、前列腺素F2α受体拮抗剂、或β2-肾上腺素能受体激动剂。
100.根据权利要求31所述的方法,进一步包括监测所述妊娠相关状态的所述存在或易感性,其中所述监测包括在多个时间点评估所述对象的所述妊娠相关状态的所述存在或易感性,其中所述评估至少基于所述多个时间点中的每一个处在(d)中确定的所述妊娠相关状态的所述存在或易感性。
101.根据权利要求99所述的方法,其中在所述多个时间点之间对所述对象的所述妊娠相关状态的所述存在或易感性的所述评估的差异指示选自以下的一个或多个临床适应症:(i)所述对象的所述妊娠相关状态的所述存在或易感性的诊断,(ii)所述对象的所述妊娠相关状态的所述存在或易感性的预后,以及(iii)治疗所述对象的所述妊娠相关状态的所述存在或易感性的疗程的有效性或无效性。
102.根据权利要求39所述的方法,进一步包括通过使用所述经训练算法从多个不同的早产分子亚型中确定所述早产的分子亚型来对所述早产进行分层。
103.根据权利要求101所述的方法,其中所述多个不同的早产分子亚型包括选自既往的早产、自发性早产、种族特异性早产风险和早产胎膜早破(PPROM)的病史的早产分子亚型。
104.一种用于预测对象的早产风险的计算机实施的方法,包括:
(a)接收所述对象的临床健康数据,其中所述临床健康数据包括所述对象的多个定量量度或分类量度;
(b)使用经训练算法处理所述对象的所述临床健康数据,以确定指示所述对象的所述早产风险的风险评分;以及
(c)以电子方式输出指示所述对象的所述早产风险的所述风险评分的报告。
105.根据权利要求103所述的方法,其中所述临床健康数据包括选自以下的一个或多个定量量度:年龄、体重、身高、体重指数(BMI)、血压、心率、血糖水平、既往妊娠次数和既往生育次数。
106.根据权利要求103所述的方法,其中所述临床健康数据包括选自以下的一个或多个分类量度:人种、种族、药物或其他临床治疗史、吸烟史、饮酒史、日常活动或健康水平、基因检测结果、血液测试结果、成像结果和胎儿筛查结果。
107.根据权利要求103所述的方法,其中所述经训练算法以至少约80%的灵敏度确定所述对象的所述早产风险。
108.根据权利要求103所述的方法,其中所述经训练算法以至少约80%的特异性确定所述对象的所述早产风险。
109.根据权利要求103所述的方法,其中所述经训练算法以至少约80%的阳性预测值(PPV)确定所述对象的所述早产风险。
110.根据权利要求103所述的方法,其中所述经训练算法以至少约80%的阴性预测值(NPV)确定所述对象的所述早产风险。
111.根据权利要求103所述的方法,其中所述经训练算法以至少约0.9的曲线下面积(AUC)确定所述对象的所述早产风险。
112.根据权利要求103所述的方法,其中所述对象针对以下一项或多项是无症状的:早产、分娩发作、妊娠相关高血压病症、子痫、妊娠期糖尿病、所述对象的胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘、宫内/胎儿生长受限、巨大儿、新生儿状况,以及异常胎儿发育阶段或状态。
113.根据权利要求103所述的方法,其中所述经训练算法使用至少约10个与早产相关联的独立训练样本进行训练。
114.根据权利要求103所述的方法,其中所述经训练算法使用不多于约100个与早产相关联的独立训练样本进行训练。
115.根据权利要求103所述的方法,其中所述经训练算法使用与早产的存在相关联的第一独立训练样本集和与早产的不存在相关联的第二独立训练样本集进行训练。
116.根据权利要求103所述的方法,其中所述报告呈现在用户的电子设备的图形用户界面上。
117.根据权利要求115所述的方法,其中所述用户是所述对象。
118.根据权利要求103所述的方法,其中所述经训练算法包括监督机器学习算法。
119.根据权利要求117所述的方法,其中所述监督机器学习算法包括深度学习算法、支持向量机(SVM)、神经网络或随机森林。
120.根据权利要求103所述的方法,进一步包括至少部分基于指示所述早产风险的所述风险评分向所述对象提供治疗性干预。
121.根据权利要求119所述的方法,其中所述治疗性干预包括己酸羟孕酮、阴道黄体酮、天然黄体酮IVR产物、前列腺素F2α受体拮抗剂、或β2-肾上腺素能受体激动剂。
122.根据权利要求103所述的方法,进一步包括监测所述早产风险,其中所述监测包括在多个时间点评估所述对象的所述早产风险,其中所述评估至少基于在所述多个时间点中的每一个处在(b)中确定的指示所述早产风险的所述风险评分。
123.根据权利要求103所述的方法,进一步包括通过对所述对象进行一项或多项后续临床测试来改进指示所述对象的所述早产风险的所述风险评分,以及使用经训练算法处理来自所述一项或多项后续临床测试的结果,以确定指示所述对象的所述早产风险的经更新风险评分。
124.根据权利要求122所述的方法,其中所述一项或多项后续临床测试包括超声成像或血液测试。
125.根据权利要求103所述的方法,其中所述风险评分包括所述对象在预定持续时间内早产的似然性。
126.根据权利要求124所述的方法,其中所述预定持续时间至少为约1小时。
127.一种用于预测对象的早产风险的计算机系统,包括:
数据库,被配置为存储所述对象的临床健康数据,其中所述临床健康数据包括所述对象的多个定量量度或分类量度;和
一个或多个计算机处理器,其可操作地耦联到所述数据库,其中所述一个或多个计算机处理器被单独或共同编程为:
(i)使用经训练算法处理所述对象的所述临床健康数据,以确定指示所述对象的所述早产风险的风险评分;以及
(ii)以电子方式输出指示所述对象的所述早产风险的所述风险评分的报告。
128.根据权利要求126所述的计算机系统,进一步包括可操作地耦联到所述一个或多个计算机处理器的电子显示器,其中所述电子显示器包括被配置为显示所述报告的图形用户界面。
129.一种非暂时性计算机可读介质,包括机器可执行代码,所述机器可执行代码在由一个或多个计算机处理器执行时,实施用于预测对象的早产风险的方法,所述方法包括:
(a)接收所述对象的临床健康数据,其中所述临床健康数据包括所述对象的多个定量量度或分类量度;
(b)使用经训练算法处理所述对象的所述临床健康数据,以确定指示所述对象的所述早产风险的风险评分;以及
(c)以电子方式输出指示所述对象的所述早产风险的所述风险评分的报告。
130.一种用于确定妊娠对象的胎儿的预产期、预产期范围或胎龄的方法,包括:测定来源于所述妊娠对象的无细胞生物样本以检测生物标志物集,以及用经训练算法分析所述生物标志物集以确定所述胎儿的所述预产期、预产期范围、或胎龄。
131.根据权利要求129所述的方法,进一步包括使用所述经训练算法分析所述妊娠对象的所述胎儿的估计预产期或预产期范围,其中所述估计预产期或预产期范围由所述胎儿的超声测量结果生成。
132.根据权利要求129或130所述的方法,其中所述生物标志物集包括与预产期相关联的基因组位点,其中所述基因组位点选自表1、表7和表10中列出的基因。
133.根据权利要求131所述的方法,其中所述生物标志物集包括至少5个不同的基因组位点。
134.根据权利要求131所述的方法,其中所述生物标志物集包括至少10个不同的基因组位点。
135.根据权利要求131所述的方法,其中所述生物标志物集包括至少25个不同的基因组位点。
136.根据权利要求131所述的方法,其中所述生物标志物集包括至少50个不同的基因组位点。
137.根据权利要求131所述的方法,其中所述生物标志物集包括至少100个不同的基因组位点。
138.根据权利要求131所述的方法,其中所述生物标志物集包括至少150个不同的基因组位点。
139.根据权利要求129-137中任一项所述的方法,进一步包括至少部分地基于所述确定的预产期来鉴定所述妊娠对象的临床干预。
140.根据权利要求138所述的方法,其中所述临床干预选自多个临床干预。
141.根据权利要求129所述的方法,其中所述距分娩时间小于7.5周。
142.根据权利要求140所述的方法,其中所述基因组位点选自ACKR2、AKAP3、ANO5、C1orf21、C2orf42、CARNS1、CASC15、CCDC102B、CDC45、CDIPT、CMTM1、COPS8、CTD-2267D19.3、CTD-2349P21.9、CXorf65、DDX11L1、DGUOK、DPAGT1、EIF4A1P2、FANK1、FERMT1、FKRP、GAMT、GOLGA6L4、KLLN、LINC01347、LTA、MAPK12、METRN、MKRN4P、MPC2、MYL12BP1、NME4、NPM1P30、PCLO、PIF1、PTP4A3、RIMKLB、RP13-88F20.1、S100B、SIGLEC14、SLAIN1、SPATA33、TFAP2C、TMSB4XP8、TRGV10和ZNF124。
143.根据权利要求129所述的方法,其中所述距分娩时间小于5周。
144.根据权利要求142所述的方法,其中所述基因组位点选自C2orf68、CACNB3、CD40、CDKL5、CTBS、CTD-2272G21.2、CXCL8、DHRS7B、EIF5A2、IFITM3、MIR24-2、MTSS1、MYSM1、NCK1-AS1、NR1H4、PDE1C、PEMT、PEX7、PIF1、PPP2R3A、RABIF、SIGLEC14、SLC25A53、SPANXN4、SUPT3H、ZC2HC1C、ZMYM1和ZNF124。
145.根据权利要求130所述的方法,其中所述距分娩时间小于7.5周。
146.根据权利要求144所述的方法,其中所述基因组位点选自ACKR2、AKAP3、ANO5、C1orf21、C2orf42、CARNS1、CASC15、CCDC102B、CDC45、CDIPT、CMTM1、collectionga、COPS8、CTD-2267D19.3、CTD-2349P21.9、DDX11L1、DGUOK、DPAGT1、EIF4A1P2、FANK1、FERMT1、FKRP、GAMT、GOLGA6L4、KLLN、LINC01347、LTA、MAPK12、METRN、MPC2、MYL12BP1、NME4、NPM1P30、PCLO、PIF1、PTP4A3、RIMKLB、RP13-88F20.1、S100B、SIGLEC14、SLAIN1、SPATA33、STAT1、TFAP2C、TMEM94、TMSB4XP8、TRGV10、ZNF124和ZNF713。
147.根据权利要求129所述的方法,其中所述距分娩时间小于5周。
148.根据权利要求146所述的方法,其中所述基因组位点选自ATP6V1E1P1、ATP8A2、C2orf68、CACNB3、CD40、CDKL4、CDKL5、CEP152、CLEC4D、COL18A1、collectionga、COX16、CTBS、CTD-2272G21.2、CXCL2、CXCL8、DHRS7B、DPPA4、EIF5A2、FERMT1、GNB1L、IFITM3、KATNAL1、LRCH4、MBD6、MIR24-2、MTSS1、MYSM1、NCK1-AS1、NPIPB4、NR1H4、PDE1C、PEMT、PEX7、PIF1、PPP2R3A、PXDN、RABIF、SERTAD3、SIGLEC14、SLC25A53、SPANXN4、SSH3、SUPT3H、TMEM150C、TNFAIP6、UPP1、XKR8、ZC2HC1C、ZMYM1和ZNF124。
149.根据权利要求129所述的方法,其中所述经训练算法包括线性回归模型或ANOVA模型。
150.根据权利要求148所述的方法,其中所述ANOVA模型从多个时间窗口中确定对应于所述预产期的最大似然时间窗口。
151.根据权利要求149所述的方法,其中所述最大似然时间窗对应于至少1周的距分娩时间。
152.根据权利要求148所述的方法,其中所述ANOVA模型从多个时间窗口中确定对应于所述预产期的时间窗口的概率或似然性。
153.根据权利要求150所述的方法,其中所述ANOVA模型计算所述多个时间窗口的概率加权平均值,以确定平均或预期时间窗口距离。
154.一种用于检测妊娠对象的胎儿的产前代谢遗传病的存在或风险的方法,包括:
测定来源于所述妊娠对象的无细胞生物样本中的核糖核酸(RNA),以检测生物标志物集,以及
使用经训练算法分析所述生物标志物集,以检测所述产前代谢遗传病的所述存在或风险。
155.一种用于检测妊娠对象的胎儿或所述妊娠对象的至少两种健康或生理状况的方法,包括:
测定在第一时间点获得自或来源于所述妊娠对象的第一无细胞生物样本和在第二时间点获得自或来源于所述妊娠对象的第二无细胞生物样本,以检测在所述第一时间点的第一生物标志物集和在所述第二时间点的第二生物标志物集,以及
用经训练算法分析所述第一生物标志物集或所述第二生物标志物集,以检测所述至少两种健康或生理状况。
156.根据权利要求154所述的方法,其中所述至少两种健康或生理状况选自早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症、子痫、妊娠期糖尿病、所述对象的胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘、宫内/胎儿生长受限、巨大儿、新生儿状况,以及胎儿发育阶段或状态。
157.根据权利要求154所述的方法,其中所述生物标志物集包括与预产期相关联的基因组位点,其中所述基因组位点选自表1、表7和表10中列出的基因。
158.根据权利要求154所述的方法,其中所述生物标志物集包括与胎龄相关联的基因组位点,其中所述基因组位点选自表2中列出的基因、表3中列出的基因、表4中列出的基因、表23中列出的基因、表24中列出的基因、表25中列出的基因和表26中列出的基因。
159.根据权利要求154所述的方法,其中所述生物标志物集包括与早产相关联的基因组位点,其中所述基因组位点选自表5中列出的基因、表6中列出的基因、表8中列出的基因、表12中列出的基因、表14中列出的基因、表20中列出的基因、表21中列出的基因、表34中列出的基因、表40中列出的基因、表41中列出的基因、表42中列出的基因、表43中列出的基因、表44中列出的基因、表45中列出的基因、表46中列出的基因、表47中列出的基因、RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。
160.根据权利要求154所述的方法,其中所述一个或多个基因组位点的所述分组包括与先兆子痫相关联的基因组位点,其中所述基因组位点选自表15中列出的基因、表17中列出的基因、表18中列出的基因、表19中列出的基因、表27中列出的基因、表33中列出的基因、CLDN7、PAPPA2、SNORD14A、PLEKHH1、MAGEA10、TLE6和FABP1。
161.根据权利要求154所述的方法,其中所述一个或多个基因组位点的所述分组包括与胎儿器官发育相关联的基因组位点,其中所述基因组位点选自表29中列出的基因
162.根据权利要求154所述的方法,其中所述生物标志物集包括至少5个不同的基因组位点。
163.一种方法,包括:
测定获得自或来源于妊娠对象的一种或多种无细胞生物样本,以检测生物标志物集;以及
分析所述生物标志物集以鉴定(1)所述妊娠对象的胎儿的预产期或其范围,以及(2)所述妊娠对象的所述胎儿或所述妊娠对象的健康或生理状况。
164.根据权利要求162所述的方法,进一步包括用经训练算法分析所述生物标志物集。
165.根据权利要求162所述的方法,其中所述健康或生理状况选自早产、足月产、胎龄、预产期、分娩发作、妊娠相关高血压病症、先兆子痫、子痫、妊娠期糖尿病、所述对象的胎儿的先天性病症、异位妊娠、自然流产、死产、产后并发症、妊娠剧吐、分娩时出血或出血过多、胎膜早破、早产胎膜早破、前置胎盘、宫内/胎儿生长受限、巨大儿、新生儿状况,以及胎儿发育阶段或状态。
166.根据权利要求162所述的方法,其中所述生物标志物集包括与预产期相关联的基因组位点,其中所述基因组位点选自表1、表7和表10中列出的基因。
167.根据权利要求162所述的方法,其中所述生物标志物集包括与胎龄相关联的基因组位点,其中所述基因组位点选自表2中列出的基因、表3中列出的基因、表4中列出的基因、表23中列出的基因、表24中列出的基因、表25中列出的基因和表26中列出的基因。
168.根据权利要求162所述的方法,其中所述生物标志物集包括与早产相关联的基因组位点,其中所述基因组位点选自由表5中列出的基因、表6中列出的基因、表8中列出的基因、表12中列出的基因、表14中列出的基因、表20中列出的基因、表21中列出的基因、表34中列出的基因、表40中列出的基因、表41中列出的基因、表42中列出的基因、表43中列出的基因、表44中列出的基因、表45中列出的基因、表46中列出的基因、表47中列出的基因、RAB27B、RGS18、CLCN3、B3GNT2、COL24A1、CXCL8和PTGS2。
169.根据权利要求162所述的方法,其中所述生物标志物集包括至少5个不同的基因组位点。
170.根据权利要求162所述的方法,其中所述一个或多个基因组位点的所述分组包括与先兆子痫相关联的基因组位点,其中所述基因组位点选自表15中列出的基因、表17中列出的基因、表18中列出的基因、表19中列出的基因和表27中列出的基因。
171.根据权利要求162所述的方法,其中所述生物标志物集包括与胎儿器官发育相关联的基因组位点。
172.根据权利要求162所述的方法,其中所述生物标志物集包括与胎儿器官发育相关联的基因组位点,并且其中所述胎儿器官为至少1、至少2、至少3、至少4、至少5、至少6、至少7或至少8种特定的胎儿器官组织类型,所述胎儿器官组织类型选自心脏、小肠、大肠、视网膜、前额叶皮层、中脑、肾脏和食道。
173.根据权利要求162所述的方法,其中所述一个或多个基因组位点的所述分组包括与胎儿器官发育相关联的基因组位点,其中所述基因组位点选自表29中列出的基因。
174.根据权利要求163所述的方法,进一步包括至少部分基于所述生物标志物集,选择针对所述妊娠对象的所述胎儿或所述妊娠对象的所述健康或生理状况的治疗性干预。
175.根据权利要求174所述的方法,其中所述临床干预选自多个临床干预。
176.根据权利要求174所述的方法,其中所述治疗性干预至少部分基于所述健康或生理状况的分子亚型来选择,所述健康或生理状况是至少部分基于所述生物标志物集确定的。
177.根据权利要求174所述的方法,其中所述健康或生理状况包括先兆子痫。
178.根据权利要求177所述的方法,其中针对所述先兆子痫的所述治疗性干预包括药物、补充剂或生活方式建议。
179.根据权利要求178所述的方法,其中所述药物选自阿司匹林、黄体酮、硫酸镁、胆固醇药物、胃灼热药物、血管紧张素II受体拮抗剂、钙通道阻滞剂、糖尿病药物和勃起功能障碍药物。
180.根据权利要求178所述的方法,其中所述补充剂选自钙、维生素D、维生素B3和DHA。
181.根据权利要求178所述的方法,其中所述生活方式建议选自运动、营养咨询、冥想、缓解压力、减肥或维持体重以及改善睡眠质量。
182.根据权利要求174所述的方法,其中所述健康或生理状况包括早产。
183.根据权利要求182所述的方法,其中针对所述早产的所述治疗性干预包括药物、补充剂、生活方式建议、宫颈环扎、宫颈子宫托或电收缩抑制。
184.根据权利要求183所述的方法,其中所述药物选自黄体酮、红霉素、宫缩抑制药物、皮质类固醇、阴道菌群和抗氧化剂。
185.根据权利要求183所述的方法,其中所述补充剂选自钙、维生素D和益生菌。
186.根据权利要求183所述的方法,其中所述生活方式建议选自运动、营养咨询、冥想、缓解压力、减肥或维持体重以及改善睡眠质量。
187.根据权利要求174所述的方法,其中所述健康或生理状况包括妊娠期糖尿病(GDM)。
188.根据权利要求187所述的方法,其中针对所述GDM的所述治疗性干预包括药物、补充剂或生活方式建议。
189.根据权利要求188所述的方法,其中所述药物选自胰岛素和糖尿病药物。
190.根据权利要求188所述的方法,其中所述补充剂选自维生素D、胆碱、益生菌和DHA。
191.根据权利要求188所述的方法,其中所述生活方式建议选自运动、营养咨询、冥想、缓解压力、减肥或维持体重以及改善睡眠质量。
CN202180070336.3A 2020-08-13 2021-08-12 用于确定对象的妊娠相关状态的方法和系统 Pending CN116234929A (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US202063065130P 2020-08-13 2020-08-13
US63/065,130 2020-08-13
US202063132741P 2020-12-31 2020-12-31
US63/132,741 2020-12-31
US202163170151P 2021-04-02 2021-04-02
US63/170,151 2021-04-02
US202163172249P 2021-04-08 2021-04-08
US63/172,249 2021-04-08
PCT/US2021/045684 WO2022036053A2 (en) 2020-08-13 2021-08-12 Methods and systems for determining a pregnancy-related state of a subject

Publications (1)

Publication Number Publication Date
CN116234929A true CN116234929A (zh) 2023-06-06

Family

ID=80247389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180070336.3A Pending CN116234929A (zh) 2020-08-13 2021-08-12 用于确定对象的妊娠相关状态的方法和系统

Country Status (9)

Country Link
US (1) US20230332229A1 (zh)
EP (1) EP4196609A2 (zh)
JP (1) JP2023539817A (zh)
CN (1) CN116234929A (zh)
AU (1) AU2021324778A1 (zh)
CA (1) CA3188888A1 (zh)
GB (1) GB2614979A (zh)
MX (1) MX2023001781A (zh)
WO (1) WO2022036053A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116904587A (zh) * 2023-09-13 2023-10-20 天津云检医学检验所有限公司 一种用于预测早产的生物标志物组、预测模型及试剂盒

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11664100B2 (en) * 2021-08-17 2023-05-30 Birth Model, Inc. Predicting time to vaginal delivery
WO2023192224A1 (en) * 2022-03-28 2023-10-05 Natera, Inc. Predictive machine learning models for preeclampsia using artificial neural networks
WO2023247308A1 (en) * 2022-06-21 2023-12-28 Neopredix Ag Preeclampsia evolution prediction, method and system
CN115992235A (zh) * 2022-08-17 2023-04-21 四川大学华西医院 用于肝癌初筛和预后的检测试剂盒及用途
CN117747100B (zh) * 2023-12-11 2024-05-14 南方医科大学南方医院 一种预测阻塞性睡眠呼吸暂停发生风险的系统
CN117647653B (zh) * 2023-12-22 2024-05-07 广州医科大学附属第三医院(广州重症孕产妇救治中心、广州柔济医院) 一种与子痫前期相关的生物标志物及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11201505515XA (en) * 2012-01-27 2015-09-29 Univ Leland Stanford Junior Methods for profiling and quantitating cell-free rna

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116904587A (zh) * 2023-09-13 2023-10-20 天津云检医学检验所有限公司 一种用于预测早产的生物标志物组、预测模型及试剂盒
CN116904587B (zh) * 2023-09-13 2023-12-05 天津云检医学检验所有限公司 一种用于预测早产的生物标志物组、预测模型及试剂盒

Also Published As

Publication number Publication date
WO2022036053A2 (en) 2022-02-17
JP2023539817A (ja) 2023-09-20
CA3188888A1 (en) 2022-02-17
GB202303135D0 (en) 2023-04-19
GB2614979A (en) 2023-07-26
US20230332229A1 (en) 2023-10-19
MX2023001781A (es) 2023-04-26
EP4196609A2 (en) 2023-06-21
AU2021324778A1 (en) 2023-04-13
WO2022036053A3 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
US11851706B2 (en) Methods and systems for determining a pregnancy-related state of a subject
CN116234929A (zh) 用于确定对象的妊娠相关状态的方法和系统
US20210265061A1 (en) Methods and systems for determining risk of a pregnancy complication occurring
US10580516B2 (en) Systems and methods for determining the probability of a pregnancy at a selected point in time
US20170107573A1 (en) Methods and systems for assessing infertility as a result of declining ovarian reserve and function
EP3701043B1 (en) A noninvasive molecular clock for fetal development predicts gestational age and preterm delivery
Tarca et al. Maternal whole blood mRNA signatures identify women at risk of early preeclampsia: a longitudinal study
US20170351806A1 (en) Method for assessing fertility based on male and female genetic and phenotypic data
Camunas-Soler et al. Predictive RNA profiles for early and very early spontaneous preterm birth
CN113348367A (zh) 用于预测早产状况的方法、系统和试剂盒
US20230410957A1 (en) Methods and systems for conducting pregnancy-related clinical trials
WO2023081768A1 (en) Methods and systems for determining a pregnancy-related state of a subject
Care Using “Omics” to Discover Predictive Biomarkers in Women at High Risk of Spontaneous Preterm Birth
US20240150837A1 (en) Methods and systems for methylation profiling of pregnancy-related states
WO2024022738A1 (en) Methods for detection of embryo implantation failure of endometrial origen

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination