CN116323978A - 确定孕妇的孕期状态的方法 - Google Patents
确定孕妇的孕期状态的方法 Download PDFInfo
- Publication number
- CN116323978A CN116323978A CN202080106438.1A CN202080106438A CN116323978A CN 116323978 A CN116323978 A CN 116323978A CN 202080106438 A CN202080106438 A CN 202080106438A CN 116323978 A CN116323978 A CN 116323978A
- Authority
- CN
- China
- Prior art keywords
- pregnant woman
- gene
- premature
- genes
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000035935 pregnancy Effects 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 83
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 176
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 78
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 78
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 78
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000012163 sequencing technique Methods 0.000 claims abstract description 45
- 238000012360 testing method Methods 0.000 claims abstract description 31
- 210000005259 peripheral blood Anatomy 0.000 claims abstract description 28
- 239000011886 peripheral blood Substances 0.000 claims abstract description 28
- 230000008774 maternal effect Effects 0.000 claims abstract description 17
- 230000014509 gene expression Effects 0.000 claims description 69
- 208000005107 Premature Birth Diseases 0.000 claims description 52
- 206010036590 Premature baby Diseases 0.000 claims description 52
- 108700009124 Transcription Initiation Site Proteins 0.000 claims description 50
- 230000002028 premature Effects 0.000 claims description 41
- 238000001514 detection method Methods 0.000 claims description 25
- 238000007637 random forest analysis Methods 0.000 claims description 19
- 238000011144 upstream manufacturing Methods 0.000 claims description 17
- 208000006399 Premature Obstetric Labor Diseases 0.000 claims description 16
- 206010036600 Premature labour Diseases 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 16
- 208000026440 premature labor Diseases 0.000 claims description 16
- 239000012634 fragment Substances 0.000 claims description 15
- 238000000513 principal component analysis Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 230000035606 childbirth Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 230000001605 fetal effect Effects 0.000 abstract description 13
- 206010036595 Premature delivery Diseases 0.000 description 25
- 210000002381 plasma Anatomy 0.000 description 22
- 201000011461 pre-eclampsia Diseases 0.000 description 10
- 210000004369 blood Anatomy 0.000 description 8
- 239000008280 blood Substances 0.000 description 8
- 208000012113 pregnancy disease Diseases 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 206010028980 Neoplasm Diseases 0.000 description 5
- 208000002787 Pregnancy Complications Diseases 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 102000016359 Fibronectins Human genes 0.000 description 4
- 108010067306 Fibronectins Proteins 0.000 description 4
- 108010047956 Nucleosomes Proteins 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 210000001623 nucleosome Anatomy 0.000 description 4
- 238000010241 blood sampling Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 208000001362 Fetal Growth Retardation Diseases 0.000 description 2
- 206010070531 Foetal growth restriction Diseases 0.000 description 2
- 208000026350 Inborn Genetic disease Diseases 0.000 description 2
- 208000024556 Mendelian disease Diseases 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 241000283973 Oryctolagus cuniculus Species 0.000 description 2
- 241000700159 Rattus Species 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000007877 drug screening Methods 0.000 description 2
- 208000030941 fetal growth restriction Diseases 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000035790 physiological processes and functions Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- 102100031126 6-phosphogluconolactonase Human genes 0.000 description 1
- 102100025683 Alkaline phosphatase, tissue-nonspecific isozyme Human genes 0.000 description 1
- 201000010374 Down Syndrome Diseases 0.000 description 1
- 101001066181 Homo sapiens 6-phosphogluconolactonase Proteins 0.000 description 1
- 101000574445 Homo sapiens Alkaline phosphatase, tissue-nonspecific isozyme Proteins 0.000 description 1
- 101000882217 Homo sapiens Protein FAM50A Proteins 0.000 description 1
- 208000020584 Polyploidy Diseases 0.000 description 1
- 102100038926 Protein FAM50A Human genes 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000003756 cervix mucus Anatomy 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000001161 mammalian embryo Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 108091062489 miR-514a-1 stem-loop Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003793 prenatal diagnosis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000000472 traumatic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6809—Methods for determination or identification of nucleic acids involving differential detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6881—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Cell Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种构建预测模型的方法,该预测模型用于预测孕妇的孕期状态。方法包括:(1)构建训练集合及可选的测试集合,训练集合和可选的测试集合由多个孕妇样本组成,孕妇样本具有已知的孕期状态;(2)针对训练集合的每一个孕妇样本,确定孕妇样本的预定参数,预定参数包括孕妇样本的差异表达基因信息,差异表达基因信息通过计算孕妇样本外周血的胎儿游离核酸的测序信息获得;以及(3)基于已知的孕期状态和预定参数,构建所述预测模型。
Description
本发明涉及生物技术领域,具体地涉及确定孕妇的孕期状态的方法和装置以及相应的构建机器学习预测模型的方法和装置。
人体血浆游离DNA(cfDNA)自1948年被发现以来,迅速在产前诊断领域广泛应用起来,以孕妇血浆cfDNA数据为基础的无创产前诊断逐渐成为胎儿21三体综合征的重要筛查手段之一。但以孕妇血浆cfDNA数据为基础的应用多数集中在针对胎儿多倍体及拷贝数变异的检测上,至今仍未有基于孕妇cfDNA对妊娠期综合征进行检测的有效手段出现。
目前基于孕妇血浆中cfDNA对妊娠期综合征进行检测的方法仍待开发。
发明内容
本申请是基于发明人对以下事实和问题的发现和认识作出的:
迄今为止,临床上多数通过检测胎儿纤维连接蛋白(Fetal Fibronectin)在孕妇阴道分泌情况来预测先兆早产,但该方法仅为一种辅助手段,并不能作为最终诊断依据,目前临床上尚无有效的早产诊断方法。
临床上使用的胎儿纤维连接蛋白分子辅助诊断早产的方法,存在假阳性过高的问题,统计显示,通过胎儿纤维连接蛋白分子诊断为阳性的孕妇中,最终仅有不到3%的样本确诊出现早产情况,假阳性过高的问题使得此诊断方法备受质疑。
多项报道显示孕妇血浆中胎儿cfDNA浓度与早产,先兆子痫等多种孕期并发症存在一定相关性。有研究尝试以胎儿cfDNA浓度为标志物对早产进行预测,但最终因相关性不足而失败,至今尚无利用胎儿cfDNA浓度进行早产预测的有效方法。
此前报道的仅使用孕妇血浆胎儿cfDNA浓度单一因素作为早产预测的方法,存在相关性不足的问题,未能成功建立有效预测模型。
为此,在本发明的第一方面,本发明提出了一种构建预测模型的方法,所述预测模型用于预测孕妇的孕期状态。根据本发明的实施例,所述方法包括:(1)构建训练集合及可选的测试集合,所述训练集合和可选的测试集合由多个孕妇样本组成,所述孕妇样本具有已知的孕期状态;(2)针对所述训练集合的每一个所述孕妇样本,确定所述孕妇样本的预定参数,所述预定参数包括所述孕妇样本外周血中游离核酸的差异表达基因信息,所述差异表达基因信息通过计算所述孕妇样本外周血中游离核酸的测序信息获得;以及(3)基于所述已知的所述孕期状态和所述预定参数,构建所述预测模型。根据本发明实施例的方法利用多个孕妇样本一次采血所获取的游离核酸的差异表达基因信息和孕妇孕期状态(例如,早产、分娩孕周)构建针对孕妇孕期状态的预测模型。根据本发明实施例的方法利用孕妇外周血中游离核酸的差异表达基因进行孕期状态的预测,对于不同的孕期状态,如早产、先兆子痫等均可检测出不同的差异表达基因,可以有针对性地选择相应的差异基因,进而提高了模型预测的准确性,并且只需对孕妇进行一次采血及测序即可构建预测模型,本方法方便、快捷、准确性高。本方法适用于人及其他动物,如小鼠、大鼠、兔子等,便于利用本发明对孕期病症的治病机理、遗传性疾病的治病机理、药物筛选进行科学研究。
在本发明的第二方面,本发明提出了一种构建预测模型的系统,所述预测模型用于确定孕妇的孕期状态。根据本发明的实施例,所述系统包括:训练集合构建模块,所述训练集合和可选的测试集合由多个孕妇样本组成,所述孕妇样本具有已知的孕期状态;预定参数确定模块,所述预定参数确定模块与所述训练集合构建模块相连,针对所述训练集合的每一个所述孕妇样本,确定所述孕妇样本的预定参数,所述预定参数包括所述孕妇样本中游离核酸的差异表达基因信息,所述差异表达基因信息通过计算所述孕妇样本外周血的游离核酸的测序信息获得;以及预测模型构建模块,所述预测模型构建模块与所述预定参数确定模块相连,基于所述已知的所述孕期状态和所述预定参数,构建所述预测模型。根据本发明实施例的系统适于执行前面所述的构建预测模型的方法,利用孕妇外周血中游离核酸的差异表达基因进行孕期状态的预测,对于不同的孕期状态,如早产、先兆子痫等均可检测出不同的差异表达基因,可以有针对性地选择相应的差异基因,进而提高了模型预测的准确性,并且只需对孕妇进行一次采血及测序即可构建预测模型。
在本发明的第三方面,本发明提出了一种确定孕妇的孕期状态的方法。根据本发明的实施例,该方法包括:(1)确定所述孕妇的预定参数,所述预定参数包括所述孕妇的所述早产相关基因的表达预测信息,所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得;以及(2)基于所述预定参数和预测模型,所述预测模型是通过在本发明第一方面所提出的方法或在本发明第二方面所提出的系统构建的,确定所述孕妇的孕期状态。根据本发明实施例的方法可以实现对待检测孕妇一次采血即可对孕期状态进行预测,所述孕期状态包括早产概率、胎儿宫内生长迟缓、先兆子痫以及其他与孕妇血浆中游离核酸存在相关性的孕期并发症,本方法简单易行,不会影响孕妇的生活,检测准确,操作简单。方法适用于人及其他动物,如小鼠、大鼠、兔子等,便于利用本发明对孕期病症的治病机理、遗传性疾病的治病机理、药物筛选进行科学研究。
在本发明的第四方面,本发明提出了一种确定孕妇的孕期状态的装置。根据本发明的实施例,该装置包括:参数确定模块,用于确定所述孕妇的预定参数,所述预定参数包括所述孕妇的早产相关基因的表达预测信息,所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得;以及孕期状态确定模块,所述孕期状态确定模块与所述参数确定模块相连,基于所述预定参数和预测模型,所述预测模型是通过在本发明的第一方面所提出的方法或在本发明的第二方面所提出的系统构建的,确定所述孕妇的孕期状态。根据本发明实施例的装置适于执行前面所述的确定孕妇的孕期状态的方法,可以实现对待检测孕妇一次采血即可对孕期状态进行预测,所述孕期状态包括早产概率、胎儿宫内生长迟缓、先兆子痫以及其他与孕妇血浆中游离核酸存在相关性的孕期并发症。
在本发明的第五方面,本发明提出了一种计算机可读存储介质,其上存储有计算机程序。根据本发明的实施例,该程序被处理器执行实现前面所述用于构建预测模型的步骤。由此,可以有效地实施前面所述的构建预测模型的方法,从而能 够有效地构建预测模型,从而进一步可以利用该预测模型对未知的样本进行预测,以确定针对待检测孕妇的孕期状态。
在本发明的第六方面,本发明提出了一种电子设备,该设备包括前面所述计算机可读存储介质;以及一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的构建预测模型的方法的流程示意图;
图2为根据本发明实施例的获得差异表达基因信息的流程示意图;
图3为根据本发明实施例的从原始比对结果中将测序reads末端转换为cfDNA原始片段末端方法示意图;
图4为根据本发明实施例的构建预测模型的系统的示意图;
图5为根据本发明实施例的预定参数确定模块的示意图;
图6为根据本发明实施例的确定孕妇的孕期状态的方法的流程示意图;
图7为根据本发明实施例的确定孕妇的孕期状态的装置示意图;
图8为根据本发明实施例的早产预测模型训练集及测试集样本筛选流程;
图9为根据本发明实施例的PCA训练模型对测试数据集中早产及足月样本分类结果示意图。
发明详细描述
下面详细描述本发明的实施例,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
术语解释
如无特别说明,在本文中所使用的“第一”、“第二”、“第三”等类似术语均为用于描述方便而进行区分的目的,并不以任何目的暗示或者明示互相之间存在顺序或者重要性等差异,同时并不意味着由“第一”、“第二”、“第三”等类似术语所限定的内容仅有一种成分构成。
在本发明的第一方面,本发明提出了本发明提出了一种构建预测模型的方法,所述预测模型用于预测孕妇的孕期状态。根据本发明的实施例,参考图1,所述方法包括:S100,构建训练集合及可选的测试集合,所述训练集合和可选的测试集合由多个孕妇样本组成,所述孕妇样本具有已知的孕期状态;S200,针对所述训练集合的每一个所述孕妇样本,确定所述孕妇样本的预定参数,所述预定参数包括所述孕妇样本外周血中游离核酸的差异表达基因信息,所述差异表达基因信息通过计算所述孕妇样本外周血中游离核酸的测序信息获得;以及S300,基于所述已知的所述孕期状态和所述预定参数,构建所述预测模型。根据本发明的具体实施例,该方法为利用多个孕妇样本一次采血所获取的游离核酸的差异表达基因信息和孕妇孕期状态(例如,早产、分娩孕周)构建针对孕妇孕期状态的预测模型。选择已知孕期状态的孕妇(如早产或者足月生产)作为训练集合或者验证集合,所述训练集合用于模型的构建、相关系数的调整,所述验证集合用于模型准确性的验证,将所需孕妇样本的预定参数输入至模型中,得到预测结果,将预测结果与测试集合中对应孕妇样本的孕期状态比对,以便验证模型的准确性。在孕期内,抽取孕妇样本的外周血,以便获得孕妇样本外周血中游离核酸,对游离核酸进行测序得到游离核酸的序列信息,再对游离核酸的序列信息进行计算及比对,得到足月产妇与早产产妇血浆中游离核酸差异表达基因的信息,依据此信息进行模型构建。需要注意的是,在本发明的实施例中采用抽取孕妇外周血的方式获取孕妇血浆中游离核酸,对孕妇的创伤小,也可以采取其他方式获取孕妇血浆中游离核酸,孕妇血浆中的游离核酸可以为DNA,也可以为RNA,孕妇血浆中的游离核酸包括孕妇自己的游离核酸,也包括胎儿游离核酸,需要注意的是,胎儿游离核酸浓度也可以作为预定参数用于构建预测模型。
根据本发明的实施例,所述孕期状态包括所述孕妇的分娩区间。根据本发明实施例的方法,所述分娩区间不大于正常孕期则为早产,此外,所述方法也可应用于孕期肿瘤、先兆子痫等其他与核酸表达相关的孕期并发症。
根据本发明的实施例,所述孕妇样本包括早产孕妇样本和足月孕妇样本。根据本发明实施例的方法,分别选择多个早产孕妇样本及足月孕妇样本作为训练集和测试集,以便分别根据早产孕妇样本及足月孕妇样本血浆中游离核酸的差异表达基因构建早产预测模型。针对不同的预测类型,游离核酸差异表达基因也不相同;针对不同的样本数量,游离核酸差异表达基因也会有所差异。对于其他类型的预测,如孕期肿瘤、先兆子痫等,则选择对应的先兆子痫孕妇或具有孕期肿瘤的孕妇及正常孕妇作为样本,获取他们的游离核酸差异表达基因,构建相应的预测模型。在孕妇样本的选择上,扩大样本量有助于获得更加准确地差异表达基因,从而构建更加准确的预测模型。
根据本发明的实施例,所述取样孕周为15~22周。发明人发现,采血孕周在15到22周时孕妇血浆中游离核酸的差异表达基因与早产的相关性较强,不同的孕妇样本只需在孕期15~22周内采血一次,即可成为模型构建样本,避免了样本采集过程此种反复采血为孕妇样本带来的风险及成本。针对不同的采样孕周,所获得的游离核酸差异表达基因不同,对于不同类型的预测,所采用的最佳采血孕周也不相同。
根据本发明的实施例,所述预测模型为主成分分析和随机森林至少之一。根据本发明实施例的方法,预测模型为主成分分析或者随机森林。预测模型不局限于主成分分析模型和随机森林预测模型,任何可以对不同差异分布进行归纳的统计模型均可适用。
根据本发明实施例的方法,参考图2,所述差异表达基因信息通过以下步骤获得:S210,利用所述孕妇样本外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测全基因组范围内的基因表达情况;S220,针对每个所述基因转录起始位点的附近区,将所述早产孕妇样本和所述足月孕妇样本中每个碱基位点上所述游离核酸的覆盖深度进行显著性检测;和S230,利用所述显著性检测,选择显著性差异表达的基因作为早产相关基因,即选择p<0.05/(基因总数)的基因作为早产相关基因,以便构建测序模型。根据本发明的实施例,即:某基因的p值小于0.05除以基因总数的商,则该基因被判定为差异表达基因;p值的标准也可以为0.01除以基因总数的商,即:某基因的p值小于0.01除以基因总数的商,则 该基因被判定为差异表达基因。根据本发明的实施例,差异表达基因与孕妇样本数量、测序深度、预测类型(即预测目的)有关,不同的孕妇样本数量、不同的测序深度、不同的生理状态、不同的检测目的都会影响差异表达基因。差异表达基因的选择主要以构建模型时的测序结果及检测目的为依据进行选择,可以为一个基因,也可以为多个基因的组合。
根据本发明的具体实施例,针对每个样本,在全基因组范围内的每个基因的转录起始位点(TSSs)区附近,在每一个碱基位点上分别将比对至正链和负链的reads的末端数目对应转换为cfDNA原始片段末端数目,参考附图3。转换之后每个碱基位点上对应覆盖到的cfDNA片段末端总和即为该位点的reads起始数量(reads start count,RSC)。针对每个基因的TSS附近区,将早产即及足月样本每个碱基位点上的RSC值进行显著性检测(一般统计监测方法如秩和检测或T检测等均可),挑选显著性差异(p<0.05/基因总数)基因作为早产相关基因,用于后续预测模型的构建。除计算RSC值以外,也可使用其他计算方法来达到预测核小体分布的目的,进而利用孕妇血浆中游离核酸对应的核小体分布信息确定差异表达基因。如窗口保护值(windowed protection score,WPS)和相对覆盖度(relative coverage)两种方法:(1)窗口保护值:在全基因组范围内,设置一个kbp长的滑动窗口(对于100bp的双端测序reads,k=120),在每个滑动窗口内,WPS=(完整覆盖住此窗口的DNA片段个数–有一端在窗口内的reads个数),在确定出每个位点上WPS值的基础上,选取峰值位置(peak calls),即为预测所得核小体中心位置;(2)相对覆盖度:对于双端测序的cfDNA数据,可以直接通过将每一对配对的测序reads中间部分补齐的方式,来计算基因组上每个位点原始cfDNA片段的覆盖深度,即relative coverage,并最终将relative coverage与基因表达情况对应,从而对基因表达相关表型进行分析。
根据本发明的实施例,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100~1000个碱基范围内。根据本发明的实施例,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100,110,120,130,140,150,160,170,180,190,200,210,220,230,240,250,260,270,280,290,300,310,320,330,340,350,360,370,380,390,400,410,420,430,440,450,460,470,480,490,500,510,520,530,540,550,560,570,580,590,600,610,620,630,640,650,660,670,680,690,700,710,720,730,740,750,760,770,780,790,800,810,820,830,840,850,860,870,880,890,900,910,920,930,940,950,960,970,980,990,1000个碱基范围内。
根据本发明的实施例,所述S300进一步包括:S310,将所述训练集合和可选的验证集合中的所述孕妇样本数量、所述孕妇样本的孕期状态、所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度作为输入构建预测模型。
根据本发明的具体实施例,以孕妇血浆中游离核酸(cfDNA)测序数据为基础构建早产预测模型,具体步骤如下:(1)前期数据处理:所有用于模型训练及预测和验证的样本的原始下机数据(fq格式)完成质控后使用比对软件(如BWA中samse模式)将测序数据比对至人类参考染色体上;使用测序数据质控软件(如Picard)去除比对结果中的重复reads并计算重复率,使用变异检测算法(如GATK中碱基质量值纠正BQSR功能)完成比对结果的局部矫正:(2)单个样本TSSs区reads起始数量计算:针对每个样本,全基因组每个基因的转录起始位点(TSSs)区附近(以TSS上下游100bp,400bp,600bp,1kb等范围作为TSS附近区域均可),每一个碱基位点上分别将比对至正链和负链的reads的末端数目对应转换为cfDNA原始片段末端数目。转换之后每个碱基位点上对应覆盖到的cfDNA片段末端总和即为该位点的reads起始数量(reads start count,RSC);(3)挑选早产相关基因:针对每个基因的TSS附近区,将早产及足月样本每个碱基位点上的RSC值进行显著性检测(一般统计监测方法如秩和检测或T检测等均可),挑选显著性差异(p<0.05/基因总数)基因作为早产相关基因,用于后续预测模型的构建;(4)以TSSs区RSC值数据作为输入矩阵,建立早产预测模型:将用于模型训练的样本对应在(3)中所得早产相关基因TSSs区不同碱基位点上的RSC结果矩阵作为输入建立预测模型,即以n个样本对应m个早产相关基因的TSS上下游1kb区域上每个碱基位点计算RSC,则得到n×(m×2000)的RSC矩阵,利用R等统计软件进行主成分分析(Principal component analysis,PCA)或随机森林(Random Forest)等预测模型的训练,最终得到的结果即为预测模型。
根据本发明的实施例,所述早产相关基因包括选自表1所示基因至少之一。
表1:早产相关基因
根据本发明的实施例,早产相关基因与孕妇样本数量、测序深度有关,在利用不同数量的孕妇样本进行预测模型构建时,早产相关基因的种类和数量会有变化。
在本发明的第二方面,本发明提出了一种构建预测模型的系统,所述预测模型用于确定孕妇的孕期状态。根据本发明的实施例,参考图4,所述系统包括:训练集合构建模块100,所述训练集合和可选的测试集合由多个孕妇样本组成,所述孕妇样本具有已知的孕期状态;预定参数确定模块200,所述预定参数确定模块200与所述训练集合构建模块相连100,针对所述训练集合的每一个所述孕妇样本,确定所述孕妇样本的预定参数,所述预定参数包括所述孕妇样本血浆中游离核酸的差异表达基因信息,所述差异表达基因信息通过计算所述孕妇样本外周血中游离核酸的测序信息获得;以及预测模型构建模块300,所述预测模型构建模块300与所述预定参数确定模块200相连,基于所述已知的所述孕期状态和所述预定参数,构建所述预测模型。根据本发明的具体实施例,该系统适于执行上述构建预测模型的方法,其部分附加技术特征和技术效果与前面相同,在此不再赘述。
根据本发明的实施例,参考图5,所述预定参数确定模块进一步包括:基因表达情况确定单元210,利用所述孕妇样本外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测全基因组范围内的基因表达情况;基因表达差异显著性检测单元220,所述基因表达差异显著性检测单元220与所述基因表达情况确定单元210相连,针对每个所述基因转录起始位点的附近区,将所述早产孕妇样本和所述足月孕妇样本每个碱基位点上所述游离核酸的覆盖深度进行显著性检测;和早产相关基因选择单元230,所述早产相关基因选择单元230与所述基因表达差异显著性检测单元220相连,利用所述显著性检测,选择显著性差异的基因作为早产相关基因,即选择p<0.05/(基因总数)的基因作为早产相关基因,以便构建测序模型。根据本发明的实施例,某基因的p值小于0.05除以基因总数的商,则该基因被判定为差异表达基因;p值的标准也可以为0.01除以基因总数的商,即:某基因的p值小于0.01除以基因总数的商,则该基因被判定为差异表达基因。根据本发明的实施例,差异表达基因与孕妇样本数量、测序深度、预测类型(即预测目的)有关,不同的孕妇样本数量、不同的测序深度、不同的生理状态、不同的检测目的都会影响差异表达基因。差异表达基因的选择主要以构建模型时的测序结果及检测目的为依据进行选择,可以为一个基因,也可以为多个基因的组合。
根据本发明的实施例,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100~1000个碱基范围内。
根据本发明的实施例,所述预测模型构建模块300进一步包括:数据输入单元310,将所述训练集合和可选的验证集合中的所述孕妇样本数量、所述孕妇样本的孕期状态、所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度作为输入构建预测模型。
根据本发明的实施例,所述早产相关基因包括选自表1所示基因至少之一。
根据本发明的实施例,早产相关基因与孕妇样本数量、测序深度有关,在利用不同数量的孕妇样本进行预测模型构建时,早产相关基因的种类和数量会有变化。
在本发明的第三方面,本发明提出了一种确定孕妇的孕期状态的方法。根据本发明的实施例,参考图6,该方法包括:S1000,确定所述孕妇的预定参数,所述预定参数包括所述孕妇的所述早产相关基因的表达预测信息,所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得;以及S2000,基于所述预定参数和预测模型,确定所述孕妇的孕期状态,所述预测模型是通过本发明第一方面所提出的方法或本发明第二方面所提出的系统构建的。根据本发明实施例的方法,提取待检测孕妇血浆中的游离核酸并进行测序,依据在构建预测模型时得到的早产相关基因,对待测孕妇血浆中游离核酸的序列进行分析,得到早产相关基因的表达预测信息,将早产相关的表达信息输入预测模型中,即可预测孕妇是否会发生早产。对于其他类型的预测,如孕期肿瘤、先兆子痫等则使用对应的预测模型及预测模型相关基因进行预测。
根据本发明的实施例,所述孕期状态包括所述孕妇的分娩区间。根据本发明实施例的方法,所述分娩区间不大于正常孕期则为早产,此外,所述方法也可应用于孕期肿瘤、先兆子痫等其他与核酸表达相关的孕期并发症。
根据本发明的实施例,所述取样孕周为15~22周。发明人发现,采血孕周在15到22周时孕妇血浆中游离核酸的差异表达基因与早产的相关性较强,待检测孕妇只需在孕期15~22周内采血一次,即可完成早产预测,避免了样本采集过程此种反复采血为孕妇样本带来的风险及成本。针对不同的采样孕周,所获得的游离核酸差异表达基因不同,对于不同类型的预测,所采用的最佳采血孕周也不相同。
根据本发明的实施例,所述预测模型为主成分分析和随机森林至少之一。根据本发明实施例的方法,预测模型为主成 分分析或者随机森林。预测模型不局限于主成分分析模型和随机森林预测模型,任何可以对不同差异分布进行归纳的统计模型均可适用。
根据本发明的实施例,所述步骤S2000进一步包括:S2100,针对每个待测孕妇样本,将所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度输入至所述预测模型中,以便获得预测结果。
根据本发明的具体实施例,取待检测孕妇的游离核酸测序数据,针对每个核酸样本,均在早产相关基因的TSS区域内计算RSC值,将每个核酸样本的(m×2000)个RSC值作为输入,利用预测模型进行预测,将所得每个核酸样本的位置坐标(即RSC矩阵)对应至早产及足月区域,预测待测孕妇样本是否出现早产。
根据所述早产相关基因包括选自表1所示基因至少之一。
根据本发明的实施例,在构建预测模型时,早产相关基因与孕妇样本数量、测序深度有关,在利用不同数量的孕妇样本进行预测模型构建时,早产相关基因的种类和数量会有变化。在对待测孕妇进行检测时,以构建预测模型时得到的早产相关基因为依据进行预测。
在本发明的第四方面,本发明提出了一种确定孕妇的孕期状态的装置。根据本发明的实施例,参考图7,该装置包括:预定参数确定模块1000,用于确定所述孕妇的预定参数,所述预定参数包括所述孕妇的早产相关基因的表达预测信息,所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得;以及孕期状态确定模块2000,所述孕期状态确定模块2000与所述预定参数确定模块1000相连,基于所述预定参数和预测模型,确定所述孕妇的孕期状态,所述预测模型是通过本发明第一方面所提出的方法或本发明第二方面所提出的系统构建的。根据本发明实施例的装置适于执行上述确定孕妇的孕期状态的方法,其部分附加技术特征和技术效果与前面相同,在此不再赘述。
根据本发明的实施例,所述参数确定模块进一步包括:早产相关基因表达信息确定单元1100,利用所述孕妇外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测早产相关基因表达情况,所述早产相关基因是通过本发明第一方面所提出的方法或本发明第二方面所提出的系统确定的。
根据本发明的实施例,所述孕期状态确定模块进一步包括:数据输入单元2100,针对每个待测孕妇样本,将所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度输入至所述预测模型中,以便获得预测结果。
根据本发明的具体实施例,取待检测孕妇的游离核酸测序数据,针对每个核酸样本,均在早产相关基因的TSS区域内计算RSC值,将每个核酸样本的(m×2000)个RSC值作为输入,利用预测模型进行预测,将所得每个核酸样本的位置坐标(即RSC矩阵)对应至早产及足月区域,预测待测孕妇样本是否出现早产。
根据本发明的实施例,所述早产相关基因包括选自表1所示基因至少之一。
根据本发明的实施例,在构建预测模型时,早产相关基因与孕妇样本数量、测序深度有关,在利用不同数量的孕妇样本进行预测模型构建时,早产相关基因的种类和数量会有变化。在对待测孕妇进行检测时,以构建预测模型时得到的早产相关基因为依据进行预测。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品,例如可以采购自Illumina公司。
(1)从141432个无创产前诊断(NIPT)样本中,经过筛选,有临床信息且单胎样品共有73090例,其中早产有3358例。限定数据采血孕周在15-22孕周间,有2707例早产数据,将数据分为训练集数据1959例早产对应1959例足月,剩余360例早产,随时抽选7200例足月构成测试集数据。由此,最终确定用于早产预测模型训练数据集合共1959个早产样本及1959个足月样本,测试数据集合共360个早产样本及7200个足月样本,样本筛选流程参考附图8。
最终得到的训练集合及测试集合样本情况如表2所示。
表2:早产预测训练集及测试集样本情况汇总
(2)为保证核小体分布信号的准确性,本实施例将训练集及测试集中每10人随机聚合为一个数据点,最终从~0.1x的孕妇血浆cfDNA全基因组测序数据转换为~1x的cfDNA全基因组测序数据。为消除聚合带来的误差,此步骤随机重复20次,后续显著性差异基因挑选及预测模型的构建均以随机重复20次的数据集为基础平行进行。
(3)计算出上述训练集中早产及足月样本在全部基因TSSs区附近的RSC值,将早产及足月样本的RSC值进行秩和检测(Wilcox rank sum test),本实施例此步骤使用R统计软件wilcox检测包完成。最终从全部基因中选取差异性显著的基因作为后续模型训练的输入。此处考虑到重复检验的随机误差,全部38074个基因的显著差异挑选标准为
最终得到不同TSSs附近区(此处选取TSS上下游400bp作为TSS附近区)在早产及足月样本中RSC分布存在显著性差异的基因共计207个,207个基因每一轮次的秩和检验值如表3所示,20轮次交叉验证方法下每个基因在独立的20轮次分析中每一轮次TSS上下游400bp早产组和足月组两组间秩和检验后所得P-value值,如一个基因有超过60%(12/20)轮次的P-value低于阈值1.31e10
-6,即认为该基因是早产相关基因;基因所在的染色体编号、起始位置和终止位置如表1所示。
表3:207个基因每一轮次的秩和检验值
(4)在步骤(3)挑选出的显著性差异基因TSS附近区,将(2)中20轮聚合所得训练集样本即1959例早产样品数据以及1959例足月样品数据对应的RSC值矩阵分别作为输入数据,进行PCA及随机森林模型的训练,本实施例使用R统计软件中PCA及随机森林测试包完成模型的训练。将所得训练模型保存,用于最终早产的预测。
(5)将(2)所得测试集在步骤(3)所挑选出的显著性差异基因TSS区的RSC值作为输入,构成如表4的矩阵第一行是207个基因的名称,第二行至第N行代表早产组(case组)以及足月组(control组)每个样品对应基因TSS区域的RSC值。代入(4)中所构建的训练模型中,完成早产的预测,并与实际样本情况比较,得到预测模型准确性分别参见附图9(PCA模型预测结果)及表5(随机森林预测结果),通过图9可知,20轮次随机森林预测后PCA分组图中可见目前挑选的基因可以把两组很明显的分开。
表4:随机森林预测输入矩阵格式
Phe | ESPN | H6PD | ALPL | … | … | MIR514A1 | FAM50A | LOC100507404 |
Case1 | ESPN_RSC | H6PD_RSC | ALPL_RSC | … | … | MIR514A2_RSC | FAM51A_RSC | LOC100507405_RSC |
… | ESPN_RSC | H7PD_RSC | ALPL_RSC | … | … | MIR514A2_RSC | FAM51A_RSC | LOC100507406_RSC |
CaseN | ESPN_RSC | H8PD_RSC | ALPL_RSC | … | … | MIR514A2_RSC | FAM51A_RSC | LOC100507407_RSC |
Control1 | ESPN_RSC | H9PD_RSC | ALPL_RSC | … | … | MIR514A2_RSC | FAM51A_RSC | LOC100507408_RSC |
… | ESPN_RSC | H10PD_RSC | ALPL_RSC | … | … | MIR514A2_RSC | FAM51A_RSC | LOC100507409_RSC |
CntrolN | ESPN_RSC | H11PD_RSC | ALPL_RSC | … | … | MIR514A2_RSC | FAM51A_RSC | LOC100507410_RSC |
表5:测试组中预测早产准确性汇总
注:1.mtry为R中随机森林软件包中的参数,用于指定节点中用于二叉树的变量个数。
2.ntree为R中随机森林软件包中的参数,指定随机森林所包含的决策树数目。
调整随机森林函数参数(mtry和ntree),在测试组中预测早产准确性汇总,例如第一轮测试中,当mtry为140,ntree为700时候,预测早产与真实早产一致性为92%,当mtry为200,ntree为700时,预测早产与真实早产一致性为94%,当mtry为140,ntree为500时候,预测早产与真实早产一致性为92%,每一轮次以此类推,综合20轮次预测准确度来看,当参数设置mtry为200,ntree为700预测效果最好,平均为91%。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (34)
- 一种构建预测模型的方法,所述预测模型用于预测孕妇的孕期状态,其特征在于,包括:(1)构建训练集合及可选的测试集合,所述训练集合和可选的测试集合由多个孕妇样本组成,所述孕妇样本具有已知的孕期状态;(2)针对所述训练集合的每一个所述孕妇样本,确定所述孕妇样本的预定参数,所述预定参数包括所述孕妇样本外周血中游离核酸的差异表达基因信息,所述差异表达基因信息通过计算所述孕妇样本外周血中游离核酸的测序信息获得;以及(3)基于所述已知的所述孕期状态和所述预定参数,构建所述预测模型。
- 根据权利要求1所述的方法,其特征在于,所述孕期状态包括所述孕妇的分娩区间。
- 根据权利要求1所述的方法,其特征在于,所述孕妇样本包括早产孕妇样本和足月孕妇样本。
- 根据权利要求1所述的方法,其特征在于,取样孕周为15~22周。
- 根据权利要求1所述的方法,其特征在于,所述预测模型包括选自主成分分析和随机森林至少之一。
- 根据权利要求1所述的方法,其特征在于,所述差异表达基因信息通过以下步骤获得:(a)利用所述孕妇样本外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测全基因组范围内的基因表达情况;(b)针对每个所述基因转录起始位点的附近区,将所述早产孕妇样本和所述足月孕妇样本中每个碱基位点上所述游离核酸的覆盖深度进行显著性检测;和(c)利用所述显著性检测,选择显著性差异表达的基因作为早产相关基因,以便构建测序模型;任选地,所述显著性差异表达的基因是指p<0.05/(基因总数)的基因。
- 根据权利要求6所述的方法,其特征在于,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100~1000个碱基范围内;任选地,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100个碱基;任选地,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各400个碱基;任选地,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各600个碱基;任选地,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各1000个碱基。
- 根据权利要求1所述的方法,其特征在于,所述步骤(3)进一步包括:将所述训练集合和可选的验证集合中的所述孕妇样本数量、所述孕妇样本的孕期状态、所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度作为输入构建预测模型。
- 根据权利要求1所述的方法,其特征在于,所述早产相关基因包括选自表1所示基因至少之一。
- 一种构建预测模型的系统,其特征在于,所述预测模型用于确定孕妇的孕期状态,包括:训练集合构建模块,所述训练集合和可选的测试集合由多个孕妇样本组成,所述孕妇样本具有已知的孕期状态;预定参数确定模块,所述预定参数确定模块与所述训练集合构建模块相连,针对所述训练集合的每一个所述孕妇样本,确定所述孕妇样本的预定参数,所述预定参数包括所述孕妇样本血浆中游离核酸的差异表达基因信息,所述差异表达基因信息通过计算所述孕妇样本外周血中游离核酸的测序信息获得;以及预测模型构建模块,所述预测模型构建模块与所述预定参数确定模块相连,基于所述已知的所述孕期状态和所述预定参数,构建所述预测模型。
- 根据权利要求10所述的系统,其特征在于,所述孕期状态包括所述孕妇的分娩区间。
- 根据权利要求10所述的系统,其特征在于,所述孕妇样本包括早产孕妇样本和足月孕妇样本。
- 根据权利要求10所述的系统,其特征在于,取样孕周为15~22周。
- 根据权利要求10所述的系统,其特征在于,所述预测模型为主成分分析和随机森林至少之一。
- 根据权利要求10所述的系统,其特征在于,所述预定参数确定模块进一步包括:基因表达情况确定单元,利用所述孕妇样本外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测全基因组范围内的基因表达情况;基因表达差异显著性检测单元,所述基因表达差异显著性检测单元与所述基因表达情况确定单元相连,针对每个所述基因转录起始位点的附近区,将所述早产孕妇样本和所述足月孕妇样本每个碱基位点上所述游离核酸的覆盖深度进行显著性检测;和早产相关基因选择单元,所述早产相关基因选择单元与所述基因表达差异显著性检测单元相连,利用所述显著性检测,选择显著性差异的基因作为早产相关基因,以便构建测序模型;任选地,所述显著性差异表达的基因是指p<0.05/(基因总数)的基因。
- 根据权利要求15所述的系统,其特征在于,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100~1000个碱基范围内;任选地,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各100个碱基;任选地,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各400个碱基;任选地,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各600个碱基;任选地,所述附近区为所述转录起始位点及所述转录起始位点的上游和下游各1000个碱基。
- 根据权利要求10所述的系统,其特征在于,所述预测模型构建模块进一步包括:数据输入单元,将所述训练集合和可选的验证集合中的所述孕妇样本数量、所述孕妇样本的孕期状态、所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度作为输入构建预测模型。
- 根据权利要求15所述的系统,其特征在于,所述早产相关基因包括选自表1所示基因至少之一。
- 一种确定孕妇的孕期状态的方法,其特征在于,包括:(A)确定所述孕妇的预定参数,所述预定参数包括所述孕妇的所述早产相关基因的表达预测信息,所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得;以及(B)基于所述预定参数和预测模型,确定所述孕妇的孕期状态,所述预测模型是通过权利要求1~9任一项所述的方法或权利要求10~18任一项所述的系统构建的。
- 根据权利要求19所述的方法,其特征在于,所述孕期状态包括所述孕妇的分娩区间。
- 根据权利要求19所述的方法,其特征在于,取样孕周为15~22周。
- 根据权利要求19所述的方法,其特征在于,所述预测模型为主成分分析和随机森林至少之一。
- 根据权利要求19所述的方法,其特征在于,所述早产相关基因的表达预测信息通过以下方法获得:利用所述孕妇外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测早产相关基因表达情况,所述早产相关基因是通过权利要求1~9任一项所述的方法或权利要求10~18任一项所述的系统确定的。
- 根据权利要求19所述的方法,其特征在于,所述步骤(B)进一步包括:针对每个待测孕妇样本,将所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度输入至所述预测模型中,以便获得预测结果。
- 根据权利要求23所述的方法,其特征在于,所述早产相关基因包括选自表1所示基因至少之一。
- 一种确定孕妇的孕期状态的装置,其特征在于,包括:参数确定模块,用于确定所述孕妇的预定参数,所述预定参数包括所述孕妇的早产相关基因的表达预测信息,所述早产相关基因的表达预测信息通过计算所述孕妇外周血中游离核酸的测序信息获得;以及孕期状态确定模块,所述孕期状态确定模块与所述参数确定模块相连,基于所述预定参数和预测模型,确定所述孕妇的孕期状态,所述预测模型是通过权利要求1~9任一项所述的方法或权利要求10~18任一项所述的系统构建的。
- 根据权利要求26所述的装置,其特征在于,所述孕期状态包括所述孕妇的分娩区间。
- 根据权利要求26所述的装置,其特征在于,取样孕周为15~22周。
- 根据权利要求26所述的装置,其特征在于,所述预测模型为主成分分析和随机森林至少之一。
- 根据权利要求26所述的装置,其特征在于,所述参数确定模块进一步包括:早产相关基因表达信息确定单元,利用所述孕妇外周血中游离核酸在基因转录起始位点的测序读段覆盖深度预测早产相关基因表达情况,所述早产相关基因是通过权利要求1~9任一项所述的方法或权利要求10~18任一项所述的系统确定的。
- 根据权利要求26所述的装置,其特征在于,所述孕期状态确定模块进一步包括:数据输入单元,针对每个待测孕妇样本,将所述早产相关基因数量、所述附近区的片段长度和所述早产相关基因转录起始位点附近区每个碱基位点上的所述游离核酸的覆盖深度输入至所述预测模型中,以便获得预测结果。
- 根据权利要求30所述的装置,其特征在于,所述早产相关基因包括选自表1所示基因至少之一。
- 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~9或权利要求19~25中任一项所述方法的步骤。
- 一种电子设备,其特征在于,包括:权利要求33中所述的计算机可读存储介质;以及一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2020/122214 WO2022082436A1 (zh) | 2020-10-20 | 2020-10-20 | 确定孕妇的孕期状态的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116323978A true CN116323978A (zh) | 2023-06-23 |
Family
ID=81291283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080106438.1A Pending CN116323978A (zh) | 2020-10-20 | 2020-10-20 | 确定孕妇的孕期状态的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230386607A1 (zh) |
CN (1) | CN116323978A (zh) |
WO (1) | WO2022082436A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2955367C (en) * | 2014-07-18 | 2021-11-30 | Illumina, Inc. | Non-invasive prenatal diagnosis of fetal genetic condition using cellular dna and cell free dna |
JP7319553B2 (ja) * | 2017-10-23 | 2023-08-02 | シーゼット・バイオハブ・エスエフ・リミテッド・ライアビリティ・カンパニー | 在胎週数および早産を予測する胎児発達のための非侵襲的分子時計 |
AU2019244115A1 (en) * | 2018-03-30 | 2020-11-19 | Juno Diagnostics, Inc. | Deep learning-based methods, devices, and systems for prenatal testing |
KR102605749B1 (ko) * | 2018-05-25 | 2023-11-23 | 일루미나, 인코포레이티드 | 자간전증에 특이적인 순환 rna 시그니처 |
MX2020014095A (es) * | 2019-01-24 | 2021-03-09 | Illumina Inc | Metodos y sistemas para monitorear la salud y enfermedad de organos. |
-
2020
- 2020-10-20 WO PCT/CN2020/122214 patent/WO2022082436A1/zh active Application Filing
- 2020-10-20 CN CN202080106438.1A patent/CN116323978A/zh active Pending
- 2020-10-20 US US18/032,661 patent/US20230386607A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022082436A1 (zh) | 2022-04-28 |
US20230386607A1 (en) | 2023-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573125B (zh) | 一种基因组拷贝数变异的检测方法及包含该方法的装置 | |
CN110846411B (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
CN109767810A (zh) | 高通量测序数据分析方法及装置 | |
WO2022170909A1 (zh) | 药物敏感预测方法、电子设备及计算机可读存储介质 | |
JP2015506684A (ja) | ゲノムのコピー数変異の有無を判断する方法、システム及びコンピューター読み取り可能な記憶媒体 | |
WO2018161245A1 (zh) | 一种染色体变异的检测方法及装置 | |
KR20230110615A (ko) | 태아 염색체 이상을 검출하는 방법 및 시스템 | |
CN107463797B (zh) | 高通量测序的生物信息分析方法及装置、设备及存储介质 | |
CN113053535A (zh) | 一种医疗信息预测系统及医疗信息预测方法 | |
KR101678962B1 (ko) | 대규모 병렬형 게놈서열분석 방법을 이용한 비침습적 산전검사 장치 및 방법 | |
CN110191964A (zh) | 确定生物样本中预定来源的游离核酸比例的方法及装置 | |
CN110580934B (zh) | 一种基于外周血游离dna高通量测序的妊娠期相关疾病预测方法 | |
US20140236621A1 (en) | Method for determining a predictive function for discriminating patients according to their disease activity status | |
CN114038507A (zh) | 预测方法、预测模型的训练方法及相关装置 | |
CN116323978A (zh) | 确定孕妇的孕期状态的方法 | |
CN117275585A (zh) | 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备 | |
CN117095745A (zh) | 用于检测孕妇血浆游离dna中胎儿非整倍体和拷贝数变异的方法和装置及应用 | |
US20230115196A1 (en) | Method for determining pregnancy status of pregnant woman | |
CN108229099B (zh) | 数据处理方法、装置、存储介质及处理器 | |
CN116525108A (zh) | 基于snp数据的预测方法、装置、设备及存储介质 | |
KR101618032B1 (ko) | 비침습적 태아 염색체 이상 검출방법 | |
CN110970089B (zh) | 胎儿浓度计算的预处理方法、预处理装置及其应用 | |
CN117577182B (zh) | 一种快速识别药物标识位点的系统及其应用 | |
CN114822682B (zh) | 与早发型重度子痫前期发生相关的基因组合及其应用 | |
EP4297037A1 (en) | Device for determining an indicator of presence of hrd in a genome of a subject |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |