CN114592074A - 一种与胎龄相关的靶标基因组合及其应用 - Google Patents
一种与胎龄相关的靶标基因组合及其应用 Download PDFInfo
- Publication number
- CN114592074A CN114592074A CN202210381682.XA CN202210381682A CN114592074A CN 114592074 A CN114592074 A CN 114592074A CN 202210381682 A CN202210381682 A CN 202210381682A CN 114592074 A CN114592074 A CN 114592074A
- Authority
- CN
- China
- Prior art keywords
- gene
- gestational age
- depth
- predicting
- ptss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 111
- 108700009124 Transcription Initiation Site Proteins 0.000 claims abstract description 75
- 108020004414 DNA Proteins 0.000 claims abstract description 19
- 238000010801 machine learning Methods 0.000 claims abstract description 15
- -1 OMP Proteins 0.000 claims abstract description 10
- 102100032197 Alpha-crystallin A chain Human genes 0.000 claims abstract description 3
- 102100025279 C-X-C motif chemokine 11 Human genes 0.000 claims abstract description 3
- 102100034800 CCAAT/enhancer-binding protein epsilon Human genes 0.000 claims abstract description 3
- 102100038254 Cyclin-F Human genes 0.000 claims abstract description 3
- 102100040991 Fibronectin type III domain-containing protein 10 Human genes 0.000 claims abstract description 3
- 102100026116 Follicular dendritic cell secreted peptide Human genes 0.000 claims abstract description 3
- 102100040837 Galactoside alpha-(1,2)-fucosyltransferase 2 Human genes 0.000 claims abstract description 3
- 102100025565 Glutamate-rich protein 4 Human genes 0.000 claims abstract description 3
- 102000049982 HMGA2 Human genes 0.000 claims abstract description 3
- 108700039143 HMGA2 Proteins 0.000 claims abstract description 3
- 101150073387 Hmga2 gene Proteins 0.000 claims abstract description 3
- 101000920937 Homo sapiens Alpha-crystallin A chain Proteins 0.000 claims abstract description 3
- 101000858060 Homo sapiens C-X-C motif chemokine 11 Proteins 0.000 claims abstract description 3
- 101000945969 Homo sapiens CCAAT/enhancer-binding protein epsilon Proteins 0.000 claims abstract description 3
- 101000884183 Homo sapiens Cyclin-F Proteins 0.000 claims abstract description 3
- 101000892776 Homo sapiens Fibronectin type III domain-containing protein 10 Proteins 0.000 claims abstract description 3
- 101000912993 Homo sapiens Follicular dendritic cell secreted peptide Proteins 0.000 claims abstract description 3
- 101000893710 Homo sapiens Galactoside alpha-(1,2)-fucosyltransferase 2 Proteins 0.000 claims abstract description 3
- 101001056886 Homo sapiens Glutamate-rich protein 4 Proteins 0.000 claims abstract description 3
- 101001007022 Homo sapiens Keratin, type I cuticular Ha6 Proteins 0.000 claims abstract description 3
- 101001015220 Homo sapiens Myelin-associated oligodendrocyte basic protein Proteins 0.000 claims abstract description 3
- 101000978541 Homo sapiens Noelin-2 Proteins 0.000 claims abstract description 3
- 101001122126 Homo sapiens Olfactory receptor 12D2 Proteins 0.000 claims abstract description 3
- 101000755630 Homo sapiens Peripheral-type benzodiazepine receptor-associated protein 1 Proteins 0.000 claims abstract description 3
- 101001014654 Homo sapiens Probable G-protein coupled receptor 171 Proteins 0.000 claims abstract description 3
- 101000639987 Homo sapiens Stearoyl-CoA desaturase 5 Proteins 0.000 claims abstract description 3
- 101000767511 Homo sapiens Uncharacterized protein C13orf46 Proteins 0.000 claims abstract description 3
- 102100028341 Keratin, type I cuticular Ha6 Human genes 0.000 claims abstract description 3
- 102100030658 Lipase member H Human genes 0.000 claims abstract description 3
- 101710102454 Lipase member H Proteins 0.000 claims abstract description 3
- 102100032977 Myelin-associated oligodendrocyte basic protein Human genes 0.000 claims abstract description 3
- 102100023729 Noelin-2 Human genes 0.000 claims abstract description 3
- 102100027089 Olfactory receptor 12D2 Human genes 0.000 claims abstract description 3
- 102100022369 Peripheral-type benzodiazepine receptor-associated protein 1 Human genes 0.000 claims abstract description 3
- 102100032555 Probable G-protein coupled receptor 171 Human genes 0.000 claims abstract description 3
- 102100033930 Stearoyl-CoA desaturase 5 Human genes 0.000 claims abstract description 3
- 102100028566 Uncharacterized protein C13orf46 Human genes 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 23
- 238000012216 screening Methods 0.000 claims description 19
- 238000012165 high-throughput sequencing Methods 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 9
- 210000000349 chromosome Anatomy 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims description 6
- 230000001605 fetal effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011144 upstream manufacturing Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 3
- 102100025953 Cathepsin F Human genes 0.000 claims description 2
- 102100025566 Chymotrypsin-like protease CTRL-1 Human genes 0.000 claims description 2
- 102100036242 HLA class II histocompatibility antigen, DQ alpha 2 chain Human genes 0.000 claims description 2
- 108010081606 HLA-DQA2 antigen Proteins 0.000 claims description 2
- 101000933218 Homo sapiens Cathepsin F Proteins 0.000 claims description 2
- 101000856199 Homo sapiens Chymotrypsin-like protease CTRL-1 Proteins 0.000 claims description 2
- 101001109501 Homo sapiens NKG2-D type II integral membrane protein Proteins 0.000 claims description 2
- 101000615538 Homo sapiens Nuclear protein MDM1 Proteins 0.000 claims description 2
- 101000586093 Homo sapiens Olfactory receptor 1B1 Proteins 0.000 claims description 2
- 101001129851 Homo sapiens Paired immunoglobulin-like type 2 receptor alpha Proteins 0.000 claims description 2
- 101000997292 Homo sapiens Potassium voltage-gated channel subfamily B member 1 Proteins 0.000 claims description 2
- 101000741719 Homo sapiens Proline-rich protein 25 Proteins 0.000 claims description 2
- 101000978234 Homo sapiens Putative coiled-coil domain-containing protein 196 Proteins 0.000 claims description 2
- 101000674727 Homo sapiens Trace amine-associated receptor 9 Proteins 0.000 claims description 2
- 101000637853 Homo sapiens Transmembrane protease serine 11F Proteins 0.000 claims description 2
- 101000744924 Homo sapiens Zinc finger protein 506 Proteins 0.000 claims description 2
- 101000785680 Homo sapiens Zinc finger protein 512 Proteins 0.000 claims description 2
- 101000785590 Homo sapiens Zinc finger protein 880 Proteins 0.000 claims description 2
- 101150097381 Mtor gene Proteins 0.000 claims description 2
- 102100022680 NKG2-D type II integral membrane protein Human genes 0.000 claims description 2
- 102100021278 Nuclear protein MDM1 Human genes 0.000 claims description 2
- 102100030025 Olfactory receptor 1B1 Human genes 0.000 claims description 2
- 102100031651 Paired immunoglobulin-like type 2 receptor alpha Human genes 0.000 claims description 2
- 102100034310 Potassium voltage-gated channel subfamily B member 1 Human genes 0.000 claims description 2
- 102100038772 Proline-rich protein 25 Human genes 0.000 claims description 2
- 102100023756 Putative coiled-coil domain-containing protein 196 Human genes 0.000 claims description 2
- 102100023085 Serine/threonine-protein kinase mTOR Human genes 0.000 claims description 2
- 102100021226 Trace amine-associated receptor 9 Human genes 0.000 claims description 2
- 102100032006 Transmembrane protease serine 11F Human genes 0.000 claims description 2
- 102100039960 Zinc finger protein 506 Human genes 0.000 claims description 2
- 102100026524 Zinc finger protein 512 Human genes 0.000 claims description 2
- 102100026472 Zinc finger protein 880 Human genes 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 210000003754 fetus Anatomy 0.000 abstract description 13
- 210000005259 peripheral blood Anatomy 0.000 abstract description 7
- 239000011886 peripheral blood Substances 0.000 abstract description 7
- 238000012937 correction Methods 0.000 abstract description 4
- 238000000265 homogenisation Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 230000035935 pregnancy Effects 0.000 description 27
- 230000005906 menstruation Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000005259 measurement Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000001638 cerebellum Anatomy 0.000 description 2
- 230000002490 cerebral effect Effects 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 201000010374 Down Syndrome Diseases 0.000 description 1
- 206010058314 Dysplasia Diseases 0.000 description 1
- 102100039215 Guanine nucleotide-binding protein G(t) subunit alpha-3 Human genes 0.000 description 1
- 101000888145 Homo sapiens Guanine nucleotide-binding protein G(t) subunit alpha-3 Proteins 0.000 description 1
- 101001023768 Homo sapiens Nuclear factor related to kappa-B-binding protein Proteins 0.000 description 1
- 206010027339 Menstruation irregular Diseases 0.000 description 1
- 102100035397 Nuclear factor related to kappa-B-binding protein Human genes 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000005821 brain abnormality Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 229940124558 contraceptive agent Drugs 0.000 description 1
- 239000003433 contraceptive agent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008175 fetal development Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000005305 organ development Effects 0.000 description 1
- 230000027758 ovulation cycle Effects 0.000 description 1
- 230000001936 parietal effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/166—Oligonucleotides used as internal standards, controls or normalisation probes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Organic Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biochemistry (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明公开一种与胎龄相关的靶标基因组合及其应用。本发明基于所述靶标基因组合包括TSPOAP1、CRYAA、CXCL11、FNDC10、HMGA2、FDCSP、OLFM2、KRT36、C13orf46、SCD5、OR12D2、OMP、CEBPE、MOBP、CCNF、FUT2、LIPH、ERICH4和GPR171等。本发明发现外周血游离DNA在某些基因转录起始位点区域的分布情况能够反映不同孕周,对游离DNA转录起始位点区域特征进行均一化校正后,使用机器学习算法,构建的预测模型能够有效地预测胎儿的胎龄。
Description
技术领域
本发明属于生物技术领域,涉及一种与胎龄相关的靶标基因组合及其应用。
背景技术
胎龄指从卵细胞和精子结合成受精卵到胎儿自母体中分娩出来的这段时间,以周为基本单位。准确确定胎龄在临床中具有重要意义:一、决定是否对早产进行管理延迟其分娩时间以及是否对超过预产期的孕妇进行引产依赖于准确的孕周;二、唐氏综合症筛查的改进依赖于准确的孕周;三、准确的胎龄有利于使用超声或MRI技术监测正常胎儿发育(器官发育图)状态;四、准确的胎龄对区分照顾生长受限的婴儿(按时出生)和早产儿也很重要。
目前,有两种主要的方法在产前确定胎龄:末次月经和超声测量,根据末次月经方法,人类受孕发生在末次月经后14天左右,从末次月经第一天算起,妊娠期为40周;超声测量在妊娠早期(妊娠14周内)测量胎儿头尾长度,其测量准确性在5天的误差内;在妊娠中期或晚期,通过使用多种计量参数:头的双顶骨直径、头围、腹围和股骨长度来确定胎儿的胎龄。末次月经的局限性是:1)孕妇并不总是准确的记得末次月经的日期,2)某些女性月经周期不规律的,3)受孕并不总是在末次月经后的14天发生,4)它不能用于在末次月经前3个月内服用避孕药或母乳喂养的孕妇,当末次月经的日期不能准确确定的情况下,使用末次月经的方法会造成胎儿发育阶段和末次月经基础胎龄之间的不匹配。如果使用超声测量在孕中晚期确定怀孕日期,则需要通过多种生物计量参数,并且孕中期计算胎龄的误差在7-10天,孕晚期在21-30天,因此在孕中晚期使用则不太准确,孕中期之后可以使用超声测量小脑长度来额外确定怀孕日期,但它需要由专门的超声医生对小脑进行良好的可视化,此外头部和小脑测量的局限性是,它们可能会受到大脑异常的影响,因此可能不适合在大脑发育异常的胎儿中确定胎龄,如CN104376191A公开一种预测胎龄的方法,包括以下步骤:建立胎儿的各种物理参数与胎龄的对应关系的胎龄估测表,其中对该表按照区域和/或胎儿母亲的孕前体重进行细分;获取胎儿的物理参数;根据物理参数和胎龄估测表估测得到胎龄。
综上所述,开发一种更精确的方法来测量妊娠各个时间点的胎儿的胎龄,对于妊娠管理具有重要意义。
发明内容
针对现有技术的不足和实际需求,为解决胎龄确定过程中末次月经记录不准确以及超声测量过程中在孕中晚期需要较高技术人员对胎儿小脑进行可视化的问题,本发明提供一种与胎龄相关的靶标基因组合及其应用,利用所述靶标基因组合结合特殊设计的分析策略构建预测模型,能够有效预测胎龄,提供一种相对无创、经济方便且具备高准确性的预测胎龄的方法。
为达上述目的,本发明采用以下技术方案:
第一方面,本发明提供一种与胎龄相关的靶标基因组合,所述靶标基因组合包括TSPOAP1、CRYAA、CXCL11、FNDC10、HMGA2、FDCSP、OLFM2、KRT36、C13orf46、SCD5、OR12D2、OMP、CEBPE、MOBP、CCNF、FUT2、LIPH、ERICH4、GPR171、CCDC196、SCGB3A2、ZNF512、PRR25、ZNF880、PILRA、CTRL、OR1B1、HLA-DQA2、PMCH、CTSF、NFRKB、GNAT3、KLRK1、MDM1、MTOR、TMPRSS11F、TAAR9、ZNF506、CGA、KCNB1和RAD1。
本发明对外周血游离DNA进行深入分析,发现外周血游离DNA在某些基因转录起始位点区域(Transcript Start Site,TSS)的分布情况能够反应不同孕周,并筛选一种与胎龄相关的靶标基因组合,可有效作为预测胎龄的标志物。
第二方面,本发明提供第一方面所述的与胎龄相关的靶标基因组合在作为预测胎龄的标志物方面的应用。
第三方面,本发明提供第一方面所述的与胎龄相关的靶标基因组合在制备预测胎龄的产品中的应用。
第四方面,本发明提供一种预测胎龄的方法,所述方法包括以下步骤:
(1)获取样本每个基因的转录起始位点区域覆盖情况;
(2)筛选预测胎龄的特征基因;
(3)构建预测胎龄的模型;
(4)利用预测胎龄的模型计算胎龄;
所述特征基因为第一方面所述的与胎龄相关的靶标基因组合。
本发明基于外周血游离DNA高通量测序中基因转录起始位点及附近区域特征,对游离DNA转录起始位点特征进行均一化校正后,利用与胎龄相关的靶标基因组合,使用机器学习方法构建预测模型。
优选地,步骤(1)包括:
(1-1)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(1-2)对比对的结果进行去重复;
(1-3)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth;
(1-4)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSi normalized=pTSSi depth/total pTSSdepth×106 公式(1)
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和。
优选地,所述样本包括血浆游离DNA。
优选地,所述转录起始位点区域的大小为转录起始位点上下游0.5~5kb包括但不限于0.6kb、0.7kb、0.8kb、0.9kb、1kb、2kb、3kb、4kb、4.2kb、4.3kb、4.5kb、4.6kb、4.8kb或4.9kb。
优选地,步骤(2)包括:
(2-1)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2-2)使用最小绝对值收敛和选择算子对步骤(2-1)获得差异基因进行筛选,得到预测模型的特征基因。
优选地,步骤(3)包括:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型。
优选地,所述机器学习方法为bridge模型。
优选地,步骤(3)还包括使用10次交叉验证的方法对模型参数进行优化。
优选地,步骤(4)包括将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
本发明中,预测模型使用R语言caret包进行构建,其中trainx为训练集样本中上述41个基因的pTSSi normalized,trainy为训练集样本的孕周,代码为:
第五方面,本发明提供一种用于预测胎龄的系统,所述用于预测胎龄的系统包括:
样本分析模块:获取样本每个基因的转录起始位点区域覆盖情况;
筛选特征模块:筛选预测胎龄的特征基因;
构建模型模块:构建预测胎龄的模型;
计算模块:利用预测胎龄的模型计算胎龄;
所述特征基因为第一方面所述的与胎龄相关的靶标基因组合。
优选地,所述样本分析模块用于进行包括如下的操作:
(1’)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(2’)对比对的结果进行去重复;
(3’)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth;
(4’)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSi normalized=pTSSi depth/total pTSSdepth×106 公式(1);
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和。
优选地,所述样本包括血浆游离DNA。
优选地,所述转录起始位点区域的大小为转录起始位点上下游0.5~5kb,包括但不限于0.6kb、0.7kb、0.8kb、0.9kb、1kb、2kb、3kb、4kb、4.2kb、4.3kb、4.5kb、4.6kb、4.8kb或4.9kb。
优选地,所述筛选特征模块用于进行包括如下的操作:
(1”)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2”)使用最小绝对值收敛和选择算子对(1”)差异基因进行筛选,得到预测模型的特征基因。
优选地,所述构建模型模块用于进行包括如下的操作:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型。
优选地,所述机器学习方法为bridge模型。
优选地,所述计算模块用于进行包括如下的操作:
将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
作为优选的技术方案,所述用于预测胎龄的系统包括:
样本分析模块,用于进行包括如下的操作:
(1’)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(2’)对比对的结果进行去重复;
(3’)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth;
(4’)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSi normalized=pTSSi depth/total pTSSdepth×106 公式(1);
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和;
筛选特征模块,用于进行包括如下的操作:
(1”)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2”)使用最小绝对值收敛和选择算子对(1”)差异基因进行筛选,得到预测模型的特征基因;
构建模型模块,用于进行包括如下的操作:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型;
计算模块,用于进行包括如下的操作:
将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
与现有技术相比本发明具有以下有益效果:
(1)本发明筛选一种与胎龄相关的靶标基因组合,基因组合的转录起始位点特征能够反映不同孕周,可有效作为预测胎龄的标志物;
(2)本发明对游离DNA转录起始位点特征进行均一化校正后,利用与胎龄相关的靶标基因组合,使用机器学习方法构建预测模型,能够有效预测胎儿的胎龄,提供了一种相对无创、经济方便的孕期胎龄预测方法。
附图说明
图1为本发明分析流程图;
图2为使用Lasso算法筛选得到的最终特征值及其系数图;
图3为基于41个特征构建的模型在训练集中的效果图;
图4为基于41个特征构建的模型在验证集中的效果图。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
本发明实施例中提供一种在基于血浆游离DNA的转录起始位点(pTSS)特征预测胎龄的模型,完整分析流程图如图1所示。
实施例1
本实施例构建预测胎龄的模型。
1、血浆样本的获取
在本实施例中,共获取148例不同孕期的母体血浆样本,其中24例志愿者在孕中期和孕晚期均有血浆样本的采集,对这些样本的外周血游离DNA进行高通量测序,测序深度达到4×以上。
2、血浆游离DNA的分析
在进行血浆游离DNA高通量测序后,将序列与人类基因组标准序列hg19比对,确定每条序列在人类基因组染色体上的位置,对每个基因pTSS上下游1kb的覆盖深度加和得到每个基因pTSSdepth,将每个基因的TSS按照下述公式(1)进行标准化得到每个基因pTSS的特征。
pTSSi normalized=pTSSi depth/total pTSSdepth×106 公式(1)。
3、预测胎龄的特征筛选
对24例分别在孕中期和孕晚期均获得的血浆样本,使用差异分析软件DEseq2)找到两组样本pTSS特征具有差异的基因。
在148例训练集样本中使用lasso(Least absolute shrinkage and selectionoperator,Lasso)将上述找到的差异基因进一步筛选,得到最终41个基因纳入预测模型的特征,结果如图2所示。
4、预测胎龄的模型构建
使用bridge机器学习的方法在训练集中基于上述的确认的特征构建预测模型,并使用10次交叉验证的方法对模型参数进行优化,确认最终预测模型。
其中模型构建使用R语言caret包的bridge模型进行构建,其中trainx为训练集样本中上述41个基因的pTSSi normalized,trainy为训练集样本的孕周,代码为:
5、计算模型在训练集中预测胎龄的效果
将末次月经方法得到的胎龄作为金标准,比较模型预测的胎龄的准确性,计算其MAE(MeanAbsolute Error,平均绝对误差),RMSE(Root Mean Square Error,均方根误差)和R2,结果如图3所示,预测孕周与实际孕周的平均绝对误差为3.85周,预测孕周与实际孕周的均方根误差为4.95周,预测孕周和实际孕周的R2达到0.63,提示该模型在训练集中具有较好的预测效果。
实施例2
以35例样本中验证实施例1所构建模型的效果。
1、血浆样本获取和血浆游离DNA的分析的步骤同实施例1。
2、提取每例样本实施例1中获得的41个基因的pTSS特征,将其作为输入使用实施例1中构建的模型预测样本的胎龄。
3、计算模型在验证集中预测胎龄的效果。
将末次月经方法得到的胎龄与模型预测的胎龄进行比较,计算其MAE,RMSE和R2,结果如图4所示,预测孕周与实际孕周的平均绝对误差为4.54周,预测孕周与实际孕周的均方根误差为6.66周,预测孕周和实际孕周的R2达到0.31,提示该模型在验证集中具有一定的预测效果。
综上所述,本发明发现外周血游离DNA在某些基因转录起始位点区域的分布情况能够反应不同孕周,基于基因转录起始位点区域的血清游离DNA丰度在不同孕周中存在显著差异,对游离DNA pTSS特征进行均一化校正后,使用bridge机器学习算法,构建的预测模型能够一定程度上预测胎儿的胎龄,可对采集的孕期外周血样本的孕妇进行胎龄预测,是一种相对无创、经济方便的孕期胎龄预测方法。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
Claims (10)
1.一种与胎龄相关的靶标基因组合,其特征在于,所述靶标基因组合包括TSPOAP1、CRYAA、CXCL11、FNDC10、HMGA2、FDCSP、OLFM2、KRT36、C13orf46、SCD5、OR12D2、OMP、CEBPE、MOBP、CCNF、FUT2、LIPH、ERICH4、GPR171、CCDC196、SCGB3A2、ZNF512、PRR25、ZNF880、PILRA、CTRL、OR1B1、HLA-DQA2、PMCH、CTSF、NFRKB、GNAT3、KLRK1、MDM1、MTOR、TMPRSS11F、TAAR9、ZNF506、CGA、KCNB1和RAD1。
2.权利要求1所述的与胎龄相关的靶标基因组合在作为预测胎龄的标志物方面的应用。
3.权利要求1所述的与胎龄相关的靶标基因组合在制备预测胎龄的产品中的应用。
4.一种预测胎龄的方法,其特征在于,所述方法包括以下步骤:
(1)获取样本每个基因的转录起始位点区域覆盖情况;
(2)筛选预测胎龄的特征基因;
(3)构建预测胎龄的模型;
(4)利用预测胎龄的模型计算胎龄;
所述特征基因为权利要求1所述的与胎龄相关的靶标基因组合。
5.根据权利要求4所述的预测胎龄的方法,其特征在于,步骤(1)包括:
(1-1)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(1-2)对比对的结果进行去重复;
(1-3)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth;
(1-4)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSi normalized=pTSSi depth/total pTSSdepth×106 公式(1)
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和;
优选地,所述样本包括血浆游离DNA;
优选地,所述转录起始位点区域的大小为转录起始位点上下游0.5~5kb;
优选地,步骤(2)包括:
(2-1)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2-2)使用最小绝对值收敛和选择算子对步骤(2-1)获得差异基因进行筛选,得到预测模型的特征基因;
优选地,步骤(3)包括:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型;
优选地,所述机器学习方法为bridge模型;
优选地,步骤(3)还包括使用10次交叉验证的方法对模型参数进行优化;
优选地,步骤(4)包括将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
6.一种用于预测胎龄的系统,其特征在于,所述用于预测胎龄的系统包括:
样本分析模块:获取样本每个基因的转录起始位点区域覆盖情况;
筛选特征模块:筛选预测胎龄的特征基因;
构建模型模块:构建预测胎龄的模型;
计算模块:利用预测胎龄的模型计算胎龄;
所述特征基因为权利要求1所述的与胎龄相关的靶标基因组合。
7.根据权利要求6所述的用于预测胎龄的系统,其特征在于,所述样本分析模块用于进行包括如下的操作:
(1’)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(2’)对比对的结果进行去重复;
(3’)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth;
(4’)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSi normalized=pTSSi depth/totalpTSSdepth×106 公式(1);
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和;
优选地,所述样本包括血浆游离DNA;
优选地,所述转录起始位点区域的大小为转录起始位点上下游0.5~5kb。
8.根据权利要求6或7所述的用于预测胎龄的系统,其特征在于,所述筛选特征模块用于进行包括如下的操作:
(1”)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2”)使用最小绝对值收敛和选择算子对(1”)差异基因进行筛选,得到预测模型的特征基因。
9.根据权利要求6-8任一项所述的用于预测胎龄的系统,其特征在于,所述构建模型模块用于进行包括如下的操作:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型;
优选地,所述机器学习方法为bridge模型;
优选地,所述计算模块用于进行包括如下的操作:
将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
10.根据权利要求6-9任一项所述的用于预测胎龄的系统,其特征在于,所述用于预测胎龄的系统包括:
样本分析模块,用于进行包括如下的操作:
(1’)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(2’)对比对的结果进行去重复;
(3’)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth;
(4’)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSinormalized=pTSSi depth/totalpTSSdepth×106 公式(1);
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和;
筛选特征模块,用于进行包括如下的操作:
(1”)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2”)使用最小绝对值收敛和选择算子对(1”)差异基因进行筛选,得到预测模型的特征基因;
构建模型模块,用于进行包括如下的操作:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型;
计算模块,用于进行包括如下的操作:
将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381682.XA CN114592074A (zh) | 2022-04-12 | 2022-04-12 | 一种与胎龄相关的靶标基因组合及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381682.XA CN114592074A (zh) | 2022-04-12 | 2022-04-12 | 一种与胎龄相关的靶标基因组合及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114592074A true CN114592074A (zh) | 2022-06-07 |
Family
ID=81811636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210381682.XA Pending CN114592074A (zh) | 2022-04-12 | 2022-04-12 | 一种与胎龄相关的靶标基因组合及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114592074A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019888A (zh) * | 2022-07-14 | 2022-09-06 | 苏州贝康医疗器械有限公司 | 一种基于外周血游离dna高通量测序的组织特异性基因标志物的筛选系统及其应用 |
WO2024074102A1 (zh) * | 2022-10-04 | 2024-04-11 | 中国医学科学院药物研究所 | 一种角蛋白yk93-6、制法和其药物组合物与用途 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376191A (zh) * | 2013-08-16 | 2015-02-25 | Ge医疗系统环球技术有限公司 | 预测胎龄的方法和装置 |
US20180105807A1 (en) * | 2016-10-19 | 2018-04-19 | The Chinese University Of Hong Kong | Gestational age assessment by methylation and size profiling of maternal plasma dna |
WO2019084033A1 (en) * | 2017-10-23 | 2019-05-02 | Chan Zuckerberg Biohub, Inc. | NON-INVASIVE MOLECULAR CLOCK RELATING TO FETAL DEVELOPMENT AND PREDICTING GESTATIONAL AGE AND PREMATURE DELIVERY |
US20210017598A1 (en) * | 2019-02-14 | 2021-01-21 | Mirvie, Inc. | Methods and systems for determining a pregnancy-related state of a subject |
WO2021243650A1 (zh) * | 2020-06-04 | 2021-12-09 | 深圳华大基因股份有限公司 | 确定孕妇的孕期状态的方法 |
-
2022
- 2022-04-12 CN CN202210381682.XA patent/CN114592074A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104376191A (zh) * | 2013-08-16 | 2015-02-25 | Ge医疗系统环球技术有限公司 | 预测胎龄的方法和装置 |
US20180105807A1 (en) * | 2016-10-19 | 2018-04-19 | The Chinese University Of Hong Kong | Gestational age assessment by methylation and size profiling of maternal plasma dna |
WO2019084033A1 (en) * | 2017-10-23 | 2019-05-02 | Chan Zuckerberg Biohub, Inc. | NON-INVASIVE MOLECULAR CLOCK RELATING TO FETAL DEVELOPMENT AND PREDICTING GESTATIONAL AGE AND PREMATURE DELIVERY |
CN111566228A (zh) * | 2017-10-23 | 2020-08-21 | 陈扎克伯格生物中心公司 | 用于在胎儿孕育中预测胎龄和早产的无创分子钟 |
US20210017598A1 (en) * | 2019-02-14 | 2021-01-21 | Mirvie, Inc. | Methods and systems for determining a pregnancy-related state of a subject |
WO2021243650A1 (zh) * | 2020-06-04 | 2021-12-09 | 深圳华大基因股份有限公司 | 确定孕妇的孕期状态的方法 |
Non-Patent Citations (2)
Title |
---|
J BOHLIN等: "Prediction of gestational age based on genome-wide differentially methylated regions", 《GENOME BIOL》 * |
宋青芸等: "浅谈应用超声指标评估胎儿生长发育的重要意义", 《中华医学超声杂志(电子版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019888A (zh) * | 2022-07-14 | 2022-09-06 | 苏州贝康医疗器械有限公司 | 一种基于外周血游离dna高通量测序的组织特异性基因标志物的筛选系统及其应用 |
WO2024074102A1 (zh) * | 2022-10-04 | 2024-04-11 | 中国医学科学院药物研究所 | 一种角蛋白yk93-6、制法和其药物组合物与用途 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114592074A (zh) | 一种与胎龄相关的靶标基因组合及其应用 | |
CN108573125B (zh) | 一种基因组拷贝数变异的检测方法及包含该方法的装置 | |
CN104704364B (zh) | 用于先兆子痫和/或hellp综合征的预测或早期检测的生物标记物测试 | |
CN105844116B (zh) | 测序数据的处理方法和处理装置 | |
CN105825076B (zh) | 消除常染色体内和染色体间gc偏好的方法及检测系统 | |
KR101614471B1 (ko) | 유전체 서열분석을 이용한 태아 염색체 이수성의 진단 방법 및 장치 | |
JP2015506684A (ja) | ゲノムのコピー数変異の有無を判断する方法、システム及びコンピューター読み取り可能な記憶媒体 | |
US20080108071A1 (en) | Methods and Systems to Determine Fetal Sex and Detect Fetal Abnormalities | |
CN104156631A (zh) | 染色体三倍体检验方法 | |
KR101678962B1 (ko) | 대규모 병렬형 게놈서열분석 방법을 이용한 비침습적 산전검사 장치 및 방법 | |
CN110305954A (zh) | 一种早期准确检测先兆子痫的预测模型 | |
CN104520437B (zh) | 一种染色体非整倍性检测方法及装置 | |
CN117079723B (zh) | 一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用 | |
US20230115196A1 (en) | Method for determining pregnancy status of pregnant woman | |
CN110580934A (zh) | 一种基于外周血游离dna高通量测序预测妊娠期相关疾病的方法 | |
WO2018137496A1 (zh) | 确定生物样本中预定来源的游离核酸比例的方法及装置 | |
CN107239676B (zh) | 一种针对胚胎染色体的序列数据处理装置 | |
CN108229099A (zh) | 数据处理方法、装置、存储介质及处理器 | |
CN110305970A (zh) | 一种基于外周血游离dna检测的巨大儿预测模型 | |
CN109192243B (zh) | 染色体比例的修正方法、装置、介质 | |
TWI485254B (zh) | 以全基因體趨勢記分為基礎之非侵入性產前檢測方法 | |
CN105243294B (zh) | 一种用于预测癌症病人预后相关的蛋白质对的方法 | |
RU2712175C1 (ru) | Способ неинвазивного пренатального скрининга анеуплоидий плода | |
Zhang et al. | Establishment and Verification of a Predictive Model for Preeclampsia Based on Bioinformatics Analysis | |
CN113593629B (zh) | 基于半导体测序的降低无创产前检测假阳性假阴性的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220607 |