CN114592074A - 一种与胎龄相关的靶标基因组合及其应用 - Google Patents

一种与胎龄相关的靶标基因组合及其应用 Download PDF

Info

Publication number
CN114592074A
CN114592074A CN202210381682.XA CN202210381682A CN114592074A CN 114592074 A CN114592074 A CN 114592074A CN 202210381682 A CN202210381682 A CN 202210381682A CN 114592074 A CN114592074 A CN 114592074A
Authority
CN
China
Prior art keywords
gene
gestational age
depth
predicting
ptss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210381682.XA
Other languages
English (en)
Inventor
乔龙威
邢彦如
王挺
李红
孔令印
朱利平
梁波
陈萍
张春花
吴小娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Basecare Medical Device Co ltd
Suzhou Municipal Hospital
Original Assignee
Suzhou Basecare Medical Device Co ltd
Suzhou Municipal Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Basecare Medical Device Co ltd, Suzhou Municipal Hospital filed Critical Suzhou Basecare Medical Device Co ltd
Priority to CN202210381682.XA priority Critical patent/CN114592074A/zh
Publication of CN114592074A publication Critical patent/CN114592074A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/166Oligonucleotides used as internal standards, controls or normalisation probes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biochemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开一种与胎龄相关的靶标基因组合及其应用。本发明基于所述靶标基因组合包括TSPOAP1、CRYAA、CXCL11、FNDC10、HMGA2、FDCSP、OLFM2、KRT36、C13orf46、SCD5、OR12D2、OMP、CEBPE、MOBP、CCNF、FUT2、LIPH、ERICH4和GPR171等。本发明发现外周血游离DNA在某些基因转录起始位点区域的分布情况能够反映不同孕周,对游离DNA转录起始位点区域特征进行均一化校正后,使用机器学习算法,构建的预测模型能够有效地预测胎儿的胎龄。

Description

一种与胎龄相关的靶标基因组合及其应用
技术领域
本发明属于生物技术领域,涉及一种与胎龄相关的靶标基因组合及其应用。
背景技术
胎龄指从卵细胞和精子结合成受精卵到胎儿自母体中分娩出来的这段时间,以周为基本单位。准确确定胎龄在临床中具有重要意义:一、决定是否对早产进行管理延迟其分娩时间以及是否对超过预产期的孕妇进行引产依赖于准确的孕周;二、唐氏综合症筛查的改进依赖于准确的孕周;三、准确的胎龄有利于使用超声或MRI技术监测正常胎儿发育(器官发育图)状态;四、准确的胎龄对区分照顾生长受限的婴儿(按时出生)和早产儿也很重要。
目前,有两种主要的方法在产前确定胎龄:末次月经和超声测量,根据末次月经方法,人类受孕发生在末次月经后14天左右,从末次月经第一天算起,妊娠期为40周;超声测量在妊娠早期(妊娠14周内)测量胎儿头尾长度,其测量准确性在5天的误差内;在妊娠中期或晚期,通过使用多种计量参数:头的双顶骨直径、头围、腹围和股骨长度来确定胎儿的胎龄。末次月经的局限性是:1)孕妇并不总是准确的记得末次月经的日期,2)某些女性月经周期不规律的,3)受孕并不总是在末次月经后的14天发生,4)它不能用于在末次月经前3个月内服用避孕药或母乳喂养的孕妇,当末次月经的日期不能准确确定的情况下,使用末次月经的方法会造成胎儿发育阶段和末次月经基础胎龄之间的不匹配。如果使用超声测量在孕中晚期确定怀孕日期,则需要通过多种生物计量参数,并且孕中期计算胎龄的误差在7-10天,孕晚期在21-30天,因此在孕中晚期使用则不太准确,孕中期之后可以使用超声测量小脑长度来额外确定怀孕日期,但它需要由专门的超声医生对小脑进行良好的可视化,此外头部和小脑测量的局限性是,它们可能会受到大脑异常的影响,因此可能不适合在大脑发育异常的胎儿中确定胎龄,如CN104376191A公开一种预测胎龄的方法,包括以下步骤:建立胎儿的各种物理参数与胎龄的对应关系的胎龄估测表,其中对该表按照区域和/或胎儿母亲的孕前体重进行细分;获取胎儿的物理参数;根据物理参数和胎龄估测表估测得到胎龄。
综上所述,开发一种更精确的方法来测量妊娠各个时间点的胎儿的胎龄,对于妊娠管理具有重要意义。
发明内容
针对现有技术的不足和实际需求,为解决胎龄确定过程中末次月经记录不准确以及超声测量过程中在孕中晚期需要较高技术人员对胎儿小脑进行可视化的问题,本发明提供一种与胎龄相关的靶标基因组合及其应用,利用所述靶标基因组合结合特殊设计的分析策略构建预测模型,能够有效预测胎龄,提供一种相对无创、经济方便且具备高准确性的预测胎龄的方法。
为达上述目的,本发明采用以下技术方案:
第一方面,本发明提供一种与胎龄相关的靶标基因组合,所述靶标基因组合包括TSPOAP1、CRYAA、CXCL11、FNDC10、HMGA2、FDCSP、OLFM2、KRT36、C13orf46、SCD5、OR12D2、OMP、CEBPE、MOBP、CCNF、FUT2、LIPH、ERICH4、GPR171、CCDC196、SCGB3A2、ZNF512、PRR25、ZNF880、PILRA、CTRL、OR1B1、HLA-DQA2、PMCH、CTSF、NFRKB、GNAT3、KLRK1、MDM1、MTOR、TMPRSS11F、TAAR9、ZNF506、CGA、KCNB1和RAD1。
本发明对外周血游离DNA进行深入分析,发现外周血游离DNA在某些基因转录起始位点区域(Transcript Start Site,TSS)的分布情况能够反应不同孕周,并筛选一种与胎龄相关的靶标基因组合,可有效作为预测胎龄的标志物。
第二方面,本发明提供第一方面所述的与胎龄相关的靶标基因组合在作为预测胎龄的标志物方面的应用。
第三方面,本发明提供第一方面所述的与胎龄相关的靶标基因组合在制备预测胎龄的产品中的应用。
第四方面,本发明提供一种预测胎龄的方法,所述方法包括以下步骤:
(1)获取样本每个基因的转录起始位点区域覆盖情况;
(2)筛选预测胎龄的特征基因;
(3)构建预测胎龄的模型;
(4)利用预测胎龄的模型计算胎龄;
所述特征基因为第一方面所述的与胎龄相关的靶标基因组合。
本发明基于外周血游离DNA高通量测序中基因转录起始位点及附近区域特征,对游离DNA转录起始位点特征进行均一化校正后,利用与胎龄相关的靶标基因组合,使用机器学习方法构建预测模型。
优选地,步骤(1)包括:
(1-1)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(1-2)对比对的结果进行去重复;
(1-3)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth
(1-4)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSi normalized=pTSSi depth/total pTSSdepth×106 公式(1)
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和。
优选地,所述样本包括血浆游离DNA。
优选地,所述转录起始位点区域的大小为转录起始位点上下游0.5~5kb包括但不限于0.6kb、0.7kb、0.8kb、0.9kb、1kb、2kb、3kb、4kb、4.2kb、4.3kb、4.5kb、4.6kb、4.8kb或4.9kb。
优选地,步骤(2)包括:
(2-1)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2-2)使用最小绝对值收敛和选择算子对步骤(2-1)获得差异基因进行筛选,得到预测模型的特征基因。
优选地,步骤(3)包括:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型。
优选地,所述机器学习方法为bridge模型。
优选地,步骤(3)还包括使用10次交叉验证的方法对模型参数进行优化。
优选地,步骤(4)包括将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
本发明中,预测模型使用R语言caret包进行构建,其中trainx为训练集样本中上述41个基因的pTSSi normalized,trainy为训练集样本的孕周,代码为:
Figure BDA0003592064150000051
第五方面,本发明提供一种用于预测胎龄的系统,所述用于预测胎龄的系统包括:
样本分析模块:获取样本每个基因的转录起始位点区域覆盖情况;
筛选特征模块:筛选预测胎龄的特征基因;
构建模型模块:构建预测胎龄的模型;
计算模块:利用预测胎龄的模型计算胎龄;
所述特征基因为第一方面所述的与胎龄相关的靶标基因组合。
优选地,所述样本分析模块用于进行包括如下的操作:
(1’)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(2’)对比对的结果进行去重复;
(3’)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth
(4’)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSi normalized=pTSSi depth/total pTSSdepth×106 公式(1);
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和。
优选地,所述样本包括血浆游离DNA。
优选地,所述转录起始位点区域的大小为转录起始位点上下游0.5~5kb,包括但不限于0.6kb、0.7kb、0.8kb、0.9kb、1kb、2kb、3kb、4kb、4.2kb、4.3kb、4.5kb、4.6kb、4.8kb或4.9kb。
优选地,所述筛选特征模块用于进行包括如下的操作:
(1”)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2”)使用最小绝对值收敛和选择算子对(1”)差异基因进行筛选,得到预测模型的特征基因。
优选地,所述构建模型模块用于进行包括如下的操作:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型。
优选地,所述机器学习方法为bridge模型。
优选地,所述计算模块用于进行包括如下的操作:
将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
作为优选的技术方案,所述用于预测胎龄的系统包括:
样本分析模块,用于进行包括如下的操作:
(1’)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(2’)对比对的结果进行去重复;
(3’)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth
(4’)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSi normalized=pTSSi depth/total pTSSdepth×106 公式(1);
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和;
筛选特征模块,用于进行包括如下的操作:
(1”)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2”)使用最小绝对值收敛和选择算子对(1”)差异基因进行筛选,得到预测模型的特征基因;
构建模型模块,用于进行包括如下的操作:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型;
计算模块,用于进行包括如下的操作:
将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
与现有技术相比本发明具有以下有益效果:
(1)本发明筛选一种与胎龄相关的靶标基因组合,基因组合的转录起始位点特征能够反映不同孕周,可有效作为预测胎龄的标志物;
(2)本发明对游离DNA转录起始位点特征进行均一化校正后,利用与胎龄相关的靶标基因组合,使用机器学习方法构建预测模型,能够有效预测胎儿的胎龄,提供了一种相对无创、经济方便的孕期胎龄预测方法。
附图说明
图1为本发明分析流程图;
图2为使用Lasso算法筛选得到的最终特征值及其系数图;
图3为基于41个特征构建的模型在训练集中的效果图;
图4为基于41个特征构建的模型在验证集中的效果图。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
本发明实施例中提供一种在基于血浆游离DNA的转录起始位点(pTSS)特征预测胎龄的模型,完整分析流程图如图1所示。
实施例1
本实施例构建预测胎龄的模型。
1、血浆样本的获取
在本实施例中,共获取148例不同孕期的母体血浆样本,其中24例志愿者在孕中期和孕晚期均有血浆样本的采集,对这些样本的外周血游离DNA进行高通量测序,测序深度达到4×以上。
2、血浆游离DNA的分析
在进行血浆游离DNA高通量测序后,将序列与人类基因组标准序列hg19比对,确定每条序列在人类基因组染色体上的位置,对每个基因pTSS上下游1kb的覆盖深度加和得到每个基因pTSSdepth,将每个基因的TSS按照下述公式(1)进行标准化得到每个基因pTSS的特征。
pTSSi normalized=pTSSi depth/total pTSSdepth×106 公式(1)。
3、预测胎龄的特征筛选
对24例分别在孕中期和孕晚期均获得的血浆样本,使用差异分析软件DEseq2)找到两组样本pTSS特征具有差异的基因。
在148例训练集样本中使用lasso(Least absolute shrinkage and selectionoperator,Lasso)将上述找到的差异基因进一步筛选,得到最终41个基因纳入预测模型的特征,结果如图2所示。
4、预测胎龄的模型构建
使用bridge机器学习的方法在训练集中基于上述的确认的特征构建预测模型,并使用10次交叉验证的方法对模型参数进行优化,确认最终预测模型。
其中模型构建使用R语言caret包的bridge模型进行构建,其中trainx为训练集样本中上述41个基因的pTSSi normalized,trainy为训练集样本的孕周,代码为:
Figure BDA0003592064150000091
Figure BDA0003592064150000101
5、计算模型在训练集中预测胎龄的效果
将末次月经方法得到的胎龄作为金标准,比较模型预测的胎龄的准确性,计算其MAE(MeanAbsolute Error,平均绝对误差),RMSE(Root Mean Square Error,均方根误差)和R2,结果如图3所示,预测孕周与实际孕周的平均绝对误差为3.85周,预测孕周与实际孕周的均方根误差为4.95周,预测孕周和实际孕周的R2达到0.63,提示该模型在训练集中具有较好的预测效果。
实施例2
以35例样本中验证实施例1所构建模型的效果。
1、血浆样本获取和血浆游离DNA的分析的步骤同实施例1。
2、提取每例样本实施例1中获得的41个基因的pTSS特征,将其作为输入使用实施例1中构建的模型预测样本的胎龄。
3、计算模型在验证集中预测胎龄的效果。
将末次月经方法得到的胎龄与模型预测的胎龄进行比较,计算其MAE,RMSE和R2,结果如图4所示,预测孕周与实际孕周的平均绝对误差为4.54周,预测孕周与实际孕周的均方根误差为6.66周,预测孕周和实际孕周的R2达到0.31,提示该模型在验证集中具有一定的预测效果。
综上所述,本发明发现外周血游离DNA在某些基因转录起始位点区域的分布情况能够反应不同孕周,基于基因转录起始位点区域的血清游离DNA丰度在不同孕周中存在显著差异,对游离DNA pTSS特征进行均一化校正后,使用bridge机器学习算法,构建的预测模型能够一定程度上预测胎儿的胎龄,可对采集的孕期外周血样本的孕妇进行胎龄预测,是一种相对无创、经济方便的孕期胎龄预测方法。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。

Claims (10)

1.一种与胎龄相关的靶标基因组合,其特征在于,所述靶标基因组合包括TSPOAP1、CRYAA、CXCL11、FNDC10、HMGA2、FDCSP、OLFM2、KRT36、C13orf46、SCD5、OR12D2、OMP、CEBPE、MOBP、CCNF、FUT2、LIPH、ERICH4、GPR171、CCDC196、SCGB3A2、ZNF512、PRR25、ZNF880、PILRA、CTRL、OR1B1、HLA-DQA2、PMCH、CTSF、NFRKB、GNAT3、KLRK1、MDM1、MTOR、TMPRSS11F、TAAR9、ZNF506、CGA、KCNB1和RAD1。
2.权利要求1所述的与胎龄相关的靶标基因组合在作为预测胎龄的标志物方面的应用。
3.权利要求1所述的与胎龄相关的靶标基因组合在制备预测胎龄的产品中的应用。
4.一种预测胎龄的方法,其特征在于,所述方法包括以下步骤:
(1)获取样本每个基因的转录起始位点区域覆盖情况;
(2)筛选预测胎龄的特征基因;
(3)构建预测胎龄的模型;
(4)利用预测胎龄的模型计算胎龄;
所述特征基因为权利要求1所述的与胎龄相关的靶标基因组合。
5.根据权利要求4所述的预测胎龄的方法,其特征在于,步骤(1)包括:
(1-1)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(1-2)对比对的结果进行去重复;
(1-3)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth
(1-4)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSi normalized=pTSSi depth/total pTSSdepth×106 公式(1)
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和;
优选地,所述样本包括血浆游离DNA;
优选地,所述转录起始位点区域的大小为转录起始位点上下游0.5~5kb;
优选地,步骤(2)包括:
(2-1)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2-2)使用最小绝对值收敛和选择算子对步骤(2-1)获得差异基因进行筛选,得到预测模型的特征基因;
优选地,步骤(3)包括:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型;
优选地,所述机器学习方法为bridge模型;
优选地,步骤(3)还包括使用10次交叉验证的方法对模型参数进行优化;
优选地,步骤(4)包括将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
6.一种用于预测胎龄的系统,其特征在于,所述用于预测胎龄的系统包括:
样本分析模块:获取样本每个基因的转录起始位点区域覆盖情况;
筛选特征模块:筛选预测胎龄的特征基因;
构建模型模块:构建预测胎龄的模型;
计算模块:利用预测胎龄的模型计算胎龄;
所述特征基因为权利要求1所述的与胎龄相关的靶标基因组合。
7.根据权利要求6所述的用于预测胎龄的系统,其特征在于,所述样本分析模块用于进行包括如下的操作:
(1’)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(2’)对比对的结果进行去重复;
(3’)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth
(4’)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSi normalized=pTSSi depth/totalpTSSdepth×106 公式(1);
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和;
优选地,所述样本包括血浆游离DNA;
优选地,所述转录起始位点区域的大小为转录起始位点上下游0.5~5kb。
8.根据权利要求6或7所述的用于预测胎龄的系统,其特征在于,所述筛选特征模块用于进行包括如下的操作:
(1”)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2”)使用最小绝对值收敛和选择算子对(1”)差异基因进行筛选,得到预测模型的特征基因。
9.根据权利要求6-8任一项所述的用于预测胎龄的系统,其特征在于,所述构建模型模块用于进行包括如下的操作:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型;
优选地,所述机器学习方法为bridge模型;
优选地,所述计算模块用于进行包括如下的操作:
将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
10.根据权利要求6-9任一项所述的用于预测胎龄的系统,其特征在于,所述用于预测胎龄的系统包括:
样本分析模块,用于进行包括如下的操作:
(1’)获取样本的高通量测序原始数据与参考基因组进行比对,并按照染色体进行排序;
(2’)对比对的结果进行去重复;
(3’)统计每个基因的转录起始位点区域的覆盖深度,对每个转录起始位点区域的覆盖深度加和得到每个基因的pTSSdepth
(4’)将每个基因的转录起始位点区域按照公式(1)进行标准化得到每个基因的转录起始位点区域的特征;
pTSSinormalized=pTSSi depth/totalpTSSdepth×106 公式(1);
其中,pTSSi normalized为基因i的转录起始位点区域的特征,pTSSi depth为基因i的转录起始位点区域的覆盖深度,total pTSSdepth为所有基因的转录起始位点区域的覆盖深度加和;
筛选特征模块,用于进行包括如下的操作:
(1”)使用差异分析软件寻找不同孕周样本转录起始位点区域有显著差异的基因;
(2”)使用最小绝对值收敛和选择算子对(1”)差异基因进行筛选,得到预测模型的特征基因;
构建模型模块,用于进行包括如下的操作:
使用机器学习的方法基于上述得到的特征基因构建预测胎龄的模型;
计算模块,用于进行包括如下的操作:
将特征基因的转录起始位点区域的特征输入预测胎龄的模型,得到胎龄。
CN202210381682.XA 2022-04-12 2022-04-12 一种与胎龄相关的靶标基因组合及其应用 Pending CN114592074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210381682.XA CN114592074A (zh) 2022-04-12 2022-04-12 一种与胎龄相关的靶标基因组合及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210381682.XA CN114592074A (zh) 2022-04-12 2022-04-12 一种与胎龄相关的靶标基因组合及其应用

Publications (1)

Publication Number Publication Date
CN114592074A true CN114592074A (zh) 2022-06-07

Family

ID=81811636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210381682.XA Pending CN114592074A (zh) 2022-04-12 2022-04-12 一种与胎龄相关的靶标基因组合及其应用

Country Status (1)

Country Link
CN (1) CN114592074A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019888A (zh) * 2022-07-14 2022-09-06 苏州贝康医疗器械有限公司 一种基于外周血游离dna高通量测序的组织特异性基因标志物的筛选系统及其应用
WO2024074102A1 (zh) * 2022-10-04 2024-04-11 中国医学科学院药物研究所 一种角蛋白yk93-6、制法和其药物组合物与用途

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376191A (zh) * 2013-08-16 2015-02-25 Ge医疗系统环球技术有限公司 预测胎龄的方法和装置
US20180105807A1 (en) * 2016-10-19 2018-04-19 The Chinese University Of Hong Kong Gestational age assessment by methylation and size profiling of maternal plasma dna
WO2019084033A1 (en) * 2017-10-23 2019-05-02 Chan Zuckerberg Biohub, Inc. NON-INVASIVE MOLECULAR CLOCK RELATING TO FETAL DEVELOPMENT AND PREDICTING GESTATIONAL AGE AND PREMATURE DELIVERY
US20210017598A1 (en) * 2019-02-14 2021-01-21 Mirvie, Inc. Methods and systems for determining a pregnancy-related state of a subject
WO2021243650A1 (zh) * 2020-06-04 2021-12-09 深圳华大基因股份有限公司 确定孕妇的孕期状态的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376191A (zh) * 2013-08-16 2015-02-25 Ge医疗系统环球技术有限公司 预测胎龄的方法和装置
US20180105807A1 (en) * 2016-10-19 2018-04-19 The Chinese University Of Hong Kong Gestational age assessment by methylation and size profiling of maternal plasma dna
WO2019084033A1 (en) * 2017-10-23 2019-05-02 Chan Zuckerberg Biohub, Inc. NON-INVASIVE MOLECULAR CLOCK RELATING TO FETAL DEVELOPMENT AND PREDICTING GESTATIONAL AGE AND PREMATURE DELIVERY
CN111566228A (zh) * 2017-10-23 2020-08-21 陈扎克伯格生物中心公司 用于在胎儿孕育中预测胎龄和早产的无创分子钟
US20210017598A1 (en) * 2019-02-14 2021-01-21 Mirvie, Inc. Methods and systems for determining a pregnancy-related state of a subject
WO2021243650A1 (zh) * 2020-06-04 2021-12-09 深圳华大基因股份有限公司 确定孕妇的孕期状态的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J BOHLIN等: "Prediction of gestational age based on genome-wide differentially methylated regions", 《GENOME BIOL》 *
宋青芸等: "浅谈应用超声指标评估胎儿生长发育的重要意义", 《中华医学超声杂志(电子版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019888A (zh) * 2022-07-14 2022-09-06 苏州贝康医疗器械有限公司 一种基于外周血游离dna高通量测序的组织特异性基因标志物的筛选系统及其应用
WO2024074102A1 (zh) * 2022-10-04 2024-04-11 中国医学科学院药物研究所 一种角蛋白yk93-6、制法和其药物组合物与用途

Similar Documents

Publication Publication Date Title
CN114592074A (zh) 一种与胎龄相关的靶标基因组合及其应用
CN108573125B (zh) 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN104704364B (zh) 用于先兆子痫和/或hellp综合征的预测或早期检测的生物标记物测试
CN105844116B (zh) 测序数据的处理方法和处理装置
CN105825076B (zh) 消除常染色体内和染色体间gc偏好的方法及检测系统
KR101614471B1 (ko) 유전체 서열분석을 이용한 태아 염색체 이수성의 진단 방법 및 장치
JP2015506684A (ja) ゲノムのコピー数変異の有無を判断する方法、システム及びコンピューター読み取り可能な記憶媒体
US20080108071A1 (en) Methods and Systems to Determine Fetal Sex and Detect Fetal Abnormalities
CN104156631A (zh) 染色体三倍体检验方法
KR101678962B1 (ko) 대규모 병렬형 게놈서열분석 방법을 이용한 비침습적 산전검사 장치 및 방법
CN110305954A (zh) 一种早期准确检测先兆子痫的预测模型
CN104520437B (zh) 一种染色体非整倍性检测方法及装置
CN117079723B (zh) 一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用
US20230115196A1 (en) Method for determining pregnancy status of pregnant woman
CN110580934A (zh) 一种基于外周血游离dna高通量测序预测妊娠期相关疾病的方法
WO2018137496A1 (zh) 确定生物样本中预定来源的游离核酸比例的方法及装置
CN107239676B (zh) 一种针对胚胎染色体的序列数据处理装置
CN108229099A (zh) 数据处理方法、装置、存储介质及处理器
CN110305970A (zh) 一种基于外周血游离dna检测的巨大儿预测模型
CN109192243B (zh) 染色体比例的修正方法、装置、介质
TWI485254B (zh) 以全基因體趨勢記分為基礎之非侵入性產前檢測方法
CN105243294B (zh) 一种用于预测癌症病人预后相关的蛋白质对的方法
RU2712175C1 (ru) Способ неинвазивного пренатального скрининга анеуплоидий плода
Zhang et al. Establishment and Verification of a Predictive Model for Preeclampsia Based on Bioinformatics Analysis
CN113593629B (zh) 基于半导体测序的降低无创产前检测假阳性假阴性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220607