CN114517232A - 无创方式判断子宫内膜容受性的方法、模型和标志物 - Google Patents

无创方式判断子宫内膜容受性的方法、模型和标志物 Download PDF

Info

Publication number
CN114517232A
CN114517232A CN202210253498.7A CN202210253498A CN114517232A CN 114517232 A CN114517232 A CN 114517232A CN 202210253498 A CN202210253498 A CN 202210253498A CN 114517232 A CN114517232 A CN 114517232A
Authority
CN
China
Prior art keywords
genes
sample
gene
endometrial receptivity
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210253498.7A
Other languages
English (en)
Inventor
周岩
邹央云
滕晓明
李团
毛雅超
王羽
李昆明
陈淼鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Yikang Medical Laboratory Co ltd
Original Assignee
Suzhou Yikang Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Yikang Medical Laboratory Co ltd filed Critical Suzhou Yikang Medical Laboratory Co ltd
Priority to CN202210253498.7A priority Critical patent/CN114517232A/zh
Publication of CN114517232A publication Critical patent/CN114517232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biochemistry (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

无创方式判断子宫内膜容受性的方法、模型和标志物。本发明提供了以无创取样方式所获取的样本预测子宫内膜容受性的方法,以及使用所述样本建立预测模型的方法和所建立的预测模型,以及所述样本中与子宫内膜容受性相关联的标志物和相应的试剂盒。

Description

无创方式判断子宫内膜容受性的方法、模型和标志物
发明领域
本发明涉及生物领域和临床辅助生殖领域,更具体地涉及一种无创方式判断子宫内膜容受性的方法,和该方法中所用的标志物、预测模型和相应的试剂盒、系统。
背景技术
人类生殖过程中,受精卵在母体子宫内定位、黏附、着床,最终发育成一个成熟的胎儿,着床过程对成功妊娠具有重要影响,成功的临床妊娠除需要优质的胚胎之外还需要良好的子宫内膜容受性(endometrial receptivity,ER)、子宫内膜与胚胎的同步发育。子宫内膜容受性是一种生理现象,是指子宫内膜对胚胎的接受能力,只有在短暂的特定时期内子宫内膜才允许胚胎着床,这一时期称为“着床窗口期”,就成年女性而言,相当于月经周期第20-24日或排卵后6-8日。
子宫内膜容受性的具体机制目前尚不完全清楚,但可以明确的是,子宫内膜处在非容受期是导致体外受精-胚胎移植(IVF-ET)中胚胎着床失败的重要原因之一。胚胎移植的成功率是非常重要的,直接关系到此前付出的所有代价和成本能够成功还是功亏一篑。然而,传统的利用月经周期窗口期的方式并不总是可行,甚至对于相当一部分受试者,例如反复移植失败的女性,或者罹患其他继发性不孕症的女性,着床窗口期的时间节点非常不准确,如果仍然按月经周期或者排卵日推算着床窗口期,会有很大移植失败的风险。
临床上已经有多种判断内膜容受性的方式,例如经阴道超声、血清雌孕激素水平、子宫内膜活检等方法来判断子宫内膜种植窗的时间,但均存在一定的误差。随着分子生物学的进步、尤其是人类基因组计划的完成,将基因作为分子标志物来辅助判断各种生理状态和病理状态的临床应用越来越成熟。但是,在子宫内膜容受性的预测上,已有的方法均存在一显著的缺点,即它们所用的样本均来自对内膜组织进行活检取样。这种有创的方式给母体带来了不必要的损伤,也有潜在的不稳定因素,因而降低了受试者的依从性,并且其损伤造成活检周期无法进行胚胎移植,延长了受试者的达孕时间与ART周期。此外,额外操作本身也是一种耗费资源、增加受试者痛苦的方式。
研究人员都一直在追求更简便的、创伤更小的检查方式,对于内膜容受性预测也不例外。临床上迫切需要一种高效的、无创的内膜容受性诊断方法。
发明简述
本发明提供了一种无创取样的判断子宫内膜容受性的方法。
在第一个方面,本发明提供了一种利用无创方式获取待分析活体样本的方法。在一个具体的实施方式中,所述无创方式是胚胎预移植时移植管壁粘附痕量组织。在另一个具体的实施方式中,所述无创方式是胚胎移植时移植管壁粘附痕量组织。
在一个实施方案中,通过无创方式所获取的样本中,细胞数少于1000个。在一个更具体的实施方案中,通过无创方式所获取的样本中,细胞数少于900个、800个、700个、600个、500个、400个、300个或200个。在一个优选的实施方案中,通过无创方式所获取的样本中,细胞数介于400个和300个之间。
在一个具体的实施方案中,本发明的方法进一步包括通过截取加冲洗的方法,将管壁的细胞、组织转移至样本采集管中。在一个具体的实施方案中,在一个优选的实施方案中,样本采集管内预先加入了组织样本保存液,
在一个实施方案中,本发明的方法进一步包括提取样本中的总RNA。在一个具体的实施方式中,所述提取过程采用亿康MALBAC白金微量RNA扩增试剂盒(KT110700724),按照生产商提供的说明书进行。在另一个具体的实施方式中,所述提取过程包括以下步骤:a)对样本进行高速离心,(第一次1600g,2分钟;第二次3000g,3分钟;第三次13000rpm,5分钟)以沉淀全部细胞。b)去除上清液,加入200μL×2组织样本保存液重悬细胞,以3000g离心5分钟;200μL×1次,留约50μL。c)加入300μL细胞裂解液,剧烈震荡30秒至1分钟;瞬时离心,弃上清。d)加入350μL现配70%的乙醇后震荡混匀;瞬时离心,弃上清。e)加入650μL上述混合液体至吸附柱中,13000×g离心1分钟,弃离心废液。f)向吸附柱膜上加入500μL清洗缓冲液,13000×g离心1分钟,弃离心废液。g)将100μL DNA消化酶小心滴在吸附柱膜上,25度孵育15分钟。h)加入500μL清洗缓冲液,13000×g离心1分钟,弃离心废液;再次加入500μL的清洗缓冲液于吸附柱上,13000×g离心1分钟,弃离心废液。i)向管内加入700μL 80%乙醇13000×g离心2分钟,弃离心废液;再次13000×g离心1分钟,弃收集管。j)将吸附柱插入1.5mL离心管中,开盖晾干1分钟;加入20μL DEPC水,25度孵育1分钟,13000×g离心2分钟,再重复1次,共收集40μL洗脱液,即为总RNA。在一个更具体的实施方式中,无创取样所获得的微量样本中,几乎全部RNA都被抽提出来,从而为后续检测提供足量的纯化RNA核酸样品。
在一个实施方案中,本发明的方法进一步包括将RNA核酸样品中的mRNA逆转录,生成cDNA文库。在一个具体的实施方案中,所述逆转录使用亿康MALBAC白金微量RNA扩增试剂盒(KT110700724),按照生产商提供的说明书进行。
在一个实施方案中,本发明的方法进一步包括进一步处理cDNA文库以构建测序文库。在一个具体的实施方案中,所述进一步处理使用使用亿康片段化试剂盒(KT100804248)和基因测序文库试剂盒(KT100804048),按照生产商提供的说明书进行。
在一个实施方案中,本发明的方法进一步包括对所得文库实施测序。在一个具体的实施方式中,所述测序的方法是下一代测序(NGS,Next-Generation Sequencing)。在另一个具体的实施方式中,所述测序的方法是Sanger法测序,或第三代测序(例如,诸如,纳米孔测序)。在本发明一个优选的实施例中,本发明使用Illumina Nextseq测序系统以及配套的Next-seq High-Output Kit试剂盒。
在第二个方面,本发明提供了一种容受性预测模型的建立方法。在一个实施方案中,本发明提供了一种对测序结果进行机器学习算法分析,并建立容受性预测模型的方法。
在一个具体的实施方案中,所述机器学习算法分析包括以下步骤:I)将样本按照金标准(实际临床结局)分为容受性和非容受性两类,并优选地拆分为两个集合,训练集和测试集,并取训练集样本数据进行下一步骤;II)将训练集样本全部数据去噪音、去偏倚,生成分别针对每个基因的片段计数比对文件;III)筛选和收集存在差异表达的基因,将其作为待鉴定特征;IV)将数据转换为TPM,作为每个基因的标准化后的表达量数据,从而消除样本下机数据量差异的影响;V)将所述待鉴定特征(基因)的表达量数据输入机器学习算法,由机器学习算法进行监督学习,得到每个特征对于判断容受性的阈值、灵敏度和重要性,从而得到容受性预测模型。优选地,将所建立的模型在测试集中进行准确性验证。
在一个实施方案中,所述模型包括一个或多个子模型,不同的子模型包含前述差异表达基因的全部或不同的部分。
在一个具体的实施方案中,所述步骤II)具体包括:
a)对于每个样本的测序下机数据分别进行如下处理
i.下机数据用trimmomatic(版本0.33)处理,去除接头序列,过滤低质量reads,产生清洗过的干净测序数据
ii.将上一步骤产生的干净的测序数据,用HISAT2(版本2.0.5),比对到人类参考基因组(版本GRCh38),产生比对文件
iii.将上一步骤产生的比对文件进行排序,并将重复序列进行标记,产生最终的比对文件
iv.将上一步骤产生的比对文件用htseq_count进行处理,该步骤还需要使用一个基因注释文件,Homo_sapiens.GRCh38.84.gtf文件,该文件从Ensembl下载,其中包含了每个基因的名字、位置坐标等信息,htseq_count可以根据该信息统计每个基因所在的区域上有多少序列(对于双端测序,属于同一片段的reads在统计时只计数一次),生成genecount文件
b)将一个批次的所有样本的genecount文件进行合并,生成总的genecount文件,其中每一行是一个样本,每一列是一个基因,其中的数据是该样本中属于该基因的片段数。
在一个具体的实施方案中,所述步骤III)具体包括以下选取方式:
i.排除后续干扰较大的rRNA相关和线粒体相关的基因。
ii.对于训练集,进行基因差异表达分析,将两类样本中的有差异的基因筛选出来,得到3193个基因
i ii.将上一步筛选到的3193个基因,进一步通过变量筛选,所得共250个基因,作为候选feature进行下一步模型的训练,详细列表见表2。
在一个更具体的实施方案中,所述变量筛选为从差异表达基因中选择FDR<0.001的基因,得到1270个基因,利用edgeR的cpm函数输出每个样本每个基因的logTMM值,对这些基因计算两两之间的pearson相关性,然后按照如下步骤筛选基因
1)将基因按照FDR从小到大进行排序;
2)将列表中最上面的基本标记为已选择;
3)将相关性与与已选择的基因中的任一基因大于等于0.6的基因标记为剔除;
4)重复2)和3)直到列表末尾;
5)用筛选得到的基因构建模型,用10-fold cross-validation的方法评估准确性,逐次删除掉对模型的准确性无影响的基因,最后得到250个基因。
在一个更加具体的实施方案中,上述步骤ii.采用edgeR(版本3.34.0)进行基因差异表达分析,筛选条件是logFoldChange>0,FDR<0.05,包括以下步骤:
a)edgeR需要两个输入文件,第一个是genecount文件,其中包含了每个样本中每个基因的reads数目,第二个是样本信息文件,其中包含样本属于哪一类别;
b)edgeR读入输入文件后,首先将每个样本中每个基因的reads数目进行归一化,归一化时选择了在所有样本中都有稳定表达的基因;
c)edgeR然后根据样本的类别信息,寻找在不同的类别中表达有差异的基因,差异的显著性经过FDR矫正后的p-value表示,p-value越小,差异越显著。
在一个具体的实施方案中,所述步骤IV)具体包括将genecount数据转换为TPM,以排除样本下机数据量的影响。计算公式如下:
Figure BDA0003547581890000041
其中Ni是第i个基因上的reads count,Li是第i个基因的长度。
在一个具体的实施方案中,所述步骤V)中的机器学习算法为随机森林算法。
在一个实施方案中,本发明的方法进一步包括在拆分出的独立的测试集中对所建立的容受性预测模型的灵敏度、特异性、准确性、ROC等指标进行评估和/或验证。
在一个具体的实施方案中,本发明的方法进一步包括在至少两个测试集中对所建立的容受性预测模型进行验证。
在第三个方面,本发明还提供了生物标志物集合,所述生物标志物集合用于预测子宫内膜容受性,以指导胚胎移植。
在一个实施方案中,本发明的生物标志物集合包含上述步骤III)中鉴定的差异表达基因中的部分或全部,例如多于5个和小于等于250个之间的任意个。在一个更具体的实施方案中,为了能够准确地预测子宫内膜容受性,以指导胚胎移植,本发明的生物标志物集合包括至少10个基因成员。在一个更加具体的实施方案中,本发明的生物标志物集合包括至少11个基因成员、至少12个基因成员、至少13个基因成员、至少14个基因成员、至少15个基因成员、至少16个基因成员、至少17个基因成员、至少18个基因成员、至少19个基因成员、至少20个基因成员、至少25个基因成员、至少30个基因成员、至少35个基因成员、至少40个基因成员、至少45个基因成员、至少50个基因成员、至少55个基因成员、至少60个基因成员、至少65个基因成员、至少70个基因成员、至少80个基因成员、至少90个基因成员、至少100个基因成员、至少110个基因成员、至少120个基因成员、至少130个基因成员、至少140个基因成员、至少150个基因成员、至少160个基因成员、至少170个基因成员、至少180个基因成员、至少190个基因成员、至少200个基因成员、至少210个基因成员、至少220个基因成员、至少230个基因成员、至少240个基因成员、至少250个基因成员。在一个实施方案中,本发明的生物标志物集合包含根据上述步骤V)中建立的容受性预测模型中权重最高的5个基因、6个基因、7个基因、8个基因、9个基因、10个基因、15个基因、20个基因、25个基因、30个基因、40个基因、50个基因、60个基因、70个基因、80个基因、90个基因、100个基因、110个基因、120个基因、130个基因、140个基因、150个基因、160个基因、170个基因、180个基因、190个基因、200个基因、210个基因、220个基因、230个基因、240个基因或250个基因。
在一个实施方案中,本发明的生物标志物集合至少包含下列基因:ELK4、PRKACB、PHB2、GM2A、PPA1、NCEH1、CAPG、DDIT4、LDHB和TDRD6。
在第四个方面,本发明提供了基于所述生物标志物集合的用途和方法。
在一个实施方案中,本发明提供了上述生物标志物集合或其特异性检测工具用于制备测定组合物、测定试剂和/或测定设备的用途,所述测定组合物、测定试剂和/或测定设备用于检测和判断受试者的子宫内膜容受性状态,其中所述测定组合物、测定试剂和/或测定设备能够在来自受试者的样品中检测上述生物标志物集合中每一成员的表达量;并将表达量通过本发明的容受性预测模型进行计算,所得结果用于判断诊断子宫内膜容受性状态。
在一个实施方案中,本发明提供了子宫内膜容受性预测方法,所述方法包括,利用用于特异性测定生物标志物的水平或其量的物质或方法,获得所述生物标志物集合全部基因成员的表达量。在一个具体的实施方案中,所述用于测定生物标志物的水平或其量的物质是组合物、试剂或设备。在一个具体的实施方案中,所述用于测定生物标志物的水平或其量的物质是特异性引物和/或探针分子。在一个更具体的实施方案中,所述用于测定生物标志物的水平或其量的组合物或试剂进一步包括标签序列、接头序列、荧光分子、焦磷酸分子和标记分子之中的一种或多种。在一个具体的实施方案中,所述用于测定生物标志物的水平或其量的方法是PCR方法。在一个更具体的实施方案中,所述PCR方法是实时荧光定量PCR、恒温扩增PCR等等本领域常用的方法。在一个具体的实施方案中,所述用于测定生物标志物的水平或其量的方法是测序方法。在一个更具体的实施方案中,所述测序方法是下一代测序(NGS,Next-Generation Sequencing)、Sanger法测序和第三代测序(例如,诸如,纳米孔测序)之中的一种或多种。
在一个实施方案中,所述用于测定生物标志物的水平或其量的试剂不包含特异性检测本发明的生物标志物集合中的成员以外其他基因的试剂。
在一个实施方案中,所述用于测定生物标志物的水平或其量的方法不测定本发明的生物标志物集合中的成员以外其他基因的水平或其量。
在一个实施方案中,本发明提供了一种子宫内膜容受性预测方法,所述方法中使用的样本通过无创方式获取,即,样本的获取不对受试者内膜造成损伤。在一个优选的实施方案中,本发明提供了一种整合的无创子宫内膜容受性预测方法,所述“整合的”意为本方法无需单独额外进行,而是在胚胎预移植或胚胎移植操作时同时进行,取样过程整合在上述操作中,从而取样周期即为移植周期。如当周期移植失败,且检测结果提示为内膜原因,可参考检测结果指导下一个周期的移植,无需等待,极大缩短待孕者的达孕时间。
在另一个方面,本发明提供了用于上述方法的试剂盒,所述试剂盒包含用于测定本发明的生物标志物组合中的每种生物标志物在样品中的水平或其量的试剂,例如特异性试剂和通用试剂。
附图简述
图1的曲线图展示了feature10子模型在独立测试集中所获得的ROC曲线。
图2的曲线图展示了feature30子模型在独立测试集中所获得的ROC曲线。
图3的曲线图展示了feature50子模型在独立测试集中所获得的ROC曲线。
图4的曲线图展示了feature70子模型在独立测试集中所获得的ROC曲线。
图5的曲线图展示了feature90子模型在独立测试集中所获得的ROC曲线。
图6的曲线图展示了feature110子模型在独立测试集中所获得的ROC曲线。
图7的曲线图展示了feature130子模型在独立测试集中所获得的ROC曲线。
图8的曲线图展示了feature150子模型在独立测试集中所获得的ROC曲线。
图9的曲线图展示了feature170子模型在独立测试集中所获得的ROC曲线。
图10的曲线图展示了feature190子模型在独立测试集中所获得的ROC曲线。
图11的曲线图展示了feature210子模型在独立测试集中所获得的ROC曲线。
图12的曲线图展示了feature230子模型在独立测试集中所获得的ROC曲线。
图13的曲线图展示了feature250子模型在独立测试集中所获得的ROC曲线。
发明详述
除非另有定义,否则本文中使用的所有技术和科学术语均具有与本领域一般技术人员通常所理解的含义相同的含义。为了本发明的目的,下文定义了以下术语。
所有的数字名称,例如pH、温度、时间、浓度和分子量,包括范围均是近似值,其以0.1的增量(+)或(-)变化。应理解,尽管不总是明确说明,所有数字名称前面具有术语“约”。术语“约”在与数字数值联合使用时意为涵盖具有比指定数字数值小5%的下限和比指定数字数值大5%的上限的范围内的数字数值。
术语“和/或”当用于连接两个或多个可选项时,应理解为意指可选项中的任一项或可选项中的任意两项或多项。
如本文中所用,术语“包含”或“包括”意指包括所述的要素、整数或步骤,但是不排除任意其他要素、整数或步骤。在本文中,当使用术语“包含”或“包括”时,除非另有指明,否则也涵盖由所述及的要素、整数或步骤组成的情形。例如,当提及“包含”某个具体序列的抗体可变区时,也旨在涵盖由该具体序列组成的抗体可变区。
还应理解,尽管不总是明确说明,本文描述的试剂仅是示例性的并且其等同物为本领域所知。
在本文中,术语“子宫内膜容受性”,是指子宫内膜对胚胎的接受能力。只有在短暂的特定时期内,子宫内膜对胚胎具有最大的接受能力,才允许胚胎着床。这一时期被称为容受期,也可被称为移植窗口期、容受性状态等等。相对地,当大部分情况下处于不能接受胚胎着床的时期时,则被称为非容受期、容受前期或非容受性状态等等。如无特别说明,这些称呼在本文中可互换地使用。
目前,如果能够确认子宫内膜的容受性状态,在大部分情况下可以通过移植不同时期胚胎的方式,使得胚胎成功着床。如果处于容受状态,那么移植D5(受精后开始第5天)时期的胚胎,着床成功的可能性很大;而处于容受前期状态时,移植D3(受精后开始第3天)时期的胚胎,着床成功的可能性很大。
术语“核酸”和“多核苷酸”可以互换使用并且指任何长度的核苷酸的聚合形式,脱氧核糖核苷酸或核糖核苷酸或其类似物。多核苷酸可以具有任何三维结构并且可以执行任何功能。以下是多核苷酸的非限制性实例:基因或基因片段(例如,探针、引物、EST或SAGE标签)、外显子、内含子、信使RNA(mRNA)、转运RNA、核糖体RNA、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、核酸探针,和引物。多核苷酸可以包含经修饰的核苷酸,如甲基化的核苷酸和核苷酸类似物。如果存在,可以在多聚体组装之前或之后进行核苷酸结构的修饰。核苷酸的序列可以被非核苷酸组分中断。多核苷酸可以在聚合后,如通过与标记的组分缀合来进一步修饰。所述术语还指双链和单链分子。除非另外指明或要求,本发明的任何多核苷酸的实施方案包括双链形式和已知的或预测构成双链形式的两条互补的单链形式的每一条链。
术语“标志物”或“生物标志物”在本文中互换地使用。
本文中的术语“标志物”是指这样的一类物质,其来自于在体或离体样本,并且相对而言容易利用本领域已有的或常规的实验方法和工具来检测其在样本中的存在水平,而这种存在水平(例如,高低或有无)与某种特定的生理或病理状态有关联,因此可以藉由获取该标志物的存在水平而推断或辅助推断这种特定的生理或病理状态。标志物可以是机体内存在的任何物质,例如但不限于,核酸、多糖、蛋白质、无机或有机小分子,或它们的聚合物或杂合物(例如,糖蛋白、磷酸化的蛋白、甲基化的核酸序列,等等),或它们(例如,蛋白质)的编码基因。在本发明的一些实施方案中,标志物是特定基因,由表达量的变化而反映出来,优选地,所述表达量反映为mRNA的含量。在本发明的一些实施方案中,需要被推断的特定的生理状态是指子宫内膜容受性,即进行胚胎移植操作后,胚胎着床将以高概率发生。在一些进一步的实施方案中,所述样本是无创样本。在一些优选的实施方案中,所述基因的表达量通过测序得到。
“基因”指含至少一个可读框(ORF)的多核苷酸,其在转录和翻译后能编码特定的多肽或蛋白质。能将多核苷酸序列用于鉴定与其相关的基因的较大片段或全长编码序列。分离较大片段序列的方法是本领域技术人员已知的。
“基因表达”或备选地“基因产物”指基因转录和翻译时产生的核酸或氨基酸(例如,肽或多肽)。
当在多核苷酸操作的上下文中使用时,“探针”指寡核苷酸,其提供为通过与靶标杂交,检测可能存在于目的样品中的靶标的试剂。通常,探针包含标记或者杂交反应之前或之后标记可以结合的方法。合适的标记包括但不限于,放射性同位素、荧光色素、化学发光化合物、染料和蛋白质包括酶。
“引物”是通常具有游离的3'-OH基的短的多核苷酸,其通过与靶标杂交,与目的样品中可能存在的靶标或“模板”结合,从而促进与靶标互补的多核苷酸的聚合。“聚合酶链反应”(“PCR”)是这样的反应:使用由“上游”和“下游”引物组成的“一对引物”或“一套引物”,聚合的催化剂如DNA聚合酶以及一般热稳定聚合酶,复制组成靶多核苷酸的拷贝。PCR方法是本领域熟知的,并且例如在PCR:A Practical Approach,M.MacPherson等人,IRL Pressat Oxford University Press(1991)中教导。产生多核苷酸的复制拷贝的全部过程,例如PCR或基因克隆在本文中总称为“复制”。还可以将引物用作杂交反应,例如DNA或RNA印迹分析中的探针(Sambrook等人,Molecular Cloning:A Laboratory Manual,第二版(1989))。
如本文中所用,“表达”指DNA转录成mRNA的过程和/或转录的mRNA随后翻译成肽、多肽或蛋白质的过程。如果多核苷酸来源于基因组DNA,表达可以包括真核细胞中mRNA的剪接。
当将“差异表达”应用于基因时,指从该基因转录和/或翻译的mRNA或者由该基因编码的蛋白质产物的差异产生。与对照细胞的表达水平相比,差异表达基因可以是过表达或者低表达(underexpress)。然而,如本文所用,过表达是基因表达的增加并且一般是在对照对应物细胞或组织中检测到的至少1.25倍或,备选地至少1.5倍或,备选地至少2倍,或备选地至少3倍或备选地,至少4倍表达。如本文所用,低表达是基因表达的降低并且一般低于在对照对应物细胞或组织中检测到的至少1.25倍或备选地,至少1.5倍或备选地,至少2倍或备选地,至少3倍或备选地,至少4倍表达。术语“差异表达的”还指其中在癌细胞或癌组织中检测到表达并且该表达存在,但在对照细胞中不能检测到表达。
术语“cDNA”指互补DNA,即用酶如逆转录酶将细胞或生物中存在的mRNA分子制备成cDNA。“cDNA”文库是细胞或生物中存在的全部mRNA分子的集合,用逆转录酶将所述mRNA全部转变成cDNA分子,然后插入到“载体”(在添加外源DNA后可以继续复制的其他DNA分子)中。用于文库的示例性载体包括噬菌体、感染细菌的病毒,如λ噬菌体。然后可以针对特定的目的cDNA(和由此得到的mRNA)探测文库。
基因表达的测量
可以通过任何合适的方法检测基因表达,其包括例如检测由基因转录的mRNA的量或者由基因转录出的mRNA逆转录产生的cDNA的量或者由基因编码的多肽或蛋白质的量。基于样品或者改良的高通量分析,可以在样品上进行这些方法。
例如,使用已知技术可以测定基因拷贝数、转录或翻译中的任一种。例如,可以使用扩增方法如PCR。PCR的一般步骤教导于MacPherson等人,PCR:A Practical Approach,(IRL Press at Oxford University Press(1991))中。然而,用于每一应用反应的PCR条件是由经验确定的。许多参数都影响反应的成功。尤其是退火温度和时间、延伸时间、Mg2+和/或ATP浓度、pH和引物的相对浓度、模板,以及脱氧核糖核苷酸。扩增后,可以通过琼脂糖凝胶电泳,之后用溴化乙锭染色和紫外照明来显示,检测得到的DNA片段。
在一个实施方案中,通过检测与样品核酸连接的一个或多个标记,来检测杂交的核酸。能通过本领域技术人员熟知的任意的多种方法掺入标记。然而,在一个方面,在制备样品核酸的扩增步骤期间,同时掺入标记。因此,例如使用经标记的引物或经标记的核苷酸进行的聚合酶链反应(PCR)可以提供经标记的扩增产物。在分离的实施方案中,使用经标记的核苷酸(例如,荧光素标记的UTP和/或CTP)进行如上所述的转录扩增,将标记掺入到转录的核酸中。
备选地,可以将标记直接加入到最初的核酸样品(例如,mRNA、多聚A、mRNA、cDNA等)中或者在扩增完成后直接加入到扩增产物中。将标记与核酸连接的方法是本领域技术人员熟知的,并包括例如,通过核酸的激酶的作用进行切口平移或末端标记(例如,使用经标记的RNA),随后将结合了样品核酸的核酸接头与标记(例如,荧光团)结合(连接)。
标记的检测是本领域技术人员熟知的。因此,例如可以使用胶片或者闪烁计数器检测放射性标记、可以使用检测发射光的光检测器检测荧光标记。通常通过提供酶和底物,并检测由于酶对底物作用而产生的反应产物来检测酶标记,以及通过简单的可视化颜色标记来检测量热标记。
因此,“用于测定生物标志物的水平或其量的试剂”是指可用于定量或测量样品中的生物标志物的水平或其量的试剂。基于本发明所提供的生物标志物的序列,这样的试剂可通过本领域公知的常规方法容易地设计或获得。例如,这样的试剂包括但不限于,可用于通过例如实时PCR来定量或测量生物标志物的水平或其量的PCR引物;可用于通过例如定量Southern印迹来定量或测量生物标志物的水平或其量的探针;可用于定量或测量生物标志物的水平或其量的微阵列(例如,基因芯片)等。另外,如本领域已知的,第二代测序方法或第三代测序方法也可用于定量或测量生物标志物的水平或其量。因此,这样的试剂也可以是可商购的用于进行第二代测序方法或第三代测序方法的试剂。
术语人类参考基因组指记载了人类染色体上每个位置的碱基组成的文件,由人类基因组计划产生,GRCh38是第38版本。Homo_sapiens.GRCh38.84.gtf与GRCh38是人类参考基因组匹配的基因注释文件,记载了基因及其在参考基因组上的位置等信息。
术语Reads或称为读段,是指NGS下机数据中所包括的非常多的序列,每一条序列称为一个read。
双端测序,一个片段分别左右两端各进行了一次测序,生成了两个reads,这两个reads属于同一个DNA片段
术语Trimmomatic指一个处理NGS下机数据的工具,http://www.usadellab.org/ cms/?page=trimmomatic
术语HISAT2是指将reads比对到人类参考基因组的工具,参见http:// daehwankimlab.github.io/hisat2/
术语htseq_count指一个计算基因上片段数目的工具,https:// htseq.readthedocs.io/en/master/index.html
edgeR基因差异表达分析常用的一个工具,https://www.bioconductor.org/ packages/release/bioc/vignettes/edgeR/inst/doc/edgeRUsersGuide.pdf
术语LogFoldChange指差异表达分析中衡量一个基因在两组样本间的表达的差异,计算方法是组1的表达的均值(或者中值)除以组2的表达的均值(或者中值),再用log2作转换。
如无特别说明,FDR在本文中指在edgeR中将p-value用FDR矫正之后的值,矫正方法为Benjamini-Hochberg方法。
术语TPM或完整名称:Transcripts Per Million reads,是一种当测序样本量差异过大引起测序下机数据量差异过大时,进行相对定量的指标。TMP先处理基因长度引起的reads数差异问题,再处理测序深度引起的reads数差异问题。要强调准确度或者定量目标基因的表达量的时候,TPM是最有效的,它的应用使得不同的测序样本之间的相对表达量可比。TPM计算公式如下(Ni为第i个基因上的reads count,Li为第i个基因的长度):
Figure BDA0003547581890000111
机器学习
术语“预测模型”指通过对数据集合应用预测方法而获得的特定数学模型。在本文详述的实施例中,这样的数据集获自受试者无创样品中的基因表达量测量结果组成,其中各样品的分类(容受期或容受前期)是已知的。此模型可用来将容受性状态未知的样品归类为容受期或容受前期,可选地,这种归类是一种概率预测(即,产生欲解释为概率的比例或百分比)。有关这些基因特异性测量结果如何组合起来产生分类和概率预测的确切细节,取决于用来构建预测模型的具体机制。
术语“机器学习算法”,按其在本领域所公知的含义,意指使得计算机达到某种人工智能化目的的具体策略,常见的算法策略包括归纳学习、类比学习、分析学习等等。按照学习形式又分为监督学习和无监督学习,前者是指利用一组已知结果的样本调整算法分类器的参数,使其逐渐接近并达到所要求性能的过程,本领域常用的监督学习算法包括朴素贝叶斯,决策树,k-近邻,神经网络,支持向量机,随机森林,逻辑回归,最小二乘法,adboost算法、隐码Markov模型等。如无特别说明,机器学习算法在本文中都使用监督学习算法。本领域技术人员能够知晓,由于本发明寻求发现内在规律,机器学习算法对所需的训练样本,即已知结果的样本的数量无确定的要求,常规的、可获得的样本规模能够满足训练算法的需要。
如无特别说明,术语“随机森林”指随机森林模型,是一种集成的监督学习算法,通过建立多个决策树模型然后将它们融合起来得到一个更加准确和稳定的模型,而且该模型在使用默认参数时也可以得到较好的结果,是目前本领域常用的模型之一。随机森林模型在R语言上的一个实现范例可参见:https://cran.r-project.org/web/packages/ randomForest/randomForest.pdf。在本发明的一些优选的实施方案中,机器学习算法是随机森林模型。
在本发明的一些具体的实施方案中,随机森林模型常用的超参数如下:
a)n_estimators,构建的决策树的数目,通常数量越大越好,但是计算时间也会随着增加,当决策树的数目达到一定值时,效果不会再变好。
b)max_features构建每个决策树时,随机抽取的特征的数目,该值越小,决策树之间的相似性越低。
c)max_sample,构建每个决策树时,使用的样本的数目或者比例,该值越低,决策树之间的相似性也越低。
d)class_weight每个类别的样本的比重,默认所有类别的样本的比重一样,对于不平衡的样本可以采用balanced。
e)criterion构建决策树时用来评估每个分割的质量的指标。
f)max_depth每个决策树的最大深度。
g)min_samples_split决策树进行分割时需要的最小的样本数。
h)min_samples_leaf决策树每个节点最小的样本数。
如无特别说明,在本文中,模型的训练是指这样的过程,寻找一组最优的超参数用于最终模型的构建。在本发明的一些具体的实施方案中,模型训练使用的方法如下:
i.随机法,将超参数随机组合,搜索一段时间后选择最优的参数,调参时用分别用准确性来评估模型;
ii.用默认参数训练模型;
iii.选择两个方法中最优的方法,评估指标是10-折交叉验证(10-fold cv)的平均准确度。
术语Scikit-learn是指基于python语言的机器学习软件,参见https://scikit- learn.org/stable/
术语Caret是指一个用于机器学习模型调参的软件,参见https:// topepo.github.io/caret/index.html
ROC曲线全称Receiver Operating Characteristic curve(受试者工作特征曲线),是反映敏感度和特异度连续变量的、通过作图展示两者关系的综合指标。AUC(areaunder the ROC curve)即ROC曲线下面积,AUC越大越好,提示该试验的分类准确性越高。
在一个方面,本发明提供了一种利用无创方式获取待分析活体样本的方法。在一个具体的实施方式中,所述无创方式是胚胎预移植时移植管壁粘附痕量组织。在另一个具体的实施方式中,所述无创方式是胚胎移植时移植管壁粘附痕量组织。
在一个实施方案中,通过无创方式所获取的样本中,细胞数少于1000个。在一个更具体的实施方案中,通过无创方式所获取的样本中,细胞数少于900个、800个、700个、600个、500个、400个、300个或200个。在一个优选的实施方案中,通过无创方式所获取的样本中,细胞数介于400个和300个之间。
在一个具体的实施方案中,本发明的方法进一步包括通过截取加冲洗的方法,将管壁的细胞、组织转移至样本采集管中。在一个具体的实施方案中,在一个优选的实施方案中,样本采集管内预先加入了组织样本保存液,
在一个实施方案中,本发明的方法进一步包括提取样本中的总RNA。在一个具体的实施方式中,所述提取过程采用亿康MALBAC白金微量RNA扩增试剂盒(KT110700724),按照生产商提供的说明书进行。在另一个具体的实施方式中,所述提取过程包括以下步骤:a)对样本进行高速离心,(第一次1600g,2分钟;第二次3000g,3分钟;第三次13000rpm,5分钟)以沉淀全部细胞。b)去除上清液,加入200μL×2组织样本保存液重悬细胞,以3000g离心5分钟;200μL×1次,留约50μL。c)加入300μL细胞裂解液,剧烈震荡30秒至1分钟;瞬时离心,弃上清。d)加入350μL现配70%的乙醇后震荡混匀;瞬时离心,弃上清。e)加入650μL上述混合液体至吸附柱中,13000×g离心1分钟,弃离心废液。f)向吸附柱膜上加入500μL清洗缓冲液,13000×g离心1分钟,弃离心废液。g)将100μL DNA消化酶小心滴在吸附柱膜上,25度孵育15分钟。h)加入500μL清洗缓冲液,13000×g离心1分钟,弃离心废液;再次加入500μL的清洗缓冲液于吸附柱上,13000×g离心1分钟,弃离心废液。i)向管内加入700μL 80%乙醇13000×g离心2分钟,弃离心废液;再次13000×g离心1分钟,弃收集管。j)将吸附柱插入1.5mL离心管中,开盖晾干1分钟;加入20μL DEPC水,25度孵育1分钟,13000×g离心2分钟,再重复1次,共收集40μL洗脱液,即为总RNA。在一个更具体的实施方式中,无创取样所获得的微量样本中,几乎全部RNA都被抽提出来,从而为后续检测提供足量的纯化RNA核酸样品。
在一个实施方案中,本发明的方法进一步包括将RNA核酸样品中的信使RNA逆转录,生成cDNA文库。在一个具体的实施方案中,所述逆转录使用亿康MALBAC白金微量RNA扩增试剂盒(KT110700724),按照生产商提供的说明书进行。在一个具体的实施方案中,本发明无创样本所获得cDNA文库的浓度为约10-20ng/μL、约20-30ng/μL、约30-40ng/μL、约40-50ng/μL、约50-60ng/μL、约60-70ng/μL、约70-80ng/μL、约80-90ng/μL。
在一个实施方案中,本发明的方法进一步包括进一步处理cDNA文库以构建测序文库。在一个具体的实施方案中,所述进一步处理使用使用亿康片段化试剂盒(KT100804248)和基因测序文库试剂盒(KT100804048),按照生产商提供的说明书进行。
在另一个可替代的实施方案中,本发明的方法中所使用的细胞裂解方法、和/或RNA提取方法、和/或逆转录方法、和/或文库扩增方法、和/或片段化方法、和/或测序文库构建方法是参照申请人的申请号为201810019044.7的中国发明专利申请的在前申请,其全部内容在此并入本文。
在一个实施方案中,本发明的方法进一步包括对所得文库实施测序。在一个具体的实施方式中,所述测序的方法是下一代测序(NGS,Next-Generation Sequencing)。在另一个具体的实施方式中,所述测序的方法是Sanger法测序,或第三代测序(例如,诸如,纳米孔测序)。在本发明一个优选的实施例中,本发明使用Illumina Nextseq测序系统以及配套的Next-seq High-Output Kit试剂盒。
在另一个方面,本发明提供了一种容受性预测模型的建立方法。在一个实施方案中,本发明提供了一种对测序结果进行机器学习算法分析,并建立容受性预测模型的方法。
在一个具体的实施方案中,所述机器学习算法分析包括以下步骤:I)将样本按照金标准(实际临床结局)分为容受性和非容受性两类,并优选地拆分为两个集合,训练集和测试集,并取训练集样本数据进行下一步骤;II)将训练集样本全部数据去噪音、去偏倚,生成分别针对每个基因的片段计数比对文件;III)筛选和收集存在差异表达的基因,将其作为待鉴定特征;IV)将数据转换为TPM,作为每个基因的标准化后的表达量数据,从而消除样本下机数据量差异的影响;V)将所述待鉴定特征(基因)的表达量数据输入机器学习算法,由机器学习算法进行监督学习,得到每个特征对于判断容受性的阈值、灵敏度和重要性,从而得到容受性预测模型。优选地,将所建立的模型在测试集中进行准确性验证。
在一个实施方案中,所述模型包括一个或多个子模型,不同的子模型包含前述差异表达基因的全部或不同的部分。
在一个具体的实施方案中,所述步骤II)具体包括:
c)对于每个样本的测序下机数据分别进行如下处理
i.下机数据用trimmomatic(版本0.33)处理,去除接头序列,过滤低质量reads,产生清洗过的干净测序数据
ii.将上一步骤产生的干净的测序数据,用HISAT2(版本2.0.5),比对到人类参考基因组(版本GRCh38),产生比对文件
iii.将上一步骤产生的比对文件进行排序,并将重复序列进行标记,产生最终的比对文件
iv.将上一步骤产生的比对文件用htseq_count进行处理,该步骤还需要使用一个基因注释文件,Homo_sapiens.GRCh38.84.gtf文件,该文件从Ensembl下载,其中包含了每个基因的名字、位置坐标等信息,htseq_count可以根据该信息统计每个基因所在的区域上有多少序列(对于双端测序,属于同一片段的reads在统计时只计数一次),生成genecount文件
d)将一个批次的所有样本的genecount文件进行合并,生成总的genecount文件,其中每一行是一个样本,每一列是一个基因,其中的数据是该样本中属于该基因的片段数。在一个具体的实施方案中,所述步骤III)具体包括以下选取方式:
i.排除后续干扰较大的rRNA相关和线粒体相关的基因。
ii.对于训练集,进行基因差异表达分析,将两类样本中的有差异的基因筛选出来,得到3193个基因
iii.将上一步筛选到的3193个基因,进一步通过变量筛选,所得共250个基因,作为候选feature进行下一步模型的训练,详细列表见表2。
在一个更具体的实施方案中,所述变量筛选为从差异表达基因中选择FDR<0.001的基因,得到1270个基因,利用edgeR的cpm函数输出每个样本每个基因的logTMM值,对这些基因计算两两之间的pearson相关性,然后按照如下步骤筛选基因
1)将基因按照FDR从小到大进行排序;
2)将列表中最上面的基本标记为已选择;
3)将相关性与与已选择的基因中的任一基因大于等于0.6的基因标记为剔除;
4)重复2)和3)直到列表末尾;
5)用筛选得到的基因构建模型,用10-fold cross-validation的方法评估准确性,逐次删除掉对模型的准确性无影响的基因,最后得到250个基因。
在一个更加具体的实施方案中,上述步骤ii.采用edgeR(版本3.34.0)进行基因差异表达分析,筛选条件是logFoldChange>0,FDR<0.05,包括以下步骤:
a)edgeR需要两个输入文件,第一个是genecount文件,其中包含了每个样本中每个基因的reads数目,第二个是样本信息文件,其中包含样本属于哪一类别;
b)edgeR读入输入文件后,首先将每个样本中每个基因的reads数目进行归一化,归一化时选择了在所有样本中都有稳定表达的基因;
c)edgeR然后根据样本的类别信息,寻找在不同的类别中表达有差异的基因,差异的显著性经过FDR矫正后的p-value表示,p-value越小,差异越显著。
在一个具体的实施方案中,所述步骤IV)具体包括将genecount数据转换为TPM,以排除样本下机数据量的影响。计算公式如下:
Figure BDA0003547581890000151
其中Ni是第i个基因上的reads count,Li是第i个基因的长度。
在一个具体的实施方案中,所述步骤V)中的机器学习算法为随机森林算法。
在一个实施方案中,本发明的方法进一步包括在拆分出的独立的测试集中对所建立的容受性预测模型的灵敏度、特异性、准确性、ROC等指标进行评估和/或验证。
在一个具体的实施方案中,本发明的方法进一步包括在至少两个测试集中对所建立的容受性预测模型进行验证。
在另一个方面,本发明还提供了生物标志物集合,所述生物标志物集合用于预测子宫内膜容受性,以指导胚胎移植。
在一个实施方案中,本发明的生物标志物集合包含上述步骤III)中鉴定的差异表达基因中的部分或全部,例如多于5个和小于等于250个之间的任意个。在一个更具体的实施方案中,为了能够准确地预测子宫内膜容受性,以指导胚胎移植,本发明的生物标志物集合包括至少10个基因成员。在一个更加具体的实施方案中,本发明的生物标志物集合包括至少11个基因成员、至少12个基因成员、至少13个基因成员、至少14个基因成员、至少15个基因成员、至少16个基因成员、至少17个基因成员、至少18个基因成员、至少19个基因成员、至少20个基因成员、至少25个基因成员、至少30个基因成员、至少35个基因成员、至少40个基因成员、至少45个基因成员、至少50个基因成员、至少55个基因成员、至少60个基因成员、至少65个基因成员、至少70个基因成员、至少80个基因成员、至少90个基因成员、至少100个基因成员、至少110个基因成员、至少120个基因成员、至少130个基因成员、至少140个基因成员、至少150个基因成员、至少160个基因成员、至少170个基因成员、至少180个基因成员、至少190个基因成员、至少200个基因成员、至少210个基因成员、至少220个基因成员、至少230个基因成员、至少240个基因成员、至少250个基因成员。在一个实施方案中,本发明的生物标志物集合包含根据上述步骤V)中建立的容受性预测模型中权重最高的5个基因、6个基因、7个基因、8个基因、9个基因、10个基因、15个基因、20个基因、25个基因、30个基因、40个基因、50个基因、60个基因、70个基因、80个基因、90个基因、100个基因、110个基因、120个基因、130个基因、140个基因、150个基因、160个基因、170个基因、180个基因、190个基因、200个基因、210个基因、220个基因、230个基因、240个基因或250个基因。
在一个实施方案中,本发明的生物标志物集合至少包含下列基因:ELK4、PRKACB、PHB2、GM2A、PPA1、NCEH1、CAPG、DDIT4、LDHB和TDRD6。在一个优选的实施方案中,本发明的生物标志物集合包含下列基因:ELK4、PRKACB、PHB2、GM2A、PPA1、NCEH1、CAPG、DDIT4、LDHB和TDRD6还依次包含表2中序号为11-250的基因标志物中的5个基因、6个基因、7个基因、8个基因、9个基因、10个基因、15个基因、20个基因、25个基因、30个基因、40个基因、50个基因、60个基因、70个基因、80个基因、90个基因、100个基因、110个基因、120个基因、130个基因、140个基因、150个基因、160个基因、170个基因、180个基因、190个基因、200个基因、210个基因、220个基因、230个基因或240个基因。
在一个特别的方面,本发明所述的子宫内膜容受性预测模型包括一个或多个子模型,其中不同的子模型中分别涉及上述不同的标志物集合。
在又一个方面,本发明提供了基于所述生物标志物集合的用途和方法。
在一个实施方案中,本发明提供了上述生物标志物集合或其特异性检测工具用于制备测定组合物、测定试剂和/或测定设备的用途,所述测定组合物、测定试剂和/或测定设备用于检测和判断受试者的子宫内膜容受性状态,其中所述测定组合物、测定试剂和/或测定设备能够在来自受试者的样品中检测上述生物标志物集合中每一成员的表达量;并将表达量通过本发明的容受性预测模型进行计算,所得结果用于判断诊断子宫内膜容受性状态。
在一个实施方案中,本发明提供了子宫内膜容受性预测方法,所述方法包括,利用用于特异性测定生物标志物的水平或其量的物质或方法,获得所述生物标志物集合全部基因成员的表达量。在一个具体的实施方案中,所述用于测定生物标志物的水平或其量的物质是组合物、试剂或设备。在一个具体的实施方案中,所述用于测定生物标志物的水平或其量的物质是特异性引物和/或探针分子。在一个更具体的实施方案中,所述用于测定生物标志物的水平或其量的组合物或试剂进一步包括标签序列、接头序列、荧光分子、焦磷酸分子和标记分子之中的一种或多种。在一个具体的实施方案中,所述用于测定生物标志物的水平或其量的方法是PCR方法。在一个更具体的实施方案中,所述PCR方法是实时荧光定量PCR、恒温扩增PCR等等本领域常用的方法。在一个具体的实施方案中,所述用于测定生物标志物的水平或其量的方法是测序方法。在一个更具体的实施方案中,所述测序方法是下一代测序(NGS,Next-Generation Sequencing)、Sanger法测序和第三代测序(例如,诸如,纳米孔测序)之中的一种或多种。
在一个实施方案中,所述用于测定生物标志物的水平或其量的试剂不包含特异性检测本发明的生物标志物集合中的成员以外其他基因的试剂。
在一个实施方案中,所述用于测定生物标志物的水平或其量的方法不测定本发明的生物标志物集合中的成员以外其他基因的水平或其量。
在一个实施方案中,本发明提供了一种子宫内膜容受性预测方法,所述方法中使用的样本通过无创方式获取,即,样本的获取不对待孕者内膜造成损伤。在一个优选的实施方案中,本发明提供了一种整合的无创子宫内膜容受性预测方法,所述“整合的”意为本方法无需单独额外进行,而是在胚胎预移植或胚胎移植操作时同时进行,取样过程整合在上述操作中,从而取样周期即为移植周期。如当周期移植失败,且检测结果提示为内膜原因,可参考检测结果指导下一个周期的移植,无需等待,极大缩短待孕者的达孕时间。
在又一个方面,本发明提供了用于上述方法的试剂盒,所述试剂盒包含用于测定本发明的生物标志物组合中的每种生物标志物在样品中的水平或其量的试剂,例如特异性试剂和通用试剂。
通过以下实施例,以举例而非限制的方式,说明本发明的实施方案,及其技术效果。其他实施方案、方法和产品在分子诊断、分子生物学领域普通技术人员的能力范围内,故无需在此详细说明。落在本领域范围内的其他实施方案视为本发明的一部分。
实施例
实施例1在等待胚胎移植的受试者中建立子宫内膜无创取样的方法
发明人无意中发现,作为胚胎移植的重要指导步骤之一,胚胎预移植,在其操作过程中所粘附的痕量组织细胞足以用于进行与子宫内膜容受性相关的基因差异表达分析。
为了确定上述发现的稳定性和可靠性,发明人收集了临床上243例来自受试者胚胎预移植的操作管所粘附的痕量组织细胞。
(预)移植操作后,截取加冲洗移植管壁,从而粘附于其上的极其微量的子宫内膜组织或细胞转移至样本采集管中。样本采集管内的组织样本保存液(康为世纪,CW0592M),可以对组织细胞样本进行保护,以保障后续总RNA的提取。
临床取样情景1(共12例):移植管带出肉眼可见组织,使用4摄氏度PBS冲洗移植导管内外壁于培养皿中,使用无核酸酶吸头,将小块内膜组织挑取转移至ERT组织保存管(1.5mL)内(管内含0.3ml保存液)。
临床取样情景2(共231例):无肉眼可见组织,通过内管冲洗法结合截取法,对极少量细胞进行回收。内管冲洗法:更换全新1mL注射器,推注100-150uL的PBS对移植导管进行冲洗,将冲洗液直接注入ERT组织保存管(1.5mL)内(管内含0.5ml保存液),根据实际情形可重复上述步骤1次。截取法:截取约5mm移植导管的外管以及8-10mm内管,直接置于ERT组织保存管(1.5mL)内(管内含0.3ml保存液)。
随后,利用痕量细胞RNA提取方法,尽可能完整提取总RNA。并利用亿康自研的MALBAC白金微量RNA扩增试剂盒(KT110700724)逆转录和扩增得到cDNA文库。提取方法按如下步骤进行:
a)对样本进行高速离心,(第一次1600g,2分钟;第二次3000g,3分钟;第三次13000rpm,5分钟)以沉淀全部细胞。
b)去除上清液,加入200μL×2组织样本保存液重悬细胞,以3000g离心5分钟;200μL×1次,留约50μL。
c)加入300μL细胞裂解液,剧烈震荡30秒至1分钟;瞬时离心,弃上清。d)加入350μL现配70%的乙醇后震荡混匀;瞬时离心,弃上清。
e)加入650μL上述混合液体至吸附柱中,13000×g离心1分钟,弃离心废液。
f)向吸附柱膜上加入500μL清洗缓冲液,13000×g离心1分钟,弃离心废液。
g)将100μL DNA消化酶小心滴在吸附柱膜上,25度孵育15分钟。
h)加入500μL清洗缓冲液,13000×g离心1分钟,弃离心废液;再次加入500μL的清洗缓冲液于吸附柱上,13000×g离心1分钟,弃离心废液。
i)向管内加入700μL 80%乙醇13000×g离心2分钟,弃离心废液;再次13000×g离心1分钟,弃收集管。
j)将吸附柱插入1.5mL离心管中,开盖晾干1分钟;加入20μL DEPC水,25度孵育1分钟,13000×g离心2分钟,再重复1次,共收集40μL洗脱液,即为总RNA。提取也可按照试剂盒说明书进行。逆转录按照试剂盒(KT110700724)说明书进行,或按申请号为201810019044.7的中国发明专利申请的说明书中记载的逆转录操作方式进行。
获得cDNA文库,如下表1所示:
表1
cDNA制备 测序文库制备 最终预测结果
成功例数 243 228 224
总例数 243 243 243
成功率 100.0% 93.8% 92.2%
结果显示,243例痕量细胞能够全部成功获得质量可靠的cDNA文库。并且在后续的方法中,分别有228例成功进行建库测序,并有224例最终根据本发明的技术方案获得了准确的容受性预测结果(参见后续实施例)。
发明人进一步对所获得的cDNA文库测量其核酸浓度,并反推无创样本中的细胞数,设置常规方法组和无创样本组两组样本进行比较:
243例无创样本所获得cDNA文库的浓度平均为45.9±30.4ng/μL;
常规方法组即临床上利用子宫内膜细胞活检、子宫内膜脱落细胞采样等有创方法所取得的样本,共计7例,从其总RNA中取10ng进行cDNA文库构建,所得cDNA文库的浓度平均为114.5±12.4ng/μL。
基于常规方法组的10ng总RNA所对应的细胞量约为2300-2700个/样本,结合cDNA扩增的效率曲线,经计算可得无创样本组的细胞量约为300-1000个/样本。
因此,通过本实施例,发明人建立了通过无创取样方法获取子宫内膜容受性预测样本的新方法,并验证了其稳定性和可靠性。
对于进行胚胎预移植操作的受试者,可以通过本发明的无创取样方法获取样本,并预测子宫内膜容受性,指导后续胚胎移植,大大提高成功率。
对于已经进行胚胎移植操作的受试者,同样可以通过本发明的无创取样方法获取样本,并预测子宫内膜容受性。如果本次移植失败,可以参考该预测结果指导后续胚胎移植,利用尽量少的操作获取更多信息,减少受试者的痛苦。
由于样本中相对匮乏的细胞含量,和不同于常规样本的细胞种类,给预测性模型的建立带来了新的挑战,将通过以下更多实施例建立和完善后续方法步骤。
实施例2:无创取样所获样本的扩增和测序
对于实施例1中所获取的cDNA文库,利用亿康片段化试剂盒(KT100804248)和基因测序文库试剂盒(KT100804048)进行测序文库构建。具体操作步骤按照说明书,或按申请号为201810019044.7的中国发明专利申请的说明书中记载的逆转录操作方式进行。
所获得的测序文库,使用Illumina Nextseq测序系统以及配套的Next-seq High-Output Kit试剂盒进行测序,并得到下机数据。本领域技术人员也可以使用本领域任何常用的测序方案对所得文库进行测序。
实施例3从测序数据中筛选和分析差异表达基因,作为子宫内膜容受性生物标志 物集合,并利用随机森林算法建立预测模型。
将实施例1所述样本,根据最后实际临床结局进行分类,分为容受期和容受前期(即非容受期),具体划分方法如下:
如果样本来源受试者移植D5时期的胚胎,后续该胚胎着床成功,则表明移植时该待检样本处于容受状态;胚胎着床不成功则该待检样本处于容受前期状态。
如果样本来源受试者移植D3时期的胚胎,后续该胚胎着床成功,则表明移植时该待检样本处于容受前期状态;胚胎着床不成功则该待检样本处于容受期状态。
用D5+序号或D3+序号对样本进行编号,根据临床结局金标准标记其容受状态。并将该243例样本分为两组:用于监督训练机器学习算法从而建立预测模型的训练集,包括211例样本;和用于随后对所建立模型进行独立测试的测试集,包括32例样本。
3.1差异表达基因鉴定
从实施例2中获得测序下机数据,用于分析每个基因的相对表达量,进而比较两类样本之间的基因表达量,从而鉴定出存在差异表达的基因。
具体地,每个样本的下机数据进行如下处理:
i.下机数据用trimmomatic(版本0.33)处理,去除接头序列,过滤低质量reads,产生清洗过的干净测序数据。
ii.将上一步骤产生的干净的测序数据,用HISAT2(版本2.0.5),比对到人类参考基因组(版本GRCh38),产生比对文件。
iii.将上一步骤产生的比对文件进行排序,并将重复序列进行标记,产生最终的比对文件。
iv.将上一步骤产生的比对文件用htseq_count进行处理,该步骤还需要使用一个基因注释文件,即Homo_sapiens.GRCh38.84.gtf文件,该文件从Ensembl下载,其中包含了每个基因的名字、位置坐标等信息,htseq_count可以根据该信息统计每个基因所在的区域上有多少序列(对于双端测序,属于同一片段的reads在统计时只计数一次),生成genecount文件。
v.将一个批次的所有样本的genecount文件进行合并,生成总的genecount文件,其中每一行是一个样本,每一列是一个基因,其中的数据是该样本中属于该基因的片段数。
从而,得到了每个具体样本中每个基因的相对表达量。进而通过以下具体步骤鉴定有应用意义的差异表达基因:
i.排除后续干扰较大的rRNA相关和线粒体相关的基因。
ii.对于训练集,采用edgeR(版本3.34.0)进行基因差异表达分析:
a)edgeR需要两个输入文件,第一个是genecount文件,其中包含了每个样本中每个基因的reads数目,第二个是样本信息文件,其中包含样本属于哪一类别(即:容受期或容受前期);
b)edgeR读入输入文件后,首先将每个样本中每个基因的reads数目进行归一化,归一化时选择了在所有样本中都有稳定表达的基因;
c)edgeR然后根据样本的类别信息,寻找在不同的类别中表达有差异的基因,差异的显著性经过FDR矫正后的p-value表示,p-value越小,差异越显著。筛选条件设置为logFoldChange>0,FDR<0.05,将两类样本中的有差异的基因筛选出来,得到3193个基因。
iii.将上一步筛选到的3193个基因,进一步进行变量筛选,所述变量筛选为从差异表达基因中选择FDR<0.001的基因,得到1270个基因,利用edgeR的cpm函数输出每个样本每个基因的logTMM值,对这些基因计算两两之间的pearson相关性,然后按照如下步骤筛选基因:
1)将基因按照FDR从小到大进行排序;
2)将列表中最上面的基本标记为已选择;
3)将相关性与与已选择的基因中的任一基因大于等于0.6的基因标记为剔除;
4)重复2)和3)直到列表末尾;
5)用筛选得到的基因构建模型,用10-fold cross-validation的方法评估准确性,逐次删除掉对模型的准确性无影响的基因,最后得到250个基因。
3.2利用差异表达基因建立预测模型
由上一步骤获得250个差异表达基因的表达数据作为feature,进一步利用机器学习算法建立从基因表达数据判断子宫内膜容受性状态的预测模型。
1.数据处理:
将genecount数据转换为TPM,以排除样本下机数据量的影响。计算公式如下:
Figure BDA0003547581890000211
其中Ni是第i个基因上的reads count,Li是第i个基因的长度。
2.模型选择:随机森林模型,是一种集成学习方法,通过建立多个决策树模型然后将它们融合起来得到一个更加准确和稳定的模型,而且该模型在使用默认参数时也可以得到较好的结果,是目前常用的模型之一。
(1).随机森林模型常用的超参数如下:
a)n_estimators,构建的决策树的数目,通常数量越大越好,但是计算时间也会随着增加,当决策树的数目达到一定值时,效果不会再变好
b)max_features构建每个决策树时,随机抽取的特征的数目,该值越小,决策树之间的相似性越低
c)max_sample,构建每个决策树时,使用的样本的数目或者比例,该值越低,决策树之间的相似性也越低
d)class_weight每个类别的样本的比重,默认所有类别的样本的比重一样,对于不平衡的样本可以采用balanced
e)criterion构建决策树时用来评估每个分割的质量的指标
f)max_depth每个决策树的最大深度
g)min_samples_split决策树进行分割时需要的最小的样本数
h)min_samples_leaf决策树每个节点最小的样本数
(2).模型训练:模型训练的过程是寻找一组最优的超参数用于最终模型的构建,本次训练使用的方法如下
i.随机法,将超参数随机组合,搜索一段时间后选择最优的参数,调参时用分别用准确性来评估模型;
ii.用默认参数训练模型;
iii.选择两个方法中最优的方法,评估指标是10-折交叉验证(10-fold cv)的平均准确度。
训练模型时采用如下软件:报告caret(6.0_88)、randomForest(4.6_14)和scikit-learn(0.24.1)。
通过随机森林算法,在拆分出的训练集中进行机器学习,得到单个基因的重要性排序如下表2所示:
表2(表中数值为TPM)
Figure BDA0003547581890000231
Figure BDA0003547581890000241
Figure BDA0003547581890000251
Figure BDA0003547581890000261
Figure BDA0003547581890000271
Figure BDA0003547581890000281
Figure BDA0003547581890000291
Figure BDA0003547581890000301
如上表所示,通过实施随机森林算法,将上述差异表达基因的TPM值通过随机生成多个决策树并获得预测结果,并将预测结果与样本实际结果对比,对算法进行训练。经过充分的机器学习过程后,本发明成功建立了针对无创样本的子宫内膜容受性预测模型。该模型经过训练集中样本的训练,能够得到针对全部样本的正确预测结果。并且,通过在独立的测试集中进行评估,确认了其高准确率,即对其他样本的普适性,具有临床应用意义。
如表2中的结果所示,所述模型按照所鉴定的单个基因在预测中的重要性给出了从高到低的排序。排列次序越靠前的基因,单独将其作为标志物时进行判断的准确率越高。例如排在第一位的基因ELK4(ENSG00000158711),在所得模型中依照其表达量进行判断时能够得到60%的准确率。
显然,体内复杂调节的生理过程必然涉及多个基因或多种通路的参与,因此利用单个标志物所得到的60%预测准确率显然是不够的。通过按照顺序将基因feature依次加入进行子模型构建的方式,发明人发现,至少包括前10位基因成员(即ELK4、PRKACB、PHB2、GM2A、PPA1、NCEH1、CAPG、DDIT4、LDHB和TDRD6)的子模型能够获得较高的准确率,有应用价值。
换言之,在本发明所发现和采用的无创取样方法所获得的样本中,上述250个基因的差异表达体现了样本的容受性状态。其中,又以ELK4、PRKACB、PHB2、GM2A、PPA1、NCEH1、CAPG、DDIT4、LDHB和TDRD6这10个基因的表达情况与容受性状态最具有相关性,能够作为无创样本中容受性状态的分子标志物。而如果在此10个基因的基础上纳入更多来自所述250个基因的标志物进行综合考量,将可能获得更准确的预测结果。
为了验证在训练集中鉴定的这一结论,按照此前的实验设计,将本发明的模型用于单独划分的测试集,来检验本发明的模型在不同于训练集的样本中的准确性(即:进一步验证该标志物集合和预测模型的普适性)。
实施例4在测试集中验证子宫内膜容受性生物标志物集合和预测模型
利用独立的测试集来评估实施例3中训练得到的模型的灵敏度、特异性、准确性、ROC等指标。
Feature 10指由表2中排序1-10的差异表达基因ELK4、PRKACB、PHB2、GM2A、PPA1、NCEH1、CAPG、DDIT4、LDHB和TDRD6组成的子模型,评估了其所具有的预测准确性。而Feature30的模型由表2中序号1-30的基因组成,照此类推。本实施例测算了Feature 10、Feature30、Feature 50、Feature 70、Feature 90、Feature 110、Feature 130、Feature 150、Feature 170、Feature 190、Feature 210、Feature 230、Feature 250共13个子模型(Feature 250包含了全部标志物)。
结果如下文及图1-图13所示。
feature 10
模型输出结果
Figure BDA0003547581890000321
模型准确性
Figure BDA0003547581890000331
feature 30
模型输出结果
Figure BDA0003547581890000332
Figure BDA0003547581890000341
模型准确性
Figure BDA0003547581890000342
feature 50
模型输出结果
Figure BDA0003547581890000343
Figure BDA0003547581890000351
模型准确性
Figure BDA0003547581890000352
feature 70
模型输出结果
Figure BDA0003547581890000353
Figure BDA0003547581890000361
模型准确性
Figure BDA0003547581890000362
feature 90
模型输出结果
Figure BDA0003547581890000363
Figure BDA0003547581890000371
模型准确性
Figure BDA0003547581890000372
feature 110
模型输出结果
Figure BDA0003547581890000373
Figure BDA0003547581890000381
模型准确性
Figure BDA0003547581890000382
feature 130
模型输出结果
Figure BDA0003547581890000383
Figure BDA0003547581890000391
模型准确性
Figure BDA0003547581890000392
feature 150
模型输出结果
Figure BDA0003547581890000393
Figure BDA0003547581890000401
模型准确性
Figure BDA0003547581890000402
feature 170
模型输出结果
Figure BDA0003547581890000403
Figure BDA0003547581890000411
模型准确性
Figure BDA0003547581890000412
feature 190
模型输出结果
Figure BDA0003547581890000421
模型准确性
Figure BDA0003547581890000431
feature 210
模型输出结果
Figure BDA0003547581890000432
Figure BDA0003547581890000441
模型准确性
Figure BDA0003547581890000442
feature 230
模型输出结果
Figure BDA0003547581890000443
Figure BDA0003547581890000451
模型准确性
Figure BDA0003547581890000452
feature 250
模型输出结果
Figure BDA0003547581890000453
Figure BDA0003547581890000461
模型准确性
Figure BDA0003547581890000462
如上述结果显示,由重要性最高的10个标志物组成的子模型已经具有高达89%的预测灵敏度和85%的预测特异性,预测准确度为87.5%(即:准确预测32例样本中的28例的容受性状态),具备足够的临床意义。
在这10个标志物的基础上,继续将更多排序在后的标志物纳入模型当中,也能够在一定程度上提升检测准确率。
由此可见,实施例3中利用训练集所鉴定的差异表达基因标志物在测试集中也体现了与子宫内膜容受性的关联,并且通过利用机器学习算法评价各基因权重,建立了稳定、可靠的预测模型。
综上,综上所述,本发明首次发现痕量无创样本所携带的基因表达信息足够用于预测子宫内膜容受性,并提出了利用无创样本预测子宫内膜容受性的方法。本发明还首次建立了利用无创样本预测子宫内膜容受性的标志物集合和预测模型。在几乎不增加受试者痛苦的条件下,大大提高了受试者后续胚胎移植的成功率,缩短达孕时间,具有显著的临床意义。

Claims (15)

1.一种获得用于预测受试者子宫内膜容受性的样本的方法,其特征在于,所述方法是无创方法,且所得样本中的细胞数优选地少于500个。
2.权利要求1所述的方法,其中所述方法包括,从胚胎预移植时移植管壁粘附的痕量组织细胞中获取所述样本。
3.权利要求1所述的方法,其中所述方法包括,从胚胎移植时移植管壁粘附的痕量组织细胞中获取所述样本。
4.一种预测受试者子宫内膜容受性的方法,其特征在于,包括以下步骤:(1)通过权利要求1-3任一项所述的方法获取样本;(2)在所述样本中检测子宫内膜容受性相关标志物的表达量。
5.权利要求4所述的方法,其中子宫内膜容受性相关标志物是表2中的序号第1-10的基因,即ELK4、PRKACB、PHB2、GM2A、PPA1、NCEH1、CAPG、DDIT4、LDHB和TDRD6,并且任选地还包括表2中序号第11-250的一个或多个基因。
6.一种生物标志物组合,其特征在于,包含表2中的序号第1-10的基因,即ELK4、PRKACB、PHB2、GM2A、PPA1、NCEH1、CAPG、DDIT4、LDHB和TDRD6,并且任选地还包括表2中序号第11-250的一个或多个基因。
7.权利要求6所述的生物标志物组合在预测受试者子宫内膜容受性中的用途。
8.权利要求6所述的生物标志物组合在制备用于预测受试者子宫内膜容受性的试剂盒中的用途。
9.用于检测权利要求7或8所述的生物标志物组合的水平或其量的试剂在预测受试者子宫内膜容受性中的用途。
10.用于检测权利要求7或8所述的生物标志物组合的水平或其量的试剂在制备用于预测受试者子宫内膜容受性的试剂盒中的用途。
11.一种建立无创性容受性预测模型的方法,包括以下步骤:
i.通过权利要求1-3任一项所述的方法获取来自受试者的样本;
ii.从样本中提取RNA并逆转录获得cDNA文库,并对全部样本的cDNA文库进行测序;
iii.将步骤ii.中的测序数据用于机器学习算法。
12.如权利要求11所述的建立容受性预测模型的方法,其中步骤iii进一步包括以下具体步骤:I)将样本按照样本来源受试者的胚胎移植的结局标记样本为容受期或非容受期两类,并优选地拆分为两个集合,训练集和测试集,并取训练集样本数据进行下一步骤;II)将训练集样本全部数据去噪音、去偏倚,生成分别针对每个基因的片段计数比对文件;III)筛选和收集存在差异表达的基因,将其作为待鉴定特征;IV)将测序下机数据由原始数据转换为TPM,作为每个基因的标准化后的表达量数据,从而消除样本下机数据量差异的影响;V)将所述待鉴定特征(基因)的表达量数据输入机器学习算法,由机器学习算法进行监督学习,得到每个特征对于判断容受性的阈值、灵敏度和重要性,从而得到容受性预测模型。
13.如权利要求11或12所述的建立容受性预测模型的方法,其中机器学习算法是随机森林。
14.一种多核苷酸的组合产品,其特征在于,该组合产品由表2中的序号第1-10的基因的多核苷酸组成,并任选地进一步包含表2中序号第11-250的一个或多个基因的多核苷酸,所述多核苷酸在不同的子宫内膜容受性状态的无创样本中存在差异表达,该多核苷酸为子宫内膜容受性基因标志物。
15.试剂盒,用于在受试者中预测子宫内膜容受性,其包含用于测定生物标志物组合中的每种生物标志物在样品中的水平或其量的试剂,所述生物标志物组包含以下生物标志物:表2中的序号第1-10的基因,以及任选地表2中序号第11-250的一个或多个基因。
CN202210253498.7A 2022-03-15 2022-03-15 无创方式判断子宫内膜容受性的方法、模型和标志物 Pending CN114517232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210253498.7A CN114517232A (zh) 2022-03-15 2022-03-15 无创方式判断子宫内膜容受性的方法、模型和标志物

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210253498.7A CN114517232A (zh) 2022-03-15 2022-03-15 无创方式判断子宫内膜容受性的方法、模型和标志物

Publications (1)

Publication Number Publication Date
CN114517232A true CN114517232A (zh) 2022-05-20

Family

ID=81599546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210253498.7A Pending CN114517232A (zh) 2022-03-15 2022-03-15 无创方式判断子宫内膜容受性的方法、模型和标志物

Country Status (1)

Country Link
CN (1) CN114517232A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120040849A1 (en) * 2008-07-22 2012-02-16 Equipo Ivi Investigacion Sl Gene expression profile as an endometrial receptivity marker
US20180214068A1 (en) * 2017-02-02 2018-08-02 Coopersurgical, Inc. Compositions and methods for determining receptivity of an endometrium for embryonic implantation
CN110042156A (zh) * 2019-04-22 2019-07-23 苏州亿康医学检验有限公司 一种判断子宫内膜容受性的方法及其应用
CN110499364A (zh) * 2019-07-30 2019-11-26 北京凯昂医学诊断技术有限公司 一种用于检测扩展型遗传病全外显子的探针组及其试剂盒和应用
CN111778326A (zh) * 2020-07-14 2020-10-16 和卓生物科技(上海)有限公司 用于子宫内膜容受性评估的基因标志物组合及其应用
CN113288377A (zh) * 2021-05-31 2021-08-24 上海市第一妇婴保健院 一种新型获取子宫内膜的胚胎移植管
US20210269862A1 (en) * 2018-06-18 2021-09-02 Igenomix, S.L. Methods for assessing endometrial transformation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120040849A1 (en) * 2008-07-22 2012-02-16 Equipo Ivi Investigacion Sl Gene expression profile as an endometrial receptivity marker
US20180214068A1 (en) * 2017-02-02 2018-08-02 Coopersurgical, Inc. Compositions and methods for determining receptivity of an endometrium for embryonic implantation
US20210269862A1 (en) * 2018-06-18 2021-09-02 Igenomix, S.L. Methods for assessing endometrial transformation
CN110042156A (zh) * 2019-04-22 2019-07-23 苏州亿康医学检验有限公司 一种判断子宫内膜容受性的方法及其应用
CN110499364A (zh) * 2019-07-30 2019-11-26 北京凯昂医学诊断技术有限公司 一种用于检测扩展型遗传病全外显子的探针组及其试剂盒和应用
CN111778326A (zh) * 2020-07-14 2020-10-16 和卓生物科技(上海)有限公司 用于子宫内膜容受性评估的基因标志物组合及其应用
CN113288377A (zh) * 2021-05-31 2021-08-24 上海市第一妇婴保健院 一种新型获取子宫内膜的胚胎移植管

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
K KRJUTŠKOV 等: "Single-cell transcriptome analysis of endometrial tissue.", HUM REPROD ., vol. 31, no. 4, 13 February 2016 (2016-02-13), pages 844 - 853 *
仇嘉昕 等: "子宫内膜容受性判断新进展", 生殖医学杂志, vol. 28, no. 8, 14 August 2019 (2019-08-14), pages 965 - 969 *

Similar Documents

Publication Publication Date Title
US11111541B2 (en) Diagnostic MiRNA markers for Parkinson&#39;s disease
US20200303078A1 (en) Systems and Methods for Deriving and Optimizing Classifiers from Multiple Datasets
JP6161607B2 (ja) サンプルにおける異なる異数性の有無を決定する方法
CN105917008B (zh) 用于前列腺癌复发的预后的基因表达面板
JP7498793B2 (ja) 合成トレーニングサンプルによるがん分類
CN116218988A (zh) 用于诊断结核病的方法
CN111778326B (zh) 用于子宫内膜容受性评估的基因标志物组合及其应用
HUE030510T2 (hu) Magzati kromoszómális aneuploidia diagnosztizálása genomszekvenálás alkalmazásával
CN109504784B (zh) 用于预测人辅助生殖技术中早期胚胎质量的miRNA分子标志及其应用
EP3688195A1 (en) Biomarkers for colorectal cancer detection
US20170130269A1 (en) Diagnosis of neuromyelitis optica vs. multiple sclerosis using mirna biomarkers
WO2020194057A1 (en) Biomarkers for disease detection
KR20240021975A (ko) 종양 평가를 위한 물질 및 방법
CN114517232A (zh) 无创方式判断子宫内膜容受性的方法、模型和标志物
CN110592204A (zh) 血清miRNA组合作为分子标记物评估非阻塞性无精症
CN111944893B (zh) 与唇腭裂产前无创诊断相关的miRNA分子标志物及其应用
CN114507738A (zh) 甲基化位点、检测甲基化水平的产品的用途及试剂盒
CN116804218A (zh) 用于检测肺结节良恶性的甲基化标志物及其应用
CN109628584A (zh) 一种与脓毒症发生发展相关的分子标志物及其应用
CN110656169A (zh) 心房颤动的诊断标志物
CN113621695B (zh) Rif患者的子宫内膜容受性的标志物及其应用和检测试剂盒
RU2777072C1 (ru) Способ определения анеуплоидии плода в образце крови беременной женщины
US20240229151A9 (en) Compositions and methods for making and using an immortalized library
US20240132970A1 (en) Compositions and methods for making and using an immortalized library
WO2024047914A1 (en) Analysis method, kit, and detection device for cancer diagnosis by means of microrna expression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination