CN115910211A - 胚胎植入前dna分析检测方法及装置 - Google Patents
胚胎植入前dna分析检测方法及装置 Download PDFInfo
- Publication number
- CN115910211A CN115910211A CN202211637483.7A CN202211637483A CN115910211A CN 115910211 A CN115910211 A CN 115910211A CN 202211637483 A CN202211637483 A CN 202211637483A CN 115910211 A CN115910211 A CN 115910211A
- Authority
- CN
- China
- Prior art keywords
- sequence
- genome sequence
- whole genome
- sample
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108020004414 DNA Proteins 0.000 title claims abstract description 50
- 230000032692 embryo implantation Effects 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims description 62
- 102000053602 DNA Human genes 0.000 title description 37
- 230000011987 methylation Effects 0.000 claims abstract description 49
- 238000007069 methylation reaction Methods 0.000 claims abstract description 49
- 238000012216 screening Methods 0.000 claims abstract description 49
- 238000004458 analytical method Methods 0.000 claims abstract description 45
- 210000001161 mammalian embryo Anatomy 0.000 claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 108091029430 CpG site Proteins 0.000 claims abstract description 9
- 238000012164 methylation sequencing Methods 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims description 32
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims description 30
- 238000003752 polymerase chain reaction Methods 0.000 claims description 28
- 210000000349 chromosome Anatomy 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 23
- 108090000623 proteins and genes Proteins 0.000 claims description 18
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 210000004027 cell Anatomy 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 108091081062 Repeated sequence (DNA) Proteins 0.000 claims description 6
- 229940104302 cytosine Drugs 0.000 claims description 6
- 230000003252 repetitive effect Effects 0.000 claims description 4
- 206010068051 Chimerism Diseases 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 abstract description 16
- 238000002054 transplantation Methods 0.000 abstract description 11
- 238000010276 construction Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 17
- 239000012634 fragment Substances 0.000 description 10
- 238000012408 PCR amplification Methods 0.000 description 6
- 241000894007 species Species 0.000 description 5
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 4
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 4
- 238000011109 contamination Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 210000002257 embryonic structure Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 208000021267 infertility disease Diseases 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000002864 sequence alignment Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002759 chromosomal effect Effects 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000002513 implantation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000035935 pregnancy Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 229940035893 uracil Drugs 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- LSNNMFCWUKXFEE-UHFFFAOYSA-N Sulfurous acid Chemical class OS(O)=O LSNNMFCWUKXFEE-UHFFFAOYSA-N 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 208000036878 aneuploidy Diseases 0.000 description 1
- 231100001075 aneuploidy Toxicity 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000002459 blastocyst Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006037 cell lysis Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000002308 embryonic cell Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000000509 infertility Diseases 0.000 description 1
- 230000036512 infertility Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 210000004994 reproductive system Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明实施例涉及全基因组数据库构建技术领域,公开了一种胚胎植入前DNA分析检测方法,包括:获取经全基因组甲基化测序的胚胎样本细胞的样本全基因组序列,并基于样本全基因组序列中每个碱基的质量分数筛选符合预设条件的全基因组序列;将符合条件的全基因组序列比对到参考基因组序列上以得到具有位置信息的基因组序列;对比对后的基因组序列进行序列筛查操作以得到待测试基因组序列;提取待测试基因组序列所有CpG位点的甲基化状态数据并确定状态分析内容。本发明实施例中的胚胎植入前DNA分析检测方法通过对测序后得到的全基因组序列进行数据筛查操作,使得得到的数据质量更高且更准确,进而为胚胎移植提供更准确的数据。
Description
技术领域
本发明涉及基因数据库构建技术领域,具体涉及一种胚胎植入前DNA分析检测方法及装置。
背景技术
目前,辅助生殖技术解决大量生殖系统问题,帮助不孕夫妇获得子代,给社会和家庭带来快乐。然而,相比较自然妊娠,流行病学和临床研究显示,排除不孕疾病因素影响,辅助生殖技术本身具有不确定的隐患,辅助生殖技术妊娠结局风险和出生婴儿健康(儿童期和成年期)风险增加,给社会经济和家庭带来巨大风险并长期负担。如何提升早期胚胎移植成功率就是非常紧迫的问题。因此,设计一种能够准确率高的样本检测方法成为本领域技术人员亟待解决的技术问题。
发明内容
针对所述缺陷,本发明实施例公开了一种胚胎植入前DNA分析检测方法,其能够实现对样本基因状态进行准确检测的目的,进而提升胚胎成功率。
本发明实施例第一方面公开了一种胚胎植入前DNA分析检测方法,包括:
获取经过全基因组甲基化测序的胚胎样本细胞的样本全基因组序列,并基于所述样本全基因组序列中每个碱基的质量分数筛选符合预设条件的全基因组序列;
将符合预设条件的全基因组序列比对到参考基因组序列上以得到相应的检测基因组序列,其中,参考基因组序列为从基因数据库下载的相应物种的全基因组序列;
对所述检测基因组序列进行基因组序列筛查操作以得到待测试基因组序列,所述基因组序列筛查操作包括处理PCR重复序列的操作以及处理未经重亚硫酸盐转换序列的操作;
提取所述待测试基因组序列所有CpG位点的甲基化状态数据,并根据所述甲基化状态数据确定状态分析内容。
作为一种可选的实施方式,在本发明实施例第一方面中,所述分析检测方法还包括:
输出异常染色体信息和异常片段注释信息,所述异常染色体信息包括异常类型、染色体、染色体位置、片段大小和嵌合比率;
所述状态分析内容包括CT转换率、覆盖度、染色体倍性和平均甲基化水平。
作为一种可选的实施方式,在本发明实施例第一方面中,所述基于所述样本全基因组序列中每个碱基的质量分数筛选符合预设条件的全基因组序列,包括:
获取所述样本全基因组序列中所有序列中每个碱基对应的质量分数;
确定相应基因组序列中碱基的平均质量分数是否低于指定值,若是,则去除相应的基因组序列,若否,则预存储相应的基因组序列,并执行下一步;
获取预存储基因组序列的序列长度,并确定所述序列长度是否大于预设长度,若是,则确定所述预存储基因组序列符合预设条件。
作为一种可选的实施方式,在本发明实施例第一方面中,所述预设长度为36bp。
作为一种可选的实施方式,在本发明实施例第一方面中,所述处理PCR重复序列的操作包括去除PCR重复序列的操作或者标记PCR重复序列的操作。
作为一种可选的实施方式,在本发明实施例第一方面中,所述处理未经重亚硫酸盐转换序列的操作包括去除未经重亚硫酸盐转换序列的操作或者标记未经重亚硫酸盐转换序列的操作;
所述去除未经重亚硫酸盐转换序列的操作,包括:
识别待测试基因组序列中的存储的多行序列信息,且每行序列信息中由多列值组组成;
对包含有胞嘧啶的序列进行自动筛选操作以确定该序列是否被污染;若该序列中特定行的胞嘧啶均未被转化,则认为该序列是被污染序列,去除该序列。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述根据所述甲基化状态数据确定状态分析内容之后,还包括:
根据所述CT转换率以及覆盖度确定数据质量是否合格;
根据所述染色体倍性以及甲基化水平来确定胚胎样本的状态。
本发明实施例第二方面公开一种胚胎植入前DNA分析检测装置,包括:
获取模块;用于获取经过全基因组甲基化测序的胚胎样本细胞的样本全基因组序列,并基于所述样本全基因组序列中每个碱基的质量分数筛选符合预设条件的全基因组序列;
比对模块:用于将符合预设条件的全基因组序列比对到参考基因组序列上以得到相应的检测基因组序列,其中,参考基因组序列为从基因数据库下载的相应物种的全基因组序列;
筛查操作模块:用于对所述检测基因组序列进行序列筛查操作以得到待测试基因组序列,所述序列筛查操作包括处理PCR重复序列的操作及处理未经重亚硫酸盐转换序列的操作;
提取模块:用于提取所述待测试基因组序列所有CpG位点的甲基化状态数据,并根据所述甲基化状态数据确定状态分析内容。
本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的胚胎植入前DNA分析检测方法。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的胚胎植入前DNA分析检测方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中的胚胎植入前DNA分析检测方法通过对测序后得到的全基因组序列进行筛选以及数据筛查操作,使得最终得到的数据质量更高且更准确,进而为胚胎移植提供更准确的数据参考;提升胚胎移植成功率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的胚胎植入前DNA分析检测方法的流程示意图;
图2是本发明实施例公开的进行去除低质量序列的流程示意图;
图3是本发明实施例公开的数据筛查序列的流程示意图;
图4是本发明实施例提供的一种胚胎植入前DNA分析检测装置的结构示意图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了胚胎植入前DNA分析检测方法、装置、电子设备及存储介质,通过对测序后得到的全基因组序列进行筛选以及数据筛查操作,使得最终得到的数据质量更高且更准确,进而为胚胎移植提供更准确的数据参考;提升胚胎移植成功率。
实施例一
请参阅图1,图1是本发明实施例公开的胚胎植入前DNA分析检测方法的流程示意图。其中,本发明实施例所描述的方法的执行主体为由软件或/和硬件组成的执行主体,该执行主体可以通过有线或/和无线方式接收相关信息,并可以发送一定的指令。当然,其还可以具有一定的处理功能和存储功能。该执行主体可以控制多个设备,例如远程的物理服务器或云服务器以及相关软件,也可以是对某处安置的设备进行相关操作的本地主机或服务器以及相关软件等。在一些场景中,还可以控制多个存储设备,存储设备可以与设备放置于同一地方或不同地方。如图1所示,该基于胚胎植入前DNA分析检测方法包括以下步骤:
S101:获取经过全基因组甲基化测序的胚胎样本细胞的样本全基因组序列,并基于所述样本全基因组序列中每个碱基的质量分数筛选符合预设条件的全基因组序列;
本步骤主要是为了获取到经过全基因组甲基化测试的胚胎样本细胞的样本全基因组序列;其主要是通过WGBS方法来进行转化。当得到相应的基因片段序列之后,则对其进行初步的数据处理,也即去除掉一些低质量的数据;如果存在较多低质量的数据,则会影响后续测量结果的准确性。这部分获取到的是胚胎的全基因组序列,因为是为了要对胚胎移植进行完整性分析,故而并不只是截取部分片段,而是尽量获得更多的片段序列;并且对其进行筛选。
更为优选的,图2是本发明实施例公开的进行去除低质量序列的流程示意图,如图2所示,所述基于所述样本全基因组序列中每个碱基的质量分数筛选符合预设条件的全基因组序列,包括:
S1011:获取所述样本全基因组序列中所有序列中每个碱基对应的质量分数;
S1012:确定相应基因组序列中碱基的平均质量分数是否低于指定值,若是,则去除相应的基因组序列,若否,则预存储相应的基因组序列,并执行下一步;
S1013:获取预存储基因组序列的序列长度,并确定所述序列长度是否大于预设长度,若是,则确定所述预存储基因序列符合预设条件。其中,所述预设长度为36bp。
在本步骤中对低质量的数据来进行去除,因为测序结果中,每条序列中的每个碱基都有对应的质量分数,当一段序列中碱基的平均质量分数低于某个数值时,认为其为低质量数据,去除低质量的过程中,如果一条序列只是有一段基因序列质量低,则只去除这一段序列,如果整条序列质量都低,则整条序列都会被去掉。最后,留下来的序列长度必须大于36bp,如不满足,则这条序列也会被去掉。通过采用碱基质量分数来对整体基因序列进行初筛,如果出现不符合要求的片段,则对其进行删除操作。
S102:将符合预设条件的全基因组序列比对到参考基因组序列上以得到相应的检测基因组序列,其中,参考基因组序列为从基因数据库下载的相应物种的全基因组序列;
具体的,参考基因组是从数据库中下载的全基因组序列,根据样品物种下载对应物种的全基因组序列,可以是任何版本全基因组序列,例如,人的全基因组序列可下载hg38、hg19或其他版本的序列,以hg19建立参考基因组index举例,代码如下:
bismark_genome_preparation--bowtie2--path_to_bowtie$bowtie2--verbose/reference_genome/hg19;
在本发明实施例中采用bowtie2建立的index,这样在后续进行比对的时候,也需要利用bowtie2来进行数据比对;在本发明实施例中采用bowtie2是因为bowtie2可以支持插入缺失能够使得获得到的数据质量更好。在本发明实施例中会在相应目录中创建两个单独的文件夹,一个用于C->T转换基因组,另一个用G->A转换基因组,在创建了C->T和G->A版本的基因组后,它们将被使用bowtie2并行构建索引。
在经过DNA建库和测序之后,文件中不同序列之间的前后顺序关系就已经全部丢失了。因此,相应文件中紧挨着的两条序列之间没有任何位置关系,它们都是随机来自于原本基因组中某个位置的短序列而已。因此,我们需要先把这一大堆的短序列捋顺,一个个去跟该物种的参考基因组比较,找到每一条序列在参考基因组上的位置,然后按顺序排列好,这个过程就称为测序数据的比对。序列比对本质上是一个寻找最大公共子字符串的过程。其使用的是动态规划的算法来寻找这样的子串,但在面对巨量的短序列数据时,需要更加有效的数据结构和相应的算法来完成这个搜索定位的任务。这里将用于流程构建的BWA就是其中最优秀的一个,它将BW(Burrows-Wheeler)压缩算法和后缀树相结合,能够使得以较小的时间和空间代价,获得准确的序列比对结果。因此,在进行最初的设计的时候需要为参考基因组的构建索引——这其实是在为参考序列进行Burrows Wheeler变换(也可以称为块排序压缩),以便能够在序列比对的时候进行快速的搜索和定位。将比对的输出结果直接重定向到一份sample_name.sam文件中,这类文件是BWA比对的标准输出文件。但SAM文件是文本文件,一般整个文件都非常巨大,因此,为了有效节省磁盘空间,一般都会用samtools将它转化为BAM文件(SAM的特殊二进制格式),而且BAM会更加方便于后续的分析。
S103:对所述检测基因组序列进行基因组序列筛查操作以得到待测试基因组序列,所述基因组序列筛查操作包括处理PCR重复序列的操作以及处理未经重亚硫酸盐转换序列的操作;
本步骤中通过设置数据筛查步骤来提升最终的分析结果的准确性。因为在实验任何过程中,细胞裂解,DNA回收,PCR扩增,测序等步骤,只要操作不够细致都可能产生污染。而对于独一无二的样本来说,不能够进行再次实验,一旦产生污染,则会对结果产生比较大的影响。在单细胞建库过程中,通常比较关注在实验过程中保证环境无菌,操作细致等实验方面控制污染,这样通过实验过程来对整体结果准确性负责,但是由于实验过程中不能够完全做到无菌,还是会对最终结果产生一定的影响。全基因组重亚硫酸盐甲基化测序(WGBS)方法,实验过程中会有一步重亚硫酸盐转化的步骤,这一步会将全基因组中未甲基化的胞嘧啶(C)转化为尿嘧啶(U),而在最终的数据中会以胸腺嘧啶(T)的形式存在。而在经过长时间研究中发现,虽然不同样品中全基因组中CpG的平均甲基化水平有所差异,但CHH或CHG(H指C,A或T)中的C基本都是未甲基化的,对应于样本胚胎细胞的数据中,应该被转化为T。而对于平均100多个碱基对的序列,大约平均有几十个C,如果这些C均未被转化为T,则这条序列大概率是没有经历过重亚硫酸盐处理的,故而其应该不是来源于样品数据,而是后续DNA回收,PCR扩增或测序过程中污染的数据。所以,通过去除掉所有C都没有被转化为T的序列,可以去除掉重亚硫酸盐处理后污染的数据,从而得到更准确的结果。因此,在本步骤中设置两个筛查基因组序列的方式,一个是通过去除重复序列,另一个通过识别特定行的胞嘧啶是否被转化为T来进行判断该序列是否为被污染序列。在本发明实施例中A、C、T、U、G等均是生物体中常见的碱基,其中G是鸟嘌呤、C是胞嘧啶、T是胸腺嘧啶、U是尿嘧啶、A是腺嘌呤;
更为优选的,所述处理PCR重复序列的操作包括去除PCR重复序列的操作或者标记PCR重复序列的操作。
在很多时候我们构建测序文库时能用的细胞量并不会非常充足,而且在打断的步骤中也会引起部分DNA的降解,这两点会使整体或者局部的DNA浓度过低,这时如果直接从这个溶液中取样去测序就很可能漏掉原本基因组上的一些DNA片段,导致测序不全。而PCR扩增的作用就是为了把这些微弱的DNA多复制几倍乃至几十倍,以便增大它们在溶液中分布的密度,使得能够在取样时被获取到。PCR扩增原本的目的是为了增大微弱DNA序列片段的密度,但由于整个反应都在一个试管中进行,因此其他一些密度并不低的DNA片段也会被同步放大,那么这时在取样去上机测序的时候,这些DNA片段就很可能会被重复取到相同的几条去进行测序。
PCR最直接的后果就是同时增大了变异检测结果的假阴和假阳率。出现上述情况主要有下面几种原因:DNA在打断的那一步会发生一些损失,主要表现是会引发一些碱基发生颠换变换(嘌呤变嘧啶或者嘧啶变嘌呤),带来假的变异。PCR过程会扩大这个信号,导致最后的检测结果中混入了假的结果;PCR反应过程中也会带来新的碱基错误。发生在前几轮的PCR扩增发生的错误会在后续的PCR过程中扩大,同样带来假的变异;对于真实的变异,PCR反应可能会对包含某一个碱基的DNA模版扩增更加剧烈(这个现象称为PCR Bias)。如果反应体系是对含有reference allele的模板扩增偏向强烈,那么变异碱基的信息会变小,从而会导致假阴。那么这些序列在经过比对之后它们一定会定位到基因组上相同的位置,比对的信息看起来也将是一样的。因此,可以根据上述特点定位到相同的序列,并对该序列进行删除或者是标记操作。在本发明实施例中采用标记操作主要是为了对整个过程中进行更真实的反馈,因为如果仅仅只是删除的话,那么在这个过程中所有的数据均会被抹除;如果后续想要对扩增或者污染的情况进行详细的分析的话,则缺少数据分析的基础。如果只是标记的话,则会提供更加丰富的信息,使得用户在后续进行更深度的分析的时候,能够有更多样的数据来源。
更为优选的,所述处理未经重亚硫酸盐转换序列的操作包括去除未经重亚硫酸盐转换序列的操作或者标记未经重亚硫酸盐转换序列的操作;
图3是本发明实施例公开的数据筛查序列的流程示意图,如图3所示,所述去除未经重亚硫酸盐转换序列的操作,包括:
S1031:识别待测试基因组序列中的存储的多行序列信息,且每行序列信息中由多列值组组成;
S1032:对包含有胞嘧啶的序列进行自动筛选操作以确定该序列是否被污染;若该序列中特定行的胞嘧啶均未被转化,则认为该序列是被污染序列,去除该序列。
具体的,对于平均100多个碱基对的序列,大约平均有几十个C,如果这些C均未被转化为T,则这条序列大概率是没有经历过重亚硫酸盐处理的,故而其应该不是来源于样品数据,而是后续DNA回收,PCR扩增或测序过程中污染的数据。所以,通过去除掉所有C都没有被转化为T的序列,可以去除掉重亚硫酸盐处理后污染的数据。
以下是数据筛查使用到的脚本:
awk-F"\t"'{if(\$17~"z"||\$17~"h"||\$17~"x")print}'$sample.rmdup.se.sam>$sample.rmdup.se.sam
其中,$sample.rmdup.se.sam这个文件是由多行组成的,每一行代表一个序列的信息,而每一行又由多列值组成,其中第17列包含了这个序列中每个胞嘧啶的甲基化信息。脚本中对文件$sample.rmdup.se.sam的第17列($17)进行了自动筛选,以下是文件第17列的内容举例:
XM:Z:.......h.....hx...hhh.h.hx......hX..h.z..h..........x...h.hx....x.....x..........x.....x..hhhh...........x..h.h....
由上可以看到,第17列中冒号后面会有h,z,x,H,Z和X这几种符号,if(\$17~"z"||\$17~"h"||\$17~"x")print这行命令的意思是,第17列,包含z,h或x这三种中的任何一种符号的话,这行数据就可以输出。如果是非甲基化的未经过重亚硫酸盐处理的文库,第17列则只有Z,H和X这几种符号,不会出现小写的形式,也就是说,如果第17列是以下内容:
XM:Z:.......H.....HX...XHH.Z..ZX......ZX..H.HHH..........X...H.H....Z.....Z..........X....X.HH...........H....Z
则这一行中的胞嘧啶都没有被重亚硫酸盐转化,大概率不是出自我们构建的甲基化文库,故而会被去掉。
S104:提取所述待测试基因组序列所有CpG位点的甲基化状态数据,并根据所述甲基化状态数据确定状态分析内容。
所述分析检测方法还包括:
输出异常染色体信息和异常片段注释信息,所述异常染色体信息包括异常类型、染色体、染色体位置、片段大小和嵌合比率;
所述状态分析内容包括CT转换率、覆盖度、染色体倍性和平均甲基化水平。
本发明实施例中提及的甲基化状态数据指的是甲基化水平,所述状态分析内容包括CT转换率、覆盖度、染色体倍性和平均甲基化水平。
本发明实施例中提到,实验过程中会有重亚硫酸盐转化步骤,会将未甲基化的C转化成U,在数据中呈现为T,实验过程中会加入一些胞嘧啶均为未甲基化的固定核酸序列,后续用这个序列来计算C被转化为T的比例,则为CT转化率。而覆盖度为最终测序出来的样品中的CpG位点所占全基因组CpG位点的比例。平均甲基化水平以及染色体倍性等数据是为了确定胚胎的状态,而CT转换率和覆盖度是为了对平均甲基化水平和染色体倍性的数据进行评估。
染色体倍性是通过我们甲基化文库,测序下机的数据得出来的,这个数据即能得出来甲基化水平,又能得出来染色体倍性;分析出来的染色体倍性数据和平均甲基化水平数据是为了确定胚胎状态,看胚胎质量好不好,如果胚胎质量好的话则可以用来移植。
对于没有污染的数据,增加数据筛查程序后,最终的分析结果没有太大变化,即甲基化水平没有改变;而对于有污染的数据,增加数据筛查程序后,最终分析结果差异由污染程度而定,以下是几个人囊胚源细胞构建的甲基化文库结果:
表1
在所述根据所述甲基化状态数据确定状态分析内容之后,还包括:
S105:根据所述CT转换率以及覆盖度确定数据质量是否合格;
S106:根据所述染色体倍性以及平均甲基化水平来确定胚胎样本的状态。
染色体倍性和平均甲基化水平两项参数是用来确定胚胎状态的,覆盖度和转化率是用来评估数据质量的,其不能用来确定胚胎状态。数据质量好的话,说明染色体倍性和平均甲基化水平数据可以用来进行后续分析,因为通过覆盖度和转化率可以确定数据的甲基化水平和染色体倍数是否可靠,进而用来对胚胎进行筛查。数据质量如果不好,需要对具体情况进行具体分析,比如如果只是转化率不达标,则甲基化水平不准确,甲基化水平这项指标则不可使用,但染色体倍性结果还是可靠的。
对胚胎的全基因组DNA甲基化水平进行分析,不仅能够筛选出传统三代试管技术无法检测到的表观遗传疾病,而且还能够通过评估胚胎整体DNA组的甲基化水平,判断胚胎的发育质量情况。胚胎植入前甲基化筛查技术在对胚胎全DNA组甲基化水平进行检测的同时,还可以对胚胎染色体组非整倍体进行筛查,覆盖了传统PGT-A检测的范围。也就意味着,如果临床上使用胚胎植入前甲基化筛查后,便不再需要进行PGT-A筛查。
本发明实施例中的胚胎植入前DNA分析检测方法通过对测序后得到的全基因组序列进行筛选以及数据筛查操作,使得最终得到的数据质量更高且更准确,进而为胚胎移植提供更准确的数据参考;提升胚胎移植成功率。
实施例二
请参阅图4,图4是本发明实施例公开的对样本基因组状态进行分析检测的装置的结构示意图。如图4所示,该对样本基因组状态进行分析检测的装置可以包括:
获取模块21:用于获取经过全基因组甲基化测序的胚胎样本细胞的样本全基因组序列,并基于所述样本全基因组序列中每个碱基的质量分数筛选符合预设条件的全基因组序列;
比对模块22:用于将符合预设条件的全基因组序列比对到参考基因组序列上以得到相应的检测基因组序列,其中,参考基因组序列为从基因数据库下载的相应物种的全基因组序列;
筛查操作模块23:用于对所述检测基因组序列进行基因组序列筛查操作以得到待测试基因组序列,所述基因序列筛查操作包括处理PCR重复序列的操作及处理未经重亚硫酸盐转换序列的操作;
提取模块24:用于提取所述待测试基因组序列所有CpG位点的甲基化状态数据,并根据所述甲基化状态数据确定状态分析内容。
更为优选的,所述基于所述样本全基因组序列中每个碱基的质量分数筛选符合预设条件的全基因组序列,包括:
质量获取模块:用于获取所述样本全基因组序列中所有序列中每个碱基对应的质量分数;
确定模块:用于确定相应基因序列中碱基的平均质量分数是否低于指定值,若是,则去除相应的基因序列,若否,则预存储相应的基因序列,并执行下一步;
判断模块:用于获取预存储基因组序列的序列长度,并确定所述序列长度是否大于预设长度,若是,则确定所述预存储基因组序列符合预设条件。其中,所述预设长度为36bp。
更为优选的,所述处理PCR重复序列的操作包括去除PCR重复序列的操作或者标记PCR重复序列的操作。
更为优选的,所述处理未经重亚硫酸盐转换序列的操作包括去除未经重亚硫酸盐转换序列的操作或者标记未经重亚硫酸盐转换序列的操作;
所述去除未经重亚硫酸盐转换序列的操作,包括:
识别模块:用于识别待测试基因组序列中的存储的多行序列信息,且每行序列信息中由多列值组组成;
去除模块:用于对包含有胞嘧啶的序列进行自动筛选操作以确定该序列是否被污染;若该序列中特定行的胞嘧啶均未被转化,则认为该序列是被污染序列,去除该序列。
更为优选的,所述状态分析内容包括CT转换率、覆盖度、染色体倍性和平均甲基化水平。
更为优选的,在所述根据所述甲基化状态数据确定状态分析内容之后,还包括:
合格确定模块:用于根据所述CT转换率以及覆盖度确定数据质量是否合格;
状态确定模块:用于根据所述染色体倍性以及甲基化水平确定胚胎样本的状态。
本发明实施例中的胚胎植入前DNA分析检测方法通过对测序后得到的全基因组序列进行筛选以及数据筛查操作,使得最终得到的数据质量更高且更准确,进而为胚胎移植提供更准确的数据参考;提升胚胎移植成功率。
实施例三
请参阅图5,图5是本发明实施例公开的一种电子设备的结构示意图。电子设备可以是计算机以及服务器等,当然,在一定情况下,还可以是手机、平板电脑以及监控终端等智能设备,以及具有处理功能的图像采集装置。如图5所示,该电子设备可以包括:
存储有可执行程序代码的存储器510;
与存储器510耦合的处理器520;
其中,处理器520调用存储器510中存储的可执行程序代码,执行实施例一中的胚胎植入前DNA分析检测方法中的部分或全部步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一中的胚胎植入前DNA分析检测方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的胚胎植入前DNA分析检测方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中的胚胎植入前DNA分析检测方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(序列-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable序列-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable序列-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable序列-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable序列-Only Memory,EEPROM)、只读光盘(Compact Disc序列-OnlyMemory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的胚胎植入前DNA分析检测方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种胚胎植入前DNA分析检测方法,其特征在于,包括:
获取经过全基因组甲基化测序的胚胎样本细胞的样本全基因组序列,并基于所述样本全基因组序列中每个碱基的质量分数筛选符合预设条件的全基因组序列;
将符合预设条件的全基因组序列比对到参考基因组序列上以得到具有位置信息的基因组序列,其中,参考基因组序列为从基因数据库下载的相应物种的全基因组序列;
对比对后的基因组序列进行基因组序列筛查操作以得到待测试基因组序列,所述基因组序列筛查操作包括处理PCR重复序列的操作以及处理未经重亚硫酸盐转换序列的操作;
提取所述待测试基因组序列所有CpG位点的甲基化状态数据,并根据所述甲基化状态数据确定状态分析内容。
2.如权利要求1所述的胚胎植入前DNA分析检测方法,其特征在于,所述分析检测方法还包括:
输出异常染色体信息和异常片段注释信息,所述异常染色体信息包括异常类型、染色体、染色体位置、片段大小和嵌合比率;
所述状态分析内容包括CT转换率、覆盖度、染色体倍性和平均甲基化水平。
3.如权利要求1所述的胚胎植入前DNA分析检测方法,其特征在于,所述基于所述样本全基因组序列中每个碱基的质量分数筛选符合预设条件的全基因组序列,包括:
获取所述样本全基因组序列中所有序列中每个碱基对应的质量分数;
确定相应基因组序列中碱基的平均质量分数是否低于指定值,若是,则去除相应的基因组序列,若否,则预存储相应的基因组序列,并执行下一步;
获取预存储基因组序列的序列长度,并确定所述序列长度是否大于预设长度,若是,则确定所述预存储基因组序列符合预设条件。
4.如权利要求3所述的胚胎植入前DNA分析检测方法,其特征在于,所述预设长度为36bp。
5.如权利要求1所述的胚胎植入前DNA分析检测方法,其特征在于,所述处理PCR重复序列的操作包括去除PCR重复序列的操作或者标记PCR重复序列的操作。
6.如权利要求1所述的胚胎植入前DNA分析检测方法,其特征在于,所述处理未经重亚硫酸盐转换序列的操作包括去除未经重亚硫酸盐转换序列的操作或者标记未经重亚硫酸盐转换序列的操作;
所述去除未经重亚硫酸盐转换序列的操作,包括:
识别待测试基因组序列中的存储的多行序列信息,且每行序列信息中由多列值组组成;
对包含有胞嘧啶的序列进行自动筛选操作以确定该序列是否为被污染的序列;若该序列中特定行的胞嘧啶均未被转化,则认为该序列是被污染序列,去除该序列。
7.如权利要求1所述的胚胎植入前DNA分析检测方法,其特征在于,在所述根据所述甲基化状态数据确定状态分析内容之后,还包括:
根据所述CT转换率以及覆盖度确定数据质量是否合格;
根据所述染色体倍性以及甲基化水平来确定胚胎样本的状态。
8.一种胚胎植入前DNA分析检测装置,其特征在于,包括:
获取模块;用于获取经过全基因组甲基化测序的胚胎样本细胞的样本全基因组序列,并基于所述样本全基因组序列中每个碱基的质量分数筛选符合预设条件的全基因组序列;
比对模块:用于将符合预设条件的全基因组序列比对到参考基因组序列上以得到具有位置信息的基因组序列,其中,参考基因组序列为从基因数据库下载的相应物种的全基因组序列;
筛查操作模块:用于对比对后的基因组进行序列筛查操作以得到待测试基因组序列,所述序列筛查操作包括处理PCR重复序列的操作及处理未经重亚硫酸盐转换序列的操作;
提取模块:用于提取所述待测试基因组序列所有CpG位点的甲基化状态数据,并根据所述甲基化状态数据确定状态分析内容。
9.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至7任一项所述的胚胎植入前DNA分析检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至7任一项所述的胚胎植入前DNA分析检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211637483.7A CN115910211B (zh) | 2022-12-15 | 2022-12-15 | 胚胎植入前dna分析检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211637483.7A CN115910211B (zh) | 2022-12-15 | 2022-12-15 | 胚胎植入前dna分析检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115910211A true CN115910211A (zh) | 2023-04-04 |
CN115910211B CN115910211B (zh) | 2024-03-22 |
Family
ID=86481646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211637483.7A Active CN115910211B (zh) | 2022-12-15 | 2022-12-15 | 胚胎植入前dna分析检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115910211B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105861658A (zh) * | 2016-04-12 | 2016-08-17 | 中国科学院北京基因组研究所 | 一种筛选优良发育囊胚的无创检测方法 |
CN107760773A (zh) * | 2017-10-26 | 2018-03-06 | 北京中仪康卫医疗器械有限公司 | 一种对胚胎培养液进行scRRBS分析的方法 |
CN111755072A (zh) * | 2020-08-04 | 2020-10-09 | 深圳吉因加医学检验实验室 | 一种同时检测甲基化水平、基因组变异和插入片段的方法及装置 |
US20210230684A1 (en) * | 2019-05-31 | 2021-07-29 | Freenome Holdings, Inc. | Methods and systems for high-depth sequencing of methylated nucleic acid |
CN114480629A (zh) * | 2022-04-15 | 2022-05-13 | 北京大学第三医院(北京大学第三临床医学院) | 一种同时实现囊胚非整倍体检测和高着床潜能筛选的方法 |
WO2022214051A1 (en) * | 2021-04-08 | 2022-10-13 | The Chinese University Of Hong Kong | Cell-free dna methylation and nuclease-mediated fragmentation |
CN115216545A (zh) * | 2021-04-20 | 2022-10-21 | 北京大学 | 用于无创植入前非整倍体遗传检测的方法 |
CN115472223A (zh) * | 2021-06-11 | 2022-12-13 | 北京大学 | 甲基化测序数据分析方法 |
-
2022
- 2022-12-15 CN CN202211637483.7A patent/CN115910211B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105861658A (zh) * | 2016-04-12 | 2016-08-17 | 中国科学院北京基因组研究所 | 一种筛选优良发育囊胚的无创检测方法 |
CN107760773A (zh) * | 2017-10-26 | 2018-03-06 | 北京中仪康卫医疗器械有限公司 | 一种对胚胎培养液进行scRRBS分析的方法 |
US20210230684A1 (en) * | 2019-05-31 | 2021-07-29 | Freenome Holdings, Inc. | Methods and systems for high-depth sequencing of methylated nucleic acid |
CN111755072A (zh) * | 2020-08-04 | 2020-10-09 | 深圳吉因加医学检验实验室 | 一种同时检测甲基化水平、基因组变异和插入片段的方法及装置 |
WO2022214051A1 (en) * | 2021-04-08 | 2022-10-13 | The Chinese University Of Hong Kong | Cell-free dna methylation and nuclease-mediated fragmentation |
CN115216545A (zh) * | 2021-04-20 | 2022-10-21 | 北京大学 | 用于无创植入前非整倍体遗传检测的方法 |
CN115472223A (zh) * | 2021-06-11 | 2022-12-13 | 北京大学 | 甲基化测序数据分析方法 |
CN114480629A (zh) * | 2022-04-15 | 2022-05-13 | 北京大学第三医院(北京大学第三临床医学院) | 一种同时实现囊胚非整倍体检测和高着床潜能筛选的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115910211B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rochette et al. | Stacks 2: Analytical methods for paired‐end sequencing improve RADseq‐based population genomics | |
De Coster et al. | Towards population-scale long-read sequencing | |
Schubert et al. | Characterization of ancient and modern genomes by SNP detection and phylogenomic and metagenomic analysis using PALEOMIX | |
Kofler et al. | PoPoolation: a toolbox for population genetic analysis of next generation sequencing data from pooled individuals | |
Peterson et al. | Double digest RADseq: an inexpensive method for de novo SNP discovery and genotyping in model and non-model species | |
CN111341383B (zh) | 一种检测拷贝数变异的方法、装置和存储介质 | |
Olson et al. | Variant calling and benchmarking in an era of complete human genome sequences | |
Lange et al. | Analysis pipelines for cancer genome sequencing in mice | |
Nouhaud et al. | Ancestral population reconstitution from isofemale lines as a tool for experimental evolution | |
CN108681661B (zh) | 一种伴随实验生成样本id的方法 | |
US20190139628A1 (en) | Machine learning techniques for analysis of structural variants | |
CN115458052A (zh) | 基于一代测序的基因突变分析方法、设备和存储介质 | |
CN115083521A (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统 | |
Palma et al. | In vitro and in silico parameters for precise cgMLST typing of Listeria monocytogenes | |
Meleshko et al. | Detection and assembly of novel sequence insertions using Linked-Read technology | |
CN110246544B (zh) | 一种基于整合分析的生物标志物选择方法及系统 | |
CN117253539B (zh) | 基于胚系突变检测高通量测序中样本污染的方法和系统 | |
Satake et al. | Somatic mutation rates scale with time not growth rate in long-lived tropical trees | |
CN107967411B (zh) | 一种脱靶位点的检测方法、装置及终端设备 | |
Smith et al. | Quantitative trait locus analysis using J/qtl | |
CN115910211B (zh) | 胚胎植入前dna分析检测方法及装置 | |
CN113981070B (zh) | 胚胎染色体微缺失的检测方法、装置、设备和存储介质 | |
CN110942806A (zh) | 一种血型基因分型方法和装置及存储介质 | |
JP7166638B2 (ja) | 多型検出法 | |
JP2019525308A (ja) | 合成wgsバイオインフォマティクスの検証 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |