CN113205857A - 基因组性染色体非同源区域的鉴定方法和装置 - Google Patents

基因组性染色体非同源区域的鉴定方法和装置 Download PDF

Info

Publication number
CN113205857A
CN113205857A CN202110746653.4A CN202110746653A CN113205857A CN 113205857 A CN113205857 A CN 113205857A CN 202110746653 A CN202110746653 A CN 202110746653A CN 113205857 A CN113205857 A CN 113205857A
Authority
CN
China
Prior art keywords
type
sequencing
depth
sequencing depth
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110746653.4A
Other languages
English (en)
Other versions
CN113205857B (zh
Inventor
周勋
赵勇
陶琳娜
苏亚南
王龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Novogene Biological Information Technology Co ltd
Original Assignee
Tianjin Novogene Biological Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Novogene Biological Information Technology Co ltd filed Critical Tianjin Novogene Biological Information Technology Co ltd
Priority to CN202110746653.4A priority Critical patent/CN113205857B/zh
Publication of CN113205857A publication Critical patent/CN113205857A/zh
Application granted granted Critical
Publication of CN113205857B publication Critical patent/CN113205857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本申请提供了一种基因组性染色体非同源区域的鉴定方法和装置。该鉴定方法包括获取XY型或ZW型个体以及XX型或ZZ型个体的二代测序数据,各个体的测序深度为第一测序深度;获取通过三代测序数据组装得到的XY型或ZW型个体的组装基因组;分别计算XY型或ZW型个体以及XX型或ZZ型个体的二代测序数据与组装基因组的比对结果中每个contig或scaffold测序深度,分别记为第二测序深度和第三测序深度;第二测序深度为第一测序深度的1/2~2/3,且第三测序深度小于第一测序深度的1/10的contig或scaffold是性染色体非同源区域。利用两种性别个体的reads深度共同鉴定的非同源区域更准确。

Description

基因组性染色体非同源区域的鉴定方法和装置
技术领域
本申请涉及基因组组装领域,具体而言,涉及一种基因组性染色体非同源区域的鉴定方法和装置。
背景技术
每一个物种的参考基因组序列(reference genome)的产生都要先通过测序的方法,获得基因组的测序读段(reads),然后再进行从头拼接或组装(英文名称为de novogenome assembly),最后还原测序物种的各条染色体的序列,即ATGC四种碱基的排列顺序。
由于目前的高通量测序技术虽然通量较高,但读段较短,无法直接测序获取一整条染色体的序列。其中,一代测序(Sanger测序)一般可测1kb左右的序列;二代测序(next-generation sequencing),一般可测50~500bp;三代测序虽然可测100kb甚至更长的序列,但现在三代测序技术的测序错误率相对较高。
目前基因组测序数据的从头组装过程简单描述为:测序读段(reads)---->重叠群(contig)---->支架(scaffold)---->染色体(chromosome)。具体地,基因组测序产生reads,然后基于reads之间的重叠的区域,对reads进行组装产生长片段的重叠群(contigs),再确定contig的方向和顺序,进一步组装产生更长的片段支架(scaffolds),最后再组装连接scaffold得到完整的染色体序列。
其中,contig是由多个reads通过重叠的区域进行组装而形成的长片段。由于测序读段较短、基因组序列通常含有较多重复序列、而且还有测序错误等原因,除了简单的基因组序列外,大部分物种的基因组序列组装需要先组装成多个contigs。
进一步地,方向和顺序已经确定的多条contig序列连接形成的更长的片段,称为scaffold。scaffold的获得一般主要通过双端测序(如paired-end sequencing或mate-pair sequencing)或者bionano光学图谱技术来确定contig的顺序和方向,以及contig之间的间隔距离。
基因组从头组装过程中,应用二代测序数据结合三代测序数据能够将基因组初步组装到contig水平,通过Hi-C技术(High-through Chromosome conformation capture,高通量测序与染色体构型捕获相结合的技术)能够基于染色体内部互作关系将基因组挂载至近染色体水平,目前已发表的大部分基因组均能够达到近染色体水平,而性染色体非同源区域在组装过程中往往不能进行有效区分。
性染色体分为XY基因型和ZW基因型,所有哺乳类动物、多数雌雄异株植物、昆虫、某些鱼类及两栖类动物的性别决定方式为XY基因型。ZW基因型普遍存在于鳞翅目昆虫、两栖类、爬行类和鸟类之中。XY基因型中,XX基因型为雌性,XY基因型为雄性。ZW基因型中,ZW基因型为雌性,ZZ基因型为雄性。
由于X、Y染色体之间,Z、W染色体之间存在大段同源区段,使得在基因组组装到染色体水平中,性染色体XY基因型的Y染色体,ZW基因型的W染色体,只能组装出部分片段,在进行hic挂载时,对于XY基因型或者ZW基因型的个体,性染色体只能挂载出单条X染色体或Z染色体,相应的Y或者W染色体因存在大量的同源区域,目前的组装技术并不能有效的进行挂载,非同源区域会存在于未挂载的contig片段中,目前已发表的基因组未能将存在于contig片段中性染色体的非同源区域鉴定出来。
综上可知,基因组组装到染色体水平后,性染色体非同源区域因片段化较为严重,同常染色体片段序列共同存在于未挂载到染色体的片段序列中,因此,存在无法将性染色体的非同源区域片段和常染色体的片段鉴定出来的问题。
发明内容
本申请的主要目的在于提供一种基因组性染色体非同源区域的鉴定方法和装置,以解决基因组组装的过程中性染色体非同源区段难以鉴定的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基因组性染色体非同源区域的鉴定方法,该鉴定方法包括:获取XY型或ZW型个体的二代测序数据,同时获取XX型或ZZ型个体的二代测序数据,其中,各个体的二代测序数据的测序深度为第一测序深度;获取XY型或ZW型个体的组装基因组,该组装基因组通过对XY型或ZW型个体的三代测序数据组装得到;计算XY型或ZW型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第二测序深度;计算XX型或ZZ型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第三测序深度;其中,第二测序深度为第一测序深度的1/2~2/3,且第三测序深度小于第一测序深度的1/10的contig或者scaffold是性染色体非同源区域。
进一步地,计算第二测序深度和第三测序深度包括:对XY型或ZW型个体的组装基因组使用比对软件构建索引,得到基因组的索引文件;对XY型或ZW型个体的二代测序数据使用比对软件比对回XY型或ZW型个体的组装基因组上,得到比对的第一bam文件;对XX型或ZZ型个体的二代测序数据使用比对软件比对回XY型或ZW型个体的组装基因组上,得到比对的第二bam文件;对第一bam文件和第二bam文件进行排序,并分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度,得到第二测序深度和第三测序深度。
进一步地,比对软件为BWA软件。
进一步地,采用samtools软件对第一bam文件和第二bam文件进行排序,并利用samtools软件分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度。
进一步地,第一测序深度为30~35×;第二测序深度为15~20×;第三测序深度为0~3×。
为了实现上述目的,根据本申请的一个方面,提供了一种基因组性染色体非同源区域的鉴定装置,鉴定装置包括:第一获取模块,用于获取XY型或ZW型个体的二代测序数据,同时获取XX型或ZZ型个体的二代测序数据,其中,各个体的二代测序数据的测序深度为第一测序深度;第二获取模块,用于获取通过三代测序数据组装得到的XY型或ZW型个体的组装基因组;计算模块,用于计算XY型或ZW型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第二测序深度;并计算XX型或ZZ型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第三测序深度;选取模块,用于选取第二测序深度为第一测序深度的1/2~2/3,且第三测序深度小于第一测序深度的1/10的contig或者scaffold,作为性染色体非同源区域。
进一步地,计算模块包括:索引构建模块,用于对XY型或ZW型个体的组装基因组使用比对软件构建索引,得到基因组的索引文件;第一比对模块,用于对XY型或ZW型个体的二代测序数据比对回XY型或ZW型个体的组装基因组上,得到比对的第一bam文件;第二比对模块,用于对XX型或ZZ型个体的二代测序数据比对回XY型或ZW型个体的组装基因组上,得到比对的第二bam文件;排序及深度计算模块,用于对第一bam文件和第二bam文件进行排序,并分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度,得到第二测序深度和第三测序深度。
进一步地,第一比对模块和第二比对模块为BWA比对模块。
进一步地,排序及深度计算模块为samtools模块。
进一步地,第一测序深度为30~35×;第二测序深度为15~20×;第三测序深度为0~3×。
根据本申请的另一方面,提供了一种计算机可读的存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一种基因组性染色体非同源区域的鉴定方法。
根据本申请的另一方面,提供了一种电子设备,包括处理器,处理器用于运行程序,其中,程序运行时执行上述任意一种基因组性染色体非同源区域的鉴定方法。
应用本申请的技术方案,提供了一种XY基因型或者ZW基因型基因组鉴定性染色体非同源区域的方法,根据XY或者ZW基因型基因组中,性染色体非同源区域的二代测序reads测序深度为常染色体的二分之一,而XX或者ZZ基因型的二代测序reads在与XY或者ZW基因型基因组比对的结果中,性染色体非同源区域的二代reads的测序深度为0的基本原则,通过分别对雌性及雄性个体测序的二代测序数据进行测序深度计算,并通过性染色体来源的区域片段的测序深度在两种个体中的深度差异,从而将性染色体(Y或者W)的非同源区域鉴定出来。本申请的方法克服了现有方法中利用单一个体中性染色体的非同源区域与众多的同源区域混杂在一起而难以准确鉴定的问题。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请一种优选的实施例中的基因组性染色体非同源区域的鉴定方法的流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本申请。
BWA,即Burrows-Wheeler-Alignment Tool。BWA 是一种能够将差异度较小的序列比对到一个较大的参考基因组上的软件包。首先需要使用索引命令构建参考基因组的索引,用于后面的比对。所以,使用BWA整个比对过程主要分为两步,第一步建索引,第二步使用BWA MEM进行比对。bwa的使用需要两种输入文件:1)参考基因组序列文件(Referencegenome data)(fasta格式 .fa, .fasta, .fna);2)短读段二代测序数据文件(Shortreads data ) (fastaq格式 .fastaq, .fq)。
bam文件说明:bam文件和sam文件内容其实是一样的,只是bam是二进制的压缩文件,需要通过特定的软件来进行查看,bam文件通常可以理解为12个字段组成。BAM格式分为两个部分:头部(header section,各种注释信息,以@开头)和主体(alignment section,即比对结果)。alignment section由11个字段组成:
1.QNAME: reads的名称, Read ID;
2.FALG: 是一个标记比对结果的数字,具体的FALG值可以查询得到;
3.RNAME:参考序列的名字,也可以理解为比对上的重叠群contig或者scaffold名字或者染色体号;
4.POS:比对到参考序列上的位置;
5.MAPQ:比对质量值(mapping quality);
6. CIGAR:代表比对结果的CIGAR字符串,如5M2D12M1I,这段字符的意思是按照顺序:前5个匹配,其后2个与参考序列相比缺失了,接着12个匹配,最后1个参考序列上的插入。M代表的是alignment match或mismatch (即匹配或错配),可以理解为表示比对的具体情况;
7. MRNM:表示mate 序列匹配上的参考序列(或染色体)的名称,mate一般指大的片段序列;
8. MPOS:表示该read对应的mate pair read在参考序列上的比对位置;
9. ISIZE:估计出的文库插入片段的长度,当mate 序列位于本序列上游时该值为负值;
10.SEQ :read的序列,即该read的序列信息;
11. QUAL:read质量信息,即该read对应的ASCII-33编码格式的碱基质量值;
12.OPT:可选的区域头部分(header section)。
如背景技术所提到的,现有的基因组组装过程中因性染色体中存在大量的同源区域而难以准确鉴定出来,为改善这一问题,发明人对现有的方法进行了研究分析,并发现:对于XY或者ZW基因型的基因组组装后的非同源区段鉴定,选取该个体的测序reads比对回上述基因组,根据性染色体的深度为常染色体的一半,选取数据比对深度为整体基因组比对深度一半的contig片段或scaffold为Y特异性染色体。利用该方法能够对性染色体非同源区域进行部分鉴定,但因为同源区段的影响,性染色体的reads深度并非准确的为整体深度的一半,单个体的鉴定结果准确性会存在误差。在此基础上,发明人进一步提出了本申请的改进方案。
实施例1
在本实施例中,提出了一种基因组性染色体非同源区域的鉴定方法。该鉴定方法包括:
S101,获取XY型或ZW型个体的二代测序数据,同时获取XX型或ZZ型个体的二代测序数据,其中,其中,各个体的二代测序数据的测序深度为第一测序深度;
S102,获取XY型或ZW型个体的组装基因组,该组装基因组通过对XY型或ZW型个体的三代测序数据进行组装得到;
S103,计算XY型或ZW型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第二测序深度;并计算XX型或ZZ型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第三测序深度;
S104,选取第二测序深度为上述第一测序深度的1/2~2/3,且第三测序深度小于上述第一测序深度的1/10的contig或者scaffold,作为性染色体非同源区域。
本发明的鉴定方法,同样利用了性染色体的深度为常染色体的一半的鉴定思路,但采用了对雌性和雄性两种性别个体的二代测序数据,通过两种性别个体的测序reads深度来共同判断性染色体的非同源区域,提高了性染色体非同源区域鉴定结果的准确性,也为基因组性染色体非同源区域鉴定提供一种新的思路和方法。
需要说明的是,通常情况下,三代测序数据的读长较长,用来对基因组序列进行组装。二代测序数据用于鉴定性染色体。本申请中的二代测序数据和三代测序数据可以是同一批次的测序数据,也可以是不同批次的测序数据,均不影响鉴定结果。
上述获取XY型或ZW型个体的组装基因组的步骤,可以根据已有的三代测序数据获得已经组装好的基因组,也可以是与二代测序数据同一批次测得的三代测序数据经过组装得到。
上述步骤S102中,利用三代测序数据对XY型或者ZW型个体的测序数据进行基因组组装的步骤与现有技术相同,均需要经过测序读段(reads)---->重叠群(contig)---->支架(scaffold)---->染色体(chromosome)的组装流程。
对于上述性染色体(本申请中重点指能单独指示性别的Y染色或W染色体)中来源于不同性别的个体的同源区域的测序深度符合理论上的1/2或0的原则,分别对两种性别个体中的Y或W染色体的深度进行统计,具体的统计方法可以采用常规的测序深度的计算方法。
在一种优选的实施例中,计算第二测序深度和第三测序深度包括:对XY型或ZW型个体的组装基因组使用比对软件构建索引,得到基因组的索引文件;对XY型或ZW型个体的二代测序数据使用比对软件比对回XY型或ZW型个体的组装基因组上,得到比对的第一bam文件;对XX型或ZZ型个体的二代测序数据使用比对软件比对回XY型或ZW型个体的组装基因组上,得到比对的第二bam文件;对第一bam文件和第二bam文件进行排序,并分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度,得到第二测序深度和第三测序深度。
优选地,比对软件为BWA软件。
优选地,采用samtools软件对第一bam文件和第二bam文件进行排序,并利用samtools软件分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度。
需要说明的是,上述两种性别的个体的二代测序数据均为高深度的测序数据,通常需要30×(需要说明的是,代表测序深度的×为乘号)以上。在本申请中,由于测序深度存在一定的差异,优选上述第一测序深度为30~35×;第二测序深度为15~20×;第三测序深度为0~3×。此处所述的测序深度均指平均测序深度,而非单一碱基、单一contig或单一scaffold的测序深度。
下面将结合其他的实施例来进一步说明本申请的有益效果。
实施例2
按照本实施例,根据二代数据reads深度鉴别性染色体的非同源区域,具体方法如图1所示:
(1)选取雌性个体和雄性个体,各个体的基因组测序深度为30×的二代测序reads。
(2)对XY基因型或者ZW基因型组装的基因组(已有的)使用bwa软件构建索引,得到基因组的索引文件。
(3)将XY型或者ZW型的二代测序reads使用bwa软件比对回XY基因型或ZW基因型组装的基因组上,得到比对的bam文件。
(4)使用samtools软件对步骤(3)获得的bam文件进行排序,得到排序后的bam文件。
(5)将XX基因型或ZZ基因型的二代测序reads使用bwa软件比对回XY基因型或者ZW基因型组装的基因组上,得到比对的bam文件。
(6)使用samtools软件对步骤(5)获得的bam文件进行排序,得到排序后的bam文件。
(7)使用samtools软件计算步骤(4)获得的bam文件中每条contig或者scaffold(或染色体)的测序深度,得到XY基因型或者ZW基因型reads对基因组的测序深度。
(8)使用samtools软件计算步骤(6)获得的bam文件中每条contig或者scaffold(或染色体)的测序深度,得到XX基因型或者ZZ基因型reads对基因组的测序深度。
(9)取XY基因型或者ZW基因型中测序深度为15-20×的contig或者scaffold,并且在XX基因型或者ZZ基因型中测序深度为0-3×的contig或者scaffold,即为性染色体非同源区域。
实施例3
鸭子和鹅的性别决定基因型为ZW型,雌性为ZW型,雄性为ZZ型。根据本发明的步骤,对2只鸭子和一只鹅,分别选取雌性个体和雄性个体一只,测30X的二代reads,比对回雌性个体,挑选雌性reads比对覆盖度为15-20×的contig或者scaffold,雄性reads比对覆盖度为0-3×的contig或者scaffold,将得到的这些contig或者scaffold通过hic连接起来,最终得到2只鸭子的W染色体非同源区域长度为15,432,393bp和12,483,884bp,鹅的W染色体非同源区域长度为12,906,554 bp。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
对应于上述方式,本申请还分别提供了一种基因组性染色体非同源区域的鉴定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
下面结合可选的实施例进一步说明。
实施例4
本实施例提供了一种基因组性染色体非同源区域的鉴定装置,该鉴定装置包括:第一获取模块、第二获取模块、计算模块及选取模块,其中,第一获取模块用于获取XY型或ZW型个体的二代测序数据,同时获取XX型或ZZ型个体的二代测序数据,其中,各个体的二代测序数据的测序深度为第一测序深度;第二获取模块用于获取XY型或ZW型个体的组装基因组,该组装基因组通过对XY型或ZW型个体的三代测序数据进行组装得到;计算模块用于计算XY型或ZW型个体的二代测序数据与XY型或ZW型个体的基因组的比对结果中,每个contig或scaffold的测序深度,记为第二测序深度;并计算XX型或ZZ型个体的二代测序数据与XY型或ZW型个体的基因组的比对结果中,每个contig或scaffold的测序深度,记为第三测序深度;选取模块用于选取第二测序深度为第一测序深度的1/2~2/3,且第三测序深度小于第一测序深度的1/10的contig或者scaffold,作为性染色体非同源区域。
该鉴定装置通过获取模块获取来源于两种不同性别个体的二代测序数据,并利用组装模块对两种性别的个体的基因组进行组装,然后利用计算模块计算出来源于不同性别的个体在每个contig、每个sacffold或每条染色体的测序深度,根据Y或W染色体在两种性别中的测序深度应为基因组平均测序深度的1/2或0的原则,从而筛选出同时满足这两种测序深度的contig或sacffold,从而得到性染色体的非同源区域。该装置对性染色体的非同源区域的鉴定结果更准确。
在一种优选的实施例中,上计算模块包括:索引构建模块,用于对XY型或ZW型个体的组装基因组使用比对软件构建索引,得到基因组的索引文件;第一比对模块,用于对XY型或ZW型个体的二代测序数据比对回XY型或ZW型个体的组装基因组上,得到比对的第一bam文件;第二比对模块,用于对XX型或ZZ型个体的二代测序数据比对回XY型或ZW型个体的组装基因组上,得到比对的第二bam文件;排序及深度计算模块,用于对第一bam文件和第二bam文件进行排序,并分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度,得到第二测序深度和第三测序深度。
优选地,第一比对模块和第二比对模块为BWA比对模块。
优选地,排序及深度计算模块为samtools模块。
优选地,第一测序深度为30~35×;第二测序深度为15~20×;第三测序深度为0~3×。
实施例5
本实施例提供了一种计算机可读的存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种基因组性染色体非同源区域的鉴定方法。
本实施例还提供了一种电子设备,包括处理器,处理器用于运行程序,其中,程序运行时执行上述任一种基因组性染色体非同源区域的鉴定方法。
从以上的描述中,可以看出,与现有的基因组组装结果相比,本发明提供一种在现有组装结果鉴定性染色体非同源区域的方法,根据发明的方法,可以将组装结果中性染色体非同源区域根据reads深度鉴别出来,对研究性别决定机制及相关遗传特性提供方法支撑。
与相比现有技术,本申请的方案至少具有以下优点:
(1)使用雌性和雄性个体深度结合判断性染色体,鉴定的结果更准确。
(2)对性染色体同源区域和非同源区区域组装到一起的contig或者scaffold也能很好的鉴定。
需要说明的是,本发明采用了雌性和雄性个体,分别对雌性及雄性个体进行二代测序的方法。雌性和雄性个体选取多个时,性染色体的非同源区鉴定会更加准确。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种基因组性染色体非同源区域的鉴定方法,其特征在于,所述鉴定方法包括:
获取XY型或ZW型个体的二代测序数据,同时获取XX型或ZZ型个体的二代测序数据,其中,各个体的所述二代测序数据的测序深度为第一测序深度;
获取XY型或ZW型个体的组装基因组,所述组装基因组通过三代测序数据组装得到;
计算所述XY型或ZW型个体的所述二代测序数据与所述组装基因组的比对结果中,每个重叠群contig或支架scaffold的测序深度,记为第二测序深度;
计算所述XX型或ZZ型个体的所述二代测序数据与所述组装基因组的比对结果中,每个重叠群contig或支架scaffold的测序深度,记为第三测序深度;
其中,所述第二测序深度为所述第一测序深度的1/2~2/3,且所述第三测序深度小于所述第一测序深度的1/10的重叠群contig或者支架scaffold是所述性染色体非同源区域。
2.根据权利要求1所述的鉴定方法,其特征在于,计算所述第二测序深度和所述第三测序深度包括:
对所述XY型或ZW型个体的所述组装基因组使用比对软件构建索引,得到基因组的索引文件;
对所述XY型或ZW型个体的所述二代测序数据使用比对软件比对回所述XY型或ZW型个体的所述组装基因组上,得到比对的第一bam文件;
对所述XX型或ZZ型个体的所述二代测序数据使用比对软件比对回所述XY型或ZW型个体的所述组装基因组上,得到比对的第二bam文件;
对所述第一bam文件和所述第二bam文件进行排序,并分别计算所述第一bam文件和所述第二bam文件中每条重叠群contig或支架scaffold的测序深度,得到所述第二测序深度和所述第三测序深度。
3.根据权利要求2所述的鉴定方法,其特征在于,所述比对软件为BWA软件。
4.根据权利要求2所述的鉴定方法,其特征在于,采用samtools软件对所述第一bam文件和所述第二bam文件进行排序,并利用所述samtools软件分别计算所述第一bam文件和所述第二bam文件中每条重叠群contig或支架scaffold的测序深度。
5.根据权利要求1至4中任一项所述的鉴定方法,其特征在于,所述第一测序深度为30~35×;所述第二测序深度为15~20×;第三测序深度为0~3×。
6.一种基因组性染色体非同源区域的鉴定装置,其特征在于,所述鉴定装置包括:
第一获取模块,用于获取XY型或ZW型个体的二代测序数据,同时获取XX型或ZZ型个体的二代测序数据,其中,各个体的所述二代测序数据的测序深度为第一测序深度;
第二获取模块,用于获取通过三代测序数据组装得到的XY型或ZW型个体的组装基因组;
计算模块,用于计算所述XY型或ZW型个体的二代测序数据与所述组装基因组的比对结果中,每个重叠群contig或支架scaffold的测序深度,记为第二测序深度;并计算所述XX型或ZZ型个体的二代测序数据与所述组装基因组的比对结果中,每个重叠群contig或支架scaffold的测序深度,记为第三测序深度;
选取模块,用于选取所述第二测序深度为所述第一测序深度的1/2~2/3,且所述第三测序深度小于所述第一测序深度的1/10的重叠群contig或者支架scaffold,作为所述性染色体非同源区域。
7.根据权利要求6所述的鉴定装置,其特征在于,所述计算模块包括:
索引构建模块,用于对所述XY型或ZW型个体的所述组装基因组使用比对软件构建索引,得到基因组的索引文件;
第一比对模块,用于对所述XY型或ZW型个体的所述二代测序数据比对回所述XY型或ZW型个体的所述组装基因组上,得到比对的第一bam文件;
第二比对模块,用于对所述XX型或ZZ型个体的所述二代测序数据比对回所述XY型或ZW型个体的所述组装基因组上,得到比对的第二bam文件;
排序及深度计算模块,用于对所述第一bam文件和所述第二bam文件进行排序,并分别计算所述第一bam文件和所述第二bam文件中每条重叠群contig或支架scaffold的测序深度,得到所述第二测序深度和所述第三测序深度。
8.根据权利要求7所述的鉴定装置,其特征在于,所述第一比对模块和所述第二比对模块为BWA比对模块。
9.根据权利要求7所述的鉴定装置,其特征在于,所述排序及深度计算模块为samtools模块。
10.根据权利要求6至9中任一项所述的鉴定装置,其特征在于,所述第一测序深度为30~35×;所述第二测序深度为15~20×;第三测序深度为0~3×。
11.一种计算机可读的存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的基因组性染色体非同源区域的鉴定方法。
12.一种电子设备,所述电子设备包括处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的基因组性染色体非同源区域的鉴定方法。
CN202110746653.4A 2021-07-02 2021-07-02 基因组性染色体非同源区域的鉴定方法和装置 Active CN113205857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110746653.4A CN113205857B (zh) 2021-07-02 2021-07-02 基因组性染色体非同源区域的鉴定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110746653.4A CN113205857B (zh) 2021-07-02 2021-07-02 基因组性染色体非同源区域的鉴定方法和装置

Publications (2)

Publication Number Publication Date
CN113205857A true CN113205857A (zh) 2021-08-03
CN113205857B CN113205857B (zh) 2021-09-28

Family

ID=77022718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110746653.4A Active CN113205857B (zh) 2021-07-02 2021-07-02 基因组性染色体非同源区域的鉴定方法和装置

Country Status (1)

Country Link
CN (1) CN113205857B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464261A (zh) * 2022-04-12 2022-05-10 天津诺禾致源生物信息科技有限公司 组装延长性染色体的方法及装置
CN117577199A (zh) * 2023-11-22 2024-02-20 允思拓(天津)生物科技有限公司 一种染色体级的基因注释方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016008146A1 (zh) * 2014-07-18 2016-01-21 深圳华大基因研究院 一种样本性别鉴定方法及装置
CN106033502A (zh) * 2015-03-20 2016-10-19 深圳华大基因股份有限公司 鉴定病毒的方法和装置
CN109416928A (zh) * 2016-06-07 2019-03-01 伊路米纳有限公司 用于进行二级和/或三级处理的生物信息学系统、设备和方法
CN109460822A (zh) * 2018-11-19 2019-03-12 天津大学 基于dna的信息存储方法
CN111508561A (zh) * 2019-07-04 2020-08-07 北京希望组生物科技有限公司 同源序列和同源序列中串联重复序列的检测方法、计算机可读介质和应用
CN112786107A (zh) * 2021-01-20 2021-05-11 深圳百人科技有限公司 一种针对复合扩增str数据的分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016008146A1 (zh) * 2014-07-18 2016-01-21 深圳华大基因研究院 一种样本性别鉴定方法及装置
CN106033502A (zh) * 2015-03-20 2016-10-19 深圳华大基因股份有限公司 鉴定病毒的方法和装置
CN109416928A (zh) * 2016-06-07 2019-03-01 伊路米纳有限公司 用于进行二级和/或三级处理的生物信息学系统、设备和方法
CN109460822A (zh) * 2018-11-19 2019-03-12 天津大学 基于dna的信息存储方法
CN111508561A (zh) * 2019-07-04 2020-08-07 北京希望组生物科技有限公司 同源序列和同源序列中串联重复序列的检测方法、计算机可读介质和应用
CN112786107A (zh) * 2021-01-20 2021-05-11 深圳百人科技有限公司 一种针对复合扩增str数据的分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MATIAS RODRIGUEZ ET.AL: "Expanding an expanded genome: long-read sequencing of Trypanosoma cruzi", 《MICROBIAL GENOMICS》 *
吴亚江 等: "基于RASEF基因性别间序列变异的鹤鸵性别鉴定", 《野生动物学报》 *
郑春和: ""伴性遗传"教学初探", 《生物学通报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464261A (zh) * 2022-04-12 2022-05-10 天津诺禾致源生物信息科技有限公司 组装延长性染色体的方法及装置
CN114464261B (zh) * 2022-04-12 2022-07-01 天津诺禾致源生物信息科技有限公司 组装延长性染色体的方法及装置
CN117577199A (zh) * 2023-11-22 2024-02-20 允思拓(天津)生物科技有限公司 一种染色体级的基因注释方法及装置

Also Published As

Publication number Publication date
CN113205857B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
Wick et al. Benchmarking of long-read assemblers for prokaryote whole genome sequencing
CN113205857B (zh) 基因组性染色体非同源区域的鉴定方法和装置
CN105886616B (zh) 一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
CN107423578B (zh) 检测体细胞突变的装置
Song et al. Rascaf: improving genome assembly with RNA sequencing data
Sun et al. SHOREmap v3. 0: fast and accurate identification of causal mutations from forward genetic screens
Bernardes et al. A multi-objective optimization approach accurately resolves protein domain architectures
CN107194208A (zh) 一种基因分析注释方法和装置
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
CN114496077B (zh) 用于检测单核苷酸变异和插入缺失的方法、设备和介质
CN110021355B (zh) 二倍体基因组测序片段的单倍体分型和变异检测方法和装置
WO2014069769A1 (ko) 리드 전체를 고려한 염기 서열 정렬 시스템 및 방법
KR20140006846A (ko) Dna 서열의 데이터 분석
CN113362889A (zh) 基因组结构变异注释方法
CN111755068A (zh) 基于测序数据识别肿瘤纯度和绝对拷贝数的方法及装置
CN111883210B (zh) 基于临床特征和序列变异的单基因病名称推荐方法及系统
CN111292809B (zh) 用于检测rna水平基因融合的方法、电子设备和计算机存储介质
Termignoni-Garcia et al. Comparative population genomics of cryptic speciation and adaptive divergence in Bicknell’s and gray-cheeked thrushes (Aves: Catharus bicknelli and Catharus minimus)
CN112489727B (zh) 一种快速获取罕见病致病位点的方法和系统
CN113409890B (zh) 一种基于二代测序数据的hla分型方法
CN107967411B (zh) 一种脱靶位点的检测方法、装置及终端设备
CN107784198B (zh) 一种二代序列和三代单分子实时测序序列联合组装方法和系统
EP3663890B1 (en) Alignment method, device and system
US20110004616A1 (en) Base sequence determination program, base sequence determination device, and base sequence determination method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant