CN116343923B - 一种基因组结构变异同源性识别方法 - Google Patents
一种基因组结构变异同源性识别方法 Download PDFInfo
- Publication number
- CN116343923B CN116343923B CN202310278479.4A CN202310278479A CN116343923B CN 116343923 B CN116343923 B CN 116343923B CN 202310278479 A CN202310278479 A CN 202310278479A CN 116343923 B CN116343923 B CN 116343923B
- Authority
- CN
- China
- Prior art keywords
- variation
- call
- base
- homology
- chrom
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000035772 mutation Effects 0.000 claims description 89
- 210000000349 chromosome Anatomy 0.000 claims description 83
- 238000003780 insertion Methods 0.000 claims description 45
- 230000037431 insertion Effects 0.000 claims description 45
- 230000005945 translocation Effects 0.000 claims description 31
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 claims description 30
- 238000012217 deletion Methods 0.000 claims description 19
- 230000037430 deletion Effects 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 7
- 239000003999 initiator Substances 0.000 claims description 6
- 230000003252 repetitive effect Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 210000000130 stem cell Anatomy 0.000 claims description 3
- 108091092724 Noncoding DNA Proteins 0.000 claims 2
- 108700026220 vif Genes Proteins 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 239000002773 nucleotide Substances 0.000 description 7
- 125000003729 nucleotide group Chemical group 0.000 description 7
- 239000012634 fragment Substances 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 108091026890 Coding region Proteins 0.000 description 4
- 108700024394 Exon Proteins 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000007671 third-generation sequencing Methods 0.000 description 3
- -1 transcripts Proteins 0.000 description 3
- 108700026244 Open Reading Frames Proteins 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003116 impacting effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基因组结构变异同源性识别方法,涉及生物信息处理技术领域,针对现有技术中不能对基因组结构变异同源性进行高效识别的问题,本申请建立了一套完整、标准化的基于第三代测序数据的结构变异同源性识别方法。本申请使用设计的结构实现对结构变异同源性的高效识别,并且在整体全面识别的基础上还实现了生物体不同功能区域上的同源性识别。多维度全面的同源性识别有效的促进发现多个体之间结构变异发生的规律与特点等科学问题,从而绘制高精度的人群基因组变异图谱,有助于发现人群基因组变异规律。
Description
技术领域
本发明涉及生物信息处理技术领域,具体为一种基因组结构变异同源性识别方法。
背景技术
基因组中分布着类型和大小千差万别的变异,包括影响范围小但数量庞大的单核苷酸变异(SNV)、在基因组变异中起着重要作用的结构变异(SV)。目前第三代测序数据平台(Pacbio以及ONT)为更加精准的结构变异识别提供了机会和可能,基于第三代测序数据大量复杂且尺度更大的结构变异检测被成功检测出来。然而对大量复杂的结构变异的同源性的高效、全面识别以成为当前的领域的重点、难点问题。
发明内容
本发明的目的是:针对现有技术中不能对基因组结构变异同源性进行高效识别的问题,提出一种基因组结构变异同源性识别方法。
本发明为了解决上述技术问题采取的技术方案是:
一种基因组结构变异同源性识别方法,包括以下步骤:
步骤一:获取参考文件和对比文件,即base以及call,并读取参考文件和对比文件中的变异信息,所述变异信息包括染色体号、变异类型、变异发生的起始位点坐标、结束位点坐标、变异的长度以及易位变异的格式,变异类型包括删除、插入、重复、倒位及易位,参考文件和对比文件的每一行都代表一个结构变异;
步骤二:根据变异类型对结构变异同源性进行识别,具体为:
针对删除、重复、倒位,执行如下步骤:
步骤二一一:通过将变异发生的起始位点坐标、结束位点坐标以及变异的长度在base以及call中分别构建四元组Sigsv_base=(chrom_base,start_base,end_base,length_base)以及Sigsv_call=(chrom_call,start_call,end_call,length_call),其中chrom为发生变异的染色体,start表示变异的起始位点,end表示变异的结束位点,length表示变异的长度;
步骤二一二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应四元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二一三:将call中的变异以call中变异对应四元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二一四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
max(start1-offect,start2)≤min(end1+offect,end2)
min(length1,length2)≥bias×max(length1,length2)
其中,下角标1表示base,下角标2表示call;
步骤二一五:根据call中变异的排序选取下一变异,重复步骤二一三和步骤二一四,直至call中变异全部划分完毕;
针对插入,执行如下步骤:
步骤二二一:在base以及call中分别构建三元组Sigins_base=(chrom_base,start_base,length_base)以及Sigins_call=(chrom_call,start_call,length_call);
步骤二二二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应三元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二二三:将call中的变异以call中变异对应三元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二二四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
|start1-start2|≤offect
min(length1,length2)≥bias×max(length1,length2)
其中,下角标1表示base,下角标2表示call;
步骤二二五:根据call中变异的排序选取下一变异,重复步骤二二三和步骤二二四,直至call中变异全部划分完毕;
针对易位,执行如下步骤:
步骤二三一:在base以及call中分别构建五元组Sigtra_base=(chrom_f_base,chrom_t_base,start_f_base,start_t_base,format_base)以及Sigtra_call=(chrom_f_call,chrom_t_call,start_f_call,start_t_call,format_call),以此记录源染色体信息和目标染色体信息,其中chrom_f和chrom_t分别为易位变异的源染色体号和目标染色体号,start_f,start_t分别为染色体上发生易位的位点信息,format表示易位变异的格式;
步骤二三二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应五元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二三三:将call中的变异以call中变异对应五元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二三四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:
chrom_f1=chrom_f2
chrom_t1=chrom_t2
|start_f1-start_f2|≤offect
|start_t1-start_t2|≤offect
format1=format2
其中,下角标1表示base,下角标2表示call;
步骤二三五:根据call中变异的排序选取下一变异,重复步骤二三三和步骤二三四,直至call中变异全部划分完毕。
进一步的,所述方法还包括:步骤二四:针对base中不为同源性变异的插入变异以及重复变异的同源性识别步骤,具体为:
针对base中不为同源性变异的插入变异,具体步骤为:
步骤二四一:在base中不为同源性变异的插入变异中构建三元组Sigins_base=(chrom_base,start_base,length_base),在call中不为同源性变异的重复变异中构建四元组Sigsv_call=(chrom_call,start_call,end_call,length_call);
步骤二四二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应三元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二四三:将call中的变异以call中变异对应四元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二四四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,
判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
max(start1-offect,start2)≤min(end1+offect,end2)
min(length1,length2)≥bias×max(length1,length2)
其中,下角标1表示base,下角标2表示call;
根据call中变异的排序选取下一变异,重复步骤二四三和步骤二四四,直至call中变异全部划分完毕;
针对base中不为同源性变异的重复变异,具体步骤为:
步骤二四五:在base中不为同源性变异的重复变异中构建四元组Sigsv_base=(chrom_base,start_base,end_base,length_base),在call中不为同源性变异的插入变异中构建三元组Sigins_call=(chrom_call,start_call,length_call);
步骤二四六:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应四元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二四七:将call中的变异以call中变异对应三元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二四八:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,
判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
max(start1-offect,start2)≤min(end1+offect,end2)
min(length1,length2)≥bias×max(length1,length2)
其中,下角标1表示base,下角标2表示call;
根据call中变异的排序选取下一变异,重复步骤二四七和步骤二四八,直至call中变异全部划分完毕。
进一步的,所述方法还包括步骤三:
步骤三:基于同源性变异,进行不同基因组功能区域的同源性分类,具体步骤为:
获取基因组注释文件,即GTF,所述GTF中存储功能区域以及功能区域在基因组中的位置,
针对插入变异,根据功能区域以及功能区域在基因组中的位置,判断插入变异的start对应的功能区域,记录该功能区域,即为完成不同基因组功能区域的同源性分类;
表示为:
startGTF≤startSV≤endGTF
其中,startGTF和endGTF分别表示GTF文件功能区域的起始位置和结束位置,startSV表示结构变异的起始位置;
针对删除、重复、倒位和易位变异,根据功能区域以及功能区域在基因组中的位置,判断删除、重复、倒位和易位变异的start对应的功能区域,记录该功能区域,即为完成不同基因组功能区域的同源性分类;
表示为:
startGTF≤startSV
endSV≤endGTF
其中,endSV表示结构变异的结束位置。
进一步的,所述方法还包括识别方法评测步骤:
利用F1-score对识别方法进行评测,表示为:
其中,recall表示召回率,precision表示精确度,totalcall表示提取出call文件中的元祖总数,totalbase表示提取出call文件中的元祖总数,TP表示记录的同源性变异。
进一步的,所述功能区域包括基因、转录本、外显子、起始子、终止子、3’非编码区域以及5’非编码区域。
进一步的,所述长度相同的桶,桶的长度default=100000。
进一步的,所述删除变异的offect和bias取值分别为800和0.7,重复变异的offect和bias取值分别为1200和0.7,倒位变异的offect和bias取值分别为1000和0.7。
进一步的,所述插入变异的offect和bias取值分别为800和0.7。
进一步的,所述易位变异的offect和bias取值分别为1000和0.7。
进一步的,所述步骤三中,判断插入变异的start对应的功能区域以及判断删除、重复、倒位和易位变异的start对应的功能区域,通过二分查找法进行。
本发明的有益效果是:
本申请建立了一套完整、标准化的基于第三代测序数据的结构变异同源性识别方法。本申请使用设计的结构实现对结构变异同源性的高效识别,并且在整体全面识别的基础上还实现了生物体不同功能区域上的同源性识别。多维度全面的同源性识别有效的促进发现多个体之间结构变异发生的规律与特点等科学问题,从而绘制高精度的人群基因组变异图谱,有助于发现人群基因组变异规律。
本申请专门设计的桶结构存储变异信息,提取识别结构变异同源性的相关信息。其次为了全面提升识别水平,本申请将变异中插入变异以及重复变异进行标签互换,并记录标签互换后的同源性变异,修正性能指标以全面性提示识别性能。最后,本申请提出了多维度结构变异同源性识别的策略。区分基因组功能区域,对基因组功能指定区域(基因、外显子,转录本)中的结构变异同源性进行识别,有利于下游致病性的分析。
附图说明
图1为本申请的整体流程图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的一种基因组结构变异同源性识别方法,包括以下步骤:
步骤一:获取参考文件和对比文件,即base以及call,并读取参考文件和对比文件中的变异信息,所述变异信息包括染色体号、变异类型、变异发生的起始位点坐标、结束位点坐标、变异的长度以及易位变异的格式,变异类型包括删除、插入、重复、倒位及易位,参考文件和对比文件的每一行都代表一个结构变异;
步骤二:根据变异类型对结构变异同源性进行识别,具体为:
针对删除、重复、倒位,执行如下步骤:
步骤二一一:通过将变异发生的起始位点坐标、结束位点坐标以及变异的长度在base以及call中分别构建四元组Sigsv_base=(chrom_base,start_base,end_base,length_base)以及Sigsv_call=(chrom_call,start_call,end_call,length_call),其中chrom为发生变异的染色体,start表示变异的起始位点,end表示变异的结束位点,length表示变异的长度;
步骤二一二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应四元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二一三:将call中的变异以call中变异对应四元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二一四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
max(start1-offect,start2)≤min(end1+offect,end2)
min(length1,length2)≥bias×max(length1,length2)
其中,下角标1表示base,下角标2表示call;
步骤二一五:根据call中变异的排序选取下一变异,重复步骤二一三和步骤二一四,直至call中变异全部划分完毕;
针对插入,执行如下步骤:
步骤二二一:在base以及call中分别构建三元组Sigins_base=(chrom_base,start_base,length_base)以及Sigins_call=(chrom_call,start_call,length_call);
步骤二二二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应三元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二二三:将call中的变异以call中变异对应三元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二二四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
|start1-start2|≤offect
min(length1,length2)≥bias×max(length1,length2)
其中,下角标1表示base,下角标2表示call;
步骤二二五:根据call中变异的排序选取下一变异,重复步骤二二三和步骤二二四,直至call中变异全部划分完毕;
针对易位,执行如下步骤:
步骤二三一:在base以及call中分别构建五元组Sigtra_base=(chrom_f_base,chrom_t_base,start_f_base,start_t_base,format_base)以及Sigtra_call=(chrom_f_call,chrom_t_call,start_f_call,start_t_call,format_call),以此记录源染色体信息和目标染色体信息,其中chrom_f和chrom_t分别为易位变异的源染色体号和目标染色体号,start_f,start_t分别为染色体上发生易位的位点信息,format表示易位变异的格式;
步骤二三二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应五元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二三三:将call中的变异以call中变异对应五元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二三四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:
chrom_f1=chrom_f2
chrom_t1=chrom_t2
|start_f1-start_f2|≤offect
|start_t1-start_t2|≤offect
format1=format2
其中,下角标1表示base,下角标2表示call;
步骤二三五:根据call中变异的排序选取下一变异,重复步骤二三三和步骤二三四,直至call中变异全部划分完毕。
具体实施方式二:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述方法还包括:步骤二四:针对base中不为同源性变异的插入变异以及重复变异的同源性识别步骤,具体为:
针对base中不为同源性变异的插入变异,具体步骤为:
步骤二四一:在base中不为同源性变异的插入变异中构建三元组Sigins_base=(chrom_base,start_base,length_base),在call中不为同源性变异的重复变异中构建四元组Sigsv_call=(chrom_call,start_call,end_call,length_call);
步骤二四二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应三元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二四三:将call中的变异以call中变异对应四元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二四四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,
判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
max(start1-offect,start2)≤min(end1+offect,end2)
min(length1,length2)≥bias×max(length1,length2)
其中,下角标1表示base,下角标2表示call;
根据call中变异的排序选取下一变异,重复步骤二四三和步骤二四四,直至call中变异全部划分完毕;
针对base中不为同源性变异的重复变异,具体步骤为:
步骤二四五:在base中不为同源性变异的重复变异中构建四元组Sigsv_base=(chrom_base,start_base,end_base,length_base),在call中不为同源性变异的插入变异中构建三元组Sigins_call=(chrom_call,start_call,length_call);
步骤二四六:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应四元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二四七:将call中的变异以call中变异对应三元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二四八:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,
判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
max(start1-offect,start2)≤min(end1+offect,end2)
min(length1,length2)≥bias×max(length1,length2)
其中,下角标1表示base,下角标2表示call;
根据call中变异的排序选取下一变异,重复步骤二四七和步骤二四八,直至call中变异全部划分完毕。
具体实施方式三:本实施方式是对具体实施方式二的进一步说明,本实施方式与具体实施方式二的区别是所述方法还包括步骤三:
步骤三:基于同源性变异,进行不同基因组功能区域的同源性分类,具体步骤为:
获取基因组注释文件,即GTF,所述GTF中存储功能区域以及功能区域在基因组中的位置,
针对插入变异,根据功能区域以及功能区域在基因组中的位置,判断插入变异的start对应的功能区域,记录该功能区域,即为完成不同基因组功能区域的同源性分类;
表示为:
startGTF≤startSV≤endGTF
其中,startGTF和endGTF分别表示GTF文件功能区域的起始位置和结束位置,startSV表示结构变异的起始位置;
针对删除、重复、倒位和易位变异,根据功能区域以及功能区域在基因组中的位置,判断删除、重复、倒位和易位变异的start对应的功能区域,记录该功能区域,即为完成不同基因组功能区域的同源性分类;
表示为:
startGTF≤startSV
endSV≤endGTF
其中,endSV表示结构变异的结束位置。
具体实施方式四:本实施方式是对具体实施方式三的进一步说明,本实施方式与具体实施方式三的区别是所述方法还包括识别方法评测步骤:
利用F1-score对识别方法进行评测,表示为:
其中,recall表示召回率,precision表示精确度,totalcall表示提取出call文件中的元祖总数,totalbase表示提取出call文件中的元祖总数,TP表示记录的同源性变异。
具体实施方式五:本实施方式是对具体实施方式四的进一步说明,本实施方式与具体实施方式四的区别是所述功能区域包括基因、转录本、外显子、起始子、终止子、3’非编码区域以及5’非编码区域。
具体实施方式六:本实施方式是对具体实施方式五的进一步说明,本实施方式与具体实施方式五的区别是所述长度相同的桶,桶的长度default=100000。
具体实施方式七:本实施方式是对具体实施方式六的进一步说明,本实施方式与具体实施方式六的区别是所述删除变异的offect和bias取值分别为800和0.7,重复变异的offect和bias取值分别为1200和0.7,倒位变异的offect和bias取值分别为1000和0.7。
具体实施方式八:本实施方式是对具体实施方式七的进一步说明,本实施方式与具体实施方式七的区别是所述插入变异的offect和bias取值分别为800和0.7。
具体实施方式九:本实施方式是对具体实施方式八的进一步说明,本实施方式与具体实施方式八的区别是所述易位变异的offect和bias取值分别为1000和0.7。
具体实施方式十:本实施方式是对具体实施方式九的进一步说明,本实施方式与具体实施方式九的区别是所述步骤三中,判断插入变异的start对应的功能区域以及判断删除、重复、倒位和易位变异的start对应的功能区域,通过二分查找法进行。
(一)结构变异同源性的全面识别
首先读取输入的参考文件(base)以及比对文件(call)中的变异信息。对两个输入文件,根据VCF的格式标准,输入文件的每一行都代表一个结构变异包括染色体,变异类型等的全部信息,为了获得同源性识别的相关信息,使用制表符对每一行进行分割,首先在CHROM以及SVTYPE所对应的域中提取结构变异所在的染色体号以及具体的类型信息。使用分而治之的思想,由于不同变异的空间坐标和尺度不同,因此按照所提取的染色体号和变异类型进行分块。
其次对结构变异同源性进行识别,由于变异类型所包含的信息不同,本申请对五种变异类型(删除、插入、重复、倒位和易位)分别设计了不同的数据结构存储方法以高效存储识别时需要用到的有效信息。具体设计过程如下:
删除变异是基因组中一段连续的(>50bp)的核苷酸片段缺失重复变异是基因组中一段连续的(>50bp)的核苷酸片段复制并插入到原核苷酸片段附近的区域,倒位变异是基因组中一段连续的(>50bp)的核苷酸片段在原区域发生倒置。这三类变异在分块时除了记录变异发生所在的染色体号,通过将变异发生的起始、结束位点坐标,以及变异的长度在base以及call文件中分别构建起四元组Sigsv_base=(chrom_base,start_base,end_base,length_base)以及Sigsv_call=(chrom_call,start_call,end_call,length_call)来记录每一个的信息,其中chrom为发生变异的染色体,start表示变异的起始位点,end表示变异的结束位点,length表示变异的长度。为了快速匹配查找到同源性变异,将每条染色体划分成长度相同(default=100000)的桶,按照base文件Sigsv_base中的start域将四元组分配到相应长度的桶(Bucket)(桶实际上就是将每条染色体划分成长度相同的区域)中,例如,桶的长度为100000,start域的中为70000,则该四元组处于第一个桶中,若start域的中为140000,则该四元组处于第二个桶中,将call文件中的变异向桶中进行撞击根据下述条件(公式(1))判断是否是同源性变异(记录同源性变异数量TP)。同源性变异识别首先需要满足的条件是变异在同一条染色体上,其次变异起始位置以及终止位置在空间上是否相近,由于测序时的噪声,以及数据比对过程中带来的系统误差,对变异的比较需要引入一定的阈值,因此本申请专门为不同变异类型设置了空间位点相似的阈值,同源性变异的识别还需满足变异长度相似,类似的,本申请为变异类型设置了变异长度的阈值。撞击时记录被撞击桶的位置,下一次撞击从记录点之后开始。
由于噪声产生位点的偏差,严苛的合并条件可能会将这些变异识别为群体中不同的变异,而若选择过于宽松的条件又可能导致不同的变异被错误地合并,因此需要合理设置平衡的启发式合并条件。本申请使用带有标签的同源性变异作为训练集,使用机器学习中的K-means分类方法无监督的训练数据集,并得出不同变异类型所需的最合适的分类阈值。训练后删除变异的offect和bias取值分别为800和0.7。重复变异的offect和bias取值为1200和0.7。倒位变异的offect和bias取值为1000和0.7。
插入变异是基因组中一段连续的(>50bp)的核苷酸片段插入,由于插入是单点插入,因此需要记录插入变异发生所在的染色体号,以及变异发生的起始位点坐标,并记录插入变异的长度。在base以及call文件中分别构建三元组Sigins_base=(chrom_base,start_base,length_base)以及Sigins_cal=(chrom_call,start_call,length_call)来记录每一个的信息。其中chrom为发生插入变异的染色体,start表示变异的起始位点,length表示插入变异的长度。与上述策略一致,按照base文件Sigins_base中的start域将三元组分配到相应长度的桶中,将call文件中的变异向桶中进行撞击根据下述条件(公式(2))判断是否是同源性变异(记录TP)。同源性变异识别首先需要满足的条件是变异在同一条染色体上,其次变异起始位置以及终止位置在空间上是否相近,由于测序时的噪声,以及数据比对过程中带来的系统误差,对变异的比较需要引入一定的阈值,因此本申请专门为不同变异类型设置了空间位点相似的阈值,同源性变异的识别还需满足变异长度相似,类似的,本申请为变异类型设置了变异长度的阈值。撞击时记录被撞击桶的位置,下一次撞击从记录点之后开始。
训练后插入变异的offect和bias取值为800和0.7
易位变异是基因组中一段连续的(>50bp)的核苷酸片段转移到基因组的另一区域中。因此需要记录源染色体信息和目标染色体信息。在base以及call文件中分别构建五元组Sigtra_base=(chrom_f_base,chrom_t_base,start_f_base,start_t_base,format_base)以及Sigtra_call=(chrom_f_call,chrom_t_call,start_f_call,start_t_call,format_call)来记录每一个的信息。其中chrom_f和chrom_t分别为易位变异的源染色体号和目标染色体号,start_f,start_t分别为染色体上发生易位的位点信息,format表示易位变异的格式。和上述构建桶的方式类似,识别为同源性的条件为染色体号相同,起始位置与终止位置在空间位置上相似以及易位格式一致,可根据以下公式(3)对易位类型变异的同源性进行识别,判断该易位变异是否为同源性变异(记录TP)。训练后易位变异的offect和bias取值为1000和0.7。
(二)结构变异同源性识别的性能提升
在真实的基因组中,对于插入变异和重复变异的概念分辨仍较为模糊,因为这两种变异在本质上都是基因组某一核苷酸片段附近位置多出了部分的核苷酸片段。因此很多变异检测工具将重复识别为插入变异,或者将插入变异误识别为重复变异,这种错误辨别变异类型会影响同源性识别时的召回率和精确度,原理上被正确识别但是变异类型不正确的变异,也应该被看成同源性的变异(增加TP)。
本申请在实践过程中发现了这一现象,并将具体的情况融入到了识别方法中,进一步的提高了识别方法的完整性和标准性。首先本申请考虑call文件中的重复变异应该为ref文件中的插入变异的情况。对call文件中组织的重复变异的四元组进行筛选,筛选其中未被识别为同源性的变异,将这些变异按照公式(1)撞击ref文件组织的插入变异的四元组的桶,满足条件则为同源性变异(更新TP)。类似的,本申请考虑call文件中的插入变异应该为ref文件中的重复变异的情况。对call文件中组织的插入变异的四元组进行筛选,筛选其中未被识别为同源性的变异,将这些变异按照公式(1)撞击ref文件组织的重复变异的四元组的桶,满足条件则为同源性变异(更新TP)
(三)多维度结构变异同源性的识别
本申请在整体同源性识别的基础上提出不同基因组功能区域的同源性识别。
本申请使用GTF(基因组注释文件)对结构变异检测结果进行功能区域匹配,GTF中存储了基因、转录本、外显子、起始子,终止子,3‘非编码区域以及5’非编码区域这些具有功能性区域在基因组中的位置。由于GTF文件存储的信息量较大,本申请使用了二分查找法,可以在短时间内完成所有结构变异信息的功能区域的匹配,有效提高时间利用率,降低时间复杂度。在完成匹配的基础上,本申请可以重新按照需求,如只考虑起始子上的结构变异同源性的识别。
由于插入类型的变异是单点变异,因此只需要考虑插入位点是否在GTF相关区域中即可,可使用公式(9)对插入类型的变异进行注释。
startGTF≤startSV≤endGTF (4)
对于其他四种类型的变异(删除、重复、倒位和易位),需要考虑变异的起止位点和GTF功能区域起止位点在空间上的位置关系,可用下述公式(10)对变异进行注释。并将注释后的信息保存在新的文件中。
其中startGTF和endGTF分别表示GTF文件功能区域的起始位置和结束位置,startSV和endSV分别表示结构变异的起始位置和结束位置。
不同功能区域中所记录的变异极为本申请所识别的同源性变异。
通过本申请可以高效、精准、全面的识别结构变异的同源性。相比于其他同源性识别方法,本申请使用训练后的阈值,综合考虑变异的空间位置和长度等信息,设计高效的存储结构以最大程度的识别同源性变异,这将对下游的生物医学以及基因组图谱的绘制起到基础作用。
对识别方法进行性能评测需要提取之前所记录的同源性变异(TP),totalbase以及totalcall,totalbase是提取出base文件中的元祖总数,根据公式(6)计算召回率(recall),totalcall是提取出call文件中的元祖总数,根据公式(7)计算精确度(precision)。
最终,使用精确度和召回率的调和平均是可以代表平衡两者之间性能的评价指标,记为F1-score,可根据公式(68)进行计算:
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。
Claims (10)
1.一种基因组结构变异同源性识别方法,其特征在于包括以下步骤:
步骤一:获取参考文件和对比文件,即base以及call,并读取参考文件和对比文件中的变异信息,所述变异信息包括染色体号、变异类型、变异发生的起始位点坐标、结束位点坐标、变异的长度以及易位变异的格式,变异类型包括删除、插入、重复、倒位及易位,参考文件和对比文件的每一行都代表一个结构变异;
步骤二:根据变异类型对结构变异同源性进行识别,具体为:
针对删除、重复、倒位,执行如下步骤:
步骤二一一:通过将变异发生的起始位点坐标、结束位点坐标以及变异的长度在base以及call中分别构建四元组Sigsv_base=(chrom_base,start_base,end_base,length_base)以及Sigsv_call=(chrom_call,start_call,end_call,length_call),其中chrom为发生变异的染色体,start表示变异的起始位点,end表示变异的结束位点,length表示变异的长度;
步骤二一二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应四元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二一三:将call中的变异以call中变异对应四元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二一四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
max(start1-offect,start2)≤min(end1+offect,end2)
min(lemqth1,length2)≥bias×max(lemgth1,length2)
其中,下角标1表示base,下角标2表示call;
步骤二一五:根据call中变异的排序选取下一变异,重复步骤二一三和步骤二一四,直至call中变异全部划分完毕;
针对插入,执行如下步骤:
步骤二二一:在base以及call中分别构建三元组Sigins_base=(chrom_base,start_base,length_base)以及Sigins_call=(chrom_call,start_call,length_call);
步骤二二二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应三元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二二三:将call中的变异以call中变异对应三元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二二四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
|start1-start2|≤offect
min(lemqth1,lemgth2)≥bias×max(lemgth1,length2)
其中,下角标1表示base,下角标2表示call;
步骤二二五:根据call中变异的排序选取下一变异,重复步骤二二三和步骤二二四,直至call中变异全部划分完毕;
针对易位,执行如下步骤:
步骤二三一:在base以及call中分别构建五元组Sigtra_base=(chrom_f_base,chrom_t_base,start_f_base,start_t_base,format_base)以及Sigtra_call=(chrom_f_call,chrom_t_call,start_f_call,start_t_call,format_call),以此记录源染色体信息和目标染色体信息,其中chrom_f和chrom_t分别为易位变异的源染色体号和目标染色体号,start_f,start_t分别为染色体上发生易位的位点信息,format表示易位变异的格式;
步骤二三二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应五元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二三三:将call中的变异以call中变异对应五元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二三四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,判断候选同源性变异是否为同源性变异具体为:
chrom_f1=chrom_f2
chrom_t1=chrom_t2
|start_f1-start_f2|≤offect
|start_t1-start_t2|≤offect
format1=format2
其中,下角标1表示base,下角标2表示call;
步骤二三五:根据call中变异的排序选取下一变异,重复步骤二三三和步骤二三四,直至call中变异全部划分完毕。
2.根据权利要求1所述的一种基因组结构变异同源性识别方法,其特征在于所述方法还包括:步骤二四:针对base中不为同源性变异的插入变异以及重复变异的同源性识别步骤,具体为:
针对base中不为同源性变异的插入变异,具体步骤为:
步骤二四一:在base中不为同源性变异的插入变异中构建三元组Sigins_base=(chrom_base,start_base,length_base),在call中不为同源性变异的重复变异中构建四元组Sigsv_call=(chrom_call,start_call,end_call,length_call);
步骤二四二:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应三元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二四三:将call中的变异以call中变异对应四元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二四四:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,
判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
max(start1-offect,start2)≤min(end1+offect,end2)
min(length1,length2)≥bias×max(length1,length2)
其中,下角标1表示base,下角标2表示call;
根据call中变异的排序选取下一变异,重复步骤二四三和步骤二四四,直至call中变异全部划分完毕;
针对base中不为同源性变异的重复变异,具体步骤为:
步骤二四五:在base中不为同源性变异的重复变异中构建四元组Sigsv_base=(chrom_base,start_base,end_base,length_base),在call中不为同源性变异的插入变异中构建三元组Sigins_call=(chrom_call,start_call,length_call);
步骤二四六:将每条染色体以左端点至右端点之间的长度划分为长度相同的桶,然后获取base中所有变异对应四元组中的start的值,并以染色体左端点为原点,根据start的值将base中每个变异划分到对应的桶中;
步骤二四七:将call中的变异以call中变异对应三元组中的start的值进行排序,然后根据排序由上至下选取变异,并以染色体左端点为原点,根据选取的变异对应的start的值,将选取的变异划分到对应的桶中,若该桶中存在base中的变异,则该桶中base中的变异与该桶中call中的变异为候选同源性变异,否则,不为候选同源性变异;
步骤二四八:判断候选同源性变异是否为同源性变异,若为同源性变异,则记录同源性变异数量TP,并保留候选同源性变异所在桶以及所在桶之后的桶,若不为同源性变异,则不记录,
判断候选同源性变异是否为同源性变异具体为:
chrom1=chrom2
max(start1-offect,start2)≤min(end1+offect,end2)
min(length1,length2)≥bias×max(length1,length2)
其中,下角标1表示base,下角标2表示call;
根据call中变异的排序选取下一变异,重复步骤二四七和步骤二四八,直至call中变异全部划分完毕。
3.根据权利要求2所述的一种基因组结构变异同源性识别方法,其特征在于所述方法还包括步骤三:
步骤三:基于同源性变异,进行不同基因组功能区域的同源性分类,具体步骤为:
获取基因组注释文件,即GTF,所述GTF中存储功能区域以及功能区域在基因组中的位置,
针对插入变异,根据功能区域以及功能区域在基因组中的位置,判断插入变异的start对应的功能区域,记录该功能区域,即为完成不同基因组功能区域的同源性分类;
表示为:
startGTF≤startSV≤endGTF
其中,startGTF和endGTF分别表示GTF文件功能区域的起始位置和结束位置,startSV表示结构变异的起始位置;
针对删除、重复、倒位和易位变异,根据功能区域以及功能区域在基因组中的位置,判断删除、重复、倒位和易位变异的start对应的功能区域,记录该功能区域,即为完成不同基因组功能区域的同源性分类;
表示为:
startGTF≤startSV
endSV≤endGTF
其中,endSV表示结构变异的结束位置。
4.根据权利要求3所述的一种基因组结构变异同源性识别方法,其特征在于所述方法还包括识别方法评测步骤:
利用F1-score对识别方法进行评测,表示为:
其中,recall表示召回率,precision表示精确度,totalcall表示提取出call文件中的元祖总数,totalbase表示提取出call文件中的元祖总数,TP表示记录的同源性变异。
5.根据权利要求4所述的一种基因组结构变异同源性识别方法,其特征在于所述功能区域包括基因、转录本、外显子、起始子、终止子、3’非编码区域以及5’非编码区域。
6.根据权利要求5所述的一种基因组结构变异同源性识别方法,其特征在于所述长度相同的桶,桶的长度default=100000。
7.根据权利要求6所述的一种基因组结构变异同源性识别方法,其特征在于所述删除变异的offect和bias取值分别为800和0.7,重复变异的offect和bias取值分别为1200和0.7,倒位变异的offect和bias取值分别为1000和0.7。
8.根据权利要求7所述的一种基因组结构变异同源性识别方法,其特征在于所述插入变异的offect和bias取值分别为800和0.7。
9.根据权利要求8所述的一种基因组结构变异同源性识别方法,其特征在于所述易位变异的offect和bias取值分别为1000和0.7。
10.根据权利要求9所述的一种基因组结构变异同源性识别方法,其特征在于所述步骤三中,判断插入变异的start对应的功能区域以及判断删除、重复、倒位和易位变异的start对应的功能区域,通过二分查找法进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310278479.4A CN116343923B (zh) | 2023-03-21 | 2023-03-21 | 一种基因组结构变异同源性识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310278479.4A CN116343923B (zh) | 2023-03-21 | 2023-03-21 | 一种基因组结构变异同源性识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116343923A CN116343923A (zh) | 2023-06-27 |
CN116343923B true CN116343923B (zh) | 2023-12-08 |
Family
ID=86889022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310278479.4A Active CN116343923B (zh) | 2023-03-21 | 2023-03-21 | 一种基因组结构变异同源性识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343923B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033829A (zh) * | 2019-04-11 | 2019-07-19 | 北京诺禾心康基因科技有限公司 | 基于差异snp标记物的同源基因的融合检测方法 |
CN112802548A (zh) * | 2021-01-07 | 2021-05-14 | 深圳吉因加医学检验实验室 | 单样本全基因组预测等位基因特异性拷贝数变异的方法 |
CN113593639A (zh) * | 2021-08-05 | 2021-11-02 | 湖南大学 | 一种用于病毒基因组变异分析、监测方法和系统 |
CN114026647A (zh) * | 2019-04-12 | 2022-02-08 | 欧洲分子生物学实验室 | 单细胞遗传结构变异的综合检测 |
CN114743594A (zh) * | 2022-03-28 | 2022-07-12 | 深圳吉因加医学检验实验室 | 一种用于结构变异检测的方法、装置和存储介质 |
CN115631789A (zh) * | 2022-10-25 | 2023-01-20 | 哈尔滨工业大学 | 一种基于泛基因组的群体联合变异检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6314091B2 (ja) * | 2012-02-08 | 2018-04-18 | ダウ アグロサイエンシィズ エルエルシー | Dna配列のデータ分析 |
WO2018144449A1 (en) * | 2017-01-31 | 2018-08-09 | Counsyl, Inc. | Systems and methods for identifying and quantifying gene copy number variations |
US20190267110A1 (en) * | 2018-02-14 | 2019-08-29 | Seven Bridges Genomics Inc. | System and method for sequence identification in reassembly variant calling |
-
2023
- 2023-03-21 CN CN202310278479.4A patent/CN116343923B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033829A (zh) * | 2019-04-11 | 2019-07-19 | 北京诺禾心康基因科技有限公司 | 基于差异snp标记物的同源基因的融合检测方法 |
CN114026647A (zh) * | 2019-04-12 | 2022-02-08 | 欧洲分子生物学实验室 | 单细胞遗传结构变异的综合检测 |
CN112802548A (zh) * | 2021-01-07 | 2021-05-14 | 深圳吉因加医学检验实验室 | 单样本全基因组预测等位基因特异性拷贝数变异的方法 |
CN113593639A (zh) * | 2021-08-05 | 2021-11-02 | 湖南大学 | 一种用于病毒基因组变异分析、监测方法和系统 |
CN114743594A (zh) * | 2022-03-28 | 2022-07-12 | 深圳吉因加医学检验实验室 | 一种用于结构变异检测的方法、装置和存储介质 |
CN115631789A (zh) * | 2022-10-25 | 2023-01-20 | 哈尔滨工业大学 | 一种基于泛基因组的群体联合变异检测方法 |
Non-Patent Citations (1)
Title |
---|
基于Hi-C技术识别基因组结构变异及其在肿瘤研究中的应用;刘聪;张治华;;中国科学:生命科学(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116343923A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021282469B2 (en) | Deep learning-based variant classifier | |
US6681186B1 (en) | System and method for improving the accuracy of DNA sequencing and error probability estimation through application of a mathematical model to the analysis of electropherograms | |
CN106068330B (zh) | 将已知等位基因用于读数映射中的系统和方法 | |
CN112466404B (zh) | 一种宏基因组重叠群无监督聚类方法及系统 | |
EP4068291A1 (en) | Artificial intelligence-based chromosomal abnormality detection method | |
CN107133493B (zh) | 基因组序列的组装方法、结构变异探测方法和相应的系统 | |
CN115083521B (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统 | |
CN108710784A (zh) | 一种基因转录变异几率及变异方向的算法 | |
KR101936933B1 (ko) | 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스 | |
CN115631789A (zh) | 一种基于泛基因组的群体联合变异检测方法 | |
CN113823356B (zh) | 一种甲基化位点识别方法及装置 | |
CN111180013A (zh) | 检测血液病融合基因的装置 | |
CN116596933B (zh) | 碱基簇检测方法及装置、基因测序仪及存储介质 | |
CN116343923B (zh) | 一种基因组结构变异同源性识别方法 | |
US20230073973A1 (en) | Deep learning based system and method for prediction of alternative polyadenylation site | |
CN114627964B (zh) | 一种基于多核学习预测增强子及其强度分类方法及分类设备 | |
CN115762628A (zh) | 生物种群间基因渐进性渗入检测方法和检测装置 | |
JP3936851B2 (ja) | クラスタリング結果評価方法及びクラスタリング結果表示方法 | |
JPH1040257A (ja) | 文字配列比較方法、およびそれを用いたアセンブル方法 | |
CN116097361A (zh) | 用于在来自单细胞分区的多基因组特征数据中鉴定特征连锁的系统和方法 | |
CN111383710A (zh) | 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法 | |
CN114242158B (zh) | ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备 | |
CN113449533B (zh) | 一种基于条形码序列的读长比对方法和装置 | |
CN117854594B (zh) | 一种空间组学的测序定位匹配方法及装置、空间组学测序设备及介质 | |
CN112802555B (zh) | 一种基于mvAUC的互补差异表达基因选取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |