CN107944228A - 一种基因测序变异位点的可视化方法 - Google Patents
一种基因测序变异位点的可视化方法 Download PDFInfo
- Publication number
- CN107944228A CN107944228A CN201711316166.4A CN201711316166A CN107944228A CN 107944228 A CN107944228 A CN 107944228A CN 201711316166 A CN201711316166 A CN 201711316166A CN 107944228 A CN107944228 A CN 107944228A
- Authority
- CN
- China
- Prior art keywords
- variant sites
- reads
- information
- visualizing
- chromosome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 52
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000000007 visual effect Effects 0.000 claims abstract description 6
- 238000007619 statistical method Methods 0.000 claims abstract description 4
- 210000000349 chromosome Anatomy 0.000 claims description 48
- 238000004321 preservation Methods 0.000 claims description 11
- 239000002773 nucleotide Substances 0.000 claims description 4
- 125000003729 nucleotide group Chemical group 0.000 claims description 4
- 238000002864 sequence alignment Methods 0.000 abstract description 9
- 230000000052 comparative effect Effects 0.000 abstract description 2
- 239000002585 base Substances 0.000 description 29
- 206010028980 Neoplasm Diseases 0.000 description 10
- 239000000523 sample Substances 0.000 description 9
- 238000003780 insertion Methods 0.000 description 7
- 230000037431 insertion Effects 0.000 description 7
- 239000008280 blood Substances 0.000 description 5
- 210000004369 blood Anatomy 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 5
- 239000003513 alkali Substances 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000019506 cigar Nutrition 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基因测序变异位点的可视化方法,所述方法包括以下步骤:(1)获取reads比对到参考基因组位置信息;(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序;(3)读取变异位点相关的reads信息,通过双向跳跃法比对变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads;(4)根据选择的变异位点对步骤(3)所保存的reads进行排序;(5)统计分析比对结果和变异位点信息,输出包含比对信息的可视化图表。本发明可快速找到覆盖变异位点的对比序列,生成输出包含所有比对信息的图片,从而通过对比信息鉴定变异位点是否为测序、序列比对和其它原因造成的假阳性或假阴性位点。
Description
技术领域
本发明涉及生物信息处理技术领域,具体涉及一种基因测序变异位点可视化方法。
背景技术
肿瘤循环DNA(circulating tumour DNA,ctDNA)是血液中游离的癌细胞在细胞凋亡时释放到血液中DNA分子。这些DNA分子带有癌细胞特有的变异。不同的肿瘤的癌细胞释放到血液中的DNA分子变异不同;同一肿瘤在不同发展时期释放到血液中的ctDNA分子的变异不一样;癌症病人在治疗前后ctDNA分子的变异也不一样,所以ctDNA分子的变异是一个动态的变化过程。由于癌细胞释放的DNA分子只占血液中游离DNA的很少一部分,所以ctDNA检测到的变异频率很低(通常低于1%)。为了检测这些微量的游离DNA分子的变异,一般需要1万倍左右的测序覆盖。为了降低测序和检测成本,在进行ctDNA变异检测时,我们通常采用捕获探针捕获特定少数的癌症相关的DNA分子进行检测。由于测序二代测序本身也有一定的测序错误率(当碱基的测序分值为25时,错误率为0.1%%左右),所以在进行1万倍左右的测序覆盖时,我们检测到ctDNA分子的变异很有可能是测序仪测序本身的错误造成的。
在进行变异位点鉴定时,传统的方法是生成变异相关的文件(即vcf格式的文件,variant calling format)。里面是包含有变异的频率信息、位点覆盖率的深度和变异位点在不同的DNA链的分布。凭借这些信息虽然可以过滤掉一些假阳性的变异位点,然而很多假阳性的变异位点也满足变异频率和覆盖率深度要求。我们需要进一步的需要了解带有变异位点序列比对情况和序列比对错误率,同时也要看所有的reads(高通量测序读到的碱基序列片段,即测序的最小单位)的变异位点,在实际情况中由于比对错误和测序错误的原因也会产生假阳性的位点,为了进一步的进行过滤,目前可以把比对的原始文件载入IGV等比对浏览器然后手动查看。由于原始的序列比对文件很大,所以在载入IGV等浏览器需要花费大量的时间。同时由于人类的参考基因组非常大(~3Gb),测序的覆盖率深度很高(>10000倍),需要进行很多的操作才能最终看到单个变异位点的周围的序列比对情况。一般的基因检测样本有多达20个以上的需要复核的点,这个复核过程需要花费大量的时间。这对于进行大规模进行基因样本检测时,如果按照这样操作的话则工作量非常大。所以在基因检测行业默认是不会对大规模的商业样本进行人工核验的。因此,为了解决这个变异位点后期复核的问题,我们需要对变异位点的鉴定和可视化作出改进。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基因测序变异位点的可视化方法,解决目前变异位点的鉴定工作量大,生成输出包含比对信息的图片工作量大,花费时间长的问题。
为实现上述目的,本发明采取的技术方案如下:
一种基因测序变异位点的可视化方法,所述方法包括以下步骤:
(1)将原始测序数据的多个reads按照BWA比对算法比对到参考基因组上,获得reads比对到参考基因组位置信息;
(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序;
(3)读取变异位点相关的reads信息,通过双向跳跃法分别对reads从左到右和从右到左两个方向比对变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads,去除不符合规则的reads;
(4)根据选择的变异位点对步骤(3)所保存的reads进行排序;
(5)基于步骤(4)获得的排序信息,统计分析比对结果和变异位点信息,输出包含比对信息的可视化图表。
上述技术方案中通过双向跳跃法比对reads的覆盖范围和变异位点的重叠情况,可以大批量地为所有的变异位点快速找到覆盖变异位点的对比序列,在进行比对的同时保存上一次的比对信息,避免变异位点的反复循环比对,只需要读取比对序列文件和位点变异位点文件一次,就可以为所有变异位点提取对应的序列变异位点;针对变异位点直接编码,快速生成输出包含比对信息的图片,生成图片效率极大提高,避免人工操作,可大批量生成输出图片;生成输出的图片能够展示所有的比对信息,并按照变异位点与参考碱基变异的相关性进行排序,无需人工调整,从而通过对比信息鉴定变异位点是否为测序、序列比对和其它原因造成的假阳性或假阴性位点。
作为本发明所述的基因测序变异位点的可视化方法的优选实施方式,所述步骤(3)中,包括以下步骤:
3.1)检索每个reads的覆盖范围和变异位点的重叠情况,当reads覆盖的染色体号大于变异位点的染色体号,或者染色体号相同但reads覆盖的染色体起始位置大于变异位点的位置时,取下一个变异位点再进行比对,直至变异位点的染色体号大于reads覆盖的染色体号,或者染色体号相同但reads覆盖的染色体起始位置小于等于变异位点才终止;
3.2)当reads覆盖的染色体号小于变异位点的染色体号,或者染色体号相同但reads覆盖的染色体终止位置小于变异位点的位置时,取上一个变异位点再进行比对,直至变异位点的染色体号小于reads覆盖的染色体号,或者染色体号相同但reads覆盖的染色体起始位置大于等于变异位点才终止;
3.3)比较变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads的比对相关属性;
3.4)迭代比对,直至到文件读取完毕,终止。
上述技术方案能够快速比对reads覆盖范围和变异位点的重叠情况,可以大批量地为所有的变异位点快速找到覆盖变异位点的对比序列,在进行比对的同时保存上一次的比对信息,避免变异位点的反复循环比对,只需要读取比对序列文件和变异位点文件一次,就可以为所有变异位点提取对应的reads。
作为本发明所述的基因测序变异位点的可视化方法的优选实施方式,所述步骤(4)中,基于变异碱基、变异类型和变异碱基的出现次数对保存的reads进行优先级排序。
上述技术方案能够快速获取变异位点的比对情况,排除其它非指定变异碱基的干扰,有利于鉴定变异位点是否为测序、序列比对和其它原因造成的假阳性或假阴性位点。
作为本发明所述的基因测序变异位点的可视化方法的优选实施方式,所述基于变异碱基对保存的reads进行优先级排序时,其中具有与变异位点相同的指定变异碱基的reads具有更高优先级。
作为本发明所述的基因测序变异位点的可视化方法的优选实施方式,所述基于变异类型对保存的reads进行优先级排序时,其中具有与变异位点相同的指定变异类型的reads具有更高优先级。
作为本发明所述的基因测序变异位点的可视化方法的优选实施方式,所述基于变异碱基的出现次数对保存的reads序进行优先级排序时,其中变异碱基的出现次数多的reads具有更高优先级。
上述技术方案中基于变异碱基、变异类型和变异碱基的出现次数对保存的reads进行优先级排序,检索变异位点的变异碱基,如果是单个位点变异,则检查所有reads在此位置的变异碱基,把变异碱基与变异位点指定的碱基相同的reads序列排在最前面,后面reads按照变异碱基出现的次数排序,携带有出现次数多的reads序列排在最前面,在携带变异碱基相同reads内部排序是按照其所在染色体的位置从小到大排序;如果变异位点为插入或者缺失变异,和前面一样,首先把和变异碱基指定变异类型相同的排在最前面,优先级设为一,然后把这个携带有插入缺失变异的reads优先级设为二,后面按照变异碱基出现的次数排序,出现次数多的碱基排在前面,出现次数少的碱基排在后面。
作为本发明所述的基因测序变异位点的可视化方法的优选实施方式,所述步骤(5)中,利用C语言画图模块生成输出可视化图表。
上述技术方案与传统利用IGV生成图片相比,利用的C语言编写的在linux系统上运行的无程序界面程序。可以直接在分析原始测序序列的服务器上生成相应的图片,不需要人工干预进行调整;利用C语言画图模块根据我们收集的碱基信息直接生成,避免了IGV浏览器调用相关模块比对,然后局部调整导出图片等人工操作的过程,实现快速的生成相应reads序列比对相关的图片;批量的生成输出图片,多任务运行,由于编写的程序运行环境是linux环境,可以在鉴定基因组变异位点数据(运行环境一般为linux环境)的同时直接运行画图程序。由于编写的画图程序每次只需要读写一条reads的比对信息,所有只占用非常少的内存和磁盘读写时间。如果有多个样本需要对鉴定的变异位点进行检验时,可以多个样本同时运行;编写的程序在读取一次序列比对文件后,就可以为所有基因组的变异位点检索到序列比对信息;读取完一个样本后依次生成所有变异位点的相关图片。
作为本发明所述的基因测序变异位点的可视化方法的优选实施方式,所述步骤(5)中,每个变异位点输出的图片包含的reads的比对序列为变异位点左右各50bp的碱基序列。
由于二代测序的一般的序列长度为150bp左右,取变异位点左右各50bp的碱基片段一共100bp足够判断变异位点周围的比对信息。
作为本发明所述的基因测序变异位点的可视化方法的优选实施方式,所述步骤(5)中,每个变异位点输出的图片包含的reads不超过300条。
由于cfDNA变异浓度一般低于1%,一般的测序覆盖率为2万层左右,所以300条reads足够进行变异位点的鉴定,有利于提高生成输出图片的效率。如果有变异的碱基reads低于300条,我们按照实际reads数目展示,并相应的调整图片大小;如果指定变异位点reads有变异的数目超过300条,为了阅读方便,只展示300条。
作为本发明所述的基因测序变异位点的可视化方法的优选实施方式,所述比对信息包含样本信息、变异位点的位置信息、碱基变异信息、变异频率、覆盖率信息和在参考基因组上每个变异位点的参考碱基信息。
与现有技术相比,本发明的有益效果为:
(1)本发明通过双向跳跃法比对reads覆盖范围和变异位点的重叠情况,可以大批量地为所有的变异位点快速找到覆盖变异位点的对比序列,在进行比对的同时保存上一次的比对信息,避免变异位点的反复循环比对,只需要读取比对序列文件和位点变异位点文件一次,就可以为所有变异位点提取对应的序列变异位点。
(2)本发明针对变异位点直接编码,快速生成输出包含比对信息的图片,生成图片效率极大提高,避免人工操作,可大批量实现变异位点可视化。
(3)本发明生成输出的图片能够展示所有的比对信息,并按照变异位点与参考碱基变异的相关性进行排序,无需人工调整,减少反复读取数据和处理数据的操作时间,有利于变异位点是否为测序、序列比对和其它原因造成的假阳性或假阴性位点的快速鉴定
附图说明
图1为本发明的基因测序变异位点的可视化方法的主要流程图。
图2为本发明生成输出的包含比对信息的例图。
具体实施方式
为更好地说明本发明的目的、技术方案和优点,下面将结合附图和具体实施例对本发明进一步说明。本领域技术人员应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1为本发明提供的基因测序变异位点的可视化方法的主要流程图。本发明基因测序变异位点可视化方法,包括以下步骤:
(1)将原始测序数据的多个reads按照BWA比对算法比对到参考基因组上,获得reads比对到参考基因组位置信息;
(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序;
(3)读取变异位点相关的reads信息,通过双向跳跃法分别对reads从左到右和从右到左两个方向比对变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads,去除不符合规则的reads;
(4)根据选择的变异位点对步骤(3)所保存的reads进行排序;
(5)基于步骤(4)获得的排序信息,统计分析比对结果和变异位点信息,输出包含比对信息的可视化图表。
所述步骤(3)中,具体可包括以下步骤:
3.1)检索每个reads的覆盖范围和变异位点的重叠情况,当reads覆盖的染色体号大于变异位点的染色体号,或者染色体号相同但reads覆盖的染色体起始位置大于变异位点的位置时,取下一个变异位点再进行比对,直至变异位点的染色体号大于reads覆盖的染色体号,或者染色体号相同但reads覆盖的染色体起始位置小于等于变异位点才终止;
3.2)当reads覆盖的染色体号小于变异位点的染色体号,或者染色体号相同但reads覆盖的染色体终止位置小于变异位点的位置时,取上一个变异位点再进行比对,直至变异位点的染色体号小于reads覆盖的染色体号,或者染色体号相同但reads覆盖的染色体起始位置大于等于变异位点才终止;
3.3)比较变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads的比对相关属性;
3.4)迭代比对,直至到文件读取完毕,终止。
步骤(4)中,根据变异位点信息对步骤(3)所保存的reads进行排序,基于变异碱基、变异类型和变异碱基的出现次数对保存的reads进行优先级排序。
基于变异碱基对保存的reads进行优先级排序时,其中具有与变异位点相同的指定变异碱基的reads具有更高优先级。
基于变异类型对保存的reads进行优先级排序时,其中具有与变异位点相同的指定变异类型的reads具有更高优先级。
基于变异碱基的出现次数对保存的reads序进行优先级排序时,其中变异碱基的出现次数多的reads具有更高优先级。
检索变异位点的变异碱基,如果是单个位点变异,则检查所有reads在此位置的变异碱基,把变异碱基与变异位点指定的碱基相同的reads序列排在最前面。后面reads按照变异碱基出现的次数排序,携带有出现次数多的reads排在最前面;在携带变异碱基相同reads内部排序是按照其所在染色体的位置从小到大排序;如果变异位点为插入或者缺失变异,和前面一样,首先把和变异碱基指定变异类型相同的排在最前面,优先级设为一,然后把这个携带有插入缺失变异的reads优先级设为二,后面按照变异碱基出现的次数排序,出现次数多的碱基排在前面,出现次数少的碱基排在后面。
步骤(5)中,利用C语言画图模块,直接在分析原始测序数据的服务器上生成输出可视化图表。
基于步骤(4)获得的排序信息,针对变异位点编码生成包含比对信息的图片,每个变异位点生成的图片包含的reads的比对序列为变异位点左右各50bp的碱基序列。
基于步骤(4)获得的排序信息,针对变异位点编码生成包含比对信息的图片,每个变异位点输出的图片包含的reads不超过300条。
每个变异位点输出的图片包含样本信息、变异位点的位置信息、碱基变异信息、变异频率和覆盖率信息和在参考基因组上每个变异位点的参考碱基信息。
取变异位点左右各50bp的碱基片段一共100bp判断变异位点周围的比对信息,对前300条reads进行编码生成图片,用22*22像素来代表一个碱基的大小,在图片中展示在指定变异位点有变异碱基的reads序列。
图2为本发明输出的包含比对信息的例图,图片中包含样本信息、变异位点的位置信息、碱基变异信息、变异频率和覆盖率信息和在参考基因组上的每个变异位点的参考碱基信息。
图2展示的信息包括以下几个方面:
1、每条reads的比对情况,具体来说就是150个碱基有多少是匹配、插入和缺失等具体信息(即cigar标签,在图像最左侧)。其中,M代表比对,I代表插入,D代表缺失,S代表软切片,H代表硬切片,不同的字母代表不同的比对形式,前面的数字代表是这种形式比对的碱基个数。
N表示由于在多次测序中出现的点错误,且错误的碱基出现的次数相近,统计学上没有显著性差异的情况。
3、每条reads和参考基因组的比对情况。在图片最上端以的101个碱基代表的是变异碱基周围左右各50bp参考碱基的序列。下面每一行就是代表一个比对的reads序列,如果这个reads在此区间没有覆盖则为空白;如果有覆盖和参考基因组一样则为下划线;如果和参考基因组序列不一致则显示变异的碱基序列;如果为缺失的话显示为大写字母D。每一列都是比对到同一个位置的参考碱基。变异位点周围用红色进行标示,以方便查看。
4、变异的序列通常只会显示前300个,如果低于300则会全部显示。这些序列的排序原则如下:第一、和参考基因组不同的支持reads数目最多的变异排在最前面,按照支持的reads数目依次往下。第二、如果这个变异位点为插入或者缺失,则所有reads只要带有插入和缺失的reads的优先级比点变异的都高。携带突变位点周围变异的reads排序的时候优先级最高。
最后所应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (10)
1.一种基因测序变异位点的可视化方法,其特征在于,包括以下步骤:
(1)将原始测序数据的多个reads按照BWA比对算法比对到参考基因组上,获得reads比对到参考基因组位置信息;
(2)根据步骤(1)获得的基因组位置信息对比对文件进行排序;
(3)读取变异位点相关的reads信息,通过双向跳跃法分别对reads从左到右和从右到左两个方向比对变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads,去除不符合规则的reads;
(4)根据选择的变异位点对步骤(3)所保存的reads进行排序;
(5)基于步骤(4)获得的排序信息,统计分析比对结果和变异位点信息,输出包含比对信息的可视化图表。
2.根据权利要求1所述的基因测序变异位点的可视化方法,其特征在于,所述步骤(3)中,包括以下步骤:
3.1)检索每个reads的覆盖范围和变异位点的重叠情况,当reads覆盖的染色体号大于变异位点的染色体号,或者染色体号相同但reads覆盖的染色体起始位置大于变异位点的位置时,取下一个变异位点再进行比对,直至变异位点的染色体号大于reads覆盖的染色体号,或者染色体号相同但reads覆盖的染色体起始位置小于等于变异位点才终止;
3.2)当reads覆盖的染色体号小于变异位点的染色体号,或者染色体号相同但reads覆盖的染色体终止位置小于变异位点的位置时,取上一个变异位点再进行比对,直至变异位点的染色体号小于reads覆盖的染色体号,或者染色体号相同但reads覆盖的染色体起始位置大于等于变异位点才终止;
3.3)比较变异位点和reads的覆盖范围的重叠情况,保存覆盖变异位点的reads的比对相关属性;
3.4)迭代比对,直至到文件读取完毕,终止。
3.根据权利要求1所述的基因测序变异位点的可视化方法,其特征在于,所述步骤(4)中,基于变异碱基、变异类型和变异碱基的出现次数对保存的reads进行优先级排序。
4.根据权利要求3所述的基因测序变异位点的可视化方法,其特征在于,所述基于变异碱基对保存的reads进行优先级排序时,其中具有与变异位点相同的指定变异碱基的reads具有更高优先级。
5.根据权利要求3所述的基因测序变异位点的可视化方法,其特征在于,所述基于变异类型对保存的reads进行优先级排序时,其中具有与变异位点相同的指定变异类型的reads具有更高优先级。
6.根据权利要求3所述的基因测序变异位点的可视化方法,其特征在于,所述基于变异碱基的出现次数对保存的reads序进行优先级排序时,其中变异碱基的出现次数多的reads具有更高优先级。
7.根据权利要求1所述的基因测序变异位点的可视化方法,其特征在于,所述步骤(5)中,利用C语言画图模块生成输出可视化图表。
8.根据权利要求1所述的基因测序变异位点的可视化方法,其特征在于,所述步骤(5)中,每个变异位点输出的图片包含的reads的比对序列为变异位点左右各50bp的碱基序列。
9.根据权利要求1所述的基因测序变异位点的可视化方法,其特征在于,所述步骤(5)中,每个变异位点输出的图片包含的reads不超过300条。
10.根据权利要求1~9任一项所述的基因测序变异位点的可视化方法,其特征在于,所述比对信息包含样本信息、变异位点的位置信息、碱基变异信息、变异频率、覆盖率信息和在参考基因组上每个变异位点的参考碱基信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711316166.4A CN107944228B (zh) | 2017-12-08 | 2017-12-08 | 一种基因测序变异位点的可视化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711316166.4A CN107944228B (zh) | 2017-12-08 | 2017-12-08 | 一种基因测序变异位点的可视化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107944228A true CN107944228A (zh) | 2018-04-20 |
CN107944228B CN107944228B (zh) | 2021-06-01 |
Family
ID=61943819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711316166.4A Active CN107944228B (zh) | 2017-12-08 | 2017-12-08 | 一种基因测序变异位点的可视化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107944228B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109658983A (zh) * | 2018-12-20 | 2019-04-19 | 深圳市海普洛斯生物科技有限公司 | 一种识别和消除核酸变异检测中假阳性的方法和装置 |
CN110211632A (zh) * | 2019-05-06 | 2019-09-06 | 西安电子科技大学 | 一种基于神经网络的核苷酸单位点变异检测方法 |
CN110299185A (zh) * | 2019-05-08 | 2019-10-01 | 西安电子科技大学 | 一种基于新一代测序数据的插入变异检测方法及系统 |
CN111292803A (zh) * | 2020-02-10 | 2020-06-16 | 广州金域医学检验集团股份有限公司 | 基因组断裂点识别方法及应用 |
WO2020199336A1 (zh) * | 2019-03-29 | 2020-10-08 | 北京市商汤科技开发有限公司 | 一种基因变异识别方法、装置和存储介质 |
CN112086131A (zh) * | 2020-08-18 | 2020-12-15 | 西安医学院 | 一种高通量测序中假阳性变异位点的筛选方法 |
CN112735517A (zh) * | 2020-12-30 | 2021-04-30 | 深圳市海普洛斯生物科技有限公司 | 一种检测染色体联合缺失的方法、装置和存储介质 |
CN117953968A (zh) * | 2024-03-27 | 2024-04-30 | 北京智因东方转化医学研究中心有限公司 | 遗传变异位点的危害性排序方法及装置 |
CN112086131B (zh) * | 2020-08-18 | 2024-05-24 | 西安医学院 | 一种重测序数据库中假阳性变异位点的筛选方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106529171A (zh) * | 2016-11-09 | 2017-03-22 | 上海派森诺医学检验所有限公司 | 乳腺癌易感基因遗传变异位点的检测分析方法 |
CN106599616A (zh) * | 2017-01-03 | 2017-04-26 | 上海派森诺医学检验所有限公司 | 基于duplex‑seq的超低频突变位点检测分析方法 |
CN106611106A (zh) * | 2016-12-06 | 2017-05-03 | 北京荣之联科技股份有限公司 | 基因变异检测方法及装置 |
-
2017
- 2017-12-08 CN CN201711316166.4A patent/CN107944228B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106529171A (zh) * | 2016-11-09 | 2017-03-22 | 上海派森诺医学检验所有限公司 | 乳腺癌易感基因遗传变异位点的检测分析方法 |
CN106611106A (zh) * | 2016-12-06 | 2017-05-03 | 北京荣之联科技股份有限公司 | 基因变异检测方法及装置 |
CN106599616A (zh) * | 2017-01-03 | 2017-04-26 | 上海派森诺医学检验所有限公司 | 基于duplex‑seq的超低频突变位点检测分析方法 |
Non-Patent Citations (3)
Title |
---|
KLAUS SCHERRER等: "Gene and genon concept: coding versus regulation", 《THEORY IN BIOSCIENCES》 * |
付丽霞: "芸薹属蔬菜低深度测序SNP分型及其应用", 《中国优秀硕士学位论文全文数据库》 * |
吴志斌: "利用混池测序检测不同鸡种的全基因组结构变异", 《中国博士学位论文全文数据库》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109658983A (zh) * | 2018-12-20 | 2019-04-19 | 深圳市海普洛斯生物科技有限公司 | 一种识别和消除核酸变异检测中假阳性的方法和装置 |
CN109658983B (zh) * | 2018-12-20 | 2019-11-19 | 深圳市海普洛斯生物科技有限公司 | 一种识别和消除核酸变异检测中假阳性的方法和装置 |
WO2020199336A1 (zh) * | 2019-03-29 | 2020-10-08 | 北京市商汤科技开发有限公司 | 一种基因变异识别方法、装置和存储介质 |
TWI748263B (zh) * | 2019-03-29 | 2021-12-01 | 大陸商北京市商湯科技開發有限公司 | 一種基因變異辨識方法、裝置和儲存介質 |
CN110211632A (zh) * | 2019-05-06 | 2019-09-06 | 西安电子科技大学 | 一种基于神经网络的核苷酸单位点变异检测方法 |
CN110299185B (zh) * | 2019-05-08 | 2023-07-04 | 西安电子科技大学 | 一种基于新一代测序数据的插入变异检测方法及系统 |
CN110299185A (zh) * | 2019-05-08 | 2019-10-01 | 西安电子科技大学 | 一种基于新一代测序数据的插入变异检测方法及系统 |
CN111292803A (zh) * | 2020-02-10 | 2020-06-16 | 广州金域医学检验集团股份有限公司 | 基因组断裂点识别方法及应用 |
CN111292803B (zh) * | 2020-02-10 | 2024-04-26 | 广州金域医学检验集团股份有限公司 | 基因组断裂点识别方法及应用 |
CN112086131A (zh) * | 2020-08-18 | 2020-12-15 | 西安医学院 | 一种高通量测序中假阳性变异位点的筛选方法 |
CN112086131B (zh) * | 2020-08-18 | 2024-05-24 | 西安医学院 | 一种重测序数据库中假阳性变异位点的筛选方法 |
CN112735517A (zh) * | 2020-12-30 | 2021-04-30 | 深圳市海普洛斯生物科技有限公司 | 一种检测染色体联合缺失的方法、装置和存储介质 |
CN117953968A (zh) * | 2024-03-27 | 2024-04-30 | 北京智因东方转化医学研究中心有限公司 | 遗传变异位点的危害性排序方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107944228B (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107944228A (zh) | 一种基因测序变异位点的可视化方法 | |
JP5297207B2 (ja) | スペクトル分析を介したdnaパターンの同定方法及びシステム | |
Mysara et al. | From reads to operational taxonomic units: an ensemble processing pipeline for MiSeq amplicon sequencing data | |
EP2926288B1 (en) | Accurate and fast mapping of targeted sequencing reads | |
CN112522371A (zh) | 一种空间转录组测序数据的分析方法 | |
CN108197434B (zh) | 去除宏基因组测序数据中人源基因序列的方法 | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
CN113168886A (zh) | 用于使用神经网络进行种系和体细胞变体调用的系统和方法 | |
CN112289376B (zh) | 一种检测体细胞突变的方法及装置 | |
CN113035273B (zh) | 一种快速、超高灵敏度的dna融合基因检测方法 | |
CN110400602A (zh) | 一种基于测序数据的abo血型系统分型方法及其应用 | |
CN115083521B (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统 | |
CN110846429A (zh) | 一种玉米全基因组InDel芯片及其应用 | |
CN116189763A (zh) | 一种基于二代测序的单样本拷贝数变异检测方法 | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
CN115458052A (zh) | 基于一代测序的基因突变分析方法、设备和存储介质 | |
CN109859796A (zh) | 一种关于胃癌的dna甲基化谱的降维分析方法 | |
CN109712671B (zh) | 基于ctDNA的基因检测装置、存储介质及计算机系统 | |
CN107885972A (zh) | 一种基于单端测序的融合基因检测方法及其应用 | |
CN114530200B (zh) | 基于计算snp熵值的混合样本鉴定方法 | |
WO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
CN112837746B (zh) | 用于小麦外显子测序基因定位的探针设计方法及定位方法 | |
JP5213009B2 (ja) | 遺伝子発現変動解析方法及びシステム、並びにプログラム | |
Mar et al. | Model-based clustering in gene expression microarrays: an application to breast cancer data | |
CN113793641B (zh) | 一种从fastq文件中快速判断样本性别的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231220 Address after: Room 5202 and 5209, 5th Floor, Building 8, No. 9 Guangping Street, Daxing District Economic Development Zone, Beijing, 102600 Patentee after: Beijing Huakang Bosheng Biotechnology Co.,Ltd. Address before: Room G301, G302, g303, G zone, Guangzhou International Business Incubator, No.3, Science City, Langyue Road, Guangzhou hi tech Industrial Development Zone, Guangdong 510000 Patentee before: GUANGZHOU MANRUI BIOLOGICAL INFORMATION TECHNOLOGY Co.,Ltd. |