CN116564405A - 一种基于平均无序度的基因组测序突变位点过滤方法 - Google Patents
一种基于平均无序度的基因组测序突变位点过滤方法 Download PDFInfo
- Publication number
- CN116564405A CN116564405A CN202310423663.3A CN202310423663A CN116564405A CN 116564405 A CN116564405 A CN 116564405A CN 202310423663 A CN202310423663 A CN 202310423663A CN 116564405 A CN116564405 A CN 116564405A
- Authority
- CN
- China
- Prior art keywords
- mutation
- sites
- site
- disorder
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 117
- 238000001914 filtration Methods 0.000 title claims abstract description 31
- 238000012268 genome sequencing Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 title claims description 25
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000012163 sequencing technique Methods 0.000 claims description 21
- 210000000349 chromosome Anatomy 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000002864 sequence alignment Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 43
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 2
- 230000000739 chaotic effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请属于生信分析技术领域,具体涉及一种基于平均无序度的基因组测序突变位点过滤算法,可用于突变位点假阳过滤。
Description
技术领域
本申请属于生物信息学技术领域,具体涉及一种基于平均无序度的基因组测序突变位点过滤方法及应用。
技术背景
基因组测序技术目前已经在肿瘤诊断项目中广泛开展。通过对癌组织进行基因组测序,诊断者可以明确癌细胞的突变类型,进行针对性用药。但测序中发现的突变存在非生物来源,如仪器误差、文库制备污染、扩增阶段错配等,属于假性突变,需要加以过滤。
假性突变通常具有一定的特征,即支持突变的序列上存在大量无序突变。目前业界广泛采用支持突变序列上的错配数进行过滤,如Vardict软件的NM指标通过计算支持突变的序列上的平均错配数(含插入/缺失),用于突变位点的过滤。但是此指标只能说明支持突变序列上错配多少,并不能代表是否混乱;另外对于多核苷酸多态性位点(MNP),由于该类突变是由相邻的一组单核苷算多态位点(SNP)组成,错配数会增加导致NM统计量升高,会将真实的突变误判成假阳。
鉴于此,提出本申请。
发明内容
为解决上述技术问题,本申请通过生物信息学分析研究,建立一套基于平均无序度的基因组测序突变位点过滤方法,该方法可用于突变位点假阳过滤。
具体的,本申请提出如下技术方案:
本申请首先提供一种基于平均无序度的基因组测序突变位点过滤方法,所述方法是通过平均无序度指标对突变位点进行判定。
进一步的,所述平均无序度指标是基于信息熵构建。
进一步的,所述方法包括如下步骤,
1)基于测序数据获得突变位点相关信息;
2)建立突变位点附近的碱基数量矩阵;
3)计算碱基数量矩阵中碱基出现频率,利用信息熵计算位点无序度:
4)统计碱基数量矩阵中突变位点覆盖深度,计算位点的平均无序度;
5)基于无序度阈值进行突变过滤。
进一步的,所述步骤1)中,所述突变位点相关信息包括突变位点所在染色体、位置坐标、突变后的碱基与支持突变的序列数量。
进一步的,所述步骤2)中,所述碱基数量矩阵具有4行和2n+2列;每列分别表示指定观测范围内的基因组坐标位点,其中第n列表示突变位点所在位置,n的取值是使得2n+2接近序列比对文件中的序列平均长度;每行分别表示每个基因组位点上4种碱基被覆盖的次数。
进一步的,所述步骤3)中,所述计算为分别计算碱基数量矩阵的每一列4种碱基出现的频率PA、PC、PG、PT,利用信息熵计算位点无序度DSOi:
DSOi=-PAl*g2(PA)-PTl*g2(PT)-Cl*g2(PC)-PGl*g2(PG)。
进一步的,所述步骤4)中,所述统计为对碱基数量矩阵的每列分别统计4种碱基出现次数的总和,得到该位点覆盖深度;
进一步的,优选的,对覆盖深度大于等于矩阵第n列突变位点覆盖深度50%的位点进行计数;将覆盖深度不足突变位点50%的位点的无序度DSOpos置为0。
进一步的,所述步骤4)中,所述根据覆盖深度计算位点的平均无序度具体为:对突变位点附近覆盖深度大于等于突变位点本身覆盖深度一半的位点,计算其平均无序度DSO,所述DSO计算如下:
进一步的,所述步骤5)具体为:对实际样本进行审核,确定无序度阈值(阈值优选为1.0),大于阈值的位点被认为支持突变的序列混乱,用于后续突变过滤。
本申请还提供一种平均无序度指标在测序突变位点假阳性过滤中的应用,
优选的,所述平均无序度指标是基于信息熵构建;
更优选的,所述应用具体包括如下步骤:
1)基于测序数据获得突变位点相关信息;
2)建立突变位点附近的碱基数量矩阵;
3)计算碱基数量矩阵的碱基出现频率,利用信息熵计算位点无序度:
4)统计碱基数量矩阵中突变位点的覆盖深度,计算位点的平均无序度;
5)基于无序度阈值进行突变过滤。
进一步的,所述步骤1)中,所述突变位点相关信息包括突变位点所在染色体、位置坐标、突变后的碱基与支持突变的序列数量。
进一步的,所述步骤2)中,所述碱基数量矩阵具有4行和2n+2列;每列分别表示指定观测范围内的基因组坐标位点,其中第n列表示突变位点所在位置,n的取值是使得2n+2接近序列比对文件中的序列平均长度;每行分别表示每个基因组位点上4种碱基被覆盖的次数。
进一步的,所述步骤3)中,所述计算为分别计算碱基数量矩阵的每一列4种碱基出现的频率PA、PC、PG、PT,利用信息熵计算位点无序度DSOi:
DSOi=-PAl*g2(PA)-PTl*g2(PT)-Cl*g2(PC)-PGl*g2(PG)。
进一步的,所述步骤4)中,所述统计为对碱基数量矩阵的每列分别统计4种碱基出现次数的总和,得到该位点覆盖深度;
进一步的,优选的,对覆盖深度大于等于矩阵第n列突变位点覆盖深度50%的位点进行计数,得到计数值;将覆盖深度不足突变位点50%的位点的无序度DSOpos置为0。
进一步的,所述步骤4)中,所述根据覆盖深度计算位点的平均无序度具体为:对突变位点附近覆盖深度大于等于突变位点本身覆盖深度一半的位点,计算其平均无序度DSO,所述DSO计算如下:
进一步的,所述步骤5)具体为:对实际样本进行审核,确定无序度阈值(阈值优选为1.0),大于阈值的位点被认为支持突变的序列混乱,用于后续突变过滤。
本申请还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,实现上述任一项所述方法。
本申请还提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器和处理器相连,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,实现上述任一项所述方法。
本申请有益技术效果:
本申请通过探索发现,基于信息熵构建的平均无序度指标,可用于描述位点附近的序列混乱程度,可对突变位点的真实性进行准确判定,可对假阳性位点进行有效过滤。
附图说明
图1.本申请方法的流程图;
图2.不同VD阈值下DSO在样本中的密度分布曲线;
图3.平均错配数较高的有序突变形态示例,基因组数据可视化软件IGV(Integrative Genomics Viewer)界面截图。图中每条横向的条块表示一条测序序列,条块的一端为箭头状,表示序列测序的方向(与箭头指向的方向一致);灰色条块是正常序列,红色条块表示序列的插入片段长度过大,其他颜色条块表示双端测序中与本序列成对的另一条序列被比对到其他染色体上。条块中出现的字母表示在本序列的相应位置相对基因组出现突变,无字母显示的区域表示序列与基因组碱基一致。字母颜色的深浅代表了碱基的质量分数,越深则该碱基质量越高。部分附图由于放缩比例过小的缘故,字母无法看清,IGV会自动将碱基字母调整为相应的色块(比如A为绿色、C为蓝色、G为黄色、T为红色、N为灰色)以便查看。
图4.平均错配数较低的无序突变形态示例,基因组数据可视化软件IGV(Integrative Genomics Viewer)界面截图。图中每条横向的条块表示一条测序序列,条块的一端为箭头状,表示序列测序的方向(与箭头指向的方向一致);灰色条块是正常序列,红色条块表示序列的插入片段长度过大,其他颜色条块表示双端测序中与本序列成对的另一条序列被比对到其他染色体上。条块中出现的字母表示在本序列的相应位置相对基因组出现突变,无字母显示的区域表示序列与基因组碱基一致。字母颜色的深浅代表了碱基的质量分数,越深则该碱基质量越高。部分附图由于放缩比例过小的缘故,字母无法看清,IGV会自动将碱基字母调整为相应的色块(比如A为绿色、C为蓝色、G为黄色、T为红色、N为灰色)以便查看。
图5.实际样本中的无序突变,基因组数据可视化软件IGV(Integrative GenomicsViewer)界面截图。图中每条横向的条块表示一条测序序列,条块的一端为箭头状,表示序列测序的方向(与箭头指向的方向一致);灰色条块是正常序列,红色条块表示序列的插入片段长度过大,其他颜色条块表示双端测序中与本序列成对的另一条序列被比对到其他染色体上。条块中出现的字母表示在本序列的相应位置相对基因组出现突变,无字母显示的区域表示序列与基因组碱基一致。字母颜色的深浅代表了碱基的质量分数,越深则该碱基质量越高。部分附图由于放缩比例过小的缘故,字母无法看清,IGV会自动将碱基字母调整为相应的色块(比如A为绿色、C为蓝色、G为黄色、T为红色、N为灰色)以便查看。
图6.实际样本中的有序突变,基因组数据可视化软件IGV(Integrative GenomicsViewer)界面截图,图中每条横向的条块表示一条测序序列,条块的一端为箭头状,表示序列测序的方向(与箭头指向的方向一致);灰色条块是正常序列,红色条块表示序列的插入片段长度过大,其他颜色条块表示双端测序中与本序列成对的另一条序列被比对到其他染色体上。条块中出现的字母表示在本序列的相应位置相对基因组出现突变,无字母显示的区域表示序列与基因组碱基一致。字母颜色的深浅代表了碱基的质量分数,越深则该碱基质量越高。部分附图由于放缩比例过小的缘故,字母无法看清,IGV会自动将碱基字母调整为相应的色块(比如A为绿色、C为蓝色、G为黄色、T为红色、N为灰色)以便查看。
具体实施方式
下面将结合实施例对本申请的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本申请,而不应视为限制本申请的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场购买获得的常规产品。
部分术语定义,除非在下文中另有定义,本申请具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本申请。
本申请中的术语“大约”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
如本申请中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本申请描述的实施方案能以不同于本申请描述或举例说明的其它顺序实施。
本申请的基于平均无序度的基因组测序突变位点过滤方法是通过平均无序度指标对突变位点进行判定。
在一些实施方式中,所述平均无序度指标是基于信息熵构建。
在一些实施方式中,所述方法包括如下步骤,
1)基于测序数据获得突变位点相关信息;
2)建立突变位点附近的碱基数量矩阵;
3)计算碱基数量矩阵的碱基出现频率,利用信息熵计算位点无序度:
4)统计碱基数量矩阵中突变位点的覆盖深度;
5)根据覆盖深度计算位点的平均无序度;
6)基于无序度阈值进行突变过滤。
在一些实施方式中,所述步骤1)中,所述突变位点相关信息包括突变位点所在染色体、位置坐标、突变后的碱基与支持突变的序列数量。
在一些实施方式中,所述步骤2)中,所述碱基数量矩阵具有4行和2n+2列;每列分别表示指定观测范围内的基因组坐标位点,其中第n列表示突变位点所在位置,n的取值是使得2n+2接近序列比对文件中的序列平均长度;每行分别表示每个基因组位点上4种碱基被覆盖的次数。
在一些实施方式中,所述步骤3)中,所述计算为分别计算碱基数量矩阵的每一列4种碱基出现的频率PA、PC、PG、PT,利用信息熵计算位点无序度DSOi:
DSOi=-PAl*g2(PA)-PTl*g2(PT)-PCl*g2(PC)-PGl*g2(PG)。
在一些实施方式中,所述步骤4)中,所述统计为对碱基数量矩阵的每列分别统计4种碱基出现次数的总和,得到该位点覆盖深度;
在一些优选的实施方式中,对覆盖深度大于等于矩阵第n列突变位点覆盖深度50%的位点进行计数;将覆盖深度不足突变位点50%的位点的无序度DSOpos置为0。
在一些实施方式中,所述步骤5)中,所述根据覆盖深度计算位点的平均无序度具体为:对突变位点附近覆盖深度大于等于突变位点本身覆盖深度一半的位点,计算其平均无序度DSO,所述DSO计算如下:
在一些实施方式中,所述步骤6)具体为:对实际样本进行审核,确定无序度阈值(阈值优选为1.0),大于阈值的位点被认为支持突变的序列混乱,用于后续突变过滤。
下面结合具体实施例来阐述本申请。
实施例1本申请方法体系建立
本申请通过生信分析探索建立一套基于平均无序度的基因组测序突变位点过滤算法,具体包括了如下步骤:
算法主要逻辑描述如下:
1.阅读来自上游突变位点分析程序输出的变异分析结果文件中记录的突变位点,确认突变位点所在的染色体名chr、位置坐标pos、突变后的碱基alt与支持突变的序列数量vd。当多线程运行时,每个线程自队列中取出变异分析结果分别处理。
2.建立突变位点附近的碱基数量矩阵,矩阵具有4个行和2n+2个列,每列分别表示指定观测范围内的基因组坐标位点,其中第n列表示突变位点所在的位置,n的值应当使得2n+2接近序列比对文件中的序列平均长度;每行分别表示每个基因组位点上4种碱基被覆盖到的次数。
3.对步骤2中所述碱基数量矩阵的每一列分别计算4种碱基出现的频率PA、PC、PG、PT,然后利用信息熵的定义计算位点无序度:
DSOi=-PAl*g2(PA)-PTl*g2(PT)-PCl*g2(PC)-PG)*g2(PG)
4.为了消除覆盖深度不足对统计结果造成的影响,对步骤2中所述碱基数量矩阵的每列分别计算4种碱基出现次数的总和,即该位点的覆盖深度,对覆盖深度大于等于矩阵第n列突变位点覆盖深度50%的位点进行计数,得到计数值COUNT;
同时将覆盖深度不足突变位点50%的位点的无序度DSOpos置为0。
5.计算突变位点附近覆盖深度大于等于突变位点本身覆盖深度一半的位点的平均无序度:
6.存储时将该值放大50倍以避免过多的小数位数,默认值为0。
7.对实际样本进行审核,确定无序度的阈值(在本发明中设定为1.0),大于阈值的位点被认为支持突变的序列混乱,用于后续的突变过滤。
实施例2DSO阈值划定
由于DSO是一个统计学量,支持其计算的原始数据(即支持突变的read条数VD)过少会导致统计受到异常值的强烈影响而出现不可靠的问题,故而需要在实际样本中寻找使得DSO计算相对稳定的VD阈值。
本申请通过设定不同的VD阈值,对某样本中的全部突变计算平均无序度DSO,并调查DSO在整个样本中的分布情况(只调查非零的DSO值)。
随着VD阈值的提升,DSO的分布应当逐渐趋于稳定。为了确保统计量的稳定性,本申请以2为间隔,等间隔加大VD阈值,选取DSO分布密度峰值与前值小于0.01后的第一个VD阈值作为实际应用的VD阈值。
由图2,VD阈值被定为8。
根据VD=8时DSO的分布情况,本申请选取密度分布曲线最高点之后的第一个整数作为DSO的阈值划定标准。由此DSO的阈值被设定为1,DSO高于1的位点被认定为序列过乱。
实施例3本申请DSO与常规指标NM的效果比较
本实施例基于实际病例样本,测试无序度指标DSO与常规错配数指标NM对突变过滤的效果。突变的真假一般基于IGV截图确认,其中突变位点周围的混乱程度是判定突变真假其中一个指标,常用的混乱程度描述指标NM划定阈值为3,NM>=3认为是混乱假位点,NM<3为有序真实突变,测试表明本申请的DSO方法在多种突变类型中表现优于NM。。
1)如图3所示,IGV复核为一个真实突变,而NM指标计算出为3(NM=3),被判定成为一个混乱假阳位点;而基于本申请的DSO指标计算值为0(DSO=0),小于域值1,表明是有序的真阳位点,这与IGV复核结果一致;
2)如图4所示,IGV复核为一个假阳突变,而NM指标计算值为1.78(NM=1.78),被判定为有序真突变;而基于DSO指标计算值为1.662(DSO=1.662),大于域值1,因此是混乱假阳突变,这与IGV复核结果一致。
实施例4本申请突变位点无序度分辨能力评估
本实施例在实际病例样本中测试了共计34个报出突变。其中,图5为测试中3个突变位点DSO指标判定为混乱假阳位点举例,图6为测试中3个DSO指标判定为有序高质量真阳位点举例。可见,本申请DSO指标对于突变位点无序度分辨结果与IGV截图复核结果一致。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种基因组测序突变位点的过滤方法,其特征在于,所述方法通过平均无序度指标对突变位点进行判定。
2.根据权利要求1所述的过滤方法,其特征在于,所述平均无序度指标是基于信息熵构建。
3.根据权利要求1-2任一所述的过滤方法,其特征在于,所述方法具体包括如下步骤:
1)基于测序数据获得突变位点相关信息;
2)建立突变位点附近的碱基数量矩阵;
3)计算碱基数量矩阵中碱基出现频率,基于信息熵计算位点无序度:
4)统计碱基数量矩阵中突变位点的覆盖深度,计算位点的平均无序度;
5)基于无序度阈值进行突变过滤。
4.根据权利要求1所述的过滤方法,其特征在于,所述步骤1)中,所述突变位点相关信息包括突变位点所在染色体、位置坐标、突变后的碱基与支持突变的序列数量。
5.根据权利要求1所述的过滤方法,其特征在于,所述步骤2)中,所述碱基数量矩阵具有4行和2n+2列;每列分别表示指定观测范围内的基因组坐标位点,其中第n列表示突变位点所在位置,n的取值是使得2n+2接近序列比对文件中的序列平均长度;每行分别表示每个基因组位点上4种碱基被覆盖的次数。
6.根据权利要求1所述的过滤方法,其特征在于,所述步骤3)中,所述计算为分别计算碱基数量矩阵的每一列4种碱基出现的频率PA、PC、PG、PT,利用信息熵计算位点无序度DSOi:
DSOi=-PAlog2(PA)-PTlog2(PT)-PClog2(PC)-PGlog2(PG)。
7.根据权利要求1所述的过滤方法,其特征在于,所述步骤4)中,所述统计为对碱基数量矩阵的每列分别统计4种碱基出现次数的总和,得到该位点覆盖深度;
优选的,对覆盖深度大于等于矩阵第n列突变位点覆盖深度50%的位点进行计数。
8.根据权利要求1所述的的过滤方法,其特征在于,所述步骤4)中,所述根据覆盖深度计算位点的平均无序度具体为:对突变位点附近覆盖深度大于等于突变位点本身覆盖深度一半的位点,计算其平均无序度DSO,所述DSO计算如下:
9.根据权利要求1所述的过滤方法,其特征在于,所述步骤5)具体为:对实际样本进行审核,确定无序度阈值,大于阈值的位点被认为支持突变的序列混乱,用于后续突变过滤;优选的,所述阈值为1.0。
10.基于平均无序度指标在测序突变位点假阳性过滤中的应用;优选的,所述平均无序度指标是基于信息熵构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310423663.3A CN116564405B (zh) | 2023-04-19 | 2023-04-19 | 一种基于平均无序度的基因组测序突变位点过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310423663.3A CN116564405B (zh) | 2023-04-19 | 2023-04-19 | 一种基于平均无序度的基因组测序突变位点过滤方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116564405A true CN116564405A (zh) | 2023-08-08 |
CN116564405B CN116564405B (zh) | 2023-12-15 |
Family
ID=87488978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310423663.3A Active CN116564405B (zh) | 2023-04-19 | 2023-04-19 | 一种基于平均无序度的基因组测序突变位点过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116564405B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105969856A (zh) * | 2016-05-13 | 2016-09-28 | 万康源(天津)基因科技有限公司 | 一种单细胞外显子测序肿瘤体细胞突变检测方法 |
CN108690871A (zh) * | 2018-03-29 | 2018-10-23 | 深圳裕策生物科技有限公司 | 基于二代测序的插入缺失突变检测方法、装置和存储介质 |
CN109596597A (zh) * | 2018-12-28 | 2019-04-09 | 中兴高能技术有限责任公司 | 一种评价石墨表面包覆改性的方法 |
CN110387419A (zh) * | 2019-08-20 | 2019-10-29 | 裕策医疗器械江苏有限公司 | 实体瘤多基因检测基因芯片及其制备方法和检测装置 |
WO2020099614A1 (en) * | 2018-11-15 | 2020-05-22 | Nouscom Ag | Selection of cancer mutations for generation of a personalized cancer vaccine |
CN113724785A (zh) * | 2021-11-01 | 2021-11-30 | 臻和(北京)生物科技有限公司 | 基于二代测序的肿瘤分型方法、装置、存储介质及设备 |
CN114121153A (zh) * | 2021-11-23 | 2022-03-01 | 广州金域医学检验中心有限公司 | 基因突变位点检测方法、装置、电子设备及存储介质 |
CN115458052A (zh) * | 2022-08-16 | 2022-12-09 | 珠海横琴铂华医学检验有限公司 | 基于一代测序的基因突变分析方法、设备和存储介质 |
-
2023
- 2023-04-19 CN CN202310423663.3A patent/CN116564405B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105969856A (zh) * | 2016-05-13 | 2016-09-28 | 万康源(天津)基因科技有限公司 | 一种单细胞外显子测序肿瘤体细胞突变检测方法 |
CN108690871A (zh) * | 2018-03-29 | 2018-10-23 | 深圳裕策生物科技有限公司 | 基于二代测序的插入缺失突变检测方法、装置和存储介质 |
WO2020099614A1 (en) * | 2018-11-15 | 2020-05-22 | Nouscom Ag | Selection of cancer mutations for generation of a personalized cancer vaccine |
CN109596597A (zh) * | 2018-12-28 | 2019-04-09 | 中兴高能技术有限责任公司 | 一种评价石墨表面包覆改性的方法 |
CN110387419A (zh) * | 2019-08-20 | 2019-10-29 | 裕策医疗器械江苏有限公司 | 实体瘤多基因检测基因芯片及其制备方法和检测装置 |
CN113724785A (zh) * | 2021-11-01 | 2021-11-30 | 臻和(北京)生物科技有限公司 | 基于二代测序的肿瘤分型方法、装置、存储介质及设备 |
CN114121153A (zh) * | 2021-11-23 | 2022-03-01 | 广州金域医学检验中心有限公司 | 基因突变位点检测方法、装置、电子设备及存储介质 |
CN115458052A (zh) * | 2022-08-16 | 2022-12-09 | 珠海横琴铂华医学检验有限公司 | 基于一代测序的基因突变分析方法、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116564405B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111951895B (zh) | 基于宏基因组学的病原分析方法、分析装置、设备及存储介质 | |
CN107423578B (zh) | 检测体细胞突变的装置 | |
US20070027637A1 (en) | System and methods for characterization of chemical arrays for quality control | |
CN110029157B (zh) | 一种检测肿瘤单细胞基因组单倍体拷贝数变异的方法 | |
Sung et al. | Performance of genotype imputations using data from the 1000 Genomes Project | |
CN109887546B (zh) | 基于二代测序的单基因或多基因拷贝数检测系统及方法 | |
CN110189796A (zh) | 一种绵羊全基因组重测序分析方法 | |
CN110993029B (zh) | 一种检测染色体异常的方法及系统 | |
US20200194097A1 (en) | METHOD FOR IDENTIFYING PLANT IncRNA AND GENE INTERACTION | |
Fondon III et al. | Analysis of microsatellite variation in Drosophila melanogaster with population-scale genome sequencing | |
CN110093417B (zh) | 一种检测肿瘤单细胞体细胞突变的方法 | |
CN107944225B (zh) | 基因高通量测序数据突变检测方法 | |
WO2023115662A1 (zh) | 一种变体核酸的检测方法 | |
Arteaga-Salas et al. | An overview of image-processing methods for Affymetrix GeneChips | |
CN109920480B (zh) | 一种校正高通量测序数据的方法和装置 | |
CN107622183B (zh) | 一种基于多重指标的胎儿染色体倍性检测分析方法 | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
CN115691672A (zh) | 针对测序平台特征的碱基质量值矫正方法、装置、电子设备和存储介质 | |
CN116564405B (zh) | 一种基于平均无序度的基因组测序突变位点过滤方法 | |
CN114530199A (zh) | 基于双重测序数据检测低频突变的方法、装置及存储介质 | |
CN107967411B (zh) | 一种脱靶位点的检测方法、装置及终端设备 | |
Chen et al. | Comprehensive assessment of somatic copy number variation calling using next-generation sequencing data | |
EP1798651B1 (en) | Gene information display method and apparatus | |
CN116312779A (zh) | 检测样本污染和识别样本错配的方法和装置 | |
CN107208152B (zh) | 检测突变簇的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |