CN116564405B - 一种基于平均无序度的基因组测序突变位点过滤方法 - Google Patents

一种基于平均无序度的基因组测序突变位点过滤方法 Download PDF

Info

Publication number
CN116564405B
CN116564405B CN202310423663.3A CN202310423663A CN116564405B CN 116564405 B CN116564405 B CN 116564405B CN 202310423663 A CN202310423663 A CN 202310423663A CN 116564405 B CN116564405 B CN 116564405B
Authority
CN
China
Prior art keywords
mutation
site
disorder
sites
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310423663.3A
Other languages
English (en)
Other versions
CN116564405A (zh
Inventor
吴郁
郭刚
邓望龙
任用
李诗濛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiansheng Medical Examination Laboratory Co ltd
Nanjing Xiansheng Diagnostic Technology Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Original Assignee
Beijing Xiansheng Medical Examination Laboratory Co ltd
Nanjing Xiansheng Diagnostic Technology Co ltd
Jiangsu Xiansheng Medical Diagnosis Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiansheng Medical Examination Laboratory Co ltd, Nanjing Xiansheng Diagnostic Technology Co ltd, Jiangsu Xiansheng Medical Diagnosis Co ltd filed Critical Beijing Xiansheng Medical Examination Laboratory Co ltd
Priority to CN202310423663.3A priority Critical patent/CN116564405B/zh
Publication of CN116564405A publication Critical patent/CN116564405A/zh
Application granted granted Critical
Publication of CN116564405B publication Critical patent/CN116564405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请属于生信分析技术领域,具体涉及一种基于平均无序度的基因组测序突变位点过滤算法,可用于突变位点假阳过滤。

Description

一种基于平均无序度的基因组测序突变位点过滤方法
技术领域
本申请属于生物信息学技术领域,具体涉及一种基于平均无序度的基因组测序突变位点过滤方法及应用。
技术背景
基因组测序技术目前已经在肿瘤诊断项目中广泛开展。通过对癌组织进行基因组测序,诊断者可以明确癌细胞的突变类型,进行针对性用药。但测序中发现的突变存在非生物来源,如仪器误差、文库制备污染、扩增阶段错配等,属于假性突变,需要加以过滤。
假性突变通常具有一定的特征,即支持突变的序列上存在大量无序突变。目前业界广泛采用支持突变序列上的错配数进行过滤,如Vardict软件的NM指标通过计算支持突变的序列上的平均错配数(含插入/缺失),用于突变位点的过滤。但是此指标只能说明支持突变序列上错配多少,并不能代表是否混乱;另外对于多核苷酸多态性位点(MNP),由于该类突变是由相邻的一组单核苷算多态位点(SNP)组成,错配数会增加导致NM统计量升高,会将真实的突变误判成假阳。
鉴于此,提出本申请。
发明内容
为解决上述技术问题,本申请通过生物信息学分析研究,建立一套基于平均无序度的基因组测序突变位点过滤方法,该方法可用于突变位点假阳过滤。
具体的,本申请提出如下技术方案:
本申请首先提供一种基于平均无序度的基因组测序突变位点过滤方法,所述方法是通过平均无序度指标对突变位点进行判定。
进一步的,所述平均无序度指标是基于信息熵构建。
进一步的,所述方法包括如下步骤,
1)基于测序数据获得突变位点相关信息;
2)建立突变位点附近的碱基数量矩阵;
3)计算碱基数量矩阵中碱基出现频率,利用信息熵计算位点无序度:
4)统计碱基数量矩阵中突变位点覆盖深度,计算位点的平均无序度;
5)基于无序度阈值进行突变过滤。
进一步的,所述步骤1)中,所述突变位点相关信息包括突变位点所在染色体、位置坐标、突变后的碱基与支持突变的序列数量。
进一步的,所述步骤2)中,所述碱基数量矩阵具有4行和2n+2列;每列分别表示指定观测范围内的基因组坐标位点,其中第n列表示突变位点所在位置,n的取值是使得2n+2接近序列比对文件中的序列平均长度;每行分别表示每个基因组位点上4种碱基被覆盖的次数。
进一步的,所述步骤3)中,所述计算为分别计算碱基数量矩阵的每一列4种碱基出现的频率PA、PC、PG、PT,利用信息熵计算位点无序度DSOi:
DSOi=-PAlog2(PA)-PTlog2(PT)-Clog2(PC)-PGlog2(PG)。
进一步的,所述步骤4)中,所述统计为对碱基数量矩阵的每列分别统计4种碱基出现次数的总和,得到该位点覆盖深度;
进一步的,优选的,对覆盖深度大于等于矩阵第n列突变位点覆盖深度50%的位点进行计数;将覆盖深度不足突变位点50%的位点的无序度DSOpos置为0。
进一步的,所述步骤4)中,所述根据覆盖深度计算位点的平均无序度具体为:对突变位点附近覆盖深度大于等于突变位点本身覆盖深度一半的位点,计算其平均无序度DSO,所述DSO计算如下:
进一步的,所述步骤5)具体为:对实际样本进行审核,确定无序度阈值(阈值优选为1.0),大于阈值的位点被认为支持突变的序列混乱,用于后续突变过滤。
本申请还提供一种平均无序度指标在测序突变位点假阳性过滤中的应用,
优选的,所述平均无序度指标是基于信息熵构建;
更优选的,所述应用具体包括如下步骤:
1)基于测序数据获得突变位点相关信息;
2)建立突变位点附近的碱基数量矩阵;
3)计算碱基数量矩阵的碱基出现频率,利用信息熵计算位点无序度:
4)统计碱基数量矩阵中突变位点的覆盖深度,计算位点的平均无序度;
5)基于无序度阈值进行突变过滤。
进一步的,所述步骤1)中,所述突变位点相关信息包括突变位点所在染色体、位置坐标、突变后的碱基与支持突变的序列数量。
进一步的,所述步骤2)中,所述碱基数量矩阵具有4行和2n+2列;每列分别表示指定观测范围内的基因组坐标位点,其中第n列表示突变位点所在位置,n的取值是使得2n+2接近序列比对文件中的序列平均长度;每行分别表示每个基因组位点上4种碱基被覆盖的次数。
进一步的,所述步骤3)中,所述计算为分别计算碱基数量矩阵的每一列4种碱基出现的频率PA、PC、PG、PT,利用信息熵计算位点无序度DSOi:
DSOi=-PAlog2(PA)-PTlog2(PT)-Clog2(PC)-PGlog2(PG)。
进一步的,所述步骤4)中,所述统计为对碱基数量矩阵的每列分别统计4种碱基出现次数的总和,得到该位点覆盖深度;
进一步的,优选的,对覆盖深度大于等于矩阵第n列突变位点覆盖深度50%的位点进行计数,得到计数值;将覆盖深度不足突变位点50%的位点的无序度DSOpos置为0。
进一步的,所述步骤4)中,所述根据覆盖深度计算位点的平均无序度具体为:对突变位点附近覆盖深度大于等于突变位点本身覆盖深度一半的位点,计算其平均无序度DSO,所述DSO计算如下:
进一步的,所述步骤5)具体为:对实际样本进行审核,确定无序度阈值(阈值优选为1.0),大于阈值的位点被认为支持突变的序列混乱,用于后续突变过滤。
本申请还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,实现上述任一项所述方法。
本申请还提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器和处理器相连,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,实现上述任一项所述方法。
本申请有益技术效果:
本申请通过探索发现,基于信息熵构建的平均无序度指标,可用于描述位点附近的序列混乱程度,可对突变位点的真实性进行准确判定,可对假阳性位点进行有效过滤。
附图说明
图1.本申请方法的流程图;
图2.不同VD阈值下DSO在样本中的密度分布曲线;
图3.平均错配数较高的有序突变形态示例,基因组数据可视化软件IGV(Integrative Genomics Viewer)界面截图。图中每条横向的条块表示一条测序序列,条块的一端为箭头状,表示序列测序的方向(与箭头指向的方向一致);灰色条块是正常序列,红色条块表示序列的插入片段长度过大,其他颜色条块表示双端测序中与本序列成对的另一条序列被比对到其他染色体上。条块中出现的字母表示在本序列的相应位置相对基因组出现突变,无字母显示的区域表示序列与基因组碱基一致。字母颜色的深浅代表了碱基的质量分数,越深则该碱基质量越高。部分附图由于放缩比例过小的缘故,字母无法看清,IGV会自动将碱基字母调整为相应的色块(比如A为绿色、C为蓝色、G为黄色、T为红色、N为灰色)以便查看。
图4.平均错配数较低的无序突变形态示例,基因组数据可视化软件IGV(Integrative Genomics Viewer)界面截图。图中每条横向的条块表示一条测序序列,条块的一端为箭头状,表示序列测序的方向(与箭头指向的方向一致);灰色条块是正常序列,红色条块表示序列的插入片段长度过大,其他颜色条块表示双端测序中与本序列成对的另一条序列被比对到其他染色体上。条块中出现的字母表示在本序列的相应位置相对基因组出现突变,无字母显示的区域表示序列与基因组碱基一致。字母颜色的深浅代表了碱基的质量分数,越深则该碱基质量越高。部分附图由于放缩比例过小的缘故,字母无法看清,IGV会自动将碱基字母调整为相应的色块(比如A为绿色、C为蓝色、G为黄色、T为红色、N为灰色)以便查看。
图5.实际样本中的无序突变,基因组数据可视化软件IGV(Integrative GenomicsViewer)界面截图。图中每条横向的条块表示一条测序序列,条块的一端为箭头状,表示序列测序的方向(与箭头指向的方向一致);灰色条块是正常序列,红色条块表示序列的插入片段长度过大,其他颜色条块表示双端测序中与本序列成对的另一条序列被比对到其他染色体上。条块中出现的字母表示在本序列的相应位置相对基因组出现突变,无字母显示的区域表示序列与基因组碱基一致。字母颜色的深浅代表了碱基的质量分数,越深则该碱基质量越高。部分附图由于放缩比例过小的缘故,字母无法看清,IGV会自动将碱基字母调整为相应的色块(比如A为绿色、C为蓝色、G为黄色、T为红色、N为灰色)以便查看。
图6.实际样本中的有序突变,基因组数据可视化软件IGV(Integrative GenomicsViewer)界面截图,图中每条横向的条块表示一条测序序列,条块的一端为箭头状,表示序列测序的方向(与箭头指向的方向一致);灰色条块是正常序列,红色条块表示序列的插入片段长度过大,其他颜色条块表示双端测序中与本序列成对的另一条序列被比对到其他染色体上。条块中出现的字母表示在本序列的相应位置相对基因组出现突变,无字母显示的区域表示序列与基因组碱基一致。字母颜色的深浅代表了碱基的质量分数,越深则该碱基质量越高。部分附图由于放缩比例过小的缘故,字母无法看清,IGV会自动将碱基字母调整为相应的色块(比如A为绿色、C为蓝色、G为黄色、T为红色、N为灰色)以便查看。
具体实施方式
下面将结合实施例对本申请的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本申请,而不应视为限制本申请的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场购买获得的常规产品。
部分术语定义,除非在下文中另有定义,本申请具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本申请。
本申请中的术语“大约”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
如本申请中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本申请描述的实施方案能以不同于本申请描述或举例说明的其它顺序实施。
本申请的基于平均无序度的基因组测序突变位点过滤方法是通过平均无序度指标对突变位点进行判定。
在一些实施方式中,所述平均无序度指标是基于信息熵构建。
在一些实施方式中,所述方法包括如下步骤,
1)基于测序数据获得突变位点相关信息;
2)建立突变位点附近的碱基数量矩阵;
3)计算碱基数量矩阵的碱基出现频率,利用信息熵计算位点无序度:
4)统计碱基数量矩阵中突变位点的覆盖深度;
5)根据覆盖深度计算位点的平均无序度;
6)基于无序度阈值进行突变过滤。
在一些实施方式中,所述步骤1)中,所述突变位点相关信息包括突变位点所在染色体、位置坐标、突变后的碱基与支持突变的序列数量。
在一些实施方式中,所述步骤2)中,所述碱基数量矩阵具有4行和2n+2列;每列分别表示指定观测范围内的基因组坐标位点,其中第n列表示突变位点所在位置,n的取值是使得2n+2接近序列比对文件中的序列平均长度;每行分别表示每个基因组位点上4种碱基被覆盖的次数。
在一些实施方式中,所述步骤3)中,所述计算为分别计算碱基数量矩阵的每一列4种碱基出现的频率PA、PC、PG、PT,利用信息熵计算位点无序度DSOi:
DSOi=-PAlog2(PA)-PTlog2(PT)-PClog2(PC)-PGlog2(PG)。
在一些实施方式中,所述步骤4)中,所述统计为对碱基数量矩阵的每列分别统计4种碱基出现次数的总和,得到该位点覆盖深度;
在一些优选的实施方式中,对覆盖深度大于等于矩阵第n列突变位点覆盖深度50%的位点进行计数;将覆盖深度不足突变位点50%的位点的无序度DSOpos置为0。
在一些实施方式中,所述步骤5)中,所述根据覆盖深度计算位点的平均无序度具体为:对突变位点附近覆盖深度大于等于突变位点本身覆盖深度一半的位点,计算其平均无序度DSO,所述DSO计算如下:
在一些实施方式中,所述步骤6)具体为:对实际样本进行审核,确定无序度阈值(阈值优选为1.0),大于阈值的位点被认为支持突变的序列混乱,用于后续突变过滤。
下面结合具体实施例来阐述本申请。
实施例1本申请方法体系建立
本申请通过生信分析探索建立一套基于平均无序度的基因组测序突变位点过滤算法,具体包括了如下步骤:
算法主要逻辑描述如下:
1.阅读来自上游突变位点分析程序输出的变异分析结果文件中记录的突变位点,确认突变位点所在的染色体名chr、位置坐标pos、突变后的碱基alt与支持突变的序列数量vd。当多线程运行时,每个线程自队列中取出变异分析结果分别处理。
2.建立突变位点附近的碱基数量矩阵,矩阵具有4个行和2n+2个列,每列分别表示指定观测范围内的基因组坐标位点,其中第n列表示突变位点所在的位置,n的值应当使得2n+2接近序列比对文件中的序列平均长度;每行分别表示每个基因组位点上4种碱基被覆盖到的次数。
3.对步骤2中所述碱基数量矩阵的每一列分别计算4种碱基出现的频率PA、PC、PG、PT,然后利用信息熵的定义计算位点无序度:
DSOi=-PAlog2(PA)-PTlog2(PT)-PClog2(PC)-PGlog2(PG)
4.为了消除覆盖深度不足对统计结果造成的影响,对步骤2中所述碱基数量矩阵的每列分别计算4种碱基出现次数的总和,即该位点的覆盖深度,对覆盖深度大于等于矩阵第n列突变位点覆盖深度50%的位点进行计数,得到计数值COUNT;同时将覆盖深度不足突变位点50%的位点的无序度DSOpos置为0。
5.计算突变位点附近覆盖深度大于等于突变位点本身覆盖深度一半的位点的平均无序度:
6.存储时将该值放大50倍以避免过多的小数位数,默认值为0。
7.对实际样本进行审核,确定无序度的阈值(在本发明中设定为1.0),大于阈值的位点被认为支持突变的序列混乱,用于后续的突变过滤。
实施例2DSO阈值划定
由于DSO是一个统计学量,支持其计算的原始数据(即支持突变的read条数VD)过少会导致统计受到异常值的强烈影响而出现不可靠的问题,故而需要在实际样本中寻找使得DSO计算相对稳定的VD阈值。
本申请通过设定不同的VD阈值,对某样本中的全部突变计算平均无序度DSO,并调查DSO在整个样本中的分布情况(只调查非零的DSO值)。
随着VD阈值的提升,DSO的分布应当逐渐趋于稳定。为了确保统计量的稳定性,本申请以2为间隔,等间隔加大VD阈值,选取DSO分布密度峰值与前值小于0.01后的第一个VD阈值作为实际应用的VD阈值。
由图2,VD阈值被定为8。
根据VD=8时DSO的分布情况,本申请选取密度分布曲线最高点之后的第一个整数作为DSO的阈值划定标准。由此DSO的阈值被设定为1,DSO高于1的位点被认定为序列过乱。
实施例3本申请DSO与常规指标NM的效果比较
本实施例基于实际病例样本,测试无序度指标DSO与常规错配数指标NM对突变过滤的效果。突变的真假一般基于IGV截图确认,其中突变位点周围的混乱程度是判定突变真假其中一个指标,常用的混乱程度描述指标NM划定阈值为3,NM>=3认为是混乱假位点,NM<3为有序真实突变,测试表明本申请的DSO方法在多种突变类型中表现优于NM。。
1)如图3所示,IGV复核为一个真实突变,而NM指标计算出为3(NM=3),被判定成为一个混乱假阳位点;而基于本申请的DSO指标计算值为0(DSO=0),小于域值1,表明是有序的真阳位点,这与IGV复核结果一致;
2)如图4所示,IGV复核为一个假阳突变,而NM指标计算值为1.78(NM=1.78),被判定为有序真突变;而基于DSO指标计算值为1.662(DSO=1.662),大于域值1,因此是混乱假阳突变,这与IGV复核结果一致。
实施例4本申请突变位点无序度分辨能力评估
本实施例在实际病例样本中测试了共计34个报出突变。其中,图5为测试中3个突变位点DSO指标判定为混乱假阳位点举例,图6为测试中3个DSO指标判定为有序高质量真阳位点举例。可见,本申请DSO指标对于突变位点无序度分辨结果与IGV截图复核结果一致。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (8)

1.一种基因组测序突变位点的过滤方法,其特征在于,所述方法通过平均无序度指标对突变位点进行判定;所述平均无序度指标是基于信息熵构建;
所述方法具体包括如下步骤:
1)基于测序数据获得突变位点相关信息;
2)建立突变位点附近的碱基数量矩阵;
3)计算碱基数量矩阵中碱基出现频率,基于信息熵计算位点无序度:
4)统计碱基数量矩阵中突变位点的覆盖深度,计算位点的平均无序度;
5)基于无序度阈值进行突变过滤。
2.根据权利要求1所述的过滤方法,其特征在于,所述步骤1)中,所述突变位点相关信息包括突变位点所在染色体、位置坐标、突变后的碱基与支持突变的序列数量。
3.根据权利要求1所述的过滤方法,其特征在于,所述步骤2)中,所述碱基数量矩阵具有4行和2n+2列;每列分别表示指定观测范围内的基因组坐标位点,其中第n列表示突变位点所在位置,n的取值是使得2n+2接近序列比对文件中的序列平均长度;每行分别表示每个基因组位点上4种碱基被覆盖的次数。
4.根据权利要求1所述的过滤方法,其特征在于,所述步骤3)中,所述计算为分别计算碱基数量矩阵的每一列4种碱基出现的频率PA、PC、PG、PT,利用信息熵计算位点无序度DSOi:
DSOi=-PAlog2(PA)-PTlog2(PT)-PClog2(PC)-PGlog2(PG)。
5.根据权利要求1所述的过滤方法,其特征在于,所述步骤4)中,所述统计为对碱基数量矩阵的每列分别统计4种碱基出现次数的总和,得到该位点覆盖深度。
6.根据权利要求1所述的过滤方法,其特征在于,所述步骤4)中,根据覆盖深度计算位点的平均无序度具体为:对突变位点附近覆盖深度大于等于突变位点本身覆盖深度一半的位点,计算其平均无序度DSO,所述DSO计算如下:
7.根据权利要求1所述的过滤方法,其特征在于,所述步骤5)具体为:对实际样本进行审核,确定无序度阈值,大于阈值的位点被认为支持突变的序列混乱,用于后续突变过滤。
8.基于平均无序度指标在测序突变位点假阳性过滤中的应用;所述平均无序度指标是基于信息熵构建,所述应用具体包括如下步骤:
1)基于测序数据获得突变位点相关信息;
2)建立突变位点附近的碱基数量矩阵;
3)计算碱基数量矩阵中碱基出现频率,基于信息熵计算位点无序度:
4)统计碱基数量矩阵中突变位点的覆盖深度,计算位点的平均无序度;
5)基于无序度阈值进行突变过滤。
CN202310423663.3A 2023-04-19 2023-04-19 一种基于平均无序度的基因组测序突变位点过滤方法 Active CN116564405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310423663.3A CN116564405B (zh) 2023-04-19 2023-04-19 一种基于平均无序度的基因组测序突变位点过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310423663.3A CN116564405B (zh) 2023-04-19 2023-04-19 一种基于平均无序度的基因组测序突变位点过滤方法

Publications (2)

Publication Number Publication Date
CN116564405A CN116564405A (zh) 2023-08-08
CN116564405B true CN116564405B (zh) 2023-12-15

Family

ID=87488978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310423663.3A Active CN116564405B (zh) 2023-04-19 2023-04-19 一种基于平均无序度的基因组测序突变位点过滤方法

Country Status (1)

Country Link
CN (1) CN116564405B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105969856A (zh) * 2016-05-13 2016-09-28 万康源(天津)基因科技有限公司 一种单细胞外显子测序肿瘤体细胞突变检测方法
CN108690871A (zh) * 2018-03-29 2018-10-23 深圳裕策生物科技有限公司 基于二代测序的插入缺失突变检测方法、装置和存储介质
CN109596597A (zh) * 2018-12-28 2019-04-09 中兴高能技术有限责任公司 一种评价石墨表面包覆改性的方法
CN110387419A (zh) * 2019-08-20 2019-10-29 裕策医疗器械江苏有限公司 实体瘤多基因检测基因芯片及其制备方法和检测装置
WO2020099614A1 (en) * 2018-11-15 2020-05-22 Nouscom Ag Selection of cancer mutations for generation of a personalized cancer vaccine
CN113724785A (zh) * 2021-11-01 2021-11-30 臻和(北京)生物科技有限公司 基于二代测序的肿瘤分型方法、装置、存储介质及设备
CN114121153A (zh) * 2021-11-23 2022-03-01 广州金域医学检验中心有限公司 基因突变位点检测方法、装置、电子设备及存储介质
CN115458052A (zh) * 2022-08-16 2022-12-09 珠海横琴铂华医学检验有限公司 基于一代测序的基因突变分析方法、设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105969856A (zh) * 2016-05-13 2016-09-28 万康源(天津)基因科技有限公司 一种单细胞外显子测序肿瘤体细胞突变检测方法
CN108690871A (zh) * 2018-03-29 2018-10-23 深圳裕策生物科技有限公司 基于二代测序的插入缺失突变检测方法、装置和存储介质
WO2020099614A1 (en) * 2018-11-15 2020-05-22 Nouscom Ag Selection of cancer mutations for generation of a personalized cancer vaccine
CN109596597A (zh) * 2018-12-28 2019-04-09 中兴高能技术有限责任公司 一种评价石墨表面包覆改性的方法
CN110387419A (zh) * 2019-08-20 2019-10-29 裕策医疗器械江苏有限公司 实体瘤多基因检测基因芯片及其制备方法和检测装置
CN113724785A (zh) * 2021-11-01 2021-11-30 臻和(北京)生物科技有限公司 基于二代测序的肿瘤分型方法、装置、存储介质及设备
CN114121153A (zh) * 2021-11-23 2022-03-01 广州金域医学检验中心有限公司 基因突变位点检测方法、装置、电子设备及存储介质
CN115458052A (zh) * 2022-08-16 2022-12-09 珠海横琴铂华医学检验有限公司 基于一代测序的基因突变分析方法、设备和存储介质

Also Published As

Publication number Publication date
CN116564405A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN111951895B (zh) 基于宏基因组学的病原分析方法、分析装置、设备及存储介质
Minoche et al. Evaluation of genomic high-throughput sequencing data generated on Illumina HiSeq and genome analyzer systems
CN107423578B (zh) 检测体细胞突变的装置
Umbarger et al. Next-generation carrier screening
Reimers et al. Quality assessment of microarrays: visualization of spatial artifacts and quantitation of regional biases
CN104133914B (zh) 一种消除高通量测序引入的gc偏差及对染色体拷贝数变异的检测方法
CN110993029B (zh) 一种检测染色体异常的方法及系统
CN110189796A (zh) 一种绵羊全基因组重测序分析方法
US20200194097A1 (en) METHOD FOR IDENTIFYING PLANT IncRNA AND GENE INTERACTION
CN110093417B (zh) 一种检测肿瘤单细胞体细胞突变的方法
CN109887546A (zh) 一种基于二代测序技术的单基因或多基因拷贝数检测系统及方法
Zhao et al. Bioinformatics for RNA-seq data analysis
Arteaga-Salas et al. An overview of image-processing methods for Affymetrix GeneChips
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
CN107622183B (zh) 一种基于多重指标的胎儿染色体倍性检测分析方法
CN116564405B (zh) 一种基于平均无序度的基因组测序突变位点过滤方法
CN115691672A (zh) 针对测序平台特征的碱基质量值矫正方法、装置、电子设备和存储介质
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN110444253B (zh) 一种适用于混池基因定位的方法及系统
CA3149486A1 (en) Method for analysing loss-of-heterozygosity (loh) following deterministic restriction-site whole genome amplification (drs-wga)
US20070202526A1 (en) Genotyping result evaluation method and system
EP1798651B1 (en) Gene information display method and apparatus
CN107208152B (zh) 检测突变簇的方法和装置
CN116469462A (zh) 一种基于双重测序的超低频dna突变识别方法和装置
Shaik et al. Leishmania Sexual Reproductive Strategies as Resolved through Computational Methods Designed for Aneuploid Genomes. Genes 2021, 12, 167

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant