CN114678067B - 构建多人群非外显子区snp探针集合的方法及装置 - Google Patents

构建多人群非外显子区snp探针集合的方法及装置 Download PDF

Info

Publication number
CN114678067B
CN114678067B CN202210278698.8A CN202210278698A CN114678067B CN 114678067 B CN114678067 B CN 114678067B CN 202210278698 A CN202210278698 A CN 202210278698A CN 114678067 B CN114678067 B CN 114678067B
Authority
CN
China
Prior art keywords
snp
probe
filtering
unit
probes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210278698.8A
Other languages
English (en)
Other versions
CN114678067A (zh
Inventor
蒋才
程陶然
尹书剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naonda Nanjing Biological Technology Co ltd
Original Assignee
Naonda Nanjing Biological Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naonda Nanjing Biological Technology Co ltd filed Critical Naonda Nanjing Biological Technology Co ltd
Priority to CN202210278698.8A priority Critical patent/CN114678067B/zh
Publication of CN114678067A publication Critical patent/CN114678067A/zh
Application granted granted Critical
Publication of CN114678067B publication Critical patent/CN114678067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Abstract

本发明公开了一种构建多人群非外显子区SNP探针集合的方法及装置。该方法包括:基于人类基因组数据库的等位基因频率获得初始SNP集合,对初始SNP集合进行非外显子位置提取、上下游CG含量过滤、SNP变异频率过滤、指定人群最小等位基因频率过滤,得到用于设计探针的SNP集合;进行探针设计,对该探针集合进行常见SNP包含数、SNP稳定检出性、能否hg38坐标转换进行过滤;将SNP与探针分布在全基因组多个区间上,取合适的SNP探针;根据进行连锁不平衡关系过滤掉不适用的SNP探针和位点,得到SNP探针集合。应用本发明的技术方案获得的SNP探针集合可更好地完成同源重组缺失评分及SNP骨架的构建。

Description

构建多人群非外显子区SNP探针集合的方法及装置
技术领域
本发明涉及生物信息技术领域与医学分子生物学领域,具体而言,涉及一种构建多人群非外显子区SNP探针集合的方法及装置。
背景技术
对人类肿瘤组织样本的同源重组缺陷(Homologous Recombination Deficiency,HRD)进行可靠量化具有重要的临床意义。例如,伴有 BRCA1 或 BRCA2 缺失的卵巢癌和三阴性乳腺癌对 PARP 抑制剂和铂类化疗高度敏感,并以 DNA 总拷贝数畸变的形式显示基因组瘢痕的积聚;没有 BRCA1 或 BRCA2 丢失,但有类似基因组疤痕积聚的癌种也显示出对铂类化疗的敏感性增加。此前基于SNP阵列的染色体不稳定性特征:杂合性丢失(loss ofheterozygosity,LOH)、端粒等位基因失平衡(telomeric allelic imbalance,TAI)和大片段迁移(large-scale state transitions,LST),其综合得分可作 HRD 的生物标志物。近来二代测序法,如全基因组测序(Whole Genome Sequencing,WGS)和全外显子测序(WholeExome Sequencing, WES)逐渐取代SNP芯片成为基因组瘢痕分析的主流方法,但存在高成本和检测密度不均等缺点。
考虑到肿瘤标本的倍性、纯度和异质性,同时为了满足高覆盖率和低成本的要求,基于二代测序的靶向测序(Targeted Next-Generation Sequencing,Tg-NGS)锚向全基因组内均匀分布、高杂合率的数万个SNP位点的思路成为应用于同源重组缺陷检测分析的较优解决方案之一。本发明旨在推出一种多人群通用的针对全基因组范围内高密度均匀分布的SNP探针设计方案。
发明内容
本发明旨在提供一种构建多人群非外显子区SNP探针集合的方法及装置,确定并筛选出适用于多种人群的非外显子区均匀分布的SNP探针集合。
为了实现上述目的,根据本发明的一个方面,提供了一种构建多人群非外显子区SNP探针集合的方法。该方法包括以下步骤:S1,对人类基因组数据库中收纳的SNP位点的等位基因频率信息进行过滤,保留M个人群中等位基因频率均在一定范围内的SNP位点,形成SNP集合A,M≥1;S2,针对SNP集合A中的SNP进行位置过滤,排除涉及外显子的SNP,形成SNP集合B;S3,针对SNP集合B中的SNP,对以SNP位点为中心的120bp范围内的序列的GC含量进行过滤,保留GC含量在指定取值范围内的SNP,形成SNP集合C;S4,针对SNP集合C中SNP在M个人群中变异频率偏离的情况进行SNP过滤,过滤存在异常值的SNP,形成SNP集合D;S5,利用指定人群的最小等位基因频率值对SNP集合D中的SNP位点进行过滤,形成SNP集合E;S6,针对SNP集合E中的SNP位点进行捕获探针设计,获得SNP集合F与安全探针集A;S7,利用常见SNP的参考文件对安全探针集A进行过滤,若一条探针区间内包含3个或以上的常见SNP,则舍去该探针及对应SNP位点,过滤完成后获得SNP集合G和安全探针集B;S8,对SNP集合G中SNP位点进行过滤,除去在WGS全基因组测序30X深度下无法稳定检测的SNP位点及其对应的安全探针集B中的探针,过滤完成后获得SNP集合H和安全探针集C;S9,过滤掉SNP集合H中参考基因组坐标无法转换成hg38参考基因组坐标的SNP位点及其对应的安全探针集C中的探针,得到SNP集合I和安全探针集D;S10,将全基因组以N个碱基的长度为单位划分为多个区间,SNP集合I和安全探针集D依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点MAF值最接近0.5的SNP位点及其对应的安全探针,得到SNP集合J和安全探针集合E;S11,可选择地,依托S10的方法从SNP集合J和安全探针集合E中进一步挑选新的SNP集合及对应安全探针集合,成为较低密度梯度的新的SNP集合J和新的安全探针集合E;S12,计算SNP集合J中每一个SNP与在该SNP上下游1M bp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高的SNP及对应探针,最终得到SNP集合K和安全探针集合F。
进一步地,人类基因组数据库为1000Genomes人类基因组数据库;优选的,M=5。
进一步地,S1中,等位基因频率均在一定范围内是指等位基因频率均在0.05~0.95;优选的,S2中,涉及外显子的SNP为SNP上下游200bp范围内触及外显子区域;优选的,S3中,GC含量在指定取值范围内是指GC含量在25%~75%;优选的,S4中,存在异常值的SNP判断方法为:利用该SNP在M个人群中的AF值,计算Q1-1.5IQR和Q3+1.5IQR,若M个人群中任意一人群AF值小于Q1-1.5IQR或大于Q3+1.5IQR,则判定为存在异常。
进一步地,S5中过滤条件为单个SNP的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体SD的4倍。
进一步地,S6中,捕获探针的设计方法为:以SNP为中心预设计90~160bp,优选120bp探针,使用bowtie2和blast进行全基因组比验证;其中,bowtie2是以SNP为中心,上下移动60bp,一共三条探针,比对结果要求一条探针的hits等于1,另外两条探针的hits小于100;blast则以SNP为中心,要求比对结果的hits数目小于1000,两者阈值条件同时具备,保留该SNP位点及对应探针。
进一步地,S8中,能被稳定检测的SNP位点在WGS数据在GATK-3.8版本下计算的callable的bed区间之内;优选的,S9中,SNP位点使用crossmap-0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致;优选的,S10中,N取值应大于等于50k,优选为50k;优选的,S12中,判断SNP连锁不平衡的条件为:Dab=f(AB)-f(A)*f(B); r2=(Dab)2/(f(A)*f(a)*f(B)*f(b)),其中,r2表示相关系数,Dab表示度量观察到的单倍型频率与平衡状态下期望频率的偏差,F(A)、f(B)、f(a)、f(b)表示等位基因基因型频率,f(AB)表示AB单倍型频率;r2的阈值为0.2,r2高于该值,则被过滤。
根据本发明的另一个方面,提供一种构建多人群非外显子区SNP探针集合的装置。该装置包括:等位基因频率信息过滤单元,设置为对人类基因组数据库中收纳的SNP位点的等位基因频率信息进行过滤,保留M个人群中等位基因频率均在一定范围内的SNP位点,形成SNP集合A,M≥1;外显子排除单元,设置为对SNP集合A中的SNP进行位置过滤,排除涉及外显子的SNP,形成SNP集合B;GC含量过滤单元,设置为对SNP集合B中的SNP,对以SNP位点为中心的120bp范围内的序列的GC含量进行过滤,保留GC含量在指定取值范围内的SNP,形成SNP集合C;变异频率偏离过滤单元,设置为SNP集合C中SNP在M个人群中变异频率偏离的情况进行SNP过滤,过滤存在异常值的SNP,形成SNP集合D;最小等位基因频率过滤单元,设置为利用指定人群的最小等位基因频率值对SNP集合D中的SNP位点进行过滤,形成SNP集合E;探针设计单元,设置为SNP集合E中的SNP位点进行捕获探针设计,获得SNP集合F与安全探针集A;探针过滤单元A,设置为利用常见SNP的参考文件对安全探针集A进行过滤,若一条探针区间内包含3个或以上的常见SNP,则舍去该探针及对应SNP位点,过滤完成后获得SNP集合G和安全探针集B;探针过滤单元B,设置为SNP集合G中SNP位点进行过滤,除去在WGS全基因组测序30X深度下无法稳定检测的SNP位点及其对应的安全探针集B中的探针,过滤完成后获得SNP集合H和安全探针集C;参考基因组转化及过滤单元,设置为过滤掉SNP集合H中参考基因组坐标无法转换成hg38参考基因组坐标的SNP位点及其对应的安全探针集C中的探针,得到SNP集合I和安全探针集D;SNP优选单元,设置为将全基因组以N个碱基的长度为单位划分为多个区间,SNP集合I和安全探针集D依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点MAF值最接近0.5的SNP位点及其对应的安全探针,得到SNP集合J和安全探针集合E;并且可以通过修改本单元参数,从SNP集合J和安全探针集合E中得到较低密度的新的SNP集合J和新的安全探针集合E;连锁不平衡计算及过滤单元,设置为SNP集合J中每一个SNP与在该SNP上下游1M bp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高的SNP及对应探针,最终得到SNP集合K和安全探针集合F。
进一步地,人类基因组数据库为1000Genomes人类基因组数据库;优选的,M=5。
进一步地,等位基因频率信息过滤单元中,等位基因频率均在一定范围内是指等位基因频率均在0.05~0.95;优选的,外显子排除单元中,涉及外显子的SNP为SNP上下游200bp范围内触及外显子区域;优选的,GC含量过滤单元中,GC含量在指定取值范围内是指GC含量在25%~75%;优选的,变异频率偏离过滤单元中,存在异常值的SNP判断方法为:利用该SNP在M个人群中的AF值,计算Q1-1.5IQR和Q3+1.5IQR,若M个人群中任意一人群AF值小于Q1-1.5IQR或大于Q3+1.5IQR,则判定为存在异常。
进一步地,最小等位基因频率过滤单元中过滤条件为单个SNP的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体SD的4倍。
进一步地,探针设计单元中,捕获探针的设计方法为:以SNP为中心预设计90~160bp,优选120bp探针,使用bowtie2和blast进行全基因组比验证;其中,bowtie2是以SNP为中心,上下移动60bp,一共三条探针,比对结果要求一条探针的hits等于1,另外两条探针的hits小于100;blast则以SNP为中心,要求比对结果的hits数目小于1000,两者阈值条件同时具备,保留该SNP位点及对应探针。
进一步地,探针过滤单元B中,能被稳定检测的SNP位点在WGS数据在GATK-3.8版本下计算的callable的bed区间之内;优选的,参考基因组转化及过滤单元中,SNP位点使用crossmap-0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致;优选的,SNP优选单元中,N取值应大于等于50k,优选为50k;优选的,连锁不平衡计算及过滤单元中,判断SNP连锁不平衡的条件为:Dab=f(AB)-f(A)*f(B);r2=(Dab)2/(f(A)*f(a)*f(B)*f(b)),其中,r2表示相关系数,Dab表示度量观察到的单倍型频率与平衡状态下期望频率的偏差,F(A)、f(B)、f(a)、f(b)表示等位基因基因型频率,f(AB)表示AB单倍型频率;r2的阈值为0.2,r2高于该值,则被过滤。
应用本发明的技术方案,可获得不同人群非外显子区高密度SNP探针集合,该探针集合具有目标位点密度大且分布均匀、目标位点突变频率贴合特定人群的特点,经验证,依标准进行设计的探针在后续应用过程中有着良好的表现,可更好地完成同源重组缺失评分及SNP骨架的构建。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。针对现有技术中,用于同源重组缺失评分及SNP骨架构建的高密度SNP探针集在设计过程中大多存在分布不均一、局限于外显子、指定单一人种的缺陷,本发明提出下列技术方案。
本发明的发明构思在于:提供一种构建不同人群非外显子区高密度SNP探针集合的方法,该方法包括基于人类基因组数据库(例如,1000Genomes数据库中五大人群)的等位基因频率获得初始SNP集合,再对初始SNP集合依次进行非外显子位置提取、上下游CG含量过滤、SNP变异频率过滤、指定人群最小等位基因频率过滤,得到可用于设计探针的SNP集合;针对该集合进行安全探针设计,再对该探针集合进行探针区间常见SNP包含数、SNP稳定检出性、能否hg38坐标转换进行再次过滤;再将经上述步骤得到的SNP与探针以实际需求的密度情况均匀分布在全基因组多个区间上,按最优条件取合适的SNP探针;最后根据进行连锁不平衡关系再次过滤掉不适用的SNP探针和位点,得到最佳SNP探针集合。
根据本发明一种典型的实施方式,提供一种构建多人群非外显子区SNP探针集合的方法。该方法包括以下步骤:S1,对人类基因组数据库中收纳的SNP位点的等位基因频率信息进行过滤,保留M个人群中等位基因频率均在一定范围内的SNP位点,形成SNP集合A,M≥1;S2,针对SNP集合A中的SNP进行位置过滤,排除涉及外显子的SNP,形成SNP集合B;S3,针对SNP集合B中的SNP,对以SNP位点为中心的120bp 范围内的序列的GC含量进行过滤,保留GC含量在指定取值范围内的SNP,形成SNP集合C;S4,针对SNP集合C中SNP在M个人群中变异频率偏离 的情况进行SNP过滤,过滤存在异常值的SNP,形成SNP集合D;S5,利用指定人群的最小等位基因频率值对SNP集合D中的SNP位点进行过滤,形成SNP集合E;S6,针对SNP集合E中的SNP位点进行捕获探针设计,获得SNP集合F与安全探针集A;S7,利用常见 SNP的参考文件对安全探针集A进行过滤,若一条探针区间内包含3个或以上的常见SNP,则舍去该探针及对应SNP位点,过滤完成后获得SNP集合G和安全探针集B;S8,对SNP集合G中SNP位点进行过滤,除去在WGS全基因组测序30X深度下无法稳定检测的SNP位点及其对应的安全探针集B中的探针,过滤完成后获得SNP集合H和安全探针集C;S9,过滤掉SNP集合H中参考基因组坐标无法转换成hg38参考基因组坐标的SNP位点及其对应的安全探针集C中的探针,得到SNP集合I和安全探针集D;S10,将全基因组以N个碱基的长度为单位划分为多个区间,SNP集合I和安全探针集D依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点MAF值最接近0.5的SNP位点及其对应的安全探针,得到SNP集合J和安全探针集合E;S11,可选择地,依托S10的方法从SNP集合J和安全探针集合E中进一步挑选新的SNP集合及对应安全探针集合,成为较低密度梯度的新的SNP集合J和新的安全探针集合E;S12,计算SNP集合J中每一个SNP与在该SNP上下游1M bp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高 的SNP及对应探针,最终得到SNP集合K和安全探针集合F。
可以理解的是,S11作为可选步骤,在S10完成的情况下由本领域技术人员根据实际情况选择是否需要执行。
应用本发明的技术方案,可以得到针对指定人种的非外显子高密度SNP探针集合,其中的SNP位点在基因组上分布均匀,SNP基因型频率符合该指定人种应有的水平,经验证,该SNP探针集合应用于同源重组缺陷检测分析时交现有其他探针集合有明显的提升。
在本发明中,人类基因组数据库为1000Genomes人类基因组数据库,优选的,M=5,即包括五大人群的基因组数据,提高SNP探针集合的普遍适用性。
在本发明一种典型的实施方式中,S1中,等位基因频率均在一定范围内是指等位基因频率均在0.05~0.95,由此提高检测的有效性。S2中,涉及外显子的SNP为SNP上下游200bp范围内触及外显子区域;为了保证良好的捕获效果,优选的,S3中,GC含量在指定取值范围内是指GC含量在25%~75%。
在本发明一种典型的实施方式中,特别是当人群多于3个时,S4中,存在异常值的SNP判断方法为:利用该SNP在M个人群中的AF值,计算Q1-1.5IQR和Q3+1.5IQR,若M个人群中任意一人群AF值小于Q1-1.5IQR或大于Q3+1.5IQR,则判定为存在异常。
S5中指定人群的类型本领域技术人员在本发明思想的教导下,能够根据实际情况进行选择,但同时该步骤的筛选条件也应在本发明思想的教导下进行调整。根据本发明一种典型的实施方式,S5中过滤条件为单个SNP的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体SD的4倍。
在本发明一优选的实施方式中,S6中,捕获探针的设计方法为:以SNP为中心预设计90~160bp,优选120bp 探针,使用bowtie2和blast进行全基因组比验证;其中,bowtie2是以SNP为中心,上下移动60bp,一共三条探针,比对结果要求一条探针的hits等于1,另外两条探针的hits小于100;blast则以SNP为中心,要求比对结果的hits数目小于1000,两者阈值条件同时具备,保留该SNP位点及对应探针。通过此方法涉及的探针特异性及捕获均一性均较好。
在本发明中,常见SNP是指出现频率大于1%的SNP。在本发明一优选的实施例中S8中,能被稳定检测的SNP位点在WGS数据在GATK-3.8版本下计算的callable的bed区间之内;优选的,S9中,SNP位点使用crossmap-0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致;优选的,S10中,N取值应大于等于50k,优选为50k;S12中,连锁程度过高的SNP通过SNP连锁不平衡来判断,优选的,S12中,判断SNP连锁不平衡的条件为:Dab=f(AB)-f(A)*f(B);r2=(Dab)2/(f(A)*f(a)*f(B)*f(b)),其中,r2表示相关系数,Dab表示度量观察到的单倍型频率与平衡状态下期望频率的偏差,F(A)、f(B)、f(a)、f(b)表示等位基因基因型频率,f(AB)表示AB单倍型频率;r2的阈值为0.2,r2高于该值,则被过滤。
根据本发明一种典型的实施方式,提供一种构建多人群非外显子区SNP探针集合的装置。该装置包括:等位基因频率信息过滤单元,设置为对人类基因组数据库中收纳的SNP位点的等位基因频率信息进行过滤,保留M个人群中等位基因频率均在一定范围内的SNP位点,形成SNP集合A,M≥1;外显子排除单元,设置为对SNP集合A中的SNP进行位置过滤,排除涉及外显子的SNP,形成SNP集合B;GC含量过滤单元,设置为对SNP集合B中的SNP,对以SNP位点为中心的120bp范围内的序列的GC含量进行过滤,保留GC含量在指定取值范围内的SNP,形成SNP集合C;变异频率偏离过滤单元,设置为SNP集合C中SNP在M个人群中变异频率偏离的情况进行SNP过滤,过滤存在异常值的SNP,形成SNP集合D;最小等位基因频率过滤单元,设置为利用指定人群的最小等位基因频率值对SNP集合D中的SNP位点进行过滤,形成SNP集合E;探针设计单元,设置为SNP集合E中的SNP位点进行捕获探针设计,获得SNP集合F与安全探针集A;探针过滤单元A,设置为利用常见SNP的参考文件对安全探针集A进行过滤,若一条探针区间内包含3个或以上的常见SNP,则舍去该探针及对应SNP位点,过滤完成后获得SNP集合G和安全探针集B;探针过滤单元B,设置为SNP集合G中SNP位点进行过滤,除去在WGS全基因组测序30X深度下无法稳定检测的SNP位点及其对应的安全探针集B中的探针,过滤完成后获得SNP集合H和安全探针集C;参考基因组转化及过滤单元,设置为过滤掉SNP集合H中参考基因组坐标无法转换成hg38参考基因组坐标的SNP位点及其对应的安全探针集C中的探针,得到SNP集合I和安全探针集D;SNP优选单元,设置为将全基因组以N个碱基的长度为单位划分为多个区间,SNP集合I和安全探针集D依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点MAF值最接近0.5的SNP位点及其对应的安全探针,得到SNP集合J和安全探针集合E;并且可以通过修改本单元参数,从SNP集合J和安全探针集合E中得到较低密度的新的SNP集合J和新的安全探针集合E;连锁不平衡计算及过滤单元,设置为SNP集合J中每一个SNP与在该SNP上下游1M bp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高的SNP及对应探针,最终得到SNP集合K和安全探针集合F。
下面将结合实施例进一步说明本发明的有益效果。
实施例
对此高密度SNP捕获探针设计包含以下步骤:
S1,对1000Genomes数据库中收纳的SNP位点的等位基因频率信息进行过滤,保留数据库内五大人群中等位基因频率均0.05~0.95内的SNP位点,形成SNP集合A;
S2,针对SNP集合A中的SNP进行位置过滤,排除SNP上下游200bp范围涉及外显子的SNP,形成SNP集合B;
S3,针对SNP集合B中的SNP,对以SNP位点为中心的120bp范围内的序列的GC含量进行过滤,保留GC含量在25%~75%内的SNP,形成SNP集合C;
S4,针对SNP集合C中SNP在五大人群中变异频率偏离的情况进行SNP过滤,过滤五大人群中任意一人群AF值不在Q1-1.5IQR~Q3+1.5IQR区间内的SNP,形成SNP集合D;
S5,保留SNP集合D中指定人群的最小等位基因频率值在0.2~0.5内的SNP,并去除单个SNP的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体SD的4倍的位点,形成SNP集合E;
S6,针对SNP集合E中的SNP位点进行捕获探针设计,以SNP为中心预设计120bp探针,使用bowtie2和blast进行全基因组比验证。其中bowtie2是以SNP为中心,上下移动60bp,一共三条探针,比对结果要求一条hits等于1,另外两条hits小于100;blast则以SNP为中心,要求比对结果的hits数目小于1000。两者阈值条件同时具备,保留该SNP位点及对应探针,形成安全探针集合A;
S7,将dbSNP数据库的common vcf文件设常见SNP参考文件对安全探针集A进行过滤,若一条探针区间内包含3个或以上的该参考文件中的位点,则舍去该探针及对应SNP位点。过滤完成后获得SNP集合G和安全探针集B;
S8,对SNP集合G中SNP位点进行过滤,除去不在WGS全基因组测序30X深度下用GATK-3.8版本计算的callable的bed区间内的SNP位点及其对应的安全探针集B中的探针。过滤完成后获得SNP集合H和安全探针集C;
S9,过滤掉SNP集合H中用crossmap-0.3.9软件不能转换为hg38坐标,或坐标位置与hg38的avsnp147数据库中的坐标不一致的SNP位点及其对应的安全探针集C中的探针,得到SNP集合I和安全探针集D;
S10,将全基因组以50k个碱基的长度为单位划分为多个区间,SNP集合I和安全探针集D依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点MAF值最接近0.5的SNP位点及其对应的安全探针,得到SNP集合J和安全探针集合E;
S11,可选择地,依托S10的方法在SNP集合J和安全探针集合E中以300k为区间,挑选均匀分布的SNP稳点,成为较低密度梯度的新的SNP集合J和新的安全探针集合E;
S12,以Dab=f(AB)-f(A)*f(B);r2=(Dab)2/(f(A)*f(a)*f(B)*f(b))方法计算SNP集合J中每一个SNP与在该SNP上下游1M bp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高的SNP及对应探针,最终得到SNP集合K和安全探针集合F。
依据上述步骤,最终SNP集合K中包含约52k个SNP位点及对应探针;若选择由S11步骤产生的新的SNP集合J和新的安全探针集合E进行此步骤,则最终得到约9k个SNP位点及对应探针。以上两种探针集合在实际应用中均能用于同源重组缺失评分及SNP骨架的构建。例如,采用SNP集合K对应的安全探针集合E对标准品进行检测,由于该探针集合具有目标位点密度大且分布均匀、目标位点突变频率贴合特定人群的特点,可更好地完成同源重组缺失评分及SNP骨架的构建。经分析发现可达到与 WGS 相一致的 HRD 分析结果,并比WES 更优。
实施例
一种构建不同人群非外显子区高密度SNP探针集合的装置,用于执行实施例1中的方法。该装置包括:等位基因频率信息过滤单元,设置为对1000Genomes数据库中收纳的SNP位点的等位基因频率信息进行过滤,保留数据库内五大人群中等位基因频率均在一定范围内的SNP位点,形成SNP集合A。外显子排除单元,设置为对SNP集合A中的SNP位置进行过滤,排除可能涉及外显子的SNP,形成SNP集合B。GC含量过滤单元,设置为对SNP集合B中的SNP,对以SNP位点为中心的120bp范围内的序列的GC含量进行过滤,保留GC含量在指定取值范围内的SNP,形成SNP集合C。变异频率偏离过滤单元,设置为对SNP集合C中SNP在五大人群中变异频率偏离的情况进行SNP过滤,过滤存在异常值的SNP,形成SNP集合D。最小等位基因频率过滤单元,设置为利用指定人群的最小等位基因频率值对SNP集合D中的SNP位点进行过滤,形成SNP集合E。探针设计单元,设置为对SNP集合E中的SNP位点进行捕获探针设计单元,获得SNP集合F与安全探针集A;探针过滤单元A,设置为利用常见SNP参考文件安全探针集A进行过滤,若一条探针区间内包含3个或以上的常见SNP参考文件的SNP位点,则舍去该探针及对应SNP位点。过滤完成后获得SNP集合G和安全探针集B。探针过滤单元B,设置为对SNP集合G中SNP位点进行过滤单元,除去在WGS全基因组测序30X深度下无法稳定检测的SNP位点及其对应的安全探针集B中的探针。过滤完成后获得SNP集合H和安全探针集C。参考基因组转化及过滤单元,设置为过滤掉SNP集合H中参考基因组坐标无法转换成hg38参考基因组坐标的SNP位点及其对应的安全探针集C中的探针,得到SNP集合I和安全探针集D。SNP优选单元,设置为将全基因组以N个碱基的长度为单位划分为多个区间,SNP集合I和安全探针集D依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点MAF值最接近0.5的SNP位点及其对应的安全探针,得到SNP集合J和安全探针集合E,并且可以通过修改本单元参数,从SNP集合J和安全探针集合E中得到较低密度的新的SNP集合J和新的安全探针集合E;连锁不平衡计算及过滤单元,设置为计算SNP集合J中每一个SNP与在该SNP上下游1M bp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高的SNP及对应探针,最终得到SNP集合K和安全探针集合F。
进一步地,等位基因频率信息过滤单元中,一定等位基因频率范围为0.05~0.95。
进一步地,外显子排除单元中,排除涉及外显子的方法为,该SNP上下游200bp范围内不触及外显子区域。
进一步地,GC含量过滤单元中,GC含量的指定取值范围是25%~75% 。
进一步地,变异频率偏离过滤单元中,变异频率偏离的异常值的判断方法为:利用该SNP在五大人群中的AF值,计算Q1-1.5IQR和Q3+1.5IQR,若五大人群中任意一AF值小于Q1-1.5IQR或大于Q3+1.5IQR,则存在异常。
进一步地,探针设计单元中安全探针的设计方法为:以SNP为中心预设计120bp探针,使用bowtie2和blast进行全基因组比验证。其中bowtie2是以SNP为中心,上下移动60bp,一共三条探针,比对结果要求一条hits等于1,另外两条hits小于100;blast则以SNP为中心,要求比对结果的hits数目小于1000。两者阈值条件同时具备,才可以保留该SNP位点及对应探针。
进一步地,探针过滤单元A中的常见SNP的参考文件设置为dbSNP数据库的commonvcf文件。
进一步地,探针过滤单元B中要求能被稳定检测的SNP位点在WGS数据在GATK-3.8版本下计算的callable的bed区间之内。
进一步地,参考基因组转化及过滤单元中要求SNP位点可以使用crossmap-0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致。
进一步地,SNP优选单元A中,N取值应大于等于50k,优选50k。
进一步地,SNP优选单元B中,M取值应大于等于N。
进一步地,连锁不平衡计算及过滤单元中,判断SNP连锁不平衡的条件为:Dab=f(AB)-f(A)*f(B);r2=(Dab)2/(f(A)*f(a)*f(B)*f(b));r2的阈值为0.2,r2高于该值,则被过滤。
上述实施例1的方法可以通过实施例2中的装置执行。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:成功构建了不同人群非外显子区高密度SNP探针集合,该集合可以应用于同源重组缺失评分及SNP骨架的构建。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (32)

1.一种构建多人群非外显子区SNP探针集合的方法,其特征在于,包括以下步骤:
S1,对人类基因组数据库中收纳的SNP位点的等位基因频率信息进行过滤,保留M个人群中等位基因频率均在一定范围内的SNP位点,形成SNP集合A,所述M≥1;
S2,针对所述SNP集合A中的SNP进行位置过滤,排除涉及外显子的SNP,形成SNP集合B;
S3,针对所述SNP集合B中的SNP,对以SNP位点为中心的120bp范围内的序列的GC含量进行过滤,保留GC含量在指定取值范围内的SNP,形成SNP集合C;
S4,针对所述SNP集合C中SNP在所述M个人群中变异频率偏离的情况进行SNP过滤,过滤存在异常值的SNP,形成SNP集合D;
S5,利用指定人群的最小等位基因频率值对所述SNP集合D中的SNP位点进行过滤,形成SNP集合E;
S6,针对所述SNP集合E中的SNP位点进行捕获探针设计,获得SNP集合F与安全探针集A;
S7,利用常见SNP的参考文件对所述安全探针集A进行过滤,若一条探针区间内包含3个或以上的常见SNP,则舍去该探针及对应SNP位点,过滤完成后获得SNP集合G和安全探针集B;
S8,对所述SNP集合G中SNP位点进行过滤,除去在WGS全基因组测序30X深度下无法稳定检测的SNP位点及其对应的所述安全探针集B中的探针,过滤完成后获得SNP集合H和安全探针集C;
S9,过滤掉所述SNP集合H中参考基因组坐标无法转换成hg38参考基因组坐标的SNP位点及其对应的安全探针集C中的探针,得到SNP集合I和安全探针集D;
S10,将全基因组以N个碱基的长度为单位划分为多个区间,所述SNP集合I和所述安全探针集D依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点MAF值最接近0.5的SNP位点及其对应的安全探针,得到SNP集合J和安全探针集合E;
S12,计算S10中得到的所述SNP集合J中每一个SNP与在该SNP上下游1M bp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高的SNP及对应探针,最终得到SNP集合K和安全探针集合F。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括S11,依托S10的方法从所述SNP集合J和所述安全探针集合E中进一步挑选新的SNP集合及对应安全探针集合,成为较低密度梯度的新的SNP集合J和新的安全探针集合E;
当所述方法包括S11时,S12为计算S11中得到的所述SNP集合J中每一个SNP与在该SNP上下游1M bp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高的SNP及对应探针,最终得到SNP集合K和安全探针集合F。
3.根据权利要求1所述的方法,其特征在于,所述人类基因组数据库为1000Genomes人类基因组数据库。
4.根据权利要求3所述的方法,其特征在于, M=5。
5.根据权利要求1所述的方法,其特征在于,所述S1中,所述等位基因频率均在一定范围内是指所述等位基因频率均在0.05~0.95。
6.根据权利要求1所述的方法,其特征在于,所述S2中,所述涉及外显子的SNP为SNP上下游200bp范围内触及外显子区域。
7.根据权利要求1所述的方法,其特征在于,所述S3中,所述GC含量在指定取值范围内是指GC含量在25%~75%。
8.根据权利要求1所述的方法,其特征在于,所述S4中,存在异常值的SNP判断方法为:利用该SNP在M个人群中的AF值,计算Q1-1.5IQR和Q3+1.5IQR,若M个人群中任意一人群AF值小于Q1-1.5IQR或大于Q3+1.5IQR,则判定为存在异常。
9.根据权利要求1所述的方法,其特征在于,所述S5中过滤条件为单个SNP的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体SD的4倍。
10.根据权利要求1所述的方法,其特征在于,所述S6中,所述捕获探针的设计方法为:以SNP为中心预设计90~160bp探针,使用bowtie2和blast进行全基因组比验证;其中,bowtie2是以SNP为中心,上下移动60bp,一共三条探针,比对结果要求一条探针的hits等于1,另外两条探针的hits小于100;blast则以SNP为中心,要求比对结果的hits数目小于1000,两者阈值条件同时具备,保留该SNP位点及对应探针。
11.根据权利要求10所述的方法,其特征在于,所述S6中,以SNP为中心预设计120bp探针。
12.根据权利要求1所述的方法,其特征在于,所述S8中,能被稳定检测的SNP位点在WGS数据在GATK-3.8版本下计算的callable的bed区间之内。
13.根据权利要求1所述的方法,其特征在于,所述S9中,SNP位点使用crossmap-0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致。
14.根据权利要求1所述的方法,其特征在于,所述S10中,N取值应大于等于50k。
15.根据权利要求14所述的方法,其特征在于,所述S10中,N取值为50k。
16.根据权利要求1所述的方法,其特征在于,所述S12中,判断SNP连锁不平衡的条件为:Dab=f(AB)-f(A)*f(B);r2=(Dab)2/(f(A)*f(a)*f(B)*f(b)),其中,r2表示相关系数,Dab表示度量观察到的单倍型频率与平衡状态下期望频率的偏差,f(A)、f(B)、f(a)、f(b)表示等位基因基因型频率,f(AB)表示AB单倍型频率;r2的阈值为0.2,r2高于该值,则被过滤。
17.一种构建多人群非外显子区SNP探针集合的装置,其特征在于,包括:
等位基因频率信息过滤单元,设置为对人类基因组数据库中收纳的SNP位点的等位基因频率信息进行过滤,保留M个人群中等位基因频率均在一定范围内的SNP位点,形成SNP集合A,所述M≥1;
外显子排除单元,设置为对所述SNP集合A中的SNP进行位置过滤,排除涉及外显子的SNP,形成SNP集合B;
GC含量过滤单元,设置为对所述SNP集合B中的SNP,对以SNP位点为中心的120bp范围内的序列的GC含量进行过滤,保留GC含量在指定取值范围内的SNP,形成SNP集合C;
变异频率偏离过滤单元,设置为所述SNP集合C中SNP在所述M个人群中变异频率偏离的情况进行SNP过滤,过滤存在异常值的SNP,形成SNP集合D;
最小等位基因频率过滤单元,设置为利用指定人群的最小等位基因频率值对所述SNP集合D中的SNP位点进行过滤,形成SNP集合E;
探针设计单元,设置为所述SNP集合E中的SNP位点进行捕获探针设计,获得SNP集合F与安全探针集A;
探针过滤单元A,设置为利用常见SNP的参考文件对所述安全探针集A进行过滤,若一条探针区间内包含3个或以上的常见SNP,则舍去该探针及对应SNP位点,过滤完成后获得SNP集合G和安全探针集B;
探针过滤单元B,设置为所述SNP集合G中SNP位点进行过滤,除去在WGS全基因组测序30X深度下无法稳定检测的SNP位点及其对应的所述安全探针集B中的探针,过滤完成后获得SNP集合H和安全探针集C;
参考基因组转化及过滤单元,设置为过滤掉所述SNP集合H中参考基因组坐标无法转换成hg38参考基因组坐标的SNP位点及其对应的安全探针集C中的探针,得到SNP集合I和安全探针集D;
SNP优选单元,设置为将全基因组以N个碱基的长度为单位划分为多个区间,所述SNP集合I和所述安全探针集D依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点MAF值最接近0.5的SNP位点及其对应的安全探针,得到SNP集合J和安全探针集合E;
连锁不平衡计算及过滤单元,设置为所述SNP集合J中每一个SNP与在该SNP上下游1Mbp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高的SNP及对应探针,最终得到SNP集合K和安全探针集合F。
18.根据权利要求17所述的装置,其特征在于,所述SNP优选单元还包括通过修改本单元参数,从所述SNP集合J和所述安全探针集合E中得到较低密度的新的SNP集合J和新的安全探针集合E;
连锁不平衡计算及过滤单元,设置为较低密度的新的SNP集合J中每一个SNP与在该SNP上下游1M bp范围内其他SNP之间的连锁不平衡的关系,过滤掉连锁程度过高的SNP及对应探针,最终得到SNP集合K和安全探针集合F。
19.根据权利要求17所述的装置,其特征在于,所述人类基因组数据库为1000Genomes人类基因组数据库。
20.根据权利要求17所述的装置,其特征在于, M=5。
21.根据权利要求17所述的装置,其特征在于,所述等位基因频率信息过滤单元中,所述等位基因频率均在一定范围内是指所述等位基因频率均在0.05~0.95。
22.根据权利要求17所述的装置,其特征在于,所述外显子排除单元中,所述涉及外显子的SNP为SNP上下游200bp范围内触及外显子区域。
23.根据权利要求17所述的装置,其特征在于,所述GC含量过滤单元中,所述GC含量在指定取值范围内是指GC含量在25%~75%。
24.根据权利要求17所述的装置,其特征在于,所述变异频率偏离过滤单元中,存在异常值的SNP判断方法为:利用该SNP在M个人群中的AF值,计算Q1-1.5IQR和Q3+1.5IQR,若M个人群中任意一人群AF值小于Q1-1.5IQR或大于Q3+1.5IQR,则判定为存在异常。
25.根据权利要求17所述的装置,其特征在于,所述最小等位基因频率过滤单元中过滤条件为单个SNP的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体SD的4倍。
26.根据权利要求17所述的装置,其特征在于,所述探针设计单元中,所述捕获探针的设计方法为:以SNP为中心预设计90~160bp探针,使用bowtie2和blast进行全基因组比验证;其中,bowtie2是以SNP为中心,上下移动60bp,一共三条探针,比对结果要求一条探针的hits等于1,另外两条探针的hits小于100;blast则以SNP为中心,要求比对结果的hits数目小于1000,两者阈值条件同时具备,保留该SNP位点及对应探针。
27.根据权利要求26所述的装置,其特征在于,所述探针设计单元中,以SNP为中心预设计120bp探针。
28.根据权利要求17所述的装置,其特征在于,所述探针过滤单元B中,能被稳定检测的SNP位点在WGS数据在GATK-3.8版本下计算的callable的bed区间之内。
29.根据权利要求17所述的装置,其特征在于,所述参考基因组转化及过滤单元中,SNP位点使用crossmap-0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致。
30.根据权利要求17所述的装置,其特征在于,所述SNP优选单元中,N取值应大于等于50k。
31.根据权利要求30所述的装置,其特征在于,所述SNP优选单元中,N取值为50k。
32.根据权利要求17所述的装置,其特征在于,所述连锁不平衡计算及过滤单元中,判断SNP连锁不平衡的条件为:Dab=f(AB)-f(A)*f(B);r2=(Dab)2/(f(A)*f(a)*f(B)*f(b)),其中,r2表示相关系数,Dab表示度量观察到的单倍型频率与平衡状态下期望频率的偏差,f(A)、f(B)、f(a)、f(b)表示等位基因基因型频率,f(AB)表示AB单倍型频率;r2的阈值为0.2,r2高于该值,则被过滤。
CN202210278698.8A 2022-03-21 2022-03-21 构建多人群非外显子区snp探针集合的方法及装置 Active CN114678067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210278698.8A CN114678067B (zh) 2022-03-21 2022-03-21 构建多人群非外显子区snp探针集合的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210278698.8A CN114678067B (zh) 2022-03-21 2022-03-21 构建多人群非外显子区snp探针集合的方法及装置

Publications (2)

Publication Number Publication Date
CN114678067A CN114678067A (zh) 2022-06-28
CN114678067B true CN114678067B (zh) 2023-03-14

Family

ID=82073685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210278698.8A Active CN114678067B (zh) 2022-03-21 2022-03-21 构建多人群非外显子区snp探针集合的方法及装置

Country Status (1)

Country Link
CN (1) CN114678067B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116230086B (zh) * 2022-12-26 2023-11-10 纳昂达(南京)生物科技有限公司 一种通过修改模体提升探针安全性的方法及装置
CN115985399B (zh) * 2023-03-20 2023-07-04 广州迈景基因医学科技有限公司 用于高通量测序的HRD panel位点选择优化方法及系统
CN117497056B (zh) * 2024-01-03 2024-04-23 广州迈景基因医学科技有限公司 一种无对照hrd检测方法、系统及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106715711A (zh) * 2014-07-04 2017-05-24 深圳华大基因股份有限公司 确定探针序列的方法和基因组结构变异的检测方法
CN108913776A (zh) * 2018-08-14 2018-11-30 安徽未名天佳基因科技有限公司 放化疗损伤相关的dna分子标记的筛选方法和试剂盒
CN111321140A (zh) * 2020-03-03 2020-06-23 苏州吉因加生物医学工程有限公司 一种基于单样本的肿瘤突变负荷检测方法和装置
CN112226495A (zh) * 2020-12-18 2021-01-15 北京迈基诺基因科技股份有限公司 一种dna同源重组异常的检测方法及其应用
CN112466395A (zh) * 2020-10-30 2021-03-09 苏州赛美科基因科技有限公司 基于snp多态性位点的样本识别标签筛选方法与样本识别检测方法
CN112662767A (zh) * 2020-11-25 2021-04-16 深圳华大基因股份有限公司 用于衡量基因组不稳定性的试剂盒、探针及其应用
CN113462784A (zh) * 2021-08-31 2021-10-01 迈杰转化医学研究(苏州)有限公司 一种构建用于同源重组修复缺陷检测的靶标集合的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106715711A (zh) * 2014-07-04 2017-05-24 深圳华大基因股份有限公司 确定探针序列的方法和基因组结构变异的检测方法
CN108913776A (zh) * 2018-08-14 2018-11-30 安徽未名天佳基因科技有限公司 放化疗损伤相关的dna分子标记的筛选方法和试剂盒
CN111321140A (zh) * 2020-03-03 2020-06-23 苏州吉因加生物医学工程有限公司 一种基于单样本的肿瘤突变负荷检测方法和装置
CN112466395A (zh) * 2020-10-30 2021-03-09 苏州赛美科基因科技有限公司 基于snp多态性位点的样本识别标签筛选方法与样本识别检测方法
CN112662767A (zh) * 2020-11-25 2021-04-16 深圳华大基因股份有限公司 用于衡量基因组不稳定性的试剂盒、探针及其应用
CN112226495A (zh) * 2020-12-18 2021-01-15 北京迈基诺基因科技股份有限公司 一种dna同源重组异常的检测方法及其应用
CN113462784A (zh) * 2021-08-31 2021-10-01 迈杰转化医学研究(苏州)有限公司 一种构建用于同源重组修复缺陷检测的靶标集合的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Special features of RAD sequencing data:Implication for genotyping;Davey J.W等;《Molecular ecology》;20200923(第11期);第3151-3164页 *
利用2b-RAD技术检测基因组区段缺失变异的应用潜力评价;程陶然等;《中国海洋大学学报》;20180930;第48卷(第9期);第62-66页 *
基于LCR及PCR技术构建高效纳米SNP探针;刘蕊等;《广东化工》;20211231;第48卷(第16期);第23-25页 *

Also Published As

Publication number Publication date
CN114678067A (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN114678067B (zh) 构建多人群非外显子区snp探针集合的方法及装置
KR102040307B1 (ko) 암과 연관된 유전적 또는 분자적 이상들의 검출
Aune et al. Expression of long non-coding RNAs in autoimmunity and linkage to enhancer function and autoimmune disease risk genetic variants
US20220199196A1 (en) Comprehensive detection of single cell genetic structural variations
WO2022095280A1 (zh) 同源重组缺失的标志物、检测方法以及检测系统
CN108804876B (zh) 用于计算癌症样本纯度和染色体倍性的方法和装置
Kumar et al. Massive interstitial copy-neutral loss-of-heterozygosity as evidence for cancer being a disease of the DNA-damage response
CN114694750A (zh) 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法
CN112442540B (zh) 微卫星不稳定性检测方法、标志物组合、试剂盒及应用
Joung et al. Nonlinear tumor evolution from dysplastic nodules to hepatocellular carcinoma
Villegas-Mirón et al. Signatures of genetic variation in human microRNAs point to processes of positive selection and population-specific disease risks
CN114242170B (zh) 一种同源重组修复缺陷的评估方法、装置和存储介质
CA3147427C (en) Marker for homologous recombination deficiency, method and system for detection thereof
Shih et al. Selective and mechanistic pressures shaping cancer aneuploidies
Culibrk Copy number variation in metastatic cancer: methods and analysis of somatic copy number variation in advanced human cancers
Zhao et al. High-resolution detection of copy number alterations in single cells with HiScanner
Liu et al. Chromatin accessibility shapes meiotic recombination in mouse primordial germ cells through assisting double-strand breaks and loop formation
Dorman Interpretation of Mutations, Expression, Copy Number in Somatic Breast Cancer: Implications for Metastasis and Chemotherapy
Tang Estimation of genomic copy frequency with correlated observations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant