CN117497056B - 一种无对照hrd检测方法、系统及装置 - Google Patents
一种无对照hrd检测方法、系统及装置 Download PDFInfo
- Publication number
- CN117497056B CN117497056B CN202410004007.4A CN202410004007A CN117497056B CN 117497056 B CN117497056 B CN 117497056B CN 202410004007 A CN202410004007 A CN 202410004007A CN 117497056 B CN117497056 B CN 117497056B
- Authority
- CN
- China
- Prior art keywords
- segment
- site
- average
- heterozygous
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 230000008859 change Effects 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 38
- 108700028369 Alleles Proteins 0.000 claims abstract description 34
- 239000013642 negative control Substances 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 230000010354 integration Effects 0.000 claims abstract description 4
- 210000000349 chromosome Anatomy 0.000 claims description 35
- 210000004881 tumor cell Anatomy 0.000 claims description 34
- 238000004088 simulation Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims 1
- 239000000523 sample Substances 0.000 description 56
- 230000034431 double-strand break repair via homologous recombination Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 239000013068 control sample Substances 0.000 description 4
- 238000007481 next generation sequencing Methods 0.000 description 4
- 210000003411 telomere Anatomy 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000002759 chromosomal effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 108091035539 telomere Proteins 0.000 description 3
- 102000055501 telomere Human genes 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 210000002230 centromere Anatomy 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 101001024425 Mus musculus Ig gamma-2A chain C region secreted form Proteins 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 230000006801 homologous recombination Effects 0.000 description 1
- 238000002744 homologous recombination Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种无对照HRD检测方法、系统及装置,该方法包括:选择杂合位点区段;统计各位点在初始样本中的深度分布并确定中位深度;构建阴性对照基线;计算待测样本在所述杂合位点区段的平均深度变化率;转化为变异等位基因拷贝数和区段总拷贝数;计算LOH值、TAI值和LST值;确定HRD检测结果。该系统包括:区段选择模块、深度统计模块、基线拟合模块、第一计算模块、数据转化模块、特征计算模块和整合模块。该装置包括存储器以及用于执行上述无对照HRD检测方法的处理器。通过使用本发明,无需对照样本数据即可完成HRD检测,成本低且检测方便。本发明可广泛应用于生物信息学领域。
Description
技术领域
本发明涉及生物信息学领域,尤其涉及一种无对照HRD检测方法、系统及装置。
背景技术
同源重组修复缺陷(homologous recombination deficiency,HRD),通常指细胞水平上的同源重组修复(homologous recombination repair,HRR)功能障碍状态,可由HRR相关基因胚系突变或体细胞突变以及表观遗传失活等诸多因素导致,常存在于多种恶性肿瘤中,其中在卵巢癌、乳腺癌、胰腺导管癌、前列腺癌等肿瘤中尤其突出。
目前,常规的HRD检测基本都需要对照样本来进行,来确定相应杂合位点与区域原本的遗传信息是什么样的,是否原本就是纯合或未发生杂合的,来确定患者是否在肿瘤发生过程中出现了杂合性缺失(loss of heterozygosity,LOH),端粒等位基因不平衡(telomeric allelic imbalance,TAI),大片段迁移(large-scale state transition,LST)的变化。但很多时候,是比较难以获得对照样本的,另外,同时检测对照样本会导致检测费用与成本偏高。
发明内容
有鉴于此,为了解决现有HRD检测方法中需要同时检测对照样本,进而导致成本高以及检测时间长的技术问题,本发明提出一种无对照HRD检测方法,所述方法包括以下步骤:
选择杂合位点区段;
以所述杂合位点区段为基础,统计各位点在初始样本中的深度分布并确定中位深度;
根据所述中位深度、位点在染色体上的坐标与参考碱基类型,构建阴性对照基线;
结合所述阴性对照基线,计算待测样本在所述杂合位点区段的平均深度变化率;
将所述杂合位点区段的平均频率与平均深度变化率转化为变异等位基因拷贝数和区段总拷贝数;
根据所述变异等位基因拷贝数和所述区段总拷贝数,计算LOH值、TAI值和LST值;
根据所述LOH值、所述TAI值和所述LST值,确定HRD检测结果。
可选的,所述选择杂合位点区段这一步骤,其具体包括:
获取频率在预设范围的高杂合SNP位点;
以所述高杂合SNP位点为基础,延伸预设长度并计算区段GC含量;
基于所述区段GC含量进行筛选,得到初始杂合区段;
考虑染色体拷贝数变异的影响,对所述初始杂合区段进行筛选,得到杂合位点区段。
通过该优选步骤,考虑染色体拷贝数变异的影响,过滤非染色体端粒区、非染色体着丝粒区非基因组重复区位点区段和非健康人群高频拷贝数变异区位点区段,以此得到高杂合高质量位点区段。
在一些实施例中,还包括:
基于预设的平均深度对所述杂合位点区段进行筛选。
通过该优选步骤,进一步优化高质量位点区段。
在一些实施例中,所述将所述杂合位点区段的平均频率与平均深度变化率转化为变异等位基因拷贝数和区段总拷贝数这一步骤,其具体包括:
将待测样本与参考基因组进行比对、去重和过滤,并结合预设规则生成所述杂合位点区段的平均频率;
获取所述杂合位点区段的平均深度与平均GC含量,并计算所述杂合位点区段的矫正后的平均深度;
从所述阴性对照基线中获取对应位点区段的对照平均深度,并与所述平均深度相比,得到对应位点区段的平均深度变化率;
根据所述平均频率和所述平均深度变化率,转化得到变异等位基因拷贝数和区段总拷贝数。
通过该优选步骤,将杂合位点区段频率与平均深度变化率转化为相应的变异等位基因拷贝数(B allele copy number,BCN)和区段总拷贝数(Total copy number,TCN)。
在一些实施例中,所述根据所述变异等位基因拷贝数和所述区段总拷贝数,计算LOH值、TAI值和LST值这一步骤,其具体包括:
基于所述杂合位点区段,根据染色体号和染色体上的位置进行排序;
在每条染色体上,通过所述区段总拷贝数进行组装,得到大片段集;
基于所述变异等位基因拷贝数对所述大片段集进行重新组合,得到新区段集;
根据所述新区段集的平均变异等位基因拷贝数和平均区段总拷贝数,计算所述新区段集的LOH值、TAI值和LST值。
通过该优选步骤,使用BCN、TCN组装模型进行HRD特征LOH,TAI,LST计算。
在一些实施例中,所述以所述杂合位点区段为基础,统计各位点在初始样本中的深度分布并确定中位深度这一步骤,其具体包括:
对初始样本进行GC偏好矫正,得到矫正深度后的样本;
统计所述杂合位点区段在所述矫正深度后的样本中的深度大小分布,并选择中位数作为对应位点的代表深度,得到中位深度。
通过该优选步骤,矫正深度以得到更加准确的深度大小分布。
在一些实施例中,还包括测试步骤,具体为:
模拟不同肿瘤细胞比例下HRD阳性数据与HRD阴性数据的放大样本数据集;
基于所述放大样本数据集进行检测验证。
在一些实施例中,所述模拟不同肿瘤细胞比例下HRD阳性数据与HRD阴性数据的放大样本数据集这一步骤,其具体包括:
计算测试样本的肿瘤细胞比例,模拟生成不同肿瘤细胞比例下的位点区段平均频率与平均深度变化率数据;
在每一种比例中,基于模拟肿瘤细胞比例与预测肿瘤细胞比例进行模拟生成,得到模拟数据;
基于所述模拟数据,统计位点区段所有位点的频率并设定位点区段平均频率,得到模拟平均频率;
基于所述模拟平均频率,结合测试样本的平均深度变化率,生成对应的放大样本数据。
通过该优选步骤,对HRD不同肿瘤细胞比例进行放大,并结合对代表性的高杂合区段的位点区段频率计算方法,阴性对照区段获得深度变化率方法,创造了一种新的样本的模拟放大方法。
本发明还提出了一种无对照HRD检测系统,所述系统包括:
区段选择模块,用于选择杂合位点区段;
深度统计模块,用于以所述杂合位点区段为基础,统计各位点在初始样本中的深度分布并确定中位深度;
基线拟合模块,用于根据所述中位深度、位点在染色体上的坐标与参考碱基类型,构建阴性对照基线;
第一计算模块,用于结合所述阴性对照基线,计算待测样本在所述杂合位点区段的平均深度变化率;
数据转化模块,用于将所述杂合位点区段的平均频率与平均深度变化率转化为变异等位基因拷贝数和区段总拷贝数;
特征计算模块,用于根据所述变异等位基因拷贝数和所述区段总拷贝数,计算LOH值、TAI值和LST值;
整合模块,用于根据所述LOH值、所述TAI值和所述LST值,确定HRD检测结果。
本发明还提出了一种无对照HRD检测装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种无对照HRD检测方法。
基于上述方案,本发明提供了一种无对照HRD检测方法、系统及装置,不需要对照样本进行HRD检测的算法流程,利用HRD样本本身在杂合位点,拷贝数变化上区别于健康人与HRD阴性样本的特征变化,计算样本在各杂合区段上的等位基因拷贝数变化,重新计算其LOH,TAI,LST数目,识别出HRD阳性与阴性样本;进一步,鉴于HRD样本的珍惜和稀少,使用肿瘤细胞比例对HRD样本数据进行模拟放大,扩展放大了进行训练与测试的数据样本量,提高模型构建的鲁棒性与泛用性。
附图说明
图1是本发明一种无对照HRD检测方法的步骤流程图;
图2是本发明一种无对照HRD检测系统的结构框图。
具体实施方式
本发明方法采用精心挑选的高杂合区段的位点区段频率(AF)与深度变化率(DPR)转化为拷贝数(Copy Number,CN)变化和组装方法,计算识别样本本身的LOH、TAI、LST状态,发现HRD阳性样本中与阴性样本中不一样的等位基因拷贝数变化,识别出HRD阳性与阴性样本。检测更方便,无需检测对照血液样本数据,成本更低。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
应当理解,本申请中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换该词语。
除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
在本申请实施例的描述中,“多个”是指两个或多于两个。以下术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
另外,本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
参照图1,为本发明提出的无对照HRD检测方法的一可选示例的流程示意图,该方法可以适用于计算机设备,本实施例提出的该成像方法可以包括但并不局限于以下步骤:
步骤S1、选择杂合位点区段;
步骤S2、以所述杂合位点区段为基础,统计各位点在初始样本中的深度分布并确定中位深度;
步骤S3、根据所述中位深度、位点在染色体上的坐标与参考碱基类型,构建阴性对照基线;
步骤S4、结合所述阴性对照基线,计算待测样本在所述杂合位点区段的平均深度变化率;
步骤S5、将所述杂合位点区段的平均频率与平均深度变化率转化为变异等位基因拷贝数和区段总拷贝数;
步骤S6、根据所述变异等位基因拷贝数和所述区段总拷贝数,计算LOH值、TAI值和LST值;
步骤S7、根据所述LOH值、所述TAI值和所述LST值,确定HRD检测结果。
其中,初始样本为正常人样本,待测样本包括带检测的样本,或用于验证本方法效果的具有真实标签的样本。
在一些可行的实施例中,所述步骤S1,其具体包括:
S1.1、获取频率在预设范围的高杂合SNP位点;
S1.2、以所述高杂合SNP位点为基础,延伸预设长度并计算区段GC含量;
S1.3、基于所述区段GC含量进行筛选,得到初始杂合区段;
S1.4、考虑染色体拷贝数变异的影响,对所述初始杂合区段进行筛选,得到杂合位点区段;
S1.5、基于预设的平均深度对所述杂合位点区段进行筛选。
该实施例中,从全基因组SNP位点频率数据库中优先挑选频率在0.4-0.6的人群高杂合SNP位点,前后各延伸75bp为数据分析的杂合区段,杂合区段长度为151bp,区段GC挑选稳定在45%-55%间的,过滤染色体端粒区位点区段,过滤染色体着丝粒区位点区段,过滤基因组重复区位点区段,过滤健康人群中高频拷贝数区位点区段,统计这些位点区段在已知HRD结果的样本数据集中深度情况,选择区段平均深度均在100X以上的位点区段最为后续构建模型所需的高杂合高质量位点区段。
在一些可行的实施例中,所述步骤S5,其具体包括:
S5.1、将待测样本与参考基因组进行比对、去重和过滤,并结合预设规则生成所述杂合位点区段的平均频率;
将待测样本比对到人类参考基因组hg19后重排序,去重后的bam文件,使用pysam包提取样本bam数据中各位点区段中各位点的碱基数目和各碱基ATCG的数目,过滤其中比对质量低于20的碱基,位点频率=位点非参考碱基总数目/位点碱基总数目。统计位点区段151bp所有位点频率,如果所有位点都没有在0.2-0.8内的频率存在,则认为该区段发生了杂合消失现象,使用该区段内所有位点的平均频率作为该位点区段的AF;如果有位点频率在0.2-0.8之间,则使用这些频率在0.2-0.8间的位点的平均频率作为该位点区段的位点区段频率。
S5.2、获取所述杂合位点区段的平均深度与平均GC含量,并计算所述杂合位点区段的矫正后的平均深度;
先统计每个GC含量(0, 1, 2, 3,…, 100%)下的bin平均深度,再计算样本所有bin的平均深度,获得该样本的GC偏好矫正集,bin长度151bp,然后计算该位点区段内所有位点的深度,所有位点的GC比例,获得该位点区段的平均深度与平均GC含量,然后获得该位点区段矫正后的平均深度,位点区段长度151bp。
校正后的位点区段平均深度=该位点区段的平均深度 (所有bin的平均深度/与该位点区段有相同GC含量的所有bin的平均深度)。
S5.3、从所述阴性对照基线中获取对应位点区段的对照平均深度,并与所述平均深度相比,得到对应位点区段的平均深度变化率;
再从阴性对照基线中获取该位点区段的对照平均深度,两者相比,比值即是该位点区段的平均深度变化率DPR。
S5.4、根据所述平均频率和所述平均深度变化率,转化得到变异等位基因拷贝数和区段总拷贝数。
将位点区段的AF与位点区段的DPR使用如下公式转换为杂合区段BCN与杂合区段TCN。
其中,表示倍性,可以使用PureCN 对样本的肿瘤细胞比例和倍性进行预测获得;
染色体平均AF计算使用同一条染色体上所有位点区段的AF求平均值获得;染色体平均DPR计算使用同一条染色体上所有位点区段的DPR求平均值获得。
在一些可行的实施例中,所述步骤S6,其具体包括:
S6.1、基于所述杂合位点区段,根据染色体号和染色体上的位置进行排序;
S6.2、在每条染色体上,通过所述区段总拷贝数进行组装,得到大片段集;
在每条染色体上,先通过TCN进行组装,计算各杂合区段TCN与染色体整体平均TCN的差值,前后差值小于2倍标准差的放到一组中,因为染色体的DPR波动比较小且非常集中,所以先对DPR转化的TCN进行组装,获得基于TCN的大片段bigregionset片段集;
S6.3、基于所述变异等位基因拷贝数对所述大片段集进行重新组合,得到新区段集;
通过该步骤再细分,大片段bigregionset片段集中组成的各杂合区段的BCN并不一定是相等的,依据BCN对区段集进行重新组合,如果前后杂合区段的BCN差值在1以内,重新进行组合,如果不等,记录错误次数,设置允许错误次数为4,当记录错误次数为4时,输出前面的杂合区段组合为region区段,清空记录次数,继续按此方式组合剩下的杂合区段,如此循环下,把大片段bigregionset片段重新组合成一个个新的region区段集;
以region区段中第一个杂合区段的起点作为region区段的起点,最后一个杂合区段的染色体终点为region区段的终点,计算region区段的平均BCN作为该region区段的BCN,平均TCN作为该region区段的TCN;
S6.4、根据所述新区段集的平均变异等位基因拷贝数和平均区段总拷贝数,计算所述新区段集的LOH值、TAI值和LST值。
LOH值计算,如果一个region区段长度大于等于15M,BCN等于0,并且该染色体上不是所有region区段的BCN等于0,则记录该region区段LOH,LOH数目加1,遍历所有染色体,最后一共满足条件的region数目为LOH数目;
TAI值计算,如果一个region区段长度大于等于10M,并且BCN等于0或1,TCN与BCN不等,并且该region坐标靠近端粒,则记录该region区段为TAI,TAI数目加1,遍历所有染色体,最后一共满足条件的region数目为TAI数目;
LST值计算,如果region区段与其后面region区段长度都是大于10M的,并且两region之间距离小于3M,两region的BCN和TCN都不相等,则认为这是一个LST,LST数目加1,遍历所有染色体,最后一共满足条件的数目为LST数目。
在一些可行的实施例中,所述步骤S7,其具体包括:
合并LOH、TAI、LST数目结果为最终HRD结果,阈值测试后设置为42,大于等于42为HRD阳性,小于42为HRD阴性,可以在肿瘤细胞比例35%以上时,90%准确率区分HRD阳性与阴性模拟数据与真实样本数据。
在一些可行的实施例中,所述步骤S2,其具体包括:
S2.1、对初始样本进行GC偏好矫正,得到矫正深度后的样本;
先对数据按特定bin尺寸进行分隔,统计每个bin尺寸的平均GC含量,再统计GC含量(0, 1, 2, 3,…, 100%)下的bin长度的平均深度,再计算所有bin的平均深度,用来校正测序得到的深度,这里bin长度为杂合区段长度151bp。
校正后的bin深度 = 该bin的原始深度 (所有bin的平均深度/与该bin的有相同GC含量的所有bin的平均深度);
bin中所有位点深度等于校正后的bin深度;
S2.2、统计所述杂合位点区段在所述矫正深度后的样本中的深度大小分布,并选择中位数作为对应位点的代表深度,得到中位深度。
该步骤中,以杂合位点区段为基础,统计这些区段在各阴性样本测序数据集中矫正后的深度大小分布;对各位点在各样本中的深度从小到大进行排序,选择中位数作为该位点代表深度。
在一些可行的实施例中,还包括步骤S8、测试,具体为:
S8.1、模拟不同肿瘤细胞比例下HRD阳性数据与HRD阴性数据的放大样本数据集;
S8.1.1、计算测试样本的肿瘤细胞比例,模拟生成不同肿瘤细胞比例下的位点区段平均频率与平均深度变化率数据;
使用肿瘤细胞比例计算工具PureCN进行样本原本的肿瘤细胞比例计算,为了避免低肿瘤细胞比例下HRD结果发生大波动改变HRD状态的可能,模拟最低的肿瘤细胞比例从50%开始,构建与原本肿瘤细胞比例不同的50%到100%肿瘤细胞比例数据集。
S8.1.2、在每一种比例中,基于模拟肿瘤细胞比例与预测肿瘤细胞比例进行模拟生成,得到模拟数据;
对每一个位点在频率计算过程时,使用模拟肿瘤细胞比例与PureCN预测肿瘤细胞比例进行模拟生成。
位点频率=非参考碱基的碱基总数目/位点总碱基数目修改为位点频率=((非参考碱基的碱基总数目/位点总碱基数目)/ PureCN预测肿瘤细胞比例)模拟肿瘤细胞比例。
S8.1.3、基于所述模拟数据,统计位点区段所有位点的频率并设定位点区段平均频率,得到模拟平均频率;
统计位点区段151bp所有位点的频率,如果所有位点都没有在0.2-0.8内的频率存在,则认为该区段发生了杂合消失现象,使用该区段内所有位点的平均频率作为该位点区段的位点区段平均频率;而如果有位点频率在0.2-0.8之间,则使用这些频率在0.2-0.8间的位点的平均频率作为该位点区段的代表,得到位点区段的模拟平均频率。
S8.1.4、基于所述模拟平均频率,结合测试样本的平均深度变化率,生成对应的放大样本数据。
此时,特征位点区段平均频率会因为肿瘤细胞比例与原来真实数据产生一定差异,将模拟的位点区段平均频率,与相应位点区段的平均深度变化率数据集,一起生成模拟肿瘤细胞比例下的新模拟数据,其标签还是原来的标签,将整体数据集放大。
S8.2、基于所述放大样本数据集进行检测验证。
综上,本发明通过精心设计与独有的杂合位点区段筛选方法结合相应的转化、合并拆分组装方法,基于HRD原理量化的LOH、TAI、LST计算方法,实现了无对照下进行HRD检测的过程,并且,检测性能测试集与独立验证集中均能达到较好的效果。降低了检测成本,节省了检测时间,一次检测,可以获得原本检测信息结果外的HRD状态信息;
另外,提供了一套详细具体的样本集模拟数据放大方法,杂合区段位点筛选与杂合特征,杂合消失特征,染色体拷贝数变化特征的构建方法,区段间如何合并与拆分组装方法,该设计与方法也可以用于其他涉及位点频率,拷贝数变化来进行下一代测序(NextGeneration Sequencing,NGS)检测方法的算法实现和流程构建,对基于NGS的,涉及肿瘤细胞比例进行检测筛查的领域的研究和应用都提供了新的思路和方法。
如图2所示,一种无对照HRD检测系统,包括:
区段选择模块,用于选择杂合位点区段;
深度统计模块,用于以所述杂合位点区段为基础,统计各位点在初始样本中的深度分布并确定中位深度;
基线拟合模块,用于根据所述中位深度、位点在染色体上的坐标与参考碱基类型,构建阴性对照基线;
第一计算模块,用于结合所述阴性对照基线,计算待测样本在所述杂合位点区段的平均深度变化率;
数据转化模块,用于将所述杂合位点区段的平均频率与平均深度变化率转化为变异等位基因拷贝数和区段总拷贝数;
特征计算模块,用于根据所述变异等位基因拷贝数和所述区段总拷贝数,计算LOH值、TAI值和LST值;
整合模块,用于根据所述LOH值、所述TAI值和所述LST值,确定HRD检测结果。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种无对照HRD检测装置:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种无对照HRD检测方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现如上所述一种无对照HRD检测方法。
上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (8)
1.一种无对照HRD检测方法,其特征在于,包括以下步骤:
选择杂合位点区段;
以所述杂合位点区段为基础,统计各位点在初始样本中的深度分布并确定中位深度;
根据所述中位深度、位点在染色体上的坐标与参考碱基类型,构建阴性对照基线;
结合所述阴性对照基线,计算待测样本在所述杂合位点区段的平均深度变化率;
将所述杂合位点区段的平均频率与平均深度变化率转化为变异等位基因拷贝数和区段总拷贝数;
根据所述变异等位基因拷贝数和所述区段总拷贝数,计算LOH值、TAI值和LST值;
根据所述LOH值、所述TAI值和所述LST值,确定HRD检测结果;
所述将所述杂合位点区段的平均频率与平均深度变化率转化为变异等位基因拷贝数和区段总拷贝数这一步骤,其具体包括:
将待测样本与参考基因组进行比对、去重和过滤,并结合预设规则生成所述杂合位点区段的平均频率;
获取所述杂合位点区段的平均深度与平均GC含量,并计算所述杂合位点区段的矫正后的平均深度;
从所述阴性对照基线中获取对应位点区段的对照平均深度,并与所述平均深度相比,得到对应位点区段的平均深度变化率;
根据所述平均频率和所述平均深度变化率,转化得到变异等位基因拷贝数和区段总拷贝数;
所述根据所述变异等位基因拷贝数和所述区段总拷贝数,计算LOH值、TAI值和LST值这一步骤,其具体包括:
基于所述杂合位点区段,根据染色体号和染色体上的位置进行排序;
在每条染色体上,通过所述区段总拷贝数进行组装,得到大片段集;
基于所述变异等位基因拷贝数对所述大片段集进行重新组合,得到新区段集;
根据所述新区段集的平均变异等位基因拷贝数和平均区段总拷贝数,计算所述新区段集的LOH值、TAI值和LST值。
2.根据权利要求1所述一种无对照HRD检测方法,其特征在于,所述选择杂合位点区段这一步骤,其具体包括:
获取频率在预设范围的高杂合SNP位点;
以所述高杂合SNP位点为基础,延伸预设长度并计算区段GC含量;
基于所述区段GC含量进行筛选,得到初始杂合区段;
考虑染色体拷贝数变异的影响,对所述初始杂合区段进行筛选,得到杂合位点区段。
3.根据权利要求2所述一种无对照HRD检测方法,其特征在于,还包括:
基于预设的平均深度对所述杂合位点区段进行筛选。
4.根据权利要求1所述一种无对照HRD检测方法,其特征在于,所述以所述杂合位点区段为基础,统计各位点在初始样本中的深度分布并确定中位深度这一步骤,其具体包括:
对初始样本进行GC偏好矫正,得到矫正深度后的样本;
统计所述杂合位点区段在所述矫正深度后的样本中的深度大小分布,并选择中位数作为对应位点的代表深度,得到中位深度。
5.根据权利要求1所述一种无对照HRD检测方法,其特征在于,还包括测试步骤,具体为:
模拟不同肿瘤细胞比例下HRD阳性数据与HRD阴性数据的放大样本数据集;
基于所述放大样本数据集进行检测验证。
6.根据权利要求5所述一种无对照HRD检测方法,其特征在于,所述模拟不同肿瘤细胞比例下HRD阳性数据与HRD阴性数据的放大样本数据集这一步骤,其具体包括:
计算测试样本的肿瘤细胞比例,模拟生成不同肿瘤细胞比例下的位点区段平均频率与平均深度变化率数据;
在每一种比例中,基于模拟肿瘤细胞比例与预测肿瘤细胞比例进行模拟生成,得到模拟数据;
基于所述模拟数据,统计位点区段所有位点的频率并设定位点区段平均频率,得到模拟平均频率;
基于所述模拟平均频率,结合测试样本的平均深度变化率,生成对应的放大样本数据。
7.一种无对照HRD检测系统,其特征在于,包括:
区段选择模块,用于选择杂合位点区段;
深度统计模块,用于以所述杂合位点区段为基础,统计各位点在初始样本中的深度分布并确定中位深度;
基线拟合模块,用于根据所述中位深度、位点在染色体上的坐标与参考碱基类型,构建阴性对照基线;
第一计算模块,用于结合所述阴性对照基线,计算待测样本在所述杂合位点区段的平均深度变化率;
数据转化模块,用于将所述杂合位点区段的平均频率与平均深度变化率转化为变异等位基因拷贝数和区段总拷贝数;
特征计算模块,用于根据所述变异等位基因拷贝数和所述区段总拷贝数,计算LOH值、TAI值和LST值;
整合模块,用于根据所述LOH值、所述TAI值和所述LST值,确定HRD检测结果;
所述将所述杂合位点区段的平均频率与平均深度变化率转化为变异等位基因拷贝数和区段总拷贝数,其具体包括:将待测样本与参考基因组进行比对、去重和过滤,并结合预设规则生成所述杂合位点区段的平均频率;获取所述杂合位点区段的平均深度与平均GC含量,并计算所述杂合位点区段的矫正后的平均深度;从所述阴性对照基线中获取对应位点区段的对照平均深度,并与所述平均深度相比,得到对应位点区段的平均深度变化率;根据所述平均频率和所述平均深度变化率,转化得到变异等位基因拷贝数和区段总拷贝数;
所述根据所述变异等位基因拷贝数和所述区段总拷贝数,计算LOH值、TAI值和LST值,其具体包括:基于所述杂合位点区段,根据染色体号和染色体上的位置进行排序;在每条染色体上,通过所述区段总拷贝数进行组装,得到大片段集;基于所述变异等位基因拷贝数对所述大片段集进行重新组合,得到新区段集;根据所述新区段集的平均变异等位基因拷贝数和平均区段总拷贝数,计算所述新区段集的LOH值、TAI值和LST值。
8.一种无对照HRD检测装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-6任一项所述一种无对照HRD检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410004007.4A CN117497056B (zh) | 2024-01-03 | 2024-01-03 | 一种无对照hrd检测方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410004007.4A CN117497056B (zh) | 2024-01-03 | 2024-01-03 | 一种无对照hrd检测方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117497056A CN117497056A (zh) | 2024-02-02 |
CN117497056B true CN117497056B (zh) | 2024-04-23 |
Family
ID=89671244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410004007.4A Active CN117497056B (zh) | 2024-01-03 | 2024-01-03 | 一种无对照hrd检测方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117497056B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108753967A (zh) * | 2018-06-08 | 2018-11-06 | 复旦大学附属中山医院 | 一种用于肝癌检测的基因集及其panel检测设计方法 |
CN111676277A (zh) * | 2020-08-12 | 2020-09-18 | 臻和(北京)生物科技有限公司 | 一种基于二代测序技术测定基因组不稳定的方法及试剂盒 |
CN112669906A (zh) * | 2020-11-25 | 2021-04-16 | 深圳华大基因股份有限公司 | 用于衡量基因组不稳定性的检测方法、设备、终端设备和计算机可读存储介质 |
CN112802548A (zh) * | 2021-01-07 | 2021-05-14 | 深圳吉因加医学检验实验室 | 单样本全基因组预测等位基因特异性拷贝数变异的方法 |
CN113710815A (zh) * | 2019-01-04 | 2021-11-26 | 威廉马歇莱思大学 | 用于多重拷贝数变异检测和等位基因比率定量的定量扩增子测序 |
CN114283889A (zh) * | 2021-12-27 | 2022-04-05 | 深圳吉因加医学检验实验室 | 一种矫正同源重组修复缺陷评分的方法及装置 |
CN114678067A (zh) * | 2022-03-21 | 2022-06-28 | 纳昂达(南京)生物科技有限公司 | 构建多人群非外显子区snp探针集合的方法及装置 |
CN114990202A (zh) * | 2022-07-29 | 2022-09-02 | 普瑞基准科技(北京)有限公司 | Snp位点在评估基因组异常的应用及评估基因组异常的方法 |
CN115985399A (zh) * | 2023-03-20 | 2023-04-18 | 广州迈景基因医学科技有限公司 | 用于高通量测序的HRD panel位点选择优化方法及系统 |
-
2024
- 2024-01-03 CN CN202410004007.4A patent/CN117497056B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108753967A (zh) * | 2018-06-08 | 2018-11-06 | 复旦大学附属中山医院 | 一种用于肝癌检测的基因集及其panel检测设计方法 |
CN113710815A (zh) * | 2019-01-04 | 2021-11-26 | 威廉马歇莱思大学 | 用于多重拷贝数变异检测和等位基因比率定量的定量扩增子测序 |
CN111676277A (zh) * | 2020-08-12 | 2020-09-18 | 臻和(北京)生物科技有限公司 | 一种基于二代测序技术测定基因组不稳定的方法及试剂盒 |
WO2022033000A1 (zh) * | 2020-08-12 | 2022-02-17 | 臻悦生物科技江苏有限公司 | 一种基于二代测序技术测定基因组不稳定的方法及试剂盒 |
CN112669906A (zh) * | 2020-11-25 | 2021-04-16 | 深圳华大基因股份有限公司 | 用于衡量基因组不稳定性的检测方法、设备、终端设备和计算机可读存储介质 |
CN112802548A (zh) * | 2021-01-07 | 2021-05-14 | 深圳吉因加医学检验实验室 | 单样本全基因组预测等位基因特异性拷贝数变异的方法 |
CN114283889A (zh) * | 2021-12-27 | 2022-04-05 | 深圳吉因加医学检验实验室 | 一种矫正同源重组修复缺陷评分的方法及装置 |
CN114678067A (zh) * | 2022-03-21 | 2022-06-28 | 纳昂达(南京)生物科技有限公司 | 构建多人群非外显子区snp探针集合的方法及装置 |
CN114990202A (zh) * | 2022-07-29 | 2022-09-02 | 普瑞基准科技(北京)有限公司 | Snp位点在评估基因组异常的应用及评估基因组异常的方法 |
CN115985399A (zh) * | 2023-03-20 | 2023-04-18 | 广州迈景基因医学科技有限公司 | 用于高通量测序的HRD panel位点选择优化方法及系统 |
Non-Patent Citations (5)
Title |
---|
BRCA1 /2 突变和同源重组修复缺陷( HRD) 检测在乳腺癌中的临床研究;冯聪 等;《现代肿瘤医学》;20230531;第31卷(第10期);第1940-1943页 * |
Genomic Scar Score: A robust model predicting homologous recombination deficiency based on genomic instability;Wuzhou Yuan1 et al;《BJOG》;20221231;第14-22页 * |
Homologous recombination deficiency status-based classification of high-grade serous ovarian carcinoma;Hisamitsu takaya et al;《Scientific RepoRtS》;20201231;第1-8页 * |
同源重组修复缺陷临床检测与应用专家共识(2021版);陈锐 等;《中国癌症防治杂志》;20210831;第13卷(第4期);第329-338页 * |
基于基因瘢痕评分( GSS) 探索乳腺癌中的同源重组修复缺陷( HRD);冯聪 等;《现代肿瘤医学》;20230331;第31卷(第5期);第855-860页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117497056A (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220130488A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
CN107423578B (zh) | 检测体细胞突变的装置 | |
CN111304303B (zh) | 微卫星不稳定的预测方法及其应用 | |
CN110910957B (zh) | 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法 | |
CN111755068B (zh) | 基于测序数据识别肿瘤纯度和绝对拷贝数的方法及装置 | |
CN113724791B (zh) | Cyp21a2基因ngs数据分析的方法、装置及应用 | |
CN112669906B (zh) | 用于衡量基因组不稳定性的检测方法、设备、终端设备和计算机可读存储介质 | |
CN108304694B (zh) | 基于二代测序数据分析基因突变的方法 | |
CN113674803A (zh) | 一种拷贝数变异的检测方法及其应用 | |
Pool | Genetic mapping by bulk segregant analysis in Drosophila: experimental design and simulation-based inference | |
CN112365922A (zh) | 用于检测msi的微卫星位点、其筛选方法及应用 | |
CN115064209A (zh) | 一种恶性细胞鉴定方法及系统 | |
Smolander et al. | Evaluation of tools for identifying large copy number variations from ultra-low-coverage whole-genome sequencing data | |
CN110246543B (zh) | 基于二代测序技术利用单样本检测拷贝数变异的方法和计算机系统 | |
KR101941011B1 (ko) | 유전자 발현 데이터를 통한 유방암 환자 예후 판단 방법 | |
CN117497056B (zh) | 一种无对照hrd检测方法、系统及装置 | |
CN115985399B (zh) | 用于高通量测序的HRD panel位点选择优化方法及系统 | |
CN111508559A (zh) | 检测目标区域cnv的方法及装置 | |
WO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
CN114067908B (zh) | 一种评估单样本同源重组缺陷的方法、装置和存储介质 | |
CN115394359A (zh) | 一种鉴定人类胚胎细胞染色体变异的方法及应用 | |
Woerner et al. | The role of phylogenetically conserved elements in shaping patterns of human genomic diversity | |
CN110462063B (zh) | 一种基于测序数据的变异检测方法、装置和存储介质 | |
CN114067909B (zh) | 一种矫正同源重组缺陷评分的方法、装置和存储介质 | |
WO2019054326A1 (ja) | コピー数計測装置、コピー数計測プログラム、コピー数計測方法および遺伝子パネル |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |