CN110570907B - 建立检测微卫星不稳定的基线及模型的方法与应用 - Google Patents

建立检测微卫星不稳定的基线及模型的方法与应用 Download PDF

Info

Publication number
CN110570907B
CN110570907B CN201910833273.7A CN201910833273A CN110570907B CN 110570907 B CN110570907 B CN 110570907B CN 201910833273 A CN201910833273 A CN 201910833273A CN 110570907 B CN110570907 B CN 110570907B
Authority
CN
China
Prior art keywords
microsatellite
baseline
instability
sample
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910833273.7A
Other languages
English (en)
Other versions
CN110570907A (zh
Inventor
周涛
陈利斌
郭璟
楼峰
曹善柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiangxin Biotechnology Co ltd
Original Assignee
Beijing Xiangxin Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiangxin Biotechnology Co ltd filed Critical Beijing Xiangxin Biotechnology Co ltd
Priority to CN201910833273.7A priority Critical patent/CN110570907B/zh
Publication of CN110570907A publication Critical patent/CN110570907A/zh
Application granted granted Critical
Publication of CN110570907B publication Critical patent/CN110570907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

本发明提供了一种建立检测微卫星不稳定的基线及模型的方法与应用。该方法包括:搜索待测样本的测序数据在人类参考基因组上所对应的区域内所有可用的微卫星位点;利用多个对照血细胞样本的测序数据,统计并保留平均覆盖深度基线满足深度阈值的微卫星位点作为候选微卫星位点;利用各候选微卫星位点及平均覆盖深度基线,计算并找出peaks数目在多个阳性样本和多个阴性样本中存在显著差异的候选微卫星位点,作为检测微卫星位点,各检测微卫星位点在多个阳性样本和多个阴性样本中的平均覆盖深度及peaks数目即形成检测微卫星不稳定的基线。该方法不仅提高了测序数据的利用效率,而且提高了检测的灵敏度。

Description

建立检测微卫星不稳定的基线及模型的方法与应用
技术领域
本发明涉及基因测序数据分析领域,具体而言,涉及一种建立检测微卫星不稳定的基线及模型的方法与应用。
背景技术
微卫星不稳定(Microsatellite Instability,MSI)指的是微卫星重复次数减少或者增加,出现新的等位基因。大量研究表明,微卫星不稳定性是由错配修复基因发生缺陷引起的,与肿瘤的发生密切相关。临床上已将微卫星不稳定性作为结直肠癌及其他实体瘤预后和制定辅助治疗方案的重要分子标志物,并应用于协助Lynch综合征筛查。然而,对于NGS数据,缺乏判别微卫星不稳定性的金标准。
目前,对于NGS数据,如图1所示,大多数检测方法都是使用来自NCCN等的微卫星位点进行检测,然后以20%为分界线,即有20%及以上的微卫星位点发生不稳定,即判定此样本为微卫星不稳定。然而,现有方法对微卫星不稳定的检测方法仍存在灵敏度低的缺陷。
发明内容
本发明的主要目的在于提供一种建立检测微卫星不稳定的基线及模型的方法与应用,以解决现有技术中对测序数据中的微卫星位点检测灵敏度低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种建立检测微卫星不稳定的基线的方法,该方法包括:针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索区域内所有可用的微卫星位点;利用多个对照血细胞样本的测序数据,统计各对照血细胞样本中各微卫星位点的平均覆盖深度基线,并保留平均覆盖深度基线满足深度阈值的微卫星位点作为候选微卫星位点;利用各候选微卫星位点及平均覆盖深度基线,计算多个阳性样本和多个阴性样本各自的测序数据中每个候选微卫星位点的平均覆盖深度及peaks数目,并找出peaks数目在多个阳性样本和多个阴性样本中存在显著差异的候选微卫星位点,作为检测微卫星位点,各检测微卫星位点在多个阳性样本和多个阴性样本中的平均覆盖深度及peaks数目即形成检测微卫星不稳定的基线。
进一步地,所有可用的微卫星位点的最小长度为10bp。
进一步地,深度阈值大于等于30。
根据本发明的第二个方面,提供了一种建立检测微卫星不稳定的模型的方法,该方法包括:采用上述任一种方法建立检测微卫星不稳定的基线;利用机器学习算法将基线中多个阳性样本和多个阴性样本中的平均覆盖深度及peaks数目进行建模,得到检测微卫星不稳定的模型。
进一步地,机器学习算法为随机森林算法。
根据本发明的第三个方面,提供了一种检测微卫星不稳定的模型,该模型采用上述任一种方法建成。
根据本发明的第四个方面,提供了一种检测微卫星不稳定的方法,该方法包括:按照上述任一种方法中的检测微卫星位点,检测待测样本的测序数据中各检测微卫星位点的peaks数目;利用上述任一种检测微卫星不稳定的模型,对待测样本的测序数据中各检测微卫星位点的peaks数目进行分析,从而得到待测样本的微卫星不稳定状态结果。
根据本发明的第五个方面,提供了一种建立检测微卫星不稳定的基线的装置,该装置包括:微卫星位点搜索模块、候选微卫星位点筛选模块及基线建立模块,微卫星位点搜索模块,用于将待测样本的测序数据与人类参考基因组序列进行比对,得到所有可用的微卫星位点,待测样本的测序数据包括所有已知微卫星位点的测序数据;候选微卫星位点筛选模块,用于利用多个对照血细胞样本的测序数据,统计各对照血细胞样本中各微卫星位点的平均覆盖深度基线,并保留平均覆盖深度基线满足深度阈值的微卫星位点作为候选微卫星位点;基线建立模块,用于利用各候选微卫星位点及平均覆盖深度基线,计算多个阳性样本和多个阴性样本各自的测序数据中每个候选微卫星位点的平均覆盖深度及peaks数目,并找出peaks数目在多个阳性样本和多个阴性样本中存在显著差异的候选微卫星位点,作为检测微卫星位点,各检测微卫星位点在多个阳性样本和多个阴性样本中的平均覆盖深度及peaks数目形成检测微卫星不稳定的基线。
根据本发明的第六个方面,提供了一种建立检测微卫星不稳定的模型的装置,该装置包括:上述建立检测微卫星不稳定的基线的装置中的微卫星位点搜索模块、候选微卫星位点筛选模块、基线建立模块以及机器学习建模模块,其中,机器学习建模模块用于利用机器学习算法将基线中多个阳性样本和多个阴性样本中的平均覆盖深度及peaks数目进行建模,得到检测微卫星不稳定的模型。
根据本发明的第七个方面,提供了一种检测微卫星不稳定的装置,该装置包括:上述建立检测微卫星不稳定的基线的装置中的微卫星位点搜索模块、候选微卫星位点筛选模块、基线建立模块以及上述建立检测微卫星不稳定的模型的装置中的机器学习建模模块,检测模块以及预测模块,检测模块,用于检测待测样本的测序数据中各检测微卫星位点的peaks数目;预测模块,用于利用检测微卫星不稳定的模型,对待测样本的测序数据中各检测微卫星位点的peaks数目进行分析,从而得到待测样本的微卫星不稳定状态结果。
根据本发明的第八个方面,提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述建立检测微卫星不稳定的基线方法,或者执行上述建立检测微卫星不稳定的模型的方法,或者执行上述检测微卫星不稳定的方法。
根据本发明的第九个方面,提供了一种处理器,该处理器包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述建立检测微卫星不稳定的基线方法,或者执行上述建立检测微卫星不稳定的模型的方法,或者执行上述检测微卫星不稳定的方法。
应用本发明的技术方案,通过将测序数据与人参考基因组序列进行比对,找到测序数据中所有可用的微卫星位点,充分利用了NGS数据中包含的微卫星位点,然后利用肿瘤对照血细胞样本的测序数据,从这些微卫星位点中筛选出捕获效率较高的微卫星位点进行后续分析,进一步通过已知微卫星状态的阳性样本和阴性样本的测序数据,从筛选出的捕获效率高的微卫星位点中找出peaks数目在两组样本存在显著性差异的微卫星位点,进而利用这些peaks数目存在显著性差异的微卫星位点的平均覆盖深度及其peaks数目形成后续检测待测样本微卫星不稳定的基线。相比目前市场上的常用方法,该方法首先利用更多的微卫星位点信息进行基线建立,在后续对待测样本的微卫星状态进行检测或判断时,同样对更多的微卫星位点进行检测和判断,因而不仅提高了测序数据的利用效率,而且提高了检测的灵敏度。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据现有技术中检测微卫星不稳定的方法的流程示意图;以及
图2示出了根据本申请的一种优选实施例中建立检测微卫星不稳定的基线的方法的流程示意图;
图3示出了根据本申请的一种优选实施例中检测微卫星不稳定的方法的详细流程示意图;
图4示出了实施例5中的对在微卫星阳性样本和微卫星阴性样本中的peaks数目存在显著差异的微卫星位点的聚类分析图;
图5示出了实施例5中的对在微卫星阳性样本和微卫星阴性样本中的peaks矩阵进行ROC分析的结果图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
微卫星:微卫星是遍布于人类基因组中的短串联重复序列,有单核苷酸、双核苷酸或高位核苷酸的重复,重复次数10-50次。
微卫星稳定性:微卫星由于重复单位的插入或缺失而导致微卫星长度的改变。
BED文件格式是一种可变方式的数据线,用来描述注释的数据。BED线有3个要求的字段和9个额外的字段。三个要求的字段分别是:
1,chrom,染色体或scafflold的名字,如chr 3,chrY。
2,chromStart染色体或scafflold的起始位置,第一个染色体的位置是0。
3,chromEn,染色体或scafflold的终止位置。
9个额外的可选BED字段是:
4,name,定义bed的名字;
5,score 0-1000的分值,如果track线在注释时属性设置为1,该分值觉得现示灰度水平,水中越大,灰度越高;
6,strand定义链的+或-;
7,thickStart开始的位置;
8,thickEnd结束的位置;
9,itemRGB An AGB值的形式;
10,blockCount BED线,在exon的block数目;
11,blockSize用逗号分隔block size,该item列表对应于BlockCount;
12,blockStarts用逗号分隔的列表。
实施例1
在本申请一种优选的实施例中,提供了一种建立检测微卫星不稳定的基线的方法,图2是根据本发明实施例的建立检测微卫星不稳定的基线的方法的流程图。如图2所示,该方法包括:
步骤S101,针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索所述区域内所有可用的微卫星位点;
步骤S102,利用多个对照血细胞样本的测序数据,统计各对照血细胞样本中各微卫星位点的平均覆盖深度基线,并保留平均覆盖深度基线满足深度阈值的微卫星位点作为候选微卫星位点;
步骤S103,利用各候选微卫星位点及平均覆盖深度基线,计算多个阳性样本和多个阴性样本各自的测序数据中每个候选微卫星位点的平均覆盖深度及peaks数目,并找出peaks数目在多个阳性样本和多个阴性样本中存在显著差异的候选微卫星位点,作为检测微卫星位点,各检测微卫星位点在多个阳性样本和多个阴性样本中的平均覆盖深度及peaks数目形成检测微卫星不稳定的基线。
上述方法,通过将测序数据与人参考基因组序列进行比对,找到测序数据中所有可用的微卫星位点,充分利用了NGS数据中包含的微卫星位点,然后利用肿瘤对照血细胞样本的测序数据,从这些微卫星位点中筛选出捕获效率较高的微卫星位点进行后续分析,进一步通过已知微卫星状态的阳性样本和阴性样本的测序数据,从筛选出的捕获效率高的微卫星位点中找出peaks数目在两组样本存在显著性差异的微卫星位点,进而利用这些peaks数目存在显著性差异的微卫星位点的平均覆盖深度及其peaks数目形成后续检测待测样本微卫星不稳定的基线。相比目前市场上的常用方法,该方法首先利用更多的微卫星位点信息进行基线建立,在后续对待测样本的微卫星状态进行检测或判断时,同样对更多的微卫星位点进行检测和判断,因而不仅提高了测序数据的利用效率,而且提高了检测的灵敏度。
需要说明的是,上述实施例中,待测样本的测序数据优选为待测样本的肿瘤组织的测序数据。而对照血细胞样本与肿瘤组织来源于同一待测样本(如同一待测个体)。更优选地,针对已经报道的所有微卫星位点,通过针对所有已知与肿瘤突变相关的位点设计Panel构建捕获文库,进而测序得到测序数据。在确定微卫星位点时,除了包括常用的NCCN报道的微卫星位点外,还包括根据测序数据与参考基因组序列进行比对所筛选到的微卫星位点(未曾报道过的)。
上述对照血细胞样本与现有检测微卫星不稳定的方法中所用到的血细胞样本的涵义相同,均是指与待测的肿瘤组织同一样本来源的血细胞样本。此处,该血细胞样本用来计算待检测的各微卫星位点的平均覆盖深度。血细胞样本的数目通常为多个,优选至少为5个、10个、15个、20个、25个、30个、40个、50个或者50个以上。在本申请一可选实施例中,血细胞样本为52个。
上述在利用微卫星阳性样本及微卫星阴性样本,计算捕获效率高的微卫星位点的peaks,利用这些peaks进一步筛选出在两组中区分度大的微卫星位点,即在微卫星阳性样本及微卫星阴性样本两组中peaks个数有显著差异的位点,此处显著性差异优选采用秩和检验,p<=0.01来进行检验。
本申请中,peak或peaks是指微卫星位点的插入缺失情况统计值,对检测的样本的微卫星位点,统计其读段长度种类,每种长度种类的支持reads需大于3才可算为有效的长度种类,如一个微卫星位点在参考基因组上为24个A,在一个检测样本中出现了多种情况,分别为15个A(2条reads),20个A(10条reads),21个A(20条reads),22个A(40条reads),23个A(100条reads),首先将15个A的情况删除,因为支持reads数小于3,剩下的有4个读段长度种类,所以peaks即为4。
一可选的实施例中,将待测样本的测序数据与人类参考基因组序列进行比对,得到所有可用的微卫星位点的步骤,采用msisensor软件(v0.5)在人参考基因组序列(hg19)搜索待测样本测序数据文件范围内的所有微卫星位点,该软件参数除了将微卫星位点的最小长度设置为10之外,其余均采用默认参数。
步骤S102是从所有可用的微卫星位点筛选出捕获效率高的微卫星位点。一可选实施例中,利用同时测序的多个血细胞的测序数据,计算所有可用的微卫星位点的平均覆盖深度,选取平均覆盖深度大于30的微卫星位点为捕获效率高的微卫星位点。
实施例2
在一种优选的实施例中,本申请还提供了一种建立检测微卫星不稳定的模型的方法,该方法包括:采用前述任一种方法建立检测微卫星不稳定的基线;利用机器学习算法将基线中多个阳性样本和多个阴性样本中的平均覆盖深度及peaks数目进行建模,得到检测微卫星不稳定的模型。
该优选实施例,一方面通过最大化的利用测序数据中的微卫星位点信息建立检测的基线,另一方面采用机器学习的算法,利用基线中的阳性样本中的各检测微卫星位点的peaks数目和阴性样本中的各检测微卫星位点的peaks数目建立了检测微卫星不稳定的预测模型。通过机器学习方法建立的模型对样本的微卫星状态进行预测时同样采用机械学习的方法来进行分析和判断,因而,检测灵敏度更高,且特异性也更高,与目前市场上一般选用20%为分界线的判断方法相比,避免了现有方法主观性过强的缺陷。
上述利用机器学习方法建立模型的步骤中,优选采用随机森林算法(sklearn0.20.0)进行建模。
实施例3
在本申请一种优选的实施例中,还提供了一种检测微卫星不稳定的模型,该模型采用上述方法建立检测微卫星不稳定的模型的方法建成。利用机器学习算法建立的模型,对样本的微卫星状态进行分析和判断,具有较高的灵敏度和特异性。
实施例4
在本申请一种优选的实施例中,还提供了一种检测微卫星不稳定的方法,该方法包括:按照上述建立检测微卫星位点的基线的方法中的检测微卫星位点,检测待测样本的测序数据中各检测微卫星位点的peaks数目;利用上述检测微卫星不稳定的模型,对待测样本的测序数据中各检测微卫星位点的peaks数目进行分析,从而得到待测样本的微卫星不稳定状态结果。
利用机器学习算法建立的模型,对样本的微卫星状态进行分析和判断,具有较高的灵敏度和特异性。
一种更具体地的实施例中,微卫星稳定性检测的步骤包括:
1)对于待检测样本先计算出微卫星位点的peaks;
2)利用阴性样本集和阳性样本集中的peaks矩阵建立模型,利用随机森林机器学习模型(sklearn 0.20.0)对计算出的最终微卫星位点的peaks进行分析给出样本微卫星状态为阳性的概率,模型参数均为默认;
3)对样本预测为阳性的概率大于0.6的时候判读为MSI-H,大于0.4且小于0.6的时候判读为MSI-L,小于0.4的时候判读为MSS(0.4和0.6的阈值根据阳性样本集和阴性样本集所能够区分的最佳值确定的)。
现有技术中有报道通过先判断单个位点的稳定性(以将阴性样本的微卫星位点的稳定性均值与三倍方差的和作为该微卫星位点稳定性的阈值,大于该阈值则预测此微卫星位点为不稳定。此方案是一刀切的特点,对于临界值不能灵活处理),然后对每个样本计算不稳定位点占所有检测到有效位点的比例,然后根据比例对样本微卫星不稳定性进行判断,此处的比例一旦确定也是一个具体的值,也会出现对于临界值不能很好地处理问题。
而上述优选实施例,通过直接对阴性样本集和阳性样本集中的peaks矩阵建立模型,利用机器学习的学习能力对新的样本进行预测,避免了临界值的处理,提高的对样本的判别准确性。
实施例5
目标:检测一个NGS测序(panel测序,参考基因组为hg19)样本的微卫星状态。
步骤:具体检测流程如图3所示,
1.使用msisensor软件(v0.5)搜索此样本测序panel文件(即bed区域文件)范围内对应在人参考基因组上的所有微卫星位点,软件参数除了微卫星位点最小长度设置为8bp之外,其余均为默认参数。此步骤获(即步骤A)取可用的所有微卫星位点,部分结果如表1所示。
表1:
chr start end MS repeat MSID
chr1 8074168 8074175 AG 4 MS1
chr1 11182071 11182082 TCT 4 MS2
chr1 16203144 16203155 CAG 4 MS3
chr1 16255142 16255153 GA 6 MS4
chr1 16256107 16256114 AG 4 MS5
chr1 16262695 16262702 CA 4 MS6
chr1 27022940 27022954 CCG 5 MS7
chr1 27022977 27022988 AGC 4 MS8
chr1 27023008 27023022 GGC 5 MS9
附:chr表示染色体,start表示微卫星位点的起始位置;end表示微卫星位点的终止位置;MS表示重复单元的最小单位,repeat表示重复次数,MSID表示微卫星位点的编号。
2.选取同样panel测序的52个血细胞,计算步骤1中的所有微卫星位点的平均覆盖深度,选取平均覆盖深度大于30的为捕获效率高的位点,作为后续进一步筛选的基础位点。此步骤(即步骤B)主要是获取位点平均深度的基线(baseline)及捕获效率高的微卫星位点,结果如表2所示。
表2:
MSID qcs Average_Total_Reads Count
MS1 pass 302.3529412 51
MS2 pass 236.2156863 51
MS3 pass 234.4705882 51
MS4 pass 200.8235294 51
MS5 pass 199.627451 51
MS6 pass 481.7254902 51
MS7 pass 131.3333333 51
MS8 pass 133.9803922 51
MS9 pass 125.96 50
附:表2中,MSID表示微卫星位点的编号;qcs:表示支持序列质控状态;Average_Total_Reads表示覆盖各微卫星位点的平均reads数(即平均覆盖深度);Count表示通过质控的样本数。
3.利用已知微卫星状态的9例阳性样本(MSI-H,微卫星高频不稳定)及18例阴性样本(MSS,微卫星稳定)及步骤2中获取的捕获效率高的微卫星位点的位点平均覆盖深度的基线,计算得到各位点平均深度及peaks数目以及在阳性和阴性样本中区分度大的微卫星位点,分度大的微卫星位点即在9例阳性样本及18例阴性样本两组中peaks个数有显著差异的位点(秩和检验,p<=0.01,共53个位点)。此步骤(即步骤C)获取了阳性和阴性样本的区分度大的微卫星位点的平均覆盖深度及peaks矩阵baseline。结果见表3-1和表3-2。
表3-1:
Figure BDA0002191418030000091
表3-2:
Figure BDA0002191418030000092
4.利用PCA算法对捕获效率高且在阳性和阴性样本中区分度大的微卫星位点的peaks矩阵进行分类,分类结果见图4。从图4(PC1代表第一主成分,PC2代表第二主成分)可以看出,筛选出的微卫星位点在两组样本中存在明显差异。
5.利用交叉验证对捕获效率高且在阳性和阴性样本中区分度大的微卫星位点的peaks矩阵进行ROC分析,分析结果见图5。从图5可以看出,上述所构建的模型的灵敏性及特异性均为100%。
6.对于待检测样本,先计算出捕获效率高且在阳性和阴性样本中区分度大的微卫星位点的peaks,然后利用以上模型进行预测,最终给出结果(即步骤D),结果如表4所示。
表4:
样本 为MIS-H的概率
180504253T1 0.9
从该实施例可以看出:该方法对于已知的9例MSI-H及18例MSS样本有100%的灵敏性及100%的特异性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
对应于上述方式,本申请还分别提供了一种建立检测微卫星不稳定的基线的装置、一种建立检测微卫星不稳定的模型的装置以及一种检测微卫星不稳定的装置,这些装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
下面结合可选的实施例进一步说明。
实施例6
在本实施例中,还提供了一种建立检测微卫星不稳定的基线的装置,该装置包括:微卫星位点搜索模块、候选微卫星位点筛选模块及基线建立模块,其中,微卫星位点搜索模块,用于针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索所述区域内所有可用的微卫星位点;候选微卫星位点筛选模块,用于利用多个对照血细胞样本的测序数据,统计各对照血细胞样本中各微卫星位点的平均覆盖深度基线,并保留平均覆盖深度基线满足深度阈值的微卫星位点作为候选微卫星位点;基线建立模块,用于利用各候选微卫星位点及平均覆盖深度基线,计算多个阳性样本和多个阴性样本各自的测序数据中每个候选微卫星位点的平均覆盖深度及peaks数目,并找出peaks数目在多个阳性样本和多个阴性样本中存在显著差异的候选微卫星位点,作为检测微卫星位点,各检测微卫星位点在多个阳性样本和多个阴性样本中的平均覆盖深度及peaks数目形成检测微卫星不稳定的基线。
该装置通过利用微卫星位点搜索模块将测序数据与人参考基因组序列进行比对,找到测序数据中所有可用的微卫星位点,充分利用了NGS数据中包含的微卫星位点,然后执行候选微卫星位点筛选模块利用肿瘤对照血细胞样本的测序数据,从这些微卫星位点中筛选出捕获效率较高的微卫星位点进行后续分析,进一步执行基线建立模块通过已知微卫星状态的阳性样本和阴性样本的测序数据,从筛选出的捕获效率高的微卫星位点中找出peaks数目在两组样本存在显著性差异的微卫星位点,进而利用这些peaks数目存在显著性差异的微卫星位点的平均覆盖深度及其peaks数目形成后续检测待测样本微卫星不稳定的基线。相比目前市场上的常用装置,该装置首先利用更多的微卫星位点信息进行基线建立,在后续对待测样本的微卫星状态进行检测或判断时,同样对更多的微卫星位点进行检测和判断,因而不仅提高了测序数据的利用效率,而且提高了检测的灵敏度。
可选地,所有可用的所述微卫星位点的最小长度为10bp。
可选地,深度阈值大于等于30。
实施例7
在本实施例中,还提供了一种建立检测微卫星不稳定的模型的装置,该装置除了包括上述建立检测微卫星不稳定的基线的装置中的微卫星位点搜索模块、候选微卫星位点筛选模块、基线建立模块外,还包括机器学习建模模块,其中,机器学习建模模块用于利用机器学习算法将基线中多个阳性样本和多个阴性样本中的平均覆盖深度及peaks数目进行建模,得到检测微卫星不稳定的模型。
相对于现有装置,本装置所用的微卫星位点不仅包含了现有算法所用到微卫星位点,并且还包含一些其他的能够显著区分MSI-H和MSS的位点,提高了灵敏性。另外本装置采用机器学习的方式利用已知微卫星不稳定状态的阳性样本和阴性样本建立模型,后续利用该模型对待检测样本进行判别,相对于现有装置中通过硬性的20%分界线进行判别,提高了检测的特异性。
实施例8
在本实施例中,还提供了一种检测微卫星不稳定的装置,该装置包括:上述建立检测微卫星不稳定的基线的装置中的微卫星位点搜索模块、候选微卫星位点筛选模块、基线建立模块以及上述建立检测微卫星不稳定的模型的装置中的机器学习建模模块,还包括检测模块和预测模块,检测模块,用于检测待测样本的测序数据中各检测微卫星位点的peaks数目;预测模块,用于利用检测微卫星不稳定的模型,对待测样本的测序数据中各检测微卫星位点的peaks数目进行分析,从而得到待测样本的微卫星不稳定状态结果。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:本申请提供的建立检测微卫星不稳定的基线的方法及装置,所用的微卫星位点不仅包含了现有所用到微卫星位点,并且还包含一些其他的能够显著区分MSI-H和MSS的位点,提高了灵敏性。另外本申请的方法和装置对于最终的样本微卫星状态的判别不是使用20%为分界线,而是使用机器学习的方式利用已知微卫星不稳定状态的阳性样本和阴性样本进行建模,然后对待检测样本进行判别,相对于硬性的20%分界线提高了特异性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种建立检测微卫星不稳定的基线的方法,其特征在于,所述方法包括:
针对待测样本的测序数据在人类参考基因组上所对应的区域,搜索所述区域内所有可用的微卫星位点;
利用多个对照血细胞样本的测序数据,统计各所述对照血细胞样本中各所述微卫星位点的平均覆盖深度基线,并保留所述平均覆盖深度基线满足深度阈值的微卫星位点作为候选微卫星位点;
利用各所述候选微卫星位点及所述平均覆盖深度基线,计算多个阳性样本和多个阴性样本各自的测序数据中每个所述候选微卫星位点的平均覆盖深度及peaks数目,并找出所述peaks数目在多个所述阳性样本和多个所述阴性样本中存在显著差异的所述候选微卫星位点,作为检测微卫星位点,各所述检测微卫星位点在多个所述阳性样本和多个所述阴性样本中的平均覆盖深度及peaks数目即形成检测所述微卫星不稳定的基线;
所述peaks数目是指各所述候选微卫星位点的插入缺失情况统计值,即各所述候选微卫星位点的读段长度种类的数目,其中,每种所述读段长度种类的支持reads大于3;
所述阳性样本为微卫星高频不稳定MSI-H样本,所述阴性样本为微卫星稳定MSS样本。
2.根据权利要求1所述的方法 ,其特征在于,所有可用的所述微卫星位点的最小长度为10bp。
3.根据权利要求1所述的方法 ,其特征在于,所述深度阈值大于等于30。
4.一种建立检测微卫星不稳定的模型的方法,其特征在于,所述方法包括:
采用权利要求1至3中任一项所述的方法建立检测微卫星不稳定的基线;
利用机器学习算法将所述基线中多个所述阳性样本和多个所述阴性样本中的平均覆盖深度及peaks数目进行建模,得到所述检测微卫星不稳定的模型。
5.根据权利要求4所述的方法,其特征在于,所述机器学习算法为随机森林算法。
6.一种检测微卫星不稳定的方法,其特征在于,所述方法包括:
根据权利要求1至3中任一项所述的方法中的所述检测微卫星位点,检测待测样本的测序数据中各所述检测微卫星位点的peaks数目;
利用权利要求4或5所述的方法建立所述的检测微卫星不稳定的模型,对所述待测样本的测序数据中各所述检测微卫星位点的peaks数目进行分析,从而得到所述待测样本的微卫星不稳定状态结果。
7.一种建立检测微卫星不稳定的基线的装置,其特征在于,所述装置包括:
微卫星位点搜索模块,用于将待测样本的测序数据与人类参考基因组序列进行比对,得到所有可用的微卫星位点;
候选微卫星位点筛选模块,用于利用多个对照血细胞样本的测序数据,统计各所述对照血细胞样本中各所述微卫星位点的平均覆盖深度基线,并保留所述平均覆盖深度基线满足深度阈值的微卫星位点作为候选微卫星位点;
基线建立模块,用于利用各所述候选微卫星位点及所述平均覆盖深度基线,计算多个阳性样本和多个阴性样本各自的测序数据中每个所述候选微卫星位点的平均覆盖深度及peaks数目,并找出所述peaks数目在多个所述阳性样本和多个所述阴性样本中存在显著差异的所述候选微卫星位点,作为检测微卫星位点,各所述检测微卫星位点在多个所述阳性样本和多个所述阴性样本中的平均覆盖深度及peaks数目形成检测所述微卫星不稳定的基线;
所述peaks数目是指各所述候选微卫星位点的插入缺失情况统计值,即各所述候选微卫星位点的读段长度种类的数目,其中,每种所述读段长度种类的支持reads大于3;
所述阳性样本为微卫星高频不稳定MSI-H样本,所述阴性样本为微卫星稳定MSS样本。
8.一种建立检测微卫星不稳定的模型的装置,其特征在于,所述装置包括:
权利要求7所述的建立检测微卫星不稳定的基线的装置中的微卫星位点搜索模块、候选微卫星位点筛选模块、基线建立模块以及机器学习建模模块,
其中,所述机器学习建模模块用于利用机器学习算法将所述基线中多个所述阳性样本和多个所述阴性样本中的平均覆盖深度及peaks数目进行建模,得到所述检测微卫星不稳定的模型。
9.一种检测微卫星不稳定的装置,其特征在于,所述装置包括:
权利要求7所述的建立检测微卫星不稳定的基线的装置中的微卫星位点搜索模块、候选微卫星位点筛选模块、基线建立模块以及权利要求8所述的建立检测微卫星不稳定的模型的装置中的机器学习建模模块,以及
检测模块,用于检测待测样本的测序数据中各所述检测微卫星位点的peaks数目;
预测模块,用于利用所述检测微卫星不稳定的模型,对所述待测样本的测序数据中各所述检测微卫星位点的peaks数目进行分析,从而得到所述待测样本的微卫星不稳定状态结果。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至3中任意一项所述的建立检测微卫星不稳定的基线方法,或者执行权利要求4或5所述的建立检测微卫星不稳定的模型的方法,或者执行权利要求6所述的检测微卫星不稳定的方法。
11.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至3中任意一项所述的建立检测微卫星不稳定的基线方法,或者执行权利要求4或5所述的建立检测微卫星不稳定的模型的方法,或者执行权利要求6所述的检测微卫星不稳定的方法。
CN201910833273.7A 2019-09-04 2019-09-04 建立检测微卫星不稳定的基线及模型的方法与应用 Active CN110570907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910833273.7A CN110570907B (zh) 2019-09-04 2019-09-04 建立检测微卫星不稳定的基线及模型的方法与应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910833273.7A CN110570907B (zh) 2019-09-04 2019-09-04 建立检测微卫星不稳定的基线及模型的方法与应用

Publications (2)

Publication Number Publication Date
CN110570907A CN110570907A (zh) 2019-12-13
CN110570907B true CN110570907B (zh) 2021-07-30

Family

ID=68777794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910833273.7A Active CN110570907B (zh) 2019-09-04 2019-09-04 建立检测微卫星不稳定的基线及模型的方法与应用

Country Status (1)

Country Link
CN (1) CN110570907B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797078A (zh) * 2020-01-06 2020-02-14 北京吉因加科技有限公司 微卫星不稳定位点筛选、分析模型的构建方法及装置
CN111583999B (zh) * 2020-04-24 2023-08-18 北京优迅医学检验实验室有限公司 建立检测微卫星不稳定的基线的方法、装置及应用
CN111785324B (zh) * 2020-07-02 2021-02-02 深圳市海普洛斯生物科技有限公司 一种微卫星不稳定分析方法及装置
CN112365922B (zh) * 2021-01-13 2021-06-15 臻和(北京)生物科技有限公司 用于检测msi的微卫星位点、其筛选方法及应用
CN113744251B (zh) * 2021-09-07 2023-08-29 上海桐树生物科技有限公司 基于自注意力机制从病理图片预测微卫星不稳定性的方法
CN114708916B (zh) * 2022-03-15 2023-11-10 至本医疗科技(上海)有限公司 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013166517A1 (en) * 2012-05-04 2013-11-07 Complete Genomics, Inc. Methods for determining absolute genome-wide copy number variations of complex tumors
CN114272371A (zh) * 2015-07-29 2022-04-05 诺华股份有限公司 包含抗pd-1抗体分子的联合疗法
CN109207594B (zh) * 2018-09-29 2020-09-25 广州燃石医学检验所有限公司 一种基于二代测序的通过血浆检测微卫星稳定状态和基因组变化的方法
CN109182525B (zh) * 2018-09-29 2019-09-06 广州燃石医学检验所有限公司 一种微卫星生物标志物组合、检测试剂盒及其用途

Also Published As

Publication number Publication date
CN110570907A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN110570907B (zh) 建立检测微卫星不稳定的基线及模型的方法与应用
Schrider Background selection does not mimic the patterns of genetic diversity produced by selective sweeps
CN112750502B (zh) 二维分布结构判定的单细胞转录组测序数据聚类推荐方法
CN108256289B (zh) 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN110648721B (zh) 针对外显子捕获技术检测拷贝数变异的方法及装置
CN107408163B (zh) 用于分析基因的方法及装置
CN111312334B (zh) 一种影响细胞间通讯的受体-配体系统分析方法
CN108475300B (zh) 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统
Hills et al. BAIT: Organizing genomes and mapping rearrangements in single cells
CN108804876B (zh) 用于计算癌症样本纯度和染色体倍性的方法和装置
CN111627501A (zh) 检测msi的微卫星位点、其筛选方法及应用
CN111755068A (zh) 基于测序数据识别肿瘤纯度和绝对拷贝数的方法及装置
Nagashima et al. Optimizing an ion semiconductor sequencing data analysis method to identify somatic mutations in the genomes of cancer cells in clinical tissue samples
CN110010195A (zh) 一种探测单核苷酸突变的方法及装置
KR101941011B1 (ko) 유전자 발현 데이터를 통한 유방암 환자 예후 판단 방법
CN111508559B (zh) 检测目标区域cnv的方法及装置
CN111798924B (zh) 一种人类白细胞抗原分型方法及装置
CN115565606B (zh) 一种自动筛选突变子集的检测方法、设备和计算机可读存储介质
Florea et al. Detection of Alu exonization events in human frontal cortex from RNA-seq data
CN112735594A (zh) 一种筛选疾病表型相关突变位点的方法及其应用
CN110462063B (zh) 一种基于测序数据的变异检测方法、装置和存储介质
CN116200490A (zh) 一种检测实体瘤微小残留病灶的方法
CN113782092A (zh) 一种生存期预测模型的生成方法及装置、存储介质
EP4297037A1 (en) Device for determining an indicator of presence of hrd in a genome of a subject
WO2023181370A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and application of establishing baseline and model for detecting microsatellite instability

Effective date of registration: 20220105

Granted publication date: 20210730

Pledgee: Beijing ustron Tongsheng financing Company limited by guarantee

Pledgor: Beijing Xiangxin Biotechnology Co.,Ltd.

Registration number: Y2022990000003

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20240103

Granted publication date: 20210730

Pledgee: Beijing ustron Tongsheng financing Company limited by guarantee

Pledgor: Beijing Xiangxin Biotechnology Co.,Ltd.

Registration number: Y2022990000003

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: The Method and Application of Establishing Baselines and Models for Detecting Unstable Microsatellites

Effective date of registration: 20240103

Granted publication date: 20210730

Pledgee: Beijing ustron Tongsheng financing Company limited by guarantee

Pledgor: Beijing Xiangxin Biotechnology Co.,Ltd.

Registration number: Y2023990000651

PE01 Entry into force of the registration of the contract for pledge of patent right