CN114093421B - 一种判别淋巴瘤分子亚型的方法、装置和存储介质 - Google Patents

一种判别淋巴瘤分子亚型的方法、装置和存储介质 Download PDF

Info

Publication number
CN114093421B
CN114093421B CN202111394173.2A CN202111394173A CN114093421B CN 114093421 B CN114093421 B CN 114093421B CN 202111394173 A CN202111394173 A CN 202111394173A CN 114093421 B CN114093421 B CN 114093421B
Authority
CN
China
Prior art keywords
mutation
subtype
detected
lymphoma
tumor sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111394173.2A
Other languages
English (en)
Other versions
CN114093421A (zh
Inventor
管彦芳
李彩琴
程海楠
刘涛
方欢
杜新华
郝时光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jiyinga Information Technology Co ltd
Suzhou Jiyinga Medical Laboratory Co ltd
Original Assignee
Suzhou Jiyinga Medical Laboratory Co ltd
Shenzhen Jiyinga Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Jiyinga Medical Laboratory Co ltd, Shenzhen Jiyinga Information Technology Co ltd filed Critical Suzhou Jiyinga Medical Laboratory Co ltd
Priority to CN202111394173.2A priority Critical patent/CN114093421B/zh
Publication of CN114093421A publication Critical patent/CN114093421A/zh
Application granted granted Critical
Publication of CN114093421B publication Critical patent/CN114093421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Microbiology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种判别淋巴瘤分子亚型的方法、装置和存储介质。本申请方法包括获取待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法分析待测肿瘤样本的淋巴瘤分子亚型;淋巴瘤分子亚型显著突变特征数据库是若干已知淋巴瘤分子亚型的训练样本,统计各亚型突变特征,并对各突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,最终筛选获得显著且训练样本频率大于20%的突变特征。本申请方法能准确、灵敏的判别待测肿瘤样本的淋巴瘤分子亚型,为淋巴瘤分子分型判别提供了一种新的方案和途径。

Description

一种判别淋巴瘤分子亚型的方法、装置和存储介质
技术领域
本申请涉及淋巴瘤分子分型技术领域,特别是涉及一种判别淋巴瘤分子亚型的方法、装置和存储介质。
背景技术
淋巴瘤是起源于淋巴造血系统的恶性肿瘤,是常见的血液肿瘤。近年来淋巴瘤发病率呈现上升的趋势,有数据表明,目前淋巴瘤居各类癌症的第8位。虽然淋巴瘤发病率不及肺癌、胃癌;但是,在整个血液肿瘤中,淋巴瘤是发病率最高的类型,远远高于白血病的发病率。从地域分布来说,发达城市和地区发病率显著高于农村及偏远地区。随着精准医学的步入,淋巴瘤的治疗也进入免疫治疗新阶段。
淋巴瘤可分为霍奇金淋巴瘤(HL)和非霍奇金淋巴瘤(NHL)两类,分别约占所有淋巴瘤的10%、90%。而非霍奇金淋巴瘤(NHL)又可分为B细胞淋巴瘤(约占85%)、T/NK细胞淋巴瘤(约占15%)。研究显示,在非霍奇金淋巴瘤(NHL)中占比最多的是弥漫大B细胞淋巴瘤(DLBCL);除此之外,还包括伯基特淋巴瘤(BL)、高级别B细胞淋巴瘤(HGBL)等。
目前,DLBCL的治疗普遍采用免疫化疗方案,尤其是R-CHOP治疗方案使得DLBCL患者的长期存活率得到明显改善。临床试验结果显示,相比于传统的CHOP方案,R-CHOP方案治疗DLBCL能显著延长患者的中位总生存时间达4.9年、中位无病生存时间超过6.6年,5年无疾病进展生存率从30%提高至54%。
全球每年约15万例新发DLBCL,约占所有NHL的30%,通常表现为进行性淋巴结肿大,淋巴结外病变等。DLBCL患者60%以上可通过R-CHOP免疫化疗方案治愈,治疗失败患者通常预后不良。另外,DLBCL的COO分型非常重要。精准的COO分型必须基于基因表达谱(GEP)数据,将DLBCL按照细胞起源(COO)分为生发中心B细胞样亚型(germinalcenter B-cell-like,GCB)、活化B细胞样亚型(activated B-cell-like,ABC)和无法分类的亚型(unclassified,UC)。总之,DLBCL-COO亚型是评估患者预后的重要因素。
目前现有的DLBCL的COO分型主要是全基因组表达谱分析方法和免疫组化(IHC)方法。全基因组表达谱分析方法是DLBCL分子分型的金标准;但是,该方法存在步骤繁多,容易造成信号丢失,造成假阴性结果等问题。免疫组化(IHC)方法准确度较低,由于结果的解读存在主观性,除此之外,只能判断GCB、非GCB(即nonGCB)两种类型,无法满足精准分型的临床需求,且非GCB型灵敏度较低。特别是随着淋巴瘤研究的深入,DLBCL不断出现一些新的亚型分类,例如MCD亚型、BN2亚型、N1亚型、EZB亚型、A53亚型、ST2亚型等,免疫组化(IHC)方法显然无法应对这些新的亚型分类。
总的来说,目前现有的COO分型方法,存在操作繁琐、准确度、灵敏度低等问题。如何提高淋巴瘤分子分型的准确性和灵敏度,如何消除传统方法只能局限于少数亚型分类的局限性,从而更好的满足精准分型的临床需求,是淋巴瘤分子分型技术领域亟待解决的问题。
发明内容
本申请的目的是提供一种新的判别淋巴瘤分子亚型的方法、装置和存储介质。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种判别淋巴瘤分子亚型的方法,包括以下步骤:
体系SNV突变位点集获取步骤,包括获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集;
基因层面拷贝数变异检测步骤,包括根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息;
染色体臂层面拷贝数变异检测步骤,包括分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息;
基因层面结构变异检测步骤,包括获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置;
待测肿瘤样本所属亚型判别步骤,包括根据待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型;
其中,淋巴瘤分子亚型显著突变特征数据库,是以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;所述四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息。
需要说明的是,本申请判别淋巴瘤分子亚型的方法,利用待测肿瘤样本四个维度突变信息,即待测肿瘤样本可信的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,能够准确、灵敏的获得待测肿瘤样本的淋巴瘤分子亚型;并且,本申请的方法所能够分析的亚型不受限于GCB和nonGCB,本申请的一种实现方式中,能够实现对MCD亚型、BN2亚型、N1亚型、EZB亚型、A53亚型、ST2亚型六种亚型的准确、灵敏分型。
本申请的一种实现方式中,基因层面拷贝数变异检测步骤,包括使用cnvkit软件析待测肿瘤样本发生CNV突变的区段,具体的,将基线文件作为cnvkit软件的输入文件,同时使用待测肿瘤样本的比对结果文件作为cnvkit软件的输入文件,进行待测肿瘤样本发生CNV突变区段的分析;其中,基线文件为待测肿瘤样本同批次的若干个血细胞样本的比对结果文件。例如,本申请的一种实现方式中,采用了30个血细胞样本的比对结果文件作为基线文件。
需要说明的是,为了确保基线的准确性,CNV的基线文件可以是动态基线,即随着实验批次构建,也可以是固定基线。
本申请的一种实现方式中,染色体臂层面拷贝数变异检测步骤,具体包括对待测肿瘤样本的所有染色体进行CNVLOH分析,检测获得染色体臂层面拷贝数变异信息。
本申请的一种实现方式中,待测肿瘤样本所属亚型判别步骤,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型,具体包括,利用最大似然估计方法计算待测肿瘤样本在每个亚型的似然概率值,按照如下的判断规则,输出待测肿瘤样本所属的淋巴瘤分子亚型,
(1)当只有一个亚型的似然概率大于90%时,则判断待测肿瘤样本为该亚型;
(2)当存在多个亚型的似然概率大于90%时,则判断待测肿瘤样本为混合型;
(3)当亚型似然概率在50%~90%之间时,则最大似然概率的亚型为待测肿瘤样本亚型;
(4)当所有亚型的似然概率均小于50%时,则待测肿瘤样本为无法判断出亚型。
需要说明的是,最大似然估计方法只是本申请的一种实现方式中具体采用的算法,不排除还可以采用其他算法分析获得待测肿瘤样本所属的淋巴瘤分子亚型。
本申请判别淋巴瘤分子亚型的方法中,其中一个关键因素是淋巴瘤分子亚型显著突变特征数据库的构建。因此,本申请的第二方面公开了一种淋巴瘤分子亚型显著突变特征数据库的构建方法,包括以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;其中,四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息;基因层面拷贝数变异信息包括可信CNV突变区域集;染色体臂层面拷贝数变异信息包括所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态;基因层面结构变异信息包括所有SV突变位点集,包括发生SV结构变异的基因,及SV的起始、终止位置。
需要说明的是,本申请的淋巴瘤分子亚型显著突变特征数据库构建方法,实际上就是本申请判别淋巴瘤分子亚型的方法中关于淋巴瘤分子亚型显著突变特征数据库的技术步骤。可以理解,淋巴瘤样本的四个维度突变信息的检测或获取方法与本申请判别淋巴瘤分子亚型的方法中待测肿瘤样本四个维度突变信息的检测或获取方法相同,在此不累述。
本申请的第三方面公开了本申请的淋巴瘤分子亚型显著突变特征数据库构建方法获得的淋巴瘤分子亚型显著突变特征数据库。
可以理解,本申请的淋巴瘤分子亚型显著突变特征数据库,在采用足够多的训练样本获得足够准确和完整的淋巴瘤分子亚型显著突变特征的情况下,可以作为一个单独产品直接用于淋巴瘤分子亚型判别,例如在获得待测肿瘤样本的四个维度突变信息的情况下,直接利用本申请的淋巴瘤分子亚型显著突变特征数据库进行最大似然估计方法计算待测肿瘤样本的淋巴瘤分子亚型。
本申请的第四方面公开了一种存储有本申请的淋巴瘤分子亚型显著突变特征数据库的计算机可读存储介质。
可以理解,本申请的淋巴瘤分子亚型显著突变特征数据库作为一个独立产品时,可以存储于各种计算机可读存储介质中,以便于读取或下载。
本申请的第五方面公开了一种判别淋巴瘤分子亚型的装置,包括体系SNV突变位点集获取模块、基因层面拷贝数变异检测模块、染色体臂层面拷贝数变异检测模块、基因层面结构变异检测模块、淋巴瘤分子亚型显著突变特征数据库构建模块和待测肿瘤样本所属亚型判别模块;体系SNV突变位点集获取模块,包括用于获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集;基因层面拷贝数变异检测模块,包括用于根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gainratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息;染色体臂层面拷贝数变异检测模块,包括用于分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息;基因层面结构变异检测模块,包括用于获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置;淋巴瘤分子亚型显著突变特征数据库构建模块,包括采用若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,获得淋巴瘤分子亚型显著突变特征数据库;四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息;待测肿瘤样本所属亚型判别模块,包括用于根据待测样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测样本所属的淋巴瘤分子亚型。
需要说明的是,本申请判别淋巴瘤分子亚型的装置,实际上就是通过各模块分别实现本申请判别淋巴瘤分子亚型的方法中的各步骤;因此,各模块的具体限定可以参考本申请判别淋巴瘤分子亚型的方法,在此不累述。
还需要说明的是,本申请判别淋巴瘤分子亚型的装置中,淋巴瘤分子亚型显著突变特征数据库构建模块可以根据需求使用或者不使用,例如在已经构建完成淋巴瘤分子亚型显著突变特征数据库的情况下,其他模块可以直接调用淋巴瘤分子亚型显著突变特征数据库,不需要每次进行淋巴瘤分子亚型检测都重新构建淋巴瘤分子亚型显著突变特征数据库。
本申请的第六方面公开了一种判别淋巴瘤分子亚型的装置,该装置包括存储器和处理器;其中,存储器,包括用于存储程序;处理器,包括用于通过执行该存储器存储的程序以实现本申请判别淋巴瘤分子亚型的方法,或者本申请的淋巴瘤分子亚型显著突变特征数据库的构建方法。
本申请的第七方面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请判别淋巴瘤分子亚型的方法,或者本申请的淋巴瘤分子亚型显著突变特征数据库的构建方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请判别淋巴瘤分子亚型的方法和装置,结合待测肿瘤样本可信的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息、基因层面结构变异信息和淋巴瘤分子亚型显著突变特征数据库,能够准确、灵敏的获得待测肿瘤样本的淋巴瘤分子亚型,为淋巴瘤分子分型判别提供了一种新的方案和途径。
附图说明
图1是本申请实施例中判别淋巴瘤分子亚型的方法的流程框图;
图2是本申请实施例中判别淋巴瘤分子亚型的装置的结构框图。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他装置、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
目前传统的淋巴瘤分子亚型分型方法,普遍存在操作繁琐、准确度、灵敏度低等问题,无法满足精准分型的临床需求。弥漫性大B细胞淋巴瘤(DLBCL)是一组生物学高度异质的肿瘤,可以基于生物学、特别是遗传学特点对这类肿瘤合理区分亚型。研究表明在DLBCL根据其基因突变、易位以及拷贝数异常等特点,根据分子特征可以分为不同的遗传学亚型,包括MCD、BN2、EZB、ST2、N1、A53。其中,MCD亚型是以MYD88L265P和CD79B共突变为常见特征,BN2亚型是以BCL6融合及NOTCH2突变为主要突变特征,EZB亚型是以BCL2易位、EZH2突变和REL扩增为主要突变特征,ST2亚型的特征为具有SGK1和TET2突变,N1亚型是以NOTCH1突变为主效特征,A53亚型则具有TP53失活的非整倍体的突变特征。借助每个亚型常见的突变特征,包括SNV突变、基因层面结构变异、基因层面的拷贝数变异、染色体层面的拷贝数变异,构建每个亚型的特征集,根据待测肿瘤样本的四个维度高频出现突变特征在某个亚型特征集占比较高时,区分待测样本所属的亚型。
基于以上研究和认识,本申请创造性的提出了一种新的判别淋巴瘤分子亚型的方法,如图1所示,包括体系SNV突变位点集获取步骤11、基因层面拷贝数变异检测步骤12、染色体臂层面拷贝数变异检测步骤13、基因层面结构变异检测步骤14和待测肿瘤样本所属亚型判别步骤15。
其中,体系SNV突变位点集获取步骤11,包括获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集。
本申请的一种实现方式中,具体的,检测待测肿瘤样本的SNV突变,以及各突变位点包含的突变频率、突变位点深度等信息,输出vcf文件,对体系突变位点进行各个数据库的注释,利用人群数据库过滤掉常见胚系SNV突变,获得可信的体系SNV突变位点集。例如,采用Mutect软件进行体系SNV突变位点检测,采用ANNOVAR软件进行注释、过滤获得可信体系SNV突变位点集。
基因层面拷贝数变异检测步骤12,包括根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变:即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息。
本申请的一种实现方式中,具体的,利用cnvkit软件建立基线输入文件,利用待测肿瘤样本的bam文件作为检测拷贝数变异的输入文件,输出发生拷贝数变异的区域等信息,然后根据检测到的突变区域输出可信度较高的CNV突变区域。
染色体臂层面拷贝数变异检测步骤13,包括分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息。
本申请的一种实现方式中,具体的,对待测肿瘤样本的所有染色体进行CNVLOH分析,输出所有染色体在臂层面发生拷贝数变异的区域起始位置、终止位置、状态(LOH、polysomy)等信息。
基因层面结构变异检测步骤14,包括获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置。
待测肿瘤样本所属亚型判别步骤15,包括根据待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型。
本申请的一种实现方式中,具体的,利用最大似然估计方法计算待测肿瘤样本在每个亚型的似然概率值,按照如下的判断规则,输出待测肿瘤样本所属的淋巴瘤分子亚型,
(1)当只有一个亚型的似然概率大于90%时,则判断待测肿瘤样本为该亚型;
(2)当存在多个亚型的似然概率大于90%时,则判断待测肿瘤样本为混合型;
(3)当亚型似然概率在50%~90%之间时,则最大似然概率的亚型为待测肿瘤样本亚型;
(4)当所有亚型的似然概率均小于50%时,则待测肿瘤样本为无法判断出亚型。
本申请中,淋巴瘤分子亚型显著突变特征数据库,是以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;所述四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息。
本申请的一种实现方式中,具体的,以196例淋巴瘤样本作为确定突变特征集的人群,根据四个维度突变信息人工判断每个样本所属的亚型,统计亚型人群中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的人群数进行Fisher检验,筛选显著的突变特征且该突变特征人群频率大于20%,构建每个亚型的显著突变特征集库。四个维度突变信息即淋巴瘤样本的可信体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,这四个维度的突变信息获得方法与待测肿瘤样本相同。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的方法,本申请提出了一种判别淋巴瘤分子亚型的装置,包括体系SNV突变位点集获取模块21、基因层面拷贝数变异检测模块22、染色体臂层面拷贝数变异检测模块23、基因层面结构变异检测模块24、淋巴瘤分子亚型显著突变特征数据库构建模块25和待测肿瘤样本所属亚型判别模块26。
其中,体系SNV突变位点集获取模块21,包括用于获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集。例如参考Mutect软件进行体系SNV突变位点检测,参考ANNOVAR软件进行注释、过滤获得可信体系SNV突变位点集。
基因层面拷贝数变异检测模块22,包括用于根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息。
染色体臂层面拷贝数变异检测模块23,包括用于分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息。例如参考CNVLOH方法进行染色体在臂层面发生拷贝数变异的区域起始位置、终止位置、状态(LOH、polysomy)等信息的输出。
基因层面结构变异检测模块24,包括用于获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置。
淋巴瘤分子亚型显著突变特征数据库构建模块25,包括采用若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,获得淋巴瘤分子亚型显著突变特征数据库;所述四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息。
待测肿瘤样本所属亚型判别模块26,包括用于根据待测样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测样本所属的淋巴瘤分子亚型。
本申请的另一实现方式中还提供了一种判别淋巴瘤分子亚型的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:体系SNV突变位点集获取步骤,包括获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集;基因层面拷贝数变异检测步骤,包括根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息;染色体臂层面拷贝数变异检测步骤,包括分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息;基因层面结构变异检测步骤,包括获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置;待测肿瘤样本所属亚型判别步骤,包括根据待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型。
或者,以上处理器用于通过执行存储器存储的程序以实现以下方法:以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息;基因层面拷贝数变异信息包括可信CNV突变区域集;染色体臂层面拷贝数变异信息包括所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态;基因层面结构变异信息包括所有SV突变位点集,包括发生SV结构变异的基因,及SV的起始、终止位置。
此时,本申请判别淋巴瘤分子亚型的装置实际上主要用于构建本申请的淋巴瘤分子亚型显著突变特征数据库,该数据库可以用于判别淋巴瘤分子亚型。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:体系SNV突变位点集获取步骤,包括获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集;基因层面拷贝数变异检测步骤,包括根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息;染色体臂层面拷贝数变异检测步骤,包括分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息;基因层面结构变异检测步骤,包括获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置;待测肿瘤样本所属亚型判别步骤,包括根据待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型。
或者,以上存储介质中的程序能够被处理器执行以实现如下方法:以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息;基因层面拷贝数变异信息包括可信CNV突变区域集;染色体臂层面拷贝数变异信息包括所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态;基因层面结构变异信息包括所有SV突变位点集,包括发生SV结构变异的基因,及SV的起始、终止位置。
此时,本申请的计算机可读存储介质实际上就是存储本申请淋巴瘤分子亚型显著突变特征数据库构建方法程序的存储介质,通过其存储的程序可以实现本申请淋巴瘤分子亚型显著突变特征数据库的构建方法,最终输出获得本申请的淋巴瘤分子亚型显著突变特征数据库。这不同于本申请第三方面请求保护的直接存储淋巴瘤分子亚型显著突变特征数据库的存储介质。
可以理解,基于本申请判别淋巴瘤分子亚型的方法和装置,可以将其中的淋巴瘤分子亚型显著突变特征数据库的构建方案独立出来,例如,单独提供一种淋巴瘤分子亚型显著突变特征数据库的构建方法,或者单独提供一种淋巴瘤分子亚型显著突变特征数据库的构建装置。当然,本申请构建的淋巴瘤分子亚型显著突变特征数据库也可以作为一个独立的产品供下载使用。
本申请判别淋巴瘤分子亚型的方法和装置,主要包括:1.获取待测肿瘤样本的bam文件;2.利用SNV检测软件检测肿瘤样本的体系SNV突变位点,输出SNV突变位点位置、突变频率等信息;3.利用注释软件对体系SNV突变位点进行注释,结合注释信息进行过滤,输出可信的体系SNV突变位点;4.利用cnvkit软件检测肿瘤样本发生拷贝数变异的区域,对其做注释过滤分析,输出CNV区域的起始位置、终止位置、基因、转录本等信息;5.分析CNVLOH以检测染色体臂层面的拷贝数变异结果;6.利用SV分析软件,对待检测肿瘤样本分析基因层面结构变异,以获得发生结构变异的基因、基因起始终止位置等信息;7.确定每个亚型的显著的突变特征集,即淋巴瘤分子亚型显著突变特征数据库;8.结合淋巴瘤分子亚型显著突变特征数据库、肿瘤样本的四个维度突变特征两方面的信息,利用似然概率模型判断待测肿瘤样本所属亚型。
本申请的输入文件包括:待测肿瘤样本检出的体系SNV突变位点、基因层面结构变异、基因层面的拷贝数变异、染色体层面的拷贝数变异四个维度的突变信息文件。
本申请的输出文件包括:待测肿瘤样本在每个亚型的似然概率值、所属亚型类型。
本申请提供拷贝数检测运行模式:自动化鉴定待测样本所属亚型的模块,单线程运行,一次可鉴定一个待测样本。
本申请判别淋巴瘤分子亚型的方法和装置,其关键技术包括:
每个亚型突变特征集的筛选:淋巴瘤的发生发展过程涉及基因突变、染色体异位、基因缺失和基因扩增等基因组改变,每个亚型在基因组变异层面有特定的突变类型,借助亚型特定突变类型区分样本所属的亚型,进而能够辅助临床诊断预后判断及选择有效的靶向治疗方案。本申请利用196例淋巴瘤样本作为突变特征集筛选的训练集,检测每个样本的体系SNV突变、基因层面结构变异、基因层面拷贝数变异、臂层面的拷贝数变异四个维度的突变特征,首先,结合每个样本所有突变特征通过人工判读判断所属的亚型,然后统计每一类别亚型包含的样本集统计人群突变频率,过滤人群频率小于20%突变特征,接着对每个突变特征根据在亚型人群数及其他亚型中人群数进行Fisher检验,保留显著的突变特征纳入到该亚型的突变特征集中,即获得本申请的淋巴瘤分子亚型显著突变特征数据库。
可以理解,本申请具体采用的是196例淋巴瘤样本作为突变特征集筛选的训练集,在条件允许的情况下,还可以采集更多的淋巴瘤样本作为训练集,进一步优化每个亚型的突变特征集,提高临床预后的显著性。
根据似然概率模型判断待测样本所属亚型:不同亚型是预测弥漫性大B细胞淋巴瘤患者预后的主要指,每个亚型预后的结果是不一致的,明确待测样本所属亚型对临床预后有重要意义。本申请利用已确定的每个亚型显著突变特征集及每个突变特征在每一类别亚型人群数信息应用到似然概率模型中,获取待测样本在每个亚型的似然概率值,根据判断规则,输出待测样本所属亚型。
本申请的术语及其缩写含义如下:
CNV:全称Copy number variations,即基因拷贝数变异。
LOH:全称Loss of heterozygosity,即杂合性缺失。
Polysomy:多体性。
IHC:全称Immunohistochemistry,即免疫组化。
COO:全称Cell of Origin,即细胞起源。
Fisher检验:全称Fisher's precision probability test,即费希尔精确概率检验,基于超几何分布计算的。
实施例
本例判别淋巴瘤分子亚型的方法,包括以下步骤:
体系SNV突变位点集获取步骤:包括获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集。
本例具体分析SNV突变,检测肿瘤样本的突变位点包含的突变频率、突变位点深度等信息,输出vcf文件,对体系突变位点进行注释,例如,利用人群数据库过滤掉常见胚系SNV突变,获得可信的体系SNV突变位点集。例如,采用Mutect软件进行体系SNV突变位点检测,采用ANNOVAR软件进行注释、过滤获得可信体系SNV突变位点集。
基因层面拷贝数变异检测步骤:包括根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变:即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息。
本例具体的利用cnvkit软件建立基线输入文件,将基线文件和待测肿瘤样本的bam文件作为检测拷贝数变异的输入文件,输出发生拷贝数变异的区域等信息,输出可信度较高的CNV突变区域。其中,基线文件可以是动态基线,即随着实验批次构建,也可以是固定基线。本例具体的,采用了30个血细胞样本的比对结果文件作为基线文件。
染色体臂层面拷贝数变异检测步骤:包括分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息。
本例具体包括检测染色体臂层面拷贝数变异的CNVLOH,输出所有染色体在臂层面发生拷贝数变异的区域起始位置、终止位置、状态(LOH、polysomy)等信息。
基因层面结构变异检测步骤:包括获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置。
本例具体通过检测基因结构变异的输入文件-比对结果文件,输出所有发生结构变异的基因及结构变异的位置信息。
待测肿瘤样本所属亚型判别步骤:包括根据待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型。
本例具体的,利用最大似然估计方法计算待测肿瘤样本在每个亚型的似然概率值,按照如下的判断规则,输出待测肿瘤样本所属的淋巴瘤分子亚型:
(1)当只有一个亚型的似然概率大于90%时,则判断待测肿瘤样本为该亚型;
(2)当存在多个亚型的似然概率大于90%时,则判断待测肿瘤样本为混合型;
(3)当亚型似然概率在50%~90%之间时,则最大似然概率的亚型为待测肿瘤样本亚型;
(4)当所有亚型的似然概率均小于50%时,则待测肿瘤样本为无法判断出亚型。
本例的淋巴瘤分子亚型显著突变特征数据库,采用以下方法构建获得:
包括以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;其中,四个维度突变信息包括淋巴瘤样本的可信体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息。淋巴瘤样本的四个维度突变信息的检测或获取方法与本例判别淋巴瘤分子亚型的方法中待测肿瘤样本四个维度突变信息的检测或获取方法相同。
按照以上方法,本例首先分析了196例淋巴瘤样本的可信体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息四个维度包含的分子特征,以训练集包含的所有分子特征作为筛选每个亚型显著突变特征集。将已确定每个亚型相关的显著突变特征集及196例淋巴瘤样本的基因组包含的分子特征应用到似然概率模型中,根据每个亚型的似然概率值,输出每个样本所属亚型。对比分析本例方法获得的每个样本的亚型与人工判断的各样本的真实亚型,部分结果如表1所示。
表1淋巴瘤样本分子亚型判别结果
Figure BDA0003369847460000161
Figure BDA0003369847460000171
表1的结果显示,本例判别淋巴瘤分子亚型的方法与人工判断一致性达到65%;同时,本例判别淋巴瘤分子分型的分型率达到78%,显著优于七分型文章中的57.4%的分型率,本例判别淋巴瘤分型结果中other亚型(无法分型)比例为7%,显著优于七分型文章中的36.9%。本例的判别方法可以判别待测肿瘤样本所属的亚型,再结合待测肿瘤样本的临床信息,能够获得与GCB和nonGCB样本集有显著的预后差异。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

Claims (18)

1.一种判别淋巴瘤分子亚型的方法,其特征在于:包括以下步骤,
体系SNV突变位点集获取步骤,包括获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集;
基因层面拷贝数变异检测步骤,包括根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息;
染色体臂层面拷贝数变异检测步骤,包括分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息;
基因层面结构变异检测步骤,包括获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置;
待测肿瘤样本所属亚型判别步骤,包括根据待测肿瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型;
所述淋巴瘤分子亚型显著突变特征数据库,是以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;所述四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息。
2.根据权利要求1所述的方法,其特征在于:所述基因层面拷贝数变异检测步骤,包括使用cnvkit软件析待测肿瘤样本发生CNV突变的区段,具体的,将基线文件作为cnvkit软件的输入文件,同时使用待测肿瘤样本的比对结果文件作为cnvkit软件的输入文件,进行待测肿瘤样本发生CNV突变区段的分析;所述基线文件为待测肿瘤样本同批次的若干个血细胞样本的比对结果文件。
3.根据权利要求1所述的方法,其特征在于:所述染色体臂层面拷贝数变异检测步骤,对待测肿瘤样本的所有染色体进行CNVLOH分析,检测获得染色体臂层面拷贝数变异信息。
4.根据权利要求1所述的方法,其特征在于:所述待测肿瘤样本所属亚型判别步骤,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型,具体包括,利用最大似然估计方法计算待测肿瘤样本在每个亚型的似然概率值,按照如下的判断规则,输出待测肿瘤样本所属的淋巴瘤分子亚型,
(1)当只有一个亚型的似然概率大于90%时,则判断待测肿瘤样本为该亚型;
(2)当存在多个亚型的似然概率大于90%时,则判断待测肿瘤样本为混合型;
(3)当亚型似然概率在50%~90%之间时,则最大似然概率的亚型为待测肿瘤样本亚型;
(4)当所有亚型的似然概率均小于50%时,则待测肿瘤样本为无法判断出亚型。
5.一种淋巴瘤分子亚型显著突变特征数据库的构建方法,其特征在于:包括以若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,从而获得淋巴瘤分子亚型显著突变特征数据库;
所述四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息;
所述基因层面拷贝数变异信息包括可信CNV突变区域集;
所述染色体臂层面拷贝数变异信息包括所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态;
所述基因层面结构变异信息包括所有SV突变位点集,包括发生SV结构变异的基因,及SV的起始、终止位置。
6.根据权利要求5所述的构建方法,其特征在于:所述体系SNV突变位点集的获得方法包括,获取淋巴瘤样本的比对结果文件,分析淋巴瘤样本的SNV突变位点,及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行的注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集。
7.根据权利要求5所述的构建方法,其特征在于:所述基因层面拷贝数变异信息的获得方法包括,根据肿瘤样本的比对结果文件和肿瘤样本配对的血细胞样本的比对结果文件,分析肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成肿瘤样本的基因层面拷贝数变异信息。
8.根据权利要求7所述的构建方法,其特征在于:使用cnvkit软件析肿瘤样本发生CNV突变的区段,具体的,将基线文件作为cnvkit软件的输入文件,同时使用肿瘤样本的比对结果文件作为cnvkit软件的输入文件,进行肿瘤样本发生CNV突变区段的分析;所述基线文件为待测肿瘤样本同批次的若干个血细胞样本的比对结果文件。
9.根据权利要求5所述的构建方法,其特征在于:所述染色体臂层面拷贝数变异信息的获得方法包括,分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成肿瘤样本的染色体臂层面拷贝数变异信息。
10.根据权利要求9所述的构建方法,其特征在于:对肿瘤样本的所有染色体进行CNVLOH分析,检测获得染色体臂层面拷贝数变异信息。
11.根据权利要求5-10任一项所述的构建方法获得的淋巴瘤分子亚型显著突变特征数据库。
12.一种存储有权利要求11所述的淋巴瘤分子亚型显著突变特征数据库的计算机可读存储介质。
13.一种判别淋巴瘤分子亚型的装置,其特征在于:包括体系SNV突变位点集获取模块、基因层面拷贝数变异检测模块、染色体臂层面拷贝数变异检测模块、基因层面结构变异检测模块、淋巴瘤分子亚型显著突变特征数据库构建模块和待测肿瘤样本所属亚型判别模块;
所述体系SNV突变位点集获取模块,包括用于获取待测肿瘤样本的比对结果文件,分析待测肿瘤样本的SNV突变位点及各SNV突变位点的突变频率、突变位点深度,对SNV突变位点进行注释,筛选突变频率大于1%、且注释Function信息为missense的突变位点,作为体系SNV突变位点集;
所述基因层面拷贝数变异检测模块,包括用于根据待测肿瘤样本的比对结果文件和待测肿瘤样本配对的血细胞样本的比对结果文件,分析待测肿瘤样本发生CNV突变的区段,对CNV突变区域进行注释,筛选保留ratio阈值范围内的CNV突变,即Gain ratio大于等于1.4,loss小于等于0.8的CNV突变,作为可信CNV突变区域集,组成待测肿瘤样本的基因层面拷贝数变异信息;
所述染色体臂层面拷贝数变异检测模块,包括用于分析获得所有染色体臂发生拷贝数变异的区域的起始位置、终止位置、染色体多体性状态和染色体臂杂合性缺失状态,组成待测肿瘤样本的染色体臂层面拷贝数变异信息;
所述基因层面结构变异检测模块,包括用于获取待测肿瘤样本的SV突变位点集合,包括发生SV结构变异的基因,及SV的起始、终止位置;
所述淋巴瘤分子亚型显著突变特征数据库构建模块,包括采用若干已知淋巴瘤分子亚型的淋巴瘤样本作为确定突变特征集的训练样本,根据淋巴瘤样本四个维度突变信息,人工判断得到每个训练样本所属的亚型,统计各亚型的训练样本中突变特征的突变频率,对每个突变特征在某亚型和其他亚型的支持的训练样本数进行Fisher检验,筛选显著的突变特征,且该突变特征的训练样本频率大于20%,构建每个亚型的显著突变特征集,获得淋巴瘤分子亚型显著突变特征数据库;所述四个维度突变信息包括淋巴瘤样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息;
所述待测肿瘤样本所属亚型判别模块,包括用于根据待测样本的体系SNV突变位点集、基因层面拷贝数变异信息、染色体臂层面拷贝数变异信息和基因层面结构变异信息,结合淋巴瘤分子亚型显著突变特征数据库,利用最大似然估计方法计算和分析待测样本所属的淋巴瘤分子亚型。
14.根据权利要求13所述的装置,其特征在于:所述基因层面拷贝数变异检测模块,包括使用cnvkit软件析待测肿瘤样本发生CNV突变的区段,具体的,将基线文件作为cnvkit软件的输入文件,同时使用待测肿瘤样本的比对结果文件作为cnvkit软件的输入文件,进行待测肿瘤样本发生CNV突变区段的分析;所述基线文件为待测肿瘤样本同批次的若干个血细胞样本的比对结果文件。
15.根据权利要求13所述的装置,其特征在于:所述染色体臂层面拷贝数变异检测模块,包括用于对待测肿瘤样本的所有染色体进行CNVLOH分析,检测获得染色体臂层面拷贝数变异信息。
16.根据权利要求13所述的装置,其特征在于:所述待测肿瘤样本所属亚型判别模块,利用最大似然估计方法计算和分析待测肿瘤样本所属的淋巴瘤分子亚型,具体包括,利用最大似然估计方法计算待测肿瘤样本在每个亚型的似然概率值,按照如下的判断规则,输出待测肿瘤样本所属的淋巴瘤分子亚型,
(1)当只有一个亚型的似然概率大于90%时,则判断待测肿瘤样本为该亚型;
(2)当存在多个亚型的似然概率大于90%时,则判断待测肿瘤样本为混合型;
(3)当亚型似然概率在50%~90%之间时,则最大似然概率的亚型为待测肿瘤样本亚型;
(4)当所有亚型的似然概率均小于50%时,则待测肿瘤样本为无法判断出亚型。
17.一种判别淋巴瘤分子亚型的装置,其特征在于:所述装置包括存储器和处理器;
所述存储器,包括用于存储程序;
所述处理器,包括用于通过执行所述存储器存储的程序以实现权利要求1-4任一项所述的判别淋巴瘤分子亚型的方法或者权利要求5-10任一项所述的淋巴瘤分子亚型显著突变特征数据库的构建方法。
18.一种计算机可读存储介质,其特征在于:所述存储介质中存储有程序,所述程序能够被处理器执行以实现权利要求1-4任一项所述的判别淋巴瘤分子亚型的方法或者权利要求5-10任一项所述的淋巴瘤分子亚型显著突变特征数据库的构建方法。
CN202111394173.2A 2021-11-23 2021-11-23 一种判别淋巴瘤分子亚型的方法、装置和存储介质 Active CN114093421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111394173.2A CN114093421B (zh) 2021-11-23 2021-11-23 一种判别淋巴瘤分子亚型的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111394173.2A CN114093421B (zh) 2021-11-23 2021-11-23 一种判别淋巴瘤分子亚型的方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN114093421A CN114093421A (zh) 2022-02-25
CN114093421B true CN114093421B (zh) 2022-08-23

Family

ID=80303227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111394173.2A Active CN114093421B (zh) 2021-11-23 2021-11-23 一种判别淋巴瘤分子亚型的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN114093421B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596918B (zh) * 2022-03-11 2023-03-24 苏州吉因加生物医学工程有限公司 一种检测突变的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109385666A (zh) * 2017-08-02 2019-02-26 深圳华大基因股份有限公司 淋巴瘤基因捕获芯片及其应用
WO2021030447A1 (en) * 2019-08-12 2021-02-18 Mission Bio, Inc. Method, system and apparatus for multi-omic simultaneous detection of protein expression, single nucleotide variations, and copy number variations in the same single cells
CN112768000A (zh) * 2021-01-25 2021-05-07 深圳吉因加医学检验实验室 一种预测met基因拷贝数变化类型的方法及装置
CN112766428A (zh) * 2021-04-08 2021-05-07 臻和(北京)生物科技有限公司 肿瘤分子分型方法及装置、终端设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278133A1 (en) * 2013-03-15 2014-09-18 Advanced Throughput, Inc. Systems and methods for disease associated human genomic variant analysis and reporting
CN110808081B (zh) * 2019-09-29 2022-07-08 深圳吉因加医学检验实验室 一种鉴定肿瘤纯度样本的模型构建方法及应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109385666A (zh) * 2017-08-02 2019-02-26 深圳华大基因股份有限公司 淋巴瘤基因捕获芯片及其应用
WO2021030447A1 (en) * 2019-08-12 2021-02-18 Mission Bio, Inc. Method, system and apparatus for multi-omic simultaneous detection of protein expression, single nucleotide variations, and copy number variations in the same single cells
CN112768000A (zh) * 2021-01-25 2021-05-07 深圳吉因加医学检验实验室 一种预测met基因拷贝数变化类型的方法及装置
CN112766428A (zh) * 2021-04-08 2021-05-07 臻和(北京)生物科技有限公司 肿瘤分子分型方法及装置、终端设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Refining diffuse large B-cell lymphoma subgroups using integrated analysis of molecular profiles";Sydney Dubois等;《EBioMedicine》;20191021;第48卷;58-69 *
"基于肿瘤基因高通量捕获测序技术的肝癌分子分型研究";周进学;《中国优秀博硕士学位论文全文数据库(博士) 医药卫生科技辑》;20171215;E072-191 *

Also Published As

Publication number Publication date
CN114093421A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN109033749B (zh) 一种肿瘤突变负荷检测方法、装置和存储介质
Zill et al. The landscape of actionable genomic alterations in cell-free circulating tumor DNA from 21,807 advanced cancer patients
CN109022553B (zh) 用于肿瘤突变负荷检测的基因芯片及其制备方法和装置
North et al. Fluorescence in situ hybridization as an ancillary tool in the diagnosis of ambiguous melanocytic neoplasms: a review of 804 cases
CN107423578B (zh) 检测体细胞突变的装置
CN112951418B (zh) 基于液体活检的连锁区域甲基化评估方法和装置、终端设备及存储介质
Kumar et al. Automated analysis of immunohistochemistry images identifies candidate location biomarkers for cancers
CN111326212B (zh) 一种结构变异的检测方法
CN106021994B (zh) 一种肿瘤突变位点筛选及互斥基因挖掘的方法
JP6122865B2 (ja) 全ゲノム配列を使用する生物学的細胞評価およびこれを使用する腫瘍治療計画
CN111091868B (zh) 一种染色体非整倍体的分析方法及系统
CN108130372A (zh) 一种用于急性髓系白血病药物指示的方法及装置
Waldron et al. Expression profiling of archival tumors for long-term health studies
Garcia et al. Sensitivity, specificity, and accuracy of a liquid biopsy approach utilizing molecular amplification pools
CN114093421B (zh) 一种判别淋巴瘤分子亚型的方法、装置和存储介质
CN110060733A (zh) 基于单样本的二代测序肿瘤体细胞变异检测装置
CN116580768B (zh) 一种基于定制化策略的肿瘤微小残留病灶检测方法
JP2006114037A (ja) 比較ゲノムハイブリダイゼーション(cgh)データの見かけ上の異常を統計的に分析しプロットするためのシステムおよび方法
WO2019211418A1 (en) Surrogate marker and method for tumor mutation burden measurement
Pabla et al. Development and analytical validation of a next-generation sequencing based microsatellite instability (MSI) assay
CN109686414A (zh) 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法
CN110111839A (zh) 一种精确定量肿瘤标准品中突变支持reads数的方法及其应用
CN113913518B (zh) 成熟b细胞肿瘤的分型标志物及其应用
CN105969656B (zh) 一种单细胞外显子测序肿瘤体细胞突变检测及分析平台
CN114093417B (zh) 一种鉴定染色体臂杂合性缺失的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518118 4th floor, building 3, the first branch of Zhongcheng Life Science Park, Zhongxing Road, Kengzi street, Pingshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen jiyinga Information Technology Co.,Ltd.

Address before: 518118 4th floor, building 3, the first branch of Zhongcheng Life Science Park, Zhongxing Road, Kengzi street, Pingshan District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen genehome Technology Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220727

Address after: 518118 4th floor, building 3, the first branch of Zhongcheng Life Science Park, Zhongxing Road, Kengzi street, Pingshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen jiyinga Information Technology Co.,Ltd.

Applicant after: Suzhou jiyinga medical laboratory Co.,Ltd.

Address before: 518118 4th floor, building 3, the first branch of Zhongcheng Life Science Park, Zhongxing Road, Kengzi street, Pingshan District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen jiyinga Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant