CN113728391A - 用于基于上下文压缩免疫肿瘤学生物标志物的基因组数据的方法 - Google Patents

用于基于上下文压缩免疫肿瘤学生物标志物的基因组数据的方法 Download PDF

Info

Publication number
CN113728391A
CN113728391A CN202080028518.XA CN202080028518A CN113728391A CN 113728391 A CN113728391 A CN 113728391A CN 202080028518 A CN202080028518 A CN 202080028518A CN 113728391 A CN113728391 A CN 113728391A
Authority
CN
China
Prior art keywords
value
reads
class
kth
kth class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080028518.XA
Other languages
English (en)
Other versions
CN113728391B (zh
Inventor
F·海兰
A·卡玛特
T·隆尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Life Technologies Corp
Original Assignee
Life Technologies Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Life Technologies Corp filed Critical Life Technologies Corp
Publication of CN113728391A publication Critical patent/CN113728391A/zh
Application granted granted Critical
Publication of CN113728391B publication Critical patent/CN113728391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Physiology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

方法包含压缩对测试样品执行的基因表达测定的靶向基因的读段数量数据。将所述靶向基因组织成类别。每个类别表示与所述类别中的所述靶向基因相关的功能上下文。压缩与靶向基因每个类别相对应的读段数量以形成所述类别的压缩值。将所述压缩值与所述类别的基线值进行比较以确定与所述类别的功能上下文相对应的签名的富集或丢失。方法可以包含分析来自对所述测试样品执行的多个测定的信息、向每个测定结果分配评分值并且基于所分配评分预测对免疫肿瘤学治疗的应答。

Description

用于基于上下文压缩免疫肿瘤学生物标志物的基因组数据的 方法
相关申请的交叉引用
本申请根据35U.S.C.§119(e)要求于2019年4月18日提交的美国临时申请第62/835,586 号的权益。前述申请的全部内容以引用的方式并入本文中。
背景技术
核酸测序数据可以以各种方式获得,包含使用下一代测序系统,例如实施IonTorrentTM测序技术的Ion PGMTM、Ion ProtonTM和Ion S5TM系统(参见例如,于2011年5月24日发布的美国专利第7,948,015号、于2010年6月3日公布的美国专利申请公开第2010/0137143号、于2009年1月29日公布的美国专利申请公开第2009/0026082号和于2010年11月11日公布的美国专利申请公开第2010/0282617号,所述专利通过引用以其整体全部并入本文中)。此类下一代测序系统可以与针对所关注的靶标的引物结合使用,所述引物可以以各种方式设计或制备,包含如于2012年11月22日公布的美国专利申请公开第2012/0295819号中所描述的,所述美国专利申请公开通过引用以其整体并入本文。
对免疫治疗学的抗癌应答可能是戏剧性的。然而,抗癌应答可能仅在肿瘤子集中观察到。正在进行的研究涉及确定为什么一些癌症对免疫治疗学不应答。应答的关键决定因素之一是肿瘤微环境。目前的研究表明,肿瘤预先存在的免疫组织对免疫治疗剂的应答有显著影响。因此,需要改善的方法来确定对肿瘤环境的免疫图谱分析必不可少的基因和用于生成确定肿瘤免疫状态的免疫图谱。
发明内容
广泛而全面的文献挖掘可以用于确定提供肿瘤免疫学模式概述的基因。如DAVID等公共工具(用于注释、可视化和整合发现的数据库,https://david.ncifcrf.gov/)可以用于确定这些基因的功能属性。一组这些基因和基于下一代测序(NGS)的基因表达技术可以用于生成基于表达的肿瘤功能表征。
可以存储和处理使用各种技艺、平台或技术从核酸样品获得的大量核酸序列数据,以检测与预测对免疫肿瘤学治疗的应答相关的生物标志物。需要新的方法、系统和计算机可读介质来压缩与免疫肿瘤学生物标志物相关的基因的核酸序列读段数据,以减少存储的存储器需求,并且基于压缩数据检测与功能上下文相对应的签名的富集或丢失。需要用于分析来自多个测定的结果信息以预测对免疫肿瘤学治疗的应答的新方法、系统和计算机可读介质。
根据示例性实施例,提供了一种方法,其包括:(a)接收对测试样品执行的基因表达测定的多个靶向基因的多个读段数量。将所述多个靶向基因组织成多个类别。所述多个类别中的第k个类别表示与所述第k个类别中的靶向基因相关的功能上下文。所述第k个类别具有与所述多个靶向基因中的Nk个靶向基因相关的Nk个读段数量。针对所述多个类别中的每个第k个类别,所述方法应用以下步骤:(b)确定所述Nk个读段数量中的关于所述第k个类别中的每个第i个靶向基因的读段数量;(c)压缩所述第k个类别中的所述Nk个读段数量以形成所述第k个类别的压缩值,其中所述压缩值具有所述第k个类别的减少量的数据以用于存储在存储器中;以及(d)将所述压缩值与所述第k个类别的基线值进行比较以确定对应于所述第k个类别的所述功能上下文的签名的富集或丢失。
根据示例性实施例,提供了一种系统,其包括处理器和与所述处理器通信地连接的存储器,所述处理器被配置成执行包含以下的方法:a)接收对测试样品执行的基因表达测定的多个靶向基因的多个读段数量。将所述多个靶向基因组织成多个类别。所述多个类别中的第k 个类别表示与所述第k个类别中的靶向基因相关的功能上下文。所述第k个类别具有与所述多个靶向基因中的Nk个靶向基因相关的Nk个读段数量。针对所述多个类别中的每个第k个类别,所述处理器应用以下步骤:(b)确定所述Nk个读段数量中的关于所述第k个类别中的每个第i个靶向基因的读段数量;(c)压缩所述第k个类别中的Nk个读段数量以形成所述第 k个类别的压缩值,其中所述压缩值具有所述第k个类别的减少量的数据以用于存储在所述存储器中;以及(d)将所述压缩值与所述第k个类别的基线值进行比较以确定对应于所述第 k个类别的所述功能上下文的签名的富集或丢失。
根据示例性实施例,提供了一种非暂时性机器可读存储介质,其包括指令,所述指令当由处理器执行时使所述处理器执行方法,所述方法包括:a)接收对测试样品执行的基因表达测定的多个靶向基因的多个读段数量。将所述多个靶向基因组织成多个类别。所述多个类别中的第k个类别表示与所述第k个类别中的靶向基因相关的功能上下文。所述第k个类别具有与所述多个靶向基因中的Nk个靶向基因相关的Nk个读段数量。针对所述多个类别中的每个第k个类别,所述处理器应用以下步骤:(b)确定所述Nk个读段数量中的关于所述第k个类别中的每个第i个靶向基因的读段数量;(c)压缩所述第k个类别中的所述Nk个读段数量以形成所述第k个类别的压缩值,其中所述压缩值具有所述第k个类别的减少量的数据以用于存储在存储器中;以及(d)将所述压缩值与所述第k个类别的基线值进行比较以确定对应于所述第k个类别的所述功能上下文的签名的富集或丢失。
附图说明
并入到说明书中且形成说明书的一部分的随附图式说明一个或多个示例性实施例且用以解释各个示例性实施例的原理。图式仅是示例性和解释性的,且不应理解为以任何方式限制或约束。
图1是根据示例性实施例的对与功能上下文相关的类别中的靶向基因的读段数量进行压缩和分析的框图。
图2是根据示例性实施例的用于使用来自多个测定的结果信息来预测对免疫肿瘤学治疗的应答的方法的框图。
图3是根据各个实施例的用于重建核酸序列的示例性系统的框图。
具体实施方式
根据本申请中具体化的教导和原理,提供了新的方法、系统和非暂时性机器可读存储介质来压缩与免疫肿瘤学生物标志物相关的基因的核酸序列读段的数据并基于压缩数据检测与功能上下文相对应的签名的富集或丢失。提供了新的方法、系统和非暂时性机器可读存储介质,用于分析来自多个测定的结果信息以预测对免疫肿瘤学治疗的应答。
在各个实施例中,DNA(脱氧核糖核酸)可以被称为由4种类型的核苷酸组成的核苷酸链:A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤),并且所述RNA(核糖核酸) 包含4种类型的核苷酸;A、U(尿嘧啶)、G和C。某些核苷酸对以互补方式彼此特异性结合(被称为互补碱基配对)。也就是说,腺嘌呤(A)与胸腺嘧啶(T)配对(然而,在RNA 的情况下,腺嘌呤(A)与尿嘧啶(U)配对),并且胞嘧啶(C)与鸟嘌呤(G)配对。当第一核酸链结合到由与第一链中的核苷酸互补的核苷酸构成的第二核酸链时,两个链结合以形成双链。在各个实施例中,“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”、“核酸序列读段”或“核酸测序读段”表示指示核苷酸碱基(例如腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶/尿嘧啶)在DNA或RNA分子(例如全基因组、全转录组、外显子组、寡核苷酸、聚核苷酸、片段等)中的次序的任何信息或数据。应理解,本教示涵盖使用包含但不限于以下的所有可用种类的技巧、平台或技术获得的序列信息:毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸识别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。
“聚核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间键接合的核苷(包含脱氧核糖核苷、核糖核苷或其类似物)的线性聚合物。通常,聚核苷酸包括至少三个核苷。通常,寡核苷酸的大小在几个单体单元,例如3-4个至几百个单体单元范围内。每当聚核苷酸(如寡核苷酸) 由一序列字母(如“ATGCCTG”)表示时,应理解,除非另外指出,否则核苷酸按从左到右的5'->3'次序并且“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,且“T”表示胸苷。如在本领域中标准的,字母A、C、G和T可以用于指碱基本身、核苷或包括碱基的核苷酸。
短语“基因组变体(genomic variants/genome variants)”表示由于突变、重组/交换或基因变动而对标记为特定物种内的特定物种或亚群进行了变化的单个或一组序列(在DNA或RNA 中)。基因组变体类型的实例包含但不限于:单核苷酸多态性(SNP)、拷贝数变体(CNV)、插入/缺失(插入缺失)、倒位等。
在各个实施例中,可以使用核酸测序系统和/或测序数据的分析来检测基因组变体。测序工作流程可以开始于将测试样品剪切或消化至数百、数千或数百万个较小的片段,这些片段在核酸测序仪上测序以提供数百、数千或数百万的序列读段,如核酸序列读段。然后可以将每个读段映射到参考或靶向基因组,并且在配对片段的情况下,可以配对读段,从而允许询问基因组的重复区域。映射和配对的结果可以用作各种独立或整合的基因组变体(例如,SNP、 CNV、插入和/或缺失、反转等)分析工具的输入。
短语“下一代测序”或NGS是指相比于传统的基于桑格(Sanger)和毛细电泳法的方法具有增加的通量,例如具有一次产生数十万相对较小序列读段的能力的测序技术。下一代测序技术的一些实例包含(但不限于)合成测序、连接测序以及杂交测序。
短语“样品基因组”可以表示生物体的全或部分基因组。
如本文所用,“靶向组”是指一组靶标特异性引物,其被设计用于选择性扩增样品中的靶基因序列。在一些实施例中,至少一种靶序列的以下选择性扩增、工作流程还包含扩增的靶序列的核酸测序。
如本文所用,“靶序列”或“靶基因序列”和其派生物是指可根据本公开扩增或合成的任何单链或双链核酸序列,包含怀疑或预期样品中存在的任何核酸序列。在一些实施例中,在添加靶标特异性引物或附接衔接子之前,靶序列以双链形式存在并且包含待扩增或合成的具体核苷酸序列的至少一部分或其补体。靶序列可以包含可与适用于扩增或合成反应的引物在聚合酶延伸之前杂交的核酸。在一些实施例中,所述术语指核酸序列,其序列一致性、核苷酸的次序或位置由本公开的方法中的一种或多种确定。
如本文所用,“靶标特异性引物”和其衍生词指单链或双链聚核苷酸,通常为寡核苷酸,其包含至少一个与包含靶序列的核酸分子的至少一部分至少50%互补,通常至少75%互补或至少85%互补,更通常至少90%互补,更通常至少95%互补,更通常至少98%或至少99%互补或一致的序列。在此类情况下,靶标特异性引物和靶序列描述成彼此“对应”。在一些实施例中,靶标特异性引物能够与其对应靶序列的至少一部分(或靶序列的补体)杂交;此类杂交可任选地在标准杂交条件下或在严格杂交条件下进行。在一些实施例中,靶标特异性引物不能与靶序列或其补体杂交,但能够与包含靶序列的核酸链的一部分或其补体杂交。在一些实施例中,正向靶标特异性引物和反向靶标特异性引物定义靶标特异性引物对,其可用于经由模板依赖性引物延伸来扩增靶序列。通常,靶标特异性引物对中的每个引物包含至少一个与包含相应靶序列的核酸分子的至少一部分基本上互补,但与样品中的至少一个其它靶序列小于50%互补的序列。在一些实施例中,扩增可以在单次扩增反应中使用多个靶标特异性引物对进行,其中每个引物对包含正向靶标特异性引物和反向靶标特异性引物,各自包含至少一个与样品中的相应靶序列基本上互补或基本上一致的序列,并且每个引物对具有不同的对应靶序列。
在一些实施例中,如Oncomine免疫应答研究测定(OIRRA)等基因表达组使用大约400 个基因来表征实体瘤和肿瘤微环境。OIRRA组可从赛默飞世尔科技公司(ThermoFisherScientific)获得(SKU A32881和A32928)。用于评估免疫应答的组合物和方法在于2018年3月29日公布的PCT国际公开第WO 2018/057971号中进行描述,所述国际公开通过引用整体并入本文。对这些基因的表达的分析可以揭示肿瘤微环境的不同特性,包含免疫活性、相反的免疫沙漠表型和免疫排斥的中间表型。可以预测描述肿瘤微环境和免疫系统的特定性质的另外表型。在一些实施例中,本文所描述的方法通过产生与应答相关的若干签名来提供对肿瘤环境的洞察。这种测定在生物标志物研究中的效用包含产生免疫相关签名的能力,所述签名允许鉴定可能对免疫疗法应答的肿瘤。
在一些实施例中,可以基于来自文献的信息为与基因集合相关的签名选择表1中所示的类别中的一个或多个类别。类别对应于与基因集合相关的签名或功能上下文。通常,除非表中另有说明,否则作为经鉴定类别的成员的肿瘤,经鉴定的基因将被上调。术语上调是指基因的表达水平是正常组织中所述基因的表达的至少两倍。术语下调是指基因的表达水平低于正常组织中基因的表达水平的一半。术语树突状细胞(DC)成熟指示细胞已经成熟为形成树突状细胞。
表1.
Figure BDA0003301285520000061
在一些实施例中,一个或多个类别可以选自与肿瘤活性相关的类别,如表2中列出的实例。
表2.
Figure BDA0003301285520000062
在一些实施例中,一个或多个类别可以选自与细胞类型评分相关的类别,如表3中列出的实例。
表3.
Figure BDA0003301285520000071
在一些实施例中,一个或多个类别可以选自与癌症免疫周期阶段相关的类别,如表4中列出的实例。
表4.
Figure BDA0003301285520000072
在一些实施例中,一个或多个类别可以选自与肿瘤的免疫原性程度相关的类别,如表5中列出的实例。
表5.
高免疫原性肿瘤 TMB值>17和/或MSI状态为高
中度免疫原性肿瘤 TMB值介于10与17之间和/或MSI状态为MSI-H
最有可能的非免疫原性肿瘤 TMB值小于10并且MSI-状态为MSI-S或MSI-L
在一些实施例中,确定每个所关注基因的基线表达。例如,可以为由OIRRA组所靶向的一个或多个基因中的每个基因确定基线表达。建立基线可以使用从公共来源获得的数据以及从对正常样品的测试中产生的数据。公开可用的数据库,如GTEx(基因型-组织表达,https://gtexportal.org)、TCGA(癌症基因组图谱,https://tcga-data.nci.nih.gov)、ICGC(国际癌症基因组联盟,https://icgc.org)和CCLE(癌细胞系百科全书, https://portals.broadinstitute.org/ccle,https://docs.cancergenomicscloud.org/docs/ccle)是从使用 Illumina测序装置(加利福尼亚州圣地亚哥的依诺米那公司(Illumina,San Diego,CA))获得的数据产生的。对于使用不同测序装置获得的数据,例如使用Illumina测序装置获得的数据和使用Ion Torrent测序装置(赛默飞世尔科技公司)获得的数据,可以确定变换函数以补偿数据中可能由于测序装置类型而导致的任何差分偏差。每基因的基线读段数量可以通过对正常样品的多次测试中与所关注基因比对的读段数量进行平均来确定。将变换函数应用于通过不同类型的测序装置对正常样品执行的测试的数据,可以提供有关读段数量的可比较数据,用于确定每基因的基线读段数量。在多个装置上使用多个测试的读段数量的优点是提供更大的正常样品数据集,以更准确地估计每基因的基线读段数量。
在一些实施例中,确定将由第一测序装置(例如Illumina测序装置)测得的数据映射到来自第二和不同测序装置(例如Ion Torrent测序装置)的类似数据的变换函数T可以包含以下:
针对每个靶向基因:
1)使用第一测序装置测试多个正常样品,以产生每个靶向基因的多个读段数量。
2)对产生的每靶向基因的读段数量进行平均,以为第一测序装置给出每基因的第一平均读段数量,平均装置1
3)使用第二测序装置测试多个正常样品,以产生每个靶向基因的多个读段数量。
4)对产生的每靶向基因的读段数量进行平均,以为第二测序装置给出每基因的第二平均读段数量,平均装置2
5)计算变换函数T如下:
a)应用曲线拟合来确定变换T的参数,使得
平均装置2=T[平均装置1] (1)
误差=平均装置2–平均装置1 (2)
b)例如,可以基于最小均方差误差准则而确定T的参数以实现对线性、多项式或指数函数的拟合。
可以将变换函数应用于关于由第一测序装置产生的靶向基因的读段数量的数据,以给出将由第二测序装置产生的可比较读段数量。
读段数量装置2=T[读段数量装置1] (3)
使用变换T来补偿偏差,可从不同测序装置获得的读段数量具有可比性。例如,使用 Illumina测序装置生成关于从GTEx和TCGA公共数据库检索到的基因的读段数量的数据。例如,可以使用等式(3)来变换这些数据,以提供Ion Torrent测序装置的等效读段数量。所述数据可以增加可用于计算每基因的基线的正常样品的测量数量。
在一些实施例中,正常样品中第i个靶向基因基线(基因i)的基线值可以如下确定:
针对每个第i个靶向基因:
1)从使用第一测序装置(例如,Illumina测序装置)测得的正常样品的第i个基因的读段数量装置1的数据库中检索数据。所述数据库含有从多个正常样品中测得的第i个基因的多个读段数量装置1
2)通过T[读段数量装置1]=读段数量装置2来将第i个基因的读段数量装置1变换为第二测序装置(例如,Ion Torrent测序装置)的可比较读段数量值。此步骤产生第i个基因的多个读段数量装置2
3)对多个读段数量装置2进行平均,以建立每个第i个基因的基线值以给出基线(基因i)。可以通过从步骤2)的变换确定的读段数量装置2以及使用装置2获得的读段数量装置2来计算平均值。
在一些实施例中,每类别的基线值,基线k可以如下确定:
针对第k个类别:
1)在第k个类别中的所有基因上对基线值,基线(基因i,k)进行平均:
基线_平均k=总和[基线(基因i,k)]/Nk (4)
其中Nk是第k个类别中的基因数量。
2)确定第k个类别中的基因的基线值的中值,基线(基因i,k)以给出中值基线值,基线_中值k
3)计算每个所关注类别的基线k。基线k可以被设置为基线_平均值k或基线_中值k。可替代地,可以使用基线_平均值k和基线_中值k两者。
图1是对与功能上下文相关的类别中的靶向基因的读段数量进行压缩和分析的框图。在一些实施例中,未知样品可以使用第二测序装置例如Ion Torrent测序装置进行测试,并且可以压缩和分析读段数量装置2以确定测试样品中关于所选所关注类别的富集或丢失,如下:
1)靶向基因的测试样品,例如通过OIRRA组。
2)将读段与参考序列比对。例如,可以使用BAM文件格式从文件中检索比对的序列读段。比对的序列读段可以对应于样品基因组中的多个靶向基因。
3)确定第k个类别中与第i个基因比对的读段i,k数量。
4)通过计算中值和/或平均值,压缩第k个类别中的读段i,k数量的数据,以形成第k个类别的压缩值:
中值k=中值[第k个类别中的基因i,k的读段i,k数量] (5)
平均值k=总和[第k个类别中的基因i,k的读段i,k数量]/Nk (6)
其中Nk是第k个类别中的基因i,k数量。如果仅计算一个压缩值(中值k或均值k),则此步骤通过Nk:1的压缩比压缩第k个类别中读段i,k数量的数据,如果计算两个压缩值,包含中值k或平均值k,则通过压缩比Nk:2压缩。第k个类别的压缩数据可以包括中值k或平均值k或中值k和平均值k两者。第k个类别表示用于对第k个类别中的基因i,k的读段i,k数量的基于上下文的压缩的上下文。
5)针对每个所关注第k类别,将压缩数据与第k个类别的基线k进行比较:
a.如果平均值k>=基线_平均值k报告对应于第k个类别的签名的富集。
b.如果中值k>=基线_中值k报告对应于第k个类别的签名的富集。
c.如果平均值k<基线_平均值k报告对应于第k个类别的签名的丢失。
d.如果中值k<基线_中值k报告对应于第k个类别的签名的丢失。
Nk:1或Nk:2的压缩比与相对于存储原始读段数量Nk所需的存储器量,存储所述类别中的每个类别的读段数量所需的存储器量的降低直接相关。每个第k个类别的压缩值都减少了用于存储在存储器中的数据量。在一些实施例中,本文所描述的方法可以至少部分地使用分布式、集群化、远程或云计算资源来执行或实施。压缩多个读段数据为将数据传输到分布式、集群化、远程或云计算资源中的处理器提供了优势。由于数据的体积减少,因此减少了跨计算资源之间的数据传输接口传输所需的带宽和/或时间。
在一些实施例中,可以针对每个第k个所关注类别输出关于签名的富集或丢失的报告。来自所选类别的签名富集或丢失的报告的信息可以与从对测试样品执行的一种或多种其它测定的结果得出的信息进行组合。关于对免疫肿瘤学治疗的应答的预测可以基于从多个测定的结果合并的信息。例如,以下签名可以选自表1中的类别:
a)IFNG签名:上调与否
b)免疫炎症或免疫豁免或免疫沙漠
c)免疫逃逸(或免疫耗尽):上调与否
d)T细胞运输上调与否
在一些实施例中,预测对免疫肿瘤学治疗的应答可以使用从另外测定的结果合并的信息,包含T细胞受体(TCR)测定、肿瘤突变负载或负荷(TMB)测定、微卫星不稳定性(MSI)测定、微生物组测定和甲基化测定中的一种或多种。
在一些实施例中,可以对测试样品执行T细胞受体(TCR)测定。可从赛默飞世尔科技公司获得的TCR测定包含OncomineTMTCRβ-SR测定,RNA(目录号#A39359)、OncomineTM TCRβ-SR测定,DNA(目录号#A39072)和OncomineTMTCRβ-LR测定(目录号#A35386)。用于RNA/cDNA的TCRβ测定(长读段(“LR”)和短读段(“SR”)测定两者)的示例性方法在于2018年7月26日发布的美国专利申请公开第2018/0208984号中描述,所述美国专利申请公开通过引用以其整体并入本文。用于基因组DNA的TCRβ测定、短读段(“SR”)测定的示例性方法在于2019年3月21日发布的美国专利申请公开第2019/0085374号中描述,所述美国专利申请公开通过引用以其整体并入本文。在2019年3月22日提交的PCT申请第 PCT/US2019/023731号中描述了用于使用TCR测定来测量TCR会聚和单倍型的示例性方法,所述申请通过引用整体并入本文。在其它度量中,TCR测定可以提供对克隆性、会聚性的估计,鉴定TRB基因座的单倍型,如通过以下所指示的,并且允许纵向跟踪T细胞库特征:
a)克隆扩增:均匀性,即归一化香农熵。值范围为0到1。均匀性值为1指示每个T细胞克隆在样品中以相同的频率存在。均匀性小于1指示克隆扩增。
b)TCR会聚:可以指示肿瘤免疫原性的T细胞库特征。表达为具有会聚TCR的T细胞的聚集频率(参见PCT/US2019/023731)。
c)TRB基因座单倍型(参见Looney等人,“通过TCRB库测序对TRB基因座进行单倍型分析(Haplotype Analysis of the TRB locus by TCRB Repertoire Sequencing)”,https://www.biorxiv.org/content/10.1101/406157v1,生物学预印本资料库(bioRxiv),2018 年9月)。
在一些实施例中,可以对测试样品执行肿瘤突变负载或负荷(TMB)测定。在一些实施例中,TMB测定可以包含美国公开申请第2018/0165410号中描述的一个或多个特征,所述美国公开申请通过引用整体并入本文。TMB测定可从赛默飞世尔科技公司获得(SKU A37909用于手动文库制备,A37910用于自动文库制备)。TMB测定可以提供每兆碱基编码序列的突变数量。突变水平可以设置如下:
a)低可能高于每兆碱基编码序列5到10个非同义突变范围内的数字,
b)高可能低于每兆碱基编码序列10到20个非同义突变范围内的数字,
c)中等可能是低与高之间的中间范围。
在一些实施例中,可以对测试样品执行微卫星不稳定性(MSI)测定。在一些实施例中, MSI测定可以包含以下中描述的一个或多个特征:2018年10月12日提交的美国专利申请第62/745,161号和2018年12月27日提交的美国专利申请第62/785,596号,所述美国专利申请中的两者通过引用整体并入本文。MSI测定提供MSI评分。MSI测定可以提供测试样品的MSI状态。MSI状态的类别可以是MSI-H(高)、MSI-L(低)和MSS(稳定)。
在一些实施例中,微生物组测定可以对来自同一个体的血液和/或粪便样品进行测定以建立微生物组状态。微生物组状态可以包含以下内容:
a)存在对应答预测的一种或多种微生物,
b)缺乏对应答预测的微生物。
在一些实施例中,可以对测试样品执行甲基化测定。甲基化测定可以提供甲基化状态为低甲基化或超甲基化。
在一些实施例中,预测对免疫肿瘤学(IO)治疗的应答可以应用来自多个测定的结果的信息来鉴定所测试肿瘤样品的所预测应答类别。图2是用于使用来自多个测定的结果信息来预测对免疫肿瘤学治疗的应答的示例性方法的框图。例如,所预测应答类别可以包含“最有可能应答”、“可能应答”和“最不可能应答”。也可以使用其它数量和类型的预测应答类别。
在一些实施例中,在步骤220中,取决于肿瘤类型,一种或多种生物标志物可以被定义为主要的,并且其它生物标志物可以被定义为次要的。例如,在结直肠癌(CRC)中,MSI状态可以定义为主要生物标志物,并且所有其它生物标志物可以定义为次要生物标志物。例如,对于其它类型的肿瘤,TMB可以定义为主要生物标志物,并且所有其它生物标志物可以定义为次要生物标志物。
例如,对于CRC样品,最可能应答的所预测应答类别可以分配给具有MSI-H的肿瘤样品。可能应答的所预测应答类别可以分配给具有MSI-L的肿瘤样品。最不可能应答的所预测应答类别可以分配给具有MSS的肿瘤样品。例如,对于其它肿瘤,最有可能应答的所预测应答类别可以分配给具有高TMB的肿瘤样品。可能应答的所预测应答类别可以分配给具有中等TMB的肿瘤样品。最不可能应答的所预测应答类别可以分配给具有低TMB的肿瘤样品。
在一些实施例中,来自各种测定的结果的组合可以用于预测应答类别。例如,对于其它肿瘤,最有可能应答的所预测应答类别可以分配给具有高TMB或高PD-L1的肿瘤样品。可能应答的所预测应答类别可以分配给具有中等TMB且PD-L1不存在或为中或低,或PD-L1为中等且TMB不存在的肿瘤样品。最不可能应答的所预测应答类别可以分配给具有低TMB和低PD-L1,或低TMB和不存在PD-L1,或低PD-L1和不存在TMB的肿瘤样品。
在一些实施例中,可以根据步骤210中生物标志物的状态将评分分配给每个生物标志物。表6中列出了与各种生物标志物相关的状态类型的实例。如果状态预测对免疫疗法的应答,则评分=1。如果状态预测对免疫疗法缺乏应答,则评分=-1。如果状态为中级,则评分= 0。如果未测量生物标志物,则评分=0。也可以使用评分水平的其它数值。
在一些实施例中,可以为每个生物标志物的评分分配加权因子。加权因子可以因生物标志物而异。加权因子可以落在0.1到100的范围内。加权因子乘以评分,使得与预测性较差的生物标志物相比,对应答更具预测性的生物标志物的权重更大。
例如,表6列出了基于每个生物标志物的状态的预测评分。
表6.
Figure BDA0003301285520000131
Figure BDA0003301285520000141
在一些实施例中,可以在步骤240中为次要生物标志物计算评分的总和以提供补充IO评分。可以将补充IO评分分配给所预测的治疗应答类别内的每个样品。如果补充IO评分较高,则预测样品更有可能对免疫疗法进行应答。如果补充IO评分较低,则预测样品不太可能对免疫疗法进行应答。
在一些实施例中,可以在步骤240中为次要生物标志物计算评分的加权总和以提供补充IO评分。评分的加权总和是生物标志物权重乘以生物标志物评分的乘积的所有生物标志物的总和。可以将补充IO加权评分分配给所预测的治疗应答类别内的每个样品。如果补充IO加权评分较高,则样品更有可能对免疫疗法进行应答。如果补充IO加权评分较低,则样品不太可能对免疫疗法进行应答。
例如,表7列出了所预测的治疗应答类别和针对在步骤230中对要分类在相应类别中的样品执行的多个测定的所选结果的示例性条件。所预测的治疗应答类别由一个或多个主要生物标志物或生物标志物指示。
表7.
Figure BDA0003301285520000151
根据示例性实施例,提供了一种方法,其包括:(a)接收对测试样品执行的基因表达测定的多个靶向基因的多个读段数量。将所述多个靶向基因组织成多个类别。所述多个类别中的第k个类别表示与所述第k个类别中的靶向基因相关的功能上下文。所述第k个类别具有与所述多个靶向基因中的Nk个靶向基因相关的Nk个读段数量。针对所述多个类别中的每个第k个类别,所述方法应用以下步骤:(b)确定所述Nk个读段数量中的关于所述第k个类别中的每个第i个靶向基因的读段数量;(c)压缩所述第k个类别中的所述Nk个读段数量以形成所述第k个类别的压缩值,其中所述压缩值具有所述第k个类别的减少量的数据以用于存储在存储器中;以及(d)将所述压缩值与所述第k个类别的基线值进行比较以确定对应于所述第k个类别的所述功能上下文的签名的富集或丢失。所述压缩步骤(c)可以进一步包含计算所述第k个类别的所述Nk个读段数量的中值以形成所述压缩值,其中对于比较步骤,所述基线值为中值基线值。所述压缩步骤(c)可以进一步包含计算所述第k个类别的所述Nk个读段数量的平均值以形成所述压缩值,其中对于比较步骤(d),所述基线值为平均基线值。所述第k个类别的所述减少量的数据的压缩比可以为Nk:1。所述多个类别可以包含用于免疫炎症功能上下文的类别。所述多个类别包含用于IFNG签名功能上下文的类别。所述多个类别包含用于免疫豁免功能上下文的类别。所述多个类别包含用于免疫逃逸功能上下文的类别。所述多个类别包含用于T细胞运输功能上下文的类别。所述多个类别包含用于免疫沙漠功能上下文的类别。将所述压缩值与基线值进行比较的步骤(d)可以进一步包括确定所述压缩值与所述基线值相比的变化倍数水平。所述方法可以进一步包括向所述变化倍数水平分配评分。所述变化倍数水平的大于2倍增加可以被分配评分值+1,所述变化倍数水平的大于2倍减少可以被分配评分值-1,并且介于2倍减少与2倍增加之间的变化倍数水平可以被分配评分值 0。所述方法可以进一步包括接收来自对所述测试样品执行的多个测定的多个测定结果,所述多个测定包含肿瘤突变负荷(TMB)测定、微卫星不稳定性测定(MSI)和T细胞受体(TCR) 测定中的一种或多种。所述方法可以进一步包括向通过所述多个测定提供的每个测定结果分配评分。所述多个测定结果可以包含高、中等或低TMB结果值。所述方法可以进一步包括向所述高TMB结果值分配评分值+1,向所述中等TMB结果值分配评分值0并且向所述低TMB 结果值分配评分值-1。所述多个测定结果可以包含MSI-H(高)、MSI-L(低)、MSS(稳定) 或“无数据”MSI结果值。所述方法可以进一步包括向所述MSI-H(高)MSI结果值分配评分值+2、向所述MSI-L(低)MSI结果值分配评分值+1、向所述“无数据”MSI结果值分配0并且向所述MSS(稳定)MSI结果值分配-1。所述多个测定结果可以包括包含“不同”或“均匀”的TCR克隆扩增结果、包含“会聚证据”或“无会聚证据”的TCR会聚结果,以及 TCR单倍型。所述方法可以进一步包括向所述“不同”的TCR结果分配评分值+1,向所述“均匀”的TCR结果分配评分值-1,向所述“会聚证据”的TCR会聚结果分配评分值+1,并且向所述“无会聚证据”的TCR会聚结果分配评分值-1。所述方法可以进一步包含将所述评分乘以加权因子以给出加权评分。所述方法可以进一步包括对所述第k个类别的第二组Nk个读段数量进行平均以给出所述第k个类别的所述基线值,其中测量正常样品中所述靶向基因的所述第二组Nk个读段数量。所述方法可以进一步包括将所述第二组Nk个读段数量中的读段数量变换为第二核酸测序装置的可比较的读段数量值,其中使用第一核酸测序装置测量所述第二组Nk个读段数量,并且所述第二核酸测序装置测量对所述测试样品执行的所述基因表达测定的所述多个靶向基因的所述多个读段数量。
根据示例性实施例,提供了一种系统,其包括处理器和与所述处理器通信地连接的存储器,所述处理器被配置成执行包含以下的方法:a)接收对测试样品执行的基因表达测定的多个靶向基因的多个读段数量。将所述多个靶向基因组织成多个类别。所述多个类别中的第k 个类别表示与所述第k个类别中的靶向基因相关的功能上下文。所述第k个类别具有与所述多个靶向基因中的Nk个靶向基因相关的Nk个读段数量。针对所述多个类别中的每个第k个类别,所述处理器应用以下步骤:(b)确定所述Nk个读段数量中的关于所述第k个类别中的每个第i个靶向基因的读段数量;(c)压缩所述第k个类别中的所述Nk个读段数量以形成所述第k个类别的压缩值,其中所述压缩值具有所述第k个类别的减少量的数据以用于存储在存储器中;以及(d)将所述压缩值与所述第k个类别的基线值进行比较以确定对应于所述第 k个类别的所述功能上下文的签名的富集或丢失。所述压缩步骤(c)可以进一步包含计算所述第k个类别的所述Nk个读段数量的中值以形成所述压缩值,其中对于比较步骤,所述基线值为中值基线值。所述压缩步骤(c)可以进一步包含计算所述第k个类别的所述Nk个读段数量的平均值以形成所述压缩值,其中对于比较步骤(d),所述基线值为平均基线值。所述第k个类别的所述减少量的数据的压缩比可以为Nk:1。所述多个类别可以包含用于免疫炎症功能上下文的类别。所述多个类别包含用于IFNG签名功能上下文的类别。所述多个类别包含用于免疫豁免功能上下文的类别。所述多个类别包含用于免疫逃逸功能上下文的类别。所述多个类别包含用于T细胞运输功能上下文的类别。所述多个类别包含用于免疫沙漠功能上下文的类别。将所述压缩值与基线值进行比较的步骤(d)可以进一步包括确定所述压缩值与所述基线值相比的变化倍数水平。所述方法可以进一步包括向所述变化倍数水平分配评分。所述变化倍数水平的大于2倍增加可以被分配评分值+1,所述变化倍数水平的大于2倍减少可以被分配评分值-1,并且介于2倍减少与2倍增加之间的变化倍数水平可以被分配评分值 0。所述方法可以进一步包括接收来自对所述测试样品执行的多个测定的多个测定结果,所述多个测定包含肿瘤突变负荷(TMB)测定、微卫星不稳定性测定(MSI)和T细胞受体(TCR) 测定中的一种或多种。所述方法可以进一步包括向通过所述多个测定提供的每个测定结果分配评分。所述多个测定结果可以包含高、中等或低TMB结果值。所述方法可以进一步包括向所述高TMB结果值分配评分值+1,向所述中等TMB结果值分配评分值0并且向所述低TMB 结果值分配评分值-1。所述多个测定结果可以包含MSI-H(高)、MSI-L(低)、MSS(稳定) 或“无数据”MSI结果值。所述方法可以进一步包括向所述MSI-H(高)MSI结果值分配评分值+2、向所述MSI-L(低)MSI结果值分配评分值+1、向所述“无数据”MSI结果值分配 0并且向所述MSS(稳定)MSI结果值分配-1。所述多个测定结果可以包括包含“不同”或“均匀”的TCR克隆扩增结果、包含“会聚证据”或“无会聚证据”的TCR会聚结果,以及TCR单倍型。所述方法可以进一步包括向所述“不同”的TCR结果分配评分值+1,向所述“均匀”的TCR结果分配评分值-1,向所述“会聚证据”的TCR会聚结果分配评分值+1,并且向所述“无会聚证据”的TCR会聚结果分配评分值-1。所述方法可以进一步包含将所述评分乘以加权因子以给出加权评分。所述方法可以进一步包括对所述第k个类别的第二组Nk个读段数量进行平均以给出所述第k个类别的所述基线值,其中测量正常样品中所述靶向基因的所述第二组Nk个读段数量。所述方法可以进一步包括将所述第二组Nk个读段数量中的读段数量变换为第二核酸测序装置的可比较的读段数量值,其中使用第一核酸测序装置测量所述第二组Nk个读段数量,并且所述第二核酸测序装置测量对所述测试样品执行的所述基因表达测定的所述多个靶向基因的所述多个读段数量。
根据示例性实施例,提供了一种非暂时性机器可读存储介质,其包括指令,所述指令当由处理器执行时使所述处理器执行方法,所述方法包括:a)接收对测试样品执行的基因表达测定的多个靶向基因的多个读段数量。将所述多个靶向基因组织成多个类别。所述多个类别中的第k个类别表示与所述第k个类别中的靶向基因相关的功能上下文。所述第k个类别具有与所述多个靶向基因中的Nk个靶向基因相关的Nk个读段数量。针对所述多个类别中的每个第k个类别,所述处理器应用以下步骤:(b)确定所述Nk个读段数量中的关于所述第k个类别中的每个第i个靶向基因的读段数量;(c)压缩所述第k个类别中的所述Nk个读段数量以形成所述第k个类别的压缩值,其中所述压缩值具有所述第k个类别的减少量的数据以用于存储在存储器中;以及(d)将所述压缩值与所述第k个类别的基线值进行比较以确定对应于所述第k个类别的所述功能上下文的签名的富集或丢失。所述压缩步骤(c)可以进一步包含计算所述第k个类别的所述Nk个读段数量的中值以形成所述压缩值,其中对于比较步骤,所述基线值为中值基线值。所述压缩步骤(c)可以进一步包含计算所述第k个类别的所述Nk个读段数量的平均值以形成所述压缩值,其中对于比较步骤(d),所述基线值为平均基线值。所述第k个类别的所述减少量的数据的压缩比可以为Nk:1。所述多个类别可以包含用于免疫炎症功能上下文的类别。所述多个类别包含用于IFNG签名功能上下文的类别。所述多个类别包含用于免疫豁免功能上下文的类别。所述多个类别包含用于免疫逃逸功能上下文的类别。所述多个类别包含用于T细胞运输功能上下文的类别。所述多个类别包含用于免疫沙漠功能上下文的类别。将所述压缩值与基线值进行比较的步骤(d)可以进一步包括确定所述压缩值与所述基线值相比的变化倍数水平。所述方法可以进一步包括向所述变化倍数水平分配评分。所述变化倍数水平的大于2倍增加可以被分配评分值+1,所述变化倍数水平的大于2倍减少可以被分配评分值-1,并且介于2倍减少与2倍增加之间的变化倍数水平可以被分配评分值 0。所述方法可以进一步包括接收来自对所述测试样品执行的多个测定的多个测定结果,所述多个测定包含肿瘤突变负荷(TMB)测定、微卫星不稳定性测定(MSI)和T细胞受体(TCR) 测定中的一种或多种。所述方法可以进一步包括向通过所述多个测定提供的每个测定结果分配评分。所述多个测定结果可以包含高、中等或低TMB结果值。所述方法可以进一步包括向所述高TMB结果值分配评分值+1,向所述中等TMB结果值分配评分值0并且向所述低TMB 结果值分配评分值-1。所述多个测定结果可以包含MSI-H(高)、MSI-L(低)、MSS(稳定) 或“无数据”MSI结果值。所述方法可以进一步包括向所述MSI-H(高)MSI结果值分配评分值+2、向所述MSI-L(低)MSI结果值分配评分值+1、向所述“无数据”MSI结果值分配 0并且向所述MSS(稳定)MSI结果值分配-1。所述多个测定结果可以包括包含“不同”或“均匀”的TCR克隆扩增结果、包含“会聚证据”或“无会聚证据”的TCR会聚结果,以及 TCR单倍型。所述方法可以进一步包括向所述“不同”的TCR结果分配评分值+1,向所述“均匀”的TCR结果分配评分值-1,向所述“会聚证据”的TCR会聚结果分配评分值+1,并且向所述“无会聚证据”的TCR会聚结果分配评分值-1。所述方法可以进一步包含将所述评分乘以加权因子以给出加权评分。所述方法可以进一步包括对所述第k个类别的第二组Nk个读段数量进行平均以给出所述第k个类别的所述基线值,其中测量正常样品中所述靶向基因的所述第二组Nk个读段数量。所述方法可以进一步包括将所述第二组Nk个读段数量中的读段数量变换为第二核酸测序装置的可比较的读段数量值,其中使用第一核酸测序装置测量所述第二组Nk个读段数量,并且所述第二核酸测序装置测量对所述测试样品执行的所述基因表达测定的所述多个靶向基因的所述多个读段数量。
在一些实施例中,分析学计算服务器/节点/装置可以被配置成实施本文所描述的方法并向用户报告结果。在一些实施例中,分析学计算服务器/节点/装置可以包含在2016年1月28日公布的美国专利申请公开第2016/0026753号中描述的一个或多个特征,所述美国专利申请公开以全文引用的方式并入本文中。
在各个实施例中,核酸序列数据可以使用包含但不限于以下的各种技巧、平台或技术产生:毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸识别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统、基于荧光的系统、单分子方法等。
核酸测序平台(如核酸测序仪)的各个实施例可以包含如图3的框图中所显示的组件。根据各个实施例,测序仪器200可以包含流体递送和控制单元202、样品处理单元204、信号检测单元206以及数据采集、分析和控制单元208。用于下一代测序的仪表、试剂、库和方法的各种实施例描述于美国专利申请公开案第2009/0127589号和第2009/0026082号中。仪器 200的各个实施例可以提供可以用于并行地,例如基本上同时从多个序列收集序列信息的自动化测序。
在各个实施例中,流体学递送和控制单元202可以包含试剂递送系统。试剂递送系统可以包含用于存储各种试剂的试剂储集器。试剂可以包含基于RNA的引物、正向/反向DNA引物、用于连接测序的寡核苷酸混合物、用于合成测序的核苷酸混合物、任选的ECC寡核苷酸混合物、缓冲剂、洗涤试剂、阻断试剂、汽提试剂等。另外,试剂递送系统可以包含移液系统或连续流动系统,其将样品处理单元与试剂储集器连接。
在各个实施例中,样品处理单元204可以包含样品室,例如流槽、基板、微阵列、多孔盘等。样品处理单元204可以包含多个通道、多个槽道、多个孔或其它基本上同时处理多个样品组的手段。另外地,样品处理单元可以包含多个样品室以使得能够同时处理多个轮次。在特定实施例中,系统可以对一个样品室执行信号检测,并且基本上同时处理另一样品室。另外地,样品处理单元可以包含用于移动或操纵样品室的自动化系统。
在各个实施例中,信号检测单元206可以包含成像或检测传感器。例如,成像或检测传感器可以包含CCD、CMOS、离子传感器(如覆盖CMOS的离子敏感层)、电流检测器等。信号检测单元206可以包含励磁系统以引起探针(如荧光染料)发射信号。期望系统可以包含照明源,如弧光灯、激光、发光二极管(LED)等。在特定实施例中,信号检测单元206可以包含用于将光从照明源传输到样品或从样品传输到成像或检测传感器的光学系统。可替代地,信号检测单元206可以不包含照明源,例如,当由于测序反应而自发产生信号时。例如,信号可以通过释放部分的相互作用产生,如与离子敏感层相互作用的释放离子,或与酶或其它催化剂反应产生化学发光信号的焦磷酸盐。在另一个实例中,电流的变化可以在核酸穿过纳米孔时在不需要照明源的情况下检测。
在各个实施例中,数据采集分析和控制单元208可以监视各生殖系统参数。系统参数可以包含仪器200的各部分(如样品处理单元或试剂储集器)的温度、各种试剂的体积、各生殖系统子组件(如操纵器、步进式电机、泵等)的状态、或其任何组合。
本领域的技术人员应了解,仪器200的各个实施例可以用于实践多种测序方法,包含基于连接的方法、合成测序、单分子方法、纳米孔测序以及其它测序技术。
在各个实施例中,测序仪器200可以确定核酸,例如聚核苷酸或寡核苷酸的序列。核酸可以包含DNA或RNA,并且可以是单链的,例如ssDNA和RNA,或双链的,例如dsDNA 或RNA/cDNA对。在各个实施例中,核酸可以包含或衍生自片段库、配对库、ChIP片段等。在特定实施例中,测序仪器200可以从单一核酸分子或从基本上相同的核酸分子的群组获得序列信息。
在各个实施例中,测序仪器200可以包含但不限于以下的多种不同输出数据文件类型/格式输出核酸测序读取数据:*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、 *srs和/或*.qv。
根据各个示例性实施例,可以使用适当配置和/或编程的硬件和/或软件元件来执行或实施上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征。确定是否使用硬件和 /或软件元件来实施实施例可基于任何数目的因素,例如期望的计算速率、功率水平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度等,以及其它设计或性能限制。
硬件元件的实例可以包含通过以下以通信方式耦合的处理器、微处理器、一个或多个输入装置和/或一个或多个输出装置(I/O)(或外围设备):本地接口电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑装置(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体装置、芯片、微芯片、芯片组等。本地接口可以包含例如一个或多个总线或其它有线或无线连接、控制器、缓冲器(缓存器)、驱动器、中继器和接收器等,以允许硬件组件之间的适当通信。处理器是用于执行软件,尤其是存储在存储器中的软件的硬件装置。处理器可以是任何定制的或市售的处理器、中央处理单元(CPU)、与计算机相关联的若干处理器中的辅助处理器、基于半导体的微处理器(例如呈微芯片或芯片组的形式)、宏处理器,或通常用于执行软件指令的任何装置。处理器还可以表示分布式处理架构。I/O装置可以包含输入装置,例如键盘、鼠标、扫描仪、麦克风、触摸屏、用于各种医疗装置和/或实验室仪器的接口、条形码读段器、触控笔、激光读段器、射频装置读段器等。此外,I/O装置还可以包含输出装置,例如打印机、条形码打印机、显示器等。最后,I/O装置还可以包含以输入和输出的形式连通的装置,例如调制器 /解调器(调制解调器;用于接入另一个装置、系统或网络)、射频(RF)或其它收发器、电话接口、网桥、路由器等。
软件的实例可以包含软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、操作步骤、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任何组合。在存储器中的软件可以包含一个或多个独立程序,其可以包含用于执行逻辑功能的可执行指令的有序列表。在存储器中的软件可以包含用于识别根据本发明的教示内容的数据流的系统和任何适合的定制或可商购的操作系统(O/S),其可控制例如系统等其它计算机程序的执行,并且提供排程、输入-输出控制、文件和数据管理、存储器管理、通信控制等。
根据各个示例性实施例,可使用可存储指令或指令集的适当地配置和/或编程的非暂时性机器可读介质或物件来执行或实施上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征,所述指令或指令集如果由机器执行,那么可使机器执行根据示例性实施例的方法和/或操作。此类机器可以包含例如任何合适的处理平台、计算平台、计算装置、处理装置、计算系统、处理系统、计算机、处理器、科学或实验室仪器等,并且可使用硬件和/或软件的任何合适的组合来实施。机器可读介质或物件可以包含例如任何合适类型的存储器单元、存储器装置、存储器物件、存储器介质、存储装置、存储物件、存储介质和/或存储单元,例如存储器、可移动介质或不可移动介质、可擦除介质或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、只读存储器光盘(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁性介质、磁光介质、可移动存储卡或盘、各种类型的数字多功能光盘(DVD)、磁带、磁带盒等,包含适用于计算机的任何介质。存储器可以包含易失性存储器元件(例如随机存取存储器(RAM,如DRAM、SRAM、SDRAM等))和非易失性存储器元件(例如ROM、EPROM、EEROM、闪存储器、硬盘驱动器、磁带、CDROM等)中的任一个或组合。此外,存储器可并入电子、磁性、光学和/或其它类型的存储介质。存储器可以具有分布式结构,其中各种组件彼此远离地定位,但仍通过处理器接入。指令可以包含使用任何适合的高阶、低阶、面向对象、视觉、经编译和/或经解译的编程语言实施的任何合适类型的代码,例如源代码、经编译的代码、解译的代码、可执行码、静态代码、动态代码、加密的代码等。
根据各个示例性实施例,可至少部分地使用分布式、丛集、远程或云计算资源来执行或实施上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征。
根据各个示例性实施例,上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征可使用源程序、可执行程序(靶代码)、脚本或任何其它包括待执行的指令集的实体来执行或实施。在源程序情况下,所述程序可以通过可以包含或不包含在存储器中的编译器、汇编器、解释器等翻译以便与O/S一起正确地操作。指令可以使用以下来书写:(a)具有数据类和方法类的面向对象的编程语言;或(b)具有例程、子例程和/或函数的过程编程语言,可以包含例如C、C++、R、Pascal、Basic、Fortran、Cobol、Perl、Java和Ada。
根据各个示例性实施例,上述示例性实施例中的一个或多个可以包含向用户接口装置、计算机可读存储介质、本地计算机系统或远程计算机系统发送、显示、存储、打印或输出与可以通过此类示例性实施例生成、访问或使用的任何信息、信号、数据和/或中间结果或最终结果有关的信息。例如,此类发送、显示、存储、打印或输出的信息可以采用可搜索和/或可过滤的运行和报告、图片、表格、图表、图形、电子表格、相关性、序列和其组合列表的形式。
本领域技术人员依据上述描述中可以理解,本教导可以以多种形式实施,并且各个实施例可以单独或组合实施。因此,虽然已经结合其特定实例描述了本教导的实施例,但是本教导的实施例和/或方法的真实范围不应如此进行限制,因为在研究附图、说明书和以下权利要求时,其它修改对于熟练的从业者来说将变得显而易见。

Claims (20)

1.一种方法,其包括:
接收对测试样品执行的基因表达测定的多个靶向基因的多个读段数量,其中所述多个靶向基因被组织成多个类别,其中所述多个类别中的第k个类别表示与所述第k个类别中的靶向基因相关的功能上下文,其中所述第k个类别具有与所述多个靶向基因中的Nk个靶向基因相关的Nk个读段数量;
针对所述多个类别中的每个第k个类别,
确定所述第k个类别中的每个第i个靶向基因的读段数量;
压缩所述第k个类别中的所述Nk个读段数量以形成所述第k个类别的压缩值,其中所述压缩值具有所述第k个类别的减少量的数据以用于存储在存储器中;以及
将所述压缩值与所述第k个类别的基线值进行比较以确定对应于与所述第k个类别相关的所述功能上下文的签名的富集或丢失。
2.根据权利要求1所述的方法,其中所述压缩进一步包括计算所述第k个类别的所述Nk个读段数量的中值以形成所述压缩值,其中对于比较步骤,所述基线值为中值基线值。
3.根据权利要求1所述的方法,其中所述压缩进一步包括计算所述第k个类别的所述Nk个读段数量的平均值以形成所述压缩值,其中对于比较步骤,所述基线值为平均基线值。
4.根据权利要求1所述的方法,其中所述第k个类别的所述减少量的数据的压缩比为Nk:1。
5.根据权利要求1所述的方法,其中所述多个类别包含用于免疫炎症功能上下文的类别。
6.根据权利要求1所述的方法,其中所述多个类别包含用于IFNG签名功能上下文的类别。
7.根据权利要求1所述的方法,其中所述多个类别包含用于免疫豁免功能上下文的类别。
8.根据权利要求1所述的方法,其中所述多个类别包含用于免疫逃逸功能上下文的类别。
9.根据权利要求1所述的方法,其中所述多个类别包含用于T细胞运输功能上下文的类别。
10.根据权利要求1所述的方法,其中所述多个类别包含用于免疫沙漠功能上下文的类别。
11.根据权利要求1所述的方法,其中将所述压缩值与基线值进行比较的步骤进一步包括确定所述压缩值与所述基线值相比的变化倍数水平。
12.根据权利要求11所述的方法,其进一步包括向所述变化倍数水平分配评分。
13.根据权利要求12所述的方法,其中所述变化倍数水平的大于2倍增加被分配评分值+1,所述变化倍数水平的大于2倍减少被分配评分值-1,并且介于所述2倍减少与所述2倍增加之间的变化倍数水平被分配评分值0。
14.根据权利要求1所述的方法,其进一步包括:
从对所述测试样品执行的多个测定接收多个测定结果,所述多个测定包含肿瘤突变负荷(TMB)测定、微卫星不稳定性测定(MSI)和T细胞受体(TCR)测定中的一种或多种;以及
向通过所述多个测定提供的每个测定结果分配评分。
15.根据权利要求14所述的方法,其中所述多个测定结果包含高、中等或低TMB结果值,所述方法进一步包括向所述高TMB结果值分配评分值+1、向所述中等TMB结果值分配0并且向所述低TMB结果值分配-1。
16.根据权利要求14所述的方法,其中所述多个测定结果包含MSI-H(高)、MSI-L(低)、MSS(稳定)或“无数据”MSI结果值,所述方法进一步包括向所述MSI-H(高)MSI结果值分配评分值+2、向所述MSI-L(低)MSI结果值分配评分值+1、向所述“无数据”MSI结果值分配0并且向所述MSS(稳定)MSI结果值分配-1。
17.根据权利要求14所述的方法,其中所述多个测定结果包含TCR克隆扩增结果“不同”或“均匀”、TCR会聚结果“会聚证据”或“无会聚证据”以及TCR单倍型结果,所述方法进一步包括向所述TCR克隆扩增结果“不同”分配评分值+1、向所述TCR克隆扩增结果“均匀”分配-1、向所述TCR会聚结果“会聚证据”分配+1并且向所述TCR会聚结果“无会聚证据”分配-1。
18.根据权利要求1所述的方法,其进一步包括对所述第k个类别的第二组Nk个读段数量取平均以给出所述第k个类别的所述基线值,其中所述第二组Nk个读段数量对应于正常样品中的所述多个靶向基因。
19.一种系统,其包括处理器和与所述处理器通信地连接的存储器,所述处理器被配置成执行包含以下的方法:
接收对测试样品执行的基因表达测定的多个靶向基因的多个读段数量,其中所述多个靶向基因被组织成多个类别,其中所述多个类别中的第k个类别表示与所述第k个类别中的靶向基因相关的功能上下文,其中所述第k个类别具有与所述多个靶向基因中的Nk个靶向基因相关的Nk个读段数量;
针对所述多个类别中的每个第k个类别,
确定所述Nk个读段数量中的关于所述第k个类别中的每个第i个靶向基因的读段数量;
压缩所述第k个类别中的所述Nk个读段数量以形成所述第k个类别的压缩值,其中所述压缩值具有所述第k个类别的减少量的数据以用于存储在所述存储器中;以及
将所述压缩值与所述第k个类别的基线值进行比较以确定与所述第k个类别的功能上下文相对应的签名的富集或丢失。
20.一种非暂时性机器可读存储介质,其包括指令,所述指令当由处理器执行时使所述处理器执行方法,所述方法包括:
接收对测试样品执行的基因表达测定的多个靶向基因的多个读段数量,其中所述多个靶向基因被组织成多个类别,其中所述多个类别中的第k个类别表示与所述第k个类别中的靶向基因相关的功能上下文,其中所述第k个类别具有与所述多个靶向基因中的Nk个靶向基因相关的Nk个读段数量;
针对所述多个类别中的每个第k个类别,
确定所述Nk个读段数量中的关于所述第k个类别中的每个第i个靶向基因的读段数量;
压缩所述第k个类别中的所述Nk个读段数量以形成所述第k个类别的压缩值,其中所述压缩值具有所述第k个类别的减少量的数据以用于存储在存储器中;以及
将所述压缩值与所述第k个类别的基线值进行比较以确定与所述第k个类别的功能上下文相对应的签名的富集或丢失。
CN202080028518.XA 2019-04-18 2020-04-17 用于基于上下文压缩免疫肿瘤学生物标志物的基因组数据的方法 Active CN113728391B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962835586P 2019-04-18 2019-04-18
US62/835,586 2019-04-18
PCT/US2020/028663 WO2020214904A1 (en) 2019-04-18 2020-04-17 Methods for context based compression of genomic data for immuno-oncology biomarkers

Publications (2)

Publication Number Publication Date
CN113728391A true CN113728391A (zh) 2021-11-30
CN113728391B CN113728391B (zh) 2024-06-04

Family

ID=70554257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080028518.XA Active CN113728391B (zh) 2019-04-18 2020-04-17 用于基于上下文压缩免疫肿瘤学生物标志物的基因组数据的方法

Country Status (4)

Country Link
US (1) US11610648B2 (zh)
EP (1) EP3956897A1 (zh)
CN (1) CN113728391B (zh)
WO (1) WO2020214904A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3956897A1 (en) * 2019-04-18 2022-02-23 Life Technologies Corporation Methods for context based compression of genomic data for immuno-oncology biomarkers

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1583553A2 (en) * 2003-01-09 2005-10-12 Lorantis Limited Therapeutic use of modulators of notch
US20060136145A1 (en) * 2004-12-20 2006-06-22 Kuo-Jang Kao Universal reference standard for normalization of microarray gene expression profiling data
CN107577921A (zh) * 2017-08-25 2018-01-12 云壹生物技术(大连)有限公司 一种肿瘤靶向基因测序数据解析方法
WO2018057971A1 (en) * 2016-09-23 2018-03-29 Life Technologies Corporation Compositions and methods for assessing immune response
CN108368546A (zh) * 2015-10-10 2018-08-03 夸登特健康公司 无细胞dna分析中基因融合检测的方法和应用
US20200152289A1 (en) * 2018-11-09 2020-05-14 The Broad Institute, Inc. Compressed sensing for screening and tissue imaging
US20210089358A1 (en) * 2019-09-20 2021-03-25 University Of Washington Techniques for improving processing of bioinformatics information to decrease processing time

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
ES2923759T3 (es) 2006-12-14 2022-09-30 Life Technologies Corp Aparato para medir analitos utilizando matrices de FET
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
CN106912197B (zh) 2011-04-28 2022-01-25 生命技术公司 用于多重pcr的方法和组合物
WO2013055822A2 (en) 2011-10-11 2013-04-18 Life Technologies Corporation Systems and methods for analysis and interpretation of nucleic acid sequence data
CN110383385B (zh) 2016-12-08 2023-07-25 生命科技股份有限公司 从肿瘤样品中检测突变负荷的方法
EP4050113A1 (en) 2017-01-17 2022-08-31 Life Technologies Corporation Compositions and methods for immune repertoire sequencing
WO2019046817A1 (en) 2017-09-01 2019-03-07 Life Technologies Corporation COMPOSITIONS AND METHODS FOR IMMUNOLOGICAL REPERTOIRE SEQUENCING
US20210151123A1 (en) * 2018-03-08 2021-05-20 Jungla Inc. Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework
EP3956897A1 (en) * 2019-04-18 2022-02-23 Life Technologies Corporation Methods for context based compression of genomic data for immuno-oncology biomarkers

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1583553A2 (en) * 2003-01-09 2005-10-12 Lorantis Limited Therapeutic use of modulators of notch
US20060136145A1 (en) * 2004-12-20 2006-06-22 Kuo-Jang Kao Universal reference standard for normalization of microarray gene expression profiling data
CN108368546A (zh) * 2015-10-10 2018-08-03 夸登特健康公司 无细胞dna分析中基因融合检测的方法和应用
WO2018057971A1 (en) * 2016-09-23 2018-03-29 Life Technologies Corporation Compositions and methods for assessing immune response
CN107577921A (zh) * 2017-08-25 2018-01-12 云壹生物技术(大连)有限公司 一种肿瘤靶向基因测序数据解析方法
US20200152289A1 (en) * 2018-11-09 2020-05-14 The Broad Institute, Inc. Compressed sensing for screening and tissue imaging
US20210089358A1 (en) * 2019-09-20 2021-03-25 University Of Washington Techniques for improving processing of bioinformatics information to decrease processing time

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAVEL, JJ,等: "The evolving landscape of biomarkers for checkpoint inhibitor immunotherapy", NATURE REVIEWS CANCER, vol. 19, no. 3, pages 133 - 150 *
张军楠,等: "应用Meta分析筛选疫苗免疫人体诱导的获得性免疫基因和通路", 中国病毒病杂志, no. 05, pages 343 - 348 *

Also Published As

Publication number Publication date
EP3956897A1 (en) 2022-02-23
US20230282306A1 (en) 2023-09-07
WO2020214904A1 (en) 2020-10-22
US20200335176A1 (en) 2020-10-22
CN113728391B (zh) 2024-06-04
US11610648B2 (en) 2023-03-21

Similar Documents

Publication Publication Date Title
EP3052651B1 (en) Systems and methods for detecting structural variants
CN110383385B (zh) 从肿瘤样品中检测突变负荷的方法
US20240035094A1 (en) Methods and systems to detect large rearrangements in brca1/2
US11929145B2 (en) Methods for non-invasive assessment of genetic alterations
EA035148B1 (ru) Применение размера фрагмента бесклеточной днк для определения вариаций числа копий
CN111108218B (zh) 使用压缩的分子标记的核酸序列数据检测融合的方法
US11866778B2 (en) Methods and systems for evaluating microsatellite instability status
CN110088840B (zh) 校正核酸序列读数的重复区域中的碱基调用的方法、系统和计算机可读媒体
US20200075122A1 (en) Methods for detecting mutation load from a tumor sample
CN113728391B (zh) 用于基于上下文压缩免疫肿瘤学生物标志物的基因组数据的方法
US20200318175A1 (en) Methods for partner agnostic gene fusion detection
US12040048B2 (en) Methods for context based compression of genomic data for immuno-oncology biomarkers
US20240006019A1 (en) Methods for assessing genomic instability
JP2021534803A (ja) 無細胞核酸試料におけるアレル不均衡を検出するための方法およびシステム
Levy et al. Accurate measurement of microsatellite length by disrupting its tandem repeat structure
WO2024073544A1 (en) System and method for genotyping structural variants
Cabello-Aguilar et al. ifCNV: a novel isolation-forest-based package to detect copy number variations from various NGS datasets
WO2024059487A1 (en) Methods for detecting allele dosages in polyploid organisms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant