CN113574603A - 基因融合的快速检测 - Google Patents

基因融合的快速检测 Download PDF

Info

Publication number
CN113574603A
CN113574603A CN202080021779.9A CN202080021779A CN113574603A CN 113574603 A CN113574603 A CN 113574603A CN 202080021779 A CN202080021779 A CN 202080021779A CN 113574603 A CN113574603 A CN 113574603A
Authority
CN
China
Prior art keywords
read
data
gene fusion
candidate
fusion candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080021779.9A
Other languages
English (en)
Inventor
V·德什潘德
J·F·W·施莱辛格
S·张
J·C·罗德尼
M·吕勒
S·卡特瑞克斯
R·美雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Illumina Inc
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN113574603A publication Critical patent/CN113574603A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

本发明公开了用于识别生物样品中的基因融合的方法、系统和装置,包括计算机程序。该方法可包括以下动作:获得表示多个已比对读段的第一数据,识别包括在所获得的第一数据内的多个融合候选,筛选该多个融合候选以确定经筛选的一组融合候选,对于经筛选的该组融合候选中的每个特定融合候选:由一个或多个计算机生成用于输入到机器学习模型的输入数据,该输入数据包括表示该特定融合候选的已提取的特征数据;将所生成的输入数据作为输入提供给该机器学习模型,该机器学习模型已经过训练以生成表示融合候选是有效基因融合的可能性的输出数据;以及基于该输出数据确定该特定融合候选是否对应于有效基因融合。

Description

基因融合的快速检测
相关申请的交叉引用
本申请要求2019年12月5日提交的美国临时专利申请62/944,304的权益,该临时专利申请全文以引用方式并入本文。
背景技术
基因融合可以是导致癌症的推动因素,因此在癌症等疾病的治疗中是重要的诊断和治疗靶点。
发明内容
根据本公开的一个创新方面,公开了用于识别生物样品中的一个或多个基因融合的计算机实现的方法。在一个方面,该方法可包括以下动作:由一个或多个计算机从读段比对单元获得表示多个已比对读段的第一数据,由一个或多个计算机识别包括在所获得的第一数据内的多个基因融合候选,由一个或多个计算机筛选该多个基因融合候选以确定经筛选的一组基因融合候选,对于经筛选的该组基因融合候选中的每个特定基因融合候选:由一个或多个计算机生成用于输入到机器学习模型的输入数据,其中生成输入数据包括从数据中提取特征数据以表示该特定基因融合候选,该数据包括:(i)读段比对单元将该特定基因融合候选与之比对的参考序列的一个或多个片段,和(ii)基于读段比对单元的输出生成的数据,由一个或多个计算机将所生成的输入数据作为输入提供给该机器学习模型,其中该机器学习模型已被训练成基于该机器学习模型处理输入数据来生成表示基因融合候选是有效基因融合的可能性的输出数据,该输入数据表示(i)读段比对单元将该特定基因融合候选与之比对的参考序列的一个或多个片段,以及(ii)基于读段比对单元的输出生成的数据,由一个或多个计算机获得由该机器学习模型基于该机器学习模型处理所生成的输入数据生成的输出数据,以及由一个或多个计算机基于该输出数据确定该特定融合候选是否对应于有效基因融合候选。
其他型式包括执行由在计算机可读存储设备上编码的指令所定义的方法的动作的对应系统、装置和计算机程序。
这些和其他版本可任选地包括以下特征中的一个或多个特征。例如,在一些具体实施中,生成输入数据还包括提取特征数据,该特征数据包括注释数据,该注释数据描述读段比对单元将特定基因融合候选与之比对的参考序列的片段的注释。在此类具体实施中,机器学习模型已被训练成基于该机器学习模型处理输入数据来生成表示基因融合候选是有效基因融合候选的可能性的输出数据,该输入数据表示:(i)读段比对单元将特定基因融合候选与之比对的参考序列的一个或多个片段,(ii)描述读段比对单元将特定基因融合候选与之比对的参考序列的片段的注释的注释数据,和(iii)基于读段比对单元的输出生成的数据。
在一些具体实施中,由一个或多个计算机识别包括在所获得的第一数据内的多个基因融合候选可包括由一个或多个计算机识别多个切分读段比对。
在一些具体实施中,由一个或多个计算机识别包括在所获得的第一数据内的多个基因融合候选包括由一个或多个计算机识别多个不一致读段对比对。
在一些具体实施中,使用一组一个或多个处理引擎来实现读段比对单元,该组一个或多个处理引擎使用硬件逻辑电路来配置,该硬件逻辑电路已被物理地布置成使用该硬件逻辑电路执行操作以:(i)接收表示第一次读段的数据,(ii)将表示第一读段的数据映射到参考序列的一个或多个部分以识别一个或多个匹配的参考序列位置,(iii)生成对应于用于第一读段的每个匹配的参考序列位置的一个或多个比对得分,(iv)基于该一个或多个比对得分为第一读段选择一个或多个候选比对,以及(v)输出表示第一读段的候选比对的数据。
在一些具体实施中,通过使用一个或多个中央处理单元(CPU)或一个或多个图形处理单元(GPU)执行软件指令来使用一组一个或多个处理引擎实现读段比对单元,该软件指令使得该一个或多个CPU或该一个或多个GPU:(i)接收表示第一读段的数据,(ii)将表示第一读段的数据映射到参考序列的一个或多个部分以识别一个或多个匹配的参考序列位置,(iii)生成对应于用于第一读段的每个匹配的参考序列位置的一个或多个比对得分,(iv)基于该一个或多个比对得分为第一读段选择一个或多个候选比对,以及(v)输出表示第一读段的候选比对的数据。
在一些具体实施中,该方法还可包括由读段比对单元接收尚未比对的多个读段,由读段比对单元比对该多个读段的第一子集,以及由读段比对单元将该第一子集的已比对读段存储在存储器设备中。在此类具体实施中,由一个或多个计算机从读段比对单元获得表示多个已比对读段的第一数据可包括由一个或多个计算机从存储器设备获得第一子集的已比对读段,并且在读段比对单元比对尚未比对的多个读段的第二子集时,执行根据权利要求1所述的操作中的一个或多个操作。
在一些具体实施中,基于读段比对单元的输出生成的数据可包括变体等位基因频率计数、独特读段比对计数、跨转录物的读段覆盖率、MAPQ得分或指示亲本基因之间同源性的数据中的任何一者或多者。
在一些具体实施中,基于输出数据确定特定融合候选是否对应于有效基因融合候选可包括由一个或多个计算机确定输出数据是否满足预先确定的阈值,以及基于确定输出数据满足预先确定的阈值,确定特定融合候选对应于有效基因融合候选。
在一些具体实施中,基于输出数据确定特定融合候选是否对应于有效基因融合候选可包括由一个或多个计算机确定输出数据是否满足预先确定的阈值,以及基于确定输出数据不满足预先确定的阈值,确定特定融合候选不对应于有效基因融合候选。
根据详细描述、附图和权利要求书,本公开的这些和其他创新方面将显而易见。
附图说明
图1是用于快速检测有效基因融合的系统的示例的框图。
图2是用于执行有效基因融合的快速检测的过程的示例的流程图。
图3是用于快速检测有效基因融合的系统的另一个示例的框图。
图4是可用于实施用于快速检测有效基因融合的系统的系统部件的框图。
具体实施方式
本公开涉及用于快速检测基因融合的系统、方法、装置、计算机程序或它们的任何组合。某些基因融合的存在可以是特定疾病的重要指标、建议针对特定疾病使用特定治疗的指标,或它们的组合。例如,某些基因融合可以是特定类型的癌症的指标,例如急性和慢性骨髓性白血病、骨髓增生异常综合征(MDS)、软组织肉瘤或它们的治疗。本公开使用筛选引擎来减少经处理用来确定每个融合候选是否为有效基因融合的基因融合候选(在本文中也称为“融合候选”)的数量,从而能够快速检测准确的基因融合。该筛选引擎使得能够对候选融合进行高准确性选择以用于后续分析,同时还实现需要消耗以便识别有效基因融合的计算资源的减少,因为只有经筛选的候选基因融合的子集才能用于如本文所述的进一步下游处理。
减少的候选基因融合集还提供了其他技术优点。例如,与处理所有基因融合候选并进行评分的常规方法相比,本发明所公开的方法和系统提供了缩短的运行时间。缩短执行操作的运行时间还直接导致减少了处理资源(例如,CPU或GPU资源)的消耗、存储器使用和功率消耗。虽然与常规方法相比,筛选引擎提供缩短的运行时间,但本发明所公开的方法和系统还可提供其他方式来缩短运行时间。例如,在一些具体实施中,通过使用硬件加速的读段比对单元来执行用于处理候选基因融合的元数据的映射、比对和生成,可实现运行时间的进一步缩短。
图1是用于快速检测有效基因融合的系统100的示例的框图。系统100可包括核酸测序设备110、存储器120、二级分析单元130、融合候选识别模块140、融合候选筛选模块150、特征集生成模块160、机器学习模型170、基因融合确定模块180、输出应用程序接口(API)模块190和输出显示器195。在图1的示例中,这些部件中的每个部件被描述为在核酸测序设备110内实现。然而,本公开不限于此类实施方案。
相反,在一些具体实施中,图1中所述的部件中的一个或多个部件可在核酸测序设备110外部的计算机上执行。例如,在一些具体实施中,二级分析模块可在核酸测序设备110内实现,并且融合候选识别模块140、融合候选筛选模块150、特征集生成模块160、机器学习模型170、基因融合确定模块180、输出应用程序接口(API)模块190可在一个或多个不同的计算机中实现。在此类具体实施中,该一个或多个不同的计算机和核酸测序设备可使用一个或多个有线网络、一个或多个无线网络或它们的组合通信地耦接。
出于本说明书的目的,术语“模块”包括可用于实现由本说明书归因于相应模块的功能的一个或多个软件部件、一个或多个硬件部件或它们的任何组合。一般来讲,如本文所述的“模块”使用一个或多个处理器来执行软件指令以实现本文所述的模块的功能。处理器可包括中央处理单元(CPU)、图形处理单元(GPU)等。
同样,如本说明书中所用的术语“单元”包括可用于实现由本说明书归因于相应单元的功能的一个或多个软件部件、一个或多个硬件部件或它们的任何组合。一般来讲,如本文所述,“单元”使用被布置为处理引擎的一个或多个硬件部件诸如硬连线数字逻辑门或硬连线数字逻辑块来执行实现本文所述的单元的功能的操作。此类硬连线数字逻辑门或硬连线数字逻辑电路可包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)等。
核酸测序设备110(在本文中也称为测序设备110)被配置为执行初级核酸序列分析。执行初步分析可包括由测序设备110接收生物样品105诸如血液样品、组织样品、痰或核酸样品,以及由测序设备110生成输出数据诸如一个或多个读段112,每个读段表示所接收的生物样品的核酸序列的核苷酸顺序。在一些具体实施中,由核酸测序仪110进行的测序可在多个读段周期中执行,其中第一读段周期“读段1”生成表示从核酸序列片段的第一末端起的核苷酸顺序的一个或多个第一读段,并且第二读段周期“读段2”生成分别表示从核酸序列片段之一的其他末端起的核苷酸顺序的一个或多个第二读段。在一些具体实施中,读段可以是长度为大约80至120个核苷酸的短读段。然而,本公开不限于任何特定核苷酸长度的读段。相反,本公开可用于任何核苷酸长度的读段。
在一些具体实施中,生物样品105可包括DNA样品,并且核酸测序仪110可包括DNA测序仪。在此类具体实施中,由核酸测序仪生成的读段中的有序核苷酸的顺序可包括形成任何组合的鸟嘌呤(G)、胞嘧啶(C)、腺嘌呤(A)和胸腺嘧啶(T)中的一者或多者。在一些具体实施中,核酸测序仪110可用于产生生物样品105的RNA读段。在此类具体实施中,这可使用RNA-seq协议发生。以举例的方式,可使用逆转录对生物样品105进行预处理以使用逆转录酶形成互补DNA(cDNA)。在其他具体实施中,核酸测序仪110可包括RNA测序仪,并且生物样品可包括RNA样品。使用cDNA或经由RNA测序仪产生的RNA读段可由C、G、A和尿嘧啶(U)构成。参考RNA读段的生成和分析来描述本文所述的图1的示例。然而,本发明可用于产生和分析任何类型的核酸序列读段,包括DNA或RNA读段。
测序设备110可包括下一代测序仪(NGS),该下一代测序仪被配置为通过使用大规模并行测序技术以实现超高通量、可延伸性和速度的方式生成给定样品的序列读段诸如诸如读段112-1、112-2、112-n,其中“n”是大于0的任何正整数。NGS使得能够对整个基因组进行快速测序,能够扩大到深度测序的靶区域中,利用RNA测序(RNA-Seq)发现新型RNA变异和剪接位点,或定量mRNA用于基因表达分析,表观遗传因子诸如全基因组DNA甲基化和DNA蛋白相互作用的分析,癌症样品测序以研究罕见体细胞变异和肿瘤亚克隆,以及研究例如人类或环境中的微生物多样性。
测序设备110可对生物样品105进行测序并生成使用A、C、T和G表示的对应读段集。然后测序设备可执行逆转录以生成表示对应的RNA序列的cDNA序列。这些RNA序列读段112-1、112-2、112-n由测序设备110输出并存储在存储器设备120中。在一些具体实施中,在将RNA序列读段112-1、112-2、112-n存储在存储器设备120中之前,可将读段112-1、112-2、112-n压缩成较小大小的数据记录。存储器设备120可由图1的部件中的每个部件访问,包括二级分析单元130、融合候选识别模块140、融合候选筛选模块150、特征集生成模块160、机器学习模型170、基因融合确定模块180和输出API模块190。尽管相应的模块可被描绘为将第一模块的输出提供给第二模块,但此类特征的实际具体实施可包括第一模块将输出存储在存储器设备诸如存储器120中,并且第二模块访问来自存储器设备的已存储输出并将所访问的输出作为第二模块的输入进行处理。
二级分析单元130可访问存储在存储器设备120中的读段112-1、112-2、112-n,并且对读段112-1、112-2、112-n执行一个或多个二级分析操作。在一些具体实施中,读段112-1、112-2、112-n可以压缩数据记录的形式存储在存储器设备120中。在此类具体实施中,二级分析单元可在对读段记录执行二级分析操作之前对压缩的读段记录执行解压缩操作。二级分析操作可包括将一个或多个读段映射到参考基因组,将一个或多个读段与参考基因组比对,或两者。在一些具体实施中,二级分析操作还可包括变体调用操作。除了执行二级分析操作之外,二级分析单元130还可被配置成执行排序操作。排序操作可包括例如基于已由二级分析单元比对的读段所映射到的参考基因组中的位置,对已比对读段进行排序。
在一些具体实施中,诸如图1的示例,二级分析单元130可包括存储器132和可编程逻辑设备134。可编程逻辑设备134可具有硬件逻辑电路,该硬件逻辑电路可被动态地配置为包括一个或多个二级分析操作单元(诸如读段比对单元136),并且可用于使用硬件逻辑电路执行一个或多个二级分析操作。动态地配置可编程逻辑设备134以包括二级分析操作单元(诸如读段比对单元136)可包括例如向可编程逻辑设备134提供一个或多个指令,该一个或多个指令使得可编程逻辑设备134将可编程逻辑设备134的硬件逻辑门布置成硬连线数字逻辑配置,该硬连线数字逻辑配置被配置为在硬件逻辑中实现读段比对单元136的功能。
触发可编程逻辑设备134的动态配置的一个或多个操作可包括已编译的硬件描述语言代码、用于使可编程逻辑设备134基于已编译的硬件描述语言代码来配置其自身的一个或多个指令等。触发可编程逻辑设备134的动态配置的此类操作可通过由测序设备110执行的控制程序或托管控制程序的其他计算机生成并部署到可编程逻辑设备134。在一些具体实施中,控制程序可以是指令驻留在存储器设备诸如存储器120中的软件模块。控制程序生成和部署指令硬件描述语言代码或其他指令以配置可编程逻辑设备134的功能可通过使用一个或多个处理器诸如一个或多个CPU或一个或多个GPU执行控制程序软件模块来实现。
读段比对单元136的功能可包括:获得由测序设备110存储在存储器120中的一个或多个第一读段诸如RNA读段112-1、112-2、112-n,将所获得的第一读段112-1、112-2、112-n映射到参考序列的一个或多个参考序列位置,然后将所映射的第一读段112-1、112-2、112-n与参考序列比对。也就是说,映射阶段可识别用于所获得的第一读段的每个特定读段的与特定读段匹配的一组候选参考序列位置。然后,比对阶段可对候选参考序列位置中的每个位置进行评分,并选择具有最高比对得分的特定参考序列位置作为特定读段的正确比对。参考序列可包括对应于已知基因组的有组织的一系列核苷酸。
响应于来自控制程序的一个或多个指令布置可编程逻辑设备134的硬件逻辑门可包括配置逻辑门(诸如与门、或门、或非门、异或门或它们的任何组合)以执行读段比对单元136的数字逻辑功能。另选地或除此之外,布置硬件逻辑门可包括动态地配置的逻辑块,该逻辑块包括可定制的硬件逻辑单元以执行包括加法、乘法、比较等的复杂计算操作。硬件逻辑门、逻辑块或它们的组合的精确布置由从控制程序接收的指令限定。所接收的指令可包括已编译的硬件描述语言(HDL)程序代码或从已编译的HDL程序代码导出,该已编译的HDL程序代码由实体写入并且限定二级分析操作单元的将被编程到可编程逻辑设备134中的示意性布局。HDL程序代码可包括以诸如极高速集成电路硬件描述语言(VHDL)、Verilog等语言编写的程序代码。实体可包括起草HDL程序代码的一个或多个人类用户、生成HDL程序代码的一个或多个人工智能代理,或它们的组合。
可编程逻辑设备134可包括任何类型的可编程逻辑设备。例如,可编程逻辑设备134可包括可根据需要由控制程序动态地配置和重新配置以执行特定工作流的一个或多个现场可编程门阵列(FPGA)、一个或多个复杂可编程逻辑设备(CPLD),或一个或多个可编程逻辑阵列(PLA),或它们的组合。例如,在一些具体实施中,可能有利的是使用可编程逻辑设备134作为读段比对单元136,如上所述。然而,在其他具体实施中,可能有利的是使用可编程逻辑设备134来执行变体调用功能或支持变体调用的功能,诸如隐马尔可夫模型(HMM)单元。在其他具体实施中,可编程逻辑设备134还可被动态地配置为支持一般计算任务,诸如压缩和解压缩,因为可编程逻辑设备134的硬件逻辑能够比使用由一个或多个处理单元150执行的软件指令执行相同任务快得多地执行这些任务以及上文提到的其他任务。在一些具体实施中,可在运行时间期间动态地重新配置可编程逻辑设备134以执行不同的操作。
以举例的方式,在一些具体实施中,可编程逻辑设备134可使用FPGA来实现,该FPGA被动态地配置为解压缩单元以访问存储在存储器设备120或132中的表示第一读段112-1、112-2、112-n的压缩版本的数据。二级分析单元130可使用解压单元来将表示第一读段112-1、112-2、122-n的压缩数据解压缩(例如,如果从核酸测序仪接收的读段被压缩)。解压缩单元可将已解压缩的读段存储在存储器120或132中。在此类具体实施中,FPGA然后可被动态地重新配置为读段比对单元136并且用于执行现在存储在存储器132或120中的已解压缩的第一读段112-1、112-2、112-n的映射和比对。读段比对单元136然后可将表示已映射和已比对读段的数据存储在存储器132或120中。虽然一系列操作被描述为包括解压缩以及映射和比对操作,但是本公开不限于执行这些操作或仅执行这些操作。相反,可编程逻辑设备134可被动态地配置为根据需要以任何顺序执行任何操作单元的功能,以实现本文所述的功能。
图1的示例描述了使用可编程逻辑设备134形式的硬件逻辑设备来实现读段比对单元136的二级分析单元130。然而,本发明并不限于使用可编程逻辑设备来实现读段比对单元136。相反,可使用其他类型的集成电路在第二分析单元130的硬连线数字逻辑中实现读段比对单元136。例如,在一些具体实施中,二级分析单元143可被配置为使用一个或多个专用集成电路(ASIC)来实现一个或多个二级分析操作单元的功能。虽然不可重新编程,但一个或多个ASIC可设计有一个或多个二级分析操作单元(诸如读段比对单元136、变体调用单元、变体调用计算支持单元等)的定制硬件逻辑,以加速和并行地执行二级分析操作。在一些具体实施中,使用一个或多个ASIC作为实现一个或多个二级分析操作单元的功能的二级分析单元130的硬连线逻辑电路甚至可比使用可编程逻辑设备诸如FPGA更快。因此,技术人员将理解,ASIC可用于代替可编程逻辑设备,诸如本文所述的任何实施方案中的FPGA。对于要采用ASIC的具体实施,专用ASIC或单个ASIC的专用逻辑组将需要用于将由ASIC执行的每个二级分析操作单元。以举例的方式,用于读段比对的一个或多个ASIC、用于解压缩的一个或多个ASIC、用于压缩的一个或多个ASIC,或它们的组合。另选地,也可用相同ASIC内的专用逻辑组来实现相同的功能。
此外,参考图1和图3的系统100和300讨论的本公开的示例分别结合使用可编程逻辑设备中的读段比对单元136的硬件具体实施进行描述。此外,上文指出,可使用一个或多个ASIC来实现读段比对引擎或其他二级分析操作单元。然而,本公开不限于使用硬件单元来实现此类二级分析操作。相反,在一些具体实施中,本文描述为由可编程逻辑设备执行的任何操作(诸如读段比对、压缩或解压缩)也可使用一个或多个软件模块来实现。
参考图1的示例,系统100的执行可从测序设备110对生物样品105进行测序开始。对生物样品进行测序可包括由测序设备110生成作为生物样品105中存在的核苷酸的有序序列的数据表示的读段序列。如果系统100被配置为处理DNA读段,则由测序设备110生成的读段可存储在存储器120中。
另选地,在一些具体实施中,如果系统100被配置为处理RNA读段,则测序设备110可被配置为使用逆转录执行生物样品110的预处理,以使用逆转录酶形成互补DNA(cDNA)。在此类具体实施中,诸如图1的示例中的具体实施,由测序设备110生成的读段包括RNA读段112-1、112-2、112-n。在其他具体实施中,核酸测序仪110可包括RNA测序仪,并且生物样品可包括RNA样品。无论RNA读段是由DNA测序设备使用cDNA还是经由RNA测序仪产生的,RNA读段各自包括由C、G、A和U构成的核苷酸序列。读段112-1、112-2、112-n可以压缩或未压缩格式存储在存储器120中。
系统100的执行可继续,即二级分析单元130获得存储在存储器120中的读段112-1、112-2、112-n。在一些具体实施中,二级分析单元130可访问存储器设备120中的读段112-1、112-2、122-n并且将所访问的读段112-1、112-2、112-n存储到二级分析单元130的存储器132中。在其他具体实施中,在控制程序确定读段112-1、112-2、112-n的测序已完成并且二级分析单元130可用于执行二级分析操作时,控制程序可将读段112-1、112-2、112-n加载到二级分析单元130的存储器132中。
如果读段112-1、112-2、112-n被压缩,则二级分析单元130可将可编程逻辑设备134动态地配置为解压缩单元,以便访问存储器132或120中的读段112-1、112-2、112-n,将读段112-1、112-2、112-n解压缩,然后将所解压缩的读段112-1、112-2、112-n存储在存储器1320或120中。在一些具体实施中,二级分析单元可动态地重新配置可编程逻辑设备并响应于来自控制程序的指令而执行解压缩。
如果读段112-1、112-2、122-n未被压缩,则二级分析单元130可访问来自存储器132或120的读段并且执行读段比对操作。在一些具体实施中,二级分析单元130可从控制程序接收指令,该指令指示二级分析单元130配置或重新配置可编程逻辑设备134以包括读段比对单元136,然后使用读段比对单元136来执行读段112-1、112-2、112-n的比对。另选地,在其他具体实施中,可编程逻辑设备可已被配置为包括读段比对单元136,并且使用读段比对单元136执行读段112-1、112-2、112-n的比对。在其他具体实施中,二级分析单元130可包括被配置为执行读段比对的ASIC,然后使用该ASIC来执行读段112-1、112-2、112-n的比对。
二级分析单元130可被配置为与基因融合分析并行地执行读段比对操作。例如,二级分析单元140可获得由测序设备110生成的未比对的第一批读段,使用读段比对单元136来比对第一批读段,使用排序引擎,该排序引擎可在编程逻辑设备136的硬件配置中实现或通过执行对已比对读段进行排序的程序指令而在软件中实现,然后输出第一批已比对和排序的读段以用于存储在存储器设备132、130中。在一些具体实施中,存储器132可用作二级分析单元132的本地高速缓存,该本地高速缓存加载要由读段比对单元处理的数据,然后卸载已由读段比对单元136输出的数据。因此,一旦读段比对单元136将第一批已比对读段输出到存储器132,就可对第一批已比对读段进行排序,然后将其输出到存储器120。然后,融合候选识别模块140可访问来自存储器120的第一批已比对和排序的读段,并且开始处理第一批已比对和排序的读段,同时二级分析单元130对由测序设备110生成而且先前未比对的第二批读段执行比对操作。可迭代地执行该过程,直到系统100处理完每批读段。虽然该示例被描述为具有已比对和排序的批次,但是本公开不要求对已比对读段的批次也进行排序。相反,可在系统100或系统300中使用已比对和排序的读段以努力获得性能增强,诸如缩短的运行时间,如下所述。
融合候选识别模块140可获得由读段比对单元136比对的一批已比对和排序的读段,并且确定该批已比对和排序的读段是否包括一个或多个基因融合候选。在一些具体实施中,如果接收到的批次包括已比对和排序的读段,则融合候选识别模块140可评估批次的已排序读段,其中对应于该批次的基因组区间与至少一个融合候选的断点重叠。这可减少需要下游分析的融合候选的数量。在其他具体实施中,如果接收到的批次包括未排序的已比对读段,则融合候选识别模块140可评估该批次中的每个已比对读段,以确定已比对读段是否是融合候选。在一些具体实施中,由融合候选识别模块140确定一批读段是否包括一个或多个融合候选项的操作包括由融合候选识别模块140确定该批读段是否包括一个或多个切分读段比对、一个或多个不一致读段对、一个或多个软剪切比对或它们的组合。
在一些具体实施中,融合候选识别模块140可被配置为将切分读段比对识别为融合候选。融合候选识别模块140可通过分析一批已比对读段中的每个特定读段所比对的参考序列的基因来识别切分读段比对。如果融合候选识别模块140确定读段映射到单个基因,则融合候选识别模块140可确定该读段不是切分读段。另选地,如果融合候选识别模块140确定读段比对到两个不同的基因,则可将该读段确定为切分读段。在此类具体实施中,可将切分读段确定为融合候选。如果例如读段的第一子集核苷酸比对到参考基因组的第一亲本基因,并且读段的第二子集核苷酸比对到参考基因组的第二亲本基因,则可确定读段比对到两个不同的读段。在一些具体实施中,第一子集核苷酸可以是读段的前缀,并且第二子集核苷酸可以是读段的后缀。如果融合候选识别模块140被配置为识别切分读段,则识别切分读段的数据(如果有的话)可存储在存储器设备120中。
在一些具体实施中,融合候选识别模块140可被配置为将不一致读段对识别为融合候选。融合候选识别模块140可通过分析一批已比对读段中的每个特定读段对所比对的参考序列的基因来识别不一致读段对。如果该读段对对比到参考序列,并且该比对的取向和范围是预期的取向和范围,则确定该读段对不是不一致读段。另选地,如果该读段对对比到参考序列,并且该比对的取向或范围是预期之外的,则确定该读段对是不一致读段对。在此类具体实施中,如果该对中的一个读段映射到一个亲本基因并且另一个读段映射到另一个亲本基因,则可确定不一致读段为融合候选。如果融合候选识别模块140被配置为识别不一致读段,则识别不一致读段的数据(如果有的话)可存储在存储器设备120中。
在一些具体实施中,融合候选识别模块140可被配置为识别软剪切比对。融合候选识别模块140可通过分析一批已比对读段中的每个特定已比对读段所比对的参考序列的基因来识别软剪切比对。在一些具体实施中,融合候选识别模块140可确定读段是否整体比对到参考基因组中的单个位置。如果融合候选识别模块140确定读段整体比对到参考基因组中的单个位置,则融合候选识别模块140可确定该读段不是软剪切读段。另选地,如果融合候选识别模块140确定读段只有仅一部分比对到参考基因组,则融合候选识别模块140可确定该读段是软剪切读段。如果读段的已比对部分映射到一个亲本基因并且未比对部分被确定为具有与另一个亲本基因相似的序列,则该软剪切读段被确定为融合候选。如果融合候选识别模块140被配置为识别软剪切读段,则识别软剪切读段的数据(如果有的话)可作为基因融合候选存储在存储器设备120中。
融合候选筛选模块150可获得描述由融合候选识别模块140识别的一组融合候选的数据。在一些具体实施中,融合候选筛选模块可访问存储器设备120并且从存储器设备120获得描述融合候选的数据。在其他具体实施中,融合候选筛选模块可从先前的模块(诸如融合候选识别模块140)的输出接收描述融合候选的数据。融合候选筛选模块150可使用一个或多个筛选器来筛选描述该组融合候选的数据,以便识别小于整组基因融合候选的经筛选的基因融合候选组。在一些具体实施中,这些筛选器在单级中应用。例如,可应用一个或多个筛选器中的每个,并且可根据该一个或多个筛选器中的每个来评估该组融合候选中的每个融合候选。然而,在其他具体实施中,可采用多级筛选方法。在此类具体实施中,将第一组一个或多个筛选器应用于由融合候选识别模块140识别的初始融合候选组。然后,将第二组一个或多个筛选器应用于在应用第一筛选阶段之后保留的第一组经筛选的融合候选。还可根据需要应用附加的筛选级以实现融合候选的最佳筛选组。
在一些具体实施中,融合候选筛选模块150可筛选该组融合候选以考虑由在短读段测序期间使用的高覆盖深度引起的重复融合候选。例如,从30x测序发生的累积可导致融合候选识别模块140识别最多30个重复的融合候选。融合候选筛选模块150可通过将筛选器应用于融合候选的特性以检查重复来移除此类重复的融合候选。例如,融合候选筛选模块150可确定多个融合候选是否比对到相同亲本基因、比对到参考基因组的跨越相同或相似断点的一部分,或它们的组合。如果融合候选筛选模块150识别比对到相同亲本基因、比对到参考基因组的跨越相同或相似断点的一部分或它们的组合的多个融合候选,则融合候选筛选模块150可确定融合候选是重复的,并且只选择一个融合候选作为代表性的融合候选。在此类情况下,对比到相同亲本基因、对比到参考基因组的跨越相同或相似断点的一部分或它们的组合的剩余融合候选可被丢弃而无需进一步的下游分析。然后可将代表性的融合候选添加到存储器设备(诸如存储器设备120)中的一组经筛选的融合候选。
另选地或除此之外,融合候选筛选模块150可基于一个或多个规则条件来筛选该组融合候选。例如,融合候选筛选模块150可分析每个融合候选并且确定融合候选是否具有满足筛选模块150所采用的一个或多个规则条件的一个或多个属性。在一些具体实施中,该一个或多个规则条件可包括融合候选的每个部分的比对位置,比对相对于融合候选跨越的断点的重叠的距离,融合候选的比对的取向,融合候选的读段比对质量,融合候选的附加映射位置,或它们的任何组合。
以举例的方式,融合候选筛选模块150可使用一个或多个规则条件来基于比对位置筛选融合候选。在一些具体实施中,例如,融合候选筛选模块150可被配置为使用规则条件,该规则条件将具有对比到参考序列的读段、使得该比对的跨度跨越融合断点超过预先确定的数量的核苷酸的融合候选筛选掉。在一些具体实施中,该规则条件的预先确定的数量的核苷酸可为8个核苷酸。另选地或除此之外,融合候选筛选模块150可被配置为将具有比对到参考序列、使得参考序列上的比对的跨度不会达到融合断点的预先确定的阈值数量核苷酸内的读段的融合候选筛选掉。在一些具体实施中,用于该规则条件的预先确定的阈值数量的核苷酸可为50个核苷酸。另选地或除此之外,融合候选筛选模块150可被配置为使用规则条件,该规则条件将具有比对到参考序列、使得在两个融合断点处读段的已比对部分共享至少预先确定数量的核苷酸的读段的融合候选筛选掉。在一些具体实施中,该预先确定的数量的共享核苷酸可包括至少8个核苷酸。
又如,融合候选筛选模块150可使用一个或多个规则条件来基于取向筛选融合候选。在一些具体实施中,例如,融合候选筛选模块150可被配置为使用规则条件,该规则条件将具有指示至少一个亲本基因的核苷酸序列在融合转录物中反向的比对取向的融合候选筛选掉。
又如,融合候选筛选模块150可使用一个或多个规则条件来基于映射质量筛选融合候选。在一些具体实施中,例如,融合候选筛选模块150可被配置为使用规则条件,该规则条件将具有映射质量得分不满足预先确定阈值的读段比对的融合候选筛选掉。
又如,融合候选筛选模块150可使用一个或多个规则条件来基于附加映射位置筛选融合候选。在一些具体实施中,例如,融合候选筛选模块150可被配置为使用规则条件,该规则条件基于确定融合候选的读段的一部分映射到参考序列的多个位置来筛选掉融合候选。在一些具体实施中,融合候选筛选模块150可被配置为排除被注释为同源基因的位置。
可将满足一个或多个规则条件中的每个规则条件的融合候选添加到存储器设备(诸如存储器设备120)中的一组经筛选的融合候选。不满足一个或多个规则条件中的每个规则条件的融合候选可被丢弃而无需进一步的下游分析。在一些具体实施中,可在应用第一阶段去重复筛选器之后应用融合候选的基于规则条件的筛选来作为第二阶段筛选器。在其他具体实施中,可应用融合候选的基于规则条件的筛选作为第一阶段筛选,然后可应用去重复筛选器作为第二阶段筛选器。在其他具体实施中,基于规则条件的筛选可作为单级筛选器应用,而无需先前的去重复筛选。基于这些规则条件中的一个或多个规则条件来筛选融合候选可显著减少需要在下游进一步处理的融合候选的数量。
可对由融合候选筛选模块150输出的经筛选的该组融合候选中的每个融合候选执行下游处理。下游处理包括执行特征集生成模块160、机器学习模型170、基因融合确定模块180和输出API模块190。这种下游处理可用于确定候选融合候选是否对应于有效基因融合。
特征集生成模块160可从多个数据源提取数据,以识别要对其执行特征提取的数据属性组。这些数据源包括存储在存储器120中的关于融合候选的属性数据,该属性数据包括(i)融合候选的读段,(ii)融合候选的读段与之比对的参考序列位置的部分,和(iii)特定基因融合候选与之比对的参考基因组的片段的注释。在一些具体实施中,注释可包括基因外显子注释,指示同源基因的存在的注释,指示富集基因列表的注释或它们的组合。
特征集生成模块160所采用的数据源还可包括在比对过程中由读段比对单元136生成的数据。在一些具体实施中,特征集生成模块160可从由读段比对单元136在融合候选比对期间生成的数据导出特征数据。例如,特征集生成模块160可从由读段比对单元136生成的数据导出信息,诸如变体等位基因频率计数、独特读段比对的计数、跨转录物的读段覆盖率、MAPQ得分、指示亲本基因之间同源性的数据或它们的组合。
特征集生成模块160可用于生成表示从多个数据源提取的融合候选的一个或多个上述属性的特征数据,并且将特征数据编码成一个或多个数据结构162以输入到机器学习模型170。例如,在一些具体实施中,从融合候选的属性提取的整组特征可被编码成结合到机器学习模块170中的单个向量162。例如,在切分读段或软剪切比对的情况下,从这些类型的融合候选的属性提取的特征中的每个特征可被编码成单个向量162。
在其他具体实施中,从融合候选的属性提取的特征数据可以是经编码的多个输入向量。在这种情况下,输入向量162可由一对输入向量162a、162b构成。例如,在切分读段融合候选的场景中,从与切分读段前缀相关的属性中提取的每个特征,包括表示切分读段的前缀的核苷酸的特征,表示前缀与之比对的参考序列的片段的特征,以及从上述与前缀相关的属性中提取的任何其他特征或它们的任何组合可被编码成输入向量162a。同样,在这样的具体实施中,从与切分读段后缀相关的属性中提取的每个特征,包括表示切分读段的后缀的核苷酸的特征,表示后缀与之比对的参考序列的片段的特征,以及从上述与后缀相关的属性提取的任何其他特征或它们的任何组合可被编码成输入向量162b。又如,当不一致读段对被识别为融合候选时,则表示不一致读段对的第一读段的提取特征,表示与之比对的参考序列的部分的提取特征,从与不一致读段对的第一读段相关的属性中提取的特征或它们的任何组合可被编码成输入向量162a。同样,在这样的示例中,表示不一致读段对的第二读段的提取特征,表示与之比对的参考序列的部分的提取特征,从与不一致读段对的第二读段相关的属性中提取的特征或它们的任何组合可被编码成输入向量162b。
一个或多个向量162中的每个向量可用数字来表示所生成的特征数据,其中特征数据包括从融合候选提取的任何特征或从接收自读段比对单元136的与融合候选相关的并且存储在存储器120中的数据提取的任何特征。例如,每个向量162或162a、162b可包括多个字段,每个字段对应于特定融合候选的特定读段的特定特征。根据特定融合候选,这可产生一个或多个输入向量,如上所述。特征集生成模块160可确定每个字段的数值,该数值描述特定特征在融合候选的特定读段的属性中表达的程度。每个字段的所确定数值可用于将表示融合候选的读段属性的所生成的特征数据编码成一个或多个相应向量162。所生成的一个或多个向量162a、162b(用数字表示融合候选的对应读段)作为输入提供给机器学习模型170。在一些具体实施中,即使为融合候选生成多个概念向量,也可将该多个概念向量收缩成可输入到机器学习模型170中的单个向量162。在此类具体实施中,如果在(i)其中前缀的特征被分配给第一向量并且后缀的特征被分配给第二向量的某些切分读段具体实施中或者(ii)在不一致对具体实施中需要多个向量,那么该单个向量的第一部分可对应于第一概念向量,并且该单个向量的第二部分可对应于第二概念向量。
机器学习模型170可包括深度神经网络,该深度神经网络已被训练成基于表示融合候选的特征的一个或多个输入向量162的处理来生成融合候选对应于有效基因融合的可能性。有效基因融合是嵌合转录物,它由于基因组中连接一个亲本基因的前缀与另一个亲本基因的后缀的重排而包含来自多个基因的序列。在本公开的上下文中,如果例如由机器学习模型生成的输出数据178满足预先确定的阈值,则将确定模型170已预测出有效基因融合。机器学习模型170可包括用于接收输入数据的输入层172、用于处理经由输入层172接收的输入数据的一个或多个隐藏层174a、174b、174c,以及用于提供输出数据178的输出层176。每个隐藏层174a、174b、174c包括一个或多个权重或其他参数。在训练期间,可调整每个相应隐藏层174a、174b、174c的权重或其他参数,使得所训练的深度神经网络产生期望的目标输出178,该目标输出指示一个或多个输入向量162基于机器学习模型170处理一个或多个输入向量162表示有效基因融合的可能性。
可以多种不同的方式训练机器学习模型170。在一个具体实施中,可训练机器学习模型170以区分(i)表示从有效融合候选的属性中提取的特征的一个或多个输入向量和(ii)表示从无效融合候选的属性中提取的特征的一个或多个输入向量。在一些具体实施中,可使用经标记的训练向量对来实现此类训练。每个训练向量可表示训练融合候选,并且可由与上述一个或多个输入向量162相同类型的特征数据构成。在此类具体实施中,表示从融合候选的属性中提取的特征的一个或多个输入向量162可被标记为有效基因融合或无效基因融合。在一些具体实施中,有效基因融合标签或无效基因融合标签可被表示为数值。例如,在一些具体实施中,有效基因融合标签可以是“1”,并且无效基因融合标签可以是“0”。在其他具体实施中,例如,有效基因融合标签可以是满足预先确定的阈值的介于“0”和“1”之间的数字,并且无效基因融合标签可以是不满足预先确定的阈值的介于“0”和“1”之间的数字。在此类具体实施中,数字的满足或不满足预先确定的阈值的量值指示输入向量的训练对表示有效基因融合或无效基因融合的置信水平。在一些具体实施中,满足预先确定的阈值可包括超过该预先确定的阈值。然而,具体实施也可被配置为使得满足阈值意味着不超过该预先确定的阈值。此类具体实施可包括例如比较器和参数两者无效的具体实施。
在训练期间,每个已标记的一组一个或多个训练向量作为输入提供给机器学习模型170,由机器学习模型170处理,然后由机器学习模型170生成的训练输出用于确定每个已标记的一个或多个训练向量组的预测标签。可将由机器学习模型170基于该机器学习模型对对应于训练融合候选的一对读段的已标记的一个或多个训练向量的处理而生成的预测标签与对应于该训练融合候选的一个或多个读段(或读段部分)的一个或多个训练向量的训练标签进行比较。然后,可基于预测标签和训练标签之间的差异来调整机器学习模型170的参数。该过程可针对对应于相应训练融合候选的多个已标记的训练向量中的每个训练向量迭代地继续,直到由机器学习模型170基于对对应于训练融合候选的一组一个或多个训练向量的处理而产生的预测融合候选标签在预先确定的误差水平内匹配对应于相应训练融合候选的该组一个或多个训练向量的训练标签为止。
在一些具体实施中,可从一个或多个人类用户已经审查和标记的训练融合候选的库中获得已标记的训练融合候选。然而,在其他具体实施中,已标记的训练融合候选可包括已由模拟器生成和标记的训练融合候选。在此类具体实施中,模拟器可用于创建可用于训练机器学习模型170的不同类别的训练融合候选的分布。一般来讲,如果运行时机器学习模型170将接受单个输入向量162,其中用于融合候选的提取特征中的每个提取特征被编码为单个输入向量162,则机器学习模型170将使用上述训练过程、使用与输入向量162具有相同特征的单个输入向量进行训练。同样,如果运行时机器学习模块170如上所述接受两个训练向量162a、162b,则机器学习模型170将使用两个输入向量来训练,每个输入向量具有与上述输入向量162a、162b相同的对应特征。即,将在运行时处理的输入向量的类型与将用于使用上述训练过程训练模型170的向量的时间相同。
在处理对应于从融合候选的属性中提取的特征的输入数据162期间,每个隐藏层174a、174b、174c的输出可包括激活向量。由每个相应隐藏层输出的激活向量可传播通过该深度神经网络的后续层,并且由输出层用来产生输出数据178。在图1的示例中,机器学习模型170被训练以产生输出数据178,该输出数据表示由机器学习模型170基于该机器学习模型对单独输入向量162a、162b的处理而生成的组合得分,每个输入向量对应于融合候选的一个读段。该组合得分178最终由经训练的机器学习模型的输出层176基于由经训练的机器学习模型170的输出层176对来自最终隐藏层174c的所接收的激活向量执行的计算而产生。
由经训练的机器学习模型170生成的输出数据178可由基因融合确定模块180评估,以确定该输出数据是否指示对应于一个或多个输入向量162的融合候选是有效融合候选。在一些具体实施中,输出数据178可由经训练的机器学习模型170提供给基因融合确定模块180。在其他具体实施中,系统100可将经训练的机器学习模型170的输出178存储到存储器设备诸如存储器设备120,以供基因融合确定模块180后续访问。
基因融合确定模块180可获得由机器学习模型170生成的输出数据178,并且评估输出数据178,以基于输出数据178确定对应于输入向量162a、162b的对162的融合候选是否是有效基因融合。在一些具体实施中,基因融合确定模块180可通过将由机器学习模型生成的输出数据178与预先确定的阈值进行比较来确定对应于一个或多个输入向量162的融合候选是否是有效基因融合。如果基因融合确定模块180确定输出数据178满足预先确定的阈值,则基因融合确定模块180可确定对应于一个或多个输入向量162的融合候选是有效基因融合。另选地,如果基因融合确定模块180确定输出数据178不满足预先确定的阈值,则基因融合确定模块180可确定对应于一个或多个输入向量162的融合候选不是有效基因融合。
在一些具体实施中,基因融合确定模块180可生成输出数据182,该输出数据指示基因融合确定模块180所做的确定的结果,该确定基于基因融合确定模块180对由机器学习模型170产生的输出数据178的评估。该输出数据182可包括识别对应于一个或多个输入向量162的基因融合候选的数据和识别基因融合确定模块180所做的确定的数据。识别基因融合确定模块180所做的确定的数据可包括指示对应于一个或多个输入向量162的基因融合候选是有效基因融合还是无效基因融合的数据。在一些具体实施中,输出数据182可仅指示基于输出数据178识别的有效基因融合的列表、基于输出数据178识别的无效基因融合的列表、指示未识别出任何有效基因融合的数据,或它们的任何组合。在一些具体实施中,该输出数据182可存储在存储器182中以供另一个计算模块后续使用,供后续输出到用户设备等。
另选地或除此之外,基因融合确定模块180可生成输出数据184,该输出数据可作为输入提供给输出应用编程接口(API)模块190。输出数据184可指示输出API引起输出显示器产生输出,指示对应于一个或多个输入向量162的基因融合候选是有效基因融合还是无效基因融合。在一些具体实施中,该指令可使得输出API模块190访问存储在存储器设备120中的输出数据182并且生成渲染数据,该渲染数据当由耦接到输出显示器195的计算设备渲染时,使得输出显示器195显示(i)识别对应于一个或多个输入向量162的融合候选的数据,和(ii)指示所识别的融合候选是有效基因融合还是无效基因融合的数据。这可包括使输出显示器195显示存储在存储器184中的任何输出数据182。在一些具体实施中,该输出可以报告的形式显示。
在一些具体实施中,基因融合确定模块180基于对经筛选的一组基因融合候选中的每个融合候选执行的下游处理的性能,将每个基因融合候选的输出数据182存储在存储器设备120中。在此类具体实施中,一旦每个融合候选的下游处理完成,基因融合确定模块180可仅指示输出API模块190针对经筛选的一组基因融合候选中的每个融合候选输出存储在存储器120中的基因融合分析的结果。在这种情况下,提供用于在输出显示器195上显示的输出192将包括有效基因融合的列表、无效基因融合的列表或两者。在其他具体实施中,基因融合确定模块180可使得输出API模块190在特定融合候选的下游处理完成时输出指示所识别的基因融合(如果有的话)的列表的结果数据。
输出API模块190可提供其他类型的输出192。例如,在一些具体实施中,输出192可以是使得另一个设备诸如打印机输出报告的数据,该报告包括(i)识别对应于一个或多个向量162的融合候选的数据,和(ii)指示所识别的融合候选是否是有效基因的数据。在其他具体实施中,该输出数据192可使得扬声器输出音频数据,该音频数据包括(i)识别对应于一个或多个向量162的融合候选的数据,和(ii)指示所识别的融合候选是否是有效基因的数据。其他类型的输出数据也可由输出APIR模块190触发。
在一些具体实施中,输出显示器195可以是测序设备110的显示面板。在其他具体实施中,输出显示器195可以是使用一个或多个网络连接到测序设备110的用户设备的显示面板。实际上,测序设备110可用于将输出数据192传送到具有任何显示器的任何设备。
图2是用于执行有效基因融合的快速检测的过程200的示例的流程图。系统(诸如系统100)可通过使用一个或多个计算机从读段比对单元获得表示多个已比对读段的第一数据来开始执行过程200(210)。该系统可识别包括在所获得的第一数据内的多个基因融合候选(220)。该系统可筛选该多个基因融合候选以确定经筛选的一组基因融合候选(230)。
该系统可获得经筛选的该组基因融合候选中的特定基因融合候选(240)。该系统可生成用于输入到机器学习模型的输入数据,其中生成输入数据包括从数据中提取特征数据以表示特定基因融合候选,该数据包括(i)读段比对单元将该特定基因融合候选与之比对的参考序列的一个或多个片段,和(ii)基于读段比对单元的输出生成的数据(250)。
该系统可将所生成的输入数据作为输入提供给机器学习模型,其中该机器学习模型已被训练成基于该机器学习模型处理输入数据来生成表示基因融合候选是有效基因融合的可能性的输出数据,该输入数据表示(i)读段比对单元将该特定基因融合候选与之比对的参考基因组的片段,和(ii)基于读段比对单元的输出生成的数据(260)。该系统可获得由机器学习模型基于该机器学习模型处理输入数据生成的输出数据(270)。该系统可基于输出数据确定特定融合候选是否对应于有效基因融合候选(280)。
在阶段280完成时,系统可确定是否要评估经筛选的该组融合候选中的另一个融合候选(290)。如果该系统确定经筛选的该组融合候选中存在待评估的另一个融合候选,则该系统可在阶段240继续执行过程200。另选地,如果该系统确定经筛选的该组融合候选中不存在待评估的另一个融合候选,则该系统可在阶段295终止该过程的执行。如果经筛选的该组融合候选尚未用完,则该组融合候选中可存在另一个融合候选。
图3是用于快速检测有效基因融合的系统300的另一个示例的框图。系统300执行与系统100相同的功能,因为系统300使用测序设备110生成RNA(或DNA)序列读段112,使用二级分析单元130将RNA序列读段112与参考序列比对,使用融合候选识别模块140识别融合候选,使用融合候选筛选模块150确定用于下游分析的经筛选的一组融合候选,然后使用特征集生成模块160、机器学习模型170、基因融合确定模块190和输出API模块190对经筛选的该组融合候选执行下游分析以识别有效基因融合。这些功能单元、模块或模型中的每一者执行与图1的系统100的描述中归因于它们的相同的功能。
系统300和系统100之间的差异在于融合候选识别、融合候选筛选和对经筛选的该组融合候选的下游分析在另一个计算机320上而不在测序设备110内执行。因此,系统300和系统100之间的差异在于已比对读段如何使用网络310打包和传送到计算机320以用于基因融合分析,被计算机320解包,以及基因融合结果如何被打包和传送到具有相应显示器的另一个设备以用于输出。
更详细地,测序设备110可对生物样品105进行测序并且生成RNA读段112-1、112-2、112-n,其中“n”是大于0的任何正整数,如参考系统100所述。虽然RNA读段被用作示例,但该系统也可对DNA读段执行相同的过程。测序设备110可将读段112-1、112-2、112-n存储在存储器120中。在一些具体实施中,读段112-1、112-2、112-n可采用压缩格式。
二级分析单元130可获得读段112-1、112-2、112-n并将读段112-1、112-2、122-n存储在二级分析单元130的存储器132中。在一些具体实施中,这可包括测序设备110的控制程序,该控制程序将读段112-1、112-2、112-n流传输到二级分析单元130的存储器132中。在其他具体实施中,二级分析单元130可请求读段112-1、112-2、122-n。如果读段112-1、112-2、112-n被压缩,则二级分析单元130的可编程逻辑设备134可被配置为状态B作为解压缩单元138,并且可用于将读段112-1、112-2、112-n解压缩。可编程逻辑设备134然后可被重新配置为状态A作为读段比对单元,并且用于将读段112-1、112-2、112-n与参考序列比对。
二级分析单元130可被重新配置回状态B作为压缩单元,并且使用该压缩单元来压缩已比对读段以将已比对读段准备用于传输到计算机320。在该示例中,第一批已比对读段的压缩不仅包括压缩已比对读段,还包括压缩由读段比对单元136生成的与将用于基因融合分析的已比对读段相关的数据。参考图1的系统100来描述该数据,并且可该数据包括例如变体等位基因频率计数、独特读段比对的计数、跨转录物的读段覆盖率、MAPQ得分、指示亲本基因之间同源性的数据或它们的组合。此外,可压缩成第一批已比对读段的其他数据可包括(i)融合候选的读段,(ii)融合候选的读段与之比对的参考序列位置的部分,和(iii)特定基因融合候选与之比对的参考基因组的片段的注释。在一些具体实施中,注释可包括基因外显子注释,指示同源基因的存在的注释,指示富集基因列表的注释或它们的组合。
在压缩已比对读段之后,二级分析单元130可将第一批压缩读段存储在存储器120中。然后,测序设备110可将第一批125已比对读段通过网络310传输到计算机320用于基因融合分析。网络310可包括一个或多个有线网络、一个或多个无线网络或它们的组合。在不同的具体实施中,网络310可以是有线以太网、有线光学网络、LAN、WAN、蜂窝网络、互联网或它们的组合中的一者或多者。在一些具体实施中,计算机320可以是远程云服务器。然而,在其他具体实施中,计算机320可经由直接连接(诸如直接以太网连接、USB-C连接等)连接到测序设备110。虽然在图300的该示例中,第一批读段在传送之前被压缩,但不一定需要使用压缩。相反,提供压缩是作为减少网络带宽消耗和使存储成本最小化的方法,这可以在处理大数据量的基因组时提供显著的技术益处和降低成本。
在一些具体实施中,第一批已比对读段包括为样本105生成的整组读段。在其他具体实施中,第一批已比对读段仅是为样品105生成的整组读段的一部分,并且批处理系统可用于促进并行处理。例如,在一些具体实施中,在二级分析单元将第一批已比对读段存储在存储器120中之后,二级分析单元130获得尚未比对的第二批读段以存储在存储器132中。然后,如果第二批读段被压缩,则二级分析单元130可执行解压缩,并且在计算机320执行第一批读段的基因融合分析时,执行第二批读段的比对。通过分批处理读段而促进的这种并行处理可显著减少确定样品105的读段的有效基因融合所需的系统300的运行时间。
计算机320可经由网络310接收第一批读段125并且将第一批读段存储在存储器320中。如果第一批读段125被压缩,则计算机320可使用压缩/解压缩模块325来将第一批读段解压缩并且将第一批读段存储在存储器320中。然后,计算机320可采用与参考图1的系统100所述的相同方式执行融合候选识别模块140、融合候选筛选模块150、特征集生成模块160、机器学习模型170、基因融合确定模块180和输出API模块190的基因融合分析管线。
输出192可经由网络310提供给多个不同的设备。以举例的方式,输出数据可被传输到测序设备以在测序仪的显示器195上输出。另选地或除此之外,可提供输出192以用于经由网络310在用户设备330的显示器上显示。用户设备330可包括智能电话、平板电脑、膝上型计算机、台式计算机或具有显示器的任何其他计算机。另选地或除此之外,也可提供输出192以用于经由网络310从打印机340输出。在此类具体实施中,输出可以是所确定的有效基因融合的硬拷贝报告。
图4是可用于实施用于快速检测基因融合的系统的系统部件的框图。
计算设备400旨在表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片式服务器、大型机和其他适当的计算机。计算设备450旨在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。另外,计算设备400或450可包括通用串行总线(USB)闪存驱动器。USB闪存驱动器可存储操作系统和其他应用程序。USB闪存驱动器可包括输入/输出部件,诸如可插入到另一个计算设备的USB端口中的无线发射器或USB连接器。此处所示的部件、它们的连接和关系以及它们的功能仅意在作为示例,并不意在限制本文档中描述和/或要求保护的本发明的具体实施。
计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和高速扩展端口410的高速接口408,和连接到低速总线414和存储设备408的低速接口412。部件402、404、406、408、410和412中的每个部件使用各种总线互连,并且可安装在公共主板上或视情况以其他方式安装。处理器402可处理用于在计算设备400内执行的指令,包括存储在存储器404中或存储设备408上的指令,以在外部输入/输出设备(诸如耦接到高速接口408的显示器416)上显示GUI的图形信息。在其他具体实施中,可视情况将多个处理器和/或多个总线与多个存储器和多种类型的存储器一起使用。另外,可连接多个计算设备400,每个设备提供必要操作的一些部分,例如,作为服务器库、一组刀片式服务器或多处理器系统。
存储器404将信息存储在计算设备400内。在一个具体实施中,存储器404是一个或多个易失性存储器单元。在另一个具体实施中,存储器404是一个或多个非易失性存储器单元。存储器404还可以是另一种形式的计算机可读介质,诸如磁盘或光盘。
存储设备408能够为计算设备400提供海量存储。在一个具体实施中,存储设备408可以是或包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪存存储器或其他类似的固态存储器设备,或设备阵列,包括存储区域网络中的设备或其他配置。计算机程序产品可在信息载体中有形地体现。计算机程序产品还可包含指令,该指令在被执行时,执行一种或多种方法,诸如上文所述的那些方法。信息载体是计算机可读介质或机器可读介质,诸如存储器404、存储设备408或处理器402上的存储器。
高速控制器408管理计算设备400的带宽密集操作,而低速控制器412管理带宽较不密集操作。这种功能分配仅为示例。在一个具体实施中,高速控制器408例如通过图形处理器或加速器耦接到存储器404、显示器416,并且耦接到高速扩展端口410,该端口可接受各种扩展卡(未示出)。在该具体实施中,低速控制器412耦接到存储设备408和低速扩展端口414。低速扩展端口(该端口可包括各种通信端口,例如USB、蓝牙、以太网、无线以太网)可例如通过网络适配器耦接到一个或多个输入/输出设备,诸如键盘、指向设备、麦克风/扬声器对、扫描仪或联网设备诸如交换机或路由器。计算设备400可以多种不同的形式实现,如图所示。例如,该计算设备可被实现为标准服务器420,或者在一组此类服务器中被实现多次。它还可被实现为机架式服务器系统424的一部分。此外,该计算设备可在个人计算机诸如膝上型计算机422中实现。另选地,来自计算设备400的部件可与移动设备(未示出)诸如设备450中的其他部件组合。此类设备中的每个设备可包含计算设备400、450中的一个或多个设备,并且整个系统可由彼此通信的多个计算设备400、450组成。
计算设备400可以多种不同的形式实现,如图所示。例如,该计算设备可被实现为标准服务器420,或者在一组此类服务器中被实现多次。它还可被实现为机架式服务器系统424的一部分。此外,该计算设备可在个人计算机诸如膝上型计算机422中实现。另选地,来自计算设备400的部件可与移动设备(未示出)诸如设备450中的其他部件组合。此类设备中的每个设备可包含计算设备400、450中的一个或多个设备,并且整个系统可由彼此通信的多个计算设备400、450组成。
计算设备450包括处理器452、存储器464和输入/输出设备诸如显示器454、通信接口466和收发器468,以及其他部件。设备450还可设置有存储设备,诸如微驱动器或其他设备,以提供附加的存储装置。部件450、452、464、454、466和468中的每个部件使用各种总线互连,并且这些部件中的若干部件可安装在公共主板上或视情况以其他方式安装。
处理器452可执行计算设备450内的指令,包括存储在存储器464中的指令。处理器可被实现为包括独立的多个模拟处理器和数字处理器的芯片的芯片组。另外,处理器可使用多种架构中的任一种架构来实现。例如,处理器410可以是CISC(复杂指令集计算机)处理器、RISC(精简指令集计算机)处理器或MISC(最小指令集计算机)处理器。处理器可提供例如设备450的其他部件的协调,诸如对用户接口的控制、由设备450运行的应用程序以及由设备450进行的无线通信。
处理器452可通过耦接到显示器454的控制接口458和显示接口456与用户通信。显示器454可为例如TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或其他适当的显示技术。显示接口456可包括用于驱动显示器454以向用户呈现图形和其他信息的适当电路。控制接口458可接收来自用户的命令并转换这些命令以提交给处理器452。此外,可提供与处理器452通信的外部接口462,以便实现设备450与其他设备的近距区域通信。外部接口462可例如在一些具体实施中提供有线通信,或在其他具体实施中提供无线通信,并且还可使用多个接口。
存储器464将信息存储在计算设备450内。存储器464可被实现为一个或多个计算机可读介质、一个或多个易失性存储器单元,或一个或多个非易失性存储器单元中的一者或多者。还可提供扩展存储器474并通过扩展接口472将其连接到设备450,该扩展接口可包括例如SIMM(单列直插式存储器模块)卡接口。此类扩展存储器474可为设备450提供额外的存储空间,或者还可为设备450存储应用程序或其他信息。具体地,扩展存储器474可包括用于执行或补充上述过程的指令,并且还可包括安全信息。因此,例如,扩展存储器474可被提供作为用于设备450的安全模块,并且可被编程为具有实现设备450的安全使用的指令。此外,安全应用程序可经由SIMM卡连同附加信息一起提供,诸如将识别信息以不可破解的方式放置在SIMM卡上。
存储器可包括例如闪存存储器和/或NVRAM存储器,如下所述。在一个具体实施中,计算机程序产品在信息载体中有形地体现。计算机程序产品包含指令,该指令在被执行时,执行一种或多种方法,诸如上文所述的那些方法。信息载体是计算机可读介质或机器可读介质,诸如存储器464、扩展存储器474,或处理器452上的可通过例如收发器468或外部接口462接收的存储器。
设备450可通过通信接口466进行无线通信,该通信接口在需要时可包括数字信号处理电路。通信接口466可以提供在各种模式或协议下的通信,诸如GSM语音呼叫、SMS、EMS或MMS消息传送、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。此类通信可例如通过射频收发器468发生。此外,可发生近程通信,诸如使用蓝牙、Wi-Fi或其他此类收发器(未示出)。此外,GPS(全球定位系统)接收器模块470可向设备450提供附加的导航和位置相关的无线数据,该无线数据可由在设备450上运行的应用程序视情况使用。
设备450还可使用音频编解码器460可听地通信,该音频编解码器可从用户接收口头信息并将其转换为可用的数字信息。音频编解码器460同样可诸如通过扬声器(例如在设备450的手持终端中)为用户生成可听声。此类声音可包括来自语音电话呼叫的声音,可包括录制的声音,例如语音消息、音乐文件等,并且还可包括由在设备450上操作的应用程序生成的声音。
计算设备450可以多种不同的形式实现,如图所示。例如,该计算设备可被实现为蜂窝电话480。该计算设备还可被实现为智能电话482、个人数字助理或其他类似的移动设备的一部分。
本文所述的系统和方法的各种具体实施可在数字电子电路、集成电路、特别设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或此类具体实施的组合中实现。这些各种具体实施可包括在一个或多个计算机程序中的具体实施,该一个或多个计算机程序能够在包括至少一个可编程处理器的可编程系统上执行和/或解释,该至少一个可编程处理器可以是专用或通用处理器,被耦接以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及将数据和指令发送到存储系统、至少一个输入设备和至少一个输出设备。
这些计算机程序(也称为程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令,并且可以高级程序化和/或面向对象的编程语言和/或以汇编语言/机器语言来实现。如本文所用,术语“机器可读介质”、“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备,例如磁盘、光盘、存储器、可编程逻辑设备(PLD),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,本文所述的系统和技术可在计算机上实现,该计算机具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器),以及用户可用来向该计算机提供输入的键盘和指向设备(例如鼠标或轨迹球)。也可使用其他类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以任何形式接收来自用户的输入,包括声音、语音或触觉输入。
本文所述的系统和技术可在计算系统中实现,该计算系统包括后端部件(例如,作为数据服务器)或包括中间件部件(例如,应用程序服务器)或包括前端部件(例如,具有图形用户界面或Web浏览器的客户端计算机),用户可通过该计算系统与本文所述的系统和技术的具体实施进行交互,或者与此类后端部件、中间件部件或前端部件的任何组合进行交互。该系统的部件可通过数字数据通信的任何形式或介质(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。
该计算系统可包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并彼此具有客户端-服务器关系的计算机程序而产生。
其他实施方案
已经描述了多个实施方案。然而,应当理解,在不脱离本发明的实质和范围的情况下,可进行各种修改。此外,附图中所示的逻辑流程不需要所示的特定顺序或有序顺序来实现所需的结果。此外,可在所述流程中提供其他步骤,或者可消除步骤,并且可将其他部件添加到所述系统或从所述系统中移除。因此,其他实施方案也在以下权利要求书的范围内。

Claims (30)

1.一种用于识别生物样品中的一个或多个基因融合的计算机实现的方法,所述方法包括:
由一个或多个计算机从读段比对单元获得表示多个已比对读段的第一数据;
由一个或多个计算机识别包括在所获得的第一数据内的多个基因融合候选;
由一个或多个计算机筛选所述多个基因融合候选以确定经筛选的一组基因融合候选;
对于所述经筛选的一组基因融合候选中的每个特定基因融合候选:
由一个或多个计算机生成用于输入到机器学习模型的输入数据,其中生成所述输入数据包括从包括以下项的数据中提取特征数据以表示所述特定基因融合候选:
(i)所述读段比对单元将所述特定基因融合候选与之比对的参考序列的一个或多个片段,和
(ii)基于所述读段比对单元的输出生成的数据;
由一个或多个计算机将所生成的输入数据作为输入提供给所述机器学习模型,其中所述机器学习模型已被训练成基于所述机器学习模型处理输入数据来生成表示基因融合候选是有效基因融合的可能性的输出数据,所述输入数据表示(i)所述读段比对单元将所述特定基因融合候选与之比对的参考序列的一个或多个片段,和(ii)基于所述读段比对单元的输出生成的数据;
由一个或多个计算机获得由所述机器学习模型基于所述机器学习模型处理所生成的输入数据生成的输出数据;以及
由一个或多个计算机基于所述输出数据确定所述特定融合候选是否对应于有效基因融合候选。
2.根据权利要求1所述的方法,
其中生成所述输入数据还包括提取特征数据,所述特征数据包括注释数据,所述注释数据描述所述读段比对单元将所述特定基因融合候选与之比对的所述参考序列的所述片段的注释;并且
其中所述机器学习模型已被训练成基于所述机器学习模型处理输入数据来生成表示基因融合候选是有效基因融合候选的可能性的输出数据,所述输入数据表示:
(i)所述读段比对单元将所述特定基因融合候选与之比对的参考序列的一个或多个片段,
(ii)注释数据,所述注释数据描述所述读段比对单元将所述特定基因融合候选与之比对的所述参考序列的所述片段的注释,和
(iii)基于所述读段比对单元的输出生成的数据。
3.根据前述权利要求中任一项所述的方法,其中由一个或多个计算机识别包括在所获得的第一数据内的多个基因融合候选包括由一个或多个计算机识别多个切分读段比对。
4.根据前述权利要求中任一项所述的方法,其中由一个或多个计算机识别包括在所获得的第一数据内的多个基因融合候选包括由一个或多个计算机识别多个不一致读段对比对。
5.根据前述权利要求中任一项所述的方法,其中使用一组一个或多个处理引擎来实现所述读段比对单元,所述一组一个或多个处理引擎被配置为使用硬件逻辑电路,所述硬件逻辑电路已被物理地布置成使用所述硬件逻辑电路执行操作以:
(i)接收表示第一读段的数据,
(ii)将表示所述第一读段的所述数据映射到参考序列的一个或多个部分以识别一个或多个匹配的参考序列位置,
(iii)生成对应于用于所述第一读段的每个所述匹配的参考序列位置的一个或多个比对得分,
(iv)基于所述一个或多个比对得分为所述第一读段选择一个或多个候选比对,以及
(v)输出表示所述第一读段的候选比对的数据。
6.根据权利要求1至4中任一项所述的方法,其中通过使用一个或多个中央处理单元(CPU)或一个或多个图形处理单元(GPU)执行软件指令来使用一组一个或多个处理引擎实现所述读段比对单元,
所述软件指令使得所述一个或多个CPU或一个或多个GPU:
(i)接收表示第一读段的数据,
(ii)将表示所述第一读段的所述数据映射到参考序列的一个或多个部分以识别用于所述第一读段的一个或多个匹配的参考序列位置,
(iii)生成对应于用于所述第一读段的每个所述匹配的参考序列位置的一个或多个比对得分,
(iv)基于所述一个或多个比对得分为所述第一读段选择一个或多个候选比对,以及
(v)输出表示所述第一读段的候选比对的数据。
7.根据前述权利要求中任一项所述的方法,所述方法还包括:
由所述读段比对单元接收尚未比对的多个读段;
由所述读段比对单元比对所述多个读段的第一子集;以及
由所述读段比对单元将所述第一子集的已比对读段存储在存储器设备中;
其中由一个或多个计算机从读段比对单元获得表示多个已比对读段的第一数据包括由一个或多个计算机从所述存储器设备获得所述第一子集的已比对读段,并且在所述读段比对单元比对所述尚未比对的多个读段的第二子集时,执行根据权利要求1所述的操作中的一个或多个操作。
8.根据前述权利要求中任一项所述的方法,其中基于所述读段比对单元的所述输出生成的所述数据包括变体等位基因频率计数、独特读段比对计数、跨转录物的读段覆盖率、MAPQ得分或指示亲本基因之间同源性的数据中的任何一者或多者。
9.根据前述权利要求中任一项所述的方法,其中基于所述输出数据确定所述特定融合候选是否对应于有效基因融合候选包括:
由一个或多个计算机确定所述输出数据是否满足预先确定的阈值;以及
基于确定所述输出数据满足所述预先确定的阈值,确定所述特定融合候选对应于有效基因融合候选。
10.根据前述权利要求中任一项所述的方法,其中基于所述输出数据确定所述特定融合候选是否对应于有效基因融合候选包括:
由一个或多个计算机确定所述输出数据是否满足预先确定的阈值;以及
基于确定所述输出数据不满足所述预先确定的阈值,确定所述特定融合候选不对应于有效基因融合候选。
11.一种用于识别生物样品中的一个或多个基因融合的系统,包括:
一个或多个计算机,和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时,可操作以使得所述一个或多个计算机执行操作,所述操作包括:
由一个或多个计算机从读段比对单元获得表示多个已比对读段的第一数据;
由一个或多个计算机识别包括在所获得的第一数据内的多个基因融合候选;
由一个或多个计算机筛选所述多个基因融合候选以确定经筛选的一组基因融合候选;
对于所述经筛选的一组基因融合候选中的每个特定基因融合候选:
由一个或多个计算机生成用于输入到机器学习模型的输入数据,其中生成所述输入数据包括从数据中提取特征数据以表示所述特定基因融合候选,所述数据包括:
(i)所述读段比对单元将所述特定基因融合候选与之比对的参考序列的一个或多个片段,和
(ii)基于所述读段比对单元的输出生成的数据;
由一个或多个计算机将所生成的输入数据作为输入提供给所述机器学习模型,其中所述机器学习模型已被训练成基于所述机器学习模型处理输入数据来生成表示基因融合候选是有效基因融合的可能性的输出数据,所述输入数据表示(i)所述读段比对单元将所述特定基因融合候选与之比对的参考序列的一个或多个片段,和(ii)基于所述读段比对单元的输出生成的数据;
由一个或多个计算机获得由所述机器学习模型基于所述机器学习模型处理所生成的输入数据生成的输出数据;以及
由一个或多个计算机基于所述输出数据确定所述特定融合候选是否对应于有效基因融合候选。
12.根据权利要求11所述的系统,
其中生成所述输入数据还包括提取特征数据,所述特征数据包括注释数据,所述注释数据描述所述读段比对单元将所述特定基因融合候选与之比对的所述参考序列的所述片段的注释;并且
其中所述机器学习模型已被训练成基于所述机器学习模型处理输入数据来生成表示基因融合候选是有效基因融合候选的可能性的输出数据,所述输入数据表示:
(i)所述读段比对单元将所述特定基因融合候选与之比对的参考序列的一个或多个片段,
(ii)注释数据,所述注释数据描述所述读段比对单元将所述特定基因融合候选与之比对的所述参考序列的所述片段的注释,和
(iii)基于所述读段比对单元的输出生成的数据。
13.根据权利要求11至12中任一项所述的系统,其中由一个或多个计算机识别包括在所获得的第一数据内的多个基因融合候选包括由一个或多个计算机识别多个切分读段比对。
14.根据权利要求11至13中任一项所述的系统,其中由一个或多个计算机识别包括在所获得的第一数据内的多个基因融合候选包括由一个或多个计算机识别多个不一致读段对比对。
15.根据权利要求11至14中任一项所述的系统,其中使用一组一个或多个处理引擎来实现所述读段比对单元,所述一组一个或多个处理引擎被配置为使用硬件逻辑电路,所述硬件逻辑电路已被物理地布置成使用所述硬件逻辑电路执行操作以:
(i)接收表示第一读段的数据,
(ii)将表示所述第一读段的所述数据映射到参考序列的一个或多个部分以识别一个或多个匹配的参考序列位置,
(iii)生成对应于用于所述第一读段的每个所述匹配的参考序列位置的一个或多个比对得分,
(iv)基于所述一个或多个比对得分为所述第一读段选择一个或多个候选比对,以及
(v)输出表示所述第一读段的候选比对的数据。
16.根据权利要求11至14中任一项所述的系统,其中通过使用一个或多个中央处理单元(CPU)或一个或多个图形处理单元(GPU)执行软件指令来使用一组一个或多个处理引擎实现所述读段比对单元,所述软件指令使得所述一个或多个CPU或一个或多个GPU:
(i)接收表示第一读段的数据,
(ii)将表示所述第一读段的所述数据映射到参考序列的一个或多个部分以识别用于所述第一读段的一个或多个匹配的参考序列位置,
(iii)生成对应于用于所述第一读段的每个所述匹配的参考序列位置的一个或多个比对得分,
(iv)基于所述一个或多个比对得分为所述第一读段选择一个或多个候选比对,以及
(v)输出表示所述第一读段的候选比对的数据。
17.根据权利要求11至16中任一项所述的系统,所述操作还包括:
由所述读段比对单元接收尚未比对的多个读段;
由所述读段比对单元比对所述多个读段的第一子集;以及
由所述读段比对单元将所述第一子集的已比对读段存储在存储器设备中;
其中由一个或多个计算机从读段比对单元获得表示多个已比对读段的第一数据包括由一个或多个计算机从所述存储器设备获得所述第一子集的已比对读段,并且在所述读段比对单元比对所述尚未比对的多个读段的第二子集时,执行根据权利要求11所述的操作中的一个或多个操作。
18.根据权利要求11至17中任一项所述的系统,其中基于所述读段比对单元的所述输出生成的所述数据包括变体等位基因频率计数、独特读段比对计数、跨转录物的读段覆盖率、MAPQ得分或指示亲本基因之间同源性的数据中的任何一者或多者。
19.根据权利要求11至18中任一项所述的系统,其中基于所述输出数据确定所述特定融合候选是否对应于有效基因融合候选包括:
由一个或多个计算机确定所述输出数据是否满足预先确定的阈值;以及
基于确定所述输出数据满足所述预先确定的阈值,确定所述特定融合候选对应于有效基因融合候选。
20.根据权利要求11至19中任一项所述的系统,其中基于所述输出数据确定所述特定融合候选是否对应于有效基因融合候选包括:
由一个或多个计算机确定所述输出数据是否满足预先确定的阈值;以及
基于确定所述输出数据不满足所述预先确定的阈值,确定所述特定融合候选不对应于有效基因融合候选。
21.一种存储软件的非暂态计算机可读介质,所述软件包括能够由一个或多个计算机执行的指令,所述指令在经历此类执行时,使得所述一个或多个计算机执行操作,所述操作包括:
从读段比对单元获得表示多个已比对读段的第一数据;
识别包括在所获得的第一数据内的多个基因融合候选;
筛选所述多个基因融合候选以确定经筛选的一组基因融合候选;
对于所述经筛选的一组基因融合候选中的每个特定基因融合候选:
生成用于输入到机器学习模型的输入数据,其中生成所述输入数据包括从数据中提取特征数据以表示所述特定基因融合候选,所述数据包括:
(i)所述读段比对单元将所述特定基因融合候选与之比对的参考序列的一个或多个片段,和
(ii)基于所述读段比对单元的输出生成的数据;
将所生成的输入数据作为输入提供给所述机器学习模型,其中所述机器学习模型已被训练成基于所述机器学习模型处理输入数据来生成表示基因融合候选是有效基因融合的可能性的输出数据,所述输入数据表示(i)所述读段比对单元将所述特定基因融合候选与之比对的参考序列的一个或多个片段,和(ii)基于所述读段比对单元的输出生成的数据;
获得由所述机器学习模型基于所述机器学习模型处理所生成的输入数据生成的输出数据;以及
基于所述输出数据确定所述特定融合候选是否对应于有效基因融合候选。
22.根据权利要求21所述的计算机可读介质,
其中生成所述输入数据还包括提取特征数据,所述特征数据包括注释数据,所述注释数据描述所述读段比对单元将所述特定基因融合候选与之比对的所述参考序列的所述片段的注释;并且
其中所述机器学习模型已被训练成基于所述机器学习模型处理输入数据来生成表示基因融合候选是有效基因融合候选的可能性的输出数据,所述输入数据表示:
(i)所述读段比对单元将所述特定基因融合候选与之比对的参考序列的一个或多个片段,
(ii)注释数据,所述注释数据描述所述读段比对单元将所述特定基因融合候选与之比对的所述参考序列的所述片段的注释,和
(iii)基于所述读段比对单元的输出生成的数据。
23.根据权利要求21至22中任一项所述的计算机可读介质,其中识别包括在所获得的第一数据内的多个基因融合候选包括由一个或多个计算机识别多个切分读段比对。
24.根据权利要求21至23中任一项所述的计算机可读介质,其中识别包括在所获得的第一数据内的多个基因融合候选包括由一个或多个计算机识别多个不一致读段对比对。
25.根据权利要求21至24中任一项所述的计算机可读介质,其中使用一组一个或多个处理引擎来实现所述读段比对单元,所述一组一个或多个处理引擎被配置为使用硬件逻辑电路,所述硬件逻辑电路已被物理地布置成使用所述硬件逻辑电路执行操作以:
(i)接收表示第一读段的数据,
(ii)将表示所述第一读段的所述数据映射到参考序列的一个或多个部分以识别一个或多个匹配的参考序列位置,
(iii)生成对应于用于所述第一读段的每个所述匹配的参考序列位置的一个或多个比对得分,
(iv)基于所述一个或多个比对得分为所述第一读段选择一个或多个候选比对,以及
(v)输出表示所述第一读段的候选比对的数据。
26.根据权利要求21至24中任一项所述的计算机可读介质,其中通过使用一个或多个中央处理单元(CPU)或一个或多个图形处理单元(GPU)执行软件指令来使用一组一个或多个处理引擎实现所述读段比对单元,所述软件指令使得所述一个或多个CPU或一个或多个GPU:
(i)接收表示第一读段的数据,
(ii)将表示所述第一读段的所述数据映射到参考序列的一个或多个部分以识别用于所述第一读段的一个或多个匹配的参考序列位置,
(iii)生成对应于用于所述第一读段的每个所述匹配的参考序列位置的一个或多个比对得分,
(iv)基于所述一个或多个比对得分为所述第一读段选择一个或多个候选比对,以及
(v)输出表示所述第一读段的候选比对的数据。
27.根据权利要求21至26中任一项所述的计算机可读介质,所述操作还包括:
由所述读段比对单元接收尚未比对的多个读段;
由所述读段比对单元比对所述多个读段的第一子集;以及
由所述读段比对单元将所述第一子集的已比对读段存储在存储器设备中;
其中从读段比对单元获得表示多个已比对读段的第一数据包括从所述存储器设备获得所述第一子集的已比对读段,并且在所述读段比对单元比对所述尚未比对的多个读段的第二子集时,执行根据权利要求21所述的操作中的一个或多个操作。
28.根据权利要求21至27中任一项所述的计算机可读介质,其中基于所述读段比对单元的所述输出生成的所述数据包括变体等位基因频率计数、独特读段比对计数、跨转录物的读段覆盖率、MAPQ得分或指示亲本基因之间同源性的数据中的任何一者或多者。
29.根据权利要求21至28中任一项所述的计算机可读介质,其中基于所述输出数据确定所述特定融合候选是否对应于有效基因融合候选包括:
确定所述输出数据是否满足预先确定的阈值;以及
基于确定所述输出数据满足所述预先确定的阈值,确定所述特定融合候选对应于有效基因融合候选。
30.根据权利要求21至29中任一项所述的计算机可读介质,其中基于所述输出数据确定所述特定融合候选是否对应于有效基因融合候选包括:
确定所述输出数据是否满足预先确定的阈值;以及
基于确定所述输出数据不满足所述预先确定的阈值,确定所述特定融合候选不对应于有效基因融合候选。
CN202080021779.9A 2019-12-05 2020-12-04 基因融合的快速检测 Pending CN113574603A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962944304P 2019-12-05 2019-12-05
US62/944,304 2019-12-05
PCT/US2020/063496 WO2021113779A1 (en) 2019-12-05 2020-12-04 Rapid detection of gene fusions

Publications (1)

Publication Number Publication Date
CN113574603A true CN113574603A (zh) 2021-10-29

Family

ID=74004162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080021779.9A Pending CN113574603A (zh) 2019-12-05 2020-12-04 基因融合的快速检测

Country Status (12)

Country Link
US (1) US20210193254A1 (zh)
EP (1) EP4070320A1 (zh)
JP (1) JP2023503739A (zh)
KR (1) KR20220107117A (zh)
CN (1) CN113574603A (zh)
AU (1) AU2020398180A1 (zh)
BR (1) BR112021018933A2 (zh)
CA (1) CA3131487A1 (zh)
IL (1) IL286129A (zh)
MX (1) MX2021012019A (zh)
SG (1) SG11202109079YA (zh)
WO (1) WO2021113779A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662520B (zh) * 2022-10-27 2023-04-14 黑龙江金域医学检验实验室有限公司 Bcr/abl1融合基因的检测方法及相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160019340A1 (en) * 2014-07-18 2016-01-21 Life Technologies Corporation Systems and methods for detecting structural variants
CN107267646A (zh) * 2017-08-02 2017-10-20 广东国盛医学科技有限公司 一种基于下一代测序的多基因融合检测方法
US20180341746A1 (en) * 2017-05-25 2018-11-29 Koninklijke Philips N.V. System and method for detecting gene fusion
US20180355423A1 (en) * 2017-06-12 2018-12-13 Grail, Inc. Alignment free filtering for identifying fusions
US10354747B1 (en) * 2016-05-06 2019-07-16 Verily Life Sciences Llc Deep learning analysis pipeline for next generation sequencing
CN110168647A (zh) * 2016-11-16 2019-08-23 宜曼达股份有限公司 测序数据读段重新比对的方法
CN110322925A (zh) * 2019-07-18 2019-10-11 杭州纽安津生物科技有限公司 一种预测融合基因产生新生抗原的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112017007282A2 (pt) * 2014-10-10 2018-06-19 Invitae Corp métodos, sistemas e processos de montagem de novo de leituras de sequenciamento
US20200105373A1 (en) * 2018-09-28 2020-04-02 10X Genomics, Inc. Systems and methods for cellular analysis using nucleic acid sequencing
CA3121170A1 (en) * 2018-11-30 2020-06-04 Caris Mpi, Inc. Next-generation molecular profiling

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160019340A1 (en) * 2014-07-18 2016-01-21 Life Technologies Corporation Systems and methods for detecting structural variants
US10354747B1 (en) * 2016-05-06 2019-07-16 Verily Life Sciences Llc Deep learning analysis pipeline for next generation sequencing
CN110168647A (zh) * 2016-11-16 2019-08-23 宜曼达股份有限公司 测序数据读段重新比对的方法
US20180341746A1 (en) * 2017-05-25 2018-11-29 Koninklijke Philips N.V. System and method for detecting gene fusion
US20180355423A1 (en) * 2017-06-12 2018-12-13 Grail, Inc. Alignment free filtering for identifying fusions
CN107267646A (zh) * 2017-08-02 2017-10-20 广东国盛医学科技有限公司 一种基于下一代测序的多基因融合检测方法
CN110322925A (zh) * 2019-07-18 2019-10-11 杭州纽安津生物科技有限公司 一种预测融合基因产生新生抗原的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANDREW MCPHERSON等: ""deFuse: An Algorithm for Gene Fusion Discovery in Tumor RNA-Seq Data"", 《PLOS COMPUTATIONAL BIOLOGY》, vol. 7, no. 5, pages 2 - 11 *
FRANCESCO ABATE等: ""Pegasus: a comprehensive annotation and prediction tool for detection of driver gene fusions in cancer"", 《BMC SYSTEM BIOLOGY》, vol. 8, no. 1, XP021198482, DOI: 10.1186/s12918-014-0097-z *

Also Published As

Publication number Publication date
MX2021012019A (es) 2021-10-26
JP2023503739A (ja) 2023-02-01
IL286129A (en) 2021-10-31
WO2021113779A1 (en) 2021-06-10
EP4070320A1 (en) 2022-10-12
SG11202109079YA (en) 2021-09-29
BR112021018933A2 (pt) 2022-06-21
CA3131487A1 (en) 2021-06-10
KR20220107117A (ko) 2022-08-02
US20210193254A1 (en) 2021-06-24
AU2020398180A1 (en) 2021-09-16

Similar Documents

Publication Publication Date Title
Alser et al. Shouji: a fast and efficient pre-alignment filter for sequence alignment
CN107563150B (zh) 蛋白质结合位点的预测方法、装置、设备及存储介质
JP2019535057A5 (zh)
CN108985008B (zh) 一种快速比对基因数据的方法和比对系统
WO2015081754A1 (en) Genome compression and decompression
WO2022082879A1 (zh) 基因测序数据处理方法和基因测序数据处理装置
Perešíni et al. Nanopore base calling on the edge
KR20230101760A (ko) 품질 점수 압축
CN113826168A (zh) 用于散列表基因组映射的灵活种子延伸
CN110797088A (zh) 全基因组重测序分析及用于全基因组重测序分析的方法
CN113574603A (zh) 基因融合的快速检测
Cao et al. Prediction of transcription factor binding sites using a combined deep learning approach
Alser et al. Going from molecules to genomic variations to scientific discovery: Intelligent algorithms and architectures for intelligent genome analysis
RU2818363C1 (ru) Быстрое обнаружение слияний генов
Bryant et al. Rapid protein-protein interaction network creation from multiple sequence alignments with Deep Learning
Aparna et al. Performance Analysis of Signal Processing Techniques in Bioinformatics for Medical Applications Using Machine Learning Concepts
CN110738318A (zh) 网络结构运行时间评估及评估模型生成方法、系统和装置
JP7393439B2 (ja) 遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置
RU2799005C2 (ru) Способ обработки данных секвенирования генов и устройство для обработки данных секвенирования генов
CN110797087B (zh) 测序序列处理方法及装置、存储介质、电子设备
CN114792573B (zh) 药物联用的效果预测方法、模型训练方法、装置及设备
Franco et al. Decoding genomic information
WO2023225221A1 (en) Machine learning system for predicting gene cleavage sites background
Guguchkin et al. Enhancing SNV identification in whole-genome sequencing data through the incorporation of known population genetic variants into the minimap2 index
Zhao et al. DSNetax: a deep learning species annotation method based on a deep-shallow parallel framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination