CN110603594A - 用于基因组删减和处置选择的交互式精确医学探查器 - Google Patents
用于基因组删减和处置选择的交互式精确医学探查器 Download PDFInfo
- Publication number
- CN110603594A CN110603594A CN201880027520.8A CN201880027520A CN110603594A CN 110603594 A CN110603594 A CN 110603594A CN 201880027520 A CN201880027520 A CN 201880027520A CN 110603594 A CN110603594 A CN 110603594A
- Authority
- CN
- China
- Prior art keywords
- patient
- data
- gene
- genomic
- omics data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
Abstract
公开了一种数据驱动的集成可视化系统和方法,用于总结并呈现患者的基因组畸变、其药物反应和多组学数据。具体地,描述了一种用于在交互式工具中显示患者的基因组畸变和多组学数据的方法,其允许医学从业者通过图形交互集合从相关知识库访问下层支持性生物学和科学证据。所述方法包括以下步骤:获得并输入患者或队列的多组学数据,识别基因组畸变及其药物反应,并在GUI上的一层或多层中在第一水平交互式经典/圆形表意符号中显示该信息,用户可以从所述GUI访问并查看关于基因和分子水平的另外的信息。所述系统提供了对患者的多组学数据的整体性分析的改进流程,以进行有效的处置计划。
Description
技术领域
本发明涉及一种数据驱动的集成可视化系统和方法,用于总结并呈现患者的基因组畸变、他们的药物反应和多组学(multi-omic)数据。具体地,描述了一种用于在交互式工具中显示患者的基因组畸变和多组学数据的方法,其允许医学从业者通过图形交互集合根据相关知识库来访问下层支持性生物学和科学证据。所述方法包括以下步骤:获得并输入患者或队列(cohort)的多组学数据,识别基因组畸变及其药物反应,并在由GUI的一个或多个层中的基因组坐标定位的第一水平交互式经典/圆形表意符号中显示该信息,用户可以从所述GUI访问和查看关于基因和分子水平的另外的信息。所述系统提供了对患者的多组学数据的改进的整体性分析过程,以以进行有效的处置计划。
背景技术
染色体组型是用于定位染色体上个体基因或畸变的位置的标准视觉工具。传统上,突出的Giemsa染色带在每个染色体上标记,并且遵循国际细胞遗传命名系统(ISCN)进行命名。在ISCN方案中,为染色体分配了短臂和长臂,其分别以名称p和q开始。染色体的编号开始于其着丝点,并且被分配给每个区域的编号朝着端粒增加。
Krzywinski,M.等人的Circos:an information aesthetic for comparativegenomics,Genome Research 19,1639-1645(2009)描述了一种软件驱动的工具,用于以圆形格式可视化数据和信息,这使得其对于探查关系和信息是理想的。该格式初始地设计用于可视化基因组数据和创建出版质量的信息图形和图示,但也应用于数据字段,以描述圆形布局中的对象或位置之间的关系,并且总结一个或多个尺度的多层注释。当在基因组学中用作经典表意符号的备选时,圆形基因组坐标使其有效显示基因组结构的变化,以及数据,如散点图、线图和直方图、热图、片、连接器和多条轨道上的文本。当前,其在基因组学中的用途主要是用于静态呈现队列数据,最经常地是在科学出版物中。其既不支持用户交互或数据探查,也不促进样本/队列比较,并且不旨在为个体患者呈现精确医学或临床试验信息。
本发明的目标是创建一种新工具,其可用于精确医学软件应用,使得为一个或多个患者总结了基因组畸变及其对应的处置选择和药物反应两者。经典染色体组型或circos图的现有概念非常简单,并且是非交互式的。然而,通过创建交互式的新表示,我们使用户能够导航和查看不同水平的基因组数据的细节,探查下层科学证据,并具有对知识库中的相关信息的快速访问。本发明的新型交互式精确医学探查器显著改进了患者多组学数据的整体性分析过程,以进行有效的处置计划。
通过与现有技术的进一步对比,本发明是一种有效的精确医学工具,用于总结并呈现患者的基因组畸变、他们的药物反应和多组学数据。其有助于通过允许用户通过广泛的图形交互集合深入挖掘细节并从知识库中访问相关信息促进对下层生物学和支持性科学证据的理解,所述知识库例如为ClinVar(https://www.ncbi.nlm.nih.gov/clinvar)、LOVD(Leiden开放(源)变体数据库-http://www.lovd.nl/3.0/home)、HGMD人类基因突变数据库http://www.hgmd.cf.ac.uk/ac/index.php、COSMIC http://cancer.sanger.ac.uk/cosmic、1000基因组http://www.internationalgenome.org、OMIM http://omim.org以及其它数据库。
我们的精确医学探查器可以实施为独立的应用或GUI部件,其将经处理的组学数据采用为输入。软件可以作为软件运行,作为基于云的基础设施上的服务运行,或者作为移动设备、膝上型计算机或本地服务器上的独立应用运行。每层与独立的数据环境相关联,所述数据环境可以包括具有注释信息、药物选择、临床试验、基因/外显子表达和甲基化的突变的表(SNV、插入缺失、CNV、融合等)。除了可视化和呈现数据之外,工具还操纵用户输入和交互,并在必要时查询不同的知识库以并入其它信息。
发明内容
本发明的目的是提供一种改进的呈现,用于探查面向患者的组学数据(基因组学、转录组学、蛋白质组学、表观基因组学等)、处置选择和下层科学证据,以供临床医师、肿瘤科医师、遗传学家、医学专家和科学家使用。特别地,本发明的目的是提供一种系统和方法,其通过提供交互式可视化工具来以圆形或线性多层格式总结并呈现患者多组学数据,来解决现有技术的上述问题。本发明的目的还是提供一种系统和方法,用于提供患者基因组畸变、详细注释和相关药物反应数据,以改进多种基因组畸变对功能效应的组合效应以及到潜在治疗的链接的视图。本发明的另一目的是通过视觉多组学格式提供对以下的交互式访问:基因尺度上的下层基因间基因信息、甲基化和基因/外显子表达数据、以及分子尺度上的核苷酸序列、氨基酸序列和甲基化数据。本发明的目的还是提供现有技术的备选方案。
因此,旨在通过提供一种用于提供相关的患者特异性基因组信息的系统和方法来在本发明的第一方面中或者上述目的和若干其它目的,这样的系统和方法包括:
从患者获得基因组畸变和其它组学数据,并将所述数据存储在非瞬态计算机可读存储介质上-数据生成的常见过程之一涉及从患者收集组织和血液样本,执行下一代样本制备和DNA/RNA测序,变体和基因表达的读取对齐和剔除;
基于来自患者或健康样本的存储库的用户定义的人口统计学和表型标准来任选地选择样本队列,并且提取其基因组畸变和组学数据以与感兴趣患者进行比较;
使用内部/外部知识库来注释基因组畸变和组学数据,所述内部/外部知识库包括诸如突变影响、群体等位基因频率、疾病与遗传模型的关联和药物反应等的信息;
基于用户定义的标准来过滤基因组畸变和组学数据,所述用户定义的标准诸如为染色体区域、基因、变体类型/功能/影响/群体等位基因频率等;
利用具有图形用户界面的计算设备以交互式多水平格式显示基因组畸变和组学数据,其包括:
第一水平(水平1),其包括交互式染色体视图,所述交互式染色体视图通过在基因组坐标上标记患者的所有临床相关或可操作基因组畸变来对其进行总结,相应地包括与在突变/基因旁边标记的与特定突变/基因相关联的已知药物反应,所述第一水平还包括可以由用户访问的两个额外的水平,包括:水平1A,圆形表意符号视图,其中,染色体以圆形布局布置;以及水平1B,表意符号视图,其中,分别示意性显示每个染色体;
第二水平(水平2),包括交互式基因间基因组尺度,其中,显示了其表达水平由颜色指示的多个基因。可以包括额外的数据轨道以添加更多细节,例如任何视图水平的甲基化、染色质免疫沉淀测序(ChIP-Seq)、天然延伸转录物测序(NET-Seq)和转座酶可及染色质测序法(ATAC-Seq)的试验,其可以改进基因组畸变的功能性视图;利用ChIP数据,我们将了解转录因子是否与其靶功能绑定;利用NET-Seq,我们可以分析全基因组的转录活动;以及利用ATAC-Seq,我们可以研究染色质的可访问性。这些方面能够导致关于下游基因靶激活的结论。
第三水平(水平3),包括交互式基因尺度,描绘了基因内的结构和功能块、诸如甲基化水平和基因/外显子表达的组学数据、3D蛋白质结构(带状图),具有标记的突变并包括关于所述基因的总体信息;以及
第四水平(水平4),包括分子尺度,显示分子序列及其详细注释,诸如参考基因组的核苷酸序列、蛋白质编码区域中的对应氨基酸序列、由突变引起的核苷酸/氨基酸变化、外显子/基因表达和CpG位点的甲基化水平、用于组蛋白修饰的ChIP-Seq数据、以及并入更多细节的任何额外数据轨道。可以以fasta格式从UCSC基因组浏览器服务器(http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/)下载完整的人类参考序列(GRCh37),并且已知的规范基因的外显子位置和其它基因注释也可以从UCSC基因组浏览器下载;并且
在图形用户界面上分别显示所述第一至第四水平。
通过点击/选择染色体上的区域或指定染色体位置范围,用户可以在这些不同的视图水平查看、访问和探查数据。数据来自不同的源:(i)患者特异性数据(例如突变、基因表达和额外的数据轨道)可以存储为平面文档或数据库表,(ii)可以从本地或在线知识库中检索变体注释,(iii)参考基因组和基因位置和注释包括可以从公共存储库下载并本地存储的数据文档。
另外,本发明的第二方面涉及在多个层中显示患者或患者队列的组学数据,以进行并排比较。基因组坐标被锁定并跨层一致。用户能够通过适用于单个层的所有交互来添加/移除/组合/改变多个层的次序,并详细探查它们中的任何一层,其当由具有图形用户界面的计算设备执行时,使得设备执行上述方法的步骤。
附图说明
现在将关于附图更详细地描述根据本发明的方法。附图示出了实施本发明的方式,而不应被解释为限制落入所附权利要求的范围内的其它可能的实施例。
现在将关于附图更详细地描述根据本发明的方法。附图示出了实施本发明的方式,而不应被解释为限制落入所附权利要求的范围内的其它可能的实施例。
图1是给出在我们的精确医学探查器中处理和呈现多组学数据所涉及的计算步骤和数据源的概览的高水平流程图;
图2是示出精确医学探查器的两个主要功能的详细步骤和部件的流程图:(a)过滤和搜索变体和组学数据,以及(b)数据可视化和探查;
图3是水平1的圆形表意符号视图,其显示患者的基因组畸变及其相关联的药物反应;
图4是水平1的经典表意符号视图,其显示患者的基因组畸变及其相关联的药物反应;
图5是水平2的视图,其是在其中显示了由颜色指示其表达水平的多个基因的基因间基因组尺度;
图6是水平3的视图,其是在其中由颜色指示甲基化和基因/外显子表达水平的基因尺度;
图7是水平4的视图,其示出了核苷酸序列、氨基酸序列和甲基化水平;
图8是用于比较跨不同患者和队列的基因组畸变和处置选择的多层的示意图;
图9图示了示出具有用于搜索目的的相关联关键词的基因的圆形表意符号;并且
图10是我们的精确医学探查器的3D视图。
具体实施方式
本发明提供了一种系统和方法,用于通过以交互式经典/圆形表意符号格式显示患者的基因组畸变和多组学数据,来总结并呈现患者的基因组畸变、其药物反应和多组学数据,所述交互式经典/圆形表意符号格式允许医学从业者通过图形交互集合从相关的知识库访问下层支持性生物学和科学证据。下面参考图1-10进一步详细描述本发明。现在参考附图,图1是示出在精确医学探查器中处理和呈现多组学数据所涉及的计算步骤和数据源的概览。类似地,图2是示出精确医学探查器的两个主要功能的步骤和部件的流程图:(a)过滤和搜索变体和组学数据,以及(b)数据可视化和探查。图1和图2图示了本发明的实施例,其提供了一种系统和方法,用于获得和组织相关的患者特异性基因组信息,将这种信息呈现在视觉显示器上,其是图形或线性多层交互式图,通常显示在图形用户界面上。该方法需要从患者获得基因组畸变和其它组学数据,并将该数据存储在非瞬态计算机可读存储介质上。数据生成的常见过程之一涉及从患者收集组织和血液样本,执行下一代样本制备和DNA/RNA测序,变体和基因表达的读取对齐和剔除等。任选地,用户可以基于由用户定义的人口统计学和表型标准来从患者或健康样本的存储库中收集样本的队列,并提取其基因组畸变和组学数据以与感兴趣患者进行比较。基因组畸变和组学数据使用内部/外部知识库(图1)来注释,其包括诸如突变影响、群体等位基因频率、疾病与遗传模型的关联、药物反应等的信息。基因组畸变和组学数据然后基于用户定义的标准(图2)来过滤,例如染色体区域、基因、变体类型/功能/影响/群体等位基因频率等。
利用具有图形用户界面的计算设备,然后以交互式多等级格式显示基因组畸变和组学数据。在用于显示患者特异性基因组数据和基因组畸变的方法和系统的水平1处,通过在基因组坐标上标记患者来总结患者的所有临床相关或可操作的畸变(参见图3和4)。如果存在与突变/基因相关联的任何药物反应,则将其相应地标记在突变/基因旁边。在该水平内,至少存在三种可能性:水平1A–圆形表意符号视图,其中,染色体以圆形布局布置;以及水平1B–经典的表意符号视图,其中,每个染色体分别在使用熟悉的染色体组型表示的示意图中显示。根据本发明的实施例,图3是在水平1A处的交互式圆形表意符号视图,图4是在水平1B处的交互式经典表意符号视图。这两个视图由计算机在图形用户界面(“GUI”)上显示。用户能够通过与GUI交互来从一个视图切换到另一视图。第三种表示将是线性水平表示,其包含在水平轴上在彼此上堆叠的相同层。用户通过单击或选择水平1处在GUI中的突变或基因,并通过类似地选择染色体上的区域来访问染色体子水平,用户可以“放大”以查看和探查不同水平的数据。
图5图示了图3和图4的实施例的第二水平(水平2)。水平2是交互式基因间基因组尺度,其中,多个基因由其基因符号标记,并被显示有由颜色指示的其表达水平以及任何相关/可靶向的突变及其对应的药物选择。用户可以添加数据轨道,例如甲基化、ChIP-Seq、NET-Seq和ATAC-Seq数据,以并入更多细节来完成基因组畸变(或其缺失)的功能图片。
通过在水平2处选择特定基因,用户被引导到该实施例的水平3,如图6所示。水平3是基因尺度,其中,在水平2处选择的基因的甲基化、基因/外显子表达水平和其它组学数据由颜色或其它属性以及任何相关/可靶向的突变及其对应的药物选择指示。如已经提到的,可以添加另外的数据轨道以并入更多细节。这种多轨道表示的原因是能够进行关于基因组畸变的功能影响的推断。利用多轨道表示,我们希望支持基于事件的查询,其中,针对SAME基因的多个事件能够影响该基因驱动肿瘤的能力。我们需要使药物能够更好地关联(例如,ALK融合到名为Crizotinib的靶向药物—可以抑制具有激活突变的基因或避免能够针对失活基因的治疗)。水平3还包括关于所选基因、其功能块(启动子、转录开始/停止位点、外显子、内含子等)和带有标记的突变的3D结构(色带图)的被包括在顶部供参考的总体信息。
类似地,如图7中看到的,通过选择水平3处的特定基因,用户访问水平4。水平4包括关于在分子水平处的基因的信息,其中,显示核苷酸序列、氨基酸序列和甲基化水平。如前所述,可以添加数据轨道以并入更多细节,例如由突变引起的核苷酸和氨基酸变化,并产生关于基因组畸变的功能影响的印象。用户需要可视化的重要信息是是否存在基因组畸变的激活效应:对基因表达和该基因的下游靶的突变/融合或失活效应。通过在单个视觉框架内将该信息整合在一起,我们带来了证据,使得临床医师能够做出决定。
突变与药物反应
为了增强数据呈现,本发明采用不同的符号来表示不同类型的畸变和药物/临床试验关联,其显著性水平由诸如颜色和尺寸的性质指示,如能够在图3中看到的。数据表示方案的示例如下:
1、单核苷酸变体(SNV)–错义;无意义
2、插入–
3、删除–
4、融合-连接供体和受体基因的弧
5、拷贝数量变化–具有在右上的拷贝数量的加号⊕3
6、过度表达或表达不足:用于过度表达,用于表达不足,log2倍数变化的差异表达可以在右上标记
7、变体分类,例如致病的、可能的致病的、未知的重要性(VUC)、可能的良性和良性可以由突变符号的不同颜色表示
8、基于多种算法的组合致病性评分可以标记在突变符号的右上,例如指示无意义的SNV,具有为0.9的组合致病性评分
9、额外的注释,例如移码(FS)、剪接位点(SS)、无意义介导的衰变(NMD)等可以在突变符号的右上标记,例如指代移码插入
10、通过使用HGSV命名法(http://www.hgvs.org/mutnomen/)精确标记每个突变。可以使用额外的命名法。
11、在UX中明确参考激活或失活基因组畸变。可以基于1)致病性评分或2)基于先前的实验和已发表的发现汇总的手动规划信息来推断该信息。
12、药物选择由药丸表示
(a)具有增加反应的药物选择由绿色的带有向上箭头的药丸指代
(b)具有降低反应的药物选择由蓝色的带有向下箭头的药丸指代
(c)具有严重副作用的药物选择由红色的带有感叹号的药丸指代
(d)由填充水平指示药物选择中间的最佳的证据水平
(e)在符号旁边标记属于相同类别的药物选择的数量
(f)例如,意指存在具有与突变相关联的增加反应的四种药物,而指示存在具有严重副作用的两种药物,或者如果存在橙色,则意指基因组畸变与抗性标记相关联。
13、临床试验由测试管表示,试验次数在右上处指出,证据水平(如果有的话)由填充水平指示,例如,指示存在与突变相关联的两个临床试验
14、携带临床相关突变的基因的符号在其基因组位置处标记,其中,其突变被分组并列在其旁边。
15、基因链可以由箭头指示:→右或顺时针用于正向链,←左或逆时针用于反向链。
符号的选择不限于以上示例中所图示的那些。
交互
为了使得能够以不同的细节水平无缝导航至患者的多组学数据并快速访问来自不同知识库的相关信息,本发明的精确医学工具是高度交互的和用户友好的。被支持的用户交互集合包括但不限于以下各项:
1、在基因组的经典表意符号、circos和水平(线性)视图之间切换
2、通过使用缩放滑块,选择基因组尺度上的区域或直接指定基因、轨迹或开始和结束染色体位置,来放大/缩小到不同的数据水平
3、重新布置表意符号中的染色体布局,旋转圆形表意符号或通过滑动导航到附近区域
4、选择要显示的畸变的包含/排除标准,例如,通过指定突变类型和染色体区域或基因子集
5、导入并显示额外的数据轨道和注释,例如突变密度
6、选择并显示在多层中的一个或多个个体患者和队列的组学数据
7、悬停在任何色标数据上,例如基因表达和甲基化水平,并显示实际数值
8、选择核苷酸、氨基酸或突变,并且它们的位置将标记在对应的基因和3D蛋白质结构上(参见图7)
9、旋转和放大/缩小3D蛋白质结构
10、选择并显示与概念或关键词相关联的基因、突变或其它数据
11、可以通过点击/悬停在对象或部件上,或右键单击并且然后从弹出菜单中进行选择,访问与该对象或部件有关的更详细的信息:
(a)突变–染色体/转录物/蛋白质位置、氨基酸变化、种系突变的基因型或体细胞突变的变体等位基因分数、等位基因平衡、读取次数(用于测序数据)、调用质量(例如,phred评分)、功能(无意义、错义、移码、剪接位点、NMD等)、变体分类、群体等位基因频率、致病性评分、相关出版物等。
(b)药物选择–药物名称、其证据水平、支持出版物等的列表。
(c)临床试验–临床试验、实行机构、简短说明等的列表。
(d)基因水平细节–基因的全名、简短描述、基因组尺寸、外显子数量、途径/疾病/药物关联、患者特异性数据的摘要,例如基因表达和突变列表等。
(e)关于基因畸变的功能影响的信息
12、包括关于激活或失活基因组畸变效应的信息
13、每当必要时包括术语的超链接,例如基因符号和药物名称,以用于另外的信息。
多个样本和队列的比较
在另外的实施例中,用户可以选择在精确医学探查器中以多层视觉表示显示患者或患者队列的组学数据,以进行并排比较。参见图8。表意符号的每层的基因组坐标应与其它层一致地对齐。用户能够添加/移除/组合/改变多层的顺序,并通过适用于单个层的所有交互来详细探查它们中的任何一层。例如,图8示意性地图示了圆形层的堆叠,用于比较跨不同患者和队列的基因组畸变和处置选择。每层呈现一个患者或包括许多患者的队列的数据。在该示例中,当前患者的基因组畸变在顶部圆圈中进行了总结,并相对于具有预后信息(Luminal A、Luminal B、HER2+、Basal)和来自ClinVar的BRCA突变的个体(患者的母亲和姐妹的基因组简档)、队列进行比较。
用于基因组畸变的呈现过滤器
在基因组学中,习惯上为各种类型的基因组畸变中的每种的用户提供多个过滤选项。在该实施例内,目标是将基因组畸变与用于处置计划的关键证据相关联。在本发明的任何实施例中,用户可以通过应用包括但不限于以下项的过滤器的组合来确定要在表意符号的一层或多层中呈现什么数据:
1、染色体区域,例如chr1:1000000-5000000、chrX等
2、基因
(a)特定基因列表
(b)与基因子集相关联的生物学概念或术语,例如致癌基因、抑制物、转录因子、信号传递途径,诸如ER、PR、Wnt、PI3K、MAPK等(c)显著突变基因(SMG)–用户可以选择用于计算SMG及其参数的方法
(d)突变负担–用户可以指定基因需要携带以被包括用于显示的突变的数量和类型
(e)具有相关联药物反应信息的基因:
3、变体类型:单核苷酸变体(SNV)、短插入/删除(插入缺失)、拷贝数变体(CNV)、基因融合、过度表达、表达不足等。
4、变体功能:同义、错义、无意义、无意义介导衰变(NMD)、移码、剪接位点、启动子等。
5、变体影响
(a)治疗/药物遗传学–带有可用药物选择的变体。基因组畸变具有相关联的药物反应信息:1)抵抗性关联,其描绘该突变与特定指示内的抵抗性相关联;2)反应关联,其描绘突变与在某个指示内对药物的可能反应相关联(例如,对第一代酪氨酸激酶抑制剂的反应)
(b)分类–可以基于ACMG指南,即,针对体细胞突变和针对种系突变的1-5类,“致病的”、“可能致病的”、“不确定的重要性”、“可能是良性”或“良性”
(c)致病性预测–用户可以选择算法及其阈值的组合,其由“和/
或”运算符连接在一起
6、族群中的变体频率–在一个或多个族群(白人/黑人/亚裔/全部)中的次要等位基因频率阈值,其中,由“和/或”运算符连接条件
7、在样本/队列中的变体频率–对于每个样本/队列,用户可以指定变体或其载体的数量/频率的范围,其中,由“和/或”运算符连接条件
取决于应用的目的,例如诊断、治疗选择或研究,可以应用不同的默认过滤器设置,使得仅显示相关信息。
通过带有自动完成建议的关键词的搜索
用户可以通过在具有自动完成功能的搜索框中键入关键词在表意符号上示出与关键词相关联的基因或其它信息。搜索术语可以是基因符号、信号传递途径、疾病、药物或生物学概念,诸如致癌基因/抑制物等。用户还可以搜索通过逻辑运算符(诸如“,/或”、“&/和”等)连接的这些术语的组合。一旦从数据库中检索与(一个或多个)搜索术语有关的数据,它们就显示在相同或单独的表意符号上(参见图9)。可以以这样的方式突出显示并呈现搜索结果:使其与患者的主要数据可区分。跟踪搜索历史,以使用户选择一项或多项搜索的结果,以供快速查看和比较。
参考图9,关键词搜索允许在表意符号中查找和显示与术语相关联的基因。在该示例中,示出了“ER途径”中的所有基因。
为了使放大或缩小过渡看起来连续且平滑,并增强导航和用户体验,我们的精确医学探查器包括3D选项,其使用户能够从不同的视觉角度查看染色体布局(参见图10)。
与关键发现的证据相关联
我们的精确医学探查器的一个实质功能是显示具有其已知预测/实验/临床反应(增加/减少)的药物/处置,或与患者特异性数据相关联的临床试验选择,例如基因组畸变、上/下调节的基因表达、异常甲基化水平或具有支持性证据的其它组学异常,这可以通过用户交互来进一步探查。例如,已知基因突变BRAF V600E用于对黑素瘤中的Vemurafenib的增加的敏感性,而基因突变EGFR T790M用于对酪氨酸激酶抑制剂的抵抗性。可以从本地/外部知识库中查找此类关联,例如癌症体细胞突变目录(COSMIC)数据库、突变和药物门户网站(MDP)、抗癌药物数据库(CancerDR)、药物基因交互数据库(DGIdb)和ClinicalTrials.gov。可以访问关于药物的额外的信息,例如副作用、毒性、作用机理、与其它药物的交互以及支持性科学证据,以进行显示。在单个工具中收集、总结并呈现这种信息可以促进组合治疗的设计,并警告应避免的特定药物组合的潜在威胁。
示例
作为使用情况示例,我们的精确医学探查器被用于检查ER+乳腺癌患者的组学数据。从顶部水平的角度来看,肿瘤科医师得到对由患者携带的临床相关突变和可用的药物选择的基因组概览。如预期的那样,报告了ESR1基因的过度表达,以及包括ER抑制剂的药物选择。如果肿瘤科医师想进一步检查ER途径中基因的表达水平,则其然后将添加轨道用于基因表达,并添加过滤器用于ER途径基因的预先定义的面板。在检查了表达值之后,其确认患者是否具有过度活跃的ER途径,这可以通过ER抑制剂进行有效抑制。其还注意到患者在PIK3CA基因中携带已知的致病突变。其点击该突变,并检查等位基因频率、功能、致病性、调用质量、相关出版物以及其它细节,并确认该突变用作PIK3CA抑制剂的有利治疗反应的良好预后生物标记。在比较药物选择的临床证据和可能的副作用之后,其决定分别给予具有最强临床证据的两种抑制剂来抑制组合的ER和PIK3CA的活性以处置患者。我们的精确医学探查器显著改进了肿瘤科医师在对患者的组学数据执行整体性分析以制定处置计划时的工作流程。
Claims (6)
1.一种用于以多层格式总结并呈现患者特异性多组学数据的计算机实施的方法,所述方法包括:
具有图形用户界面的计算设备,
通过获得来自患者的基因组畸变和其它组学数据并且将所述数据存储在非瞬态计算机可读存储介质上来确定包含患者信息的文档的数据集;
基于所述患者的数据集来确定选择标准;
通过用户界面将患者特异性数据输入到被配置为接收所述患者特异性数据的处理器上,
基于来自患者或健康样本的存储库的用户定义的人口统计学和表型标准来选择样本的队列,并且通过所述图形用户界面将所述人口统计学和表型标准输入到所述计算设备中;
基于所述人口统计学和表型标准来提取所述队列的基因组畸变和组学数据以与感兴趣患者进行比较,并且通过用户界面将所述队列的基因组畸变和组学数据输入到被配置为接收所述队列的基因组畸变和组学数据的处理器上;
使用内部/外部知识库在所述多层格式的第一层中注释所述患者特异性基因组畸变和组学数据,所述内部/外部知识库包括诸如突变影响、群体等位基因频率、疾病与遗传模型的关联和药物反应的信息;
基于用户定义的标准来过滤所述患者特异性基因组畸变和组学数据,所述用户定义的标准诸如为染色体区域、基因和变体类型/功能/影响/群体等位基因频率;并且
以所述交互式多层格式显示所述患者特异性基因组畸变和组学数据,其中,所述多层格式包括:
所述第一层,所述第一层包括交互式染色体视图,所述交互式染色体视图通过在基因组坐标上标记所述患者的所有临床相关或可操作基因组畸变来对所述临床相关或可操作基因组畸变进行总结,所述临床相关或可操作基因组畸变相应地包括在特定突变/基因旁边标记的与所述突变/基因相关联的已知药物反应,所述第一层还包括:
第一子层,其包括染色体以圆形格式被布置的表意符号视图;
第二子层,其包括所述第一子层中的每个染色体分别示意性地被显示的表意符号视图;
第二层,其包括交互式基因间基因组尺度,在所述交互式基因间基因组尺度中多个基因通过由颜色指示的表达水平被显示;
第三水平,其包括交互式基因尺度,所述第三水平描绘了基因内的结构和功能块、诸如甲基化水平和基因/外显子表达的组学数据、具有标记的突变并且包括关于所述基因的总体信息的3D蛋白质结构(带状图);以及
第四水平,其包括分子尺度,所述第四水平显示分子序列及其详细注释,诸如参考基因组的核苷酸序列、蛋白质编码区域中的对应氨基酸序列、由所述突变引起的核苷酸/氨基酸变化、外显子/基因表达和CpG位点的甲基化水平、用于组蛋白修饰的ChIP-Seq数据。
2.根据权利要求1所述的方法,其中,所述多层格式是圆形或线性多层格式。
3.根据权利要求1所述的方法,其中,所述获得来自患者的基因组畸变和其它组学数据包括收集来自所述患者的组织和血液样本,执行下一代样本制备和DNA/RNA测序,对变体以及基因表达进行读取对齐和剔除。
4.根据权利要求1所述的方法,其中,所述第二层还包括额外的数据轨道以添加更多的细节,诸如甲基化、染色质免疫沉淀测序和可以改进基因组畸变的功能视图的试验数据。
5.一种有形地编码有计算机可执行指令的非瞬态计算机可读存储介质,所述计算机可执行指令当由与具有图形用户界面的计算设备相关联的处理器执行时使所述设备执行根据权利要求1所述的方法的步骤。
6.一种包括计算机可读代码的计算机程序产品,所述计算机可读代码当从非瞬态计算机可读介质被检索时由一个或多个处理器执行,所述计算机可读程序代码包括用于以下操作的指令:
通过获得来自患者的基因组畸变和其它组学数据并且将所述数据存储在非瞬态计算机可读存储介质上来确定包含患者信息的文档的数据集;
通过图形用户界面接收用户的选择标准,并且将所述患者特异性数据输入到被配置为接收所述患者特异性数据的处理器上,所述选择标准是由所述用户基于所述患者的数据集来确定的,
基于来自患者或健康样本的存储库的用户定义的人口统计学和表型标准来选择样本的队列,并且通过所述图形用户界面将所述人口统计学和表型标准输入到所述计算设备中;
基于所述人口统计学和表型标准来提取所述队列的基因组畸变和组学数据以与感兴趣患者进行比较,并且通过用户界面将所述队列的基因组畸变和组学数据输入到被配置为接收所述队列的基因组畸变和组学数据的处理器上;
使用内部/外部知识库来注释所述患者特异性基因组畸变和组学数据,所述内部/外部知识库包括诸如突变影响、群体等位基因频率、疾病与遗传模型的关联和药物反应的信息;
基于用户定义的标准来过滤所述患者特异性基因组畸变和组学数据,所述用户定义的标准诸如为染色体区域、基因和变体类型/功能/影响/群体等位基因频率;并且
以所述交互式多层格式显示所述患者特异性基因组畸变和组学数据,其中,所述多层格式包括:
第一层,所述第一层包括交互式染色体视图,所述交互式染色体视图通过在基因组坐标上标记所述患者的所有临床相关或可操作基因组畸变来对所述临床相关或可操作基因组畸变进行总结,所述临床相关或可操作基因组畸变相应地包括在特定突变/基因旁边标记的与所述突变/基因相关联的已知药物反应,所述第一层还包括:
第一子层,其包括染色体以圆形格式被布置的表意符号视图;
第二子层,其包括所述第一子层中的每个染色体分别示意性地被显示的表意符号视图;第二层,其包括交互式基因间基因组尺度,在所述交互式基因间基因组尺度中多个基因通过由颜色指示的表达水平被显示;
第三水平,其包括交互式基因尺度,所述第三水平描绘了基因内的结构和功能块、诸如甲基化水平和基因/外显子表达的组学数据、具有标记的突变并且包括关于所述基因的总体信息的3D蛋白质结构(带状图);以及
第四水平,其包括分子尺度,所述第四水平显示分子序列及其详细注释,诸如参考基因组的核苷酸序列、蛋白质编码区域中的对应氨基酸序列、由所述突变引起的核苷酸/氨基酸变化、外显子/基因表达和CpG位点的甲基化水平、用于组蛋白修饰的ChIP-Seq数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762490921P | 2017-04-27 | 2017-04-27 | |
US62/490921 | 2017-04-27 | ||
PCT/EP2018/060808 WO2018197648A1 (en) | 2017-04-27 | 2018-04-26 | Interactive precision medicine explorer for genomic abberations and treatment options |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110603594A true CN110603594A (zh) | 2019-12-20 |
Family
ID=62063551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880027520.8A Pending CN110603594A (zh) | 2017-04-27 | 2018-04-26 | 用于基因组删减和处置选择的交互式精确医学探查器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20180314795A1 (zh) |
EP (1) | EP3616103A1 (zh) |
CN (1) | CN110603594A (zh) |
WO (1) | WO2018197648A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10460446B2 (en) * | 2017-10-16 | 2019-10-29 | Nant Holdings Ip, Llc | Image-based circular plot recognition and interpretation |
USD887431S1 (en) * | 2018-06-18 | 2020-06-16 | Genomic Prediction, Inc. | Display screen with graphical user interface |
CN113377765A (zh) * | 2021-07-09 | 2021-09-10 | 深圳华大基因科技服务有限公司 | 一种多组学数据分析系统及其数据转换方法 |
CN114783589B (zh) * | 2022-04-02 | 2022-10-04 | 中国医学科学院阜外医院 | 主动脉疾病遗传突变自动化解读系统HTAADVar |
CN115631871B (zh) * | 2022-12-22 | 2023-03-24 | 北京大学第三医院(北京大学第三临床医学院) | 一种药物相互作用等级的确定方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104871164A (zh) * | 2012-10-24 | 2015-08-26 | 考利达基因组股份有限公司 | 处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统 |
US20160070858A1 (en) * | 2014-09-05 | 2016-03-10 | Koninklijke Philips N.V. | Visualizing genomic data |
CN106537400A (zh) * | 2014-02-26 | 2017-03-22 | 南托米克斯公司 | 安全的移动基因组浏览设备及用于其的方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150095064A1 (en) * | 2013-09-27 | 2015-04-02 | Orbicule Bvba | Method for Storage and Communication of Personal Genomic or Medical Information |
US20210158902A1 (en) * | 2018-05-31 | 2021-05-27 | Koninklijke Philips N.V. | System and method for allele interpretation using a graph-based reference genome |
WO2021063904A1 (en) * | 2019-10-01 | 2021-04-08 | Koninklijke Philips N.V. | System and methods for the efficient identification and extraction of sequence paths in genome graphs |
WO2021105257A1 (en) * | 2019-11-26 | 2021-06-03 | Koninklijke Philips N.V. | Method and system using integrative multi-omic data analysis for evaluating the functional impacts of genomic variants |
-
2018
- 2018-04-26 EP EP18720602.4A patent/EP3616103A1/en active Pending
- 2018-04-26 WO PCT/EP2018/060808 patent/WO2018197648A1/en unknown
- 2018-04-26 CN CN201880027520.8A patent/CN110603594A/zh active Pending
- 2018-04-27 US US15/964,180 patent/US20180314795A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104871164A (zh) * | 2012-10-24 | 2015-08-26 | 考利达基因组股份有限公司 | 处理和呈现基因组序列数据中核苷酸变化的基因组浏览器系统 |
CN106537400A (zh) * | 2014-02-26 | 2017-03-22 | 南托米克斯公司 | 安全的移动基因组浏览设备及用于其的方法 |
US20160070858A1 (en) * | 2014-09-05 | 2016-03-10 | Koninklijke Philips N.V. | Visualizing genomic data |
Non-Patent Citations (1)
Title |
---|
MARC FIUME: "System for Interpretation of Personal Genomes" * |
Also Published As
Publication number | Publication date |
---|---|
US20180314795A1 (en) | 2018-11-01 |
EP3616103A1 (en) | 2020-03-04 |
WO2018197648A1 (en) | 2018-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Carvalho-Silva et al. | Open Targets Platform: new developments and updates two years on | |
Nusrat et al. | Tasks, techniques, and tools for genomic data visualization | |
CN110603594A (zh) | 用于基因组删减和处置选择的交互式精确医学探查器 | |
US20100281401A1 (en) | Interactive Genome Browser | |
Li et al. | A comprehensive overview of oncogenic pathways in human cancer | |
US20140317518A1 (en) | Information System for Healthcare and Biology | |
O’Daniel et al. | Whole-genome and whole-exome sequencing in hereditary cancer: impact on genetic testing and counseling | |
Bertoldi et al. | QueryOR: a comprehensive web platform for genetic variant analysis and prioritization | |
US20220316009A1 (en) | Precision medicine portal for human diseases | |
US11875903B2 (en) | Method and process for predicting and analyzing patient cohort response, progression, and survival | |
US20220270763A1 (en) | Method and process for predicting and analyzing patient cohort response, progression, and survival | |
Zhao et al. | CircleBase: an integrated resource and analysis platform for human eccDNAs | |
US20220301672A1 (en) | Computing device with improved user interface for interpreting and visualizing data | |
Apostolides et al. | MetaFusion: a high-confidence metacaller for filtering and prioritizing RNA-seq gene fusion candidates | |
Hunt et al. | The visual language of synteny | |
US20220310208A1 (en) | Systems and methods with improved user interface for interpreting and visualizing longitudinal | |
Dalgleish et al. | CNVScope: Visually Exploring Copy Number Aberrations in Cancer Genomes | |
Chen et al. | CNA Explorer and anaLyzer (CNAEL): an interactive web application and standard operating procedure enabling efficient clinical review and reporting of complex NGS-derived tumor copy number profiles | |
EP4133109A1 (en) | Systems and methods for gene variant grouping and visualization | |
Salma et al. | Var∣ Decrypt: a novel and user-friendly tool to explore and prioritize variants in whole-exome sequencing data | |
Sürün | Automated Identification of Targeted Therapy Strategies in Precision Oncology | |
장영준 | An integrated clinical and genomic information system for cancer precision medicine | |
Qu | Genomic Analysis of Micro-inversions Based on High-Throughput Sequencing | |
WO2022203705A1 (en) | A precision medicine portal for human diseases | |
Strefford | systematic Review of somatic Mutations in splenic Marginal Zone Lymphoma |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |