CN106796619B - 基因组信息服务 - Google Patents

基因组信息服务 Download PDF

Info

Publication number
CN106796619B
CN106796619B CN201580022319.7A CN201580022319A CN106796619B CN 106796619 B CN106796619 B CN 106796619B CN 201580022319 A CN201580022319 A CN 201580022319A CN 106796619 B CN106796619 B CN 106796619B
Authority
CN
China
Prior art keywords
genomic sequence
genomic
user
module
pipeline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580022319.7A
Other languages
English (en)
Other versions
CN106796619A (zh
Inventor
N·迪米特罗娃
W·K·卡雷
R·J·克拉辛斯基
J·尼尔松
B·格兰瑟姆
A·R·曼科维赫
V·阿格拉瓦尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Allied Technology
Koninklijke Philips NV
Original Assignee
Allied Technology
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Allied Technology, Koninklijke Philips NV filed Critical Allied Technology
Publication of CN106796619A publication Critical patent/CN106796619A/zh
Application granted granted Critical
Publication of CN106796619B publication Critical patent/CN106796619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

针对用于存储和分析基因组数据的安全框架的方法和装置。本发明的实施例对敏感信息以及在所述敏感信息上操作的分析应用持久的管理,从而管理两者之间的交互。

Description

基因组信息服务
相关申请的交叉引用
本申请要求享有于2014年7月14日递交的、共同未决的美国临时申请第62/024012号以及于2014年5月2日递交的、共同未决的美国临时申请第61/987887号的权益。这两个申请的全部公开内容以引用方式全部内容并入本文。
技术领域
本发明总体上涉及输送基因组信息,并且更具体地涉及使用托管服务来安全保护基因组信息的输送。
背景技术
利用每代基因组测序系统,空前大量的分子信息变得可用于临床诊断和处置计划。在肿瘤学中尤其是这种情况,其中,高吞吐量分子表现型态(molecular profiling)是朝向诊断、治疗选择和响应评估的个性化的关键驱动物。这样,用于使用患者DNA的序列数据来生成和提供信息学的决策支持系统能够是至关重要的工具。
当基因组信息用于制定临床决策时,其通常以线性方式被使用,在其中按顺序地执行标准分析步骤的集合以转换原始基因组序列来产生信息学产品的特定集合,例如,生物标记物、遗传性变型、或其它患者特异性特征。然后特别针对单个研究内的一个患者或者为了回答一个临床问题的目的而处理基因组信息的该集合。因此,传统的基因组信息被生成,但不提供探查多个临床选项的机会或者不提供在包括其它患者的基因组信息的基于群体的同生群的背景中评估患者特异性数据的机会。
针对传统的基因组信息学系统的主要未满足的要求之一是需要提供基因组信息安全性和隐私性。能够用于识别患者的基因组或任何信息服从于政府和产业管制。持有患者识别信息的机构和个人(包括在研究和临床环境中的那些)被要求在违背数据安全性或隐私性的情况下通知患者。结果,基因组数据持有者不愿共享患者特异性基因组信息。
传统的系统和方法在其能力中受限于以足够的粒度和背景复杂性来保护基因组信息。例如,如图1所示,包括患者特异性基因组信息的传统数据发布集中于研究院、临床医生及其所属机构的适当证书授予。一旦个人或机构被授权访问,则原始形式的基因组信息和保护该信息的责任就传递到接收者上。到目前为止最常见的是,该方法从安全性观点来看具有若干严重缺点。例如,其假设能够通过传递信任关系在信息的后续分布或扩散中维护安全性,实际上,当后续接收信息时可能引起无意地违反隐私性。
该方法也不提供关于信息访问的个体实例的任何详细的审查信息,尽管其具有对用于大型研究的所有数据被集中的限制。在该方法中,管理信息使用的安全性或隐私性策略不能动态改变或者被简单地强制实施,并且通常接收者必须是可信的以强制实施策略本身。
另一传统方法提供应用程序接口(API),所述API用于经由可信数据存储来提供对信息的安全访问。该方法具有两个显著优点。如果要求接收者认证自己,则可以区别不同的接收者并对其访问应用可能不同的策略。该方法能够提供细粒度访问;接收者能够只询问要求用于特定任务的数据。能够用仪表测量并审查公开的或可能公开的信息。该级别的审查也允许识别出可能的泄露源。
在另一方面,该方法仍将敏感数据返回到不信任环境中。为了查看哪里会出现问题,考虑简单的范例:给定基因组标识符的列表,确定具有特定变体的基因组的数量。假设API简单地通过标识符来返回变体。在这些环境下,不信任代码将针对列表中的基因组中的每个学习个体变体,其基于表现型特性被大概选取。那些关联可能被损害,从而削弱安全性。
发明内容
提供该“发明内容”是为了引入在下文中的“具体实施方式”部分进一步描述的简化形式的概念选择。该“发明内容”并非旨在识别或排除所要求保护的主题的关键特征或必要特征,也并非旨在用于辅助确定所要求保护的主题的范围。
本发明的实施例涉及用于存储和分析基因组数据的安全框架的方法和装置。本发明的实施例对敏感信息以及基于敏感信息操作的分析应用持久管理,从而管理两者之间的交互。
在一方面中,本发明的实施例涉及一种安全保护基因组信息的方法。所述方法包括:从基因组数据源接收基因组序列;生成代理患者身份以用于引用所述基因组序列;将所述基因组序列提供到管理的计算流水线;从所述管理的计算流水线获得检测到的特征;并且使用托管的计算模块来注释所述检测到的特征。所述计算流水线被配置为处理所述基因组序列以便检测在所述基因组序列中的特征。
在一个实施例中,所述基因组序列是从测序装置接收的。在一个实施例中,所述方法还包括:根据所述托管的计算模块的运行的可审查序列来将所述检测到的特征、注释的特征和代理身份中的至少一个存储在数据库中。在一个实施例中,所述托管的计算模块被配置为根据临床参考来注释所述检测到的特征。在一个实施例中,所述方法还包括:在将所述基因组序列提供到所述管理的计算流水线之前,将所述基因组序列相对参考基因组序列进行对齐。
在一个实施例中,提供所述托管的计算模块的步骤包括提供具有程序运行模块和安全性模块的托管的计算模块,所述程序运行模块包括虚拟化容器,所述安全性模块用于认证用户并根据用户认证来提供访问控制。在一个实施例中,将所述基因组序列提供到所述管理的计算流水线的步骤包括:提供通过用户认证和基于角色的访问控制中的一个来安全保护的管理的计算流水线。在一个实施例中,所述方法还包括:呈现至少一个注释的特征和相关联的患者代理身份以用于临床分析。
在另一方面中,本发明的实施例涉及一种用于提供基因组信息的装置。所述装置包括:接收器模块、身份生成器、通信总线、以及托管的计算模块。所述接收器模块被配置为从基因组数据源接收基因组序列。所述身份生成器被配置为生成代理患者身份以用于引用所述基因组序列。所述通信总线将所述基因组序列提供到管理的计算流水线,所述计算流水线被配置为处理所述基因组序列,以便检测所述基因组序列中的特征。所述通信总线还被配置为从所述管理的计算流水线获得检测到的特征,并且还被配置为将所述检测到的特征提供到托管的计算模块。所述托管的计算模块被配置为注释所述检测到的特征。
在一个实施例中,所述基因组数据源是测序装置。在一个实施例中,所述装置还包括非瞬态计算机可读存储介质,所述非瞬态计算机可读存储介质用于根据所述托管的计算模块的运行的可审查序列将所述检测到的特征、注释的特征和代理身份中的至少一个存储在数据库中。在一个实施例中,所述托管的计算模块被配置为根据临床参考来注释所述检测到的特征。
在一个实施例中,所述装置还包括被配置为在将所述基因组序列提供到所述管理的计算流水线之前将所述基因组序列相对参考基因组序列进行对齐的模块。在一个实施例中,所述托管的计算模块包括程序运行模块和安全性模块,所述程序运行模块包括虚拟化容器,所述安全性模块用于认证用户并根据用户认证来提供访问控制。在一个实施例中,通过用户认证和基于角色的访问控制中的一个来安全保护所述管理的计算流水线。在一个实施例中,所述装置还包括用户接口,所述用户接口用于呈现至少一个注释的特征和相关联的患者代理身份以用于临床分析。
在又一方面,本发明的实施例涉及一种用于执行计算的方法。所述方法包括:在管理的计算流水线处接收用于运行的程序;创建用于所述程序是所述运行的运行背景;在所述运行背景内发动虚拟机以运行所述程序;并且将运行的结果传输到所述管理的计算流水线之外,其中,与所述程序的所述运行相关联的个人可识别信息被专有地存储在所述运行背景内。
在一个实施例中,所述方法还包括:根据上传的程序来创建可运行图像,并且将所述可运行图像保存到非瞬态计算机可读存储介质。与所述虚拟机的所述运行相关联的状态信息也可以被存储在所述非瞬态计算机可读存储介质中。在一个实施例中,所述运行背景是虚拟化容器。
通过阅读以下详细描述并查看相关联的附图,表征本非限制性实施例的这些以及其它特征和优点将变得明晰。应当理解,前述一般性描述和以下详细描述仅是解释性的并且不限制如所要求保护的非限制性实施例。
附图说明
参考以下附图来描述非限制性且非详尽性实施例,其中:
图1是用于访问基因组信息的传统系统的方框图;
图2是根据本发明的用于生成信息学的多阶段计算系统的方框图;
图3描绘了使用本发明的实施例对基因组序列数据进行处理的范例;
图4图示了根据本发明的托管的计算模块的范例;
图5是根据本发明的执行计算的方法的流程图;并且
图6是针对使用本发明的实施例实施的载体兼容性检测的简单计算网络的描绘。
在附图中,类似的附图标记一般指代贯穿不同视图的对应部分。附图不必按照比例,替代地是强调操作的原理和概念。
具体实施方式
在下文中参考附图更全面地描述了各个实施例,附图形成了实施例的一部分并且示出了具体的示例性实施例。然而,实施例可以以多种不同形式来实施,并且不应被解释为限于在本文中所阐述的实施例;而是,这些实施例被提供为使得本公开内容透彻且完成,并将向本领域技术人员完全传达实施例的范围。实施例可以被实践为方法、系统或设备。相应地,实施例可以采取硬件实施方式、完全软件实施方式或组合软件方面和硬件方面的实施方式的形式。因此,以下详细描述并不是限制意义的。
在说明书中引用“一个实施例”或“一实施例”意指结合实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在说明书中各处出现的短语“在一个实施例中”不必都指代同一实施例。
依照对被存储在计算机存储器内的非瞬态信号的操作的符号表示来呈现后面的一部分描述。这些描述和表示是在数据处理领域中的技术人员所使用的手段,以最有效地向本领域其他技术人员传达其工作的实质。这种操作通常要求物理量的物理操纵。通常,虽然不是必要的,但是这些量采取电学、磁性或光学信号的形式,所述电学、磁性或光学信号能够被存储、转移、组合、比较或以其他方式被操纵。有时,主要由于共同使用,将这些信号称作位、值、元素、符号、字符、项、数字等是方便的。此外,有时将要求物理量的物理操纵的步骤的特定布置称作模块或代码设备是方便的,而不会丧失一般性。
然而,所有这些术语和类似术语将与适当的物理量相关联,并且仅是应用于这些量的方便标签。除非如从以下讨论中明显地特别指出,应当意识到,遍及说明书,利用例如“处理”或“计算”或“运算”或“确定”或“显示”等的术语的讨论指的是计算机系统或类似电子计算设备的动作和过程,其操纵和转换在计算机系统存储器或寄存器或其它这种信息存储、传输或显示设备内被表示为物理(电子)量的数据。
本发明的某些方面包括过程步骤和指令,所述过程步骤和指令能够被实施在软件、固件或硬件中,并且当其被实施在软件中时,能够被下载以驻留在各种操作系统所使用的不同平台上并从其进行操作。
本发明还涉及用于执行本文中的操作的装置。该装置可以针对所要求的目的而被专门构建,或者其可以包括通过被存储在计算机中的计算机程序进行选择性激活或重新配置的通用计算机。这种计算机程序可以被存储在计算机可读存储介质上,例如但不限于,任意类型的盘,包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡、专用集成电路(ASIC)、或者适合于存储电子指令的任意类型的媒介,并且其每个都被耦合到计算机系统总线上。此外,在说明书中提及的计算机可以包括单处理器,或者可以是采用用于增加计算能力的多处理器设计的架构。
在本文中呈现的过程和显示并不固有地涉及任意特定计算机或其它装置。也可以利用根据本文中的教导的程序来使用各种通用系统,或者可以证明构建更专门的装置来执行所要求的方法步骤是方便的。根据以下描述,用于各种这些系统的所要求结构将变得明晰。另外,并不参考任何特定的编程语言来描述本发明。能够意识到,可以使用各种编程语言来实施如在本文中所描述的本发明的教导,并且以下提供对特定语言的任意参考以用于公开本发明的可实施性和最佳模式。
另外,在说明书中使用的语言在原则上已经被选择用于可读性和指导目的,并且不被选择用于描画或限定发明主题的范围。因此,本发明的公开内容旨在对本发明的范围进行说明而非限制,本发明的范围在权利要求中进行了阐述。
根据一个实施例,如图2所示,提供了多阶段计算系统200,所述多阶段计算系统200用于生成用于对基因组序列的科研或临床研究的信息学。所述计算系统包括四个阶段——210、220、230和240,这四个阶段中的每个都可以被提供具有一个或多个安全性和隐私性保存措施(后文称作保护措施)。
在阶段I(210)中,能够从基因组测序器(未示出)接收基因组数据的原始序列,并且能够将接收到的基因组序列存储在数据库212中。能够在测序机器处产生所述原始的、未对齐的基因组序列读数的集合并将所述集合传递到系统中。由于该读数尚未对齐,即,尚未有效地处于随机次序,因此从安全性的观点而言该读数是等价的。适当的保护措施因此被引导以保护原始读取数据并安全保护到服务器的传输。
根据本发明的一个实施例,保护措施能够包括对读数的加密。例如,能够利用对称秘钥来执行对读数的加密。保护措施还能够包括利用接收并摄取读数以用于后续处理的计算机的公共秘钥来对对称秘钥进行加密。一旦被加密,则读取数据能够被上传到摄取点211,被解密且被存储在数据库212中。
接下来,在阶段II(220)中,能够提供计算流水线模块来进一步处理在阶段I(210)中接收到的原始基因组序列,将所述原始基因组序列转换成注释的变体的集合。这里,能够通过运行一系列数据处理指令的一个或多个计算机处理器来提供流水线模块,从而形成一系列流水线处理器。一个流水线处理器的输出是下一个流水线处理器的输入。流水线模块的指令集能够被并行运行或以分时复用的方式被运行。换言之,流水线处理器能够被布置为多个平行的流水线。
如图3所示并结合图2,在该阶段中,能够利用指令302的集合将原始读数与参考基因序列进行对齐。能够将流水线处理器302的输出提供给流水线处理器302,所述流水线处理器302能够将对齐的读取序列进行配对。后续的流水线处理器304能够例如相对参考基因组序列对经配对的序列进行分类。能够通过流水线处理器305将经分类的序列合并到到单个序列中,并且能够通过流水线处理器306执行序列的重复数据删除。
流水线处理器的输出能够以泄露更多患者信息的方式组织基因组序列,并且可能对攻击者来说可能更有用。然而,在该阶段处数据量保持较大,因此其对少量数据违反较不敏感。
此外,在阶段II(图2中的220)中,由于对齐指令集能够涉及所有的读数,因此能够对(流水线处理器执行的)每个对齐过程授权到所有读数的相等访问,而不利用加密操作对其有所减缓。换言之,根据本发明的一个实施例,应用于流水线处理器的保护措施包括传统的安全性技术,例如,用户的认证、基于角色的访问控制、安全性审查等。
根据一个实施例,如果流水线处理器能够在没有用户交互的情况下处理基因组序列,即,自动运行数据处理指令集,则能够从保护措施省略对用户的认证和批准。
根据另一实施例,流水线处理器308和309能够要求用户交互或输入。例如,流水线处理器308注释基因组特征,即,来自先前流水线处理器307的变体输出。能够利用从多个注释数据库中的任一个(如图2中的辅助生物数据库222所示)检索到的注释来注释基因组特征,所述多个注释数据库例如为dbSNP、COSMIC、ClinVar和dbNSFP。对这种数据库中的一个的选择能够是默认的,即,没有用户输入,或者选择能够被提供给用户并根据基于信息种类和期望的详细级别的用户输入来做出。
作为另一范例,流水线处理器309能够帮助用户解读流水线处理器308所注释的基因组特征。基于识别出的基因组特征以及来自已发布的文献的信息或提出的可用的医疗知识,临床医生能够解读基因组特征和注释的临床关联,以便决定处置患者的过程。结果,基于患者的基因组、转录组学和临床表现型态,能够针对患者进行个性化处置。
根据一个实施例,该阶段——阶段II(图2中的220)的最终输出能够是注释的变体集合,其能够是非常私人的,并且可以取决于变体的相对敏感性经受不同的安全性策略。当相对该数据运行操作时,本发明的实施例将跟踪操作的请求者、请求的目的、以及用户是否已经被批准做出该请求。在一些实施例中,如下文更详细地讨论的,执行操作的软件可以在安全环境中运行,使得其对敏感数据的访问可以被更小心地控制,并且执行非法访问的能力可以被阻止。
根据一个实施例,与诸如疾病的表现型相关的变体能够要求更严厉的访问策略,作为本发明的保护措施的一部分。
根据本发明的另一实施例,为了参考针对由流水线处理器中的每个输出的特征的基因组序列,能够生成代理身份。这样,能够在不具有患者识别信息的情况下操作流水线处理器中的每个。
接下来,在阶段III(图2中的230)中,提供托管的计算模块238以接收从阶段II(223)输出的基因组特征和序列信息(中间结果),并且能够将该中间结果存储在数据库238中。根据一个实施例,托管的计算模块准许第三方程序代码被运行在接收到的中间结果上,以便在根据本发明的保护措施下进一步生成信息学产品。第三方程序代码能够包括用户选择的或用户创建的源代码或二进制形式的程序代码。
在先前的阶段中,执行计算而不必将这些计算的结果泄露给用户;计算的结果可以被存储在数据库中以供后续访问。在该阶段中,另一方面,可以向终端用户泄露敏感信息,这要求用户被认证,并且核查管理用户对给定模块的输出的访问的任何策略。
根据本发明的各个实施例,上述基因组API模型解决了传统的直接访问模型的许多缺点,特别是当在API后面执行作为副作用可能泄露信息的计算时,无法达到不信任的客户端侧代码。但是设计掩盖所有这种计算的API是困难的,因此必然地,不信任的代码将可以访问一些中间产品,泄露比严格必要更多的信息。
本发明的各种实施例通过在信任边界内提供通用计算能力而解决了该问题。将计算移动到信任环境中允许对所公开信息的更精确的控制,这是因为只有最终结果所泄露的信息对不信任代码可见。中间结果保持在信任边界内。然而,允许任意代码在信任环境内运行改变了威胁模型——恶意的或不正确的代码可能损坏敏感数据,以非预期方式泄露所述敏感数据。
本发明的另外的实施例单个地或组合地利用多种技术以减轻这些威胁。一些实施例要求外部代码由主管部门签名,并且核查签名作为针对代码加载或运行的条件。一些实施例跟踪通过运行外部代码访问的信息。一些实施例在沙盒化的环境中运行外部代码,所述沙盒化的环境防止外部代码访问随机存储或网络位置,并允许系统限制对敏感数据的暴露。一些实施例提供细粒度的API用于外部代码访问数据,改善了可审核性并使可能被给定计算损坏的个人信息的量最小化。
可以在安全或不安全的环境中使用例如REST API来开发针对相对本发明实施例的运行而编写的程序以进行数据访问。托管敏感数据的每个服务器通常将提供其自己语义适合的API。可以例如使用在不安全的HTTP连接上的公共可用数据来测试程序,以确保它们正确工作。
根据一个实施例,如图4所示,托管的计算模块400能够包括沙盒化的或托管的运行环境410。能够例如使用Linux容器机构(lxc)在计算机虚拟化系统中提供托管的运行环境410。当用户创建的程序被加载到虚拟化容器中时,创建虚拟化的计算资源的可运行图像并将所述可运行图像存储在图像存储库(未示出)中。在运行时间时,能够从存储库检索可运行图像。
如图4所示,在步骤(1)中,通过运行管理器420接收请求422以运行用户创建的不信任程序412。虽然在附图中未示出,但是假设请求422具有第一穿过认证,并且策略允许这样确保用户请求该运行的批准阶段。响应于认证和批准的请求422,运行管理器420引导托管的运行环境410来加载用户创建的代码并进一步核查能够将条件置于代码本身上的用户特异性运行策略,例如,要求来自相关批准的数字签名。
在步骤(2)中,运行管理器420创建用于运行程序412的实例的运行背景。该运行背景能够允许托管的运行模块400使得敏感信息与运行实例相关联,而不将该信息置于不信任的程序412的存储器地址空间中,在不信任的程序412的存储器地址空间中,信息容易受到攻击。例如,能够向程序传递短暂的基因组ID作为其第一变元,并且运行背景存储其到真实标识符的映射。
程序运行能够开始于步骤(3),运行管理器420开始虚拟机实例并输入必要的参数。当程序412运行时,准许通过HTTP API从数据存储440请求数据,如步骤(4)所示。由于程序在托管的容器内运行,因此能够将其对网络资源的访问限制到仅信任的端点。在这些调用到达数据存储440之前,能够提供若干过程:
1.可以使用被存储在运行背景中的信息来转换请求。例如,在该步骤中,系统可以确定给予程序作为参数的短暂标识符如何映射到数据存储中的实际标识符。关于运行背景的信息也可以作为请求的部分而被传递到数据存储。
2.将能够在简单的HTTP上做出的请求提升到HTTPS,在客户端和服务器两者处具有证书。这确保只有被证明的系统能够与信任数据存储440交互,并且保持关键信息在第三方程序的地址空间外。应用策略来批准请求。这些策略提供对敏感数据访问的更细粒度控制,这是因为它们能够在计算进行时而不是计算开始之前被应用。一般而言,不能提前确定程序进行的请求的集合。
3.可以重写请求的目的地。例如,如果能够通过多个不同服务器来满足请求,则代理能够将请求引导到最适合的服务器。
4.请求能够被记录请求并在后续被提供用于审查。
在利用运行背景中的信息再次转换之后,请求的结果被返回到不信任代码412的地址空间中。当程序终止时,其输出能够通过运行管理器420而被捕捉(步骤6),被审查(步骤7),并且被返回到原始请求者(步骤8)。
根据一个实施例,对审查进行数字化签名,使得它们能够在后续被验证。由于托管的计算模块400取决于对已知虚拟机的虚拟化,并且由于模块400对所有的状态信息进行存储、签署和加标签,因此可以在后续时间或不同位置处完全重新创建计算以确认这些审查。
如图5所示,本发明的实施例提供用于执行计算的方法。一旦开发并测试了程序,就可以将其上传以在管理的环境中运行(步骤500)。开发者通常在上传之前被证实(即,认证),并且上传过程可以包括准许上传者设置管理上传的程序的运行的策略和条件的选项。
一旦被上传,可运行图像就可以根据上传的程序被创建,并且被保存到存储库以用于在运行时间时进行检索。为了提供隔离和安全性,在虚拟化容器中运行所运行的图像,所述虚拟化容器例如是Docker(http://docker.io),基于Linux容器机构(lxc)的虚拟化系统。
当实施例接收运行程序的请求时,创建运行背景以与运行程序的特定实例一起使用(步骤504)。运行背景允许本发明的系统将敏感信息与运行实例相关联,而不将所述信息置于不信任程序的地址空间中,在所述不信任程序的地址空间中,所述信息将容易受到攻击。例如,可以向程序传递短暂的基因组ID作为其第一变元,并且运行背景存储基因组ID到真实标识符的映射。
运行程序(步骤508),发起虚拟机实例并输入必要的参数。当程序运行时,可以使用例如HTTP API从数据存储请求数据。由于程序在容器内部运行,因此能够将其对网络资源的访问限制到仅信任的端点。然而,在这些调用到达数据存储之前,可以发生若干额外的步骤:
·可以使用被存储在运行背景中的信息来转换请求。例如,系统可以确定给予程序作为参数的短暂标识符如何映射到数据存储中的实际标识符。关于运行背景的信息也可以作为请求的部分被传递到数据存储。
·当请求在简单的HTTP上起源时,请求可以被提升到HTTPS,在客户端和服务器两者处具有证书。这确保只有被证明的系统能够与信任数据存储交互,并且保持关键信息在第三方程序的地址空间外。
·应用策略来批准请求。这些策略提供对敏感数据访问的更细粒度控制,这是因为它们可以在计算进行时而不是计算开始之前被应用。
·可以重写请求的目的地。例如,如果能够通过多个不同服务器来满足请求,则代理可以引导请求到最适合的服务器,例如,要求最少转移信息的服务器。
·记录请求。
可以在利用运行背景中的信息再次进行转换之后,请求的结果被返回到不信任代码的地址空间中(步骤512)。当程序终止时,其输出可以被捕捉,被审查,并且被返回到原始请求者。可以对审查进行数字化签名,使得可以在后续对它们进行验证。
由于运行系统使用对已知虚拟机的虚拟化,并且由于系统对所有的状态信息进行存储、签署和加标签,因此可以在后续时间和/或不同位置处重新创建计算以确认这些审查。
在该模型中,对可能泄露信息的计算进行沙盒化,限制对中间产品的访问。然而,更复杂的计算可以包括多个阶段,所述多个阶段能够进一步被隔离以便改善安全性并减小信息泄漏。
例如,考虑评估两个对象的基因疾病载体兼容性的简单计算。可以创建单个程序,所述单个程序通过表现型标识符来查找两个对象,核查变体的存在或不存在,并且确定两个对象是否都是载体。在最坏的情况下,该单个程序可能泄漏个人可识别信息。
然而,如图6所示,可以将该程序转换成三个单独程序的网络,可以使用本发明的实施例来运行所述三个单独程序,使得每个程序隔离运行,不能在基因型与表现型之间建立连接。在图6中,三个不同计算中的每个已经被分离到隔离的地址空间中并被结合到计算网络中。
选择计算600选取两个对象,假定基于表现型标准。这些标识符中的每个由系统映射到程序中的任一个的地址空间外部的基因组标识符中。
然后在筛选过程604、604’中单独评估每个基因组,所述每个筛选过程604、604’核查特定变体的存在并传递布尔值到组合过程608,所述组合过程608执行逻辑AND以确定载体兼容性。
显然地,尽管由该网络执行的计算与由单个程序计算的相同,但是大大减少了可能被释放的个人可识别信息的量。
本发明的实施例可以包括供用户指定计算网络的机构,例如,如图6所示。一旦指定了网络,系统就注意模块之间的必要转换、生命周期管理、存储和传输中间产品、以及返回最终结果。
本领域普通技术人员也可以使用该相同的技术来转变其它程序以用于在实施本发明的系统上运行,将程序分解成它们的个体计算,每个计算具有它们自己的隔离的地址空间。
在一些环境中,基因组API模型可以提供足够的保护。当使用目标-关系模型(ORM)开发框架时,能够以自然的方式对模块进行适配以与安全API交互。ORM允许开发者使用网络服务框架(例如,Ruby on Rails或者Django)来与自动生成的模型目标交互,所述自动生成的模型目标的类别对应于数据库表,并且其目标实例对应于所述表内的行。许多网络框架允许开发者以与本地目标精确相同的方式通过REST API与被存储在远程服务器中的模型目标透明地交互。
作为Object/REST映射的范例,可以将正常检索数据库记录(如patient.rsid(1933437))的语句转化成URL,其中,基因组ID与本地数据库中的患者目标相关联,并且通过Object/REST映射层自动构造路径。请求也可以与认证机构相耦合,所述认证机构允许进行请求的代码被识别和审查。
当模块为以下情况时,在API级别处进行集成是适合的:
·来自在交易期间无需被认证的信任源;
·针对不期望的行为已经进行了分析;
·针对访问敏感数据不要求证明完整性;
·在信任环境中运行,所述信任环境能够确保由模块检索的敏感信息不被其它部件损坏;
·能够在彼此之间安全地传递中间产品。
当这些条件中的一个或多个未被保持时,通过在个体模块级别处应用上述沙盒化技术来提供一些保护。用于实施这种类型的模块级别沙盒化的方法包括:
·通过控制器代码直接调用沙盒化的模块。如果期望的话,则模块本身能够使用上述Object/REST映射,将适配器作为依赖而注入虚拟化容器中。该方法在对其它模型目标没有太多依赖的情况下或在能够将必要的参数传递给沙盒化的模块作为参数的情况下可以良好运转。
·通过添加一级别的间接;而不是将实例变量和方法访问映射到返回那些项的REST调用,目标映射能够将那些请求转化成命令以运行沙盒化的模型,传递必要参数。
使用该集成策略,系统能够安全地处理第三方代码,以密码方式验证代码完整性等。然而,这并没有解决中间产品的传递,其仍然被返回到网络应用并且必须在该环境中是信任的。
为了减轻传递中间产品的风险,能够在托管的计算框架中运行整个计算网络。该方法作为上述的超集将涉及指定计算网络,加载所有要求的模块,并且然后在信任环境内对网络的运行进行排序。该方法也可以增加性能,这是因为其避免了仅为将数据从一个处理阶段移动到另一阶段的目的而重复地来回返回到网络应用。
例如,参考根据本公开内容的实施例的方法、系统和计算机程序产品的方框图和/或操作图示在以上描述本公开内容的实施例。在方框中标注的功能/动作可以不按任意流程图中所示的次序发生。例如,示出连续的两个方框实际上可以本质上并行地运行,或者有时可以以相反顺序运行方框,这取决于所涉及的功能/动作。额外地,不是任意流程图中示出的所有方框都需要被执行和/或运行。例如,如果给定的流程图具有包含功能/动作的五个方框,则情况可以是只执行和/或运行五个方框中的三个。在该范例中,可以执行和/或运行五个方框中的任意三个。
在该实施例中提供的一个或多个实施例的描述和图示并非旨在以任何方式限制或约束所要求保护的本公开内容的范围。在本申请中提供的实施例、范例和细节被认为足以传达所有物并使得他人能够制造和利用所要求保护实施例的最佳模式。所要求保护的实施例不应被解释为受限于在本申请中提供的任何实施例、范例或细节。不管是组合还是单独示出和描述的,(结构的和方法的)各个特征旨在被选择性地包括或省略,以产生具有特定特征集的实施例。在提供了本申请的描述和图示的情况下,本领域技术人员可以预想到落入在本申请中实施的一般发明概念的较宽方面的精神内的变型、修改和替代实施例,这并不背离所要求保护实施例的较宽范围。

Claims (12)

1.一种安全保护基因组信息的方法,所述方法包括:
从基因组数据源接收基因组序列;
生成代理患者身份以用于引用所述基因组序列;
将所述基因组序列提供到管理的计算流水线,所述计算流水线被配置为处理所述基因组序列以便检测在所述基因组序列中的特征;
注释检测到的特征,所述检测到的特征和注释一起形成中间结果;
在托管的计算模块处获得来自所述管理的计算流水线的所述中间结果;
在所述托管的计算模块的运行管理器处接收请求以在所述中间结果上运行用户创建的程序,以生成信息学产品;
将所述用户创建的程序分解成个体计算;并且
使用各自的、隔离的地址空间执行每个计算。
2.根据权利要求1所述的方法,其中,所述基因组序列是从测序装置接收的。
3.根据权利要求1所述的方法,还包括:在将所述基因组序列提供到所述管理的计算流水线之前,将所述基因组序列相对参考基因组序列进行对齐。
4.根据权利要求1所述的方法,其中,所述托管的计算模块包括:
程序运行模块,其包括虚拟化容器;以及
安全性模块,其用于认证用户并根据用户认证来提供访问控制。
5.根据权利要求1所述的方法,其中,在将所述基因组序列提供到所述管理的计算流水线的步骤中,通过用户认证和基于角色的访问控制中的一个来安全保护所述管理的计算流水线。
6.根据权利要求1所述的方法,还包括:
呈现至少一个注释的特征和相关联的患者代理身份以用于临床分析。
7.一种用于提供基因组信息学的装置,所述装置包括:
接收器模块,其被配置为从基因组数据源接收基因组序列;
身份生成器,其被配置为生成代理患者身份以用于引用所述基因组序列;
通信总线,其用于将所述基因组序列提供到管理的计算流水线,所述计算流水线被配置为处理所述基因组序列以便检测在所述基因组序列中的特征并且注释检测到的特征,所述检测到的特征和注释一起形成中间结果;
所述通信总线被配置为从所述管理的计算流水线获得所述中间结果,并且被配置为将所述中间结果提供到托管的计算模块;以及
所述托管的计算模块,其被配置为在运行管理器处接收请求以在所述中间结果上运行用户创建的程序,以生成信息学产品;将所述用户创建的程序分解成个体计算;并且使用各自的、隔离的地址空间执行每个计算。
8.根据权利要求7所述的装置,其中,所述基因组数据源是测序装置。
9.根据权利要求7所述的装置,还包括被配置为在将所述基因组序列提供到所述管理的计算流水线之前将所述基因组序列相对参考基因组序列进行对齐的模块。
10.根据权利要求7所述的装置,其中,所述托管的计算模块包括:
程序运行模块,其包括虚拟化容器;以及
安全性模块,其用于认证用户并根据用户认证来提供访问控制。
11.根据权利要求7所述的装置,其中,通过用户认证和基于角色的访问控制中的一个来安全保护所述管理的计算流水线。
12.根据权利要求7所述的装置,还包括用户接口,所述用户接口用于呈现至少一个注释的特征和相关联的患者代理身份以用于临床分析。
CN201580022319.7A 2014-05-02 2015-04-24 基因组信息服务 Active CN106796619B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461987887P 2014-05-02 2014-05-02
US61/987,887 2014-05-02
US201462024012P 2014-07-14 2014-07-14
US62/024,012 2014-07-14
PCT/IB2015/053003 WO2015166389A1 (en) 2014-05-02 2015-04-24 Genomic informatics service

Publications (2)

Publication Number Publication Date
CN106796619A CN106796619A (zh) 2017-05-31
CN106796619B true CN106796619B (zh) 2020-10-30

Family

ID=53059369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580022319.7A Active CN106796619B (zh) 2014-05-02 2015-04-24 基因组信息服务

Country Status (5)

Country Link
US (1) US10528758B2 (zh)
EP (1) EP3138034A1 (zh)
JP (1) JP6640836B2 (zh)
CN (1) CN106796619B (zh)
WO (1) WO2015166389A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3138231B8 (en) * 2014-05-01 2024-08-14 Intertrust Technologies Corporation Secure computing systems and methods
US10152605B2 (en) * 2014-05-21 2018-12-11 Siddharth Shetye Systems and methods for front-end and back-end data security protocols
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
MX2018008527A (es) * 2016-01-11 2019-05-15 Edico Genome Corp Infraestructura genómica para el procesamiento y análisis de adn y arn en el sitio o en la nube.
NZ745249A (en) 2016-02-12 2021-07-30 Regeneron Pharma Methods and systems for detection of abnormal karyotypes
KR101881637B1 (ko) 2016-05-19 2018-08-24 주식회사 케이티 유전체 데이터 분석을 위한 작업 처리 방법 및 시스템
LU100449B1 (en) 2017-09-26 2019-03-29 Univ Luxembourg Improved Computing Device
US20200104463A1 (en) 2018-09-28 2020-04-02 Chris Glode Genomic network service user interface
US10861587B2 (en) * 2018-10-24 2020-12-08 Helix OpCo, LLC Cross-network genomic data user interface
CN113990398A (zh) * 2021-12-27 2022-01-28 北京诺禾致源科技股份有限公司 基因组整合数据库平台的处理方法与装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894211A (zh) * 2010-06-30 2010-11-24 深圳华大基因科技有限公司 一种基因注释方法和系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5974549A (en) * 1997-03-27 1999-10-26 Soliton Ltd. Security monitor
US20020029156A1 (en) * 2000-09-06 2002-03-07 Genomics Collaborative, Inc. Method for anonymizing patient identity and clinical samples
US20020128860A1 (en) * 2001-01-04 2002-09-12 Leveque Joseph A. Collecting and managing clinical information
US6802810B2 (en) 2001-09-21 2004-10-12 Active Health Management Care engine
US20040073460A1 (en) 2002-10-01 2004-04-15 Erwin W. Gary Method for managing the healthcare of members of a population
US20060004588A1 (en) 2004-06-30 2006-01-05 Mohan Ananda Method and system for obtaining, maintaining and distributing data
US7309001B2 (en) 2005-05-31 2007-12-18 Catalina Marketing Corporation System to provide specific messages to patients
WO2008069011A1 (ja) * 2006-12-04 2008-06-12 Nec Corporation 情報管理システム、匿名化方法、及び記憶媒体
US20100027780A1 (en) * 2007-10-04 2010-02-04 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Systems and methods for anonymizing personally identifiable information associated with epigenetic information
US20120102054A1 (en) * 2010-10-25 2012-04-26 Life Technologies Corporation Systems and Methods for Annotating Biomolecule Data
US20130246460A1 (en) * 2011-03-09 2013-09-19 Annai Systems, Inc. System and method for facilitating network-based transactions involving sequence data
US9276911B2 (en) * 2011-05-13 2016-03-01 Indiana University Research & Technology Corporation Secure and scalable mapping of human sequencing reads on hybrid clouds
CN104054084B (zh) * 2011-10-17 2017-07-28 英特托拉斯技术公司 用于保护和管理基因组及其它信息的系统和方法
EP2709028A1 (en) 2012-09-14 2014-03-19 Ecole Polytechnique Fédérale de Lausanne (EPFL) Privacy-enhancing technologies for medical tests using genomic data
US9027087B2 (en) * 2013-03-14 2015-05-05 Rackspace Us, Inc. Method and system for identity-based authentication of virtual machines
US10658073B2 (en) * 2014-08-15 2020-05-19 QIAGEN Redwood City, Inc. Methods and systems for interpretation and reporting of sequence-based genetic tests using pooled allele statistics
US10713383B2 (en) * 2014-11-29 2020-07-14 Ethan Huang Methods and systems for anonymizing genome segments and sequences and associated information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894211A (zh) * 2010-06-30 2010-11-24 深圳华大基因科技有限公司 一种基因注释方法和系统

Also Published As

Publication number Publication date
JP6640836B2 (ja) 2020-02-05
US20170068826A1 (en) 2017-03-09
US10528758B2 (en) 2020-01-07
CN106796619A (zh) 2017-05-31
JP2017518596A (ja) 2017-07-06
EP3138034A1 (en) 2017-03-08
WO2015166389A1 (en) 2015-11-05

Similar Documents

Publication Publication Date Title
CN106796619B (zh) 基因组信息服务
US11763917B2 (en) Secure computing systems and methods
US11341281B2 (en) Providing differential privacy in an untrusted environment
US9576147B1 (en) Security policy application through data tagging
Shepherd et al. Secure and trusted execution: Past, present, and future-a critical review in the context of the internet of things and cyber-physical systems
Do et al. A forensically sound adversary model for mobile devices
Jung et al. Repackaging attack on android banking applications and its countermeasures
Chanajitt et al. Forensic analysis and security assessment of Android m-banking apps
CN103988467A (zh) 确保软件加密技术安全的加密系统和方法
Liu et al. $ LiveForen $: Ensuring Live Forensic Integrity in the Cloud
Gallery et al. Trusted computing: Security and applications
US8844024B1 (en) Systems and methods for using tiered signing certificates to manage the behavior of executables
US11138319B2 (en) Light-weight context tracking and repair for preventing integrity and confidentiality violations
Härtig et al. Lateral thinking for trustworthy apps
Feng et al. Survey of research on confidential computing
Park et al. A tiny hypervisor-based trusted geolocation framework with minimized TPM operations
US11032306B2 (en) System, method and apparatus for fully precise hybrid security verification of mobile applications
Singh et al. Enclaves in the clouds: legal considerations and broader implications
Singh A Digital Forensic Readiness Approach for Ransomware Forensics
Szekeres et al. Making Distributed Mobile Applications SAFE: Enforcing User Privacy Policies on Untrusted Applications with Secure Application Flow Enforcement
Carey et al. Securing Genomic Computations for Research and Clinical Decision Support
González-Manzano et al. An architecture for trusted PaaS cloud computing for personal data
Suciu Practical Hardware-Enforced Protections for Mobile Devices
Fouladi et al. Vulnerability Analysis of a Commercial. NET Smart Card
Dwoskin Securing the use of sensitive data on remote devices using a hardware-software architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant