CN107004068B - 基因组数据的安全传输 - Google Patents

基因组数据的安全传输 Download PDF

Info

Publication number
CN107004068B
CN107004068B CN201580064030.1A CN201580064030A CN107004068B CN 107004068 B CN107004068 B CN 107004068B CN 201580064030 A CN201580064030 A CN 201580064030A CN 107004068 B CN107004068 B CN 107004068B
Authority
CN
China
Prior art keywords
vcf
data
annotated
encoded
chromosome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580064030.1A
Other languages
English (en)
Other versions
CN107004068A (zh
Inventor
V·阿格拉瓦尔
N·迪米特罗娃
R·J·克拉辛斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN107004068A publication Critical patent/CN107004068A/zh
Application granted granted Critical
Publication of CN107004068B publication Critical patent/CN107004068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/606Protecting data by securing the transmission between two devices or processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Computer Security & Cryptography (AREA)
  • Molecular Biology (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基因组数据的量以及信息的敏感性必然需要开发智能且有效的方式来以安全的方式传输基因组数据。尽管存在加密方案,但是还存在首先减小大量信息的量并且然后应用编码和加密方法的需求,其将在经济意识以及针对基因组数据的安全性这两方面都是有效的。在本发明中,我们讨论了对经处理的变异信息进行编码并将其发送到确保转换传送的远程场所的新颖的技术。该协议不仅对信息进行编码和加密;其还压缩需要传输的信息。

Description

基因组数据的安全传输
技术领域
本发明的实施例总体上涉及安全的数据传输,并且更具体地涉及针对经受隐私限制的大量数据的安全传输以及在其他方面不安全的网络上的其他安全问题的系统和方法。
背景技术
诸如基因组测序和SNP基因型分型的测序技术能够生成大量的基因组数据。例如,用于存储来自对染色体的测序变异的数据的变异调用文件(variant call file)可以是数百千兆字节的。
研究人员和健康护理提供者经常需要将基因组数据从一个场所传输到另一在地理上远离的场所。由于跨越长距离的专用网络或私人网络会是过分昂贵的或者否则包括不安全的范围,因此常常通过不安全的网络来传输数据。基因组数据可能与特定患者相关联,并且因此存在隐私问题;事实上,传输可能会经受与对这样的数据的存储和传输有关的法律法规的限制。另外,在处理所述数据以识别患者特异性异常时,信息越敏感,则因此对安全传输机制的需求越大。
数据的量以及信息的敏感性必然需要开发有效的技术来安全地传送基因组数据。现有的技术不一定考虑基因组数据(包括变异数据)的特性,也不考虑被传输的特异性数据的质量。
因此,需要用于通过不安全的网络传输基因组数据的有效且安全的系统。
发明内容
一般而言,在本文中描述的系统、方法和装置的各方面涉及用于通过在传输之前处理、减小、编码、以及加密数据的新颖的技术在不安全的网络上在地理上远离的场所之间传输基因组数据的经改进的系统和方法。已经提出了用于将所述系统应用于传输包括单核苷酸多态性(SNPs)的变异信息的具体细节,但本领域普通技术人员将认识到,在本文中描述的实施例具有更宽泛的应用。
根据本发明的一个方面,一种用于将从基因组测序的并被处理的数据变换成变异调用文件(VCF)的系统包括第一处理模块和第二处理模块,所述第一处理模块和所述第二处理模块中的每个包括计算机处理器和计算机可读有形介质。所述第一处理模块能操作用于:基于参考数据将所述VCF减小成经注释的VCF,所述经注释的VCF主要包括来自所述VCF的非冗余变异数据;对所述经注释的VCF进行编码;并且存储经编码的VCF。所述第二处理模块能操作用于:接收所述经编码的VCF;并且扩充所述经编码的VCF。
在一个实施例中,所述参考数据包括来自短基因组变异(short genomicvariation)(SNP)的数据库的参考等位基因数据和替代等位基因数据。在一个实施例中,对所述经注释的VCF进行编码包括使用数学坐标系来转换所述经注释的VCF的染色体号和染色体位置数据。
根据本发明的另一方面,提供了一种由计算机处理器执行的、将从患者的基因组测序的并被处理的数据变换成变异调用文件(VCF)的方法,并且所述方法包括以下步骤:将所述VCF减小成经注释的VCF,所述经注释的VCF主要包括来自所述VCF的非冗余变异数据;对所述经注释的VCF进行编码;并且将经编码的VCF存储在计算机可读有形介质上。
在一个实施例中,减小所述VCF包括移除其相关联的质量数据不满足预定阈值的变异调用。在一个实施例中,减小所述VCF包括使用短基因组变异(SNP)数据的参考数据库来移除已知变异。所述已知变异可以包括参考等位基因信息和替代等位基因信息中的一个或多个。
在一个实施例中,对所述经注释的VCF进行编码包括使用数学坐标系来转换所述经注释的VCF的染色体号和染色体位置数据。使用数学坐标系来转换所述经注释的VCF的所述染色体号和染色体位置数据可以包括基于模数值将所述经注释的VCF的所述染色体号和染色体位置数据转换到循环坐标系。所述方法还可以包括对所述模数值进行加密并且启动通过网络连接对经加密的模数值和经编码的VCF文件到第二终端的传输。
在一个实施例中,对所述经注释的VCF进行编码包括使用笛卡尔坐标、极坐标、或者线性坐标中的一个来转换所述经注释的VCF的染色体号和染色体位置数据。在一个实施例中,所述方法还包括在对所述经注释的VCF进行编码之前将频率域变换应用于所述经注释的VCF。在一个实施例中,所述方法还包括通过网络连接将所述经编码的VCF传输到第二终端。
根据本发明的另一方面,提供了一种由计算机处理器执行的、将从患者的基因组测序的并被处理的数据变换成变异调用文件(VCF)的方法,并且所述方法包括以下步骤:接收使用数学坐标系编码的VCF;并且使用短基因组变异(SNP)数据的参考数据库,利用参考等位基因数据和替代等位基因数据来扩充经编码的VCF。
在一个实施例中,所述方法还包括使用模数值对所述经编码的VCF进行解码。
根据下文的说明、附图和权利要求,本发明的前述特征和优点以及其他特征和优点将变得更为明显。本领域普通技术人员基于本公开内容将理解还存在本发明的其他方面和优点。
附图说明
在附图中,相似的附图标记通常指的是不同视图中的相同部分。在下文的描述中,参考以下附图来描述本发明的各种实施例,在附图中:
图1是根据本发明的示范性实施例的安全传输系统的示意图。
图2是根据本发明的示范性实施例的传送站的图示。
图3是根据本发明的示范性实施例的接收站的图示。
图4是图示了在图2中图示的传送站的示范性操作的流程图。
图5是图示了在图3中图示的接收站的示范性操作的流程图。
具体实施方式
在本文中描述的是根据本发明的方法和系统的各种实施例。这些实施例是示范性的,而不应当被解读为限制本领域普通技术人员将对本发明给出的范围。
如对于本领域普通技术人员已知的,基因组数据是从测序机器输出的。从测序机器输出的原始数据的量在大小上会是数百千兆字节的。所述原始数据通常与参考基因组进行比较并且被对齐到参考基因组,以创建对齐文件,例如,变异调用文件(VCF),亦即,幅值的量级小于原始数据,但仍然过大而不能准备好被传输到远程场所。
在图1中图示了用于通过在其他方面不安全的网络对基因组数据的安全传输的系统的示范性实施例。传输系统1包括传送站100、接收站200、网络300、以及数据库400。
传送站100包括处理模块110和I/O单元120。处理模块110处理VCF文件以产生减小的文件,如下文所论述的,以用于到通常远离传送站100的接收站200的安全传输。I/O单元120处理对减小的文件(其还可以被加密和/或被编码)的传输。
接收站200包括处理模块210和I/O单元220。I/O单元220处理对减小的文件(其还可以被加密和/或被编码)的接收。处理模块210处理所述减小的文件并且将所述减小的文件重新存储到最初的VCF文件等。
在传输系统1中,经减小、编码和加密的文件被至少部分地通过网络300来传送。网络300可以包括、或者可以接口连接到以下中的任意一个或多个:互联网、内联网、个人局域网(PAN)、局域网(LAN)、广域网(WAN)等。
数据库400包括基因组数据信息,所述基因组数据信息可以与对齐文件(即,先前已经被对齐到参考基因组的数据)相关。如果在数据库400中存在来自对齐文件的任何数据,则所述对齐文件可以利用来自数据库400的参考信息来进行注释,所述注释自身替换以其他方式存储在数据库400中并且能由接收站200访问的数据。
例如,在一个示范性实施例中,先前已经被对齐到参考基因组数据的文件是变异数据的变异调用文件(VCF),并且数据库400是已知变异的源,例如,SNP数据的数据库。SNP数据的数据库对于本领域普通技术人员而言是已知的,并且例如由国家健康研究所的生物技术信息国家中心来维护。
VCF中的典型条目包括与基因组的重建相关的以下信息:单核苷酸变异(或者小的插入或删除)所位于的染色体、染色体上的位置、参考碱基(A、C、G、T、或N),替代碱基(A、C、G或T),变异调用的质量、以及变异调用的属性(纯合子/杂合子)。在VCF中的条目可以包括与在本文中论述的重建过程不相关的其他信息。
针对VCF中的已知变异,针对染色体上的位置的基因组坐标足以确定针对来自被存储在SNP数据的数据库中的信息的变异的参考等位基因数据和替代等位基因数据,并且因此能够被用于减小VCF。染色体坐标包括染色体号和染色体上的变异的位置。
数据库400可以是能搜索的数据库,并且可以包括、包含或者接口连接到关系数据库。也可以使用其他数据库,例如,查询格式的数据库、标准查询语言(SQL)格式的数据库或类似的数据存储设备、查询格式、平台或资源。数据库400可以包括单个数据库或者数据库的集合,专用数据库或者其他类型的数据库。在一个实施例中,数据库400可以存储或者与其他数据库协作以存储在本文中描述的各种数据和信息。在一些实施例中,数据库400可以包括文件管理系统、程序或应用,以用于存储和维护由在本文中描述的系统和方法的各种特征和功能所使用或生成的数据和信息。
在图2中图示了传送站100的示范性实施例。处理模块110包括减小模块111、编码模块112、加密模块113、以及存储模块114。减小模块111例如使用基于被存储在数据库中的已知基因组数据的注释或者在本文中更为完全地描述的其他技术来减小先前对齐的数据文件或VCF。
编码模块112对经减小的文件进行编码。在VCF已经被减小的范例中,编码模块112可以利用使用在下文更为详细地论述的坐标系(例如,笛卡尔坐标、极坐标等)编码的基因组坐标(即,染色体号和位置)来替换变异数据。加密模块113使用本领域已知的加密技术(例如,对称加密或不对称加密)对VCF进行加密。存储模块114可以存储由减小模块111、编码模块112、以及加密模块113执行的减小、编码和加密以及其中间步骤。
在图3中图示了接收站200的示范性实施例。接收站200的处理模块210包括解密模块211、解码模块212、扩充模块213、以及存储模块214。解密模块211对经由I/O单元220接收的经加密的基因组数据文件进行解密。解码模块212使用在编码过程期间所采用的坐标方案对从传送站100接收的经编码的文件进行解码。扩充模块213对经解码的、减小的文件进行扩充。在参考被存储在dbSNP上的已知变异数据而减小的VCF的范例中,相同的数据库或者包含相同信息的数据库可以被用于利用对应的基因组数据来替换在减小的VCF中的注释。例如,替代等位基因数据和参考等位基因数据能够在dbSNP数据库中被查出并且被“重新添加”到VCF条目。
现在将参考图4和图5来描述用于传输VCF的传输系统1的示范性操作。传送站100接收基因组测序数据(步骤S100)。所述测序数据可以是未处理的,或者其可能已经先前被对齐到参考基因组。如果其先前未被对齐到参考基因组,则所述基因组测序数据被处理并且被与参考基因组对齐(步骤S101)。接下来,减小模块111减小VCF(步骤S102)。为了减小VCF,参考通常由染色体标索引的已知变异(dbSNP)的数据库。针对VCF中的每个数据条目,如果所述变异已经是已知的,则可以将所述条目中的信息减小到所述染色体和染色体上的变异的位置。被存储在dbSNP中的信息越多,则越多的VCF可以潜在地被减小。
根据一个示范性实施例,移除不满足预定质量阈值的变异数据可以进一步减小VCF中的变异数据。当变异调用是鲁棒(具有较高的质量)的时,基因组的重建更为可靠。在该示范性实施例中,保持满足预定质量阈值的变异调用,并且较低质量的变异调用在用于传输的文件的创建中被移除或被跳过。本领域普通技术人员将理解,针对变异质量的阈值可以根据所使用的变异调用器的类型而变化。例如,对于Illumina下一代测序数据,将需要覆盖SNP的至少20次读取。
接下来,经减小的VCF可以被编码以进一步缩减所述文件的大小(步骤S103)。对基因组坐标(亦即染色体号和位置)的编码可以根据一个示范性实施例使用坐标系来完成。尽管根据在本文中描述的示范性实施例使用笛卡尔坐标系、极坐标系、线性坐标系和循环坐标系,但是也可以使用任何合适的坐标系。
笛卡尔坐标编码
基因组坐标到笛卡尔坐标的转变可以通过以以下方式将正审议的一组染色体(例如,24个染色体的组)放置在x轴上来执行:如果每个染色体的中心的y坐标为零,则染色体的中心位于x轴上。
尽管x坐标的范围是例如[1…24],y坐标的范围将是[-α/2…α/2],其中,α是存在于染色体上的核苷酸碱基的数量。针对每个染色体,轴坐标y=0将被移位到新的位置α',其中:
Figure GDA0002871671940000061
极坐标
极坐标(r,θ)(其表示针对基因组位置的长度(半径)和角度)可以通过从上述笛卡尔坐标(x,y)的转变得到,使得:
Figure GDA0002871671940000071
线性坐标
线性坐标可以通过将基因组从其组织转变到染色体中而获得,成为~30亿个碱基对(人类基因组中的碱基对数)的单串。该转变可以通过将来自染色体中的每个染色体的核苷酸碱基以常规的染色体顺序(chr1…chr22,分别跟随有chrX和chrY)连接成一个串来执行。因此,线性坐标的范围将是a∈[1…3,209,286,105]。
循环坐标
为了获得循环坐标,染色体位置被映射到循环(圆环)坐标系,其中,圆环上的点表示核苷酸位置,并且这些点的角距表示位置坐标。如果位置的数量超过1圈(2π)的跨度中可能的表示的数量,则能够使用模运算来缩小该值。
在一个示范性实施例中,可以使用模运算值来降低使用循环坐标系编码的VCF的复杂度。使用模数(n)包围周围的位置,位置的线性值a可以被如下转换成圆环上的位置:
Figure GDA0002871671940000072
经转变的坐标a’=f(n,q,r),其中,n是是模数值,q是除的商,并且r是余数。针对VCF文件中的每个位置,经编码的文件将具有以下信息:(i)模运算的商;(ii)被表达为角度的模运算的余数;以及(iii)所述位置处的替代等位基因。
模数值“n”可以充当对VCF中的信息进行解码的密匙。所述模数值可以是常量,或者可以通过随机数生成器来计算。所述模数值可以与VCF一起发送,或者替代地,可以经由不同的通道被发送。在一个示范性实施例中,其他通道是安全通道。安全通道还可以例如被用于传送患者识别信息。
所述模数值可以使用本领域普通技术人员已知的加密技术来加密。在这种示范性实施例中,其中,利用模数值,以便对患者的变异信息进行解码,远程场所将被要求对所述模数值进行解密并且然后对变异坐标进行解码,从而经受两个级别的解密。
在减小步骤和编码步骤中,经压缩且经编码的VCF可以通过解密模块113进行解密(步骤S104)。可以利用任何合适的解密技术,包括对称解密技术和不对称解密技术。
在一个示范性实施例中,在解密步骤之前可以进行DNA谱分析的步骤,在所述DNA谱分析的步骤中,例如使用傅里叶变换或其他频率变换将替代等位基因的A、C、G、和T碱基变换到谱域中。在接收时,谱DNA将被变换回替代等位基因的A、C、G、和T碱基。
在图4中描述的操作期间,包括在加密步骤之后,各个步骤的结果可以被存储(步骤S105)。
经处理的文件然后可以通过网络300被传输到接收站200,所述网络300可以是不安全的或者包括不安全的跨度。现在将参考图5来描述根据本发明的示范性实施例的接收站200处的最初的文件的恢复。恢复的过程实质上是应用减小步骤、编码步骤和加密步骤的过程,这些步骤被逆向应用到所传送的文件。
如果所述文件已经被解密,则经加密的文件通过解密模块211来解密(步骤S201)。在包括到谱域的频率变换的步骤的示范性实施例中,谱DNA信息将被变换回替代等位基因的A、C、G、T碱基。在一个示范性实施例中,由加密模块113使用的加密方案对于解密模块211来说是事先已知的。在另一示例性实施例中,使用相同的通道或单独的通道将编码方案与经传输的文件一起传输到解密模块211或在传输文件之后传输到解密模块211。
在加密过程中使用模数值的实施例中,该值然后被解密,并且然后被解密模块211用于执行对加密的VCF的解密。
接下来,解码模块212对经解密的文件进行解码(步骤S202)。在一个示范性实施例中,由编码模块112使用的编码方案对于解码模块212来说是事先已知的。在另一示例性实施例中,使用相同的通道或单独的通道将编码方案与经传输的文件一起传输到解码模块212或在传输文件之后传输到解码模块212。
接下来,扩充模块213参考已知变异的数据库来扩充经解码的文件(步骤S203)。在图5中描述的操作期间,各个步骤的结果可以被存储,包括在最终扩充步骤之后存储恢复的VCF(步骤S204)。在恢复后,VCF可以根据需要被传输以用于进一步处理(步骤S205)。
传送站100和接收站200可以被并入到计算机站中,在所述计算机站中,操作由人类操作者启动、自动操作或两者兼有之。传送站100还可以被并入到包括识别正被传输的VCF的能力并且执行在本文中描述的示范性操作的网络设备(例如,服务器或路由器)中。所述网络设备可以是网关,其在网络之间路由数据,其中,根据在本文中描述的示范性实施例来减小、编码和加密基因组测序数据,通过网络,在所述网络上,这样的数据被传输到包括接收站200的网络。接收站200还可以被包括在这样的网络设备(例如,网络网关)中:所述网络设备包括根据在本文中描述的示范性实施例来识别经减小、经编码和经加密的VCF以及恢复基因组数据的能力。
如在图1、图2和图3中示出的传输系统可以是或者可以包括计算机系统。可以在计算机可执行指令的一般背景下来描述所述传输系统,所述计算机可执行指令例如是由计算机运行的程序模块。一般而言,程序模块包括执行特定任务或者实施特定抽象数据类型的例程、程序、物件、部件、数据结构等。
本领域技术人员将意识到,本发明可以利用各种计算机系统配置来实践,包括诸如移动电话或平板电脑的手持式无线设备、多处理器系统、基于微处理器或可编程消费电子设备、小型计算机、大型计算机等。本发明还可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中进行实践。在分布式计算环境中,程序模块可以位于本地计算机存储媒介和远程计算机存储媒介(包括存储器存储设备)两者中。
所述传输系统可以包括被存储在如上所述的存储器中并且以在本文中描述的方式在处理器上运行的多个软件处理模块。所述程序模块可以是任何合适的编程语言的形式,其被转换为机器语言或目标代码,以允许一个或多个处理器来运行指令。
所述计算机系统可以包括计算机形式的通用计算设备,所述计算机包括处理单元、系统存储器以及将包括系统存储器的各个系统部件耦合到处理单元的系统总线。
运行命令和指令的所述处理单元可以是通用计算机,但是也可以利用各种其他技术中的任何一种,包括专用计算机、微型计算机、小型计算机、大型计算机、被编程的微处理器、微控制器、外围集成电路元件、CSIC(客户专用集成电路)、ASIC(专用集成电路)、逻辑电路、数字信号处理器、诸如FPGA(现场可编程门阵列)、PLD(可编程逻辑设备)、PLA(可编程逻辑阵列)、RFID集成电路的可编程逻辑设备、智能芯片、或者能够实施本发明的各过程的各步骤的任何其他设备或设备的布置。
应当意识到,计算机系统的处理器和/或存储器不需要在物理上处于相同的位置。计算机系统所使用的每个处理器和每个存储器可以在地理上处于不同的位置并且被连接以便以任何合适的方式彼此通信。额外地,应当意识到,所述处理器和/或存储器中的每个可以包括装备的不同物理构件。
计算环境还可以包括其他可移动/不可移动、易失性/非易失性计算机存储媒介。
上文描述了本发明的特定实施例。然而,明确指出本发明不限于这些实施例,而是旨在将对本文明确描述的内容的增加和修改也包括在本发明的范围内。此外,应当理解,在本文中描述的各种实施例的特征不是相互排斥的,并且能够以各种组合和排列存在,即使这些组合或排列没有在本文中表达,而不脱离本发明的精神和范围。事实上,在不脱离本发明的精神和范围的情况下,本领域普通技术人员将设想到在本文中描述的变型、修改和其他实施方式。正因如此,本发明不仅仅限于前面的说明性描述。

Claims (10)

1.一种用于安全传输从患者的基因组测序的数据的系统,所述系统包括:
第一处理模块,其包括计算机处理器和计算机可读有形介质,其中,所述第一处理模块被配置为:
基于来自已知变异的数据库的参考数据,通过降低来自基因组测序数据的变异调用文件VCF中的所述已知变异而将所述VCF减小成经注释的VCF,所述经注释的VCF主要包括来自所述VCF的非冗余变异数据,其中,所述经注释的VCF包括染色体号和染色体位置数据;
通过使用模数值包裹围绕圆环的位置来将所述经注释的VCF的所述染色体号和染色体位置数据转换到循环坐标系而对所述经注释的VCF进行编码,其中染色体位置被映射到所述循环坐标系,并且其中所述圆环上的点表示核苷酸位置并且所述点的角距表示位置坐标;并且
存储经编码的经注释的VCF;以及
第二处理模块,其包括计算机处理器和计算机可读有形介质,其中,所述第二处理模块被配置为:
接收所述模数值;
接收所述经编码的经注释的VCF;
使用所接收的模数值来对所述经编码的经注释的VCF进行解码;并且
使用来自已知变异的所述数据库的所述参考数据来扩充经解码的经注释的VCF以形成所述VCF。
2.根据权利要求1所述的系统,其中,所述参考数据包括来自短基因组变异(SNP)的数据库的参考等位基因数据和替代等位基因数据。
3.一种安全传输从患者的基因组测序的数据的计算机实施的方法,所述方法包括:
提供计算机处理器,所述计算机处理器被配置为:
基于来自已知变异的数据库的参考数据,通过降低来自基因组测序数据的变异调用文件VCF中的所述已知变异而将所述VCF减小成经注释的VCF,所述经注释的VCF主要包括来自所述VCF的非冗余变异数据,其中,所述经注释的VCF包括染色体号和染色体位置数据;
通过使用模数值包裹围绕圆环的位置来将所述经注释的VCF的所述染色体号和染色体位置数据转换到循环坐标系而对所述经注释的VCF进行编码,其中染色体位置被映射到所述循环坐标系,并且其中所述圆环上的点表示核苷酸位置并且所述点的角距表示位置坐标;并且
将经编码的经注释的VCF存储在计算机可读有形介质上。
4.根据权利要求3所述的方法,其中,减小所述VCF包括移除其相关联的质量数据不满足预定阈值的变异调用。
5.根据权利要求3所述的方法,其中,减小所述VCF包括使用短基因组变异(SNP)数据的参考数据库来移除已知变异。
6.根据权利要求5所述的方法,其中,所述已知变异包括参考等位基因信息和替代等位基因信息中的一个或多个。
7.根据权利要求3所述的方法,还包括对所述模数值进行加密并且启动通过网络连接对经加密的模数值和所述经编码的经注释的VCF到第二终端的传输。
8.根据权利要求3所述的方法,还包括
在对所述经编码的经注释的VCF进行解密之前执行DNA谱分析的步骤,在所述DNA谱分析的步骤中使用频率域变换将所述经编码的经注释的VCF中的替代等位基因的A、C、G和T碱基变换到谱域中。
9.根据权利要求3所述的方法,还包括通过网络连接将所述经编码的经注释的VCF传输到第二终端。
10.一种安全传输从患者的基因组测序的数据的计算机实施的方法,所述方法包括:
提供计算机处理器,所述计算机处理器被配置为:
接收通过使用模数值包裹围绕圆环的位置来将来自基因组测序数据的变异调用文件VCF的染色体号和染色体位置数据转换到循环坐标系而编码的VCF,其中染色体位置被映射到所述循环坐标系,并且其中所述圆环上的点表示核苷酸位置并且所述点的角距表示位置坐标;
接收所述模数值;
使用所接收的模数值来对所述编码的VCF进行解码;并且
使用短基因组变异(SNP)数据的参考数据库,利用参考等位基因数据和替代等位基因数据来扩充经解码的VCF。
CN201580064030.1A 2014-11-25 2015-11-18 基因组数据的安全传输 Active CN107004068B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462084146P 2014-11-25 2014-11-25
US62/084,146 2014-11-25
PCT/IB2015/058912 WO2016083949A1 (en) 2014-11-25 2015-11-18 Secure transmission of genomic data

Publications (2)

Publication Number Publication Date
CN107004068A CN107004068A (zh) 2017-08-01
CN107004068B true CN107004068B (zh) 2021-08-24

Family

ID=55022623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580064030.1A Active CN107004068B (zh) 2014-11-25 2015-11-18 基因组数据的安全传输

Country Status (6)

Country Link
US (1) US10957420B2 (zh)
EP (1) EP3224752B1 (zh)
JP (1) JP6788587B2 (zh)
CN (1) CN107004068B (zh)
RU (1) RU2753245C2 (zh)
WO (1) WO2016083949A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
NZ745249A (en) 2016-02-12 2021-07-30 Regeneron Pharma Methods and systems for detection of abnormal karyotypes
AU2016426572A1 (en) * 2016-10-11 2019-06-06 Genomsys Sa Method and system for the transmission of bioinformatics data
US20180314842A1 (en) * 2017-04-27 2018-11-01 Awakens, Inc. Computing system with genomic information access mechanism and method of operation thereof
CN108563923B (zh) * 2017-12-05 2020-08-18 华南理工大学 一种基因变异数据分布式存储方法及系统
CN109192245A (zh) * 2018-07-26 2019-01-11 中山大学 基因变异数据的GDS-Huffman压缩方法
US12057198B2 (en) 2019-02-01 2024-08-06 Kabushiki Kaisha Toshiba Terminal device, data processing method, and program
EP3792923A1 (en) * 2019-09-16 2021-03-17 Siemens Healthcare GmbH Method and device for exchanging information regarding the clinical implications of genomic variations
US20220100835A1 (en) 2020-02-05 2022-03-31 Quantum Digital Solutions Corporation Systems and methods for controlling a digital ecosystem using digital genomic data sets
AU2022216269A1 (en) * 2021-02-04 2023-08-10 Quantum Digital Solutions Corporation Cyphergenics-based ecosystem security platforms
JP2023014547A (ja) * 2021-07-19 2023-01-31 国立研究開発法人情報通信研究機構 ゲノムデータ用個人情報保護管理システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
CN102460155A (zh) * 2009-04-29 2012-05-16 考利达基因组股份有限公司 用于关于参考多核苷酸序列标注样本多核苷酸序列中的变异的方法和系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7391816B2 (en) 2003-09-17 2008-06-24 Intel Corporation Decoding upstream V.92-encoded signals
RU2419137C2 (ru) * 2006-02-13 2011-05-20 иПостал Сервисез, Инк. Система и способ передачи документов и управления документооборотом
US20110288785A1 (en) * 2010-05-18 2011-11-24 Translational Genomics Research Institute (Tgen) Compression of genomic base and annotation data
US20120102054A1 (en) 2010-10-25 2012-04-26 Life Technologies Corporation Systems and Methods for Annotating Biomolecule Data
JP2014506784A (ja) 2011-02-04 2014-03-20 コーニンクレッカ フィリップス エヌ ヴェ 生物学的ネットワーク内の情報の流れを推定する方法
WO2012122551A2 (en) 2011-03-09 2012-09-13 Lawrence Ganeshalingam Biological data networks and methods therefor
US20130246460A1 (en) 2011-03-09 2013-09-19 Annai Systems, Inc. System and method for facilitating network-based transactions involving sequence data
CA2841808A1 (en) 2011-07-13 2013-01-17 The Multiple Myeloma Research Foundation, Inc. Methods for data collection and distribution
WO2013049420A1 (en) * 2011-09-27 2013-04-04 Maltbie Dan System and method for facilitating network-based transactions involving sequence data
EP2773954B1 (en) 2011-10-31 2018-04-11 The Scripps Research Institute Systems and methods for genomic annotation and distributed variant interpretation
US20130245958A1 (en) * 2012-03-15 2013-09-19 Siemens Aktiengesellschaft Accurate comparison and validation of single nucleotide variants
GB2523495A (en) * 2013-01-17 2015-08-26 Edico Genome Corp Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US20140278461A1 (en) 2013-03-15 2014-09-18 Memorial Sloan-Kettering Cancer Center System and method for integrating a medical sequencing apparatus and laboratory system into a medical facility

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102460155A (zh) * 2009-04-29 2012-05-16 考利达基因组股份有限公司 用于关于参考多核苷酸序列标注样本多核苷酸序列中的变异的方法和系统
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
" Metaseq: privacy preserving meta-analysis of sequencing-based association studies";Singh A P;《Biocomputing》;20130228;第1-12页 *
"Genome compression: a novel approach for large collections";S Deorowicz;《Bioinformatics》;20130821;第2572–2578页 *

Also Published As

Publication number Publication date
JP2018503167A (ja) 2018-02-01
US20170262579A1 (en) 2017-09-14
WO2016083949A1 (en) 2016-06-02
RU2017122194A (ru) 2018-12-26
CN107004068A (zh) 2017-08-01
RU2017122194A3 (zh) 2019-12-06
EP3224752B1 (en) 2022-07-13
RU2753245C2 (ru) 2021-08-12
JP6788587B2 (ja) 2020-11-25
US10957420B2 (en) 2021-03-23
EP3224752A1 (en) 2017-10-04

Similar Documents

Publication Publication Date Title
CN107004068B (zh) 基因组数据的安全传输
US10652010B2 (en) Fully homomorphic encrypted ciphertext query method and system
CN106610995B (zh) 一种创建密文索引的方法、装置及系统
CN106817358B (zh) 一种用户资源的加密、解密方法和设备
CN114218322B (zh) 基于密文传输的数据展示方法、装置、设备及介质
CN111431716B (zh) 数据传输方法、装置、计算机设备和存储介质
CN110505054B (zh) 一种基于动态白盒的数据处理方法、装置及设备
CN112394974A (zh) 代码变更的注释生成方法、装置、电子设备及存储介质
JPWO2016116999A1 (ja) パケット送信装置、パケット受信装置、パケット送信プログラムおよびパケット受信プログラム
CN102045159A (zh) 一种解密处理方法及其设备
CN117056961A (zh) 一种隐私信息检索方法及计算机可读存储介质
CN112307503A (zh) 签章管理方法、装置和电子设备
CN112287366A (zh) 数据加密方法、装置、计算机设备和存储介质
CN102571804A (zh) 基于产品标识码的物联网中心首次登录方法
CA3061776A1 (en) Key information processing method and apparatus, electronic device and computer readable medium
CN115834163A (zh) 加密数据的秘钥生成方法、装置、设备及存储介质
Mohamed et al. Compression and encryption technique on securing TFTP packet
CN101169776B (zh) 提升中央处理单元运算效能的数据加密方法及加密装置
CN115935299A (zh) 授权控制方法、装置、计算机设备和存储介质
CN106570410A (zh) 一种数据的加密方法、解密方法、装置和系统
CN113347176B (zh) 数据通信的加密方法、装置、计算机设备和可读存储介质
CN117688595B (zh) 一种基于可信执行环境的同态加密性能提升方法及其系统
CN117828572B (zh) 工业物联网的数据安全管理方法、装置及计算机设备
CN105426493A (zh) 一种应用于分布式存储系统的数据处理系统及方法
CN110351084B (zh) 一种城市基础测绘数据保密处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant