CN115917657A - 用于个性化医学的自定义数据文件 - Google Patents

用于个性化医学的自定义数据文件 Download PDF

Info

Publication number
CN115917657A
CN115917657A CN202180043263.9A CN202180043263A CN115917657A CN 115917657 A CN115917657 A CN 115917657A CN 202180043263 A CN202180043263 A CN 202180043263A CN 115917657 A CN115917657 A CN 115917657A
Authority
CN
China
Prior art keywords
file
custom
data
nucleic acid
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180043263.9A
Other languages
English (en)
Inventor
伊根·杰克逊·洛曼
克里斯托弗·卡尔·埃德兰德
德怀特·托马斯·贝克
杰里米·约瑟夫·沃德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Inc
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Inc filed Critical Illumina Inc
Publication of CN115917657A publication Critical patent/CN115917657A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1004Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's to protect a block of data words, e.g. CRC or checksum
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3236Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)

Abstract

公开了方法和系统,这些方法和系统可以从核酸测序技术和装置收集大型数据集,从各种格式的文件中过滤生物样品的相关基因组信息和序列变体信息,以标准化格式生成仅具有相关信息的自定义数据文件,并且向下游分析提供所生成的信息以用于个性化医学用途。

Description

用于个性化医学的自定义数据文件
相关申请的交叉引用
本申请要求2020年9月14日提交的美国临时申请63/078,215的优先权,该临时申请的内容全文以引用方式并入本文。
计算机程序列表的引用
本申请提交了计算机程序列表附录,包括2019年7月19日创建的一个名称为“biomarker_definitions.schema.txt”的文件(2,139字节),2019年8月5日创建的一个名称为“nirvana_definitions.schema.txt”的文件(6,721字节),2019年8月12日创建的一个名称为“sample_analysis_results.txt”的文件(16,154字节),2019年7月24日创建的一个名称为“sample_analysis_results.schema.txt”的文件(9,368字节),以及2019年8月12日创建的一个名称为“variant_definitions.schema.txt”的文件(6,857字节),该计算机程序列表以引用方式并入本文,用于所有目的。
背景技术
技术领域
本发明的各方面涉及用于生成自定义数据文件的方法和系统。具体地说,实施方案包括方法和系统,这些方法和系统用于收集、分析具有各种格式的多个文件,对来自这些文件的生物样品的基因组信息和序列变体信息进行过滤、聚集,并存储到单个标准文件中。
背景技术
用于确定生物体的DNA序列和RNA表达的序列的技术已经取得了巨大的进展。随着基于染料终止剂的测序(桑格(Sanger)测序)和相关自动化技术的发展,核酸测序领域向前迈出了一大步。基于染料的技术和仪表以及自动化测序方法的出现需要开发相关软件和数据过程来管理所有生成的数据。
基因测序已成为遗传研究的一个日益重要的领域,有望在未来用于诊断和其他应用。一般来讲,基因测序包括确定核酸(诸如RNA或DNA的片段)中的核苷酸顺序。相对短的序列通常进行分析,并且所得的序列信息可用于各种生物信息学方法中以将片段逻辑地拟合在一起,从而可靠地确定从其衍生出片段的遗传物质的长度范围更广的序列。已开发出特征性片段的自动化的、基于计算机的检查,并且最近已将其用于基因组作图、基因及其功能的鉴定等。
近年来,测序成本和确定基因样品序列所需的时间显著减少。以前需要数月才能测序的样品现在可以在几天或几周内完成测序。现在可以用低得多的成本进行全基因组测序或部分基因组测序,这为许多消费者消除了成本障碍。
除了测序期间和测序之后收集的数据,从样品提取到数据分析报告的基因组分析工作流程可能涉及到大量信息的生成以及用于跟踪样品和内容信息的各种清单。另外,不同的测序测定产生不同的数据输出,但有多个不同的数据输出就会笨重和重复。因此,需要在基因组分析工作流程之前、期间和之后对此类信息进行管理的改进技术。
发明内容
本文公开的系统、装置、套件和方法各自具有几个方面,其中没有任何一个方面单独负责其期望的属性。在不限制权利要求书的范围的情况下,现在将简要讨论一些突出的特征。还考虑了许多其他实施方案,包括具有更少的、额外的和/或不同的部件、步骤、特征、目的、益处和优点的实施方案。各部件、方面和步骤也可以通过不同的方式进行布置和排序。在考虑该讨论之后,特别是在阅读题为“具体实施方式”的部分之后,将理解本文公开的装置和方法的特征如何提供优于其他已知装置和方法的优点。
在一个方面,所公开的技术涉及生成自定义文件的计算机实现的方法。该方法包括接收对与期望样品相关联的信息的查询。该方法还包括确定用于构建自定义文件的模式。该方法还包括根据该模式,获得多个核酸测序分析文件,其中该多个核酸测序分析文件中的每个核酸测序分析文件包括多个生物样品的核酸序列信息、遗传变体信息、基因表达信息或其任何组合,其中该多个生物样品包括该期望样品。该方法还包括对于该多个核酸测序分析文件中的每个核酸测序分析文件:根据该模式确定该核酸测序分析文件中的待存储在该自定义文件中的多个数据对象;根据该模式确定该自定义文件中的多个自定义数据字段以存储该数据对象;以及将该数据对象存储在该自定义数据字段中。该方法还包括通过针对根据该模式的该自定义文件的一部分,评估密码哈希函数来生成校验和。该方法还包括将该校验和存储在该自定义文件中。
在一些实施方案中,确定用于构建该自定义文件的模式包括:从多个预定义模式中选择模式;任选地接收用于修改该模式的用户修改;以及将这些用户修改和与该模式相关联的版本值存储在该自定义文件中。
在一些实施方案中,根据该模式获得多个核酸测序分析文件包括:在数据库中搜索包括由该模式指定的一个或多个关键词的多个文件;以及复制该多个文件。
在一些实施方案中,根据该模式确定该核酸测序分析文件中的待存储在该自定义文件中的多个数据对象包括:解析该核酸测序分析文件;根据该模式识别待存储的该多个数据对象;以及提取该多个数据对象。
在一些实施方案中,这些核酸测序分析文件中的每个核酸测序分析文件还包括以下项中的至少一者:测序装置状况、测序相关数据、分析软件信息、分析流程信息、碱基调用、运行质量控制度量、DNA质量控制度量、RNA质量控制度量、DNA小变体输出、拷贝数变体输出、RNA融合输出、DNA融合输出、剪接变体输出、肿瘤突变负荷生物标志物输出和微卫星不稳定性生物标志物输出。在一些实施方案中,测序装置状况包括测序参数和/或关于测序装置中的错误的信息。
在一些实施方案中,这些核酸测序分析文件中的每个核酸测序分析文件还包括以下项中的至少一者:样品制备相关数据、样品识别号、样品清单、患者身份、组织类型、感兴趣的基因组区域、疾病信息和治疗信息。
在一些实施方案中,该方法还包括:接收与期望样品相关联的用户输入;根据该模式确定该用户输入中待存储在该自定义文件中的多个数据对象;根据该模式确定该自定义文件中的多个自定义数据字段以存储该数据对象;以及将该数据对象存储在该自定义数据字段中。在一些实施方案中,与期望样品相关联的用户输入包括以下项中的至少一者:样品制备相关数据、样品识别号、样品清单、患者身份、组织类型、感兴趣的基因组区域、疾病信息和治疗信息。
在一些实施方案中,该密码哈希函数是MD5哈希函数、MD6哈希函数、SHA-1哈希函数、SHA-256哈希函数或SHA-512哈希函数。
在一些实施方案中,该方法还包括:通过将该校验和加上或乘以一个数字来生成验证值;以及将该验证值存储在该自定义文件中。在一些实施方案中,该数字是π。
在一些实施方案中,根据该模式的该自定义文件的该部分包括由该模式声明为不允许用户校正的多个自定义数据字段。在一些实施方案中,该方法还可以包括:通过针对根据该模式的该自定义文件的附加部分,评估密码哈希函数来生成附加校验和,其中该自定义文件的该附加部分包括由该模式声明为允许用户校正的多个自定义数据字段;以及将该附加校验和存储在该自定义文件中。
在一些实施方案中,该方法还包括:接收和存储对多个自定义数据字段的多个用户更改;通过针对根据该模式的该自定义文件的该部分,重新评估该密码哈希函数来更新该校验和;以及将更新后的校验和存储在该自定义文件中。
在一些实施方案中,这些核酸测序分析文件中的一些核酸测序分析文件被压缩。
在一些实施方案中,该方法还包括:压缩和/或加密该自定义文件。
在一些实施方案中,该自定义文件是基于文本的JavaScript对象表示法(JSON)格式或二进制JSON格式。
在一些实施方案中,这些核酸测序分析文件中的每个核酸测序分析文件是JSON、CSV、TSV、XML、NirvanaJSON、VCF、CSVVCF或SpliceJSON格式中的一种。
在一些实施方案中,该方法在云计算环境中实施。
在另一个方面,所公开的技术涉及一种包括多个文件的数据库,其中该多个文件中的每个文件是根据所公开的方法生成的。
在又一个方面,所公开的技术涉及一种用于生成自定义文件的系统,该系统包括:存储指令以实施所公开的方法的存储器;以及被配置为执行这些指令的一个或多个处理器。
在又一个方面,所公开的技术涉及一种用于生成自定义文件的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有程序指令以实施所公开的方法。
附图说明
图1示出用于根据测序和变体分析结果生成SARJ文件以供下游基因组分析的示例性系统。
图2A示出SARJ模式的示例性部分。图2B示出SARJ文件的示例性部分。
图3示出一种生成SARJ文件的方法的示例性工作流程。
具体实施方式
本文所提及的所有专利、申请、已公布的申请和其他公布内容全文以引用参考资料的方式并入本文。如果本文使用术语或短语的方式与以引用方式并入本文的专利、申请、已公布的申请和其他公布中阐述的定义相反或不一致,则本文的使用优于以引用方式并入本文的定义。
实施方案涉及用于通过以下方式生成自定义文件的方法和系统:收集、分析具有各种格式的多个文件,对来自这些文件的生物样品的基因组信息和序列变体信息进行过滤、聚集和存储。所公开的方法和过程可以适用于基因组DNA和RNA测序、全基因组测序、全基因组单体型分析、癌症测序、重测序、基因表达分析、药物发现、疾病发现和诊断、靶向重测序、治疗学和疾病相关治疗反应、预后、疾病相关性、进化遗传学等领域。所公开的方法还可以适用于其他领域,诸如信号处理或信息检索和数据压缩领域,诸如当实验或数据采集过程产生大型数据集以及各种分析结果和文件格式时。
本发明的实施方案涉及系统和方法,这些系统和方法用于输入含有遗传信息的各种不同文件并且输出可以用于各种基因组分析的标准文件,该标准文件在本文中被称为样品分析结果JSON(SARJ)文件。例如,在一个实施方案中,从特定生物样品的DNA测序接收基因序列信息。对该基因序列信息进行分析,以确定该基因序列信息的变体或其他特征。该变体分析的数据输出可以是各种不同文件格式的形式,包括DNA变体文件、RNA变体文件、质量控制度量、生物标志物和其他样品信息,诸如取得样品的日期/时间/地点。然后可以将来自变体文件的数据输出输入到系统中以使用一个或多个电子模式来生成SARJ文件,该一个或多个电子模式定义被存储为SARJ文件的该数据输出的结构。在一个实施方案中,一旦由SARJ生成器系统生成SARJ文件,系统就计算附加到SARJ文件的校验和,以防止文件被改变。举例来说,SARJ文件内的数据可以通过密码哈希函数来运行以生成校验和,并且该校验和可以存储在SARJ文件的头部中。
使用标准SARJ文件可以提高下游基因组分析的效率。目前,来自不同提供商的不同变体分析工具和软件程序可以通过诸如bam、bcl、vcf、csv、xml、JSON或SpliceJSON的各种不同文件格式存储其数据输出。这些数据输出文件可以不包含相同种类的信息,或者可以包含下游基因组分析不需要的信息。例如,一个数据输出文件可能包含一个患者的几种不同组织类型的RNA变体信息,并且另一个数据输出文件可以含有该患者与其他几个人一起的DNA变体信息。此外,这些数据输出文件可以被压缩或加密。SARJ生成器可以自动搜索相关变体分析数据输出文件,并且仅提取如由电子模式定义的期望信息。呈现给下游分析的所得SARJ文件将采用标准格式,并且只包含期望信息,例如仅一个患者的特定组织类型的信息。因此,下游基因组分析不必处理不同文件格式,定位相关文件,或解析文件以找到期望信息。例如,下游基因组分析可以基于SARJ文件中报告的生物标志物快速确定与该患者的特定组织类型有关的疾病,并且选择该疾病的疗法。
在图1的流程图中示出了一个实施方案。如图所示,图1示出了根据多个核酸测序分析输出文件220生成用于个性化医学的标准化SARJ文件320的示例性工作流程。
该示例性工作流程从向测定仪器,例如核酸测序仪100添加生物样品开始。在一些实施方案中,测定仪器之一可以是微阵列仪器、扫描仪或荧光成像仪器。由测定仪器生成的数据可以直接在测定仪器上进行计算分析(例如,通过存储在测序仪100上或加载到该测序仪上的软件)或间接地进行计算分析(例如,在计算机系统或存储装置、台式计算机、膝上型计算机或与测定仪器操作地连接的服务器上)。在一些实施方案中,测序仪100包括单独的样品处理装置和相关联的计算机。在替代实施方案中,这些可以实现为单个装置。在一些实施方案中,相关联的计算机可以是样品处理装置本地的或与样品处理装置联网的。在其他实施方案中,相关联的计算机可以能够通过云计算环境与测序仪100通信。
在一些实施方案中,生物样品是来自患者的肿瘤样品。在添加到测定仪器中之前,可以使用Illumina的TruSight Oncology 500测定法来制备肿瘤样品以用于下一代测序(NGS)。在一些实施方案中,可以执行DNA测序和RNA测序(RNASeq)两者以确定生物样品的基因结构和转录组数据。
测序仪100可以执行初级分析110以确定生物样品中的核酸序列120。在一些实施方案中,输出的序列120可以包括大量短序列(称为“读段”),加上与每个读段相关联的元数据和估计读段中每个核苷酸碱基的置信度的质量得分。
初级分析阶段处理110用于将测序仪内部检测到的物理信号转换为具有相关联质量或置信度分数的核苷酸序列的“读段”,例如FASTQ格式文件,或包含序列和通常质量信息的其他格式。初级分析可以特定于所采用的测序技术。在各种测序仪中,通过感测电荷、电流或辐射光来检测核苷酸。在一些实施方案中,初级分析可以包括:信号处理以放大、过滤、分离和测量传感器输出;数据简化,诸如通过量化、抽取、求平均值、转换等;图像处理或数字处理以识别和增强有意义信号,并将它们与特定读段和核苷酸相关联(例如,图像偏移计算、群集识别);数据校正和优化方法以补偿测序技术人工假象(人工效应物)(例如,定相估计、串扰矩阵);贝叶斯概率计算;隐马尔可夫模型;碱基调用(选择序列中每个位置处最可能的核苷酸);碱基调用质量(置信度)估计等。
一旦由测序仪100产生序列120,就将序列120传输到变体分析引擎200。变体分析引擎200执行二级分析210,并且产生二级分析输出文件220。
二级分析210确定测序的样品DNA或RNA的含量,诸如通过将读段映射和比对到参考基因组、分选、重复标记、碱基质量分数重新校准、局部重新比对和变体调用。对受试者的测序DNA执行二级分析可以例如确定受试者的DNA与参考基因组的DNA有什么不同。
在一些实施方案中,二级分析210可以涉及重新进行序列组装、将测试基因组序列与参考基因组序列进行比较、确定基因组中单核苷酸变体(SNV)、插入、缺失、单核苷酸多态性(SNP)和其他基因组变体突变的存在或不存在,将测试RNA序列与参考RNA序列进行比较,确定剪接变体、RNA序列异常、RNA序列的存在或不存在、或基因组的重测序。
在一些实施方案中,变体分析引擎200可以是实现用于分析测序数据集的分析软件的任何通用计算机,该分析软件例如是软件程序,诸如Pipeline、CASAVA和GenomeStudio数据分析软件(
Figure BDA0004002686850000081
Inc.)、SOLIDTM
Figure BDA0004002686850000082
Figure BDA0004002686850000083
Genomics SuiteTM数据分析软件(Life Technologies)、Feature Extraction和AgilentGenomics Workbench数据分析软件(Agilent Technologies)、Genotyping ConsoleTM、Chromosome Analysis Suite数据分析软件
Figure BDA0004002686850000084
在替代实施方案中,单个装置可以执行初级分析和二级分析两者。从各种软件程序生成的二级分析输出220可以采用FASTQ文件、二进制比对文件(bam)*.bcl、*.vcf和/或*.csv文件的形式。二级分析输出220可以是JSON、CSV、TSV、XML、NirvanaJSON、VCF、CSVVCF或SpliceJSON格式。在一些实施方案中,二级分析输出文件220可以被压缩。
在一些实施方案中,二级分析输出文件220可以包括以下项中的至少一者:测序装置状况、测序相关数据、分析软件信息、分析流程信息、碱基调用、运行质量控制度量、DNA质量控制度量、RNA质量控制度量、DNA小变体输出、拷贝数变体输出、RNA融合输出、DNA融合输出、剪接变体输出、肿瘤突变负荷生物标志物输出和微卫星不稳定性生物标志物输出。测序装置状况可以包括测序参数和/或关于测序装置中的错误的信息。在一些实施方案中,二级分析输出文件220可以包括以下项中的一者或多者:运行质量控制(QC)度量、DNA QC度量、RNA QC度量、DNA小变体输出、拷贝数变体输出、RNA融合输出、DNA融合输出、剪接变体输出、另外的变体、肿瘤突变负荷生物标志物输出、微卫星不稳定性生物标志物输出或另外的生物标志物,以及以下项中的至少一者:样品制备相关数据、样品识别号、样品清单、患者身份、组织类型、感兴趣的基因组区域、疾病信息和治疗信息。
一旦二级分析输出文件220可用,SARJ生成器(SARJeant)300就可以收集并分析多个测序分析输出文件220。SARJ生成器300可以过滤、提取和聚集来自这些文件的相关数据,并为每个期望生物样品生成单个样品分析结果JSON(SARJ)文件320。
在一些实施方案中,SARJ生成器300可以接收对与期望生物样品相关联的信息的查询,并确定用于构建SARJ文件320的模式。该模式可以从多个预定义模式中选择,并且可以允许用户修改。在图2A中示出模式的一个示例。用户修改和与模式相关联的版本值将存储在SARJ文件320中。
SARJ生成器300可以获得与期望生物样品相关联的多个二级分析输出文件220,例如,样品信息文件221、几个DNA变体文件222、几个RNA变体文件223、包含质量控制(QC)度量的文件224以及包含生物标志物的文件225。二级分析输出文件220可以另外包含与其他生物样品相关联的数据。在一些实施方案中,为了获得二级分析输出文件220,SARJ生成器300可以在数据库中搜索包括由模式指定的一个或多个关键词的多个文件,并复制该多个文件。
SARJ生成器300然后可以根据过滤和计算逻辑311确定二级分析输出文件220中的待存储在SARJ文件320中的数据对象。在一些实施方案中,为了确定数据对象,SARJ生成器300可以解析和分析二级分析输出文件220,并提取根据逻辑311识别的数据对象。在一些实施方案中,SARJ生成器300可以接收与包括待存储的多个数据对象的期望样品相关联的用户输入。
SARJ生成器300还可以根据映射规则312确定用于在SARJ文件320中存储数据对象的自定义数据字段。SARJ生成器300然后可以将数据对象存储在自定义数据字段中。在一些实施方案中,SARJ生成器300可以存储来自用户输入的多个数据对象。
过滤和计算逻辑311和映射规则312可以是可自定义的。
在一些实施方案中,与期望样品相关联的用户输入可以包括以下项中的至少一者:样品制备相关数据、样品识别号、样品清单、患者身份、组织类型、感兴趣的基因组区域、疾病信息和治疗信息。
为了在传输之后认证或验证SARJ文件320,SARJ生成器300可以通过针对SARJ文件320的一部分,评估密码哈希函数来生成校验和,并在SARJ文件320中存储该校验和。在一些实施方案中,通过将校验和加上或乘以一个数字来对校验和进行加盐。该数字可以是π。在一些实施方案中,该密码哈希函数是MD5哈希函数、MD6哈希函数、SHA-1哈希函数、SHA-256哈希函数或SHA-512哈希函数。在一些实施方案中,SARJ生成器300可以对SARJ文件320的一部分进行校验和,该部分是由模式声明为不允许用户校正的部分。在一些实施方案中,SARJ生成器300可通过针对SARJ文件320的附加部分,评估密码哈希函数来生成附加校验和,该附加部分包括由模式声明为允许用户校正的多个自定义数据字段。在一些实施方案中,SARJ生成器300可以接收和存储对多个自定义数据字段的多个用户更改,并允许用户通过重新评估密码哈希函数来更新校验和并将更新后的校验和存储在自定义文件中。
在一些实施方案中,SARJ文件320可以是基于文本的JavaScript对象表示法(JSON)格式或二进制JSON格式。在一些实施方案中,SARJ生成器300可以在将SARJ文件320发送到下游处理之前压缩和/或加密该文件。
在一个实施方案中,SARJ生成器300根据图3所示的一种方法的示例性工作流程3000创建SARJ文件320。如图所示,过程3000开始于开始状态3005,然后移动到状态3010,在该状态下接收与期望样品相关联的信息的查询。该过程然后移动到状态3020,该状态确定用于构建要为期望样品创建的自定义SARJ文件的电子模式。确定电子模式可以涉及从多个预定义模式中选择模式和/或接收用于修改模式的用户修改。在一些实施方案中,模式是离线创建的以匹配期望SARJ文件320输出的要求。在替代实施方案中,模式是动态地或在线选择的。用户修改和与模式相关联的版本值可以存储在SARJ文件中。在确定电子模式之后,该过程然后移动到状态3030,在该状态下根据该模式获得多个核酸测序分析或二级分析输出文件。获得二级分析输出文件可以涉及在数据库中搜索该模式所指定的一个或多个关键词。在获得二级分析输出文件之后,该过程然后移动到状态3040,在该状态下分析二级分析输出文件。解析二级分析输出文件,并且根据该模式识别待存储的多个期望数据对象或相关信息。该过程然后移动到状态3050,该状态从二级分析输出文件中提取和/或复制该多个期望数据对象或相关信息。该过程进一步移动到状态3060,该状态确定SARJ文件中对应于期望数据对象的自定义数据字段,并将期望数据对象存储在相应的自定义数据字段中。在已分配SARJ文件的自定义数据字段之后,该过程然后移动到状态3070,在该状态下针对自定义SARJ文件的一部分生成校验和,并将校验和存储在SARJ文件中。例如,模式可以声明SARJ文件的自定义数据字段中的一些自定义数据字段不允许用户校正,这样使得将在SARJ文件的该部分上评估密码哈希函数以生成校验和。然后,过程3000在结束状态3105处终止。在图2B中示出SARJ文件320的一个示例。
一旦生成SARJ文件320,SARJ生成器300就可以将其发送到下游临床分析系统400以执行三级分析410(例如,肿瘤分析(tumor profiling))和进一步报告。
在一些实施方案中,SARJ文件320可由临床分析系统400通过安全参数访问,该安全参数诸如为云计算环境中受密码保护的客户端账户或与特定机构或IP地址的关联。SARJ文件320可以由临床分析系统400通过从云计算环境下载一个或多个文件或通过登录提供图形用户显示的基于网络的接口或软件程序来访问,在该图形用户显示中,SARJ文件320被描绘为文本、图像和/或超链接。在一些实施方案中,可以以经由通信链路或网络传输的数据包的形式向用户提供SARJ文件320。
在一些实施方案中,临床分析系统400可以被设计成提供体外诊断(IVD)方案以改善临床中对癌症患者的管理。在一些实施方案中,临床分析系统400可以开发对疗法或伴随式疗法有用的癌症伴随式诊断(CDx)。在一些实施方案中,临床分析系统400可以识别用于癌症患者的靶向疗法的生物标志物,通过反映监测来进行治疗选择,该反映监测允许医生通过下游患者/医院系统500跟踪患者的肿瘤随时间的演变。在一些实施方案中,临床分析系统400可以分析癌症易感性和增殖的生物学,该癌症易感性和增殖支持靶向疗法和多分析物肿瘤分析的开发。在一些实施方案中,临床分析系统400可用于发现用于监测癌症治疗和复发的新颖方法以及开发精准医学或个性化医学。
在一些实施方案中,三级分析410从SARJ文件320中的核酸序列和变体信息中提取医学或研究含义。在一些实施方案中,三级分析410可以包括全基因组变异分析、基因功能分析、蛋白质功能分析(例如蛋白质结合分析)、基因组和/或转录组的定量和/或组装分析,以及各种诊断和/或预防和/或治疗评价分析。
在一些实施方案中,三级分析410可以预测由于遗传异常而发生患病状态的潜在性。在一些实施方案中,三级分析410可以识别临床试验的候选者。在一些实施方案中,三级分析410可以基于预防或治疗模态预期如何与患者的基因组或转录组学信息相互作用来预测预防或治疗模态成功的可能性。在一些实施方案中,三级分析410可以解释SARJ文件320,诸如用于确定数据对于识别患者可能患有什么疾病的意义,和/或确定患者可能想要采用什么治疗或生活方式的改变以改善或预防患病状态。在一些实施方案中,可以分析受试者的基因序列或其变体调用以确定临床相关的遗传标志物,这些遗传标志物指示患病状态的存在或潜在性,和/或所提出的治疗或预防方案可能对受试者的效力。
在一些实施方案中,一旦由临床分析系统400执行三级分析410,则任选地将三级分析410的结果报告给下游患者/医院系统500。
在一些实施方案中,患者/医院系统500可以使用三级分析410的结果来诊断疾病或其潜在性,进行临床解释(例如,寻找代表疾病变体的标志物),或确定受试者是否应在各种临床试验中被包含或排除。在一些实施方案中,患者/医院系统500可以通过确定三级分析410的结果中是否包含一个或多个基于遗传的患病标志物来查询已知与某种疾病相关联的某种类型的信息。
通过结合附图进行的详细描述,本公开的其他方面和优点将变得显而易见,这些附图通过举例方式说明本公开的原理。
虽然本文已说明和描述了本发明的仅仅某些特征,但是本领域的技术人员将想到许多修改和改变。因此,应当理解,所附权利要求书旨在涵盖落入本发明的真正精神内的所有此类修改和改变。
在不脱离本发明的范围的情况下,本发明所描述的方法和组合物的各种修改和变化对于本领域技术人员将是显而易见的。尽管已经结合具体优选实施方案描述了本发明,但应理解,所要求保护的发明不应不当地限制于此类具体实施方案。实际上,对相关领域的技术人员显而易见的用于执行本发明的所描述模式的各种修改旨在落入以下权利要求书的范围内。
本文通过参考由样品制备装置生成的样品制备数据、由测序装置生成的测序数据和/或与生成、分析和报告这种类型的数据有关的信息来描述本技术的实施方案。然而,本公开不受前述实施方案的优点的限制。本技术可以另选地或另外地应用于能够生成其他类型的高通量生物数据(诸如微阵列数据)的装置。微阵列数据可以是表达数据的形式,并且表达数据可以由主用户或二级用户结合如本文所提供的云计算环境来存储、处理和/或访问。其他可以使用的装置包括但不限于能够生成与酶活性(例如,酶动力学)、受体-配体结合(例如,抗体与表位结合的或受体与候选药物结合)、蛋白质结合相互作用(例如,调节成分与核酸酶的结合)或细胞活性(例如,细胞结合或细胞活性测定)有关的生物数据的装置。
实践如本文所描述的方法和系统的优点可以为研究人员提供更高效的系统,这些系统使用更少的计算机资源,同时使数据分析时间最大化,从而为研究人员提供用于确定疾病相关基因组异常的存在或不存在的另外工具,临床医生可以利用这些疾病相关基因组异常来诊断受试者的疾病,为受试者提供预后,确定患者是否具有患病的风险,监测或确定治疗方案的结果,以及用于药物发现。此外,通过实践包括如本文所述的过程的计算机实现的方法和系统而获得的信息可用于个性化医疗保健计划,其中个体的基因组序列可以为临床医生提供患者独有的信息以进行诊断和专门治疗。因此,实践如本文所描述的方法和系统可以有助于在较短的时间内使用较少的宝贵计算机资源为研究人员提供有关他们问题的答案。
测序技术
在一些实施方案中,测序仪100由
Figure BDA0004002686850000131
Inc.(NovaSeq 6000、NextSeq 550、NextSeq 1000、NextSeq 2000、HiSeq 1000、HiSeq 2000、Genome Analyzers、MiSeq、HiScan、iScan、BeadExpress系统)、Applied BiosystemsTM Life Technologies(ABI
Figure BDA0004002686850000132
Sequence检测系统、SOLIDTM System)、Roche 454Life Sciences(FLX GenomeSequencer、GS Junior)、Applied BiosystemsTM Life Technologies(ABI
Figure BDA0004002686850000133
Sequence检测系统、SOLiDTM System)或Ion
Figure BDA0004002686850000134
Life Technologies(PersonalGenome Machine测序仪)提供。
测序仪100可以根据任何测序技术来实现,诸如结合了美国专利公开2007/0166705、2006/0188901、2006/0240439、2006/0281109、2005/0100900、美国专利7,057,026、PCT公布WO 2005/065814、WO 2006/064199和WO 2007/010251中所述的通过合成进行测序的方法的测序技术,这些文献的公开内容全文以引用方式并入本文。另选地,可以在测序仪100中使用通过连接反应进行测序的技术,诸如美国专利6,969,488、6,172,218和6,306,597中所述的技术,这些专利的公开内容全文以引用方式并入本文。通过连接反应进行测序的技术利用DNA连接酶掺入寡核苷酸并确定此类寡核苷酸的掺入。一些实施方案可以利用纳米孔测序,由此靶核酸链或从靶核酸外切移除的核苷酸穿过纳米孔。随着靶核酸或核苷酸穿过纳米孔,可以通过测量孔的电导率的波动来识别每种类型的碱基(诸如美国专利7,001,792;Soni&Meller,,Clin.Chem.第53卷,第1996-2001页(2007年);Healy,Nanomed.第2卷,第459-481页(2007年);以及Cockroft等人,J.Am.Chem.Soc.第130卷,第818-820页(2008年)中所述,这些文献的公开内容全文以引用方式并入本文)。又一些实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,Conn.,它是Life Technologies子公司)商购获得的电检测器和相关技术或在美国专利公开US 2009/0026082 A1、US 2009/0127589 A1、US2010/0137143 A1或US 2010/0282617 A1中所述的测序方法和系统,这些文献的公开内容全文以引用方式并入本文。特定实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可以通过带有荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用或者利用零模式波导来检测核苷酸掺入,如例如以下文献中所述:Levene等人,Science 299,第682-686页(2003年);Lundquist等人,Opt.Lett.第33卷,第1026-1028页(2008年);以及Korlach等人,Proc.Natl.Acad.Sci.USA 105,第1176-1181页(2008年),这些文献的公开内容全文以引用方式并入本文。其他合适的替代技术包括例如荧光原位测序(FISSEQ)和大规模并行签名测序(MPSS)。在特定实施方案中,测序仪100中的一个测序仪可以是来自Illumina(加利福尼亚州圣地亚哥)的HiSeq、MiSeq或HiScanSQ。
在一些实施方案中,可以将生物样品装载到作为样品玻片的测序仪100中并且可被成像以生成序列数据。例如,与生物样品相互作用的试剂响应于由成像模块生成的激发束而以特定波长发荧光,并且由此返回辐射以用于成像。例如,荧光组分可由荧光标记的核酸生成,该荧光标记的核酸与组分的互补分子或与使用聚合酶掺入生物样品中的寡核苷酸中的荧光标记的核苷酸杂交。激发样品的染料的波长和其发荧光的波长可以取决于特定染料的吸收和发射光谱。此类返回的辐射可以通过引导成像模块的光学器件反向传播。成像模块检测光学器件可以基于任何合适的技术,并且可以是例如带电耦合装置(CCD)传感器,其基于影响装置中的位置的光子生成像素化图像数据。另选地,成像模块检测光学器件可以基于被配置用于时间延迟积分(TDI)操作的检测器阵列、互补金属氧化物半导体(CMOS)检测器、雪崩光电二极管(APD)检测器、Geiger模式光子计数器或任何其他合适的检测器。TDI模式检测可以与线扫描耦合,如美国专利7,329,860中所述,该专利以引用方式并入本文。
计算系统
在一些实施方案中,SARJ生成器(SARJeant)300可以涉及用于将某些序列数据分析特征和序列数据存储转移或分配到云计算环境或基于云的网络的方法。与测序数据、基因组数据或其他类型的生物数据的用户相互作用可以经由中心集线器介导,该中心集线器存储和控制对与数据的各种交互的访问。在一些实施方案中,云计算环境还可以提供医疗方案(protocol)、分析方法、文库、序列数据以及用于测序、分析和报告的分布式处理的共享。在一些实施方案中,云计算环境有助于用户对序列数据进行修改或注释。在一些实施方案中,SARJ生成器300可以在计算机浏览器中按需或在线实现。
在一些实施方案中,为执行本文所述的SARJ生成器300而编写的软件被存储在某种形式的计算机可读介质中,诸如存储器、CD-ROM、DVD-ROM、记忆棒、闪存驱动器、硬盘驱动器、SSD硬盘驱动器、服务器、主机存储系统等。
在一些实施方案中,SARJ生成器300可以用各种合适的编程语言中的任一种编写,例如编译语言,诸如C、C#、C++、Fortran和Java。其他编程语言可以是脚本语言,诸如Perl、MatLab、SAS、SPSS、Python、Ruby、Pascal、Delphi、R和PHP。在一些实施方案中,SARJ生成器300是用C、C#、C++、Fortran、Java、Perl、R、Java或Python编写的。在一些实施方案中,SARJ生成器300可以是具有数据输入和数据显示模块的独立应用。另选地,SARJ生成器300可以是计算机软件产品,并且可以包括类别,其中分布式对象包括应用,这些应用包括如本文所述的计算方法。此外,计算机软件产品可以是组件式软件产品的一部分,包括但不限于与Illumina,Inc.(加利福尼亚州圣地亚哥)、Applied Biosystems和Ion Torrent(LifeTechnologies;加利福尼亚州卡尔斯巴德)、Roche 454Life Sciences(康涅狄格州布兰福德)、Roche NimbleGen(威斯康星州麦迪逊)、奎克生技公司(中国台湾省新竹Chulung)、Complete Genomics(加利福尼亚州山景城)、GE Global Research(纽约州尼什卡纳)、Halcyon Molecular(加利福尼亚州雷德伍德市)、Helicos Biosciences(马萨诸塞州坎布里奇)、Intelligent Bio-Systems(马萨诸塞州沃尔瑟姆)、NABsys(罗得岛州普罗维登斯)、Oxford Nanopore(英国牛津)、Pacific Biosciences(加利福尼亚州门洛帕克)所提供的测序系统相关联的计算机实现的软件,以及用于确定来自核酸样品的序列的其他测序软件相关产品。
在一些实施方案中,SARJ生成器300可以并入到预先存在的数据分析软件,诸如在测序仪器上发现的数据分析软件中。此类软件一个示例是CASAVA软件程序(Illumina,Inc.,参见CASAVA Software User Guide作为程序容量的示例,该文件内容全文以引用方式并入本文)。包括如本文所述的计算机的实现的方法的软件直接安装到计算机系统上,或者间接保持在计算机可读介质上并且根据需要装载到计算机系统上。此外,SARJ生成器300可以位于远离数据生成位置的计算机上,诸如在服务器等上发现的在相对于数据生成位置的另一位置中维护的软件,诸如由第三方服务提供商提供的软件。
测定仪器、台式计算机、膝上型计算机或服务器可以包括与可访问存储器操作地通信的处理器,该可访问存储器包括用于实现SARJ生成器300的指令。在一些实施方案中,台式计算机或膝上型计算机与一个或多个计算机可读存储介质或装置和/或输出装置操作地通信。测定仪器、台式计算机和膝上型计算机可以在许多不同的基于计算机的操作语言下操作,诸如由基于Apple的计算机系统或基于PC的计算机系统使用的操作语言。测定仪器、台式计算机和/或膝上型计算机和/或服务器系统还可以提供用于创建或修改实验定义和/或条件、查看数据结果和监测实验进程的计算机接口。在一些实施方案中,输出装置可以是图形用户界面,诸如计算机监视器或计算机屏幕、打印机、手持式装置,诸如个人数字助理(即,PDA、黑莓、iPhone)、平板计算机(例如,
Figure BDA0004002686850000161
)、硬盘驱动器、服务器、记忆棒、闪存驱动器等。
计算机可读存储装置或介质可以是任何装置,诸如服务器、主机、超级计算机、磁带系统等。在一些实施方案中,存储装置可以位于接近测定仪器的位置的场地,例如邻近或紧邻测定仪器。例如,相对于测定仪器,存储装置可以位于同一房间中、同一建筑物中、相邻建筑物中、一个建筑物中的相同楼层上、一个建筑物中的不同楼层上等。在一些实施方案中,存储装置可以位于测定仪器场地之外或远离测定仪器的地方。例如,相对于测定仪器,存储装置可以位于一个城市的不同部分、不同城市、不同州、不同国家等。在存储装置位于远离测定仪器的地方的实施方案中,测定仪器与台式计算机、膝上型计算机或服务器中的一者或多者之间的通信通常是通过互联网连接(以无线方式或通过接入点利用网络电缆)。在一些实施方案中,存储装置可由与测定仪器直接相关联的个人或实体维护和管理,而在其他实施方案中,存储装置可由第三方维护和管理,通常在远端与测定仪器相关联的个人或实体的位置。在如本文所述的实施方案中,输出装置可以是用于可视化数据的任何装置。
测定仪器、台式计算机、膝上型计算机和/或服务器系统本身可以用于存储和/或检索包括用于执行和实现如本文所述的计算方法的计算机代码的计算机实现的软件程序、用于在实现计算方法时使用的数据等。测定仪器、台式计算机、膝上型计算机和/或服务器中一者或多者可以包括一个或多个计算机可读存储介质,该一个或多个计算机可读存储介质用于存储和/或检索包括用于执行和实现如本文所述的计算方法的计算机代码的计算机实现的软件程序、用于在实现计算方法时使用的数据等。计算机可读存储介质可以包括但不限于硬盘驱动器、SSD硬盘驱动器、CD-ROM驱动器、DVD-ROM驱动器、软盘、磁带、闪存棒或卡等中的一种或多种。此外,包括互联网的网络可以是计算机可读存储介质。在一些实施方案中,计算机可读存储介质是指可由计算机网络通过互联网或服务提供商提供的公司网络访问,而不是例如从远离测定仪器的位置处的本地台式计算机或膝上型计算机访问的计算资源存储装置。
在一些实施方案中,用于存储和/或检索包含用于执行和实现如本文所述的计算方法的计算机代码的计算机实现的软件程序、用于在实现计算方法时使用的数据等的计算机可读存储介质由通过互联网连接或网络连接与测定仪器、台式计算机、膝上型计算机和/或服务器系统操作地通信的服务提供商操作和维护。
在一些实施方案中,用于提供计算环境的硬件平台包括处理器(即,CPU),其中处理器时间和诸如随机存取存储器(即,RAM)的存储器布局是系统考虑因素。例如,较小的计算机系统提供便宜、快速的处理器以及大的存储器和存储能力。在一些实施方案中,可以使用图形处理单元(GPU)。在一些实施方案中,用于执行如本文所述的计算方法的硬件平台包括具有一个或多个处理器的一个或多个计算机系统。在一些实施方案中,较小的计算机被群集在一起以产生超级计算机网络。
在一些实施方案中,如本文所述的计算方法在相互连接或内部连接的计算机系统的集合(即,网格技术)上执行,这些计算机系统可以协调方式运行各种操作系统。例如,CONDOR框架(威斯康星大学麦迪逊分校)和通过United Devices可获得的系统是为了处理大量数据的目的而协调多个独立计算机系统的示例。这些系统可以提供Perl接口,以通过串行或并行的配置在群集上提交、监控和管理大型序列分析作业。
定义
如本文所用,除非上下文另有明确指示,否则单数形式“一个”、“和”以及“该”包括复数指代。因此,例如,对“一个序列”的提及可以包括多个此类序列,等等。除非明确地另有所指,否则本文所用的所有技术和科学术语都具有本发明所属技术领域普通技术人员通常理解的相同含义。
如本文所用,术语“数据串”是指源自数据集的字符的组或列表。如本文所用,术语“集合”在提到“数据串”时使用是指一个或多个数据串。一个集合可以包括一个或多个数据串,每个数据串包括源自数据集的字符。一个数据串集合可以由来自多于一个数据集的字符的组或列表组成,使得一个数据串集合可以是例如来自两个或更多个不同数据集的数据串的集合。或者,一个数据串集合可以源自一个数据集。这样,一个“字符集合”是整理在一起的一个或多个字母、符号、单词、短语、句子或数据相关标识符,其中所述整理创建数据串或字符串。此外,“多个数据串”是指两个或更多个数据串。在一个示例中,一个数据串可以形成一行字符,并且两行或更多行字符可以对齐以形成多个列。例如,每个串具有20个字符的10个串的集合可以对齐以形成10行和20列。
如本文所用,一个串的“子序列”、“子串”、“前缀”或“后缀”代表字符、字母、单词等的较长列表中的字符、字母、单词等的子集,(即,较长列表是序列或串),其中保留元素的顺序。“前缀”通常是指在一个序列或串的开头发现的字符、字母、数字等的子集,而“后缀”通常是指在一个串的结尾发现的字符、字母、数字等的子集。子串也被称为序列或串的子字或因子。
如本文所用,术语“医疗方案”是指在完成任务,诸如制备生物样品时执行的方法、步骤或指令或方法、步骤或指令集。样品制备医疗方案通常包括例如用于完成任务的步进指令集。该医疗方案可以只包含完成任务所需的步骤的子集。该指令集可以完全以手动方式执行,完全以自动化方式执行,或者可以组合执行一个或多个手动和自动化步骤的混合。例如,样品制备医疗方案的初始步骤可以是将核酸样品或细胞裂解液手动引入到样品制备盒的入口端口,之后由装置以自动方式执行该医疗方案的其余部分。
如本文所用,术语“样品制备相关数据”是指与样品制备程序有关的信息,包括用于在装置上执行样品制备程序的可执行指令,和/或与具体样品制备程序有关的数据,诸如样品制备程序的样品标识、日期、时间和其他特定细节。例如,样品制备相关数据可以包括样品制备方法(recipe)/医疗方案标识、样品制备盒标识、盒制备标识、样品制备仪器标识以及其他参数。在一些实施方案中,样品制备相关数据由用户输入或提供到样品制备装置。在一些实施方案中,样品制备相关数据由用户提供到第三方或云计算环境。在一些实施方案中,从云计算环境或第三方向样品制备装置提供样品制备相关数据。
如本文所用,术语“测序相关数据”是指与测序有关而提供的信息。例如,测序相关数据可以包括但不限于流通池(flowcell)标识、测序盒标识、测序仪器标识以及测序参数。测序相关数据可以例如由用户、第三方或由测序仪器提供。在一些实施方案中,测序相关数据由用户输入或提供到样品制备装置。在一些实施方案中,测序相关数据由用户提供到第三方或云计算环境。在一些实施方案中,测序相关数据从云计算环境或第三方提供到样品制备装置。
如本文所用,术语“样品清单”是指包括样品制备程序中处理的样品中的一个或多个样品的列表。样品清单可以包括例如一个或多个样品的识别号或其他识别信息。在一些实施方案中,样品清单上的样品被并行处理。在一些实施方案中,样品清单上的样品被连续处理。
如本文所用,术语“用户”可以是指序列数据的所有者、将序列数据上传到云的研究人员或临床医生、或进行测序运行的原始研究人员、正在处理患者护理的特定方面的医生或临床医生、正在对序列正被访问的个人进行护理的初级护理医师、肿瘤医师和遗传咨询师。不同的用户可具有关于其可以对文件进行的注释和修改的数量和类型的不同权限级别。
实施例
提供以下实施例以说明而非限制本发明。为了便于理解,提供了具体实施方案以帮助解释技术提议,即,这些实施方案仅用于说明性目的,而非以任何方式限制本发明的范围。除非另有说明,否则实施方案不指示具体条件,而是按照常规条件或制造商建议的条件。
实施例1
生成了输出文件,即,样品分析结果JSON(SARJ)文件,作为基于标准文本的JavaScript对象表示法(JSON)文件。SARJ文件的内容包括:
1.校验和——数据部分的校验和,可以加盐以防止对文件的不期望的用户修改。
2.数据部分
a.模式版本。
b.样品信息——用于描述样品的特性集,包括疾病信息。
c.软件配置信息——捕获上游软件(诸如分析流程)的版本信息的特性集。
d.质量控制信息
i.运行度量。
ii.测序文库状态(例如RNA和DNA文库)。
iii.QC度量。
3.变体——多个变体类型的数据的列表,其中所包括的变体类型取决于分析流程(例如小变体、拷贝数变化(CNV)、融合、剪接变体)。
4.生物标志物——按生物标志物类型分组的特性集(例如,肿瘤突变负荷、微卫星不稳定性)。
虽然已经描述了本发明的某些实施方案,但这些实施方案只是以举例的方式提出,并不旨在限制本公开的范围。实际上,本文描述的新颖方法和系统可以各种其他形式来体现。而且,在不脱离本公开的精神的情况下,可以在本文中描述的系统和方法中进行各种省略、替换和改变。所附权利要求书及其等同形式旨在涵盖将落入本公开的范围和精神内的此类形式或修改。因此,仅通过参考所附权利要求来限定本发明的范围。
结合特定方面、实施方案或示例描述的特征、材料、特性或组应理解为可适用于在本部分或本说明书中其他地方描述的任何其他方面、实施方案或示例,除非与之不相容。本说明书(包括任何所附权利要求书、摘要和附图)中公开的所有特征和/或如此公开的任何方法或过程的所有步骤都可以任何组合方式进行组合,而其中此类特征和/或步骤中的至少一些特征和/或步骤相互排斥的组合除外。保护不限于任何前述实施方案的细节。保护延伸到本说明书(包括任何所附权利要求、摘要和附图)中公开的特征中的任何新颖特征或其任何新颖组合,或者延伸到如此公开的任何方法或过程的步骤中的任何新颖步骤或其任何新颖组合。
而且,在本公开中在单独实施方式的上下文中描述的某些特征也可以组合形式在单个实施方式中实施。相反,在单个实施方式的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施方式中实施。此外,尽管特征可在上文中描述为以某些组合起作用,但在一些情况下,可从组合中删除来自要求保护的组合的一个或多个特征,并且可以要求保护该组合作为子组合或子组合的变型。
此外,虽然可以以特定顺序在附图中描绘或在说明书中描述操作,但不需以所示的特定顺序或按顺序执行此类操作或执行所有操作以实现期望的结果。未描绘或描述的其他操作可以并入示例方法和过程中。例如,可以在任何所描述的操作之前、之后、同时或之间执行一个或多个附加操作。此外,这些操作可以在其他实施方式中重新排列或重新排序。本领域技术人员将理解,在一些实施方案中,在所图示和/或公开的过程中采用的实际步骤可以不同于图中所示的步骤。取决于实施方案,可以去除上述步骤中的某些步骤,可以添加其他步骤。此外,上文所公开的具体实施方案的特征和属性可以以不同的方式组合以形成另外的实施方案,所有这些另外的实施方案都落入本公开的范围内。而且,上文所描述的实施方式中各种系统部件的分离不应被理解为在所有实施方式中都需要此类分离,并且应当理解,所描述的部件和系统通常可一起集成在单个产品中或打包到多个产品中。例如,本文所描述的能量存储系统的部件中的任何部件都可以单独提供,或者集成在一起(例如,打包在一起或附接在一起)以形成能量存储系统。
出于本公开的目的,本文描述了某些方面、优点和新颖特征。根据任何特定实施方案,不一定可以实现所有此类优点。因此,例如,本领域的技术人员将认识到,本公开可以实现本文所教导的一个优点或一组优点而不一定实现本文可教导或建议的其他优点的方式来实施或执行。
除非另外具体陈述或在使用的上下文中以其他方式理解,否则诸如“能”、“可”、“可能”或“可以”的条件语言通常旨在传达某些实施方案包括,而其他实施方案不包括某些特征、元件和/或步骤。因此,此类条件语言通常不旨在暗示特征、元件和/或步骤以任何方式对于一个或多个实施方案是所需的,或者一个或多个实施方案必然包括用于在有或没有用户输入或提示的情况下中决定这些特征、元件和/或步骤是否被包括在任何特定实施方案或要在任何特定实施方案中执行的逻辑。
除非另外具体说明,否则诸如短语“X、Y和Z中的至少一者”的连接语言通常通过用于传达一个项、术语等可以是X、Y或Z的上下文以其他方式理解。因此,此类连接语言通常不旨在暗示某些实施方案需要X中的至少一者、Y中的至少一者和Z中的至少一者的存在。
本文使用的程度语言,诸如术语“大约”、“约”、“一般”和“基本上”表示接近仍执行预期功能或实现预期结果的陈述值、量或特性的值、量或特性。
本公开的范围并不旨在受本部分中或本说明书其他地方的优选实施方案的具体公开内容的限制,并且可由本部分中或本说明书其他地方提出的或将来提出的权利要求来限定。权利要求的语言应基于权利要求中采用的语言而广泛地解释,并且不限于本说明书中或在申请的审查期间描述的示例,这些示例应被理解为非排他性的。
附录
Figure BDA0004002686850000231
Figure BDA0004002686850000241
Figure BDA0004002686850000251
Figure BDA0004002686850000261
Figure BDA0004002686850000271
Figure BDA0004002686850000281
Figure BDA0004002686850000291
Figure BDA0004002686850000301
Figure BDA0004002686850000311
Figure BDA0004002686850000321
Figure BDA0004002686850000331
Figure BDA0004002686850000341
Figure BDA0004002686850000351
Figure BDA0004002686850000361
Figure BDA0004002686850000371
Figure BDA0004002686850000381
Figure BDA0004002686850000391
Figure BDA0004002686850000401
Figure BDA0004002686850000411
Figure BDA0004002686850000421
Figure BDA0004002686850000431
Figure BDA0004002686850000441
Figure BDA0004002686850000451
Figure BDA0004002686850000461
Figure BDA0004002686850000471
Figure BDA0004002686850000481
Figure BDA0004002686850000491
Figure BDA0004002686850000501
Figure BDA0004002686850000511
Figure BDA0004002686850000521
Figure BDA0004002686850000531
Figure BDA0004002686850000541

Claims (23)

1.一种生成自定义文件的计算机实现的方法,所述方法包括:
接收对与期望样品相关联的信息的查询;
确定用于构建所述自定义文件的模式;
根据所述模式,获得多个核酸测序分析文件,其中所述多个核酸测序分析文件中的每个核酸测序分析文件包括多个生物样品的核酸序列信息、遗传变体信息、基因表达信息或其任何组合,其中所述多个生物样品包括所述期望样品;
对于所述多个核酸测序分析文件中的每个核酸测序分析文件:
根据所述模式确定所述核酸测序分析文件中的待存储在所述自定义文件中的多个数据对象;
根据所述模式确定所述自定义文件中的多个自定义数据字段以存储所述数据对象;以及
将所述数据对象存储在所述自定义数据字段中;
通过针对根据所述模式的所述自定义文件的一部分,评估密码哈希函数来生成校验和;以及
将所述校验和存储在所述自定义文件中。
2.根据权利要求1所述的方法,其中确定用于构建所述自定义文件的模式包括:
从多个预定义模式中选择模式;
任选地接收用于修改所述模式的用户修改;以及
将所述用户修改和与所述模式相关联的版本值存储在所述自定义文件中。
3.根据权利要求1所述的方法,其中根据所述模式获得多个核酸测序分析文件包括:
在数据库中搜索包括由所述模式指定的一个或多个关键词的多个文件;以及
复制所述多个文件。
4.根据权利要求1所述的方法,其中根据所述模式确定所述核酸测序分析文件中的待存储在所述自定义文件中的多个数据对象包括:
解析所述核酸测序分析文件;
根据所述模式识别待存储的所述多个数据对象;以及
提取所述多个数据对象。
5.根据权利要求1所述的方法,其中所述核酸测序分析文件中的每个核酸测序分析文件还包括以下项中的至少一者:测序装置状况、测序相关数据、分析软件信息、分析流程信息、碱基调用、运行质量控制度量、DNA质量控制度量、RNA质量控制度量、DNA小变体输出、拷贝数变体输出、RNA融合输出、DNA融合输出、剪接变体输出、肿瘤突变负荷生物标志物输出和微卫星不稳定性生物标志物输出。
6.根据权利要求5所述的方法,其中所述测序装置状况包括测序参数和/或关于所述测序装置中的错误的信息。
7.根据权利要求1所述的方法,其中所述核酸测序分析文件中的每个核酸测序分析文件还包括以下项中的至少一者:样品制备相关数据、样品识别号、样品清单、患者身份、组织类型、感兴趣的基因组区域、疾病信息和治疗信息。
8.根据权利要求1所述的方法,所述方法还包括:
接收与所述期望样品相关联的用户输入;
根据所述模式确定所述用户输入中的待存储在所述自定义文件中的多个数据对象;
根据所述模式确定所述自定义文件中的多个自定义数据字段以存储所述数据对象;以及
将所述数据对象存储在所述自定义数据字段中。
9.根据权利要求8所述的方法,其中与所述期望样品相关联的所述用户输入包括以下项中的至少一者:样品制备相关数据、样品识别号、样品清单、患者身份、组织类型、感兴趣的基因组区域、疾病信息和治疗信息。
10.根据权利要求1所述的方法,其中所述密码哈希函数是MD5哈希函数、MD6哈希函数、SHA-1哈希函数、SHA-256哈希函数或SHA-512哈希函数。
11.根据权利要求1所述的方法,所述方法还包括:
通过将所述校验和加上或乘以一个数字来生成验证值;以及
将所述验证值存储在所述自定义文件中。
12.根据权利要求11所述的方法,其中所述数字是π。
13.根据权利要求1所述的方法,其中根据所述模式的所述自定义文件的所述部分包括由所述模式声明为不允许用户校正的多个自定义数据字段。
14.根据权利要求13所述的方法,所述方法还包括:
通过针对根据所述模式的所述自定义文件的附加部分,评估密码哈希函数来生成附加校验和,其中所述自定义文件的所述附加部分包括由所述模式声明为允许用户校正的多个自定义数据字段;以及
将所述附加校验和存储在所述自定义文件中。
15.根据权利要求1所述的方法,所述方法还包括:
接收和存储对多个自定义数据字段的多个用户更改;
通过针对根据所述模式的所述自定义文件的所述部分,重新评估所述密码哈希函数来更新所述校验和;以及
将更新后的校验和存储在所述自定义文件中。
16.根据权利要求1所述的方法,其中所述核酸测序分析文件中的一些核酸测序分析文件被压缩。
17.根据权利要求1所述的方法,所述方法还包括压缩和/或加密所述自定义文件。
18.根据权利要求1所述的方法,其中所述自定义文件是基于文本的JavaScript对象表示法(JSON)格式或二进制JSON格式。
19.根据权利要求1所述的方法,其中所述核酸测序分析文件中的每个核酸测序分析文件是JSON、CSV、TSV、XML、NirvanaJSON、VCF、CSVVCF或SpliceJSON格式中的一种。
20.根据权利要求1所述的方法,其中所述方法在云计算环境中实施。
21.一种数据库,所述数据库包括多个文件,其中所述多个文件中的每个文件是根据权利要求1所述的方法生成的。
22.一种用于生成自定义文件的系统,所述系统包括:
存储指令以实施权利要求1所述的方法的存储器;以及
被配置为执行所述指令的一个或多个处理器。
23.一种用于生成自定义文件的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有程序指令以实施根据权利要求1所述的方法。
CN202180043263.9A 2020-09-14 2021-09-10 用于个性化医学的自定义数据文件 Pending CN115917657A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063078215P 2020-09-14 2020-09-14
US63/078,215 2020-09-14
PCT/US2021/049917 WO2022056293A1 (en) 2020-09-14 2021-09-10 Custom data files for personalized medicine

Publications (1)

Publication Number Publication Date
CN115917657A true CN115917657A (zh) 2023-04-04

Family

ID=78372086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180043263.9A Pending CN115917657A (zh) 2020-09-14 2021-09-10 用于个性化医学的自定义数据文件

Country Status (11)

Country Link
US (1) US20220084640A1 (zh)
EP (1) EP4211693A1 (zh)
JP (1) JP2023541341A (zh)
KR (1) KR20230068361A (zh)
CN (1) CN115917657A (zh)
AU (1) AU2021342166A1 (zh)
BR (1) BR112022024813A2 (zh)
CA (1) CA3183745A1 (zh)
IL (1) IL298101A (zh)
MX (1) MX2022015885A (zh)
WO (1) WO2022056293A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220414112A1 (en) * 2021-06-25 2022-12-29 Sap Se Metadata synchronization for cross system data curation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040177082A1 (en) * 2001-06-22 2004-09-09 Kiyoshi Nitta Structured data processing apparatus
WO2013049420A1 (en) * 2011-09-27 2013-04-04 Maltbie Dan System and method for facilitating network-based transactions involving sequence data
US10122380B2 (en) * 2015-11-16 2018-11-06 International Business Machines Corporation Compression of javascript object notation data using structure information
MX2019004130A (es) * 2016-10-11 2020-01-30 Genomsys Sa Metodo y sistema para el acceso selectivo de datos bioinformaticos almacenados o transmitidos.
US20190026433A1 (en) * 2017-07-21 2019-01-24 James Lu Genomic services platform supporting multiple application providers

Also Published As

Publication number Publication date
KR20230068361A (ko) 2023-05-17
JP2023541341A (ja) 2023-10-02
EP4211693A1 (en) 2023-07-19
US20220084640A1 (en) 2022-03-17
WO2022056293A1 (en) 2022-03-17
CA3183745A1 (en) 2022-03-17
AU2021342166A1 (en) 2023-01-05
BR112022024813A2 (pt) 2023-03-28
MX2022015885A (es) 2023-04-03
IL298101A (en) 2023-01-01

Similar Documents

Publication Publication Date Title
US10937522B2 (en) Systems and methods for analysis and interpretation of nucliec acid sequence data
Sayers et al. Database resources of the national center for biotechnology information
Coordinators Database resources of the national center for biotechnology information
NCBI Resource Coordinators Database resources of the national center for biotechnology information
CN106068330B (zh) 将已知等位基因用于读数映射中的系统和方法
US9165109B2 (en) Sequence assembly and consensus sequence determination
AU2021290303A1 (en) Semi-supervised learning for training an ensemble of deep convolutional neural networks
Zhu et al. Reconstructing spatial organizations of chromosomes through manifold learning
Stothard et al. Automated bacterial genome analysis and annotation
JP2003021630A (ja) 臨床診断サービスを提供するための方法
Kayani et al. Genome-resolved metagenomics using environmental and clinical samples
Baker et al. Comprehensive comparison of cloud-based NGS data analysis and alignment tools
Zhao et al. Interpreting omics data with pathway enrichment analysis
Xu et al. A systematic review of computational methods for predicting long noncoding RNAs
Kanchan et al. Integrative omics data mining: Challenges and opportunities
US20220084640A1 (en) Custom data files for personalized medicine
Kim et al. Unraveling metagenomics through long-read sequencing: A comprehensive review
Manoharan et al. A hybrid protocol for finding novel gene targets for various diseases using microarray expression data analysis and text mining
Tsybulskyi et al. ShapeSorter: a fully probabilistic method for detecting conserved RNA structure features supported by SHAPE evidence
Huang et al. NanoSNP: a progressive and haplotype-aware SNP caller on low-coverage nanopore sequencing data
Sheikh et al. Computational resources for oncology research: a comprehensive analysis
Lapidot et al. Comprehensive quantitative analyses of the effects of promoter sequence elements on mRNA transcription
Gouda et al. Computational Tools for Whole Genome and Metagenome Analysis of NGS Data for Microbial Diversity Studies
Caramelo GENEANALYST-A web application for whole genome visualization and analysis of gene expresison data
Jaenicke et al. MGX 2.0: Shotgun-and assembly-based metagenome and metatranscriptome analysis from a single source

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination