CN106971089B - 高通量测序数据的平行比较分析 - Google Patents

高通量测序数据的平行比较分析 Download PDF

Info

Publication number
CN106971089B
CN106971089B CN201710190109.XA CN201710190109A CN106971089B CN 106971089 B CN106971089 B CN 106971089B CN 201710190109 A CN201710190109 A CN 201710190109A CN 106971089 B CN106971089 B CN 106971089B
Authority
CN
China
Prior art keywords
sequence
cancer
tumor
string
patient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710190109.XA
Other languages
English (en)
Other versions
CN106971089A (zh
Inventor
J·Z·森波
D·豪斯勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of CN106971089A publication Critical patent/CN106971089A/zh
Application granted granted Critical
Publication of CN106971089B publication Critical patent/CN106971089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Physiology (AREA)
  • Ecology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)

Abstract

本发明涉及高通量测序数据的平行比较分析。通过利用相对于参考基因组序列的子串的已知位置递增地同步序列串,在子串的比对基础上构成差异序列对象。然后生成输出文件,其包含关于仅参考基因组的相关变化。

Description

高通量测序数据的平行比较分析
本申请是分案申请,原申请的申请日为2011年12月20日,申请号为201180076272.4(PCT/US2011/001996),发明名称为“半目半目:高通量测序数据的平行比较分析”。
与其他申请的关系
本申请涉及2011年11月18日提交的名为“半目半目(Bambam):高通量测序数据的平行比较分析”的美国非临时专利申请序号13/373,550,并且要求其优先权,在此将其全部内容引入作为参考。
本发明部分利用下列美国联邦机构的资金进行:国家癌症研究所编号1U24CA143858-01。美国联邦政府对本发明拥有一定权利。
技术领域
本发明涉及处理个体或对象生物途径的数据和鉴定其组分从而确定个体或对象是否具有病症或疾病危险的方法。本方法可用作利用 SAM/BAM格式的文件中存储的短读取比对对个体或对象的肿瘤和种系测序数据进行比较分析的工具。数据处理方法计算总拷贝数和等位基因特异的拷贝数,使等位基因失衡区域的种系序列分阶,发现体细胞和种系序列变体,并推断体细胞和种系的结构变化区域。本发明还涉及利用本方法诊断对象是否易患癌症、自身免疫性疾病、细胞周期疾病或其他疾病。
背景技术
现代癌症治疗的核心前提是,患者诊断、预后、危险评估和治疗响应预期可通过癌症分类得到提高,癌症分类基于肿瘤基因组、转录和外因基因组特征,同时还有诊断时收集的相关临床信息(例如,患者病史、肿瘤组织学及阶段)以及随后的临床后续数据(例如,治疗方案和疾病复发事件)。
在测序中最新进展已经导致用于个体生物体和生物体组织以及用于不同群体和甚至物种的大量基因组和亚基因组数据。这促使利用基因组、转录和/或表观遗传信息的各种疾病、预后/危险评估,和甚至治疗响应预测的基于基因组的个性化治疗或诊断的发展。
由于基因组数据的量已达到显著水平,计算要求和有意义的输出生成的方式已经变得具有挑战性。例如,多个肿瘤和匹配的正常全基因组序列现在可用自像“癌症基因组图谱”(TCGA)的项目,并且提取相关的信息很困难。其通过需要高的基因组测序的覆盖(例如,大于30倍)被进一步混合以获得统计学上相关数据。即使在压缩形式中,基因组信息可经常达到数以百计的千兆字节,并且比较多个这种大型数据集的分析在大多数情况下是缓慢的且难以管理,但是,是绝对必要的,以便发现发生在相对于第二样品的任何给定的样品的许多基因组变化。
乳腺癌在临床上和基因组方面是异质的并由几种病理和分子方面不同的亚型组成。在各亚型中,患者对常规和目标治疗剂的响应不同,推动了标记物引导的治疗策略的发展。乳腺癌细胞系的集合反映出多种在肿瘤中发现的分子亚型和途径,表明用候选治疗性化合物治疗细胞系可引导鉴定分子亚型、途径和药物响应之间的关联。在77种治疗性化合物的测试中,几乎全部药物在这些细胞系中显示差异响应并约一半显示亚型、途径和/或基因组异常-特异性响应。这些观察结果暗示了可指示临床药物调配的响应和抗性机制以及有效组合药物的尝试。
目前需要提供可用于表征、诊断、治疗和确定疾病和病症结果的方法。
发明内容
本发明人已经发现比较基因组分析的各种系统和方法,其允许以不需要进行处理的多个规模文件的形式以及避免生成具有相对于基因组畸变的相对低的信息密度的相似的规模文件的形式迅速产生有意义的输出。
在本发明主题的一个方面中,得到差异基因序列对象的方法包括提供对遗传数据库的访问的步骤,该遗传数据库存储(a)表示第一组织的第一基因序列串和(b)表示第二组织的第二基因序列串,其中第一和第二序列串具有多个相应的子串。在另一个步骤中,提供对与遗传数据库连接的序列分析引擎的访问,且仍在另一个步骤中,序列分析引擎通过利用多个相应的子串中至少一个的已知位置递增地同步第一和第二序列串来产生局部比对。在进一步步骤中,序列分析引擎利用局部比对生成局部比对中第一与第二序列串之间的局部差异串;并且序列分析引擎利用局部差异串更新差异序列数据库中的差异基因序列对象。
最优选地,第一和第二基因序列串分别表示第一和第二组织至少 10%且更通常地至少50%的基因组、转录组或蛋白质组,或第一和第二组织的甚至基本上整个基因组、转录组或蛋白质组。应该进一步理解,第一和第二组织来自相同的生物实体(例如,患者、健康的个体、细胞系、干细胞、实验动物模型、重组细菌细胞或病毒)。另一方面,第一组织可以是健康组织,而第二个可以是患病组织(例如,肿瘤组织)。在进一步考虑的方面,相应的子串包含纯合或杂合等位基因。
还通常优选地,同步步骤包括比对多个子串中的至少一个,其中比对是基于第一串中的先验已知位置。可选地或另外地,同步步骤包括基于包含多个子串中至少一个的已知位置的已知参考串(例如,共有序列)比对多个子串中的至少一个,和/或同步步骤包括在具有小于多个子串的至少一个的长度的长度的窗口内比对多个子串中的至少一个。当需要时,设想的方法还可以另外包括通过第一序列串的整个长度迭代地递增同步第一和第二序列串的步骤。
在特别优选的方法中,差异基因序列对象表示至少一条染色体的多个局部差异串,表示第一组织的基本上整个基因组的多个局部差异串,和/或包括含有描述差异基因序列对象的元数据的属性。特别优选的属性是第一和第二组织的至少一个的状态。例如,该状态可以包括第一和第二组织的至少一个的生理状态(例如,肿瘤生长、凋亡、分化状态、组织年龄和治疗响应性),或遗传状态(例如,倍体、基因拷贝数、重复拷贝数、倒置、缺失、病毒基因的插入、体细胞突变、种系突变、结构重排、换位,和杂合性缺失)。合适的状态还包括组织内与信号传导途径(例如,生长因子信号转导途径、转录因子信号传导途径、细胞凋亡途径、细胞周期途径和激素响应途径)关联的途径模型信息。仍然进一步设想地,基因序列对象包括文件,其最优选地符合标准格式(例如,SAM/BAM格式)。
在本发明主题的另一个方面中,本发明人还设想了提供医疗保健服务的方法。在该方法中,提供对信息地连接到医疗记录存储设备的分析引擎的访问,其中存储设备存储患者的差异基因序列对象。在另一个步骤中,利用患者差异基因序列对象中存在的局部差异串或多个局部差异串的丛,分析引擎产生特定患者的数据集,并基于特定患者的数据集,分析引擎还产生特定患者的指示。
在特别优选的方法中,医疗记录存储设备被配置为智能卡并由患者携带,和/或被健康护理人员远程访问。
最通常地,患者的差异基因序列对象包括至少两条染色体或基本上患者整个基因组的的多个局部差异串。可选地,或另外地,患者的差异基因序列对象还包括表示至少两种组织类型或相同组织的至少两个时间间隔结果的多个局部差异串(例如,相同组织的时间间隔结果得自治疗开始之前和之后)。进一步通常优选地,特定患者的指示为诊断、预后、治疗结果预期、治疗策略建议,和/或处方。
在本发明主题的又另一个方面中,本发明人设想了分析群体的方法,该方法包括在群体医疗记录数据库中获得和存储多个差异基因序列对象的步骤,其中该记录数据库信息地连接到分析引擎。在另一个步骤中,分析引擎鉴定多个差异基因序列对象中的多个局部差异串丛,从而产生丛记录,并且分析引擎利用丛记录生成群体分析记录。
在该方法中,一般设想的是,群体包括多个血亲,和/或特征在于共享至少一个共同特征(例如,暴露于病原、暴露于毒性剂、健康史、治疗史、治疗成功、性别、物种和年龄)的多个成员。合适的群体还包括特征在于共享地理位置、种族和/或职业的多个成员。因此,应该认识到群体分析记录包括父子关系或母子关系的确定。
进一步设想的是,本文公开的方法可进一步包括将个体患者的丛记录与群体分析记录进行比较的步骤,因此其可生成特定患者的记录 (例如,指示危险评估或鉴定患者属于指定群体)。特定患者的记录还包括诊断、预后、治疗结果预期、处方,和/或治疗策略的建议。
因此,本发明人还设想分析个人的差异基因序列对象的方法,其中在一个步骤中在信息地连接到分析引擎的医疗记录数据库中存储参考差异基因序列对象。然后分析引擎计算个人的差异基因序列对象中的多个局部差异串与参考差异基因序列对象中的多个局部差异串之间的偏差,以产生偏差记录,并且然后分析引擎利用偏差记录生成特定个人特定个人的偏差概况。
在该方法中,优选的是,参考差异基因序列对象由个人的多个局部差异串或由个人的多个局部差异串计算得到。
应当认识到,在本文公开的方法中,患者或个人指诊断患有状况的患者或个人,且特别地该状况为疾病和病症。例如,设想的状况包括获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、良性前列腺增生症、支气管炎、薛迪克-东氏症候群(Chediak-Higashi syndrome)、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、重度联合免疫缺陷病(SCID)、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状旁腺癌、阴茎癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌、静坐不能、阿尔茨海默症、健忘症、肌萎缩性侧索硬化(ALS)、共济失调、双极性疾病、紧张症、大脑性麻痹、脑血管疾病、克-雅二氏病、痴呆、抑郁、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、亨廷顿病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森病、皮克病、色素性视网膜炎、精神分裂症、季节性情绪疾病、老年痴呆、中风、图雷特综合征和包括腺癌、黑素瘤和畸胎癌在内的癌症,特别是脑癌。
进一步设想的状况还包括癌症,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状芳腺癌、阴莖癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌;免疫疾病,如获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、淋巴细胞毒素的发作性淋巴细胞减少症、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染、创伤、布鲁顿X-连锁无丙种球蛋白血症、常见变异型免疫缺陷(CV1)、迪乔治综合征(胸腺发育不全)、胸腺发育不良、隔离IgA缺乏症、重度联合免疫缺陷病(SCID)、血小板减少症和湿疹的免疫缺陷(威-奥氏综合征)、薛迪克-东氏症候群(Chediak-Higashi syndrome)、慢性肉芽肿性疾病、遗传性血管神经性水肿和库兴病相关的免疫缺陷;和发育疾病,如肾小管酸中毒、贫血、库兴综合征、软骨发育不全性侏儒、杜兴和贝克尔肌肉萎缩症、癫痫、性腺发育不全、WAGR综合征(威尔姆斯瘤、无虹膜、泌尿生殖系统异常和精神发育迟滞)、史密斯-马盖尼斯综合征、骨髓增生异常综合征、遗传性粘膜上皮异常增生、遗传性皮肤角化病、遗传性神经病如夏-马-图病和神经纤维瘤、甲状腺功能减退症、脑积水、癫痫病如Syndenham舞蹈病和大脑性麻痹、脊柱裂、无脑畸形、卢页脊柱裂、先天性青光眼、白内障、感觉神经性听力损失,以及与细胞生长和分化、胚胎发生和形态发生相关的任何疾病,包括对象的任何组织、器官或系统,例如、脑、肾上腺、肾、骨骼或生殖系统。
更进一步设想的状况包括内分泌疾病,如与垂体功能减退相关的疾病,包括性腺功能减退、席汉综合征、尿崩症、卡尔曼病、汉-许- 克三氏病、累-赛二氏病、结节病、空蝶鞍综合征和侏儒症;垂体功能亢进,包括肢端肥大症、巨人症和抗利尿激素(ADH)分泌异常综合征(SIADH);和与甲状腺功能减退相关的疾病,包括甲状腺肿、粘液性水肿、与细菌感染相关的急性甲状腺炎、与病毒感染相关的亚急性甲状腺炎、自身免疫性甲状腺炎(桥本病)和呆小症;与甲状腺功能亢进相关的疾病,包括甲状腺毒症及其各种形式、格雷夫斯病、胫骨前粘液性水肿、毒性多结节性甲状腺肿、甲状腺癌和普鲁麦病;和与甲状旁腺功能亢进相关的疾病,包括康恩病(慢性高血钙);呼吸系统疾病,如过敏、哮喘、急性和慢性炎性肺病、ARDS、气肿、肺充血和水肿、COPD、间质性肺病和肺癌;癌症,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状旁腺癌、阴茎癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌;和免疫学疾病,如获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、淋巴细胞毒素的发作性淋巴细胞减少症、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染以及创伤。
本发明还提供了用于产生可用于确定个体风险的数据库的方法,特别地,例如,但不限于,个体的易感性疾病、障碍或病症的风险;在个体的工作、住所、学校等等的地方的风险;个体暴露于毒素、致癌物质、诱变剂等等的风险,以及个体饮食习惯的风险。另外,本发明提供了可用于识别特定个体、动物、植物或微生物的方法。
在一个实施例中,本发明提供了得到差异基因序列对象的方法,该方法包括:提供对遗传数据库的访问,该遗传数据库存储(a)表示第一组织的第一基因序列串和(b)表示第二组织的第二基因序列串,其中第一和第二序列串具有多个相应的子串;提供对与遗传数据库连接的序列分析引擎的访问;通过利用多个相应的子串中至少一个的已知位置递增地同步第一和第二序列串,利用序列分析引擎产生局部比对;通过序列分析引擎,利用局部比对生成局部比对中第一与第二序列串之间的局部差异串;以及通过序列分析引擎,利用局部差异串更新差异序列数据库中的差异基因序列对象。在优选的实施例中,第一和第二基因序列串分别表示第一和第二组织的至少10%的基因组、转录组或蛋白质组。在可选的优选实施例中,第一和第二基因序列串分别表示第一和第二组织的至少50%的基因组、转录组或蛋白质组。在另一个可选的优选实施例中,第一和第二基因序列串分别表示第一和第二组织的基本上整个基因组、转录组或蛋白质组。在另一个优选的实施例中,相应的子串包含纯合等位基因。在可选的优选实施例中,相应的子串包含杂合等位基因。在另一个更优选的实施例中,基因序列对象包括文件。在仍更优选的实施例中,文件符合标准格式。在最优选的实施例中,文件符合SAM/BAM格式。
在优选地实施例中,同步步骤包括基于第一串中的先验已知位置比对多个子串中的至少一个。在可选的优选实施例中,同步步骤包括基于包含多个子串中至少一个的已知位置的已知参考串比对多个子串中的至少一个。在更优选的实施例中,已知参考串为共有序列。
在另一个优选的实施例中,同步步骤包括在具有小于多个子串的至少一个的长度的长度的窗口内比对多个子串中的至少一个。
在另一个优选的实施例中,差异基因序列对象表示至少一条染色体的多个局部差异串。
在另一个优选的实施例中,差异基因序列对象表示第一组织的基本上整个基因组的多个局部差异串。
在仍其他的优选实施例中,差异基因序列对象包括含有描述差异基因序列对象的元数据的属性。在更优选的实施例中,该属性包括第一和第二组织的至少一个的状态。在仍更优选的实施例中,该状态包括第一和第二组织的至少一个的生理状态。在最优选的实施例中,生理状态包含选自由肿瘤生长、凋亡、分化状态、组织年龄和治疗响应性组成的群组的状态。
在可选的更优选实施例中,该状态包括遗传状态。在最优选的实施例中,遗传状态包括选自由至少一种倍体、基因拷贝数、重复拷贝数、倒置、缺失、病毒基因的插入、体细胞突变、种系突变、结构重排、换位,和杂合性缺失组成的群组的状态。
在可选的更优选实施例中,该状态包括组织内与信号传导途径关联的途径模型信息。在最优选的实施例中,信号传导途径选自由生长因子信号转导途径、转录因子信号传导途径、细胞凋亡途径、细胞周期途径和激素响应途径组成的群组。
在可选的实施例中,第一和第二组织来自相同的生物实体,该生物实体选自由患者、健康的个体、细胞系、干细胞、实验动物模型、重组细菌细胞或病毒组成的群组。在可选的实施例中,第一组织是健康组织且其中第二组织是患病组织。在更优选的实施例中,患病组织包括肿瘤组织。
本发明还提供如本文所公开的方法,其中该方法进一步包括通过第一序列串的整个长度迭代地递增同步第一和第二序列串的步骤。
本发明还提供了提供医疗保健服务的方法,该方法包括:提供对信息地连接到医疗记录存储设备的分析引擎的访问,其中存储设备存储患者的差异基因序列对象;利用患者差异基因序列对象中存在的局部差异串或多个局部差异串的丛,通过分析引擎产生特定患者的数据集,并基于特定患者的数据集,通过分析引擎产生特定患者的指示。在优选的实施例中,医疗记录存储设备被配置为智能卡并由患者携带。在另一个优选实施例中,医疗记录存储设备被健康护理人员远程访问。在仍其他的优选实施例中,患者的差异基因序列对象包括至少两条染色体的多个局部差异串。在仍进一步优选的实施例中,患者的差异基因序列对象包括基本上患者整个基因组的多个局部差异串。在另一个优选实施例中,患者的差异基因序列对象包括表示至少两种组织类型或相同组织的至少两个时间间隔结果的多个局部差异串。在更优选的实施例中,相同组织的至少两个时间间隔结果得自治疗开始之前和之后。在最优选的实施例中,相同组织的至少两个时间间隔结果得自治疗开始之前和之后。
在另一个可选的优选实施例中,如本文公开的特定患者的指示选自由诊断、预后、治疗结果预期、治疗策略建议,和/或处方组成的群组。
本发明还提供了分析群体的方法,该方法包括:在群体的医疗记录数据库中获得并存储多个差异基因序列对象,其中该记录数据库信息地连接到分析引擎;通过分析引擎鉴定多个差异基因序列对象中的多个局部差异串丛,从而产生丛记录;并且通过分析引擎利用丛记录生成群体分析记录。在优选的实施例中,群体包括多个血亲。在可选的优选实施例中,群体包括特征在于共享选自由暴露于病原、暴露于毒性剂、健康史、治疗史、治疗成功、性别、物种和年龄组成的群组的至少一个共同特征的多个成员。在另一个可选的优选实施例中,群体包括特征在于共享选自由地理位置、种族和/或职业组成的群组的至少一个共同特征的多个成员。在仍进一步可选的优选实施例中,群体分析记录包括父子关系或母子关系的确定。
在可选的实施例中,本文所公开的方法进一步包括将个体患者的丛记录与群体分析记录进行比较的步骤。在优选的实施例中,将个体患者的丛记录与群体分析记录进行比较的步骤生成了特定患者的记录。在更优选的实施例中,特定患者的记录包括危险评估或鉴定患者属于指定群体。在可选的更优选实施例中,特定患者的记录包括诊断、预后、治疗结果预期、治疗策略的建议,和/或处方。
本发明进一步提供了分析个人的差异基因序列对象的方法,该方法包括:在信息地连接分析引擎的医疗记录数据库中存储参考差异基因序列对象;通过分析引擎计算个人的差异基因序列对象中的多个局部差异串与参考差异基因序列对象中的多个局部差异串之间的偏差,以产生偏差记录;通过分析引擎利用偏差记录生成特定个人特定个人的偏差概况。在优选的实施例中,参考差异基因序列对象由个人的多个局部差异串计算得到。在另一个优选实施例中,参考差异基因序列对象由个人的多个局部差异串计算得到。
关于本文所公开的各种方法,在优选实施例中患者或个人指选自由诊断患有状况的患者或个人组成的群组,该状况选自由疾病和病症组成的群组。在更优选的实施例中,该状况选自由获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、良性前列腺增生症、支气管炎、薛迪克-东氏症候群(Chediak-Higashisyndrome)、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、重度联合免疫缺陷病(SCID)、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状旁腺癌、阴茎癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌、静坐不能、阿尔茨海默症、健忘症、肌萎缩性侧索硬化(ALS)、共济失调、双极性疾病、紧张症、大脑性麻痹、脑血管疾病、克-雅二氏病、痴呆、抑郁、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、亨廷顿病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森病、皮克病、色素性视网膜炎、精神分裂症、季节性情绪疾病、老年痴呆、中风、图雷特综合征和包括腺癌、黑素瘤和畸胎癌在内的癌症,特别是脑癌组成的群组。
在另一个优选的实施例中,该状况选自由癌症,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状芳腺癌、阴莖癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌;免疫疾病,如获得性免疫缺陷综合征 (AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、淋巴细胞毒素的发作性淋巴细胞减少症、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染、创伤、布鲁顿X-连锁无丙种球蛋白血症、常见变异型免疫缺陷(CV1)、迪乔治综合征(胸腺发育不全)、胸腺发育不良、隔离IgA缺乏症、重度联合免疫缺陷病 (SCID)、血小板减少症和湿疹的免疫缺陷(威-奥氏综合征)、薛迪克 -东氏症候群(Chediak-Higashi syndrome)、慢性肉芽肿性疾病、遗传性血管神经性水肿和库兴病相关的免疫缺陷;和发育疾病,如肾小管酸中毒、贫血、库兴综合征、软骨发育不全性侏儒、杜兴和贝克尔肌肉萎缩症、癫痫、性腺发育不全、WAGR综合征(威尔姆斯瘤、无虹膜、泌尿生殖系统异常和精神发育迟滞)、史密斯-马盖尼斯综合征、骨髓增生异常综合征、遗传性粘膜上皮异常增生、遗传性皮肤角化病、遗传性神经病如夏-马-图病和神经纤维瘤、甲状腺功能减退症、脑积水、癫痫病如Syndenham舞蹈病和大脑性麻痹、脊柱裂、无脑畸形、卢页脊柱裂、先天性青光眼、白内障、感觉神经性听力损失;以及与细胞生长和分化、胚胎发生和形态发生相关的任何疾病,包括对象的任何组织、器官或系统,例如、脑、肾上腺、肾、骨骼或生殖系统组成的群组。
在仍进一步可选的优选实施例中,该状况选自由内分泌疾病,如与垂体功能减退相关的疾病,包括性腺功能减退、席汉综合征、尿崩症、卡尔曼病、汉-许-克三氏病、累-赛二氏病、结节病、空蝶鞍综合征和侏儒症;垂体功能亢进,包括肢端肥大症、巨人症和抗利尿激素 (ADH)分泌异常综合征(SIADH);和与甲状腺功能减退相关的疾病,包括甲状腺肿、粘液性水肿、与细菌感染相关的急性甲状腺炎、与病毒感染相关的亚急性甲状腺炎、自身免疫性甲状腺炎(桥本病) 和呆小症;与甲状腺功能亢进相关的疾病,包括甲状腺毒症及其各种形式、格雷夫斯病、胫骨前粘液性水肿、毒性多结节性甲状腺肿、甲状腺癌和普鲁麦病;和与甲状旁腺功能亢进相关的疾病,包括康恩病 (慢性高血钙);呼吸系统疾病,如过敏、哮喘、急性和慢性炎性肺病、ARDS、气肿、肺充血和水肿、COPD、间质性肺病和肺癌;癌症,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状旁腺癌、阴茎癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌;和免疫学疾病,如获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、淋巴细胞毒素的发作性淋巴细胞减少症、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染以及创伤组成的群组。
本发明进一步提供了得到差异基因序列对象的方法,该方法包括:提供对遗传数据库的访问,该遗传数据库存储(a)表示第一组织的第一基因序列串和(b)表示第二组织的第二基因序列串,其中第一和第二序列串具有多个相应的子串;提供对与遗传数据库连接的序列分析引擎的访问;通过利用多个相应的子串的至少一个的已知位置递增地同步第一和第二序列串,利用序列分析引擎产生局部比对;通过序列分析引擎,利用局部比对生成局部比对中第一与第二序列串之间的局部差异串;以及通过序列分析引擎,利用局部差异串生成差异序列数据库中的差异基因序列对象,从而得到差异序列对象。
本发明进一步提供了用于生成差异基因序列对象的转化方法,差异基因序列对象表示第一基因序列与第二序列之间的临床相关差异,该方法包括步骤:(i)提供对遗传数据库的访问,该遗传数据库存储 (a)表示第一组织的第一基因序列串和(b)表示第二组织的第二基因序列串,其中第一和第二序列串具有多个相应的子串;(ii)提供对与遗传数据库连接的序列分析引擎的访问;(iii)通过利用多个相应的子串的至少一个的已知位置递增地同步第一和第二序列串,利用序列分析引擎产生局部比对;(iv)通过序列分析引擎,利用局部比对生成局部比对中第一与第二序列串之间的局部差异串;和(v)通过序列分析引擎,利用局部差异串生成差异序列数据库中的差异基因序列对象,从而得到差异序列对象,其中差异序列对象向用户提供目标信息。
在优选的实施例中,目标信息选自由遗传相关信息、代谢相关信息、毒理相关信息、临床相关信息、时间相关信息、地理相关信息、职业危险相关信息、生活史相关信息及类似信息组成的群组。
根据以下详细描述的优选实施例中以及随附的附图(其中类似标号表示类似元件),本发明主题的各种目的、特征、方面和优点变得更加显而易见。
附图说明
图1示出了“BamBam”数据流的示意图。
图2示出了等位基因特异的拷贝数计算的概括视图。
图3示出了结构变化呼叫的概括视图。
图4示出了鉴定基因组中发生结构重排的位置的示例性方法。
图5示出了示例性肿瘤特异性基因组浏览器。
图6是根据本发明主题以产生差异基因序列对象的示例性计算机系统的示意图。
图7是得出差异基因序列对象的方法的示意图。
图8是以特定患者的指示形式提供医疗保健服务的方法示意图。
图9是分析相对于在遗传学中的差异的群体的方法的示意图。
图10是分析个人的差异基因序列对象的方法的示意图。
具体实施方式
本文公开的实施例是说明性和示例性的且并非意为限制本发明。在不脱离本发明权利要求的范围的情况下,可应用其他实施例并且可进行结构变化。
如本文和所附权利要求所用的,除非上下文明确另外表示,否则单数形式“一”和“该”包括复数指代。因此,例如,“等位基因”的指代包括多个该等位基因,且“簇”的指代是指代一个或多个簇及其等同形式,等等。
如本文所用的,术语“管理的”意为已经根据科学和/或临床原理利用本领域的公知方法测试、分析和鉴定的生物分子组和/或非生物分子组之间的关系,例如分子生物学、生物化学、生理学、解剖学、基因组学、转录组学、蛋白质组学、代谢组学、ADME和生物信息学技术及类似技术。该关系可以是生物化学性的,如生物化学途径、遗传途径、代谢途径、基因调控途径、基因转录途径、基因翻译途径、miRNA 调控途径、假基因调控途径及类似途径。本发明人已开发了系统和方法,其中获得来自第一和第二组织样品(例如,健康和患病组织)的各自较大的基因序列串的多个相对小的基因组序列子串(例如,来自测序运行的短读取)。然后利用相应的子串的至少一个的一个或多个已知位置递增同步该基因序列串,以产生局部比对。然后分析该生成的局部比对(通常利用参考基因组序列)以生成局部比对中第一个和第二个序列串之间的局部差异串,因此局部比对包含显著差异信息(通常相对于参考基因组序列)。然后,利用局部差异串,并且最典型地利用多个局部差异串生成部分或甚至整个基因组的差异基因序列对象。
因此应该认识到,代替处理两个非常大的文件以生成另一个非常大的中间(或甚至输出)文件,可以在多个显著较小的部分实现全基因组分析,其中利用一个或多个的子串的基因组内的已知位置将较小的部分比对至参考基因组。从另一个角度看,通过利用子串和参考基因组序列中的已知位置递增地同步序列串而执行比对,并且可生成包括相对于参照基因组的唯一相关变化的输出文件。因此,处理速度被显著改善并且生产有意义输出所需的数据的量显著减少。仍进一步地,除其他外,设想的系统和方法进一步允许单体型/体细胞和种系变化呼叫,并确定等位基因特异的的拷贝数。此外,本文所提出的系统和方法适用于在SAM/BAM-格式中使用序列信息。
例如,多个测序片段(例如,来自供体的肿瘤样本的短读取和相同供体的对应的非肿瘤样本的短读取)被比对至相同的参考基因组,其被采用以组织来自样品的测序片段。然后BAMBAM利用来自相同患者和参考基因组的两个测序片段数据集(一个来自肿瘤,另一个来自对应的正常“种系”组织),并读出数据集使得在两个数据集中重叠相同基因组位置(基于参照基因组和在子串中的注释)的所有序列在相同时间进行处理。这对于处理这类数据是最有效的方法,同时也使复杂分析很难或不可能完成序列化方式,其中每个数据集由自身处理,并事后仅将结果合并。
因此,应当认识到,BAMBAM同时递增地读出两个文件,恒定地保持各BAM文件与另一个同步并累积两文件之间每个共同基因组位置重叠的基因组读取。对于每一对累积,BAMBAM在舍弃累积并移至下一个共同基因组位置之前运行一系列分析。通过以本方法处理,计算机的RAM使用被显著地降低并且处理速度主要受限于文件系统可读取两文件的速度。这使得BAMBAM能够快速处理大批量数据,同时足够灵活的在单个计算机上或在整个计算机组中运行。用 BamBam处理这些文件的另一重要益处是其输出相当小,一般仅包括各文件中发现的重要差异。这产生基本上是患者肿瘤与种系基因组之间的全基因组差异,需要的磁盘存储器远远小于若所有基因组信息均单独存储在每个文件中所占用的磁盘存储器。
应该注意虽然以下的描述被绘制至计算机/服务器基的途径分析系统,但是各种替代的结构也被认为是合适的并且可采用各种计算设备,包括服务器、接口、系统、数据库、代理、备份、引擎、控制器,或其他类型的单独或共同操作的计算设备。应该体会到计算装置包括被配置为执行被存储在有形的、非临时性计算机可读存储介质(例如,硬盘驱动器、固态驱动器、RAM、闪存、ROM等等)上的软件指令的处理器。该软件指令优选地配置计算设备以提供角色、职责,或如下面相对于所公开的装置所讨论的其它功能。在特别优选的实施例中,使用标准化的协议或算法,各种服务器、系统、数据库,或接口交换数据可能基于HTTP、HTTPS、AES、公私密钥交换、Web服务API,公知的金融交易协议,或其他的电子信息交换方法。数据交换优选地通过分组交换网络、因特网、LAN、WAN、VPN,或其它类型的分组交换网络进行。
此外,下面的讨论提供了本发明主题的许多示例性实施例。虽然各实施例代表本发明元件的单一组合,但本发明主题被认为是包括所公开的要素的所有可能组合。因此,如果一个实施例包括元件A、B 和C,且第二实施例包括元件B和D,则即使没有明确地披露,本发明主题也被认为是包括A、B、C或D的其它剩余组合。
如本文所用的,且除非上下文另有说明,否则术语“连接到”意在包括直接的连接(其中彼此连接的两个元件接触彼此)和间接连接 (其中至少一个附加元件被位于两个元件之间)。因此,术语“连接到”和“与...连接”是同义的。在当前文件内“与...连接”也应解释为意指“与...通信地连接”。
高通量数据提供对癌组织中分子变化的全面观察。新技术允许对肿瘤样本和癌细胞系的基因组拷贝数变化、基因表达、DNA甲基化和外遗传的状态进行同时基因组范围分析。
计划在不久的将来对多种肿瘤进行研究,如癌症基因组图谱 (TCGA)、抗癌(SU2C)和更多研究。当前数据集的分析发现,患者之间的遗传改变可不同,但通常涉及共同的途径。因此鉴定癌症进程涉及的相关途径和检测其在不同患者中如何改变是非常重要的。
随着来自诸如癌症基因组图谱(TCGA)的项目的多种完全测序的肿瘤和匹配的正常基因组的发布,非常需要能够有效分析这些大量数据集的工具。
为此,我们开发了BamBam,其是利用SAM/BAM-格式的文件 (SAMtools library;LiH,Handsaker B,Wysoker A,Fennell T,Ruan J, Homer N,Marth G,Abecasis G,DurbinR;1000Genome Project Data Processing Subgroup.The Sequence Alignment/Mapformat and SAMtools.Bioinformatics.2009Augl5;25(16):2078-9.Epub2009Jun8)中包含的比对短读取数据同时分析患者肿瘤和种系基因组的各基因组位置的工具。BamBam连接SAMtools库,利用来自SAM/BAM-格式文件的短读取比对同时分析患者的肿瘤和种系基因组。在本公开中, BamBam工具可以是序列分析引擎,其用于比较序列,该序列包含信息串。在一个实施例中,信息串包含生物学信息,例如,多核苷酸序列或多肽序列。在另一实施例中,生物学信息可包括表达数据,例如 mRNA转录子或rRNA或tRNA或肽或多肽或蛋白质的相对浓度水平。在另一实施例中,生物学信息可以是蛋白质修饰的相对量,如例如,但不限于,磷酸化、硫酸化、乙酰化、甲基化、糖基化、唾液酸化、具有糖基磷脂酰肌醇的修饰或具有蛋白多糖的修饰。
本处理方法使BamBam能够有效计算全部拷贝数并推断肿瘤和种系基因组中的结构变化(例如,染色体易位)的区域;有效计算全部和等位基因特异的拷贝数;推断呈现杂合性丢失(LOH)的区域;并发现体细胞和种系序列变体(例如,点突变)和结构重排(例如,染色体融合)。此外,通过同时比较两个基因组序列,BamBam还可立即区分体细胞与种系序列变体,计算肿瘤基因组中的等位基因特异的拷贝数变化,并使种系单倍型在肿瘤基因组中等位基因比例改变的染色体区域中分阶。通过将这些分析全部一起引入单个工具,研究人员可利用BamBam发现患者肿瘤基因组中存在的多种类型的基因组改变,通常是特异的基因等位基因,其有助于鉴定肿瘤发生的潜在驱动因子。
为确定发现的变体是体细胞(即,仅在肿瘤中发现的变体序列) 还是种系(即,遗传的或可遗传的变体序列)变体,需要以某种方式比较肿瘤与匹配的正常基因组。这可通过如下相继进行:通过总结肿瘤和种系的每个基因组位置的数据,然后组合结果用于分析。不幸地,由于全基因组BAM文件其压缩形式为数百个千兆字节(未压缩是1-2 百万兆字节),需要存储用于后续分析的中间结果将是极其巨大的,并且合并和分析极其缓慢。
为避免这个问题,BamBam同时读取两个文件,恒定地保持各 BAM文件彼此同步并累积两文件之间每个共同基因组位置重叠的基因组读取。对于每一对累积,在舍弃累积并移至下一个共同基因组位置之前,BamBam运行一系列上述分析。通过用本方法处理这些大批量BAM文件,计算机的RAM使用是最小的并且处理速度主要受限于文件系统可读取两文件的速度。这使得BamBam能够快速处理大批量数据,同时足够灵活的在单个计算机上或在整个计算机组中运行。用 BamBam处理这些文件的另一重要益处是其输出相当小,仅由各文件中发现的重要差异组成。这产生基本上是患者肿瘤与种系基因组之间的全基因组差异,需要的磁盘存储器远远小于若所有基因组信息均单独存储在各文件中所占用的磁盘存储器。
BamBam是计算有效的方法,其用于测量大测序数据集,以产生一组高质量基因组事件,该高质量基因组事件存在于相对于其种系的各肿瘤中。这些结果提供对肿瘤染色体动态的扫视,提高我们对肿瘤最终状态及导致其事件的理解。BamBam数据流的示例性方案显示在图1中。
本发明的一个具体的示例性实施例是生成和应用差异基因序列对象。如本文所用,该对象代表由BamBam技术示例的数字对象并反映出参考序列(例如,第一序列)与分析序列(例如,第二序列)之间的差异。对象可被认为是多个不同市场的阻碍。从市场的角度来看,人们可能认为下列因素与该对象的应用和管理有关:
ο对象可以是关于参数向量(例如,时间、地理区域、遗传树、物种等)的动态的和变化。
ο对象可被认为相对于每个其他对象或参考序列彼此具有“距离”。该距离可根据相关尺寸进行测量。例如,该距离可以是与假设的正常值相距的偏差或相对于时间的趋势。
ο对象可以指示危险:发生疾病的危险、暴露易感性的危险、在地点的工作危险等。
ο对象可被管理用于呈现于利益相关者:健康护理人员、保险公司、患者等。
■可显示为图形对象
■可显示为统计学形式:单个人、群体、标准化人等。
ο参考序列可由对象生成,形成标准化序列。标准化序列可基于得自所测对象的共识而构建。
ο对象表示为大型亚基因组或基因组信息,而非单个基因比对,并且被注释/包含标准软件可读的元数据。
ο对象可具有可检测到的内部样式或结构:一个点的突变组可与状况相关的另一个点的第二组突变有关;差异模式丛可能是热点;利用多变量分析或其它Al技术来鉴定相关性;检测热点(例如,存在、不存在等)的显著性。
ο与单个人相关的对象可被用作安全密钥。
更新差异序列对象:更新包括生成、修饰、改变、缺失等;
ο可基于模板
ο可以是重新对象
ο可以是已存在的对象
在可选的示例性实施例中,本方法可用于确定和预期患者对治疗的响应性:预期的、假设的、预测的、实际的,及类似的。
在可选的示例性实施例中,本方法可用于提供特定患者的指示:处方、建议、预后及类似指示。
在一个实施例中,本方法可用于提供临床信息,该临床信息可用于多种诊断和治疗应用,如检测癌症组织、对癌症组织分期、检测转移组织及类似应用;检测神经疾病,如但不限于,阿尔茨海默症、肌萎缩性侧索硬化(ALS)、帕金森病、精神分裂症、癫痫、及其并发症;发育疾病,如DiGeorge综合征、孤独症;自身免疫性疾病,如多发性硬化症、糖尿病、及类似疾病;治疗感染,如但不限于,病毒感染、细菌感染、真菌感染、利什曼原虫病、血吸虫病、疟疾、绦虫病、象皮病、线虫感染、nematines及类似疾病。
在一个实施例中,对于与基因或蛋白质表达改变相关的状况,本方法可用于提供临床信息,以检测和定量改变的基因结构、基因突变、基因生物化学修饰,包括对信使RNA(mRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、微RNA(miRNA)、反义RNA(asRNA)及类似物的改变和/或修饰。与表达改变相关的状况、疾病或病症包括获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、良性前列腺增生症、支气管炎、薛迪克-东氏症候群(Chediak-Higashi syndrome)、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、重度联合免疫缺陷病(SCID)、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状旁腺癌、阴茎癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌。诊断分析可利用杂交或扩增技术来比较患者生物样本与标准样本中的基因表达,以便检测改变的基因表达。这种比较的定性或定量方法在本领域是公知的。
在另一实施例中,对于与基因或蛋白质表达改变相关的疾病,本方法可用于提供临床信息以检测和定量改变的基因结构、基因突变、基因生物化学修饰,包括对信使RNA(mRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、微RNA(miRNA)、反义RNA(asRNA)及类似物的改变和/或修饰。与表达改变相关的疾病包括静坐不能、阿尔茨海默症、健忘症、肌萎缩性侧索硬化(ALS)、共济失调、双极性疾病、紧张症、大脑性麻痹、脑血管疾病、克-雅二氏病、痴呆、抑郁、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、亨廷顿病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森病、皮克病、色素性视网膜炎、精神分裂症、季节性情绪疾病、老年痴呆、中风、图雷特综合征和癌症一包括腺癌、黑素瘤和畸胎癌,特别是脑癌。
在一个实施例中,本方法可用于提供与哺乳动物蛋白质表达或活性改变相关的状况的临床信息。这种状况的实例包括但不限于,获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、良性前列腺增生症、支气管炎、薛迪克-东氏症候群(Chediak-Higashi syndrome)、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、重度联合免疫缺陷病 (SCID)、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌、和具体地、肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状旁腺癌、阴茎癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子癌、静坐不能、阿尔茨海默症、健忘症、肌萎缩性侧索硬化、共济失调、双极性疾病、紧张症、大脑性麻痹、脑血管疾病、克-雅二氏病、痴呆、抑郁、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、亨廷顿病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森病、皮克病、色素性视网膜炎、精神分裂症、季节性情绪疾病、老年痴呆、中风、图雷特综合征和癌症一包括腺癌、黑素瘤和畸胎癌,特别是脑癌。
在又一实施例中,对于与基因或蛋白质表达改变相关的疾病,本方法可用于提供临床信息以检测和定量改变的基因结构、基因突变、基因生物化学修饰,包括对信使RNA(mRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、微RNA(miRNA)、反义RNA(asRNA)及类似物的改变和/或修饰。这种疾病的实例包括,但不限于,癌症,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状芳腺癌、阴莖癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌;免疫疾病,如获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、淋巴细胞毒素的发作性淋巴细胞减少症、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染、创伤、布鲁顿X-连锁无丙种球蛋白血症、常见变异型免疫缺陷(CVI)、迪乔治综合征(胸腺发育不全)、胸腺发育不良、隔离IgA缺乏症、重度联合免疫缺陷病(SCID)、血小板减少症和湿疹的免疫缺陷(威 -奥氏综合征)、薛迪克-东氏症候群(Chediak-Higashi syndrome)、慢性肉芽肿性疾病、遗传性血管神经性水肿和与库兴病相关的免疫缺陷;和发育疾病,如肾小管酸中毒、贫血、库兴综合征、软骨发育不全性侏儒、杜兴和贝克尔肌肉萎缩症、癫痫、性腺发育不全、WAGR 综合征(威尔姆斯瘤、无虹膜、泌尿生殖系统异常和精神发育迟滞)、史密斯-马盖尼斯综合征、骨髓增生异常综合征、遗传性粘膜上皮异常增生、遗传性皮肤角化病、遗传性神经病如夏-马-图病和神经纤维瘤、甲状腺功能减退症、脑积水、癫痫病如Syndenham舞蹈病和大脑性麻痹、脊柱裂、无脑畸形、颉脊柱裂、先天性青光眼、白内障、感觉神经性听力损失以及与细胞生长和分化、胚胎发生和形态发生相关的任何疾病,涉及对象的任何组织、器官或系统,例如,脑、肾上腺、肾、骨骼或生殖系统。
在另一实施例中,对于与基因或蛋白质表达改变相关的疾病,本方法可用于提供临床信息以检测和定量改变的基因结构、基因突变、基因生物化学修饰,包括对信使RNA(mRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、微RNA(miRNA)、反义RNA(asRNA)及类似物的改变和/或修饰。这种疾病的实例包括,但不限于,内分泌疾病,如与垂体功能减退相关的疾病,包括性腺功能减退、席汉综合征、尿崩症、卡尔曼病、汉-许-克三氏病、累-赛二氏病、结节病、空蝶鞍综合征和侏儒症;垂体功能亢进,包括肢端肥大症、巨人症和抗利尿激素(ADH)分泌异常综合征(SIADH);和与甲状腺功能减退相关的疾病,包括甲状腺肿、粘液性水肿、与细菌感染相关的急性甲状腺炎、与病毒感染相关的亚急性甲状腺炎、自身免疫性甲状腺炎(桥本病) 和呆小症;与甲状腺功能亢进相关的疾病,包括甲状腺毒症及其各种形式、格雷夫斯病、胫骨前粘液性水肿、毒性多结节性甲状腺肿、甲状腺癌和普鲁麦病;和与甲状旁腺功能亢进相关的疾病,包括康恩病 (慢性高血钙);呼吸系统疾病,如过敏、哮喘、急性和慢性炎性肺病、ARDS、气肿、肺充血和水肿、COPD、间质性肺病和肺癌;癌症,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状旁腺癌、阴茎癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌;和免疫学疾病,如获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、淋巴细胞毒素的发作性淋巴细胞减少症、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染和创伤。多核苷酸序列可用于DNA印迹分析或RNA印迹分析,点印迹或其他基于膜的技术;PCR技术;浸溃,点触和ELISA分析;和微阵列,其利用患者的流体或组织检测改变的核酸序列表达。这种定性或定量方法在本领域是公知的。
发明特征和最佳实施方式
“BamBam”是计算有效的方法,其用于测量大测序数据集,以产生一组高质量基因组事件,该高质量基因组事件存在于相对于其种系的各肿瘤中。这些结果提供对肿瘤染色体动态的扫视,提高我们对肿瘤最终状态及导致其事件的理解。
诊断
对于与基因或蛋白质表达改变相关的状况、疾病或病症,本文描述的方法可用于检测和定量改变的基因结构、基因突变、基因生物化学修饰,包括对信使RNA(mRNA)、核糖体RNA(rRNA)、转移 RNA(tRNA)、微RNA(miRNA)、反义RNA(asRNA)及类似物的改变和/或修饰。本文描述的方法还可用于检测和定量改变的基因表达、mRNA表达的相对于过度的不存在/存在、或用于在治疗干预过程中监测mRNA水平。与表达改变相关的状况、疾病或病症包括特发性肺动脉高压、继发性肺动脉高压、细胞增殖性疾病,特别是间变性少突神经胶质瘤、星形细胞瘤、少突星形细胞瘤、成胶质细胞瘤、脑膜瘤、神经节细胞瘤、神经元肿瘤、多发性硬化症、亨廷顿病、乳腺癌、前列腺癌、胃腺癌、转移性神经内分泌癌、非增殖性纤维囊性和增殖性纤维囊性乳腺疾病、胆囊炎和胆石病、骨关节炎和类风湿性关节炎;获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、良性前列腺增生症、支气管炎、薛迪克-东氏症候群(Chediak-Higashi syndrome)、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、重度联合免疫缺陷病 (SCID)、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、血液透析、体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染;催乳素生成疾病、不育,包括输卵管疾病、排卵缺陷和子宫内膜异位、动情周期中断、月经周期中断、多囊卵巢综合征、卵巢过度刺激综合征、子宫内膜或卵巢肿瘤、子宫肌瘤、自身免疫性疾病、子宫外孕和畸形发生;乳腺癌、纤维囊性乳腺疾病和乳溢;精子发生中断、精子生理异常、良性前列腺增生症、前列腺炎、Peyronie病、性无能、男子女性型乳房;光化性角膜炎、动脉硬化、滑囊炎、硬变、肝炎、混合性结缔组织疾病(MCTD)、骨髓纤维化、阵发性睡眠性血红蛋白尿、真性红细胞增多症、原发性血小板增多症、癌症并发症、癌症一包括腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状旁腺癌、阴茎癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌。另一方面,本发明的核酸。
对于与基因或蛋白质表达改变相关的疾病,本文描述的方法可用于检测和定量改变的基因结构、基因突变、基因生物化学修饰,包括对信使RNA(mRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、微RNA(miRNA)、反义RNA(asRNA)及类似物的改变和/或修饰。本文描述的方法还可用于检测和定量改变的基因表达;mRNA的不存在、存在或过度表达;或用于在治疗干预过程中监测mRNA水平。与表达改变相关的疾病包括静坐不能、阿尔茨海默症、健忘症、肌萎缩性侧索硬化、共济失调、双极性疾病、紧张症、大脑性麻痹、脑血管疾病、克-雅二氏病、痴呆、抑郁、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、亨廷顿病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森病、皮克病、色素性视网膜炎、精神分裂症、季节性情绪疾病、老年痴呆、中风、图雷特综合征和癌症,包括腺癌、黑素瘤和畸胎癌,特别是脑癌。
为提供与基因表达相关的状况、疾病或病症的诊断依据,建立了正常或标准表达概况。这可通过在杂交或扩增条件下将用探针从正常对象一动物或人类提取生物样本组合而实现。标准的杂交可通过将利用正常对象获得的值与实验值进行比较而被定量,该实验采用已知量的基本上纯化的目标序列。可将以这种方式获得的标准值与得自症状为特定状况、疾病或病症的患者的样本的值进行比较。利用标准值和与特定状况相关的值的偏差来诊断该状况。
这种分析还可用于评价动物研究和临床试验中具体治疗性处理方案的效力,或监测个体患者的治疗。在状况的存在确立并且治疗方案启动,可定期反复进行诊断分析,以确定患者体内的表达水平是否开始接近正常对象中观察的水平。该分析还可用于检测、定量或测量指示和/或鉴定肿瘤存在、肿瘤不存在或进行临床处置或治疗的个体的缓解状态的基因结构、基因突变、基因生物化学修饰,包括对信使RNA (mRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、微RNA(miRNA)、反义RNA(asRNA)及类似物的改变和/或修饰。由连续的分析获得的结果可用于显示数天至数月范围时间的治疗效力。
本文公开的方法还可用于检测、定量和关联之前未被鉴定或关联于特定临床疾病、病症或状况的基因结构、基因突变、基因生物化学修饰的变化,包括对信使RNA(mRNA)、核糖体RNA(rRNA)、转移RNA(tRNA)、微RNA(miRNA)、反义RNA(asRNA)及类似物的改变和/或修饰。在可选方案中,本文公开的方法可用于鉴定新的临床疾病、病症或状况。然后,可将基因结构、基因突变和基因生物化学修饰的新变化与核酸序列或蛋白质序列的已知化学和生物化学性质进行比较,并可利用与临床疾病、病症或病症相关的上述变化生成关于细胞代谢的新数据库和认识,用于临床应用。
模型系统
动物模型可被用作生物分析,其中其呈现与人类类似的毒性响应,并且其中暴露条件是与人类暴露相关的。哺乳动物是最常见的模型,并且大多数毒性研究是对啮齿动物如大鼠或小鼠进行的,这是因为低成本、可用性和充足的参考毒理学。啮齿动物近交品系提供用于研究目的基因低表达或过表达的生理结果和发展疾病诊断和治疗方法的便利模型。过表达特定基因(例如,分泌在乳汁中)的哺乳动物近交系还可充当由该基因表达的蛋白质的便利来源。
毒理学
毒理学是试剂对生命系统的影响的研究。多数毒性研究对大鼠或小鼠进行,以有助于预期这些试剂对人类健康的影响。生理、行为、稳态过程和致死性中的定性和定量变化的观察被用于生成毒性概况并评估在暴露于试剂后对人类健康的影响。
遗传毒理学鉴定和分析试剂的能力以产生遗传突变。遗传毒性试剂通常具有有助于与核酸相互作用的共同化学或物理性质并且在染色体异常传给后代时最为有害。如果在受孕前给予任一亲代、在妊娠期间给予母体或给予发育生物体,那么毒理学研究可鉴定增加后代结构或功能异常性频率的试剂。小鼠和大鼠最常用于这些测试,因为其繁殖周期短,产生符合统计学要求所需的生物体数量。
急性毒性测试基于试剂向对象的单次给予以确定试剂的症状学或致死性。进行三个实验:(a)初始剂量范围调查实验,(b)缩窄有效剂量范围的实验和(C)建立剂量响应曲线的最终实验。
长期毒性测试基于试剂的反复给予。大鼠和狗常用于这些研究,以提供来处不同家族物种的数据。除致癌作用外,相当多的证据证明在三至四个月时间以高剂量浓度每日给予试剂将揭示成年动物毒性的大多数形式。
持续一年或更长时间的慢性毒性测试来证明试剂不存在毒性或具有致癌可能性。在对大鼠进行研究时,应用最少三个测试组加一个对照组,并且在整个实验的开始和每隔一段时间检查和监测动物。
转基因动物模型
过表达目的基因或低表达目的基因的转基因啮齿动物可以是近交的并用于模拟人类疾病或测试治疗剂或毒性剂。(参见美国专利号 4,736,866;5,175,383;和5,767,337;引入本文作为参考。)在一些情况下,引入的基因可在胎儿发育或产后在特异组织类型中在特定时间被激活。通过在用实验药物治疗进行挑战之前、之中和之后分析转基因动物的表型或组织特异的mRNA表达来监测转基因的表达。
胚胎干细胞
从啮齿动物胚胎分离的胚胎干细胞(ES)保持潜力以形成胚胎。当将ES细胞置于载体胚胎中时,其恢复正常发育并有助于活出生的动物的全部组织。ES细胞是用于生成实验敲除和敲入啮齿动物品系的优选细胞。小鼠ES细胞(如小鼠129/SvJ细胞系)得自早期小鼠胚胎并在本领域公知的培养条件下生长。敲除品系的载体包含候选疾病基因,该疾病基因候选体被修饰以包括标记基因,该标记基因中断体内转录和/或翻译。载体通过转化方法(如电穿孔、脂质体递送、微注射及本领域公知的类似方法)被引入ES细胞。内源啮齿动物基因经由在细胞分裂期间通过同源重组和整合被中断的疾病基因取代。转化的 ES细胞被鉴定,并优选被微注入小鼠细胞胚泡,如来自C57BL/6小鼠品系的小鼠细胞胚泡。胚泡被外科转移至假孕雌亲,并将所得的嵌合后代进行基因分型和繁殖,以生成杂合或纯合品系。
ES细胞还被用于研究体外各种细胞类型和组织的分化,如神经细胞、造血谱系和心肌细胞(Bain等人,(1995)Dev.Biol.168:342-357; Wiles和Keller(1991)Developmentlll:259-267;以及Klug等人,(1996) J.Clin.1nvest.98:216-224)。近期的发展证明,源自人胚泡的ES细胞还可在体外操作,以分化成为八个单独的细胞系,包括内胚层、中胚层和外胚层细胞类型(Thomson(1998)Science282:1145-1147)。
敲除分析
在基因敲除分析中,候选人类疾病基因区域经酶修饰以包括非哺乳动物基因例如新霉素磷酸转移酶基因(neo;参见,例如,Capecchi (1989)Science244:1288-1292)。插入的编码序列中断目标基因的转录和翻译并阻止疾病候选蛋白质的生物化学合成。修饰的基因被转化到培养的胚胎干细胞(上文所述)中,转化的细胞被注入啮齿动物囊胚泡,并且囊胚泡被植入假孕雌亲。转基因后代经杂交以获得纯合近交系。
敲入分析
全能ES细胞,存在于胚胎发育早期,可被用于生成人类疾病的敲入型人源化动物模型(猪)或转基因动物模型(小鼠或大鼠)。凭借敲入技术,人类基因区域被注入动物ES细胞,并且人类序列通过重组整合到动物细胞基因组中。包含整合的人类基因的全能ES细胞被如上所述处理。研究和处理近交动物,以获得关于类似的人类状况的信息。这些方法已被用于模拟数种人类疾病。(参见,例如,Lee等人,(1998)Proc.Natl.Acad.Sc1.95:11371-11376;Baudoin等人, (1998)Genes Dev.12:1202-1216;和Zhuang等人,(1998)Mol.CellBiol. 18:3340-3349)。
非人类灵长类动物模型
动物测试领域处理来自基础科学(如生理学、遗传学、化学、药理学和统计学)的数据和方法。这些数据在评价治疗剂对非人类灵长类动物作用中至关重要,因为其可能与人类的健康相关联。在疫苗和药物评价中猴被用作人类替代品,并且其响应与人类暴露在类似情况下是相关的。恒河猴(食蟹猴、猕猴)和普通狨猴(普通狨猴)是用于这些研究的最常见的非人类灵长类动物(NHP)。由于高成本与开发和维持NHP群体有关,早期研究和毒理学研究通常在啮齿动物模型中进行。在应用行为测量(如药物成瘾)的研究中,NHP是第一选择的测试动物。此外,NHP和个人对多种药物和毒素呈现不同的敏感性并且可被分成这些试剂的“广代谢体”和“弱代谢体”。
本发明的示例性应用
个性化药物保证向最可能获益的那些患者递送特定治疗。我们已显示,约一半的治疗性化合物在一种或多种临床相关的转录或基因组乳腺癌亚型中优先有效。这些发现支持限定响应相关分子亚型在乳腺癌治疗中的重要性。我们还显示,关于细胞系的转录和基因组数据的途径整合揭示了子网络,其为观察到的亚型特异性响应提供机理解释。细胞系与肿瘤之间子网络活性的比较分析显示,多数亚型特异性子网络在细胞系与肿瘤之间保留。这些分析支持如下观点:在充分表征的细胞系小组中的实验化合物的临床前筛选能够鉴定候选的响应相关的分子特征,该候选的响应相关的分子特征能够用于早期临床试验中的敏感性富集。我们提出,这种体外评估方法将增加在化合物临床开发开始前鉴定到响应性肿瘤亚型的可能性,从而降低成本,增加最终FDA 批准的可能性,和有可能避免与治疗不可能响应的患者相关的毒性。在本研究中,我们仅已评估限定转录亚型的分子特征和选择复发性基因组拷贝数异常(CNA)。我们预期,本方法的能力和精确性将随着分析中包括额外的分子特征(如遗传突变、甲基化和可选的剪接)而增加。同样,增加细胞系小组的大小将增加评估小组内较不常见的分子模式的能力和增加代表人类乳腺癌中存在的多样性的更完整范围的概率。
在此,我们公开了新的软件工具,我们称为BamBam,其能够快速比较肿瘤(体细胞)与种系匹配的测序数据集。BamBam输出的结果多变的,产生各患者样本包含的体细胞和种系变体的详尽目录。该目录为研究人员提供了快速发现肿瘤发展过程中发生的重要变化的能力,还提供了患者种系中存在的可指示疾病易患性的高质量变体。 BamBam的进一步改进包括具体搜索在相同的基因组区域中发生的可指出肿瘤发生的驱动因子的多种类型的变体(例如,基因的一个等位基因缺失,另一等位基因包含断点的截短突变)的方法。我们还计划扩展BamBam处理超过基因组对的能力,以及向研究人员提供该能力以在其自身分析方法中插入BamBam管道。
在另外的实施例中,多核苷酸核酸可用于待开发的任何分子生物技术,提供新技术,其依赖于当前已知的核酸分子的性质,包括但不限于,诸如三倍体遗传密码和具体碱基对的相互作用的性质。
图6示出了基因序列分析生态系统100,其包括与一个或多个数据库连接的序列分析引擎140,其可能通过网络115(例如,LAN、 WAN、VPN、因特网等)上。优选的数据库包括存储一个或多个组织的基因序列串的遗传数据库110、存储表示局部差异串的差异基因序列对象的差异序列数据库120,以及存储与患者、人、群体或其他类型实体相关联的一个或多个医疗记录的医疗记录数据库130。医疗记录数据库130还可以存储一个或多个差异基因序列对象,其可能地与患者、人、群体或其他群组相关联。
本发明主题的一个方面被认为包括差异基因序列对象的管理。通过遗传序列串进行分析,分析引擎140可生成差异串或差异串145的丛。差异串145可以被转换为差异基因序列对象,这反过来又可以被存储在差异序列数据库120或医疗记录数据库130中。可利用描述对象性质的一个或多个属性标记该序列对象。示例属性可以包括对象创建的时间戳,当样品从患者、患者姓名、人口信息、组织类型(例如,健康的、患病的、肿瘤、器官组织等),或其他特征提取的时间戳。这些属性可以通过分析引擎140加以利用以建立在医疗记录数据库 130中与医疗记录相关联的特征之间的一个或多个相关性。
差异基因序列对象的管理涵盖广泛的角色或职责。如上面讨论的,一个方面包括创建该对象。分析引擎140也优选地被配置为更新、分析、修改、及时跟踪、删除、复制、拆分、追加,或其他明智操作如所需的序列对象。进一步地,分析引擎140可提供差异基因序列对象管理接口,其可能地在输出设备190上。例如,在一些实施例中,生态系统100可作为包括通过因特网可用的一个或多个网络服务器的供收费服务。在该实施例中,具有浏览器的计算机可以与分析引擎140 接合以管理差异基因序列对象或与差异基因序列对象交互。
在一些实施例中,如下面进一步讨论,分析引擎140被配置为分析从遗传数据库110获得的基因序列串。优选地,基因序列串与至少两个不同的组织样本相关联。分析引擎140通过利用在序列串中对应的子串的至少已知位置递增地同步至少两个序列来产生一个或多个局部比对143。进一步地,分析引擎140利用局部比对,以产生一个或多个局部差异串145或在基因序列串之间的差异串145的丛。然后分析引擎140可利用差异串145以更新在差异序列数据库120或医疗记录数据库130中的差异基因序列对象。然后差异序列对象可以被用于进一步分析。
在一些实施例中,分析引擎140与医疗记录数据库130通信地连接,其存储用于特定患者、个人、个体、家庭、群体,或其他基团的差异基因序列对象。分析引擎140获取患者的差异序列对象并基于存在与患者序列对象相关联的差异串的局部差异串或丛产生患者的特定的数据集。然后,分析引擎140可利用患者特定的数据集,以产生或以其他方式产生一个或多个患者特定指示151。例如,通过患者的特定的局部差异串的分析,分析引擎140可确定患者的特定的差异串和已知条件之间是否存在相关性,其反过来又可以被映射至指令。设想的指令可以包括诊断、预后、推荐的治疗、预测、处方,或其它类型的指示。
在仍其他的实施例中,分析引擎140获得在医疗记录数据库130 中存储的差异基因序列对象,其中该序列对象与个体的群体相关联。分析引擎140识别来自多个序列对象的局部差异串的丛并生成来自该丛的丛记录152。丛记录152包括涉及与群体相关的局部差异串的信息代表(例如,属性、性质、元数据、特性等)。分析引擎140利用丛记录152以生成群体分析记录153。因此,差异基因序列对象可以被映射至群体段。
又另一实施例包括分析引擎140,其利用差异基因序列对象以确定个人的基因序列偏离参考样本的程度。参考差异基因序列对象,其可能地表示真实个人或典型个人,可以被存储作为在医疗记录数据库 130中的医疗记录。分析引擎140计算来自与个人相关的差异序列对象的个人的局部差异串和来自参考差异基因序列对象的局部差异串之间的偏差。一旦偏差被计算,分析引擎140产生代表偏差或偏离的偏差记录154。类似于系统中的其它记录,偏差记录154还可以包括反映记录(例如,个人姓名、时间戳、样品类型等等)中信息特性的属性。然后分析引擎140可利用偏差记录154,以产生指示如何或在何种程度上个人基因序列从参考差异串偏离的个人特异的偏差概况 155。
无论所生成的分析或结果的类型(例如,患者指示151、群体分析153、人特定的概况155等),分析引擎140可进一步配置输出设备190以呈现结果。输出设备190优选包括与分析引擎140连接的计算设备,其可能地通过网络115。输出设备190的实例包括移动电话、信息台、在医疗点的计算机终端、保险公司计算机、打印机、成像设备、基因组浏览器,或其他类型的设备。
因此利用根据本发明主题的系统将典型地包括遗传数据库。如上面已经指出的,应当理解的是,遗传数据库可被物理定位于单个计算机上,然而,分布式数据库也被认为适用于本文所用的。此外,还应当理解的是,该数据库的特定格式并不限制本发明主题,只要该数据库能够存储并检索代表各自的第一和第二组织的第一和第二基因序列串,其中该第一和第二序列串具有多个对应的子串。
同样,应该注意的是,第一和第二基因序列串的特定格式并不限制本发明主题,只要第一和第二基因序列串将包括一个或多个的相应的子串,其在基因组中位置是已知的。因此,合适的数据格式包括简单的ASCII或二进制码,并且在常用于目前已知的序列分析工具的规格后该序列串可被格式化。因此,特别优选的格式包括EMBL、GCG、 fasta、SwissProt、GenBank、PIR、ABI,和SAM/BAM格式。
分析
根据分析和样品的特殊性质,基因序列串的类型可很大地改变,并且应当指出,该序列可以是核酸序列(DNA或RNA),以及蛋白质序列。然而,最典型地,基因序列串将是核酸串,其将代表在分析下第一和第二组织的基因组、转录组,和/或蛋白质组的显著部分。例如,可以设想,第一和第二基因序列串表示第一和第二组织的至少 10%,更典型地至少25%,更典型地至少50%,甚至更典型地至少70%,且最典型地至少90%或甚至基本上全部(至少98%)的基因组、转录组、蛋白质组。因此,应当理解,本文中所呈现的系统和方法将允许在第一和第二组织之间的显著差异的快速和高度全面的概述,同时产生紧凑和翔实的输出文件。
根据在调查下的组织类型,应该注意,多种类型的分析可以被执行。例如,第一和第二组织来自相同的生物实体,健康的组织可比较于不同的健康组织或健康组织可比较于相应的患病组织(例如,肿瘤组织)。因此,生物实体可以是健康的个体或诊断患有疾病或病症的个体。另一方面,在第一和第二组织源自细胞系(永生化或初级),遗传效应或药物后生效应可被迅速地识别。类似地,第一和第二组织源自干细胞,可以分析在遗传组成或胚胎发育的遗传可塑性中的变化。在更进一步的设想实施例中,第一和第二组织可以是实验动物模型以研究疾病或治疗效果的发展。可替换地,第一和第二组织甚至可以是来自酵母、重组细菌细胞和/或病毒。
因此,应当认识到,相应的子串的性质将很大地变化并且将至少部分地依赖于采样组织的类型和基因组的覆盖量。但是,通常优选地的是,该基因组的覆盖相对高,并且在多数情况下分析了整个基因组。因此,相应的子串通常包括纯合和杂合的等位基因。
无论子串的类型,通常优选的是,同步将包括基于第一串内的先验已知位置比对多个子串中至少一个的步骤。在各种生物体(且尤其地人类)的众多基因组被已经基本上完全注释的情况下,以及在甚至未知序列被通常标注为至少推定的功能的情况下,并且在基本上(线性)序列整个基因组是已知的情况下,相对于参照基因组的先验已知位置的数目是高的。因此,参考基因组内的注解知识将作为有效和精确的同步的路线图。当然,应当理解,参考基因组的性质不必限于单个健康组织的基因组,但该参考基因组可以是任何定义的(实际的或计算的)基因组结构。例如,参考基因组可以从(通常地单个组织) 多个健康个体构建,以产生共识参考序列。可选择地,参考串可以基于相同(或不同)个体的多个组织的共识,或患病组织样本(来自相同或多个患者)的共识。
因此,应该认识,差异基因序列对象将提供相对于参考组织的一个或多个样本组织的信息。因此,并且取决于参考串的选择,对于差异基因序列对象的信息内容可以很大的改变。例如,差异基因序列对象可以提供信息,该样品匹配于特定亚群(通过参考串定义)或该样品具有可以或可以不与疾病或病症相关联的多个不匹配。
在本发明主题的进一步优选方面中,该同步还可以通过在具有小于多个子串的至少一个的长度的长度的窗口内比对子串进行执行。最优选地,同步可通过第一序列串的整个长度迭代地且递增地同步第一和第二序列串进行执行。因此从不同的角度观察时,同步将以与拉链类似的方式执行,其中两个部分被递增地匹配,以产生比对。然后利用相同图像,闭合拉链的不匹配部分仅在差异基因序列对象中被反射。
结果,因此应当认识到,差异基因序列对象将表示一个或多个局部差异串,典型地至少的基因组(例如,至少一条染色体)的定义部分,且更典型地基本上第一或第二组织的整个基因组。当然,应当注意,基于已知位置和/或从参考串确定的偏差,差异基因序列对象通常包括具有描述差异基因序列对象的元数据的一个或多个属性。例如,属性可以是描述第一和/或第二组织的状态。在状态是生理状态的情况下,元数据可以反映组织的肿瘤生长、凋亡、分化状态、组织年龄,和/或治疗响应性。另一方面,在状态是遗传状态的情况下,元数据可以反映倍体、基因拷贝数、重复拷贝数、倒置、缺失、病毒基因的插入、体细胞突变、种系突变、结构重排、换位,和/或杂合性缺失。类似地,状态可以包括与该组织内的信号传导途径(例如,对药物的预期响应性、受体缺陷等)相关的途径模型信息,且特别设想的途径包括信号传导途径(例如,生长因子信号传导途径、转录因子信号传导途径、细胞凋亡途径、细胞周期途径、激素响应途径等)。
通过本文呈现的系统和方法所提供的输出信息可以是指示来自参考串的多个偏差的单个差异基因序列对象,或者指示来自参考串的个体偏差的一个以上的差异基因序列对象,或其任何合理组合的形式。最典型地,差异基因序列对象将以电子格式,并且因此检索和/或传送为计算机可读文件。如容易识别的文件被最优选的标准化,并且特别优选地是,该格式符合SAM/BAM格式。
鉴于上述情况,因此,应当理解,差异基因序列对象可用于多种方式,并且该差异基因序列对象特别适合于在医疗、群体分析,以及个性化医药中的许多应用。
例如,一个或多个差异基因序列对象是已知用于个体,可产生患者特定的数据集,其基于患者的差异基因序列对象中的局部差异串或多个局部差异串的丛,并且然后患者特定的数据集被用于产生患者特异的指示。在通常的示例中,本发明人设想了提供医疗保健服务的方法,其中分析引擎连接到医疗记录存储设备,其存储患者的差异基因序列对象。然后分析引擎将利用患者的差异基因序列对象中的一个或多个局部差异串或多个局部差异串的丛生成患者特定数据,并产生基于患者特定的数据集的患者特异的指示。
应当理解,医疗记录存储设备可以多种方式配置,并且可以由患者携带(例如,由患者携带的智能卡)、由患者访问(例如,通过智能手机),或远程存储在服务器上,其通过患者或患者医疗专业人员访问。如可从上面的讨论得出,患者的差异基因序列对象可包括任意数量的局部差异串(即,相对于参考基因组的基因组中的特定位置的序列偏差),并且局部差异串可位于基因组、一个或多个染色体,或甚至整个基因组的定义区域中。类似地,差异基因序列对象可包括表示至少两种组织类型(例如,健康与患病的),或相同组织的至少两个时间间隔结果(例如,在治疗之前在特定的治疗方案用特定的药物和治疗后开始)的多个局部差异串。
因此,从不同的角度看,应当注意,整个基因组(或其部分[例如,染色体或连续序列伸展])的医疗相关信息可被表示为具有一个或多个局部差异串的偏差记录,并且该信息可用于对数据库的比较,该数据库包含治疗方案、诊断,和/或与局部差异串相关联或用于局部差异串的预后。在存在多个局部差异串的情况下,应该注意,选定的局部差异串的组合可以指示状况、易感性,或疾病,且多个特定的局部差异串的这种丛可用于生成患者特定的数据,然后其用于生成特定患者的指示。因此,患者特异的指示的性质将很大地改变,并且可以是诊断、预后、治疗结果预测、治疗策略建议,和/或处方。
在设想的差异基因序列对象的仍另一个优选使用中,本发明人发现,遗传分析可能不仅用于个人,而且可利用本文提出的系统和方法以快速和有效方式进行全群体分析。例如,在分析群体的方法中,将多个差异基因序列对象(例如,用于多个个体)存储在群体的医疗记录数据库中,并且分析引擎将鉴定在多个差异基因序列对象中的多个局部差异串(例如,基于基因多态性,表观遗传变化等等)的丛,以产生丛记录,然后其被用于产生群体分析结果。
例如,可制备丛记录以用于血亲、相同的民族或种族的成员、工作在相同职业的群体、生活在选择的地理位置的群体。可替换地,群体还可通过具有共享暴露于病原或毒性剂、健康史、治疗史、治疗成功、性别、物种和年龄的成员进行定义。因此,应该认识到,丛记录是全基因组分析工具,其允许鉴定个体属于一个或多个特定组,如丛记录所定义的。因此,丛记录和相关联的方法可用于确定父子关系或母子关系,或也可用于根据丛记录生成患者特定的记录。例如,患者特定的记录可揭示易患疾病或病症,或对某些药物或其它试剂的灵敏度。因此,患者特定的记录可以呈现危险评估和/或患者属于特定群体的鉴定。可替换地,患者特定的记录可包括诊断、预后、治疗结果的预测、治疗策略建议,和/或通常是至少部分地基于患者的丛记录与群体分析记录的比较的处方。
在设想的参考差异基因序列对象的仍进一步的优选使用中,产生参考差异基因序列对象(例如,作为如上文所述的共识记录)并存储在数据库中。然后确定个人的差异基因序列对象中的多个局部差异串与参考差异基因序列对象中的多个局部差异串之间的偏差,以产生个人的个体偏差记录,其可用于产生个人特定的偏差概况。因此,代替利用一个或多个生理参数(例如,由医生订购的共同CBC),将个人的整个基因组(优选地)的差异基因序列对象与参考差异基因序列对象进行比较,以到达显著更加全面的信息收集。最典型地,然后个人特定的偏差概况与参考差异基因序列对象的正常记录或参考记录匹配,使得将个人精确和快速地识别为匹配特定病症或疾病。
因此从不同的角度看,应该理解,本文所呈现的系统和方法在至少部分归因于在基因组、转录组和/或蛋白质组中的修饰的的疾病或状况的诊断或分析中特别有用。在其他的疾病和状况之间,特别设想的疾病和状况包括获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、良性前列腺增生症、支气管炎、薛迪克-东氏症候群(Chediak-Higashi syndrome)、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、重度联合免疫缺陷病(SCID)、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状旁腺癌、阴茎癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌、静坐不能、阿尔茨海默症、健忘症、肌萎缩性侧索硬化(ALS)、共济失调、双极性疾病、紧张症、大脑性麻痹、脑血管疾病、克-雅二氏病、痴呆、抑郁、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、亨廷顿病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森病、皮克病、色素性视网膜炎、精神分裂症、季节性情绪疾病、老年痴呆、中风、图雷特综合征和包括腺癌、黑素瘤和畸胎癌在内的癌症,特别是脑癌,癌症,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状芳腺癌、阴莖癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌;免疫疾病,如获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、淋巴细胞毒素的发作性淋巴细胞减少症、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染、创伤、布鲁顿X-连锁无丙种球蛋白血症、常见变异型免疫缺陷(CVI)、迪乔治综合征(胸腺发育不全)、胸腺发育不良、隔离IgA缺乏症、重度联合免疫缺陷病(SCID)、血小板减少症和湿疹的免疫缺陷(威-奥氏综合征)、薛迪克-东氏症候群(Chediak-Higashi syndrome)、慢性肉芽肿性疾病、遗传性血管神经性水肿和与库兴病相关的免疫缺陷;和发育疾病,如肾小管酸中毒、贫血、库兴综合征、软骨发育不全性侏儒、杜兴和贝克尔肌肉萎缩症、癫痫、性腺发育不全、WAGR综合征(威尔姆斯瘤、无虹膜、泌尿生殖系统异常和精神发育迟滞)、史密斯-马盖尼斯综合征、骨髓增生异常综合征、遗传性粘膜上皮异常增生、遗传性皮肤角化病、遗传性神经病如夏-马-图病和神经纤维瘤、甲状腺功能减退症、脑积水、癫痫病如Syndenham舞蹈病和大脑性麻痹、脊柱裂、无脑畸形、颉脊柱裂、先天性青光眼、白内障、感觉神经性听力损失以及与细胞生长和分化、胚胎发生和形态发生相关的任何疾病,涉及对象的任何组织、器官或系统,例如,脑、肾上腺、肾、骨骼或生殖系统,以及内分泌疾病,例如与垂体功能减退相关的疾病,包括性腺功能减退、席汉综合征、尿崩症、卡尔曼病、汉-许-克三氏病、累-赛二氏病、结节病、空蝶鞍综合征和侏儒症;垂体功能亢进,包括肢端肥大症、巨人症和抗利尿激素(ADH)分泌异常综合征(SIADH);和与甲状腺功能减退相关的疾病,包括甲状腺肿、粘液性水肿、与细菌感染相关的急性甲状腺炎、与病毒感染相关的亚急性甲状腺炎、自身免疫性甲状腺炎(桥本病)和呆小症;与甲状腺功能亢进相关的疾病,包括甲状腺毒症及其各种形式、格雷夫斯病、胫骨前粘液性水肿、毒性多结节性甲状腺肿、甲状腺癌和普鲁麦病;和与甲状旁腺功能亢进相关的疾病,包括康恩病(慢性高血钙);呼吸系统疾病,如过敏、哮喘、急性和慢性炎性肺病、ARDS、气肿、肺充血和水肿、COPD、间质性肺病和肺癌;癌症,如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺癌、膀胱癌、骨癌、骨髓癌、脑癌、乳腺癌、子宫颈癌、胆囊癌、神经节癌、胃肠道癌、心脏癌、肾癌、肝癌、肺癌、肌癌、卵巢癌、胰腺癌、甲状旁腺癌、阴茎癌、前列腺癌、唾液腺癌、皮肤癌、脾癌、睾丸癌、胸腺癌、甲状腺癌和子宫癌;和免疫学疾病,如获得性免疫缺陷综合征(AIDS)、阿狄森病、成人呼吸窘迫综合征、过敏症、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫性溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、淋巴细胞毒素的发作性淋巴细胞减少症、胎儿红细胞增多症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本甲状腺炎、嗜伊红细胞增多症、肠易激综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨关节炎、骨质疏松、胰腺炎、多发性肌炎、银屑病、莱特尔综合征、类风湿性关节炎、硬皮病、斯耶格伦综合征、全身过敏、全身性红斑狼疮、系统性硬化症、血小板减少性紫癜、溃疡性结肠炎、葡萄膜炎、维尔纳综合征、癌症并发症、血液透析和体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染以及创伤。
示例性分析实施例
下面关于图7-10的讨论提供了上面所讨论的分析的示例性实施例。
图7示出了得到差异基因序列对象的方法200,其可用于如上文所讨论的和相对于图8-10的进一步分析。方法200开始于步骤210,其包括提供对遗传数据库的访问。优选的遗传数据库存储来自组织的至少第一基因序列串和来自第二、可能不同组织的第二基因序列串。各个基因序列串优选地包括一个或多个的相应的子串。
步骤220包括提供与遗传数据库连接的序列分析引擎的访问,可能地通过网络或通过一个或多个的应用程序接口(API)。步骤230 优选地包括分析引擎,其通过利用相应的子串的一个的至少一个已知位置递增同步第一和第二基因序列串产生局部比对。产生的局部比对可以利用几种技术来完成。例如,步骤231可包括基于在基因序列串的一个内的先验已知位置比对子串中的至少一个。进一步地,步骤233 可包括基于包含用于子串中的至少一个的已知位置的已知参考串比对子串。仍进一步地,步骤235可包括在具有小于其子串长度的长度的窗口内比对子串。又另一示例包括步骤237,其包括通过至少一个串的整个长度迭代地递增同步基因序列串。
无论怎样完成局部比对,方法200继续步骤240,其通过分析引擎利用局部比对以产生在局部比对内的基因序列串之间的局部差异串。最后,在步骤250分析引擎利用局部差异串,以更新在差异序列数据库中的差异基因序列对象。然后该差异基因序列对象可以被用于进一步的评论或分析。
例如,图8示出了提供基于差异基因序列对象的医疗保健服务的方法300。步骤310包括提供对分析引擎的访问,该分析引擎与包括存储设备(例如,硬盘驱动器、固态驱动器、文件系统、蜂窝电话存储器、存储卡等)的医疗记录数据库信息地连接。医疗记录数据库优选地存储一个或多个患者的差异基因序列对象。
步骤320包括分析引擎,其利用在患者的差异基因序列对象中存在局部差异串或局部差异串的丛来产生患者特定的数据集。进一步地,在步骤330中的分析引擎基于患者特定的数据集产生患者特异的指示。例如,分析引擎可以将在患者特定的数据集内的患者局部差异串属性与具有类似差异串的已知条件进行比较。因此,分析引擎可以生成一个或多个患者特异的指示,其可能包括诊断、预后、治疗结果预测、治疗策略建议、危险评估、处方,或其它类型的指示。
差异基因序列对象也可用在方法400内,以分析如图9所示的群体。步骤410包括获取医疗记录数据库中的差异基因序列对象或在医疗记录数据库中存储差异基因序列对象,其中医疗记录数据库存储人群信息。人们应该理解,在医疗记录数据库中的记录可以通过根据群体属性(例如,人口、种族、疾病、地理、工作条件、暴露等)所构成的查询来获得。例如,通过提交针对居住在欧洲血统邮政编码的所有男性的查询可以产生差异基因序列对象的结果集。优选地,医疗记录数据库与分析引擎通信地连接。
步骤420包括分析引擎,其识别多个差异基因序列对象内的局部差异串的丛。例如,该丛可包括用于个体的特定群体的局部差异串,或许访问相同地理区域的个体。分析引擎进一步产生包括有关丛的信息的丛记录。
步骤430可包括分析引擎,其利用丛记录以产生群体分析记录,其可被呈现在一个或多个输出设备上。示例性群体分析记录可以包括父子关系或母子关系的确认、血统信息、群体指示,或其他群体信息。
在一些实施例中,方法400包括步骤440,其中分析引擎将医疗记录数据库内的源自患者相关的差异基因序列对象的个体患者的丛记录与一个或多个生成的群体分析记录进行比较。因此,患者遗传状态可以与“正常化”群体比较。进一步地,在步骤445,分析引擎可从信息创建患者特定的记录。例如,患者特定的记录可以包括患者落在特定群体内的危险评估,或可包括如前所述的患者的指示。
差异基因序列对象的另一种利用是通过图10的方法500表示。方法500表示利用个人的差异基因序列对象来得出相对于已知参考的个人特定的偏差概况。步骤510包括存储在医疗记录数据库中的参考差异基因序列对象,其与分析引擎通信地连接。参考差异基因序列对象可以是在群体或群体段、典型个人、另一个人,或其他类型参考上的统计平均值。
步骤520包括分析引擎,其计算在一个或多个的个人的差异基因序列对象和至少一个参考差异基因序列对象之间的偏差。分析引擎可进一步将偏差转换成包括描述该偏差的属性的偏差记录。人们应该理解偏差记录可包括与一个或多个偏差尺寸(例如,差异数目、不同长度等)相关的信息。
在步骤530,分析引擎利用偏差记录生成个人特定的偏差概况。分析引擎可进一步配置一个或多个的计算设备以根据所希望的格式呈现该概况。在一些实施例中,可以图形化方式将偏差概况呈现给个人,该图形化方式对于外行其很容易读懂,而当将其呈现给遗传学家、医生、保险公司或其他实体时,所呈现的信息可更复杂。
通过参考下面的示例将更容易地理解本发明,其被包括仅仅用于本发明的某些方面和实施例的说明目的并且不是作为限制性。
示例
示例I:通过参考基因组的数据集同步
将全部短读取均与相同的参考基因组进行比对,使参考基因组成为组织来自多个相关的样本的序列数据的自然方式。BamBam接收两个短读取测序数据集,一个来自肿瘤且另一个是来自相同患者的匹配正常基因(“种系”)和参考基因组,并读取这些数据集,使得两数据集中重叠相同基因组位置的全部序列可用于同时处理。这是处理这种数据的最有效方法,同时还能够进行复杂分析,该分析将难以或不能以序列化的方式实现,其中各数据集由其自身处理,并且结果仅在之后组合。
这种方法容易被扩展至两个以上的相关测序数据集。例如,如果将三个样本,匹配的正常样本、肿瘤样本和复发样本进行测序,则本方法可用于搜索针对肿瘤&复发样本特异的变化和仅针对复发特异的变化,这表明复发肿瘤从由推测而得的原肿瘤略微发生变化。而且,可利用这种相同的方法以确定儿童基因组的遗传部分,假设测序样本来自儿童、父亲和母亲。
示例II:体细胞和种系变体呼叫
由于BamBam保持整个同步基因组中的序列数据处于成对文件中,可容易实施需要来自肿瘤和种系BAM文件以及人类参考的测序数据的复杂突变模型。该模型旨在最大化种系基因型(假设种系读取和参考核苷酸)和肿瘤基因型(假设种系基因型、简单突变模型、肿瘤样本中污染正常组织的组分的评估和肿瘤序列数据)的联合概率。
为找到最佳的肿瘤和种系基因型,我们旨在最大化如下限定的概率
P(Dg,Dt,Gg,Gt|α,r) (1)
=P(Dg|Gg)P(Gg|r)P(Dt|Gg,Gt,α)P(Gt|Gg)
其中r是观察的参考等位基因,α是正常污染的组分,并且肿瘤和种系基因型由Gt=(t1,t2)和Gg=(g1,g2)定义,其中
Figure BDA0001255174590000467
Figure BDA0001255174590000468
肿瘤和种系序列数据分别被定义为如下读取集合:
Figure BDA0001255174590000461
Figure BDA0001255174590000462
并且观察到的碱基
Figure BDA0001255174590000463
模型中所用的全部数据均必须超过用户定义的碱基并且映射质量阈值。
假设种系基因型的种系等位基因的概率被模拟为四种核苷酸上的多项式:
Figure BDA0001255174590000464
其中n是该位置种系读取的总数且nA,nG,nc,nT是支持各观察的等位基因的读取。碱基概率
Figure BDA0001255174590000465
被假设是独立的,来自由基因型 Gg表示的两种亲代等位基因中任一种,同时还包括测序仪的近似碱基误差率。关于种系基因型的先验基于参考碱基被条件化为
P(Gg|r=α)={μαα,μαb,μbb},
其中μαα是该位置作为纯合参考的概率,μαb是杂合参考,并且μbb是纯合非参考。此时,种系先验不包括关于已知的遗传SNP的任何信息。
肿瘤读取集合的概率再次被定义为多项式
Figure BDA0001255174590000466
其中m是该位置种系读取的总数,且mA,mG,mc,mT是支持肿瘤数据集中各观察的等位基因的读取,并且各肿瘤读取的概率是源自肿瘤和种系基因型的碱基概率的组合,其受控于正常污染的组分a,为
Figure BDA0001255174590000471
并且肿瘤基因型的概率由来自种系基因型的简单突变模型定义
P(Gt|Gg)=max[P(t1|g1)P(t2|g2),P(t1|g2)P(t2|g1)],
其中无突变的概率(例如,t1=g1)是最大的并且转换(即,A→G, T→C)的概率比颠换(即,A→T,T→G)的概率可能高四倍。多项分布的所有模型参数α,μαα,μαb,μbb和碱基概率P(di|G)可由用户设定。
选定的肿瘤和种系基因型
Figure BDA0001255174590000472
Figure BDA0001255174590000473
是最大化(1)的肿瘤和种系基因型,并且后验概率定义为:
Figure BDA0001255174590000474
可用于评定成对推断基因型的可信度。如果肿瘤和种系基因型不同,则推定的体细胞突变将会连同其各自的可信度被报告。
最大化肿瘤和种系基因型的联合概率有助于提高推断基因型的准确性,特别是在一个或两个序列数据集具有低覆盖的特定基因组位置的情况下。其他突变呼叫算法,如分析单个测序数据集的MAQ和SNVMix,当非参考或突变体等位基因具有低支持时更有可能产生误差(Li,H.等人,(2008)Mapping short DNA sequencing reads and callingvariants using mapping quality scores,GenomeResearch,11,1851-1858; Goya,R.等人,(2010)SNVMix:predicting single nucleotide variants from next-generationsequencing of tumors,Bioinformatics,26,730-736)。
除了从给定的基因组位置处的全部读取收集等位基因支持外,还收集关于读取的信息(如其使读取图滞留于、前进至或倒退至读取中的等位基因位置,等位基因平均质量,等),并将其用于选择性滤出假阳性呼叫。我们预期,支持变体的所有等位基因的链和等位基因位置随机分布,并且如果分布显著偏离此随机分布(即,发现所有变体等位基因接近读取尾部),则这表明变体呼叫是可疑的。
示例III:全部拷贝数和等位基因特异的拷贝数
利用动态窗口方法计算全部体细胞拷贝数,该动态窗口方法根据肿瘤或种系数据的覆盖扩大或缩小窗口基因组宽度。该方法以零宽度的窗口初始。来自肿瘤或种系序列数据的每个独特的读取将记录为肿瘤计数Nt或种系计数Ng。各读取的开始和终止位置将限定窗口区域,该窗口区域在新读取超过当前窗口的界限时扩大。当肿瘤或种系计数超过用户定义的阈值时,记录窗口的尺寸和位置,以及Nt、Ng和相对覆盖度Nt。根据局部读取覆盖裁剪的Ng窗口尺寸将在低覆盖区域 (例如,重复区域)中创建大窗口或在显示体细胞扩增区域中创建小窗口,从而增加扩增子的基因组分辨率和增加我们限定扩增界限的能力。
类似地计算等位基因特异的拷贝数,除仅包括认为是种系杂合的位置外,如示(参见图2)。杂合性被限定为在种系中被认为具有两个不同的等位基因的位置,每个亲代贡献一个等位基因。利用上文所述用于全部拷贝数的相同的动态窗口技术,计算多数和少数拷贝数,以便汇集相同基因组邻域中的数据。杂合位置的多数等位基因在本文中被限定为等位基因,其在肿瘤数据集中具有最大数量的重叠该基因组位置的支持读取,而少数等位基因是具有最少支持的等位基因。肿瘤和种系数据中归因于多数等位基因的所有计数均将进行多数拷贝数计算,并且少数等位基因同样也是。然后通过种系数据Ng中两种等位基因的计数,标准化多数和少数等位基因的计数,从而计算多数和少数拷贝数。
等位基因特异的拷贝数被用于鉴定显示杂合性丢失(拷贝中性和拷贝损失)以及单个等位基因特异的扩增或缺失的基因组区域。最后这点对于帮助将可能引起疾病的等位基因区分为在肿瘤序列数据中扩增或未缺失的等位基因尤为重要。此外,经受半合损失的区域(例如,一个亲代染色体臂)可用于直接评估测序肿瘤样本中正常污染物的量,其可用于提高上述种系和肿瘤基因型的模型。
图2显示等位基因特异的拷贝数计算的概括。利用种系和肿瘤测序数据确定杂合基因型的位置,如通过种系变体呼叫算法确定。收集所有重叠这些位置的读取并且在肿瘤和种系中发现杂合基因型中的两个等位基因的每一个的读取支持。多数等位基因被确定为具有最高支持的等位基因,并且通过由种系中该位置的读取总数标准化该计数来计算多数拷贝数。
示例IV:基因型分阶
BamBam试图通过利用肿瘤中大规模的基因组扩增或缺失所引起的等位基因失衡,使在种系中发现的所有杂合位置分阶。在肿瘤序列数据中的每个位置选择多数投票基础呼叫,从而构建在肿瘤中存在的分阶的单倍型。多数投票选择短读取池中所观察到的最丰富的等位基因,其应选择在缺失事件后仍保留在肿瘤中的等位基因或扩增事件的复制等位基因。在各个位置,还鉴定种系的等位基因状态,如果仅存在一个具有所需的读取支持的等位基因,则位置被认为是纯合,并且如果至少两个等位基因具有所需的读取支持,则位置被认为是杂合。假设肿瘤的单倍型代表两个亲代单倍型其中之一,在此得到第二亲代单倍型作为不属于肿瘤单倍型的种系等位基因的序列。此程序在基因组范围被应用,而与肿瘤中的等位基因比例无关,因此我们预期基因型的单位型分配在多数和少数等位基因之间同样平衡的区域中基本上是随机的。种系序列的准确分阶将仅存在于区域中,该区域显示由肿瘤中的单个基因组事件引起的一致的等位基因失衡(例如,区域扩增或缺失)。肿瘤衍生的单倍型的验证可通过比较肿瘤衍生的单倍型与得自HapMap项目(International HapMapConsortium(2007),Nature, 7164:851-861)的分阶的基因型来实现。
示例V:利用成对末端聚簇推断结构变化
为鉴定推定的染色体内和染色体间重排,BamBam搜索不一致的成对读取,其中配对中的各读取映射到参考序列的离散区域。染色体内不一致的配对是具有异常大插入尺寸的配对(即,分隔成对读取的参考上的基因组距离超过用户限定阈值)或以不正确定向映射(即倒位)的配对。染色体间不一致的配对由映射不同染色体的成对读取限定。与其他配对比对相同位置的所有不一致的成对末端读取被去除,以避免大量读取支持的呼叫重排,该大量读取仅是在短读取库的制备中PCR扩增步骤的结果。该过程的概括显示在图3中。
所有不一致的成对末端读取按照其基因组位置进行聚簇,以限定近似的基因组区域,其中断点被认为存在于此。聚集过程由如下组成:将与推定的断点两侧的其他读取重叠的独特的读取分组在一起。所有重叠读取的链定向还必须匹配配对簇或不被包括在配对簇中。当簇中重叠的不一致配对的数超过用户定义的阈值时,限定描述重排的断点。如果重排存在于种系和肿瘤数据集的相同位置,则如下将其进行比较。种系重排要求肿瘤和种系数据集支持相同的重排,这是因为在种系中观察到的结构变化在肿瘤中以某种方式被逆转从而精确地符合参考是非常不可能的。另一方面,体细胞重排必须仅在肿瘤测序数据中被观察到,并且基本上不存在于种系数据集中。满足这些要求的重排被存储用于后处理分析和可视化,而不满足这些要求的重排被舍弃,作为测序仪器、样本制备(如全基因组扩增)或所用短读取映像算法的系统性偏差造成的人造重排。
图3显示结构变化呼叫的概括。推定的结构变体的最初鉴定通过 BamBam利用不一致映射的读取对识别,其中两读取完全映射到参考基因组,但是以异常的非参考方式进行。然后,由BamBam发现的推定的断点通过被称为bridget的程序利用任何可用的拆分读取完善。
示例VI:利用拆分读取完善结构变化
BamBam最初发现的断点是近似的,这是因为其采用完全映射读取,完全映射读取其本质上不能重叠断点的实际接合处,因为其表示参考(或种系数据集,在体细胞重排的情况下)中不存在的序列。为完善我们对断点位置的了解,开发了被称为Bridget的程序,其被概述在图4中。
Bridget被给予由BamBam发现的近似断点并通过完全映射配对搜索锚定在推定的断点附近的所有未比对的读取。这些未映射的读取的每一个均具有成为“拆分读取”的潜力,该“拆分读取”与重排的断点接合处重叠。断点两侧周围的局部化的基因组序列被拆分成一组独特的片段(目前片段尺寸=16bp)并且建立片段序列及其在参考基因组中的位置的片段数据库。通过将读取拆分为相同尺寸的片段和在读取中标注其位置,对每个未比对的读取构建类似的片段数据库。将参考片段数据库与未比对片段数据库进行比较,确定各未比对片段在参考中的基因组位置。通过确定在参考读取和断点一侧一个的未比对读取中连续的最大组片段,计算这些位置的“双生成集”。
参考坐标中“双生成集”的最小和最大基因组位置精确地确定了断点的位置以及序列的定向(或链型)。用描述断点左侧边限和右侧边限的信息,重排的序列被完全限定,即,左侧被(染色体=chrl,位置=1000bp,链=正向)限定并且右侧被(染色体=chr5,位置=500,000bp,链=反向)限定。断点的序列同源性(即,短序列,如“CA”,被观察到在断点两个边限上是一致的,但仅在两序列的接合处比对的读取中被观察到一次)也由这些双生成集确定。
对于每个未比对的读取,双生成集确定断点潜在的位置。由于各未比对的读取可确定断点略微不同的位置(因为断点附近的序列误差、重复参考等),从双生成集确定的断点位置被用于生成可能的接合序列。将所有未映射的读取与这些可能的接合序列中的每一个重新比对并且针对读取如何很好的与原序列比对来测量其比对的总体提高。导致比对分数最大提高的接合序列被评为真重排的最佳候选。如果此最佳接合序列导致比对分数中极少至无提高,则此接合序列被舍弃,因为其不能表示真重排。在这种情况下,还可确定,缺乏拆分读取确认是证据,其证明由BamBam发现的原始结构重排可能是人造的。
图4显示精确地鉴定基因组中发生结构重排的位置的示例性方法。确定潜在的拆分读取和参考基因组的片段(或kmers)。确定双生成集(表示为该图底部的深红色和紫色框),其完全限定如何构建重排序列。双生成集对于拆分读取中序列误差或SNP是鲁棒的。
示例VII:肿瘤特异性基因组浏览器
为可视化BamBam输出的所有结果,开发了肿瘤基因组浏览器,其同时显示在单个肿瘤样本中发现的所有基因组变体,相对于其匹配的正常基因组,如图5所示。其能够显示全部&等位基因特异的拷贝数、染色体内和染色体间重排和突变以及小插入。其以线性和环形图显示数据,后者更适于显示染色体间重排。
通过在单个图像中一起显示数据,用户可快速浏览单个样本的数据,并了解拷贝数变化和结构变化之间的关系。例如,大型的染色体内缺失类型的重排在断点之间的区域中应具有一致的拷贝数下降。而且,用拷贝数数据显示突变数据允许用户了解体细胞突变是否随后被扩增或野生型等位基因是否在肿瘤中缺失,两种重要的数据点均表明在此样本的肿瘤发生中基因组位点的重要性。
图5显示示例性肿瘤特异性基因组浏览器。该浏览器显示了在单个图像中通过BamBam发现的所有高水平体细胞差异,使得多个不同的数据集的合成能够给出肿瘤基因组的全部图片。该浏览器能够快速放大和缩小基因组区域,如上所示,仅以若干次点击由完整的基因组视图变成单基分辨率。
示例VIII:计算要求
BamBam和Bridget均以C编写,仅需要标准C库和最新的SAM 工具源代码(可得自http://samtools.sourceforge.net)。其可作为单个过程运行,或在整个簇中拆分成一系列工作(例如,每条染色体一个工作)。处理每个包含数十亿个100bp读取的成对250GBBAM文件, BamBam将在约5小时内以单个过程完成其全基因组分析,或在约30 分钟内基于适度的簇(24个节点)完成其全基因组分析。BamBam的计算要求可被忽略,仅需要足够的RAM以存储与单个基因组位置重叠的读取数据和足够的盘空间以存储在肿瘤或种系基因组中发现的被充分支持的变体。
Bridget也具有非常适度的计算要求。在单个机器上的运行时间一般小于1秒,其包括收集参考序列和断点附近任何潜在的拆分读取、为参考和拆分读取建立片段数据库、确定所有双生成集、构建潜在的接合序列、将所有拆分读取与参考序列和各接合序列重新比对、以及确定最佳接合序列所必需的时间。高度扩增的或具有大量未映射读取的区域增加Bridget的运行时间,但这可通过Bridget的易于并行性被缓解。
示例IX:基因组DNA的分离
从患者收集血液或其他组织样本(2-3ml),并将其在-80℃下储存在含EDTA试管中,直到使用用。按照制造商的指示(PUREGENE, Gentra Systems,MinneapolisMN),利用DNA分离试剂盒,从血液样本提取基因组DNA。测量DNA纯度,如用Beckman分光光度计测量在260和280nm的吸光比(1cm光路;A260/A280)。
示例X:SNP的鉴定
通过PCR,利用为该区域特异设计的引物扩增来自患者的DNA 样本的基因区域。利用本领域技术人员公知的方法测序PCR产物,如上所述。利用Phred/Phrap/Consed软件验证在序列轨迹中鉴定的SNP,并将其与NCBI SNP数据库中存储的已知SNP进行比较。
示例XI:统计学分析
值被表示为平均值±SD.χ2分析(Web Chi平方计算器,Georgetown Linguistics,Georgetown University,Washington DC)其被用于评估正常对象与疾病患者的基因型频率之间的差异。如所示的,进行兼带事后分析的单向ANOVA,以比较不同患者组之间的血液动力学。
在不偏离本文的发明概念情况下,除了那些已经描述的许多修改,更多种修改对本领域内的技术人员应该明显的。因此,除非在所附权利要求的范围之内,本发明的主题不被限制。此外,在解释说明书和权利要求中,所有的术语应该被解释为与上下文一致的最宽的可能方式。特别地,术语“包括”和“包含”应解释为以非排他性方式指元件、组件或步骤,表明所引用的元件、组件或步骤可以存在,或利用,或与未明确引用的其他元件、组件或步骤组合。其中说明书权利要求中描述的选自由A、B、C....和N组成的群组的某物的至少一种,文本应该被解释为仅需要来自群组的一个元素,而不是A加N或B加N 等。

Claims (21)

1.一种基因组差异序列分析系统,包括:
存储患者肿瘤的肿瘤基因组序列和患者健康组织的种系基因组序列的序列数据库;和
序列分析引擎,其与序列数据库连接并且包括存储软件指令的有形的、非临时性的计算机可读存储器和至少一个处理器,其中在执行软件指令时,处理器可配置以:
从所述序列数据库获得表示至少部分所述肿瘤基因组序列的肿瘤串和表示至少部分所述种系基因组序列的种系串,所述肿瘤串包括所述患者肿瘤的肿瘤读取,并且所述种系串包括所述患者健康组织的种系读取,其中所述肿瘤串的对应肿瘤读取和所述种系串的对应种系读取在多个基因组位置中的每一个基因组位置处彼此重叠;
通过(1)在保持所述肿瘤串和所述种系串彼此同步的同时,递增地读取在所述多个基因组位置中的对应基因组位置重叠的对应一组肿瘤读取和对应一组种系读取到存储器中和(2)将所述对应一组肿瘤读取与所述对应一组种系读数比较以确定所述对应基因组位置处的所述一个或多个差异,产生局部差异串,所述局部差异串包括所述肿瘤串和所述种系串之间的在所述多个基因组位置处的一个或多个差异,其中所述局部差异串包含蛋白质编码序列;和
以在差异序列数据库中,基于所述局部差异串更新差异序列对象,其中所述差异序列对象与所述患者相关联。
2.权利要求1所述的系统,其中所述肿瘤基因组序列包含所述患者肿瘤的多肽编码序列。
3.权利要求2所述的系统,其中所述肿瘤串包含所述患者肿瘤的所述多肽编码序列。
4.权利要求1所述的系统,其中所述种系基因组序列包含所述患者健康组织的多肽编码序列。
5.权利要求4所述的系统,其中所述种系串包含所述患者健康组织的多肽编码序列。
6.权利要求1所述的系统,其中所述差异序列对象包含多肽编码序列。
7.权利要求1所述的系统,其中所述差异序列对象包含所述肿瘤串和所述种系串之间的蛋白质编码序列的差异。
8.权利要求1所述的系统,其中所述差异序列对象包含所述肿瘤串和所述种系串之间的核酸序列的差异。
9.权利要求8所述的系统,其中核酸序列的所述差异包含DNA序列或RNA序列。
10.权利要求1所述的系统,其中所述序列分析引擎还可配置以基于所述差异序列对象来计算相对于参考基因组的患者特异性偏差。
11.权利要求10所述的系统,其中所述患者特异性偏差是患者特异性偏差概况的部分。
12.权利要求1所述的系统,其中序列数据库被配置以存储根据以下文件格式中的至少一种的所述肿瘤基因组序列和所述种系基因组序列:BAM格式和SAM格式。
13.权利要求1所述的系统,其中所述差异序列对象包括所述肿瘤基因组序列和所述种系基因组序列之间的局部差异串的丛。
14.权利要求1所述的系统,其中所述多个基因组位置为关于已知参考基因组序列。
15.权利要求1所述的系统,其中所述序列分析引擎还可配置以基于所述差异序列对象和类似的已知差异序列对象生成患者特定的指示。
16.权利要求15所述的系统,其中所述患者特定的指示包括以下至少一项:治疗、诊断、预后、预测的治疗结果、风险评估和处方。
17.权利要求1所述的系统,其中,所述序列分析引擎还可配置以根据以下管理功能中的至少一个,基于所述局部差异串来更新所述差异序列对象:
创建所述差异序列对象并包含所述局部差异串;
根据所述局部差异串修改所述差异序列对象;
追加含有所述局部差异串的所述差异序列对象;
删除至少部分所述差异序列对象;
复制至少部分所述差异序列对象;和
分析至少部分所述差异序列对象。
18.权利要求1所述的系统,其中所述差异序列对象包含元数据属性。
19.权利要求18所述的系统,其中所述元数据属性是以下至少一个:时间戳、采样时间、患者姓名、组织类型、组织状态、肿瘤生长、倍体、基因拷贝数、重复拷贝数、倒置、缺失、插入、病毒插入、体细胞突变、种系突变、重排、换位和杂合性的丧失。
20.权利要求18所述的系统,其中所述差异序列对象可通过所述元数据属性查询。
21.权利要求1所述的系统,所述患者健康组织的种系基因组序列得自所述患者的血液样本。
CN201710190109.XA 2011-11-18 2011-12-20 高通量测序数据的平行比较分析 Active CN106971089B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/373,550 US9646134B2 (en) 2010-05-25 2011-11-18 Bambam: parallel comparative analysis of high-throughput sequencing data
US13/373,550 2011-11-18
CN201180076272.4A CN104067278B (zh) 2011-11-18 2011-12-20 半目半目:高通量测序数据的平行比较分析

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201180076272.4A Division CN104067278B (zh) 2011-11-18 2011-12-20 半目半目:高通量测序数据的平行比较分析

Publications (2)

Publication Number Publication Date
CN106971089A CN106971089A (zh) 2017-07-21
CN106971089B true CN106971089B (zh) 2020-12-04

Family

ID=48429980

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201180076272.4A Active CN104067278B (zh) 2011-11-18 2011-12-20 半目半目:高通量测序数据的平行比较分析
CN201710190109.XA Active CN106971089B (zh) 2011-11-18 2011-12-20 高通量测序数据的平行比较分析

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201180076272.4A Active CN104067278B (zh) 2011-11-18 2011-12-20 半目半目:高通量测序数据的平行比较分析

Country Status (9)

Country Link
US (4) US9646134B2 (zh)
EP (2) EP2780851A4 (zh)
JP (4) JP5953379B2 (zh)
KR (4) KR102175660B1 (zh)
CN (2) CN104067278B (zh)
AU (1) AU2011381073A1 (zh)
CA (2) CA3056128C (zh)
IL (1) IL232512A0 (zh)
WO (1) WO2013074058A1 (zh)

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101952965B1 (ko) * 2010-05-25 2019-02-27 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
US9646134B2 (en) 2010-05-25 2017-05-09 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
KR101906254B1 (ko) 2011-12-08 2018-10-10 파이브3 제노믹스, 엘엘씨 Mdm2-포함 이중 소염색체들 및 그의 방법들
WO2013141842A2 (en) * 2012-03-19 2013-09-26 Pathway Genomics Genome-based drug management systems
US8812243B2 (en) 2012-05-09 2014-08-19 International Business Machines Corporation Transmission and compression of genetic data
US8855938B2 (en) 2012-05-18 2014-10-07 International Business Machines Corporation Minimization of surprisal data through application of hierarchy of reference genomes
US10353869B2 (en) 2012-05-18 2019-07-16 International Business Machines Corporation Minimization of surprisal data through application of hierarchy filter pattern
US9002888B2 (en) 2012-06-29 2015-04-07 International Business Machines Corporation Minimization of epigenetic surprisal data of epigenetic data within a time series
US8972406B2 (en) 2012-06-29 2015-03-03 International Business Machines Corporation Generating epigenetic cohorts through clustering of epigenetic surprisal data based on parameters
CN110491449B (zh) * 2012-07-06 2023-08-08 河谷控股Ip有限责任公司 健康护理分析流的管理
AU2013329356B2 (en) 2012-10-09 2018-11-29 Five3 Genomics, Llc Systems and methods for tumor clonality analysis
CA2925818A1 (en) * 2013-09-26 2015-04-02 Five3 Genomics, Llc Systems, methods, and compositions for viral-associated tumors
WO2015146852A1 (ja) * 2014-03-24 2015-10-01 株式会社 東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
AU2015236054B2 (en) * 2014-03-25 2019-11-21 Five3 Genomics, Llc Systems and methods for RNA analysis in functional confirmation of cancer mutations
KR101945093B1 (ko) 2014-05-30 2019-02-07 난토믹스, 엘엘씨 다중 종양 및 생식세포 유전자 엑솜에 걸친 분자 프로파일의 종합 분석을 위한 시스템 및 방법
US10230390B2 (en) * 2014-08-29 2019-03-12 Bonnie Berger Leighton Compressively-accelerated read mapping framework for next-generation sequencing
WO2016036969A1 (en) 2014-09-03 2016-03-10 Nantomics, Llc Synthetic genomic variant-based secure transaction devices, systems and methods
JP2017532699A (ja) * 2014-09-05 2017-11-02 ナントミクス,エルエルシー 起源の判定のためのシステムと方法
JP6374532B2 (ja) * 2014-12-26 2018-08-15 国立大学法人東北大学 特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム
WO2016114009A1 (ja) * 2015-01-16 2016-07-21 国立研究開発法人国立がん研究センター 融合遺伝子解析装置、融合遺伝子解析方法、及びプログラム
US11101038B2 (en) 2015-01-20 2021-08-24 Nantomics, Llc Systems and methods for response prediction to chemotherapy in high grade bladder cancer
CN105986011B (zh) * 2015-01-30 2019-10-15 深圳华大基因研究院 一种杂合性缺失的检测方法
WO2016143062A1 (ja) * 2015-03-10 2016-09-15 株式会社日立ハイテクノロジーズ 配列データ解析装置、dna解析システムおよび配列データ解析方法
CA2987730C (en) 2015-04-08 2020-02-18 Nantomics, Llc Cancer neoepitopes
CN108513593A (zh) * 2015-04-23 2018-09-07 南托米克斯有限责任公司 癌症新表位
MA42420A (fr) 2015-05-13 2018-05-23 Agenus Inc Vaccins pour le traitement et la prévention du cancer
JP6663483B2 (ja) 2015-09-10 2020-03-11 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft 統合された臨床ケアのための情報科学プラットフォーム
KR101710138B1 (ko) * 2015-09-21 2017-02-24 한국생명공학연구원 데이터 분산 처리 시스템 및 데이터 분산 처리 방법
CN108604257B (zh) 2015-10-12 2022-12-13 南托米克斯有限责任公司 产生特异性免疫治疗组合物及其相关核酸构建体的方法
US11623001B2 (en) * 2015-10-12 2023-04-11 Nantomics, Llc Compositions and methods for viral cancer neoepitopes
US11626187B2 (en) 2015-10-12 2023-04-11 Nantomics Llc Systems, compositions, and methods for discovery of MSI and neoepitopes that predict sensitivity to checkpoint inhibitors
KR20240010089A (ko) 2015-10-12 2024-01-23 난토믹스, 엘엘씨 네오에피토프의 반복적 발견 및 이에 대한 적응성 면역치료 및 방법
TWI733719B (zh) 2015-12-07 2021-07-21 美商河谷控股Ip有限責任公司 改善的組合物及用於新表位之病毒遞送的方法及其應用
AU2017217877A1 (en) 2016-02-12 2018-08-16 Nant Holdings Ip, Llc High-throughput identification of patient-specific neoepitopes as therapeutic targets for cancer immunotherapies
US11154597B2 (en) 2016-03-24 2021-10-26 Nantcell, Inc. Sequence arrangements and sequences for neoepitope presentation
KR20190031492A (ko) 2016-06-30 2019-03-26 난트 홀딩스 아이피, 엘엘씨 난트 암 백신(nant cancer vaccine)
WO2018006057A1 (en) 2016-06-30 2018-01-04 Nantomics, Llc Synthetic wgs bioinformatics validation
CN107633158B (zh) * 2016-07-18 2020-12-01 三星(中国)半导体有限公司 对基因序列进行压缩和解压缩的方法和设备
AU2017300259A1 (en) 2016-07-18 2019-02-14 Nant Holdings Ip, Llc Distributed machine learning systems, apparatus, and methods
KR20190038935A (ko) 2016-08-25 2019-04-09 난토믹스, 엘엘씨 면역요법 마커들 및 그 용도들(immunotherapy markers and uses therefor)
US20190321481A1 (en) 2016-11-11 2019-10-24 Nantbio, Inc. Immunomodulatory compositions, processes for making the same, and methods for inhibiting cytokine storms
AU2017360887B2 (en) 2016-11-17 2023-01-19 Nant Holdings Ip, Llc Validation of inferred anticancer pathways
AU2017362730B2 (en) 2016-11-21 2021-04-08 Nant Holdings Ip, Llc Fractal combination therapy
AU2017367696A1 (en) 2016-12-01 2019-06-20 Nant Holdings Ip, Llc Tumor antigenicity processing and presentation
WO2018148381A1 (en) 2017-02-07 2018-08-16 Nantcell, Inc. Maximizing t-cell memory and compositions and methods therefor
CN107103207B (zh) * 2017-04-05 2020-07-03 浙江大学 基于病例多组学变异特征的精准医学知识搜索系统及实现方法
SG11201909882SA (en) 2017-04-24 2019-11-28 Nantcell Inc Targeted neoepitope vectors and methods therefor
EP3631471A4 (en) 2017-05-30 2021-06-30 Nant Holdings IP, LLC ENRICHMENT OF CIRCULATING TUMOR CELLS USING NEO-EPITOPIA
JP7072825B2 (ja) * 2017-09-13 2022-05-23 三菱電機ソフトウエア株式会社 コピー数計測装置、コピー数計測プログラムおよびコピー数計測方法
KR20200044123A (ko) * 2017-10-10 2020-04-28 난토믹스, 엘엘씨 암 환자에서의 향상된 정밀도를 위한 포괄적 게놈 트랜스크립톰 종양-정상 유전자 패널 분석 (comprehensive genomic transcriptomic tumor-normal gene panel analysis for enhanced precision in patients with cancer)
CA3077221A1 (en) 2017-10-12 2019-04-18 Nantomics, Llc Cancer score for assessment and response prediction from biological fluids
US10460446B2 (en) 2017-10-16 2019-10-29 Nant Holdings Ip, Llc Image-based circular plot recognition and interpretation
US10752682B2 (en) 2017-11-01 2020-08-25 Nantbio, Inc. Anti-IL8 antibodies
AU2018365883A1 (en) 2017-11-07 2020-05-14 Nanthealth Labs, Inc. Targeted cell free nucleic acid analysis
WO2019136273A1 (en) 2018-01-05 2019-07-11 NantBio Inc. Reprogrammed t cell-like nk cells
US11823773B2 (en) 2018-04-13 2023-11-21 Nant Holdings Ip, Llc Nant cancer vaccine strategies
US11564980B2 (en) 2018-04-23 2023-01-31 Nantcell, Inc. Tumor treatment method with an individualized peptide vaccine
TW202345890A (zh) 2018-04-23 2023-12-01 美商南特細胞公司 新抗原表位疫苗及免疫刺激組合物及方法
MA52363A (fr) 2018-04-26 2021-03-03 Agenus Inc Compositions peptidiques de liaison à une protéine de choc thermique (hsp) et leurs méthodes d'utilisation
RU2690393C1 (ru) * 2018-05-29 2019-06-04 Федеральное государственное бюджетное научное учреждение "Научно-исследовательский институт комплексных проблем гигиены и профессиональных заболеваний" Способ прогнозирования вероятности развития атеросклероза у шахтеров с хроническим пылевым бронхитом
TW202013385A (zh) 2018-06-07 2020-04-01 美商河谷控股Ip有限責任公司 基於差異的基因組之辨識分數
US11100086B2 (en) * 2018-09-25 2021-08-24 Wandisco, Inc. Methods, devices and systems for real-time checking of data consistency in a distributed heterogenous storage system
CN109411023B (zh) * 2018-09-30 2022-03-18 华中农业大学 一种基于贝叶斯网络推理的基因间交互关系挖掘方法
CN111383713B (zh) * 2018-12-29 2023-08-01 北京安诺优达医学检验实验室有限公司 ctDNA检测分析装置及方法
CN110364224B (zh) * 2018-12-29 2021-06-08 上海北昂医药科技股份有限公司 一种染色体分裂相定位排序方法
KR20210152464A (ko) 2019-02-19 2021-12-15 미스트 쎄라퓨틱스, 엘엘씨 암 치료에 유용한 자가 t 세포의 제조 방법 및 그의 조성물
BR112021019328A2 (pt) 2019-03-29 2021-11-30 Myst Therapeutics Llc Métodos ex vivo para produzir um produto terapêutico de célula t e composições e métodos relacionados
CN110570922B (zh) * 2019-07-19 2022-06-10 浙江大学 一种评估hr缺陷模型及应用
CA3162703A1 (en) 2019-11-27 2021-06-03 Myst Therapeutics, Llc Method of producing tumor-reactive t cell composition using modulatory agents
CN113053460A (zh) * 2019-12-27 2021-06-29 分子健康有限责任公司 用于基因组和基因分析的系统和方法
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
BR112022016490A2 (pt) 2020-02-27 2022-10-11 Myst Therapeutics Llc Métodos para enriquecimento ex vivo e expansão de células t reativas tumorais e composições relacionadas das mesmas
US12006539B2 (en) 2020-03-17 2024-06-11 Western Digital Technologies, Inc. Reference-guided genome sequencing
US12014802B2 (en) 2020-03-17 2024-06-18 Western Digital Technologies, Inc. Devices and methods for locating a sample read in a reference genome
US11837330B2 (en) 2020-03-18 2023-12-05 Western Digital Technologies, Inc. Reference-guided genome sequencing
CN113543015A (zh) * 2020-04-13 2021-10-22 华为技术有限公司 一种通信方法、装置及系统
US11955243B2 (en) * 2020-11-11 2024-04-09 Optellum Limited Using unstructured temporal medical data for disease prediction
AU2022202798A1 (en) * 2021-05-26 2022-12-15 Genieus Genomics Pty Ltd Processing sequencing data relating to amyotrophic lateral sclerosis
WO2022260740A1 (en) 2021-06-10 2022-12-15 Alife Health Inc. Machine learning for optimizing ovarian stimulation
US11901083B1 (en) 2021-11-30 2024-02-13 Vignet Incorporated Using genetic and phenotypic data sets for drug discovery clinical trials
US11705230B1 (en) 2021-11-30 2023-07-18 Vignet Incorporated Assessing health risks using genetic, epigenetic, and phenotypic data sources
WO2024186966A1 (en) * 2023-03-07 2024-09-12 Alexion Pharmaceuticals, Inc. Systems and methods for identifying atypical hemolytic uremic syndrome (ahus) patients using clinical features
CN117690485B (zh) * 2024-02-04 2024-05-28 北京诺禾致源科技股份有限公司 用于寄生虫鉴定的基因组的处理方法和处理装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102007220A (zh) * 2005-04-01 2011-04-06 安姆根有限公司 表皮生长因子受体基因拷贝数

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS592034U (ja) 1982-06-29 1984-01-07 日野自動車株式会社 密封型リミツトスイツチ
JPS60187095U (ja) 1984-05-22 1985-12-11 武藤工業株式会社 X−yプロツタ
US4736866B1 (en) 1984-06-22 1988-04-12 Transgenic non-human mammals
US5175383A (en) 1989-02-17 1992-12-29 President And Fellows Of Harvard College Animal model for benign prostatic disease
US5767337A (en) 1995-07-31 1998-06-16 Duke University Creation of human apolipoprotein E isoform specific transgenic mice in apolipoprotein deficient "knockout" mice
WO1997040462A2 (en) 1996-04-19 1997-10-30 Spectra Biomedical, Inc. Correlating polymorphic forms with multiple phenotypes
IL121806A0 (en) 1997-09-21 1998-02-22 Compugen Ltd Method and apparatus for MRNA assembly
WO1999028505A1 (en) 1997-12-03 1999-06-10 Curagen Corporation Methods and devices for measuring differential gene expression
DK1052292T3 (da) 1997-12-22 2003-07-28 Genset Sa Prostatacancer-gen
US7734656B2 (en) * 1998-02-24 2010-06-08 Luc Bessette System and method for electronically managing medical data files in order to facilitate genetic research
US6223186B1 (en) 1998-05-04 2001-04-24 Incyte Pharmaceuticals, Inc. System and method for a precompiled database for biomolecular sequence information
US6236993B1 (en) 1998-06-24 2001-05-22 Victor V. Fanberg Computer file comparison method
US6410233B2 (en) 1999-03-16 2002-06-25 Daniel Mercola Isolation and identification of control sequences and genes modulated by transcription factors
GB0006143D0 (en) 2000-03-14 2000-05-03 Inpharmatica Ltd Multiple sequence alignment
US20090024416A1 (en) * 2000-03-15 2009-01-22 Mclaughlin Mark R Healthcare Medical Information Management System
JP2003527855A (ja) 2000-03-20 2003-09-24 ニューリンク ジェネティクス 細胞中でのタンパク質発現プロフィールを解明する方法及びそのための組成物
DK1284296T3 (da) 2000-04-27 2007-02-05 Consejo Superior Investigacion Fremgangsmåde til påvisning af minority genomer i virus-quasispecies under anvendelse af DNA mikrochips
EP1152349A1 (en) 2000-05-06 2001-11-07 Deutsches Krebsforschungszentrum Stiftung des öffentlichen Rechts Method for aligning sequences
US7700359B2 (en) 2000-06-02 2010-04-20 Novartis Vaccines And Diagnostics, Inc. Gene products differentially expressed in cancerous cells
JP2002024416A (ja) * 2000-07-04 2002-01-25 Sony Corp Dna情報管理システム及びdna情報管理方法
GB0016472D0 (en) 2000-07-05 2000-08-23 Amersham Pharm Biotech Uk Ltd Sequencing method and apparatus
US20070178474A1 (en) 2000-11-30 2007-08-02 Cracauer Raymond F Nucleic acid detection assays
US7054758B2 (en) 2001-01-30 2006-05-30 Sciona Limited Computer-assisted means for assessing lifestyle risk factors
DE10120797B4 (de) 2001-04-27 2005-12-22 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäureketten
CA2872499C (en) 2001-05-25 2016-07-05 Hitachi, Ltd. Information processing system using nucleotide sequence related information
US7529685B2 (en) 2001-08-28 2009-05-05 Md Datacor, Inc. System, method, and apparatus for storing, retrieving, and integrating clinical, diagnostic, genomic, and therapeutic data
US20030183268A1 (en) 2002-03-29 2003-10-02 Shanefield Daniel Jay Device for conversion of environmental thermal energy into direct current electricity
KR100489955B1 (ko) 2002-10-04 2005-05-16 아주대학교산학협력단 사용자 그룹핑을 이용한 생물정보학에서의 데이터베이스처리 방법
US8843356B2 (en) 2002-12-27 2014-09-23 Merck Sharp & Dohme Corp. Computer systems and methods for associating genes with traits using cross species data
KR100537523B1 (ko) 2003-02-03 2005-12-19 삼성전자주식회사 Dna 서열 부호화 장치 및 방법
US20040153255A1 (en) * 2003-02-03 2004-08-05 Ahn Tae-Jin Apparatus and method for encoding DNA sequence, and computer readable medium
US7584058B2 (en) 2003-02-27 2009-09-01 Methexis Genomics N.V. Genetic diagnosis using multiple sequence variant analysis
WO2004105573A2 (en) 2003-05-21 2004-12-09 The Wistar Institute Of Anatomy And Biology Method of diagnosis of cancer based on gene expression profiles in cells
US8538704B2 (en) * 2003-10-06 2013-09-17 Cerner Innovation, Inc. Computerized method and system for inferring genetic findings for a patient
US7788040B2 (en) * 2003-12-19 2010-08-31 Siemens Medical Solutions Usa, Inc. System for managing healthcare data including genomic and other patient specific information
US8340914B2 (en) * 2004-11-08 2012-12-25 Gatewood Joe M Methods and systems for compressing and comparing genomic data
CA2593695A1 (en) 2005-01-04 2006-07-13 Novartis Ag Biomarkers for identifying efficacy of tegaserod in patients with chronic constipation
US20090186042A1 (en) 2006-02-27 2009-07-23 Arizona Board Of Regents For And On Behalf Of Arizona State University Identification and use of novopeptides for the treatment of cancer
US8700430B2 (en) * 2006-07-17 2014-04-15 Walgreen Co. Optimization of a medication therapy regimen
JP4922778B2 (ja) 2007-01-31 2012-04-25 株式会社日立ハイテクノロジーズ 遺伝子検査結果判定法およびプログラムおよびその装置
CN102317470A (zh) * 2007-02-07 2012-01-11 解码遗传学私营有限责任公司 促进前列腺癌风险的遗传性变型
US8099298B2 (en) * 2007-02-14 2012-01-17 Genelex, Inc Genetic data analysis and database tools
US8140270B2 (en) 2007-03-22 2012-03-20 National Center For Genome Resources Methods and systems for medical sequencing analysis
US20100121872A1 (en) * 2007-03-27 2010-05-13 Sundar Subramaniam Personally controlled storage and testing of personal genomic information
TWM319441U (en) * 2007-04-14 2007-09-21 Jarllytec Co Ltd Shaft with function of anti-judder
US9726088B2 (en) 2007-10-30 2017-08-08 Ford Global Technologies, Llc System and method for obtaining an adjustable accelerator pedal response in a vehicle powertrain
EP2274440A4 (en) * 2008-03-19 2011-06-29 Centocor Ortho Biotech Inc MARKERS AND METHODS FOR EVALUATION AND TREATMENT OF SEVERE OR PERSISTENT ASTHMA AND TNF-RELATED DISORDERS
EP2227780A4 (en) * 2008-03-19 2011-08-03 Existence Genetics Llc GENETIC ANALYSIS
US8815508B2 (en) * 2008-08-12 2014-08-26 Zinfandel Pharmaceuticals, Inc. Method of identifying disease risk factors
CN101539967B (zh) 2008-12-12 2010-12-01 深圳华大基因研究院 一种单核苷酸多态性检测方法
JP2010204838A (ja) 2009-03-02 2010-09-16 Toppan Printing Co Ltd 解析デバイス装置、解析システム、解析方法
WO2010129301A2 (en) 2009-04-27 2010-11-11 New York University Method, computer-accessible medium and system for base-calling and alignment
WO2011038155A2 (en) * 2009-09-23 2011-03-31 Existence Genetics Llc Genetic analysis
WO2011050341A1 (en) 2009-10-22 2011-04-28 National Center For Genome Resources Methods and systems for medical sequencing analysis
US9798855B2 (en) * 2010-01-07 2017-10-24 Affymetrix, Inc. Differential filtering of genetic data
US8335882B2 (en) * 2010-02-01 2012-12-18 Creative Technology Ltd Dock for a portable hard disk and a method for accessing content on a host device using the dock
US9165109B2 (en) 2010-02-24 2015-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
KR102136041B1 (ko) * 2010-04-29 2020-07-20 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 게놈 모델에 대한 데이터 통합을 이용하는 경로 인지 알고리즘 (paradigm)
KR101952965B1 (ko) 2010-05-25 2019-02-27 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
US9646134B2 (en) 2010-05-25 2017-05-09 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
DK2601609T3 (en) 2010-08-02 2017-06-06 Population Bio Inc COMPOSITIONS AND METHODS FOR DISCOVERING MUTATIONS CAUSING GENETIC DISORDERS
US8751100B2 (en) 2010-08-13 2014-06-10 Deere & Company Method for performing diagnostics or software maintenance for a vehicle
US9177100B2 (en) 2010-08-31 2015-11-03 Annai Systems Inc. Method and systems for processing polymeric sequence data and related information
US10127346B2 (en) 2011-04-13 2018-11-13 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for interpreting a human genome using a synthetic reference sequence
CN102188796B (zh) 2011-05-12 2013-07-10 杭州双华科技有限公司 便携式动力爬绳器及爬绳方法
US9476369B2 (en) 2012-04-13 2016-10-25 Toyota Motor Engineering & Manufacturing North America, Inc. Variable power output and maximum speed in drive mode
US9092401B2 (en) 2012-10-31 2015-07-28 Counsyl, Inc. System and methods for detecting genetic variation
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9792405B2 (en) 2013-01-17 2017-10-17 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9679104B2 (en) 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10691775B2 (en) 2013-01-17 2020-06-23 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10385394B2 (en) 2013-03-15 2019-08-20 The Translational Genomics Research Institute Processes of identifying and characterizing X-linked disorders
US9731668B2 (en) 2013-08-09 2017-08-15 Ford Global Technologies, Llc Multi-vehicle settings
WO2015057635A1 (en) 2013-10-18 2015-04-23 The Regents Of The University Of Michigan Systems and methods for determining a treatment course of action

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102007220A (zh) * 2005-04-01 2011-04-06 安姆根有限公司 表皮生长因子受体基因拷贝数

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"BEDTools: a flexible suite of utilities for comparing genomic features";Quinlan等;《BIOINFORMATICS》;20100128;第2.2-2.3节 *
"The Sequence Alignment/Map format and SAMtools";Heng Li等;《BIOINFORMATICS》;20090608;第2.1.1节第34-35行 *

Also Published As

Publication number Publication date
JP6776404B2 (ja) 2020-10-28
CN104067278B (zh) 2017-04-19
AU2011381073A1 (en) 2014-05-22
IL232512A0 (en) 2014-06-30
US10726945B2 (en) 2020-07-28
EP2902933A2 (en) 2015-08-05
CN104067278A (zh) 2014-09-24
US20170206316A1 (en) 2017-07-20
KR102175660B1 (ko) 2020-11-06
KR102041764B1 (ko) 2019-11-07
JP2019164818A (ja) 2019-09-26
CA3056128A1 (en) 2013-05-23
US20120066001A1 (en) 2012-03-15
JP5953379B2 (ja) 2016-07-20
CA2854084A1 (en) 2013-05-23
JP2018067350A (ja) 2018-04-26
EP2780851A1 (en) 2014-09-24
KR20190125548A (ko) 2019-11-06
JP2016186801A (ja) 2016-10-27
KR101947225B1 (ko) 2019-02-12
EP2780851A4 (en) 2015-09-30
CA3056128C (en) 2021-07-20
JP2014533858A (ja) 2014-12-15
US20150094963A1 (en) 2015-04-02
JP6539835B2 (ja) 2019-07-10
US20200279617A1 (en) 2020-09-03
CA2854084C (en) 2019-11-05
WO2013074058A1 (en) 2013-05-23
US9646134B2 (en) 2017-05-09
EP2902933A3 (en) 2015-12-23
KR20150015047A (ko) 2015-02-09
US10242155B2 (en) 2019-03-26
JP6274539B2 (ja) 2018-02-07
KR101663951B1 (ko) 2016-10-12
KR20140089609A (ko) 2014-07-15
CN106971089A (zh) 2017-07-21
KR20160066560A (ko) 2016-06-10

Similar Documents

Publication Publication Date Title
CN106971089B (zh) 高通量测序数据的平行比较分析
JP6826568B2 (ja) Bambam:ハイスループットシークエンシングデータの同時比較解析
AU2016210784A1 (en) Bambam: parallel comparative analysis of high-throughput sequencing data

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant