CN102959552A - 用于遗传成像的系统和方法 - Google Patents

用于遗传成像的系统和方法 Download PDF

Info

Publication number
CN102959552A
CN102959552A CN2011800314022A CN201180031402A CN102959552A CN 102959552 A CN102959552 A CN 102959552A CN 2011800314022 A CN2011800314022 A CN 2011800314022A CN 201180031402 A CN201180031402 A CN 201180031402A CN 102959552 A CN102959552 A CN 102959552A
Authority
CN
China
Prior art keywords
analysis device
genetic analysis
genetic
nucleotide
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011800314022A
Other languages
English (en)
Inventor
赵基浩
D·G·格林哈尔希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shriners Hospitals for Children
University of California
Original Assignee
Shriners Hospitals for Children
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shriners Hospitals for Children, University of California filed Critical Shriners Hospitals for Children
Publication of CN102959552A publication Critical patent/CN102959552A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

序列数据例如遗传序列数据例如核酸或氨基酸序列可以在如本文定义的遗传图像中表示,所述遗传图像提供可以电子(例如通过计算机)或光学例如视觉上或通过光学扫描设备分析的紧密的便携式图像。描述了通过其首先将序列数据转换为数字数据集的新方法和系统,所述数字数据集依次编码以形成遗传图像。遗传图像可以向回追踪,以测定原始序列数据。

Description

用于遗传成像的系统和方法
技术领域
本发明涉及遗传成像,更具体而言涉及从原始生物学序列数据开始、用于制备遗传图像的系统和方法。
背景
在测序技术中的进展已促成来自实施生物学调查的多个物种的基因组及其转录分子(RNA)的巨大量遗传信息的快速累积。基因组序列数据的关键生物学应用之一是通过针对参考的比对分析鉴定与广大范围的疾病过程相关的遗传多态性。当待比较的序列尺寸很大时,遗传序列信息的比对分析尤其是相当繁琐的,并且这需要在分子生物学和基因组学中一定水平的训练。
关于个人化基因组计划的近期焦点暗示来自个体以及可能来自动物和植物的遗传修饰数据可以用作用于医学的特异性鉴定的工具以及管理目的。然而,大多数遗传序列数据简直是太庞大而无法用作用于快速每日鉴定目的的工具。
概述
本发明至少部分基于遗传序列数据例如核酸或氨基酸序列可以在新的所谓的遗传图像中表示的发现,所述遗传图像提供可以电子(例如通过计算机)或光学例如视觉上或通过光学扫描设备分析的紧密的便携式图像。在新方法中,关于给定序列的遗传序列数据首先转换为数字数据集,这依次编码以形成遗传图像。遗传图像可以向回追踪,以测定原始遗传序列数据。
在一个方面,本发明的特征在于形成表示核苷酸序列的数字数据集的计算机实现的方法。这些方法包括接受表示包含连续系列核苷酸的核苷酸序列的电子信息;获得遗传分析器的电子集合,其中每个遗传分析器包含“n”个核苷酸,其中所述集合包含在集合中的遗传分析器的“n”个位置各自上在核苷酸序列中存在的“X”个不同核苷酸的所有可能组合;其中所述集合具有已知次序的遗传分析器;其中Xn是集合中的遗传分析器数目;并且其中每个遗传分析器具有独特序列,其提供在“n”个核苷酸的每个区段内或末端上的特定位点上在核苷酸序列内的切割位点,其等同于给定遗传分析器;将具有遗传分析器的有序集合的核苷酸序列转换成包含一系列数字组的数字数据,其中对于遗传分析器集合的每个独特的遗传分析器生成一组数字,其中所述组中的每个数字包含由给定独特的遗传分析器提供的在核苷酸序列中的相继切割位点之间的核苷酸总数,并且其中数字数据集中的数字组以遗传分析器集合的已知次序组构;且生成数字数据集,其按次序包含核苷酸序列的5'末端的前n–1个核苷酸、数字数据和核苷酸序列的3'核苷酸。
这些方法可以进一步包括将数字数据集编码成遗传图像的电子表示;且将遗传图像的电子表示存储于机器可读的存储设备中。这些方法还可以进一步包括将电子表示展现在显示设备上,以提供可见的遗传图像和/或为打印机提供电子表示且将可见的遗传图像印刷在基底上。
在另一个方面,本发明的特征在于可触摸的机器可读的存储设备,其包括遗传分析器的有序集合的数码表示,其中遗传分析器的集合包括一系列核苷酸序列的数码表示;其中每个遗传分析器包括“n”个核苷酸,其中所述集合包括在集合中的遗传分析器的“n”个位置各自上在核苷酸序列中存在的“X”个不同核苷酸的所有可能组合;其中所述集合具有已知次序的遗传分析器;其中Xn是集合中的遗传分析器数目;并且其中每个遗传分析器具有独特序列,其提供在核苷酸序列内的“n”个核苷酸的每个区段内或末端上的特定位点上在核苷酸序列内的切割位点,其等同于给定遗传分析器。
在这些存储设备中,在集合中遗传分析器的次序可以是例如按字母顺序的。在这些存储设备的特定实施方案中,n=4并且X=4。在各种实施方案中,存储设备可以是在计算机内的存储器或便携式和可触摸的机器可读媒介。
在另一个方面,本发明还包括制造物品,其为或包括可触摸物体;和在可触摸物体上显示的遗传图像,其中所述遗传图像包含以机器可读形式的非字母数字标记,其中当通过机器阅读时,遗传图像促使处理器将遗传图像解码成数字数据集且将数字数据集转换成特定的遗传序列,例如核苷酸或氨基酸序列。这些制造物品中的可触摸物体可以是例如容器、纸或塑料片、或标记物、或遗传图像可以在其上表示的任何其他物品,例如电子展示设备。在这些遗传图像中,图像可以是有色像素的阵列。
本发明还包括可触摸的机器可读存储设备,其包括数字数据集,当通过机器阅读时,其可以促使处理器(a)将数字数据集编码成遗传图像的电子表示,其中所述遗传图像包含以机器可读形式的非字母数字标记,其中当通过机器阅读时,遗传图像促使处理器将遗传图像解码,以提供特定遗传序列;或(b)将数字数据集转换成特定遗传序列。
在这些可触摸存储设备中,存储设备可以是或包括在计算机内的电子存储器、通用串行总线(USB)相容存储器、或磁盘或光盘。
本发明还包括生成遗传分析器集合的方法。这些方法包括在每个遗传分析器中选择长度“n”的字符序列;在每个遗传分析器中选择“X”作为不同字符的数目;计算在遗传分析器的“n”个位置各自上在序列中存在的“X”个不同字符的所有可能组合,以创建Xn个遗传分析器的基础集合;将遗传分析器的基础集合以特定次序排列,以创建遗传分析器的有序集合;且将遗传分析器的有序集合存储于机器可读的存储媒介中。
在这些方法中,遗传分析器的有序集合可以包括一系列核苷酸序列的数码表示;其中每个遗传分析器包括“n”个核苷酸,其中所述集合包含在集合中的遗传分析器的“n”个位置各自上在核苷酸序列中存在的“X”个不同核苷酸的所有可能组合;其中所述集合具有已知次序的遗传分析器;其中Xn是集合中的遗传分析器数目;并且其中每个遗传分析器具有独特序列,其提供在核苷酸序列内的“n”个核苷酸的每个区段内或末端上的特定位点上在核苷酸序列内的切割位点,其等同于给定遗传分析器。例如,n=4并且特征可以是核酸或氨基酸。
在另外一个方面,本发明的特征在于阅读表示核苷酸序列的遗传图像的方法。这些方法包括获得具有如本文描述的一个或多个遗传图像的制造物品;扫描制造物品以将遗传图像的标记转换成电子数据;将电子数据解码,以获得表示至少一个核苷酸序列的数字数据集;并且将数字数据集转换成核苷酸序列。例如,将数字数据集转换成核苷酸序列可以包括使用如本文描述的遗传分析器的已知有序集合。
本发明还包括通过下述比较两个或更多个核苷酸序列的方法:获得具有如本文描述的遗传图像的至少两个制造物品,所述制造物品表示第一个和第二个核苷酸序列;扫描制造物品以将各自的遗传图像的标记转换成表示第一个和第二个核苷酸序列的电子数据;比较表示第一个和第二个核苷酸序列的电子数据以定位任何差异;将任何差异的电子数据解码,以获得表示在第一个和第二个核苷酸序列之间的差异的数字数据集;并且使用遗传分析器的有序集合转换数字数据集,以提供表示在第一个和第二个核苷酸序列之间的差异的核苷酸序列。
在另一个方面,本发明还包括用于生成遗传图像的系统,其包括处理器;机器可读的存储设备;和在存储设备中如本文描述的遗传分析器的有序集合;其中所述处理器由促使处理器执行下述的程序所编程:接受表示包括连续系列核苷酸的核苷酸序列的电子信息;从存储设备获得遗传分析器的有序集合;将具有遗传分析器的有序集合的核苷酸序列转换成包含一系列数字组的数字数据,其中对于遗传分析器集合的每个独特的遗传分析器生成一组数字,其中所述组中的每个数字包含由给定独特的遗传分析器提供的在核苷酸序列中的相继切割位点之间的核苷酸总数,并且其中数字数据集中的数字组以遗传分析器集合的已知次序组构;且生成数字数据集,其按次序包含核苷酸序列的5'末端的前n–1个核苷酸、数字数据和核苷酸序列的3'核苷酸。
在这些系统中,处理器可以进一步编程,以将数字数据集编码成遗传图像的电子表示;且将遗传图像的电子表示存储于机器可读的存储设备中。这些系统可以进一步包括显示设备,并且处理器可以进一步编程,以将电子表示展现在显示设备上,以提供可见的遗传图像。这些系统可以进一步包括打印机,并且处理器可以进一步编程,为打印机提供电子表示且促使打印机将可见的遗传图像印刷在基底上。
本发明的特征还在于用于阅读遗传图像的系统。这些系统包括处理器;机器可读的存储设备;扫描图像且将图像转换成电子数据的扫描仪;和在存储设备中如本文描述的遗传分析器的有序集合;其中所述处理器由促使处理器执行下述的程序所编程:从扫描仪获得电子数据;从存储设备获得遗传分析器的有序集合;将电子数据解码,以获得表示至少一个核苷酸序列的数字数据集,其中所述电子数据包含一系列数字组,并且其中对于遗传分析器集合的每个独特的遗传分析器生成一组数字,其中所述组中的每个数字包含由给定独特的遗传分析器提供的在核苷酸序列中的相继切割位点之间的核苷酸总数,并且其中数字数据集中的数字组以遗传分析器集合的已知次序组构;且将数字数据集转换成具有遗传分析器的有序集合的核苷酸序列。
定义
如本文使用的,“遗传图像”是遗传序列数据的表示,例如在可触摸的物理物体上的标记,或在屏幕或监视器上的图像,或存在于机器可读媒介上的电子表示,所述遗传序列数据已转换成机器可读的数字数据集且随后编码以形成遗传图像。遗传序列数据表示至少一个生物聚合物序列,例如核酸序列例如DNA或RNA,或氨基酸序列。图1A包括由二等分方块组成的示例性、程式化遗传图像,其中所述方块的多个特征例如颜色、大小、强度、定位等一起对由序列数据转换的数字数据集的编码的、机器可读的表示进行符号化。如本文使用的,遗传图像包括例如在计算机或电视监视器上或在电话或个人数码助理(PDA)屏幕上以机器可读形式例如作为不能触摸的数据模式编码,或在计算机或其他设备中电子存储且分析,或并入可触摸的物理物体内的序列数据,所述物理物体例如纸或塑料标记物或塑料、金属或陶瓷片层、盘或卡。
首先将遗传序列数据转换成数字数据集,并且随后将数字数据集编码,以形成机器可读的遗传图像。此类遗传图像是机器可读的,因为自动化光学或非光学(例如电子)过程可以用于输入或“阅读”编码的序列数据用于分析和/或进一步处理。在一些实施方案中,人可以视觉上阅读遗传图像。在各种实施方案中,编码的序列数据可以包括字母数字数据,或可以并入以下形式内,例如射频鉴定(RFID)元件、全息图、固态存储元件、磁性元件、磁光元件、光盘元件、图像形式例如联合摄影专家组(Joint Photographics Experts Group,JPE G)图像或便携式网络图形(Portable Network Graphics,PNG)图像等。在一些实施方案中,将序列数据编码为PNG。图1A显示以基于颜色的PNG形式的遗传图像,其表示葡萄的内源逆转录病毒序列的特定遗传信息。因此,实际遗传信息(例如以葡萄内源逆转录病毒序列的限制性片段长度多态性分析)在PNG遗传图像中编码,且是数据的视觉和/或机器可读表示。
如本文使用的,生物聚合物是包含在特定序列中键合的多个生物学衍生的单体单元的分子。一般例子包括核酸序列例如DNA、RNA等,和氨基酸序列例如多肽和蛋白质。因此,单体单元可以包括核糖核苷酸、核糖核苷、脱氧核糖核苷酸、脱氧核糖核苷、氨基酸等。单体单元还可以包括非天然或合成氨基酸、核苷酸或核苷,或用于模拟、取代或替换天然氨基酸、核苷酸或核苷的非天然或合成化合物。相应地,生物聚合物可以包括天然和非天然肽、蛋白质、酶、抗体、多核苷酸或多核苷例如单链或多链DNA或RNA、信使RNA(例如衍生自原代血液单核细胞的信使RNA)、肽核酸等。因此,应当指出“遗传图像”中的术语“遗传”是举例说明的,并且不预期将序列数据限制于来自天然基因组的DNA或RNA序列,或对应于天然基因组的肽、蛋白质等。
如本文使用的,遗传序列数据是描述生物聚合物的至少部分序列的信息。一般例子包括基因组序列数据,例如基因组、染色体、基因、转座子、逆转录转座子、内源逆转录病毒元件、逆转录病毒基因组、逆转录病毒蛋白质的序列或其部分等。在各种实施方案中,序列数据可以表示生物聚合物的连续部分;生物聚合物的完全序列;多态性序列;限制性片段长度多态性(RFLP)图谱或单核苷酸多态性(SNP)图谱等。
如本文使用的,“非序列”数据是除序列数据外的任何目的数据。非序列数据的一般例子可以描述受试者、系统发育分类、生物体、细胞、样品、实验、数据来源、名称、染色体、基因、转座子、逆转录病毒、商标或其他商业标记、标识符例如执照或许可号、政府规定印章或批准编码等的一个或多个方面。非序列数据可以是人可读的和/或可以以机器可读形式编码。在各种实施方案中,非序列数据可以以与自动鉴定和数据捕获(AIDC)相容的形式编码。在一些实施方案中,序列数据和非序列数据可以各自独立地在字母数字数据中编码,或编码成以下形式例如条形码、全息图、射频鉴定(RFID)元件、固态存储元件、磁性元件、磁光元件、光盘元件、图像形式例如PNG或JPEG等。在特定实施方案中,至少部分非序列数据可以以人可读形式,并且至少部分序列数据可以以非人可读、机器可读形式编码,一般为加密的机器可读形式。此类实施方案可以例如允许用户由遗传图像标记物阅读鉴定、非机密的非序列数据,同时以遗传图像(或任选同样加密的)形式编码的敏感序列数据可以保持机密,其中访问局限于具有相应密钥的用户。在一些实施方案中,序列数据和非序列数据各自独立地在遗传图像例如PNG图像中编码。在各种实施方案中,至少一个序列数据和非序列数据是加密的。在特定实施方案中,序列数据和非序列数据以不同密钥加密。
如本文使用的,多态性序列是这样的序列,其在群体中名义上保守,但在那个群体中含有两个或更多个不同的特定序列。因此,在各种实施方案中,例如与其他此类物种、受试者、细胞类型、疾病状态、基因、染色体、逆转录病毒或内源逆转录病毒元件相比较,多态性序列数据对应于个别物种、受试者、细胞类型、疾病状态、基因、染色体、逆转录病毒、内源逆转录病毒元件。
如本文使用的,限制性片段长度多态性(RFLP)是基因组序列中的变化,其可以通过用限制性酶将序列消化成片段且例如通过凝胶电泳分析所得到的片段的大小进行检测。如本文使用的,限制性片段长度多态性(RFLP)图谱包括这样的数据,其描述通过限制性酶对亲本序列例如DNA或RNA序列的一个或多个拷贝操作生成的后续片段集合。RFLP图谱一般包括数据例如独特片段的数目、每个独特片段的大小(例如如通过电泳测定的)和/或每个独特片段的数目或强度等。一般地,RFLP图谱可以对应于与个别物种、受试者、细胞类型、疾病状态、基因、染色体、逆转录病毒或内源逆转录病毒元件有关的序列数据,从而鉴定序列数据的来源。
如本文使用的,单核苷酸多态性(SNP)是在基因组核酸序列中的单核苷酸变动,例如其在相同物种的不同个体之间不同。已知SNP或SNP模式已显示对应于特定物种、个体、细胞类型、疾病状态、基因、染色体、逆转录病毒或内源逆转录病毒元件,其可以使用本文描述的方法进行检测。
如本文使用的,限制性酶或限制性核酸内切酶是生物学蛋白质(酶),其识别特定核酸序列且在那个特定核苷酸序列内的特定位置处(称为限制位点)切割双链或单链DNA或RNA。
如本文使用的,遗传分析器是软件算法,其在计算机芯片上识别在更长序列内的预定序列,且在那个预定序列内或后的预定定位上“切割”(分离在计算机芯片上的更长序列)。特定遗传分析器可以通过其识别的序列长度提及,例如“四核苷酸遗传分析器”,其指示识别长四个核苷酸的序列的遗传分析器。遗传分析器可以在那个序列的末端切割识别的序列,例如当使用四核苷酸遗传分析器时,正好在四个核苷酸的第四个后,或它可以在识别的序列内的一些其他预定定位上切割。因此,遗传分析器不是物理限制性酶(其并非生物学蛋白质),但在计算机芯片上类似其起作用。如本文描述的,多个遗传分析器的限定集合用于切割计算机芯片上的长遗传序列,以生成独特片段的集合,其随后连同另外的信息一起记录,以生成数字数据集。
除非另有定义,本文使用的所有技术和科学术语具有与本发明所属领域普通技术人员通常理解相同的含义。尽管下文描述了合适方法和材料,但与本文描述那些相似或等价的方法和材料可以用于本发明的实践或测试中。本文提及的所有出版物、专利申请、专利和其他参考文献整体引入作为参考。在冲突的情况下,以本说明书包括定义为准。此外,材料、方法和实施例仅是举例说明性的且不预期是限制性的。
本发明的其他特点和优点由下述详述和权利要求是显而易见的。
附图简述
专利或申请文件含有以彩色执行的至少一个附图。具有彩色附图的本专利或专利申请公开的拷贝将在请求和支付必需费用后由当局提供。
图1A是以便携式网络图形(PNG)(1620x640像素)图像形式的遗传图像的表示,其表示使用一系列不同引物由红葡萄基因组DNA样品鉴定的逆转录病毒元件集合。每个数据点表示当特定序列用特定遗传分析器切割时生成的片段总数。如本文进一步详细描述的,这些元件用3-核苷酸遗传分析器的集合进行切割。生成的片段大小的总数/遗传分析器通过遗传分析器次序和引物组进行排列,以创建数字数据集,其通过cutEvolution软件处理以生成遗传图像。
图1B是使用遗传分析器用于将遗传序列信息转换成数字数据集,且随后将数字数据集成遗传图像的方案的图示总结。这个遗传图像还可以向回追踪,以测定原始核苷酸序列。
图1C-A至1C-G是举例说明使用十六个二核苷酸遗传分析器集合用于将十五个核苷酸的核苷酸串(遗传序列信息)转换成遗传图像的假定例子、以及多个步骤和元件的一系列表示,其表示二核苷酸长的核苷酸的所有可能组合。
图2A-C是使用3-核苷酸遗传分析器的集合,将关于小鼠乳房肿瘤病毒(MMTV)超抗原内源逆转录病毒序列的区段的核苷酸序列信息转换成数字数据集的一组图示。图2A显示3-核苷酸遗传分析器的整个集合。图2B显示图2A的3-核苷酸遗传分析器的集合,但以“切割次序”。图2C是对于每个遗传分析器,通过在246碱基对片段上的切割定位顺次列出的(跨越顶端通过遗传分析器次序从左到右)所得到的数字数据(切割片段的大小)的显现,从而使得可以容易地鉴定每个核苷酸的相对位置。由数字数据集重构的完全核苷酸序列经证实等同于原始序列。
图2D是图2C中所示的“框”中的信息的放大视图。
图2E是基于软件的序列切割工具程序的基本模块的图示表示,其使用本文称为“cutEvolution”的序列切割工具程序,将给定遗传分析器应用于给定遗传序列。cutEvolution工具是阅读核苷酸序列文件,且对于特定大小的遗传分析器(例如三-核苷酸遗传分析器)的给定集合生成片段大小列表的程序。序列文件的定位和名称、待使用的遗传分析器(GA)和关于数据的输出定位都在cutEvolution项目文件中定义。
图3A-D是使用4-核苷酸遗传分析器的集合,将人HIV-1A1核苷酸序列转换成数字数据集的一系列图示表示。图3A显示关于4-核苷酸遗传分析器的遗传分析器的四个不同亚集。由各64个分析器组成的4-核苷酸遗传分析器的每个亚集能够解释特定核苷酸类型(A、C、G或T)的所有位置。因此,这四个亚集总共将解释给定核苷酸序列中的所有核苷酸位置。图3B表示4-核苷酸遗传分析器的完全集合的切割次序。
图3C是显示使用图3A和3B中所示的有序4-核苷酸遗传分析器的整个集合(总共256个),将HIV-1A1核苷酸序列转换成数字数据集的图示。HIV-1A1的核苷酸序列可见于登记号AB098331,并且由HIV序列数据库(参见环球网上的网站hiv.lanl.gov)检索,且通过用4-核苷酸遗传分析器的整个集合切割序列而转换成数字数据集。切割片段大小首先通过关于每个遗传分析器的切割次序顺次排列,并且随后这些片段组以采用的遗传分析器次序排列。
图3D是图3C中所示的“框”中的信息的放大视图。
图4A是显示从通过cutEvolution软件程序执行的“切割”过程开始,且以遗传图像生成结束的编码数字序列数据的方法的程序框图。在这个示例性图表中,最后的遗传图像以PNG图像文件的形式,其与图1A中所示的遗传图像相同。
图4B是对于基于PNG的遗传图像使用RGB配色方案,将数字数据集转换成遗传图像的一种方法的表示。在这个例子中,两种颜色用于表示数据集信息(即,颜色1指示引物亚集编号、引物ID编号和克隆编号;颜色2表示遗传分析器的大小和片段/切割数目)。这些例子表示可以修饰为包括例如不同片段大小的弹性方案。
图4C是,通过将十进制值转换成基础256个数字,序列鉴定信息(引物和克隆编号)成为第一种RGB颜色,以及一对遗传分析器和总片段数目成为第二种RGB颜色的示例性转化。
图4D是基于PNG的遗传图像中的四个数据点的彩色表示。每个数据点表示为含有10x 10像素和两种颜色(其中每种颜色表示图4C中所示的数据)的二等分“框”。这描述通过每个遗传分析器切割对于每种序列生成的片段总数的数据点定向。
图4E是白葡萄逆转录病毒元件序列的遗传分析器数据集的基于PNG的彩色遗传图像(1440x640像素)。每个数据点表示当特定序列用特定遗传分析器切割时生成的片段总数。这个图像由从白葡萄中分离的葡萄基因组DNA扩增的逆转录因子的3-核苷酸遗传分析器生成,并且显示逆转录病毒元件和所得到的遗传图像如何依赖于葡萄的类型而不同(例如与由红葡萄样品产生的图1a相比较)。
图5是显示如何可以将遗传图像中鉴定的多态性向回追踪至其原始核苷酸序列的示例性流程图。流程图说明通过两个不同遗传图像的扫描和重叠鉴定的多态性如何追踪至多态性核苷酸序列。
图6是单核苷酸多态性、和对于遗传分析器在多个识别位点中所得到的改变和有关切割片段图谱的表示。对于4-核苷酸遗传分析器,单核苷酸多态性导致关于四个遗传分析器的识别位点的去除或添加。因此,在24个数字数据点中存在变化。
图7A和7B各自显示类似于图2C、3C和1A的一系列图像。这些图像系列表示使用三-核苷酸遗传分析器集合,将两个短逆转录病毒元件系列(一个来自绿葡萄(图7A)和一个来自红葡萄(图7B)转换成遗传图像。在这个分析中使用的三-核苷酸遗传分析器的完全集合显示于图2A中。使用的遗传分析器的次序显示于图2B中。图7A显示对于关于绿葡萄的逆转录病毒元件序列创建遗传图像,用三-核苷酸遗传分析器的全集合切割和以所示次序的事件流程。线图是切割定位和所得到的片段大小的显现(类似于图2C)。这个数据随后合并成更小的数据集,其中仅片段大小通过切割次序顺次列出;这些片段组随后通过利用的遗传分析器次序列出(数据集类似于图3C)。这个数据集随后可以转换为遗传图像。随后显示生成的遗传图像的表示(类似于图4E)。图7B类似于7A,但显示由来自红葡萄的逆转录病毒元件序列所得到的数据。
图8是可以用于实现本文描述的方法的计算机系统的一个实施方案的表示。
详述
本发明一般涉及遗传图像,制备遗传图像的方法,和使用遗传图像存储、检索且比较遗传序列信息的方法。本发明包括将任何遗传序列(DNA和RNA)或氨基酸序列转换成数字数据集的新方案,所述数字数据集随后编码以生成遗传图像。遗传图像可以向回追踪,以测定原始遗传序列信息。
1.遗传图像的一般概述
遗传图像是可以例如视觉或通过机器分析的遗传序列信息例如DNA或RNA的表示。遗传图像是压缩且编码形式的遗传序列,其花费比原始序列信息少得多的存储空间,并且可以容易地分析且与其他遗传图像比较,以容易地检测在两个不同遗传序列之间的差异。
在各种实施方案中,可以对表示特定遗传序列(例如含有大量遗传信息的序列)的数字数据集进行编码,以形成以图像形式例如JPEG、JPS(JPEG Stereo)、PNG或PNS(PNG Stereo)表示的遗传图像。图1A显示此类PNG遗传图像的一个例子。图1A是以便携式网络图形(PNG)(1620x 640像素)图像形式的遗传图像的表示,其表示使用一系列不同引物由红葡萄基因组DNA样品鉴定的一组逆转录病毒元件。每个数据点表示当特定序列用特定遗传分析器切割时生成的片段总数。如本文进一步详细描述的,这些元件用3-核苷酸遗传分析器的集合进行切割。生成的片段大小数目/遗传分析器通过遗传分析器次序和引物组排列,以产生通过我们的cutEvolution软件处理以生成图像的数据集。在特定实施方案中,小量遗传序列数据的遗传图像也可以表示为二或三(或更多)维条形码或条形图。
在其他实施方案中,遗传图像可以以全息图、射频鉴定(RFID)元件、固态存储元件、磁性元件、磁光元件、光盘元件等形式。一般而言,序列的GA分析创建随后经处理以形成那种数据的显现或遗传图像的数据集。这类似于任何图像,因此可以将其存储于闪存驱动器或一些其他电子媒介上以及将其印刷在纸或其他媒介上。图像形式还可以在监视器或屏幕上电子表示,例如在计算机监视器、移动电话屏幕或个人数码助理(PDA)屏幕上。在每种情况下,表示允许例如用激光扫描仪或图像捕获设备例如电荷耦合器件(CCD)进行视觉或光学分析和比较。在纸或其他非电子媒介上的图像可以例如数码扫描且随后通过机器比较。例如,这些图像随后可以使用标准化模式识别软件例如指纹匹配或面部识别程序进行比较。备选地,遗传图像还可以通过以数码、电子形式通过计算机进行分析且比较,而无需在计算机或其他屏幕或监视器上表示的可触摸打印输出或图像。
在一些实施方案中,序列数据可以是加密的。如本文使用的,“加密的”序列数据已通过密码算法转化,从而使得序列数据一般不能阅读或解释,除非首先用相应密钥解密。加密形式的一些例子包括但不限于AES-256、RSA-256等。然而,本文描述的创建遗传图像的过程已提供非常安全的系统,因为在遗传分析器内的长度和切割定位、和使用的遗传分析器集合的次序事实上都是阅读遗传图像所需的“钥匙”。此外,可以连同遗传图像一起存储的非序列数据也可以使用任何标准加密形式进行加密。
本文描述的遗传图像一般可以用于指示在其上编码的数据与一些其他物体或主题的对应,例如患者文件、样品容器、患者ID手镯、可以附着至测试动物或动物笼的标签、运送或海关标记物、执照、许可、安全证章、万能钥匙、条目票证、特定定位或地址等。当遗传图像在标记物上表示时,它可以以在样品容器表面上印刷或其中包埋的模式;在个人或动物上的植入标签等的形式。标记物可以是并入作为模式的序列数据的惰性基底,例如作为在背粘纸、布、塑料、金属等上的印刷编码。标记物可以是机器可写入基底,例如磁条或磁盘、可写入数码影碟或视频鉴定(RFID)标签。标记物还可以是编码的机器可读数据的暂时物理体现,例如作为以如行动电话显示器中或计算机或其他监视器上的活化像素元件体现的图像,例如极化液晶像素、发光二极管像素、电子纸像素等。序列数据从而可以通过将序列数据并入遗传图像内存储,并且可以通过例如用相应机器阅读器阅读且解码遗传图像进行检索。此外,可以通过例如视觉上比较编码的数据,或通过将编码的数据阅读到相应机器阅读器内且在其中自动比较数据,从而比较序列数据。在一些实施方案中,编码的非序列数据可以通过个人视觉上比较,同时仍留下以非人可读形式的在其中编码的序列数据。例如,序列数据可以在不促进序列的人可读性的图像中编码,但是,对应于相同或不同序列的两个图像可以对于察看两个图像的个人视觉上看起来相同或不同。
2.用遗传分析器生成遗传图像的方法的一般概述
如图1B的程序框图中所示,本发明包括所谓的“遗传分析器”(如本文描述的)集合的制备和使用,其各自能够将任何遗传(例如核酸或氨基酸)或非遗传序列转换成在计算机芯片上例如在计算机中的数字形式(在本文中称为“数字数据集”)。一般而言,遗传分析器是限制性酶的在计算机芯片上表示。因此,遗传分析器是特定序列,例如3、4、5、6、7个或更多个核酸表示字母(例如关于DNA的A、C、G和T,和关于RNA的A、C、G和U)的序列的表示,在其上可以在计算机芯片上“切割”(例如分离)更长的核酸序列。如下文进一步详细描述的,生成遗传分析器的集合且用于“切割”遗传序列,以生成数字数据集。
如果“序列”是非遗传序列,例如字母、数字和/或符号的序列而不是核酸或氨基酸序列,那么遗传分析器随后类似地包括字母、数字或符号,并且并不限于核酸碱基(ACGT)或氨基酸。应当指出在遗传分析器集合中的每个独特的遗传分析器在核苷酸区段后立即“切割”核苷酸序列,所述核苷酸区段等同于给定遗传分析器的序列。因此,遗传分析器AGG将被说成例如在核苷酸序列内AGG区段的每一次出现后“切割”核苷酸序列。当然,切割位点不必在遗传分析器的末端上出现,而是在其序列内的任何预定定位上出现。例如,遗传分析器可以定义为在每个首个核苷酸后切割,因此遗传分析器AGG将在AGG区段的每一次出现时在“A”和“G”之间“切割”。
一旦创建数字数据集,就可以使用其他软件程序将它转换成例如如图1B中示意性显示的遗传图像,并且作为如图1A中所示的基于PNG的遗传图像的实际例子。该过程还可以反向运行,以获得遗传图像且将其向回追踪,以测定用于创建遗传图像的原始遗传序列。
如上文短暂讨论的,在一个例子中,遗传分析器的集合是在一定遗传分析器核苷酸序列长度的每个位置上的相应核苷酸(A、C、G和T/U)(或一定长度氨基酸的遗传分析器的每个位置上的氨基酸)的所有可能组合组。原则上,遗传分析器序列长度可以范围从一到无限,但实际上,遗传分析器的长度一般范围为二到目的长度,例如导致给出可获得的计算机资源的计算上有用数目的遗传分析器长度,和待转换成遗传图像的序列长度。因此,用于核苷酸序列的遗传分析器一般长度是2、3、4、5、6、7、8、9或10个核苷酸。将使用更短的遗传分析器,例如长度3、4、5或6个核苷酸,以切割更短的遗传序列,例如长度高达约一千个核苷酸碱基;而可以使用更长的遗传分析器,例如长度7或8个核苷酸,以切割更长的遗传序列,例如长度高达约一百万个核苷酸碱基。
例如,关于核苷酸序列长度为一的计算机芯片上遗传分析器的完全集合是A、C、G和T(对于DNA)和A、C、G、U(对于RNA)。同样地,关于DNA核苷酸序列长度为二的计算机芯片上遗传分析器的完全集合包括基于四种碱基A、C、G、T(对于DNA)或A、C、G、U(对于RNA)的各16种可能的二碱基序列。具有三核苷酸长度的遗传分析器的完全集合含有64个遗传分析器。因此,一般而言,计算机芯片上遗传分析器的完全集合包括等于不同单元例如核苷酸碱基或氨基酸(其对于核苷酸是四并且对于编码的氨基酸是20)的数目(X)增加至遗传分析器的序列长度(n)的幂例如Xn的许多遗传分析器。
作为例子,这个等式对于三个核苷酸长的4种不同核苷酸碱基的遗传分析器集合将是43=集合中的总共64个遗传分析器(如图2A和2C中所示,从AAA、AAC、...开始且以TTT结束)。在其他例子中,4-、7-和8-核苷酸遗传分析器的集合分别由44=256个成员(如图3A和3B中所示,AAAA、AAAC、...且以TTTT结束),47=16,384个成员(AAAAAAA、AAA AAAC、...TTTTTTT)和48=65,536个成员(AAAAAAAA、AAAAAAAC、、TTTTTTTT)组成。
在另一个例子中,对于20种不同氨基酸的遗传分析器的集合,等式将是204,其中每个分析器是四个氨基酸长=集合中的总共160,000个遗传分析器。应当指出遗传分析器的长度可以影响最后数据集的大小。此外,生成的片段大小总数可以对遗传图像大小具有最大作用。
用计算机芯片上的遗传分析器全集合“切割”序列将序列转换成有序和独特的数字集合,其在本文中被称为数字数据集。因为分析在计算机芯片上执行,所以任何核苷酸或氨基酸都可以用于遗传分析器中,并且同样可以捕获后生信息。因此,遗传序列信息包括任何多态性例如单核苷酸差异或后生差异可以转换成数字数据集。后生信息指除DNA序列外可以影响生物体的发育的因素。例如在甲基化中,将甲基加入胞嘧啶的碳-5位置,其通常在CpG(胞嘧啶随后为鸟嘌呤)二核苷酸中出现。这个甲基化以许多方式巧妙地影响生物体,例如通过稳定化基因表达或抑制病毒基因。发现这些甲基化位点的一种方法是用亚硫酸氢盐处理分离的DNA,其将非甲基化的胞嘧啶残基转换成尿嘧啶残基,但留下甲基化的胞嘧啶残基未改变。当测序亚硫酸氢盐处理的DNA时,这些碱基对变化可以通过与非亚硫酸氢盐处理的序列比较进行检测。两个图像(亚硫酸氢盐处理前和后)可以进行比较,以发现甲基化位点。这些甲基化位点随后可以在序列文件上注明且使用遗传分析器检测和/或分析。例如,遗传分析器可以通过包括新的“甲基化”碱基捕获甲基化状态,因此代替仅ACTG的碱基,可以存在表示甲基化的胞嘧啶残基的新碱基“X”(其可以是任何字母或符号)。
核苷酸序列信息转换成数字数据集使得能够使用高分辨率图形程序(使用可获得的图形格式,例如PNG、JPEG等),编码数字数据集,以创建其是紧密、便携式、可扫描和可追踪格式的遗传图像。遗传图像可以例如进行扫描,以鉴定在来自人和其他物种包括微生物和植物的不同遗传序列中的多态性。由于遗传图像中的数字数据点的有序特征,在分析例如光学扫描过程中鉴定的遗传多态性可追踪至原始核苷酸序列数据。涉及使用遗传分析器的遗传序列数字转换和遗传图像生成的这个方案是有效工具,以紧密和便携式形式存储任何遗传信息,以及比较且追踪在基因组和表达水平的多态性。
3.生成遗传分析器的方法
如所述的,遗传分析器是软件程序的部分并且可以视为计算机芯片上的DNA限制性酶。然而,与在体外使用的实际DNA限制性酶相比较存在差异。首先,与可获得的体外DNA限制性酶和相应识别位点的有限数目相对比,遗传分析器的独特设计允许识别关于具有目的序列长度的核苷酸序列的所有可能组合。其次,遗传分析器可以识别RNA核苷酸序列,而无需转换成cDNA形式。第三,遗传分析器可以捕获后生信息,例如基于胞嘧啶的甲基化。例如,如上所述,遗传分析器可以通过包括由新碱基“X”表示的新“甲基化”碱基检测甲基化状态,所述新碱基“X”表示甲基化的胞嘧啶。第四,在对应于个别遗传分析器的遗传序列上的实际切割位点一般在遗传分析器的限定序列末端,例如在四核苷酸长的遗传分析器的第四个核苷酸后,或在对应于在遗传分析器内的两个核苷酸之间的定位的一些其他指定点上。
为了合成具有限定核苷酸序列长度的遗传分析器集合,使用算法例如在Visual Basic程序内设计的宏程序,计算在每个位置上的四种核苷酸(A、C、G、T/U)的所有潜在组合。这个实现对于长度高达10个核苷酸的遗传分析器在同时代台式计算机上可计算追踪。为了促进具有更长序列长度例如长度11、12、13、14、15个或更多个核苷酸的遗传分析器集合的创建,相同算法可以在另一个程序例如
Figure BDA00002644646500182
或语言例如C/CC+、Java等中中更有效地实现。下表1显示了用于合成例如在遗传分析器集合的每个成员中具有7个核苷酸的遗传分析器集合的示例性
Figure BDA00002644646500184
Figure BDA00002644646500185
宏程序。
表1–生成遗传分析器的示例性宏
Figure BDA00002644646500186
Figure BDA00002644646500191
Figure BDA00002644646500201
一旦计算出遗传分析器的可能组合的整个集合,就将它们置于所需次序,并且将该次序存储于存储器或机器可读的存储设备中。次序可以是例如字母数字(参见例如图2B),或从A开始的所有遗传分析器,随后从C开始的所有,随后从T开始的所有,和随后从G开始的所有(参见图3B),或任何其他次序,只要将次序存储用于未来使用。遗传分析器的集合包括在cutEvolution工具中,而更大的遗传分析器组合可以存储于数据库管理系统中,如下文进一步详细描述的。遗传分析器集合还可以存储于任何可触摸的存储媒介上,例如盘或便携式存储设备。
4.将遗传序列转换成数字数据集。
一旦已生成遗传分析器集合,就将它们作为在计算机芯片上的切割设备应用于特定靶遗传序列,以生成关于个别靶序列的切割片段的独特图谱(以指示其位置和每次切割大小的数字数据集合形式)。遗传分析器可以每次重新生成,或它们可以生成一次且存储于存储器中且在需要时使用。应当指出集合中的遗传分析器次序可以改变,并且因此不同次序可以在不同时间使用(并且确切次序必须是已知的,以阅读相应遗传图像)。确切地这个信息如何存储且存储于何处将取决于程序设计和具体分析类型。由来自靶序列的切割片段组成的所得到的数字数据集是独特的,且致使生成高分辨率遗传图像用于明确和快速鉴定在待分析的序列中的任何遗传多态性。
实施转换分析的整个核苷酸序列(DNA或RNA)用遗传分析器的一个全集合切割(例如具有64个成员的三-核苷酸遗传分析器集合,或具有256个成员的四-核苷酸遗传分析器集合)。遗传分析器可以例如在切割过程期间以四个不同基团的次序组构,取决于其对于最后一个位置中的核苷酸(A、C、G或T/U)的识别特异性。例如,图2A和3A分别显示关于三和四-核苷酸遗传分析器的遗传分析器的四个不同亚集。分别由16和64个分析器组成的三或四-核苷酸遗传分析器的每个亚集能够解释特定核苷酸类型(A、C、G或T)的所有位置。例如,亚集“A”鉴定在靶序列中的核苷酸“A”的所有位置,因为在靶序列内通过这个亚集中的遗传分析器进行的所有切割通过定义必须在“A”后。这对于亚集C、G和T同样如此,其显示在这些各自核苷酸后切割的所有遗传分析器。
核苷酸序列用每种遗传分析器切割,且所得到的切割片段记录为以其距离序列5'末端的位置的次序的数字(片段大小)。为了将整个核苷酸序列信息转换成数字数据集,集合中的所有遗传分析器个别用于切割序列。由这个转换过程(切割)获得的数字数据集现在含有关于序列中的每一个核苷酸的位置和鉴定的信息,除了在5'和/或3'末端上的少数核苷酸外,取决于使用的遗传分析器集合。
由有序切割片段组成的来自每个遗传分析器的数字数据可以收集为作为在这个转换过程中利用的遗传分析器次序的一系列数字。遗传分析器的集合和次序在序列或序列组的切割分析过程中是固定的。数据集的确需要以预定次序,因此它可以进行分析或追踪,但实际遗传分析器次序可以在应用间改变,提供另一个水平的安全。数字是有序的,因为遗传分析器的每个集合创建有序片段大小的集合,或出现次序的片段大小列表。片段大小的每个组随后通过遗传分析器集合的预定次序排序,其可以是不同的,但必须是已知的,以阅读所得到的遗传图像。
为了解释在遗传分析器的给定集合中未识别的5'末端核苷酸(例如如果使用4-核苷酸集合,那么前三个核苷酸),其核苷酸鉴定(A、C、G或T/U)可以进入数字数据集的开始,而无需任何另外转换。此外,由遗传分析器识别但由于其末端定位不促成有关切割片段(数字数据)生成的在3'末端上的最后一个核苷酸,可以附着至数字数据集的最后。因此,最后的数字转换的序列数据集由下述组成:少数5'末端核苷酸(取决于利用的遗传分析器集合可变)+一系列数字(=以切割出现和使用的遗传分析器的次序的切割片段大小)+一个3'末端核苷酸。
在本文描述的软件形式中,仅存在需要已知的一个末端核苷酸,因为当序列用遗传分析器切割时,那个最后片段大小将总是从最后一个切割位点到序列结束的长度。对于所有其他片段,总是知道那个片段的最后一个核苷酸。它将与使用的遗传分析器的序列相同。然而,那个最后一片的末端序列是未知的,因为它的末端不通过切割创建。这对于所有遗传分析器的所有最后一个片段将是同样的。然而,这将总是从序列末端以一个碱基对切割的遗传分析器,产生最后一个片段大小1,因此可以向回追踪除了最后一个外的所有其他碱基。为了解释这点,最后一个碱基和其他重要的不能改变的信息(起始n-1个碱基、GA大小和GA次序)需要直接编码成数据集,以追踪遗传图像回到原始序列。其他软件形式可以消除包括n-1和最后一个碱基数据的需要。
备选地,来自所有遗传分析器的切割片段数据可以组合且重新组构为具有相同大小的许多切割片段。因此,数字数据集变得更紧密且仍维持用于生成遗传图像的原始核苷酸序列的独特特征。在这个实施方案中,信息以类似于RFLP的方式排序。序列中的变化是可见的,因为当用遗传分析器的全集合切割时,特定片段大小的总数应改变。以这种方式,可以快速测定序列中的变化,并且鉴定哪些序列需要更详细地研究或比较。
图1C-A至1C-E举例说明使用二核苷酸遗传分析器的集合,将十五个核苷酸的假定核苷酸序列转换成数字数据集。在这个例子中,使用十六个2-核苷酸遗传分析器的集合(指定为GA(2)-1至GA(2)-16),对靶核苷酸序列(TGCACCCTGATTAGG;图1C-B)实施分析且显示于图1C-A中。如图1C-C中举例说明的,集合中的每个独特的遗传分析器识别在靶序列上的特定位置,其中靶序列与多个遗传分析器比对。例如,遗传分析器AA(GA(2)-1)完全不在靶序列中表示,并且因此不生成任何切割。这产生与这个第一个遗传分析器结合的数字“15”。
遗传分析器AC(GA(2)-2)在靶序列中表示一次,并且因此生成在靶序列中正好在其出现后的切割,即仅在定位5后。这产生两个片段,一个长五个核苷酸并且另一个长十个核苷酸。这产生与这个第二个遗传分析器结合的两个数字“5”和“10”。
在这个例子中,大多数遗传分析器切割一次。仅遗传分析器CC(GA(2)-6)和TG(GA(2)-16)切割两次。例如,遗传分析器TG在定位2和定位9后切割,从而创建分别长二、七和六个核苷酸的三个片段。因此,集合中的这个最后一个遗传分析器产生与这个特定遗传分析器结合的三个数字“2”、“7”和“6”。
每个识别位点产生在计算机芯片上的“切割”,以生成表示由集合内的个别遗传分析器创建的片段的核苷酸长度的数字。由这些切割事件生成的数字(各自与其特定遗传分析器结合)以图形显示(图1C-D)、列表表示(图1C-E)和作为数字串(图1C-F)呈现。各自与其特定遗传分析器结合的这些数字构成数字数据集,其随后可以编码成遗传图像(图1C-G)。“图形显示”提供数字如何可以向回追踪至原始序列的可见连接。因为生成的每个数字就靶序列上的位置而言是独特的,所以原始序列可以通过已知哪个GA生成(或对应于)哪个切割数字进行追踪且重构。遗传图像的生成在下文进一步详细描述。
图2A-2C举例说明使用三-核苷酸遗传分析器的集合,将实际核苷酸序列信息转换成数字数据集。使用3-核苷酸遗传分析器的整个集合,对小鼠乳房肿瘤病毒(MMTV)超抗原内源逆转录病毒序列的区段(246个核苷酸)实施切割分析。图2A显示通过第三个或最后一个位置中的核苷酸(在第三个/最后一个位置中的A、C、G和T)指示的三-核苷酸遗传分析器的四个不同亚集。三-核苷酸遗传分析器的每个亚集由16个分析器组成(其各自具有在最后一个位置中的四种可能核苷酸的具体一个)。图2B显示遗传分析器的相同集合,但以其切割次序,从AAA、AAC、AAG、AAT、...开始,且以TTA、TTC、TTG和TTT结束。
图2C显示对于每个遗传分析器,通过在1-246量表上(靶遗传序列中的核苷酸总数)的切割定位顺次列出的所得到的数字数据(切割片段的大小),从而使得可以容易地鉴定每个核苷酸的相对位置。存在64个可能的3-核苷酸遗传分析器,其鉴定为“GA(GA大小)-切割次序数字”。当适当定向时,这些跨越图2C的顶端以GA(3)-01至GA(3)-64的次序排列。不同颜色用于这个例子中,以表示使用的GA的末端核苷酸(A、C、G、T),因此以A结束的所有GA是一个颜色,以C结束的所有以另一个颜色,等等。这个彩色表示仅用于这个具体附图中,以在验证序列的重构时,更佳地显现或突出显示末端核苷酸。当然,灰阶或其他指示(例如字体类型或大小)可以用于区分末端核苷酸,但最后一个核苷酸的这种着色或突出显示当然不是过程中的必需步骤。
在图2C的左垂直侧上以粗体的数字表示246个核苷酸位置。在右侧垂线上的序列是重构的序列(具有颜色)和原始序列。在遗传分析器列下的数字指示当用那个遗传分析器切割时获得的片段大小。例如,在GA(3)-01下的列中,存在12(在左侧垂直标尺上具有指示这在位置12上出现的线)、31(在位置43上)、48(在位置91上)、1(在位置92上)、1(在位置93上)、12(在位置105上)和141(在位置246上)。这个信息指示用GA(3)-01切割序列导致长12、31、48、1、1、12和141个核苷酸的7个片段(其可以进行检查,因为所有这些片段大小总共应等于246个碱基)。对于246个核苷酸位置的前60个,在图2C中所示的“框”的特写(close-up)在图2D中表示。
GA(3)-01是染为蓝色的,其指示这个遗传分析器以字母T结束。为了解码序列,随后在位置12、43、91、92、93和105上应是T。最后一个片段(在位置246上)不是通过切割而是通过到达核苷酸序列的末端而创建的片段,且因此不用于重构原始序列。如沿着图2C的右侧显示的(当适当定向时),原始核苷酸序列可以由切割片段的数字数据集重构。因为前两个核苷酸(5'-AA)不由任何3-核苷酸遗传分析器识别,导致没有有关数字数据,所以将它们加入重构序列中。此外,尽管在3'末端(A)上的最后一个核苷酸由遗传分析器(GA(3)-49[TAA]识别,这是图2C中星号的意义),这个特异性切割事件不生成解释最后一个核苷酸的数字数据。因此,最后一个核苷酸(A)在由数字数据集重构的过程中加入。由数字数据集重构的完全核苷酸序列经证实等同于原始序列,如沿着该图的右侧两条线显示的。
图2C中的片段信息还可以作为数字数据集显现,其中仅列出起始碱基、片段大小和末端碱基(例如对于HIV-1A1序列,图3C中所示的数字列表,如下文进一步详细讨论的)。仅片段大小是必需的,因为序列位置可以由这个数字系列推断。
一般而言,使用本文称为“cutEvolution”的序列切割工具软件程序,将遗传分析器应用于给定遗传序列。cutEvolution工具是阅读扩增的核苷酸序列文件且生成数字数据集的程序,所述数字数据集是对于给定遗传分析器生成的片段大小和/或片段总数的列表。序列文件的定位和名称、待使用的遗传分析器、以及关于数据的输出定位和输出类型都在cutEvolution项目文件中定义。图2E是显示cutEvolution软件程序20的基本模块的图示。将输入数据存储于项目文件22和序列文件24中。cutEvolution项目文件22可以以XML格式实现,且含有通过cutEvolution软件20的输入处理器26用于找到输入数据的定义、运行工具的参数、以及输出定位和输出类型(文本或图像)。序列文件24包括待分析且转换成遗传图像的遗传序列信息,例如核苷酸或氨基酸序列。
cutEvolution软件20包括遗传分析器的一个或多个集合(例如在图2E中,包括所有3-核苷酸遗传分析器(28a)的集合和所有4-核苷酸遗传分析器的集合)(28b),其存储于机器可读的存储器中。当然,需要时可以包括其他大小的遗传分析器。该程序还包括所谓的输入处理器模块26、切割算法模块30和输出处理器文本模块32a和输出处理器图像模块32b。
扩增的核苷酸序列和遗传分析器通过cutEvolution输入处理器模块26阅读。匹配目的DNA序列末端的小特异性DNA序列(引物组)可以用于那个区域的PCR扩增。然而,在其他应用中,获得待通过遗传分析器的集合分析的序列无需通过使用引物组和PCR完成。下述过程应用于输入应用内的所有扩增的核苷酸序列:
1.装载序列且扫描列表中的每个遗传分析器的出现(对于3切割者64个遗传分析器,对于4切割者256个遗传分析器等)。
2.对于每个匹配,片段大小如下计算:
([目前切割位置]+[遗传分析器的大小])-[先前切割位置]
例外如下:
1.在每次序列扫描开始时,[先前切割位置]设为0。
2.如果未发现匹配,那么片段大小设为原始序列的序列长度。
3.在最后一个匹配后的序列剩余部分是最后一个片段大小。
片段大小以每个遗传分析器的指定系列次序写出,并且遗传分析器的次序通过对于所选序列文件的分析保持恒定。
在特定实施方案中,输出格式可以是逗号分隔值(csv),其可以容易地输入至电子表格和其他程序。在这个实施方案中,输出以表示序列ID(例如受试者ID、引物组ID、克隆#)的列和表示遗传分析器的行所组构。一般而言,数据输出以多种排列,例如具有表示序列ID的列和表示遗传分析器集合的行所组构。
图3A-3D举例说明转换方案,其中通过用四-核苷酸遗传分析器的全集合切割,将HIV-1(人免疫缺陷病毒-1)毒株的整个基因组序列转换为数字数据格式。转换过程通过对于分析的HIV基因组序列的序列数字数据集在开始加入三个核苷酸和在末端加入一个核苷酸而完成。来自这个基因组序列的切割片段在大小和位置中所得到的数字图谱最终描述原始序列信息。
图3B和3C显示使用四-核苷酸遗传分析器的整个集合,将HIV-1核苷酸序列转换成数字数据集。HIV-1A1的核苷酸序列(登记号AB098331;图3C)由HIV序列数据库(因特网网址hiv.lanl.gov)检索,且通过用四-核苷酸遗传分析器的整个集合(总共256个,在图3A中列出且以图3B中的切割次序列出(以AAAA开始且以GGGG结束)切割序列而转换成数字数据集。切割片段的大小通过关于每个遗传分析器的切割次序顺次排列,并且表示切割片段的来自所有256个遗传分析器的数字数据点(鉴定为GA(4)-001至GA(4)-256)以采用的遗传分析器次序排列。这些数字数据集准备输入,以生成遗传图像,如下文进一步详细描述的。
图3C在左上角显示以TGG开始的完全数字数据集。生成的第一个片段(其还推断遗传分析器GA(4)-001的第一次出现)长27个核苷酸,而下一个片段(其推断GA(4)-001)序列的下一次出现)长587个核苷酸(即,这个下一个“切割”在GA(4)-001序列的第一次出现后587个核苷酸出现)。关于第一个遗传分析器(GA(4)-001)的数字数据集片段大小数目以27、587、1、194、19、27、1、1等继续。数字数据集对于每个遗传分析器以切割次序继续(GA(4)-002、GA(4)-003等),其在片段大小数字之间散开。数字的总体集合在图3C的右侧中间以...、1、1、380、25、144、C结束。
图3C包括由“框”围绕的信息区段。这个框在图3D中放大用于容易检查。应当指出图2C和3C给出数据的一般概念。例如,图2C和2D用于显现序列的切割如何出现且片段如何创建。另一方面,图3C和3D提供以制表形式的数据(例如对于不同例子如图2C中所示)可以如何概括且以长数字串的形式置于数字数据集中的例子。图3C和3D还举例说明多少数据正好置于遗传图像中。
在这个数字数据集中,前三个字母(TGG)表示不由任何四-核苷酸遗传分析器切割的前三个核苷酸,随后为一系列数字(其各自指示关于给定遗传分析器的片段大小,例如AAAA以在这个例子中是27、587、1、194等的片段大小(其与切割位置有关)切割),并且随后以C结束,这是在原始遗传序列末端上的单个核苷酸。
5.编码数字数据集以生成遗传图像
随后可以编码使用如上所述的遗传分析器集合整个转换成数字数据的遗传序列信息,以生成遗传图像。数字数据集编码为以关于每个遗传分析器的切割事件/片段次序的图形图像,以确保关于分析的每个序列的切割图谱的唯一性。因此,遗传图像是加密的、压缩形式的数字数据集。
备选地,可以编码通过组合来自所有遗传分析器的切割片段图谱创建的重新组构的数据,以形成遗传图像。此外,编码来自相同核苷酸序列的多个形式的数字数据集(通过使用遗传分析器的不同集合产生)可以增强扫描结果的准确度。遗传图像对于存储和呈现是紧密的、便携式的,并且可以可触摸地并入如本文讨论的标记物等内。遗传图像中的个别数字数据点是可扫描的,用于原始序列信息的比较分析和追踪。
核苷酸序列信息的数字转换使得能够使用高分辨率图形程序,以呈现以紧密和便携式格式的复杂序列信息。数字序列信息使用程序编码为可扫描和可追踪的遗传图像,例如如下文进一步详细描述的。遗传图像可以以多种可获得形式中的任何例如JPEG/PNG/GIF等产生。例如,遗传图像可以作为以PNG形式的热图生成(参见例如,在libpng.org处的环球网)。
由核苷酸序列的片段数据可以生成两个示例性类型的遗传图像,其使用cutEvolution软件工具进行计算。在两类图像中,仅使用遗传分析器的一个集合。需要时,多个遗传图像可以集中在一起,以创建具有更多信息的更大图像。
1.片段块图像(FBI)-在这类图像中,仅关于多个序列的生成片段总数的信息是彩色编码的。这些图像使用两种颜色:一种鉴定序列并且另一种鉴定通过特定遗传分析器生成的片段总数。FBI使用二维(X和Y)轴用于组构,其中序列在一个轴上列出并且遗传分析器在另一个轴上列出。
2.片段行图像(FRI)–在这类图像中,关于一个序列的每个生成片段的大小和次序的信息是彩色编码的。这个图像也使用两种颜色:一种鉴定序列并且另一种鉴定片段大小。FRI使用二维(X和Y)轴用于组构,其中遗传分析器在一个轴上列出并且切割/片段数目在另一个轴上列出。
FBI和FRI图像都以标准便携式网络图形(PNG)文件实现。程序文库用于创建遗传图像,通过利用遗传分析器数据集,以测定在遗传图像内的正确颜色块和位置,且由预定颜色图验证颜色以确保一致性。取决于待存储的数据类型,在遗传图像内的颜色数据指定、块大小和/或数据组构可以进行修饰,以包括其他信息。
为了存储大量数据且仍能够重建原始序列,数据应压缩例如在压缩的二元存储媒介中。cutEvolution工具包括输出处理器模块,以生成例如以PNG形式的图像。cutEvolution的输出处理器图像模块产生满足下述要求的图像:
1.序列数据必须这样压缩,以便可以有效地进行在此类大数据集之间的比较。
2.遗传图像必须使得能够从图像中的任何位置向回追踪至原始序列中的特定定位。当比较两个图像时,这允许向回追踪至原始序列。
3.遗传图像还必须使得能够由遗传图像重构整个原始序列。
遗传图像基于在上文讨论的切割过程中使用的遗传分析器次序创建。例如,在简单的基于FBI PNG的图像中,每列表示序列并且每行表示特定遗传分析器。在这类比对内,在遗传图像中的任何数据点(例如表示为x和y坐标和颜色)可以向回追踪至序列和遗传分析器。这个简单的比对组构可以取决于遗传图像的复杂性和目的进行修饰。数据点的颜色用于编码详细信息,例如患者ID、克隆编号、使用的遗传分析器和片段信息。
FBI的产生显示于图4A和4B中,使用通过基因组葡萄DNA的PCR扩增(使用不同引物组)由葡萄酒样品获得的逆转录病毒元件序列的集合(每个序列通过克隆编号鉴定)。遗传图像使用图4A的程序框图中概述的过程创建,其显示使用cutEvolution软件程序以上文描述的“切割”过程开始的过程。程序生成以数字列表形式的数据和元数据集合,所述数字列表表示相关信息,例如在这个例子中,克隆编号、患者ID编号、遗传分析器和片段数目。在这个具体例子中,序列数据实际上不是一个序列,而是不同逆转录因子的一系列不同序列。这些序列通过PCR使用不同引物组(患者ID编号)获得。这些可以是得自相同引物组的多个序列,因此为了进一步确切地区分哪个序列得自引物组,我们加入克隆编号。这个编号集合转化成遗传图像,例如x、y、彩色RGB形式,其随后作为PNG图像表示。
RGB配色方案使用红色/绿色/蓝色的混合,其中每个颜色允许256个颜色深浅组合。RGB提供总共2563个颜色组合,其等于16,777,216种独特颜色。通过切割程序生成的数据需要对数值作图,所述数值不超过RGB颜色变动的最大限度组合。因为关于受试者的数据很大且最可能产生数百个引物和序列组合,所以2563个组合一般不足以足够地存储信息。为此,可以将每个数据点以两种颜色表示,使用图4B中所示的数据比对(在框中的最大值)。
在图4B中,对于用于生成颜色1的总共8个数码,序列鉴定由引物亚集(其包括数字0-15)、引物ID(其包括数字0-999)、和克隆编号(其包括数字0-999)组成。颜色2用对应于遗传分析器鉴定编号的五个数码(其对于7-核苷酸遗传分析器集合是足够的)和关于片段数目(数字0-999)的三个数码生成。如图4C中所示,通过将十进制值转换成基础256数字,将如上所述比对的关于每个数据点的数值转化成RGB颜色。例如,关于引物-克隆对(颜色1)的数字,例如00113064将是基础256数字001 185 168。关于遗传分析器和片段数目对(颜色2)的数字,例如00064072将是基础256数字000 250 072。
如图4D中所示,最后基于PNG的遗传图像中的每个数据点表示为10x 10像素的框(其对于更高压缩可以是可变的),并且如该图中所示描绘两种颜色(如通过例如图4C中的数据转换测定的)。图4D显示举例说明在最后的遗传图像内的四个数据区的二维组构的特写视图。在这个例子中,3核苷酸遗传分析器的集合用于切割多个序列,并且仅编码片段总数,因此这样组构遗传图像,以便每列表示一个序列,并且每行表示单个遗传分析器。图4D仅显示对应于两个遗传分析器的遗传图像的部分。
图4E举例说明基于PNG的遗传图像。特别地,图4E显示用类似于图1A但对于白酒样品的遗传分析器的集合切割,对于逆转录病毒元件序列组生成的片段总数的1440x 640像素表示。
图7A和7B各自显示类似于图2C、3C和1A的一系列图像。这些图像系列表示使用三-核苷酸遗传分析器集合,将两个短逆转录病毒元件系列(一个来自绿葡萄(图7A)和一个来自红葡萄(图7B)转换成遗传图像。在这个分析中使用的三-核苷酸遗传分析器的完全集合显示于图2A中。使用的遗传分析器的次序显示于图2B中。图7A显示对于关于绿葡萄的逆转录病毒元件序列创建遗传图像,用三-核苷酸遗传分析器的全集合切割和以所示次序的事件流程。线图是切割定位和所得到的片段大小的显现(类似于图2C)。这个数据随后合并成更小的数据集,其中仅片段大小通过切割次序顺次列出;这些片段组随后通过利用的遗传分析器次序列出(数据集类似于图3C)。这个数据集随后可以转换为遗传图像。显示生成的遗传图像的表示(类似于图4E)。图7B类似于7A,但显示由来自红葡萄的逆转录病毒元件序列所得到的数据。
6.遗传图像的比较和解码
解码和阅读在例如标记物、卡或电子屏幕上的遗传图像的基本方法包括步骤:提供遗传图像,阅读且解码遗传图像以生成相应数字数据集,且应用遗传分析器的已知集合以获得原始的相应遗传序列。如果遗传图像在例如移动电话、PDA或相似设备的电子屏幕上表示,那么使用相同基本步骤。解码步骤一般是本文描述的编码步骤的逆转。
此外,通过扫描且重叠在计算机或其他监视器上,或在其他可触摸物体例如标记物、纸或塑料媒介上的图像,可以比较由两个或更多个不同核苷酸序列生成的两个或更多个遗传图像,以鉴定差异例如多态性。使用标准图像形式生成的遗传图像例如PNG或JPEG可以使用任何高分辨率图形或图像扫描仪进行光学扫描,例如平台式扫描仪或护照扫描仪。通过重叠衍生自不同序列的遗传图像,突出显示任何错配/多态性,且随后可以容易地鉴定衍生自数字数据点的有关编码。
不同遗传图像中存在的错配/多态性直接与序列数据中的差异或多态性相关。例如,图5显示用于追踪两个遗传图像的比较中鉴定的多态性回到用于创建遗传图像的原始核苷酸序列的示意性概述。流程图解释通过两个不同遗传图像(A和B)的扫描和重叠鉴定的多态性如何通过包括下述的步骤追踪至多态性核苷酸序列:例如通过重叠两个遗传图像扫描和比较,分析编码的数字序列数据(例如通过分析切割片段的图谱),鉴定切割片段中的错配和有关遗传分析器,且证实任何多态性核苷酸包括主要缺失和/或添加。
每个遗传图像可以是可触摸标记物,其并入机器可读的、编码的数字数据集(其对应于第一个特定生物聚合物的遗传序列数据)。在一些实施方案中,遗传图像可以这样配置,从而使得在第一个和第二个序列之间的相应相似性或差异可以视觉上例如通过人操作者或备选地通过机器进行视觉鉴定。例如,在一些实施方案中,当在图像内存在对于人眼可见的颜色和模式时,在高分辨率遗传图像中的差异可以通过人目视检查区别。为了促进此类比较,例如,遗传图像可以并入半透明材料内,允许覆盖待比较的图像以区别重叠或差异的区域。此外,使用遗传图像的不同集合产生的单个核苷酸序列的数据图像的多重分析还可以确保扫描数据的坚固性。然而,在实践中,通过机器比较不同遗传图像要实际得多,因为在数据集合之间的差异一般很难通过人眼看出。
下述两种因素可以帮助追踪在不同遗传图像与原始核苷酸序列的比较过程中鉴定的多态性。首先,通过用遗传图像的整个集合切割生成的数字序列数据能够解释通过设计在原始序列上的每一个单个核苷酸。其次,设计用于创建切割片段的有序数字数据集以生成遗传图像的编码系统,以保存分析的原始核苷酸序列的唯一性/鉴定。
遗传图像(或潜在的数字数据集)也可以在计算机内分析且比较,例如通过分析遗传图像而甚至无需将其印刷或应用于可触摸媒介,或以其他方式在监视器或屏幕上表示遗传图像。因此,表示遗传图像的多个数据文件可以通过计算机比较而无需人为显现,尽管图像可以通过计算机比较,同时也在计算机监视器上表示。
如上所述,图5显示两个遗传图像A和B比较的具体例子,其中例如通过目视检查或通过计算机比较测定在两个图像之间的特异性错配。其后,取决于错配的数目,引起错配的多态性可以追踪至多个切割片段中的变化。事实上,针对参考序列的一个核苷酸错配可以获得在与那个区域有关的遗传分析器的识别位点中的改变级联(去除和添加),取决于其长度。
例如,图6显示单核苷酸多态性,和关于遗传分析器在多个识别位点中所得到的改变和有关切割片段图谱。对于四-核苷酸遗传分析器,单核苷酸多态性(T至G的变化)导致关于四个遗传分析器的识别位点的去除或添加(ACCT至ACCG、CCTG至CCGG、CTGA至CGGA和TGAA至GGAA)。因此,在24个数字数据点中存在变化。特别地,关于一个遗传分析器的识别位点的去除导致两个切割片段的去除和一个切割片段的添加(提供在三个数据点中的变化),和关于另一个遗传分析器的识别位点的添加去除一个切割片段且加入两个切割片段(提供在另外三个数据点中的变化,总共六个数据点/遗传分析器,和对于四个遗传分析器的24个变化)。
因此,单核苷酸多态性扩增成数字数据点中的许多变化应促成增强的视觉可读性以及此类遗传图像比较的准确度。随后,围绕突出显示/错配片段和各自遗传分析器的切割片段的简要观察精确鉴定错配核苷酸,包括任何主要缺失和/或添加。如果需要证实在这个追踪过程期间鉴定的多态性,那么可以对包含多态性基因座的核苷酸序列的选择区段实施比对分析。
可以创建可以扫描编码的数据且追踪多态性的图像分析程序。因为遗传图像可以是序列数据(RFLP或全序列)的物理表示,所以任何多态性可以致使作为图像模式的变化可见;可以创建且由现有技术改编追踪且分析变化的程序。即使序列数据是加密的,模式变化也仍是可分析的,甚至人可察看的,允许研究者进行不知情研究。这个图像分析程序在基因组学中的应用将是在许多大序列内扫描且检测单核苷酸多态性(SNP)的能力,其编码成遗传图像。因为图像会是相对小的(与完全序列列表相比较),所以可以快速且准确地比较许多序列,而无需下载或存储大序列文件用于分析。
7.物理和电子遗传图像及其用途
如上所述,新遗传图像可以采取在任何数目的基底上的物理形式,基底包括纸、纸板、塑料片层和薄膜、金属、陶瓷及其他材料。遗传图像可以印刷,例如通过激光雕刻,浮雕或以其他方式应用于基底而不限于此。此外,遗传图像应用于其上的基底的性质可以采取许多形状,并且以任何数目的不同物体的形式。例如,基底可以是小塑料卡的部分,或采取小塑料卡的形式,例如信用卡或驾驶执照。基底可以是容器的壁,或附着至容器的标记物,例如医学小瓶。基底可以是任何物体的表面的部分,或附着至任何物体的标记物,所述物体需要特异性鉴定。
遗传图像还可以是例如在计算机监视器上或在电视、移动电话或个人数码助理(PDA)、或任何其他类似设备(其包括可以显示出遗传图像的屏幕)的屏幕上电子和/或光学表示的。遗传图像的这些电子/光学表示可以暂时呈现,同时它们进行分析、扫描和/或与其他遗传图像相比较,并且随后可以从监视器或屏幕删除。当然,遗传图像可以以机器可读形式例如作为数字数据集或作为遗传图像自身例如作为PDF存储。
因此,新遗传图像可以例如连同名字、地址和/或其他信息一起置于个人标识卡上。换言之,新遗传图像可以用作“通用ID”编码,其中每个遗传图像表示独特的基因组序列数据,例如基于个别受试者的遗传材料。一般地,受试者可以由于多种原因随机指定鉴定编号,例如社会安全号、驾驶执照编号、患者ID编号等。患者甚至可以在单个医学网络内累积多个ID编号,例如当他就诊其常规医生时的一个和如果他送到急诊室用于立即护理的另一个。如果患者转移至不同医学网络,那么他甚至可以指定更多ID编号。另一方面,“通用ID”可以首先是独特和特异性的,并且可以是有效的,不论个人可以位于何处。进一步地,因为“通用ID”可以基于加密的序列数据,所以患者的基因组数据的隐私可以得到维护。类似地,此类“通用ID”编码可以建立用于法医目的,系统发育研究,动物实验,食品、生物体和其他生物学产品的管理或安全监控,濒临灭绝物种的监控,合成序列数据的监控或DNA鉴定标签等。
当用作“通用ID”时,遗传图像还可以在移动电话或PDA或其他相似设备的屏幕上表示,无论何时需要时,例如获得对于建筑物(例如法庭或学校)的访问,通过身份检查点,进入飞机或其他安全交通工具或场所,用要求持卡人鉴定的信用卡进行购买(例如在自动化的汽油泵和其他自动化支付系统)。
新遗传图像可以在其中需要个人、动物、植物或微生物鉴定的任何情况下使用。例如,遗传图像可以用于商业中,例如粮食(包装)和农产品,例如以证实特定蔬菜、水果(例如葡萄、苹果或橘子)、鱼(例如用于寿司的金枪鱼)、肉(例如日本神户牛肉)、或加工食品或饮料(例如干酪或葡萄酒)事实上是其声称的那种。
8.遗传图像的错误检验
遗传分析器的第二个集合应用于相同靶遗传序列可以用作所得到的数字数据集和编码的遗传图像的错误检验的良好方法。如果遗传分析器的第二个集合提供数字数据集(和遗传图像),其可以重构以提供相同原始遗传序列,随后可以确保该系统已正确工作。
9.硬件和软件实现
图8是计算机系统1000的一种可能实现的示意图,所述计算机系统1000可以用于与本文描述的任何计算机实现方法结合描述的操作。系统1000包括处理器1010、存储器1020、存储设备1030和输入/输出设备1040。组分1010、1020、1030和1040各自使用系统总线1050互联。处理器1010能够处理用于在系统1000内执行的指令。在一个实现中,处理器1010是单线程处理器。在另一个实现中,处理器1010是多线程处理器。处理器1010能够处理存储于存储器1020中或存储设备1030上的指令,以展示图形信息用于在输入/输出设备1040上的用户界面。
存储器1020将信息存储于系统1000内。在一些实现中,存储器1020是计算机可读媒介。存储器1020可以包括易失性存储器和/或非易失性存储器。
存储设备1030能够提供用于系统1000的大容量存储。在一个实现中,存储设备1030是计算机可读媒介。在多个不同实现中,存储设备1030可以是盘设备,例如硬盘设备或光盘设备,或磁带设备。
输入/输出设备1040提供用于系统1000的输入/输出操作。在一些实现中,输入/输出设备1040包括键盘和/或点击设备。在一些实现中,输入/输出设备1040包括用于展示图形用户界面的显示设备。
所述特点可以以数码电子线路或计算机硬件、软件、固件或其组合实现。该特点可以在以信息载体可触摸体现的计算机程序产品中实现,例如用于通过可编程处理器执行的机器可读的存储设备,并且特点可以通过执行指令程序的可编程处理器执行,以通过在输入数据上操作且生成输出执行所述实现的功能。所述特点可以在一个或多个计算机程序中实现,所述计算机程序在包括耦合的至少一个可编程处理器的可编程系统上执行,以接受来自数据存储系统、至少一个输入设备和至少一个输出设备的数据和指令,且将数据和指令传递给其。计算机程序包括可以在计算机中直接或间接使用的指令集合,以执行一定活动或达到一定结果。计算机程序可以以编程语言的任何形式包括编译或解释的语言书写,并且它可以以任何形式调度,包括作为独立程序或作为模块、组件、子程序或适合于在计算环境中使用的其他单元。
用于执行指令程序的合适处理器包括例如通用和专门目的的微处理器,和唯一处理器或任何种类计算机的多个处理器之一。一般地,处理器将接受来自只读存储器或随机存取存储器或两者的指令和数据。计算机包括用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。一般地,计算机还包括或可操作地耦合至用于存储数据文件的一个或多个大容量存储设备,以与之通信;此类设备包括磁盘,例如内置硬盘和可移动盘;磁性光盘;和光盘。适合于可触摸体现计算机程序指令和数据的存储设备包括所有形式的非易失性存储器,包括例如半导体存储器设备,例如EPROM、EEPROM,和闪速存储器设备;磁盘例如内置硬盘和可移动盘;磁性光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以通过ASIC(应用特异性集成电路)补充或并入ASIC中。
为了提供与用户的相互作用,特点可以在计算机上实现,所述计算机具有用于将信息展示给用户的显示设备例如CRT(阴极射线管)或LCD(液晶显示器)监视器,以及用户可以通过其为计算机提供输入的键盘和点击设备例如鼠标或轨迹球。
特点可以在计算机系统中实现,所述计算机系统包括后端组件,例如数据服务器,或包括中间件组件例如应用服务器或因特网服务器,或包括前端组件例如具有图形用户界面或因特网浏览器的客户计算机,或其任何组合。系统的组件可以通过数码数据通信的任何形式或媒介例如通信网络连接。通信网络的例子包括例如LAN、WAN以及构成因特网的计算机和网络。
计算机系统可以包括客户和服务器。客户和服务器一般彼此遥远且一般通过网络例如所述的那种相互作用。客户和服务器的关系借助于在各自计算机上运行且彼此具有客户-服务器关系的计算机程序发生。
处理器1010执行与计算机程序有关的指令。处理器1010可以包括硬件例如逻辑门、加法器、乘法器和计数器。处理器1010可以进一步包括执行算术和逻辑运算的分开的算术逻辑部件(ALU)。
其他实施方案
本发明的许多实施方案已得到描述。然而,应当理解可以作出多个修饰而不背离本发明的精神和范围。相应地,其他实施方案在下述权利要求的范围内。

Claims (29)

1.一种形成表示核苷酸序列的数字数据集的计算机实现的方法,所述方法包括:
接受表示包含连续系列核苷酸的核苷酸序列的电子信息;
获得遗传分析器的电子集合,其中每个遗传分析器包含“n”个核苷酸,其中所述集合包含在集合中的遗传分析器的“n”个位置各自上在核苷酸序列中存在的“X”个不同核苷酸的所有可能组合;其中所述集合具有已知次序的遗传分析器;其中Xn是集合中的遗传分析器数目;并且其中每个遗传分析器具有独特序列,其提供在“n”个核苷酸的每个区段内或末端上的特定位点上在核苷酸序列内的切割位点,其等同于给定遗传分析器;
将具有遗传分析器的有序集合的核苷酸序列转换成包含一系列数字组的数字数据,其中对于遗传分析器集合的每个独特的遗传分析器生成一组数字,其中所述组中的每个数字包含由给定独特的遗传分析器提供的在核苷酸序列中的相继切割位点之间的核苷酸总数,并且其中数字数据集中的数字组以遗传分析器集合的已知次序组构;和
生成数字数据集,其按次序包含所述核苷酸序列的5'末端的前n–1个核苷酸、所述数字数据和所述核苷酸序列的3'核苷酸。
2.权利要求1的计算机实现的方法,其进一步包括:
将所述数字数据集编码成遗传图像的电子表示;和
将所述遗传图像的电子表示存储于机器可读的存储设备中。
3.权利要求2的计算机实现的方法,其进一步包括将所述电子表示展现在显示设备上,以提供可见的遗传图像。
4.权利要求2的计算机实现的方法,其进一步包括为打印机提供所述电子表示,且将可见的遗传图像印刷在基底上。
5.一种可触摸的机器可读的存储设备,其包含遗传分析器的有序集合的数码表示,其中所述遗传分析器的集合包括一系列核苷酸序列的数码表示;其中每个遗传分析器包括“n”个核苷酸,其中所述集合包括在集合中的遗传分析器的“n”个位置各自上在核苷酸序列中存在的“X”个不同核苷酸的所有可能组合;其中所述集合具有已知次序的遗传分析器;其中Xn是集合中的遗传分析器数目;并且其中每个遗传分析器具有独特序列,其提供在核苷酸序列内的“n”个核苷酸的每个区段内或末端上的特定位点上在核苷酸序列内的切割位点,其等同于给定遗传分析器。
6.权利要求5的存储设备,其中在所述集合内的所述遗传分析器的次序是按字母顺序的。
7.权利要求5的存储设备,其中n=4并且X=4。
8.权利要求5的存储设备,其中所述存储设备包含在计算机内的存储器。
9.权利要求5的存储设备,其中所述存储设备包含便携式和可触摸的机器可读媒介。
10.一种制造物品,其包含
可触摸物体;和
在所述可触摸物体上显示的遗传图像,其中所述遗传图像包含以机器可读形式的非字母数字标记,其中当通过机器阅读时,所述遗传图像促使处理器将遗传图像解码成数字数据集且将数字数据集转换成特定遗传序列。
11.权利要求10的制造物品,其中所述遗传序列是核苷酸序列。
12.权利要求10的制造物品,其中所述遗传序列是氨基酸序列。
13.权利要求10的制造物品,其中所述可触摸物体是容器、纸或塑料片、或标记物。
14.权利要求10的制造物品,其中所述可触摸物体是电子展示设备。
15.权利要求10的制造物品,其中所述可触摸物体是有色像素的阵列。
16.一种可触摸的机器可读存储设备,其包含数字数据集,当通过机器阅读时,其可以促使处理器
(a)将所述数字数据集编码成遗传图像的电子表示,其中所述遗传图像包含以机器可读形式的非字母数字标记,其中当通过机器阅读时,所述遗传图像促使处理器将遗传图像解码,以提供特定遗传序列;或
(b)将所述数字数据集转换成特定遗传序列。
17.权利要求16的可触摸的存储设备,其中所述存储设备包含在计算机内的电子存储器、通用串行总线相容存储器、或磁盘或光盘。
18.一种生成遗传分析器集合的方法,所述方法包括
在每个遗传分析器中选择长度“n”的字符序列;
在每个遗传分析器中选择“X”作为不同字符的数目;
计算在遗传分析器的“n”个位置各自上在序列中存在的“X”个不同字符的所有可能组合,以创建Xn个遗传分析器的基础集合;
将遗传分析器的基础集合以特定次序排列,以创建遗传分析器的有序集合;和
将遗传分析器的有序集合存储于机器可读的存储媒介中。
19.权利要求18的方法,其中所述遗传分析器的有序集合包含一系列核苷酸序列的数码表示;其中每个遗传分析器包括“n”个核苷酸,其中所述集合包含在集合中的遗传分析器的“n”个位置各自上在核苷酸序列中存在的“X”个不同核苷酸的所有可能组合;其中所述集合具有已知次序的遗传分析器;其中Xn是集合中的遗传分析器数目;并且其中每个遗传分析器具有独特序列,其提供在核苷酸序列内的“n”个核苷酸的每个区段内或末端上的特定位点上在核苷酸序列内的切割位点,其等同于给定遗传分析器。
20.权利要求18的方法,其中“n”是4。
21.权利要求18的方法,其中所述字符是氨基酸。
22.一种阅读表示核苷酸序列的遗传图像的方法,所述方法包括
获得权利要求10的制造物品;
扫描所述制造物品以将遗传图像的标记转换成电子数据;
将所述电子数据解码,以获得表示至少一个核苷酸序列的数字数据集;和
将所述数字数据集转换成核苷酸序列。
23.权利要求22的方法,其中将所述数字数据集转换成核苷酸序列包含使用遗传分析器的已知有序集合。
24.一种比较两个或更多个核苷酸序列的方法,所述方法包括
获得至少两个权利要求10的制造物品,所述制造物品表示第一个和第二个核苷酸序列;
扫描所述制造物品以将各自的遗传图像的标记转换成表示第一个和第二个核苷酸序列的电子数据;
比较表示第一个和第二个核苷酸序列的电子数据以定位任何差异;
将任何差异的电子数据解码,以获得表示在第一个和第二个核苷酸序列之间的差异的数字数据集;和
使用遗传分析器的有序集合转换数字数据集,以提供表示在第一个和第二个核苷酸序列之间的差异的核苷酸序列。
25.一种用于生成遗传图像的系统,所述系统包含
处理器;
机器可读的存储设备;和
在所述存储设备中权利要求5的遗传分析器的有序集合;
其中所述处理器由促使处理器执行下述的程序所编程:
接受表示包含连续系列核苷酸的核苷酸序列的电子信息;
从所述存储设备获得遗传分析器的有序集合;
将具有遗传分析器的有序集合的核苷酸序列转换成包含一系列数字组的数字数据,其中对于遗传分析器集合的每个独特的遗传分析器生成一组数字,其中所述组中的每个数字包含由给定独特的遗传分析器提供的在核苷酸序列中的相继切割位点之间的核苷酸总数,并且其中所述数字数据集中的数字组以遗传分析器集合的已知次序组构;和
生成数字数据集,其按次序包含核苷酸序列的5'末端的前n–1个核苷酸、数字数据和核苷酸序列的3'核苷酸。
26.权利要求25的系统,其中所述处理器进一步编程,以将所述数字数据集编码成遗传图像的电子表示;和
将所述遗传图像的电子表示存储于机器可读的存储设备中。
27.权利要求26的系统,其进一步包含显示设备,并且所述处理器进一步编程,以将所述电子表示展现在所述显示设备上,以提供可见的遗传图像。
28.权利要求26的系统,其进一步包含打印机,并且所述处理器进一步编程,为所述打印机提供所述电子表示且促使所述打印机将可见的遗传图像印刷在基底上。
29.一种用于阅读遗传图像的系统,所述系统包含
处理器;
机器可读的存储设备;
扫描图像且将所述图像转换成电子数据的扫描仪;和
在所述存储设备中权利要求5的遗传分析器的有序集合;
其中所述处理器由促使处理器执行下述的程序所编程:
从扫描仪获得电子数据;
从所述存储设备获得遗传分析器的有序集合;
将所述电子数据解码,以获得表示至少一个核苷酸序列的数字数据集,其中所述电子数据包含一系列数字组,并且其中对于遗传分析器集合的每个独特的遗传分析器生成一组数字,其中所述组中的每个数字包含由给定独特的遗传分析器提供的在核苷酸序列中的相继切割位点之间的核苷酸总数,并且其中所述数字数据集中的数字组以遗传分析器集合的已知次序组构;和
将所述数字数据集转换成具有遗传分析器的有序集合的核苷酸序列。
CN2011800314022A 2010-05-17 2011-05-06 用于遗传成像的系统和方法 Pending CN102959552A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/781,679 2010-05-17
US12/781,679 US20110280466A1 (en) 2010-05-17 2010-05-17 Systems and methods for genetic imaging
PCT/US2011/035557 WO2011146263A1 (en) 2010-05-17 2011-05-06 Systems and methods for genetic imaging

Publications (1)

Publication Number Publication Date
CN102959552A true CN102959552A (zh) 2013-03-06

Family

ID=44310399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011800314022A Pending CN102959552A (zh) 2010-05-17 2011-05-06 用于遗传成像的系统和方法

Country Status (7)

Country Link
US (1) US20110280466A1 (zh)
EP (1) EP2572307A1 (zh)
JP (1) JP5863775B2 (zh)
KR (1) KR20130123298A (zh)
CN (1) CN102959552A (zh)
CA (1) CA2799319A1 (zh)
WO (1) WO2011146263A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536046B2 (en) * 2010-01-12 2017-01-03 Microsoft Technology Licensing, Llc Automated acquisition of facial images
US9449191B2 (en) * 2011-11-03 2016-09-20 Genformatic, Llc. Device, system and method for securing and comparing genomic data
US20130252280A1 (en) 2012-03-07 2013-09-26 Genformatic, Llc Method and apparatus for identification of biomolecules
US8787626B2 (en) * 2012-05-21 2014-07-22 Roger G. Marshall OMNIGENE software system
KR101544491B1 (ko) * 2013-12-24 2015-08-17 주식회사 케이티 속임수 데이터를 이용한 개인 유전정보 보호 방법 및 시스템
US10546019B2 (en) * 2015-03-23 2020-01-28 International Business Machines Corporation Simplified visualization and relevancy assessment of biological pathways
KR101581933B1 (ko) * 2015-05-22 2015-12-31 주식회사 씨트링 보안 영상 및 의료 영상을 처리하는 방법 및 이 방법을 포함하는 전자 장치
KR102554211B1 (ko) * 2022-04-25 2023-07-10 이승재 유전자지문 정보를 이용한 추상화 생성 시스템 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030077648A1 (en) * 2001-10-20 2003-04-24 Zelechowski George John Converting human DNA sequence data to computer-generated art imagery
CN101430741A (zh) * 2008-12-12 2009-05-13 深圳华大基因研究院 一种短序列映射方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2408498A1 (en) * 2000-05-10 2001-11-15 E.I. Du Pont De Nemours And Company Method of discovering patterns in symbol sequences
US20100299531A1 (en) * 2004-03-17 2010-11-25 Fidelitygenetic Ltd. Methods for Processing Genomic Information and Uses Thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030077648A1 (en) * 2001-10-20 2003-04-24 Zelechowski George John Converting human DNA sequence data to computer-generated art imagery
CN101430741A (zh) * 2008-12-12 2009-05-13 深圳华大基因研究院 一种短序列映射方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
X XIAO 等: "《Using cellular automata to generate image representation for biological sequences》", 《AMINO ACIDS》 *
冯作化 等: "《医学分子生物学》", 30 September 2001 *

Also Published As

Publication number Publication date
JP5863775B2 (ja) 2016-02-17
KR20130123298A (ko) 2013-11-12
CA2799319A1 (en) 2011-11-24
US20110280466A1 (en) 2011-11-17
EP2572307A1 (en) 2013-03-27
WO2011146263A1 (en) 2011-11-24
JP2013533530A (ja) 2013-08-22

Similar Documents

Publication Publication Date Title
CN102959552A (zh) 用于遗传成像的系统和方法
Keck et al. Navigating the seven challenges of taxonomic reference databases in metabarcoding analyses
Foody et al. Mapping a specific class with an ensemble of classifiers
US20180018422A1 (en) Systems and methods for nucleic acid-based identification
Dvirnas et al. Facilitated sequence assembly using densely labeled optical DNA barcodes: A combinatorial auction approach
Hecht et al. Comparative demography elucidates the longevity of parasitic and symbiotic relationships
Foster et al. MetacodeR: An R package for manipulation and heat tree visualization of community taxonomic data from metabarcoding
CA2757435C (en) Methods for providing a set of symbols uniquely distinguishing an organism such as a human individual
Posada Bioinformatics for DNA sequence analysis
US20200294619A1 (en) Method for compact nomenclature for dna sequences
Bergeron et al. Formal models of gene clusters
Gastineau et al. Complete mitogenome of the invasive land flatworm Parakontikia ventrolineata, the second Geoplanidae (Platyhelminthes) to display an unusually long cox2 gene
Giannerini et al. DNA, dichotomic classes and frame synchronization: a quasi-crystal framework
US20080021798A1 (en) Method For Providing Any Type Of Storage Media Containing Prerecorded Structured Information
Safoury et al. Enriched dna strands classification using cgr images and convolutional neural network
Hall et al. ODS2: a multiplatform software application for creating integrated physical and genetic maps
EP1134687B1 (en) Method for displaying results of hybridization experiments
Akhtar et al. Unraveling the Promise of DNA Data Storage: An Investigative Analysis of Advancements, Challenges, Future Directions
WO2001054067A3 (en) Visualization and processing of multidimensional data using prefiltering and sorting criteria
Likhitha et al. DNA bar-coding: a novel approach for identifying an individual using extended Levenshtein distance algorithm and STR analysis
Liu et al. 2D representation of protein secondary structure sequences and its applications
Sowyanja et al. Finding top-k competitors from large unstructured datasets
Yuan et al. The complete mitochondrial genome of Helice Sheni and its phylogenetic implication
Cao et al. Color Image Encryption Based on an Evolutionary Codebook and Chaotic Systems
Haripriya et al. DNA Based Quick Response (QR) Code for Screening of Potential Parents for Evolving New Silkworm Races of High Productivity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130306