CN112313749A - 使用肽的数据存储 - Google Patents

使用肽的数据存储 Download PDF

Info

Publication number
CN112313749A
CN112313749A CN201880094641.4A CN201880094641A CN112313749A CN 112313749 A CN112313749 A CN 112313749A CN 201880094641 A CN201880094641 A CN 201880094641A CN 112313749 A CN112313749 A CN 112313749A
Authority
CN
China
Prior art keywords
code
digital
sequence
peptide sequence
digital code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880094641.4A
Other languages
English (en)
Inventor
姚钟平
伍卓知
刘重明
谭伟文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hong Kong Polytechnic University HKPU
Original Assignee
Hong Kong Polytechnic University HKPU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hong Kong Polytechnic University HKPU filed Critical Hong Kong Polytechnic University HKPU
Publication of CN112313749A publication Critical patent/CN112313749A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1048Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C13/00Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
    • G11C13/0002Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using resistive RAM [RRAM] elements
    • G11C13/0009RRAM elements whose operation depends upon chemical change
    • G11C13/0014RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material
    • G11C13/0016RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material comprising polymers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C13/00Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
    • G11C13/0002Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using resistive RAM [RRAM] elements
    • G11C13/0009RRAM elements whose operation depends upon chemical change
    • G11C13/0014RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material
    • G11C13/0019RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material comprising bio-molecules
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C13/00Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
    • G11C13/02Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using elements whose operation depends upon chemical change
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Peptides Or Proteins (AREA)
  • Error Detection And Correction (AREA)

Abstract

公开了用于将数字数据存储到肽序列中并从肽序列中检索数字数据的方法和系统。用于将数字数据存储到肽序列中的方法可以包括:将数字数据编码为数字码(402);将所述数字码翻译成肽序列(404);以及合成翻译的肽序列(406)。从肽序列中检索数字数据的方法可以包括:对肽序列测序并确定其顺序(502);将具有确定顺序的所述肽序列转换成数字码(504);以及从所述数字码中解码所述数字数据(506)。开发了具有纠错性能的代码,用于将数字数据编码成肽序列,并且开发了在软件中实现的计算方法以对携带数字数据的肽进行测序。

Description

使用肽的数据存储
技术领域
本发明涉及数据存储和检索,更具体而言,本发明涉及使用肽进行数据存储和检索的方法和系统。
背景技术
随着数字数据以指数速率产生,数字数据的存储对于信息技术的发展变得尤为重要。这些数字数据由0和1位表示,并存储在诸如硬盘驱动器和磁带之类的介质中。许多很少访问的数据已存档在一盘盘磁带上。磁带厚度和磁畴大小的物理限制对有望很快达到平稳状态的最大数据密度造成了限制。为了存储生成的大量数据,需要在专门构建的数据中心拥有巨大的存储空间。此外,认为磁带只能使用数十年,因而需要不时将数据从旧磁带复制到新磁带,这既耗时又昂贵。
满足该需求的新兴技术之一是将数字数据存储在DNA中,其中具有不同侧链的单体(核苷酸)的集合表示数字数据中0和1的不同组合。为了检索数据,对DNA链进行测序,并将单体的序列信息转换回0和1的组合。但是,DNA只有4个天然核苷酸,非天然核苷酸可能无法用于数据存储,因为它们不能被用于DNA测序的酶识别。另外,DNA易于降解,这对于长期的数据存储是有挑战性的。
因此,需要一种寻求解决上述一个或多个问题的、用于存储和检索数字数据的方法和系统。此外,结合本公开的附图和本背景技术,根据随后的详细描述和所附权利要求书,其他期望的特征和特性将变得显而易见。
发明内容
根据第一方面,提供了一种将数字数据存储到肽序列中的方法。
在一个实施方案中,将数字数据存储到肽序列中的方法可以包括:将数字数据编码为数字码;将数字码翻译成肽序列;以及合成翻译的肽序列。
在一个实施方案中,将数字码翻译成肽序列可以包括将位模式或符号模式映射到一个或多个氨基酸中,使得数字码由肽序列中的氨基酸序列表示。
在一个实施方案中,将数字数据存储到肽序列中的方法可以进一步包括基于翻译的肽序列形成肽的混合物。
在一个实施方案中,将数字数据存储到肽序列中的方法可以进一步包括将一个或多个顺序检查位(order-checking bit)添加到数字码中,其中一个或多个顺序检查位可以与数字码中的位或符号的顺序相关联。
在一个实施方案中,将数字数据存储到肽序列中的方法可以进一步包括将一个或多个纠错码添加到数字码中,其中一个或多个纠错码可以包括重复码、卷积码、turbo码、喷泉码、低密度奇偶校验(LDPC)码、里德所罗门(RS)码、哈达玛码(Hadamard code)和汉明(Hamming)码中的任一种或其任何组合。
在一个实施方案中,可以基于数字码或者基于数字码和添加到数字码中的顺序检查位两者来生成一个或多个纠错码。
在一个实施方案中,肽序列可包含不同的官能团、同位素标记或亲和标记。
在一个实施方案中,肽序列可以包含携带数字数据的氨基酸的和携带非数字数据的氨基酸。
根据第二方面,提供了一种从肽序列中检索数字数据的方法。
在一个实施方案中,从肽序列中检索数字数据的方法可以包括:对肽序列测序并确定其顺序;将具有确定顺序的肽序列转换成数字码;以及从数字码中解码数字数据。
在一个实施方案中,将具有确定顺序的肽序列转化为数字码可以包括将肽序列中的一个或多个氨基酸映射到位模式或符号模式中,以便从具有确定顺序的肽序列中的氨基酸序列获得数字码。
在一个实施方案中,从肽序列检索数字数据的方法可以进一步包括分离肽序列与肽的混合物。
在一个实施方案中,数字码可以包括一个或多个顺序检查位,其中一个或多个顺序检查位可以与数字码中的位或符号的顺序相关联。
在一个实施方案中,所述数字码可包括一个或多个纠错码,其中一个或多个纠错码可包括重复码、卷积码、turbo码、喷泉码、LDPC码、RS码、哈达玛码、汉明码中的任一种或其任何组合。
在一个实施方案中,从数字码解码数字数据可以使用算法,所述算法包括置信度传播算法、消息传递算法、和积算法、以及比特翻转算法。
在一个实施方案中,从肽序列中检索数字数据的方法可以进一步包括:对数字码中一个或多个位或符号的顺序进行编码;将顺序检查位与数字码中一个或多个位或符号的编码顺序(经编码的顺序,encoded order)进行比较;以及如果顺序检查位与数字码中一个或多个位或符号的编码顺序不匹配,则指示检测错误。
根据第三方面,提供了一种用于将数字数据存储到肽序列中的系统,该系统包括:合成仪,其被配置为合成肽序列;至少一个处理器,其与合成仪通信;以及至少一个存储器,其包括计算机程序码,所述至少一个存储器和计算机程序码被配置为与至少一个处理器一起使系统至少:将数字数据编码为数字码;将数字码翻译成肽序列;以及使用合成仪合成翻译的肽序列。
在一个实施方案中,当使系统将数字码翻译成肽序列时,至少一个存储器和计算机程序码可以被配置为与至少一个处理器一起使系统至少:将数字码的位模式或符号模式映射到一个或多个氨基酸中,使得数字码由肽序列中的氨基酸序列表示。
在一个实施方案中,系统可以进一步被配置为基于翻译的肽序列形成肽的混合物。
在一个实施方案中,至少一个存储器和计算机程序码可以被配置为与至少一个处理器一起使系统进一步向数字码中添加一个或多个顺序检查位,其中一个或多个顺序检查位可以与数字码中的位或符号的顺序相关联。
在一个实施方案中,至少一个存储器和计算机程序码可以被配置为与至少一个处理器一起使系统进一步将一个或多个纠错码添加到数字码中,其中一个或多个纠错码可以包括重复码、卷积码、turbo码、喷泉码、LDPC码、RS码、哈达玛码和汉明码中的任一种或其任何组合。
在一个实施方案中,可以基于数字码或者基于数字码和添加到数字码中的顺序检查位两者来生成一个或多个纠错码。
在一个实施方案中,肽序列可包含不同的官能团、同位素标记或亲和标记。
在一个实施方案中,肽序列可以包含携带数字数据的氨基酸和携带非数字数据的氨基酸。
根据第四方面,提供了一种用于从肽序列中检索数字数据的系统,该系统包括:测序仪,其被配置为对肽序列测序并确定其顺序;至少一个处理器,其与测序仪通信;以及,至少一个存储器,其包括计算机程序码,所述至少一个存储器和计算机程序码被配置为与至少一个处理器一起使系统至少:使用测序仪对肽序列测序并确定其顺序;将具有确定顺序的肽序列转换成数字码;以及从数字码中解码数字数据。
在一个实施方案中,当系统将具有确定的顺序的肽序列转换成数字码时,至少一个存储器和计算机程序码可以被配置为与至少一个处理器一起使系统至少:将肽序列中的一个或多个氨基酸映射到位模式或符号模式中,以便从具有确定顺序的肽序列中的氨基酸序列获得数字码。
在一个实施方案中,测序仪可以进一步被配置为分离肽序列与肽的混合物。
在一个实施方案中,数字码可以包括一个或多个顺序检查位,其中一个或多个顺序检查位可以与数字码中的位或符号的顺序相关联。
在一个实施方案中,数字码可包括一个或多个纠错码,其中一个或多个纠错码可包括重复码、卷积码、turbo码、喷泉码、LDPC码、RS码、哈达玛码和汉明码中的任一种或其任何组合。
在一个实施方案中,可以使用包括置信度传播算法、消息传递算法、和积算法以及比特翻转算法的算法来从数字码解码数字数据。
在一个实施方案中,至少一个存储器和计算机程序码可以被配置为与至少一个处理器一起使系统进一步:对数字码中的一个或多个位或符号的顺序进行编码;将顺序检查位与数字码中一个或多个位或符号的编码顺序进行比较;以及如果顺序检查位与数字码中一个或多个位或符号的编码顺序不匹配,则指示检测错误。
根据第五方面,提供了一种用于分配肽序列的计算方法,其中该方法包括对一个或多个特征进行识别和评分的算法。
在一个实施方案中,一个或多个特征可以包括:检索到的连续氨基酸的长度;同位素标记;检索到的氨基酸的数目;匹配错误;强度;以及具有不同偏移量的不同离子类型的出现次数。
本公开的实施方案提供了使用肽序列的有效数据存储方法和系统。通过将数字数据的位/符号的模式映射到肽序列的一个或多个氨基酸中来进行数字数据的存储。首先,肽可以提供比DNA高得多的数据密度。除了20种天然氨基酸外,也可以掺入用于数据存储的非天然氨基酸,因为可以使用串联质谱(MS/MS)进行肽测序,而不涉及酶识别。增加的可能单体的集合以及与核苷酸相比氨基酸的更低质量,可以赋予肽比DNA高得多的数据密度。其次,肽通常不如DNA容易降解,因而即使在数百万年之后DNA已经降解时,肽仍然可以被检测到。此外,肽合成工业已经得到很好的发展,并且可以以合理的价格容易地获得各种肽。随着蛋白质组学的发展,已经完善地建立了用于肽的分离、检测和测序的硬件和软件。以非常少的量对混合物中的数千种肽进行测序已成为常规操作,可以在短时间内完成。
附图说明
根据下面仅作为示例的书面描述并结合附图,本公开的实施方案将被更好地理解,并且对于本领域的普通技术人员来说将是显而易见的。
图1描绘了根据本公开的实施方案的、被配置为将数字数据存储到肽序列中的系统的示意图。
图2描绘了根据本公开的实施方案的、被配置为从肽序列检索数字数据的系统的示意图。
图3描绘了根据本公开的实施方案的、适于在图1和图2中描绘的系统中使用的计算机系统的示意图。
图4描绘了流程图,示出根据本公开的实施方案的、将数字数据存储到肽序列中的方法。
图5描绘了流程图,示出根据本公开的实施方案的、从肽序列检索数字数据的方法。
图6描绘了流程图,示出根据本公开的实施方案的、将数字数据编码为数字码的方法,该数字码包括顺序检查位和一个或多个低密度奇偶校验(LDPC)码。
图7描绘了流程图,示出根据本公开的实施方案的、从数字码解码数字数据的方法,该数字码包括顺序检查位和一个或多个LDPC码。
图8描绘了根据本公开的实施方案的、将数字数据存储到肽序列中的图示。
图9A和图9B描绘了根据本公开的实施方案的、从肽序列检索数字数据的图示。
图10描绘了根据本公开的实施方案的、使用纠错方法来确保数据完整性的图示。
图11A至图11S描绘了根据本公开的实施方案的、在位/符号与氨基酸之间的映射的实例的图示。
图12描绘了流程图,示出根据本公开的实施方案的、两阶段测序的方法。
图13描绘了根据本公开的实施方案的、在图论模型中寻找路径的图示。
图14描绘了流程图,示出根据本公开的实施方案的、基于最高强度标签的测序方法。
并且,图15描绘了根据本公开实施方案的、基于最高强度标签的测序方法的图示。
技术人员将理解,图中的元件是为了简洁和清楚而示出的,而不一定按比例描绘。例如,相对于其他元件,可能放大了图示、框图或流程图中的一些元件的尺寸,以帮助提高对本发明实施方案的理解。
具体实施方式
将参考附图仅以举例方式描述本公开的实施方案。附图中相似的参考数字和字符表示相似的元件或等同物。
以下描述的某些部分根据对计算机存储器内的数据的操作的算法和功能表示或符号表示来显式或隐式呈现。这些算法和功能表示或符号表示是数据处理领域的技术人员用来将其工作的实质最有效地传达给本领域其他技术人员的手段。本文中,并且通常情况下,算法被认为是导致期望结果的自相一致的步骤。这些步骤是需要对物理量进行物理操作的那些步骤,所述物理量例如能够被存储、传输、组合、比较和以其他方式操作的电信号、磁信号或光信号。
除非另有特别说明,以及从下文中显而易见,否则应当理解遍及本申请的说明书,使用诸如“存储”、“检索”、“编码”、“解码”、“翻译”、“转换”、“映射”、“添加”、“追加”、“包括”、“生成”、“比较”、“确定”、“指示”、“检测”、“通信”等术语的讨论是指计算机系统或类似电子设备的动作和过程,该动作和过程将表示为计算机系统内的物理量的数据操作并转换成类似地表示为计算机系统或其他信息存储、传输或显示设备内的物理量的其他数据。
本说明书还公开了用于执行方法的操作的装置。这样的装置可以被专门构造用于所需目的,或者可以包括计算机或由存储在其中的计算机程序选择性地激活或重新配置的其他计算设备。本文呈现的算法和显示与任何特定计算机或其他装置都没有内在关联。根据本文的教导,多种仪器均可以与程序一起使用。可替代地,构建用于执行所需方法步骤的更专门的装置可能是合适的。将从下面的描述中呈现计算机的结构。
另外,本说明书还隐含公开了一种计算机程序,因为对于本领域技术人员而言显而易见的是,本文所述方法的各个步骤可以通过计算机代码来实现。该计算机程序不旨在限于任何特定的编程语言及其实施。应当理解,各种编程语言及其编码均可以用于实施本文所包含的公开内容的教导。此外,该计算机程序并不旨在限于任何特定的控制流。计算机程序还有许多其他变型,它们可以使用不同的控制流而不背离本公开的精神或范围。
此外,可以并行而不是顺序地执行计算机程序的一个或多个步骤。这样的计算机程序可以存储在任何计算机可读介质上。计算机可读介质可以包括诸如磁盘或光盘、存储芯片之类的存储设备或适于与计算机接合的其他存储设备。计算机可读介质还可以包括诸如在因特网系统中示例的硬连线介质,或者诸如在GSM移动电话系统中示例的无线介质。当计算机程序被加载并在计算机上运行时,该计算机程序有效地形成实施优选方法的步骤的设备。
在本公开的实施方案中,术语“服务器”的使用可以表示单一计算设备或至少是共同操作以执行特定功能的互连的计算设备的计算机网络。换句话说,服务器可以包含在单一硬件单元内,或者分布在若干或许多不同的硬件单元之间。
术语定义
如本文所用,术语“肽”和“肽序列”是指一串氨基酸残基,其中氨基酸的组装顺序是肽中的肽序列。如本文所用,术语“氨基酸”是指包含胺基(-NH2)和羧基(-COOH)的有机化合物。氨基酸可以是天然的、不常见的、非天然的或合成的,其中实例包括但不限于D旋光异构体或L旋光异构体、以及氨基酸类似物和模拟肽。天然存在的氨基酸的其他实例可以是但不限于丙氨酸、精氨酸、天冬酰胺、天冬氨酸、天冬酰胺(或天冬氨酸)、半胱氨酸、谷氨酸、谷氨酰胺、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸或缬氨酸。在另一个实例中,一些非天然氨基酸可以是但不限于β-高氨基酸、N-甲基氨基酸、α-甲基氨基酸。非天然、不常见或合成氨基酸的其他实例包括但不限于瓜氨酸、羟脯氨酸、正亮氨酸、3-硝基酪氨酸、硝基精氨酸、鸟氨酸、萘丙氨酸、蛋氨酸亚砜、蛋氨酸砜、环己基丙氨酸、环取代苯丙氨酸、酪氨酸或色氨酸衍生物(包括但不限于例如氰基-苯丙氨酸、邻酪氨酸、间酪氨酸、羟基色氨酸、甲氧基色氨酸)或卤素标记的氨基酸衍生物(包括但不限于例如氟/氯/溴/碘-苯丙氨酸、氟色氨酸、氟/氯/溴/碘-丙氨酸)。
如本文所用,术语“肽”是指2个或更多个氨基酸、氨基酸类似物、模拟肽或其任意组合的聚合物。亚基可以通过肽键连接。在另一个实例中,亚基可以通过其他键(例如但不限于酯键或醚键)连接。肽也具有结构,其中该结构通常可以理解为线性或环状的。在一个实例中,肽可以是但不限于二肽、三肽、寡肽或多肽。在另一个实例中,肽的长度可以是约2至100个氨基酸。在又一实例中,肽的长度可以为约2至约10个氨基酸、约5至约15个氨基酸、约10至约20个氨基酸、约15至约25个氨基酸、约20至约30个氨基酸、约25至约35个氨基酸、约30至约40个氨基酸、约35至约45个氨基酸、约40至约50个氨基酸、约45至约55个氨基酸、约50至约60个氨基酸、约55至约65个氨基酸、约60至约70个氨基酸、约65至约75个氨基酸、约70至约80个氨基酸、约75至约85个氨基酸、约80至约90个氨基酸、约85至约95个氨基酸、约90至约100个氨基酸。在又一实例中,肽的长度可以是18个氨基酸。较短的肽合成更便宜、更易于测序且减少了丢失片段,而较长的肽每一肽可存储更多数据,减少了需要分析的肽的数量,并减少地址和纠错费用。
如本文所用,肽序列中的一个或多个氨基酸表示位/符号的模式。因此,肽序列中的氨基酸的序列代表一串位/符号,而位/符号又代表数字数据的一部分。因此,为简单起见,本文中通过肽序列表示的数字数据被称为存储在肽序列中的数字数据。由于以不同的形式或系统表示数字数据,所以肽序列表示的数字数据也可以描述为被编码在肽序列中的数字数据。因此,在肽序列中存储数字数据与将数字数据编码在肽序列中相同。
在本公开中,定义如下:
-N'为LDPC码的代码字长度;
-M'为LDPC码的奇偶校验位(parity bit)的数目;
-K'为LDPC码的信息位数,其中K'=N'–M';
-H为LDPC码的M'×N'奇偶校验矩阵;
-hi,j为矩阵H的第i行、第j列的元素;
-G为LDPC码的生成矩阵(generator matrix),其中GHT=0;
-d=[d1d2…dk'],为信息位的向量;
-p=[p1p2…pM'],为奇偶校验位的向量;
-c=[d p]=[d1d2......dk'p1p2…pM'],为LDPC码的代码字;
-由连续氨基酸形成的部分序列为标签;
-顺序无关的氨基酸组成为氨基酸组合(AAC);
-氨基酸的数目为K;
-氨基酸的集合为A={a1,a2,…,aK};
-氨基酸残基的质量集合为g={g1,g2,…,gK};
-肽序列的长度为N,即肽中氨基酸的数目;
-肽序列为P={P1,P2,…,PN};
-肽P中氨基酸残基的质量集合为m={m1,m2,…,mN};
-氢或质子的质量为mH
-羟基的质量为mOH
-“头部氨基酸”为在整条肽中固定的、接近肽N端的氨基酸残基;
-“尾部氨基酸”为在整条肽中固定的、接近肽C端的氨基酸残基;
-对于具有未保护的N端的肽,连接至头部氨基酸的N端官能团的质量为mN基团,其等于mH
-对于具有未保护的C端的肽,连接至尾部氨基酸的C端官能团的质量为mC基团,其等于mOH
-序列中头部氨基酸残基和尾部氨基酸残基的质量分别为m头部和m尾部,如果没有固定的氨基酸,它们可以为零。
-整条序列的质量为M,用M=∑N j=1mj+mN基团+mC基团表示;
-肽P中b离子的质量集为mb={mb,1,mb,2,…,mb,N+1,mb,N+2},其中,mb,i+1=mb,i+mi,即mb,1=(mN基团-mH),mb,2=(mN基团-mH)+m头部,…,mb,N=M-mH-mC基团-m尾部,mb,N+1=M-mH-mC基团,mb,N+2=M;
-肽P中y离子(b离子的互补离子)的质量集为my={my,1,my,2,…,my,N+1,my,N+2},
其中my=M-mb,而my,i+1=my,i-mi,即my,1=M-(mN基团-mH),my,2=M-(mN基团-mH)-m头部,…,my,N=mH+mC基团+m尾部,my,N+1=mH+mC基团,my,N+2=0;
-理论谱和实验谱之间的质量差集合为△={△1,△2,…,△N},其中,△i∈[-δ,+δ],i=1,2,…,N,且δ是公差值;
-肽P产生的理论谱为T(P);
-串联质谱得到的MS/MS质谱为S;
-代表质谱S的质荷比和强度的对的数目为L;
-质谱S的电荷集合为z={z1,z2,…,zL},通常zi=1,2或3;
-质谱S的质荷比集合为(m/z)={(m/z)1,(m/z)2,…,(m/z)L};
-质谱S中子集的数目为ρ,其中在每个子集中,所有(m/z)比率都是特定片段的同位数(isotope),其中电荷值等于连续(m/z)比率之间的差的倒数;
-第i个子集为Gi,i=1,2,...,ρ;
-子集Gi的单同位素质量(monoisotopic mass)为m'i,i=1,2,…,ρ,可以通过m'i=(m/z)i,0z'i,0-mHz'i,0来计算,其中(m/z)i,0是子集Gi中的最小值,并且z'i,0是(m/z)i,0的相应电荷;
-质谱S的假定b离子的质量集为m'b={m'b,1,m'b,2,…,m'b,L},其中m'b,i=(m/z)izi-mH zi,i=1,2,…,L;
-质谱S的假定y离子的等效b离子质量集为m'y={m'y,1,m'y,2,…,m'y,L},其中m'y,i=M-[(m/z)i zi-mHzi],i=1,2,…,L;
-质谱S的强度集为I={I1,I2,…,IL},其中强度Ii对应于每个i的质荷比(m/z)i,i=1,2,...,L;
-具有质谱S的第J个最高强度的假定b离子的质量为m'B,J
-具有质谱S的第J个最高强度的假定y离子的等效b离子质量为m'Y,J
-候选序列的数目为n;
-用于标签查找方案的具有较高强度等级的质量数为W;
-区块中肽(不包括头部和尾部)的(N-2)符号为S1,S2,...,SN-2
-用于保护序列的符号Si和Sj的顺序的顺序检查位为Qi,j,其中{i,j}={1,2},{2,3},{15,16};
-信息位集的数目为μ;
-补充信息位集的数目为γ;
-LDPC码或RS码中的信息位的数目为α;
-LDPC码或RS码中奇偶校验位的数目为β;
-信息位集为b={b1,b2,…,bμ};
-补充信息位集为b'={b'1,b'2,...,b'γ};
-第j个码的信息位集为b(j)={b1 (j),b2 (j),...,bα (j)},对于LDPC码,j=1,2和3,而对于RS码,j=1,2,3和4;
-第j个码的奇偶校验位集为p(j)={p1 (j),p2(j),…,pβ (j)},对于LDPC码,j=1,2和3,而对于RS码,j=1,2,3和4;
-第j个码的交织奇偶校验位集为P(j)={P1 (j),P2 (j),…,Pβ (j)},对于LDPC码,j=1,2和3;
-地址对为{Ai,1,Ai,2,…,Ai,t},t=2或3,并且i=1,2,…,8t
-整体编码率为R;
-LDPC码的编码率为RLDPC
-RS码的编码率为RRS
将数字数据存储到肽序列中
参照图1,描绘了被配置为将数字数据存储到肽序列中的系统100的示意图。系统100包括配置为合成肽序列的合成仪112,与合成仪112通信的处理器102以及包括计算机程序码的存储器104。存储器104与处理器102通信,使得处理器102可以读取存储在存储器104中的计算机程序码。处理器102然后可以执行计算机程序码以将数字数据编码成肽序列。然后,处理器102将肽序列传送到合成仪112,以便合成仪112可以合成所传送的肽序列。这些组件可以集成在一个位置或分布在不同的位置,并且通信可以实时、近实时或分批执行。
合成仪可以用于将氨基酸组装成所需序列的肽。合成仪112可包括但不限于用于液相肽合成、固相肽合成或微波辅助肽合成的装置/设备。合成仪112还可被配置为包括用于肽纯化方法的装置/设备,所述肽纯化方法例如但不限于反相色谱法、尺寸排阻色谱法、离子交换色谱法、分配色谱法、高效液相色谱法或任何其组合。合成仪112可以是被配置成合成肽序列和/或形成肽混合物的单个装置/设备或一系列装置/设备的组合。
系统100可以被用来实施如图4所示的用于将数字数据存储到肽序列中的方法400。系统100中的处理器102和包括计算机程序码的存储器104可以是如图3所示的通用计算装置的部分,其中处理器102对应于处理器302,并且存储器104对应于存储器304。方法400一般包括:
步骤402:将数字数据编码为数字码;
步骤404:将数字码翻译成肽序列;以及
步骤406:合成翻译的肽序列。
在步骤402,处理器102可以将数字数据编码为数字码。可以从存储器104中检索数字数据,或者可以从外部设备(例如外部硬盘驱动器、光盘等)接收数字数据。数字数据可以是视频、图像、音频、文本、计算机程序等的形式。然后将数字数据编码为数字码,例如位(0和1)或符号(例如数字、字母)的集合。数字码的集合可以以字符串、阵列、向量、矩阵、数据块等的形式来呈现,但不限于这些形式。在实际应用中,可以由用户定义编码方案,并且在编码过程中可以添加其他代码用于各种目的(例如标记、地址指示、精度提高、冗余和纠错)。
为了数据安全的目的,可以在将数字数据编码为数字码之前对其进行加扰、加密或将其译成密码(cipher),该数字码在步骤404被翻译为一条或多条肽中的一个或多个氨基酸。加密系统的实例包括不对称密码演算法(RSA)、椭圆曲线加密算法(ECC)、高级加密算法(AES)和数据加密标准(DES)。可以在将数字数据和/或加密的数据和/或编码的数字码映射到一部分肽或一条或多条肽的氨基酸之前,对它们进行交织。
在步骤404,将在步骤402获得的数字码翻译成肽序列。在本公开的实施方案中,一个或多个氨基酸表示数字码中的位模式或符号模式。例如,氨基酸丝氨酸(“S”)可以表示000的位模式,氨基酸苏氨酸(“T”)可以表示001的位模式。因此,肽中的氨基酸序列对应于数字码的一部分,并携带数字数据的部分信息。下面列出了氨基酸与位/符号模式之间的映射方法实例,其中丙氨酸(“A”)、苏氨酸(“T”)、亮氨酸(“L”)、缬氨酸(“V”)、谷氨酸(“E”)、组氨酸(“H”)、酪氨酸(“Y”)、苯丙氨酸(“F”)、天冬氨酸(“D”)、赖氨酸(“K”)、精氨酸(“R”)、脯氨酸(“P”)、色氨酸(“W”)、半胱氨酸(“C”)、甘氨酸(“G”)、丝氨酸(“S”)、天冬酰胺(“N”)和谷氨酰胺(“Q”)为氨基酸实例表示。图11A至图11S示出了位/符号与氨基酸之间的映射的实例。
映射方法1:独立且固定的位与氨基酸映射,例如,位“0”被映射到“A”;位“1”被映射到“T”(图11A)。
映射方法2:独立且固定的位与氨基酸映射,例如,位“000”被映射到“A”;位“001”被映射到“T”;位“010”被映射到“L”;位“011”被映射到“V”(图11B)。
映射方法3:独立且固定的符号与氨基酸的映射,例如将符号“0”、“1”、“2”、“3”、“4”、“5”、“6”和“7”分别被映射到“A”、“T”、“L”、“V”、“E”、“H”、“Y”和“F”(图11C)。
映射方法4:独立且固定的符号与氨基酸的映射,例如符号“0”被映射到“AAA”;符号“1”被映射到“AAT”;符号“7”被映射到“TTT”(图11D)。
映射方法5:独立且固定的符号与氨基酸的映射,例如符号“00”被映射到“A”;符号“01”被映射到“T”;符号“22”被映射到“D”(图11E)。
映射方法6:独立且固定的符号与氨基酸的映射,例如符号“00”被映射到“AAA”;符号“01”被映射到“AAT”;符号“77”被映射到“VVV”(图11F)。
映射方法7:依赖且固定的位与氨基酸的映射,其中当前位与氨基酸的映射取决于先前的氨基酸,例如,如果先前的氨基酸为“A”,则位“0”被映射到“T”且位“1”被映射到“A”。如果先前的氨基酸为“T”,则位“0”被映射到“A”且位“1”被映射到“T”(图11G)。其他可能的排列也可用于依赖且固定的位与氨基酸映射(图11H至图11J)。
映射方法8:依赖且固定的符号与氨基酸的映射,其中当前符号与氨基酸的映射取决于先前的氨基酸,例如在图11K(a)中,如果先前的氨基酸是“A”,则符号“0”、“1”、“2”、“3”、“4”、“5”、“6”和“7”分别被映射到“T”、“L”、“V”、“E”、“H”、“Y”、“F”和“A”;如果先前的氨基酸是“T”,则符号“0”、“1”、“2”、“3”、“4”、“5”、“6”和“7”被分别映射到“L”、“V”、“E”、“H”、“Y”、“F”、“A”和“T”。在图11K(b)中,如果先前的氨基酸是“A”,则不能将符号映射到“A”(图11K(a)、图11K(b))。
映射方法9:依赖且固定的符号与氨基酸的映射,其中当前的符号与氨基酸的映射取决于先前的氨基酸,例如在图11L(a)中,如果先前的氨基酸为“AAA”,则符号“0”、“1”、“2”、“3”、“4”、“5”、“6”和“7”分别被映射到“AAT”、“ATA”、“ATT”、“TAA”、“TAT”、“TTA”、“TTT”和“AAA”;如果先前的氨基酸是“AAT”,则符号“0”、“1”、“2”、“3”、“4”、“5”、“6”和“7”分别被映射到“ATA”、“ATT”、“TAA”、“TAT”、“TTA”、“TTT”、“AAA”和“AAT”。在图11L(b)中,如果先前的氨基酸是“AAA”,则不能将符号映射到“AAA”(图11L(a)、11L(b))。
映射方法10:依赖且固定的符号与氨基酸的映射,其中当前符号与氨基酸的映射取决于先前的氨基酸,例如,如果先前的氨基酸为“A”,则符号“00”、“01”、“02”、“10”、“11”、“12”、“20”、“21”和“22”分别被映射到“T”、“L”、“V”、“E”、“H”、“Y”、“F”、“D”和“A”;如果先前的氨基酸是“T”,则符号“00”、“01”、“02”、“10”、“11”、“12”、“20”、“21”和“22”分别被映射到“L”、“V”、“E”、“H”、“Y”、“F”、“D”、“A”和“T”(图11M)。
映射方法11:依赖且固定的符号与氨基酸的映射,其中当前的符号与氨基酸的映射取决于先前的氨基酸,例如如果先前的氨基酸为“AAA”,则符号“00”、“01”、“02”、“03”、……、“76”和“77”分别被映射到“AAT”、“AAL”、“AAV”、“ATA”、……、“VVV”和“AAA”;如果先前的氨基酸是“AAT”,则符号“00”、“01”、“02”、“03”、…、“76”和“77”分别被映射到“AAL”、“AAV”、“ATA”、“ATT”、…、“AAA”和“AAT”(图11N)。
映射方法12:独立且随机的位与氨基酸的映射,其中当前位与氨基酸映射与先前的氨基酸无关,例如,位“0”被映射到“A”或“T”或“L”或“V”,其中“A”、“T”、“L”和“V”可以以相等或不相等的概率被选择;位“1”映射到“E”或“H”或“Y”或“F”,其中“E”、“H”、“Y”和“F”可以以相等或不相等的概率被选择(图11O)。
映射方法13:独立且随机的符号与氨基酸的映射,其中当前的符号与氨基酸的映射与先前的氨基酸无关,例如,符号“0”被映射到“A”或“T”,其中“A”和“T”可以以相等或不相等的概率被选择;符号“3”被映射到“Y”或“F”,其中“Y”和“F”可以以相等或不相等的概率被选择(图11P)。
映射方法14:独立且随机的符号与氨基酸的映射,其中当前的符号与氨基酸的映射与先前的氨基酸无关,例如,符号“0”被映射到“AAA”或“AAT”,其中“AAA”和“AAT”可以以相等或不相等的概率被选择;符号“3”被映射到“TTA”或“TTT”,其中“TTA”和“TTT”可以以相等或不相等的概率被选择(图11Q)。
映射方法15:独立且随机的符号与氨基酸的映射,其中当前的符号与氨基酸的映射与先前的氨基酸无关,例如,符号“00”被映射到“A”或“T”,其中“A”和“T”可以以相等或不相等的概率被选择;符号“22”被映射到“N”或“Q”,其中“N”和“Q”可以以相等或不相等的概率被选择(图11R)。
映射方法16:独立且随机的符号与氨基酸的映射,当前的符号与氨基酸的映射与先前的氨基酸无关,例如,符号“00”被映射到“AA”或“AT”或“AL”或“AV”,其中“AA”、“AT”、“AL”和“AT”可以以相等或不相等的概率被选择;符号“22”被映射到“DA”或“DT”或“DL”或“DV”,其中“DA”、“DT”、“DL”和“DT”可以以相等或不相等的概率被选择(图11S)。
应当理解,映射方法可以有其他变化,并且可以使用映射方法的组合来将数字码映射到氨基酸。还应理解,除了映射以外,还可以有其他翻译方法将数字码翻译成肽序列。
在步骤406,将翻译的肽序列合成为肽。由于肽序列是从数字码翻译的,因此合成的肽携带数字数据。在本公开的实施方案中,由于与存储离散肽相比需要较少的空间,因此可以将携带数字数据的肽进行混合以形成肽的混合物。可以通过包括但不限于液相肽合成、固相肽合成或微波辅助肽合成的方法来合成肽。肽也可以经历肽纯化,以使获得的肽不在混合物中,其中肽纯化方法包括但不限于反相色谱法、尺寸排阻色谱法、离子交换色谱法、分配色谱法、高性能液相色谱法或其任何组合。
可以在不同条件下存储合成的肽和肽的混合物。通常应理解,储存条件取决于要储存的肽的性质。在一个实例中,条件可以包括但不限于温度或相。在另一个实例中,肽可以以固相或液相存储。在另一个实例中,肽的混合物可以粉末形式或溶液形式保存在干燥室中,并在-80℃至-20℃之间储存。
纠错方法
当执行方法400的步骤402时,可以将数字数据有利地编码为带有纠错码的数字码。在一种设置中,将数字数据编码为数字码。然后将纠错码添加到数字码中。因此,纠错码是数字码的补充。合适的纠错方法在数据存储和检索过程中发生错误时提供恢复原始数字数据的能力。在下文中,术语“起始数字码”用于指从原始数字数据生成的数字码。起始数字码是没有任何纠纠错码的数字码。
图10示出了纠错方法的实例。实例纠错方法将两个冗余位添加到起始数字码中的每个位。因此,纠错方法为起始数字码增加了冗余。例如,起始数字码中的位0被添加了附加的0位,而起始数字码中的位1被添加了附加的1位。在该实例中,具有纠错码的数字码被转换为:(0,1)→(000,111)。如本文所使用的,术语“冗余”是指在数据存储/检索/传输期间为信息的重复或包含附加信息而产生的额外数据。通过增加冗余,可以有利地实现纠错和错误检测。在图10的实例中,纠错方法允许通过解码表中所示的“多数表决”来校正三元位组中任何一个位的错误。纠错方法还允许略去三元位组中的多达2位(图中未显示)。值得注意的是,尽管这种三重模块冗余易于实施,但它是一种效率相对低的纠错方法。在本公开中,设计了一种基于顺序检查位以及一个或多个LDPC码或一个或多个RS码的更有效的纠错方法,以在肽的合成、检测和测序期间校正错误。
图6示出了流程图,该流程图示出了将数字数据编码为数字码的方法600,该数字码包括顺序检查位和一个或多个LDPC码。顺序检查位和一个或多个LDPC码形成纠错方法。在一个实例中,提供表示数字数据的信息的数字码作为起始数字码。在步骤602,基于起始数字码中的一个或多个位/符号顺序或位/符号的片段来生成顺序检查位。当在数据存储/检索/传输期间处理数字码时,顺序检查位具有保护起始数字码中正确的位/符号顺序的功能。
在一种设置中,将顺序检查位作为冗余位添加到起始数字码中,其可以包含起始数字码中某些位/符号的正确顺序的信息。可以根据用户定义的规则确定顺序检查位的值,例如,如果后续符号的值较小,则将顺序检查位“1”添加到符号。例如,起始数字码的符号为32。然后根据上面的实例性用户定义的规则添加顺序检查位。由于第一符号(即“3”,表示3个位“011”)具有比第二符号(即“2”,表示3个位“010”)更大的值,因此冗余位“1”作为顺序检查位被添加。可以对第二符号重复相同的过程以添加顺序检查位。因此,可以有一个或多个从起始数字码生成的顺序检查位。在一个实例中,可以在执行步骤604之前将所生成的顺序检查位添加到起始数字码并成为数字码的一部分。
在步骤604,基于从步骤602获得的数字码来生成一个或多个LDPC码。步骤602的数字码包括起始数字码和顺序检查位。这样,一个或多个LDPC码就能够校正起始数字码和顺序检查位。LDPC码是使用稀疏二分图构造的线性纠错码。将LDPC码编码为数字码包括:(1)构造稀疏奇偶校验矩阵,以及(2)使用该矩阵生成代码字。代码字包含信息位和奇偶校验位,其中奇偶校验位是附加到信息位的冗余位。根据某些(偶数或奇数)信息位中位为1的总数,将奇偶校验位设置为0或1,这可以有利地用于检测和/或校正信息位中的错误。在替代实施方案中,纠错码可以包括重复码、卷积码、turbo码、喷泉码、LDPC码、RS码、哈达玛码和汉明码中的任一种或其任何组合。
在步骤606,使用起始数字码(表示原始数字数据)的信息、顺序检查位(在步骤602生成)和一个或多个LDPC码(在步骤604生成)构建位或符号的块。尽管描述了将数字数据编码为具有位或符号块结构的数字码,但是应理解,用户可以确定使用具有任何结构编码的数字码。
实施例:使用顺序检查位和一个或多个LDPC码对数字数据进行编码
作为方法600的说明性实例,数字数据编码为具有850个信息位b={b1,b2,…,b850}的起始数字码。使用纠错方法处理起始数字码,然后将其存储到40个16-mer肽序列中。换句话说,将850个信息位的起始数字码及其纠错码一起翻译成40个肽序列,每个序列具有16个氨基酸。在一种设置中,起始数字码被编码为40个符号序列(即Seq#1,Seq#2,...,Seq#40),每个肽序列具有16个符号(即S1,S2,...,S16),并且每个符号表示一个3位模式。每个符号对应于合成的肽序列中的氨基酸,并且每个符号序列对应于肽序列。
在添加纠错码之前,可以以另一种格式来排列起始数字码。在该实例中,在添加纠错码之前,将起始数字码重新格式化为序列矩阵。表1示出了该实例的符号序列。如表1所示,每个序列(即Seq#1,Seq#2,…,Seq#40)包括16个符号,其中16个符号中的2个用作地址对(即{Ai,1,Ai,2},i=1,2,…,40),其中i是序列号。在表1中,地址对占据每个肽序列的前2个符号。在另一种设置中,地址对可以占据每个肽序列的任何2个符号。
肽序列(例如Seq#1)的地址对用于按照肽序列(例如Seq#1,Seq#2等)的顺序指示肽序列(例如Seq#1)的位置。例如,肽序列Seq#j可以具有A1,1为000且A1,2为001的地址对值,将其组合以提供地址值000001。进一步地,肽序列Seq#k可以具有A2,1为000且A2,2为000的地址对值,将其组合以提供地址值000000。因此,基于地址值,表1的肽序列以Seq#k开始,随后为Seq#j。这样,当通过测序从合成的肽中检索数据时,肽序列的地址对指示正确的肽序列顺序,进而允许基于地址对指示的顺序重构数字码(包括任何纠错码)。肽序列的地址也可以使用肽序列的多于或少于2个符号。
由于有2-符号地址对,因此16-mer肽序列中的14个符号可用于表示信息位。因此,在40个肽序列中总共有560个符号可用于表示850个信息位。在一种设置中,根据以下设置将信息位b填充在数据块中:
-位b1-b400填充在肽序列Seq#1至Seq#40的符号S3-S7的第二位和第三位中;
-位b401-b760填充在肽序列Seq#1至Seq#40的符号S14–S16中;
-位b761-b850填充在在肽序列Seq#11至Seq#40的符号S13中;以及
-位b851-b970填充在符号S4-S6的第一位中,并设为零。这些位被设为零,以便每个序列中至少有三个符号的值为0,1,2,3。在一些实施方案中,要映射到值为0,1,2和3的3位符号的氨基酸是亲水性氨基酸。
如表1所示,肽序列中还存在LDPC码的顺序检查位Q和冗余位Pi (j),i=1,2,…,β,j=1,2和3。在步骤602添加顺序检查位Q,并在步骤604添加LDPC码的冗余位Pi (j)
从步骤602开始,基于表1中排列的数字码生成顺序检查位。对于40条肽序列中的每一条,生成两个顺序检查位以分别保护以下项的顺序:(i)S1和S2,以及(ii)S15和S16。S1和S2的顺序受符号S3保护,而S15和S16的顺序受符号S7保护。在一种设置中,符号S3的第一位(Q1,2)是保护S1和S2的顺序的顺序检查位。S15和S16的顺序受符号S7的第一位(Q15,16)中的顺序检查位保护。在其他设置中,可以将3-位符号S3或S7中的第二位或第三位用作顺序检查位。
因此,在此实施例中,S3的第一位(Q1,2)检查符号S1和S2的顺序,而S7的第一位(Q15,16)检查符号S15和S16的顺序。在此实例中,确定顺序检查位的值的用户定义规则为:
-如果符号Si的值大于或等于符号Si+1的值,则将顺序检查位指定为“1”;以及
-如果符号Si的值小于符号Si+1的值,则将顺序检查位指定为“0”。
例如,如果S15=101且S16=001,则根据规则,符号S7中的顺序检查位(Q15,16)的值为“1”。而且,根据规则,如果S1=110,并且S2=111,则符号S3中的顺序检查位(Q1,2)的值为“0”。可以根据本文中未示出的其他用户定义规则来生成顺序检查位。也可以使用不同的用户定义规则在同一数字码中生成不同的顺序检查位。
在步骤604,基于起始数字码和顺序检查位,生成一个或多个LDPC码。表1所示的实例中使用了三个LDPC码。在该实例中,由LDPC码生成的奇偶校验位填充符号S8至S12(在肽序列Seq#1至Seq#40中)和符号S13(在肽序列Seq#1至Seq#10中)。表1的肽序列中的奇偶校验位的数目为630,而要被编码的位的总数为1050(包括850个信息位b、120位的零位和80位的顺序检查位)。在该实施方案中,出于LDPC编码的目的,地址对不包括在该1050个位中,这允许更多的氨基酸用于存储数字数据。换句话说,在40×16数据块中,对应于数字数据的信息位/符号的数目增加了。在解码过程中,假定地址对是正确的,基于此可以排列肽序列。在一些其他实施方案中,地址对可以包括在信息位中并且被考虑用于LDPC编码或其他纠错码。特别地,如果每条肽的长度更长(例如500-mer),则分开编码每条肽以更有效地保护其地址和存储在该肽中的数字数据。对于通过LDPC编码的1050位的该实例,如果生成一个LDPC码,则LDPC码应具有包括1680位的代码字,表示为(1680,1050)。由于总共有850个信息位,因此总编码率R为R=850/1680=0.5060。在优选的方法中,由于每个符号有3个位,所以生成了三个(560,350)LDPC码而不是一个(1680,1050)LDPC码,并且LDPC码的编码率RLDPC为RLDPC=350/560=0.625。在替代实施方案中,由于可以将3-位符号的位划分为3组,因此可使用3种不同的纠错码,它们可以具有不同的纠错能力,从而结合起来可以提供更稳健和有效的纠错性能。换句话说,将步骤602之后的所有符号(所有40个序列的符号S3-S7和S14-S16以及最后30个序列的S13)的第j(j=1,2和3)位传递给第j个LDPC码作为信息位。基于以下编码方法生成三个(560,350)LDPC码。
符号 S<sub>1</sub> S<sub>2</sub> S<sub>3</sub> S<sub>4</sub> S<sub>5</sub> S<sub>6</sub> S<sub>7</sub> S<sub>8</sub> S<sub>9</sub> S<sub>10</sub> S<sub>11</sub> S<sub>12</sub> S<sub>13</sub> S<sub>14</sub> S<sub>15</sub> S<sub>16</sub>
Q<sub>1,2</sub> b<sub>851</sub> b<sub>852</sub> b<sub>853</sub> Q<sub>15,16</sub> P<sub>1</sub><sup>(1)</sup> P<sub>2</sub><sup>(1)</sup> P<sub>3</sub><sup>(1)</sup> P<sub>4</sub><sup>(1)</sup> P<sub>5</sub><sup>(1)</sup> P<sub>201</sub><sup>(1)</sup> b<sub>401</sub> b<sub>402</sub> b<sub>403</sub>
Seq#1 A<sub>1,1</sub> A<sub>1,2</sub> b<sub>1</sub> b<sub>2</sub> b<sub>3</sub> b<sub>4</sub> b<sub>5</sub> P<sub>1</sub><sup>(2)</sup> P<sub>2</sub><sup>(2)</sup> P<sub>3</sub><sup>(2)</sup> P<sub>4</sub><sup>(2)</sup> P<sub>5</sub><sup>(2)</sup> P<sub>201</sub><sup>(2)</sup> b<sub>404</sub> b<sub>405</sub> b<sub>406</sub>
b<sub>6</sub> b<sub>7</sub> b<sub>8</sub> b<sub>9</sub> b<sub>10</sub> P<sub>1</sub><sup>(3)</sup> P<sub>2</sub><sup>(3)</sup> P<sub>3</sub><sup>(3)</sup> P<sub>4</sub><sup>(3)</sup> P<sub>5</sub><sup>(3)</sup> P<sub>201</sub><sup>(3)</sup> b<sub>407</sub> b<sub>408</sub> b<sub>409</sub>
Q<sub>1,2</sub> b<sub>854</sub> b<sub>854</sub> b<sub>856</sub> Q<sub>15,16</sub> P<sub>6</sub><sup>(1)</sup> P<sub>7</sub><sup>(1)</sup> P<sub>8</sub><sup>(1)</sup> P<sub>9</sub><sup>(1)</sup> P<sub>10</sub><sup>(1)</sup> P<sub>202</sub><sup>(1)</sup> b<sub>410</sub> b<sub>411</sub> b<sub>412</sub>
Seq#2 A<sub>2,1</sub> A<sub>2,2</sub> b<sub>11</sub> b<sub>12</sub> b<sub>13</sub> b<sub>14</sub> b<sub>15</sub> P<sub>6</sub><sup>(2)</sup> P<sub>7</sub><sup>(2)</sup> P<sub>8</sub><sup>(2)</sup> P<sub>9</sub><sup>(2)</sup> P<sub>10</sub><sup>(2)</sup> P<sub>202</sub><sup>(2)</sup> b<sub>413</sub> b<sub>414</sub> b<sub>415</sub>
b<sub>16</sub> b<sub>17</sub> b<sub>18</sub> b<sub>19</sub> b<sub>20</sub> P<sub>6</sub><sup>(3)</sup> P<sub>7</sub><sup>(3)</sup> P<sub>8</sub><sup>(3)</sup> P<sub>9</sub><sup>(3)</sup> P<sub>10</sub><sup>(3)</sup> P<sub>202</sub><sup>(3)</sup> b<sub>416</sub> b<sub>417</sub> b<sub>418</sub>
Q<sub>1,2</sub> b<sub>857</sub> b<sub>858</sub> b<sub>859</sub> Q<sub>15,16</sub> P<sub>11</sub><sup>(1)</sup> P<sub>12</sub><sup>(1)</sup> P<sub>13</sub><sup>(1)</sup> P<sub>14</sub><sup>(1)</sup> P<sub>15</sub><sup>(1)</sup> P<sub>203</sub><sup>(1)</sup> b<sub>419</sub> b<sub>420</sub> b<sub>421</sub>
Seq#3 A<sub>3,1</sub> A<sub>3,2</sub> b<sub>21</sub> b<sub>22</sub> b<sub>23</sub> b<sub>24</sub> b<sub>25</sub> P<sub>11</sub><sup>(2)</sup> P<sub>12</sub><sup>(2)</sup> P<sub>13</sub><sup>(2)</sup> P<sub>14</sub><sup>(2)</sup> P<sub>15</sub><sup>(2)</sup> P<sub>203</sub><sup>(2)</sup> b<sub>422</sub> b<sub>423</sub> b<sub>424</sub>
b<sub>26</sub> b<sub>27</sub> b<sub>28</sub> b<sub>29</sub> b<sub>30</sub> P<sub>11</sub><sup>(3)</sup> P<sub>12</sub><sup>(3)</sup> P<sub>13</sub><sup>(3)</sup> P<sub>14</sub><sup>(3)</sup> P<sub>15</sub><sup>(3)</sup> P<sub>203</sub><sup>(3)</sup> b<sub>425</sub> b<sub>426</sub> b<sub>427</sub>
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
Q<sub>1,2</sub> b<sub>878</sub> b<sub>879</sub> b<sub>880</sub> Q<sub>15,16</sub> P<sub>46</sub><sup>(1)</sup> P<sub>47</sub><sup>(1)</sup> P<sub>48</sub><sup>(1)</sup> P<sub>49</sub><sup>(1)</sup> P<sub>50</sub><sup>(1)</sup> P<sub>210</sub><sup>(1)</sup> b<sub>482</sub> b<sub>483</sub> b<sub>484</sub>
Seq#10 A<sub>10,1</sub> A<sub>10,2</sub> b<sub>91</sub> b<sub>92</sub> b<sub>93</sub> b<sub>94</sub> b<sub>95</sub> P<sub>46</sub><sup>(2)</sup> P<sub>47</sub><sup>(2)</sup> P<sub>48</sub><sup>(2)</sup> P<sub>49</sub><sup>(2)</sup> P<sub>50</sub><sup>(2)</sup> P<sub>210</sub><sup>(2)</sup> b<sub>485</sub> b<sub>486</sub> b<sub>487</sub>
b<sub>96</sub> b<sub>97</sub> b<sub>98</sub> b<sub>99</sub> b<sub>100</sub> P<sub>46</sub><sup>(3)</sup> P<sub>47</sub><sup>(3)</sup> P<sub>48</sub><sup>(3)</sup> P<sub>49</sub><sup>(3)</sup> P<sub>50</sub><sup>(3)</sup> P<sub>210</sub><sup>(3)</sup> b<sub>488</sub> b<sub>489</sub> b<sub>490</sub>
Q<sub>1,2</sub> b<sub>881</sub> b<sub>882</sub> b<sub>883</sub> Q<sub>15,16</sub> P<sub>51</sub><sup>(1)</sup> P<sub>52</sub><sup>(1)</sup> P<sub>53</sub><sup>(1)</sup> P<sub>54</sub><sup>(1)</sup> P<sub>55</sub><sup>(1)</sup> b<sub>761</sub> b<sub>491</sub> b<sub>492</sub> b<sub>493</sub>
Seq#11 A<sub>11,1</sub> A<sub>11,2</sub> b<sub>101</sub> b<sub>102</sub> b<sub>103</sub> b<sub>104</sub> b<sub>105</sub> P<sub>51</sub><sup>(2)</sup> P<sub>52</sub><sup>(2)</sup> P<sub>53</sub><sup>(2)</sup> P<sub>54</sub><sup>(2)</sup> P<sub>55</sub><sup>(2)</sup> b<sub>762</sub> b<sub>494</sub> b<sub>495</sub> b<sub>496</sub>
b<sub>106</sub> b<sub>107</sub> b<sub>108</sub> b<sub>109</sub> b<sub>110</sub> P<sub>51</sub><sup>(3)</sup> P<sub>52</sub><sup>(3)</sup> P<sub>53</sub><sup>(3)</sup> P<sub>54</sub><sup>(3)</sup> P<sub>55</sub><sup>(3)</sup> b<sub>763</sub> b<sub>497</sub> b<sub>498</sub> b<sub>499</sub>
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
Q<sub>1,2</sub> b<sub>965</sub> b<sub>966</sub> b<sub>967</sub> Q<sub>15,16</sub> P<sub>191</sub><sup>(1)</sup> P<sub>192</sub><sup>(1)</sup> P<sub>193</sub><sup>(1)</sup> P<sub>194</sub><sup>(1)</sup> P<sub>195</sub><sup>(1)</sup> b<sub>845</sub> b<sub>743</sub> b<sub>744</sub> b<sub>745</sub>
Seq#39 A<sub>39,1</sub> A<sub>39,2</sub> b<sub>381</sub> b<sub>382</sub> b<sub>383</sub> b<sub>384</sub> b<sub>385</sub> P<sub>191</sub><sup>(2)</sup> P<sub>192</sub><sup>(2)</sup> P<sub>193</sub><sup>(2)</sup> P<sub>194</sub><sup>(2)</sup> P<sub>195</sub><sup>(2)</sup> b<sub>846</sub> b<sub>746</sub> b<sub>747</sub> b<sub>748</sub>
b<sub>386</sub> b<sub>387</sub> b<sub>388</sub> b<sub>389</sub> b<sub>390</sub> P<sub>191</sub><sup>(3)</sup> P<sub>192</sub><sup>(3)</sup> P<sub>193</sub><sup>(3)</sup> P<sub>194</sub><sup>(3)</sup> P<sub>195</sub><sup>(3)</sup> b<sub>847</sub> b<sub>749</sub> b<sub>750</sub> b<sub>751</sub>
Q<sub>1,2</sub> b<sub>968</sub> b<sub>969</sub> b<sub>970</sub> Q<sub>15,16</sub> P<sub>196</sub><sup>(1)</sup> P<sub>197</sub><sup>(1)</sup> P<sub>198</sub><sup>(1)</sup> P<sub>199</sub><sup>(1)</sup> P<sub>200</sub><sup>(1)</sup> b<sub>848</sub> b<sub>752</sub> b<sub>753</sub> b<sub>754</sub>
Seq#40 A<sub>40,1</sub> A<sub>40,2</sub> b<sub>391</sub> b<sub>392</sub> b<sub>393</sub> b<sub>394</sub> b<sub>395</sub> P<sub>196</sub><sup>(2)</sup> P<sub>197</sub><sup>(2)</sup> P<sub>198</sub><sup>(2)</sup> P<sub>199</sub><sup>(2)</sup> P<sub>200</sub><sup>(2)</sup> b<sub>849</sub> b<sub>755</sub> b<sub>756</sub> b<sub>757</sub>
b<sub>396</sub> b<sub>397</sub> b<sub>398</sub> b<sub>399</sub> b<sub>400</sub> P<sub>196</sub><sup>(3)</sup> P<sub>197</sub><sup>(3)</sup> P<sub>198</sub><sup>(3)</sup> P<sub>199</sub><sup>(3)</sup> P<sub>200</sub><sup>(3)</sup> b<sub>850</sub> b<sub>758</sub> b<sub>759</sub> b<sub>760</sub>
表1:40×16的3-位符号块,包括850个信息位、80个顺序检查位和3个LDPC码。
给出长度为N'的LDPC码的M'×N'奇偶校验矩阵H。理论上,通过使用以下来编码信息位(d):
c=dG,且GHT=0; (1)
其中上标T是转置运算符,c=[d p]=[d1d2…dKp1p2...pM'],表示代码字;d=[d1d2…dK'],是K'=N'-M'的信息位的向量;并且p=[p1p2…pM'],是奇偶校验位的向量。G是生成矩阵,并且0是全零矩阵。然后信息位可以通过下式解码:
cHT=0。 (2)
基于等式(2),可以得出
Figure BDA0002834123000000211
其中hi,j表示矩阵H的第i行、第j列中的元素。
通常,当代码长度长时,难以获得生成矩阵G。因此,结构化代码用于容易编码的目的。表2示出了具有双对角线结构的代码的简单实例,6×16奇偶校验矩阵表示长度为16的LDPC码。然后有10个信息位(即d1,d2,d3,...,d10)和6个奇偶校验位(即p1,p2,...,p6)。可以通过使用如下所示的信息位来评估奇偶校验位:
p1=d1+d4+d8 mod 2; (4)
p2=d3+d6+d7+p1 mod 2; (5)
p3=d2+d5+d9+p2 mod 2; (6)
p4=d1+d6+d10+p3 mod 2; (7)
p5=d2+d4+d7+d8+p4 mod 2; (8)
p6=d3+d5+d9+d10+p5 mod 2。 (9)
因此,代码字由一组16位{d1,d2,…,d10,p1,p2,…,p6}形成。
执行解码,使得所有信息位都可以满足所有上述方程式。假设在接收的序列中缺失信息位d1。那么可以通过应用公式(4)或(7)估算d1
d1=d4+d8+p1 mod 2; (10)
d1=d6+d10+p3+p4 mod 2。 (11)
通常,可以通过使用迭代消息传递算法来解码LDPC码,以找到代码字c,使得cHT=0(T.Richardson和R.Urbanke,“The capacity of low-density parity check codesunder message-passing decoding”,IEEE Trans.Inf.Theory,vol.47,no.2,599–618页,2001年)。
Figure BDA0002834123000000212
表2:LDPC码的奇偶校验矩阵H的实例。
继续到步骤606,将三个(560,350)LDPC码的630个奇偶校验位填充到40×16数据块的可用位中。在优选的实施方案中,由于奇偶校验矩阵和肽错误模式的双对角线结构,可以在将LDPC码输入到肽序列中之前,将随机交织器添加到每个LDPC码的输出中,以扰乱奇偶校验位的顺序。交织是以非连续方式排列数据的过程。在数据存储/检索/传输过程中,数字码中的许多位/符号发生错误是常见的。当应用交织时,错误会影响在创建数字码时实际上并非彼此相邻的位/符号。结果,当对数据进行去交织时,错误会散布在整个数字码中,而不是集中在特定位置,这使得错误检测和校正变得更加容易。作为实例,在方法700的步骤706(参见图7和下面的相关讨论),如果估计的符号的顺序与估计的符号S3和S7的第一位(顺序检查位)不匹配,则擦除数据块中的相应符号序列。发生这种情况时,需要LDPC解码过程来检索这些擦除的位/符号。通过使用交织器,可以有利地确保这些擦除的位/符号不是LDPC码的连续位/符号。相反,被擦除的位/符号均匀地或随机地分布在LDPC码中,这使得恢复过程更加容易。
在此实例中,第j个LDPC码的输出奇偶校验位集被定义为p(j)={p1 (j),p2 (j),...,p210 (j))(j=1,2和3),而第j个LDPC码的交织奇偶校验位集定义为P(j)={P1 (j),P2 (j),...,P210 (j))(j=1,2和3)。该集合P(j)对应于集合p(j)(j=1,2和3)。集合P(j)(j=1,2和3)对应于所有序列排列在符号S8,S9,S10,S11和S12的第j位,并且对应于前10个序列排列在符号S13的第j位。最后,在LDPC码中输出40×16数据块具有40×16×3=1920个位位置,其中850个信息位、120位的零位、240位的地址对、80位的顺序检查位和630个奇偶校验位。
其他错误纠正方法:里德所罗门码
里德所罗门(RS)码可以替代地用于步骤604的纠错方法。假设编码方案的要求是:
(i)10%的3-符号序列{S5S6S7}和{S8S9S10}无法正确恢复;
(ii)15%的3-符号序列{S11S12S13}和{S14S15S16}无法正确恢复;以及
(iii)序列中的符号S1和S2的顺序、符号S2和S3的顺序以及符号S15和S16的顺序可能互换。
纠错方法包括:(i)每个肽序列的三个顺序检查位,其中第一顺序检查位用于保护前两个符号的顺序,第二顺序检查位用于保护第二个符号和第三个符号的顺序,并且第三顺序检查位保护每个序列中最后两个符号的顺序;以及(ii)四个RS码,用于在即使无法正确恢复任意10%的3-符号序列{S5S6S7}、任意10%的3-符号序列{S8S9S10}、任意15%的3-符号序列{S11S12S13}以及任意15%的3-符号序列{S14S15S16}时恢复原始数据。
假设数字码被存储在511个长度为16个氨基酸的肽序列中。因此,构造了511×16符号块(表3),其包括511×16×3=24528个位。3-符号集{Ai,1,Ai,2,Ai,3},i=1,2,...,511用于寻址,其中符号S1至S3的值为{0 0 0},{0 0 1},{0 0 2},…,{7 7 5},{7 7 6}。符号S4的三个位是分别用于保护符号S1和S2的顺序、符号S2和S3的顺序以及符号S15和S16的顺序的三个顺序检查位。那么,该块的符号S5至S16中有511×12×3=18396个位位置用于存储RS码的信息和奇偶校验位。
由于部分序列{S5S6S7S8S9S10}和{S11S12S13S14S15S16}的保护要求不同,两个(511,409)RS码用于部分序列{S5S6S7}和{S8S9S10},另外两个(511,357)RS码用于部分序列{S11S12S13}和{S14S15S16}。RS码中的每个符号包括9个位。{S5S6S7S8S9S10}的前102行和{S11S12S13S14S15S16}的前154行分别用于记录(511,409)和(511,357)RS码的奇偶校验符号。例如,序列1的9个位p1 (j),p2 (j),…,p9 (j)(j=1,2,3和4)表示第j个RS码中的第一个奇偶校验符号。其余的行用于存储信息位。例如,序列103的{S5S6S7}中的9个位b1,b2,…,b9,和序列104的{S5S6S7}中的9个位b19,b20,…,b27被转换成第一个RS码的两个符号。类似地,序列103的{S8S9S10}中的9个位b10,b11,…,b18和序列104的{S8S9S10}中的9个位b28,b29,…,b36形成第二个RS码的两个符号。(511,409)RS和(511,357)RS码可分别校正多达51和77个9-位符号错误。(511,409)和(511,357)RS码的编码率RRS分别由下式给出:RRS=409/511=0.8004和RRS=357/511=0.6986。此外,全部四个RS码的总信息位和总奇偶校验位的数目分别由下式给出:(409+357)×2×9=13788和(102+154)×2×9=4608。然后,可以通过R=13788/24528=0.5621计算出该块的最大总编码率R。
假设存在两个信息数据集合,即集合b中有13656个信息位而集合b'中有96个信息位。然后,该块的总编码率R由R=13752/24528=0.5607给出。所有13752个信息位都填充在序列103至511的符号{S5S6S7S8S9S10}和序列155至511的符号{S11S12S13S14S15S16}中。信息集合b’排列在最后3个序列中。块中剩余的13788-13752=36个信息位位置设为零,因为不需要发送更多信息。这些零-位位置位于序列485至508的S16中的第一位,序列509至511的S15中的第一位以及序列509至511的符号S16中的3位。
符号 S<sub>1</sub> S<sub>2</sub> S<sub>3</sub> S<sub>4</sub> S<sub>5</sub> S<sub>6</sub> S<sub>7</sub> S<sub>8</sub> S<sub>9</sub> S<sub>10</sub> S<sub>11</sub> S<sub>12</sub> S<sub>13</sub> S<sub>14</sub> S<sub>15</sub> S<sub>16</sub>
Q<sub>1,2</sub> p<sub>1</sub><sup>(1)</sup> p<sub>4</sub><sup>(1)</sup> p<sub>7</sub><sup>(1)</sup> p<sub>1</sub><sup>(2)</sup> p<sub>4</sub><sup>(2)</sup> p<sub>7</sub><sup>(2)</sup> p<sub>1</sub><sup>(3)</sup> p<sub>4</sub><sup>(3)</sup> p<sub>7</sub><sup>(3)</sup> p<sub>1</sub><sup>(4)</sup> p<sub>4</sub><sup>(4)</sup> p<sub>7</sub><sup>(4)</sup>
Seq#1 A<sub>1,1</sub> A<sub>1,2</sub> A<sub>1,3</sub> Q<sub>2,3</sub> p<sub>2</sub><sup>(1)</sup> p<sub>5</sub><sup>(1)</sup> p<sub>8</sub><sup>(1)</sup> p<sub>2</sub><sup>(2)</sup> p<sub>5</sub><sup>(2)</sup> p<sub>8</sub><sup>(2)</sup> p<sub>2</sub><sup>(3)</sup> p<sub>5</sub><sup>(3)</sup> p<sub>8</sub><sup>(3)</sup> p<sub>2</sub><sup>(4)</sup> p<sub>5</sub><sup>(4)</sup> p<sub>8</sub><sup>(4)</sup>
Q<sub>15,</sub><sub>16</sub> p<sub>3</sub><sup>(1)</sup> p<sub>6</sub><sup>(1)</sup> p<sub>9</sub><sup>(1)</sup> p<sub>3</sub><sup>(2)</sup> p<sub>6</sub><sup>(2)</sup> p<sub>9</sub><sup>(2)</sup> p<sub>3</sub><sup>(3)</sup> p<sub>6</sub><sup>(3)</sup> p<sub>9</sub><sup>(3)</sup> p<sub>3</sub><sup>(4)</sup> p<sub>6</sub><sup>(4)</sup> p<sub>9</sub><sup>(4)</sup>
Q<sub>1,2</sub> p<sub>10</sub><sup>(1)</sup> p<sub>13</sub><sup>(1)</sup> p<sub>16</sub><sup>(1)</sup> p<sub>10</sub><sup>(2)</sup> p<sub>13</sub><sup>(2)</sup> p<sub>16</sub><sup>(2)</sup> p<sub>10</sub><sup>(3)</sup> p<sub>13</sub><sup>(3)</sup> p<sub>16</sub><sup>(3)</sup> p<sub>10</sub><sup>(4)</sup> p<sub>13</sub><sup>(4)</sup> p<sub>16</sub><sup>(4)</sup>
Seq#2 A<sub>2,1</sub> A<sub>2,2</sub> A<sub>2,3</sub> Q<sub>2,3</sub> p<sub>11</sub><sup>(1)</sup> p<sub>14</sub><sup>(1)</sup> p<sub>17</sub><sup>(1)</sup> p<sub>11</sub><sup>(2)</sup> p<sub>14</sub><sup>(2)</sup> p<sub>17</sub><sup>(2)</sup> p<sub>11</sub><sup>(3)</sup> p<sub>14</sub><sup>(3)</sup> p<sub>17</sub><sup>(3)</sup> p<sub>11</sub><sup>(4)</sup> p<sub>14</sub><sup>(4)</sup> p<sub>17</sub><sup>(4)</sup>
Q<sub>15,</sub><sub>16</sub> p<sub>12</sub><sup>(1)</sup> p<sub>15</sub><sup>(1)</sup> p<sub>18</sub><sup>(1)</sup> p<sub>12</sub><sup>(2)</sup> p<sub>15</sub><sup>(2)</sup> p<sub>18</sub><sup>(2)</sup> p<sub>12</sub><sup>(3)</sup> p<sub>15</sub><sup>(3)</sup> p<sub>18</sub><sup>(3)</sup> p<sub>12</sub><sup>(4)</sup> p<sub>15</sub><sup>(4)</sup> p<sub>18</sub><sup>(4)</sup>
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
Q<sub>1,2</sub> p<sub>910</sub><sup>(1)</sup> p<sub>913</sub><sup>(1)</sup> p<sub>916</sub><sup>(1)</sup> p<sub>910</sub><sup>(2)</sup> p<sub>913</sub><sup>(2)</sup> p<sub>916</sub><sup>(2)</sup> p<sub>910</sub><sup>(3)</sup> p<sub>913</sub><sup>(3)</sup> p<sub>916</sub><sup>(3)</sup> p<sub>910</sub><sup>(4)</sup> p<sub>913</sub><sup>(4)</sup> p<sub>916</sub><sup>(4)</sup>
Seq#102 A<sub>102</sub><sub>,1</sub> A<sub>102</sub><sub>,2</sub> A<sub>102</sub><sub>,3</sub> Q<sub>2,3</sub> p<sub>911</sub><sup>(1)</sup> p<sub>914</sub><sup>(1)</sup> p<sub>917</sub><sup>(1)</sup> p<sub>911</sub><sup>(2)</sup> p<sub>914</sub><sup>(2)</sup> p<sub>917</sub><sup>(2)</sup> p<sub>911</sub><sup>(3)</sup> p<sub>914</sub><sup>(3)</sup> p<sub>917</sub><sup>(3)</sup> p<sub>911</sub><sup>(4)</sup> p<sub>914</sub><sup>(4)</sup> p<sub>917</sub><sup>(4)</sup>
Q<sub>15,</sub><sub>16</sub> <sub>p912</sub><sup>(1)</sup> <sub>p915</sub><sup>(1)</sup> <sub>p918</sub><sup>(1)</sup> <sub>p912</sub><sup>(2)</sup> <sub>p915</sub><sup>(2)</sup> <sub>p918</sub><sup>(2)</sup> <sub>p912</sub><sup>(3)</sup> <sub>p915</sub><sup>(3)</sup> <sub>p918</sub><sup>(3)</sup> <sub>p912</sub><sup>(4)</sup> <sub>p915</sub><sup>(4)</sup> <sub>p918</sub><sup>(4)</sup>
Q<sub>1,2</sub> b<sub>1</sub> b<sub>4</sub> b<sub>7</sub> b<sub>10</sub> b<sub>13</sub> b<sub>16</sub> p<sub>919</sub><sup>(3)</sup> p<sub>922</sub><sup>(3)</sup> p<sub>925</sub><sup>(3)</sup> p<sub>919</sub><sup>(4)</sup> p<sub>922</sub><sup>(4)</sup> p<sub>925</sub><sup>(4)</sup>
Seq#103 A<sub>103</sub><sub>,1</sub> A<sub>103</sub><sub>,2</sub> A<sub>103</sub><sub>,3</sub> Q<sub>2,3</sub> b<sub>2</sub> b<sub>5</sub> b<sub>8</sub> b<sub>11</sub> b<sub>14</sub> b<sub>17</sub> p<sub>920</sub><sup>(3)</sup> p<sub>923</sub><sup>(3)</sup> p<sub>926</sub><sup>(3)</sup> p<sub>920</sub><sup>(4)</sup> p<sub>923</sub><sup>(4)</sup> p<sub>926</sub><sup>(4)</sup>
Q<sub>15,</sub><sub>16</sub> b<sub>3</sub> b<sub>6</sub> b<sub>9</sub> b<sub>12</sub> b<sub>15</sub> b<sub>18</sub> p<sub>921</sub><sup>(3)</sup> p<sub>924</sub><sup>(3)</sup> p<sub>927</sub><sup>(3)</sup> p<sub>921</sub><sup>(4)</sup> p<sub>924</sub><sup>(4)</sup> p<sub>927</sub><sup>(4)</sup>
Q<sub>1,2</sub> b<sub>19</sub> b<sub>22</sub> b<sub>25</sub> b<sub>28</sub> b<sub>31</sub> b<sub>34</sub> p<sub>928</sub><sup>(3)</sup> p<sub>931</sub><sup>(3)</sup> p<sub>934</sub><sup>(3)</sup> p<sub>928</sub><sup>(4)</sup> p<sub>931</sub><sup>(4)</sup> p<sub>934</sub><sup>(4)</sup>
Seq#104 A<sub>104</sub><sub>,1</sub> A<sub>104</sub><sub>,2</sub> A<sub>104</sub><sub>,3</sub> Q<sub>2,3</sub> b<sub>20</sub> b<sub>23</sub> b<sub>26</sub> b<sub>29</sub> b<sub>32</sub> b<sub>35</sub> p<sub>929</sub><sup>(3)</sup> p<sub>932</sub><sup>(3)</sup> p<sub>935</sub><sup>(3)</sup> p<sub>929</sub><sup>(4)</sup> p<sub>932</sub><sup>(4)</sup> p<sub>935</sub><sup>(4)</sup>
Q<sub>15,</sub><sub>16</sub> b<sub>21</sub> b<sub>24</sub> b<sub>27</sub> b<sub>30</sub> b<sub>33</sub> b<sub>36</sub> p<sub>930</sub><sup>(3)</sup> p<sub>933</sub><sup>(3)</sup> p<sub>936</sub><sup>(3)</sup> p<sub>930</sub><sup>(4)</sup> p<sub>933</sub><sup>(4)</sup> p<sub>936</sub><sup>(4)</sup>
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
Q<sub>1,2</sub> b<sub>919</sub> b<sub>922</sub> b<sub>925</sub> b<sub>928</sub> b<sub>931</sub> b<sub>934</sub> p<sub>1378</sub><sup>(3)</sup> p<sub>1381</sub><sup>(3)</sup> p<sub>1384</sub><sup>(3)</sup> p<sub>1378</sub><sup>(4)</sup> p<sub>1381</sub><sup>(4)</sup> p<sub>1384</sub><sup>(4)</sup>
Seq#154 A<sub>154</sub><sub>,1</sub> A<sub>154</sub><sub>,2</sub> A<sub>154</sub><sub>,3</sub> Q<sub>2,3</sub> b<sub>920</sub> b<sub>923</sub> b<sub>926</sub> b<sub>929</sub> b<sub>932</sub> b<sub>935</sub> p<sub>1379</sub><sup>(3)</sup> p<sub>1382</sub><sup>(3)</sup> p<sub>1385</sub><sup>(3)</sup> p<sub>1379</sub><sup>(4)</sup> p<sub>1382</sub><sup>(4)</sup> p<sub>1385</sub><sup>(4)</sup>
Q<sub>15,</sub><sub>16</sub> b<sub>921</sub> b<sub>924</sub> b<sub>927</sub> b<sub>930</sub> b<sub>933</sub> b<sub>936</sub> p<sub>1380</sub><sup>(3)</sup> p<sub>1383</sub><sup>(3)</sup> p<sub>1386</sub><sup>(3)</sup> p<sub>1380</sub><sup>(4)</sup> p<sub>1383</sub><sup>(4)</sup> p<sub>1386</sub><sup>(4)</sup>
Q<sub>1,2</sub> b<sub>937</sub> b<sub>940</sub> b<sub>943</sub> b<sub>946</sub> b<sub>949</sub> b<sub>952</sub> b<sub>7309</sub> b<sub>7312</sub> b<sub>7315</sub> b<sub>7318</sub> b<sub>7321</sub> b<sub>7324</sub>
Seq#155 A<sub>155</sub><sub>,1</sub> A<sub>155</sub><sub>,2</sub> A<sub>155</sub><sub>,3</sub> Q<sub>2,3</sub> b<sub>938</sub> b<sub>941</sub> b<sub>944</sub> b<sub>947</sub> b<sub>950</sub> b<sub>953</sub> b<sub>7310</sub> b<sub>7313</sub> b<sub>7316</sub> b<sub>7319</sub> b<sub>7322</sub> b<sub>7325</sub>
Q<sub>15,</sub><sub>16</sub> b<sub>939</sub> b<sub>942</sub> b<sub>945</sub> b<sub>948</sub> b<sub>951</sub> b<sub>954</sub> b<sub>7311</sub> b<sub>7314</sub> b<sub>7317</sub> b<sub>7320</sub> b<sub>7323</sub> b<sub>7326</sub>
Q<sub>1,2</sub> b<sub>955</sub> b<sub>958</sub> b<sub>961</sub> b<sub>964</sub> b<sub>967</sub> b<sub>970</sub> b<sub>7327</sub> b<sub>7330</sub> b<sub>7333</sub> b<sub>7336</sub> b<sub>7339</sub> b<sub>7342</sub>
Seq#156 A<sub>156</sub><sub>,1</sub> A<sub>156</sub><sub>,2</sub> A<sub>156</sub><sub>,3</sub> Q<sub>2,3</sub> b<sub>956</sub> b<sub>959</sub> b<sub>962</sub> b<sub>965</sub> b<sub>968</sub> b<sub>971</sub> b<sub>7328</sub> b<sub>7331</sub> b<sub>7334</sub> b<sub>7337</sub> b<sub>7340</sub> b<sub>7343</sub>
Q<sub>15,</sub><sub>16</sub> b<sub>957</sub> b<sub>960</sub> b<sub>963</sub> b<sub>966</sub> b<sub>969</sub> b<sub>972</sub> b<sub>7329</sub> b<sub>7332</sub> b<sub>7335</sub> b<sub>7338</sub> b<sub>7341</sub> b<sub>7344</sub>
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
Q<sub>1,2</sub> b<sub>687</sub><sub>7</sub> b<sub>688</sub><sub>0</sub> b<sub>688</sub><sub>3</sub> b<sub>688</sub><sub>6</sub> b<sub>688</sub><sub>9</sub> b<sub>689</sub><sub>2</sub> b<sub>1324</sub><sub>9</sub> b<sub>1325</sub><sub>2</sub> b<sub>1325</sub><sub>5</sub> b<sub>1325</sub><sub>8</sub> b<sub>1326</sub><sub>1</sub> 0
Seq#485 A<sub>485</sub><sub>,1</sub> A<sub>485</sub><sub>,2</sub> A<sub>485</sub><sub>,3</sub> Q<sub>2,3</sub> b<sub>687</sub><sub>8</sub> b<sub>688</sub><sub>1</sub> b<sub>688</sub><sub>4</sub> b<sub>688</sub><sub>7</sub> b<sub>689</sub><sub>0</sub> b<sub>689</sub><sub>3</sub> b<sub>1325</sub><sub>0</sub> b<sub>1325</sub><sub>3</sub> b<sub>1325</sub><sub>6</sub> b<sub>1325</sub><sub>9</sub> b<sub>1326</sub><sub>2</sub> b<sub>1326</sub><sub>4</sub>
Q<sub>15,</sub><sub>16</sub> b<sub>687</sub><sub>9</sub> b<sub>688</sub><sub>2</sub> b<sub>688</sub><sub>5</sub> b<sub>688</sub><sub>8</sub> b<sub>689</sub><sub>1</sub> b<sub>689</sub><sub>4</sub> b<sub>1325</sub><sub>1</sub> b<sub>1325</sub><sub>4</sub> b<sub>1325</sub><sub>7</sub> b<sub>1326</sub><sub>0</sub> b<sub>1326</sub><sub>3</sub> b<sub>1326</sub><sub>5</sub>
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
Q<sub>1,2</sub> b<sub>729</sub><sub>1</sub> b<sub>729</sub><sub>4</sub> b<sub>729</sub><sub>7</sub> b<sub>730</sub><sub>0</sub> b<sub>730</sub><sub>3</sub> b<sub>730</sub><sub>6</sub> b<sub>1364</sub><sub>0</sub> b<sub>1364</sub><sub>3</sub> b<sub>1364</sub><sub>6</sub> b<sub>1364</sub><sub>9</sub> b<sub>1365</sub><sub>2</sub> 0
Seq#508 A<sub>508</sub><sub>,1</sub> A<sub>508</sub><sub>,2</sub> A<sub>508</sub><sub>,3</sub> Q<sub>2,3</sub> b<sub>729</sub><sub>2</sub> b<sub>729</sub><sub>5</sub> b<sub>729</sub><sub>8</sub> b<sub>730</sub><sub>1</sub> b<sub>730</sub><sub>4</sub> b<sub>730</sub><sub>7</sub> b<sub>1364</sub><sub>1</sub> b<sub>1364</sub><sub>4</sub> b<sub>1364</sub><sub>7</sub> b<sub>1365</sub><sub>0</sub> b<sub>1365</sub><sub>3</sub> b<sub>1365</sub><sub>5</sub>
Q<sub>15,</sub><sub>16</sub> b<sub>729</sub><sub>3</sub> b<sub>729</sub><sub>6</sub> b<sub>729</sub><sub>9</sub> b<sub>730</sub><sub>2</sub> b<sub>730</sub><sub>5</sub> b<sub>730</sub><sub>8</sub> b<sub>1364</sub><sub>2</sub> b<sub>1364</sub><sub>5</sub> b<sub>1364</sub><sub>8</sub> b<sub>1365</sub><sub>1</sub> b<sub>1365</sub><sub>4</sub> b<sub>1365</sub><sub>6</sub>
Q<sub>1,2</sub> b'<sub>1</sub> b'<sub>4</sub> b'<sub>7</sub> b'<sub>10</sub> b'<sub>13</sub> b'<sub>16</sub> b'<sub>55</sub> b'<sub>58</sub> b'<sub>61</sub> b'<sub>64</sub> 0 0
Seq#509 A<sub>509</sub><sub>,1</sub> A<sub>509</sub><sub>,2</sub> A<sub>509</sub><sub>,3</sub> Q<sub>2,3</sub> b'<sub>2</sub> b'<sub>5</sub> b'<sub>8</sub> b'<sub>11</sub> b'<sub>14</sub> b'<sub>17</sub> b'<sub>56</sub> b'<sub>59</sub> b'<sub>62</sub> b'<sub>65</sub> b'<sub>67</sub> 0
Q<sub>15,</sub><sub>16</sub> b'<sub>3</sub> b'<sub>6</sub> b'<sub>9</sub> b'<sub>12</sub> b'<sub>15</sub> b'<sub>18</sub> b'<sub>57</sub> b'<sub>60</sub> b'<sub>63</sub> b'<sub>66</sub> b'<sub>68</sub> 0
Q<sub>1,2</sub> b'<sub>19</sub> b'<sub>22</sub> b'<sub>25</sub> b'<sub>28</sub> b'<sub>31</sub> b'<sub>34</sub> b'<sub>69</sub> b'<sub>72</sub> b'<sub>75</sub> b'<sub>78</sub> 0 0
Seq#510 A<sub>510</sub><sub>,1</sub> A<sub>510</sub><sub>,2</sub> A<sub>510</sub><sub>,3</sub> Q<sub>2,3</sub> b'<sub>20</sub> b'<sub>23</sub> b'<sub>26</sub> b'<sub>29</sub> b'<sub>32</sub> b'<sub>35</sub> b'<sub>70</sub> b'<sub>73</sub> b'<sub>76</sub> b'<sub>79</sub> b'<sub>81</sub> 0
Q<sub>15,</sub><sub>16</sub> b'<sub>21</sub> b'<sub>24</sub> b'<sub>27</sub> b'<sub>30</sub> b'<sub>33</sub> b'<sub>36</sub> b'<sub>71</sub> b'<sub>74</sub> b'<sub>77</sub> b'<sub>80</sub> b'<sub>82</sub> 0
Q<sub>1,2</sub> b'<sub>37</sub> b'<sub>40</sub> b'<sub>43</sub> b'<sub>46</sub> b'<sub>49</sub> b'<sub>52</sub> b'<sub>83</sub> b'<sub>86</sub> b'<sub>89</sub> b'<sub>92</sub> 0 0
Seq#511 A<sub>511</sub><sub>,1</sub> A<sub>511</sub><sub>,2</sub> A<sub>511</sub><sub>,3</sub> Q<sub>2,3</sub> b'<sub>38</sub> b'<sub>41</sub> b'<sub>44</sub> b'<sub>47</sub> b'<sub>50</sub> b'<sub>53</sub> b'<sub>84</sub> b'<sub>87</sub> b'<sub>90</sub> b'<sub>93</sub> b'<sub>95</sub> 0
Q<sub>15,</sub><sub>16</sub> b'<sub>39</sub> b'<sub>42</sub> b'<sub>45</sub> b'<sub>48</sub> b'<sub>51</sub> b'<sub>54</sub> b'<sub>85</sub> b'<sub>88</sub> b'<sub>91</sub> b'<sub>94</sub> b'<sub>96</sub> 0
表3:511×16的3-位符号块,包括13752个信息位、1533个顺序检查位和4个RS码。
实施例:将文本存储到肽序列中
参照图8,描绘了图示800,其根据本公开的实施方案将数字数据存储到肽序列中。执行方法400的步骤402,以BIG5编码的848位长的以下文字符号被编码成具有40行16个三元位组的数字码:“香港理工大学80周年校庆(The Hong Kong Polytechnic University,80th anniversary)”,中文和英文;及香港理工大学(PolyU)校训,中文。在编码步骤402使用方法600中所述的具有LDPC码的纠错方法。执行方法600的步骤602,添加顺序检查位。生成顺序检查位,以保护肽序列中的第一符号和第二符号的顺序以及倒数第一符号和倒数第二符号的顺序。执行方法600的步骤604,使用3个LDPC码将848位长的文本符号和顺序检查位编码为40行数据,每行具有16个三元位组。设计LDPC码,目的是在MS/MS质谱中信号不足的情况下,在无法检索到任意10%的肽时恢复原始数字数据。
执行方法400的步骤404,然后使用独立且固定的位与氨基酸的映射将数字码翻译成40个18-mer肽序列。如本公开中所讨论的,肽序列中的氨基酸可以携带数字数据或携带非数字数据。实例中的肽具有F-[16个残基]-R的格式,其中:(i)每条肽中有18个氨基酸;(ii)每条肽的N端和C端的氨基酸是已知的(F和R),且不携带任何信息(携带非数字数据),并且在编码方案中每条仅考虑16个氨基酸;以及(iii)8种不同的氨基酸(S、T、E、Y、A、V、L和F)用于翻译数字码(000、001、010、011、100、101、110和111)。执行方法400的步骤406,通过合成仪112将40个翻译的肽序列合成为肽序列,将其混合到肽的混合物中,并以合适的条件存储。
如上所述,通过采用纠错方法用于编码或通过使用携带非数字数据的氨基酸用于合成目的,减少了肽中可以携带数字数据的氨基酸的量。期望有能够实现最小的冗余量,但仍可以保护肽序列中存储的数字数据的完整性的有效的纠错方法。肽序列中的一个或多个氨基酸可用于表示肽的身份(例如地址和版本),而且肽序列中的一个或多个氨基酸可用于鉴定错误和/或检查肽的完整性。
考虑到诸如合成成本的各种因素,选择氨基酸并且优化肽的长度以使测序误差最小化同时使数据存储最大化。较短的肽合成价格较低、易于测序且缺失切割(missedcleavage)减少,而较长的肽每条可以存储更多数据、减少需要分析的肽的数量并减少地址和错误纠正负担。在一个实施方案中,选择8个天然氨基酸,并且肽的长度为18个氨基酸。在替代实施方案中,可以改变肽的长度,可以通过掺入非天然氨基酸来扩展氨基酸集合,并且可以结合不同的官能团或亲和标记以及在MS/MS(例如前体离子扫描或中性丢失扫描)中的富集策略或选择策略,以允许选择性检索特定的肽来提高信噪比。
为了检测和鉴定目的,可以对肽进行标记。在一个实例中,标记可在肽的N端或C端。在另一个实例中,标记可以是但不限于氨基酸、亲和标记、增溶标记、色谱标记、表位标记、荧光标记、放射性同位素标记或其组合。在另一个实例中,标记可以是附着于肽的N端或C端的溴或氯标记的氨基酸,从而可以在MS质谱中鉴定携带数字数据的肽,并且可以在MS/MS质谱中鉴定肽的方向。溴或氯也可以标记到非天然氨基酸。在另一个实例中,标记可以是与肽的N端或侧链结合的同位素标记的分子,以便在携带数字数据的肽片段化时,与标记分子相关的特定峰在MS/MS质谱上的出现指示存在携带数字数据的肽。在另一个实例中,标记可以是携带非数字数据的氨基酸。
在本公开中,肽序列决定了肽的物理化学性质,这对于实现最佳的肽结构以存储数字数据和通过测序检索数字数据至关重要。在一个实例中,物理化学性质可以是但不限于物理、化学和分子性质。在另一个实例中,物理化学性质包括但不限于疏水性、溶解度、电荷、稳定性、三维肽结构、信号强度、质量、极化率、凝固点、沸点、熔点、红外光谱、粘度、密度或其组合。
肽的物理化学性质可受肽中的氨基酸影响,其中氨基酸的性质(例如但不限于长度、类型、顺序或其任意组合)对于获得用于存储数字数据的最佳的肽结构而言是至关重要的。在一个实例中,长度为18个氨基酸的肽对于实现用于存储数字数据的最佳的肽结构是至关重要的。在另一个实例中,在肽序列中包含更多亲水氨基酸的亲水性肽对于实现用于存储数字数据的最佳的肽结构是至关重要的。如本文所用,术语“亲水性氨基酸”是指具有亲水性侧链的氨基酸;这样的侧链在正常的生理条件下,特别是在约pH 7.4下,可以是不带电荷的、带正电荷的(阳离子)或带负电荷的(阴离子)。不带电荷的亲水性氨基酸可以包括但不限于天冬酰胺和谷氨酰胺;带正电荷的亲水性氨基酸可以是但不限于精氨酸、组氨酸和赖氨酸以及非天然存在的氨基酸鸟氨酸;带负电荷的氨基酸包括天冬氨酸和谷氨酸。在另一个实例中,在肽序列中包含更多疏水氨基酸的疏水肽对于实现用于存储数字数据的最佳肽结构至关重要。“疏水氨基酸”是指具有疏水侧链和/或芳族侧链的天然存在的氨基酸,例如但不限于丙氨酸、缬氨酸、亮氨酸、异亮氨酸和芳族氨基酸苯丙氨酸、酪氨酸和色氨酸。还包括非天然存在的氨基酸,例如但不限于环己基丙氨酸。在另一个实例中,肽的N端或C端的氨基酸会影响最佳的肽结构。在另一个实例中,肽的N端可以是苯丙氨酸,或肽的C端可以是精氨酸。
从肽序列中检索数字数据
参照图2,描绘了被配置为从肽序列检索数字数据的系统200的示意图。系统200包括被配置为对肽序列测序并确定其顺序的测序仪212,与测序仪212通信的处理器202以及包括计算机程序码的存储器204。存储器204与处理器202通信,使得处理器202可以读取存储在存储器204中的计算机程序码。然后,处理器202可以执行计算机程序码,以将从测序仪212接收的肽序列解码为数字数据。处理器202从测序仪212接收肽序列,其确定所存储的肽序列。这些组件可以集成在一个位置或分布在不同的位置,并且可以实时、近实时或分批进行通信。
测序仪212可包括装置/设备,例如但不限于凝胶电泳仪、高效液相色谱(HPLC)仪、毛细管电泳仪、电离器和质谱仪。测序仪212可以是被配置为对肽序列测序并确定其顺序和/或将肽序列与从肽的混合物分离的单个装置/设备或一系列装置/设备的组合。由于肽对于所有活的生物体都是重要的,因此期望持续进行肽测序,用于研究目的,将可得到从携带数字数据的肽中检索数字数据的装置/设备和方法。相对于诸如光盘之类的存储设备而言,这可以有优势,因为在诸如光盘之类的存储设备的情况下,一旦它们被废弃,就很难找到驱动器来从这些介质中检索数据,这与过时的极碟(Iomega Zip)和软盘的命运类似。
系统200可以用于实施如图5所描绘的用于从肽序列检索数字数据的方法500。系统200中的处理器202和包括计算机程序码的存储器204可以是如图3所描绘的通用计算装置的部分,其中处理器202对应于处理器302,并且存储器204对应于存储器304。系统200中的处理器202和存储器204可以与系统100中使用的处理器102和存储器104相同或不同。方法500一般包括:
步骤502:对肽序列测序并确定其顺序;
步骤504:将具有确定顺序的肽序列转换成数字码;以及
步骤506:从数字码解码数字数据。
在步骤502,通过测序仪212对携带数字数据的肽进行测序,并确定肽序列的顺序。测序可以基于酶消化、质谱(MS)、埃德曼降解、纳米孔测序或其任意组合。测序包括多个步骤,包括但不限于肽分离、电离、离子选择、片段化、测序或其任意组合。在一个实例中,可以使用例如但不限于电泳、液相色谱法(LC)、离子迁移率、阳离子交换(SCX)、高效液相色谱法(HPLC)、超高压液相色谱法(UPLC)、纳米液相色谱法或其任意组合的方法从肽混合物中分离各种肽。在另一个实例中,可以使用例如但不限于质谱(MS)、串联质谱(MS/MS)、基质辅助激光解吸/电离(MALDI)质谱、基质辅助激光解吸/电离飞行时间(MALDI-TOF)质谱或其任意组合的方法对肽进行测序。在另一个实例中,使用例如但不限于电喷雾电离、基质辅助激光解吸/电离、表面辅助激光解吸/电离、大气压电离、直接电离或其任何组合的电离方法将肽转化成带电离子,以进行质谱分析。在另一个实例中,可以使用诸如但不限于数据独立型采集(DIA)、数据依赖型采集(DDA)、非靶向、靶向或其任意组合等方法对离子化的肽进行离子选择,以便进行MS/MS分析。在另一个实例中,可以基于例如但不限于碰撞诱导解离(CID)、高能碰撞解离(HCD)、电子捕获解离(ECD)、电子-转移解离(ETD)或其任意组合等方法使离子化的肽片段化,以阐明氨基酸序列。可以优化测序仪212的条件,以便混合物中肽的分离、检测和测序。在本公开的实施方案中,已经开发了LC-MS/MS方案并将其成功地应用于包含40个携带数据的18-mer肽的混合物的分析,其中每条在两个末端具有两个固定氨基酸。
可以通过包括但不限于数据库搜索或从头测序的方法来完成肽序列的分析。“数据库搜索”是指一种简单的版本,其中提交未知肽的质谱数据,并针对数据库中的质谱数据进行检查,以找到与已知肽序列的匹配,其缺点是数据库搜索无法鉴定新型蛋白和未包含在数据库中的改性蛋白。对于数字数据存储,这些肽用于携带带有“0”和“1”的随机信息位。因此,肽是非天然肽,并且没有数据库可用于搜索和鉴定这些肽。与数据库搜索方法相反,从头测序方法将搜索空间扩展到氨基酸的所有组合。
“从头测序”是指从质谱中直接分配碎片离子的过程,其中可以选择不同的参数和算法并将其用于解释,而无需参考已建立的数据库。这样,肽序列的确定需要一种计算方法,该计算方法能够利用由测序步骤(例如从质谱)产生的读出(readout),并基于本文公开的测序方法来鉴定氨基酸的顺序。通过使用图论模型以及动态规划算法(包括但不限于Lutefisk、Sherenga算法、PepNovo、MSNovo、pNovo、UniNovo、NovoHCD和Novor)开发了许多算法。
动态算法的约束是没有为携带数字数据的肽的测序提供训练谱(trainingspectra)。因此,利用基于图模型的从头测序来确定肽序列。在图模型中,MS/MS质谱由称为谱图的有向无环图(DAG)表示。质谱的峰可以视为顶点,而当两个峰之间的质量间隙(gap)等于氨基酸质量时,则在两个顶点之间添加边。动态规划的目的是找到图中从头顶点到尾顶点的最长路径(或最佳路径)。鉴定序列的可替代方法是从MS/MS质谱的中间部分开始。例如,序列标记方法首先推断出称为标签的部分序列,然后找到可以与该标签匹配的整个序列。在基于标签的方法中,首先基于某些评分方案从MS/MS质谱中找到标签。然后,序列的推断依赖于使用数据库搜索方法进行肽比较,或者依赖于使用从头测序在路径的中间位置扩展标签的有效路径。
表4概述了在知晓所用氨基酸、光谱S、整个序列的质量以及头部氨基酸和尾部氨基酸的信息的情况下的肽测序问题。测序问题是找到肽P,其理论质谱T(P)最匹配实验质谱S。在一些实施方案中,假定肽序列的长度N是固定且已知的。因此,丢弃长度不为N的候选肽。提出了两种测序方法,即两阶段测序法和基于最高强度标签的测序法。对于这两种方法,通过如下方式来估计序列:首先用少量可靠信息推断部分序列,然后用可靠性较差的数据或原始数据找到序列的缺失部分。目的是通过生成更少的候选者来提高测序速度。此外,由于引入了标签,基于最高强度标签的测序方法在排除不太可能的候选者方面更有效。
Figure BDA0002834123000000291
表4:肽测序问题的描述。
肽测序:两阶段测序方法
图12示出了流程图,图示出两阶段测序的方法1200。两阶段测序方法1200涉及四个步骤:(1)预处理,(2)候选序列生成,(3)序列选择,和(4)候选者优化。如图12所示,步骤1-3属于第一阶段(阶段1),而步骤4在第二阶段(阶段2)进行。在两阶段测序方法1200的阶段1中,在步骤1之后使用预处理数据来推断部分序列。在阶段2中,使用原始数据确定序列的其余部分。
在步骤1,执行预处理。预处理的目的是双重的。首先,目标是消除由噪音和不确定性引起的一些无法解释的质量。其次,目标是将质荷比集合(m/z)转换成相应的质量集合m'b和m'y。给定质荷比集合(m/z),将这些比率分组成ρ个子集G1,G2,...,Gρ,其中在每个子集中Gi中,i=1,2,...,ρ,所有(m/z)比均是特定片段的同位数,其中电荷值1,2或3等于该子集中连续(m/z)比之间的差的倒数。对于每个子集Gi,通过m'i=(m/z)i,0z'i,0-mH z'i,0,i=1,2,…,ρ计算单同位素质量m'i,其中(m/z)i,0是该子集中的最小值,并且z'i,0是(m/z)i,0的相应电荷。然后,将这些m'i值分布在质量集合m'b和m'y中。在一些实施方案中,分布标准之一是基于与m'i值相对应的强度。在一些实施方案中,分布标准之一是Gi中的(m/z)比的同位素模式。在一些实施方案中,分布标准之一基于以下事实:如果m'i在m'b,i中,则在m'y,j中存在对应的m'j,其中m'j=M-m'i。在一些实施方案中,如在后面【0114】-【0115】两个段落中所述,在步骤2中实时确定分布。在预处理的一些实施方案中,仅将具有典型电荷性质的那些保留为预处理数据,使得预处理数据可以比原始数据更可靠。然而,在数据不完整或模棱两可的情况下(例如缺乏电荷特性的数据),可以基于上述标准在预处理中丢弃一些有用的质量值。因此,在阶段1中存在序列的缺失/不确定元素的情况下,可以在阶段2中考虑原始数据。
在步骤2,使用来自步骤1的预处理数据来查找有效路径(序列),并对候选序列的数目n进行计数。在图13中,假设mN基团=mH,并且mC基团=mOH。图论模型用于在有向无环图(DAG)中查找以头部质量m头部开始并以质量M-mH-mC基团-m尾部结束的候选路径(有效路径)。由于通过质荷比集合(m/z)获得的质量很可能由b离子、y离子或b离子和y离子两者产生,因此可以在路径查找算法中考虑质量集合m'b,i、m'y,i或两个集合m'b,i和m'y,i。在图模型中,可以由顶点表示碎片离子的质量。如果两个碎片离子之间的质量间隙等于任何氨基酸的质量,则在这两个顶点之间添加一条边。如图13所示,树可以逐边扩展。如果顶点集合对于正确的路径是完整的,则测序问题可以简化为找到图中的最长路径。该路径应同时包括头部顶点和尾部顶点。此外,仅将那些以质量M结尾的路径作为候选。对于图13所示的实例,仅路径1和路径2是候选路径。
由于MS/MS表征中的不完美断裂,经常在序列中观察到两个和三个缺失的离子。在本文公开的模型中,为了确保路径可以从头部延伸到尾部,考虑在阶段1中缺失的氨基酸的数目至多为4个。首先从mb,1=0的质量开始,尝试寻找头部氨基酸的质量mb,2=m头部+△1。接下来,通过使用预处理的数据找出质量mb,i+1,使得当前顶点与下一个顶点之间的质量间隙近似于质量si或至多4个氨基酸的质量总和
Figure BDA0002834123000000311
其中质量Sv∈g(v=1,2,…,N),即对于两个连续顶点i和(i+1),mb,i+1=mb,i+(si+△i),或者
Figure BDA0002834123000000312
(其中对于从顶点i到顶点(i+l)的长度为l的标签,Δi,i+l∈[-lδ,+lδ])。如图13所示,假设路径2是正确的路径,但具有实验质量mb,1=0,mb,i+1=mb,i+(mi+△i)(对于两个连续顶点),或者
Figure BDA0002834123000000313
(对于长度为l的标签)。如果路径1是具有理论质量的正确路径,则mb,i+l=mb,i+mi,其中mb,1=(mN基团-mH)、mb,2=(mN基团-mH)+m头部、…、mb,N=M-mH-mC基团–m尾部、mb,N+1=M-mH-mC基团、mb,N+2=M。参考图13,如果两个顶点之间的质量间隙等于氨基酸的质量,则添加实心边。另一方面,如果质量间隙等于两个或多个氨基酸的质量总和,则添加虚线边,其以空心圆表示缺失顶点。
在步骤3,当达到步骤3.1至步骤3.5的候选序列的得分时,联合考虑以下五个因素的影响:检索到的连续氨基酸的长度、检索到的氨基酸的数目、匹配误差、检索到的氨基酸的平均强度以及具有不同偏移量的不同离子类型的出现次数。首先选择具有最长的检索到的连续氨基酸长度的序列(步骤3.1)。然后,在所选择的序列中,选择检索到的氨基酸的数目最大的序列(步骤3.2)。对于具有相同长度的检索到的连续氨基酸以及相同数目的检索到的氨基酸的序列,评估匹配误差,其是从实验谱中检索到的氨基酸的观测质量值与氨基酸的实际质量值之间的均方误差(步骤3.3)。如果存在多于一个具有相同匹配误差的序列,则进一步计算检索到的氨基酸的平均强度,并对具有较大平均强度值的序列给予更高的分数(步骤3.4)。此外,通常将多种离子类型视为推断氨基酸的重要因素,这意味着质量值可对应于质谱中的不同离子类型。通常,氨基酸的不同离子类型出现的次数越多,氨基酸正确的可能性就越大。因此,在步骤3.1-3.4的上述评估之后,对于具有相等分数的序列,对不同离子类型的出现次数进行计数以确定序列(步骤3.5)。N端a离子、b离子和c离子类型集合的质量偏移集合,即{a、a-H2O、a-NH3、a-NH3-H2O}、{b、b-H2O、b-H2O-H2O、b-NH3、b-NH3-H2O}和{c、c-H2O、c-H2O-H2O、c-NH3、c-NH3-H2O}分别为{-27、-45、-44、-62}、{+1、-17、-35、-16、-34}和{+18、0、-18、+1、-17}。可以通过将c离子和b离子类型的质量分别偏移+27和+18来计算C端x离子和y离子类型集合的质量偏移集合。根据碎片化方法和数据的性质,可以灵活使用全部或部分上述离子类型。
通过使用预处理的数据在步骤2找出候选序列,其目的是提供更可靠的信息来生成部分序列,因此由于预处理提供的数据不足,序列中可能存在氨基酸组合(AAC)。在第步骤4中,如果存在缺失质量值的选定序列(这意味着相应的质量间隙等于至少两个氨基酸的总和),则可以使用原始数据为阶段2中的路径找到尽可能多的顶点。对于原始数据,假设所有(m/z)比率都可能由单、双或三重带电离子产生。然后可以将具有q个质荷比(m/z)i(i=1,2,…,q)的集合转换成假定的b离子的质量集合m'b,以及假定的y离子的等效b离子质量集合m'y,其中集合m'b和m'y各具都有3q元素。尽管质量值的数量增加,但仅考虑AAC头部质量和尾部质量之间的范围,与整个序列的范围相比,该范围相对较小。如图13所示,在路径1中显示间隙是4个氨基酸的质量总和。利用原始数据提供的更多信息,可以发现间隙存在以下情形:(a)氨基酸和AAC的组合,(b)两个AAC的组合,(c)标签和AAC的组合,以及(d)一个标签。注意,间隙作为更多氨基酸的质量总和有效地确保了有效路径的形成。但是,可能会生成更多候选序列,因此测序需要更长的时间。
如图12所示,在步骤4.1查寻AAC的缺失氨基酸后,选择在AAC中具有最长的检索到的连续氨基酸长度的序列作为候选序列(步骤4.2)。如果在选择后仍然存在至少两个候选序列,则基于每个序列在AAC中检索到的氨基酸的匹配误差做出最终决定(步骤4.3)。
肽测序:基于最高强度标签的测序方法
首先识别对应于第一最高强度或第二最高强度的质荷比(m/z),以进一步推断标签或路径。在基于最高强度标签的测序方法中,在基于标签的方法中使用具有三个氨基酸的短标签,例如GutenTag、DirecTag和NovoHCD。尽管长度较短的标签可以避免引入错误的氨基酸,但是候选标签的数目相对较大,并且有时由于标签提供的信息不足而难以推断序列。如本文所公开,标签的长度不是固定的,并且如果数据完整,则可以达到肽的长度,这有助于减小搜索空间。当标签包含错误的氨基酸时,通常其无法使用有效的前缀部分和后缀部分进行延伸。在这种情况下,通过适应性地减少用于标签查找算法的较高强度数据点的数目来缩短标签的长度。此外,由于数据的不确定性,具有最高强度的顶点可能不一定会出现在正确的路径中。如果找不到有效路径,则可以推断具有第二高强度的标签。
图14示出了流程图,其图示出基于最高强度标签的测序的方法1400。方法1400开始于步骤1402,用于对原始数据进行预处理。步骤1402与两阶段测序方法1200的步骤1相同。然后,方法1400从步骤1402进行到步骤1404、1406和1408。
在步骤1404、1406和1408,将预处理的数据的强度从最大到最小进行排序,其中值J表示强度的等级。然后鉴别具有最高强度的质荷比,并将该质荷比转换成相应的b离子质量。首先,将其设置为J=1以及i=1,并且仅使用在标签查找处理中排名较高的W=wi(N≥w1≥w2...≥wV)个质量。
然后,方法1400进行到步骤1410以找到基于最高强度的标签。从强度最高的b离子的质量m'B,J或y离子的m'Y,J开始,通过同时连接指向路径尾顶点的正向顶点并连接指向该路径头部顶点的反向顶点来寻找基于强度最高的标签,其中这些顶点的质量间隙为任何氨基酸的质量gk(k=1,2,…,K),并且优选地,标签的长度尽可能长(见图15)。随后获得包含具有最高强度的氨基酸的标签,其被称为基于最高强度的标签。在知晓了基于最高强度的标签的头部氨基酸和尾部氨基酸的质量之后,该方法进行到步骤1412,以通过使用两阶段测序方法1200的步骤2中描述的方法,正向寻找可以将路径的头部连接到标签的头部的前缀。对于具有有效前缀的标签,在步骤1414,可以通过使用类似方法,进一步正向寻找可以将标签的尾部连接到路径的尾部的序列的后缀部分。
在步骤1416,可以通过组合三个部分来构造候选路径:前缀、标签和后缀。在步骤1418,可以遵循两阶段测序方法1200的步骤3和4来选择和改善序列。注意,较大的W值有时会在标签的头部和/或尾部引入一个或多个错误的氨基酸,而较小的W值可能会提供更可靠的标签,但标签的长度可能会受到限制。因此,在步骤1422和1424,如果找不到有效的候选者,则可以尝试通过将i增加1(即i=i+1)来减小W=wi的W值,然后重复该标签-前缀-后缀查找程序,直到可以找到候选序列或i=V。
在步骤1432和1434,对于特殊情况,当具有最高强度的实验质量由于噪音和不确定性而给出不可靠的信息时,则不能找到基于最高强度的标签或具有基于最高强度的标签的有效路径。在这种情况下,通过设置J=2和i=1来使用具有第二高强度的质量,以找到基于第二高强度的标签和候选者。
本公开中提出的用于从大量的MS/MS质谱中快速正确地分配肽序列的计算方法具有以下特征:(i)基于在步骤502确定的长度、氨基酸和序列格式来分配肽序列;(ii)遵循用于序列分配的肽离子片段化的一般规则;(iii)区分同位素标记,以便如果这样的标记(例如氯或溴)被掺入到肽中,该方法可以鉴别同位素模式并分配正确的离子类型;以及(iv)当MS/MS质谱中的某些b离子峰或y离子峰的丰度低或缺失时,则分配间隙。在实施方案中,开发了在软件中实施的方法。该方法根据以下五个因素对候选序列进行评分:检索到的连续氨基酸的长度、检索到的氨基酸的数目、匹配误差、强度以及具有不同偏移量的不同离子类型的出现次数。分数越高,序列正确的可能性越大。可以进一步优化在软件中实施的计算方法,以进行更好、更快的序列分配。
序列分组
参照图8中的实例,由40个肽序列合成肽的混合物。在一个实施方案中,在MS/MS分析之后,针对40个肽序列获得了90个光谱的集合,每个光谱具有整个序列的不同质量M。如果数据足以估算肽序列,则可以使用肽测序方法1200和/或1400获得每个光谱的一个或多个候选序列。此外,忽略失败的光谱后,每个肽序列平均大约有2个光谱,这意味着两个或多个候选序列可对应于一个地址对。因此,有必要进一步为每个地址对仅选择一个序列,这会涉及以下步骤:(1)基于两阶段测序方法1200的步骤1-3、4.1-4.3来查找和选择序列;(2)检查候选序列的长度并丢弃不具有(N-2)长度的候选序列;(3)对于其余的候选序列,分别根据符号S3和S7的第一位,检查符号S1和S2的顺序以及符号S15和S16的顺序;以及(4)去除每个光谱中重复的候选序列。
结果,可以获得与生成光谱无关的候选序列的集合。然后根据40个地址对{Ai,1、Ai,2}对候选序列进行分组,i=1,2,…,40。对于每个组,可能存在以下情形:
情形1:只有一个序列。
情形2:有两个或多个序列,其中一些是相同的,其中:
2a.只有一种结果:有两个或多个序列;或者
2b.至少有两种不同的结果,每个结果都有两个或多个序列。
情形3:组中的所有序列都不同,其中:
3a.不同的序列属于同一光谱;或者
3b.不同的序列属于两个光谱;或者
3c.不同的序列属于多于两个光谱。
对于情形1,可以为该组分配唯一的序列。对于情形2a,选择具有两个或多个序列的结果。对于情形2b,可以选择具有两个或多个序列的结果作为候选序列。在候选序列中,可以进一步选择根据方法1200的步骤3.1-3.5、4.2和4.3具有最高分数的序列。对于情形3a,可以选择根据方法1200的步骤4.2和4.3具有最高分数的序列。对于情形3b,检查通过方法1200的步骤3.1、3.2和4.1获得的序列的重复序列。如果存在重复序列,则输出为具有重复序列的结果。如果不存在重复序列,则选择根据方法1200的步骤3.1-3.5、4.2和4.3得分最高的序列。对于情形3c,根据方法1200的步骤3.1-3.5、4.2和4.3选择得分最高的序列。为了更有效地减少候选者的数目,可以首先找到属于情形1和情形2的组,并记录这些组中序列的光谱。随后,找到由这些光谱生成但在其他组中存在的序列,并将其标记为存在的序列。对于情形3,可以丢弃分组中存在的序列。
在使用上面方法500的步骤504中所述的计算方法执行肽测序和/或序列分组后,处理器202可以将获得的具有确定顺序的肽序列转换成数字码。具有确定顺序的肽序列可以通过在步骤502中对肽或肽的混合物进行测序而得到。用于将肽序列转换成数字码的方法应对应于在数据存储过程中将数字码翻译成肽序列的方法(方法400的步骤404)。在本公开的实施方案中,每个肽序列均由氨基酸形成。在数据存储过程中,一个或多个氨基酸用于表示位模式或符号模式。因此,为了将肽序列转换成数字码,肽序列中的一个或多个氨基酸由相应的位模式或符号模式表示。例如,当在步骤404中将数字码中的一个符号映射到三个氨基酸以形成肽序列时,应将肽序列中的三个氨基酸反向映射到该一个符号,以在步骤504中将肽序列转换成数字码。
在步骤506,处理器202可以从数字码中解码数字数据。当使用纠错方法来编码数字数据时,应用一种或多种纠错技术来恢起初始数字码。在实例中,当使用LDPC码将数字数据编码为数字码时,基于LDPC码对从步骤504获得的转换后的数字码进行解码。转换后的数字码包含估计的信息位和估计的奇偶校验位。估计的奇偶校验位用于检测和校正估计的信息位中的错误。因此,可以从经转换的数字码中检索正确的信息位。在另一个实例中,当使用顺序检查位将数字数据编码为数字码时,基于生成顺序检查位的预定义规则对从步骤504获得的经转换的数字码进行解码。经转换的数字码包含顺序检查位的冗余。顺序检查位用于检查某些位/符号是否顺序正确,从而校正错误的位/符号顺序,以从经转换的数字码中检索正确的数字数据。从数字码中解码数字数据可以使用诸如置信传播算法、消息传递算法、和积算法和比特翻转算法之类的算法。
在数字数据被存储之前被加密或译成密码的情况下,对反向映射的位/符号应用一种或多种解密技术,以恢复原始数字数据。在数字数据和/或加密的数据和/或编码的数字码在存储之前被交织的情况下,将一种或多种去交织技术应用于反向映射的位/符号,以恢复原始数字数据。
图7示出了流程图,其图示出用于从在步骤506使用的数字码中解码数字数据的方法700。该数字码包括顺序检查位和一个或多个LDPC码。在执行步骤502和504之后,系统200获得从估计的肽序列的顺序转换的数字码。在步骤702,系统200基于估计的序列创建n×16符号块。在一些实施方案中,经转换的数字码包含指示符号块中所估计的肽序列的地址或位置的一个或多个位/符号。与估计的肽序列的地址或位置有关的信息用于在符号块中以正确的顺序排列估计的肽序列。每个序列中的16个符号表示为S1,S2,...,S16。在步骤704,根据估计的符号对{S1,S2}和{S15,S16}的顺序,基于预定规则生成顺序检查位。在步骤706,将顺序检查位与估计的符号S3和S7的对应的第一位进行比较,以查看它们是否相同。作为实例,如果在S1和S2的顺序中没有错误,则为{S1,S2}生成的顺序检查位应与估计的符号S3的第一位匹配。如果生成的顺序检查位与估计的序列中的S3和/或S7的第一位不匹配,则应擦除该块中的估计的序列。
在生成的顺序检查位与估计的符号S3和S7的第一位匹配的情况下,方法700从步骤706进行到步骤708。在步骤708,将块的估计的符号S3至S16中的位传递到LDPC码的解码器,以执行LDPC码的解码。在步骤710,系统200使用LDPC码的经解码的位输出40×16符号块。与步骤704类似,在步骤712,根据经解码的符号对{S1,S2}和{S15,S16},基于预定义规则生成顺序检查位。在步骤714,将顺序检查位与经解码的符号S3和S7的相应的第一位进行比较,以查看它们是否相同。如果不相同,则系统200报告检测错误并指示解码失败。如果相同,则系统200输出经解码的序列。
实施例:从肽序列检索数字数据
参照图9A和图9B,描绘了根据本公开的实施方案的、从肽序列检索数字数据的图示900和图示950。执行方法500的步骤502,首先通过LC-MS/MS分析存储的混合物。15cm的C18柱用于超高压液相色谱(UPLC)分离,其中洗脱梯度从95%溶液A(水中的0.2%甲酸)到99%溶液B(乙腈中的0.2%甲酸)。MS分析在与UPLC耦合的轨道阱质谱仪上进行。使用m/z范围为700-1500的非目标策略和肽同位素模式识别来选择用于MS/MS分析的离子。并行执行高能碰撞解离(HCD)和电子捕获解离(ECD)以产生MS/MS质谱。总共产生90个光谱。
在一个实施方案中(图9A),当使用两阶段测序方法1200时,在90个光谱中,有6个光谱没有输出序列,另外6个光谱没有16个氨基酸的长度,它们在序列分组中被丢弃。序列的长度为16个氨基酸,因为为了简单起见,将头部氨基酸和尾部氨基酸排除在外。不包括重复序列,共有43个长度为16个氨基酸的不同序列。在基于分数分组之后,获得了40个序列,其对应于地址对为{000 000}、{000 001}、{000 010}、…、{100 110}、{100 111}的40个组。执行方法500的步骤504,将这些肽序列转换成数字码或等效符号。所使用的反向映射方法是氨基酸与位的反向映射,其中氨基酸被反向映射到三元位组。因为N端的氨基酸F和C端的氨基酸R没有携带任何信息,所以18-mer肽序列中只有16个氨基酸被转换成数字码或等效符号。通过执行方法500的步骤506和方法700对数字码进行解码。在方法700中,根据顺序检查位的编码规则,分别使用S3和S7的第一位检查前两个氨基酸的顺序和最后两个氨基酸的顺序。如果使用前两个氨基酸和最后两个氨基酸根据顺序检查规则生成的位分别与S3或S7的第一个位不匹配,则将擦除相应的序列。最后,可以构建40x16符号块。纠错方法确认了38条肽的正确序列分配、校正了2条肽并排除了3条杂质肽。这些校正的码进一步被解码为原始数据,达到100%检索。在这项初步研究中,用于数据存储的肽的数据密度约为1010位/g,这是根据3L的进样量和约1M的肽浓度估算得出的。
在另一个实施方案中(图9B),使用了基于最高强度标签的测序方法1400。在这90个光谱中,有9个光谱不能产生任何有效序列,有4个光谱产生长度不等于16的有效序列,其余的77个光谱总共产生89个有效序列。因此,某些组具有由相同或不同光谱生成的多个序列。不包括重复序列,有49个长度为16的不同序列。使用在【0126】-【0128】中描述的序列分组方法,获得40个组,每个组只有一个序列。执行方法500的步骤506以进行解码。执行方法700或方法700的步骤702,确认所有40个序列的正确性,显示即使不执行步骤704-714的顺序检查和纠错程序,组中的所有序列也是正确的,从而达到原始数据的100%检索。
数据密度可以进一步得到显著改善,因为可以实现用小得多的量(例如亚埃摩尔(sub-attomole))对肽进行MS/MS测序。在此检测极限下,估计使用相同的设置可以达到至少1016位/g。
图3描绘了示例性计算装置300,在下文中可互换地称为计算机系统300,其中一个或多个这样的计算装置300可以用于执行图4、5、6和7的方法400、500、600和700。示例性计算装置300的一个或多个组件也可以用于实施系统100、200以及合成仪112和测序仪212。仅以举例方式提供对计算装置300的以下描述,并非旨在进行限制。
如图3所示,实例计算装置300包括用于执行软件程序的处理器302。尽管为了清楚起见示出了单个处理器,但是计算装置300也可以包括多处理器系统。处理器302连接到通信基础结构306,用于与计算设备300的其他组件进行通信。通信基础结构306可以包括例如通信总线、交叉开关(cross-bar)或网络。
计算装置300进一步包括诸如随机存取存储器(RAM)之类的主存储器304和辅助存储器310。辅助存储器310可以包括例如存储驱动器312(其可以是硬盘驱动器、固态驱动器或混合驱动器)和/或可移动存储驱动器314(其可以包括磁带驱动器、光盘驱动器)、固态存储驱动器(例如USB闪存驱动器、闪存设备、固态驱动器或存储卡)等。可移动存储驱动器314以众所周知的方式从可移动存储介质318读取和/或写入可移动存储介质318。可移动存储介质318可以包括磁带、光盘、非易失性存储器存储介质等,其由可移动存储驱动器314读取和写入。如相关领域技术人员所将理解的,可移动存储介质318包括计算机可读存储介质,其中存储有计算机可执行程序码指令和/或数据。
在替代实施方案中,辅助存储器310可以另外或可替代地包括其他类似装置,以使计算机程序或其他指令加载到计算设备300中。这样的装置可以包括例如可移动存储单元322和接口320。可移动存储单元322和接口320的实例包括程序盒式存储器(programcartridge)和盒式接口(例如视频游戏控制台装置中可见的那些)、可移动存储芯片(例如EPROM或PROM)和相关联的插口、可移动固态存储驱动器(例如USB闪存驱动器、闪存装置、固态驱动器或存储卡)以及其他可移动存储单元322和接口320,其允许将软件和数据从可移动存储单元322传输到计算机系统300。
计算装置300还包括至少一个通信接口324。通信接口324允许软件和数据经由通信路径326而在计算装置300和外部装置之间传输。在本公开的各种实施方案中,通信接口324允许数据在计算装置300和诸如公用数据或专用数据通信网络之类的数据通信网络之间传输。通信接口324可以用于在不同的计算装置300之间交换数据,这些计算装置300形成互连的计算机网络的一部分。通信接口324的实例可以包括调制解调器、网络接口(例如以太网卡)、通信端口(例如串行、并行、打印机、GPIB、IEEE1394、RJ45、USB),具有相关电路的天线等。通信接口324可以是有线的,或者可以是无线的。经由通信接口324传输的软件和数据为信号的形式,该信号可以是电信号、电磁信号、光信号或其他能够被通信接口324接收的信号。这些信号经由通信路径326提供给通信接口。
如本文所使用的,术语“计算机程序产品”可以部分地指代可移动存储介质318、可移动存储单元322、安装在存储驱动器312中的硬盘或通过通信路径326(无线链路或电缆)携带软件到通信接口324的载波。计算机可读存储介质是指将记录的指令和/或数据提供给计算装置300来执行和/或处理的任何非暂时性、非易失性有形存储介质。此类存储介质的实例包括磁带、CD-ROM、DVD、Blu-rayTM Disc、硬盘驱动器、ROM或集成电路、固态存储驱动器(例如USB闪存驱动器、闪存装置、固态驱动器或存储卡)、混合驱动器、磁光盘或诸如PCMCIA卡之类的计算机可读卡,无论此类设备是在计算装置300的内部还是外部。也可以参与向计算装置300提供软件、应用程序、指令和/或数据的瞬时或非有形计算机可读传输介质的实例包括无线电传输通道或红外传输通道以及与另一计算机或网络装置的网络连接,和互联网或内联网(包括电子邮件传输以及网站上记录的信息等)。
计算机程序(也称为计算机程序码)存储在主存储器304和/或辅助存储器310中。也可以经由通信接口324接收计算机程序。此类计算机程序在执行时能使计算装置300执行本文所讨论的实施方案的一个或多个特征。在各种实施方案中,计算机程序在执行时能使处理器302执行上述实施方案的特征。因此,这样的计算机程序代表计算机系统300的控制器。
软件可以存储在计算机程序产品中,并使用可移动存储驱动器314、存储驱动器312或接口320加载到计算装置300中。该计算机程序产品可以是非临时性计算机可读介质。可替代地,可以通过通信路径326将计算机程序产品下载到计算机系统300。软件在由处理器302执行时使计算设备300执行必要的操作,以执行如图4、5、6和7所示的方法400、500、600和700。
应理解,仅通过举例的方式给出图3的实施方案来解释系统300的操作和结构。因此,在一些实施方案中,可以省略计算装置300的一个或多个特征。而且,在一些实施方案中,计算装置300的一个或多个特征可以被组合在一起。另外,在一些实施方案中,计算装置300的一个或多个特征可以被分成一个或多个组成部分。
应当理解,图3所图示的元件用于提供用于执行如以上实施方案中所述的系统的各种功能和操作的装置。
当计算装置300被配置为实现系统100以将数字数据存储到肽序列中时,系统100将具有非暂时性计算机可读介质,其上存储有应用,该应用在被执行时使系统100执行包括以下的步骤:(i)将数字数据编码为数字码;(ii)将数字码翻译成肽序列;以及(iii)合成翻译的肽序列。当计算装置300被配置为实现系统200以从肽序列中检索数字数据时,系统200将具有非暂时性计算机可读介质,该介质上存储有应用,该应用在被执行时使系统200执行包括以下的步骤:(i)对肽序列测序并确定其顺序;(ii)将具有确定顺序的肽序列转换成数字码;以及(iii)从数字码中解码数字数据。
本领域技术人员将认识到,在不脱离本公开广泛描述的精神或范围的情况下,可以如具体实施方案所示对本公开进行多种改变和/或修改。因此,在所有方面都应认为本发明的实施方案是说明性而非限制性的。

Claims (34)

1.一种将数字数据存储到肽序列中的方法。
2.根据权利要求1所述的方法,其中,所述将数字数据存储到肽序列中包括:
将所述数字数据编码为数字码;
将所述数字码翻译成肽序列;以及
合成翻译的肽序列。
3.根据权利要求2所述的方法,其中,所述将所述数字码翻译成肽序列包括:
将位模式或符号模式映射到一个或多个氨基酸中,使得所述数字码由所述肽序列中的氨基酸序列表示。
4.根据权利要求2或3所述的方法,所述方法进一步包括基于所述翻译的肽序列形成肽的混合物。
5.根据权利要求2至4中任一项所述的方法,所述方法进一步包括:将一个或多个顺序检查位添加到所述数字码中,其中所述一个或多个顺序检查位与所述位或符号在所述数字码中的顺序相关联。
6.根据权利要求2至5中任一项所述的方法,所述方法进一步包括:将一个或多个纠错码添加到所述数字码中,其中所述一个或多个纠错码包括重复码、卷积码、turbo码、喷泉码、低密度奇偶校验(LDPC)码、里德所罗门(RS)码、哈达玛码和汉明码的任一种或其任何组合。
7.根据权利要求6所述的方法,其中,所述一个或多个纠错码是基于所述数字码生成的,或者基于所述数字码和添加到所述数字码中的顺序检查位两者而生成的。
8.根据前述权利要求中任一项所述的方法,其中,所述肽序列包含不同的官能团、同位素标记或亲和标记。
9.根据前述权利要求中任一项所述的方法,其中,所述肽序列包含携带数字数据的氨基酸和携带非数字数据的氨基酸。
10.一种从肽序列中检索数字数据的方法。
11.根据权利要求10所述的方法,其中,所述从肽序列中检索数字数据包括:
对所述肽序列测序并确定其顺序;
将具有确定顺序的肽序列转换成数字码;以及
从所述数字码中解码所述数字数据。
12.根据权利要求11所述的方法,其中将具有确定顺序的肽序列转换成所述数字码包括:
将所述肽序列中的一个或多个氨基酸映射到位模式或符号模式中,以便从所述具有确定顺序的肽序列的氨基酸序列中获得所述数字码。
13.根据权利要求11或12所述的方法,所述方法进一步包括将肽序列与肽的混合物分离。
14.根据权利要求11至13中任一项所述的方法,其中,所述数字码包括一个或多个顺序检查位,其中所述一个或多个顺序检查位与所述数字码中的位或符号的顺序相关联。
15.根据权利要求11至14中任一项所述的方法,其中所述数字码包括一个或多个纠错码,其中所述一个或多个纠错码包括重复码、卷积码、turbo码、喷泉码、LDPC码、RS码、哈达玛码和汉明码中的任一种或其任何组合。
16.根据权利要求15所述的方法,其中,从数字码解码所述数字数据使用算法,所述算法包括置信度传播算法、消息传递算法、和积算法和比特翻转算法。
17.根据权利要求14所述的方法,所述方法进一步包括:
编码所述数字码中一个或多个位或符号的顺序;
将所述顺序检查位与所述数字码中一个或多个位或符号的经编码顺序进行比较;以及
如果所述顺序检查位与所述数字码中一个或多个位或符号的所述经编码顺序不匹配,则指示检测错误。
18.一种用于将数字数据存储到肽序列中的系统,所述系统包括:
被配置为合成肽序列的合成仪;
与所述合成仪通信的至少一个处理器;以及
包括计算机程序码的至少一个存储器,所述至少一个存储器和所述计算机程序码被配置为与所述至少一个处理器一起使所述系统至少:
将所述数字数据编码为数字码;
将所述数字码翻译成肽序列;以及
使用所述合成仪合成翻译的肽序列。
19.根据权利要求18所述的系统,其中,使所述系统将所述数字码翻译成肽序列,所述至少一个存储器和所述计算机程序码被配置为与所述至少一个处理器一起使所述系统至少:
将所述数字码的位模式或符号模式映射到一个或多个氨基酸中,使得所述数字码由所述肽序列中的氨基酸序列表示。
20.根据权利要求18或19所述的系统,其中,所述合成仪进一步被配置为:
根据所述翻译的肽序列形成肽的混合物。
21.根据权利要求18至20中任一项所述的系统,其中,所述至少一个存储器和所述计算机程序码被配置为与所述至少一个处理器一起使所述系统进一步:
将一个或多个顺序检查位添加到所述数字码中,其中所述一个或多个顺序检查位与所述数字码中的位或符号的顺序相关联。
22.根据权利要求18至21中任一项所述的系统,其中,所述至少一个存储器和所述计算机程序码被配置为与所述至少一个处理器一起使所述系统进一步:
将一个或多个纠错码添加到所述数字码中,其中所述一个或多个纠错码包括重复码、卷积码、turbo码、喷泉码、LDPC码、RS码、哈达玛码和汉明码的任一种或其任何组合。
23.根据权利要求22所述的系统,其中,所述一个或多个纠错码是基于所述数字码生成的,或者基于所述数字码和添加到所述数字码中的顺序检查位两者而生成的。
24.根据权利要求18至23中任一项所述的系统,其中,所述肽序列包含不同的官能团、同位素标记或亲和标记。
25.根据权利要求18至24中任一项所述的系统,其中,所述肽序列包含携带数字数据的氨基酸的和携带非数字数据的氨基酸。
26.一种用于从肽序列中检索数字数据的系统,所述系统包括:
测序仪,其被配置为对所述肽序列测序并确定其顺序;
至少一个处理器,其与所述测序仪通信;以及
至少一个存储器,其包括计算机程序码,所述至少一个存储器和所述计算机程序码被配置为与所述至少一个处理器一起使所述系统至少:
使用所述测序仪对所述肽序列测序并确定其顺序;
将具有确定顺序的肽序列转换成数字码;以及
从所述数字码中解码所述数字数据。
27.根据权利要求26所述的系统,其中,使所述系统将所述具有确定顺序的肽序列转换成数字码,所述至少一个存储器和所述计算机程序码被配置为与所述至少一个处理器一起使所述系统至少:
将所述肽序列中的一个或多个氨基酸映射到位模式或符号模式中,以便从所述具有确定顺序的肽序列的氨基酸序列中获得所述数字码。
28.根据权利要求26或27所述的系统,其中,所述测序仪进一步被配置为:
将肽序列与肽的混合物分离。
29.根据权利要求26至28中任一项所述的系统,其中,所述数字码包括一个或多个顺序检查位,其中所述一个或多个顺序检查位与所述数字码中的所述位或符号的顺序相关联。
30.根据权利要求26至29中任一项所述的系统,其中,所述数字码包括一个或多个纠错码,其中所述一个或多个纠错码包括重复码、卷积码、turbo码,喷泉码、LDPC码、RS码、哈达玛码和汉明码的任一种或其任何组合。
31.根据权利要求30所述的系统,其中,从所述数字码解码所述数字数据使用算法,所述算法包括置信度传播算法、消息传递算法、和积算法和比特翻转算法。
32.根据权利要求29所述的系统,其中,所述至少一个存储器和所述计算机程序码被配置为与所述至少一个处理器一起使所述系统进一步:
对所述数字码中一个或多个位或符号的顺序进行编码;
将所述顺序检查位与所述数字码中一个或多个位或符号的经编码顺序进行比较;以及
如果所述顺序检查位与所述数字码中一个或多个位或符号的所述经编码顺序不匹配,则指示检测错误。
33.一种用于分配肽序列的计算方法,其中,所述方法包括对一个或多个特征进行识别和评分的算法。
34.根据权利要求33所述的计算方法,其中,所述一个或多个特征包括:
检索到的连续氨基酸的长度;
同位素标记;
检索到的氨基酸的数目;
匹配错误;
强度;以及
具有不同偏移量的不同离子类型的出现次数。
CN201880094641.4A 2018-04-13 2018-12-05 使用肽的数据存储 Pending CN112313749A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862657026P 2018-04-13 2018-04-13
US62/657,026 2018-04-13
PCT/CN2018/119349 WO2019196439A1 (en) 2018-04-13 2018-12-05 Data storage using peptides

Publications (1)

Publication Number Publication Date
CN112313749A true CN112313749A (zh) 2021-02-02

Family

ID=68161681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880094641.4A Pending CN112313749A (zh) 2018-04-13 2018-12-05 使用肽的数据存储

Country Status (4)

Country Link
US (1) US11315023B2 (zh)
EP (1) EP3776557A4 (zh)
CN (1) CN112313749A (zh)
WO (1) WO2019196439A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611364A (zh) * 2021-08-27 2021-11-05 中国人民解放军军事科学院军事医学研究院 面向dna存储的dna序列处理方法、装置与电子设备
CN114356222A (zh) * 2021-12-13 2022-04-15 深圳先进技术研究院 数据存储方法、装置、终端设备及计算机可读存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243679B (zh) * 2020-01-15 2023-03-31 重庆邮电大学 微生物群落物种多样性数据的存储检索方法
US11374686B2 (en) * 2020-02-04 2022-06-28 Qualcomm Incorporated Parity check bits for non-coherent communication
US20220243252A1 (en) * 2021-02-03 2022-08-04 Seagate Technology Llc Isotope modified nucleotides for dna data storage
CN113890737B (zh) * 2021-09-27 2024-01-26 清华大学 一种信息编码方法、信息编码系统及相关装置
CN116895335A (zh) 2022-04-11 2023-10-17 香港理工大学 根据串联质谱法对数据编码肽进行测序
CN116226049B (zh) * 2022-12-19 2023-11-10 武汉大学 基于大小喷泉码利用dna进行信息存储的方法、系统及设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004088585A2 (en) * 2003-03-31 2004-10-14 Council Of Scientific And Industrial Research A method for storing information in dna
CN101123497A (zh) * 2006-08-11 2008-02-13 上海正诺电子技术有限公司 一种仿真蛋白多肽安全信息体及其制作方法
US20110020280A1 (en) * 2008-02-28 2011-01-27 Toray Industries, Inc. Pharmaceutical composition for transnasal administration
CN102436852A (zh) * 2012-01-06 2012-05-02 北京航空航天大学 一种纠正固定错误的数据校验与纠错方法
CN104143109A (zh) * 2014-01-28 2014-11-12 深圳市雁联计算系统有限公司 一种二维码的编码和解码方法及其印刷物
CN104662544A (zh) * 2012-07-19 2015-05-27 哈佛大学校长及研究员协会 利用核酸存储信息的方法
US20150205911A1 (en) * 2012-05-25 2015-07-23 Bayer Healthcare Llc System and Method for Predicting the Immunogenicity of a Peptide
US20160188795A1 (en) * 2009-10-23 2016-06-30 Life Technologies Corporation Systems and Methods for Error Correction in DNA Sequencing
WO2017083177A1 (en) * 2015-11-13 2017-05-18 Microsoft Technology Licensing, Llc Error correction for nucleotide data stores
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法
WO2017189914A1 (en) * 2016-04-27 2017-11-02 Massachusetts Institute Of Technology Sequence-controlled polymer random access memory storage

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990003959A1 (en) 1988-10-05 1990-04-19 The Flinders University Of South Australia Solid medium and method for dna storage
US5800992A (en) 1989-06-07 1998-09-01 Fodor; Stephen P.A. Method of detecting nucleic acids
ATE224362T1 (de) 1995-06-02 2002-10-15 Optilink Ab Physisch funktionelle materalien
WO2003025123A2 (en) 2001-08-28 2003-03-27 Mount Sinai School Of Medecine Dna: a medium for long-term information storage specification
US6906320B2 (en) 2003-04-02 2005-06-14 Merck & Co., Inc. Mass spectrometry data analysis techniques
US20050196809A1 (en) * 2004-03-05 2005-09-08 Kelleher Neil L. Identification and characterization of proteins using new database search modes
US8457900B2 (en) 2006-03-23 2013-06-04 The Regents Of The University Of California Method for identification and sequencing of proteins
PL2057274T3 (pl) * 2006-09-21 2014-05-30 Dsm Ip Assets Bv Fosfolipazy, kodujące je kwasy nukleinowe i sposoby ich wytwarzania i stosowania
SG11201407818PA (en) 2012-06-01 2014-12-30 European Molecular Biology Lab Embl High-capacity storage of digital information in dna
US9286154B2 (en) * 2013-06-07 2016-03-15 Alcatel Lucent Error correction for entangled quantum states
KR20150005426A (ko) * 2013-07-05 2015-01-14 삼성전자주식회사 송신 장치 및 그의 신호 처리 방법
GB2521387B (en) 2013-12-18 2020-05-27 Ge Healthcare Uk Ltd Oligonucleotide data storage on solid supports
US10650312B2 (en) * 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
US10793897B2 (en) * 2017-02-08 2020-10-06 Microsoft Technology Licensing, Llc Primer and payload design for retrieval of stored polynucleotides
CN118116478A (zh) * 2017-02-22 2024-05-31 特韦斯特生物科学公司 基于核酸的数据存储
US11573239B2 (en) * 2017-07-17 2023-02-07 Bioinformatics Solutions Inc. Methods and systems for de novo peptide sequencing using deep learning
US10693496B2 (en) * 2017-08-29 2020-06-23 SK Hynix Inc. Memory system with LDPC decoder and method of operating such memory system and LDPC decoder

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004088585A2 (en) * 2003-03-31 2004-10-14 Council Of Scientific And Industrial Research A method for storing information in dna
CN101123497A (zh) * 2006-08-11 2008-02-13 上海正诺电子技术有限公司 一种仿真蛋白多肽安全信息体及其制作方法
US20110020280A1 (en) * 2008-02-28 2011-01-27 Toray Industries, Inc. Pharmaceutical composition for transnasal administration
US20160188795A1 (en) * 2009-10-23 2016-06-30 Life Technologies Corporation Systems and Methods for Error Correction in DNA Sequencing
CN102436852A (zh) * 2012-01-06 2012-05-02 北京航空航天大学 一种纠正固定错误的数据校验与纠错方法
US20150205911A1 (en) * 2012-05-25 2015-07-23 Bayer Healthcare Llc System and Method for Predicting the Immunogenicity of a Peptide
CN104662544A (zh) * 2012-07-19 2015-05-27 哈佛大学校长及研究员协会 利用核酸存储信息的方法
US20150269313A1 (en) * 2012-07-19 2015-09-24 President And Fellows Of Harvard College Methods of Storing Information Using Nucleic Acids
CN104143109A (zh) * 2014-01-28 2014-11-12 深圳市雁联计算系统有限公司 一种二维码的编码和解码方法及其印刷物
WO2017083177A1 (en) * 2015-11-13 2017-05-18 Microsoft Technology Licensing, Llc Error correction for nucleotide data stores
WO2017189914A1 (en) * 2016-04-27 2017-11-02 Massachusetts Institute Of Technology Sequence-controlled polymer random access memory storage
CN106845158A (zh) * 2017-02-17 2017-06-13 苏州泓迅生物科技股份有限公司 一种利用dna进行信息存储的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611364A (zh) * 2021-08-27 2021-11-05 中国人民解放军军事科学院军事医学研究院 面向dna存储的dna序列处理方法、装置与电子设备
CN114356222A (zh) * 2021-12-13 2022-04-15 深圳先进技术研究院 数据存储方法、装置、终端设备及计算机可读存储介质
CN114356222B (zh) * 2021-12-13 2022-08-19 深圳先进技术研究院 数据存储方法、装置、终端设备及计算机可读存储介质

Also Published As

Publication number Publication date
EP3776557A4 (en) 2021-12-15
US11315023B2 (en) 2022-04-26
WO2019196439A1 (en) 2019-10-17
US20190318247A1 (en) 2019-10-17
EP3776557A1 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
CN112313749A (zh) 使用肽的数据存储
US11302421B2 (en) Data storage using peptides
CN110945595B (zh) 基于dna的数据存储和检索
Chandak et al. Improved read/write cost tradeoff in DNA-based data storage using LDPC codes
Ng et al. Data storage using peptide sequences
TWI325233B (en) System and method for decoding data compressed in accordance with dictionary-based compression schemes
CN107680626B (zh) 用于改进闪存存储器存储延迟和鲁棒性的方法和设备
WO2018071080A2 (en) Method and systems for the representation and processing of bioinformatics data using reference sequences
CN107017892B (zh) 一种校验级联极化码编码方法及系统
CN106685431B (zh) 基于Nand Flash的LDPC获取软信息译码方法及编译码器
CN105976303B (zh) 一种基于矢量量化的可逆信息隐藏和提取方法
AR038188A1 (es) Metodo para codificar y decodificar
JP2006509406A (ja) ビットストリームフォーマット検出に基づいて特定のデコーダを選択するための方法および装置
CN110391872A (zh) 极化码的编译码方法和装置
Payne et al. Unexpected diversity of signal peptides in prokaryotes
JP3889286B2 (ja) 復号方法、復号装置及びディジタル伝送システム
Cunsolo et al. Structural studies of the allelic wheat glutenin subunits 1Bx7 and 1Bx20 by matrix‐assisted laser desorption/ionization mass spectrometry and high‐performance liquid chromatography/electrospray ionization mass spectrometry
WO2003017499A3 (en) Enhanced coding for informed decoders
US20200321079A1 (en) Encoding/decoding method, encoder/decoder, storage method and device
CN113687976B (zh) 面向dna信息存储的编码和解码方法与装置
de Souza et al. Validating divergent ORF annotation of the Mycobacterium leprae genome through a full translation data set and peptide identification by tandem mass spectrometry
CN109450460B (zh) 一种rs码与卷积码的级联码的参数识别方法
Fagerquist et al. Top-down proteomic identification of plasmid and host proteins produced by pathogenic Escherichia coli using MALDI-TOF-TOF tandem mass spectrometry
KR20190071741A (ko) 생물 정보학 데이터의 간략 표현 방법 및 장치
CN110995288B (zh) 一种rm码的分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination