EP4278180A1 - Verfahren und systeme zur identifikation einer sequenz von monomerbausteinen eines biologischen oder synthetischen heteropolymers - Google Patents

Verfahren und systeme zur identifikation einer sequenz von monomerbausteinen eines biologischen oder synthetischen heteropolymers

Info

Publication number
EP4278180A1
EP4278180A1 EP22702887.5A EP22702887A EP4278180A1 EP 4278180 A1 EP4278180 A1 EP 4278180A1 EP 22702887 A EP22702887 A EP 22702887A EP 4278180 A1 EP4278180 A1 EP 4278180A1
Authority
EP
European Patent Office
Prior art keywords
heteropolymer
sequence
residual current
nanopore
monomer building
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP22702887.5A
Other languages
English (en)
French (fr)
Inventor
Jan Behrends
Tobias ENSSLEN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Albert Ludwigs Universitaet Freiburg
Original Assignee
Albert Ludwigs Universitaet Freiburg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Albert Ludwigs Universitaet Freiburg filed Critical Albert Ludwigs Universitaet Freiburg
Publication of EP4278180A1 publication Critical patent/EP4278180A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6818Sequencing of polypeptides
    • G01N33/6824Sequencing of polypeptides involving N-terminal degradation, e.g. Edman degradation
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K1/00General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
    • C07K1/12General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length by hydrolysis, i.e. solvolysis in general
    • C07K1/128General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length by hydrolysis, i.e. solvolysis in general sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2333/00Assays involving biological materials from specific organisms or of a specific nature
    • G01N2333/90Enzymes; Proenzymes
    • G01N2333/914Hydrolases (3)
    • G01N2333/948Hydrolases (3) acting on peptide bonds (3.4)
    • G01N2333/95Proteinases, i.e. endopeptidases (3.4.21-3.4.99)
    • G01N2333/964Proteinases, i.e. endopeptidases (3.4.21-3.4.99) derived from animal tissue
    • G01N2333/96425Proteinases, i.e. endopeptidases (3.4.21-3.4.99) derived from animal tissue from mammals
    • G01N2333/96427Proteinases, i.e. endopeptidases (3.4.21-3.4.99) derived from animal tissue from mammals in general
    • G01N2333/9643Proteinases, i.e. endopeptidases (3.4.21-3.4.99) derived from animal tissue from mammals in general with EC number
    • G01N2333/96433Serine endopeptidases (3.4.21)
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores

Definitions

  • the present invention relates to a method for identifying a sequence of monomer building blocks of a biological or synthetic heteropolymer.
  • the invention also relates to the use of a nanopore to identify a sequence of monomer building blocks of a biological or synthetic heteropolymer.
  • the invention also relates to a computer-implemented method, a computer program code and a data processing system for identifying a sequence of monomer building blocks of a biological or synthetic heteropolymer.
  • the identification of proteins in complex mixtures currently relies on mass spectrometry of ionized molecules in the gas phase, a powerful but expensive technology that requires large equipment.
  • the present invention consists in a novel approach that involves a highly controlled and automated, preferably enzymatic, fragmentation using both sequence-specific endopeptidases and exopeptidases with a newly developed principle of "peptide spectrometry through nanopores" for the purpose of label-free characterization of protein mixtures, including identification , discrimination and finally protein sequencing combined.
  • Nanopore size spectroscopy was first demonstrated for synthetic polymers, but recently it was shown to be applicable to peptides and enable their highly sensitive label-free discrimination (Piguet et al. 2018; Ouldali et al. 2020). Importantly, this technique is able to detect differences in individual amino acid residues and - in contrast to mass spectrometry - distinguish between peptides of the same mass, e.g. peptides containing either the stereoisomers leucine or isoleucine (Ouldali et al. 2020), or are characterized by sequence isomerism.
  • the current standard method for identifying proteins from mixtures involves a series of separation steps, such as liquid chromatography or (2D) gel electrophoresis, followed by tryptic digestion to peptide fragments and mass spectrometry, eg electrospray ionization (ESI), or matrix-assisted laser desorption/ionization ( MALDI), followed by a separation according to the transit time (TOF), or in a quadrupole (Q)/multipole field and subsequent correlation with known proteins in databases.
  • mass spectrometry while a powerful technique, requires expensive and bulky equipment and suffers from significant deficiencies in terms of detection limits and dynamic sensitivity range.
  • a more fundamental disadvantage is that peptides of the same mass but different composition (eg containing leucine or isoleucine) cannot be differentiated without derivatization.
  • novel solutions are required to identify, discriminate, and ultimately sequence proteins with single-molecule sensitivity.
  • nanopore-mediated single-molecule DNA sequencing in which only 4 nucleobases with the same charge have to be distinguished, the problem of protein structure elucidation is much more complex because of the 20 proteinogenic amino acids (aa). To date, this area is still in its infancy, but some progress has already been made, which is summarized below.
  • Single molecule detection through nanopores is based on the analysis of the reduction in electrical conductivity that occurs when an analyte, e.g. a DNA strand or a peptide, diffuses into a molecularly dimensioned water-filled channel located in an insulator, i.e. into a nanopore, or migrated.
  • the principle of electrical detection of the transport of molecules through a nanopore which is a protein channel or an artificial channel, e.g. a nanoscale aperture in a solid-state membrane or a nanotube (nanotube) or a DNA origami structure embedded in a lipid membrane or a introduced into a solid membrane introduced nanoscale hole can act is known.
  • the membrane is subjected to a potential difference that induces an ionic current across the nanopore in the presence of an electrolyte solution or other ionically conductive medium (e.g., an ionic liquid).
  • an electrolyte solution or other ionically conductive medium e.g., an ionic liquid.
  • the interaction of a molecule with the channel of a nanopore in particular the entry of the molecule into the channel, the presence of the molecule in the channel or the passage of the molecule through the channel, induces a measurable reduction in current if the conductive medium in the channel is a has higher electrical conductivity than the analyte and vice versa.
  • Biological (protein) nanopores which form such channels through insulating lipid bilayers, were the first nanopores to demonstrate the ability to detect single molecules, and they enable current nanopore-based DNA sequencing techniques.
  • nanoscopic pores can be produced in solid materials such as thin SiN membranes by various drilling or etching processes.
  • solid-state nanopores are promising, although the production of solid-state nanopores that are as identical as possible is a technical challenge.
  • are pore-forming Proteins are constructed with atomic precision and have evolved over millions of years to allow solute transport across membranes.
  • Fig. 1 a sketch of the principle of single molecule detection by nanopores is shown.
  • a constant potential difference AE across an insulator drives an ionic current through the pore.
  • a single analyte molecule in the pore partially blocks the current (resistance pulse). Both the depth of the blockage or the residual current and the duration and temporal variations of this current signal carry information about the analyte.
  • the reduction in conductivity is measured as a change in ionic current induced by a constant voltage across the insulator in which the pore forms the only (or the dominant) electrically conductive link.
  • These signals correspond to individual analyte molecules entering the pore and interacting with the inner wall of the pore - possibly, but not necessarily, traversing the pore, i.e. translocating through the pore from one side of the insulator to the other .
  • the analyte is a polymer (eg a peptide, polynucleotide or a synthetic polymer such as poly(ethylene glycol))
  • two regimes must be distinguished, as shown in Figure 2: in the threading regime is the polymer stretched and few of its monomers contribute to the change in resistance. In this regime, the current signal is sensitive to the identity of the monomers in the narrowest part of the pore and can therefore be used for sequencing if the polymer is threaded through the pore in a regular manner, i.e. with a speed that is as uniform as possible.
  • the collapsed regime was used for the nanopore-mediated determination of the molecular size distribution of neutral synthetic polymers (Baaken et al. 2015). It is assumed that in this regime there is a non-specific binding of the collapsed polymer to the pore wall (binding regime; Talarimoghari, M., G. Baaken, R. Hanselmann, and JC Behrends. 2018. Size-dependent interaction of a 3-arm star polyethylene glycol) with two biological nanopores . Eur. Phys. JE 41:6288-8.
  • the two regimes of the polymer-nanopore interaction are shown in FIG.
  • the threading/translocation regime is favored when long polyelectrolyte chains in relation to the pore length in low to medium salt concentration (0.1 to 0.3 M KCl) interact with the pore, with relatively high electrical voltages (>50 to >100 mV) to the Used to move the polymer through the pore in an electric field.
  • the collapsed/binding regime also: trapping regime, since the pore acts as a molecular trap here
  • the collapsed/binding regime can only be used for polymers that are short enough or and/or sufficiently collapsed to fully fit within the pore. Binding and trapping of a polymer in the pore is also possible for charged polymers and also for polymers in the non-collapsed or not fully collapsed state, as long as they are not too long for the pore.
  • the investigations on which this invention is based showed that carrying out the current measurement method (step b) in claim 1) in the collapse regime (also: collapsed, binding or trapping regime) is particularly advantageous.
  • the method according to the invention serves to identify a sequence of monomer building blocks of a biological or synthetic heteropolymer and has the following steps: a) carrying out a fragmentation method in which the heteropolymer is fragmented in particular enzymatically, chemically and/or physically, and a fragment mixture is thereby obtained , whose fragments are molecules with different sequence sections of the heteropolymer; b) performing a current measurement method in which current signals of a current through the channel of a single nanopore, or a current that occurs in parallel through a plurality or plurality of channels of a plurality or plurality of nanopores, are detected, each current signal on the interaction of a Fragments with the channel of the nanopore is based, the current signals being characteristic for the different fragments, it being possible to determine a representative set of characteristic current signals which represents the fragment mixture; c) Carrying out an evaluation method in which a sequence of monomer building blocks of the heteropolymer is determined from the representative set of the characteristic current signals.
  • the fragments of the fragment mixture are obtained by successive degradation of the heteropolymer.
  • n-2, n-1 , n so that the length fragments have a total length of n-(n-1), n-(n-2)...to n-(nn) monomer building blocks) to obtain a heteropolymer consisting of n monomer building blocks, each length fragment having the identical sequence to the heteropolymer Having monomer building blocks starting from position 1 (start of chain) to position n-(ni).
  • a fragment mixture is also referred to here as a “ladder” or as a heteropolymer ladder, ie a “peptide ladder” if the heteropolymer is/has a peptide.
  • the sequence of monomer building blocks of the heteropolymer determined in step c) can be part of the total sequence (partial sequence) of monomer building blocks of the heteropolymer, or, preferably, be the total sequence of monomer building blocks of the heteropolymer.
  • the heteropolymer is a peptide.
  • the fragmentation method is or includes Edman degradation.
  • the fragmentation procedure can be designed to involve the cleavage of the protein by endopeptidases into peptides, and in particular the treatment of the peptides by exopeptidases to obtain the peptide ladder.
  • the method according to the invention preferably has the following steps: in particular preferably in each case in step b):
  • a characteristic residual current value designates the measurement results of the current value measurement resulting from the interaction of a specific fragment, which is characterized by the characteristic residual current value, with the nanopore.
  • the characteristic residual current value contains in particular the residual current value that can be assigned to the corresponding current signal.
  • the characteristic residual current value can also be a vector-valued variable which, in addition to the residual current value, has other Includes components, the number of which determines the dimension of the vector value. Such components can be a duration of the current signal or another variable describing the time course of this current signal, or can be parameters that describe an interpolation curve that is used to describe the current signal.
  • a characteristic residual current value in each case describes a fragment type, in particular fragment size, of the number n of fragment types of a fragment mixture formed from the heteropolymer.
  • a fragment mixture formed as a peptide ladder contains a total of n fragment types starting from a peptide with n amino acids as monomer building blocks.
  • the peptide solution containing the fragment mixture usually contains a large number of fragments of each fragment type (peptide type).
  • a mixture of fragments obtained by 100% efficient fragmentation of a starting quantity M of the peptide to be sequenced also contains a number M of fragments for each of the n fragment types of the peptide. If the term “fragment” is spoken of in this application, the fragment type in particular can be meant, depending on the context.
  • the method according to the invention is preferably defined as an extended method which serves to determine a sequence of a protein, comprising the steps i) cleaving the protein, in particular by enzymatic and/or chemical and/or physical cleavage, in order to obtain peptides as cleavage products of the protein; optional: obtaining the peptides by chromatographic or electrophoretic separation of a peptide mixture obtained by the cleavage; ii) application of the method according to the invention for determining the sequence of amino acids (monomer building blocks) of at least one, in particular each, of the peptides (heteropolymer); iii) carrying out a recognition method for recognizing the sequence of the protein, in which the sequence of the protein is determined from the sequence of amino acids of the at least one peptide.
  • the method according to the invention or the above-mentioned embodiment of the method according to the invention can advantageously be used to elucidate the, in particular complete, primary structure of a macromolecule, in particular a biological macromolecule, in particular a protein, the biological macromolecule containing different heteropolymers, in particular formed from different heteropolymers bonded to one another is:
  • the method according to the invention is preferably defined as an extended method which is used to determine the primary structure of a macromolecule, in particular a protein, comprising the steps i) cleavage of the macromolecule, in particular protein, in particular by enzymatic and/or chemical and/or physical cleavage in order to to obtain heteropolymers, in particular peptides, as cleavage products of the macromolecule; optional: Obtaining heteropolymers, in particular the peptides, by separation, in particular chromatographic or electrophoretic separation, of a heteropolymer mixture obtained by the cleavage, in particular a peptide mixture; ii) application of the method according to the invention for determining a sequence of monomer building blocks, in particular amino acids, at least one, in particular each, of the heteropolymers, in particular peptides; iii) Carrying out a macromolecule recognition method, in particular protein recognition method, in which the primary structure of the macromolecule, in particular protein, is determined from the sequence of the at least one
  • the method according to the invention can be designed to determine part of the complete sequence of monomer building blocks from which the heteropolymer is composed. If only part of the complete sequence of monomer building blocks of a heteropolymer is determined, the method according to the invention can be used in particular to implement a determination method in which the partial sequence of monomer building blocks of a heteropolymer determined using the method according to the invention is used to determine which previously known heteropolymer from a set T (1 to T) of previously known different (namely different in terms of their sequence) heteropolymers was determined.
  • “Prior art” here means that the nearly complete, or full sequence of monomer building blocks of any previously known heteropolymer is known.
  • the partial sequence determined using the method according to the invention represents a “fingerprint” of the heteropolymer to be determined from the previously known quantity of heteropolymers, i.e. a feature that makes the heteropolymer sought clearly identifiable from the other heteropolymers in the quantity 1 to T.
  • the steps of such a detection method can be described as follows: i) providing the information about the previously known sequence of each heteropolymer of a set of 1 to T different heteropolymers; ii) use of a heteropolymer to be determined which is identical to exactly one heteropolymer of this quantity of 1 to T different heteropolymers, it not being known in particular which heteropolymer of this quantity the heteropolymer to be determined is identical to; iii) carrying out the method according to the invention for determining a partial sequence of the heteropolymer to be determined; iv) comparing the partial sequence determined in iii) with the previously known sequences of all heteropolymers in the amount from 1 to T different Heteropolymers and determining the desired heteropolymer from the set of previously known heteropolymers using the partial sequence that makes the desired heteropolymer compared to the other heteropolymers of the set 1 to T clearly identifiable.
  • the determination method mentioned allows the determination of the complete sequence of a desired heteropolymer, without the complete sequence of the desired heteropolymer having to be elucidated by means of the method according to the invention, if the desired heteropolymer comes from a set T of previously known heteropolymers, each with a previously known sequence, with a partial sequence -after Fingerprint type - uniquely identifies the sought-after heteropolymer from the remaining heteropolymers of that lot.
  • the detection method is the more efficient way to determine the complete sequence of the searched heteropolymer compared to the alternative of using the method according to the invention to elucidate the complete sequence of the searched heteropolymer instead of the partial sequence of the searched heteropolymer.
  • the nanopore is preferably a biological nanopore, ie a pore-forming toxin or a porin.
  • the nanopore is preferably a solid nanopore or a hybrid of a solid and biological and/or chemical components.
  • a solid body in particular a substrate, can have or be formed from at least one of the following materials: SiNx, SiO2, HfO2, MOS2, CNT, graphene, nanopipettes.
  • Biological or chemical components can, each preferably, contain or consist of at least one of the following: pore-forming toxins, porins, ⁇ -barrel proteins, alpha-helical membrane proteins, DNA origami structures. Hybrids, i.e. combinations of all the components mentioned above, are possible.
  • the heteropolymer is preferably fragmented by enzymes.
  • these are endo/exo-peptidases for proteins/peptides and common ones for DNA Restriction enzymes (nucleases).
  • nucleases DNA Restriction enzymes
  • Possible peptidases are mentioned, for example, in: https://www.ebi.ac.uk/merops/ Possible nucleases are mentioned, for example, in: https://wikivisually.com/wiki/List_of_restriction_enzyme_cutting_sites%3A_Bst%E2%80%93Bv#Whole_list_navigation
  • the heteropolymer is fragmented chemically and non-enzymatically.
  • proteins/peptides one can use Schlack-Kumpf and Edman degradation.
  • DNA enzymes are usually used for this.
  • the heteropolymer is preferably fragmented physically, for example by exposure to heat, cold, sound waves, electromagnetic radiation, in particular infrared, ultraviolet or X-ray radiation, microwaves or visible light. Examples of this are documented in https://doi.Org/10.1073/pnas.0901422106 or https://doi.Org/10.1007/s13361-017-1794-9 and https://doi.Org/10.1002/mas.20214 .
  • the nanopore is preferably selected from the group of preferred nanopore proteins containing aerolysin, alpha-hemolysin, MspA, CsgG, VDAC or another protein from the beta-barrel protein family, as well as genetically optimized variants of these pore proteins.
  • the pore proteins and the other measurement conditions are preferably optimized for an interaction of the analyte (of the fragment) with the pore, which results in an interaction between the analyte and the pore that is optimally long-lasting for the respective analyte.
  • a preferred configuration of the nanopore is as follows: the nanopore is preferably an aerolysin pore, in particular a variant of the aerolysin pore.
  • the single-molecule trap of the aerolysin pore can be adapted and optimized to the analyte by single-point mutation in the dimension and depth of the potential well.
  • Aerolysin variants R220S/A/C/K/H/E/D/Q/N, R288S/A/C/K/H/E/D/Q/N, R282S/A/C/K /H/E/D/Q/N, D222S/A/C/F/R/K/H/E/Q/N, D276S/A/C/F/R/K/H/E/Q/N, D209S/A/C/F/R/ K/H/E/Q/N,
  • K238S/A/C/F/R/D/H/E/Q/N K242S/A/C/F/R/D/H/E/Q/N, K244S/A/C/F/R/ D/H/E/Q/N,
  • E254S/A/C/F/R/D/H/K/Q/N E252S/A/C/F/R/D/H/K/Q/N and any combination thereof.
  • the aerolysin pore in its natural form (wild type) or as a variant thereof is particularly preferred for use as a nanopore within the scope of the invention.
  • the variant can be designed to differentiate and characterize fragments of heteropolymers that differ only by positional isomerism, for example.
  • positional isomerism derived from acetylation was distinguished (“Resolving isomeric posttranslational modifications using a nanopore”, Tobias Ensslen, Kumar Sarthak, Aleksei Aksimentiev, Jan C. Behrends, bioRxiv 2021.11.28.470241; doi: https://doi.org/10.1101/2021.11.28.470241).
  • a translocation or passage of the analyte through the pore is not necessary, although it is permitted in principle. Rather, it is particularly advantageous if the same analyte visits its binding site in the pore for as long as possible, or visits it again several times and binds there after it has left the molecular trap again in the direction of the entry opening. Accordingly, “interaction” of the fragment (analyte, molecule) with the channel of the nanopore preferably means that the fragment enters the channel but does not pass through the channel, which ultimately results in a non-destructive multiple determination of the same molecule.
  • step b) carrying out the current measurement method (step b) in claim 1) in the collapse regime (also: collapsed, binding or trapping regime) is particularly advantageous.
  • the current measurement method carried out in step b) is preferably carried out in such a way that the fragment mixture is present in an electrolyte solution which, in particular, has dissolved salts of the form AX, A 2 X and AX 2 etc., with substance A (e.g. selected from the alkali and alkaline earth metals Na, K, Cs, Rb, Li) provides the cation and substance X (e.g. selected from the halogens F, Cl, Br) provides the anion.
  • substance A e.g. selected from the alkali and alkaline earth metals Na, K, Cs, Rb, Li
  • substance X e.g. selected from the halogens F, Cl, Br
  • the substance groups A and X can include other components in terms of inorganic or organic derivatives of such salts (where, for example, substance A is a quaternary ammonium, imidazolium, phosphonium, pyridinium and pyrrolidinium ion such as tetramethylammonium and substance X is a nitrate, a sulfate, phosphate , an amino acid such as glutamate, a carboxylic acid such as gluconate, citrate, a (bi)carbonate, or a simple hydroxide).
  • the electrolyte solution can preferably also contain mixtures of different combinations of different salts.
  • the total salt concentration of the electrolyte solution in which the fragment mixture is present during the implementation of the current measurement method is between 0.5 M and 20 M, preferably between 2 M and 10 M and particularly preferably between 3 M and 5 M.
  • the fragment mixture can alternatively to an electrolyte solution in one ionic liquid present.
  • Such configurations of the electrolyte ensure that conditions such as charge shielding and solubility of the analyte in the electrolyte solution are optimally adjusted for the collapsed/binding regime and the analyte remains in the molecule trap of the pore for as long as possible, and at the same time the highest possible signal-to-noise ratio is achieved. ratio of the current measurement is achieved.
  • the invention also relates to the use of a nanopore for carrying out the method according to the invention for identifying a sequence of monomer building blocks of a biological or synthetic heteropolymer.
  • the invention also relates to a computer-implemented method for determining a sequence of monomer building blocks of a heteropolymer (heteropolymer sequence) from the measurement data of a current measurement method that contains information about current signals that are determined during the interaction of different fragments formed from the heteropolymer with a nanopore, having the steps :
  • the invention also relates to a computer program code that is stored on a data carrier and that determines a sequence of monomer building blocks of a heteropolymer (heteropolymer sequence) from the measurement data of a current measurement method when it is executed by the central processor of a computer, the measurement data containing information about current signals that are the interaction of different fragments formed from the heteropolymer with a nanopore can be determined, having the steps implemented in each case by the program code: A) determination of residual current values (the current signals) from the measurement data, with a residual current describing the interaction of one of the different fragments of the heteropolymer with a nanopore;
  • the invention also relates to a data processing system for determining a sequence of monomer building blocks of a heteropolymer (heteropolymer sequence) from the measurement data of a current measurement method that contains information about current signals that are determined during the interaction of different fragments formed from the heteropolymer with a nanopore, having a computer with a central processor, and a program code, in particular the program code according to the invention, the computer being programmed to carry out the following computer-implemented steps:
  • the evaluation method in which the sequence of the monomer building blocks of the heteropolymer is determined from the representative set of the characteristic current signals, preferably provides the following computer-implemented steps:
  • a prediction algorithm can be used to indicate a probability or an evaluation factor for evaluating the reliability of a primary structure of the heteropolymer determined by estimation from the incomplete data, in particular from an incomplete representative set of characteristic residual current values.
  • the prediction algorithm can have been determined by machine learning using, in particular, labeled training data.
  • the labeled data may contain variations of incomplete representative sets of the residual current characteristic values of previously known heteropolymers.
  • the prediction algorithm can contain an artificial neural network, in particular a convolutional neural network (CNN), which can be trained using the labeled training data.
  • CNN convolutional neural network
  • 1 shows a sketch of the principle of single molecule detection by nanopores, which can be used in the method 100 according to the invention.
  • 2 shows the two possible regimes of a polymer-nanopore interaction.
  • FIG 3 shows the detection of the twenty proteinogenic amino acids (aa) using the aerolysin nanopore, in particular according to the prior art.
  • 5a, 5b and 5c each show exemplary embodiments of the method according to the invention and its components.
  • Figure 6a shows, in relation to an embodiment of the invention: sequences of the six heterodeca peptides constituting the start peptide of the ladder.
  • 6b shows in relation to an embodiment of the invention: a schematic representation of the experimental setup.
  • 6c shows in relation to an embodiment of the invention: a control measurement curve in 4 M KCl
  • 6d shows in relation to an embodiment of the invention: an exemplary measurement curve after addition of the peptide ladder L1 with all peptides in an equimolar concentration.
  • Figure 6e shows in relation to an embodiment of the invention: a schematic mean level histogram over the main level for a peptide ladder sequencing experiment.
  • FIG. 7 shows in relation to an embodiment of the invention: residence time scatter diagrams over the residual pore flow l/lo (red) with superimposed level histograms (black) averaged over the main level for all six peptide ladders.
  • FIG. 8 shows: data correlation plots for all six peptide ladders.
  • FIG. 9a shows in relation to an embodiment of the invention: Reproducibility of l/lo of the homo-arginine peptides R3, R4, R5, R7 (blue) in comparison to R3-R7 from Piguet et al. 2018 (red), and conductors L1 (green, solid line, circle), L3 (green, dashed, pointing triangle), L4 (green, dotted, pointing triangle), L2 (pink, solid line, circle), L5 (pink , dashed, pointing triangle), L6 (pink, dotted, pointing triangle).
  • 9b shows in relation to an embodiment of the invention: A I/Io boxplot for each cleaved amino acid type with median (blue) and mean (white).
  • Figure 9c shows, in relation to an embodiment of the invention: A I/Io values for arginine cleavage classified by the nearest neighbor aa of arginine as C-terminal aa (alanine blue, arginine red, serine green, tyrosine yellow) of homo- (dots) and hetero-peptides (circles); Data for homo-peptides were taken from Piguet et al. 2018
  • Fig. 9d shows in relation to an embodiment of the invention: residence time scatter diagrams over the residual pore flow l/lo with superimposed main level averaged level histograms for the deca peptides of Porteri (red), Porter2 (blue), Porters (green), Porter4 (yellow) ,
  • IDEs pink
  • auerß black
  • FIG. 10 shows in relation to an exemplary embodiment of the invention: residence time scatter diagrams over the residual pore flow l/lo (red) with superimposed level-averaged histograms (black) sample A (left) and B (right). Below each graphic, the suggested sequences (prop) and the correct sequences (corr) are shown using the first reading aid. The green box indicates the correct reading frame.
  • Fig. 11 shows in relation to an embodiment of the invention: Data table for double-blind study.
  • Figure 1a shows an illustration of the principle of single molecule capture by nanopores which can be used to implement the invention.
  • a constant voltage AU across an insulator draws ionic current through the nanopore.
  • a single analyte particle, e.g. a fragment, in the nanopore partially blocks the current (resistance pulse or current signal, or residual current value). Both the depth of blockage and the duration carry information about the analyte.
  • FIG. 2 shows the two possible regimes of a polymer-nanopore interaction.
  • the threading/translocation regime is favored when long polyelectrolyte chains in low to medium salt concentration (0.1 to 1.0 M KCl) interact with the pore.
  • the binding trapping, or collapsed, regime typically occurs under high salt conditions (e.g., 4M KCl) and does not require loading of the analyte.
  • the collapsed regime is preferably used in the invention.
  • an electrolyte-filled first compartment 11 is electrically insulated from an electrolyte-filled second compartment 12 by a membrane formed in particular by means of a lipid double layer 2; a current flow is essentially only possible through the nanopore 3 built into the lipid bilayer, which electrically connects the compartments 11 and 12 .
  • the lipid bilayer can be stretched over the micro-aperture or over a micro-cavity of a microstructure device (not shown in Figure 2), such as is described in document WO 2013/083270.
  • the threading/translocation regime the analyte 4a is elongated, in the collapsed/binding regime, the analyte 4b is collapsed and compact.
  • FIG. 3 shows the detection of the twenty proteinogenic amino acids (aa) using the aerolysin nanopore.
  • peptides or other heteropolymers
  • peptides which can initially be produced preferably by enzymatic or chemical or physical cleavage of proteins, preferably be separated using known chromatographic or electrophoretic methods, or in which peptides or other heteropolymers are already isolated, and, preferably in a second step, either the action of exopeptidases, which cleave individual N- or C-terminal amino acids from a peptide, or chemical Methods such as the Edman reaction are subjected to produce a mixture of peptides or heteropolymers, ie a fragment mixture, in which several species or characteristic types of fragments are present in a representative set, which preferably represent all or most of the possible fragments that by removing the amino acids (or Mon omer building blocks) are generated one after the other, so that for a peptide (or a heteropolymer) of degree of polymerization (d.p.)
  • the measurement evidence shows the ability of the invention to correlate, for example, short, known peptide sequences in this way with the data of the nanopores (see FIG. 4).
  • Figure 4 shows:
  • A, B Scatterplots with event histogram obtained from the interaction of aerolysin with two peptide ladders containing a triarginine handle.
  • the removal of aa leads to a species-specific shift in the residual current that is characteristic of a monomer building block type (here aa).
  • C,D Plot of change in peptide volume and relative residual current for the two ladders shown above. A clear correlation between the two parameters as well as the sequence dependency is evident.
  • Fig. 5a shows an exemplary method 100 according to the invention for identifying a sequence of monomer building blocks of a biological or synthetic heteropolymer, comprising the steps: a) carrying out a fragmentation method in which the heteropolymer is fragmented in particular enzymatically, chemically and/or physically, and thereby a fragment mixture is obtained, the fragments of which are molecules with different sequence sections of the heteropolymer; (101) b) performing a current measurement method in which current signals of a current through a nanopore are detected, each current signal being based on the interaction of a fragment with the nanopore, the current signals being characteristic for the different fragments, so that a representative set of characteristic current signals can be determined which represents the mixture of fragments; (102) c) Carrying out an evaluation method in which the sequence of the monomer building blocks of the heteropolymer is determined from the representative set of the characteristic current signals. (103)
  • the method 100 can be used in particular in a method (200) for determining the primary structure of a protein, comprising the steps (see FIG. 5b) i) cleavage of the protein, in particular by enzymatic and/or chemical and/or physical cleavage to form peptides to recover as cleavage products of the protein; optional: obtaining the peptides by chromatographic or electrophoretic separation of a peptide mixture obtained by the cleavage; (201) ii) application of the method according to the invention for determining the sequence of amino acids (monomer building blocks) of at least one, in particular each, of the peptides (heteropolymer); (202 or 100) iii) carrying out a protein recognition method in which the primary structure of the protein is determined from the sequence of the at least one peptide. (203) In particular, method 100 can be carried out for all peptides obtained by cleavage of the protein.
  • the evaluation method (103 or 300), in which the sequence of the monomer building blocks of the heteropolymer is determined from the representative set of the characteristic current signals, can have the following steps in particular (see FIG. 5c):
  • the method according to the invention is described as a “method for peptide sequence recognition with regard to peptide sequencing in a derivatization-free single-molecule experiment using the wt-aerolysin (wt-AeL) nanopore by a bottom-up peptide ladder strategy”.
  • wt-AeL wt-aerolysin
  • wt-AeL wt-aerolysin
  • six peptide ladder-type sample pools were designed. Each pool consisted of the same deca-peptide but with a scrambled sequence and the respective ladder down to the tri-arginine polycationic carrier.
  • the exemplary embodiment uses the wt AeL nanopore.
  • a deca-peptide was designed consisting of a polycationic C-terminal carrier, R 3 , preceded by a heterogeneous stretch of seven aa recruited from the five different aa SRAKY (eg SRASKYR).
  • the sequence of the aa part was scrambled to obtain six different hetero-deca peptides that have exactly the same mass of 1335.65 Da (Fig. 6a).
  • peptide ladders mixture of fragments
  • Stepwise degradation of a peptide in a ladder generation process was simulated by successively adding the peptides of a ladder to the measurement chamber with the nanopore (e.g. Edmann degradation). The step thus corresponds to step a) of the method according to the invention.
  • Step b) of the method according to the invention, or steps A) and B), was carried out as follows:
  • a single wt-AeL channel was inserted into a DPhPC lipid bilayer containing a single 50 ⁇ m opening of the microelectrode used -Cavity arrays (MECA16) spanned.
  • a trans-negative bias of 40 mV was used to drive an ionic current (Io) through the protein channel connecting two reservoirs filled with electrolyte solution (4 M KCl) otherwise electrically isolated from each other by the lipid bilayer.
  • Individual peptides that enter the channel defined by the protein and thereby change the ion current (I) are detected via the resulting resistance pulses, FIG. 6b.
  • FIG. 6e schematically shows a result of a nanopore-based peptide ladder experiment.
  • the peptide ladder of an aa 7 R3 peptide would consist of eight peptides, each leading to a single peak in the histogram of event-averaged residual current values.
  • the sequence of maxima of the residual current histogram represents the sorting of the measured current signal values I as fractions of the current through the unblocked pore Io (also referred to as relative residual current values (l/lo) or relative residual conductivities with possible values between 0 and 1) into a sequence of characteristic residual current values ( Step C)). It thus defines a representative set of 8 different, characteristic residual current values with a likewise characteristic scatter, each of which represents a fragment of the peptide ladder. It is expected that the longest peptide, aa 7 R 3 , would result in the deepest blockade, while the shortest peptide, R 3 , would be represented with the highest l/lo.
  • the sequence of the maxima can also be clearly assigned to the steps of the ladder and the difference in l/lo of two neighboring maxima corresponds to the difference that the splitting off of a single aa would produce in the ladder generation process (used in step D).
  • the size of the distance A l/lo is sensitive to the identity of the cleaved aa, which makes it easier to identify the sequence of the peptide.
  • An evaluation method in which the sequence of the monomer building blocks (here: aa) of the heteropolymer (here: peptide) is determined from the representative set of the characteristic current signals results from using the differences A l/Io of the residual current values of neighboring maxima in the representative set of characteristic residual current values .
  • Step D the determination of the above aa, is carried out by assigning the residual current value differences A l / Io to aa of the peptide using previously known correlation data containing information about which aa is represented by which current value difference amount A l / Io in order to determine the sequence from aa (determining the sequence of aa of the peptide).
  • FIG. 6c and d show exemplary raw data (current traces) for the measurement of conductor L1. After addition of peptides (d), resistance pulses of different depth and duration were detected. It was seen that individual resistance pulses were heavily modulated, but to avoid falsifying the I/Io values, these modulations were excluded and only the main level of a pulse was considered in the data analysis. Such modulations are induced by the movement of the polymer itself within the AeL nanopore.
  • Figure 6a Sequences of the six heterodeca peptides, each representing the start peptide of a ladder. Black dashed boxes symbolize shifts of aa cassettes, black (and gray) lines symbolize inversion, while colored lines symbolize identity of aa in the different sequences; b: Schematic representation of the experimental setup. An external trans-negative voltage is applied to drive an ionic current Io through the open nanopore.
  • the longest Peptide (aa 7 R 3 ) generates the deepest, the shortest peptide (aaiR 3 ) the shallowest block.
  • the differences in I/Io values can be correlated with the identity of the lost aa.
  • the final aa can be determined against the polycationic C-terminal carrier peptide, R 3 (black).
  • Figure 7 Residence time scatter diagrams versus the residual pore current l/lo (red) with superimposed histograms of the relative residual current values (black) averaged over the main current level of the resistive pulses for all six peptide ladders.
  • the peptides were added sequentially, starting with the smallest peptide aaiR 3 and ending with the largest peptide aa 7 R 3 . All measurements of a ladder were made using the same AeL nanopore.
  • the green line indicates the location of the separately determined polycationic C-terminal carrier peptide, R 3 .
  • Figure 8 Data correlation plots for all six peptide ladders. Dwell time scatter plots and level histograms averaged over the main level were analyzed with regard to their differences in dwell time (red), residual current (blue) and number of modulations (black, dotted). The corresponding peptide volumes (green) and hydrophobicity (black, dashed) were also plotted. All values were normalized twice to enable direct comparability.
  • Figure 10 Residence time scatter diagrams over the residual pore flow l/lo (red) with superimposed level-averaged histograms (black) for samples A (left) and B (right). Below each graphic, the suggested sequences (prop) and the correct sequences (corr) are shown using the first reading aid. The green box indicates the correct reading frame.
  • the exemplary embodiment shows the method according to the invention for peptide identification by means of ladder fingerprinting, which can serve as the primary platform for a further development in the direction of peptide sequencing, in particular when using the highly sensitive wt-AeL nanopore.
  • Reliable detection of hetero-peptides consisting of a c-terminal polycationic R 3 carrier and up to seven n-terminal alternating heterogeneous aa was achieved.
  • peptide ladder-like sample pools ranging from aaiR 3 to aa 7 R 3 range
  • the position-sensitive contribution of a specific aa species to the overall block depth of a peptide was investigated and based on these findings a sequencing and fingerprinting reading aid was postulated. With their help, the robustness and reliability of this strategy was proven in a double-blind study by demonstrating the sequencing of a randomly selected peptide and the identification of a second peptide by fingerprinting.
  • peptides were used which were synthesized on demand. This is a model case that can easily be adapted for the case of unknown protein or peptide samples.
  • the more comprehensive analysis of larger heteropolymers is achieved by an initial step of splitting the heteropolymer into further fragmentable sub-components using fragmentation methods, from which ladders can then be formed
  • Sample preparation process are made available.
  • an endo-peptidase can be used to break down proteins into smaller peptides.
  • an exo-peptidase can be used to dynamically generate ladders from these peptides. Individual peptides produced by the protease could be presented sequentially to the nanopore and analyzed in a dynamic exopeptidase-coupled experiment.
  • the method according to the invention is of great value with regard to everyday laboratory applications.
  • Wild-type proaerolysin (pAeL) was produced in-house via standard protocols from E. coli BL21 (DE3) pLysS competent cells using the pET22b (+) vector.
  • pAeL was purified from cell lysates via His-tag chromatography. Stocks of pAeL were prepared at 1 pg pL' 1 , nitrogen frozen and stored at -80°C. Thawed pAeL was activated with trypsin (Promega GmbH, Walldorf, Germany) and used in a final pAeL concentration of 20 pmol L' 1 (or 3 pmol L' 1 AeL).
  • the preprotein construct was chosen in such a way that the affinity tag used for purification is separated from the protein during trypsin activation and native protein is obtained.
  • All membranes were made from 1,2-diphytanoyl-sn-glycero-3-phosphocholine (DPhPC) from octane.
  • DPhPC was dissolved in chloroform by Avanti Polar Lipids Inc. (Alabaster, AL, USA). The lipids were aliquoted, dried under argon and stored as a dry film at -20°C until used at a concentration of 1 mg mL' 1 .
  • MECA16 cavity arrays from lonera GmbH (Freiburg, Germany) with cavities of 50 pm diameter were used. Further digital filtering (25 kHz Bessel) and event detection was done with self-written LabView (National Instruments)-based software; the subsequent evaluation with Igor Pro 8 (Wavemetrics, Lake Oswego, OR, USA).
  • Suppl. 7 (Supplement 7): determined values for l/lo and residence time of homo-arginine
  • Ensslen et al. Denotes the embodiment of the invention.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Hematology (AREA)
  • Physics & Mathematics (AREA)
  • Urology & Nephrology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medicinal Chemistry (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers. Die Erfindung betrifft zudem die Verwendung einer Nanopore zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers. Die Erfindung betrifft zudem ein computerimplementiertes Verfahren, einen Computerprogrammcode und ein Datenverarbeitungssystem zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers.

Description

Verfahren und Systeme zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers
Die vorliegende Erfindung betrifft ein Verfahren zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers. Die Erfindung betrifft zudem die Verwendung einer Nanopore zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers. Die Erfindung betrifft zudem ein computerimplementiertes Verfahren, einen Computerprogrammcode und ein Datenverarbeitungssystem zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers.
In den letzten Jahrzehnten wurden beträchtliche Fortschritte bei den Technologien zur Extraktion genetischer Information aus Zellen und Geweben erzielt, einschließlich der Einzelmolekül-Nukleinsäuresequenzierungstechniken der nächsten Generation. Eine ähnliche Entwicklung für die direkte Identifizierung, Unterscheidung und Sequenzierung von Proteinen aus zellulären oder azellulären Proben steht dagegen noch aus. Während DNA- und RNA-Sequenzen eine gewisse Vorhersage über die in einer Zelle oder einem Gewebe exprimierten Proteine ermöglichen, ist die direkte Bestimmung des Proteoms, z.B. aus Tumorzellen relevanter für die Aufklärung der biologischen Eigenschaften. In der Tat ist in Situationen, in denen das Vorhandensein bestimmter Proteine oder Protein- Isoformen erwünscht oder gegebenenfalls unerwünscht ist, wie z.B. bei der in-vitro- Proteinsynthese für Biologicals oder Biosimilars, per se der Nachweis und die Identifizierung von Proteinen erforderlich.
Die Identifizierung von Proteinen in komplexen Gemischen beruht derzeit auf der Massenspektrometrie ionisierter Moleküle in der Gasphase, einer leistungsfähigen, aber kostspieligen Technologie, die große Geräte erfordert. Die vorliegende Erfindung besteht in einem neuartigen Ansatz, der eine hochgradig kontrollierte und automatisierte, vorzugsweise enzymatische, Fragmentierung, unter Verwendung sowohl sequenzspezifischer Endopeptidasen als auch Exopeptidasen mit einem neu entwickelten Prinzip der „Peptidspektrometrie durch Nanoporen“ zu Zwecken der markierungsfreien Charakterisierung von Proteingemischen, einschließlich Identifizierung, Unterscheidung und schlussendlich Proteinsequenzierung kombiniert.
Die Nanoporengrößenspektroskopie wurde zuerst für synthetische Polymere demonstriert, aber vor kurzem wurde gezeigt, dass sie auf Peptide anwendbar ist und deren hochempfindliche, markierungsfreie Unterscheidung ermöglicht (Piguet et al. 2018; Ouldali et al. 2020). Wichtig ist, dass diese Technik in der Lage ist, Unterschiede in einzelnen Aminosäureresten zu erkennen und - im Gegensatz zur Massenspektrometrie - zwischen Peptiden gleicher Masse zu unterscheiden, z.B. Peptide, die entweder die Stereoisomere Leucin oder Isoleucin enthalten (Ouldali et al. 2020), oder durch Sequenzisomerie gekennzeichnet sind.
Die derzeitige Standardmethode zur Identifizierung von Proteinen aus Gemischen umfasst eine Reihe von Trennschritten, wie z.B. Flüssigkeitschromatographie oder (2D)- Gelelektrophorese, gefolgt von tryptischem Verdau zu Peptidfragmenten und Massenspektrometrie, z.B. Elektrospray-Ionisation (ESI), oder Matrix-unterstützte Laserdesorption/Ionisation (MALDI), gefolgt von einer Auftrennung gemäß der Laufzeit (TOF) , oder in einem Quadru- (Q)/ Multipolfeld und anschließender Korrelation mit bekannten Proteinen in Datenbanken. Die Massenspektrometrie ist zwar ein leistungsfähiges Verfahren, erfordert jedoch kostspielige und sperrige Apparaturen und weist erhebliche Mängel hinsichtlich der Nachweisgrenzen und des dynamischen Empfindlichkeitsbereichs auf. Ein grundlegenderer Nachteil ist, dass Peptide gleicher Masse, aber unterschiedlicher Zusammensetzung (z.B. Leucin- oder Isoleucin enthaltend) nicht derivatisierungsfrei unterschieden werden können. Aus diesen Gründen sind neuartige Lösungen erforderlich, um Proteine mit Einzelmolekülempfindlichkeit zu identifizieren, zu unterscheiden und schließlich zu sequenzieren. Im Gegensatz zu der nanoporenvermittelten Einzelmolekül-DNA-Sequenzierung, bei der lediglich 4 Nukleobasen gleicher Ladung unterschieden werden müssen, liegt im Fall der Proteinstrukturaufklärung wegen der 20 proteinogenen Aminosäuren (aa) eine im Vergleich ungleich komplexere Problemstellung vor. Bis heute steckt dieses Gebiet noch in den Kinderschuhen, aber es wurden bereits einige Fortschritte erzielt, die im Folgenden zusammengefasst werden.
Die Einzelmoleküldetektion durch Nanoporen basiert auf der Analyse der Verringerung der elektrischen Leitfähigkeit, die auftritt, wenn ein Analyt, z.B. ein DNA-Strang oder ein Peptid, in einen molekular dimensionierten, in einem Isolator befindlichen, wassergefüllten Kanal, also in eine Nanopore, diffundiert oder migriert. Das Prinzip der elektrischen Detektion des Transports von Molekülen durch eine Nanopore, bei der es sich um einen Proteinkanal oder einen künstlichen Kanal, z.B. eine nanoskalige Apertur in einer Festkörpermembran oder um eine Nanoröhre (Nanotube) oder eine DNA-Origamistruktur die in eine Lipidmembran oder ein in eine feste Membran eingebrachtes, nanoskaliges Loch eingeführt wird, handeln kann, ist bekannt. Die Membran ist einer Potentialdifferenz ausgesetzt, die in Gegenwart einer Elektrolytlösung oder eines anderen ionisch leitfähigen Mediums (z.B. eine ionische Flüssigkeit) einen lonenstrom durch die Nanopore induziert. Die Interaktion eines Moleküls mit dem Kanal einer Nanopore, insbesondere der Eintritt des Moleküls in den Kanal, die Anwesenheit des Moleküls im Kanal bzw. der Durchgang des Moleküls durch den Kanal, induziert dabei eine messbare Verkleinerung des Stroms, sofern das leitfähige Medium im Kanal eine höhere elektrische Leitfähigkeit als der Analyt aufweist und vice versa.
Biologische (Protein-) Nanoporen, die solche Kanäle durch isolierende Lipid- Doppelschichten bilden, waren die ersten Nanoporen, die nachweislich in der Lage waren, einzelne Moleküle zu detektieren, und sie ermöglichen aktuelle DNA- Sequenzierungstechniken auf der Basis von Nanoporen. Alternativ können nanoskopische Poren durch verschiedene Bohr- oder Ätzverfahren in Festkörpermaterialien wie z.B. dünne SiN-Membranen hergestellt werden. Diese Festkörper-Nanoporen sind vielversprechend, wenn auch die Herstellung von möglichst identischen Festkörper- Nanoporen eine technische Herausforderung ist. Im Gegensatz dazu sind porenbildende Proteine mit atomarer Präzision aufgebaut und haben sich über Jahrmillionen entwickelt, um den Transport gelöster Stoffe über Membranen zu ermöglichen.
In Fig. 1 ist eine Skizze des Prinzips der Einzelmolekülerfassung durch Nanoporen gezeigt. Eine konstante Potentialdifferenz AE über einen Isolator treibt einen ionischen Strom durch die Pore. Ein einzelnes Analytmolekül in der Pore blockiert den Strom teilweise (Widerstandsimpuls). Sowohl die Tiefe der Blockade bzw. der Reststrom als auch die Dauer und zeitliche Variationen dieses Stromsignals tragen Informationen über den Analyten.
In beiden Fällen (biologische und nichtbiologische Nanoporen) wird die Verringerung der Leitfähigkeit als eine Änderung des lonenstroms gemessen, die durch eine konstante Spannung über dem Isolator, in dem die Pore die einzige (oder die dominante) elektrisch leitende Verbindung bildet, hervorgerufen wird. Diese Signale, die als Widerstandsimpulse bezeichnet werden, entsprechen einzelnen Analytmolekülen, die in die Pore eintreten und mit der Innenwand der Pore interagieren - und möglicherweise, aber nicht notwendigerweise, die Pore durchmessen, also durch die Pore von einer auf die andere Seite des Isolators translozieren.
Wenn es sich bei dem Analyten um ein Polymer handelt (z.B. ein Peptid, Polynukleotid oder ein synthetisches Polymer wie Poly(ethylenglykol)), müssen zwei Regime unterschieden werden, wie in Figur 2 gezeigt ist: im Durchfädelregime (Threading-Modus) ist das Polymer gestreckt und wenige seiner Monomere tragen zur Widerstandsänderung bei. In diesem Regime ist das Stromsignal empfindlich für die Identität der Monomere im engsten Teil der Pore und kann daher für die Sequenzierung verwendet werden, wenn das Polymer in regelmäßiger Weise, also mit möglichst gleichmäßiger Geschwindigkeit durch die Pore gefädelt wird. Im kollabierten Regime hingegen sind alle Monomere gleichzeitig in der Pore vorhanden, so dass der Stromabfall ungefähr proportional zum molekularen Volumen ist, obwohl auch andere, subtilere Faktoren mitwirken können. Das kollabierte Regime wurde für die Nanoporen-vermittelte Bestimmung der Molekulargrössenverteilung von neutralen synthetischen Polymeren verwendet (Baaken et al. 2015). Es wird davon ausgegangen, dass es in diesem Regime zu einer unspezifischen Bindung des kollabierten Polymers an die Porenwand kommt (Bindungs- Regime; Talarimoghari, M., G. Baaken, R. Hanselmann, and J.C. Behrends. 2018. Size-dependent interaction of a 3-arm star polyethylene glycol) with two biological nanopores. Eur. Phys. J. E. 41 :6288-8. doi: 10.1140/epje/i2018-11687-6). In Figur 2 sind die beiden Regime der Polymer-Nanopore-Wechselwirkung gezeigt. Das Durchfädel- /Translokationsregime wird begünstigt, wenn im Verhältnis zur Porenlänge lange Polyelektrolytketten in niedriger bis mittlerer Salzkonzentration (0,1 bis 0,3 M KCl) mit der Pore wechselwirken, wobei relativ hohe elektrische Spannungen (>50 bis >100 mV) zum Einsatz kommen um das Polymer im elektrischen Feld durch die Pore zu bewegen. Das kollabierte/Bindungs-Regime (auch: trapping-Regime, da hier die Pore als Molekülfalle wirkt) tritt typischerweise unter Bedingungen mit hoher Salzkonzentration (z.B. 4 M KCl) auf, erfordert keine zwingende Eigenladung des Analyten und erfordert bei geladenen Analyten wie Proteinen, Peptiden und Polynukleotiden eher niedrigere Spannungen (bis zu 50 mV), während höhere Spannungen das Translokationsregime begünstigen. Das kollabierte/Bindungs-Regime kann nur für Polymere genutzt werden, die kurz genug oder und/oder ausreichend kollabiert sind, um vollständig in der Pore Platz zu finden. Bindung und Trapping eines Polymers in der Pore ist auch für geladene Polymere und auch für Polymere im nicht oder nicht vollständig kollabierten Zustand möglich, sofern diese nicht zu lang für die Pore sind. Aus den dieser Erfindung zugrunde liegenden Untersuchungen ergab sich, dass die Durchführung des Strommessverfahrens (Schritt b) im Anspruch 1) im Kollaps-Regime (auch: kollabiertes, Bindungs- bzw. trapping Regime) besonders vorteilhaft ist.
Während die DNA-Sequenzierung durch biologische Nanoporen im T ranslokations/Durchfädel-Regime gut etabliert ist und kommerziell angeboten wird (siehe https://nanoporetech.com), ist die Peptiderkennung und -Differenzierung mit Hilfe von Nanoporen eine im Entstehen begriffene Technik, wobei die Proteinsequenzierung mit Hilfe von Nanoporen ein langfristiges Ziel ist, das bislang noch nicht erreicht ist.
Peptide wurden relativ früh durch biologische Protein-Nanoporen wie die bakteriellen Toxine Aerolysin und alpha-Hämolysin gefädelt, aber die Interaktionszeiten waren zu kurz und das Signal-Rausch-Verhältnis zu gering, um zwischen verschiedenen Peptiden zu unterscheiden, geschweige denn Sequenzinformationen zu erhalten. Zwischenzeitlich wurden biologische Nanoporen verwendet, um Peptide und Proteine auch im nativen oder gefalteten Zustand nachzuweisen und zu differenzieren. Bekannt ist die Fähigkeit der Frageatoxin (FraC)-Poren, zwischen zwei Formen von Endothelin zu unterscheiden, die sich nur in zwei Aminosäure-Positionen unterscheiden. (Huang, G., A. Voet, and G. Maglia. 2019. FraC nanopores with adjustable diameter identify the mass of oppositecharge peptides with 44 dalton resolution. Nat Comms. 10:347-10. doi: 10.1038/S41467-019-08761 -6.)
Die gut dokumentierte Überlegenheit der Empfindlichkeit der Aerolysin-Pore im Trapping- /Kollapsregime, ursprünglich für Poly(ethylenglykol) gezeigt (Baaken et al. 2015), führte zu erneutem Interesse an der Verwendung dieser Pore für die Peptidgrößenbestimmung. Es wurde gezeigt, dass die Länge von Homoarginin-Peptiden mit dieser Pore mit einer Genauigkeit von einer Aminosäure leicht bestimmt werden kann (Piguet et al. 2018). Ferner wurde ermittelt, dass die Substitution eines einzelnen terminalen Restes in einem Octa-Argininpeptid durch eine der 20 proteinogenen Aminosäuren nachgewiesen und dabei zwischen diesen differenziert werden kann, und zwar mit hinreichend guter Unterscheidung von Peptiden selbst gleicher Masse (siehe Fig. 3, Ouldali et al. 2020). Die Figur 3 zeigt die Rekognoszierung der zwanzig proteinogenen Aminosäuren mit Hilfe der Aerolysin-Nanopore. A: 1 : Peptid-Design 2: Peptid-Poren-Wechselwirkung. Stromspur in Gegenwart einer Mischung aus R7+D,K,R,E,H. B: Plot der relativen Stromstärken vs. Volumen der Aminosäure. C:>95 % Unterscheidung zwischen den Strukturisomeren R7-L und R7-l durch hochauflösende Messung auf der MECA Plattform (Ouldali et al. 2020).
Die hier genannten Literaturstellen sind: Baaken et al., 2015 "High-Resolution Size- Discrimination of Single Nonionic Synthetic Polymers with a Highly Charged Biological Nanopore", ACS nano, VOL. 9, NO. 6, 6443-6449. Piguet et al., 2018, "Identification of single amino acid differences in uniformly charged homopolymeric peptides with aerolysin nanopore", Nature Communications; 9, 966. Ouldali et al., 2020, "Electrical recognition of the twenty proteinogenic amino acids using an aerolysin nanopore", Nature Biotechnology, VOL 38, 176-181. Im Dokument US 2019/0317006 A1 wurde vorgeschlagen, mittels der Nanoporengrößenspektroskopie und unter Verwendung einer Aerolysin-Nanopore verschiedene Peptide eines Gemischs voneinander zu unterscheiden.
Es ist Aufgabe der vorliegenden Erfindung, eine technische Lösung zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers, insbesondere eines Peptids oder Proteins anzugeben.
Diese Aufgabe wird erfindungsgemäß gelöst durch das Verfahren gemäß Anspruch 1 , die Verwendung einer Nanopore gemäß Anspruch 12, das computerimplementierte Verfahren nach Anspruch 13, den auf einem Datenträger gespeicherten Programmcode gemäß Anspruch 14, und das Datenverarbeitungssystem gemäß Anspruch 15. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstände der Unteransprüche.
Das erfindungsgemäße Verfahren dient der Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers, und weist die folgenden Schritte auf: a) Durchführen eines Fragmentierungsverfahrens, bei dem das Heteropolymer insbesondere enzymatisch, chemisch und/oder physikalisch fragmentiert wird, und dadurch ein Fragmentgemisch erhalten wird, dessen Fragmente Moleküle mit unterschiedlichen Sequenzabschnitten des Heteropolymers sind; b) Durchführen eines Strommessverfahrens, bei dem Stromsignale eines Stroms durch den Kanal einer einzelnen Nanopore, bzw. eines Stroms, der parallel durch eine Mehrzahl oder Vielzahl von Kanälen einer Mehrzahl oder Vielzahl von Nanoporen tritt, erfasst werden, wobei jedes Stromsignal auf der Interaktion eines Fragments mit dem Kanal der Nanopore basiert, wobei die Stromsignale für die unterschiedlichen Fragmente charakteristisch sind, wobei eine Repräsentanzmenge von charakteristischen Stromsignalen ermittelbar ist, die das Fragmentgemisch repräsentiert; c) Durchführen eines Auswertungsverfahrens, bei dem eine Sequenz von Monomerbausteinen des Heteropolymers aus der Repräsentanzmenge der charakteristischen Stromsignale bestimmt wird. In einer bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens werden die Fragmente des Fragmentgemisches durch sukzessiven Abbau des Heteropolymers erhalten. Vorzugsweise sieht der sukzessive Abbau des Heteropolymers vor, dass das Heteropolymer kettenförmig ist und die Positionen 1 (Kettenanfang) bis n (Kettenende) der Kette aufweist, und dass die Kette ausgehend von einem Ende stufenweise um einen Monomerbaustein verkürzt wird, um Längenfragmente, insbesondere im Wesentlichen alle Längenfragmente n-(n-i) (i ist hierbei ein Zähler, der gemäß i=i+1 iterativ durchzählt gemäß i=1 , 2, 3 ... . n-2, n-1 , n, so dass die Längenfragmente eine Gesamtlänge von n-(n- 1), n-(n-2)....bis n-(n-n) Monomerbausteinen aufweisen), eines aus n Monomerbausteinen bestehenden Heteropolymers zu erhalten, wobei jedes Längenfragment die zum Heteropolymer identische Abfolge von Monomerbausteinen ausgehend von Position 1 (Kettenanfang) bis Position n-(n-i) aufweist. Ein solches Fragmentgemisch wird hier auch als „Leiter“ bzw. als Heteropolymer-Leiter bezeichnet, also eine „Peptid-Leiter“, falls das Heteropolymer ein Peptid ist/aufweist.
Die Monomerbausteine können dabei einer Menge m von möglichen Monomerbausteinarten zugehören, z.B. kann im Fall von eukaryotischen Proteinen eine Anzahl n von Aminosäuren (Monomerbausteine) das Protein (Heteropolymer) (oder eine Sequenz davon) bilden, die auf die Menge m=21 der menschlichen proteinogenen Aminosäuren (d.h. Monomerbausteinarten) beschränkt sein kann.
Anstelle des sukzessiven Abbaus kann auch ein anderes Abbauverfahren verwendet werden, das die oben genannten Längenfragmente des Heteropolymers liefert.
Die in Schritt c) ermittelte Sequenz von Monomerbausteinen des Heteropolymers kann ein Teil der Gesamtsequenz (Teilsequenz) von Monomerbausteinen des Heteropolymers sein, oder, vorzugsweise, die Gesamtsequenz von Monomerbausteinen des Heteropolymers sein.
Vorzugsweise ist das Heteropolymer ein Peptid. Vorzugsweise ist das Fragmentierungsverfahren ein Edman-Abbau oder beinhaltet einen Edman-Abbau. Ferner kann das Fragmentierungsverfahren so gestaltet sein, dass es die Spaltung des Proteins durch Endopeptidasen zu Peptiden, und insbesondere die Behandlung der Peptide durch Exopeptidasen vorsieht, um die Peptidleiter zu erhalten.
Vorzugsweise weist das erfindungsgemäße Verfahren folgende Schritte auf: insbesondere jeweils vorzugsweise im Schritt b):
* Ermitteln von Reststromwerten (der Stromsignale) aus den Messdaten, wobei ein Reststrom die Interaktion eines der unterschiedlichen Fragmente des Heteropolymers mit einer Nanopore beschreibt;
* Statistisches Ermitteln einer Repräsentanzmenge von charakteristischen Reststromwerten aus den Reststromwerten, wobei ein charakteristischer Reststromwert jeweils eine Fragmentart, insbesondere Fragmentgröße, der Anzahl n von Fragmentarten eines aus dem Heteropolymer gebildeten Fragmentgemischs beschreibt, wobei die Repräsentanzmenge die Heteropolymersequenz -vorzugsweise eindeutig, jedenfalls aber ausreichend für eine gewünschte Strukturaufklärung oder Strukturvorhersage, - beschreibt; insbesondere jeweils vorzugsweise im Schritt c):
* Sortieren der charakteristischen Reststromwerte nach deren Betrag zu einer Reststromwertabfolge und Ermitteln der Stromwertdifferenzen aufeinanderfolgender Stromwerte der Reststromwertabfolge; und
* Zuordnen der Stromwertdifferenzen zu Monomerbausteinarten des Heteropolymers anhand von vorbekannten Korrelationsdaten, die Informationen darüber enthalten welche Monomerbausteinart durch welchen Stromwertbetrag repräsentiert wird, um die Bestimmung der Abfolge von Monomerbausteinarten vorzunehmen (=Bestimmung der Sequenz von Monomerbausteinen des Heteropolymers).
Ein charakteristischer Reststromwert bezeichnet die Messergebnisse der Stromwertmessung, die sich aus der Interaktion eines bestimmten Fragmentes, das durch den charakteristischen Reststromwert charakterisiert wird, mit der Nanopore ergibt. Der charakteristische Reststromwert beinhaltet insbesondere den Reststromwertbetrag, der dem entsprechenden Stromsignal zuordenbar ist. Der charakteristische Reststromwert kann auch eine vektorwertige Größe sein, die außer dem Reststromwertbetrag weitere Komponenten beinhaltet, deren Anzahl die Dimension der vektorwertigen Größe bestimmt. Solche Komponenten können eine Zeitdauer des Stromsignals oder eine andere den Zeitverlauf dieses Stromsignals beschreibende Größe sein, oder können Parameter sein, die eine Interpolationskurve beschreiben, die zur Beschreibung des Stromsignals herangezogen wird.
Ein charakteristischer Reststromwert beschreibt jeweils eine Fragmentart, insbesondere Fragmentgröße, der Anzahl n von Fragmentarten eines aus dem Heteropolymer gebildeten Fragmentgemischs. Beispiel: ein als Peptidleiter gebildetes Fragmentgemisch enthält ausgehend von einem Peptid mit n Aminosäuren als Monomerbausteinen insgesamt n Fragmentarten. Die das Fragmentgemisch enthaltende Peptidlösung enthält in der Regel eine Vielzahl von Fragmenten jeder Fragmentart (Peptidart). Im Idealfall enthält ein Fragmentgemisch, das durch 100 % effizientes Fragmentieren einer aus einer Ausgangsmenge mit Gesamtzahl M des zu sequenzierenden Peptids gewonnen wird, jeweils auch eine Anzahl M von Fragmenten zu jedem der n Fragmentarten des Peptids. Wird in dieser Anmeldung von „Fragment“ gesprochen, kann, abhängig vom Kontext, insbesondere die Fragmentart gemeint sein.
Eine „Repräsentanzmenge von charakteristischen Reststromwerten“, die insbesondere aus der Gesamtzahl der gemessenen Reststromwerte abgeleitet werden kann, beschreibt eine Mehrzahl oder Vielzahl, vorzugsweise die Gesamtheit, der charakteristischen Reststromwerte, die mittels des in Schritt b) genannten Stromwertverfahrens für das Fragmentgemisch ermittelt werden.
Vorzugsweise wird das erfindungsgemäße Verfahren als erweitertes Verfahren definiert, das zur Ermittlung einer Sequenz eines Proteins dient, aufweisend die Schritte i) Spaltung des Proteins, insbesondere durch enzymatische und/oder chemische und/oder physikalische Spaltung, um Peptide als Spaltungsprodukte des Proteins zu gewinnen; optional: Gewinnen der Peptide durch chromatographische oder elektrophoretische Trennung eines durch die Spaltung erhaltenen Peptidgemischs; ii) Anwendung des erfindungsgemäßen Verfahrens zur Ermittlung der Sequenzfolge von Aminosäuren (Monomerbausteine) mindestens eines, insbesondere jedes, der Peptide (Heteropolymer); iii) Durchführen eines Erkennungsverfahrens zur Erkennung der Sequenz des Proteins, bei dem die Sequenz des Proteins aus der Sequenzfolge von Aminosäuren des mindestens einen Peptids ermittelt wird.
Das erfindungsgemäße Verfahren bzw. die voranstehend genannte Ausgestaltung des erfindungsgemäßen Verfahrens kann vorteilhaft zur Aufklärung der, insbesondere vollständigen, Primärstruktur eines Makromoleküls, insbesondere biologischen Makromoleküls, insbesondere eines Proteins verwendet werden, wobei das biologische Makromolekül verschiedene Heteropolymeren beinhaltet, insbesondere aus verschiedenen aneinander gebundenen Heteropolymeren gebildet ist:
Vorzugsweise wird das erfindungsgemäße Verfahren als erweitertes Verfahren definiert, das zur Ermittlung der Primärstruktur eines Makromoleküls, insbesondere eines Proteins, dient, aufweisend die Schritte i) Spaltung des Makromoleküls, insbesondere Proteins, insbesondere durch enzymatische und/oder chemische und/oder physikalische Spaltung, um Heteropolymere, insbesondere Peptide, als Spaltungsprodukte des Makromoleküls zu gewinnen; optional: Gewinnen Heteropolymere, insbesondere der Peptide, durch Trennung, insbesondere chromatographische oder elektrophoretische Trennung, eines durch die Spaltung erhaltenen Heteropolymergemischs, insbesondere Peptidgemischs; ii) Anwendung des erfindungsgemäßen Verfahrens zur Ermittlung einer Sequenzfolge von Monomerbausteinen, insbesondere Aminosäuren, mindestens eines, insbesondere jedes, der Heteropolymere, insbesondere Peptide; iii) Durchführen eines Makromolekülerkennungsverfahrens, insbesondere Proteinerkennungsverfahrens, bei dem die Primärstruktur des Makromoleküls, insbesondere Proteins, aus der Sequenzfolge des mindestens einen Heteropolymers, insbesondere Peptids, ermittelt ist, wobei das Makromolekül vorzugsweise das DNA, RNA, Protein, Peptid oder ein beliebiges synthetisches Polymer ist. Das erfindungsgemäße Verfahren kann dazu ausgestaltet sein, die vollständige Sequenz der Monomerbausteine zu bestimmten, aus denen das Heteropolymer bzw. das Makromolekül aufgebaut ist, oder eine oder mehrere Teilsequenzen davon.
Das erfindungsgemäße Verfahren kann dazu ausgestaltet sein, einen Teil der vollständigen Sequenz von Monomerbausteinen zu bestimmten, aus der das Heteropolymer aufgebaut ist. Wird nur ein Teil der vollständigen Sequenz von Monomerbausteinen eines Heteropolymers bestimmt, kann mit dem erfindungsgemäßen Verfahren insbesondere ein Ermittlungsverfahren realisiert werden, bei dem die mit dem erfindungsgemäßen Verfahren ermittelte Teilsequenz von Monomerbausteinen eines Heteropolymers dazu verwendet wird, zu ermitteln, welches vorbekannte Heteropolymer aus einer Menge T (1 bis T) von vorbekannten unterschiedlichen (nämlich bezüglich ihrer Sequenz unterschiedlichen) Heteropolymeren ermittelt wurde. „Vorbekannt“ meint hier, dass die nahezu vollständige, oder vollständige Sequenz von Monomerbausteinen eines jeden vorbekannten Heteropolymers bekannt ist. Die mit dem erfindungsgemäßen Verfahren ermittelte Teilsequenz stellt einen „Fingerabdruck“ des aus der vorbekannten Menge von Heteropolymeren zu ermittelnden Heteropolymers dar, also ein Merkmal, das das gesuchte Heteropolymer gegenüber den anderen Heteropolymeren der Menge 1 bis T eindeutig identifizierbar macht. Die Schritte eines solchen Ermittlungsverfahrens lassen sich wie folgt beschreiben: i) Bereitstellen der Informationen über die vorbekannte Sequenz jedes Heteropolymers einer Menge von 1 bis T unterschiedlichen Heteropolymeren; ii) Heranziehen eines zu ermittelnden Heteropolymers, das mit genau einem Heteropolymer dieser Menge von 1 bis T unterschiedlichen Heteropolymeren identisch ist, wobei insbesondere nicht bekannt ist, mit welchem Heteropolymer dieser Menge das zu ermittelnde Heteropolymer identisch ist; iii) Durchführen des erfindungsgemäßen Verfahrens zur Bestimmung einer Teilsequenz des zu ermittelnden Heteropolymers; iv) Vergleichen der in iii) bestimmten Teilsequenz mit den vorbekannten Sequenzen aller Heteropolymere der Menge von 1 bis T unterschiedlichen Heteropolymeren und Ermitteln des gesuchten Heteropolymers aus der Menge der vorbekannten Heteropolymere anhand der Teilsequenz, die das gesuchte Heteropolymer gegenüber den anderen Heteropolymeren der Menge 1 bis T eindeutig identifizierbar macht.
Das genannte Ermittlungsverfahren erlaubt die Ermittlung der vollständigen Sequenz eines gesuchten Heteropolymers, ohne dass mittels des erfindungsgemäßen Verfahrens die vollständige Sequenz des gesuchten Heteropolmyers aufgeklärt werden muss, wenn das gesuchte Heteropolymer einer Menge T von vorbekannten Heteropolymeren mit jeweils vorbekannter Sequenz entstammt, wobei eine Teilsequenz -nach Art eines Fingerabdrucks- das gesuchte Heteropolymer gegenüber den verbleibenden Heteropolymeren dieser Menge eindeutig identifiziert. In diesem Szenario ist das Ermittlungsverfahren der effizientere Weg zur Ermittlung der vollständigen Sequenz des gesuchten Heteropolymers, verglichen mit der Alternative, anstelle der Teilsequenz des gesuchten Heteropolymers die vollständige Sequenz des gesuchten Heteropolymers mittels des erfindungsgemäßen Verfahrens aufzuklären.
Vorzugsweise ist die Nanopore eine biologische Nanopore, also ein porenbildendes Toxin oder ein Porin.
Vorzugsweise ist die Nanopore eine Festkörpernanopore oder ein Hybrid aus Festkörper und biologischen und/oder chemischen Komponenten. Ein Festkörper, insbesondere ein Substrat, kann mindestens eines der folgenden Materialien aufweisen oder daraus gebildet sein: SiNx, SiÜ2, HfÜ2, M0S2, CNT, Graphen, Nanopipetten. Biologische bzw. chemische Komponenten können, jeweils vorzugsweise, mindestens eines der folgenden beinhalten oder daraus bestehen: Porenformende Toxine, Porine, ßeta-Fassproteine, alpha-helikale Membranproteine, DNA-Origami-Strukturen. Hybride, also Kombinationen aus allen oben genannten Komponenten sind möglich.
Vorzugsweise erfolgt die Fragmentierung des Heteropolymers durch Enzyme.
Vorzugsweise sind das für Proteine/Peptide Endo/Exo-Peptidasen und für DNA gängige Restriktionsenzyme (Nukleasen). Der Fachmann wird in Abhängigkeit davon, welche Sequenz er schneiden will, ein dafür eingerichtetes Enzym wählen.
Mögliche Peptidasen sind beispielsweise genannt in: https://www.ebi.ac.uk/merops/ Mögliche Nukleasen sind beispielsweise genannt in: https://wikivisually.com/wiki/List_of_restriction_enzyme_cutting_sites%3A_Bst%E2%80 %93Bv#Whole_list_navigation
Vorzugsweise erfolgt die Fragmentierung des Heteropolymers auf chemischem Wege und nicht-enzymatisch. Bei Proteinen/Peptiden kann man den Schlack-Kumpf- und Edman Abbau verwenden. Für DNA verwendet man dazu meist Enzyme.
Vorzugsweise erfolgt die die Fragmentierung des Heteropolymers auf physikalischem Wege, z.B. durch Einwirkung von Hitze, Kälte, Schallwellen, elektromagnetischer Strahlung, insbesondere Infrarot, ultravioletter oder Röntgenstrahlung, Mikrowellen oder sichtbarem Licht. Beispiele dafür sind dokumentiert in https://doi.Org/10.1073/pnas.0901422106 oder https://doi.Org/10.1007/s13361 -017-1794- 9 und https://doi.Org/10.1002/mas.20214.
Vorzugsweise ist die Nanopore ausgewählt aus der Gruppe bevorzugter Nanoporen- Proteine enthaltend Aerolysin, alpha-Hämolysin, MspA, CsgG, VDAC oder ein anderes Protein aus der Familie der beta-Fass-Proteine, sowie gentechnisch optimierte Varianten dieser Porenproteine.
Die Porenproteine und die übrigen Messbedingungen werden dabei vorzugsweise für eine Interaktion des Analyten (des Fragmentes) mit der Pore optimiert, die in einer für den jeweiligen Analyten optimal lang andauernden Interaktion zwischen Analyt und Pore resultiert. Eine bevorzugte Ausgestaltung der Nanopore ist dabei wie folgt: die Nanopore ist vorzugsweise eine Aerolysinpore, insbesondere eine Variante der Aerolysinpore. Hierzu kann z.B. die Einzelmolekülfalle der Aerolysinpore durch Einzelpunktmutation in der Dimension und Tiefe des Potentialtopfes dem Analyten angepasst und optimiert werden. Insbesondere geschieht dies durch die Aerolysin Varianten R220S/A/C/K/H/E/D/Q/N, R288S/A/C/K/H/E/D/Q/N, R282S/A/C/K/H/E/D/Q/N, D222S/A/C/F/R/K/H/E/Q/N, D276S/A/C/F/R/K/H/E/Q/N, D209S/A/C/F/R/K/H/E/Q/N,
K238S/A/C/F/R/D/H/E/Q/N, K242S/A/C/F/R/D/H/E/Q/N, K244S/A/C/F/R/D/H/E/Q/N,
K246S/A/C/F/R/D/H/E/Q/N, E237S/A/C/F/R/D/H/K/Q/N E258S/A/C/F/R/D/H/K/Q/N
E254S/A/C/F/R/D/H/K/Q/N, E252S/A/C/F/R/D/H/K/Q/N und beliebige Kombinationen daraus.
Die Aerolysinpore in ihrer natürlichen Form (Wildtyp) oder als Variante davon ist zur Verwendung als Nanopore im Rahmen der Erfindung besonders bevorzugt. Die Variante kann dazu gestaltet sein, Fragmente von Heteropolymeren zu differenzieren und zu charakterisieren, die sich z.B. nur durch eine Stellungsisomerie unterscheiden. Mittels der R220S-Variante der Aerolysinpore wurde beispielsweise eine Unterscheidung der von einer Azetylierung abgeleiteten Positionsisomerie durchgeführt („Resolving isomeric posttranslational modifications using a nanopore”, Tobias Ensslen, Kumar Sarthak, Aleksei Aksimentiev, Jan C. Behrends, bioRxiv 2021.11.28.470241 ; doi: https://doi.Org/10.1101/2021 .11 .28.470241 ).
Eine Translokation oder ein Durchgang des Analyten durch die Pore ist dabei nicht notwendig, wenn auch grundsätzlich erlaubt. Es ist vielmehr besonders vorteilhaft, wenn derselbe Analyt seine Bindungsstelle in der Pore möglichst lange besucht, oder mehrfach erneut aufsucht und dort bindet, nachdem er zwischenzeitlich die Molekülfalle in Richtung der Eintrittsöffnung wieder verlassen hat. Vorzugsweise bedeutet demnach „Interaktion“ des Fragments (Analyt, Molekül) mit dem Kanal der Nanopore, dass das Fragment in den Kanal eintritt, aber nicht durch den Kanal durchtritt, was letztlich in einer non-destruktiven Mehrfachbestimmung desselben Moleküls resultiert.
Durch möglichst langanhaltendes oder wiederholtes Einfangen (trapping) desselben Analyten in der Pore wird insbesondere eine besonders präzise Ermittlung der charakteristischen Reststromwerte im Wege der zeitlichen Signalmittelung sowie eine repräsentative Ermittlung der Parameter des Zeitverlaufs des Stromsignals (Varianz, Rauschanalyse) ermöglicht. Es versteht sich dabei, dass eine Interaktion von Analyt und Pore nicht unbegrenzt lange andauern sollte, da sonst die Zugänglichkeit der Pore für Analytmoleküle herabgesetzt wird. Daraus resultiert eine optimale, für den Analyten angepasst Interaktionsdauer, welche insbesondere durch Variantenbildung der Nanopore, vorzugsweise des Aerolysins, erreicht werden kann.
Aus den dieser Erfindung zugrunde liegenden Untersuchungen ergab sich, dass die Durchführung des Strommessverfahrens (Schritt b) im Anspruch 1) im Kollaps-Regime (auch: kollabiertes, Bindungs- bzw. trapping Regime) besonders vorteilhaft ist. Das in Schritt b) durchgeführte Strommessverfahren wird vorzugsweise so durchgeführt, dass das Fragmentgemisch in einer Elektrolytlösung vorliegt, welche insbesondere gelöste Salze der Form AX, A2X und AX2 usw. aufweist, wobei Substanz A (z.B. ausgewählt aus den Alkali- und Erdalkalimetallen Na, K, Cs, Rb, Li) das Kation und Substanz X (z.B. ausgewählt aus den Halogenen F, CI, Br) das Anion liefert. Die Substanzgruppen A und X können weitere Bestandteile im Sinne anorganischer oder organischer Derivate solcher Salze umfassen (wobei z.B. Substanz A ein quaternäres Ammonium-, Imidazolium-, Phosphonium-, Pyridinium- und Pyrrolidiniumion wie z.B. Tetramethylammonium und Substanz X ein Nitrat, ein Sulfat, Phosphat, eine Aminosäure wie z.B. Glutamat, eine Carbonsäure wie z.B. Glukonat, Citrat, ein (Bi)carbonat, oder ein einfaches Hydroxid sein kann). Vorzugsweise kann die Elektrolytlösung auch Mischungen von verschiedenen Kombinationen aus verschiedenen Salzen aufweisen.
Die Gesamtsalzkonzentration der Elektrolytlösung in der das Fragmentgemisch während der Durchführung des Strommessverfahrens vorliegt, liegt zwischen 0.5 M und 20 M, vorzugsweise zwischen 2 M und 10 M und besonders vorzugsweise zwischen 3 M und 5 M. Das Fragmentgemisch kann alternativ zu einer Elektrolytlösung auch in einer ionischen Flüssigkeit vorliegen. Durch solche Konfigurationen des Elektrolyten wird bewirkt, dass Bedingungen wie Ladungsabschirmung und Löslichkeit des Analyten in der Elektrolytlösung für das kollabierte-/ Bindungsregime und das möglichst lange Verweilen des Analyten in der Molekülfalle der Pore optimal eingestellt werden und gleichzeitig ein möglichst hohes Signal-zu Rausch-Verhältnis der Strommessung erzielt wird.
Die Erfindung betrifft auch die Verwendung einer Nanopore zur Durchführung des erfindungsgemäßen Verfahrens zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers. Die Erfindung betrifft auch ein computerimplementiertes Verfahren zur Bestimmung einer Sequenz von Monomerbausteinen eines Heteropolymers (Heteropolymersequenz) aus den Messdaten eines Strommessverfahrens, die Informationen über Stromsignale enthalten, die bei der Interaktion von aus dem Heteropolymer gebildeten unterschiedlichen Fragmenten mit einer Nanopore ermittelt werden, aufweisend die Schritte:
A) Ermitteln von Reststromwerten aus den Messdaten, wobei ein Reststrom die Interaktion eines der unterschiedlichen Fragmente des Heteropolymers mit einer Nanopore beschreibt;
B) Statistisches Ermitteln einer Repräsentanzmenge von charakteristischen Reststromwerten aus den Reststromwerten, wobei ein charakteristischer Reststromwert jeweils eine Fragmentart, insbesondere Fragmentgröße, der Anzahl n von Fragmentarten eines aus dem Heteropolymer gebildeten Fragmentgemischs beschreibt, wobei die Repräsentanzmenge die Heteropolymersequenz eindeutig, jedenfalls aber ausreichend für eine gewünschte Strukturaufklärung oder Strukturvorhersage, beschreibt;
C) Sortieren der charakteristischen Reststromwerte nach deren Betrag zu einer Reststromwertabfolge und Ermitteln der Stromwertdifferenzen aufeinanderfolgender Stromwerte der Reststromwertabfolge; und
D) Zuordnen der Stromwertdifferenzen zu Monomerbausteinarten des Heteropolymers anhand von vorbekannten Korrelationsdaten, die Informationen darüber enthalten welche Monomerbausteinart durch welchen Stromwertbetrag repräsentiert wird, um die Bestimmung der Abfolge von Monomerbausteinarten vorzunehmen (Bestimmung der Sequenz von Monomerbausteinen des Heteropolymers).
Die Erfindung betrifft auch einen Computerprogrammcode, der auf einem Datenträger gespeichert ist und der eine Sequenz von Monomerbausteinen eines Heteropolymers (Heteropolymersequenz) aus den Messdaten eines Strommessverfahrens ermittelt, wenn er vom Zentralprozessors eines Computers ausgeführt wird, wobei die Messdaten Informationen über Stromsignale enthalten, die bei der Interaktion von aus dem Heteropolymer gebildeten unterschiedlichen Fragmenten mit einer Nanopore ermittelt werden, aufweisend die jeweils durch den Programmcode umgesetzten Schritte: A) Ermitteln von Reststromwerten (der Stromsignale) aus den Messdaten, wobei ein Reststrom die Interaktion eines der unterschiedlichen Fragmente des Heteropolymers mit einer Nanopore beschreibt;
B) Statistisches Ermitteln einer Repräsentanzmenge von charakteristischen Reststromwerten aus den Reststromwerten, wobei ein charakteristischer Reststromwert jeweils eine Fragmentart, insbesondere Fragmentgröße, der Anzahl n von Fragmentarten eines aus dem Heteropolymer gebildeten Fragmentgemischs beschreibt, wobei die Repräsentanzmenge die Heteropolymersequenz eindeutig, jedenfalls aber ausreichend für eine gewünschte Strukturaufklärung oder Strukturvorhersage, beschreibt;
C) Sortieren der charakteristischen Reststromwerte nach deren Betrag zu einer Reststromwertabfolge und Ermitteln der Stromwertdifferenzen aufeinanderfolgender Stromwerte der Reststromwertabfolge; und
D) Zuordnen der Stromwertdifferenzen zu Monomerbausteinarten des Heteropolymers anhand von vorbekannten Korrelationsdaten, die Informationen darüber enthalten welche Monomerbausteinart durch welchen Stromwertbetrag repräsentiert wird, um die Bestimmung der Abfolge von Monomerbausteinarten vorzunehmen (Bestimmung der Sequenz von Monomerbausteinen des Heteropolymers).
Die Erfindung betrifft auch ein Datenverarbeitungssystem zur Bestimmung einer Sequenz von Monomerbausteinen eines Heteropolymers (Heteropolymersequenz) aus den Messdaten eines Strommessverfahrens, die Informationen über Stromsignale enthalten, die bei der Interaktion von aus dem Heteropolymer gebildeten unterschiedlichen Fragmenten mit einer Nanopore ermittelt werden, aufweisend einen Computer mit einem Zentralprozessor, und einen Programmcode, insbesondere dem erfindungsgemäßen Programmcode, wobei der Computer dazu programmiert ist, die folgenden computerimplementierten Schritte auszuführen:
A) Ermitteln von Reststromwerten (Stromsignalen) aus den Messdaten, wobei ein Reststrom die Interaktion eines der unterschiedlichen Fragmente des Heteropolymers mit einer Nanopore beschreibt; B) Statistisches Ermitteln einer Repräsentanzmenge von charakteristischen Reststromwerten aus den Reststromwerten, wobei ein charakteristischer Reststromwert jeweils eine Fragmentart, insbesondere Fragmentgröße, der Anzahl n von Fragmentarten eines aus dem Heteropolymer gebildeten Fragmentgemischs beschreibt, wobei die Repräsentanzmenge die Heteropolymersequenz eindeutig, jedenfalls aber ausreichend für eine gewünschte Strukturaufklärung oder Strukturvorhersage, beschreibt;
C) Sortieren der charakteristischen Reststromwerte nach deren Betrag zu einer Reststromwertabfolge und Ermitteln der Stromwertdifferenzen aufeinanderfolgender Stromwerte der Reststromwertabfolge; und
D) Zuordnen der Stromwertdifferenzen zu Monomerbausteinarten des Heteropolymers anhand von vorbekannten Korrelationsdaten, die Informationen darüber enthalten welche Monomerbausteinart durch welchen Stromwertbetrag repräsentiert wird, um die Bestimmung der Abfolge von Monomerbausteinarten vorzunehmen (Bestimmung der Sequenz von Monomerbausteinen des Heteropolymers).
Das Auswertungsverfahren, bei dem die Sequenz der Monomerbausteine des Heteropolymers aus der Repräsentanzmenge der charakteristischen Stromsignale bestimmt wird, sieht vorzugsweise die computerimplementierten Schritte vor:
A) Ermitteln von Reststromwerten (Stromsignalen) aus den Messdaten, wobei ein Reststrom die Interaktion eines der unterschiedlichen Fragmente des Heteropolymers mit einer Nanopore beschreibt;
B) Statistisches Ermitteln einer Repräsentanzmenge von charakteristischen Reststromwerten aus den Reststromwerten, wobei ein charakteristischer Reststromwert jeweils eine Fragmentart, insbesondere Fragmentgröße, der Anzahl n von Fragmentarten eines aus dem Heteropolymer gebildeten Fragmentgemischs beschreibt, wobei die Repräsentanzmenge die Heteropolymersequenz vorzugsweise eindeutig, jedenfalls aber ausreichend für eine gewünschte Strukturaufklärung oder Strukturvorhersage, beschreibt;
C) Sortieren der charakteristischen Reststromwerte nach deren Betrag zu einer Reststromwertabfolge und Ermitteln der Stromwertdifferenzen aufeinanderfolgender Stromwerte der Reststromwertabfolge; und D) Zuordnen der Stromwertdifferenzen zu Monomerbausteinarten des Heteropolymers, vorzugsweise anhand von vorbekannten Korrelationsdaten, die Informationen darüber enthalten welche Monomerbausteinart durch welchen Stromwertbetrag repräsentiert wird, um die Bestimmung der Abfolge von Monomerbausteinarten vorzunehmen (Bestimmung der Sequenz von Monomerbausteinen des Heteropolymers).
In den Schritten A) bis D) ist es möglich, dass die Repräsentanzmenge von charakteristischen Reststromwerten das Heteropolymer nicht eindeutig beschreiben kann, da z.B. nur ein T eil des Heteropolymers fragmentiert wurde oder da nicht alle charakteristischen Reststromwerte eindeutig bestimmt werden konnten. Insbesondere in diesem Fall kann ein Vorhersagealgorithmus verwendet werden, um aus den unvollständigen Daten, insbesondere aus einer unvollständigen Repräsentanzmenge von charakteristischen Reststromwerten, eine Wahrscheinlichkeit oder einen Bewertungsfaktor zur Bewertung der Zuverlässigkeit einer durch Schätzen ermittelten Primärstruktur des Heteropolymers anzugeben. Der Vorhersagealgorithmus kann dabei durch maschinelles Lernen anhand von insbesondere gelabelten Trainingsdaten bestimmt worden sein. Die gelabelten Daten können Variationen von unvollständigen Repräsentanzmengen der charakteristischen Reststromwerte vorbekannter Heteropolymere enthalten. Der Vorhersagealgorithmus kann ein künstliches neuronales Netz, insbesondere ein Convolutional Neural Network (CNN) enthalten, das durch die gelabelten Trainingsdaten trainiert sein kann. Der Vorhersagealgorithmus kann auch ein nicht-überwachtes maschinelles Lernen (unsupervised learning) implementieren.
Weitere bevorzugte Ausgestaltungen der erfindungsgemäßen Gegenstände ergeben sich aus der nachfolgenden Beschreibung der Ausführungsbeispiele in Zusammenhang mit den Figuren. Gleiche Bezugszeichen bezeichnen im Wesentlichen gleiche Bauteile oder Verfahrensschritte.
Fig. 1 zeigt eine Skizze des Prinzips der Einzelmolekülerfassung durch Nanoporen gezeigt, das beim erfindungsgemäßen Verfahren 100 verwendet werden kann. Fig. 2 zeigt die beiden möglichen Regime einer Polymer-Nanopore-Wechselwirkung.
Fig. 3 die Detektion der zwanzig proteinogenen Aminosäuren (aa) mit Hilfe der Aerolysin-Nanopore, insbesondere gemäß Stand der Technik.
Fig. 4 zeigt Messnachweise zu einem beispielhaften erfindungsgemäß gestalteten Verfahren.
Fig. 5a, 5b und 5c zeigen jeweils Ausführungsbeispiele des erfindungsgemäßen Verfahrens und von dessen Bestandteilen.
Fig. 6a zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: Sequenzen der sechs Heterodeca-Peptide, die das Startpeptid der Leiter darstellen.
Fig. 6b zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: eine schematische Darstellung des experimentellen Aufbaus.
Fig. 6c zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: eine Kontrollmesskurve in 4 M KCl
Fig. 6d zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: eine beispielhafte Messkurve nach Zugabe der Peptidleiter L1 mit allen Peptiden in äquimolarer Konzentration.
Fig. 6e zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: ein schematisches, über das Hauptniveau gemitteltes Pegelhistogramm für ein Peptidleiter- Sequenzierungsexperiment.
Figur 7: zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: Verweilzeit- Streudiagramme über dem Restporenstrom l/lo (rot) mit überlagerten, über das Hauptniveau gemittelten Pegelhistogrammen (schwarz) für alle sechs Peptidleitern . Figur 8 zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: Datenkorrelationsplots für alle sechs Peptidleitern .
Figur 9a zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: Reproduzierbarkeit von l/lo der Homo-Arginin-Peptide R3, R4, R5, R7 (blau) im Vergleich zu R3-R7 von Piguet et al. 2018 (rot), und Leitern L1 (grün, volle Linie, Kreis), L3 (grün, gestrichelt, aufzeigendes Dreieck), L4 (grün, gepunktet, abzeigendes Dreieck), L2 (pink, volle Linie, Kreis), L5 (pink, gestrichelt, aufzeigendes Dreieck), L6 (pink, gepunktet, abzeigendes Dreieck).
Fig. 9b zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: A I/Io-Boxplot für jeden gespaltenen Aminosäure-Typ mit Median (blau) und Mittelwert (weiß).
Fig. 9c zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: A I/Io-Werte für die Arginin-Spaltung klassifiziert nach der nächsten Nachbar-aa des Arginins als C- terminaler aa (Alanin blau, Arginin rot, Serin grün, Tyrosin gelb) von Homo- (Punkte) und Hetero-Peptiden (Kreise); Daten für Homo-Peptide wurden entnommen aus Piguet et al. 2018.
Fig. 9d zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: Verweilzeit- Streudiagramme über den Restporenstrom l/lo mit überlagerten Hauptpegelgemittelten Pegelhistogrammen für die Deka-Peptide von Leiteri (rot), Leiter2 (blau), Leiters (grün), Leiter4 (gelb), Leiters (rosa), Leiterß (schwarz).
Fig. 10 zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: Verweilzeit- Streudiagramme über dem Porenreststrom l/lo (rot) mit überlagerten pegelgemittelten Histogrammen (schwarz) Probe A (links) und B (rechts). Unterhalb jeder Grafik sind die, unter Verwendung der ersten Lesehilfe, vorgeschlagenen Sequenzen (prop) sowie die korrekten Sequenzen (corr) dargestellt. Der grüne Kasten zeigt das korrekte Leseraster an. Fig. 11 zeigt in Bezug auf ein Ausführungsbeispiel der Erfindung: Datentabelle für Doppelblindstudie.
Fig. 1a zeigt eine Darstellung des Prinzips der Einzelmolekülerfassung durch Nanoporen, das zur Umsetzung der Erfindung verwendet werden kann. Eine konstante Spannung AU über einen Isolator zieht ionischen Strom durch die Nanopore. Ein einzelnes Analytpartikel, z.B. ein Fragment, in der Nanopore blockiert den Strom teilweise (Widerstandsimpuls bzw. Stromsignal, oder Reststromwert). Sowohl die Tiefe der Blockade als auch die Dauer tragen Informationen über den Analyten.
Figur 2 zeigt die beiden möglichen Regime einer Polymer-Nanopore-Wechselwirkung. Das Durchfädel-/T ranslokationsregime wird begünstigt, wenn lange Polyelektrolytketten in niedriger bis mittlerer Salzkonzentration (0,1 bis 1 ,0 M KCl) mit der Pore wechselwirken. Das Bindungs- Trapping-, oder kollabierte Regime tritt typischerweise unter Bedingungen mit hoher Salzkonzentration (z.B. 4 M KCl) auf und erfordert keine Ladung des Analyten. Bei der Erfindung kommt vorzugsweise das kollabierte Regime zum Einsatz. In einer Messanordnung 1 für Nanoporengrößenspektroskopie, die auch beim erfindungsgemäßen Verfahren zum Einsatz kommen kann, ist ein elektrolytgefülltes erstes Kompartiment 11 von einem elektrolytgefüllten zweiten Kompartiment 12 durch eine, insbesondere mittels einer Lipiddoppelschicht 2 gebildeten, Membran elektrisch isoliert; ein Stromfluss ist im Wesentlichen nur durch die in die Lipiddoppelschicht eingebaute Nanopore 3 möglich, die die Kompartimente 11 und 12 elektrisch verbindet. Die Lipiddoppelschicht kann über der Mikroapertur bzw. über einer Mikrokavität einer Mikrostrukturvorrichtung (in Fig. 2 nicht gezeigt) gespannt sein, wie diese z.B. im Dokument WO 2013/083270 beschrieben wird. Im Durchfädel-/T ranslokationsregime ist der Analyt 4a langgestreckt, im kollabierten bzw. Bindungs-Regime ist der Analyt 4b kollabiert und kompakt.
Figur 3 zeigt die Detektion der zwanzig proteinogenen Aminosäuren (aa) mit Hilfe der Aerolysin-Nanopore.
A: 1 : Peptid-Design 2: Peptid-Poren-Wechselwirkung. 3: Stromspur in Gegenwart einer Mischung aus 7-R+D,K,R,E,H. B: Plot der relativen Stromstärken vs. aa-Volumen. C:>95 % Unterscheidung zwischen den Strukturisomeren 7R+L und 7R+I durch hochauflösende Aufzeichnung auf der MECA (gemäß Ouldali et al. 2020).
Ausgehend vom Stand der Technik in Ouldali et al. 2020 stellte sich für die Erfinder die Frage, wie die hohe Empfindlichkeit der Nanopore für Peptidgröße oder -volumen für die eigentliche Sequenzidentifizierung bei Heteropolymeren bzw. zur Proteinidentifizierung und -Sequenzierung genutzt werden kann.
Um dieses Problem zu lösen, erforschten die Erfinder einen Ansatz, auch "Nanopore- Leiter-Sequenzierung" genannt, bei dem Peptide (oder andere Heteropolymere), die zunächst vorzugsweise durch enzymatische bzw. chemische bzw. physikalische Spaltung von Proteinen erzeugt werden können, vorzugsweise mit bekannten chromatographischen oder elektrophoretischen Methoden getrennt werden, oder bei dem Peptide oder andere Heteropolymere bereits isoliert vorliegen, und, vorzugsweise in einem zweiten Schritt, entweder der Wirkung von Exopeptidasen, die einzelne N- oder C-terminale Aminosäuren von einem Peptid abspalten, oder chemischen Methoden wie der Edman-Reaktion unterworfen werden, um eine Mischung von Peptiden bzw. Heteropolymeren, also ein Fragmentgemisch, zu erzeugen, bei der mehrere Spezies bzw. charakteristische Fragmentarten in einer Repräsentanzmenge vorhanden sind, die vorzugsweise alle oder die meisten möglichen Fragmente darstellen, die durch die Entfernung der Aminosäuren (bzw. Monomerbausteine) nacheinander erzeugt werden, so dass für ein Peptid (bzw. ein Heteropolymer) des Polymerisationsgrades (d. p.) n, alle oder die meisten Spezies von d.p. n-(n-1), n-(n-2)....bis n(n-n) vorhanden sind. Jede dieser Spezies wird bei der Wechselwirkung mit der Nanopore ein charakteristisches Maximum im Histogramm der relativen Restströme (charakteristischer Reststromwert bzw. -betrag) ergeben.
Die Messnachweise zeigen die Fähigkeit der Erfindung, hier beispielsweise kurze, bekannte Peptidsequenzen auf diese Weise mit den Daten der Nanoporen zu korrelieren (siehe Fig. 4). Fig. 4 zeigt:
A, B: Streudiagramme mit Ereignis-Histogramm, erhalten aus der Interaktion von Aerolysin mit zwei Peptidleitern, die einen Triarginin-Griff enthalten. Die Entfernung von aa führt zu einer artspezifischen Verschiebung des Reststroms, die für einen Monomerbausteinart (hier aa) charakteristisch ist.
C,D: Plot der Änderung des Peptidvolumens und des relativen Reststroms für die beiden oben gezeigten Leitern. Eine klare Korrelation zwischen den beiden Parametern sowie die Sequenzabhängigkeit ist offensichtlich.
Fig. 5a zeigt ein beispielhaftes erfindungsgemäßes Verfahren 100 zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers, aufweisend die Schritte: a) Durchführen eines Fragmentierungsverfahrens, bei dem das Heteropolymer insbesondere enzymatisch, chemisch und/oder physikalisch fragmentiert wird, und dadurch ein Fragmentgemisch erhalten wird, dessen Fragmente Moleküle mit unterschiedlichen Sequenzabschnitten des Heteropolymers sind; (101) b) Durchführen eines Strommessverfahrens, bei dem Stromsignale eines Stroms durch eine Nanopore erfasst werden, wobei jedes Stromsignal auf der Interaktion eines Fragments mit der Nanopore basiert, wobei die Stromsignale für die unterschiedlichen Fragmente charakteristisch sind, so dass eine Repräsentanzmenge von charakteristischen Stromsignalen ermittelbar ist, die das Fragmentgemisch repräsentiert; (102) c) Durchführen eines Auswertungsverfahrens, bei dem die Sequenz der Monomerbausteine des Heteropolymers aus der Repräsentanzmenge der charakteristischen Stromsignale bestimmt wird. (103)
Das Verfahren 100 kann insbesondere verwendet werden bei einem Verfahren (200) zur Ermittlung der Primärstruktur eines Proteins, aufweisend die Schritte (siehe Fig. 5b) i) Spaltung des Proteins, insbesondere durch enzymatische und/oder chemische und/oder physikalische Spaltung, um Peptide als Spaltungsprodukte des Proteins zu gewinnen; optional: Gewinnen der Peptide durch chromatographische oder elektrophoretische Trennung eines durch die Spaltung erhaltenen Peptidgemischs; (201) ii) Anwendung des erfindungsgemäßen Verfahrens zur Ermittlung der Sequenzfolge von Aminosäuren (Monomerbausteine) mindestens eines, insbesondere jedes, der Peptide (Heteropolymer); (202 bzw. 100) iii) Durchführen eines Proteinerkennungsverfahrens, bei dem die Primärstruktur des Proteins aus der Sequenzfolge des mindestens einen Peptids ermittelt wird. (203) Hierzu kann insbesondere das Verfahren 100 für alle durch Spaltung des Proteins erhaltenen Peptide durchgeführt werden.
Das Auswertungsverfahren (103 bzw. 300), bei dem die Sequenz der Monomerbausteine des Heteropolymers aus der Repräsentanzmenge der charakteristischen Stromsignale bestimmt wird, kann insbesondere folgende Schritte (siehe Fig. 5c) aufweisen:
A) Ermitteln von Reststromwerten aus den Messdaten, wobei ein Reststrom die Interaktion eines der unterschiedlichen Fragmente des Heteropolymers mit einer Nanopore beschreibt; (301)
B) Statistisches Ermitteln einer Repräsentanzmenge von charakteristischen Reststromwerten aus den Reststromwerten, wobei ein charakteristischer Reststromwert jeweils eine Fragmentart, insbesondere Fragmentgröße, der Anzahl n von Fragmentarten eines aus dem Heteropolymer gebildeten Fragmentgemischs beschreibt, wobei die Repräsentanzmenge die Heteropolymersequenz eindeutig, jedenfalls aber ausreichend für eine gewünschte Strukturaufklärung oder Strukturvorhersage, beschreibt; (302)
C) Sortieren der charakteristischen Reststromwerte nach deren Betrag zu einer Reststromwertabfolge und Ermitteln der Stromwertdifferenzen aufeinanderfolgender Stromwerte der Reststromwertabfolge; (303) und
D) Zuordnen der Stromwertdifferenzen zu Monomerbausteinarten des Heteropolymers anhand von vorbekannten Korrelationsdaten, die Informationen darüber enthalten welche Monomerbausteinart durch welchen Stromwertbetrag repräsentiert wird, um die Bestimmung der Abfolge von Monomerbausteinarten vorzunehmen (Bestimmung der Sequenz von Monomerbausteinen des Heteropolymers). (304)
Experimentelle Daten und Ausführunqsbeispiel Nachfolgend wird ein Ausführungsbeispiel der Erfindung beschrieben, bei dem die vollständige Sequenz von synthetischen Peptiden aufgeklärt wird, unter anderem auch in einem Doppelblind-Versuch:
Im vorliegenden Ausführungsbeispiel wird das erfindungsgemäße Verfahren beschrieben als „Verfahren zur Peptidsequenzerkennung im Hinblick auf Peptidsequenzierung in einem derivatisierungsfreien Einzelmolekülexperiment unter Verwendung derwt-Aerolysin (wt-AeL) Nanopore durch eine Bottom-up-Peptidleiterstrategie“. In diesem Forschungsexperiment wurden sechs Peptid-Leiter-artige Probenpools entworfen. Jeder Pool bestand aus demselben Deka-Peptid, aber mit einer verwürfelten Sequenz und der jeweiligen Leiter (englisch: ladder) bis hinunter zum polykationischen Tri-Arginin-Träger. Durch Einzelmolekül-Widerstandspulsexperimente (Nanoporengrößenspektroskopie) wurde der Nachweis von speziesabhängigen charakteristischen Unterschieden in den Reststromstärken für jedes Peptid mit Identifikation der jedem Schritt der Leiterbildung entsprechenden, einzelnen Aminosäure (aa) gezeigt, was die Grundlage für die Peptidsequenzierung gemäß der Erfindung legt. Darüber hinaus wird das Potenzial dieses einfachen Ansatzes als Benchmark-Technik im Laboralltag durch eine Doppelblindstudie in einem anderen Labor beschrieben, in der zwei blind ausgewählte Peptide aus dem Probenpool anhand ihrer aa-Sequenz identifiziert und unterschieden wurden.
Design von Peptidleitern und Messung
Das Ausführungsbeispiel verwendet die wt-AeL-Nanopore. Es wurde ein Deka-Peptid entworfen, das aus einem polykationischen C-terminalen Träger, R3, besteht, dem eine heterogener Abschnitt von sieben aa vorangestellt sind die sich aus den fünf unterschiedlichen aa SRAKY rekrutieren (z.B. SRASKYR). In einem zweiten Schritt wurde die Sequenz des aa-Teils verwürfelt, um sechs verschiedene Hetero-Deka-Peptide zu erhalten, die die exakt gleiche Masse von 1335,65 Da besitzen (Fig. 6a). Als nächstes wurden Peptid-Leitern (Fragmentgemische) für jedes Deka-Peptid bis hinunter zu R3 (aa7R3, As6R3,...,aaiR3, R3) gebildet, was zu einer Gesamtheit von 42 Proben führte. Durch das sukzessive Hinzufügen der Peptide einer Leiter zur Messkammer mit der Nanopore wurde ein schrittweiser Abbau eines Peptids in einem Leitergenerierungsprozess simuliert (z.B. Edmann-Abbau). Der Schritt entspricht somit dem Schritt a) des erfindungsgemäßen Verfahrens.
Schritt b) des erfindungsgemäßen Verfahrens, bzw. Schritte A) und B), wurde ausgeführt wie folgt: In einem typischen Experiment wurde ein einzelner wt-AeL-Kanal in eine DPhPC-Lipiddoppelschicht eingefügt, die eine einzelne 50 pm große Öffnung des verwendeten Mikroelektroden-Cavity-Arrays (MECA16) überspannt. Eine trans-negative Vorspannung von 40 mV wurde verwendet, um einen lonenstrom (Io) durch den Proteinkanal zu treiben, der zwei ansonsten durch die Lipiddoppelschicht voneinander elektrisch isolierte, mit Elektrolytlösung (4 M KCl) gefüllte Reservoirs verbindet. Einzelne Peptide, die in den durch das Protein definierten Kanal eindringen und dadurch den lonenstrom (I) verändern, werden über die resultierenden Widerstandsimpulse detektiert, Figur 6b. Leiter-Experimente wurden durchgeführt, indem alle Peptide einer Leiter nacheinander in äquimolaren Mengen zugegeben wurden, beginnend mit aaiR3 bis aa7R3. Figur 6e zeigt schematisch ein Ergebnis eines auf Nanoporen basierenden Peptid-Leiter- Experiments. Die Peptidleiter eines aa7R3-Peptids würde aus acht Peptiden bestehen, von denen jedes zu einem einzelnen Maximum im Histogramm der ereignisgemittelten Reststromwerte führt. Die Abfolge der Maxima des Reststromhistogramms repräsentiert die Sortierung der gemessenen Stromsignalwerte I als Bruchteile des Stroms durch die unblockierte Pore Io (auch bezeichnet als relative Reststromwerte (l/lo) oder relative Restleitfähigkeiten mit möglichen Werten zwischen 0 und 1) in eine Abfolge charakteristischer Reststromwerte (Schritt C)). Es definiert somit eine Repräsentanzmenge von 8 unterschiedlichen, charakteristischen Reststromwerten mit einer ebenfalls charakteristischen Streuung, die jeweils ein Fragment der Peptidleiter repräsentieren. Es ist zu erwarten, dass das längste Peptid, aa7R3, zur tiefsten Blockade führt, während das kürzeste Peptid, R3, mit dem höchsten l/lo vertreten wäre. Dann ist auch die Abfolge der Maxima den Stufen der Leiter klar zuzuordnen und es entspricht der Unterschied in l/lo von zwei benachbarten Maxima dem Unterschied, den die Abspaltung einer einzelnen aa im Leitergenerierungsprozess erzeugen würde (genutzt in Schritt D). Die Grösse des Abstandes A l/lo ist dabei empfindlich für die Identität der abgespaltenen aa, was die Identifizierung der Sequenz des Peptids erleichtert. Ein Auswertungsverfahren, bei dem die Sequenz der Monomerbausteine (hier: aa) des Heteropolymers (hier: Peptid) aus der Repräsentanzmenge der charakteristischen Stromsignale bestimmt wird, ergibt sich aus der Verwendung der Differenzen A l/Io der Reststromwerte benachbarter Maxima in der Repräsentanzmenge charakteristischer Reststromwerte. Schritt D, das Ermitteln der oben genannten aa, erfolgt durch Zuordnen der Reststromwertdifferenzen A l/Io zu aa des Peptids anhand von vorbekannten Korrelationsdaten, die Informationen darüber enthalten, welche aa durch welchen Stromwertdifferenzbetrag A l/Io repräsentiert wird, um die Bestimmung der Abfolge von aa vorzunehmen (Bestimmung der Sequenz von As des Peptids).
Figur 6c und d zeigen beispielhafte Rohdaten (Stromspuren) für die Messung der Leiter L1. Nach Zugabe von Peptiden (d) wurden Widerstandsimpulse unterschiedlicher Tiefe und Dauer detektiert. Es war zu sehen, dass einzelne Widerstandspulse stark moduliert waren, aber um eine Verfälschung der I/Io-Werte zu verhindern, wurden diese Modulationen ausgeschlossen und nur der Hauptpegel eines Impulses in der Datenanalyse berücksichtigt. Solche Modulationen werden durch die Bewegung des Polymers selbst innerhalb der AeL-Nanopore induziert.
Figur 6a: Sequenzen der sechs Heterodeca-Peptide, die jeweils das Startpeptid einer Leiter darstellen. Schwarze gestrichelte Kästen symbolisieren Verschiebungen von aa- Kassetten, schwarze (und graue) Linien symbolisieren Inversion, während farbige Linien Identität von aa in den unterschiedlichen Sequenzen symbolisieren; b: Schematische Darstellung des experimentellen Aufbaus. Eine externe trans-negative Spannung wird angelegt, um einen lonenstrom Io durch die offene Nanopore zu treiben. Peptide, die in die Nanopore eindringen, verändern den Strom, was zu einem Widerstandsimpuls führt (rote Kurve); c: Kontrollmesskurve in 4 M KCl unter einer trans-negativen Spannungsklemme von 40 mV, digitalisiert mit 1 MHz Abtastrate, gefiltert mit einem 8-Pol Bessel-Filter bei einer Eckfrequenz von 50 kHz und digital nachgefiltert mit 25 kHz; d: Beispielhafte Messkurve nach Zugabe der Peptidleiter L1 mit allen Peptiden in äquimolarer Konzentration (H-SRASKYR-R3-OH, H-RASKYR-R3-OH, H-ASKYR-R3-OH, H-SKYR-R3- OH, H-KYR-R3-OH, H-YR-R3-OH, H-R-R3-OH); e: Schematisches, über das Hauptniveau gemitteltes Pegelhistogramm für ein Peptidleiter-Sequenzierungsexperiment. Das längste Peptid (aa7R3) erzeugt den tiefsten, das kürzeste Peptid (aaiR3) den flachsten Block. Die Unterschiede in den I/Io-Werten (blaue Linien) können mit der Identität des verlorenen aa korreliert werden. Die letzte aa kann gegen das polykationischen C-terminalen Trägerpeptid, R3 (schwarz), bestimmt werden.
Um eine korrekte Zuordnung der Maxima zu den Peptiden zu gewährleisten, wurden die Leitern nacheinander gemessen, beginnend mit dem kleinsten Peptid. Die oben ausgesprochene Erwartung einer monotonen Beziehung zwischen Peptidlänge und Tiefe des Blocks bestätigte sich. Auf dieser Grundlage konnte, diesem experimentellen Weg folgend, jedes der 42 Peptide innerhalb aller sechs Leitern identifiziert werden (Fig. 7). Unterschiede im Abstand zweier benachbarter Maxima in den Histogrammen sind deutlich sichtbar und deuten bereits auf einen vermuteten Zusammenhang zwischen A l/lo und der Identität des gespaltenen aa hin. (Suppl. 1 - Suppl. 6)
Figur 7: Verweilzeit-Streudiagramme gegen dem Restporenstrom l/lo (rot) mit überlagerten Histogrammen der über das Hauptstromniveau der resistiven Pulse gemittelten relativen Reststromwerte (schwarz) für alle sechs Peptidleitern. Die Peptide wurden sequentiell hinzugefügt, beginnend mit dem kleinsten Peptid aaiR3 und endend mit dem größten Peptid aa7R3. Alle Messungen einer Leiter wurden unter Verwendung derselben AeL-Nanopore durchgeführt. Zusätzlich zeigt die grüne Linie die Lage des separat bestimmten polykationischen C-terminalen Trägerpeptids, R3, an.
Es wurden alle aufgezeichneten Widerstandsimpulse in den Datensätzen hinsichtlich der Ereignisdauer (Verweilzeit) und der Amplitude (l/lo) sowie der Anzahl der Modulationen analysiert. Die berechneten Differentiale, d.h. Änderungen dieser Werte von einem Maximum zum nächsten, wurden dann zusammen mit den Differentialen für das Volumen und die Hydrophobizität des Peptids gegen die jeweilige Position im Peptid aufgetragen, Figur 8. Um einen direkten Vergleich aller Experimente zu ermöglichen, wurden alle Differentialwerte mit ihrem Maximum und Minimum innerhalb des Intervalls [0,1] doppelt normiert. Es ergab sich, dass A l/lo mit dem A Volumen (vol) korreliert, was darauf hinweist, dass der größte Beitrag zur Blockade durch das Volumen des Analyten verursacht wird. So wurde das größte A l/lo immer für Arginin, die größte aa, gefunden. Unerwarteter weise wies Serin, abgesehen von einer Ausnahme in L2, immer die kleinste Blockade auf, obwohl die kleinste Volumenänderung für Alanin zu erwarten war. Bemerkenswert ist, dass das A l/lo für ungeladene und hydrophile aa, Tyrosin und Serin, im Vergleich zu ihrem A Vol immer untergewichtet war, während das hydrophobe Alanin als übergewichtet gefunden wurde. Auf der anderen Seite zeigten geladene aa, Arginin und Lysin, ein anderes Verhalten. Während Arginin in langen Peptiden leicht übergewichtet war, ergab sich, dass es in kurzen Peptiden untergewichtet war. Der umgekehrte Befund fand sich für Lysin.
Figur 8: Datenkorrelationsplots für alle sechs Peptidleitern. Verweilzeit-Streudiagramme und über den Hauptpegel gemittelte Pegelhistogramme wurden hinsichtlich ihrer Unterschiede in Verweilzeit (rot), Reststrom (blau) und Anzahl der Modulationen (schwarz, gepunktet) analysiert. Die entsprechenden Peptidvolumina (grün) und die Hydrophobizität (schwarz, gestrichelt) wurden ebenfalls aufgetragen. Alle Werte wurden doppelt normiert, um eine direkte Vergleichbarkeit zu ermöglichen.
Doppelblindversuch
Um die Reproduzierbarkeit und Zuverlässigkeit der oben beschriebenen Ergebnisse zu untersuchen, wurde ein Doppelblind-Experiment durchgeführt. Sechs Peptid-Leiterproben wurden vorbereitet, die jeweils aus aaiR3 bis aa7R3 in äquimolaren Mengen bestanden. Ein als Notar fungierender unabhängiger Dritter wählte zufällig zwei der sechs Leiterproben aus, beschriftete sie mit A & B und schickte sie zusammen mit einer R3- Homo-Peptidprobe an ein fremdes Vergleichslabor (Arbeitsgruppe Abdelghani Oukhaled, Universite Cergy Pontoise, Frankreich). Zusätzlich zu den Leitern wurde zunächst nur Figur 9b als Lesehilfe für die Leitern übermittelt, und zwar zusammen mit der Information, dass alle Leitern aus einem Triarginin (R3) C-Terminus und der stöchiometrischen Summenformel A1K1R2S2Y1, in jeder möglichen Kombination bestehen. Im Vergleichslabor wurden die Proben unter identischen Bedingungen, jedoch mit abweichender Apparatur untersucht. Die Auswertung der Daten, insbesondere die Bestimmung der I/Io-Werte erfolgte darüberhinaus mit eigenen, von der des Erfinderlabors signifikant verschiedenen Algorithmen und Software-Routinen. Aufgrund alleiniger Verwendung von Figur 9b wurde die Sequenz von Probe A im Vergleichslabor korrekt bestimmt (KSRASRY, L3), für Probe B (Fig. 10) wurde die T eilsequenz xxSRASx (also über die Hälfte der variablen Sequenzanteile) auch hier richtig erkannt und positioniert.
Figur 10: Verweilzeit-Streudiagramme über dem Porenreststrom l/lo (rot) mit überlagerten pegelgemittelten Histogrammen (schwarz) Probe A (links) und B (rechts). Unterhalb jeder Grafik sind die, unter Verwendung der ersten Lesehilfe, vorgeschlagenen Sequenzen (prop) sowie die korrekten Sequenzen (corr) dargestellt. Der grüne Kasten zeigt das korrekte Leseraster an.
Resümee
Das Ausführungsbeispiel zeigt das erfindungsgemäße Verfahren zur Peptid- Identifizierung mittels Ladder-Fingerprinting, das insbesondere unter Verwendung der hochempfindlichen wt-AeL-Nanopore als primäre Plattform für eine Weiterentwicklung in Richtung Peptidsequenzierung dienen kann. Es wurde eine zuverlässige Detektion von Hetero-Peptiden, die aus einem c-terminalen polykationischen R3-Träger und bis zu sieben n-terminalen alternierenden heterogenen aa bestehen, erreicht.. Durch die Verwendung von Peptidleiter-ähnlichen Probenpools, die von aaiR3 bis aa7R3 reichen, wurde der positionssensitive Beitrag einer spezifischen aa-Spezies zur Gesamt-Blocktiefe eines Peptids untersucht und basierend auf diesen Erkenntnissen wurde eine Sequenzierungs- sowie Fingerprinting-Lesehilfe postuliert. Mit deren Hilfe wurde die Robustheit und Zuverlässigkeit dieser Strategie in einer Doppelblindstudie bewiesen, indem die Sequenzierung eines zufällig ausgewählten Peptids und die Identifizierung eines zweiten Peptids durch Fingerprinting demonstriert wurden.
In diesem Ausführungsbeispiel wurden Peptide verwendet, die bedarfsgerecht synthetisiert wurden. Dies ist ein Modellfall, der sich für den Fall unbekannter Protein- oder Peptidproben einfach adaptieren lässt. Die umfassendere Analyse größerer Heteropolymere gelingt durch einen initialen Schritt der Spaltung des Heteropolymers mittels Fragmentierungsverfahren in weiter fragmentierbare Unterbestandteile, aus denen dann Leitern gebildet werden Beispielsweise können Proteine in einem standardisierten Probenvorbereitungsprozess verfügbar gemacht werden. Ähnlich wie bei standardmäßigen Bottom-up-MS-Proteinsequenzierungs-experimenten kann z.B. eine Endo-Peptidase verwendet werden, um Proteine in kleinere Peptide zu zerlegen. Weiterhin kann eine Exo-Peptidase verwendet werden, um aus diesen Peptiden dynamisch Leitern zu erzeugen. Einzelne Peptide, die von der Protease produziert werden, könnten sequenziell der Nanopore präsentiert werden und in einem dynamischen Exopeptidase-gekoppelten Experiment analysiert werden. Es ergibt sich ein großer Wert des erfindungsgemäßen Verfahrens im Hinblick auf alltägliche Laboranwendungen.
Material und Methoden
Reagenzien
Alle Messungen wurden in AgCI (Carl Roth GmbH, Karlsruhe, Deutschland) gesättigtem 4 M KCl (Carl Roth GmbH, Karlsruhe, Deutschland), gepuffert mit 25 mM TRIS (Merck KGaA, Darmstadt, Deutschland) bei pH 7,5 durchgeführt. Alle Lösungen wurden mit 18,2 M Q cm'1 Milli-Q-Wasser hergestellt. Nach der Äquilibrierung wurden die Elektrolytlösungen filtriert (0,22 pm) und lichtgeschützt gelagert. Die Peptide wurden nach den gewünschten Anforderungen von der Intavis Peptide Services GmbH & Co. KG (Tübingen, Deutschland) synthetisiert. Von allen Peptiden wurden Stammlösungen (750 pM) in 10 mM HEPES, pH 7,5 hergestellt und bis zur Verwendung bei -20 °C gelagert. Die Reagenzien wurden in einer Endkonzentration von 5 pM verwendet.
Protein- und Lipidpräparation
Wldtyp-Proaerolysin (pAeL) wurde intern über Standardprotokolle aus E.coli BL21 (DE3)- pLysS-kompetenten Zellen unter Verwendung des pET22b (+)-Vektors hergestellt. pAeL wurde aus Zelllysaten über His-Tag-Chromatographie gereinigt. Stöcke von pAeL wurden mit 1 pg pL'1 hergestellt, mit Stickstoff eingefroren und bei -80 °C gelagert. Aufgetautes pAeL wurde mit Trypsin (Promega GmbH, Walldorf, Deutschland) aktiviert und in einer pAeL-Endkonzentration von 20 pmol L'1 (bzw. 3 pmol L'1 AeL) verwendet. Das Präproteinkonstrukt wurde dabei so gewählt, dass der zur Aufreinigung verwendete Affinitätstag bei der Trypsinaktivierung vom Protein abgetrennt und natives Protein erhalten wird. Alle Membranen wurden aus 1 ,2-Diphytanoyl-sn-glycero-3-phosphocholin (DPhPC) aus Oktan hergestellt. DPhPC wurde von Avanti Polar Lipids Inc. (Alabaster, AL, USA) in Chloroform gelöst. Die Lipide wurden aliquotiert, unter Argon getrocknet und als Trockenfilm bei -20 °C gelagert, bis sie in einer Konzentration von 1 mg mL'1 verwendet wurden.
Nanoporen-Messunqen Erfinderlabor
Alle Aufnahmen wurden mit einem Axopatch 200B (Molecular Devices, San Jose, CA, USA) im kapazitiven Rückkopplungsmodus durchgeführt, dessen 4-polige Bessel- Filtereckfrequenz auf 100 kHz bei einer Digitalisierungsrate von 1 MHz eingestellt war. Zwischen Verstärkerausgang und Eingang des Analog/Digitalwandlers war ein 8-Pol- Besselfilter mit einer Eckfrequenz von 50 kHz geschaltet (Model 9002, Frequency Devices, Ottawa, II, USA). Die Digitalisierung erfolgte mit einem National Instruments AD-Wandler (PCI-6251 , National Instruments, Austin, TX, USA). Die GePulse-Software (Michael Pusch, Universität Genua, Italien) wurde für die Haltepotentialsteuerung und Datenaufzeichnung verwendet. Einzelmolekül-Widerstandspulse wurden unter 40 mV transnegativer Spannung gesammelt. Um möglichst viele parasitäre Kapazitäten zu eliminieren, wurden MECA16 Cavity Arrays der lonera GmbH (Freiburg, Deutschland) mit Kavitäten von 50 pm Durchmesser verwendet. Die weitere digitale Filterung (25 kHz Bessel) und Ereignisdetektion erfolgte mit selbstgeschriebener LabView (National Instruments) -basierter Software; die anschließende Auswertung mit Igor Pro 8 (Wavemetrics, Lake Oswego, OR, USA).
Nanoporen-Messunqen Verqleichslabor:
Alle Aufnahmen wurden mit einem Axopatch 200B (Molecular Devices, San Jose, CA, USA) im resistiven Rückkopplungsmodus durchgeführt, dessen 4-polige Bessel- Filtereckfrequenz bei einer Digitalisierungsrate von 100 kHz auf 5 kHz eingestellt war. Für die Messungen wurde ein klassisches, vertikales Kammersystem der Fa. Warner Instruments (Hamden, CT, USA) mit Aperturen von 150 pm Durchmesser verwendet. Die Digitalisierung erfolgte dem DigiDatat 1440A AD-Wandler und der Software ClampexlO (Molecular Devices). Die Auswertung erfolgte mit hauseigenen Routinen, die in IgorPro 8 realisiert wurden.
Suppl. 1 (Ergänzung 1): ermittelte Werte aus Peptidleiter L1
Suppl. 2 (Ergänzung 2): ermittelte Werte aus Peptidleiter L2 Suppl. 3 (Ergänzung 3): ermittelte Werte aus Peptidleiter L3
Suppl. 4 (Ergänzung 4): ermittelte Werte aus Peptidleiter L4
Suppl. 5 (Ergänzung 5): ermittelte Werte aus Peptidleiter L5 Suppl. 6 (Ergänzung 6): ermittelte Werte aus Peptidleiter L6
Suppl. 7 (Ergänzung 7): ermittelte Werte für l/lo und Verweilzeit von Homo-Arginin-
Peptiden. Ensslen et al. Bezeichnet das erfindungsgemäße Ausführungsbeispiel.

Claims

Patentansprüche
1. Verfahren zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers, aufweisend die Schritte: a) Durchführen eines Fragmentierungsverfahrens, bei dem das Heteropolymer in Fragmente zerlegt wird, und dadurch ein Fragmentgemisch erhalten wird, dessen Fragmente Moleküle mit unterschiedlichen Sequenzabschnitten des Heteropolymers sind; b) Durchführen eines Strommessverfahrens, bei dem Stromsignale eines Stroms durch den Kanal einer Nanopore erfasst werden, wobei jedes Stromsignal auf der Interaktion eines Fragments des Fragmentgemischs mit dem Kanal der Nanopore basiert, wobei die Stromsignale für die unterschiedlichen Fragmente charakteristisch sind, so dass eine Repräsentanzmenge von charakteristischen Stromsignalen ermittelbar ist, die das Fragmentgemisch repräsentiert; c) Durchführen eines Auswertungsverfahrens, bei dem eine Sequenz von Monomerbausteinen des Heteropolymers aus der Repräsentanzmenge der charakteristischen Stromsignale bestimmt wird.
2. Verfahren gemäß Anspruch 1 , wobei die Fragmente des Fragmentgemisches durch enzymatische, chemische und/oder physikalische Verfahren gewonnen werden und/oder durch sukzessiven Abbau des Heteropolymers erhalten werden.
3. Verfahren gemäß Anspruch 2, wobei der sukzessive Abbau des Heteropolymers vorsieht, dass das Heteropolymer kettenförmig ist und ausgehend von einem Ende seiner Kette stufenweise um ein Monomerbaustein verkürzt wird, um Längenfragmente, insbesondere im Wesentlichen alle Längenfragmente n-(n-1), n-(n-2)....bis n-(n-n), eines aus n Monomerbausteinen bestehenden Heteropolymers zu erhalten.
4. Verfahren gemäß einem der vorangehenden Ansprüche, wobei das Heteropolymer ein Peptid ist und das Fragmentierungsverfahren ein Edman-Abbau ist oder diesen beinhaltet.
38
5. Verfahren gemäß einem der vorangehenden Ansprüche, zur Ermittlung der Primärstruktur eines wenigstens aus Heteropolymeren gebildeten Makromoleküls, insbesondere eines Proteins, aufweisend die Schritte i) Spaltung des Makromoleküls, insbesondere durch enzymatische und/oder chemische und/oder physikalische Spaltung, um Heteropolymere, insbesondere Peptide, als Spaltungsprodukte des Makromoleküls zu gewinnen; optional: Gewinnen der Heteropolymere durch chromatographische oder elektrophoretische Trennung eines durch die Spaltung erhaltenen Heteropolymergemischs; ii) Anwendung des Verfahrens gemäß einem der vorangehenden Ansprüche zur Ermittlung einer Sequenzfolge von Monomerbausteinen, insbesondere Aminosäuren, mindestens eines, insbesondere jedes, der Heteropolymere; iii) Durchführen eines Makromolekülerkennungsverfahrens, bei dem die Primärstruktur des Makromoleküls aus einer Sequenzfolge des mindestens einen Heteropolymers ermittelt wird.
6. Verfahren nach Anspruch 5, wobei das Makromolekül DNA, RNA, Protein, Peptid oder ein beliebiges synthetisches Polymer ist und wobei insbesondere die Nanopore eine biologische Nanopore bzw. ein Toxin oder porenbildendes Toxin ist.
7. Verfahren nach einem der vorangehenden Ansprüche, wobei die Nanopore eine Festkörpernanopore oder ein Hybrid aus Festkörper und biologischen Komponenten ist.
8. Verfahren nach Anspruch 1 , wobei die Fragmentierung des Heteropolymers durch Enzyme erfolgt.
9. Verfahren nach Anspruch 1 . wobei die Fragmentierung des Heteropolymers auf chemischem Wege und nicht-enzymatisch erfolgt.
39 Verfahren nach Anspruch 1 , wobei die Fragmentierung des Heteropolymers auf physikalischem Wege, z.B. durch Einwirkung von Hitze, Kälte, Schallwellen, elektromagnetische Strahlung, insbesondere Infrarot-, Ultraviolett- oder Röntgenstrahlung, Mikrowellen oder sichtbarem Licht erfolgt. Verfahren nach einem der vorangehenden Ansprüche, wobei die Nanopore Aerolysin, alpha-Hämolysin, VDAC oder ein anderes Protein aus der Familie der beta- Fass-Proteine ist. Verwendung einer Nanopore zur Durchführung des Verfahrens zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers gemäß einem der vorangehenden Ansprüche. Computerimplementiertes Verfahren zur Bestimmung einer Sequenz von Monomerbausteinen eines Heteropolymers, bezeichnet als Heteropolymersequenz, aus den Messdaten eines Strommessverfahrens, die Informationen über Stromsignale enthalten, die bei der Interaktion von aus dem Heteropolymer gebildeten unterschiedlichen Fragmenten mit dem Kanal einer Nanopore ermittelt werden, aufweisend die Schritte:
A) Ermitteln von Reststromwerten aus den Messdaten, wobei ein Reststrom die Interaktion eines der unterschiedlichen Fragmente des Heteropolymers mit dem Kanal einer Nanopore beschreibt;
B) Statistisches Ermitteln einer Repräsentanzmenge von charakteristischen Reststromwerten aus den Reststromwerten, wobei ein charakteristischer Reststromwert jeweils eine Fragmentart, insbesondere Fragmentgröße, der Anzahl n von Fragmentarten eines aus dem Heteropolymer gebildeten Fragmentgemischs beschreibt, wobei die Repräsentanzmenge die Heteropolymersequenz eindeutig beschreibt;
C) Sortieren der charakteristischen Reststromwerte nach deren Betrag zu einer Reststromwertabfolge und Ermitteln der Stromwertdifferenzen aufeinanderfolgender Stromwerte der Reststromwertabfolge; und
40 D) Zuordnen der Stromwertdifferenzen zu Monomerbausteinarten des Heteropolymers anhand von vorbekannten Korrelationsdaten, die Informationen darüber enthalten welche Monomerbausteinart durch welchen Stromwertbetrag repräsentiert wird, um die Bestimmung der Abfolge von Monomerbausteinarten vorzunehmen. Computerprogrammcode, der auf einem Datenträger gespeichert ist und der eine Sequenz von Monomerbausteinen eines Heteropolymers, bezeichnet als Heteropolymersequenz, aus den Messdaten eines Strommessverfahrens ermittelt, wenn er vom Zentralprozessors eines Computers ausgeführt wird, wobei die Messdaten Informationen über Stromsignale enthalten, die bei der Interaktion von aus dem Heteropolymer gebildeten unterschiedlichen Fragmenten mit einer Nanopore ermittelt werden, aufweisend die jeweils durch Programmcode umgesetzten Schritte:
A) Ermitteln von Reststromwerten aus den Messdaten, wobei ein Reststrom die Interaktion eines der unterschiedlichen Fragmente des Heteropolymers mit einer Nanopore beschreibt;
B) Statistisches Ermitteln einer Repräsentanzmenge von charakteristischen Reststromwerten aus den Reststromwerten, wobei ein charakteristischer Reststromwert jeweils eine Fragmentart, insbesondere Fragmentgröße, der Anzahl n von Fragmentarten eines aus dem Heteropolymer gebildeten Fragmentgemischs beschreibt, wobei die Repräsentanzmenge die Heteropolymersequenz eindeutig, jedenfalls aber ausreichend für eine gewünschte Strukturaufklärung oder Strukturvorhersage, beschreibt;
C) Sortieren der charakteristischen Reststromwerte nach deren Betrag zu einer Reststromwertabfolge und Ermitteln der Stromwertdifferenzen aufeinanderfolgender Stromwerte der Reststromwertabfolge; und
D) Zuordnen der Stromwertdifferenzen zu Monomerbausteinarten des Heteropolymers anhand von vorbekannten Korrelationsdaten, die Informationen darüber enthalten welche Monomerbausteinart durch welchen Stromwertbetrag repräsentiert wird, um die Bestimmung der Abfolge von Monomerbausteinarten vorzunehmen. Datenverarbeitungssystem zur Bestimmung einer Sequenz von Monomerbausteinen eines Heteropolymers, bezeichnet als Heteropolymersequenz, aus den Messdaten eines Strommessverfahrens, die Informationen über Stromsignale enthalten, die bei der Interaktion von aus dem Heteropolymer gebildeten unterschiedlichen Fragmenten mit einer Nanopore ermittelt werden, aufweisend einen Computer mit einem Zentralprozessor, und einen Programmcode, insbesondere dem Programmcode gemäß Anspruch 14, wobei der Computer dazu programmiert ist, die folgenden computerimplementierten Schritte auszuführen:
A) Ermitteln von Reststromwerten aus den Messdaten, wobei ein Reststrom die Interaktion eines der unterschiedlichen Fragmente des Heteropolymers mit einer Nanopore beschreibt;
B) Statistisches Ermitteln einer Repräsentanzmenge von charakteristischen Reststromwerten aus den Reststromwerten, wobei ein charakteristischer Reststromwert jeweils eine Fragmentart, insbesondere Fragmentgröße, der Anzahl n von Fragmentarten eines aus dem Heteropolymer gebildeten Fragmentgemischs beschreibt, wobei die Repräsentanzmenge die Heteropolymersequenz eindeutig, jedenfalls aber ausreichend für eine gewünschte Strukturaufklärung oder Strukturvorhersage, beschreibt;
C) Sortieren der charakteristischen Reststromwerte nach deren Beitrag zu einer Reststromwertabfolge und Ermitteln der Stromwertdifferenzen aufeinanderfolgender Stromwerte der Reststromwertabfolge; und
D) Zuordnen der Stromwertdifferenzen zu Monomerbausteinarten des Heteropolymers anhand von vorbekannten Korrelationsdaten, die Informationen darüber enthalten welche Monomerbausteinart durch welchen Stromwertbetrag repräsentiert wird, um die Bestimmung der Abfolge von Monomerbausteinarten vorzunehmen.
EP22702887.5A 2021-01-18 2022-01-18 Verfahren und systeme zur identifikation einer sequenz von monomerbausteinen eines biologischen oder synthetischen heteropolymers Pending EP4278180A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021200425.3A DE102021200425A1 (de) 2021-01-18 2021-01-18 Verfahren und Systeme zur Identifikation einer Sequenz von Monomerbausteinen eines biologischen oder synthetischen Heteropolymers
PCT/EP2022/050990 WO2022152933A1 (de) 2021-01-18 2022-01-18 Verfahren und systeme zur identifikation einer sequenz von monomerbausteinen eines biologischen oder synthetischen heteropolymers

Publications (1)

Publication Number Publication Date
EP4278180A1 true EP4278180A1 (de) 2023-11-22

Family

ID=80222084

Family Applications (1)

Application Number Title Priority Date Filing Date
EP22702887.5A Pending EP4278180A1 (de) 2021-01-18 2022-01-18 Verfahren und systeme zur identifikation einer sequenz von monomerbausteinen eines biologischen oder synthetischen heteropolymers

Country Status (5)

Country Link
US (1) US20240077491A1 (de)
EP (1) EP4278180A1 (de)
CA (1) CA3207733A1 (de)
DE (1) DE102021200425A1 (de)
WO (1) WO2022152933A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4362028A1 (de) * 2022-10-31 2024-05-01 Ecole Polytechnique Federale De Lausanne (Epfl) Mutiertes aerolysin und verwendungen davon

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011120394B4 (de) 2011-12-06 2015-06-25 Universitätsklinikum Freiburg Verfahren und Mikrostrukturvorrichtung zur elektrischen Kontaktierung biologischer Zellen
WO2013116509A1 (en) 2012-02-01 2013-08-08 Arizona Board Of Regents Acting For And On Behalf Of Arizona State University Systems, apparatuses and methods for reading an amino acid sequence
EP3436818A4 (de) 2016-03-31 2019-11-06 Ontera Inc. Nanoporenunterscheidung von zielpolynukleotiden aus probenhintergrund durch fragmentierung und payload-bindung
FR3053119A1 (fr) 2016-06-24 2017-12-29 Excilone Procede de detection electrique de peptides, proteines et autres macromolecules
US20220074920A1 (en) * 2018-12-21 2022-03-10 Sri International Apparatuses and methods involving protein exploration through proteolysis and nanopore translocation

Also Published As

Publication number Publication date
US20240077491A1 (en) 2024-03-07
DE102021200425A1 (de) 2022-07-21
WO2022152933A1 (de) 2022-07-21
CA3207733A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
Cao et al. Discrimination of oligonucleotides of different lengths with a wild-type aerolysin nanopore
DE60126055T3 (de) Massenspektrometer und massenspektrometrisches Verfahren
JP3372862B2 (ja) 生体液の質量分析装置
DE69927983T2 (de) Verfahren zur trennung und anreicherung von isotopen in der gasphase
DE3513168C2 (de)
EP1574837A1 (de) Verfahren und Vorrichtung zur Sequenzierung von Polymeren mittels Nachweis von Tunnel-Leitfähigkeitsänderungen
Wang et al. The aerolysin nanopore: from peptidomic to genomic applications
DE112011101618T5 (de) Verwendung von Nanoporen-Arrays zur Multiplex-Sequenzierung von Nukleinsäuren
DE19633436A1 (de) Verfahren zum Nachweis von Nukleinsäuren unter Ermittlung der Masse
DE4438833A1 (de) Verfahren zur analytischen Trennung von Viren
Wang et al. Probing molecular pathways for DNA orientational trapping, unzipping and translocation in nanopores by using a tunable overhang sensor
EP4278180A1 (de) Verfahren und systeme zur identifikation einer sequenz von monomerbausteinen eines biologischen oder synthetischen heteropolymers
EP3081652B1 (de) Massenspektrometrischer schnelltest von resistenzen
Yuan et al. The analysis of single cysteine molecules with an aerolysin nanopore
DE602004009824T2 (de) Analyse von massenspektraldaten in den ruhigen gebieten
Barry et al. Analysis of modified oligonucleotides by capillary electrophoresis in a polyvinylpyrrolidone matrix coupled with electrospray mass spectrometry
Okuno et al. A gold nano-electrode for single ion channel recordings
Machado et al. Effects of alkali and ammonium ions in the detection of poly (ethyleneglycol) by alpha-hemolysin nanopore sensor
DE10358366B4 (de) Massenspektrometrische Substanzidentifizierung
Konovalov et al. Forming the nanosized molecular assemblies (nanoassociates) is a key to understand the properties of highly diluted aqueous solutions
EP1377818B1 (de) Verfahren und vorrichtung zur erfassung der konzentration einer sauerstoffhaltigen verbindung in einem messgas
Aoki et al. Single channel properties of lysenin measured in artificial lipid bilayers and their applications to biomolecule detection
Hellwig et al. LILBID-MS: using lasers to shed light on biomolecular architectures
DE10006491A1 (de) Verfahren und Probenträgersystem zur Trennung und Anreicherung von Stoffen in situ
US20230194499A1 (en) Nanopore preparation and detection method and detection apparatus thereof

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230629

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)