SE517259C2

SE517259C2 - Molecular identification system

Info

Publication number: SE517259C2
Application number: SE0002214A
Authority: SE
Inventors: Jan Eriksson
Original assignee: Jan Eriksson
Priority date: 2000-06-14
Filing date: 2000-06-14
Publication date: 2002-05-14
Also published as: AU2001264517A1; SE0002214L; WO2001096861A1; WO2001096861A8; SE0002214D0

Abstract

Mass data are typically not unique -I.e., each experimentally determined mass can match randomly one or several molecules in a database. Random matching between mass data and molecules in a database can cause false identification results. In order to minimize false results, random matching must be appropriately accounted for in a method for molecule identification. The invention provides a method to determine, for any molecule in a database and for any experimental and database search constraints, the probability that a particular number of matches between the mass data and masses of molecule constituents results from random matching. The method utilizes the determined probability for random matching to assign scores and rank molecules in a database. The invention further provides a method of generating a frequency function of scores for any experimental condition or database search constraints, wherein the scores relate to random identifications of molecules. Frequency functions are necessary and sufficient tools for testing the significance of a score associated with an identification of an unknown biological molecule.

Description

25 30 5 1 '2 5 9 2 proteinerna ien databas. Proteinet identifieras baserat på en utvärdering av någon av eller båda av dessa jämförelser. 25 30 5 1 '2 5 9 2 proteins in a database. The protein is identified based on an evaluation of one or both of these comparisons.

Masspektrometri bestämmer en peptidmassa m,- till en onoggrannhet av :|:Am,-, med Ami/m,- typiskt>3O ppm. Inom massområdet m,d:Am,- kan proteolytiska peptidmassor hos ﬂera proteiner i en genomdatabas överensstämma. Sålunda kommer en omodi- ﬁerad peptid att slumpmässigt överensstämma med ﬂera proteiner i databasen, förutom den sanna överensstämmelsen med det protein som verkligen ﬁnns i provet, och, en modiﬁerad peptid kommer att ge enbart slumpmässiga överens- stämmelser. Som konsekvens kommer en databassökning som använder masspekt- roïnetrisk information inte alltid att identiﬁera ett protein otvetydigt. Därför, för att kunna utföra noggrann och pålitlig molekylidentiﬁering, måste instrument för erhållande av massdata sammanlänkas på ett lämpligt sätt med användningen av andra tekniska resurser för jämförande av massdata och massdata erhållna från en databas. Sammanlänkningen kan vara ett system som använder ett förfarande som inkluderar sätt att jämföra data och databasinformation, lämpligen kört via en dator.Mass spectrometry determines a peptide mass m, - to an inaccuracy of: |: Am, -, with Ami / m, - typically> 30 ppm. Within the mass range m, d: Am, - proteolytic peptide masses of ﬂ your proteins in a genome database can match. Thus, an unmodified peptide will randomly match your proteins in the database, in addition to the true match with the protein actually found in the sample, and, a modified peptide will give only random matches. As a consequence, a database search using mass spectrometric information will not always unambiguously identify a protein. Therefore, in order to perform accurate and reliable molecular identification, instruments for obtaining mass data must be appropriately linked with the use of other technical resources for comparing mass data and mass data obtained from a database. The link can be a system that uses a method that includes ways of comparing data and database information, conveniently run via a computer.

Trots det raskt ökande påverkanstrycket av masspektrometrisk proteinidentiﬁe- ring på proteomforskning har problemet med att i ett databassökningssystem noggrannt ta hänsyn till fenomenet med slumpmässig massöverensstämmelse iörbisetts. När processer med ökad komplexitet utforskas med MS-baserad pro- teinidentiﬁering, kommer användningen av optimerade procedurer att bli kritisk.Despite the rapidly increasing pressure of influence of mass spectrometric protein identification on proteome research, the problem of carefully taking into account the phenomenon of random mass conformity in a database search system has been overlooked. When processes with increased complexity are explored with MS-based protein identification, the use of optimized procedures will become critical.

Ett optimerat proteinidentiﬁeringssystem kan inte designas utan lämpliga hänsyn till processen med slumpmässig massöverensstämmelse.An optimized protein identification system cannot be designed without due regard to the process of random mass matching.

Teknikens ståndpunkt ldentiﬁeering av proteiner med det ovan beskrivna angreppssättet erfordrar ett schema för bestämningen av den bästa överensstämmelsen mellan experimentella data och en sekvens i databasen. Existerande scheman för bestämningen av den bästa överensstämmelsen inkluderar rankning med antalet överensstämmelser (W .J . Henzel m.ﬂ., Proc. Natl. Acad. Aci. U S A 90, 5011, 1993), ett poängsystem baserat på den obseverade frekvensen av peptider från alla proteiner i en databas inom ett givet molekylviktsområde ( den s.k. “MOWSE score”) (D.C.J. Pappin m.ﬂ., 10. 15 20 25 30 517 259 s Current Biology 6, 327, 1993)), och ett schema baserat på Bayesianska sannolikhe- ter (W. Zhang mﬂ., Anal. Chem. 72, 2482, 2000).Background Art Identification of proteins by the approach described above requires a scheme for determining the best match between experimental data and a sequence in the database. Existing schemes for determining the best match include ranking by the number of matches (W. J. Henzel et al., Proc. Natl. Acad. Aci. USA 90, 5011, 1993), a scoring system based on the observed frequency of peptides from all proteins in a database within a given molecular weight range (the so-called “MOWSE score”) (DCJ Pappin et al., 10. 15 20 25 30 517 259 s Current Biology 6, 327, 1993)), and a scheme based on Bayesian probabilities (W. Zhang et al., Anal. Chem. 72, 2482, 2000).

Inget av dessa scheman tar hänsyn till problemet med slumpmässig överensstäm- melse på ett lämpligt sätt. Avsaknaden av lämplig hänsyn till den slumpmässiga överensstämmelsen förhindrar optimala prestanda i molekylidentiﬁeringsprocedu- rer, eftersom den slumpmässiga överensstämmelsen kan orsaka falska identiﬁe- ringsresultat - särskilt när kvaliten hos masspektrometriska data är dålig.None of these schemes take into account the problem of random conformity in an appropriate way. The lack of appropriate consideration for random conformity prevents optimal performance in molecular identification procedures, as random conformity can cause false identification results - especially when the quality of mass spectrometric data is poor.

Sammanfattning av uppfinningen Avsikten med denna uppﬁnning är att övervinna tillkortakommanden med ovannämnda scheman, det vill säga att tillhandahålla ett förfarande som löser problemet med slumpmässig överensstämmelse.SUMMARY OF THE INVENTION The object of this invention is to overcome the shortcomings of the above schemes, i.e. to provide a method which solves the problem of random conformity.

Denna och andra avsikter har uppnåtts genom att tillhandahålla ett system inkluderande förfaranden för bestämning av sannolikheten att en viss poäng beror på slumpmässig överensstämmelse och att utnyttja den beräknade sannolikheten för att rangordna molekyler. Förfarandet innefattar a) bestämning av antalet överensstämmelser mellan en databasmolekyl och massdata; b) beräkning av sannolikheten att en databasmolekyl skulle ge ett visst antal överensstämmelser av en slump; c) beräkning av en poäng baserat på en eller ﬂera sannolikheter beräknade i b; d) jämförande av poäng för molekyler i databasen och e) identiﬁe- ring av den molekyl eller de molekyler som ger den eller de bästa poängen.This and other intentions have been achieved by providing a system including methods for determining the probability that a particular score is due to random matching and using the calculated probability to rank molecules. The method comprises a) determining the number of matches between a database molecule and mass data; b) calculating the probability that a database molecule would yield a certain number of matches by chance; c) calculation of a score based on one or ﬂ your probabilities calculated in b; d) comparing points for molecules in the database and e) identifying the molecule or molecules that give the best point or scores.

Uppﬁnningen tillhandahåller vidare ett förfarande för att generera en frekvens- funktion för antalet överensstämmelser för slumpmässiga (falska) molekylidentiﬁe- ringar under vilket experimentellt förhållande som helst. Förfarandet innefattar: a) deﬁniering av en delpopulation av molekyler som ingår i databasen; b) beräk- ning av sannolikheten att en molekyl i denna delpopulation skulle ge ett visst antal överensstämmelser av en slump; c) beräkning av sannolikheten att alla molekyler i delpopulationen skulle ge högst ett visst antal överensstämmelser av en slump; d) beräkning av sannolikheten att minst en molekyl i delpopulationen skulle ge minst ett visst antal överensstämmelser av en slump; och e) bestämmning av den relativa frekvensen för varje antal överenstämmelser genom att använda sannolik- heten som beräknats i steg (d) för varje antal överensstämmelser, för att därifrån 10 15 20 25 30 5117” 259 4 generera en frekvensfunktion för antalet slumpmässiga överensstämmelser vid slumpmässig proteinidentiﬁering.The invention further provides a method for generating a frequency function for the number of matches for random (false) molecular identifications under any experimental condition. The method comprises: a) defining a subpopulation of molecules included in the database; b) calculating the probability that a molecule in this subpopulation would give a certain number of coincidences by chance; c) calculating the probability that all molecules in the subpopulation would give a maximum of a certain number of coincidences by chance; d) calculating the probability that at least one molecule in the subpopulation would give at least a certain number of coincidences by chance; and e) determining the relative frequency of each number of matches using the probability calculated in step (d) for each number of matches, to generate therefrom a frequency function for the number of random matches at random protein identification.

Kortfattad ritningsbeskrivning Fig. 1 visar frekvenser (dvs, antal överensstämmande proteiner) för olika tryptiska peptidmassor i en databas.Brief Description of the Drawings Fig. 1 shows frequencies (ie, number of corresponding proteins) for different tryptic masses of pulps in a database.

Fig. 2 visar massfördelningstoppar för tryptiska peptider.Fig. 2 shows mass distribution peaks for tryptic peptides.

Fig. 3 visar prestanda hos en implementering av en utföringsform av uppﬁnningen jämfört med system för proteinidentiﬁering enligt teknikens ståndpunkt. Diagram- met visar resultat från simuleringar med användning av uppﬁnningen (kallad Probity), en Bayesiansk metod samt en metod baserad på antalet överensstämmel- ser. i Detaljerad beskrivning av uppﬁnningen Många tillämpningar av molekylidentiﬁering är av naturen storskaliga. Exempel på storskalig molekylidentiﬁering ﬁnns i proteomprojekt, där tusentals proteiner från celler skall identiﬁeras, eller celler genomsöks efter molekylära markörer för sjukdomstillstånd. Det ultimata målet för molekylidentiﬁeringsprocedurer är att lita till enkla, snabba och automatiska procedurer och instrument. De tekniska lösningarna hos det system som sammanlänkar och jämför data med databasinfor- mation är av ytterst stor betydelse för designen av instrument för automatisk molekylidentiﬁering, eftersom det system som används starkt kommer att inﬂuera förmågan att erhålla en hög frekvens av sanna identiﬁeringsresultat, vilket är särskilt kritiskt när datakvaliteten är dålig. Vidare kräver automatisk identiﬁe- ringsinstrumentering att kvaliteten av ide ntiﬁeringsre sultat kan be dömas automa- tiskt genom användning aviett signiﬁkanstest (J. Eriksson mﬂ, Anal. Chem. 72, 999, 2000). Ett pålitiligt automatiskt proteinidentiﬁeríngssystem kan emellertid inte konstrueras utan hänsyn till, eller med olämplig hänsyn till, processen med slumpmässig massöverensstämmelse.Fig. 3 shows the performance of an implementation of an embodiment of the invention compared to prior art protein identification systems. The diagram shows results from simulations using the invention (called Probity), a Bayesian method and a method based on the number of matches. i Detailed description of the invention Many applications of molecular identification are by nature large-scale. Examples of large-scale molecular identification are found in protein projects, where thousands of proteins from cells are to be identified, or cells are scanned for molecular markers of disease states. The ultimate goal of molecular identification procedures is to rely on simple, fast and automated procedures and instruments. The technical solutions of the system that links and compares data with database information are extremely important for the design of automatic molecular identification instruments, as the system used will strongly influence the ability to obtain a high frequency of true identification results, which is particularly critical when data quality is poor. Furthermore, automatic identification instrumentation requires that the quality of identification results can be assessed automatically through the use of a signal test (J. Eriksson m ﬂ, Anal. Chem. 72, 999, 2000). However, a reliable automatic protein identification system cannot be designed without regard to, or with inappropriate regard to, the process of random mass conformity.

Ett syfte med denna uppﬁnning är att tillhandahålla ett system som utnyttjar förfaranden som tillåter mer noggrann molekylidentiﬁering och mer noggrann och snabb signiﬁkanstestníng av identiﬁeringsresultat. Förfarandet enligt uppﬁnning- en tar lämpliga hänsyn till fenomenet med slumpmässig överensstämmelse, och 10 15 20 25 151.7 259 5 är däfór väl lämpad fór implementering i ett automatiskt molekylidentiﬁeringssystem.One object of this invention is to provide a system that utilizes procedures that allow for more accurate molecular identification and more accurate and rapid signing testing of identification results. The method according to the invention takes due account of the phenomenon of random conformity, and is therefore well suited for implementation in an automatic molecular identification system.

En särskild angelägenhet beträffande storskalig molekylidentiﬁering är den tid som erfordras for att erhålla ett identiñeringsresultat tillsammans med en kvali- tetsbestämning av resultatet. En kvalítetsbestämning kan fullgöras med sígniﬁ- kanstest, vilket erfordrar vetskap om funktioner som beskriver poäng för falska resultat. Sådana frekvensfunktioner erhålls fór närvarande genom simulering av slumpmässig molekylidentiﬁering. Då emellertid tiden som behövs for att härleda en frekvensfunktion med hjälp av simulering är ungefär 1000 gånger längre än vid användning av denna uppﬁnning, så ﬁnns det ett behov att härleda en sådan frëkvensfllnktion från en analytisk formel. I en utfórandeform av uppfinningen ﬁnns tillhandahållandet av en analytisk formel fór härledningen av en frekvens- funktion. I I Förfarandenna enligt denna uppﬁnning är väl lämpade fór, men icke begränsade till, tillämpning ivilken molekylerna är biologiska molekyler som existerar i celler- na hos en organism.A special concern regarding large-scale molecular identification is the time required to obtain an identification result together with a quality determination of the result. A quality determination can be completed with a signi ﬁ test, which requires knowledge of functions that describe points for false results. Such frequency functions are currently obtained by simulating random molecular identification. However, since the time required to derive a frequency function by means of simulation is approximately 1000 times longer than when using this invention, there is a need to derive such a frequency function from an analytical formula. In one embodiment of the invention there is provided the provision of an analytical formula for the derivation of a frequency function. The methods of this invention are well suited for, but not limited to, the application in which the molecules are biological molecules that exist in the cells of an organism.

Biologiska molekyler innefattar vilken biologisk polymer som helst som kan ned- brytas i beståndsdelar. Nedbrytningen till beståndsdelar skall helst vara vid förut- sägbara lägen för att bilda fórutsägbara massor. Exempel på biologiska molekyler innefattar proteiner, nukleinsyramolekyler, polysackarider och kolhydrater.Biological molecules include any biological polymer that can be degraded into constituents. The decomposition into constituents should preferably be at predictable positions to form predictable masses. Examples of biological molecules include proteins, nucleic acid molecules, polysaccharides and carbohydrates.

En experimentell biologisk molekyl är en biologisk molekyl som skall identiﬁeras; den experimentella biologiska molekylen kan också kallas en okänd biologisk molekyl. En teoretisk biologisk molekyl är en biologisk molekyl är en känd biolo- gisk molekyl beskriven i en databas.An experimental biological molecule is a biological molecule that must be identified; the experimental biological molecule can also be called an unknown biological molecule. A theoretical biological molecule is a biological molecule is a known biological molecule described in a database.

Proteiner är polymerer av aminosyror. Beståndsdelar av proteiner innefattar aminosyror. Ett protein innehåller approximativt minst tio aminosyror, men hellre minst 50 aminosyror ooh ännu hellre minst 100 aminosyror.Proteins are polymers of amino acids. Components of proteins include amino acids. A protein contains approximately at least ten amino acids, but more preferably at least 50 amino acids and even more preferably at least 100 amino acids.

Nukleinsyror är polymerer av nukleotider. Beståndsdelar av nukleinsyror innefat- tar nukleotider. Typiskt innehåller en nukleinsyra minst 100 nukleotider, men hellre minst 500 nukleotider. 1o_ 15 20 25 51 12x59 " ° 6 Polysackarider är polymerer av monosackaríder. Beståndsdelar av polysackarider innefattar en eller ﬂera monosackaríder. Typiskt innehåller en polysackarid minst fem monosackarider, men hellre minst tio monosackaríder.Nucleic acids are polymers of nucleotides. Nucleic acid constituents include nucleotides. Typically, a nucleic acid contains at least 100 nucleotides, but more preferably at least 500 nucleotides. Polosaccharides are polymers of monosaccharides. Components of polysaccharides include one or two monosaccharides. Typically, a polysaccharide contains at least five monosaccharides, but more preferably at least ten monosaccharides.

Massdata från biologiska molekyler är kvantiﬁerbar information om massorna av beståndsdelarna av den biologiska molekylen. Massdata inkluderar individuella masspektra och grupper av masspektra. Masspektra kan vara i form av peptidkar- tor, oligonukleotidkartor eller oligosackaridkartor.Mass data from biological molecules are quantifiable information about the masses of the constituents of the biological molecule. Mass data includes individual mass spectra and groups of mass spectra. Mass spectra can be in the form of peptide maps, oligonucleotide maps or oligosaccharide maps.

Förfarandet i denna uppﬁnning innefattar generering av experimentella massdata för experimentmolekylen inom ett visst massområde. Massdata innefattar de uppmätta massorna. Förfarandet innefattar också generering av teoretiska mass- data i samma massområde. I en konkret form är massdata en undergrupp av de experimentella massdata.The method of this invention involves generating experimental mass data for the experimental molecule within a certain mass range. Mass data includes the measured masses. The method also includes generating theoretical mass data in the same mass range. In a concrete form, mass data is a subset of the experimental mass data.

Exempelvis kan massdata för molekyler genereras på vilket sätt som helst som tillhandahåller massdata inom en viss onoggrannhet. Exempel inkluderar matri- sassisterad laserdesorptions/jonisationsmasspektrometri, elektrosprejjonisations- masspektrometri, kromatograﬁ samt elektrofores. Massdata kan också genereras genom en dator konﬁgurerad med mjukvara eller på annat sätt.For example, mass data for molecules can be generated in any way that provides mass data within a certain inaccuracy. Examples include matrix-assisted laser desorption / ionization mass spectrometry, electrospray ionization mass spectrometry, chromatography and electrophoresis. Mass data can also be generated by a computer configured with software or otherwise.

För syftena med denna uppﬁnning bestäms massdata, t.ex. en peptidmassa, till någon onoggrannhet :hAmb hellre så Ami/m,- <10 000 ppm, helst <100 ppm, och allra helst <30 ppm.For the purposes of this invention, mass data is determined, e.g. a peptide mass, to some inaccuracy: hAmb rather so Ami / m, - <10,000 ppm, preferably <100 ppm, and most preferably <30 ppm.

Ett steg i genereringen av massdata för en molekyl kan innefatta att först spjälka upp molekylen i beståndsdelar. Biologiska molekyler kan uppspjälkas med förfa- randen som är kända inom området. Biologiska molekyler spjälkas helst till be- ståndsdelar i förutsägbara lägen för att bilda förutsägbara massor. Förfaranden för spjälkning inkluderar kemiska metoder. Biologiska molekyler kan nedbrytas genom att den biologiska molekylen ges kontakt med någon kemisk substans.One step in the generation of mass data for a molecule may involve first cleaving the molecule into components. Biological molecules can be cleaved by methods known in the art. Biological molecules are preferably broken down into constituents in predictable positions to form predictable masses. Cleavage procedures include chemical methods. Biological molecules can be degraded by contacting the biological molecule with any chemical substance.

Exempelvis kan proteiner nedbrytas på förutsägbart sätt till peptider med hjälp av cyanbromid eller enzymer såsom trypsin, endoproteinas Asp-N, V8 proteas, endoproteinas Arg-C, etc. Nukleinsyror kan nedbrytas på förutsägbart sätt till 10. 15 20 25 30 517 259 7 beståndsdelar med restriktionsendonukleaser såsom Eco RI, Sma I, BamH I, Hinc II, etc. Polysackarider kan nedbrytas till beståndsdelar med hjälp av enzymer såsom maltas, amylas, alfa-mannosidas, etc.For example, proteins can be predictably degraded to peptides by cyanogen bromide or enzymes such as trypsin, endoproteinase Asp-N, V8 protease, endoproteinase Arg-C, etc. Nucleic acids can be degraded in a predictable manner to 10 constituents. with restriction endonucleases such as Eco RI, Sma I, BamH I, Hinc II, etc. Polysaccharides can be degraded into constituents by enzymes such as maltase, amylase, alpha-mannosidase, etc.

I denna uppﬁnning år ett massområde (mmm, mmax) bestämt för de experimentella data. Massområdet kan vara massområdet fór de experimentella data. I en utfö- ringsform är massområdet minimum och maximum av uppmätta massor hos expe- rimentella massdata för en molekyl.In this invention, a mass range (mmm, mmax) is determined for the experimental data. The mass range can be the mass range for the experimental data. In one embodiment, the mass range is the minimum and maximum of measured masses of experimental mass data for a molecule.

En molekyldatabas är vilken samling som helst av information om karakteristika hös molekyler. En molekyldatabas kan vara en databas för biologiska molekyler.A molecule database is any collection of information about the characteristics of hay molecules. A molecule database can be a database of biological molecules.

Databaser är den föredragna metoden för lagring av såväl aminosyrasekvenser hos polypeptider som av de nukleinsyrasekvenser som kodar dess-a polypeptider. Olika typer av databaser förekommer och dessa har fördelar och nackdelar när de betrak- tas avseende hypotesen för ett polypeptididentiﬁeringsexperiment.Databases are the preferred method for storing both amino acid sequences of polypeptides and of the nucleic acid sequences encoding its polypeptides. Different types of databases exist and these have advantages and disadvantages when considered with respect to the hypothesis of a polypeptide identification experiment.

Medan databasposten för en aminosyrasekvens kan vara utförd som en enkel textﬁl för att en användare skall kunna slå upp en viss polypeptid, är många p databaser organiserade så att de utgör ﬂexibla komplicerade strukturer. Den detaljerade implementeringen av databasen i ett visst system kan vara baserad på en samling av enkla textﬁler (eng. “ﬂat-ﬁle”database), en samling tabeller (en relationsdatabas), eller så kan den vara organiserad kring koncept som härstam- mar från uppfattningen om ett protein, en gen eller en organism (en objektoriente- rad databas).While the database entry for an amino acid sequence can be designed as a simple text ﬁ l for a user to look up a particular polypeptide, many p databases are organized so that they constitute ib excel complicated structures. The detailed implementation of the database in a particular system may be based on a collection of simple texts (database), a collection of tables (a relational database), or it may be organized around concepts derived from the perception of a protein, a gene or an organism (an object-oriented database).

Proteinmassdata kan förutsägas från nukleinsyrasekvensdatabaser. Alternativt kan proteinmassdata förutsägas direkt från proteinsekvensdatabaser som innehål- ler en samling av aminosyrasekvenser representerade av en sträng av enbokstavs- koder eller trebokstavskoder för residuerna i en polypeptid, begynnande vid N- terminalen av sekvensen. Dessa koder kan innehålla icke-standardiserade tecken för att indikera tvetydighet i ett visst läge ( såsom “B” indikerande att det kan vara “D” (asparaginsyra) eller “N” (asparagin)). Sekvenserna har typiskt unika siffer- bokstavskombinationer associerade med dem, vilka används internt hos databasen för att identifiera sekvensen, vilket vanligtvis kallas tillträdesnumret (eng. “acces- sion number”) för sekvensen. 10 15 20 25 30 517 2 se - 8 Databaser kan innehålla en kombination av aminosyrasekvenser, kommentarer, litteraturhänvisningar och noter gällande kända posttranslationella modifieringar hos sekvensen. En databas som innehåller dessa element kallas annoterad. Anno- terade databaser används om någon funktionell eller strukturell information är känd för det mogna proteinet, i motsats till en sekvens som är känd endast från översättningen av en bit nukleinsyrasekvens. Icke-annoterade databaser innehål- ler endast sekvensen, ett tillträdesnummer och en beskrivande titel.Protein mass data can be predicted from nucleic acid sequence databases. Alternatively, protein mass data can be predicted directly from protein sequence databases containing a collection of amino acid sequences represented by a strand of one-letter or three-letter codes for the residues in a polypeptide, beginning at the N-terminus of the sequence. These codes may contain non-standard characters to indicate ambiguity in a particular position (such as "B" indicating that it may be "D" (aspartic acid) or "N" (asparagine)). The sequences typically have unique number-letter combinations associated with them, which are used internally in the database to identify the sequence, which is commonly referred to as the "accession number" for the sequence. 10 15 20 25 30 517 2 se - 8 Databases may contain a combination of amino acid sequences, comments, literature references and notes regarding known post-translational modifications of the sequence. A database that contains these elements is called annotated. Annotated databases are used if any functional or structural information is known for the mature protein, as opposed to a sequence known only from the translation of a piece of nucleic acid sequence. Non-annotated databases contain only the sequence, an access number and a descriptive title.

Den kända bakgrundsinformationen om en experimentell molekyl genom vilken databassökningen kan avgränsas kan inkludera vilken information som helst.The known background information of an experimental molecule by which the database search can be delimited can include any information.

Några exempel på bakgrundsinformation är information om kategorin för en expe- rimentell biologisk molekyl, kännedom om eller ett antagande om massan av den experimentella biologiska molekylen och den isoelektrisk punkten för den experei- mentella biologiska molekylen.Some examples of background information are information on the category of an experimental biological molecule, knowledge of or an assumption about the mass of the experimental biological molecule and the isoelectric point of the experimental biological molecule.

Exempelvis kan den observerade molekylmassan eller den observerade isoelektris- ka punkten för ett protein användas i kombination med de uppmätta peptidmassor- na som genererats med proteolys, för att avgränsa sökandet efter en polypeptid. I synnerhet kan jämförelsen mellan de teoretiska massdata för databasproteinerna och massdata för det okända proteinet avgränsas till endast de proteiner i databa- sen som är inom ett valt massområde. Det valda massområdet är helst inom 50% av massan hos det okända proteinet, men ännu hellre inom 35% och allra helst inom 25%. På liknande sätt kan jämförelsen mellan de teoretiska massdata för databasproteinerna och massdata for de okända proteinet avgränsas till endast de proteiner i databasen som är inom ett visst valt omrâde för den isoelektriska punk- ten. Den isoelektriska punkten (pl) för ett protein är det pH vid vilket dess netto- laddning är noll. Det valda området för den isoelektriska punkten är helst inom 50% av den isoelektriska punkten för det okända proteinet, men ännu hellre inom 35% och allra helst inom 25%.For example, the observed molecular mass or the observed isoelectric point of a protein can be used in combination with the measured peptide masses generated by proteolysis, to delimit the search for a polypeptide. In particular, the comparison between the theoretical mass data for the database proteins and the mass data for the unknown protein can be limited to only those proteins in the database that are within a selected mass range. The selected mass range is preferably within 50% of the mass of the unknown protein, but even more preferably within 35% and most preferably within 25%. Similarly, the comparison between the theoretical mass data of the database proteins and the mass data of the unknown protein can be limited to only those proteins in the database that are within a certain selected range of the isoelectric point. The isoelectric point (pI) of a protein is the pH at which its net charge is zero. The selected range of the isoelectric point is preferably within 50% of the isoelectric point of the unknown protein, but more preferably within 35% and most preferably within 25%.

Därutöver kan vidare information, såsom ett proteins sekvens, om en experimen- tell biologisk molekyl erhållas genom generering av fragmentmassdata för de experimentella och teoretisk biologiska molekylerna. Fragmentmassdata för en peptid kan genereras på vilket sätt som helst som tillhandahåller fragmentmassda- ta inom en viss onoggrannhet. Experimentella förhållanden inkluderar den energi- 10. 15 20 25 30 517 259 9 form som använs för att generera fragmentmassdata. Vibrationsexcitation kan användas. Den elektroniska excitatíonen kan genereras med hjälp av kollisioner mellan peptiden och elektroner, fotoner, gasmolekyler (t.ex. argon) eller en yta.In addition, further information, such as a protein sequence, about an experimental biological molecule can be obtained by generating fragment mass data for the experimental and theoretical biological molecules. Fragment mass data for a peptide can be generated in any way that provides fragment mass data within a certain inaccuracy. Experimental conditions include the form of energy used to generate fragment mass data. Vibration excitation can be used. The electronic excitation can be generated by collisions between the peptide and electrons, photons, gas molecules (eg argon) or a surface.

I ett annat exempel jämförs det experimentella fragmentmasspektrum för en peptid från ett enzymatiskt spjälkat okänt protein med de teoretiska massor som beräknats genom att tillämpa reglerna för enzymets speciﬁcitet samt reglerna för fragmenteringen, som är kända för fackmannen, på aminosyrasekvensen för ett databasprotein.In another example, the experimental fragment mass spectrum of a peptide from an enzymatically cleaved unknown protein is compared with the theoretical masses calculated by applying the rules of the enzyme specificity and the rules of fragmentation known to those skilled in the art to the amino acid sequence of a database protein.

Fragmentmassdata för de syften som denna uppﬁnning avser kan genereras genom användning av multidimensionell masspektrometri (MS/MS), även känt som tan- denfmasspektrometrifEtt antal typer av masspektrometrar kan användas, inklu- derande en trippelkvadrupolmasspektrometer, Fouriertransform-cyklotronreso- nansmasspektrometer, en tandemlöptidsmasspektrometer och en kvadrupoljonfál- _ lemasspektrometer. En enstaka peptid från ett spjälkat protein utsätts för ett MS/MS-experiment och det observerade mönstret av fragmentjoner jämförs med mönstren för fragmentjoner förutsagda från databassekvenser.Fragment mass data for the purposes of this invention can be generated using multidimensional mass spectrometry (MS / MS), also known as tandem mass spectrometry. quadrupole ion fal- _ lemass spectrometer. A single peptide from a cleaved protein is subjected to an MS / MS experiment and the observed pattern of fragment ions is compared with the patterns of fragment ions predicted from database sequences.

I en utföringsform tillhandahåller uppﬁnningen ett förfarande att bestämma sannolikheterna att poängen som en viss molekyl i en databas kan ge av en slump när den jämförs med massdata. Förfarandet kan fungera under olika experimentel- la och databassökningsbegränsningar. Poängen kan vara antalet överensstämmel- ser mellan massor som härletts från kända eller hypotetiska molekyler eller mole- kylbeståndsdelar i en databas och massdata från en eller ﬂera kända eller okända molekyler eller molekylbeståndsdelar. Poängen kan också resultera från en beräk- ning som utnyttjar antalet överensstämmelser.In one embodiment, the invention provides a method for determining the probabilities that the score that a particular molecule in a database can give by chance when compared to mass data. The procedure can work under various experimental and database search restrictions. The score can be the number of matches between masses derived from known or hypothetical molecules or molecular constituents in a database and mass data from one or more known or unknown molecules or molecular constituents. The score can also result from a calculation that uses the number of matches.

I en utföringsform tillhandahåller uppﬁnningen ett förfarande att extrahera infor- mation om molekyler i en databas. Exempel på information som kan extraheras från en databas är total molekylmassa, laddning, isoelektrisk punkt, hydrofobicitet och kända eller hypotetiska kemiska modiﬁeringar, samt massa, laddning, isoelek- trisk punkt, hydrofobicitet och kända eller hypotetiska kemiska modifieringar hos molekylbeståndsdelar. 10 15 20 25 30 517' 25 9 10 len utföringsform tillhandahåller uppﬁnningen ett förfarande att utföra handling- ar med molekyler i databasen som är ämnade att härma händelser som inträffar i ett experiment. Exempel på händelser är nedbrytning av molekyler till molekyl- beståndsdelar genom hydrolys, där hydrolysen kan vara resultat av kemikaliers eller enzymers aktivitet. Förfarandetkan utföra handlingar på molekylbeståndsde- lar som härmar experimentella händelser. Till exempel fragmentering av en excite- rad molekylbeståndsdel till mindre bitar.In one embodiment, the invention provides a method of extracting information about molecules in a database. Examples of information that can be extracted from a database are total molecular mass, charge, isoelectric point, hydrophobicity and known or hypothetical chemical modifications, as well as mass, charge, isoelectric point, hydrophobicity and known or hypothetical chemical modifications of molecular constituents. In this embodiment, the invention provides a method of performing actions with molecules in the database that are intended to mimic events that occur in an experiment. Examples of events are the decomposition of molecules into molecular constituents by hydrolysis, where the hydrolysis may be the result of the activity of chemicals or enzymes. The method can perform actions on molecular constituents that mimic experimental events. For example, fragmentation of an excited molecular component into smaller pieces.

I en utföringsform tillhandahåller uppﬁnningen ett förfarande att härleda ett molekylbitsantal k 7 u! som resulterar från en aktivitet som antas härma en experi- mentell situation. Bitarna kan vara molekylbeståndsdelar, såsom proteolytiska peptider resulterande från enzymatisk spjälkníng av ett protein, där olika antagan- denlkan göras avseende graden av fullständighet av den enzymatiska spjälkning- en. Bitarna kan vara molekylbeståndsdelar i form av fragment av molekylbes- tåndsdelar, exempelvis fragment av proteolytiska peptider.In one embodiment, the invention provides a method of deriving a number of molecular bits k 7 u! resulting from an activity that is assumed to mimic an experimental situation. The pieces may be molecular constituents, such as proteolytic peptides resulting from enzymatic cleavage of a protein, where different assumptions can be made as to the degree of completeness of the enzymatic cleavage. The pieces may be molecular constituents in the form of fragments of molecular constituents, for example fragments of proteolytic peptides.

I en utföringsform tillhandahåller uppﬁnningen ett förfarande att organisera massorna för molekyler eller molekylbeståndsdelar eller fragment därav. Exempel på sådan organisatioin ges i Fig. 1 och 2., där Fig. 1 visar antalet proteiner i en databas som överensstämmer med en given proteolytisk peptidmassa och Fig. 2 visar den grupperade fördelningen av proteolytiska peptidmassor. Massor som grupperar sig på detta eller liknande sätt kommer att kallas en massfördelnings- topp. Massﬁirdelningstoppar kan återﬁnnas för alla molekyler som innehåller ett begränsat antal atomslag (t.ex. C, H, N, O, S).In one embodiment, the invention provides a method of organizing the masses of molecules or molecular constituents or fragments thereof. Examples of such an organization are given in Figs. 1 and 2., where Fig. 1 shows the number of proteins in a database corresponding to a given proteolytic peptide mass and Fig. 2 shows the grouped distribution of proteolytic peptide masses. Masses that group in this or a similar way will be called a mass distribution peak. Mass cleavage peaks can be recovered for all molecules that contain a limited number of atomic species (eg C, H, N, O, S).

I en utföringsform tillhandahåller uppﬁnningen ett förfarande att deﬁniera mas- sområden i vilka frekvensen av olika massor kan bestämmas. Förfarandet deﬁnie- rar f,- som andelen av massor av molekylbeståndsdelar eller fragment som hamnar inom ett massområde i. I en utföringsform tillhandahåller uppﬁnningen ett förfa- rande att bestämma sannolikheten p,- att en viss molekyl i en databas skall återﬁn- nas i en slumpmässigt vald massfördelningstopp i massområdet i: P, = FUfwmfß), där F är en funktion, m,- är ett massområde och c betecknar experimentella och databassökningsbegränsningar. lOi 15 20 25 '517 2259 11 I en utföringsform ges p,- av: k Pi =fi"'iu_'> mi+1"m1 vilken beskriver sannolikheten att en molekylbeståndsdel från en viss molekyl karakteriserad av ku skall återﬁnnas i en slumpvis utvald massfördelningstopp.In one embodiment, the invention provides a method that defines the mass ranges in which the frequency of different masses can be determined. The method de-ners f, - as the proportion of masses of molecular constituents or fragments that fall within a mass range i. randomly selected mass distribution peak in the mass range in: P, = FUfwmfß), where F is a function, m, - is a mass range and c denotes experimental and database search constraints. In one embodiment p, - is given by: mass distribution peak.

Nämnaren i ovanstående uttryck för p,- betecknar antalet massfördelningstoppar inom massområdet i.The denominator in the above expression for p, - denotes the number of mass distribution peaks within the mass range in.

I en utföringsform tillhandahåller uppﬁnningen ett förfarande att bestämma sannolikheten p,- 'att hitta en molekylbeståndsdel härstammande från en viss molekyl karakteriserad av ku inom ett område :Am kring en slumpvis vald molekyl- besfåndsdelsmassa mf “ p; = p, -5(m,.,Am) , där ó'(m,-, Am) betecknar en funktion som beror av formen på massfördelningstoppen och miavser ett massområde. ó'(m,-, Am) kan tolkas som ett statistiskt mått på anta- let molekylbeståndsdelar som kan hittas inom iAm från en slumpvis vald molekyl- beståndsdelsmassa. Massonoggrannheten kan vara olika före olika massområden, det vill säga i så fall betecknat av Am¿_ ' I en utföringsform tillhandahåller uppﬁnningen ett förfarande att bestämma 6(m,-, Am) genom simulering av den relativa frekvensen av massor kring en slumpvis vald massa i en massfördelning. I en utföringsform bestäms ó'(m,-, Am) genom integration av en funktion som beskriver molekylbeståndsdelsmassiördelningar samt norme- ring till det totala antalet molekylbeståndsdelsmassor i en massfördelningstopp.In one embodiment, the invention provides a method of determining the probability of finding a molecular component derived from a particular molecule characterized by ku within a range: Am around a randomly selected molecular stock mass, etc.; = p, -5 (m,., Am), where ó '(m, -, Am) denotes a function that depends on the shape of the mass distribution peak and refers to a mass area. ó '(m, -, Am) can be interpreted as a statistical measure of the number of molecular constituents that can be found within iAm from a randomly selected molecular constituent mass. The mass accuracy may be different before different mass ranges, i.e. in that case denoted by Am in a mass distribution. In one embodiment, δ '(m, -, Am) is determined by integrating a function that describes molecular component mass distributions and standardizing to the total number of molecular component masses in a mass distribution peak.

I en utföringsform bestäms ó'(m,-, Am) med direkt räkning följd av normering.In one embodiment, ó '(m, -, Am) is determined by direct calculation followed by standardization.

I en utföringsform av uppﬁnningen används ett begränsat antal massområden mellan m,,,,-,, och mm, där -vart massområde har ett individuellt deﬁnierat p,-'.In one embodiment of the invention, a limited number of mass areas are used between m ,,,, - ,, and mm, where -where mass area has an individually defined p, - '.

I en utföringsform används sannolikheternapﬁör att beräkna en total sannolikhet p(k) för en individuell molekyl i databasen att överensstämma slumpmässigt med k stycken av totalt n massor, där n massor avser antalet massor i massdata. 10 15 20 w m 12 p(k) = G(p,« Jr, n, ä) , där G är en funktion och c ' betecknar experimentella och datab assökningsbe gräns- ningar.In one embodiment, probability probes are used to calculate a total probability p (k) for an individual molecule in the database to randomly match k pieces of a total of n masses, where n masses refers to the number of masses in mass data. 10 15 20 w m 12 p (k) = G (p, «Jr, n, ä), where G is a function and c 'denotes experimental and data search constraints.

I en utfóringsform av uppﬁnníngen ges p(k) av: w- 2 { »i (1 »r (1 p k,,Z/f,.=k k1l'("1'k1) pl pl k2!'("2“k2) P2 P2 *_ flq 'kg f "n 'kr "kl" -k 1” 'Ü_p“) } q q q där q betecknar antalet massområden, n 1 betecknar antalet massor i massdata som är i området 1, ng betecknar antalet massor i massdata som är i området 2 etc, och k 1, med i=1,2,. . .q, betecknar antalet överensstämmelser i massområde i. Värdena på ki är alla kombinationer av värden som stämmer med randvillkoret 2a=a I en utfóringsform av uppﬁnníngen används en poäng relaterad till slumpmässig överensstämmelse i processen att rangordna molekyler i en databas.In an embodiment of the invention, p (k) is given by: w- 2 {»i (1» r (1 pk ,, Z / f,. = K k1l '("1'k1) pl pl k2!' (" 2 "K2) P2 P2 * _ flq 'kg f" n' kr "kl" -k 1 "'Ü_p“)} qqq where q denotes the number of mass ranges, n 1 denotes the number of masses in mass data which is in the range 1, ng denotes the number masses in mass data that are in the range 2 etc, and k 1, with i = 1,2,. .q, denotes the number of matches in mass range i. embodiment of the invention uses a score related to random matching in the process of ranking molecules in a database.

I en utiöringsform av uppﬁnníngen används sannolikheten p(k) i processen för rangordning av databasmolekyler. En hel databas eller en del av en databas pro- cessas och organiseras fór att möjliggöra beräkning av p(k) för molekyler i databa- sen. k betecknar antalet överensstämmelser mellan massorna hos molekylbes- tåndsdelarna för varje undersökt databasmolekyl och massor imassdata. Moleky- lerna i databasen kan vara kända eller hypotetiska. Molekylen eller molekylerna som producerar massdata kan vara kända eller okända.In one embodiment of the invention, the probability p (k) is used in the process of ranking database molecules. An entire database or part of a database is processed and organized to enable the calculation of p (k) for molecules in the database. k denotes the number of matches between the masses of the molecular constituents for each database molecule examined and masses of mass data. The molecules in the database can be known or hypothetical. The molecule or molecules that produce mass data may be known or unknown.

I en utfóringsform av uppﬁnníngen är rangordningen av molekylerna baserad på poängen S(p(k)), där S är en funktion.In one embodiment of the invention, the ranking of the molecules is based on the score S (p (k)), where S is a function.

I en utfóringsform av uppﬁnníngen S(p(k))-c-<1-zp>-«<¿p, k' 10 15 20 25 mr m 13 där c är en konstant eller en matematisk funktion. När c=1 kan S(p(k)) tolkas som sannolikheten att en molekyli databasen skulle ge minst k slumpmässiga överens- stämmelser med massdata.In an embodiment of the invention S (p (k)) - c- <1-zp> - «<¿p, k '10 15 20 25 mr m 13 where c is a constant or a mathematical function. When c = 1, S (p (k)) can be interpreted as the probability that a molecule database would give at least k random correspondences with mass data.

I en utfóringsform av uppfinningen får den molekyl i databasen som ger det lägsta S@(k)) den högsta rangen. Molekylen som får det näst lägsta S(p(k)) får den näst högsta rangen osv. Identiﬁeringen av en molekyl eller molekyler sker bland de molekyler som har högst rang. De högsta i rang kan vara endast den högst i rang, men det kan också vara ﬂer än den som är högst i rang, t.ex de två högsta, de tre högsta, de fyra högsta, de fem högsta, de tio högsta eller de 100 högsta. Antalet ravngordnade molekyler som betraktas som identiﬁeringsresultat kan också bestä- mas med hjälp av ett signíﬁkanstest.In one embodiment of the invention, the molecule in the database that gives the lowest S @ (k)) gets the highest rank. The molecule that gets the second lowest S (p (k)) gets the second highest rank, and so on. The identification of a molecule or molecules takes place among the molecules that have the highest rank. The highest in rank can be only the highest in rank, but it can also be ﬂ er than the highest in rank, eg the two highest, the three highest, the four highest, the five highest, the ten highest or the 100 maximum. The number of raven-regulated molecules that are considered as identification results can also be determined using a signi ﬁ test.

I en utfóringsform av uppﬁnningen tillhandahåller uppﬁnningen ett förfarande för att generera en frekvensfunktion for poäng för ett visst experimentellt tillstånd, där poängen relateraras till slumpmässig proteinidentíﬁeríng.In one embodiment of the invention, the invention provides a method for generating a frequency function for points for a particular experimental state, where the points are related to random protein identification.

En frekvensﬁinktíon är vilken samling av observerade värden som helst för en studerad variabel och hur många gånger Varje värde har observerats. Frekvens- funktioner kan vara i form av tabeller av listor, ett stapeldiagram, ett histtogram, en frekvenspolygon eller en kontinuerlig kurva. Funktioner som härleds från frekvensfórdelningar kan vara kontinuerliga (sannolikhetstäthetsfunktion) eller diskreta (sannolikhetsmassfunktion). Kummulativa fórdelningar av varje sorts funktion kan också härledas.A frequency kt inction is any set of observed values for a studied variable and how many times Each value has been observed. Frequency functions can be in the form of tables of lists, a bar chart, a histogram, a frequency polygon or a continuous curve. Functions derived from frequency distributions can be continuous (probability density function) or discrete (probability mass function). Cumulative benefits of each type of function can also be derived.

I en utfóringsform är frekvensfunktionen genererad för en undergrupp med H medlemmar från en databas.In one embodiment, the frequency function is generated for a subset of H members from a database.

I en utföringsform är undergruppen utvald baserat på värden av ku.In one embodiment, the subgroup is selected based on the values of the cow.

I en utföringsform är undergruppen är ﬁekvensfunktionen genererad för molekyler som rangordnats efter sina antal överensstämmelser.In one embodiment, the subgroup is the ﬁ sequence function generated for molecules ranked by their number of matches.

I en utfóringsform är frekvensfunktionen f(S), där S är en poäng. I en utfórings- form är S antalet slumpmässiga överensstämmelser.In one embodiment, the frequency function is f (S), where S is a point. In one embodiment, S is the number of random matches.

I en utfóringsform är S =k och s17~2s9 14 k' H Iu-x H I f(S)= p(k)} -{2 p(k)} , där p(k) har den betydelse som angivits ovan. k=0 k=0 Fackmannen kommer att inse att uppﬁnningen har vidsträckt tillämpbarhet fór molekylidentiﬁering. Fastän illustrativa utfóringsformer av uppﬁnningen har beskrivits här, med hänvisning till bifogade ritningar, skall det förstås att uppﬁn- ningen inte är begränsad till exakt dessa utfóringsformer, och att andra ändringar och modiﬁeringar kan göras av en fackman utan att göra avsteg från omfattningen och tankegången i denna uppfinning.In one embodiment, S = k and s17 ~ 2s9 14 k 'H Iu-x H I f (S) = p (k)} - {2 p (k)}, where p (k) has the meaning given above. k = 0 k = 0 Those skilled in the art will recognize that the invention has wide applicability for molecular identification. Although illustrative embodiments of the invention have been described herein, with reference to the accompanying drawings, it is to be understood that the invention is not limited to exactly these embodiments, and that other changes and modifications may be made by one skilled in the art without departing from the scope and spirit of the invention. this invention.

Claims

10 15 20 25 30 51.7 '259 15 Patent claims _

A method for assigning an identity to one or ﬂ your different molecules in a sample by comparing characteristics obtained under certain conditions, said sample having stored characteristics for individual ("stored") molecules, which method is characterized by the steps: a) determining the number, k, of similarities between stored characteristics for said individual molecules and characteristics observed from the sample; b) calculating the probability, p (k), that a certain molecule of said individually stored molecules has characteristics which correspond randomly to the characteristics of the sample; c) assigning an individual score, S @ (k)), for a number of said stored molecules based on the number of matches determined in step (a) and the probability calculated in step (b); d) ranking of each individual stored molecule, which in step (c) has been assigned an individual score, according to this score; and e) assigning an identity to one or ﬂ your molecules, the characteristics of which were obtained under certain conditions, based on the ranking in step (d).

The method of claim 1, further characterized in that the determination of the number of matches in step (a) for determining the number of matches in claim 1 is between characteristics of stored molecules assuming that these molecules have been subjected to the same conditions as the molecules in the sample.

A method according to claim 1 or 2, further characterized in that said characteristics are masses of the constituents of the stored molecules, which masses are grouped in mass distribution peaks, and that step (b) for calculating a probability in claim 1 comprises the steps : a) determination of the masses and the number, ku, masses that can be generated for the specific ratio for each individual molecule among the stored molecules; b) the ﬁ nition of a total number, q, areas, i, for the masses calculated in step (a); C) determining a proportion, fi, of all the masses calculated in step (a) which are within a range in the ﬁ defined by step (b); _k «__. ¿(mi, Am), m -m- í + l x d) calculation of a probability p! = f, .- where the denominator is the number of mass distribution peaks in the mass range in the ﬁ nied in step (b) above and â (m¿, Am) is a statistical measure of the number of component-selected molecular constituent mass, which means that p, - 'is the probability of finding masses that can be found within: Am from a randomly selected molecular constituent, derived from a certain stored molecule, within a range: Am around a randomly selected constituent mass; e) "determining" the probabilities described in step (d) for all the areas they ﬁ nied in (b); f) determining the number, ni, of masses in mass data falling within each of the q mass regions in the ﬁ nied in step (b); g) determination of the probability Z {_ll! ínpfkl '(l_pfjrnfhllí.p /k¿.(1_p:)nrkz' Mikä, k! :-( n1 - kl) 1 1 kp- (n, -k,) 2 2 ' nq! Ik, lr 75-3, kql-lnq-kqi pq -pql} caused a certain individually stored molecule to match randomly with k pieces out of n masses, where n refers to the number of masses in mass data.

A method according to any one of claims 1 to 3, characterized in that said characteristics are masses of the constituents of the stored molecules, g which masses are grouped into mass distribution peaks, and that step (c) of assigning an individual score in claim 1 comprises the step to calculate the score according to S = c - (1 - Z p (k ')), where c is a constant or a function or k' an operator. 10_ 15 517 -259 17

Process according to any one of claims A1 to 4, characterized in that said molecules are biological molecules.

Method according to any one of claims 3 to 5, characterized in that said masses have been obtained by mass spectrometry.

A method for determining a fun sequence function, f (S), for random molecular identification, based on the method for calculating the probability p (k) according to claim 1, which method is characterized by the steps of: a) defining a subgroup, with H members, of the stored molecules; and b) calculating a frequency function according to 'f (s) = p (k)} p (k)}, where s = k: _ k = 0 k = 0

A method for determining a frequency function, f (S), for random molecular identification, based on the method for calculating the probability p (k) according to claim 3, which method is characterized by the steps: c) the definition of a subgroup, with H members, of the stored molecules, where the members of the subgroup are selected based on their values of ku; and d) calculation of the frequency function according to k, H k, _1 H f (S) = {Z p} - {2 p} »learn S = k1 k = 0 k = 0