SE517259C2 - Molecular identification system - Google Patents
Molecular identification systemInfo
- Publication number
- SE517259C2 SE517259C2 SE0002214A SE0002214A SE517259C2 SE 517259 C2 SE517259 C2 SE 517259C2 SE 0002214 A SE0002214 A SE 0002214A SE 0002214 A SE0002214 A SE 0002214A SE 517259 C2 SE517259 C2 SE 517259C2
- Authority
- SE
- Sweden
- Prior art keywords
- molecules
- masses
- mass
- stored
- database
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/26—Mass spectrometers or separator tubes
- H01J49/34—Dynamic spectrometers
- H01J49/40—Time-of-flight spectrometers
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
Landscapes
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
25 30 5 1 '2 5 9 2 proteinerna ien databas. Proteinet identifieras baserat på en utvärdering av någon av eller båda av dessa jämförelser. 25 30 5 1 '2 5 9 2 proteins in a database. The protein is identified based on an evaluation of one or both of these comparisons.
Masspektrometri bestämmer en peptidmassa m,- till en onoggrannhet av :|:Am,-, med Ami/m,- typiskt>3O ppm. Inom massområdet m,d:Am,- kan proteolytiska peptidmassor hos flera proteiner i en genomdatabas överensstämma. Sålunda kommer en omodi- fierad peptid att slumpmässigt överensstämma med flera proteiner i databasen, förutom den sanna överensstämmelsen med det protein som verkligen finns i provet, och, en modifierad peptid kommer att ge enbart slumpmässiga överens- stämmelser. Som konsekvens kommer en databassökning som använder masspekt- roïnetrisk information inte alltid att identifiera ett protein otvetydigt. Därför, för att kunna utföra noggrann och pålitlig molekylidentifiering, måste instrument för erhållande av massdata sammanlänkas på ett lämpligt sätt med användningen av andra tekniska resurser för jämförande av massdata och massdata erhållna från en databas. Sammanlänkningen kan vara ett system som använder ett förfarande som inkluderar sätt att jämföra data och databasinformation, lämpligen kört via en dator.Mass spectrometry determines a peptide mass m, - to an inaccuracy of: |: Am, -, with Ami / m, - typically> 30 ppm. Within the mass range m, d: Am, - proteolytic peptide masses of fl your proteins in a genome database can match. Thus, an unmodified peptide will randomly match your proteins in the database, in addition to the true match with the protein actually found in the sample, and, a modified peptide will give only random matches. As a consequence, a database search using mass spectrometric information will not always unambiguously identify a protein. Therefore, in order to perform accurate and reliable molecular identification, instruments for obtaining mass data must be appropriately linked with the use of other technical resources for comparing mass data and mass data obtained from a database. The link can be a system that uses a method that includes ways of comparing data and database information, conveniently run via a computer.
Trots det raskt ökande påverkanstrycket av masspektrometrisk proteinidentifie- ring på proteomforskning har problemet med att i ett databassökningssystem noggrannt ta hänsyn till fenomenet med slumpmässig massöverensstämmelse iörbisetts. När processer med ökad komplexitet utforskas med MS-baserad pro- teinidentifiering, kommer användningen av optimerade procedurer att bli kritisk.Despite the rapidly increasing pressure of influence of mass spectrometric protein identification on proteome research, the problem of carefully taking into account the phenomenon of random mass conformity in a database search system has been overlooked. When processes with increased complexity are explored with MS-based protein identification, the use of optimized procedures will become critical.
Ett optimerat proteinidentifieringssystem kan inte designas utan lämpliga hänsyn till processen med slumpmässig massöverensstämmelse.An optimized protein identification system cannot be designed without due regard to the process of random mass matching.
Teknikens ståndpunkt ldentifieering av proteiner med det ovan beskrivna angreppssättet erfordrar ett schema för bestämningen av den bästa överensstämmelsen mellan experimentella data och en sekvens i databasen. Existerande scheman för bestämningen av den bästa överensstämmelsen inkluderar rankning med antalet överensstämmelser (W .J . Henzel m.fl., Proc. Natl. Acad. Aci. U S A 90, 5011, 1993), ett poängsystem baserat på den obseverade frekvensen av peptider från alla proteiner i en databas inom ett givet molekylviktsområde ( den s.k. “MOWSE score”) (D.C.J. Pappin m.fl., 10. 15 20 25 30 517 259 s Current Biology 6, 327, 1993)), och ett schema baserat på Bayesianska sannolikhe- ter (W. Zhang mfl., Anal. Chem. 72, 2482, 2000).Background Art Identification of proteins by the approach described above requires a scheme for determining the best match between experimental data and a sequence in the database. Existing schemes for determining the best match include ranking by the number of matches (W. J. Henzel et al., Proc. Natl. Acad. Aci. USA 90, 5011, 1993), a scoring system based on the observed frequency of peptides from all proteins in a database within a given molecular weight range (the so-called “MOWSE score”) (DCJ Pappin et al., 10. 15 20 25 30 517 259 s Current Biology 6, 327, 1993)), and a scheme based on Bayesian probabilities (W. Zhang et al., Anal. Chem. 72, 2482, 2000).
Inget av dessa scheman tar hänsyn till problemet med slumpmässig överensstäm- melse på ett lämpligt sätt. Avsaknaden av lämplig hänsyn till den slumpmässiga överensstämmelsen förhindrar optimala prestanda i molekylidentifieringsprocedu- rer, eftersom den slumpmässiga överensstämmelsen kan orsaka falska identifie- ringsresultat - särskilt när kvaliten hos masspektrometriska data är dålig.None of these schemes take into account the problem of random conformity in an appropriate way. The lack of appropriate consideration for random conformity prevents optimal performance in molecular identification procedures, as random conformity can cause false identification results - especially when the quality of mass spectrometric data is poor.
Sammanfattning av uppfinningen Avsikten med denna uppfinning är att övervinna tillkortakommanden med ovannämnda scheman, det vill säga att tillhandahålla ett förfarande som löser problemet med slumpmässig överensstämmelse.SUMMARY OF THE INVENTION The object of this invention is to overcome the shortcomings of the above schemes, i.e. to provide a method which solves the problem of random conformity.
Denna och andra avsikter har uppnåtts genom att tillhandahålla ett system inkluderande förfaranden för bestämning av sannolikheten att en viss poäng beror på slumpmässig överensstämmelse och att utnyttja den beräknade sannolikheten för att rangordna molekyler. Förfarandet innefattar a) bestämning av antalet överensstämmelser mellan en databasmolekyl och massdata; b) beräkning av sannolikheten att en databasmolekyl skulle ge ett visst antal överensstämmelser av en slump; c) beräkning av en poäng baserat på en eller flera sannolikheter beräknade i b; d) jämförande av poäng för molekyler i databasen och e) identifie- ring av den molekyl eller de molekyler som ger den eller de bästa poängen.This and other intentions have been achieved by providing a system including methods for determining the probability that a particular score is due to random matching and using the calculated probability to rank molecules. The method comprises a) determining the number of matches between a database molecule and mass data; b) calculating the probability that a database molecule would yield a certain number of matches by chance; c) calculation of a score based on one or fl your probabilities calculated in b; d) comparing points for molecules in the database and e) identifying the molecule or molecules that give the best point or scores.
Uppfinningen tillhandahåller vidare ett förfarande för att generera en frekvens- funktion för antalet överensstämmelser för slumpmässiga (falska) molekylidentifie- ringar under vilket experimentellt förhållande som helst. Förfarandet innefattar: a) definiering av en delpopulation av molekyler som ingår i databasen; b) beräk- ning av sannolikheten att en molekyl i denna delpopulation skulle ge ett visst antal överensstämmelser av en slump; c) beräkning av sannolikheten att alla molekyler i delpopulationen skulle ge högst ett visst antal överensstämmelser av en slump; d) beräkning av sannolikheten att minst en molekyl i delpopulationen skulle ge minst ett visst antal överensstämmelser av en slump; och e) bestämmning av den relativa frekvensen för varje antal överenstämmelser genom att använda sannolik- heten som beräknats i steg (d) för varje antal överensstämmelser, för att därifrån 10 15 20 25 30 5117” 259 4 generera en frekvensfunktion för antalet slumpmässiga överensstämmelser vid slumpmässig proteinidentifiering.The invention further provides a method for generating a frequency function for the number of matches for random (false) molecular identifications under any experimental condition. The method comprises: a) defining a subpopulation of molecules included in the database; b) calculating the probability that a molecule in this subpopulation would give a certain number of coincidences by chance; c) calculating the probability that all molecules in the subpopulation would give a maximum of a certain number of coincidences by chance; d) calculating the probability that at least one molecule in the subpopulation would give at least a certain number of coincidences by chance; and e) determining the relative frequency of each number of matches using the probability calculated in step (d) for each number of matches, to generate therefrom a frequency function for the number of random matches at random protein identification.
Kortfattad ritningsbeskrivning Fig. 1 visar frekvenser (dvs, antal överensstämmande proteiner) för olika tryptiska peptidmassor i en databas.Brief Description of the Drawings Fig. 1 shows frequencies (ie, number of corresponding proteins) for different tryptic masses of pulps in a database.
Fig. 2 visar massfördelningstoppar för tryptiska peptider.Fig. 2 shows mass distribution peaks for tryptic peptides.
Fig. 3 visar prestanda hos en implementering av en utföringsform av uppfinningen jämfört med system för proteinidentifiering enligt teknikens ståndpunkt. Diagram- met visar resultat från simuleringar med användning av uppfinningen (kallad Probity), en Bayesiansk metod samt en metod baserad på antalet överensstämmel- ser. i Detaljerad beskrivning av uppfinningen Många tillämpningar av molekylidentifiering är av naturen storskaliga. Exempel på storskalig molekylidentifiering finns i proteomprojekt, där tusentals proteiner från celler skall identifieras, eller celler genomsöks efter molekylära markörer för sjukdomstillstånd. Det ultimata målet för molekylidentifieringsprocedurer är att lita till enkla, snabba och automatiska procedurer och instrument. De tekniska lösningarna hos det system som sammanlänkar och jämför data med databasinfor- mation är av ytterst stor betydelse för designen av instrument för automatisk molekylidentifiering, eftersom det system som används starkt kommer att influera förmågan att erhålla en hög frekvens av sanna identifieringsresultat, vilket är särskilt kritiskt när datakvaliteten är dålig. Vidare kräver automatisk identifie- ringsinstrumentering att kvaliteten av ide ntifieringsre sultat kan be dömas automa- tiskt genom användning aviett signifikanstest (J. Eriksson mfl, Anal. Chem. 72, 999, 2000). Ett pålitiligt automatiskt proteinidentifieríngssystem kan emellertid inte konstrueras utan hänsyn till, eller med olämplig hänsyn till, processen med slumpmässig massöverensstämmelse.Fig. 3 shows the performance of an implementation of an embodiment of the invention compared to prior art protein identification systems. The diagram shows results from simulations using the invention (called Probity), a Bayesian method and a method based on the number of matches. i Detailed description of the invention Many applications of molecular identification are by nature large-scale. Examples of large-scale molecular identification are found in protein projects, where thousands of proteins from cells are to be identified, or cells are scanned for molecular markers of disease states. The ultimate goal of molecular identification procedures is to rely on simple, fast and automated procedures and instruments. The technical solutions of the system that links and compares data with database information are extremely important for the design of automatic molecular identification instruments, as the system used will strongly influence the ability to obtain a high frequency of true identification results, which is particularly critical when data quality is poor. Furthermore, automatic identification instrumentation requires that the quality of identification results can be assessed automatically through the use of a signal test (J. Eriksson m fl, Anal. Chem. 72, 999, 2000). However, a reliable automatic protein identification system cannot be designed without regard to, or with inappropriate regard to, the process of random mass conformity.
Ett syfte med denna uppfinning är att tillhandahålla ett system som utnyttjar förfaranden som tillåter mer noggrann molekylidentifiering och mer noggrann och snabb signifikanstestníng av identifieringsresultat. Förfarandet enligt uppfinning- en tar lämpliga hänsyn till fenomenet med slumpmässig överensstämmelse, och 10 15 20 25 151.7 259 5 är däfór väl lämpad fór implementering i ett automatiskt molekylidentifieringssystem.One object of this invention is to provide a system that utilizes procedures that allow for more accurate molecular identification and more accurate and rapid signing testing of identification results. The method according to the invention takes due account of the phenomenon of random conformity, and is therefore well suited for implementation in an automatic molecular identification system.
En särskild angelägenhet beträffande storskalig molekylidentifiering är den tid som erfordras for att erhålla ett identiñeringsresultat tillsammans med en kvali- tetsbestämning av resultatet. En kvalítetsbestämning kan fullgöras med sígnifi- kanstest, vilket erfordrar vetskap om funktioner som beskriver poäng för falska resultat. Sådana frekvensfunktioner erhålls fór närvarande genom simulering av slumpmässig molekylidentifiering. Då emellertid tiden som behövs for att härleda en frekvensfunktion med hjälp av simulering är ungefär 1000 gånger längre än vid användning av denna uppfinning, så finns det ett behov att härleda en sådan frëkvensfllnktion från en analytisk formel. I en utfórandeform av uppfinningen finns tillhandahållandet av en analytisk formel fór härledningen av en frekvens- funktion. I I Förfarandenna enligt denna uppfinning är väl lämpade fór, men icke begränsade till, tillämpning ivilken molekylerna är biologiska molekyler som existerar i celler- na hos en organism.A special concern regarding large-scale molecular identification is the time required to obtain an identification result together with a quality determination of the result. A quality determination can be completed with a signi fi test, which requires knowledge of functions that describe points for false results. Such frequency functions are currently obtained by simulating random molecular identification. However, since the time required to derive a frequency function by means of simulation is approximately 1000 times longer than when using this invention, there is a need to derive such a frequency function from an analytical formula. In one embodiment of the invention there is provided the provision of an analytical formula for the derivation of a frequency function. The methods of this invention are well suited for, but not limited to, the application in which the molecules are biological molecules that exist in the cells of an organism.
Biologiska molekyler innefattar vilken biologisk polymer som helst som kan ned- brytas i beståndsdelar. Nedbrytningen till beståndsdelar skall helst vara vid förut- sägbara lägen för att bilda fórutsägbara massor. Exempel på biologiska molekyler innefattar proteiner, nukleinsyramolekyler, polysackarider och kolhydrater.Biological molecules include any biological polymer that can be degraded into constituents. The decomposition into constituents should preferably be at predictable positions to form predictable masses. Examples of biological molecules include proteins, nucleic acid molecules, polysaccharides and carbohydrates.
En experimentell biologisk molekyl är en biologisk molekyl som skall identifieras; den experimentella biologiska molekylen kan också kallas en okänd biologisk molekyl. En teoretisk biologisk molekyl är en biologisk molekyl är en känd biolo- gisk molekyl beskriven i en databas.An experimental biological molecule is a biological molecule that must be identified; the experimental biological molecule can also be called an unknown biological molecule. A theoretical biological molecule is a biological molecule is a known biological molecule described in a database.
Proteiner är polymerer av aminosyror. Beståndsdelar av proteiner innefattar aminosyror. Ett protein innehåller approximativt minst tio aminosyror, men hellre minst 50 aminosyror ooh ännu hellre minst 100 aminosyror.Proteins are polymers of amino acids. Components of proteins include amino acids. A protein contains approximately at least ten amino acids, but more preferably at least 50 amino acids and even more preferably at least 100 amino acids.
Nukleinsyror är polymerer av nukleotider. Beståndsdelar av nukleinsyror innefat- tar nukleotider. Typiskt innehåller en nukleinsyra minst 100 nukleotider, men hellre minst 500 nukleotider. 1o_ 15 20 25 51 12x59 " ° 6 Polysackarider är polymerer av monosackaríder. Beståndsdelar av polysackarider innefattar en eller flera monosackaríder. Typiskt innehåller en polysackarid minst fem monosackarider, men hellre minst tio monosackaríder.Nucleic acids are polymers of nucleotides. Nucleic acid constituents include nucleotides. Typically, a nucleic acid contains at least 100 nucleotides, but more preferably at least 500 nucleotides. Polosaccharides are polymers of monosaccharides. Components of polysaccharides include one or two monosaccharides. Typically, a polysaccharide contains at least five monosaccharides, but more preferably at least ten monosaccharides.
Massdata från biologiska molekyler är kvantifierbar information om massorna av beståndsdelarna av den biologiska molekylen. Massdata inkluderar individuella masspektra och grupper av masspektra. Masspektra kan vara i form av peptidkar- tor, oligonukleotidkartor eller oligosackaridkartor.Mass data from biological molecules are quantifiable information about the masses of the constituents of the biological molecule. Mass data includes individual mass spectra and groups of mass spectra. Mass spectra can be in the form of peptide maps, oligonucleotide maps or oligosaccharide maps.
Förfarandet i denna uppfinning innefattar generering av experimentella massdata för experimentmolekylen inom ett visst massområde. Massdata innefattar de uppmätta massorna. Förfarandet innefattar också generering av teoretiska mass- data i samma massområde. I en konkret form är massdata en undergrupp av de experimentella massdata.The method of this invention involves generating experimental mass data for the experimental molecule within a certain mass range. Mass data includes the measured masses. The method also includes generating theoretical mass data in the same mass range. In a concrete form, mass data is a subset of the experimental mass data.
Exempelvis kan massdata för molekyler genereras på vilket sätt som helst som tillhandahåller massdata inom en viss onoggrannhet. Exempel inkluderar matri- sassisterad laserdesorptions/jonisationsmasspektrometri, elektrosprejjonisations- masspektrometri, kromatografi samt elektrofores. Massdata kan också genereras genom en dator konfigurerad med mjukvara eller på annat sätt.For example, mass data for molecules can be generated in any way that provides mass data within a certain inaccuracy. Examples include matrix-assisted laser desorption / ionization mass spectrometry, electrospray ionization mass spectrometry, chromatography and electrophoresis. Mass data can also be generated by a computer configured with software or otherwise.
För syftena med denna uppfinning bestäms massdata, t.ex. en peptidmassa, till någon onoggrannhet :hAmb hellre så Ami/m,- <10 000 ppm, helst <100 ppm, och allra helst <30 ppm.For the purposes of this invention, mass data is determined, e.g. a peptide mass, to some inaccuracy: hAmb rather so Ami / m, - <10,000 ppm, preferably <100 ppm, and most preferably <30 ppm.
Ett steg i genereringen av massdata för en molekyl kan innefatta att först spjälka upp molekylen i beståndsdelar. Biologiska molekyler kan uppspjälkas med förfa- randen som är kända inom området. Biologiska molekyler spjälkas helst till be- ståndsdelar i förutsägbara lägen för att bilda förutsägbara massor. Förfaranden för spjälkning inkluderar kemiska metoder. Biologiska molekyler kan nedbrytas genom att den biologiska molekylen ges kontakt med någon kemisk substans.One step in the generation of mass data for a molecule may involve first cleaving the molecule into components. Biological molecules can be cleaved by methods known in the art. Biological molecules are preferably broken down into constituents in predictable positions to form predictable masses. Cleavage procedures include chemical methods. Biological molecules can be degraded by contacting the biological molecule with any chemical substance.
Exempelvis kan proteiner nedbrytas på förutsägbart sätt till peptider med hjälp av cyanbromid eller enzymer såsom trypsin, endoproteinas Asp-N, V8 proteas, endoproteinas Arg-C, etc. Nukleinsyror kan nedbrytas på förutsägbart sätt till 10. 15 20 25 30 517 259 7 beståndsdelar med restriktionsendonukleaser såsom Eco RI, Sma I, BamH I, Hinc II, etc. Polysackarider kan nedbrytas till beståndsdelar med hjälp av enzymer såsom maltas, amylas, alfa-mannosidas, etc.For example, proteins can be predictably degraded to peptides by cyanogen bromide or enzymes such as trypsin, endoproteinase Asp-N, V8 protease, endoproteinase Arg-C, etc. Nucleic acids can be degraded in a predictable manner to 10 constituents. with restriction endonucleases such as Eco RI, Sma I, BamH I, Hinc II, etc. Polysaccharides can be degraded into constituents by enzymes such as maltase, amylase, alpha-mannosidase, etc.
I denna uppfinning år ett massområde (mmm, mmax) bestämt för de experimentella data. Massområdet kan vara massområdet fór de experimentella data. I en utfö- ringsform är massområdet minimum och maximum av uppmätta massor hos expe- rimentella massdata för en molekyl.In this invention, a mass range (mmm, mmax) is determined for the experimental data. The mass range can be the mass range for the experimental data. In one embodiment, the mass range is the minimum and maximum of measured masses of experimental mass data for a molecule.
En molekyldatabas är vilken samling som helst av information om karakteristika hös molekyler. En molekyldatabas kan vara en databas för biologiska molekyler.A molecule database is any collection of information about the characteristics of hay molecules. A molecule database can be a database of biological molecules.
Databaser är den föredragna metoden för lagring av såväl aminosyrasekvenser hos polypeptider som av de nukleinsyrasekvenser som kodar dess-a polypeptider. Olika typer av databaser förekommer och dessa har fördelar och nackdelar när de betrak- tas avseende hypotesen för ett polypeptididentifieringsexperiment.Databases are the preferred method for storing both amino acid sequences of polypeptides and of the nucleic acid sequences encoding its polypeptides. Different types of databases exist and these have advantages and disadvantages when considered with respect to the hypothesis of a polypeptide identification experiment.
Medan databasposten för en aminosyrasekvens kan vara utförd som en enkel textfil för att en användare skall kunna slå upp en viss polypeptid, är många p databaser organiserade så att de utgör flexibla komplicerade strukturer. Den detaljerade implementeringen av databasen i ett visst system kan vara baserad på en samling av enkla textfiler (eng. “flat-file”database), en samling tabeller (en relationsdatabas), eller så kan den vara organiserad kring koncept som härstam- mar från uppfattningen om ett protein, en gen eller en organism (en objektoriente- rad databas).While the database entry for an amino acid sequence can be designed as a simple text fi l for a user to look up a particular polypeptide, many p databases are organized so that they constitute ib excel complicated structures. The detailed implementation of the database in a particular system may be based on a collection of simple texts (database), a collection of tables (a relational database), or it may be organized around concepts derived from the perception of a protein, a gene or an organism (an object-oriented database).
Proteinmassdata kan förutsägas från nukleinsyrasekvensdatabaser. Alternativt kan proteinmassdata förutsägas direkt från proteinsekvensdatabaser som innehål- ler en samling av aminosyrasekvenser representerade av en sträng av enbokstavs- koder eller trebokstavskoder för residuerna i en polypeptid, begynnande vid N- terminalen av sekvensen. Dessa koder kan innehålla icke-standardiserade tecken för att indikera tvetydighet i ett visst läge ( såsom “B” indikerande att det kan vara “D” (asparaginsyra) eller “N” (asparagin)). Sekvenserna har typiskt unika siffer- bokstavskombinationer associerade med dem, vilka används internt hos databasen för att identifiera sekvensen, vilket vanligtvis kallas tillträdesnumret (eng. “acces- sion number”) för sekvensen. 10 15 20 25 30 517 2 se - 8 Databaser kan innehålla en kombination av aminosyrasekvenser, kommentarer, litteraturhänvisningar och noter gällande kända posttranslationella modifieringar hos sekvensen. En databas som innehåller dessa element kallas annoterad. Anno- terade databaser används om någon funktionell eller strukturell information är känd för det mogna proteinet, i motsats till en sekvens som är känd endast från översättningen av en bit nukleinsyrasekvens. Icke-annoterade databaser innehål- ler endast sekvensen, ett tillträdesnummer och en beskrivande titel.Protein mass data can be predicted from nucleic acid sequence databases. Alternatively, protein mass data can be predicted directly from protein sequence databases containing a collection of amino acid sequences represented by a strand of one-letter or three-letter codes for the residues in a polypeptide, beginning at the N-terminus of the sequence. These codes may contain non-standard characters to indicate ambiguity in a particular position (such as "B" indicating that it may be "D" (aspartic acid) or "N" (asparagine)). The sequences typically have unique number-letter combinations associated with them, which are used internally in the database to identify the sequence, which is commonly referred to as the "accession number" for the sequence. 10 15 20 25 30 517 2 se - 8 Databases may contain a combination of amino acid sequences, comments, literature references and notes regarding known post-translational modifications of the sequence. A database that contains these elements is called annotated. Annotated databases are used if any functional or structural information is known for the mature protein, as opposed to a sequence known only from the translation of a piece of nucleic acid sequence. Non-annotated databases contain only the sequence, an access number and a descriptive title.
Den kända bakgrundsinformationen om en experimentell molekyl genom vilken databassökningen kan avgränsas kan inkludera vilken information som helst.The known background information of an experimental molecule by which the database search can be delimited can include any information.
Några exempel på bakgrundsinformation är information om kategorin för en expe- rimentell biologisk molekyl, kännedom om eller ett antagande om massan av den experimentella biologiska molekylen och den isoelektrisk punkten för den experei- mentella biologiska molekylen.Some examples of background information are information on the category of an experimental biological molecule, knowledge of or an assumption about the mass of the experimental biological molecule and the isoelectric point of the experimental biological molecule.
Exempelvis kan den observerade molekylmassan eller den observerade isoelektris- ka punkten för ett protein användas i kombination med de uppmätta peptidmassor- na som genererats med proteolys, för att avgränsa sökandet efter en polypeptid. I synnerhet kan jämförelsen mellan de teoretiska massdata för databasproteinerna och massdata för det okända proteinet avgränsas till endast de proteiner i databa- sen som är inom ett valt massområde. Det valda massområdet är helst inom 50% av massan hos det okända proteinet, men ännu hellre inom 35% och allra helst inom 25%. På liknande sätt kan jämförelsen mellan de teoretiska massdata för databasproteinerna och massdata for de okända proteinet avgränsas till endast de proteiner i databasen som är inom ett visst valt omrâde för den isoelektriska punk- ten. Den isoelektriska punkten (pl) för ett protein är det pH vid vilket dess netto- laddning är noll. Det valda området för den isoelektriska punkten är helst inom 50% av den isoelektriska punkten för det okända proteinet, men ännu hellre inom 35% och allra helst inom 25%.For example, the observed molecular mass or the observed isoelectric point of a protein can be used in combination with the measured peptide masses generated by proteolysis, to delimit the search for a polypeptide. In particular, the comparison between the theoretical mass data for the database proteins and the mass data for the unknown protein can be limited to only those proteins in the database that are within a selected mass range. The selected mass range is preferably within 50% of the mass of the unknown protein, but even more preferably within 35% and most preferably within 25%. Similarly, the comparison between the theoretical mass data of the database proteins and the mass data of the unknown protein can be limited to only those proteins in the database that are within a certain selected range of the isoelectric point. The isoelectric point (pI) of a protein is the pH at which its net charge is zero. The selected range of the isoelectric point is preferably within 50% of the isoelectric point of the unknown protein, but more preferably within 35% and most preferably within 25%.
Därutöver kan vidare information, såsom ett proteins sekvens, om en experimen- tell biologisk molekyl erhållas genom generering av fragmentmassdata för de experimentella och teoretisk biologiska molekylerna. Fragmentmassdata för en peptid kan genereras på vilket sätt som helst som tillhandahåller fragmentmassda- ta inom en viss onoggrannhet. Experimentella förhållanden inkluderar den energi- 10. 15 20 25 30 517 259 9 form som använs för att generera fragmentmassdata. Vibrationsexcitation kan användas. Den elektroniska excitatíonen kan genereras med hjälp av kollisioner mellan peptiden och elektroner, fotoner, gasmolekyler (t.ex. argon) eller en yta.In addition, further information, such as a protein sequence, about an experimental biological molecule can be obtained by generating fragment mass data for the experimental and theoretical biological molecules. Fragment mass data for a peptide can be generated in any way that provides fragment mass data within a certain inaccuracy. Experimental conditions include the form of energy used to generate fragment mass data. Vibration excitation can be used. The electronic excitation can be generated by collisions between the peptide and electrons, photons, gas molecules (eg argon) or a surface.
I ett annat exempel jämförs det experimentella fragmentmasspektrum för en peptid från ett enzymatiskt spjälkat okänt protein med de teoretiska massor som beräknats genom att tillämpa reglerna för enzymets specificitet samt reglerna för fragmenteringen, som är kända för fackmannen, på aminosyrasekvensen för ett databasprotein.In another example, the experimental fragment mass spectrum of a peptide from an enzymatically cleaved unknown protein is compared with the theoretical masses calculated by applying the rules of the enzyme specificity and the rules of fragmentation known to those skilled in the art to the amino acid sequence of a database protein.
Fragmentmassdata för de syften som denna uppfinning avser kan genereras genom användning av multidimensionell masspektrometri (MS/MS), även känt som tan- denfmasspektrometrifEtt antal typer av masspektrometrar kan användas, inklu- derande en trippelkvadrupolmasspektrometer, Fouriertransform-cyklotronreso- nansmasspektrometer, en tandemlöptidsmasspektrometer och en kvadrupoljonfál- _ lemasspektrometer. En enstaka peptid från ett spjälkat protein utsätts för ett MS/MS-experiment och det observerade mönstret av fragmentjoner jämförs med mönstren för fragmentjoner förutsagda från databassekvenser.Fragment mass data for the purposes of this invention can be generated using multidimensional mass spectrometry (MS / MS), also known as tandem mass spectrometry. quadrupole ion fal- _ lemass spectrometer. A single peptide from a cleaved protein is subjected to an MS / MS experiment and the observed pattern of fragment ions is compared with the patterns of fragment ions predicted from database sequences.
I en utföringsform tillhandahåller uppfinningen ett förfarande att bestämma sannolikheterna att poängen som en viss molekyl i en databas kan ge av en slump när den jämförs med massdata. Förfarandet kan fungera under olika experimentel- la och databassökningsbegränsningar. Poängen kan vara antalet överensstämmel- ser mellan massor som härletts från kända eller hypotetiska molekyler eller mole- kylbeståndsdelar i en databas och massdata från en eller flera kända eller okända molekyler eller molekylbeståndsdelar. Poängen kan också resultera från en beräk- ning som utnyttjar antalet överensstämmelser.In one embodiment, the invention provides a method for determining the probabilities that the score that a particular molecule in a database can give by chance when compared to mass data. The procedure can work under various experimental and database search restrictions. The score can be the number of matches between masses derived from known or hypothetical molecules or molecular constituents in a database and mass data from one or more known or unknown molecules or molecular constituents. The score can also result from a calculation that uses the number of matches.
I en utföringsform tillhandahåller uppfinningen ett förfarande att extrahera infor- mation om molekyler i en databas. Exempel på information som kan extraheras från en databas är total molekylmassa, laddning, isoelektrisk punkt, hydrofobicitet och kända eller hypotetiska kemiska modifieringar, samt massa, laddning, isoelek- trisk punkt, hydrofobicitet och kända eller hypotetiska kemiska modifieringar hos molekylbeståndsdelar. 10 15 20 25 30 517' 25 9 10 len utföringsform tillhandahåller uppfinningen ett förfarande att utföra handling- ar med molekyler i databasen som är ämnade att härma händelser som inträffar i ett experiment. Exempel på händelser är nedbrytning av molekyler till molekyl- beståndsdelar genom hydrolys, där hydrolysen kan vara resultat av kemikaliers eller enzymers aktivitet. Förfarandetkan utföra handlingar på molekylbeståndsde- lar som härmar experimentella händelser. Till exempel fragmentering av en excite- rad molekylbeståndsdel till mindre bitar.In one embodiment, the invention provides a method of extracting information about molecules in a database. Examples of information that can be extracted from a database are total molecular mass, charge, isoelectric point, hydrophobicity and known or hypothetical chemical modifications, as well as mass, charge, isoelectric point, hydrophobicity and known or hypothetical chemical modifications of molecular constituents. In this embodiment, the invention provides a method of performing actions with molecules in the database that are intended to mimic events that occur in an experiment. Examples of events are the decomposition of molecules into molecular constituents by hydrolysis, where the hydrolysis may be the result of the activity of chemicals or enzymes. The method can perform actions on molecular constituents that mimic experimental events. For example, fragmentation of an excited molecular component into smaller pieces.
I en utföringsform tillhandahåller uppfinningen ett förfarande att härleda ett molekylbitsantal k 7 u! som resulterar från en aktivitet som antas härma en experi- mentell situation. Bitarna kan vara molekylbeståndsdelar, såsom proteolytiska peptider resulterande från enzymatisk spjälkníng av ett protein, där olika antagan- denlkan göras avseende graden av fullständighet av den enzymatiska spjälkning- en. Bitarna kan vara molekylbeståndsdelar i form av fragment av molekylbes- tåndsdelar, exempelvis fragment av proteolytiska peptider.In one embodiment, the invention provides a method of deriving a number of molecular bits k 7 u! resulting from an activity that is assumed to mimic an experimental situation. The pieces may be molecular constituents, such as proteolytic peptides resulting from enzymatic cleavage of a protein, where different assumptions can be made as to the degree of completeness of the enzymatic cleavage. The pieces may be molecular constituents in the form of fragments of molecular constituents, for example fragments of proteolytic peptides.
I en utföringsform tillhandahåller uppfinningen ett förfarande att organisera massorna för molekyler eller molekylbeståndsdelar eller fragment därav. Exempel på sådan organisatioin ges i Fig. 1 och 2., där Fig. 1 visar antalet proteiner i en databas som överensstämmer med en given proteolytisk peptidmassa och Fig. 2 visar den grupperade fördelningen av proteolytiska peptidmassor. Massor som grupperar sig på detta eller liknande sätt kommer att kallas en massfördelnings- topp. Massfiirdelningstoppar kan återfinnas för alla molekyler som innehåller ett begränsat antal atomslag (t.ex. C, H, N, O, S).In one embodiment, the invention provides a method of organizing the masses of molecules or molecular constituents or fragments thereof. Examples of such an organization are given in Figs. 1 and 2., where Fig. 1 shows the number of proteins in a database corresponding to a given proteolytic peptide mass and Fig. 2 shows the grouped distribution of proteolytic peptide masses. Masses that group in this or a similar way will be called a mass distribution peak. Mass cleavage peaks can be recovered for all molecules that contain a limited number of atomic species (eg C, H, N, O, S).
I en utföringsform tillhandahåller uppfinningen ett förfarande att definiera mas- sområden i vilka frekvensen av olika massor kan bestämmas. Förfarandet definie- rar f,- som andelen av massor av molekylbeståndsdelar eller fragment som hamnar inom ett massområde i. I en utföringsform tillhandahåller uppfinningen ett förfa- rande att bestämma sannolikheten p,- att en viss molekyl i en databas skall återfin- nas i en slumpmässigt vald massfördelningstopp i massområdet i: P, = FUfwmfß), där F är en funktion, m,- är ett massområde och c betecknar experimentella och databassökningsbegränsningar. lOi 15 20 25 '517 2259 11 I en utföringsform ges p,- av: k Pi =fi"'iu_'> mi+1"m1 vilken beskriver sannolikheten att en molekylbeståndsdel från en viss molekyl karakteriserad av ku skall återfinnas i en slumpvis utvald massfördelningstopp.In one embodiment, the invention provides a method that defines the mass ranges in which the frequency of different masses can be determined. The method de-ners f, - as the proportion of masses of molecular constituents or fragments that fall within a mass range i. randomly selected mass distribution peak in the mass range in: P, = FUfwmfß), where F is a function, m, - is a mass range and c denotes experimental and database search constraints. In one embodiment p, - is given by: mass distribution peak.
Nämnaren i ovanstående uttryck för p,- betecknar antalet massfördelningstoppar inom massområdet i.The denominator in the above expression for p, - denotes the number of mass distribution peaks within the mass range in.
I en utföringsform tillhandahåller uppfinningen ett förfarande att bestämma sannolikheten p,- 'att hitta en molekylbeståndsdel härstammande från en viss molekyl karakteriserad av ku inom ett område :Am kring en slumpvis vald molekyl- besfåndsdelsmassa mf “ p; = p, -5(m,.,Am) , där ó'(m,-, Am) betecknar en funktion som beror av formen på massfördelningstoppen och miavser ett massområde. ó'(m,-, Am) kan tolkas som ett statistiskt mått på anta- let molekylbeståndsdelar som kan hittas inom iAm från en slumpvis vald molekyl- beståndsdelsmassa. Massonoggrannheten kan vara olika före olika massområden, det vill säga i så fall betecknat av Am¿_ ' I en utföringsform tillhandahåller uppfinningen ett förfarande att bestämma 6(m,-, Am) genom simulering av den relativa frekvensen av massor kring en slumpvis vald massa i en massfördelning. I en utföringsform bestäms ó'(m,-, Am) genom integration av en funktion som beskriver molekylbeståndsdelsmassiördelningar samt norme- ring till det totala antalet molekylbeståndsdelsmassor i en massfördelningstopp.In one embodiment, the invention provides a method of determining the probability of finding a molecular component derived from a particular molecule characterized by ku within a range: Am around a randomly selected molecular stock mass, etc.; = p, -5 (m,., Am), where ó '(m, -, Am) denotes a function that depends on the shape of the mass distribution peak and refers to a mass area. ó '(m, -, Am) can be interpreted as a statistical measure of the number of molecular constituents that can be found within iAm from a randomly selected molecular constituent mass. The mass accuracy may be different before different mass ranges, i.e. in that case denoted by Am in a mass distribution. In one embodiment, δ '(m, -, Am) is determined by integrating a function that describes molecular component mass distributions and standardizing to the total number of molecular component masses in a mass distribution peak.
I en utföringsform bestäms ó'(m,-, Am) med direkt räkning följd av normering.In one embodiment, ó '(m, -, Am) is determined by direct calculation followed by standardization.
I en utföringsform av uppfinningen används ett begränsat antal massområden mellan m,,,,-,, och mm, där -vart massområde har ett individuellt definierat p,-'.In one embodiment of the invention, a limited number of mass areas are used between m ,,,, - ,, and mm, where -where mass area has an individually defined p, - '.
I en utföringsform används sannolikheternapfiör att beräkna en total sannolikhet p(k) för en individuell molekyl i databasen att överensstämma slumpmässigt med k stycken av totalt n massor, där n massor avser antalet massor i massdata. 10 15 20 w m 12 p(k) = G(p,« Jr, n, ä) , där G är en funktion och c ' betecknar experimentella och datab assökningsbe gräns- ningar.In one embodiment, probability probes are used to calculate a total probability p (k) for an individual molecule in the database to randomly match k pieces of a total of n masses, where n masses refers to the number of masses in mass data. 10 15 20 w m 12 p (k) = G (p, «Jr, n, ä), where G is a function and c 'denotes experimental and data search constraints.
I en utfóringsform av uppfinníngen ges p(k) av: w- 2 { »i (1 »r (1 p k,,Z/f,.=k k1l'("1'k1) pl pl k2!'("2“k2) P2 P2 *_ flq 'kg f "n 'kr "kl" -k 1” 'Ü_p“) } q q q där q betecknar antalet massområden, n 1 betecknar antalet massor i massdata som är i området 1, ng betecknar antalet massor i massdata som är i området 2 etc, och k 1, med i=1,2,. . .q, betecknar antalet överensstämmelser i massområde i. Värdena på ki är alla kombinationer av värden som stämmer med randvillkoret 2a=a I en utfóringsform av uppfinníngen används en poäng relaterad till slumpmässig överensstämmelse i processen att rangordna molekyler i en databas.In an embodiment of the invention, p (k) is given by: w- 2 {»i (1» r (1 pk ,, Z / f,. = K k1l '("1'k1) pl pl k2!' (" 2 "K2) P2 P2 * _ flq 'kg f" n' kr "kl" -k 1 "'Ü_p“)} qqq where q denotes the number of mass ranges, n 1 denotes the number of masses in mass data which is in the range 1, ng denotes the number masses in mass data that are in the range 2 etc, and k 1, with i = 1,2,. .q, denotes the number of matches in mass range i. embodiment of the invention uses a score related to random matching in the process of ranking molecules in a database.
I en utiöringsform av uppfinníngen används sannolikheten p(k) i processen för rangordning av databasmolekyler. En hel databas eller en del av en databas pro- cessas och organiseras fór att möjliggöra beräkning av p(k) för molekyler i databa- sen. k betecknar antalet överensstämmelser mellan massorna hos molekylbes- tåndsdelarna för varje undersökt databasmolekyl och massor imassdata. Moleky- lerna i databasen kan vara kända eller hypotetiska. Molekylen eller molekylerna som producerar massdata kan vara kända eller okända.In one embodiment of the invention, the probability p (k) is used in the process of ranking database molecules. An entire database or part of a database is processed and organized to enable the calculation of p (k) for molecules in the database. k denotes the number of matches between the masses of the molecular constituents for each database molecule examined and masses of mass data. The molecules in the database can be known or hypothetical. The molecule or molecules that produce mass data may be known or unknown.
I en utfóringsform av uppfinníngen är rangordningen av molekylerna baserad på poängen S(p(k)), där S är en funktion.In one embodiment of the invention, the ranking of the molecules is based on the score S (p (k)), where S is a function.
I en utfóringsform av uppfinníngen S(p(k))-c-<1-zp>-«<¿p, k' 10 15 20 25 mr m 13 där c är en konstant eller en matematisk funktion. När c=1 kan S(p(k)) tolkas som sannolikheten att en molekyli databasen skulle ge minst k slumpmässiga överens- stämmelser med massdata.In an embodiment of the invention S (p (k)) - c- <1-zp> - «<¿p, k '10 15 20 25 mr m 13 where c is a constant or a mathematical function. When c = 1, S (p (k)) can be interpreted as the probability that a molecule database would give at least k random correspondences with mass data.
I en utfóringsform av uppfinningen får den molekyl i databasen som ger det lägsta S@(k)) den högsta rangen. Molekylen som får det näst lägsta S(p(k)) får den näst högsta rangen osv. Identifieringen av en molekyl eller molekyler sker bland de molekyler som har högst rang. De högsta i rang kan vara endast den högst i rang, men det kan också vara fler än den som är högst i rang, t.ex de två högsta, de tre högsta, de fyra högsta, de fem högsta, de tio högsta eller de 100 högsta. Antalet ravngordnade molekyler som betraktas som identifieringsresultat kan också bestä- mas med hjälp av ett signífikanstest.In one embodiment of the invention, the molecule in the database that gives the lowest S @ (k)) gets the highest rank. The molecule that gets the second lowest S (p (k)) gets the second highest rank, and so on. The identification of a molecule or molecules takes place among the molecules that have the highest rank. The highest in rank can be only the highest in rank, but it can also be fl er than the highest in rank, eg the two highest, the three highest, the four highest, the five highest, the ten highest or the 100 maximum. The number of raven-regulated molecules that are considered as identification results can also be determined using a signi fi test.
I en utfóringsform av uppfinningen tillhandahåller uppfinningen ett förfarande för att generera en frekvensfunktion for poäng för ett visst experimentellt tillstånd, där poängen relateraras till slumpmässig proteinidentífieríng.In one embodiment of the invention, the invention provides a method for generating a frequency function for points for a particular experimental state, where the points are related to random protein identification.
En frekvensfiinktíon är vilken samling av observerade värden som helst för en studerad variabel och hur många gånger Varje värde har observerats. Frekvens- funktioner kan vara i form av tabeller av listor, ett stapeldiagram, ett histtogram, en frekvenspolygon eller en kontinuerlig kurva. Funktioner som härleds från frekvensfórdelningar kan vara kontinuerliga (sannolikhetstäthetsfunktion) eller diskreta (sannolikhetsmassfunktion). Kummulativa fórdelningar av varje sorts funktion kan också härledas.A frequency kt inction is any set of observed values for a studied variable and how many times Each value has been observed. Frequency functions can be in the form of tables of lists, a bar chart, a histogram, a frequency polygon or a continuous curve. Functions derived from frequency distributions can be continuous (probability density function) or discrete (probability mass function). Cumulative benefits of each type of function can also be derived.
I en utfóringsform är frekvensfunktionen genererad för en undergrupp med H medlemmar från en databas.In one embodiment, the frequency function is generated for a subset of H members from a database.
I en utföringsform är undergruppen utvald baserat på värden av ku.In one embodiment, the subgroup is selected based on the values of the cow.
I en utföringsform är undergruppen är fiekvensfunktionen genererad för molekyler som rangordnats efter sina antal överensstämmelser.In one embodiment, the subgroup is the fi sequence function generated for molecules ranked by their number of matches.
I en utfóringsform är frekvensfunktionen f(S), där S är en poäng. I en utfórings- form är S antalet slumpmässiga överensstämmelser.In one embodiment, the frequency function is f (S), where S is a point. In one embodiment, S is the number of random matches.
I en utfóringsform är S =k och s17~2s9 14 k' H Iu-x H I f(S)= p(k)} -{2 p(k)} , där p(k) har den betydelse som angivits ovan. k=0 k=0 Fackmannen kommer att inse att uppfinningen har vidsträckt tillämpbarhet fór molekylidentifiering. Fastän illustrativa utfóringsformer av uppfinningen har beskrivits här, med hänvisning till bifogade ritningar, skall det förstås att uppfin- ningen inte är begränsad till exakt dessa utfóringsformer, och att andra ändringar och modifieringar kan göras av en fackman utan att göra avsteg från omfattningen och tankegången i denna uppfinning.In one embodiment, S = k and s17 ~ 2s9 14 k 'H Iu-x H I f (S) = p (k)} - {2 p (k)}, where p (k) has the meaning given above. k = 0 k = 0 Those skilled in the art will recognize that the invention has wide applicability for molecular identification. Although illustrative embodiments of the invention have been described herein, with reference to the accompanying drawings, it is to be understood that the invention is not limited to exactly these embodiments, and that other changes and modifications may be made by one skilled in the art without departing from the scope and spirit of the invention. this invention.
Claims (8)
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE0002214A SE517259C2 (en) | 2000-06-14 | 2000-06-14 | Molecular identification system |
PCT/SE2001/001322 WO2001096861A1 (en) | 2000-06-14 | 2001-06-12 | System for molecule identification |
AU2001264517A AU2001264517A1 (en) | 2000-06-14 | 2001-06-12 | System for molecule identification |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE0002214A SE517259C2 (en) | 2000-06-14 | 2000-06-14 | Molecular identification system |
Publications (3)
Publication Number | Publication Date |
---|---|
SE0002214D0 SE0002214D0 (en) | 2000-06-14 |
SE0002214L SE0002214L (en) | 2001-12-15 |
SE517259C2 true SE517259C2 (en) | 2002-05-14 |
Family
ID=20280077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
SE0002214A SE517259C2 (en) | 2000-06-14 | 2000-06-14 | Molecular identification system |
Country Status (3)
Country | Link |
---|---|
AU (1) | AU2001264517A1 (en) |
SE (1) | SE517259C2 (en) |
WO (1) | WO2001096861A1 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2298181C (en) | 2000-02-02 | 2006-09-19 | Dayan Burke Goodnough | Non-targeted complex sample analysis |
JP3743717B2 (en) * | 2002-06-25 | 2006-02-08 | 株式会社日立製作所 | Mass spectrometry data analysis method, mass spectrometry data analysis apparatus, mass spectrometry data analysis program, and solution providing system |
JP2007507771A (en) * | 2003-10-01 | 2007-03-29 | プロテオム システムズ インテレクチュアル プロパティ プロプライエタリー リミテッド | Method for determining the biological likelihood of a candidate composition or candidate structure |
CA2619732C (en) | 2005-09-12 | 2012-06-12 | Phenomenome Discoveries Inc. | Methods for the diagnosis of colorectal cancer and ovarian cancer health states |
US8478762B2 (en) | 2009-05-01 | 2013-07-02 | Microsoft Corporation | Ranking system |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5538897A (en) * | 1994-03-14 | 1996-07-23 | University Of Washington | Use of mass spectrometry fragmentation patterns of peptides to identify amino acid sequences in databases |
JP2000048765A (en) * | 1998-07-24 | 2000-02-18 | Jeol Ltd | Time-of-flight mass spectrometer |
EP1688987A1 (en) * | 1999-04-06 | 2006-08-09 | Micromass UK Limited | Improved methods of identifying peptides and proteins by mass spectrometry |
WO2000073787A1 (en) * | 1999-05-27 | 2000-12-07 | Rockefeller University | An expert system for protein identification using mass spectrometric information combined with database searching |
-
2000
- 2000-06-14 SE SE0002214A patent/SE517259C2/en not_active IP Right Cessation
-
2001
- 2001-06-12 WO PCT/SE2001/001322 patent/WO2001096861A1/en active Application Filing
- 2001-06-12 AU AU2001264517A patent/AU2001264517A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
AU2001264517A1 (en) | 2001-12-24 |
SE0002214L (en) | 2001-12-15 |
WO2001096861A1 (en) | 2001-12-20 |
WO2001096861A8 (en) | 2002-08-01 |
SE0002214D0 (en) | 2000-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6393367B1 (en) | Method for evaluating the quality of comparisons between experimental and theoretical mass data | |
CN109166604B (en) | Calculation method for predicting key protein by fusing multi-data features | |
US6446010B1 (en) | Method for assessing significance of protein identification | |
US20020046002A1 (en) | Method to evaluate the quality of database search results and the performance of database search algorithms | |
US7979214B2 (en) | Peptide identification | |
SE517259C2 (en) | Molecular identification system | |
US8712695B2 (en) | Method, system, and computer program product for scoring theoretical peptides | |
US20040044481A1 (en) | Method for protein identification using mass spectrometry data | |
JP2005519289A (en) | Method for protein identification using mass spectrometry data | |
JPWO2009128526A1 (en) | Ribonucleic acid identification apparatus, ribonucleic acid identification method, program, and ribonucleic acid identification system | |
Bachinsky et al. | PROF_ PAT 1.3: Updated database of patterns used to detect local similarities | |
JP4651341B2 (en) | Mass spectrum measurement method | |
Hubbard | Computational approaches to peptide identification via tandem MS | |
US20020152033A1 (en) | Method for evaluating the quality of database search results by means of expectation value | |
Shi et al. | Protein inference by assembling peptides identified from tandem mass spectra | |
US7603240B2 (en) | Peptide identification | |
Halligan et al. | Peptide identification using peptide amino acid attribute vectors | |
Liu et al. | PRIMA: peptide robust identification from MS/MS spectra | |
JP2009031128A (en) | Device, method, and program for analyzing base sequence and base modification of nucleic acid | |
EP1152349A1 (en) | Method for aligning sequences | |
Feng | Some probability and statistics problems in proteomics research | |
Allaga | RNA-protein interaction prediction: String-based versus feature-based models | |
Wilkerson | An Introduction to Proteomics Data Analysis | |
Novák et al. | On comparison of SimTandem with state-of-the-art peptide identification tools, efficiency of precursor mass filter and dealing with variable modifications | |
Tang | Tagger: Enhance Database Search Tools with De Novo Sequencing Tags |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
NUG | Patent has lapsed |