FI120116B - Information management techniques for metabolic related data - Google Patents

Information management techniques for metabolic related data Download PDF

Info

Publication number
FI120116B
FI120116B FI20065309A FI20065309A FI120116B FI 120116 B FI120116 B FI 120116B FI 20065309 A FI20065309 A FI 20065309A FI 20065309 A FI20065309 A FI 20065309A FI 120116 B FI120116 B FI 120116B
Authority
FI
Finland
Prior art keywords
information
compound
compounds
lipid
level
Prior art date
Application number
FI20065309A
Other languages
Finnish (fi)
Swedish (sv)
Other versions
FI20065309A0 (en
FI20065309A (en
Inventor
Matej Oresic
Original Assignee
Valtion Teknillinen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Valtion Teknillinen filed Critical Valtion Teknillinen
Priority to FI20065309A priority Critical patent/FI120116B/en
Publication of FI20065309A0 publication Critical patent/FI20065309A0/en
Priority to PCT/FI2007/050261 priority patent/WO2007128882A1/en
Priority to EP07730748A priority patent/EP2024888A1/en
Priority to US12/300,299 priority patent/US20090164133A1/en
Publication of FI20065309A publication Critical patent/FI20065309A/en
Application granted granted Critical
Publication of FI120116B publication Critical patent/FI120116B/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Description

Informaationhaliintatekniikoita metaboliaan liittyvälle datalleInformation management techniques for metabolic related data

Keksinnön taustaBackground of the Invention

Keksintö liittyy informaationhallintatekniikoihin metaboliaan liittyvälle datalle, kuten datalle, joka liittyy lipideihin ja/tai muihin yhteisiä rakenneosia 5 jakaville molekyyliluokille, kuten glykaaneihin.The invention relates to information management techniques for metabolic-related data, such as data related to lipids and / or other molecular classes sharing common moieties, such as glycans.

Lipidit ovat tärkeä ja erittäin monipuolinen luokka aineenvaihdunta-tuotteita, joilla on rakenne-, energiavarasto- ja viestintärooleja. Lipidien aineenvaihdunnan tunnistetaan näyttelevän keskeistä roolia useissa sairauksissa, kuten arterioskleroosi, diabetes ja Alzheimerin tauti, vain muutamia mainitak-10 semme. Tästä tärkeydestä huolimatta ei vielä ole esitetty bioinformatiikan strategioita, jotka täysin hyödyntäisivät moderneja analyysi- ja informatiikkateknii-koita.Lipids are an important and highly diverse class of metabolic products with structural, energy storage, and communication roles. Lipid metabolism is recognized to play a key role in several diseases, such as arteriosclerosis, diabetes, and Alzheimer's, to name but a few. In spite of this importance, bioinformatics strategies that fully utilize modern analytical and informatics technologies have not yet been proposed.

Lipidit ovat monipuolinen luokka biologisia molekyylejä, jotka näyttelevät keskeistä roolia biologisten solukalvojen rakenneosina, energiavarastoina 15 ja viestimolekyyieinä. Lipidien metabolia häiriöt liittyvät useisiin ihmisen sairauksiin, mukaan lukien diabetes, Alzheimerin tauti, arterioskleroosi ja tartuntataudit. Samalla kun lipidien ja metaboiomien tutkimus on viime vuosikymmenten aikana yleisesti jäänyt genomiikan kehityksen varjoon, viimeaikainen uudelleen herännyt ja nopeasti kasvava kiinnostus lipidejä kohtaan, joka on saattanut 20 liikkeelle useita uusia hankkeita lipiditutkimuksen alalla, havainnollistaa niiden kriittistä tärkeyttä biologiassa. Lipidomiikka alana pyrkii karakterisoimaan lipidi-molekyylien lajeja ja niiden biologisia rooleja suhteessa lipidimetaboliaan osallistuvien proteiinien ilmentymiseen ja toimintaan, mukaan lukien geenien sääntely.Lipids are a diverse class of biological molecules that play a key role as biological cell membranes, energy stores, and messenger molecules. Lipid metabolism disorders are associated with a number of human diseases, including diabetes, Alzheimer's disease, arteriosclerosis and infectious diseases. While research on lipids and metabolites has generally been overshadowed by genomic developments in recent decades, recent renewed and rapidly growing interest in lipids, which has triggered several new lipid research projects, illustrates their critical importance in biology. Lipidomics as a field aims to characterize species of lipid molecules and their biological roles in relation to the expression and function of proteins involved in lipid metabolism, including gene regulation.

25 On useita julkisia resursseja, jotka edustavat lipidi-informaation eri aspekteja, kuten LIPID MAPS, Lipid Bank, LIPIDAT, CyberLipids, ja Lipid Base. On muodostettu uusia yhteenliittymiä, kuten LIPID MAPS {Lipid Metabolites and Pathway Strategy), ja muut pioneeriryhmät Euroopassa ja Japanissa työskentelevät samoja päämääriä kohti. LIPID MAPS -yhteenliittymä esitteli 30 nimistön, joka mahdollistaa lipidiyhdisteen esittämisen uniikilla 12-numeroisella tunnisteella. Samaa LIPID MAPS -yhteenliittymän ehdottamaa luokitus- ja ni-mistöjärjestelmää seuraten JCBL (Japanese Conference on the Biochemistry j of Lipids) ylläpitää tähän liittyvää tietokantaa Lipid Base, jossa myös ylläpide- j tään MS/MS -fragmentti-informaatiota yksilöllisistä lipidilajeista. j 35 Viime aikaiset kehitykset lipiditutkimuksen analyyttisten menetelmi- j en, erityisesti massaspektrometriaan kytketyn nestekromatografian (liquid | ! \ % 2 chromatography coupled to mass spectrometry, LC/MS), alalla edellyttävät kattavia lipidikirjastoja mahdollistamaan lipidien järjestelmätason identifiointi, löydöt ja myöhempi tutkimus, integroidut tutkimukset, jotka yhdistävät usean kudoksen lipidomiikka profiileja biologisen informaation muiden tasojen kans-5 sa, kuten geeniekspressio ja proteomiikka, ovat tulleet mahdollisiksi tällaisten ominaisuuksien ansiosta.There are several public resources that represent various aspects of lipid information, such as LIPID MAPS, Lipid Bank, LIPIDAT, CyberLipids, and Lipid Base. New alliances have been formed, such as LIPID MAPS (Lipid Metabolites and Pathway Strategy), and other pioneer groups in Europe and Japan are working towards the same goals. The LIPID MAPS Consortium introduced 30 nomenclatures that allow the presentation of a lipid compound under a unique 12-digit identifier. Following the same classification and nomenclature system proposed by the LIPID MAPS Consortium, the JCBL (Japanese Conference on Biochemistry) of Lipids maintains a related database, Lipid Base, which also maintains MS / MS fragment information from individual lipid species. Recent developments in the field of analytical methods for lipid analysis, particularly liquid chromatography coupled to mass spectrometry (LC / MS), require extensive lipid libraries to enable systemic identification of lipids, findings and further research, integrated studies which combine multi-tissue lipidomics profiles with other levels of biological information, such as gene expression and proteomics, have become possible thanks to such properties.

Paljon tietoa tuottavien lipidomäikkakokeiden vuoksi käytettävissä on suuria informaatiomääriä, minkä vuoksi tietokantajärjestelmän on oltava tehokkaasti kytketty lipidiprofiilidataa kehittävään analyyttiseen alustaan sekä kemo-10 ja bioinformatiikkajärjesteimään yhdisteiden identifioimiseksi ja informaation kytkemiseksi biologisen organisaation muille tasoille, järjestelmätekniikoiden mahdollistamiseksi.Because of the high amount of information available due to lipid-rich data-intensive experiments, the database system must be effectively connected to an analytical platform for lipid profile data, chemo-10 and bioinformatics to identify compounds and connect information to other levels of the biological organization.

Lipidien diversiteetti eri organismeissa, kudoksissa ja solutyypeissä aiheuttaa, että suurta enemmistöä relevanteista lipideistä ei ole identifioitu, ja 15 mikään yksittäinen tietokanta pystyy tuskin kattamaan kaikkia mahdollisia lipidejä. On siis tarve mekanismille, joka helpottaisi uusien lipidilajien löytämistä käytettävissä olevan datan joukosta biologisissa järjestelmissä.The diversity of lipids in different organisms, tissues and cell types results in the vast majority of the relevant lipids not being identified, and no single database can hardly cover all possible lipids. Thus, there is a need for a mechanism that would facilitate the discovery of new lipid species among available data in biological systems.

Lisäksi nykyisin käytettävissä oleva lipidien polkukaaviotason esitys tietokannoissa, kuten KEGG, on rajoittunut geneeristen lipidiluokkien polku-20 kaavioesityksiin, ts. ne sisältävät pääasiassa pääryhmäinformaatiota, ja ohittavat rasvahappojen sivuketjuinformaation, ja sellaisenaan siitä puuttuu detaljita-so joka on tulossa käyttöön LC/MS -tekniikoissa. Nykyiset tietokannat ovat todella hyvin hyödyllisiä, mitä tulee hyvin suurten huippumäärien automaattiseen identifointiin. On siis olemassa tarve tavoille identifioida yksittäisiä molekylaari-25 siä lajeja. Eräs tähän liittyvä ongelma on, kuinka yksittäisiä molekylaarisia lajeja kytketään tunnettuihin metabolioihin. Esimerkiksi nykyiset polkukaaviotieto-kannat sisältävät informaatiota vain geneerisistä lipidiluokista, kuten polkukaavioista, mukaan lukien fosfokoliini. Mutta alla olevista rasvahapoista ei ole informaatiota. Tämän seurauksena fosfokoliinille voi olla satoja eri lajeja. j 30 Vielä eräs tähän liittyvä ongelma on, kuinka kehittää iipidiyhdistei- i den diversiteettiä informaatiotekniikkaa käyttämällä.In addition, the currently available lipid pathway level representation in databases such as KEGG is limited to generic lipid pathway path representations, i.e., they mainly contain major group information, and override fatty acid side chain information, and as such lack the level of detail available in LC / MS. Existing databases are really very useful with regard to the automatic identification of very large peaks. Thus, there is a need for ways to identify individual molecular species. One related problem is how individual molecular species are linked to known metabolites. For example, current path chart data bases contain information only on generic lipid classes such as path charts, including phosphocholine. But there is no information about the fatty acids below. As a result, there may be hundreds of different species of phosphocholine. Another problem related to this is how to develop the diversity of lipid compounds using information technology.

Keksinnön lyhyt selostus jBRIEF DESCRIPTION OF THE INVENTION j

Keksinnön tavoitteena on siten kehittää menetelmä, laitteisto ja ohjelmistotuote ainakin yhden yllä mainitun ongelman lieventämiseksi. Keksinnön 35 tavoite saavutetaan menetelmällä, laitteistolla ja ohjelmistotuotteilla, joille on i 3 tunnusomaista se, mitä sanotaan oheisissa itsenäisissä patenttivaatimuksissa. Epäitsenäiset patenttivaatimukset esittävät keksinnön erityisiä suoritusmuotoja.It is therefore an object of the invention to provide a method, hardware and software product for alleviating at least one of the above problems. The object of the invention 35 is achieved by a method, hardware and software products which are characterized by what is stated in the appended independent claims. The dependent claims disclose specific embodiments of the invention.

Keksinnön eräs näkökohta on menetelmä prosessoida informaatiota yhteisiä rakenneosia jakavien molekylaaristen luokkien yhdisteistä. Menetelmä 5 käsittää vaiheet: ylläpidetään polkukaavioinformaatiota yhdisteistä yksittäisen yhdisteen tasolla ja/tai geneerisen luokan tasolla; kehitetään yhdisteiden diversiteettiä perustuen joukkoon siemen-rakenteita, joista kukin kuvaa lipidiyhdisteen, jolla on keskimääräistä suurempi 10 todennäköisyys esiintyä luonnossa; käytetään formaalia kuvauskieltä ilmaisemaan siemenrakenteet; käytetään rakenne-elementtejä kehittämään odotettuja spektrejä kullekin yhdisteelle käyttämällä massaspektrometrian tunnettuja koeolosuhteita; 15 suoritetaan yksi tai useampia spektroskopiakokeita yhdisteinformaa- tion saamiseksi; ja kytketään saatu yhdisteinformaatio olemassa olevaan informaatioon molekyyliluokista.One aspect of the invention is a method of processing information on compounds of molecular classes which share common moieties. Method 5 comprises the steps of: maintaining flowchart information about the compounds at the level of the individual compound and / or at the generic class level; developing a diversity of compounds based on a set of seed structures, each representing a higher than average probability of occurring in the lipid compound; using a formal description language to express seed structures; using the structural elements to generate the expected spectra for each compound using known experimental conditions for mass spectrometry; Performing one or more spectroscopy experiments to obtain compound information; and combining the resulting compound information with existing information on molecular classes.

Keksinnön eräässä edustavassa sovelluksessa yhteisiä rakenne-20 osia jakavien molekylaaristen luokkien yhdisteet käsittävät lipidejä, ja jäljempänä tässä dokumentissa keksintö selostetaan lipidien yhteydessä.In a representative embodiment of the invention, the compounds of the molecular classes sharing common structural moieties comprise lipids, and the invention is hereinafter described with reference to lipids.

Vaihe, jossa ylläpidetään polkukaavioinformaatiota lipidiyhdisteistä, on sinänsä tunnettu. Polkukaavioinformaation ylläpitämiseksi on useita bio-informatiikan lähestymistapoja, ja yksityiskohtainen selostus ohitetaan.The step of maintaining path diagram information about lipid compounds is known per se. There are several bio-informatics approaches to maintaining path diagram information, and the detailed description is omitted.

25 Keksinnön erään suoritusmuodon mukaisesti formaali kuvauskieli on SMILES, joka on akronyymi ja tarkoittaa Simplified Molecular Input Line Entry System. Tietyn lipidiluokan konstruktio voi perustua kyseisen luokan SMILES-kaavioon (template). Ensin kehitetään geneerinen SMILES-kaavio, esimerkiksi käsin. Sitten rasvahappokeljun pituutta varioidaan ja näin luodaan 30 useita tai kaikki mahdolliset tämän luokan yhdisteet tietyssä rasvahappoketjun ; pituusikkunassa. Esimerkiksi PERL-kielen jäsennin voidaan kehittää varioimaan rasvahappoketjun pituutta. Kun yhdisteen SMILES-esitys on kehitetty, i SMILES-esitys voidaan muuntaa kanoniseksi (=uniikiksi) SMILES-esitykseksi.According to one embodiment of the invention, the formal markup language is SMILES, which is an acronym for Simplified Molecular Input Line Entry System. The construction of a particular lipid class can be based on a SMILES diagram for that class. First, a generic SMILES diagram is developed, for example by hand. The length of the fatty acid chain is then varied to create several or all possible compounds of this class within a particular fatty acid chain; the length of the window. For example, the PERL parser can be developed to vary the length of the fatty acid chain. Once a compound SMILES representation has been developed, the i SMILES representation can be converted to a canonical (= unique) SMILES representation.

Eräs toinen tämän metodin kiinnostava ominaisuus liittyy sen kykyyn luoda 35 systemaattisia nimiä algoritmisesti.Another interesting feature of this method relates to its ability to generate 35 systematic names algorithmically.

44

Vaiheessa, jossa käytetään rakenne-elementtejä kehittämään odotettuja spektrejä kullekin yhdisteelle, on edullista käyttää yleisesti käytettyjä koeolosuhteita.In the step of using the structural elements to generate the expected spectra for each compound, it is preferable to use commonly used experimental conditions.

Olemassa oleva informaatio lipideistä sisältää polkukaavioinformaa-5 tiota yksittäisen yhdisteen tasolla ja/tai geneerisen luokan tasolla. Vaihtoehtoisesti tai tämän lisäksi olemassa oleva informaatio lipideistä voi sisältää yhteis-sääntelyinformaatiota toisten yhdisteiden kanssa eri biologisten näytteiden kesken.Existing lipid information includes path diagram information at the individual compound level and / or at the generic class level. Alternatively, or in addition, existing lipid information may include co-regulatory information with other compounds between different biological samples.

Erään suoritusmuodon mukaisesti menetelmä käsittää lisäksi infor-10 maation linkittämisen yksittäisestä yhdisteestä informaatioon muilla tasoilla.According to one embodiment, the method further comprises linking information from the individual compound to information at other levels.

Informaatio muilla tasoilla voi sisältää informaatiota proteiineista tai geeneistä, jotka liittyvät yksittäisen yhdisteen metaboliaan tai biologiseen variaatioon.Information at other levels may include information about proteins or genes involved in the metabolism or biological variation of a single compound.

Erään suoritusmuodon mukaisesti menetelmä käsittää lisäksi informaation käyttämisen yksittäisten yhdisteiden tasolla ja niiden variaation tietyn 15 organismin osan sisällä eri biologisissa näytteissä, yhdisteiden välisten riippuvuuksien löytämiseksi organismin eri osien välillä.According to one embodiment, the method further comprises using information at the level of the individual compounds and their variation within a particular portion of the organism in different biological samples to find inter-compound dependencies between different parts of the organism.

Kuvioiden lyhyt selostusBRIEF DESCRIPTION OF THE DRAWINGS

Keksintöä selostetaan nyt lähemmin edullisten suoritusmuotojen yhteydessä, viitaten oheisiin piirroksiin, joista: 20 Kuvio 1 esittää keksinnön toimintaperiaatetta;The invention will now be described in more detail in connection with preferred embodiments, with reference to the accompanying drawings, in which: Figure 1 illustrates the principle of the invention;

Kuvio 2 esittää tietokantakaaviota lipidien esittämistä varten;Figure 2 shows a database diagram for the presentation of lipids;

Kuvio 3 esittää menetelmää glyserofosfolipidien systemaattista konstruointia varten;Figure 3 shows a method for the systematic construction of glycerophospholipids;

Kuvio 4 esittää tekniikkaa lipidiyhdisteiden rakenteiden esittämiseksi 25 SMiLES:iä käyttämällä;Figure 4 illustrates a technique for displaying structures of lipid compounds using SMiLES;

Kuvio 5 esittää SMILES-kaaviota, joka näyttää rasvahappojen sie-menmuuttujia;Figure 5 is a graph of SMILES showing the core variables of fatty acids;

Kuvio 6 esittää glyserofosfolipidien rakenteita;Figure 6 shows the structures of glycerophospholipids;

Kuvio 7 esittää esimerkinomaista nimikaaviota glyserofosfolipidien | l 30 luokalle; { tFigure 7 shows an exemplary nomenclature of glycerophospholipids | l for 30 classes; {t

Kuvio 8 esittää tekniikkaa strukturoitujen nimien käyttämiseksi linki- j tysvaiheessa; !Figure 8 illustrates a technique for using structured names in a linking step; !

Kuviot 9A ja 9B, jotka muodostavat yhden loogisen piirroksen esittä- SFigures 9A and 9B, which form a logical drawing of one embodiment

vät algoritmisesti muodostettua SMILES:iä eräälle rasvahappoketjujen esi- jare algorithmically generated SMILES for one of the precursors of the fatty acid chains

35 merkkijoukolie; I35 Character Set; I

Ϊ i f f 5Ϊ i f f 5

Kuviot 10A ja 10B esittävät karakterististen MS/MS spektrien kehittämistä yksittäisille lajeille;Figures 10A and 10B show the development of characteristic MS / MS spectra for individual species;

Kuvio 11 esittää pisteytysjärjestelmää;Figure 11 shows a scoring system;

Kuvio 12 esittää, kuinka Iipidiprofiiiien kudostenväiinen tutkimus yk-5 sittäisen molekyylijajin tasolla voi paljastaa biologisten prosessien välisiä riippuvuuksia organismien eri osastoissa; jaFigure 12 illustrates how tissue-based study of lipid profiles at the level of the individual molecule can reveal interdependencies between biological processes in different compartments of organisms; and

Kuvio 13 kokoaa yhteen keksinnön mukaisen menetelmän vaiheet.Figure 13 summarizes the steps of the method of the invention.

Keksinnön yksityiskohtainen selostusDETAILED DESCRIPTION OF THE INVENTION

Kuvio 1 esittää keksinnön toimintaperiaatetta. Viitenumero 100 esit-10 tää yleisesti datajärjesteimän arkkitehtuuria, jossa keksintöä voidaan käyttää. Lipiditietokanta 102 on tietokannan hallintalohkon 104 ja spektroskopian ohjel-mistoiohkon 106 käytettävissä prosessointilohkon 108 kautta. Tässä toteutuksessa spektroskopian ohjelmistolohko 106 tukee nestekromatografiaa/massa-spektrometriaa, mutta muitakin tekniikoita voidaan käyttää. Datajärjesteimän 15 100 ensisijainen lisäarvo tunnettuihin järjestelmiin verrattuna on kahtalainen.Figure 1 illustrates the working principle of the invention. Reference numeral 100 generally depicts the architecture of the data system in which the invention may be practiced. Lipid database 102 is accessible to database management block 104 and spectroscopy software block 106 via processing block 108. In this implementation, spectroscopy software block 106 supports liquid chromatography / mass spectrometry, but other techniques may be used. The primary added value of a data system 15,100 over known systems is two-fold.

Tietokannan hallintalohko 104 tuottaa paremman lipidipolkukaavioiden rekonstruktion ja spektroskopian ohjelmistolohko 106 parantaa Iipidiprofiiiien tulkintaa.Database management block 104 provides better lipid pathway reconstruction and spectroscopy software block 106 for improved interpretation of lipid profiles.

Lisädetaljeja sopivan tietokannan hallintalohkon 104 muodostami-20 sesta selostetaan saman hakijan suomalaisessa patenttihakemuksessa FI20055198, nimeltään "Visuaiisointitekniikka biologista informaatiota varten”, jätetty 28.4.1995. Mainitun saman hakijan hakemuksen esittämän keksinnön eräs näkökohta on menetelmä tietojärjestelmän toiminnan ohjaamiseksi biologisen tiedon visualisoimiseksi, joka menetelmä käsittää seuraavat vaiheet: 25 1) muodostetaan käyttöliittymä ja vastaanotetaan biologiseen tie toon liittyvä kysely muodostetun käyttöliittymän kautta; 2) ylläpidetään yhteyksiä useaan tietokantaan, jotka tallentavat ainakin osaksi ei-päällekkäistä biologista tietoa; 3) määritetään mikä tietokanta useasta tietokannasta sisältää vastaanotettuun kyselyyn liittyvää biologista tietoa; 4) lähetetään määritetylle tieto-30 kannalle tietokantakysely ja vastaanotetaan tietokantakyselyn tulos, joka käsit- \ tää biologisia ja/tai kemiallisia olioita sekä biologisten ja/tai kemiallisten olioi- ! den väiilisiä relaatioita; 5) luodaan verkko tietokantakyselyn tuloksen perusteella, missä verkon luomisvaihe käsittää biologisten ja/tai kemiallisten olioiden kuvaamisen verkon solmuihin ja relaatioiden kuvaamisen verkon yhteyksiin; 6) 35 määritetään etäisyysmatriisi etäisyyden osoittamiseksi usealle verkkosolmupa- j rille, missä kukin etäisyys lasketaan usean dimension yli; 7) sovelletaan di- j 6 mensionvähennysfunktiota etäisyysmatriisin kuvaamiseksi pienempään määrään dimensioita; 8) etsitään valitun verkkosolmun naapureita etäisyysmatriisin perusteella valitun verkkosolmun biologisen roolin selventämiseksi; 9) säädetään dimensionvähennysfunktiota biologisen ja/tai kemiallisen tiedon yhden tai 5 useamman tutkimuskontekstin perusteella, tutkimuksen kohdistamiseksi relevanttia polttopistettä kohti; ja 10) luodaan uudelleen ja visualisoidaan verkko säädetyn dimensionvähennysfunktion perusteella.Further details of forming a suitable database management block 104 are described in the same applicant's Finnish patent application FI20055198, entitled "Visualization Technology for Biological Information", filed April 28, 1995. One aspect of the present invention disclosed by the same applicant is steps: 1) establishing a user interface and receiving the biological information query via the established user interface, 2) maintaining connections to multiple databases storing at least part of the non-overlapping biological information, 3) determining which database contains the biological information associated with the received query; ) sending a database query to the specified database 30 and receiving the result of a database query comprising biological and / or chemical and biological relationships between biological and / or chemical entities; 5) establishing a network based on the result of a database query, wherein the step of creating a network comprises mapping biological and / or chemical entities to network nodes and mapping relationships to network connections; 6) 35 defining a distance matrix for assigning a distance to a plurality of pairs of network nodes, wherein each distance is computed over a plurality of dimensions; 7) applying the dy 6 reduction function to describe the distance matrix for a smaller number of dimensions; 8) searching the neighbors of the selected network node based on the distance matrix to clarify the biological role of the selected network node; 9) adjusting the dimensionality reduction function based on one or more research contexts of biological and / or chemical information to target the study toward the relevant focal point; and 10) reconstructing and visualizing the network based on the adjusted dimension reduction function.

Menetelmä voi lisäksi käsittää, että kukin yhdestä tai useammasta tutkimuskontekstista kuvataan verkkosolmuun. Kuvausvaihe voi käsittää kulo vaamisen useasta dimensiosta kahteen dimensioon. Etäisyysfunktio voi perustua verkkotopologiaan ja/tai kokeellisesta datasta johtuviin relaatioihin. Tällaisiin kokeellisesta datasta johtuviin relaatioihin voi kuulua korrelaation mitta.The method may further comprise describing each of the one or more research contexts to a network node. The imaging step may comprise viewing the process from multiple dimensions to two dimensions. The distance function may be based on network topology and / or relationships due to experimental data. Such relationships resulting from experimental data may include a measure of correlation.

Usädetaljeja sopivan spektroskopian ohjelmistolohkon 106 muodostamisesta selostetaan saman hakijan suomalaisissa patenttihakemuksissa 15 FI20055252, FI20055253 ja FI20055254, kaikki nimeltään ’’Anaiyysitekniikoita nestekromatografiaa/massaspektrometriaa varten”, ja ne on jätetty 26.5.2005.Said beams for the formation of a suitable spectroscopy software block 106 are described in the same applicant's Finnish patent applications 15 FI20055252, FI20055253 and FI20055254, all entitled "Analytical Techniques for Liquid Chromatography / Mass Spectrometry", filed May 26, 2005.

Mainitun saman hakijan hakemuksen F120055252 esittämän keksinnön eräs näkökohta on menetelmä nestekromatografia/massaspektrometriadatan [="LC/MS-datan"] analysointia varten, jossa menetelmässä: 20 1) valmistetaan useita näyteajoja; 2) prosessoidaan kukin valmistet tu näyteajo LC/MS-spektrometrissä spektrin saamiseksi kunkin prosessoidun näyteajon osalta; 3) sisäisesti esitetään kukin spektri massa/varaussuhteen j sijoituksena retentioaikaan nähden; 4) suoritetaan ensimmäinen huipunilmaisu kunkin spektrin huippujen ilmaisemiseksi; 5) muodostetaan kohdistettujen f 25 spektrien joukko sisäisesti kohdistamalla kunkin spektrin ilmaistut huiput; ja 6) j suoritetaan toinen huipunilmaisu ensimmäisessä huipunilmaisussa ilmaisemattomien huippujen ilmaisemiseksi, missä toinen huipunilmaisu käsittää tietämyksen käyttämisen kohdistettujen spektrien joukon muista spektreistä. |One aspect of the invention disclosed in said co-applicant application F120055252 is a method for analyzing liquid chromatography / mass spectrometry data [= "LC / MS data"], comprising: 1) preparing a plurality of sample runs; 2) processing each prepared sample run on an LC / MS spectrometer to obtain a spectrum for each processed sample run; 3) internally presenting each spectrum as a mass / charge ratio plotted against the retention time; 4) performing a first peak detection to detect peaks in each spectrum; 5) generating a plurality of aligned f 25 spectra internally by aligning the detected peaks of each spectrum; and 6) j performing a second peak detection in the first peak detection for detecting undetected peaks, wherein the second peak detection comprises using knowledge of other spectra in the plurality of targeted spectra. |

Mainitun saman hakijan hakemuksen FI20055253 esittämän keksin- j 30 nön eräs näkökohta on menetelmä LC/MS-datan analysoimiseksi, jossa menetelmässä: 1) valmistetaan useita näyteajoja; 2) prosessoidaan kukin valmistettu näyteajo LC/MS-spektrometrissä spektrin saamiseksi kunkin prosessoidun näyteajon osalta; 3) sisäisesti esitetään kukin spektri massa/varaussuhteen sijoituksena retentioaikaan nähden; 4) suoritetaan ensimmäinen huipunilmaisu 35 kunkin spektrin huippujen ilmaisemiseksi; 5) visualisoidaan kunkin spektrin hui-put, missä visuaiisointivaihe käsittää 5a) kuvataan kukin visualisoitava huippu 7 koordinaatistoon, jossa ensimmäinen koordinaatti osoittaa massa/varaussuh-detta ja toinen koordinaatti osoittaa retentioaikaa; ja 5b) osoitetaan spesifinen visuaalinen attribuutti kullekin visualisoitavalle huipulle.One aspect of the invention disclosed by the same applicant application FI20055253 is a method for analyzing LC / MS data, comprising: 1) generating a plurality of sample runs; 2) processing each prepared sample run on an LC / MS spectrometer to obtain a spectrum for each processed sample run; 3) each spectrum is plotted as a mass / charge ratio versus retention time; 4) performing a first peak detection 35 to detect peaks in each spectrum; 5) visualizing the peaks of each spectrum, wherein the visualization step comprises 5a) depicting each peak to be visualized in a 7 coordinate system in which the first coordinate indicates the mass / charge ratio and the second coordinate indicates the retention time; and 5b) assigning a specific visual attribute to each peak to be visualized.

Mainitun saman hakijan hakemuksen FI20055254 esittämän kek-5 sinnön eräs näkökohta on menetelmä LC/MS-datan analysoimiseksi, jossa menetelmässä: 1) valmistetaan useita näyteajoja; 2) prosessoidaan kukin valmistettu näyteajo IC/MS-spektrometrissä spektrin saamiseksi kunkin prosessoidun näyteajon osalta; 3) sisäisesti esitetään kukin spektri massa/varaus-suhteen sijoituksena retentioaikaan nähden; 4) suoritetaan ensimmäinen hui-10 punilmaisu kunkin spektrin huippujen ilmaisemiseksi; ja 5) etsitään analysoitavaa huippua lähin standardiyhdisteen huippu ja normalisoidaan analysoitava huippu perustuen etäisyysmittaan analysoitavan huipun ja mainitun lähimmän standardiyhdisteen huipun välillä.One aspect of the invention disclosed in the same Applicant application FI20055254 is a method for analyzing LC / MS data, comprising: 1) generating a plurality of sample runs; 2) processing each prepared sample run on an IC / MS spectrometer to obtain a spectrum for each processed sample run; 3) internally depicting each spectrum as a mass / charge relationship relative to retention time; 4) performing a first hui-10 red detection to detect peaks in each spectrum; and 5) finding the peak of the analyte peak closest to the analyte peak and normalizing the peak to be analyzed based on the distance between the peak of the analyte and said nearest standard compound peak.

LC/MS -datan analysointitekniikoita voidaan edelleen tehostaa lisä-15 piirteiden avulla. Esimerkiksi toinen huipunilmaisu voi käsittää paikallisten maksimien ilmaisun ja/tai rekursiivisen kynnysilmaisun. Menetelmä voi lisäksi käsittää spektrien normalisoimisen, esimerkiksi yhden tai useamman standardiyhdisteen injektoimisen ennalta määrätyssä konsentraatiossa kuhunkin näy-teajoon ennen prosessointivaihetta standardiyhdisteiden huippujen joukon 20 saamiseksi kutakin injektoitua standardiyhdistettä kohti. Menetelmä voi lisäksi käsittää analysoitavaa huippua lähimmän standardiyhdisteen huipun etsimisen ja analysoitavan huipun normalisoimisen perustuen etäisyysmittaan analysoitavan huipun ja mainitun lähimmän standardiyhdisteen huipun välillä. Kohdis-tusvaihe voi käsittää seuraavat vaiheet: luodaan huippuiista kunkin spektrin 25 osalta, luodaan huippujen päälista ja kunkin huippulistan kutakin huippua kohti löydetään huippujen päälistan vastaava huippu ennalta määrättyä etäisyysmit-taa käyttämällä. Etäisyysmitta voi perustua suureiden \m/zp - m/zm\\a\rtp -rtm I painotettuun yhdistelmään, missä m/zp ja rtp ovat vastaavasti yksittäisen huippulistan huipun massa-varaussuhde ja retentioaika, ja m/z,„ ja rtm ovat vas-30 taavasti keskimääräinen massa-varaussuhde ja retentioaika kaikille huipuille eri huippuiistoista, jotka on ositettu huippujen päälistan samalle riville. Menetelmä voi lisäksi käsittää kunkin spektrin huippujen visualisoimisen, missä visual isointivaihe käsittää: kuvataan kukin visualisoitava huippu koordinaatistoon, jossa ensimmäinen koordinaatti osoittaa massa-varaussuhteen ja toinen 35 koordinaatti osoittaa retentioajan; ja osoitetaan kullekin visualisoitavalle huipulle spesifinen visuaalinen attribuutti. Visualisointimenetelmä voi lisäksi käsittää 8 huippujen visualisoimisen näytteiden ensimmäisestä ryhmästä ja toisesta ryhmästä, ja spesifinen visuaalinen attribuutti perustuu keskimääräisten intensiteettien suhteeseen vastaavien huippujen välillä ensimmäisessä ryhmässä ja toisessa ryhmässä. Vielä edelleen, visualisointimenetelmä voi käsittää huippu-5 jen visualisoimisen näytteiden ryhmästä ja spesifinen visuaalinen attribuutti perustuu huippuintensiteettien variaatioon näytteiden ryhmän sisällä.LC / MS data analysis techniques can be further enhanced by additional features. For example, the second peak expression may comprise detecting local maxima and / or recursive threshold detection. The method may further comprise normalizing spectra, for example, injecting one or more standard compounds at a predetermined concentration for each sample run prior to the processing step to obtain a set of peaks of standard compounds for each standard compound injected. The method may further comprise searching for the peak of the nearest standard compound to be analyzed and normalizing the peak to be analyzed based on the distance between the peak of the analyte to be analyzed and the peak of said nearest standard compound. The alignment step may comprise the steps of: generating peaks from each spectrum, creating a peak list, and for each peak of each peak list, finding the corresponding peak of the peak list using a predetermined distance measure. The distance measure may be based on the weighted combination of \ m / zp - m / zm \\ a \ rtp -rtm I, where m / zp and rtp are the peak charge-to-charge ratio and the retention time of a single peak list, respectively, and m / z, -30 means the average mass-to-charge ratio and the retention time for all peaks from different peaks, divided into the same row of the peaks main list. The method may further comprise visualizing the peaks of each spectrum, wherein the visualization step comprises: describing each peak to be visualized in a coordinate system, wherein the first coordinate indicates the mass-charge ratio and the second coordinate indicates the retention time; and assigning to each vertex to be visualized a specific visual attribute. The visualization method may further comprise visualizing 8 peaks from the first group and the second group of samples, and the specific visual attribute is based on the ratio of average intensities between the corresponding peaks in the first group and the second group. Still further, the visualization method may comprise visualizing peaks from a group of samples, and the specific visual attribute is based on the variation of peak intensities within the group of samples.

Kuvio 2 esittää havainnollistavaa tietokantakaaviota lipidien esittämistä varten. Tässä havainnollistavassa mutta ei-rajoittavassa suoritusmuodossa lipididata tallennetaan natiivi-XML -tietokantaan, jonka toteutus on 10 Tamino XML Server. Kunkin yhdisteen merkintä tietokannassa sisältää informaatiota sisäisestä tunnisteesta, pisteytys!nformaatiota, luokan, kanonisen SMILES:in, molykyyfikaavan, moiekyylipainon ja isotooppisen jakauman. PERL-skriptejä voidaan käyttää muuntamaan dataa XML-dokumenteiksä. Syntyvät XML-dokumentit ladataan Tamino-tietokannan massaiataustyökalua. 15 Loogisten ja fyysisten kaavioiden konstruktiota ja välidointia varten voidaan käyttää vastaavasti ohjelmistoja XMLSPY ja Tamino Schema Editor Software. Tamino XML Server ja Tamino Schema Editor Software ovat saatavissa Software AG:itä Saksassa ja XMLSPY-ohjelmisto Aitova lnc:iltä.Figure 2 is an illustrative database diagram for the presentation of lipids. In this illustrative but non-limiting embodiment, the lipid data is stored in a native XML database implemented with 10 Tamino XML Server. The entry of each compound in the database includes information about the internal identifier, scoring information, class, canonical SMILES, the molecular formula, molecular weight, and isotopic distribution. PERL scripts can be used to convert data into XML documents. The resulting XML documents are loaded into the Tamino database mass background tool. 15 XMLSPY and Tamino Schema Editor Software, respectively, can be used to construct and validate logical and physical diagrams. Tamino XML Server and Tamino Schema Editor Software are available from Software AG in Germany and XMLSPY software from Genuine lnc.

Lipidit ovat moninainen ryhmä molekyylilajeja, jotka laajasti määritel-20 iään hydrofobisiksi tai amfipaattisiksi pieniksi molekyyleiksi, jotka voivat syntyä kokonaan tai osaksi tioesterien karbanionipohjaisessa kondensaatiossa ja/tai isopreeniyksiköiden hiiiikationiperusteisessa kondensaatiossa. Tässä erityisten suoritusmuotojen selostuksessa painopiste on ensisijaisesti informatiikan metodien muodostamisessa glyserofosfoiipidien, sfingolipidien, glyserolipidien ja 25 steroliesterien tutkimusta varten.Lipids are a diverse group of molecular species, broadly defined as hydrophobic or amphipathic small molecules, which may be formed wholly or in part by carbanion-based condensation of thioesters and / or by carbonation-based condensation of isoprene units. The focus of this description of particular embodiments is primarily on the development of informatics methods for the study of glycerophospholipids, sphingolipids, glycerol lipids and sterol esters.

Pääasiallinen rakenteellinen variantti yllä mainittujen luokkien välillä on vaihtelu lipidimolekyylin muodostavan yhden tai useamman rasvahappoket-jun sisällä. Esimerkiksi glyserofosfolipidit voidaan esittää muutamalla pääryhmällä, kuten koliini tai etanolamiini, kun taas funktionaalisiin ryhmiin liittyvät 30 modifikaatiot ja mahdollisten rasvahappoyhdistelmien diversiteetti on paljon suurempi.The major structural variant between the above classes is variation within one or more fatty acid chains forming a lipid molecule. For example, glycerophospholipids may be represented by a few major groups, such as choline or ethanolamine, while the modifications associated with the functional groups and the variety of possible fatty acid combinations are much greater.

Eräs edullinen lähestymistapa moninaisen lipidijoukon kehittämiseksi, identifioinnin helpottamiseksi lipidomiikkakokeista, on kehittää joukko "siemen” -rasvahappoja, jotka todennäköisimmin esiintyvät elävissä järjestel-35 missä. Tässä selostettu siemenrasvahappojen valinta heijastaa painottumista nisäkkäiden soluihin, mutta keksinnön mukainen tekniikka on joustava muiden 9 rasvahappojen ja funktionaalisten ryhmien sisällyttämiselle. Rasvahappo-siemenet ilmaistaan SMILES-termistöllä (Simplified Molecular Input Line Entry System), joka on ihmisen luettavissa oleva atomien ja sidosten lineaarinen in-deksointijärjestelmä, jota säätelee täsmälliset syntaksisäännöt. Vaikka yleisesti 5 ottaen mille tahansa yhdisteelle voi olla useita SMILES-esityksiä, on käytettävissä kanonisia versioita, jotka mahdollistavat uniikit SMILES-esitykset. Tässä selostetut suoritusmuodot voidaan toteuttaa Daylight canonical SMILES -esityksellä (Daylight, Chemical information system, Inc.). SMILES-esityksiä on konstruoitu algoritmisesti kaikille näille siemen-rasvahappoketjuille, ja ne näy-10 tetään kuvioissa 9A ja 9B. Lipiditietokannan konstruoinnissa käytetään LIPID MAPS -konsortion hyväksymiä systemaattisia nimiä.One preferred approach to developing a diverse set of lipids, to facilitate identification in lipidomics assays, is to develop a set of "seed" fatty acids that are most likely to occur in living systems The selection of seed fatty acids disclosed herein reflects a focus on Fatty acid seeds are expressed by the SMILES (Simplified Molecular Input Line Entry System), a human-readable linear index system of atoms and bonds that is governed by precise syntax rules. While generally 5, any compound may have multiple SMILES representations, canonical versions are available that allow unique SMILES representations. The embodiments described herein can be implemented with a Daylight canonical SMILES presentation (Daylight, Chemical information system, Inc.) The SMILES representations are algorithmically constructed for all these seed-fatty acid chains and are shown in Figures 9A and 9B. The lipid database is constructed using systematic names approved by the LIPID MAPS consortium.

Tietokannan kullekin yhdisteelle voidaan osoittaa pistelaskuarvo perustuen niiden rasvahappojen luonnolliseen runsauteen, joista kyseinen yhdiste on muodostettu. Yleisiä huomioon otettavia tekijöitä pisteytystä osoitettaes-15 sa ovat rasvahapon luonnollinen runsaus sekä rasvahappoketjussa olevien hiiliatomien parillinen tai pariton määrä. Lisäksi rasvahappojen erilaiset sidokset lipidien pääryhmään saavat eri pisteytykset. Pisteytysjärjestelmä näytetään kuviossa 11. Kokonaispisteytys on sitten kaikkien rasvahappopisteiden tulo.Each compound in the database can be assigned a score based on the natural abundance of the fatty acids from which the compound is made. Common factors to consider when scoring are the natural abundance of fatty acids and the odd or even number of carbon atoms in the fatty acid chain. In addition, different bonds of fatty acids to the major group of lipids receive different scores. The scoring system is shown in Figure 11. The total scoring is then the product of all fatty acid points.

Tietyn lipidiluokan konstruointi perustuu luokan SMILES-kaavioon.The construction of a particular lipid class is based on the SMILES diagram for that class.

20 Kun geneerinen SMILES-kaavio on manuaalisesti, PERL-jäsentimiä voidaan kehittää varioimaan rasvahappoketjun pituutta luokan kaikkien mahdollisten yhdisteiden luomiseksi valitun rasvahappoketjupituuden annetussa ikkunassa.When manually generating a SMILES generic chart, PERL parsers can be developed to vary the length of the fatty acid chain to create all possible compounds of the class in a given window of the selected fatty acid chain length.

Kun yhdisteen SMILES on kehitetty, SMILES voidaan muuntaa kanoniseksi (uniikiksi) SMILES-esitykseksi. Tämän metodin eräs toinen kiinnostava omi- jOnce SMILES has been developed, SMILES can be converted into a canonical (unique) representation of SMILES. Another interesting property of this method

25 naisuus liittyy sen helppouteen luoda systemaattisia nimiä algoritmisesti. I25 femininity is related to its ease of generating systematic names algorithmically. I

Daylightin SMILES tool kit -ohjelmistoa voidaan käyttää kehittämään kanonisia j SMILES-esityksiä. Daylight toolkit on räätälöity yhdisteiden molekyylipainon ja j tarkkojen massojen saamiseksi. Elementtien tarkat massat otetaan standardi-kirjallisuudesta. Eräs menetelmä glyserofosfolipidien systemaattista konstru-30 ointia varten tiivistetään kuviossa 3.Daylight's SMILES tool kit software can be used to develop canonical j SMILES presentations. Daylight Toolkit is tailored to provide molecular weights and accurate masses of compounds. The exact masses of the elements are taken from the standard literature. One method for the systematic construction of glycerophospholipids is summarized in Figure 3.

Kuvio 11 esittää erästä pisteytysjärjestelmää. Tietokannan kullekin yhdisteelle osoitetaan pistelaskuarvo perustuen niiden rasvahappojen luonnolliseen runsauteen, joista kyseinen yhdiste on muodostettu. Yleisiä huomioon otettavia tekijöitä pisteytystä osoitettaessa ovat rasvahapon luonnollinen run-35 saus sekä rasvahappoketjussa olevien hiiliatomien parillinen tai pariton määrä.Figure 11 shows a scoring system. Each compound in the database is assigned a score based on the natural abundance of the fatty acids from which the compound is made. Common factors to consider when scoring are the natural run-35 saus fatty acid and the odd or even number of carbon atoms in the fatty acid chain.

Lisäksi rasvahappojen erilaiset sidokset lipidien pääryhmään saavat eri pistey- 10 tykset. Kokonaispisteytys on sitten kaikkien rasvahappopisteiden tulo. Satunnainen pisteytys S mille tahansa lipidiyhdisteelle, Jolla on rasvahappoketjuja, joiden pisteytysmuuttujat ovat Vj (positiossa Sn1), Vj (positiossa Sn2) ja Vk (positiossa Sn3). Yhdisteille, joilla on yksi rasvahappoketju positiossa Sn1 tai 5 Sn2: S = V, tai VjIn addition, different bonds of fatty acids to the major group of lipids receive different scores. The total score is then the product of all fatty acid points. Random scoring S for any lipid compound having fatty acid chains with scoring variables Vj (at position Sn1), Vj (at position Sn2) and Vk (at position Sn3). For compounds having a single fatty acid chain at position Sn1 or 5 Sn2: S = V, or Vj

Yhdisteille, joilla on kaksi rasvahappoketjua positioissa Sn1 ja Sn2: = VjXVjFor compounds having two fatty acid chains at positions Sn1 and Sn2: = VjXVj

Yhdisteille, joilla on kolme rasvahappoketjua positioissa Sn1, Sn2 ja Sn3: 10 = V x Vj x VkFor compounds having three fatty acid chains at positions Sn1, Sn2 and Sn3: 10 = V x Vj x Vk

Kuvio 3 esittää menetelmää glyserofosfolipidien systemaattista konstruointia varten. Vaiheessa 3-1 muodostetaan yleinen SMILES-kaavio, jonka rakenne sopii glyserofosfolipidien luokkaan. SMILES-kaavio, joka näyttää rasvahappojen siemenmuuttujia positioille Sn1 ja Sn2 sekä pääryhmän 15 muuttujalle (jota edustaa symboli X) positiossa Sn3 (SMILES:in syntaksisään-töjen mukaan rasvahappojen siemenmuuttujat kirjoitetaan sulkuihin, esittäen ne haaroittuvina ketjuina), näytetään kuviossa 5. Joukko sopivia rakenteita näytetään kuviossa 6.Figure 3 shows a method for the systematic construction of glycerophospholipids. Step 3-1 generates a generic SMILES diagram having a structure that fits the class of glycerophospholipids. The SMILES diagram showing the fatty acid seed variables for positions Sn1 and Sn2 and for the main group 15 variable (represented by X) at position Sn3 (according to SMILES syntax rules, fatty acid seed variables are written in parentheses, represented as branched strings in Jo) is shown in Figure 6.

Vaiheessa 3-2 käytetään vastaavia systemaattisia nimiä kutakin 20 rasvahappo-siemen-SMILES:iä kohti geneerisen nimikaavion konstruoimiseksi, nimien algoritmista kehittämistä varten. Eräs esimerkinomainen nimikaavio glyserofosfolipidien luokalle näytetään kuviossa 7. Eräs esimerkinomainen ni-mitaulukko systemaattisten nimien noutamista varten näytetään kuvioissa 9A ja 9B.In step 3-2, the respective systematic names are used for each of the 20 fatty acid seed SMILES to construct a generic name chart for algorithmic development of the names. An exemplary name chart for the class of glycerophospholipids is shown in Figure 7. An exemplary name table for retrieving systematic names is shown in Figures 9A and 9B.

25 Vaiheessa 3-3 käytetään PERL-skriptiä, joka kehittää yhdisteidenStep 3-3 uses a PERL script that develops compounds

kaikki mahdolliset SMILES:it sekä niiden systemaattiset nimet. Vaiheessa 3-4 muunnetaan SMILES:it kanonisiksi SMILES:eiksi (esim. daylight SMILES toolkit -ohjelmistoa käyttämällä). Vaihe 3-5 käsittää molekyylikaavan saamisen SMILES:istä ja molekyylipainon laskemisen saadulle molekyylikaavaile. Vai-30 heessa 3-6 lasketaan satunnainen pisteytys yhdisteen runsauden iimentämi- Iall possible SMILES and their systematic names. In step 3-4, the SMILES are converted to canonical SMILES (eg using daylight using the SMILES Toolkit). Step 3-5 involves obtaining a molecular formula from SMILES and calculating the molecular weight of the resulting molecular formula. In Steps 3-6, a random score is calculated for absorbing compound abundance

seksi. Vaiheessa 3-7 saadaan isotooppien jakauma kyseisen yhdisteen mole- Isex. In steps 3-7, the isotope distribution is determined by the molar I of the compound

kyylikaavasta. Vaiheessa 3-8 isotooppijakauma räätälöidään käytettävän massaspektrometrin resoluutioon.kyylikaavasta. In steps 3-8, the isotope distribution is tailored to the resolution of the mass spectrometer used.

Spektriesitystä voidaan käyttää yhdessä LC/MS-perusteisen seuion-35 nan kanssa. Lipidien identifioinnin helpottamiseksi massaspektrometriadatanSpectrum spectra can be used in combination with LC / MS based seion-35 nan. To facilitate identification of lipids, mass spectrometry data

perusteella tietokannan kullekin yhdisteelle voidaan laskea isotooppijakauma. Ibased on this, an isotope distribution can be calculated for each compound in the database. I

! l 11 Tämä isotooppijakauma voi perustua kemiallisen kaavan kunkin elementin havaittuun luonnolliseen runsauteen. Tietyn kemiallisen koostumuksen isotooppien massat ja runsaudet ennustetaan käyttämällä sopivaa ohjelmistoa, josta esimerkkinä on avoimen lähdekoodin Isotope Pattern Calculator. Tämä teo-5 reettisesti kehitetty jakauma on hyvin hyödyllinen vertaillessa isotooppikaavioi-ta massaspektrometriadatasta. Mutta massaspektrometrista saadut jakaumat riippuvat sen resoluutiosta. PERL-skriptiä voidaan käyttää muuntamaan laskettu jakauma halutuiksi jakaumiksi resoluution mukaisesti. Jakaumat voidaan esittää graafisesti.! l 11 This isotope distribution may be based on the observed natural abundance of each element of the chemical formula. The masses and abundances of isotopes of a particular chemical composition are predicted using appropriate software, such as the open source Isotope Pattern Calculator. This theoretically developed distribution of Theo-5 is very useful for comparing isotope diagrams of mass spectrometry data. But the distributions obtained from a mass spectrometer depend on its resolution. The PERL script can be used to convert the calculated distribution to the desired distribution according to the resolution. Distributions can be plotted.

10 Seuraava selostus liittyy lipidiyhdisteiden diversiteetin kehittämi seen. Se, että nämä rasvahappoketjut pysyvät useimpien iipidirakenteiden osana, tekee mahdolliseksi konstruoida lipidifuokkia algoritmisesti. Erot rasva-asyyli/alkyyliketjujen pituuksissa ja kyllästämättömyyden asteissa luovat suuren diversiteetin jo tiettyyn luokkaan. Lipiditietokanta voi sisältää pääluokkia, 15 kuten rasva-asyylit, glyserolipidit, glyserofosfolipidit, sfingolipidit ja sterolit. Rasva-asyylien luokkaan sisältyvät rasva-alkoholit, rasva-aldehydit, rasva-karboksyylihapot, rasva-asyyli-CoAs/ACP:t ja eikosanoidit. Glyseroiipidien luokka on melkoisen valtava luokka tässä tietokannassa ja sisältää alaluokkia, kuten monoasyyli/alkyyligiyserolit, diasyyli/alkyyliglyserolit ja triasyyliglyserolit. 20 Rasva-a syy li/al kyy li ketjujen permutaatioiden määrä glyserolin kolmessa positiossa, nimittäin sn-1, sn-2 ja sn-3, tekee tästä yhdlsteluokasta eräittäin valtavan. Glyserofosfolipidit ovat toinen tärkeä luokka, joka sisältää glyseroli-fosfokoliinit, glyserofosfoetanolamiinit, glyserofosfoseriinit, glyserofosfaatit, glyseropyrofosfaatit ja glyserofosfoglyserolit. Nämä yhdisteet sisältävät sekä 25 mono- että diasyyii/alkyyliglyseroifosfolipidejä. Plasmologeenit ovat erityinen fosfolipidien luokka, missä glyserolin rasvahappoketju sisältää 0-alkenyylieetterin (-O-ChNCH-) sidoksia. Erään suoritusmuodon mukaisesti plasmologeenien alaluokan koko on 181548. Sfingolipidien luokka sisältää sfingoidikannat, erilaisia keramideja mukaan lukien keramidifosforinositolit, 30 keramldifosfokoliinit, keramidifosfoetanolamiinit, N-asyylisfingosiinit, N-asyyli-sfinganinit, keramidi-1-fosfaatit ja sulfatiidit. Steroleissa esiintyy koleste-ryyliesterien tyyppisiä yhdisteitä.The following description relates to the development of diversity in lipid compounds. The fact that these fatty acid chains remain part of most lipid structures makes it possible to construct lipid classes by algorithmic means. Differences in the lengths of fatty acyl / alkyl chains and degrees of unsaturation create great diversity within a certain class. The lipid database may include major classes such as fatty acyls, glycerolipids, glycerophospholipids, sphingolipids, and sterols. The category of fatty acyls includes fatty alcohols, fatty aldehydes, fatty carboxylic acids, fatty acyl CoAs / ACPs and eicosanoids. The class of glycerolipids is quite a huge class in this database and includes subclasses such as monoacyl / alkylglycerols, diacyl / alkylglycerols and triacylglycerols. 20 The number of permutations of fat / alpha chains at the three positions of glycerol, namely sn-1, sn-2 and sn-3, makes this class of combinations extremely enormous. Glycerophospholipids are another important class that includes glycerol phosphocholines, glycerophosphoethanolamines, glycerophosphoserins, glycerophosphates, glyceropyrophosphates and glycerophosphoglycerols. These compounds contain both mono- and diacyl / alkyl glycerophospholipids. Plasma genes are a specific class of phospholipids in which the fatty acid chain of glycerol contains O-alkenyl ether (-O-ChNCH-) bonds. In one embodiment, the subclass of plasmologenes is 181548. The class of sphingolipids includes sphingoid strains, various ceramides including ceramidophosphorinositols, ceramldiphosphocholines, ceramidophosphoethanolamines, N-acyl-sphingosines, N-acyl-sphingans, and the like. Sterols contain compounds of the cholesteryl ester type.

Lipiditietokanta sisältää pääasiassa kaikki mahdolliset lipidit, joiden rasvahappojen pituuksia (tai pääryhmiä mikäli niitä esiintyy luokassa) voidaan 35 varioida algoritmisesti. Eräs SMILES-metodin rajoitus on sen vaikeus kehittää SMILES-rakenteita algoritmisesti kompleksisemmille lipideille. Esimerkiksi 12 kompleksiset lipidit, kuten giykosfingolipidit, joiden SMILES-rakenteita on vaikea kehittää algoritmisesti, voidaan konstruoida manuaalisesti. Eräs toinen tämän tietokannan rajoitus on redundanttisuus. Saman koostumuksen omaa-via lipidejä on vaikea erottaa. Redundanssiongelmaa voidaan käsitellä osittain 5 pisteytysarvojen perusteella, koska pisteytys lajittelee redundantit lipidit niiden perustuen niiden estimoituun frekvenssiin luonnossa. Yleisemmät lipidit saavat matalampia pisteitä ja päin vastoin. Pisteytysarvoja on edullista säätää eri organismeille. Fragmentointi- ja kromatografiakirjastoja tarvitaan redundanssi-näkökohtien käsittelemiseksi. Yksittäisiä molekyylilajeja vastaavien molekyyli-10 ioninen fragmentit, jotka sopivimmin tuotetaan erilaisissa ionisaatio-oiosuhteissa, yhdessä retentioaikainformaation kanssa toistettavasta analyyttisestä metodista, tuottaa yksittäisen molekyylilajin uniikin tunnusmerkin.The lipid database contains essentially all possible lipids whose fatty acid lengths (or major groups if present in the class) can be algorithmically varied. One limitation of the SMILES method is its difficulty in developing SMILES structures for more complex lipids. For example, 12 complex lipids, such as glycosphingolipids, whose SMILES structures are difficult to develop algorithmically, can be constructed manually. Another limitation of this database is redundancy. Lipids having the same composition are difficult to distinguish. The redundancy problem can be partially addressed based on the scoring values, since scoring sorts the redundant lipids based on their estimated frequency in nature. More common lipids get lower points and vice versa. It is advantageous to adjust the scoring values for different organisms. Fragmentation and chromatography libraries are needed to address redundancy considerations. Molecular-10 ionic fragments corresponding to individual molecular species, preferably produced at different ionization ratios, together with an analytical method reproduced with retention time information, give a unique characteristic of a single molecular species.

Kuvio 4 esittää tekniikkaa lipidiyhdisteiden rakenteiden esittämiseksi SMILES:iä käyttämällä. Viitenumero 400 esittää yleisesti fosfokoliinin (PC) ra-15 kennetta. Fosfokoliinin rakenteessa 400 on rasvahappoja positioissa sn-1 ja sn-2, glyseroli runko ja koliini positiossa sn-3. Useiden lipidien tavoin fosfokoliini on molekyylien luokka, jossa positioissa sn-1 ja sn-2 olevia rasvahappoja voidaan varioida eri fosfokoliiniyhdisteiden kehittämiseksi. Siemenrasvahappoja käytetään, mukaan lukien yleisiä rasvahappoja, kuten palmitiini- tai öljyhappoja 20 jne., vähemmän tavallisia, kuten parittoman ketjun rasvahappoja, hydroksyloi-tuja rasvahappoja, peroksideja jne.Figure 4 illustrates a technique for displaying structures of lipid compounds using SMILES. Reference numeral 400 generally describes the structure of phosphocholine (PC). Phosphocholine structure 400 contains fatty acids at positions sn-1 and sn-2, glycerol backbone and choline at position sn-3. Like many lipids, phosphocholine is a class of molecules in which fatty acids at positions sn-1 and sn-2 can be varied to develop different phosphocholine compounds. Seed fatty acids are used, including common fatty acids such as palmitic or oleic 20, etc., less common such as odd-chain fatty acids, hydroxylated fatty acids, peroxides, etc.

Kuvio 5 esittää SMILES-kaaviota, joka näyttää rasvahappojen sie-menmuuttujia positioille sn-1 ja sn-2 sekä pääryhmän muuttujan (jota esittää symboli X) positiolle sn-3. SMILESiin syntaksisääntöjen mukaisesti rasva-25 happojen siemen muuttujat kirjoitetaan sulkeisiin, esittäen ne haaroittuvina ketjuina.Figure 5 shows a SMILES diagram showing the core variables of the fatty acids at positions sn-1 and sn-2 and the major group variable (represented by X) at position sn-3. According to the syntax rules in SMILES, the seed variables of fatty acids are written in parentheses, representing them as branched chains.

Kuvio 6 esittää glyserofosfolipidien rakenteita, joilla on pääryhmät, kuten fosfokoliini (PC), fosfoetanolamiini (PE), fosfoseriini (PS), fosfoglyseroli (PG), fosfoinositoli (Pl), fosfaatti (PA) and pyrofosfaatti (PPA).Figure 6 shows the structures of glycerophospholipids having major groups such as phosphocholine (PC), phosphoethanolamine (PE), phosphoserine (PS), phosphoglycerol (PG), phosphoinositol (P1), phosphate (PA) and pyrophosphate (PPA).

30 Kuvio 7 esittää esimerkinomaista nimikaaviota glyserofosfolipidien luokalle.Figure 7 shows an exemplary nomenclature for a class of glycerophospholipids.

Kuvio 8 esittää tekniikkaa strukturoitujen nimien käyttämiseksi iinki-tysvaiheessa. Yleisesti ottaen, funktionaalinen pääryhmä määrittelee lipidi- j luokan. Muunnos eri luokkien tai niiden välitasojen välillä tapahtuu funktio-35 naalisen ryhmän tasolla, kun taas rakenteelliset elementit säilyvät, kuten rasvahapot jotka ovat spesifisiä yksittäiselle lipidilajille lipidiluokan sisällä.Figure 8 illustrates a technique for using structured names in the linking step. Generally speaking, the main functional group defines the class of lipids. Transformation between the various classes or their intermediate levels occurs at the level of the functional 35, while structural elements, such as fatty acids specific for a single lipid species within the lipid class, are retained.

1313

Kuviot 9A ja 9B, jotka muodostavat yhden loogisen piirroksen esittävät algoritmisesti muodostettua SMILES:iä eräälle rasvahappoketjujen esi-merkkijoukolle.Figures 9A and 9B, which form one logic drawing, show algorithmically generated SMILES for a set of precursors of fatty acid chains.

Kuviot 10A ja 10B esittävät karakterististen MS/MS spektrien kehit-5 tämistä yksittäisille lajeille. Käyttämällä täyden pyyhkäisyn MS-metodia, jota seuraa kromatografia, kirjataan vanhempi-ioni ja retentioaika. Vanhempi-ionin fragmentointi, MS/MS:ää tai samanlaisia metodeja käyttämällä, kehittää ionin fragmentit, jotka yhdessä MS:n informaation ja retentioajan kanssa auttavat selvittämään yksittäisen yhdisteen.Figures 10A and 10B show the development of characteristic MS / MS spectra for individual species. Using the full-scan MS method followed by chromatography, the parent ion and retention time are recorded. Parent ion fragmentation, using MS / MS or similar methods, produces ion fragments which, together with MS information and retention time, help to determine a single compound.

10 Yllä mainituissa suomalaisissa patenttihakemuksissa FI20055252, FI20055253 ja FI20055254 selostettuja tekniikoita voidaan käyttää prosessoimaan spektri-informaatiota, joka kulkeutuu yksittäisten lipidien etsintöihin.The techniques described in the above-mentioned Finnish Patent Applications FI20055252, FI20055253 and FI20055254 can be used to process spectral information that is transported in the search for individual lipids.

Yllä mainitussa suomalaisessa patenttihakemuksessa FI20055198 selostettuja tekniikoita voidaan käyttää yhdistämään lipidiyhdisteinformaatio poikukaavio- 15 informaation kanssa sekä informaation kanssa muilla biologian tasoilla.The techniques described in the aforementioned Finnish Patent Application FI20055198 can be used to combine lipid compound information with boy chart information as well as information at other levels of biology.

Kuviossa 12 näytetään dataesitys, joka esittää, kuinka lipidiprofiilien kudosten välinen tutkimus yksittäisen molekyyliiajin tasolla voi paljastaa biologisten prosessien välisiä riippuvuuksia organismien eri osastoissa. Data 1200 näyttää sydämen LysoPC:n (lysofosfaaattidyl koliini) huomattavan assosiaation 20 maksan TAG:ien (triasyyliglyseroli) kanssa sekä negatiivisen assosiaation ruskean rasvakudoksen (BAT, brown adipose tissue) GPEtnm {giyserofosfo-etanolamiini) kanssa. Esimerkiksi spesifisten triasyyliglyseroiien lisäys maksassa assosioituu eetteriin kytketyn lysofosfaaattidylkoliinin lisäykseen sydänlihaksessa, mikä kytkeytyy mitokondrioiden toimintahäiriöön sydämessä. Ks.Figure 12 shows a data representation showing how inter-tissue lipid profiling at a single molecular time interval can reveal interdependencies between biological processes in different compartments of organisms. Data 1200 shows a significant association of cardiac LysoPC (lysophosphate dimethylcholine) with 20 liver TAGs (triacylglycerol) and a negative association with brown adipose tissue (BAT) GPEtnm (glycerylphospho-ethanolamine). For example, the addition of specific triacylglycerols in the liver is associated with the addition of ether-linked lysophosphate dylcholine in the myocardium, which is linked to mitochondrial dysfunction in the heart. See.

25 esim. yhteissääntely elementtien TAG 54:3 ja LysoPC 16:1 e välillä. Tämä yh- I25 eg co-regulation between elements TAG 54: 3 and LysoPC 16: 1e. This one

teissääntely, jota osoitetaan viitenumerolla 1202, on yllättävä löytö, joka on { tehty keksinnön mukaisella menetelmällä ja datanprosessointijärjestelmällä. |the code control, designated 1202, is a surprising discovery made by the method and data processing system of the invention. |

Lopuksi kuvio 13 kokoaa yhteen keksinnön mukaisen menetelmän vaiheet.Finally, Figure 13 summarizes the steps of the method of the invention.

30 Alan ammattilainen huomaa helposti, että tekniikan kehittyessä kek sinnön perusajatus voidaan toteuttaa monin eri tavoin. Keksintö ja sen suoritusmuodot eivät siten rajoitu yllä kuvattuihin esimerkkeihin vaan ne voivat vaihdella patenttivaatimusten puitteissa.30 One skilled in the art will readily appreciate that as technology advances, the inventive concept can be implemented in many different ways. The invention and its embodiments are thus not limited to the examples described above, but may vary within the scope of the claims.

! |! |

Claims (8)

1. Menetelmä prosessoida informaatiota yhteisiä rakenneosia jakavien moiekylaaristen luokkien yhdisteistä, jossa menetelmässä: ylläpidetään polkukaavioinformaatiota yhdisteistä yksittäisen yhdis-5 teen tasolla ja/tai geneerisen luokan tasolla (13-1); kehitetään yhdisteiden diversiteettiä perustuen joukkoon siemen-rakenteita, joista kukin kuvaa lipidiyhdisteen, jolla on keskimääräistä suurempi todennäköisyys esiintyä luonnossa (13-2); käytetään formaalia kuvauskieltä ilmaisemaan siemenrakenteet 10 (13-3); käytetään rakenne-elementtejä kehittämään odotettuja spektrejä kullekin yhdisteelle käyttämällä massaspektrometrian tunnettuja koeolosuhteita (13-4); suoritetaan yksi tai useampia spektroskopiakokeita yhdisteinfor-15 maation saamiseksi (13-5); ja kytketään saatu yhdisteinformaatio olemassa olevaan informaatioon molekyyliluokista (13-6).A method for processing information on compounds of moiety molecules which share common moieties, comprising: maintaining path diagram information of compounds at the level of the individual compound and / or at the generic class level (13-1); developing a diversity of compounds based on a plurality of seed structures, each of which describes a higher-than-average lipid compound in nature (13-2); using a formal description language to express seed structures 10 (13-3); using the structural elements to generate the expected spectra for each compound using known experimental conditions for mass spectrometry (13-4); performing one or more spectroscopy experiments to obtain compound information (13-5); and combining the resulting compound information with existing information on molecular classes (13-6). 2. Patenttivaatimuksen 1 mukainen menetelmä, missä olemassa oleva informaatio yhdisteistä sisältää polkukaavioinformaatiota yksittäisen yh- 20 disteen tasolla ja/tai geneerisen luokan tasolla.The method of claim 1, wherein the existing information on the compounds includes path diagram information at the level of the individual compound and / or at the generic class level. 3. Patenttivaatimuksen 1 tai 2 mukainen menetelmä, missä olemassa oleva informaatio yhdisteistä sisältää yhteissääntelyinformaatiota muun yh-disteinformaation kanssa eri biologisista näytteistä.The method of claim 1 or 2, wherein the existing compound information includes co-regulatory information with other compound information from different biological samples. 4. Jonkin edellisen patenttivaatimuksen mukainen menetelmä, joka 25 lisäksi käsittää informaation linkittämisen yksittäisestä yhdisteestä informaatioon muilla tasoilla.The method of any preceding claim, further comprising linking information from the individual compound to information at other levels. 5. Patenttivaatimuksen 4 mukainen menetelmä, missä informaatio muilla tasoilla käsittää informaatiota proteiineista tai geeneistä, jotka liittyvät yksittäisen yhdisteen metaboliaan tai biologiseen variaatioon.The method of claim 4, wherein the information at other levels comprises information about proteins or genes associated with the metabolism or biological variation of the individual compound. 6. Jonkin edellisen patenttivaatimuksen mukainen menetelmä, joka lisäksi käsittää informaation käyttämisen yksittäisten yhdisteiden tasolla ja niiden variaation tietyn organismin osan sisällä eri biologisissa näytteissä, yhdisteiden välisten riippuvuuksien löytämiseksi organismin eri osien välillä.The method of any one of the preceding claims, further comprising using information at the level of the individual compounds and their variation within a particular portion of the organism in different biological samples to find interdependencies between the different parts of the organism. 7. Jonkin edellisen patenttivaatimuksen mukainen menetelmä, mis-35 sä molekylaaristen luokkien yhdisteet käsittävät lipidejä.The method of any one of the preceding claims, wherein the compounds of the molecular classes comprise lipids. 8. Patanprosessointijärjestelmä prosessoimaan informaatiota yhteisiä rakenneosia jakavien molekylaaristen luokkien yhdisteistä, joka datan-prosessointijärjestelmä käsittää: tietokannan ylläpitämään poikukaavioinformaatiota yhdisteistä yksit-5 täisen yhdisteen tasolla ja/tai geneerisen luokan tasolla; ja prosessointiiogiikan: - kehittämään yhdisteiden diversiteettiä perustuen joukkoon siemen-rakenteita, joista kukin kuvaa iipidiyhdisteen, joila on keskimääräistä suurempi todennäköisyys esiintyä luonnossa; 10. käyttämään formaalia kuvauskieltä ilmaisemaan siemenrakenteet; - käyttämään rakenne-elementtejä kehittämään odotettuja spektrejä kullekin yhdisteelle käyttämällä massaspektrometrian tunnettuja koeolosuhteita; - suorittamaan yksi tai useampia spektroskopiakokeita yhdisteinfor-15 maation saamiseksi; ja - kytkemään saatu yhdiste informaatio olemassa olevaan informaatioon molekyyiiluokista.A pot processing system for processing information on compounds of molecular classes sharing common components, the data processing system comprising: a database for maintaining off-chart information on compounds at the level of the individual compound and / or at the generic class level; and processing genetics: to develop diversity of compounds based on a set of seed structures, each representing a lipid compound that is more likely to occur in nature than average; 10. use a formal description language to express seed structures; use structural elements to generate expected spectra for each compound using known experimental conditions for mass spectrometry; - perform one or more spectroscopy experiments to obtain compound information; and - linking the obtained compound information to existing information on molecular classes.
FI20065309A 2006-05-10 2006-05-10 Information management techniques for metabolic related data FI120116B (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FI20065309A FI120116B (en) 2006-05-10 2006-05-10 Information management techniques for metabolic related data
PCT/FI2007/050261 WO2007128882A1 (en) 2006-05-10 2007-05-09 Information management techniques for metabolism-related data
EP07730748A EP2024888A1 (en) 2006-05-10 2007-05-09 Information management techniques for metabolism-related data
US12/300,299 US20090164133A1 (en) 2006-05-10 2007-05-09 Information management techniques for metabolism-related data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20065309 2006-05-10
FI20065309A FI120116B (en) 2006-05-10 2006-05-10 Information management techniques for metabolic related data

Publications (3)

Publication Number Publication Date
FI20065309A0 FI20065309A0 (en) 2006-05-10
FI20065309A FI20065309A (en) 2007-11-11
FI120116B true FI120116B (en) 2009-06-30

Family

ID=36540010

Family Applications (1)

Application Number Title Priority Date Filing Date
FI20065309A FI120116B (en) 2006-05-10 2006-05-10 Information management techniques for metabolic related data

Country Status (4)

Country Link
US (1) US20090164133A1 (en)
EP (1) EP2024888A1 (en)
FI (1) FI120116B (en)
WO (1) WO2007128882A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112129875B (en) * 2020-09-24 2023-05-26 中国农业科学院油料作物研究所 Mass spectrometry method for identifying phosphatidylcholine chain length isomer

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7629028B2 (en) * 1999-03-19 2009-12-08 Battelle Memorial Insitute Methods of making monolayers
WO2002057989A2 (en) * 2001-01-18 2002-07-25 Basf Aktiengesellschaft Method for metabolic profiling
US20040023295A1 (en) * 2001-11-21 2004-02-05 Carol Hamilton Methods and systems for analyzing complex biological systems
EP1327883A3 (en) * 2002-01-10 2003-07-30 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Combined metabolomic, proteomic and transcriptomic analysis from one, single sample and suitable statistical evaluation of data
GB2417557B (en) * 2003-05-29 2008-05-21 Waters Investments Ltd A system and method for metabonomics directed processing of LC-MS or LC-MS/MS data

Also Published As

Publication number Publication date
FI20065309A0 (en) 2006-05-10
EP2024888A1 (en) 2009-02-18
WO2007128882A1 (en) 2007-11-15
US20090164133A1 (en) 2009-06-25
FI20065309A (en) 2007-11-11

Similar Documents

Publication Publication Date Title
Garg et al. Mass spectral similarity for untargeted metabolomics data analysis of complex mixtures
Bauermeister et al. Mass spectrometry-based metabolomics in microbiome investigations
Züllig et al. High resolution mass spectrometry in lipidomics
Tsugawa Advances in computational metabolomics and databases deepen the understanding of metabolisms
Schmelzer et al. The lipid maps initiative in lipidomics
Rojas-Cherto et al. Metabolite identification using automated comparison of high-resolution multistage mass spectral trees
US20220392582A1 (en) Data Processing Device and Method for the Evaluation of Mass Spectrometry Data
Zhu et al. Liquid chromatography quadrupole time-of-flight mass spectrometry characterization of metabolites guided by the METLIN database
Rojas-Chertó et al. Elemental composition determination based on MS n
Matsuo et al. Integrated strategy for unknown EI–MS identification using quality control calibration curve, multivariate analysis, EI–MS spectral database, and retention index prediction
O’Connor et al. LipidFinder: a computational workflow for discovery of lipids identifies eicosanoid-phosphoinositides in platelets
Hartler et al. Bioinformatics tools and challenges in structural analysis of lipidomics MS/MS data
Kasper et al. Fragmentation trees for the structural characterisation of metabolites
US20110172926A1 (en) Generating, viewing, interpreting, and utilizing a quantitive database of metabolites
Ganesh et al. Spatially resolved 3D metabolomic profiling in tissues
Cai et al. Advanced analytical and informatic strategies for metabolite annotation in untargeted metabolomics
Horn et al. Metabolite Imager: customized spatial analysis of metabolite distributions in mass spectrometry imaging
Graca et al. Automated annotation of untargeted all-ion fragmentation LC–MS metabolomics data with MetaboAnnotatoR
Winkler Processing metabolomics and proteomics data with open software: a practical guide
Odenkirk et al. Structural-based connectivity and omic phenotype evaluations (SCOPE): a cheminformatics toolbox for investigating lipidomic changes in complex systems
Deborde et al. MeRy-B, a metabolomic database and knowledge base for exploring plant primary metabolism
FI120116B (en) Information management techniques for metabolic related data
Wishart et al. Metabolomics
Sanchon-Lopez et al. New methodology for known metabolite identification in metabonomics/metabolomics: Topological Metabolite Identification Carbon Efficiency (tMICE)
Garcia-Aloy et al. Untargeted lipidomic profiling of grapes highlights the importance of modified lipid species beyond the traditional compound classes

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 120116

Country of ref document: FI

MM Patent lapsed