FI117988B

FI117988B - Informaationhallintajärjestelmä biokemiallista informaatiota varten

Info

Publication number: FI117988B
Application number: FI20031020A
Authority: FI
Inventors: Pertteli Varpela; Meelis Kolmer
Original assignee: Medicel Oy
Priority date: 2003-07-04
Filing date: 2003-07-04
Publication date: 2007-05-15
Also published as: FI20031020A; US20050010372A1; US7340485B2; EP1503302A9; EP1503302A2; FI20031020A0; EP1503302A3

Description

k 1 1 7988 Vi :' 1

Informaationhallintajärjestelmä biokemiallista informaatiota varten

Keksinnön tausta

Keksintö liittyy informaationhallintajärjestelmään (lyhyesti "IMS” (in-5 formation management system)) biokemiallisen informaation hallintaa varten.

Biologinen tutkimus tuottaa valtavia datamääriä nopeudella, jota ei ole koskaan nähty millään tieteen alalla. Keksinnön pohjana oleva ongelma liittyy vaikeuksiin järjestää valtavia määriä nopeasti vaihtuvaa informaatiota. IMS-järjestelmät voivat olla vapaamuotoisia tai strukturoituja. Eräs hyvin tun-10 nettu esimerkki vapaamuotoisesta IMS:stä on tutkimusinstituutin lähiverkko, johon informaation tuottajat (tutkijat tms.) voivat syöttää informaatiota mielivaltaisessa muodossa käyttämällä mitä tahansa yleisesti saatavilla olevia tai räätälöityjä sovellusohjelmia, kuten tekstinkäsittely-, taulukkolaskenta-tai tietokantaohjelmia. Strukturoitu IMS tarkoittaa järjestelmää, jossa on järjestelmän laa-15 juiset säännöt informaation tallentamiseksi yhtenäiseen tietokantaan.

Strukturoidun IMS:n ongelmana on, että se ei ehkä sopeudu uusiin informaatiotyyppeihin, tai uusien informaatiotyyppien syöttäminen voi vaatia erilaisia kiertotekniikoita. Toisaalta vapaamuotoisen IMS.n ongelmana on, että tallennetun informaation tulkitseminen voi vaatia ulkopuolista tietämystä. Tämä 20 tarkoittaa esimerkiksi sitä, että koedokumentti sisältää numeerisia arvoja, mut- :***; ta niiden täysi merkitys ja/tai kokeen järjestely ei sisälly dokumenttiin. Tai jos • · · : koe on kattavasti dokumentoitu, dokumentti on todennäköisesti hyvin pitkä ja .··% monitulkintainen.

• * • · %

Keksinnön lyhyt selostus » : 25 Keksinnön tavoitteena on tuottaa informaationhallintajärjestelmä • m * (jäljempänä lyhennetty ’’IMS”) yllä mainittujen haittojen lieventämiseksi. IMS:n tulisi olla loogisesti kattava, niin että siihen sisältyvän informaation tulkitsemi- nen vaatii mahdollisimman vähän ulkopuolista informaatiota. Lisäksi IMS:iin :***: sisältyvän informaation tulisi olla strukturoitua, jotta informaatio olisi käytettä- *·· . 30 vissä suurelle määrälle informaationkäsittelytyökaluja.

*·." Keksinnön tavoite saavutetaan IMS:llä, jolle on tunnusomaista se, • · **;·* mitä sanotaan itsenäisissä patenttivaatimuksissa. Keksinnön edulliset suori- : tusmuodot ilmenevät epäitsenäisistä patenttivaatimuksista.

• · ·

Keksinnön mukaista IMS:ää voidaan käyttää tallentamaan informaa- • · 35 tiota populaatioista, yksilöistä, reagenteista tai muiden biomateriaalien näyt- 2 117988 teistä (mitä tahansa, jota voidaan tutkia biologisena/biokemiallisena järjestelmänä tai sen komponenttina). IMS käsittää edullisesti koetietokannan. Koe voi olla todellisen elämän koe (’’märkälaboratorio") tai simuloitu koe (”in silico”). Keksinnön mukaisesti molemmat koetyypit tuottavat datajoukkoja, joista ku-5 hunkin kuuluu: - muuttuja-arvomatriisi, joka sisältää riveiksi ja sarakkeiksi järjestettyjä muuttuja-arvoja; - muuttujankuvauskielellä oleva rivienkuvauslista muuttuja-arvomat-riisin riveistä; 10 - muuttujankuvauskielellä oleva sarakkeidenkuvauslista muuttuja- arvomatriisin sarakkeista; - muuttujankuvauskielellä oleva kiinteiden dimensioiden kuvaus yhdestä tai useammasta kiinteästä dimensiosta, jotka ovat yhteisiä muuttuja-arvomatriisin kaikille arvoille.

15 Keksinnön mukaisesti kunkin kokeen numeeriset arvot talletetaan skalaarilukuina muuttuja-arvomatriisiin, jossa on rivi-sarake -organisaatio. Tällaisia rivi-sarake -matriiseja voidaan käsitellä edelleen hyvin monilla erilaisilla valmiilla tai räätälöidyillä sovellusohjelmilla. On erilliset rivi- ja sarakekuvauslis-tat kuvaamaan, vastaavasti, muuttuja-arvomatriisissa olevien rivien ja sarak-20 keiden merkitystä. Rivi- ja sarakekuvauslistat sekä kiinteiden dimensioiden ... kuvaus kirjoitetaan muuttujankuvauskielellä mielivaltaisten muuttuja-arvojen *···* linkittämiseksi IMS:n strukturoituun informaatioon.

• * • · ·

Muuttujankuvauskielen (variable description language = VDL) käyt-tämisellä saavutetaan se etu, että IMS on pitkälti itseriittoinen. Numeroarvojen 25 tulkitsemiseen tarvitaan vähän tai ei lainkaan ulkopuolista informaatiota. On :*·*: myös suhteellisen suoraviivainen tehtävä kohdistaa muuttujalausekkeisiin pa- kollinen automaattinen syntaksintarkastus. Eräs VDL:n oleellinen piirre on, että ·· .

se sallii muuttujien kuvaamisen muuttuvalla detaljitasolla. VDL voi esimerkiksi kuvata muuttujan biomateriaalitermein (populaatio - yksilö - näyte; organismi - I—, 30 elin - kudos, solutyyppi, jne.), fyysisinä määrinä ja aikana, mutta voimme jättää • · pois detaljeja, jotka eivät ole nykyiselle kontekstille oleellisia.

* · \*·: XML (extendible Markup Language) on eräs hyvin tunnettu esi- merkki kielestä, jota voidaan käyttää muuttujankuvauskielenä. XML:n ongel- . I·. mana on kuitenkin se, että se on tarkoitettu kuvaamaan käytännöllisesti katso- • · · .

35 en mitä tahansa strukturoitua informaatiota, mikä johtaa pitkähköihin lausek- • ·· * * keisnn, joiden lukeminen on ihmiselle vaikeaa. Näin ollen, keksinnön eräs edul- 117988 3 linen suoritusmuoto liittyy muuttujankuvauskieleen, joka XML:ää paremmin soveltuu biologisten muuttujien kuvaamiseen. Lisäksi lausekkeet XML:llä ja sen biologisilla tai matemaattisilla varianteilla, kuten SBML (Systems Biology Markup Language) tai CellML (Cell Markup Language) tai MathML (Mathe-5 matical Markup Language), ovat yleensä liian pitkiä tai monimutkaisia toimiakseen itse dokumentoivina symboleina biologisten muuttujien kuvaamiseen matemaattisissa malleissa. Näin ollen keksinnön eräs edullinen suoritusmuoto käsittää kompaktin mutta laajennettavan VDL:n, joka ratkaisee nämä XML:n ja sen varianttien ongelmat.

10 Tallettamalla numeroarvot skalaarimatriisina saavutetaan se etu, et tä matriisi voidaan analysoida monilla kaupallisesti saatavilla datanetsintätyö-kaluilla (data mining tools), kuten itsejärjestyvillä kartoilla tai muilla klusterointi-algoritmeilla, jotka eivät helposti prosessoi arvoja, joissa on dimensioita. Niinpä i rivi- ja sarakekuvaukset talletetaan erikseen. Tallettamalla kolmas lista, nimit-15 täin kiinteiden dimensioiden kuvaus, saavutetaan se etu, että riveille ja sarakkeille yhteisiä dimensioita ei tarvitse toistaa rivi-ja sarakekuvauslistoissa.

IMS:n käsittelynopeutta voidaan lisätä tallettamalla kukin datajoukko (kukin datajoukko käsittää muuttuja-arvomatriisin, rivi- ja sarakekuvauslistat sekä kiinteiden dimensioiden kuvauksen) datan säiliönä ja tallettamalla tieto-20 kantaan vain tämän säiliön osoite tai tunniste. Olettaen, että datajoukkojen noutamiseen käytetään SQL- (structured query language) tai muita tietokanta-kyselyjä, yhden säiliön tekniikka vähentää dramaattisesti SQL-kyselyillä pro- : sessoitavien yksittäisten dataelementtien määrää. Kun yksittäisiä dataelement- * ·· tejä tarvitaan, koko säiliö voidaan prosessoida sopivalla työkalulla, kuten tau-**’. 25 lukkolaskennalla tai yksinkertaisten tiedostojen (flat file) tietokantajärjestelmäl- lä.

*· · • · ·

: ·* Keksinnön erään toisen edullisen suoritusmuodon mukaisesti IMS

käsittää lisäksi biokemiallisten olioiden tietokannan, joka sisältää olioita tai taulukoita. Muuttujankuvauskieli käsittää muuttujakuvauksia, joista kukin käsittää 30 yhden tai useamman avainsana-nimiparin. Kutakin biokemiallisten olioiden tietokannassa olevaa oliota tai taulukkoa kohti on siihen viittaava avainsana.

* · · . Tämä suoritusmuoto helpottaa automaattista syntaksin tai muuta tarkastusta, joka tehdään talletettavaan informaatioon.

• · *·;·* Keksinnön mukaisten datajoukkojen eräs toinen etu on hyvä tuki : 35 hyvin määritellyille konteksteille. Konteksti määrittelee kokeen, joko märkälabo- • * • * · • ·· ♦ · 4 117988 ratorio tai in-silico, laajuuden. Jokainen konteksti määritellään biomateriaaleina, muuttujina ja aikana.

Kuvioiden lyhyt selostus

Keksintöä selostetaan nyt lähemmin edullisten suoritusmuotojen yh-5 teydessä, viitaten oheisiin piirroksiin, joista:

Kuvio 1 on lohkokaavio IMS:stä, jossa keksintöä voidaan käyttää; Kuvio 2 on IMS:n tietokantarakenteen olio-relaatiomalli;

Kuviot 3A ja 3B esittävät edullista muuttujankuvauskieltä eli VDL:ää; Kuvio 3C esittää VDL-kielisen muuttujalausekkeen syntaksintarkas-10 tusprosessia;

Kuvio 4 näyttää esimerkkejä VDL-kielisistä yhdistetyistä muuttuja-lausekkeista;

Kuvio 5 näyttää, kuinka VDL:ää voidaan käyttää ilmaisemaan erilaisia datakonteksteja; 15 Kuviot 6A ja 6B esittävät keksinnön mukaisia datajoukkoja;

Kuvio 7A on IMS:ään tallennetun polun (pathway) lohkokaavio;

Kuvio 7B näyttää esimerkin monimutkaisesta polusta, joka sisältää yksinkertaisempia polkuja;

Kuvio 8 näyttää polun visualisoitua muotoa; 20 Kuvio 9 esittää koe-oliota IMS:n koeosiossa; .···. Kuvio 10 näyttää esimerkin IMS:n biomateriaaliosion objektipohjai- • · V. sesta toteutuksesta; ·*·

Kuviot 11A ja 11B osoittavat datan seurattavuutta kahden esimerkin * · '···* valossa; » ' * : 25 Kuvio 12A näyttää ohjelmisto-komponenttimallia monimutkaisten * * · : V työvirtojen selostamiseksi ja hallitsemiseksi IMSissä; • * φ

Kuvio 12B näyttää asiakas-palvelin -arkkitehtuurin, johon kuuluu asiakaspäätelaitteessa CT suoritettava graafinen työvirtojen editori; ♦*·.. Kuvio 13 esittää prosessia polkujen automaattista täyttämistä varten .**·. 30 sekvenssitietokannasta; ja .· . Kuvio 14 esittää spatiaalista referenssimallia erilaisille solutyypeille.

• * * • · · .

• ·

Keksinnön yksityiskohtainen selostus . !*. Tässä dokumentissa "objekti” tarkoittaa samaa kuin englanninkieli- • · · nen termi "object” ja "olio” tarkoittaa samaa kuin englanninkielen "entity”.

• *· ♦ 5 117988

Kuvio 1 on yksinkertaistettu lohkokaavio informaationhallintajärjes-telmästä IMS, jossa keksintöä voidaan käyttää. Tässä esimerkissä IMS on toteutettu asiakas/palvelin -järjestelmänä. Useilla asiakaspäätelaitteilla CT, kuten graafisilla työasemilla, on pääsy palvelimeen (tai palvelinten joukkoon) S ver-5 kon NW, kuten lähiverkon tai Internetin kautta, Palvelimeen kuuluu tai siihen on kytketty tietokanta DB. Palvelimen informaationkäsittelylogiikka ja tietokannan data muodostavat IMS;n. Tietokanta muodostuu rakenteesta ja sisällöstä. Keksinnön eräs edullinen suoritusmuoto tuo parannuksia IMS:n tietokannan DB rakenteeseen. Palvelin S käsittää myös erilaisia prosessointilogiikoita. 10 Viestilogiikka tarjoaa palvelimen perustoiminnot asiakaspäätelaitteiden kanssa viestintää varten. On myös edullisesti käyttöliittymälogiikka erilaisten käyttöliittymien luomiseksi. Voi olla erilaisia tarkastuksia syötettävän datan merkitsevyyden tarkastamista varten (kuten syntaksi- tai aluetarkastuksia). Eräs hyvin hyödyllinen piirre on projektihallitsija, jolla on seurantalogiikka, joka tarjoaa da-15 tan visuaalisen seurannan.

Palvelin (tai palvelinjoukko) S käsittää myös erilaisia dataproses-sointityökaluja datan analysointia, visualisointia ja etsimistä (mining) varten, ym. Tallentamalla datajoukot säiliöinä rivi-sarake-organisaatiossa (eikä osoiteta jokaista data-alkiota erikseen SQL-kyselyillä) saavutetaan se etu, että tällai-20 set rivien ja sarakkeiden datajoukot voidaan helposti prosessoida kaupallisesti saatavilla analyysi- tai visualisointityökaluilla. Muita suoritusmuotoja kolmansi-en osapuolten työkalujen integroimiseksi yhteisen käyttöliittymän alaisuuteen ·**.: selostetaan kuvion 12 yhteydessä.

• · • · *·*·* Datajoukot ... 25 Kuvio 2 on IMS:n tietokantarakenteen 200 olio-relaatiomalli. Tieto- » » · kantarakenne 200 käsittää seuraavat pääosat: perusmuuttujat/yksiköt 204, *··*’ datajoukot 202, kokeet 208, biomateriaalit 210, polut 212 ja valinnaisesti si jainnit 214.

• · : '·· Datajoukot 202 kuvaavat IMSiään tallennettuja numeerisia arvoja.

i<t#J 30 Kukin datajoukko koostuu muuttujajoukosta, biomateriaali-informaatiosta ja X : ajasta. Huomattakoon, että perusmuuttujat/yksiköt -osasta 204 ja aikaosasta · · t.*./ 206 on monesta moneen -relaatiot datajoukko-osaan 202. Tämä tarkoittaa, *:* että kukin datajoukko 202 käsittää tyypillisesti yhden tai useamman perus- muuttujan/yksikön ja yhden tai useamman aikalausekkeen. Datajoukko-osan 35 202 ja koeosan 208 välillä on monesta moneen -relaatiot, mikä tarkoittaa, että kukin datajoukko 202 liittyy yhteen tai useampaan kokeeseen 208, ja kukin koe 6 117988 liittyy yhteen tai useampaan datajoukkoon. Datajoukko-osan edullista toteutusta selostetaan lisää kuvioiden 6A ja 6B yhteydessä.

Perusmuuttujat/yksiköt -osa 204 kuvaa IMS:ssä käytetyt perusmuuttujat ja yksiköt. Erässä yksinkertaisessa toteutuksessa kukin perusmuuttuja-5 tietue käsittää yksikkökentän, mikä tarkoittaa, että kukin perusmuuttuja (esim.

massa) voidaan ilmaista vain yhdessä yksikössä (esim. kilogrammoina). Jous-, tavammassa suoritusmuodossa yksiköt tallennetaan erilliseen tauluun, mikä ' sallii perusmuuttujien ilmaisemisen useassa yksikössä, kuten kilogrammoina tai nauloina.

10 Perusmuuttujat ovat muuttujia, joita voidaan käyttää sellaisinaan, tai niitä voidaan yhdistää muodostamaan monimutkaisempia muuttujia, kuten tietyn näytteen konsentraatio tietyllä ajanhetkellä.

Aikaosa 206 tallentaa datajoukkojen 202 aikakomponentit. Datajou-kon aikakomponentti käsittää edullisesti suhteellisen (sekuntikello-) ajan ja ab-15 soluuttisen (kalenteri-) ajan. Suhteellista aikaa voidaan käyttää esimerkiksi kuvaamaan nopeutta, jolla kemiallinen reaktio tapahtuu. On myös päteviä syitä tallentaa absoluuttinen aika kunkin datajoukon yhteydessä. Absoluuttinen aika osoittaa koska kalenteriajassa vastaava tapahtuma esiintyi. Tällaista absoluuttisen ajan informaatiota voidaan käyttää laskemaan suhteellinen aika minkä 20 tahansa koetapahtumien välillä. Sitä voidaan käyttää myös vianetsintätarkoi-tuksiin. Jos esimerkiksi havaitaan viallinen instrumentti tiettynä aikana, niin tuolla instrumentilla tehdyt kokeet ennen vian havaitsemista tulisi tarkistaa.

Koeosa 208 tallentaa kaikki IMS:n tuntemat kokeet. On kaksi kokei- • « :***: den päätyyppiä, joista käytetään yleisesti nimitystä märkälaboratorio ja in- * * * 25 silico. Mutta datajoukkojen 202 suunnasta nähtynä kaikki kokeet näyttävät sa-moilta. Koeosa 208 toimii siltana datajoukkojen 202 ja kokeiden kahden pää- • · tyypin välillä. Jo suoritettujen kokeiden lisäksi koeosaa 208 voidaan käyttää **** tallentamaan tulevia kokeita. Kokeiden edullisia objektiperustaisia toteutuksia selostetaan kuvion 9 yhteydessä. Koeosan eräs tärkeä suunnittelutavoite on • · : ” 30 datan seurattavuus, kuten kuvion 11 yhteydessä lähemmin selostetaan.

Biomateriaaliosa 210 sisältää tietoa populaatioista, yksilöistä, reagenteista tai muiden biomateriaalien näytteistä (mitä tahansa, jota voidaan • · .·**. tutkia biologisena järjestelmänä tai sen komponenttina) IMS:ssä. Biomateriaalit kuvataan edullisesti datajoukkoina 202 käyttäen VDL.ää kuvaamaan kunkin *·:·* 35 biomateriaalin hierarkkisesti, eli muuttuvalla detaljitasolla, kuten populaationa, • * • · « • · · • · 7 117988 yksilönä, reagenttina ja näytteenä. Eräs edullinen biomateriaaliosan 210 objek-tiperusteinen toteutus selostetaan kuvion 10 yhteydessä.

Biomateriaaliosa 210 kuvaa reaalimaailman biomateriaaleja, mutta polkuosa 212 kuvaa biomateriaalien teoreettisia malleja. Biokemialliset polut 5 ovat jossakin määrin analogisia elektronisten piirien piirikaavioiden kanssa. Polut voidaan kuvata IMS:ssä monella tavalla, mutta kuvio 2 esittää erään edullisen toteutuksen pääpiirteet. Kuvion 2 esimerkissä kukin polku 212 käsittää yhden tai useamman yhteyden 216, joista kukin liittyy yhteen tai useampaan biokemialliseen olioon 218 ja yhteen interaktioon 222.

10 Biokemialliset oliot tallennetaan biokemiallisten olioiden osassa 218.

Kuvion 2 esimerkissä kukin biokemiallinen olio on luokkaobjekti, jonka alaluokat ovat geeni 218-1, transkripti 218-2, proteiini 218-3, makromolekyylikomp-leksi 218-4 ja yhdiste 218-5. Edullisesti on myös optio tallentaa abioottinen heräte 218-6, kuten lämpötila, jolla on potentiaalisia yhteyksiä interaktioihin ja 15 potentiaalisia vaikutuksia relevantteihin kineettisiin lakeihin.

Tietokantaviiteosa 220 toimii siltana ulkoisiin tietokantoihin. Kukin tietokantaviite osassa 220 on relaatio sisäisen biokemiallisen olion 218 ja ulkoisen tietokannan olion välillä, kuten Affymetrix Inc. -yhtiön spesifinen koetin-joukko.

20 Interaktio-osa 222 sisältää biokemiallisten olioiden välisiä interaktioi ta, mukaanlukien reaktioita. Kineettisten lakien osa 224 kuvaa (hypoteettisia tai kokeellisesti varmennettuja) kineettisiä lakeja, jotka vaikuttavat interaktioihin. Polkujen edullisia ja yksityiskohtaisempia toteutuksia selostetaan kuvioiden 7A, • · ·"; 7B ja 8 yhteydessä.

• · · 25 Keksinnön erään edullisen suoritusmuodon mukaisesti IMS tallentaa • · myös paikkatietoa 214. Paikkatietoon viitataan biomateriaaliosasta 210 ja pol- • ♦ kuosasta 122. Esimerkiksi biomateriaaleihin liittyvän informaation suhteen ku- • * *** viossa 2 näytetty organisaatio sallii minkä tahansa detaljitason tai tarkkuuden ## yhtäältä populaation ja toisaalta solun spatiaalisen pisteen (koordinaattien) • i t ” 30 välillä. Kuviossa 2 näytetyssä esimerkissä paikkatieto käsittää organismin 214- 1 (esimerkiksi ihminen), elimen 214-2 (esim. sydän, mahalaukku), kudoksen j\) 214-3 (esim. sileä lihaskudos, hermokudos), solutyypin 214-4 (esim. lieriöepi- • · .*·*. teelisolu), solun osa 214-5 (eg tuma, solulima) ja avaruuspisteen 214-6 (eg x = *·) 0.25, y = 0.50, z = 0.75 suhteessa suorakulmaisen referenssisolun dimensioi- • · · *·:·* 35 hin. Organismi tallennetaan edullisesti taksonomiapuuna, jossa on solmu kul- lekin tunnetulle organismille. Elin-, kudos-, solutyyppi- ja solun osa -lohkot voi- 8 117988 daan toteuttaa yksinkertaisina listoina. Tallentamalla paikkatieto viittauksena ennalta määrättyihin listoihin saadaan se etu, että tällainen viittaus pakottaa automaattiseen syntaksintarkastukseen. On siis mahdotonta tallentaa paikkatietoa, joka viittaa väärinkirjoitettuun tai olemattomaan elimeen tai organismiin.

5 Keksinnön erään toisen edullisen suoritusmuodon mukaisesti paik katieto voi käsittää myös spatiaalista tietoa 214-6, kuten spatiaalisen pisteen organismi-soluhierarkian kaikkein detaljoiduimmassa paikassa. Jos kaikkein detaljoiduin paikka osoittaa spesifistä solua tai solun osaa, niin spatiaalinen piste voi edelleen määrittää kyseistä tietoa relatiivisina spatiaalisina koordi-10 naatteina. Solutyypistä riippuen spatiaaliset koordinaatit voivat olla suorakulmaisia tai napakoordinaatteja. “

Eräs tällaisen paikkatiedon etu on parempi ja systemaattinen tapa verrata paikkoja näytteissä ja teoreettisissa rakenteissa, kuten poluissa, jotka on varmennettava relevanteilla mittaustuloksilla.

15 Muuttujankuvauskieli

Kuviot 3A ja 3B esittävät edullista muuttujankuvauskieltä eli VDL:ää.

Yleisesti ottaen muuttuja on mitä tahansa, jolla on arvo ja joka edustaa biologisen järjestelmän tilaa (joko tosielämän biomateriaalia tai teoreettista mallia).

Kun IMS otetaan käyttöön, suunnittelija ei tiedä, minkälaisia biomateriaaleja 20 tullaan kohtaamaan tai minkälaisia kokeita tullaan suorittamaan tai mitä tulok-•***; siä näistä kokeista tullaan saamaan. Niin ollen muuttujakuvausten on oltava

Mt ,\j avoimia tuleville laajennuksille. Toisaalta avoimuus ja joustavuus eivät saa joh- .*··! taa anarkiaan, minkä vuoksi tulisi varmistaa, että muuttujakuvauksiin sovelle- * · taan hyvin määriteltyjä sääntöjä. Nämä tarpeet tyydytetään parhaiten laajen- ' .. . 25 nettavalla muuttujankuvauskielellä (variable description language, VDL).

Esimerkiksi extendible markup language (XML) on eräs esimerkki • « *···* laajennettavasta kielestä, jota voitaisiin periaatteessa käyttää kuvaamaan bio logisia muuttujia. Tietokoneet tulkitsevat XML-lausekkeita melko helposti. XML- • * : *·· lausekkeet pyrkivät kuitenkin olemaan hyvin pitkiä, minkä vuoksi ihmisten on :..*J 30 vaikea lukea niitä. Sen vuoksi tarvitaan laajennettavaa VDLiää, joka on kom- ,·) : paktimpi ja ihmisille ja tietokoneille helppolukuisempi kuin XML.

* * tI..| Laajennettavan VDL:n idea on, että sallittavat muuttujalausekkeet "* ovat ’’vapaita mutta ei kaoottisia”. Tämä idea voidaan esittää formaalimmin sanomalla, että IMS:n tulisi sallia vain ennalta määrättyjä muuttujia, mutta en-35 naita määrättyjen muuttujien joukon tulisi olla laajennettavissa ilman ohjelmointitaitoja. Esimerkiksi jos muuttujalausekkeille suoritettava syntaksintarkastus on 9 117988 kiinteästi koodattu syntaksintarkastusrutiiniin, jokainen uusi muuttujalauseke vaatii uudelleenohjelmointia. Optimaalinen kompromissi tiukan järjestyksen ja kaaoksen välillä voidaan toteuttaa tallentamalla sallittavat muuttuja-avainsanat tietorakenteeseen, kuten datatauluun tai tiedostoon, joka on muutettavissa il-5 man uudelleenohjelmointia. Normaaleja pääsynhallintatekniikoita voidaan käyttää määrittämään, mitkä käyttäjät ovat valtuutettuja lisäämään uusia sallittavia muuttuja-avainsanoja.

Kuvio 3A esittää muuttujalauseketta edullisella VDL:llä. Muuttujalauseke 30 käsittää yhden tai useamman avainsana-nimiparin 31, jotka on erotet-10 tu rajoittimilla. Kuten kuvion 3A esimerkissä näytetään, kukin avainsana-nimipari 31 koostuu avainsanasta 32, avaavasta rajoittimesta (kuten avaavasta hakasulusta) 33, (muuttujan) nimestä 34 ja sulkevasta rajoittimesta (kuten sulkevasta hakasulusta) 35. Esimerkiksi “Ts[2002-11-26 18:00:00]” (ilman lainausmerkkejä) on esimerkki aikaleimasta. Jos on useita avainsana-nimipareja 15 31, niin parit voidaan erottaa erottimella 36, kuten välilyönnillä tai sopivalla prepositiolla. Erotin ja toinen avainsana-nimipari 31 on piirretty katkoviivoilla, koska ne ovat valinnaisia. Elementtien 32 - 36 väliset &-merkit osoittavat merk-kijonoyhdistämistä. Toisin sanoen &-merkit eivät sisälly muuttujankuvaukseen.

Mitä kielen syntaksiin tulee, niin muuttujankuvaus voi käsittää mieli-20 valtaisen määrän avainsana-nimipareja 31. Mutta mielivaltainen parien 31 yhdistelmä, kuten esimerkiksi ajan konsentraatio, ei ehkä ole semanttisesti mie- :*··; lekäs.

• * ·

Kuvio 3B esittää tyypillisten avainsanojen taulukkoa. Taulukon 38 .···! kunkin merkinnän vieressä on sen selkokielinen kuvaus 38’ ja havainnollistava • · 25 esimerkki 38”. Huomattakoon, että taulukko 38 on tallennettu IMS:ään, mutta • * .. . muita taulukoita 38’ ja 38” ei välttämättä ole tallennettu (niiden tarkoitus on * · · *t#;' vain selventää taulukon 38 kunkin avainsanan merkitystä). Esimerkiksi avain- • · *···* sanan ”T” esimerkki on ‘‘T[-2.57E-3]”, joka on yksi tapa ilmaista miinus 2.57 millisekuntia ennen referenssiaikaa. Referenssiaika voidaan osoittaa aikalei- • · : ’·* 30 man avainsanalla "Ts".

Avainsanat ”T” ja "Ts” toteuttavat vastaavasti suhteellisen (sekunti- .·! · kello-) ajan ja absoluuttisen (kalenteri-) ajan. Ilmaisemalla aika suhteellisen ja • · · absoluuttisen ajan yhdistelmänä tuo sen pienen haitan, että kullakin ajanhet-**"’ kellä on teoriassa ääretön määrä ekvivalenttisia lausekkeita. Esimerkiksi 35 “Ts[2002-11-26 18:00:30]” ja “Ts[2002-11-26 18:00:00]T[00:00:30]” ovat ekvi- « · • · » • * · * · 10 117988 valenttisia. Niinpä on edullista olla hakulogiikka, joka prosessoi aikalausekkeet mielekkäällä tavalla.

Tallentamalla IMS:n taulukkoon 38 merkintä kutakin sallittavaa avainsanaa kohti on mahdollista pakottaa syötettäville muuttujille automaatti-5 nen syntaksintarkastus, kuten kuviossa 3C näytetään.

Edullisen VDL:n syntaksi voidaan ilmaista formaalisti seuraavalla tavalla: <muuttujan kuvaus>::=<avainsana>"[”<nimi>”]”{{erotin}<avainsana>”["<nimi>”]’’}<loppu> <avainsana>;:=<jokin ennalta määrätty avainsana, ks. esim. taulu 38> 10 <nimi>::-<merkkijono> | “*" = mikä tahansa nimi relevantissa datataulussa

Eksplisiittisten rajoittimien, kuten”[” ja ”]” nimen ympärillä, tarkoitus on sallia nimessä mikä tahansa merkki, mukaanlukien välilyönnit (muttei tietenkään rajoittimia).

Eräs edullinen avainsanojen joukko 38 käsittää kolmenlaisia avain-15 sanoja: mitä, missä ja koska. "Mitä” avainsanat, kuten muuttuja, yksikkö, biokemiallinen olio, vuorovaikutus, jne., osoittavat mitä havaittiin tai tullaan havaitsemaan. ’’Missä” avainsanat, kuten näyte, populaatio, yksilö, paikka, jne., osoittavat missä havainto tehtiin tai tullaan tekemään. ’’Koska” avainsanat, kuten aika tai aikaleima, osoittavat havainnon aikaa.

20 Kuvio 3C esittää valinnaista syntaksintarkastusprosessia. Formaalin VDL:n eräs etu on, että se sallii automaattisen syntaksintarkastuksen. Kuvio :[**: 3C esittää tilakonetta 300 tällaisen syntaksintarkastuksen suorittamiseksi. Tila- :*·.· koneet voidaan toteuttaa tietokonerutiineina. Alkutilasta 302 lähtien pätevä • · - :***; avainsana aiheuttaa siirtymän ensimmäiseen välitilaan 304. Mikä tahansa muu • · · 25 aiheuttaa siirtymän virhetilaan 312. Ensimmäisestä välitilasta 304 avaava rajoi-tin aiheuttaa siirtymän toiseen välitilaan 306. Mikä tahansa muu aiheuttaa siir- ♦ · tymän virhetilaan 312.

**** Avaavan rajoittimen jälkeen nimen osaksi hyväksytään mitä tahansa merkkejä paitsi sulkeva rajoitin, ja tilakone pysyy toisessa välitilassa 306. Vain ϊ *' 30 muuttujalausekkeen ennenaikainen päättyminen aiheuttaa siirtymän virhetilaan 312. Sulkeva rajoitin aiheuttaa siirtymän kolmanteen välitilaan 308, jossa yksi :\j avainsana/nimipari on pätevästi ilmaistu. Pätevä erotinmerkki aiheuttaa paluun * * .··♦. ensimmäiseen välitilaan 304. Muuttujalausekkeen lopun ilmaisu aiheuttaa siir- ’*[ I tymän ”OK’’ -tilaan 310, jossa muuttujalauseke todetaan syntaksiltaan oikeaksi.

35 Kuvio 4 näyttää esimerkkejä VDL-kielisistä yhdistetyistä muuttuja- • * *.*·· lausekkeista. Yhdistetyt muuttujalausekkeet ovat lausekkeita, joissa on useita 11 117988

avainsana/nimipareja. Huomattakoon, kuinka muuttujien spesifisyys kasvaa kun määreitä lisätään. Viitenumerot 401 - 410 osoittavat viittä ekvivalenttisten lausekkeiden paria siten, että kunkin parin ensimmäinen lauseke on monisa-naisempi ja toinen on kompaktimpi. Tietokoneelle monisanaiset ja kompaktit 5 lausekkeet ovat samanarvoisia, mutta niitä lukevat ihmiset saattavat pitää monisanaista muotoa helpommin ymmärrettävänä. Kuvion 4 lausekkeet ovat itsestään selviä taulukkoon 38 tehtävän viittauksen perusteella. Esimerkiksi lausekkeet 409 ja 410 määrittelevät reaktionopeuden vuorovaikutuksen EC

2.7,7.13-PSA1 kautta mooleina litraa ja sekuntia kohti. Viitenumero 414 osoit-10 taa muuttujalauseketta “ν[*]Ρ[*]0[*]Ι_[*]υ[*]”, joka tarkoittaa minkä tahansa organismin minkä tahansa proteiinin mitä tahansa muuttujaa missä tahansa yksiköissä. Viitenumerot 415 ja 416 osoittavat kahta erilaista muuttujalauseketta kahdelle erilaiselle ajan ilmaukselle. Muuttujalauseke 415 määrittelee kolmen tunnin aikavälin ja muuttujalauseke 417 määrittelee 10 sekunnin aikavälin (joka 15 alkaa viisi sekuntia ennen aikaleimaa ja päättyy viisi sekuntia sen jälkeen).

Huomattakoon, että IMS:ää käyttävien ihmisten kielestä riippumatta on edullista sopia yhteisestä kielestä muuttujalausekkeita varten. Vaihtoehtoisesti IMS voi käsittää käännösjärjestelmän muuttujalausekkeiden kääntämiseksi ihmisten eri kielille.

20 Olennaisesti yllä kuvatun kaltainen VDL on hyvin määritelty, koska vain kuviossa 3C näytetyn syntaksintarkastuksen läpäisevät lausekkeet hyväkin": sytään. VDL on avoin, koska sallitut avainsanat talletetaan taulukkoon 38, joka on laajennettavissa. VDL on kompakti, koska avainsanoja varten käytetään • · .*·*. olennaisesti minimimäärä kirjaimia tai merkkejä. Yleisimmät avainsanat koos- 25 tuvat yhdestä kirjaimesta, tai kahdesta kirjaimesta, mikäli yhden kirjaimen avainsana ei ole yksikäsitteinen.

t · • · * * *

Datakontekstit

Kuvio 5 näyttää, kuinka VDL:ää voidaan käyttää ilmaisemaan erilai- • · : *·· siä datakonteksteja eli biologisen tutkimuksen laajuutta (scopes). Kaikki muut- :[[[: 30 tujat, olivatpa ne sitten näytteitettyjä, mitattuja, mallinnettuja, simuloituja tai .·[ · miten tahansa prosessoituja, voidaan ilmaista: • * · a) yksinkertaisina arvoina biomateriaalinäytteelle jonakin ajan- *:*’ hetkenä; b) ajan funktiona biomateriaalille; 35 c) stokastisina muuttujina jakaumineen kunakin ajanhetkenä pe rustuen käytettävissä oleviin biomateriaalinäytteisiin; tai 12 117988 d) stokastisina prosesseina biologisessa datakontekstissa.

a), b) ja c) ovat d:n projektioita, joka on järjestelmän rikkain esitys. Kaikki IMS:ssä oleva data on kolmeulotteisessa kontekstiavaruudessa, jolla on relaatiot: 5 1. muuttujalistoihin ("mitä"); 2. biomateriaalin listoihin ("missä”) ja 3. aikapisteiden tai -intervallien listoihin ("milloin").

Viitenumero 500 osoittaa yleisesti N + 2 -ulotteista kontekstiavaruut- ta, jossa on yksi akseli kullekin muuttujalle (N), biomateriaaleille ja ajalle. Eräs 10 hyvin yksityiskohtainen muuttujalauseke 510 spesifioi muuttujan (mannoosin konsentraatio mooleina litrassa), biomateriaalin (populaatio abcd1234) ja aika-leiman (10.6.2003 klo 12:30). Muuttujan arvo on 1,3 mol/l. Koska muuttujalauseke 510 spesifioi kontekstiavaruuden kaikki koordinaatit, se esitetään pisteenä 511 kontekstiavaruudessa 500.

15 Seuraava muuttujalauseke 520 on vähemmän detaljoitu sikäli, että se ei spesifioi aikaa. Siksi muuttujalauseke 520 esitetään ajan funktiona 521 kontekstiavaruudessa 500.

Kolmas muuttujalauseke 530 spesifioi ajan, mutta ei biomateriaalia. Sen vuoksi se esitetään kaikkien niiden biomateriaalien jakaumana 531, jotka 20 kuuluvat kokeeseen spesifioituna aikana.

Neljäs muuttujalauseke 540 ei spesifioi aikaa eikä biomateriaalia. Se esitetään ajan funktioiden joukkona 541 ja eri biomateriaalien jakaumien joukkona 542.

* · .**·. Muuttujankuvauskielen mahdollistamien erilaisten lausekkeiden ja 25 sopivasti järjestettyjen (seuraavaksi selostettavien) datajoukkojen ansiosta tut- • · kijoilla on käytännöllisesti katsoen rajattomat mahdollisuudet tutkia biologisen * « järjestelmän aika-tila -avaruutta moniulotteisena stokastisena prosessina. Jär-’**·1 jestelmän probabilistiset aspektit perustuvat relevanttien biomateriaalien tapah tuma-avaruuteen, ja dynaamiset aspektit perustuvat aika-avaruuteen. Biomate- • *** 30 riaalidata ja aika voidaan rekisteröidä, kun relevantit kokeet dokumentoidaan.

* · ·

Kaikki kvantitatiiviset mittaukset, data-analyysit, mallit ja simulointi- tulokset voidaan käyttää uudelleen uusissa analyysitekniikoissa relevantin .···. taustainformaation, kuten mitattujen biomateriaalien fenotyyppien, löytämisek- ♦ · *“ si, kun dataa tulee tulkita eri sovelluksiin.

• · · * · · ·· · · * · · • ·1 • · 13 117988

Datajoukot

Kuviot 6A ja 6B esittävät keksinnön edullisen suoritusmuodon mukaisia datajoukkoja. Sekä märkälaboratorio- että in-silico -tyyppiset kokeet tallennetaan datajoukkoina. Kuviossa 6A esimerkinomainen datajoukko 610 ku-5 vaa mRNA-molekyylien joukon 610 (on näytetty mRNA1 - mRNA6) ilmentymis-tasoja. Datajoukko 610 on yksi esimerkki kuviossa 2 näytettyyn datajoukko-osioon 202 tallennetusta datajoukosta. Datajoukko 610 käsittää neljä matriisia 611 - 614. Muuttuja-arvomatriisi 614 kuvaa muuttujien arvot rivi-sarake -organisaatiossa. Rivienkuvauslista 613 määrittää muuttuja-arvomatriisin rivien 10 merkityksen. Sarakkeidenkuvauslista 612 määrittää muuttuja-arvomatriisin sarakkeiden merkityksen. Lopuksi, kiinteiden dimensioiden kuvaus 611 määrittää yhden tai useamman kiinteän dimension, jotka ovat yhteisiä muuttuja-arvomatriisin 614 kaikille arvoille. Huomattakoon, että muuttuja-arvomatriisi 614 koostuu skalaarinumeroista. Muut matriisit 610-613 käyttävät VDL:ää sisältönsä 15 merkityksen spesifioimiseen.

Kuvio 6A näyttää myös ihmisille luettavan version 615 datajoukosta 610. Huomattakoon, että datajoukon ihmisille luettava versio 615 on näytetty vain tämän suoritusmuodon parempaa ymmärtämistä varten. Ihmisille luettavaa versiota 615 ei välttämättä tallenneta mihinkään, ja se voidaan luoda data-20 joukosta 610 automaattisesti, koska tahansa kun tarve tähän esiintyy. Ihmisille luettava versio 615 on esimerkki datajoukoista, kuten taulukkolaskennan tie-dostoista, joita tyypillisesti tallennetaan tunnetuissa IMS:issä biologista tutki- :*·.· musta varten. IMS käsittää edullisesti käyttöliittymälogiikan automaattista kak- • · .·**. sisuuntaista muunnosta varten tallennusformaatin 611 - 614 ja ihmisille luetta- 25 van version 615 välillä.

• ·

Kuvio 6B esittää toista datajoukkoa 620. Datajoukko 620 spesifioi • · myös kuuden mRNA-molekyylin ilmentymistasoja, mutta nämä eivät ole kuu- • · *·*·* den eri yksilön ilmentymistasoja vaan yhden populaation ilmentymistasoja nel jänä eri aikana. Datajoukossa 620 kiinteiden dimensioiden kuvaus 621 spesifi- : '*· 30 oi, että data liittyy tietyn hiivan näytteeseen xyz tiettynä päivänä ja aikana. Sa- * * * rakkeidenkuvauslista 622 spesifioi, että sarakkeet spesifioivat dataa neljälle : ajanhetkelle, nimittäin 0, 30, 60 ja 120 sekuntia kiinteiden dimensioiden kuva- i ·· uksen 621 aikaleiman jälkeen. Rivienkuvauslista 623 on hyvin samanlainen • · "* kuin edellisen esimerkin vastaava lista 613, ja ainoa ero on, että viimeinen rivi 35 osoittaa lämpötilaa eikä potilaan ikää. Muuttuja-arvomatriisi 624 sisältää todel-liset numeroarvot.

• f 117988 14

Kunkin datajoukon (esimerkiksi datajoukon 610) jakaminen neljään eri komponenttiin (matriisit 611 - 614) voidaan toteuttaa siten, että kukin matriisi 611 - 614 on erikseen osoitettava datarakenne, kuten tiedosto tietokoneen tiedostojärjestelmässä. Vaihtoehtoisesti muuttuja-arvomatriisi voidaan tallentaa 5 yhtenä osoitettavana datarakenteena, kun taas muut kolme matriisia (kiinteiden dimensioiden kuvaus ja rivi/sarakekuvaukset) voidaan tallentaa toisena datarakenteena, kuten yhtenä tiedostona, jossa on otsakkeet ’’yhteiset", "rivit” ja "sarakkeet”. Eräs avainelementti tässä on se, että muuttuja-arvomatriisi talletetaan erillisenä datarakenteena, koska se on datajoukon todellisia numeroit) arvoja sisältävä komponentti. Jos numeroarvot tallennetaan erikseen osoitettavaan datarakenteeseen, kuten tiedostoon tai taulukkoon, se voidaan helposti prosessoida erilaisilla datanprosessointisovelluksilla, kuten tiedonrikastuksella (data mining) tai vastaavilla. Toinen etu on, että eri matriiseja muodostavia erillisiä dataelementtejä ei tarvitse prosessoida SQL-kyselyillä. SQL-kysely noutaa 15 vain datajoukon osoitteen tai muun tunnisteen mutta ei erillisiä dataelementtejä, kuten matriiseissa 611 - 614 olevia numeroita ja kuvauksia.

Polut

Kuvio 7A on IMS:ään tallennetun polun (pathway) lohkokaavio.

Keksinnön mukainen IMS tallentaa kunkin biologisen järjestelmän strukturoitu- 20 na polkumallina 700 järjestelmän komponenteista ja komponenttien välisistä :***. yhteyksistä (connections). Järjestelmän komponentteja ovat biokemialliset oliot • # « : 218 ja vuorovaikutukset 222. Biokemiallisten olioiden 218 ja vuorovaikutusten .···[ 222 väliset yhteydet 216 tunnistetaan itsenäisiksi objekteiksi, jotka edustavat t · kunkin biokemiallisen olion roolia (esimerkiksi substraatti, tuote, aktivaattori tai .* 25 inhibiittori) kunkin polun kussakin vuorovaikutuksessa. Yhteys voi sisältää att- • · · \m·' ribuutteja, jotka ovat spesifisiä kullekin biokemialliselle oliolle ja vuorovaikutus- • · *···* parille (kuten stökiömetrinen kerroin). Kuten aiemmin todettiin, IMS tallentaa edullisesti paikkatietoa, ja kukin polku 212 liittyy bioloogiseen paikkaan 214.

·· • *·· Yksi biologinen paikka voidaan kuvata yhdellä tai useammalla polulla riippuen 30 polkuun sisällytettyjen detaljien tasosta.

: Objektipohjaisessa toteutuksessa biokemiallinen polkumalli perus- * · · I./ tuu kolmeen objektikategoriaan: biokemialliset oliot (molekyylit) 218, vuorovai- *·:*’ kutukset (kemialliset reaktiot, transkriptio, translaatio, kokoonpano, hajottami- s.i.i nen, translokaatio, jne.) 222 sekä polun biokemiallisten olioiden ja vuorovaiku- 35 tusten väliset yhteydet 216. Ajatuksena on erottaa nämä kolme objektia niiden käyttämiseksi omine attribuutteineen ja käyttää yhteyttä sisältämään kunkin 15 117988 biokemiallisen olion rooli (kuten substraatti, tuote, aktivaattori tai inhibiittori) ja stökiömetriset kertoimet kussakin vuorovaikutuksessa, joka tapahtuu tietyssä biokemiallisessa verkossa. Tämän lähestymistavan etuna on eksplisiittisen mallin selkeys ja helppo synkronointi, kun useat käyttäjät modifioivat samaa 5 polkua yhteys kerrallaan. Käyttöliittymälogiikka voidaan suunnitella tarjoamaan polkujen helposti ymmärrettäviä visualisointeja, kuten kuvion 8 yhteydessä tullaan esittämään.

Kineettisten lakien osio 224 kuvaa vuorovaikutuksiin vaikuttavat teoreettiset tai kokeelliset kineettiset lait. Esimerkiksi vuo substraatista kemialli-10 seen reaktioon voidaan ilmaista seuraavalla kaavalla: ,, Vmax-[s] [e] K + [S] missä V on substraatin virtausnopeus, Vmax ja K ovat vakioita, [S] on alustan konsentraatio ja [£] on entsyymin konsentraatio. Reaktionopeus vuorovaikutuksen läpi voidaan laskea jakamalla vuo substraatin stokiömetrisellä ker-15 toimella.

Biokemiallinen verkko ei välttämättä päde kaikkialla. Toisin sanoen verkko on tyypillisesti paikkasidonnainen. Sen vuoksi polkujen 212 ja biologisesti relevanttien diskreettien paikkojen välillä on relaatioita, kuten kuvioissa 1 ja 7A näytetään.

20 Monimutkainen polku voi sisältää muita polkuja 700. Eri polkujen ··· *...· 700 yhdistämiseksi malli tukee polkuyhteyksiä 702, joista kullakin on viisi relaa- V·· tiota, jotka selostetaan kuvion 7B yhteydessä.

:*[]: Kuvio 7B näyttää esimerkin monimutkaisesta polusta, joka sisältää *:··· yksinkertaisempia polkuja. Kaksi tai useampia polkuja voidaan yhdistää, jos 25 niillä on yhteisiä biokemiallisia olioita, jotka voivat siirtyä sellaisinaan relevant- * · .···. tien paikkojen tai yhteisten vuorovaikutusten välillä (esimerkiksi translokaatio- tyyppinen vuorovaikutus, joka siirtää biokemiallisia olioita paikasta toiseen). Muussa tapauksessa polkuja pidetään erillisinä.

Viitenumeron 711 osoittama polku A on pääpolku poluille B ja C, joi- • · *·"* 30 ta osoitetaan vastaavasti viitenumeroilla 712 ja 713. Polut 711 - 713 ovat peri- aatteessa samanlaisia kuin yllä selostettu polku 700. Kaksi polkuyhteyttä 720 ja 730 kytkevät polut B ja C, 712 ja 713, pääpolkuun A, 711. Esimerkiksi pol-_ kuyhteydellä 720 on pääpolkurelaatio 721 polkuun A, 711; "polusta” relaatio 722 polkuun B, 712; ja "polkuun” relaatio 723 polkuun C, 713. Lisäksi sillä on ** *: 35 "yhteinen olio’’-relaatiot 724, 725 polkuihin B, 712 ja C, 713. Selväkielellä ”yh- 16 117988 teinen olio” -relaatiot 724, 725 tarkoittavat, että polut B ja C jakavat relaatioiden 724 ja 725 osoittaman biologisen olion.

Toisella polkuyhteydellä 730 on sekä ’’pääpolku” että ’’polusta” -relaatiot polkuun A, 711 ja "polkuun” -relaatio polkuun C, 713. Lisäksi sillä on 5 "yhteinen vuorovaikutus” -relaatiot 734, 735 polkuihin B, 712 ja C, 713. Tämä tarkoittaa, että polut B ja C jakavat relaatioiden 734 relaatioiden 734 ja 735 osoittaman vuorovaikutuksen.

Yllä selostettu polkumalli tukee epätäydellisiä malleja, jotka voidaan rakentaa vaiheittain tietämyksen lisääntyessä. Tutkijat voivat valita detaljitason 10 tarpeen vaatiessa. Jotkut polut voidaan kuvata suhteellisen karkealla tavalla.

Muut polut voidaan kuvata aina kineettisiin lakeihin ja/tai spatiaalisiin koordinaatteihin asti. Malli tukee myös epätäydellistä informaatiota olemassa olevista sekvenssitietokannoista. Esimerkiksi jotkut polkukuvaukset voivat selostaa geenin transkription ja translaation erikseen, kun taas muut käsittelevät niitä 15 yhtenä yhdistettynä vuorovaikutuksena. Kutakin aminohappoa voidaan käsitellä erikseen, tai kaikki aminohapot voidaan yhdistää yhteen olioon nimeltä aminohapot.

Polkumalli tukee myös automaattisia mallinnusprosesseja. Solmu-yhtälöitä voidaan muodostaa automaattisesti kunkin biokemiallisen olion aika-20 derivaatoille, kun relevantit kineettiset lait ovat käytettävissä kullekin vuorovaikutukselle. Erityistapauksessa stökiömetrisiä taseyhtälöitä voidaan muodostaa automaattisesti vuotaseanalyysejä varten. Polkumalli tukee myös automaatti-siä päästä-päähän -työvirtoja, mukaanlukien mittausdatan erottaminen mallin- • · tamalla, ylimääräisten rajoitteiden mukaanotto ja yhtälöryhmien ratkaisu, aina ·*« 25 erilaisiin data-analyyseihin ja potentiaalisiin automaattisiin merkintöihin asti.

Automaattinen polkumallinnus voi perustua polun topologiatietoihin, • · muuttujanimien kuvaamiseen käytettäviin VDL-lausekkeisiin, sovellettaviin ki-*“* neettisiin lakeihin (kuten stökiömetrisiin kertoimiin) ja matemaattisiin tai loogi siin operaattoreihin ja funktioihin. Parametrit, joita ei tunneta tarkasti, voidaan • * ’ " 30 estimoida tai päätellä mittausdatasta. Oletusyksiköitä voidaan käyttää yksin-

·...* kertaistamaan muuttujankuvauskielisiä lausekkeita. Esimerkiksi: I

• · \"*i dV[concentration]C[mannose]/dV[time] = V[flux]C[mannose]l[EC 2.7.7.13_PSA1] +...

- V[flux]C[mannose]l[EC... ]-...

• * • · · 35 dV[concentration ]C[water]/dV[time] = V[f!ux]C[water]l[EC ... ] + ...

*' * V[flux]C[water]l[ EC... ]-...

•V

17 117988 Tässä yhtälössä biokemialliset oliospesifiset vuot voidaan korvata reaktionopeuksilla, jotka on kerrottu stökiömetrisillä kertoimilla. Tässä esimerkissä stökiömetriset kertoimet ovat ykkösiä, esimerkiksi:

Yhtälöt voidaan kirjoittaa seuraavasti: 5 dV[concentration ]C[mannose]/dV[time] = 1*V[reaction rate]l[EC - 1*V[rection rate]l[ EC ... ]-...

dV[concentration ] C [wate r]/d V[ti m e] = 1*V[reaction rate]l[EC ... ] + ...

- 1*V[reaction rate]l[ EC,,, ]-...

10 Staattisessa tapauksessa derivaatat ovat nollia. Tämä johtaa vuo- tasemalliin: 0 = 1*V[reaction rate]l[EC 2.7.7.13_PSA1] +...

1*V[rection rate]l[ EC ... ]-...

15 0 = 1*V[reaction rate]![EC... ] + ' • 1*V[reaction rate]l[EC ... ]-...

Käyttäjä voi tuottaa omat tavoitefunktionsa ja ylimääräiset reunaehtonsa tai mittaustuloksensa, jotka rajoittavat mahdollisten ratkaisujen joukkoa.

Vielä eräs edullinen piirre on kyky mallintaa kohinaa vuotaseanalyy-20 sissä. Voimme lisätä keinotekoisia kohinamuuttujia, jotka tulee minimoida tavoitefunktiossa. Tämä helpottaa epätarkkojen mittausten hyväksymistä koh-: **: tuullisin tuloksin.

• M

Malli tukee myös visuaalisten polkuratkaisujen (aktiivisten reunaeh-tojen) visualisointia. Yleinen tapaus johtaa tavallisten differentiaaliyhtälöiden > * · · 25 (ordinary differential equations, ODE) malliin, jossa tarvitaan kineettisiä lakeja.

Niitä voidaan kerätä tietokantaan, mutta voi olla joitakin oletuslakeja, joita käy- • · s·*' tetään tarvittaessa. Yleisissä yhtälöissä vuorovaikutuskohtaiset reaktionopeu- * · det korvataan kineettisillä laeilla, kuten Michaels-Menten -laeilla, jotka sisältä- '% ,, vät entsyymien ja substraattien konsentraatioita. Esimerkiksi: · * · *999 30 V[reaction rate]l[EC 2.7.7.13_PSA1 ] = 5.2*V[concentration]P[PSA1 ]*V[concentration]C[.,.]/(3.4 + V[concentratkm]C[...]) • · • · T Yhtälöt voidaan muuntaa muotoon: • m *. *: dV[concentration ]C[mannose]/dV[time] = 5.2*V[concentration]P[PSA1]*V[concentration]C[./ 3.4 + • · · *...· V[concentration]C[...]) +...

. -7.9*V[concentration]P[... ]*VTconcentration]C[...]/(...) ·**··.

·· » .·. : 35 ...

• *· dV[concentration ]C[water]/dV[time] = 10.0*V[concentration] P[...]*V[concentration]C[...] /(...) + ...

18 117988 - 8.6‘V[concentration ]P[...]*V[concentration]C[...] /(...)-...

On vaihtoehtoisia toteutuksia. Esimerkiksi yllä tehdyn sijoituksen asemasta voidaan laskea kineettiset lait erikseen ja sijoittaa numeroarvot spesifisiin reaktionopeuksiin iteratiivisesti.

5 Tällaisen rakenteellisen polkumallin etuna on, että hierarkkisia pol kuja voidaan tulkita tietokoneilla. Esimerkiksi käyttöliittymälogiikka voi kyetä tuottamaan hierarkkisten polkujen helposti ymmärrettäviä visualisointeja, kuten kuvion 8 yhteydessä näytetään.

Kuvio 8 näyttää polun visualisoitua muotoa, jota yleisesti osoitetaan 10 viitenumerolla 800. Käyttöliittymälogiikka piirtää visualisoidun polun 800 kuvioissa 1 ja 7 A näytettyjen elementtien 212 - 224 perusteella. Ympyrät 810 esittävät biokemiallisia olioita. Laatikot 820 esittävät vuorovaikutuksia ja reunat 830 esittävät yhteyksiä. Yhtenäiset nuolet 840 biokemiallisesta oliosta vuorovaikutukseen esittävät substraattiyhteyksiä, missä vuorovaikutus kuluttaa bio-15 kemiallista oliota. Yhtenäiset nuolet 850 vuorovaikutuksesta biokemialliseen olioon esittävät tuotosyhteyttä, missä vuorovaikutus tuottaa biokemiallista oliota. Katkoviivoin esitetyt nuolet 860 esittävät aktivaatioita, missä biokemiallista oliota ei kuluteta eikä tuoteta, mutta se tekee vuorovaikutuksen mahdolliseksi tai kiihdyttää sitä. Katkoviivat 870, joilla on poikittaisviivapäät, esittävät 20 inhibitiota, missä biokemiallista oliota ei kuluteta eikä tuoteta, mutta se estää ... vuorovaikutuksen tai hidastaa sitä. Nollasta poikkeavat stökiömetriset kertoi- • · ‘"•j met assosioidaan substraatti- tai tuotosyhteyksiin 840, 850. Säätöyhteyksissä • · · *· " (esim. aktivaatio 860 tai inhibitio 870) stökiömetriset kertoimet ovat nollia.

«·*

Lisäksi biokemiallisten olioiden mitattuja tai säädettyjä muuttujia 25 voidaan visualisoida ja paikantaa. Esimerkiksi viitenumero 881 osoittaa bioke- t **: miallisen olion konsentraatiota, viitenumero 882 osoittaa vuorovaikutuksen re- ♦ · aktionopeutta ja viitenumero 883 osoittaa yhteyden virtausta (flux).

Yhteyksien tarkat roolit, vuorovaikutuksiin assosioidut kineettiset lait ja kunkin polun biologisesti relevantti paikka tuovat parannuksia tunnettuihin .*··. 30 polkumalleihin nähden, esimerkiksi kuvioissa 7A - 8 näytetty malli tukee kuva- • ♦ *·* uksia vaihtelevilla detaljitasoilla vaihtelemalla elementtien määrää. Lisäksi malli • · tukee eksplisiittisten kineettisten lakien sisällyttämistä, mikäli niitä tunnetaan.

i·· Tämä tekniikka tukee myös mittaustulosten graafista esittämistä . näytetyillä poluilla. Mitatut muuttujat voidaan korreloida graafisen polkuesityk- 35 sen detaljeihin objektien nimien perusteella.

• * · • · 19 117988

Huomattakoon, että viitenumeroilla 200 ja 700 (kuvioissa 2 ja 7A) näytetty tietokantastruktuuri tarjoaa välineet tallentaa biologisen polun topologiaa mutta ei sen visualisointia 800. Visualisointi voidaan generoida topologiasta ja tallentaa myöhemmin, seuraavalla tavalla. Visualisoinnin 800 elementin 5 ja keskinäiset yhteydet perustuvat suoraan tallennettuihin polkuihin 700. Näytettyjen elementtien paikat voidaan aluksi valita ohjelmistorutiinilla, joka optimoi jonkin ennalta määrätyn kriteerin, kuten toistensa ylittävien yhteyksien määrän. Tällaisia tekniikoita tunnetaan piirilevyjen suunnittelusta. IMS voi tarjota käyttäjälle graafisia työkaluja visualisoinnin siistimiseksi käsin. Kunkin elementin si-10 joitus käsin editoidussa versiossa voidaan sitten tallentaa erilliseen datarakenteeseen, kuten tiedostoon.

Kokeet IMS käsittää edullisesti kokeiden projektinhallinnan. Projekti käsittää yhden tai useamman kokeen, kuten näytteenoton, käsittelyn, ohjauksen (per-15 turbation), ruokkimisen, viljelyn, manipuloinnin, puhdistamisen, kloonaamisen tai muunlaisen yhdistämisen, erottamisen, mittauksen, luokittamisen, dokumentoinnin tai in-silico -työvirran.

Kokeiden projektinhallinnan etuna on, että kaikki mittaustulokset tai kontrolloidut olosuhteet tai ohjaukset ("mitä”), biomateriaalit ja paikat niissä 20 ("missä”), sekä relevanttien kokeiden ajoitus ("koska”) ja menetelmät ("kuinka”) voidaan rekisteröidä koedatan tulkitsemista varten. Toinen etu tulee mahdolli- ·«· .‘.j suudesta hyödyntää muuttujankuvauskieltä koedatan tallentamisessa, kuten • · .···. aiemmin selostettiin.

* ·

Kuvio 9 esittää koe-oliota IMS:n koeosiossa. Kukin IMS:ään tallen- • · ;Vt 25 nettu projekti 902 käsittää yhden tai useamman kokeen 904. Kullakin kokeella 904 on relaatiot laitteistodataan 906, käyttäjädataan 908 ja metodidataan 910.

« « *···* Kukin metodiolio 910 liittyy koeottoon 914 ja koeantoon 920. Koeotto 914 kyt kee relevantin oton, kuten biomateriaalin 916 (esimerkiksi populaation, yksilön,

M

: *·· reagentin tai näytteen) tai dataolion 918 (esimerkiksi kontrolloidut olosuhteet) ··· 30 kokeeseen yhdessä relevantin aikainformaation kanssa.

,·. : Kokeen anto 920 kytkee relevantin annon, kuten biomateriaalin 922 .··*! (esimerkiksi populaation, yksilön, reagentin tai näytteen) tai dataolion 924 • · T (esimerkiksi mittaustulokset, dokumentit, luokitustulokset tai muut tulokset) \i.: kokeeseen yhdessä relevantin aikainformaation kanssa. Esimerkiksi jos otto • · i.*·· 35 käsittää biomateriaalin spesifisen näytteen, koe voi tuottaa erinumeroisen näyt- .

teen samasta organismista. Lisäksi koeotto 920 voi käsittää tuloksia erilaisten - \ 117988 20 dataolioiden muodossa (kuten kuvioissa 6A ja 6B näytetyt datajoukot tai dokumentit tai taulukkolaskentatiedostot). Koeanto 920 voi käsittää myös feno-tyyppiluokittelun ja/tai genotyyppiluokittelun dataolioissa.

Kokeella on myös kohde 930, joka on tyypillisesti biomateriaali 932 5 (esimerkiksi populaatio, yksilö, reagentti tai näyte), mutta in-silico -kokeiden kohde voi olla dataolio 934.

Menetelmäoliolla 910 on relaatio menetelmäkuvaukseen 912, joka kuvaa menetelmän. Menetelmäkuvauksen 912 vieressä oleva silmukka tarkoittaa, että yksi menetelmäkuvaus voi viitata toisiin menetelmäkuvauksiin.

10 Kokeen otto 914 ja kokeen anto 920 ovat joko spesifisiä biomateri aaleja 916, 922 tai dataolioita 918, 924, jotka ovat samoja dataelementtejä kuin vastaavat elementit kuviossa 2. Jos koe on märkälaboratoriokoe, otto- ja antobiomateriaalit 916, 922 ovat kuvion 2 biomateriaalin 210 kaksi (samaa tai eri) instanssia. Ne voivat esimerkiksi olla kaksi spesifistä näytettä 210-4.

15 Koska biokemiallinen informaatio (viitenumero 200 kuviossa 2) ja projektin informaatio kuvataan yhteisillä dataolioilla, projektihallitsija pystyy seuraamaan kunkin informaatioelementin historiaa. Se pystyy myös monitoroimaan tuottavuutta lisättynä informaatiomääränä resurssia (kuten henkilövuotta) kohti.

20 Koeprojektinhallitsija käsittää edullisesti projektieditorin, jolla on käyttöliittymä, joka tukee projektinhallinnan toiminnallisuutta projektin aktivi-.·**. teettejä varten. Tämä antaa lisäksi kaikki ne normaalin projektinhallinnan edut, : jotka ovat hyödyksi myös järjestelmäbiologian projekteissa.

* · · .··/ Projektieditorin edullinen toteutus pystyy seuraamaan kaikkia bio- • · 25 materiaaleja, niiden näytteitä ja kaikkea dataa eri kokeiden kautta, mukaanlu- .[ ,* kien märkälaboratorio-operaatiot ja in-silico-datankäsittelyn.

• · · :t Koeprojekti voidaan esittää verkkona, joka koostuu koeaktiviteeteis- ta, kohdebiomateriaaleista ja otto- tai antotuotoksista, jotka ovat biomateriaaleja tai dataolioita.

\ *·· 30 Monimutkaisuuden suhteen kuvio 9 on pahimman tapauksen kaa- vio. Harvat, jos mitkään tosielämän kokeet käsittävät kaikki kuviossa 9 näytetyt #/ . elementit. Esimerkiksi jos koe on lääketieteellinen tai biologinen käsittely, niin otto- ja anto-osiot 914, 920 osoittavat tyypillisesti tietyn potilaan tai biologisen # ® *·;·* näytteen. Valinnainen tilaelementti voi kuvata potilaan tai näytteen tilan ennen 35 käsittelyä. Anto-osa on käsitelty potilas tai näyte.

* # • · · • · · • · 21 1 1 7988 Näytteenoton tapauksessa otto-osa osoittaa biomateriaalin, johon näytteenotto kohdistuu, ja anto-osa osoittaa spesifisen näytteen. Näytteen manipuloinnin tapauksessa otto-osa osoittaa manipuloitavan näytteen, ja anto-osa osoittaa manipuloidun näytteen. Kombinaatiokokeessa otto-osa osoittaa 5 useita kombinoitavia näytteitä ja anto-osa osoittaa kombinoidun, identifioidun näytteen. Kääntäen, separaatiokokeessa otto-osa osoittaa separoitavan näytteen ja anto-osa osoittaa useita separoituja, identifioituja näytteitä. Mittausko-keessa otto-osa osoittaa mitattavan näytteen, ja anto-osa on dataolio, joka sisältää mittaustulokset. Luokituskokeessa otto-osa osoittaa luokitettavan näyt-10 teen, ja anto-osa osoittaa fenotyypin ja/tai genotyypin. Viljelykokeessa otto-ja anto-osat osoittavat spesifisiä populaatioita, ja laiteosa voi käsittää viljelyasti-oiden tunnisteet.

Monimutkaisten kokeiden kuvaamiseksi voi olla koesidontoja (binders, ei näytetty erikseen), jotka yhdistävät useita kokeita tavalla, joka on jossa-15 kin määrin analoginen tapaan, jolla polkuyhteydet 700, 720, 730 yhdistävät eri polkuja.

Biomateriaalikuvaukset

Kuvio 10 näyttää esimerkin IMS:n biomateriaaliosion objektipohjaisesta toteutuksesta. Tulee huomata, että tämä on vain yksi esimerkki, ja monet 20 biomateriaalit voidaan kuvata riittävästi ilman kaikkia kuviossa 10 näytettyjä ·***; elementtejä. Biomateriaaliosio 210 alaelementteineen 210-1 ... 210-4 ja paik- ··· ;\j kaosio 214 alaelementteineen 214-1 ... 214-5 on lyhyesti selostettu kuvion 2 .··*! yhteydessä. Kuvio 10 näyttää, että biomateriaalilla 210 voi olla monesta mo- • · neen -relaatio tilaelementtiin 1002, fenotyyppielementtiin 1004 ja dataolioele- .. . 25 menttiin 1006. Valinnaista organismisidontaa 1008 voidaan käyttää yhdistä- • · · mään (sekoittamaan) eri organismeja. Esimerkiksi organismisidonta 1008 voi • · *···* osoittaa, että tietty populaatio käsittää x prosenttia organismia 1 ja y prosenttia organismia 2.

·· : *·· Organismielementin 214-1 alapuolinen silmukka 1010 tarkoittaa, et- .·; 30 tä organismi kuvataan edullisesti taksonomisena kuvauksena. Kuvion 10 ala- i S. ; puoli näyttää kaksi esimerkkiä tällaisesta taksonomisesta kuvauksesta. Esi- # ·· I./ merkki 1010A on kolibakteerin erään spesifisen näytteen taksonominen kuva- **!*' us. Esimerkki 1010B on valkoapilan taksonominen kuvaus.

:.:V Kuvioiden 3A - 3C yhteydessä selostettua muuttujankuvauskieltä 35 voidaan käyttää kuvaamaan tällaisiin biomateriaaleihin ja/tai niiden paikkoihin liittyviä muuttujia. Esimerkki: 22 117988 V[concentration]P[P53]U[mol/l]ld[Patient X]L[human

Eräs tällaisen paikkatiedon etu on parannettu ja systemaattinen tapa verrata paikkoja näytteissä ja teoreettisissa rakenteissa, kuten poluissa, jotka joudutaan varmentamaan relevanteilla mittaustuloksilla.

5 Toinen etu, joka saavutetaan tallentamalla biomateriaaliosio olen naisesti kuviossa 10 näytetyllä tavalla, liittyy datan visualisointiin. Esimerkiksi biomateriaalit voidaan korvata niiden fenotyypeillä. Eräs esimerkki tällaisesta korvaamisesta on, että tietyt yksilöt luokitellaan ’’allergisiksi”, mikä on ihmisille paljon havainnollisempi kuin pelkkä tunniste.

10 Datan seurattavuus

Kuviot 11A ja 11B osoittavat datan seurattavuutta kahden esimerkin : valossa. Kuvio 11A esittää näytteenottotapahtumaa. Kaikki näytteet saadaan tietystä yksilöstä A, jota osoitetaan viitenumerolla 1102. Viitenumero 1104 osoittaa yleisesti neljää nuolta, joista kukin osoittaa näytteenottoa tietyllä het-15 kellä. Esimerkiksi hetkellä 5 saadaan näyte 4, kuten viitenumero 1106 osoittaa. Kuvioiden 3A - 4 yhteydessä käytettyä muuttujankuvauskieltä käyttäen näyte 4 hetkellä 5 voidaan ilmaista lausekkeella Sa[4]T[5]. Lauseke Sa[4]T[5] = ld[A]T[5] tarkoittaa, että näyte 4 saatiin yksilöstä A hetkellä 5.

Hetkellä 12 näytteestä 4 otetaan kaksi muuta näytettä. Kuten nuoli 20 1108 osoittaa, näyte 25 otetaan näytteestä 4 erottamalla tumat. Viitenumero «·· 1112 osoittaa näytteen 25 havaintoa (mittausta), nimittäin proteiinin P53 kon- » · '.*·· sensaatiota, jonka tässä esimerkissä näytetään olevan 4,95.

Kuvio 11B esittää datan seurattavuutta tapahtumaketjussa, jossa to-·:*·: teutetaan ohjaus annostelemalla yksilölle B 1150 tiettyä yhdistettä. Kuten viite- «*.*. 25 numerot 1152 - 1158 osoittavat, 10 gramman annos yhdistettä abcd annetaan .···. näytteelle 40 hetkellä 1, ja tuo näyte annetaan yksilölle B hetkellä 6. Viitenu mero 1160 osoittaa mannoosin annostelua yksilölle B hetkellä 5. Kuvion 11B ..4 alapuoli on analoginen kuvion 11A kanssa, ja erillinen selostus jää pois.

Näyttämällä sellaisia kuvia, joita sisältyy kuvioihin 11A ja 11B, aute- • · 30 taan käyttäjiä ymmärtämään, mihin havainnot perustuvat. Parannetun datan seurattavuuden etuihin kuuluu virheiden väheneminen ja anomalioiden hei- :***: pompi selittäminen.

• · · *. Tulisi ymmärtää, että tosielämän tapaukset voivat olla paljon moni- *;***! mutkaisempia kuin mitä yhdellä piirrossivulla voidaan kohtuudella esittää. Ku- · · *· *! 35 viot 11A ja 11B esittävät siis vain datan seurattavuuden periaatetta. Monimut- 23 117988 kaisten tapausten tukemiseksi visualisointilogiikan edellä tulisi olla käyttäjän aktivoimia suotimia, jotka sallivat käyttäjien nähdä vain mielenkiinnon kohteita. Jos esimerkiksi käyttäjä on kiinnostunut vain kuviossa 11A näytetystä näytteestä 25, niin voidaan näyttää vain tapahtumien (näytteiden) ketju 1102 -5 1106-1110-1112.

Työvirtojen kuvaukset

Kuvio 12A näyttää ohjelmisto-komponenttimallia työvirtojen (work-flow) kuvaamiseksi ja hallitsemiseksi IMS:ssä. Työvirta 1202 voi sisältää toisia työvirtoja. Alimman tason työvirta sisältää työkalun 1208. Kullakin työvirralla on 10 omistaja-käyttäjä 1220. Kukin työvirta kuuluu johonkin projektiin 1218. (Projekteja tarkasteltiin kuvion 9 yhteydessä.)

Työkalut määrittelytermejä ovat työkalun nimi, kategoria, kuvaus, lähde, aluke (pre-tag), suoritusosa (executable), otot, annot ja palveluobjektin luokka (mikäli ei oletusarvo). Tämä informaatio talletetaan työkalutietokantaan 15 1208.

Ottomäärityksiin sisältyy aluke, tunnistenumero, kuvaus, dataolio-tyyppi, lopuke (post-tag), komentorivijärjestys, valinnaisuus-status (pakollinen vai valinnainen). Tämä informaatio talletetaan työkalun ottosidontaan (input binder) 1210 tai työkalun antosidontaan (output binder) 1212.

20 Dataoliotyypit määritellään järjestelmään termeillä dataoliotyypin nimi, kuvaus, datakategoria (esim. tiedosto, hakemisto alihakemistoineen ja • « · tiedostoineen, datajoukko, tietokanta, jne.) On useita dataoliotyyppejä, jotka .···] kuuluvat samaan kategoriaan mutta joilla on erilainen syntaksi tai semantiikka * · ja jotka sen vuoksi kuuluvat eri dataoliotyyppiin olemassa olevien työkalujen ... 25 yhteensopivuussääntöjen vuoksi. Tämä informaatio talletetaan dataoliotyyppiin 1214. Työkalupalvelimen sidonta 1224 osoittaa sen palvelimen 1222, jossa *···* työkalu voidaan suorittaa.

Tyypitettyjä dataolioita käytetään ohjaamaan erilaisten työkalujen • · : ’·· yhteensopivuutta, jotka voivat olla tai olla olematta yhteensopivia. Tämä antaa 30 mahdollisuuden kehittää käyttöliittymän, jossa järjestelmä avustaa käyttäjiä : luomaan järkeviä työvirtoja ilman etukäteistietoa kunkin työkalun yksityiskoti- • · · !..* dista.

• ·

Dataolioinstanssit, jotka sisältävät käyttäjädataa, tallennetaan data-olioon 1216. Kun työvirtoja rakennetaan, relevantit dataoliot kytketään rele-35 vantteihin työkaluottoihin työvirran ottojen 1204 tai työvirran antojen 1206 kautta.

24 117988

Kuvio 12B esittää asiakas-palvelin -arkkitehtuuria, johon kuuluu asi-akaspäätelaitteessa CT suoritettava graafinen työvirtojen editori 1230. Graafinen työvirtojen editori 1230 kytkeytyy työvirtapalvelimen 1232 kautta suoritus-hallitsijan (executor) palveluobjektiin työkalupalvelimessa 1234. Graafista työ-5 virtojen editoria 1230 käytetään valmistelemaan, suorittamaan ja monitoroimaan sekä tarkastelemaan työvirtoja ja dataolioita, jotka viestivät työvirtatieto-kannan 1236 kanssa. Työvirtapalvelin 1232 huolehtii työvirtojen suorittamisesta käyttämällä yhtä tai useampaa työkalupalvelinta 1234. Relevantin työkalu-palvelimen osoite voidaan löytää palvelintaulukosta (kuvio 12A).

10 Kukin työkalupalvelin 1234 käsittää suoritushallitsijan ja palveluob- jektin, joka pystyy kutsumaan mitä tahansa itsenäistä työkalua, joka on asennettu työkalupalvelimelle. Suoritushallitsija hallitsee työvirran kaikkien relevanttien työkalujen suorittamista relevanteilla dataolioilla standardoidun palveluob-jektin kautta. Palveluobjekti tarjoaa suoritushallitsijalle yhteisen rajapinnan min- 15 kä tahansa itsenäisen ohjelmistotyökalun suorittamiseksi. Työkalukohtaista informaatiota voidaan kuvata XML-tiedostossa, jota käytetään alustamaan metadataa kullekin työkalulle työkalutietokannassa (kuvion 12A kohta 1208). Palveluobjekti vastaanottaa anto- ja ottodatan, ja käyttämällä työkalun määritysinfor-maatiota, se voi valmistella vaaditun komentorivin työkalun suorittamiseksi.

20 Kuvioissa 12A ja 12B näytetty työvirtojen/työkalujen hallitsija integroi helposti perinteisiä työkaluja ja kolmansien osapuolten työkaluja. Työvirto-jen/työkalujen hallitsijan muihin etuihin kuuluu työvirtojen täydellinen dokumen- • · · : tointi, helppo uudelleenkäytettävyys ja automaattinen suoritus. Esimerkiksi työ-

I (t J

virtojen/työkalujen hallitsija voi piilottaa kolmansien osapuolten työkalujen vai- • · 25 mistajakohtaiset käyttöliittymät ja korvata ne IMS:n yhteisellä graafisella käyttö- .! .* liittymällä. Käyttäjät voivat siis käyttää yhteisen graafisen käyttöliittymän toimin- • * * :m toja valmistelemaan, suorittamaan ja monitoroimaan sekä tarkastelemaan työ- virtoja ja niiden dataolioita.

Kuvio 12C näyttää, kuinka työvirtaeditori voi esittää työvirrat työkalu- • *.· 30 jen ja dataolioiden verkkona siten, että dataoliot ovat työkalujen ottoja ja anto- ja. Työkalut suoritetaan työvirtojen topologisen lajittelun perusteella.

. Nämä työvirrat ovat erittäin hyödyllisiä monimutkaisiin tehtäviin, jot- ka on toistettava uudelleen hieman erilaisin syöttein.

• · • · • · · .

. *·. Polkujen automaattinen täyttäminen sekvenssitietokannasta • * * * * * .·. j 35 IMS, jossa on olennaisesti sellainen polkumalli, joka selostettiin ku vioiden 7A - 8 yhteydessä, tukee epätäydellisiä polkuja. Näin siksi, että polut . , 25 117988 määritellään alkeiskomponenttien kautta, joita voidaan lisätä kun uutta tietoa saadaan. Tämän ominaisuuden eräs etu on, että IMS voidaan varustaa laitteisto- ja ohjelmistovälineillä polkujen automaattista täyttämistä varten ulkoisista (usein kaupallisista) sekvenssitietokannoista. Tähän tarvitaan yhteysvälineet 5 ulkoisiin tietokantoihin, jäsennyslogiikka kutakin tiettyä tietokantaa varten sekä logiikka polun komponenttien (tai ainakin joidenkin) johtamiseksi ulkoisten tietokantojen ominaisuustaulukoista (feature table) tai muusta informaatiosta. Huomattakoon, että sekvenssitietokannat eivät tuota mitään eksplisiittistä informaatiota polkumalleista. Ne tuottavat vain informaatiota geeneistä ja niiden 10 koodaamista proteiineista. Mutta sopiva logiikka voi päätellä ainakin jotkut pol-kukomponentit tästä informaatiosta. Logiikka voi tulkita joidenkin sekvenssitie-tokantojen tuottamat annotaatiot valtavaksi relaatiomassaksi hyvin määriteltyjen biokemiallisten olioiden avulla (spesifinen geeni ja spesifinen joukko proteiineja) heti, kun nämä relaatiot - joista sekvenssitietokannat eivät kerro ekspli-15 siittisesti mitään - on talletettu polkutietokantaan (kuviot 7A ja 7B). Interaktioita (transkriptioita ja translaatioita), joista sekvenssitietokannat eivät myöskään kerro mitään, ei voida täydellisesti kuvata biologista perustietämystä käyttämällä, mutta hyvin määriteltyjen biokemiallisten olioiden ja biologisten peruskäsitteiden avulla interaktioiden väliset yhteydet voidaan kuvata täydellisesti polku-20 mallissa. Ei edes ole välttämätöntä, että sekvenssitietokanta sisältää informaatiota transkripteista. Sen sijaan keksinnöllinen logiikka voi määrittää transkriptit, .··*. identifioida ja nimetä ne. Nimeäminen on usein välttämätöntä, koska mRNA- • · * : molekyylejä ei usein nimetä niin kuin geenejä tai proteiineja.

« · · IMS, jossa on yllä selostettu polkumalli, perustuu siis yhteyksiin ja * · ***. 25 interaktioihin, ja IMS tukee epätäydellisiä polkumalleja. On hyödyllinen lisäys / määrittää yhteydet automaattisesti ulkoisista tietokannoista, vaikka interaktioita • · · ·* ·* pitääkin täydentää jälkikäteen, kun lisätietoa on saatavana.

Kuvio 13 esittää prosessia, kuten ohjelmistorutiinia, polkujen automaattista täyttämistä varten sekvenssitietokannasta. Tässä esimerkissä sek-30 venssitietokannassa on kaksi identifioitua geeniä G1 ja G2, joita osoitetaan viitenumeroilla 1302 ja 1308. Tietokannan ominaisuustaulukossa on annotoitu- • · · / . ja DNA-sekvenssejä.

*1.7 Tyypillisissä sekvenssitietokannoissa on ri vitu n n isteita, avainsanoja • · **;·* ja sekventiaalista paikka- tai määriteinformaatiota ominaisuuksien annotointia : 35 varten. Vaikka on monia erilaisia tunnisteita, avainsanoja ja määritteitä, on mahdollista hyödyntää joitakin yleisiä yhteneväisyyksiä.

• · 26" 117988

Esimerkiksi EMBL-tietokannassa on seuraavanlaisia ominaisuustau- lukoita:

Rivi Avain Paikka/Määrite FT CDS 22..2892

5 FT

FT db _xref="SWISS-PROT :P49746" FT . .... ! FT /gene-'THBS3"

FT

10

On FT-rivejä (feature table, ominaisuustaulukko), joissa on avainsana CDS (coding sequence, koodaussekvenssi), joka osoittaa koodausaluetta ja spesifisiä määritteitä, jota tuottavat erilaisia tietokantaviittauksia geeneihin (/gene="THBS3") ja niiden proteiineihin (db_xref="SWISS-PROT:P49746").

15 Tämä tarkoittaa, että geenillä, jonka identifioi THBS3, on proteiinituote, jonka identifioi "SWISS-PROT:P49746", ja geenin ja proteiinin välissä täytyy olla mRNA. Nimet on muunnettava suositelluiksi nimiksi (ks. nimitaulukot 226 kuvi-ossa 2).

Oletetaan, että annotoituna ominaisuutena on geeni G1 (osoitettu 20 viitenumerolla 1302) silmukointivarianttituotteiden (splice variant product) P1, P2 ja P3 kanssa (viitenumerot 1342, 1344 ja 1346). Silloin tiedämme, että täy- *···* tyy olla kolme silmukointivariantti mRNAita, nimittäin Tr1=mRNA G1:stä * * *Υ·: P1:een, Tr2=mRNA G1:stä P2:een, ja Tr3=mRNA G1:stä P3:een. Nämä sil- *·· mukointivariantti mRNA:t osoitetaan viitenumeroilla 1322, 1324 ja 1326. f *:**: 25 Oletetaan lisäksi, että annotoituna ominaisuutena on geeni G2, :*·*: 1308, jolla on yksi tuote P4, 1348. Silloin tiedämme, että täytyy olla yksi ·*": mRNA, nimittäin Tr4=mRNA, 1328, G2:sta P4:ään.

• * *

Yllä olevan informaation perusteella polun luuranko, kuten kuviossa :·. 13 näytetty, voidaan luoda automaattisesti.

• ·φ 30 Aluksi transkriptio-interaktiot voidaan täydentää mekaanisesti • · . / T ribonukleotidi-substraateilla ja myöhemmin tunnetuilla transkriptiotekijöillä. / • * \*·· Translaatio-interaktio voidaan täydentää aminohapoilla ja ribosomilla. Interak- tiot eivät ole vielä täydellisiä, mutta RNA-sekvenssitietokantoja voidaan käyttää . muodostamaan translaatio-interaktioita, jos on olemassa annotoituja ominai- * · · 35 suuksia (features), joihin kuuluu identifioitu mRNA ja proteiini.

• * · • · 27 117988

Automaattisen populointiominaisuuden etu on automaattinen geno-min kattava polunmuodostus kullekin organismille, mikä helpottaa kehittyneempää polun kokoamista, joka perustuu kuviossa 13 näytettyyn peruskaavi-oon.

5 Laitteiston ja ohjelmiston osalta IMS tarvitsee pääsyn ulkoisiin tieto kantoihin. Moniin tietokantoihin voidaan päästä tavallisella Internet-selaimella. Niinpä automaattisen populointiohjelmiston tulee emuloida Internet-selainta tai muuten tuottaa yhteensopivia komentoja. Lisäksi IMS tarvitsee jäsentämislo-giikan (parsing) ja tietoa siitä, kuinka kunkin tietokannan anto on järjestetty.

10 Spatiaaliset referenssimallit

Kuvio 14 esittää spatiaalisia referenssimalleja erilaisille solutyypeille. Aiemmin todettiin, että yksinkertaiset suorakulmaiset tai napakoordinaatti-järjestelmät voivat riittää joillekin solutyypeille. Koordinaattijärjestelmä on edullista normalisoida siten, että maksimietäisyys referenssipisteestä on yksi.

15 On monia solutyyppejä, joille yksinkertainen suorakulmainen tai na- pakoordinaattijärjestelmä ei riitä. Esimerkiksi kantasolut ovat suuntautuneita, mikä tarkoittaa, että niillä on etupää ja takapää. Hermosolut ovat vieläkin monimutkaisempia. Niinpä IMS edullisesti käsittää useita spatiaalisia referenssimalleja, ja spatiaalinen piste ilmaistaan referenssimallin ja sen sisällä olevan alu-20 een yhdistelmänä.

#...t Kuvio 14 esittää kolmea erilaista referenssimalli-esimerkkiä. Refe- * · renssimalli 1400 on yksinkertainen koordinaattijärjestelmä, kuten kolmiulottei- *.*./ nen suorakulmainen koordinaattijärjestelmä. Joillekin solutyypeille voi riittää * · *···] yksi tai kaksi koordinaattia. Jos kyseinen solutyyppi on pyörähdyssymmetrinen, 25 napakoordinaattijärjestelmä voi olla parempi kuin suorakulmainen.

·* · : V Referenssimalli 1410 perustuu solun jakamiseen useaan alueeseen.

Alueiden määrä tulisi valita siten, että biokemiallinen informaatio pätee koko alueella. Referenssimalli 1410 soveltuu kompaktille suuntautuneelle solulle, ·'... kuten kantasolulle. Malli 1410 on suuntautunut, mutta pyörähdyssymmetrinen.

• .**·. 30 Siihen kuuluu etupään alue 1411, takapään alue 1416, tuma-alue 1414 ja eri välialueita 1412, 1413 ja 1415. Etu-ja takapäät voidaan valita jonkin gradientin ’· suhteen, kuten jonkin yhdisteen laskevan konsentraation suhteen.

* ♦ ·

Referenssimalli 1420 on esimerkki hermosolun topologian mallinta- 4 ; ;*. misesta. Siinä on tuma-alue 1421 ja sen ympärillä eri osia 1422, 1423, sooma- * * · : 35 alue 1424, aksonialue 1425, jne. Normalisoituja spatiaalikoordinaatteja voi- • · · daan käyttää kasvattamaan detaljitasoa edelleen tarvittaessa. Esimerkiksi pis- 117988 28 te, joka on aksonin ulkopinnalla sen pituussuuntaisessa keskipisteessä, voidaan ilmaista muodossa {1420, 1425, (0,5,1)}, missä 1420 osoittaa referenssi-mallia, 1425 osoittaa aluetta referenssimallin sisällä, 0,5 on normalisoitu pituussuuntainen koordinaatti aksonia pitkin ja 1 tarkoittaa 100% säteestä akso-5 nin poikkileikkausta pitkin.

Alan ammattilaiselle on selvää, että tekniikan kehittyessä keksinnön mukainen konsepti voidaan toteuttaa eri tavoin. Keksintö suoritusmuotoineen ei rajoitu yllä esitettyihin esimerkkeihin vaan ne voivat vaihdella patenttivaatimusten suojapiirin puitteissa.

·»· • · * 1 ···' * » • · · • ·1 • · • · • 1 • · 1 ♦ · • · · ·2 • 1 • · • 1 1 • 1 * · • · · • · • · « »· ··· • » • · ... * 1 · • 1 • 1 1 Φ 1 · • 1 • · • # *·· « · · • 1 · « ··· • ·1 2 • ·

Claims

1. Informaationhallintajärjestelmä biologisen informaation (200) hallitsemiseksi, johon informaationhallintajärjestelmään kuuluu palvelin (S) ja tietokanta (DB), tunnettu siitä, että biologinen informaatio (200) käsittää da-5 tajoukkoja (202, 610, 620), joista kukin datajoukko käsittää: - muuttuja-arvomatriisin (614, 624), joka sisältää riveiksi ja sarakkeiksi järjestettyjä muuttuja-arvoja; - muuttujankuvauskielellä (30) olevan rivienkuvauslistan (613, 623) muuttuja-arvomatriisin riveistä; 10. muuttujankuvauskielellä (30) olevan sarakkeidenkuvauslistan (612, 622. muuttuja-arvomatriisin sarakkeista; - muuttujankuvauskielellä (30) olevan kiinteiden dimensioiden kuvauksen (611, 621) yhdestä tai useammasta kiinteästä dimensiosta, jotka ovat yhteisiä muuttuja-arvomatriisin kaikille arvoille.

2. Patenttivaatimuksen 1 mukainen informaationhallintajärjestelmä, tunnettu siitä, että: - muuttujankuvauskieli (30) käsittää muuttujankuvauksia, joista kukin käsittää yhden tai useamman parin, jossa on avainsana (32) ja nimi (34); ja - informaationhallintajärjestelmä käsittää sallittujen avainsanojen 20 taulukon (38). ··*

3. Patenttivaatimuksen 2 mukainen informaationhallintajärjestelmä, tunnettu siitä, että siihen kuuluu logiikka (300) syntaksitarkastuksen teke-miseksi mainitulla muuttujankuvauskielellä ilmaistuille muuttujille.

• · · / 4. Patenttivaatimuksen 2 tai 3 mukainen informaationhallintajärjes- • · · ·* ^‘ 25 telmä, tunnettu siitä, että se käsittää yhdistettyjä muuttujalausekkeita, jois- ta kukin käsittää kaksi tai useampia muuttujalausekkeita, jotka on erotettu operaattoreilla ja/tai funktioilla.

• · • · • ·· *.···. 5. Jonkin edellisen patenttivaatimuksen mukainen informaationhal- * t "* lintajärjestelmä, tunnettu siitä, että siihen kuuluu biologisten polkujen (700) * · V*: 30 strukturoituja kuvauksia, jotka muodostuvat ainakin poluista (212), biokemialli- sista olioista (218), yhteyksistä (216) ja vuorovaikutuksista (222) siten, että: . !·. - kukin polku (212) liittyy yhteen tai useampaan yhteyteen (216); • · · .1". - kukin yhteys (216) liittää yhden biokemiallisen olion (218) ja yhden * * vuorovaikutuksen (222); ja \ 30 117988 - kukin polku (212) liittyy spesifiseen sijaintiin (214).

6. Patenttivaatimuksen 5 mukainen informaationhallintajärjestelmä, tunnettu siitä, että kukin vuorovaikutus (222) liittyy yhteen tai useampaan kineettiseen lakiin.

7. Patenttivaatimuksen 5 tai 6 mukainen informaationhallintajärjes- telmä, tunnettu siitä, että siihen kuuluu välineet yhden tai useamman ennalta määrätyn roolin assosioimiseksi kuhunkin yhteyteen, missä rooli osoittaa biokemiallisen olion (218) roolin vuorovaikutuksessa (222) ja useisiin ennalta määrättyihin rooleihin kuuluu substraatti (840), tuote (850), aktivaattori (860) ja 10 inhibiittori (870).

8. Jonkin patenttivaatimuksen 5-7 informaationhallintajärjestelmä, tunnettu siitä, että siihen kuuluu välineet stökiömetrisen kertoimen assosioimiseksi kuhunkin yhteyteen, missä stökiömetrinen kerroin osoittaa biokemiallisen olion (218) tuotettujen tai kulutettujen molekyylien määrän vuorovaikutuk- 15 sessa (222).

9. Jonkin patenttivaatimuksen 5-8 informaationhallintajärjestelmä, tu n nettu siitä, että siihen kuuluu käyttöliittymälogiikka mainittujen biologisten polkujen (700) strukturoitujen kuvausten visualisointien (800) esittämiseksi. ···

10. Patenttivaatimuksen 9 mukainen informaationhallintajärjestelmä, • · 20 tunnettu siitä, että käyttöliittymälogiikka käsittää välineet näyttämään visu- alisointeja (800) mitatuista tai perturboiduista muuttujista, jotka on paikallistettu ί ·:··: biologisten polkujen (700) biokemiallisiin olioihin (881), vuorovaikutuksiin (882) ja/tai yhteyksiin (883).

··· • · *···* 11. Jonkin patenttivaatimuksen 5-10 informaationhallintajärjestel- 25 mä, tunnettu siitä, että siihen kuuluu polkuyhteyksiä (720, 730) usean po- »» : **· lun (711 - 713) yhdistämiseksi kompleksisiksi poluiksi. • · · • m *♦ *

12. Jonkin edellisen patenttivaatimuksen mukainen informaationhal- lintajärjestelmä, t u n n e tt u siitä, että siihen kuuluu käyttöliittymälogiikka da- • · * tajälkien (1102 - 1174) näyttämiseksi toisiinsa liittyvien datajoukkojen välillä. • · · • · · • · « • · • *· 1 • · 31 117988