FI3583250T3 - Menetelmiä ja järjestelmiä genomisekvenssilukujen tehokkaaseen pakkaamiseen - Google Patents

Menetelmiä ja järjestelmiä genomisekvenssilukujen tehokkaaseen pakkaamiseen Download PDF

Info

Publication number
FI3583250T3
FI3583250T3 FIEP17896462.3T FI17896462T FI3583250T3 FI 3583250 T3 FI3583250 T3 FI 3583250T3 FI 17896462 T FI17896462 T FI 17896462T FI 3583250 T3 FI3583250 T3 FI 3583250T3
Authority
FI
Finland
Prior art keywords
numbers
descriptor
descriptors
class
aligned
Prior art date
Application number
FIEP17896462.3T
Other languages
English (en)
Inventor
Mohamed Baluch
Claudio Alberti
Original Assignee
Genomsys Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/US2017/017842 external-priority patent/WO2018071055A1/en
Priority claimed from PCT/US2017/041579 external-priority patent/WO2018071078A1/en
Application filed by Genomsys Sa filed Critical Genomsys Sa
Priority claimed from PCT/US2017/066863 external-priority patent/WO2018151788A1/en
Application granted granted Critical
Publication of FI3583250T3 publication Critical patent/FI3583250T3/fi

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Claims (1)

  1. Patenttivaatimukset
    1. Tietokoneella toteutettu menetelmä genomisekvenssitietojen koodaamiseksi, mainittujen genomisekvenssitietojen käsittäessä nukleotidien sekvenssien lukuja, mainitun menetelmän käsittäessä vaiheet, joissa: — rinnastetaan mainitut luvut yhteen tai useampaan vertailusekvenssiin, luoden siten rinnastettuja lukuja, luokitellaan mainitut rinnastetut luvut eri luokkiin määriteltyjen vastaavuussääntöjen mukaisesti mainitun yhden tai useamman vertailusekvenssin suhteen, jolloin mainittu luokitteleminen käsittää seuraavat: —-luokitellaan yksi tai useampia mainituista rinnastetuista luvuista ensimmäiseen luokkaan (luokka P), kun vertailusekvenssissä olevan alueen havaitaan vastaavan rinnastettua lukua ilman yhtäkään yhteensopimattomuutta; - luokitellaan yksi tai useampia mainituista rinnastetuista luvuista toiseen luokkaan (luokka N), kun vertailusekvenssissä olevan alueen havaitaan vastaavan rinnastettua lukua siten, että siinä on — yhteensopimattomuuksien tyyppi ja lukumäärä, jotka määräytyvät vain niiden sijaintien lukumäärän perusteella, joissa luvun tuottava sekvensointikone ei pystynyt kutsumaan mitään emästä; - luokitellaan yksi tai useampia mainituista rinnastetuista luvuista kolmanteen luokkaan (luokka M), kun vertailusekvenssissä olevan alueen havaitaan vastaavan rinnastettua lukua siten, että siinä on yhteensopimattomuuksien tyyppi ja lukumäärä, jotka määräytyvät vain niiden sijaintien lukumäärän — perusteella, joissa luvun tuottava sekvensointikone ei pystynyt kutsumaan mitään emästä, sekä niiden yhteensopimattomuuksien lukumäärän perusteella, joissa on kutsuttu eri nukleotidia kuin mikä on läsnä vertailusekvenssissä; - luokitellaan yksi tai useampia mainituista rinnastetuista luvuista neljänteen luokkaan (luokka 1), joka muodostuu rinnastetuista luvuista, joissa on vähintään yksi minkä tahansa tyyppinen — yhteensopimattomuus insertion, deleetion ja leikkauksen joukosta sekä toiseen luokkaan (luokka N) tai kolmanteen luokkaan (luokka M) kuuluvia yhteensopimattomuustyyppejä, mikäli läsnä, jolloin insertiot muodostuvat ylimääräisestä sekvenssistä, jossa on yksi tai useampia nukleotidejä, jotka eivät esiinny vertailusekvenssissä, mutta jotka esiintyvät rinnastetussa luvussa, jolloin deleetiot ovat puuttuvia nukleotidejä rinnastetussa luvussa suhteessa vertailusekvenssiin, ja jolloin leikkaus — käsittää alustavasti leikattuja nukleotidejä, jotka edustavat rinnastetun luvun reunoilla olevaa insertoitua nukleotidisekvenssiä ja jotka eivät vastaa vertailusekvenssiä, mutta jotka pidetään rinnastetussa luvussa, ja pysyvästi leikattuja nukleotidejä, jotka hylätään rinnastetusta luvusta; - luokitellaan yksi tai useampia mainituista rinnastetuista luvuista viidenteen luokkaan (luokka U), kun mitään ensimmäisen-neljännen luokan mukaista vastaavuutta ei löydy:
    luoden siten rinnastettujen lukujen luokkia, joita edustavat genomikuvaajien ryhmät, jotka edustavat yksiselitteisesti genomisekvenssilukuja ja jotka on järjestetty lohkoihin, joilla on homogeeniset tilastolliset ominaisuudet, jolloin kuvaajat käsittävät ensimmäistä luokkaa (luokka P) koskien:
    - luvun kartoitussijainnin vertailusekvenssissä (pos),
    -DNA-tai RNA-juosteen, jossa luku on kartoitettu (rcomp), ja - kartoituslippuja, joiden avulla rinnastustyökalu voi edelleen täsmentää kartoitusprosessin tulosta; jolloin kuvaajat käsittävät lisäksi toista luokkaa (luokka N) koskien: - yhteensopimattomuuksien sijainnin rinnastetuissa luvuissa suhteessa vertailusekvensseihin (mmpos);
    — jolloin kuvaajat käsittävät lisäksi kolmatta luokkaa (luokka M) koskien: - yhteensopimattomuuksien tyypit suhteessa vertailusekvensseihin niihin liittyvissä sijainneissa (mmtype); jolloin kuvaajat käsittävät lisäksi neljättä luokkaa (luokka I) koskien: - kuvaajan, joka ilmaisee alustavasti tai pysyvästi leikatut nukleotidit (clips);
    — jolloin kuvaajat käsittävät lisäksi viidettä luokkaa (luokka U) koskien: - täsmälliset sekvenssiluvut emäksistä, joita ei voida kartoittaa mihinkään saatavilla olevaan vertailusekvenssiin (ureads); koodataan mainitut luokitellut rinnastetut luvut, joita edustavat kuvaajien lohkot, joilla on homogeeniset tilastolliset ominaisuudet, syntaksielementtien lohkojen joukoksi, ja strukturoidaan mainitut syntaksielementtien lohkot otsikkotiedoilla, luoden siten peräkkäisiä pääsy - yksiköitä, jolloin mainittu koodaaminen käsittää lisäksi mainittujen genomikuvaajien binarisoinnin ja entropiakoodauksen, jolloin mainittu binarisointi ja entropiakoodaus suoritetaan kunkin kuvaajan — spesifisten tilastollisten ominaisuuksien mukaisesti, jolloin mainittu genomikuvaajien binarisointi ja entropiakoodaus tapahtuu siten, että mainittujen kuvaajien joukosta vähintään yhden kuvaajan binarisointi poikkeaa mainittujen kuvaajien joukosta vähintään yhden toisen kuvaajan binarisoinnista.
    2. Patenttivaatimuksen 1 mukainen menetelmä, joka käsittää lisäksi, että koodataan yksi tai useampia seuraavista kuvaajista: rlen-kuvaaja, jolla ilmaistaan kunkin koodatun sekvenssiluvun pituus; mmap, jolla ilmaistaan ne useat kartoitussijainnit, jotka on liitetty yhteen lukuun tai lukupariin — kartoitusmenettelyllä; msar, jolla ilmaistaan silmukoitujen lukujen (eli lukujen, jotka löytävät paloihin jaettuna kartoitussijainteja suuremmilla vastaavuustarkkuuksilla kuin silloin, kun ne kartoitetaan yhtenä jatkuvana lukuna, joka kartoitetaan yksittäiseen sijaintiin vertailusekvenssissä) läsnäolon tunnistaminen. — mscore-kuvaaja, joka ilmaisee genomisekvenssilukujen rinnastustyökalujen tuottaman kartoitus- /rinnastuspistemäärän lukua kohti; pair-kuvaaja, joka ilmaisee paired end -lukujen tapauksessa, miten luvut ovat pariutuneet; rtype-kuvaaja, jota käytetään ilmaisemaan niiden sekvenssilukujen koodaamiseen käytettyjen kuvaajien alijoukkoa, joita ei voida kartoittaa mihinkään vertailusekvenssin sijaintiin määritetyillä — vastaavuustarkkuuksilla; rgroup-kuvaaja, joka ilmaisee, mihin lukuryhmään luku kuuluu;
    rftp, jolla ilmaistaan contig- ja vertailusekvenssin välisten yhteensopimattomuuksien sijainti, jolloin yhteensopimattomuuksien sijainnit päättyvät erityiseen terminaattorimerkkiin, rftt, jolla ilmaistaan contig- ja vertailusekvenssin välisten yhteensopimattomuuksien tyyppi.
    3. Patenttivaatimuksen 1 tai 2 mukainen menetelmä, jossa mainitut kuvaajat binarisoidaan seuraavalla tavalla: mainittu pos-kuvaaja binarisoidaan käyttämällä kaksinkertaisesti typistettyä unaarista koodia tai yksinkertaista kaksinkertaisesti typistettyä unaarista koodia; — mainittu rcomp-kuvaaja binarisoidaan käyttämällä typistettyä unaarista koodia; mainitut kartoituslippujen kuvaajat binarisoidaan binäärikoodauksella; mainittu mmpos-kuvaaja, jolla ilmaistaan rinnastetuissa luvuissa olevien yhteensopimattomuuksien sijainti suhteessa vertailusekvensseihin, binarisoidaan käyttämällä jaettua yksikkökohtaista typistettyä unaarista koodia; — mainittu mmtype-kuvaaja, jolla ilmaistaan yhteensopimattomuuksien tyypit suhteessa vertailusekvensseihin niihin liittyvissä sijainneissa, binarisoidaan käyttämällä typistettyä unaarista koodia; mainittu clips-kuvaaja, jolla ilmaistaan alustavasti tai pysyvästi leikatut nukleotidit, binarisoidaan käyttämällä etumerkillisen typistetyn exponential-Golomb -koodin, typistetyn unaarisen koodin, — etumerkillisen exponential-Golomb -koodin ja binaaristen koodien ketjua.
    4. Patenttivaatimuksen 2 tai patenttivaatimuksen 3, kun se on riippuvainen patenttivaatimuksesta 2, mukainen menetelmä, jossa yksi tai useampi mainituista kuvaajista binarisoidaan seuraavalla — tavalla: mainittu rlen-kuvaaja, jolla ilmaistaan kunkin koodatun sekvenssiluvun pituus, binarisoidaan käyttämällä jaettua yksikkökohtaista typistettyä unaarista koodia;
    mainittu mmap-kuvaaja, jolla ilmaistaan ne useat kartoitussijainnit, jotka on liitetty yhteen lukuun tai lukupariin kartoitusmenettelyllä, binarisoidaan käyttämällä jaettua yksikkökohtaista typistettyä unaarista koodia; mainittu msar-kuvaaja, jolla ilmaistaan silmukoitujen lukujen olemassaolon tunnistaminen, 5 — binarisoidaan käyttäen etumerkillistä exponential-Golomb -koodia;
    mainittu mscore-kuvaaja, joka ilmaisee genomisekvenssilukujen rinnastustyökalujen tuottaman kartoitus-/rinnastuspistemäärän lukua kohti, binarisoidaan käyttämällä typistettyä unaarista koodia; mainittu pair-kuvaaja, joka ilmaisee paired end -lukujen tapauksessa, miten luvut ovat pariutuneet, binarisoidaan binäärikoodauksen ja jaetun yksikkökohtaisen typistetyn unaarisen koodin ketjulla;
    — mainittu ureads-kuvaaja, joka ilmaisee luvut, joita ei voitu rinnastaa mihinkään vertailusekvenssin sijaintiin, binarisoidaan käyttämällä typistettyä unaarista koodia; mainittu rtype-kuvaaja, jota käytetään ilmaisemaan niiden sekvenssilukujen koodaamiseen käytettyjen kuvaajien alijoukkoa, joita ei voida kartoittaa mihinkään vertailusekvenssin sijaintiin määritetyillä vastaavuustarkkuuksilla, binarisoidaan käyttämällä typistettyä unaarista koodia;
    — mainittu rgroup-kuvaaja, joka ilmaisee, mihin lukuryhmään luku kuuluu, binarisoidaan käyttämällä typistettyä unaarista koodia; mainittu rftp-kuvaaja, jolla ilmaistaan contig- ja vertailusekvenssin välisten yhteensopimattomuuksien sijainti, binarisoidaan käyttämällä binäärikoodauksen ja jaetun yksikkökohtaisen typistetyn unaarisen koodin ketjua; ja
    — mainittu rftt-kuvaaja, jolla ilmaistaan contig- ja vertailusekvenssin välisten yhteensopimattomuuksien tyyppi, binarisoidaan käyttämällä binäärikoodauksen ja typistetyn unaarisen koodin ketjua.
    —5 Jonkin edeltävän patenttivaatimuksen mukainen menetelmä, jossa mainitut kuvaajat koodataan lisäämällä konfigurointiparametrit syntaksiotsikkoon.
    6. Patenttivaatimuksen 5 mukainen menetelmä, jossa mainitut konfigurointiparametrit päivitetään luomalla päivitetyt syntaksiotsikot lisättäväksi koodattuun genomitiedostoon.
    7. Patenttivaatimuksen 5 tai 6 mukainen menetelmä, jossa mainitut konfigurointiparametrit — käsittävät yhden tai useamman seuraavista: tietoaineistotyyppi, jolla ilmaistaan näihin konfigurointiparametreihin viittaaviin pääsy-yksiköihin koodattujen tietojen tyyppi; lukupituus, jolla ilmaistaan sekvenssilukujen pituus nukleotideinä siinä tapauksessa, että lukupituus on vakio; laatuarvojen syvyysparametri, jolla ilmaistaan kuhunkin koodattuun nukleotidiin liittyvien laatuarvojen lukumäärä; rinnastuspistemäärän syvyys, jolla ilmaistaan kuhunkin koodattuun rinnastukseen liittyvien rinnastuspistemäärien lukumäärä; terminaattorin koko, jolla ilmaistaan mmpos-kuvaajaa varten käytettävän terminaattorisymbolin — koko tavuina; terminaattorin arvo, jolla ilmaistaan mmpos-kuvaajaa varten käytettävän terminaattorisymbolin arvo; luokkien lukumäärä, jolla ilmaistaan kaikkiin mainittuihin konfigurointiparametreihin viittaviin pääsy-yksiköihin koodattujen tietoluokkien lukumäärä; luokkatunnisteet, joilla ilmaistaan kuhunkin tietoluokkaan liittyvät tunnisteet; — kuvaajien lukumäärä, jolla ilmaistaan niiden kuvaajien kokonaislukumäärä, jotka sisältyvät mainittuihin konfigurointiparametreihin viittaaviin pääsy-yksiköihin; koodaustilatunnisteet eri koodaustiloille; ryhmien lukumäärän parametri, jolla ilmaistaan kaikissa nykyisiin konfigurointiparametreihin viittaavissa pääsy-yksiköissä läsnä olevien rgroup-kuvaajan eri arvojen lukumäärä; — yksi tai useampi ryhmän nimiparametri, jolla ilmaistaan yksi tai useampia lukuryhmätunnisteita; useiden rinnastusten lippu, jolla ilmaistaan useiden rinnastusten läsnäolo pääsy-yksikössä; ja silmukoitujen lukujen lippu, jolla ilmaistaan silmukoitujen lukujen läsnäolo pääsy-yksikössä.
    8. Jonkin patenttivaatimuksista 5-7 mukainen menetelmä, jossa mainitut konfigurointiparametrit — käsittävät lisäksi usean allekirjoituksen perusarvoa koskevan lipun, jolla ilmaistaan useiden allekirjoitusten käyttö pääsy-yksikössä, joka sisältää kartoittamattomia sekvenssilukuja (luokka U), jolloin edullisesti mainitut konfigurointiparametrit käsittävät lisäksi allekirjoituksen koon, jolla ilmaistaan kunkin koodattua allekirjoitusta edustavan kokonaisluvun koko bitteinä.
    9. Jonkin edeltävän patenttivaatimuksen mukainen menetelmä, jossa mainittujen kuvaajien mainittu entropiakoodaus suoritetaan käyttämällä useita entropiakoodereita.
    10. Patenttivaatimuksen 9 mukainen menetelmä, jossa mainittu binarisointi ja entropiakoodaus tapahtuu siten, että mainittujen kuvaajien joukosta vähintään yhden kuvaajan entropiakoodaus — poikkeaa mainittujen kuvaajien joukosta vähintään yhden toisen kuvaajan entropiakoodauksesta.
    11. Tietokoneella toteutettu menetelmä koodattujen genomitietojen dekoodaamiseksi, jolloin mainitut genomisekvenssitiedot käsittävät nukleotidien sekvenssien lukuja, jolloin mainittu menetelmä käsittää vaiheet, joissa: — jäsennetään mainittuja koodattuja genomitietoja sisältäviä pääsy-yksiköitä useiden genomikuvaajien lohkojen poimimiseksi käyttämällä otsikkotietoja; ja dekoodataan mainitut useat lohkot; jolloin mainittu useiden lohkojen dekoodaus käsittää homogeenisten tietojen lohkoihin järjestettyjen genomikuvaajien entropiadekoodauksen ja debinarisoinnin rinnastettujen lukujen poiminnan — suorittamiseksi noudattaen spesifisiä vastaavuussääntöjä, jotka määrittelevät niiden luokituksen suhteessa yhteen tai useampaan vertailusekvenssiin, jolloin: - kun yksi tai useampi mainituista rinnastetuista luvuista on luokiteltu ensimmäiseen luokkaan (luokka P), mainittu poiminta suoritetaan perustuen vertailusekvenssissä olevan alueeseen, joka vastaa yhtä tai useampaa rinnastettua lukua ilman yhtäkään yhteensopimattomuutta;
    - kun yksi tai useampi mainituista rinnastetuista luvuista on luokiteltu toiseen luokkaan (luokka N), mainittu poiminta suoritetaan perustuen vertailusekvenssissä olevaan alueeseen, joka vastaa yhtä tai useampaa rinnastettua lukua siten, että siinä on yhteensopimattomuuksien tyyppi ja lukumäärä, jotka määräytyvät vain niiden sijaintien lukumäärän perusteella, joissa luvun tuottava — sekvensointikone ei pystynyt kutsumaan mitään emästä;
    - kun yksi tai useampi mainituista rinnastetuista luvuista on luokiteltu kolmanteen luokkaan (luokka M), mainittu poiminta suoritetaan perustuen vertailusekvenssissä olevaan alueeseen, joka vastaa yhtä tai useampaa rinnastettua lukua siten, että siinä on yhteensopimattomuuksien tyyppi ja lukumäärä, jotka määräytyvät vain niiden sijaintien lukumäärän perusteella, joissa luvun tuottanut
    — sekvensointikone ei pystynyt kutsumaan mitään emästä, sekä niiden yhteensopimattomuuksien lukumäärän perusteella, joissa on kutsuttu eri nukleotidiä kuin mikä on läsnä vertailusekvenssissä; - kun yksi tai useampi mainituista rinnastetuista luvuista on luokiteltu neljänteen luokkaan (luokka I), mainittu poiminta suoritetaan perustuen mainittuun yhteen tai useampaan rinnastettuun lukuun, jossa on vähintään yksi minkä tahansa tyyppinen yhteensopimattomuus insertion, deleetion ja
    — leikkauksen joukosta sekä mikä tahansa toiseen luokkaan (luokka N) tai kolmanteen luokkaan (luokka M) kuuluva yhteensopimattomuuksien tyyppi, mikäli läsnä, jolloin insertiot muodostuvat ylimääräisestä sekvenssistä, jossa on yksi tai useampia nukleotidejä, jotka eivät esiinny vertailusekvenssissä, mutta jotka esiintyvät rinnastetussa luvussa, jolloin deleetiot ovat puuttuvia nukleotidejä rinnastetussa luvussa suhteessa vertailusekvenssiin, ja jolloin leikkaus käsittää
    — alustavasti leikattuja nukleotidejä, jotka edustavat rinnastetun luvun reunoilla olevaa insertoitua nukleotidisekvenssiä, ja jotka eivät vastaa vertailusekvenssiä, mutta jotka pidetään rinnastetussa luvussa, ja pysyvästi leikattuja nukleotidejä, jotka hylätään rinnastetusta luvusta; - kun yksi tai useampi mainituista rinnastetuista luvuista on luokiteltu viidenteen luokkaan (luokka U), mainittu poiminta suoritetaan sillä perusteella, että mitään ensimmäisen-neljännen luokan
    — mukaista vastaavuutta ei ole; jolloin kuvaajat käsittävät ensimmäistä luokkaa (luokka P) koskien: - luvun kartoitussijainnin vertailusekvenssissä (pos), - DNA- tai RNA-juosteen, jossa luku on kartoitettu (rcomp), ja - kartoituslippuja, joiden avulla rinnastustyökalu voi edelleen täsmentää kartoitusprosessin tulosta;
    jolloin kuvaajat käsittävät lisäksi toista luokkaa (luokka N) koskien: - yhteensopimattomuuksien sijainnin rinnastetuissa luvuissa suhteessa vertailusekvensseihin (mmpos); jolloin kuvaajat käsittävät lisäksi kolmatta luokkaa (luokka M) koskien: —- yhteensopimattomuuksien tyypit suhteessa vertailusekvensseihin niihin liittyvissä sijainneissa (mmtype); jolloin kuvaajat käsittävät lisäksi neljättä luokkaa (luokka I) koskien: - kuvaajan, joka ilmaisee alustavasti tai pysyvästi leikatut nukleotidit (clips); jolloin kuvaajat käsittävät lisäksi viidettä luokkaa (luokka U) koskien: — - täsmälliset sekvenssiluvut emäksistä, joita ei voida kartoittaa mihinkään saatavilla olevaan vertailusekvenssiin (ureads); jolloin mainittu genomikuvaajien entropiadekoodaus ja debinarisointi käsittää mainittujen kuvaajien joukosta vähintään yhden kuvaajan osalta sellaisen debinarisoinnin käyttämisen, joka poikkeaa mainittujen kuvaajien joukosta vähintään yhden toisen kuvaajan osalta käytettävästä — debinarisoinnista.
    12. Patenttivaatimuksen 11 mukainen menetelmä, joka käsittää lisäksi, että dekoodataan yksi tai useampia seuraavista kuvaajista: — rlen-kuvaaja, jolla ilmaistaan kunkin koodatun sekvenssiluvun pituus; mmap, jolla ilmaistaan ne useat kartoitussijainnit, jotka on liitetty yhteen lukuun tai lukupariin kartoitusmenettelyllä; msar, jolla ilmaistaan silmukoitujen lukujen, eli lukujen, jotka löytävät paloihin jaettuna kartoitussijainteja suuremmilla vastaavuustarkkuuksilla kuin silloin, kun ne kartoitetaan yhtenä —jatkuvanalukuna, joka kartoitetaan yksittäiseen sijaintiin vertailusekvenssissä, läsnäolon tunnistaminen;
    mscore-kuvaaja, joka ilmaisee genomisekvenssilukujen rinnastustyökalujen tuottaman kartoitus- /rinnastuspistemäärän lukua kohti; pair-kuvaaja, joka ilmaisee paired end -lukujen tapauksessa, miten luvut ovat pariutuneet; ureads-kuvaaja, joka ilmaisee luvut, joita ei voitu rinnastaa mihinkään vertailusekvenssin sijaintiin; —rtype-kuvaaja, jota käytetään ilmaisemaan niiden sekvenssilukujen koodaamiseen käytettyjen kuvaajien alijoukkoa, joita ei voida kartoittaa mihinkään vertailusekvenssin sijaintiin määritetyillä vastaavuustarkkuuksilla; rgroup-kuvaaja, joka ilmaisee, mihin lukuryhmään luku kuuluu; rftp, jolla ilmaistaan contig- ja vertailusekvenssin välisten yhteensopimattomuuksien sijainti, jolloin — yhteensopimattomuuksien sijainnit päättyvät erityiseen terminaattorimerkkiin; rftt, jolla ilmaistaan contig- ja vertailusekvenssin välisten yhteensopimattomuuksien tyyppi.
    13. Patenttivaatimuksen 11 tai 12 mukainen menetelmä, jossa mainitut kuvaajat dekoodataan — poimimalla konfigurointiparametrit syntaksiotsikosta.
    14. Patenttivaatimuksen 13 mukainen menetelmä, jossa mainitut konfigurointiparametrit käsittävät yhden tai useamman seuraavista: tietoaineistotyyppi, jolla ilmaistaan näihin konfigurointiparametreihin viittaaviin pääsy-yksiköihin — koodattujen tietojen tyyppi; lukupituus, jolla ilmaistaan sekvenssilukujen pituus nukleotideinä siinä tapauksessa, että lukupituus on vakio; laatuarvojen syvyysparametri, jolla ilmaistaan kuhunkin koodattuun nukleotidiin liittyvien laatuarvojen lukumäärä; — rinnastuspistemäärän syvyys, jolla ilmaistaan kuhunkin koodattuun rinnastukseen liittyvien rinnastuspistemäärien lukumäärä;
    terminaattorin koko, jolla ilmaistaan mmpos-kuvaajaa varten käytettävän terminaattorisymbolin koko tavuina; terminaattorin arvo, jolla ilmaistaan mmpos-kuvaajaa varten käytettävän terminaattorisymbolin arvon; luokkien lukumäärä, jolla ilmaistaan niiden tietoluokkien lukumäärä, jotka on koodattu kaikkiin — mainittuihin konfigurointiparametreihin viittaaviin pääsy-yksiköihin; luokkatunnisteet, jotka ilmaisevat kuhunkin tietoluokkaan liittyvät tunnisteet; kuvaajien lukumäärä, jolla ilmaistaan niiden kuvaajien kokonaislukumäärä, jotka sisältyvät mainittuihin konfigurointiparametreihin viittaaviin pääsy-yksiköihin; koodaustilatunnisteet, joilla ilmaistaan tässä esitetyn mukaisesti määritellyt koodaustilat; — ryhmien lukumäärän parametri, jolla ilmaistaan kaikissa nykyisiin konfigurointiparametreihin viittaavissa pääsy-yksiköissä läsnä olevien rgroup-kuvaajan eri arvojen lukumäärä; yksi tai useampi ryhmän nimiparametri, jolla ilmaistaan yksi tai useampia lukuryhmätunnisteita; useiden rinnastusten lippu, jolla ilmaistaan useiden rinnastusten läsnäolo pääsy-yksikössä; ja silmukoitujen lukujen lippu, jolla ilmaistaan silmukoitujen lukujen läsnäolo pääsy-yksikössä, — edellyttäen, että kun se on asetettu arvoon O, silmukoituja lukuja ei ole läsnä.
    15. Patenttivaatimuksen 13, tai patenttivaatimuksen 14, kun se on riippuvainen patenttivaatimuksesta 13, mukainen menetelmä, jossa mainitut konfigurointiparametrit käsittävät — lisäksi useiden allekirjoitusten perusarvoa koskevan lipun, jolla ilmaistaan useiden allekirjoitusten käyttö pääsy-yksikössä, joka sisältää kartoittamattomia sekvenssilukuja (luokka U); ja edullisesti mainitut konfigurointiparametrit käsittävät lisäksi allekirjoituksen koon, jolla ilmaistaan kunkin koodattua allekirjoitusta edustavan kokonaisluvun koko bitteinä.
    16. Jonkin patenttivaatimuksista 11-15 mukainen menetelmä, jossa mainittu genomikuvaajien entropiadekoodaus ja debinarisointi käsittää mainittujen kuvaajien joukosta vähintään yhden osalta sellaisen entropiadekoodauksen käyttämisen, joka poikkeaa mainittujen kuvaajien joukosta vähintään yhden toisen kuvaajan osalta käytettävästä entropiakoodauksesta.
    17. Koodauslaite, joka sisältää koodausvälineet jonkin patenttivaatimuksista 1-10 mukaisen koodausmenetelmän suorittamiseksi.
    18. Dekoodauslaite, joka käsittää dekoodausvälineet jonkin patenttivaatimuksista 11-16 mukaisen dekoodausmenetelmän suorittamiseksi.
    19. Tallennusväline, johon on tallennettu tietokoneohjelma, joka käsittää ohjeet jonkin — patenttivaatimuksista 1-16 mukaisten menetelmien suorittamiseksi.
FIEP17896462.3T 2017-02-14 2017-12-15 Menetelmiä ja järjestelmiä genomisekvenssilukujen tehokkaaseen pakkaamiseen FI3583250T3 (fi)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/US2017/017842 WO2018071055A1 (en) 2016-10-11 2017-02-14 Method and apparatus for the compact representation of bioinformatics data
PCT/US2017/041579 WO2018071078A1 (en) 2016-10-11 2017-07-11 Method and apparatus for the access to bioinformatics data structured in access units
PCT/US2017/066863 WO2018151788A1 (en) 2017-02-14 2017-12-15 Method and systems for the efficient compression of genomic sequence reads

Publications (1)

Publication Number Publication Date
FI3583250T3 true FI3583250T3 (fi) 2023-10-09

Family

ID=88206817

Family Applications (2)

Application Number Title Priority Date Filing Date
FIEP17896453.2T FI3583249T3 (fi) 2017-02-14 2017-12-14 Menetelmä ja järjestelmiä genomivertailusekvenssien rekonstruoimiseksi pakatuista genomisekvenssiluvuista
FIEP17896462.3T FI3583250T3 (fi) 2017-02-14 2017-12-15 Menetelmiä ja järjestelmiä genomisekvenssilukujen tehokkaaseen pakkaamiseen

Family Applications Before (1)

Application Number Title Priority Date Filing Date
FIEP17896453.2T FI3583249T3 (fi) 2017-02-14 2017-12-14 Menetelmä ja järjestelmiä genomivertailusekvenssien rekonstruoimiseksi pakatuista genomisekvenssiluvuista

Country Status (4)

Country Link
ES (1) ES2960009T3 (fi)
FI (2) FI3583249T3 (fi)
HU (2) HUE063597T2 (fi)
PL (2) PL3583249T3 (fi)

Also Published As

Publication number Publication date
PL3583249T3 (pl) 2024-04-08
PL3583250T3 (pl) 2024-01-29
FI3583249T3 (fi) 2023-10-16
ES2960009T3 (es) 2024-02-29
HUE063597T2 (hu) 2024-01-28
HUE063543T2 (hu) 2024-01-28

Similar Documents

Publication Publication Date Title
CN110678929B (zh) 用于高效压缩基因组序列读段的方法和系统
Hach et al. SCALCE: boosting sequence compression algorithms using locally consistent encoding
KR20130069427A (ko) 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
WO2011007956A2 (ko) 데이터의 압축방법
WO2004042930A3 (en) Content-based segmentation scheme for data compression
KR20120137235A (ko) 유전자 데이터를 압축하는 방법 및 장치
CN110088839B (zh) 用于生物信息学信息表示的有效数据结构
CA3052773A1 (en) Method and systems for the efficient compression of genomic sequence reads
US9740720B2 (en) Secure and lossless data compression
CN111095423A (zh) 编码/解码方法、装置和数据处理装置
KR20190113971A (ko) 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치
FI3583250T3 (fi) Menetelmiä ja järjestelmiä genomisekvenssilukujen tehokkaaseen pakkaamiseen
EP3583250B1 (en) Method and systems for the efficient compression of genomic sequence reads
CA3052772A1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
CN1677872A (zh) 条码的解码方法
CN1661529A (zh) 一种条码编码方法
Hoobin et al. Fast and efficient compression of high-throughput sequencing reads
CN114402314A (zh) 用于压缩基因组序列数据的方法
Numanagic Boosting high throughput sequencing data compression algorithms using reordering