FI114347B - Menetelmä ja laitteisto datan kääntämiseksi - Google Patents

Menetelmä ja laitteisto datan kääntämiseksi Download PDF

Info

Publication number
FI114347B
FI114347B FI20020532A FI20020532A FI114347B FI 114347 B FI114347 B FI 114347B FI 20020532 A FI20020532 A FI 20020532A FI 20020532 A FI20020532 A FI 20020532A FI 114347 B FI114347 B FI 114347B
Authority
FI
Finland
Prior art keywords
segment
segments
som
elements
att
Prior art date
Application number
FI20020532A
Other languages
English (en)
Swedish (sv)
Other versions
FI20020532A (fi
FI20020532A0 (fi
Inventor
Ari Becks
Original Assignee
Master S Innovations Ltd Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Master S Innovations Ltd Oy filed Critical Master S Innovations Ltd Oy
Priority to FI20020532A priority Critical patent/FI114347B/fi
Publication of FI20020532A0 publication Critical patent/FI20020532A0/fi
Priority to PL03371547A priority patent/PL371547A1/xx
Priority to PCT/FI2003/000195 priority patent/WO2003079223A1/en
Priority to US10/507,144 priority patent/US20050256698A1/en
Priority to EP03714987A priority patent/EP1485819A1/en
Priority to AU2003219191A priority patent/AU2003219191A1/en
Priority to RU2004127924/09A priority patent/RU2004127924A/ru
Publication of FI20020532A publication Critical patent/FI20020532A/fi
Application granted granted Critical
Publication of FI114347B publication Critical patent/FI114347B/fi

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Description

114347
Menetelmä ja laitteisto datan kääntämiseksi - Metod och apparatur för att transformer data
Keksintö koskee yleisesti datan luokittelua ja kääntämistä tai muuntamista toiseen 5 alkuperäistä vastaavaan muotoon. Erityisesti keksintö koskee kielen kääntämistä.
Luonnollisten kielten automaattiseen kääntämiseen käytetään nykyisin pääasiassa kahta tekniikkaa: konekäännös- ja käännösmuistitekniikkaa. Käännettävää kokonaisuutta kutsutaan yleisesti syötetietovirraksi ja syötetietovirta sisältää tunnistettavissa olevia elementtejä. Luonnollisen kielen tapauksessa syötetietovirta sisältää siis lau-10 seita ja/tai virkkeitä ja tunnistettavat elementit ovat sanoja mahdollisine etu- ja jälki-liitteineen.
Konekäännöstekniikassa syötetietovirran elementit analysoidaan hyvin tarkasti määritetyn säännöstön mukaisesti. Analysoiduista elementeistä tuotetaan järjestelmään ohjelmoitujen, tuhansien jäsennyssääntöjen avulla alkuperäistä lausetta tai 15 virkettä vastaava jäsennyspuu, joka kuvaa elementtien riippuvuutta toisistaan ja toisista alipuista. Esimerkiksi lauseen ’’kissa kävelee” elementti ’’kissa” tulkitaan subjektiksi, joka riippuu predikaatista ’’kävelee”. Nämä riippuvuussuhteet määritetään yksinkertaistettujen sääntöjen mukaan edeten yleisistä yksityiskohtaisempiin, esimerkiksi tässä esimerkkilauseessa aluksi tarkastellaan kokonaista virkettä, joka . ·: 20 koostuu tässä yhdestä lauseesta. Lause sisältää predikaatin ja niin sanotun nominaa- lifraasin. Tämä nominaalifraasi sisältää subjektin ja mahdolliset sitä kuvaavat ad-; verbiaalit. Lauseen subjekti on substantiivin nominatiivi ja yksikkö, predikaatti on .···. verbin preesens ja yksikkö. Näin tuotettu jäsennyspuu muunnetaan sitten kohdekie- . ·. : Ien jäsennyspuurakenteeksi erillisten muunnossääntöjen avulla. Kohdekielen jäsen- i.." 25 nyspuurakenteesta tuotetaan eri vaiheiden jälkeen kohdekielisen lauseen tai virk keen rakenteen mukainen elementeistä koostuva kokonaisuus. Käännöksen tuottamiseksi on siis käytettävä vähintään kolmea eri sääntökantaa jäsennyspuiden tuot-' tamiseen, muuntamiseen ja generoimiseen, sekä joukkoa erillisiä analysointi- ja ge- nerointisääntökantoja tai muita vastaavia mekanismeja.
'.30 Käännösmuistitekniikassa elementtejä ei analysoida, vaan syötetietovirran kokonai-siä lauseita tai virkkeitä verrataan tietokannassa oleviin elementtijonoihin merkki-: jonovertailuna. Jos samanlainen merkki- tai elementtijono löydetään, sen käännös ; ·,; on tähän jonoon assosioitu vastinkielinen merkki- tai elementtijono, ja se tuloste taan vasteena syötetietovirran käännöspyyntöön. Käännösmuistitekniikkaa hyödyn- 114347 2 tävät järjestelmät ovat tehokkaimmillaan, kun saman tekstin eri versioita käännetään uudestaan tai kun käännettävät tekstit sisältävät samoja lauseita. Olemassa olevista tekniikoista käännösmuisti on melko tehokas ja käyttökelpoinen poistamaan rutiini-työtä. Käännösmuistit eivät kuitenkaan kykene kääntämään tarpeeksi tarkasti aiem-5 masta poikkeavia lauseita, vaan kääntäjä joutuu muokkaamaan tekstiä aina, kun se sisältää uuden kääntämättömän lauseen.
Konekäännöstekniikkaa voidaan soveltaa niin sanotussa esimerkkiperusteisessa ko-nekäännöksessä (example-based machine translation, EBMT), jonka perusidea on se, että käännetään syötevirke matkimalla samantapaisten valmiiden esimerkkien 10 käännöksiä. Esimerkkiperusteisessa konekäännöksesSä yritetään siis tuottaa lopputulos yhdistämällä kahden eri käännöksen osia yhdistämällä niiden jäsennyspuita syötetietovirtaa vastaavaksi jäsennyspuuksi. Muita tunnettuja tapoja perinteisen konekäännöstekniikan ongelmien kiertämiseksi ovat muistiperasteinen (memory-based MT), analogiaperusteinen (analogy-based MT) ja tapausperusteinen (case-15 based MT) konekääntäminen.
Tilastolliset käännösjärjestelmät perustuvat sanojen esiintymisen todennäköisyyteen valmiissa käännöksissä. Esimerkiksi voidaan etsiä vastaavuudet alkuperäiskielisistä ja käännetyistä virkkeistä, ja laskea todennäköisyys sille, kääntyykö alkuperäinen sana yhdeksi vai kahdeksi sanaksi vai jääkö se käännöksestä kokonaan pois. Tämän 20 perusteella tuotetaan käännössäännöt.
i On myös olemassa erinäisiä rajoitettuihin kieliin tai alikieliin perustuvia järjestel- • miä. Niiden käyttö on kuitenkin hyvin kurinalaista, sillä käyttäjän antaman syötteen ; _: : on oltava tarkoin määriteltyjen sääntöjen mukaista. Tämä vaatii erityistä mukautu- : miskykyä ja -halua käyttäjältä. Koulutettu käyttäjä pääsee kuitenkin lähelle ideaa- : \ i 25 lista tulosta tällaisessa rajoitetussa järjestelmässä, eikä käyttäjän apua yleensä kään-;" ·. nösvaiheessa tarvita.
Tunnetun tekniikan mukainen konekääntäminen edellyttää monimutkaisten sään- » * : · i nostojen ja semantiikan ohjelmointia, jotta yksittäisten sanojen lauseyhteydet saa- ',..: daan esille. Tämä vaatii edelleen raskasta ohjelmointia ja tyypillisesti vielä ammatti- :·.·. 30 laisen tulkintaa. Esimerkki-, muisti-, analogia- tai tapausperusteisten konekäännös- , · · ·. ten soveltaminen vaatii useiden vaikeasti toteutettavien osavaiheiden suorittamista.
' ’ ’ Tarvitaan alkuperäisen ja käännöskielisen kielen jäsennyspuut, jotta voidaan etsiä ja ...·’ ohjelmoida virkkeiden vastinosapuut. Tämä asettaa vaatimuksensa tiedon esitys- ;.' · · muodolle ja tuotetut puurakenteet ovat aina raskaita toteuttaa ja käyttää.
114347 3
Jos käännösmuistijäijestelmä ei voi tuottaa käännöstä käyttäjän syötteeseen, se joko antaa vaihtoehtoisia tuloksia, joista käyttäjä voi valita haluamansa tai pyytää käyttäjää syöttämään oikean käännöksen. Usein käyttäjä muuttaa käännösvirkkeen rakennetta niin paljon, että käännösmuistijäijestelmään tallennetaan vain kokonaisen 5 virkkeen tai lauseen käännösvaste. Käännösjäijestelmien opettamiseen tarvitaan tyypillisesti suuri määrä oikeanlaisia valmiita käännöksiä. Käännösmuistitekniikan ongelmana on sen kyvyttömyys kääntää aivan uusia, aiemmin kääntämättömiä lauseita. Ongelmaa on yritetty ratkaista yhdistämällä tunnettuja käännöksiä uusiin syötteisiin, muun muassa neuraaliverkkoja ja tilastollisia todennäköisyyksiä hyväksi 10 käyttäen. Tulokset eivät kuitenkaan ole olleet lupaavia, sillä käännösmuistit eivät kykene muokkaamaan tarkasti oikeaa tulosta samankaltaisen lauseen perusteella, vaan yleensä kopioivat syötelauseelle lähimmän vastaavan käännösvasteen sellaisenaan lopputulokseksi.
Kaupallisesti käännösmuistitekniikkaa käyttävät tuotteet ovat menestyneet kone-15 käännöstekniikkaa hyödyntäviä paremmin, koska jälkimmäinen vaatii raskasta prosessointia ja siten laitteet ovat tyypillisesti joko liian hitaita tai liian kalliita. Molempien tekniikoiden kaupallistamisen ongelmana on suuri työmäärä sovitettaessa järjestelmiä uusille toimialoille tai mukautettaessa niitä kielen rakenteiden ja sanaston kehittyessä.
20 Keskeiset ongelmat olemassa olevien ratkaisujen takana ovat koneilta vaadittava te-. hokkuus ja nopeus sekä menetelmän kattavuus eli se, kuinka suuri osa käännöksistä s on riittävän hyviä. Nämä kaksi ovat lisäksi sidoksissa toisiinsa. Periaatteessa kään- ; nösjärjestelmän pitäisi kyetä kääntämään miljardeja mahdollisia lauseita, jotka syn- ;;: ’ tyvät kymmenien tuhansien sanojen lukuisista erilaisista kombinaatioista. Esimerk- :; 25 kipohjaisissa järjestelmissä tätä valtavaa vaihtoehtojen määrää pyritään hallitsemaan tallentamalla paljon esimerkkejä, joista jokaista voidaan sovittaa moneen käännettä-; vään tekstiin. Esimerkiksi 10 000 esimerkkiä, joista jokainen sopii 10 000 käännet tävään kohteeseen, kykenee käsittelemään 10 0002 = 0,1 miljardia potentiaalista : \; käännettävää lausetta. Lisäksi esimerkkipohjaisissa järjestelmissä voidaan soveltaa . * · ·. 30 segmentointia, eli jakaa käännettävä syöte pienempiin osiin, jolloin erilaisia kombi- naatioita on vähemmän. Tältä pohjalta esimerkkipohjaisten käännösjärjestelmien ; *' ongelmakokonaisuus voidaan ryhmitellä esimerkiksi seuraavaan neljään osaongel- :... · maan: 1. Esimerkkien määrä. Käännösjärjestelmän täytyy kyetä hallitsemaan suurta mää-‘ · ’ · 35 rää esimerkkejä tehokkaasti, sekä kyetä hakemaan sopivia esimerkkejä nopeasti suurista tietokannoista. Tähän pystyvät perinteiset käännösmuistit, mutta eivät 114347 4 jäsennyspuita tai muita tekstimuotoa monimutkaisempia esitysmuotoja käyttävät konekäännösjäijestelmät tai vastaavia tekniikoita käyttävät esimerkkipohjaiset käännösjärjestelmät.
2. Esimerkkien yleistys, haku ja sovitus. Yhden esimerkin tulee sopia moneen 5 käännettävään kohteeseen (lähdekielen lauseeseen tai sen osaan), sopivan esimerkin haun tietokannasta on oltava nopea ja sovituksen tehokas. Käännösmuis-tit eivät tähän kykene, sillä ne sovittavat kohteen vain tekstivertailulla eivätkä kykene yleistykseen. Sen sijaan monet esimerkkipohjaiset järjestelmät pystyvät sovittamaan saman esimerkin moneen käännettävään kohteeseen soveltamalla 10 kieliteknologiaa. Niissä sovitus on yleensä monivaiheinen, käyttää laskennallisesti hankalia menetelmiä, hitaita ja monimutkaisia hakuja sekä rajaavia heuristiikkoja, jolloin niiden skaalattavuus on huono, eli osaongelma 1 ei ratkea.
3. Segmentointi ja segmenttien yhdistely. Jos teksti käännetään sana kerrallaan, tarvittavien esimerkkien määrä on pieni, mutta käännöksen laatu erittäin huono. Jos 15 esimerkin (segmentin) koko on lause tai virke, käännös voidaan yleensä tehdä laadukkaasti, mutta tarvittavien esimerkkien määrä nousee miljardeihin (ilman sovitusta - kts. osaongelma 2). Tarvittavien esimerkkien määrää voidaan pienentää oleellisesti käyttämällä lausetta lyhyempiä segmenttejä. Tällöin segmenttien yhdistely tulee uudeksi ongelmaksi ja epätarkkojen käännösten osuus lisääntyy.
20 Aina kokonaisen esimerkkilauseen tai virkkeenkään käyttö ei takaa oikeellisuut-. ta, sillä lauseen/virkeen oikea tulkinta voi vaatia jopa lauseyhteyden tai kappal- leen ulkopuolista kontekstia tai semanttista maailmanmallia. Erityistä tulkintaa ; ;* vaaditaan esimerkiksi runoja käännettäessä. Riippuen käytettävästä yleistystek- ' nilkasta (osaongelma 2) ’’turvallisen” segmentoinnin tekeminen voi olla hei- 1 I * : 25 pompaa. Toisaalta usein riski väärästä käännöksestä lisääntyy.
.·*·. 4. Käännösvasteen muokkaaminen. Jos esimerkkipohjaisessa käännösjärjestelmässä käytetään vain käännösesimerkkejä ja niiden käännösvasteita tekstimuotoisina, , , ilman segmentointia, ei lähdekielisen tekstin käännösvastetta tarvitse muokata.
Jos käytetään ’’turvallista” segmentointia (osaongelma 3), käännösvaste voidaan ; · ‘ 30 tehdä yhdistämällä segmenttien käännökset. Jos taas käytetään yleistystä (osa- : ' ’: ongelma 2), tai lyhyiden segmenttien yhdistelyä, käännösvasteen muokkaami- : ’": nen voi olla hyvin hankalaa.
:: Tunnetuilla menetelmillä kaikkien näiden neljän osaongelman ratkaisu ei ole onnis- :, ‘ >; tunut samalla kertaa eli kokonaisuus ei toimi. Käännösmuistijärjestelmät ratkaisevat 35 osaongelmat 1 ja 4, mutta keinojen puuttuessa osaongelmaan 2 niiltä puuttuu yleis- 5 114347 tettävyys. Tutkimuksellisissa esimerkkipohjaisissa käännösjärjestelmissä esitetään ratkaisumalleja osaongelmaan 2. Esimerkiksi tunnettu käännösohjelma ReVerb (Collins, B., Cunningham, P., Veale, T., An Example-Based Approach to Machine Translation, Proc. of AMTA conference, October 1996, pp. 1-13) pyrkii ratkaise-5 maan osaongelmat 2 ja 4 yleistämällä esimerkkejä sanojen lauseenjäsennyksen avulla ja ottamalla käytettävän esimerkin valinnassa huomioon käännösvasteen muokattavuuden. Sen käyttämän haku- ja sovitusmekanismin monimutkaisuus ja parinsadan esimerkin tietämyskanta eivät kuitenkaan näytä skaalautuvan osaongelman 1 ratkaisemiseksi. Pangloss (Brown, R.D., Example-Based Machine Translati-10 on in the Pangloss System, Proceedings of the 16th International Conference on Computational Linguistics, August 1996) taas käyttää hybridimallia, jossa pohjana on tekstipohjaisen käännösmuistin ratkaisu osaongelmaan 1, jonka yleisyyttä on lisätty käyttämällä esimerkiksi päivämäärien kääntämiseen sovituspohjia, jotka tunnistavat ja kääntävät kaikki päivämäärät. Tämä malli on suhteellisen turvallinen 15 osaongelman 4 suhteen, mutta sen yleistettävyys (osaongelma 2) jää suhteellisen vähäiseksi, sillä kaikkia syötteitä ei kyetä kääntämään. Pangloss käyttääkin erillistä konekäännösjärjestelmää kääntääkseen loput syötteet ja saavuttaakseen riittävän yleistettävyyden. Kaupallisesti parhaiten menestynyt tuote, Trados (http://www.trados-com), ratkaisee käännösmuistina osaongelman 1 ja yrittää sovel-20 taa neuraalilaskentaa osaongelman 2 ratkaisemiseen. Tässä ei kuitenkaan onnistuta, sillä neuraalilaskenta ei riitä osaongelmaan 2 ja, ennen kaikkea, osaongelma 4 jää ratkaisematta, samoin 3. Yleensäkkään näissä järjestelmissä ei juuri kyetä hyödyn-·: tämään segmentointia, poikkeuksena lähinnä Pangloss, jossa keskimääräinen seg- ! mentti on noin kolmen sanan pituinen niille syötteille, joita se kykenee käsittele- . : j 25 mään.
* * · r · ‘ . Keksinnön tavoitteena on tuottaa tehokas, joustava menetelmä ja järjestely datan ;,. * luokittelemiseksi ja edelleen kääntämiseksi. Lisäksi keksinnön tavoitteena on tuot- taa käännösjärjestely, joka on helposti mukautettavissa uudenlaisiin syötetietovir-toihin ja rakenteisiin.
» * * ! | t » · . ” ’. 30 Tavoite saavutetaan siten, että dataa käsitellään sopivan kokoisina segmentteinä, te- i I » hokkailla analysointimenetelmillä. Jokainen segmentti saa analysointitulosten pe- k ; ·' rusteella yksikäsitteisen luokituksen, jota voidaan käyttää erittäin tehokkaasti seg- menttien vertailuun ja suurten tietämyskantojen hakuavaimena. Tehokkuuden ansi-: “: osta tietämyskannan kokoa ja esimerkkien määrää voidaan lisätä edelleen, mikä pa- ’ 1 a • · * 35 rantaa kattavuutta ja laatua.
114347 6
Keksinnölle on tunnusomaista se, mitä sanotaan itsenäisten patenttivaatimusten tunnusmerkkiosissa. Keksinnön edullisia suoritusmuotoja on kuvattu epäitsenäisissä patenttivaatimuksissa.
Keksinnön edullisen suoritusmuodon mukaan syötetietovirran kääntäminen toiseen 5 muotoon tapahtuu vaiheittain. Keksinnön edullisen suoritusmuodon mukaisessa menetelmässä käytetään hyväksi sinänsä tunnettuja menetelmiä syötetietovirran segmentoimiseksi eli jakamiseksi osiin. Käyttökelpoisia segmentointimenetelmiä ovat esimerkiksi syötetietovirran segmentointi välimerkkien avulla, lauseina, fraaseina tai välikesanojen avulla, vaikkapa katkaisemalla segmentti ja-sanan jälkeiseen 10 sanaan tai ennen sivulauseen aloittavia sanoja. Keksinnön erään edullisen suoritusmuodon mukaan käytetään sellaista segmentointimenetelmää, jossa syötteen jako segmentteihin tehdään siten, että muodostetut segmentit löytyvät mahdollisimman kattavasti jo tietämyskannassa olevista segmenteistä.
Keksinnön edullisen suoritusmuodon mukaan aluksi yritetään kääntää syötetietovir-15 taa mahdollisimman vähän resursseja kuluttavasti, esimerkiksi käännösmuistitek-niikan avulla. Tyypillisesti ainakin osa syötetietovirrasta saadaan käännettyä suoraan ja nopeasti. Syötetietovirran jäljelle jääneelle osalle tehdään kevyt analysointi, jossa syötetietovirran elementeille tuotetaan kullekin jokin analyysitulos. Tässä hakemuksessa yksittäisen elementin kohdalla puhutaan analyysituloksesta, koko seg-20 menttiä koskevaa analyysitulosta sanotaan luokitteluksi. Luokitus muodostetaan . . analyysituloksista, esimerkiksi katenoimalla, eli liittämällä yhteen, elementtien ana- ,; .' lyysitulokset ja niiden väliin lisätyt välikesymbolit yhtenäiseksi merkkijonoksi. Tätä I < · ; segmentin luokitusta verrataan tietämyskannassa olevien segmenttien luokituksiin '• ’ J tehokkaan indeksi- tai tietokantahaun avulla. Haun tuloksena tietämyskannasta pa- 25 lautetaan segmentit, joilla on sama tai lähes sama luokitus kuin syötetietovirran \’·· segmentillä. Näistä tietämyskannan segmenteistä valitaan yksi syötetietovirran ·’.[,· segmenttiä parhaiten vastaava segmentti tiettyjen sääntöjen perusteella. Segmenteis tä voidaan valita esimerkiksi se, jossa on eniten samoja elementtejä kuin käännettä- ;' ·,; vässä syötetietovirran osassa.
• » 30 Käännöksen tuloksena palautetaan tietämyskannasta parhaiten syötetietovirran : segmenttiä vastaavaan segmenttiin assosioitu vastinsegmentti. Syötetietovirran segmentin sanat, joita ei ollut tässä parhaiten vastaavassa segmentissä, käännetään .!. erikseen jollain tunnetulla tekniikalla, esimerkiksi generoimalla sana kerrallaan so- l'*, piva taivutusmuoto sanakirjasta löydetylle vastinelementille. Keksinnön mukainen * ’ ': 35 luokittelu ja segmenttien vertailu tietämyskannan segmentteihin tuottaa hyviä tulok sia tehokkaasti jo melko pienestäkin tietämyskannasta.
114347 7
Keksinnön mukainen menetelmä poikkeaa huomattavasti tunnetusta konekäännös-tekniikasta, koska keksinnössä ei esimerkiksi muodosteta jonkin kieliopin tai säännöstön mukaista jäsennyspuuta syötetietovirrasta. Myöskään sääntöjä ei keksinnön mukaiseen menetelmään tarvitse ohjelmoida. Lisäksi keksinnön mukaisesti syötetie-5 tovirran elementtejä verrataan tietämyskannan elementteihin myös sellaisenaan, kun tunnetuissa konekäännöstekniikoissa elementtejä käsitellään aina analysoituina.
Keksinnön mukainen menetelmä poikkeaa käännösmuistitekniikoista ja esimerkki-pohjaisista käännösjärjestelmistä tarjoamalla ratkaisun kaikkiin neljään esimerkki-pohjaisten käännösjäijestelmien ongelmakokonaisuuteen. Käännettävän syöteseg-10 mentin analyysituloksesta muodostettu luokitus toimii hakuavaimena, jolla haetaan tietämyskannasta siihen sovellettavan esimerkkikäännöksen lähdekielen segmentti (ratkaisee osaongelmat 1 ja 2). Haku on erittäin tehokasta, sillä siihen voidaan soveltaa indeksointi- ja tietokantatekniikoita monimutkaisten puuvertailujen ja akti-vointijärjestelyjen sijaan. Linkitys esimerkkikäännöksen kohdekielen segmenttiin 15 muokkaa käännös vastetta varsin turvallisella menetelmällä (ratkaisee paljolti osa-ongelman 4). Osaongelmien 1 ja 2 ratkettua nykyisin tunnettuja menetelmiä paremmin tietämyskannan kokoa voidaan kasvattaa suureksi tehokkuuden kärsimättä oleellisesti, mikä parantaa edelleen kattavuutta. Siksi tietämyskantaan voidaan myös lisätä lyhyitä ja pitkiä segmenttejä samoistakin esimerkeistä. Käännösten laatu taa-20 taan käyttämällä mahdollisimman pitkiä segmenttejä, jotka ovat turvallisempia (3 ja 4) samalla kun lyhyet segmentit takaavat yleistettävyyden ja kattavuuden paremmin kuin esimerkiksi neuraalimenetelmä tai sanakirjasovitus. Näin segmentointia voi-:\daan hyödyntää käyttämällä tilanteeseen sopivaa segmenttikoa (osaongelma 3).
*’·* : Tekstimuotoisten luonnollisten kielien ja formaalien kielien kääntämisen lisäksi 25 keksinnön edullisia suoritusmuotoja voidaan käyttää useilla tiedon luokittelua ja :muuntamista soveltavilla alueilla. Tekstimuotoisen syöte tietovirran käsittelyn lisäk-si keksinnön erästä edullista suoritusmuotoa voidaan käyttää myös puhetta tulkattaessa. Kun käännös tehdään ohjelmointikielestä toiseen, on kääntäminen luonnolli-;: sesti paljon kurinalaisempaa ja syntaksien mukaista.
30 Keksinnön mukainen menetelmä on nykyisiä suorituskykyisempi, koska sen vaste-aika on oleellisesti nykyratkaisuja parempi. Lisäksi keksinnön mukaiset menetelmät : ovat hyvin mukautuvia eli niitä käyttämällä saadaan oikeita tulosvirtoja aiempaa suuremmassa osassa tapauksista oleellisesti aiempaa nopeammin. Tehokkuuden an-; · \ siosta myös tietämyskannan kokoa ja esimerkkien määrää voidaan kasvattaa, mikä • ': 35 parantaa edelleen kattavuutta. Tehokkuuden takia menetelmän ei myöskään tarvitse käyttää lisäheuristiikkoja tai rajoituksia, jotka voivat itse asiassa huonontaa suori- 114347 8 tuskykyä, esimerkkinä rajautuminen segmentoinnissa jäsennyspuun alipuihin tai predikaattien poikkeava käsittely hakurakenteissa. Menetelmä ei kuitenkaan estä tällaisten heuristiikkojen tai lisäysten käyttöä silloin, kun ne ovat hyödyllisiä. Menetelmä on kääntämisen lisäksi helposti yleistettävissä muidenkin sovellusten käyt-5 töön, kuten ohjelmointikielikonversioihin ja monikanavajulkaisuihin.
Seuraavassa keksintöä ja sen edullisia suoritusmuotoja selostetaan tarkemmin oheisten kuvioiden avulla, joissa kuvio 1 esittää lohkokaaviona keksinnön erään edullisen suoritusmuodon mukaista laitteistojärjestelyä, 10 kuvio 2 esittää keksinnön erään edullisen suoritusmuodon mukaista käsiteltävää syötetietovirran osaa, kuvio 3 esittää keksinnön erään edullisen suoritusmuodon mukaisen tietämyskannan osan rakennetta, kuvio 4 esittää keksinnön erään edullisen suoritusmuodon mukaista tulostieto- 15 virran osaa, kuvio 5 esittää vuokaaviona keksinnön erään edullisen suoritusmuodon mu kaista menetelmää datan luokittelemiseksi, . * ·. · kuvio 6 esittää vuokaaviona keksinnön erään edullisen suoritusmuodon mu- kaisen tietämyskannan kasvattamista, j a * ·' : 20 kuvio 7 esittää vuokaaviona keksinnön erään edullisen suoritusmuodon mu- kaista datan kääntämistä.
. · · ·. Kuviossa 1 on esitetty keksinnön erään edullisen suoritusmuodon mukainen laitteis- tojärjestely. Näyttö 101 ja näppäimistö 102 toimivat rajapintana käyttäjälle. Mas-. . samuistissa 105 säilytetään tietämyskantoja indekseineen, käytettäviä ohjelmia ja 25 sääntöjä. Keskusmuistissa 104 taas säilytetään kulloinkin käsiteltävää osaa syötetie-tovirrasta ja hakuindeksistä. Lisäksi laitteistossa on prosessori 103, joka käsittelee : dataa ja I/O-liityntöjä 106, joiden kautta laitteistoon voidaan liittyä sen ulkopuolel- : ": ta.
Näytöllä 101 voidaan esittää käyttäjälle suorituksen tuloksia ja/tai vaiheita. Näp-30 päimistön 102 avulla taas käyttäjä voi syöttää laitteistoon varsinaisen syötetietovirran lisäksi vaikkapa vastine-ehdotuksia sanoille ja lauserakenteille, joita järjestelmä 114347 9 ei osaa kääntää. Kaikki näytöllä 101 esitettävä ja näppäimistöltä 102 syötettävä data käsitellään prosessorissa 103. Prosessoriin 103 liitettyjen I/O-kanavien kautta järjestelmä voi myös olla yhteydessä muihin järjestelmiin ja käyttäjiin sekä lähettää ja vastaanottaa syöte- ja tulostietovirtoja. Keksinnön mukaista järjestelyä voidaan siis 5 käyttää useastakin paikasta ja myös tietoliikenneyhteyden välityksellä.
Keskusmuistissa 104 sijaitsee se osa syötetietovirrasta, jota käsitellään parhaillaan. Lisäksi keskusmuistissa 104 on käsiteltävän syötetietovirran segmentit. Käsiteltävä syötetietovirran osa on ryhmitelty osiin eli segmentteihin tiettyjen sääntöjen perusteella, joita käsitellään myöhemmin tässä hakemuksessa. Järjestelmän massamuis-10 tissa 105 on tietämyskanta, jossa ovat segmentit ja niiden vastinsegmentit. Myös elementeille ja niiden vastinelementeille voi olla erillinen tietokanta. Tämä element-titietokanta voi vastata perinteistä sähköistä sanakirjaa, jossa on sanakohtaiset vastaavuudet tai keksinnön kulloisenkin suoritusmuodon mukaan elementit voivat olla vaikkapa matemaattisia ilmaisuja tai formaalien kielien käskyjä tai parametreja. 15 Massamuistissa 105 on myös erilaisia käsittelysääntöjä, kuten esimerkiksi segmen-tointisäännöt, joiden perusteella käsiteltävä syötetietovirran osa jaetaan segmentteihin. Lisäksi massamuistissa 105 on muunnossääntöjä esimerkiksi sanajärjestyksen muuttamiseksi segmentin ja sen vastinsegmentin välillä, sekä tarvittavat ohjelmat, kuten esimerkiksi syötetietovirran käsittelemiseksi tarvittavat analysointi- ja gene-20 rointiohjelmat. Analysointiohjelman avulla syötetietovirran elementeille tuotetaan analyysitulokset. Generointiohjelma puolestaan tuottaa analyysituloksen avulla tu-. ·.: lostietovirran elementin. Kuvion 1 laitteistojärjestely on tyypillinen keksinnön mu- ;' ·'; katselle järjestelylle, mutta alan ammattilaiselle on ilmeistä, että keksinnön suori- • . ·. tusmuodoista riippuen kokoonpano voi olla erilainenkin. Laitteisto voi sijaita PC.llä ,;: · ] 25 (personal computer), verkon palvelimella tai laitteiston eri osat voivat sijaita fyysi- ; ‘. sesti eri paikoissa, kunhan yhteydet niiden välillä ovat riittävän nopeat.
;... · Kuvio 2 esittää erään edullisen suoritusmuodon mukaista käsiteltävää syötetietovir ran osaa 200, joka siis tyypillisesti tallennetaan keskusmuistiin käsittelyn ajaksi.
: ·.: Syötetietovirta on tässä suoritusmuodossa luonnollista kieltä ja syötetietovirran ker- ‘: 30 ralla käsiteltävä osa 200 on tyypillisesti lause tai virke. Tämä käsiteltävä osa 200 on jaettu elementteihin 211, 212, 213, 221, 222, 223, jotka ovat luonnollisten kielten : ’ tapauksessa yleensä sanoja mahdollisine etu- ja/tai jälkiliitteineen. Sanaa edeltävä '···’ määräinen tai epämääräinen artikkeli kuuluu tyypillisesti samaan elementtiin itse sanan kanssa.
‘ * 35 Käsiteltävän syötetietovirran osan 200 elementit 211, 212, 213, 221, 222, 223 on kuviossa 2 jaoteltu kahteen segmenttiin 210, 220. Tässä tapauksessa segmentointi 114347 10 on tehty tunnistamalla ”vaikka”-elementti, joka nyt kuuluu sellaisten sanojen listaan, jotka aloittavat uuden segmentin. Vastaavia listoja esiintyy yleisesti luonnollista kieltä käsittelevässä kirjallisuudessa. Segmentit voivat koostua yhdestä tai, kuten kuvassa on esitetty, useammasta elementistä. Segmentointi tehdään tiettyjen 5 edullisesti massamuistissa olevien sääntöjen perusteella, jotka voivat perustua esimerkiksi tiettyihin helposti tunnistettaviin sanoihin tai käsiteltävän syötetietovirran osan ja tietämyskannan sisällön vastaavuuteen. Eräitä käyttökelpoisia segmentointi-sääntöjä on esitelty tarkemmin esimerkiksi patenttijulkaisussa FI 103156. Esimerkiksi suomen kielelle voidaan käyttää erinäisiä segmentointisääntöjä. Eräs tyypilli-10 nen ratkaisu on, että segmentiksi valitaan pisin vastaava segmentti tietämyskannasta tai fraasisanakirjasta. Kun mahdollisimman paljon elementtejä käsitellään yhdellä kertaa, luokittelu tehostuu ja kääntämiseen liittyvät segmenttien yhdistelyn ja käännösten muokkaamisen ongelmat voidaan välttää paremmin. Usein segmentti katkaistaan välimerkkiin tai sanaan, joka aloittaa sivulauseen tai fraasin. Segmentointi 15 voidaan tehdä myös käyttäjän ohjeiden ja valintojen mukaisesti. Lisäksi segmentti voidaan rajata tekstityypin tai ominaisuuksien perusteella, esimerkiksi siten, että lihavoidut peräkkäiset sanat käsitellään yhtenä segmenttinä. Myös usean tunnistamattoman elementin jono voidaan valita yhdeksi segmentiksi.
On selvää, että segmentointisäännöt ovat kielikohtaisia ja vaihtelevat jonkin verran 20 kielittäin. Yleisenä, lähes kaikkiin luonnollisiin kieliin soveltuvana sääntönä voidaan pitää sitä, että valitaan segmentiksi jokin jo tietämyskannassa oleva segmentti.
'. : Lisäksi jos käsiteltävän syötetietovirran keskellä tai lopussa oleva segmentti tunnis- ; . ·. tetaan jonkun säännön perusteella, sitä edeltävää elementtijonoa ja sitä seuraavaa • ^ elementtijonoa voidaan käsitellä erillisinä segmentteinä. Formaalien kielien tapauk- 'il.' 25 sessa elementit ovat tyypillisesti merkkijonoja tai yksittäisiä käskyjä. Segmentit ;1 . voidaan erotella esimerkiksi koostuviksi käskyistä ja niiden parametreista tai seg- '; / mentti voi päättyä rivinvaihtoon tai muuhun käytettyyn merkkiin, merkkijonoon tai ' · · -" erikoismerkkiin.
f. : Kuviossa 3 on esitetty osa keksinnön erään edullisen suoritusmuodon mukaisesta . · ·. 30 tietämyskannasta. Tietämyskannassa on kaksi tallennettua segmenttiä: segmentti 31, joka sisältää elementit 311, 312, 313, ja segmentti 32, joka sisältää elementit 321, : .· 322, 323. Segmentin 32 elementit 321, 322, 323 on analysoitu ja niiden analyysin : : tulokset on merkitty elementin alle. Tässä luonnollisen kielen esimerkkitapauksessa elementti 321 ’’kissa" on analyysin perusteella substantiivi (noun), yksikkö (sg, sin-. , : 35 gular), nominatiivi (nom). Elementti 322 "kävelee” on analysoitu verbiksi (verb) yksikön kolmannessa persoonassa (sg 3). Elementti 323 "katolla” on substantiivin Π 114347 (noun) yksikön (sg) adessiivi (ades). Luonnolliselle kielelle on tässä tehty leksikaalinen (sanastollinen) tai morfologinen (muoto-opillinen) analysointi jollain tunnetulla tehokkaalla menetelmällä. Tämän menetelmän etuna on se, että käännösvastineen tuottaminen sanoille, joita ei ennestään löydy tietämyskannasta, onnistuu hy-5 vin näiden elementeille annettavien morfologisten leimojen perusteella. Vaihtoehtoisesti voidaan käyttää esimerkiksi syntaktisia (lauseopillisia, syntaksiin perustuvia) tai semanttisia (merkitysopillisia) sääntöjä. Formaalien kielten tapauksessa säännöt voivat perustua esimerkiksi kielen formaaliin esitystapaan ja matriisiele-menttejä käsiteltäessä analyysi voi perustua matriisin normiin, matriisin esittämän 10 kuvan valoisuuteen tai matriisia esittävän kosinimuunnoksen kolmeen ensimmäiseen kertoimeen. Vaikka keksinnön mukaisesti elementeille tuotetaan tietyt analyysitulokset, mitään jäsennyspuita ei muodosteta.
Kuvion 3 segmentti 33 on tietämyskannan yksi vastinsegmentti. Tässä on kuvattu vastinsegmentti tietämyskannan segmentille 32. Näiden segmenttien 32 ja 33 vas-15 taavuustiedon perusteella elementtiä 321 vastaa elementti 331, elementtiä 322 vastaa elementti 332 ja elementtiä 323 vastaa elementti 333. Vastinelementtien analyysitulokset eivät välttämättä ole samat eri kielissä eikä myöskään niiden järjestys tai lukumäärä. Tyypillisesti vastinsegmentti tai segmenttien välinen assosiaatiotieto sisältää järjestystiedon, joka kertoo, missä sanajärjestyksessä, tai yleisemmin ele-20 menttijärjestyksessä, vastaavan segmentin elementit voivat olla. Tätä järjestystietoa ei ole esitetty kuviossa 3. Vastinsegmenttejä voi olla useampiakin, myös yhdellä ·.· kieliparilla. Tällöin vastinsegmenteistä yleensä yksi on optimaalisin vastinsegment- . ’. ti, mikä tarkoittaa voi esimerkiksi yleisintä, käytetyintä tai asiayhteydessä suositel- ,·. tavinta vastinsegmenttiä. Muitakin vaihtoehtoisia vastinsegmenttejä voidaan kään- 25 nöstä muodostettaessa käyttää. Kun vastinsegmenttejä on useampia, assosiaatiotie-". don on lisäksi sisällettävä tieto siitä, mihin vastinsegmenttiin mikäkin järjestystieto kohdistuu. Esimerkiksi suomenkielisessä segmentissä englanninkieliseen vastin-·*’ segmenttiin viittaava assosiaatiotieto voi sisältää järjestystiedon, jonka mukaan suomenkielisen segmentin ensimmäistä elementtiä vastaa englanninkielisessä en-30 simmäinen elementti, toista kolmas ja kolmatta toinen elementti. Vastaavan suo-menkielisen segmentin saksankieliseen vastinsegmenttiin viittaava järjestystieto voi : v. olla sellainen, että ensimmäiselle suomenkielen elementille ei ole lainkaan vastinet- ’ · · · t ta, toista vastaa neljäs saksankielinen elementti, kolmatta kolmas ja näiden lisäksi ) ‘ vastinsegmentissä on kaksi muuta elementtiä sen alussa. Formaaleja kieliä käsiteltä- : : 35 essä järjestystieto on oleellinen ja on tärkeää assosioida kielten toiminnallisesti toi- '·.'·· siaan vastaavat osiot toisiinsa.
114347 12
Tarkastellaan kuviossa 2 esitetyn syötetietovirran 200 ensimmäisen käsiteltävän osan eli segmentin 210 ’’koira kävelee kadulla” kääntämistä englanninkieliseksi kuviossa 3 esitetyn tietämyskannan avulla keksinnön edullisen suoritusmuodon mukaisesti. Aluksi syötetietovirran 200 segmenttejä verrataan tietämyskannan seg-5 menneihin. Esimerkkinä olevassa tapauksessa elementit ovat luonnollisen kielen sanoja, joita käsitellään tässä vertailussa segmentin kokoisina yhtenäisinä elementti-jonoina. Tällainen jono voidaan muodostaa eri tavoin, kuten esimerkiksi vain yhdistämällä segmentin elementit toisiinsa tai laittamalla elementtien väliin jokin ennalta sovittu merkki. Keksinnön kannalta on oleellista, että syötetietovirran segmentti on 10 verrattavissa tehokkaasti tietämyskannan segmenttiin, eli segmentit ovat saman muotoisia. Tehokkaaseen vertailuun voidaan käyttää esimerkiksi tunnettuja indek-sointitekniikoita tai tiedonhallintajärjestelmien tarjoamia indeksointi- ja levynkäsittelyn optimointimekanismeja.
Tietämyskannan ensimmäinen segmentti 31 ei vastaa syötetietovirran 200 segment-15 tiä 210. Näillä segmenteillä on sama ensimmäinen elementti 211, 311, mutta tässä vertailu tehdään segmentille kokonaisuutena. Tietämyskannan toinenkaan segmentti 32 ei vastaa syötetietovirran 200 segmenttiä 210, vaikka näidenkin segmenttien toiset elementit, 212 ja 322, ovat samat. Syötetietovirran segmentin vertailua tietämyskannan segmentteihin voidaan tehostaa käyttämällä tunnettuja indeksointi- ja 20 hakumenetelmiä. Mikäli elementeiltään täysin vastaavaa segmenttiä ei tietämyskannasta löydy, syötetietovirran 200 segmentin 210 elementit 211, 212, 213 analysoi-. ·.· daan ja jokaiselle elementille saadaan jokin analyysitulos. Tämän jälkeen tarkastel- :‘laan edelleen segmenttiä luokiteltuna kokonaisuutena. Nyt tutkitaan yhtenäistä seg-• .·. mentin pituista, sovitulla tavalla muodostettua jonoa analyysituloksia eli segmentin 25 luokitusta ja verrataan sitä tietämyskannan vastaaviin analyysitulosjonoihin eli luo-kitteluihin. Tämän vertailun tuloksena syötetietovirran 200 segmenttiä 210 vastaa tietämyskannassa segmentti 32. Tietämyskannan segmentille 32 haetaan vastinseg-' · *· ’ mentti 33 tietämyskannasta ja analyysitulosten perusteella löydetyn tietämyskannan segmentin 32 elementtejä 321, 322, 323 verrataan syötetietovirran 200 vastaaviin 30 elementteihin 211, 212, 213. Näistä elementeistä toisiaan täysin vastaavat keskim-maiset, eli tulostietovirta koostuu elementeistä, joista keskimmäiselle löytyy vas- . ·, tinelementti. Syötetietovirran ensimmäiselle ja viimeiselle elementille muodostetaan ’ · ·, tulostietovirtaan vastinelementit esimerkiksi hakemalla syötetietovirran elementille " vastinelementti elementtien ja vastinelementtien tietokannasta ja generoimalla tark- 35 ka vastinelementin analyysituloksen mukainen elementtimuoto erillisellä generoin-:. ‘ · i tiohjelmalla. Suoritusmuodosta riippuen edellä esitetyt käännösvaiheet voidaan suo rittaa kullekin käsiteltävän syötetietovirran osan segmentille alusta loppuun tai koko „ 11«47 käsiteltävälle syötetietovirran osalle kukin vaihe segmentti kerrallaan. Edellä esitetyssä suoritusmuodossa edellä esitetyt käännösvaiheet suoritetaan seuraavaksi kuvion 2 toiselle segmentille 220.
Edullisen suoritusmuodon mukainen tulostietovirran osa on esitetty kuviossa 4. Ku-5 viossa 4 on löydetty syötetietovirtaa vastaava segmentti luokittelun perusteella ja syötetietovirran elementille on löydetty tietämyskannasta vastinelementti 402. Elementeille 401 ja 403 löydettiin tietämyskannasta vastaava analyysitulos, jonka perusteella kyseisistä runkosanoista, substantiiveista ei ole tietoa, mutta muoto on sama kuin vastinelementtien analyysituloksissa määritetty. Tämä tarkoittaa sitä, että 10 sanan liitteet eli pre- ja postpositiot ovat samat kuin analyysitulosta vastaavalla muodolla. Tyypillisesti tämä puuttuva osa kysytään käyttäjältä, mutta se voidaan myös esimerkiksi hakea jostain sähköisestä sanakirjasta. Kuviossa 3 esitetty segmenttien tietämyskanta ja vastinsegmenttien tietämyskanta ovat keskenään symmetriset, joten niitä voidaan käyttää kaksisuuntaisesti, eli syötetietovirta voikin olla vas-15 tinsegmenttien muotoista ja tulostietovirta tietämyskannan segmenttien muotoista. Vastaava kaksisuuntaisuus voidaan toteuttaa myös useamman kielen kesken sekä rinnakkaisesti että sarjamuotoisesti. Rinnakkaiset kielet ovat tasa-arvoisia ja käännöksen syöte- ja kohdekielet voidaan valita näistä. Sarjamuotoisessa järjestelyssä esimerkiksi kolmas kieli voi toimia niin sanottuna välikielenä, jonka kautta käännös 20 kahden muun kielen välillä aina tehdään.
. Kuviossa 5 on esitetty erään edullisen suoritusmuodon mukainen menetelmä datan luokittelemiseksi. Lohkossa 501 luetaan syötetietovirrasta kerralla käsiteltävä osa, ; joka esimerkiksi luonnollista kieltä luokiteltaessa voi olla esimerkiksi tiedonhaku- : ‘ pyyntö, lause, virke tai käsky parametreineen. Käsiteltävästä syötetietovirran osasta ·..** 25 erotellaan elementit, jotka tässä käsiteltävän esimerkin mukaisesti ovat siis sanoja • .’· i liitteineen tai merkkijonoja. Lohkossa 502 käsiteltävä syötetietovirran osa ryhmitel- lään segmentteihin tiettyjen muistiyksikköön tallennettujen sääntöjen tai käyttäjän määritysten mukaisesti. Segmentti voi sisältää yhden tai useamman elementin. Vai-heessa 503 verrataan yhden tai useamman elementin sisältäviä syötetietovirran 30 segmenttejä kokonaisuutena tietämyskannassa jo oleviin segmentteihin. Mikäli sisällöltään täysin vastaavaa segmenttiä ei löydy, siirrytään lohkoon 504, jossa ele-; ·' mentit analysoidaan joko jollain järjestelmän sisäisellä mekanismilla tai jollain eril- ‘ Itsellä analysaattorilla. Jokaisesta elementistä tuotetaan analyysitulos, joka tyypilli- : sesti luonnollisen kielen tapauksessa perustuu leksikaaliseen tai morfologiseen ana- .'. : 35 lyysiin, formaalin kielen tapauksessa syntaktiseen analyysiin.
114347 14
Vaiheessa 505 verrataan segmenteittäin syötetietovirran elementtien analyysituloksia, eli segmenttien luokitusta, tietämyskantaan tallennettujen segmenttien luokituksiin. Jollei vastaavaa segmenttiä luokittelun perusteellakaan löydy, suoritetaan poikkeuskäsittely lohkossa 506. Poikkeuskäsittely on jokin ennalta määrätty toimin-5 to tai menettely, jossa voidaan esimerkiksi luoda syötetietovirran segmentistä uusi tietämyskantasegmentti, käsitellä jokaista elementtiä yhtenä segmenttinä tai suorittaa uusi segmentointi. Tämän jälkeen suoritus siirtyy vaiheeseen 508. Jos vaiheessa 505 verratut analyysitulokset vastaavat toisiaan, siirtyy suoritus lohkoon 507, jonne siirrytään myös vaiheesta 503, jos syötetietovirran ja tietämyskannan segmentit vasto taavat toisiaan. Lohkossa 507 assosioidaan syötetietovirran segmenttiin sitä vastaava tietämyskannassa jo oleva segmentti.
Vaiheessa 508 tarkastetaan, onko käsiteltävässä syötetietovirran osassa vielä käsittelemättömiä segmenttejä. Jos segmenttejä on vielä käsittelemättä, siirtyy suoritus alkuun lohkoon 503, jotta kaikki käsiteltävän syötetietovirran osan sisältämät seg-15 mentit käydään läpi. Muuten siirrytään lohkoon 509 tarkastelemaan, sisältyvätkö nyt luokitellut segmentit johonkin ylemmän tason segmenttiin. Tällainen tilanne voi esiintyä esimerkiksi, kun keksinnön edullisen suoritusmuodon mukaista luokittelijaa käytetään luonnollisia tai formaalia kieliä käännettäessä tai valuuttoja konvertoitaessa. Ylemmän tason segmentit selkeyttävät ja yksinkertaistavat toimintaa esimer-20 kiksi silloin, kun valuuttojen tunnukset siirtyvät useampia numeerisia elementtejä sisältävien rakenteiden yli eri kielien välillä, formaalissa kielessä on sisäkkäisiä sil-•. · mukkarakenteita, tai kun luonnollinen kieli on saksa ja segmentti sisältää saksankie- lisen lauseen, jonka rakenne ei vastaa vastinkielen rakennetta. Saksankielen esi-, ·. merkkitapauksessa ylemmäksi tasoksi voi muodostua segmentti, jonka ensimmäi- 25 nen alisegmentti sisältää tietyn konjunktion, toinen tietyn luokituksen mukaisia ;' ‘. segmenttejä, jotka sisältävät useita tuntemattomia elementtejä ja viimeinen aliseg- , ’: mentti verbiksi luokitellun elementin. Näin voidaan yleistää useita samankaltaisia tilanteita ja muodostaa niitä kuvaava geneerinen segmentti tietämyskannan ylemmälle tasolle välittämättä siitä, mitä tarkalleen ottaen lauseen elementit ovat. Tämä . i 30 pienentää edelleen tietämyskannan kokoa ja nopeuttaa vertailuja.
Lohkossa 510 tarkastellaan useamman segmentin muodostamaa jonoa ja tutkitaan, kuuluvatko tai täsmäävätkö edellä käsitellyt segmentit tai segmenttien jono johon-kin hierarkkisesti vlemmän tason segmenttiin. Ylemmän tason segmentti voi koos-tua yhdestä tai useammasta alemman tason segmentistä. Jos ylempiä segmenttejä \; 35 löytyy, myös niille haetaan luokitustulos 511 vastaavasti kuin alemman tason seg menteillekin. Jos vastaavaa ylemmän tason segmenttiä ei tietämyskannasta löydy, 15 1 14347 jää luokitteluksi alisegmenttien jono. Jos ylemmän tason segmenttejä ei oltu muodostettu tai kun luokittelu lohkossa 511 on tehty, tarkastellaan lohkossa 512, onko käsiteltävässä syötetietovirran osassa vielä segmenttejä, jotka voidaan assosioida joksikin toiseksi ylemmän tason segmentiksi. Mikäli tällaisia löytyy, suoritusta jat-5 ketään lohkosta 510. Kun segmenteistä muodostuvia ylemmän tason segmenttejä ei enää löydetä, tutkitaan vielä vaiheessa 513 muodostavatko löydetyt ylemmän tason segmentit edelleen kolmannen tason segmenttejä. Jos vielä ylemmän tason segmenttejä löytyy, jatketaan suoritusta lohkosta 509. Tyypillisesti alimman tason segmentit sisältävät elementtejä, seuraavan ylemmän tason segmentit sisältävät segmenttejä ja 10 mahdollisesti myös elementtejä. Mitä ylemmälle segmenttitasolle mennään, sitä enemmän luonnollisten kielten segmentit sisältävät tiettyjä sopimuksellisia vakioeh-toja, kuten esimerkiksi tekstikappaleen kontekstin. Formaalien kielten tapauksessa segmentit voivat olla esimerkiksi käskyjä parametreineen tai kielen lauseita, jotka siis erotellaan toisistaan tyypillisesti jonkin merkin avulla. Tällöin ylemmän tason 15 segmentti voi sisältää rakenteellista tietoa, esimerkiksi tiedon silmukasta, sisäkkäisistä silmukoista tai aliohjelmista. Mitä ylemmälle segmenttitasolle mennään, sitä enemmän formaalien kielten segmenttien sisältö lähestyy algoritmikuvausta.
Kun hierarkkiset segmentit on läpikäytyjä luokiteltu, lohkossa 514 raportoidaan käsitellyn syötetietovirran osan luokitus yhden tai useamman ylemmän tason hierark-20 kisten segmenttien jonona. Kuviossa 5 esitetyn menetelmän mukainen datan luokittelija siis assosioi käsiteltävään syötetietovirran osaan jonon mahdollisesti hierark-, kisia tietämyskannassa olevia segmenttejä. Kun käsitellään hierarkkisia rakenteita, hierarkkisten alisegmenttien järjestystieto on tyypillisesti ylemmän tason segmen-,·. tissä. Tämä järjestystieto määrittää alemman tason segmenttien järjestyksen eli esi- ' · i. ‘ 25 merkiksi luonnollisen kielen tapauksessa sanajärjestyksen, formaalin kielen tapauk- sessa käskyn tai aliohjelmakutsun parametrit, niiden tyypin, lukumäärän ja järjes-;, ’: tyksen.
Kuvion 6 suoritusmuodossa on esitetty uusien segmenttien ja vastinsegmenttien ·.· tuottamista tietämyskantoihin oppimisen avulla eli tietämyskannan kasvattamista 30 ilman käyttäjän vuorovaikutusta. Vaiheessa 601 luetaan kaksi toisiaan vastaavaa syötetietovirran osaa. Kuvion 6 mukaisen menetelmän suorittaminen edellyttää, että käytettävissä on kaksiosainen syötetietovirta, jonka tiedetään sisältävän sama data kahdessa eri esitysmuodossa, jotka ovat toistensa täydellisiä vastineita. Lohkossa : “; 602 luokitellaan luetut toisiaan vastaavat syötetietovirran osat esimerkiksi sillä luo- ; . t: 35 kittelumenetelmällä, joka on esitetty kuvion 5 suoritusmuodossa. Lohkossa 603 tal lennetaan kumpikin syötetietovirran osa tietämyskantaan ja tallennetuille syötetie- 114347 16 tovirran osille luodaan vastaavuustieto tietämyskannan avulla siten, että etsitään tietämyskannassa jo olevia segmenttejä vastaavia osia sekä luokittelutulosten vastaavuuksia. Tässä esitettyjä tyypillisiä uutta syötetietovirtaa segmentoitaessa käytettäviä vertailukriteerejä voidaan käyttää useissa muissakin keksinnön edullisissa suori-5 tusmuodoissa. Ensisijainen valinta on sellainen segmentti, joka löytyy tietämyskannasta ja jonka jokaista elementtiä vastaa juuri sama syötetietovirran elementti. Tällöin valitaan pisin mahdollinen tietämyskannan vastaava segmentti ja assosioidaan se tarkasteltavaan syötetietovirran osaan. Seuraavaksi tarkastellaan analyysituloksia. Jos useammalla tietämyskannan segmentillä on syötetietovirran tarkasteltavaa osaa 10 vastaava analyysitulos, valitaan se, jonka mahdollisimman usea elementti on vastaava kuin tarkasteltavan syötetietovirran osan. Jos vastaavia elementtejäkin on useammalla tietämyskannan segmentillä saman veuan, valitaan kulloinkin tilanteeseen ja sovellukseen sopivin toiminto, joka voi olla esimerkiksi se, että segmentti valitaan käyttötiheyden mukaan siten, että valitaan se, jota on käytetty useimmin. Seg-15 mentillä voi myös olla jokin semantiikkaluokitus, eli esimerkiksi toimialamääritys, joka määrittää segmentin kuuluvan tiettyyn alaan, kuten paperiteknologiaan tai biotekniikkaan. Lisäksi kullakin elementillä voi olla vastaava semanttinen luokitus. Segmentit voivat lisäksi sisältää niin sanotun leiman, eli prioriteetin, joka kertoo vaikkapa, että tietty segmentti on virallinen käännös tai tiettyä segmenttiä ei pidä 20 käyttää käännöksen tulostietovirran segmenttinä, vaan ainoastaan syötetietovirran luokitusta tehtäessä.
•. : Lohkossa 604 testataan, oliko jompikumpi käsiteltävistä syötetietovirran osista ko- ,·. konaisuutena jo tietämyskannassa. Jos syötetietovirran osaa vastaava lohko löytyy * t tietämyskannasta, on tietämyskannassa myös tieto tällaisen syötetietovirran osan si- 25 sältämistä segmenteistä. Löydetyn segmenttijaon mukaisesti lohkossa 605 myös ; · ·. syötetietovirran osa jaetaan segmentteihin. Lisäksi lohkossa 605 haetaan käännökset ; / eli vastinsegmentit ja niiden vastaavuustieto etsimällä tietämyskannasta tunnettujen segmenttien ja luokitusten vastaavuuksia, minkä jälkeen suoritus loppuu lohkossa 610. Jos lohkossa 604 ei löydy koko syötetietovirran osaa vastaavaa lohkoa tietä-,' i 30 myskannasta, käsittely siirtyy lohkoon 606.
·’ Lohkossa 606 vielä käsittelemättömiä syötetietovirran osia verrataan tietämyskan- . ’ nan segmentteihin millä hyvänsä sopivalla segmenttikoolla ja tietämyskannasta etsi- ,.: tään parhaiten käsittelemätöntä syötetietovirran osaa vastaavaa segmenttiä. Jos tie- ; . tämyskannasta löydetään segmentti, joka vastaa jotain osaa käsiteltävästä syötetie- , ; 35 tovirran osasta, haetaan lohkossa 608 tälle syötetietovirran osalle eli segmentille tie tämyskannasta vastaava segmentti ja vastaavuustieto. Näiden perusteella varsinai- 17 114347 nen käännös eli vastinsegmentti löytyy tietämyskannasta. Lohkossa 609 tarkastetaan, onko käsiteltävästä syötetietovirran osasta vielä osioita käsittelemättä. Tästä siirrytään lohkoon 606 käsittelemään loppua syötetietovirran osaa, kunnes kaikille syötetietovirran segmenteille on luotu tai löydetty vastaavat segmentit. Jos lohkossa 5 606 ei löydetä tarpeeksi hyvää segmenttiä tietämyskannan kummastakaan osasta, siirrytään lohkoon 607. Vaiheessa 607 jäljelle jääneitä syötetietovirran osia sovitetaan toisiinsa, ja niistä tuotetaan segmentit ja luodaan vastinsegmenttitieto. Tämän jälkeen lopetetaan suoritus lohkossa 610.
Varsinainen datan kääntäminen automaattisesti tapahtuu keksinnön erään edullisen 10 suoritusmuodon mukaan kuviossa 7 esitetyllä tavalla. Aluksi luetaan syötetietovirran osa lohkossa 701. Käsiteltävä syötetietovirran osa myös luokitellaan lohkossa 701, mahdollisesti hierarkkisten segmenttien jonoksi, esimerkiksi kuvion 5 yhteydessä esitetyn luokittelumenetelmän mukaisesti. Lohkossa 702 jokaiselle käsiteltävän syötetietovirran osan segmentille haetaan vastinsegmentti vastinsegmenttien tie-15 tämyskannasta. Jotkut segmenteistä voivat muodostaa myös ylemmän tason segmentin. Seuraavaksi haetaan vastinsegmenttejä löydetyille ylemmän tason segmenteille tietämyskannasta lohkossa 703. Jos ylemmän tason segmenteille ei löydetä vastinsegmenttejä, jää tulokseksi jono alemman tason segmenttejä. Vastinsegmentit ja edelleen vastinsegmenttien elementit järjestetään järjestystiedon mukaiseen jär-20 jestykseen. Järjestystietohan voi sijaita segmenteissä tai assosiaatiotiedossa eli tietämyskannan segmentit vastinsegmentteihinsä yhdistävässä vastaavuustiedossa. Tämä vastaavuustieto puolestaan voi sijaita joko segmenteissä tai niistä erillään. Sellaisille elementeille, joille ei ole vielä löydetty vastinelementtejä, tuotetaan vas-,·, tinelementit lohkossa 704. Näitä vastinelementtejä voidaan hakea vastinelementtien 1 / 25 tietokannasta tai tuottaa analyysitulosten perusteella jollain sopivalla generaattorilla.
Generaattori voi käyttää hyväkseen esimerkiksi sanakirjatyyppistä vastinelementti-’· en tietokantaa vastinelementin rungon hakemiseksi ja muokata sen analyysitulosten mukaisesti haluttuun muotoon. Lopuksi lohkossa 705 tuotetaan käsiteltävän syöte-tietovirran osaa vastaava tulosvirran osa vastinsegmenttien sisältämien elementtien ' : 30 sekä generoitujen vastinelementtien jonona, jotka on järjestetty järjestystiedon mu- kaisesti segmenttien sisällä. Kun käännös on valmis, se voidaan vielä lisätä tietämyskantaan.
Usein kuitenkin tietämyskannan koko halutaan pitää suhteellisen pienenä, koska haku on tällöin nopeampaa, eikä tietorakenne vie paljoa tilaa, vaan mahtuu keskus-
' I I
·. r 35 muistiin. Varsinkin hierarkkisia segmenttejä sisältäviin tietämyskantoihin on turha * · 114347 18 tallentaa kaikkia sisältö vaihtoehtoja, koska ne löytyvät olemassa olevien tietojen perusteella tehokkaammin kuin isosta tietämyskannasta hakemalla.
Tässä hakemuksessa käsitellään esimerkkitapauksena luonnollisen kielen kääntämistä, mutta on ilmeistä, että keksinnön mukaista menetelmää voidaan yhtä hyvin 5 soveltaa esimerkiksi puheen, kuvien ja formaalien kielien luokitteluun ja tunnistamiseen. Lisäksi käsiteltävät elementit voivat olla esimerkiksi lukuja, matriiseja, merkkijonoja, konekielisiä käskyjä tai parametreja. Formaalien kielten kääntäminen ja luokittelu on erittäin tärkeää, kun halutaan käyttää ja yhtenäistää erimuotoista tietoa ja dataa eri lähteistä.
10 Yleensäkin haettaessa tietoja ja tehtäessä kyselyjä on tärkeää, että tunnistetaan ja otetaan osaksi tulostietovirtaa myös läheisiksi tulkittavat, löydetyt segmentit. Tällöin kriteereinä voidaan käyttää esimerkiksi jo tässä hakemuksessa mainittua semanttista läheisyyttä, jossa tutkitaan merkityksiä. Sovellusmuodosta riippuen voi olla edullista tarkastella vaihtoehtoisesti tai lisäksi vaikkapa leksikaalista eli sanastol-15 lista tulkintaa, morfologista eli muoto-opillista tulkintaa tai syntaktista eli lauseopillista tai syntaksiin liittyvää tulkintaa. Mikäli toivottua luokittelua tai käännöstä ei saada tuotettua, voidaan keksinnön erään edullisen suoritusmuodon mukaan suorittaa esimerkiksi luokittelu tai jokin muu osatoiminto tai koko käännös käyttäen vastaavaa keksinnön edullisen suoritusmuodon mukaista laitteistoa ja menetelmää, jo-20 hon on olemassa tai voidaan muodostaa tietoliikenneyhteys. Toinen vastaava järjes-. . telmä voi esimerkiksi käsitellä ensisijaisesti tietyn erityisalan segmenttejä tai ele- ; / menttejä. Lisäksi useamman laitteiston käytössä voi olla yhteen muistiyksikköön • *‘ tallennettuna esimerkiksi segmentointisääntöjä, poikkeussääntöjä ja muunnossään- ‘ : : töjä sekä listauksia semanttisesti, leksikaalisesti, morfologisesti ja syntaktisesti toi- 25 siaan vastaavista elementeistä ja segmenteistä.
t t > ♦ •
k I

Claims (29)

1. Menetelmä elementtejä (211, 212, 213, 221, 222, 223) sisältävän syötetietovir-ran (200) datan käsittelemiseksi segmenttejä sisältävän tietämyskannan avulla siten, 5 että luetaan (501) käsiteltävä osa syötetietovirrasta (200) ja jaetaan käsiteltävä syötetietovirran osa elementteihin (211,212,213, 221, 222, 223), ryhmitellään käsiteltävä osa syötetietovirtaa (200) segmenteiksi (502), joista jokainen segmentti (210, 220) sisältää yhden tai useampia elementtejä (211, 10 212, 213, 221, 222, 223), tunnettu siitä, että menetelmä sisältää vaiheet, joissa analysoidaan käsiteltävän syötetietovirran osan elementit ja tuotetaan analyysitulosten perusteella segmenttikohtainen luokitus, verrataan syötetietovirran segmenttien (210, 220) luokitusta tietämyskannan segmenttien (31, 32) luokituksiin ja assosioidaan tietämyskannan segmentti 15 sen luokitusta vastaavaan syötetietovirran segmenttiin, ja raportoidaan tulos, joka on käsiteltävään syötetietovirran osaan assosioitu : joukko tietämyskannassa olevia segmenttejä. .* 2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että ainakin yksi i segmentti (210, 220) sisältää ainakin kaksi elementtiä (211, 212, 213, 221, 222, 20 223), ja segmenttikohtainen luokitus määritetään ainakin kahden mainitun elemen- j tin (211, 212, 213, 221, 222, 223) analyysituloksen perusteella. I ) *" 3. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että elementtien analyysitulokset katenoidaan segmenttikohtaisen luokituksen muodostamiseksi. ♦ - » * » ; “: 4. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että syötetietovir- 25 ran segmentin luokitus toimii hakuavaimena etsittäessä samoin luokiteltua tietä-*, , myskannan segmenttiä. , -! ‘. 5. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että segmenteiksi » » » ( ryhmittelyn jälkeen tehdään vaihe, jossa käsiteltävää syötetietovirran osaa verrataan segmenteittäin (210, 220) tietämyskannan segmentteihin (31, 32) ja toisiaan vastaa- 114347 20 vat segmentit assosioidaan keskenään, minkä jälkeen analysointivaihe tehdään ainoastaan niille segmenteille, joille ei löydy vastaavaa tietämyskannan segmenttiä.
2. Förfarande enligt patentkrav 1, kännetecknat av att ätminstone ett segment (210, 220) innehäller ätminstone tvä element (211, 212, 213, 221, 222, 223) och att 114347 25 den segmentspecifika klassificeringen bestäms pä basis av analysresultatet för ät-minstone tvä av de nämnda elementen (211, 212, 213, 221, 222, 223).
3. Förfarande enligt patentkrav 1, kännetecknat av att analysresultaten för elementen kateneras för generering av en segmentspecifik klassificering. 5
4. Förfarande enligt patentkrav 1, kännetecknat av att klassificeringen av ett segment i matningsdataströmmen fungerar som söknyckel vid sökning av ett segment med samma klassificering i en kunskapsbas.
5. Förfarande enligt patentkrav 1, kännetecknat av att efter grupperingen i segment utföres ett steg i vilket den del av matningsdataströmmen som behandlas jäm- 10 föres segmentvis (210, 220) med segment (31, 32) i kunskapsbasen och segment som motsvarar varandra associeras sinsemellan, varefter analyseringssteget utföres endast för de segment för vilka inte hittas motsvarande segment i kunskapsbasen.
6. Förfarande enligt patentkrav 5, kännetecknat av att om ett segment i matningsdataströmmen vid jämförelsen med segmenten i kunskapsbasen motsvaras av 15 flera segment väljes ett segment av dessa varvid ätminstone ett av följande kriterier tillämpas: ett segment väljes, vilket uppvisar mest element i matningsdataströmmen, ett segment väljes, vilket indikeras av användaren, ett segment väljes, vilket har använts oftast, 20. ett segment väljes, vars semantiska klassificering motsvarar klassificeringen ,,.: för motsvarande del i matningsdataströmmen, , , - ett segment väljes, i vilket den semantiska klassificering för elementen mot svarar klassificeringen för motsvarande del i matningsdataströmmen. ., ' 7. Förfarande enligt patentkrav 1, kännetecknat av att i kunskapsbasen inklude- : : 25 ras segment av olika längd och med delvis samma innehäll, medelst vilka segment ’ den del av matningsdataströmmen som behandlas grupperas i segment optimalt hän- ’,. delsespecifikt. , , 8. Förfarande enligt patentkrav 1, kännetecknat av att grupperingen av mat- , . ningsdataströmmen i segment utföres medelst ätminstone nägot av följande förfa- 30 randen: 114347 26 som segment väljes ett segment vilket redan befinner sig i kunskapsbasen och vilket i fräga om sina element eller sin klassificering motsvarar en del av matningsdataströmmen, segmentet definieras i enlighet med användarens anvisningar, 5. av en spräklig helhet genereras ett segment, av en fras genereras ett segment, segmentet avbrytes med ett skiljetecken, segmentet avbrytes med vissa listade mellanord, segmentet genereras av en kvarbliven del av matningsdataströmmen da de 10 segment som hittats med andra medel ur en del av matningsdataströmmen har avlägsnats.
6. Patenttivaatimuksen 5 mukainen menetelmä, tunnettu siitä, että jos yhtä syö-tetietovirran segmenttiä vastaa tietämyskannan segmentteihin verrattaessa useampi 5 segmentti, valitaan niistä yksi segmentti soveltaen ainakin yhtä seuraavista kriteereistä: valitaan segmentti, jossa on eniten syötetietovirran elementtejä, valitaan segmentti, jonka käyttäjä ilmaisee, valitaan segmentti, jota on käytetty useimmin, 10. valitaan segmentti, jonka semanttinen luokitus vastaa syötetietovirran vastaa van osan luokitusta, valitaan segmentti, jonka elementtien semanttinen luokitus vastaa syötetietovirran vastaavan osan luokitusta.
7. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että tietämyskan-15 taan sisällytetään eri pituisia, osittain samansisältöisiä segmenttejä, joiden avulla käsiteltävä osa syötetietovirtaa ryhmitellään segmenteiksi optimaalisesti tapauskoh-: taisesti.
• 8. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että syötetietovir- ;.; · ran ryhmittely segmenteiksi tehdään ainakin jollain seuraavista menetelmistä: ·, : 20 - segmentiksi valitaan jo tietämyskannassa oleva, syötetietovirran osaa ’..' elementeiltään tai luokitukseltaan vastaava segmentti, segmentti määritetään käyttäjän ohjeiden mukaisesti, ’ · · ’ t - kielellisestä kokonaisuudesta muodostetaan segmentti, • * -,, - fraasista muodostetaan segmentti, > I ’ *; *' 25 - segmentti katkaistaan välimerkkiin, ’ - - _ - segmentti katkaistaan tiettyihin listattuihin välikesanoihin, segmentti muodostetaan jäljelle jääneestä syötetietovirran osasta, kun syötetietovirran osasta muilla keinoilla löydetyt segmentit on poistettu. 114347 21
9. Förfarande enligt patentkrav 1, kännetecknat av att segmenten bildas hierar-kiska konstruktioner, i vilka ett visst segment pä en högre niva innehäller information om vissa segment pä en lägre niva, och förfarandet innehäller ett steg i vilket 15 med en del (200) av den matningsdataström som behandlas associeras segment (509) pä en högre niva i kunskapsdatabasen, vilka segment innehäller segment pä en lägre niva i den kunskapsbas som associerats med matningsdataströmmens segment. • ' · *: 10. Förfarande enligt patentkrav 1, kännetecknat av att för ett segment i mat- ; \: ningsdataströmmen utföres en undantagsbehandling (506) i enlighet med vissa an- ‘ ; 20 visningar i en situation i vilken motsvarande segmentklassificering inte hittas i kun- : skapsbasen. : , ‘ 11. Förfarande enligt patentkrav 1, kännetecknat av att den analys som utföres pä '' · * elementen är en morfolog analys, varvid som ett resultat av denna vissa drag gene reras vilka beskriver nämnda element. 25 12. Förfarande enligt patentkrav 1, kännetecknat av att för kompilering av data till ett mälspräk sökes för segmenten (210, 220) i resultatet svarssegment (33) ur ‘ ‘ kunskapsbasen för tvä eller flera spräk, och som utgängsström genereras en mängd svarssegment (400) som innehäller svarselement (401, 402, 403).
9. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että segmentit muodostavat hierarkkisia rakenteita, joissa tietty ylemmän tason segmentti sisältää tietoa tietyistä alemman tason segmenteistä, ja menetelmä sisältää vaiheen, jossa käsiteltävään syötetietovirran osaan (200) assosioidaan tietämyskannan ylemmän 5 tason segmenttejä (509), jotka sisältävät syötetietovirran segmentteihin assosioituja tietämyskannan alemman tason segmenttejä.
10. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että syötetietovirran segmentille suoritetaan poikkeuskäsittely (506) tiettyjen ohjeiden mukaisesti tilanteessa, jossa vastaavaa segmentin luokitusta ei löydy tietämyskannasta.
11. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että elementeille tehtävä analyysi on morfologisen analyysi, jonka tuloksena tuotetaan tiettyjä, mainittuja elementtejä kuvaavia piirteitä.
12. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että datan kääntämiseksi kohdekielelle haetaan tuloksen segmenteille (210, 220) vastinsegmentit 15 (33) kahden tai useamman kielen tietämyskannasta, ja tuotetaan tulosvirtana vas- tinelementtejä (401,402,403) sisältävä vastinsegmenttien (400) joukko.
13. Förfarande enligt patentkrav 12, kännetecknat av att för de element (211, 30 212, 213, 221, 222, 223) i matningsdataströmmen för vilka det inte hittades motsva- 114347 27 righeter i kunskapsbasen, produceras svarselementen pä basis av vissa analysresul-tat som anknyter till elementen (331, 332, 333) i kunskapsbasen och/eller medelst en separat generator som producerar element.
13. Patenttivaatimuksen 12 mukainen menetelmä, tunnettu siitä, että syötetietovirran elementeille (211, 212, 213, 221, 222, 223), joille ei löytynyt vastaavuuksia -, ; tietämyskannasta, tuotetaan vastinelementit tiettyjen, tietämyskannan elementteihin . ‘ 20 (331, 332, 333) liittyvien analyysitulosten perusteella ja/tai erillisen, elementtejä ; ; tuottavan generaattorin avulla. * » ’ : 14. Patenttivaatimuksen 12 mukainen menetelmä, tunnettu siitä, että datan kään- ,i tämisessä tuotettava tulosvirta sisältää vastinsegmenttien (400) elementtejä (401, '; 402, 403) ja erikseen tuotettuja elementtejä segmenttijonona siten, että kunkin seg- 25 mentin sisäinen vastinelementtien järjestys määritetään vastinsegmenttien sisältämän järjestystiedon perusteella.
14. Förfarande enligt patentkrav 12, kännetecknat av att den utgängsström som 5 produceras vid kompileringen av data innehäller element (401, 402, 403) i svars- segmenten (400) och separat producerade element som en segmenträcka pä sä sätt att den interna ordningen för svarselementen för respektive segment definieras pä basis av den ordningsinformation som ingär i svarssegmenten.
15. Förfarande enligt patentkrav 12, kännetecknat av att den utgängsström som 10 genereras vid kompileringen av data innehäller element (401, 402, 403) i svarssegmenten (400) och separat producerade element som en segmenträcka pä sä sätt att den intema ordningsinformationen för svarselementen för respektive segment definieras i motsvarighetsinformationen mellan segmenten och dessas svarssegment.
15. Patenttivaatimuksen 12 mukainen menetelmä, tunnettu siitä, että datan kään-tämisessä tuotettava tulosvirta sisältää vastinsegmenttien (400) elementtejä (401, . ·. 402, 403) ja erikseen tuotettuja elementtejä segmenttijonona siten, että kunkin seg- • ‘ 30 mentin sisäinen vastinelementtien järjestystieto määritetään segmenttien ja niiden v ‘ vastinsegmenttien välisessä vastaavuustiedossa. » l t
16. Förfarande enligt patentkrav 1, kännetecknat av att för generering av kun-15 skapsbasen läses tvä varandra motsvarande delar (601) av matningsdataströmmen och des-sa delas i element, klassificeras de delar av matningsdataströmmen som behandlas pä en gäng, - sökes för en del av den matningsdataström som behandlas en segmentindel-20 ning, svarssegment och motsvarighetsinformation (603, 605, 608) mellan de t I : . ’. föregäende pä basis av de segment som befinner sig i kunskapsbasen och klas- , · 1 ·. sificeringen av dessa, och ·. : - appliceras de icke-segmenterade delarna av de matningsdataströmmar som skall behandlas och som inte uppvisar svarssegment i varandra (607), genere-25 ras segment av dessa, skapas för segmenten svarssegment och en motsvarig- : 1 hetsinformation mellan dessa.
16. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että tietämyskannan muodostamiseksi 22 114547 luetaan kaksi toisiaan vastaavaa syötetietovirran osaa (601) ja jaetaan ne elementteihin, luokitellaan kerralla käsiteltävät syötetietovirtojen osat, haetaan käsiteltävälle syötetietovirran osalle segmenttiäkö, vastinsegmentit ja 5 edellisten väliset vastaavuustiedot (603, 605, 608) tietämyskannassa olevien segmenttien ja niiden luokituksen perusteella, ja sovitetaan segmentoimattomat, vastinsegmentittömät osat käsiteltävistä syötetietovirroista toisiinsa (607), muodostetaan niistä segmentit, luodaan segmenteille vastinsegmentit ja niiden välinen vastaavuustieto.
17. Förfarande enligt patentkrav 16, kännetecknat av att motsvarighetsinforma- : · tionen för segmenten, svarssegmenten och segmentindelningen skapas i kunskaps- ; basen (33) pä basis av de redan lagrade segmenten och/eller klassificeringen av des- 30 sa. , 18. Apparatur för behandling av data i en matningsdataström (200) som inkluderar element (211, 212, 213, 221, 222, 223), vilken apparatur uppvisar 114347 28 minnesenheter (101, 102) för lagring av en kunskapsbas som innehäller segment, sökindex, data och en del av den matningsdataström som skall behand-las, organ (102, 103, 106) för läsning av matningsdataströmmen, 5. organ (103, 104, 105) för en delning av matningsdataströmmen i element, och ! - organ (103, 104, 105) för gruppering av matningsdataströmmen i segment som innehäller element, kännetecknad av att apparaturen omfattar organ (103, 104, 105) för analysering av elementen i matningsdataströmmen och för producering av en segmentspecifik klassificering pä basis av analyse-10 ringsresultaten, organ för att jämföra klassificeringen av segmenten i matningsdataströmmen med klassifficeringama av segmenten i kunskapsbasen och för att associera varandra motsvarande segment med varandra, och organ (514) för att rapportera klassificeringen av segmenten.
17. Patenttivaatimuksen 16 mukainen menetelmä, tunnettu siitä, että segmenttien vastaavuustieto, vastinsegmentit ja segmenttiäkö luodaan tietämyskantaan (33) jo tallennettujen segmenttien ja/tai niiden luokittelun perusteella.
18. Laitteisto elementtejä (211, 212, 213, 221, 222, 223) sisältävän syötetietovirran (200) datan käsittelemiseksi, jossa laitteistossa on 15. muistiyksiköt (101, 102) segmenttejä sisältävän tietämyskannan, hakuindeksi- en, tietojen ja syötetietovirran käsiteltävän osan tallentamiseksi, • t . - välineet (102, 103, 106) syötetietovirran lukemiseksi, » · \: - välineet (103, 104, 105) syötetietovirran jakamiseksi elementteihin, ja » välineet (103, 104, 105) syötetietovirran ryhmittelemiseksi elementtejä sisältä-. 20 viin segmentteihin, tunnettu siitä, että laitteisto sisältää välineet (103, 104, 105) syötetietovirran elementtien analysoimiseksi ja segmenttikohtaisen luokituksen tuottamiseksi analysointitulosten perusteella, välineet syötetietovirran segmenttien luokituksen vertaamiseksi tietämyskannan segmenttien luokituksiin ja toisiaan vastaavien segmenttien assosioimisek-• 25 si toisiinsa, ja välineet (514) segmenttien luokittelun raportoimiseksi. . 19. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siitä, että laitteisto sisäl tää lisäksi välineet (103, 104, 105) syötetietovirran segmenttien vertaamiseksi tietämyskannan segmentteihin. 114347 23
19. Apparatur enligt patentkrav 18, kännetecknad av att apparaturen dessutom omfattar organ (103, 104, 105) för att jämföra segmenten i matningsdataströmmen med segmenten i kunskapsbasen. • 20. Apparatur enligt patentkrav 18, kännetecknad av att apparaturen dessutom omfattar organ (101, 103, 106) för producering av svarssegment som innehäller : · 20 svarselement som en räcka, vilken bildar en utgängsström.
19 1143 47
20. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siitä, että laitteisto sisältää lisäksi välineet (101, 103, 106) vastinelementtejä sisältävien vastinsegmenttien tuottamiseksi jonona, joka muodostaa tulosvirran.
21. Apparatur enligt patentkrav 18, kännetecknad av att apparaturen uppvisar en förbindelse till den generator som genererar element för generering av element pä basis av analysresultaten. :· 22. Apparatur enligt patentkrav 18, kännetecknad av att minnesenhetema (104, 25 105) uppvisar segmenteringsinformation för att dela en del av matningsdata strömmen i segment och ordningsinformation för att definiera ordningen för ele-1 ' ’ menten i utgängsdataströmmens segment. 1
21. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siitä, että laitteistolla on 5 yhteys elementtejä tuottavaan generaattoriin elementtien tuottamiseksi analyysitulosten perusteella.
22. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siitä, että muisti yksiköissä (104, 105) on segmentointitiedot syötetietovirran osan jakamiseksi segment-teihin ja järjestystiedot tulostietovirran segmenttien elementtien järjestyksen määritit) tämiseksi.
23. Apparatur enligt patentkrav 18, kännetecknad av att minnesenheten (104, 105. uppvisar en kunskapsbas för lagring av segment, element, klassificeringama, 30 svarssegmenten och svarselementen. 114347 29
23. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siitä, että muistiyksikös-sä (104, 105) on tietämyskanta segmenttien, elementtien, luokitusten, vastinseg- I menttien ja vastinelementtien tallentamiseksi.
24. Apparatur enligt patentkrav 18, kännetecknad av att apparaturen uppvisar I/O-anslutningar (106) för sändning och mottagning av matnings- och utgängsdata-strömmar samt för upprättandet av en förbindelse till övriga system och/eller an-vandare.
24. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siitä, että laitteistossa on 15 I/O-liityntöjä (106) syöttö- ja tulostietovirtojen lähettämiseksi ja vastaanottamiseksi sekä yhteyden muodostamiseksi muihin järjestelmiin ja/tai käyttäjiin.
25. Apparatur enligt patentkrav 18, kännetecknad av att apparaturen omfattar or gan för att jämföra en del av hela den matningsdataström som skall behandlas med segmenten (606) i kunskapsbasen med vilken som heist segmentstorlek.
25. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siitä, että laitteisto sisältää välineet koko käsiteltävän syötetietovirran osan vertaamiseksi tietämyskannan ': segmentteihin (606) millä hyvänsä segmenttikoolla.
26. Apparatur enligt patentkrav 18, kännetecknad av att apparaturen omfattar organ för att läsa och behandla matematiska uttryck.
26. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siitä, että laitteisto sisäl tää välineet matemaattisten ilmaisujen lukemiseksi ja käsittelemiseksi.
27. Apparatur enligt patentkrav 18, kännetecknad av att apparaturen omfattar or gan för att läsa och behandla formala spräk.
27. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siitä, että laitteisto sisäl tää välineet formaalien kielien lukemiseksi ja käsittelemiseksi. , 28. Patenttivaatimuksen 18 mukainen laitteisto, tunnettu siitä, että laitteisto sisäl- ' t 25 tää : \ t - välineet (102, 103, 106) luonnollisen kielen lukemiseksi, ’·;·* - välineet (103, 104, 105) luonnollisen kielen jakamiseksi elementteihin, jotka :':'; ovat sanoja liitteineen, • > ♦ välineet (103, 104, 105) luonnollisen kielen ryhmittelemiseksi segmentteihin, 30 jotka ovat sanoja sisältäviä kokonaisuuksia, 114347 24 välineet (103, 104, 105) luonnollisen kielen käsiteltävän osion luokittelemiseksi leksikaalisen, morfologisen, syntaktisen tai semanttisen analyysin perusteella, ja välineet (101, 103, 106) vastinsanoja sisältävien vastinsegmenttien tuottami-5 seksi.
29. Patenttivaatimuksen 28 mukainen laitteisto, tunnettu siitä, että laitteistolla on tietoliikenneyhteys vastaavaan laitteistoon jonkin osatoiminnon suorittamiseksi. i 10 1. Förfarande för behandhng av data i en matningsdataström (200) som inklude- rar element (211, 212, 213, 221, 222, 223) medelst en kunskapsbas som inkluderar segment pä sä sätt att den del av matningsdataströmmen (200) som behandlas läses (501) och den del av matningsdataströmmen som behandlas delas i element (211, 212, 213, 15 221,222,223), den del av matningsdataströmmen (200) som behandlas grupperas i segment (502), av vilka varje segment (210, 220) inkluderar ett eller flera element (211, , I 212, 213, 221, 222, 223), kännetecknat av att förfarande inkluderar fas, där ; : ’ - elementen i den del av matningsdataströmmen som behandlas analyseras och : : 20 pä basis av analysresultaten produceras en segmentspecifik klassificering, - klassificeringen av segmenten (210, 220) i matningsdataströmmen jämföres . med klassifficeringama av segmenten (31, 32) i kunskapsbasen och ett seg ment i kunskapsbasen associeras med ett sädant segment i matningsdataströmmen som motsvarar dess klassificering, och , ,· 25 - resultatet rapporteras, vilket resultat är en mängd segment vilka associerats , t med en del av den matningsdataström som behandlas och vilka ingär i kun skapsbasen.
28. Apparatur enligt patentkrav 18, kännetecknad av att apparaturen omfattar organ (102, 103, 106) för att läsa ett naturligt spräk, organ (103, 104, 105) för att dela ett naturligt spräk i element, vilka är ord in-15 klusive bilagor, organ (103, 104, 105) för att gruppera ett naturligt spräk i segment vilka är helheter som innehäller ord, y - organ (103, 104, 105) för klassificering av den del som skall behandlas av det .: naturliga spräket pä basis av en lexikal, morfologisk, syntaktisk eller semantisk : i 20 analys, och organ (101, 103, 106) för att generera svarssegment som innehäller svarsord.
29. Apparatur enligt patentkrav 28, kännetecknad av att apparaturen uppvisar en telekommunikationsförbindelse tili en motsvarande apparatur för att utföra en viss ;: · delfunktion. * * >
FI20020532A 2002-03-20 2002-03-20 Menetelmä ja laitteisto datan kääntämiseksi FI114347B (fi)

Priority Applications (7)

Application Number Priority Date Filing Date Title
FI20020532A FI114347B (fi) 2002-03-20 2002-03-20 Menetelmä ja laitteisto datan kääntämiseksi
PL03371547A PL371547A1 (en) 2002-03-20 2003-03-14 Method and arrangement for translating data
PCT/FI2003/000195 WO2003079223A1 (en) 2002-03-20 2003-03-14 Method and arrangement for translating data
US10/507,144 US20050256698A1 (en) 2002-03-20 2003-03-14 Method and arrangement for translating data
EP03714987A EP1485819A1 (en) 2002-03-20 2003-03-14 Method and arrangement for translating data
AU2003219191A AU2003219191A1 (en) 2002-03-20 2003-03-14 Method and arrangement for translating data
RU2004127924/09A RU2004127924A (ru) 2002-03-20 2003-03-14 Способ перевода данных и устройство для осуществления этого способа

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI20020532 2002-03-20
FI20020532A FI114347B (fi) 2002-03-20 2002-03-20 Menetelmä ja laitteisto datan kääntämiseksi

Publications (3)

Publication Number Publication Date
FI20020532A0 FI20020532A0 (fi) 2002-03-20
FI20020532A FI20020532A (fi) 2003-09-21
FI114347B true FI114347B (fi) 2004-09-30

Family

ID=8563608

Family Applications (1)

Application Number Title Priority Date Filing Date
FI20020532A FI114347B (fi) 2002-03-20 2002-03-20 Menetelmä ja laitteisto datan kääntämiseksi

Country Status (7)

Country Link
US (1) US20050256698A1 (fi)
EP (1) EP1485819A1 (fi)
AU (1) AU2003219191A1 (fi)
FI (1) FI114347B (fi)
PL (1) PL371547A1 (fi)
RU (1) RU2004127924A (fi)
WO (1) WO2003079223A1 (fi)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7941310B2 (en) * 2003-09-09 2011-05-10 International Business Machines Corporation System and method for determining affixes of words
US7636857B2 (en) * 2004-05-24 2009-12-22 Interdigital Technology Corporation Data-mover controller with plural registers for supporting ciphering operations
JP4473702B2 (ja) * 2004-11-02 2010-06-02 株式会社東芝 機械翻訳システム、機械翻訳方法及びプログラム
US8738360B2 (en) 2008-06-06 2014-05-27 Apple Inc. Data detection of a character sequence having multiple possible data types
US8407553B2 (en) * 2008-08-15 2013-03-26 Lsi Corporation RAM list-decoding of near codewords
US9189475B2 (en) * 2009-06-22 2015-11-17 Ca, Inc. Indexing mechanism (nth phrasal index) for advanced leveraging for translation
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US8635059B2 (en) 2010-11-15 2014-01-21 Google Inc. Providing alternative translations
US20190102390A1 (en) * 2017-09-29 2019-04-04 Novabase Sgps, S.A. Semantic search engine and visualization platform

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
DE69835239T2 (de) * 1998-05-27 2007-06-14 Master's Innovations Ltd. Oy Verfahren und anordnung zur übersetzung von informationen
CN1102271C (zh) * 1998-10-07 2003-02-26 国际商业机器公司 具有习惯用语处理功能的电子词典
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method

Also Published As

Publication number Publication date
WO2003079223A1 (en) 2003-09-25
US20050256698A1 (en) 2005-11-17
RU2004127924A (ru) 2005-06-10
EP1485819A1 (en) 2004-12-15
FI20020532A (fi) 2003-09-21
PL371547A1 (en) 2005-06-27
AU2003219191A1 (en) 2003-09-29
FI20020532A0 (fi) 2002-03-20

Similar Documents

Publication Publication Date Title
US10409911B2 (en) Systems and methods for text analytics processor
Van den Bosch et al. Memory-based morphological analysis
US5625554A (en) Finite-state transduction of related word forms for text indexing and retrieval
US7565281B2 (en) Machine translation
US6529865B1 (en) System and method to compile instructions to manipulate linguistic structures into separate functions
US5083268A (en) System and method for parsing natural language by unifying lexical features of words
US20050137853A1 (en) Machine translation
Lindén et al. Hfst—a system for creating nlp tools
Graliński et al. PSI-toolkit: A natural language processing pipeline
FI114347B (fi) Menetelmä ja laitteisto datan kääntämiseksi
Wax Automated grammar engineering for verbal morphology
Abolhassani et al. Information extraction and automatic markup for XML documents
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
JP2632806B2 (ja) 言語解析装置
Tnaji et al. A light Arabic POS Tagger using a hybrid approach
JPH0782500B2 (ja) 未登録語獲得方式
Jakubíček Rule-based parsing of morphologically rich languages
Anitei et al. Py4mer: A ctc-based mathematical expression recognition system
Olivo et al. CRFPOST: Part-of-Speech Tagger for Filipino Texts using Conditional Random Fields
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
KR102338949B1 (ko) 기술문서 번역 지원 시스템
Alsayed et al. A performance analysis of transformer-based deep learning models for Arabic image captioning
Tiedemann et al. Tagging ingush-language technology for low-resource languages using resources from linguistic field work
Le et al. RL extraction of syntax-based chunks for sentence compression
Nugues et al. Corpus processing tools

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 114347

Country of ref document: FI