FI113096B - Integroitu tekstintuotto- ja käännösjärjestelmä - Google Patents

Integroitu tekstintuotto- ja käännösjärjestelmä Download PDF

Info

Publication number
FI113096B
FI113096B FI951010A FI951010A FI113096B FI 113096 B FI113096 B FI 113096B FI 951010 A FI951010 A FI 951010A FI 951010 A FI951010 A FI 951010A FI 113096 B FI113096 B FI 113096B
Authority
FI
Finland
Prior art keywords
text
language
editor
information
restricted
Prior art date
Application number
FI951010A
Other languages
English (en)
Swedish (sv)
Other versions
FI951010A0 (fi
FI951010A (fi
Inventor
Jaime G Carbonell
Sharlene L Gallup
Timothy J Harris
James W Higdon
Dennis A Hill
David C Hudson
David Nasjleti
Mervin L Rennich
Peggy M Anderson
Michael M Bauer
Iii Roy F Busdiecker
Philip J Hayes
Alison K Huettner
Bruce M Mclaren
Irene Nirenburg
Eric H Riebling
Linda M Schmandt
John F Sweet
Kathryn L Baker
Nicholas D Brownlow
Alexander M Franz
Susan E Holm
John Robert Russell Leavitt
Deryle W Lonsdale
Teruko Mitamura
Iii Eric H Nyberg
Original Assignee
Caterpillar Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Caterpillar Inc filed Critical Caterpillar Inc
Publication of FI951010A0 publication Critical patent/FI951010A0/fi
Publication of FI951010A publication Critical patent/FI951010A/fi
Application granted granted Critical
Publication of FI113096B publication Critical patent/FI113096B/fi

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Debugging And Monitoring (AREA)
  • Document Processing Apparatus (AREA)

Description

113096
Integroitu tekstintuotto- ja käännösjärjestelmä
Keksinnön tausta 1. Keksinnön ala 5 Keksintö liittyy yleisesti tietokonepohjaiseen asi akirjojen luomis- ja käännösjärjestelmään ja erityisesti sellaiseen järjestelmään, jonka avulla teksti tuotetaan ensin rajoitetulla kielellä ja käännetään tämän jälkeen suoraan vieraalle kielelle ilman tarvetta tekstin esi- tai 10 jälkikäsittelyyn.
2. Läheinen tekniikka
Jokainen organisaatio, jossa tuotetaan suuria tietomääriä erilaisten asiakirjojen muodossa, kohtaa väistämättä tarpeen kyetä varmistamaan tällaisten asiakirjojen 15 täysi ymmärrettävyys. Ne tulisi periaatteessa tuottaa käyttäen yksinkertaista, suoraviivaista kieltä ja riittävää il-maisutarkkuutta onnistuneen viestinnän varmistamiseksi. Asiakirjakielen tulisi myös olla yhdenmukaista organisaatiolle tunnusomaisen yhtenäisen "äänen" luomiseksi. Käyte-20 tyn kielen tulisi lisäksi olla yksiselitteistä.
Pyrkimys tällaisiin tavoitteisiin kielenkäytössä on johtanut erilaisten tekstintuottoprosessien hallintaa var-ί,,,·’ ten suunniteltujen menettelytapojen käyttöönottoon. Kyvyk- ·;··: kyydeltään vaihtelevien ja eri taustoista tulevien kirjoit- 25 tajien pakottaminen yhdenmukaisiin tasovaatimuksiin ei kui-tenkaan onnistu ongelmattomasti. Kirjoittamista opastavat : .·. ohjeet, säännöt ja normit ovat vaikeasti määritettävissä ja niiden noudattamista on hankala valvoa. Ponnistelut kirjoi- • · · tustyön standardisoimiseksi ja sen laadun parantamiseksi 30 ovatkin tuottaneet hyvin kirjavia tuloksia. Lisäksi tällai- t » · : * set yritykset, onnistuivatpa ne kuinka hyvin tahansa, nos- '...· tavat asiakirjatuotannon kustannuksia.
Viime aikoina on pyritty kehittämään tekstintuotta-jille sopivia tietokonepohjaisia ohjelmistoympäristöjä, i * • f 35 joiden avulla voitaisiin parantaa kirjoitustyön tuotta- I t t » · * » < ► · » · 2 113096 vuutta ja laatua. Näissä kokeiluissa on kuitenkin onnistuttu tuottamaan vain oikolukuohjelmia. Muut kirjoitusohjel-mistot ovat jääneet valitettavan tehottomiksi.
Kun tietoja on toimitettava yli kielirajojen, haas-5 teet kasvavat moninkertaisiksi. Tiedonvälitystään järjestelevä organisaatio on jäänyt pitkälti - ellei peräti täysin - riippuvaiseksi käännöstyöstä.
Tekstejä on käännetty kielestä toiseen jo satoja vuosia. Ennen tietokoneita käännöstyöstä vastasivat sen 10 alusta loppuun saakka käsityönä tekevät, kääntäjiksi kutsutut asiantuntijat, jotka hallitsivat sekä lähdekielen (josta käännettiin) että kohdekielen (johon käännettiin). Perinteisesti pidettiin suotavana, että kääntäjä puhui kohdekieltä äidinkielenään ja oli vasta myöhemmin oppinut läh-15 dekielen toisena kielenä. Näin uskottiin päästävän mahdollisimman tarkkaan ja tehokkaaseen käännöstyöhön.
Tehtävänsä parhaitenkin hallitsevalta kääntäjältä kuluu suhteellisen pitkä aika yhden sivun tekstimäärän kääntämiseen. On muun muassa arvioitu, että asiansa osaava 20 kääntäjä kykenee kääntämään tunnissa vain n. 300 sanaa (n. yksi sivu) teknistä tekstiä englannista japaniksi. Näin ollen on ilmeistä, että erityisesti teknispainotteisen asia- * k · kirjan kääntäminen vaatii runsaasti aikaa ja voimavaroja.
Liike-elämän ja kaupan käännöstarpeet ovat kasva-25 neet tasaisesti viimeisen sadan vuoden aikana. Tähän on useita syitä. Yksi niistä liittyy kansainvälisen kaupan : .·. hoitoon tarvittavan tekstiaineiston määrän nopean kasvuun.
Samaten on kasvanut rajusti niiden kielten lukumäärä, joil- • · · la hoidetaan maailmanlaajuista kaupankäyntiä. Lisäksi kau-, 30 pankäynnin kiihtyvä vauhti on synnyttänyt tarpeen tehdä * asiakirjateksteihin muutoksia lyhyin aikavälein, mikä luon- '*··’ nollisesti johtaa jatkuvaan uusien tekstiversioiden jäl- leenkääntämiseen.
3 113096
Monien organisaatioiden on sekä valmisteltava tietomateriaalinsa että hoidettava sen jakelu useilla eri kielillä. Maailmanmarkkinoilla valmistajan tulee huolehtia opaskirjojen riittävästä saatavuudesta kohdemaan kielellä.
5 Asiakirjojen kääntäminen vieraalle kielelle käsityönä on kallista, aikaa vievää ja tehotonta. Käännökset jäävät usein epäyhtenäisiksi johtuen eri kääntäjien omista teksti-tulkinnoista ja mahdollisesta asiantuntemattomuudesta asiakirjassa käytetyn erikoisalakohtaisen kielen suhteen. Näis-10 tä syistä jäävätkin monet tarpeelliset opaskirjat kääntämättä.
Tuotekehittelyssä viime vuosisadan kuluessa tapahtuneen tiedon räjähdysmäisen kasvun myötä myös asiakirja-käännösten tarve on lisääntynyt. Enää ei ole olemassa vain 15 yhtä valtakieltä, joka hallitsisi tuotekehittelyn tiettyä erikoisalaa. Tämä tutkimusala on tyypillisellä tavalla hajautunut useiden kehittyneiden teollisuusmaiden osalle, esimerkiksi Yhdysvaltoihin, Isoon-Britanniaan, Ranskaan, Saksaan ja Japaniin. Tärkeitä, tiettyyn tutkimusalaan liit-20 tyviä asiakirjoja valmistellaan myös muilla kielillä. Teknologinen kehitys ja varsinkin sähkö- ja tietokonetekniikan aloilla tapahtuva edistys ovat edelleen luoneet kaikilla t · · ·.,/ kielillä tapahtuvaa tekstituotantoa kiihdyttäviä paineita.
Tekstituotannon mahdollisuudet ovat suoraan suh- 25 teessä käytetyn tekniikan tarjoamiin mahdollisuuksiin. Esi- ·;·.· merkiksi aikana, jolloin asiakirjat kirjoitettiin käsin, : tekstin kirjoittajalle oli mahdollista tuottaa vain rajal- • » · · linen määrä sanoja kutakin aikayksikköä kohden. Tämä suori- • · · tustaso kohosi kuitenkin merkittävästi mekaanisten apu-,, , 30 välineiden myötä; näihin kuuluivat mm. kirjoituskone, mo- •(i;‘ nistuskone ja painokone. Sähkö-, tietokone- ja optisen tek- ’>·' nilkan kehitys puolestaan on vienyt tekstintuottamisen mah- :\j dollisuuksia vieläkin pidemmälle. Nykyisin keskitason kir- ·;>>: joittaja kykenee tuottamaan merkittävästi enemmän tekstiä ' . 35 aikayksikköä kohden kuin mikä oli mahdollista käsinkirjoi- 4 113096 tuksen aikakaudella.
Kirjoitetun tekstin määrän nopea kasvu ja tekniikan alalla tapahtuvan kehityksen vauhti ovat kohdistaneet huomion lähdekielestä kohdekieleen (-kieliin) tapahtuvan kään-5 nöstyön merkitykseen. Sekä yliopistoissa että yksityisissä ja valtion tutkimuslaitoksissa on suunnattu huomattavasti tutkimusresursseja projekteihin, joissa on pyritty selvittämään mahdollisuuksia kehittää käännöstyötä ilman inhimillistä panosta itse käännösprosessissa.
10 Tuloksena on saatu mm. tietokonepohjaisia konekään- nösjärjestelmiä. Tällaiset tietokonejärjestelmät on ohjelmoitu suorittamaan käännöstyö (syöte) automaattisesti lähdekielestä kohdekieleen (tuloste). Tutkijat ovat kuitenkin joutuneet toteamaan, että automaattisesta konekäännöksestä 15 suoriutuvien tietokonejärjestelmien toteuttaminen on osoittautunut käytettävissä olevan tekniikan ja teoreettisen tietämyksen avulla mahdottomaksi. Tällä hetkellä ei ole olemassa tietokonejärjestelmiä, jotka kykenisivät suorittamaan konekäännöstä luonnollisesta lähdekielestä luon-20 nolliseen kohdekieleen ilman jonkinasteista asiantuntevien editorien/kääntäjien työpanosta prosessissa. Eräs tällaisista menetelmistä on kuvattu alla.
Tekstin esikäsittelyssä lähdekielen editori suorit-taa lähdekielen alkutarkistuksen. Lähdekielen editorin teh-25 tävänä on lähdetekstiin muutoksia tekemällä muokata se yh-·;·.· denmukaiseksi sen kanssa, mitä tiedetään konekäännöksen : kannalta tekstin optimaalisesta muodosta. Lähdekielen edi- · · φ tori päätyy tällaiseen muotoon yrityksen ja erehdyksen i « » kautta.
, 30 Kuvatun kaltainen tekstin esikäsittely saatetaan 1 * » toistaa useita kertoja muita, yhä asiantuntevampia lähde-'··' kielisen tekstin käsittelijöitä käyttäen. Näin valmisteltu lähdeteksti annetaan konekäännöksestä huolehtivan järjes-.;.>j telmän käsiteltäväksi. Tulosteena saatava kohdeteksti voi- * > * » » * · » * * * · » · 5 113096 daan vielä käännöstyön tarkoitusperistä tai sen tilaajan laatuvaatimuksista riippuen jälkikäsitellä.
Jos käännöstyölle asetetut laatuvaatimukset edellyttävät siltä ihmiskääntäjän suorittaman hyvän käännöksen 5 mukaista tasoa, konekäännöksen tuloste on todennäköisesti annettava jälkikäsittelyyn pätevälle ihmiskääntäjälle. Tämä johtuu inhimillisen kielen luontaisesta monimutkaisuudesta ja konekäännökseen kehitettyjen järjestelmien suhteellisen vaatimattomasta suorituskyvystä; konekäännösjärjestelmien 10 valmistusta rajoittavat aina käytettävissä olevan tekniikan taso, ajan ja resurssien asettamat luonnolliset rajoitukset ja kustannushyötyvaatimusten sanelema mielekkyys. Useimmat valmistetuista kohtuutasoisista järjestelmistä vaativatkin jälkikäsittelyä, jonka kautta pyritään parhaimman mukaan 15 saavuttamaan ihmisen tekemän käännöksen mukainen laatutaso.
Eräs tällaisista järjestelmistä on yhdysvaltalaisen Carnegie Mellon -yliopiston konekäännöksen tutkimuskeskuksen (Center for Machine Translation, Carnegie Mellon University) suunnittelema KBMT-89, joka suorittaa käännöstä 20 englannin ja japanin kielten välillä. Järjestelmän toiminta pohjautuu tietämyspohjaiseen aihealueen malliin, joka osallistuu vuorovaikutteiseen yksikäsitteistykseen (ts. asia-*.,.· kirjan editointiin sen tekstin sisältämien monitulkinta- isuuksien ratkaisemiseksi) . Vuorovaikutteinen yksikäsit-: .* 25 teistys ei kuitenkaan normaalisti tapahdu vuorovaikutukses- ·;··· sa tekstintuotosta vastaavan kirjoittajan kanssa. Kun jär- | jestelmä tunnistaa monitulkintaisen lauseen, jota se ei ky- kene yksikäsitteistämään, se keskeyttää prosessin monitul- i » | kintaisuuksien ratkaisemiseksi ja kysyy kirjoittajal- ... 30 ta/kääntäjältä sarjan monivalintakysymyksiä lauseen yksikä- » · » • · sitteistämiseksi. Koska KBMT-89 ei myöskään käytä nk. hyvin • · määriteltyä rajoitettua syötekieltä, tällaisen nk. kääntä-jäavusteisen vuorovaikutteisen yksikäsitteistämisen tuotta-*:·*· ma teksti vaatii jälkikäsittelyä.
• · 6 113096 Näin ollen olisikin suotavaa kehittää käännösjärjestelmä, jossa sekä esi- että jälkikäsittelyn tarve on eliminoitu.
IBM:n teknisessä tiedotuslehdessä, toukokuu 1986, 5 voi. 28, numero 12, sivut 5284 - 5286 kuvataan vuorovaikutteista kirjoittajan apuvälinettä, joka sallii kirjoittajien tehdä luonnollisella kielellä kirjoitetuista dokumenteista käännettävämpiä.
Keksinnön yhteenveto 10 Tämä keksintö käsittää järjestelmän, joka perustuu integroituihin tietokonepohjaisiin prosessikokonaisuuksiin yksikielisen asiakirjanvalmistelun ja monikielisten käännösten mahdollistamiseksi. Vuorovaikutteinen tietokoneeseen syötettävä tekstieditori soveltaa tekstin kirjoitta- 15 misessa käytettyyn luonnollisen kielen osajoukkoon leksikaalisia ja kieliopillisia rajoituksia ja tukee tekstin-tuotosta vastaavaa kirjoittajaa yksikäsitteistämisessä tekstin käännettävyyden varmistamiseksi. Tuloksena saatu käännöskelpoinen lähdekielinen teksti konekäännetään yh- 20 teen valinnaisista kohdekielistä ilman tarvetta tekstin jälkikäsittelyyn.
Piirustusten kuvaus
Kuviot 1(a) ja 1(b) esittävät korkeamman tason • ♦ » lohkoavaruuskaavioita keksinnön arkkitehtuurista.
25 Kuvio 2 esittää korkeamman tason vuokaaviota kek- sinnön toiminnasta.
* ·- i *j>>j Kuvio 3 esittää MT 120:n korkeamman tason tiedon- : kulkukaaviota ja arkkitehtuurin lohkoavaruuskaaviota.
« » 1 <·1 Kuvio 4 esittää esimerkkiä tietoelementistä.
• » · i t » 30 Kuvio 5 esittää korkeamman tason lohkoavaruuskaa- ,, , viota aihealueen mallista 500.
f · · • ;1 Kuvio 6 esittää korkeamman tason kulkukaaviota kielieditorin 130 toiminnasta.
;' · 1 Kuvio 7 esittää sanaston tarkistin 610:n toimintaa * · 35 kulkukaavion avulla havainnollistettuna.
> » ( Kuvio 8 esittää korkeamman tason kulkukaaviota yk- 1 ' r « sikäsitteistyslohkosta 630.
' ’ Kuvio 9 esittää tiedonkulkukaaviota ja arkkiteh tuurin avaruuslohkokaaviota MT 120:stä.
7 113096
Keksinnön yksityiskohtainen kuvaus I. Yleiskatsaus integroidusta järjestelmästä
Keksinnön tietokonepohjainen järjestelmä integroi seuraavat toiminnot: 5 1) Tekstintuottoympäristö asiakirjavalmistelua var ten, sekä 2) Moduuli tarkkaa, monikielistä konekäännöstä varten ilman tarvetta tekstin esi- tai jälkikäsittelyyn. Monikielisen asiakirjatuotannon yhteydessä voidaan käytetyn 10 tekniikan ansiosta varmistaa yhdenmukaisen tarkka, ajanmukainen ja kustannushyötysuhteeltaan edullinen käännös riippumatta tuotannon määrästä, sekä käytännöllisesti katsoen samanaikainen tiedon julkistaminen sekä lähde- että käännökseen valituilla kohdekielillä.
15 Päätös kytkeä lähdekielen tekstintuottotoiminto yh teen käännöstoiminnon kanssa perustuu kahteen periaatteeseen: 1) Monikansallisessa ja -kielisessä toimiympäristössä tiedonvalmistelu katsotaan loppuun saatetuksi vasta, 20 kun tiedot ovat valmiita toimitettavaksi käyttäjäkunnalle sen kaikilla kielillä.
2) Yhdistämällä tekstintuotto- ja käännösprosessit yhteen ja samaan kehykseen saavutetaan parantunut toiminta-teho muihin ratkaisuihin verrattuna.
25 Kuviossa 1(a) on korkeamman tason lohkoavaruuskaa- «;»· vion avulla esitetty integroitu tekstintuotto- ja käännös- : .1. järjestelmä IATS (Integrated Authoring and Translation Sys- • « · » tern) 105. IATS 105 on erikoistunut atk-ympäristö, joka on • · · suunniteltu organisaatioiden asiakirjatuotannon tarpeisiin.
.. . 30 Sen avulla asiakirja valmistellaan valitulla kielellä ja • 1 · : ’’ käännetään useille muille kielille. Näitä kahta eri toimin- » ! t '···1 toa tukee integroitu ohjelmakokonaisuus seuraavasti: ;‘· 1) Tekstintuotto - Ohjelmistojen alaryhmiin sisäl- • > tyy vuorovaikutteinen tietokoneeseen syötettävä tekstiedi- ' t 35 tori TE 140, jonka avulla tekstintuotosta vastaava kir- * · » 8 113096 joittaja kykenee luomaan yksikielistä tekstiä luonnollisen kielen aihesidonnaisen osajoukon leksikaalisten ja kieliopillisten rajoitusten puitteissa eli rajoitetun lähdekie-len mukaisesti. Lisäksi tekstieditori 140 mahdollistaa 5 tekstin lisäkäsittelyn käännöstä varten opastamalla teks-tintuotosta vastaavia kirjoittajia tekstin monitulkintaisuuksien ratkaisemisessa, jonka kautta teksti saadaan kään-nöskelpoiseksi ilman esikäsittelyä.
2) Käännös - Ohjelmiston alaryhmiin sisältyy myös 10 konekäännöstoiminto MT 120, joka kykenee kääntämään rajoitettua lähdekieltä halutulle määrälle eri kohdekieliä ge-neraattorimoduuliin ohjelmoitujen tietojen mukaisesti. Tuloksena saatu käännösteksti ei vaadi jälkikäsittelyä.
Keksinnössä yhteen kehykseen integroitu tekstin-15 tuotto- ja käännöstoimintojen kokonaisuus edustaa toistaiseksi ainoaa ratkaisua, jossa on käännöstoimintojen ympärille rakennettujen järjestelmien kohdalla onnistuttu eliminoimaan sekä esi- että jälkikäsittelyn tarve.
Tekstieditori TE 140 on työkalusarja, joka tukee 20 tekstintuotosta vastaavia kirjoittajia ja tekstin käsittelijöitä rajoitetulla lähdekielellä laadittujen asiakirjojen valmistuksessa. Nämä työkalut ohjaavat tekstintuotosta vas- ' · · .· taavaa kirjoittajaa käyttämään hyväksyttyä rajoitetun läh- '·* dekielen sanastoa ja kielioppia asiakirjan kirjoittami- *: 25 seksi. Tekstieditori 140 on suorassa viestintäyhteydessä ·;·*· kirjoittajan 160 kanssa.
: .·. IÄT S 105 on kuvion 1(b) mukaisesti jaettu neljään « « « · pääosaan, jotka vastaavat tekstintuotto- ja käännöstoimin-
t » I
noista: (1) rajoitettu lähdekieli CSL 133, (2) tekstiedito- .. , 30 ri TE 140, (3) konekäännöstoiminto MT 120 ja (4) aihealueen
malli DM 137. Tekstieditoriin 140 sisältyy kielieditori LE
• » *<··* 130 ja grafiikkaeditori GE 150. Lisäksi IATS 105reen kuuluu tiedostonhallintajärjestelmä FMS 110, joka ohjaa kaikkia ·;·>* prosesseja.
t I t I · 9 113096
Rajoitettu lähdekieli CSL 133 on lähdekielen osajoukko, jonka kielioppi ja sanasto kattavat käännettävän asiakirjamateriaalin aihealueen. Hyväksyttävän sanaston ja kieliopillisten lauserakenteiden vaatimukset määrittelevät 5 rajoitetun lähdekielen 133 niin, että käännösprosessissa ei tarvita esi- ja jälkikäsittelyä.
Tekstieditori TE 140 on työkalusarja, joka tukee tekstintuotosta vastaavia kirjoittajia ja tekstin käsittelijöitä rajoitetulla lähdekielellä laadittujen asiakirjojen 10 valmistuksessa. Nämä työkalut ohjaavat tekstintuotosta vastaavaa kirjoittajaa käyttämään hyväksyttyä rajoitetun lähdekielen sanastoa ja kielioppia asiakirjan kirjoittamiseksi. Kielieditori 130 on viestintäyhteydessä kirjoittajan 160 kanssa tekstieditorin 140 kautta. Kirjoittaja kom-15 munikoi kaksisuuntaisesti tekstieditorin 140 kanssa linjan 162 kautta. Kielieditori 130 viestii kirjoittajalle 160 käytettyjen sanojen ja ilmauksien yhdenmukaisuudesta rajoitetun lähdekielen kanssa. Kielieditori 130 pystyy ehdottamaan rajoitetun lähdekielen mukaisia synonyymejä sa-20 noille, jotka liittyvät asiakirjan kattavaan tiedon piiriin, mutta jotka eivät ole rajoitetulla lähdekielellä. Lisäksi kielieditori 130 kertoo kirjoittajalle 160, vastaako ' I · tekstikappale rajoitetun tekstikielen kieliopillisia vaati-muksia. Se avustaa kirjoittajaa myös sellaisten lauseiden 25 yksikäsitteistämisessä, jotka saattavat olla lauseopilli- • j·*· sesti oikein mutta ovat merkitykseltään epäselviä.
: MT 120 on jaettu kahteen osaan. Sen muodostavat • « · • · « · MT-analysaattori 127 ja MT-generaattori 123. MT-analysaat- • · · tori 127 toimii kahdella eri tavalla: se analysoi asiakir-.. , 30 jän ja varmistaa, että asiakirja on selkeästi rajoitetun * c · * ’ lähdekielen mukainen ja tuottaa välikielistä tekstiä. Ana- lysoitu teksti, joka on todettu rajoitetun lähdekielen mu-kaiseksi, käännetään tämän jälkeen valitulle vieraalle (kohde) kielelle 180. MT 120:n toimintaperiaatteen lähtökoh- 1 t 35 tana on Interlingva-pohjainen käännöstäpä. Suoraan vie- * » » • · 10 113096 raalle kielelle kääntämisen sijasta MT-generaattori 123 muuntaa asiakirjan ensin kielestä riippumattomaan, tietokoneen luettavissa olevaan muotoon, jota kutsutaan Inter-lingvaksi, ja tuottaa tämän jälkeen käännöksen Interling-5 va-tekstistä. Menetelmän ansiosta käännettyjä asiakirjoja ei enää tarvitse jälkikäsitellä. Jokaiselle kielelle luodaan oma MT 120 -versio, joka käsittää ensisijaisesti tie-tolähdesarjoja, jotka on suunniteltu opastamaan Interling-va-tekstin käännöstä vieraalle kielelle. Erityisesti on jo-10 kaista uutta kohdekieltä varten luotava erikseen uusi MT-generaattori 123.
Toiminnalliseen tilaan saatettu kielieditori 130 saattaa ajoittain pyytää kirjoittajaa 160 suorittamaan valinnan vaihtoehtoisten tulkintojen välillä tiettyjen lau-15 seiden kohdalla, jotka ovat rajoitetun lähdekielen kieliopillisten vaatimusten mukaisia mutta joiden merkitys on epäselvä. Tätä prosessia kutsutaan yksikäsitteistykseksi. Kun kielieditori 130 on todennut, että tietty tekstiosa sisältää ainoastaan rajoitetun lähdekielen mukaista sanastoa 20 ja vastaa sen kieliopillisia vaatimuksia, tekstille annetaan tästä hyväksymisnimike, kunnes yksikäsitteistys on suoritettu. Kuten jäljempänä käy ilmi, yksikäsitteistys ei vaadi muutoksia kirjoittajan nähtävillä oleviin tekstikoh-tiin. Kun teksti on yksikäsitteistetty, se on valmis kään-25 nettäväksi kohdekielelle 180.
• :·.· Käytännössä kielieditori 130 on rakennettu teksti- ; editorin 140 jatkeeksi. Tekstieditori 140 tuottaa tekstin- .·:·] käsittelyn perustoiminnot, joita tarvitaan tekstin ja tau- • · · lukkojen laatimiseen varsinaisessa tekstintuotto- ja edi- .. , 30 tointityössä. Grafiikkaeditori 150 vastaa grafiikan luomi - * ·' sesta.
» 1 i
Grafiikkaeditorin 150 avulla mahdollistuu grafiikan ,1'·.· tekstinimikkeiden haku tekstieditorin 140 kautta niin, että tällaiset tekstinimikkeet voidaan myös hyväksyä rajoitetun * # 35 lähdekielen mukaisiksi.
( ; k » · u 113096
Kielieditori 130 (tekstieditorin 140 kautta) kommunikoi MT-analysaattorin 127 ja sen kautta aihealueen mallin 137 kanssa yksikäsitteistyksen aikana kaksisuuntaisten yhteyksien välityksellä. Patenttihakemuksen suoritusmuodossa 5 aihealueen malli toimii yhtenä MT-analysaattoria 127 syöttävistä tietopohjista. Aihealueen malli 137 esittää symbolisesti MT-analysaattorin 127 ja kielieditorin 130 käyttämää rajoitetun lähdekielen sanastoa koskevan deklaratiivisen tiedon.
10 Kuviossa 2 on esitetty korkeamman tason kulkukaavi- on avulla IATS 105:n toimintaperiaate; MT 120, kielieditori 130, tekstieditori 140 ja grafiikkaeditori 150 toimivat kaikki tiedostonhallintajärjestelmän FMS 110 ohjauksessa. Ohjausyhteydet 111 - 113 toimittavat tarpeelliset ohjaus-15 tiedot IATS 105:n asianmukaisen toiminnan varmistamiseksi.
Kirjoittaja 160 käyttää aluksi tiedostonhallintajärjestelmää 110 editoitavan asiakirjan valitsemiseksi, ja tiedostonhallintajärjestelmä 110 käynnistää tekstieditorin 140 ilmaisten näin määritetyn asiakirjan tiedoston. Tekstiedito-20 rin 140 välityksellä asiakirjan kirjoittaja kirjoittaa lohkojen 160 ja 220 mukaisesti IATS 150:een mahdollisesti rajoittamattoman ja merkitykseltään epäselvän tekstin. Kirjoit-taja 160 luo ja muokkaa asiakirjan editoinnin standardikomen-'·’· toja käyttäen, kunnes se on valmis tarkistettavaksi rajoite- : 25 tun lähdekielen vaatimusten suhteen. On huomattava, että ·;·· asiakirjan kirjoittajien näin kirjoittama teksti on todennä- j köisesti enimmiltä osiltaan jo pitkälti valmisteltu rajoite- tun lähdekielen vaatimuksia silmällä pitäen. Tämän jälkeen • · t järjestelmä antaa palautetta niiden tekstikohtien osalta, . 30 joissa on poikettu ennalta määrätyistä sanasto- ja kielioppi- rajoituksista, ja tämän palautteen ohjaamana kirjoittaja » | muokkaa tekstin rajoitetun lähdekielen mukaiseksi. Näin saa-; vutettu tehokkuus on luonnollisesti suurempi kuin tilantees- ·:'*· sa, jossa alunperin kirjoitetaan täysin rajoittamatonta teks- ’ , 35 tiä. Järjestelmä kuitenkin toimii yhtä hyvin myös täysin ra- » · * » · » · 12 113096 joittamatonta tekstiä kirjoitettaessa jo alusta alkaen.
Kirjoittajan kommunikointi kielieditorin 130 kanssa tapahtuu hiiren napsautusten avulla tai tavallisilla näp-päimistökomennoilla. On kuitenkin huomattava, että myös 5 muita syötemuotoja, kuten esim. piirrin, ääni jne., voidaan käyttää, ilman että keksinnön suojapiiri tai toiminta samalla muuttuu. Tällainen syöte voi olla esim. komento, jonka avulla suoritetaan rajoitetun lähdekielen mukaisuuden tarkistus tai pyydetään annetun sanan tai ilmauksen määrit-10 elmä tai käyttöesimerkki.
Rajoitetun lähdekielen mukainen teksti, joka saattaa vielä sisältää merkitykseen liittyviä epäselvyyksiä tai on tyyliltään ongelmallinen, analysoidaan suhteessa tietopohjiin sisältyviin kieliopin sääntöihin lohkon 230 mukai-15 sesti. Kirjoittaja saa palautetta virheiden korjaamiseksi palauteyhteyden 215 kautta. Tarkemmin sanottuna kieliedi-tori 130 lähettää tietoja rajoitetun lähdekielen vastaisista sanoista, ilmauksista ja lauseista kirjoittajalle 160. Lopuksi teksti tarkistetaan merkitykseltään epäselvien lau-20 seiden varalta. Kielieditori kehottaa kirjoittajaa va litsemaan sopivimman tulkinnan lauseen merkityksestä. Tämä prosessi toistuu, kunnes teksti on täysin yksikäsitteis-·...· tetty.
Kun kirjoittaja on tehnyt tekstiin kaikki tarvitta-25 vat korjaukset ja analyysivaihe 230 on saatettu loppuun, « * · yksikäsitteistetty/rajoitettu teksti 240 ohjataan MT-ana- : lysaattorille ja tulkille 250. Tulkki sijaitsee MT-analy- • * « j.’;V saattorissa 127 yhdessä analysaattorin syntaktisen osan kanssa ja kääntää yksikäsitteistetyn/rajoitetun tekstin 240 30 interlingvaksi 260. Interlingvan 260 kääntämisen taas suo-
• » I
: >’ rittaa generaattorilohko 270 tulostaen kohdekieltä 280. Ku- » · ten kuviosta 3 ilmenee, interlingva-tekstx 260 on muodossa, ’· j joka voidaan kääntää useille kohdekielille 306 - 310.
! S » { * » · 13 113095
Edellyttämällä ja mahdollistamalla asiakirjojen valmistelu yksityiskohtaisten sanasto- ja kielioppirajoi-tusten mukaisesti tulee myös mahdolliseksi suorittaa rajoitetulla kielellä laaditun tekstin tarkka käännös vieraille 5 kielille ilman jälkikäsittelytarvetta. Jälkikäsittely tulee tarpeettomaksi, sillä kielieditorin sanaston tarkistusloh-kon 217 ja analyysilohkon 230 ansiosta kirjoittaja on jo ennen käännöstä muokannut ja/tai yksikäsitteistänyt asiakirjan kaikki mahdollisesti epäselvät lauseet ja kaikki salo nat, jotka eivät ole käännettävissä.
II. Toiminnallisten lohkojen yksityiskohtainen kuvaus
Patenttihakemuksen suoritusmuodossa kullakin teks-tintuotosta vastaavalla kirjoittajalla on käytössään oma 15 DEC-työasema, jossa on 32 Mt:n RAM, 400 Mt:n levyasema ja 19 tuuman värinäyttö. Kunkin työaseman kokoonpanon määritykseen kuuluu vähintään 100 Mt:n swap-tiedosto kovalevyllä. Kirjoittajien työasemien lisäksi on käytössä DEC-pal-velimia tiedostopalvelimina yksi kutakin kahta tekstin-20 tuottoryhmää kohden kuitenkin niin, että käyttäjien kokonaislukumäärä ei ylitä 45:tä minkään tiedostopalvelimen osalta. Tekstintuottotyöasemat liitetään edelleen Ethernet- • · > paikallisverkkoon. Järjestelmä käyttää Unix-käyttöjär jes-telmää (Berkeley Standard Distribution [BSD] -johdannainen 25 on suositeltavampi kuin System V [SYSV] -johdannainen). C-ohjelmointikielen kääntäjä ja OSF/Motif-ohjelmakir jastot : .*. ovat saatavilla. Kielieditorin toiminta hoidetaan Motif-
t t I
ikkunaohjaimesta käsin. On kuitenkin huomattava, ettei kek- * * · sintöä ole rajoitettu kyseisiin laite- ja ohjelmistoympä-30 ristöihin; myös muunlaiset ympäristöt voivat tulla kysymyk-:seen.
A. Tekstieditori ,· Patenttihakemuksen suoritusmuoto käsittää teksti- editorin 140, jonka avulla kirjoittaja voi syöttää tietoja, 35 jotka myöhemmin analysoidaan ja lopuksi käännetään vieraal- t
< I
14 113096 le kielelle. Keksinnön yhteydessä voidaan käyttää mitä tahansa markkinoilla saatavilla olevaa tekstinkäsittelyohjelmistoa. Suoritusmuotoon kuuluu SGML-tekstieditori 140, jonka toimittaja on ArborText (ArborText Inc., 535 West Wil-5 liam St., Ann Arbor, MI 48103, USA). SGML-tekstieditori 140 tuottaa tekstintuotosta vastaavien kirjoittajien ja editorien tarvitsemat toiminnot perustekstinkäsittelyä varten, ja sitä käytetään InterCapin (Annapolis, Maryland, USA) ohjelmiston kanssa grafiikan luomiseksi.
10 Keksintö hyödyntää SGML-tekstieditoria 140, koska se luo tekstiä käyttäen Standard Generalized Markup Language (SGML) -tuntomerkkejä (tags). SGML on kansainvälinen merkintäkielistandardi elektronisten asiakirjojen rakenteen kuvaamiseksi. Se on suunniteltu vastaamaan monipuolisen 15 asiakirjakäsittelyn ja -vaihdon asettamiin vaatimuksiin. SGML-tuntomerkit tekevät mahdolliseksi asiakirjojen kuvauksen niiden sisällön (teksti, kuvat jne.) ja loogisen rakenteen (luvut, kappaleet, kaaviot, taulukot jne.) suhteen. Suurempikokoisten, monimutkaisempien elektronisten asiakir-20 jojen kohdalla niiden ansiosta voidaan myös kuvata asiakirjan fyysinen jako tiedostoihin. SGML on suunniteltu niin, että sen avulla voidaan kaikentyyppisten, yksinkertaisten ·...· tai monimutkaisten, lyhyiden tai pitkien asiakirjojen ku- vailu suorittaa sekä järjestelmästä että sovelluksesta : 25 riippumattomalla tavalla. Tämä riippumattomuus mahdollistaa *; * * * asiakirjojen siirron eri järjestelmien välillä eri sovel- • luksia varten ilman väärintulkintaa tai tietojen menettä- • * * · mistä.
• · · SGML on merkintäkieli eli kieli, jonka avulla teks- ... 30 ti "merkitään" tai varustetaan huomautuksin koodattujen * * tietojen avulla tai niitä käyttäen. Tällainen tieto lisää *;·“ annetun tekstikappaleen jo välittämää tavanomaista teks- : tuaalista tietoa. Useimmissa tapauksissa tämä tapahtuu eri ·;··· puolille tekstiä sijoittuvien merkkijonojen muodossa. Kukin ‘ . 35 jono erotetaan ympäröivästä tekstistä sen aloittavien 1 » M » · 15 113096 ja päättävien erityismerkkien avulla. Ohjelmisto voi pyydettäessä varmistaa SGML-tuntomerkit tarkistamalla, että tekstiin on sisällytetty oikea merkintä. Lisätietoja SGML-tuntomerkeistä löytyy teoksesta International Standard 5 (ISO) 8879, Information processing - Text and office systems - Standard Generalized Markup Language (SGML), viite-nro ISO 8879-1986(E).
SGML-tuntomerkkien käytön ansiosta saadaan seuraavanalaiset valmiudet: 10 (1) Asiakirjojen jaottelu katkelmiin tai käännettä viin yksiköihin. Tekstieditorin 140 ohjelmisto käyttää sekä välimerkkejä että SGML-tuntomerkkejä syötetyn lähdetekstin käännöskelpoisten yksiköiden tunnistamisessa (SGML-tunto-merkkejä tarvitaan esim. osioiden alaotsikoiden tunnistami-15 sessa); (2) Niiden yksiköiden suojaus (eristys), joita ei tulla kääntämään. Vaikka järjestelmän lähtökohtana on, että kaikki sanat ja lauseet kuuluvat rajoitettuun kieleen, jota ei voida ennustaa etukäteen (esim. nimet ja osoitteet), tai 20 sanaston luokkiin, joita ei voida (helposti) tyhjentävästi eritellä (esim. osanumerot, laitteiden virheviestit), tällaiset kohdat voidaan kuitenkin ympäröidä SGML-tuntomer- • · · ·,,,! keillä ja näin ilmoittaa järjestelmälle, että ne eivät kuu- ·:“.· lu tarkistuksen piiriin.
25 (3) Sisällön tunnistus (esim. osanumero) kuten yllä • ;..j kohdassa (2) .
; (4) Osittaisten lauseiden kääntäminen (esim. merki- ,··_.[ tetyn listan kohdat) .
* t · (5) Avustaminen taulukoiden kääntämisessä (yksi so-, 30 lu kerrallaan) tekstin rakenteen tunnistamisen avulla. Tämä • >* ominaisuus on samankaltainen kuin kohdassa (1) yllä kuvat- tu.
:’· j (6) Avustaminen jäsennysprosessissa (kuvattu jäi- * · jempänä) kohtien (2), (3), (4) ja (5) kautta.
» ♦ ’ »> » » * 113096 16 (7) Avustaminen yksikäsitteistyksessä, jolloin voidaan sisällyttää näkymättömiä tuntomerkkejä lähdetekstiin ja näin osoittaa epäselvän lauseen oikea tulkinta.
(8) Avustaminen rahayksiköiden ja matemaattisten 5 yksiköiden kääntämisessä osoittamalla erityiskäsittelyä vaativat yksilölliset tekstityypit.
(9) Tekstiosan merkitseminen käännöskelpoiseksi tunnuksen avulla. Näin voidaan siis vahvistaa, että teksti-osio on suoriutunut yllä kuvatun prosessin läpi ja että 10 teksti on yksiselitteistä rajoitettua tekstiä, joka voidaan kääntää ilman tarvetta tekstin jälkikäsittelyyn.
Aikaisemmin kirjoittajien täytyi luoda (tekstieditorin 140 avulla) elektronisia asiakirjoja (vain tekstiä ei grafiikkaa), jotka edustivat kokonaista "kirjaa". Tämä 15 merkitsi sitä, että yksi tekstintuotosta vastaava kirjoittaja suoritti työn alusta loppuun ja että tuotetun tiedon jälleenkäyttö ei ollut helppoa. Nyt kyseessä oleva keksintö kuitenkin yhdistelee (tai luo) kirjoja (käsikirjoja, asiakirjoja) pienempien kappaleiden tai tietoelementtien sar-20 joista, minkä johdosta työn suoritukseen voi osallistua useita tekstintuotosta vastaavia kirjoittajia. Keksinnön seurauksena jälleenkäyttömahdollisuus on parantunut. Tieto-elementti määritellään tiettyä erityisalaa koskevan käyt-tötiedon pienimpänä erilliskappaleena. On kuitenkin huo-25 mättävä, että vaikka patenttihakemuksen suoritusmuoto hyö-·:*· dyntää tietoelementtejä, keksintö voi tuottaa tarkkoja, yk- | siselitteisiä asiakirjakäännöksiä tietoelementtejä käyt- 4 4» » tämättäkin.
» * *
Kuviossa 4 on esimerkki tietoelementistä 410, johon .. . 30 kuuluu "yksikäsitteinen" otsikko 415, "yksikäsitteinen" • > · tekstilohko 420, "jaettu" grafiikka 430, "jaettu" taulukko '··* 435 ja "jaettu" tekstilohko 425.
"Yksikäsitteinen" tieto on tietoa, joka koskee ai-noastaan sitä tietoelementtiä, johon se sisältyy. Tämä mer-1 , 35 kitsee sitä, että "yksikäsitteinen" tieto tallennetaan osa- * · 17 1 13096 na tietoelementtiä 450.
"Jaettu" objekti (grafiikka, taulukko, tai tekstilohko) on tietoa, joka on "varustettu viittein" tietoelementissä .
5 "Jaettujen" objektien sisältö ilmaistaan tekstin- tuottotyökalussa, mutta se on ainoastaan "osoitettu" tallennetussa tietoelementissä 450.
"Jaetut" objektit eroavat tietoelementeistä sikäli, että ne eivät toimi erillisinä (ts. ne eivät yksinään si-10 säliä riittävästi tietoa toimiakseen olennaisina tiedon siirtäjinä). Kukin "jaettu" objekti on itsessään erillinen tiedosto lohkon 450 mukaisesti.
Tietoelementit muodostetaan yhdistelemällä "yksikäsitteisiä" tietolohkoja (tekstiä ja/tai taulukoita) yhden 15 tai useamman "jaetun" objektin kanssa. Voidaan panna merkille, että "yksikäsitteinen" otsikko 415 ja "yksikäsitteinen" teksti 420 yhdistyvät "jaetun" grafiikan 430, "jaetun" taulukon 435 ja "jaetun" tekstin 425 kanssa. Yhden tai useamman tietoelementin sarja muodostaa kokonaisen asiakir-20 jän (kirja) .
"Jaetut" objektit on tallennettu "jaettuihin" kirjastoihin. Kirjastotyyppeihin sisältyvät "jaetut" grafiik-kakirjastot 460a, "jaetut" taulukkokirjastot 460b, "jaetut" tekstikirjastot 460c, "jaetut" audiokirjastot 460d ja "jae-I : 25 tut" videokirjastot 460e. Jaettu objekti tallennetaan muis- ····· tiin vain kerran. Yksittäisten tietoelementtien yhteydessä j vain "viittaukset" alkuperäiseen jaettuun objektiin sijoi- * i 1 · tetaan jaettuun informaatiotiedostoon 450. Näin minimoidaan tarvittavan kovalevytilan määrää. Kun alkuperäinen kohde ,. . 30 muuttuu, kaikki tietoelementit, jotka "viittaavat" tähän • · · kohteeseen, muuttuvat automaattisesti. Jaettua objektia • · ’·;·1 voidaan käyttää missä tahansa julkaisutyypissä.
"Jaettu tietoelementti" on tietoelementti, jota • · ·;·· käytetään useammassa kuin yhdessä asiakirjassa. Esim. ver- » «•II1 · 18 113096 siokohtaisen ohjelmakirjaston 470 neljää tietoelementtiä käytetään myös asiakirjojen 480 ja 485 osien luomiseen.
Kaikki viestintä kirjoittajan ja kielieditorin 130 välillä välittyy kielieditorin käyttöliittymän kautta, joka 5 on toteutettu joko SGML-editorin vakiovälineiden (kuten väli kko vaihtoehdot ) jatkeena tai erillisessä ikkunassa. Käyttöliittymän avulla saadaan ja hallitaan haku rajoitetun lähdekielen tarkistustoimintoihin ja sanaston hakutoimintoihin sekä ohjataan näiden käyttöä, ja se muodostaa ensi-10 sijaisen työkalun, jonka avulla käyttäjät ovat vuorovaikutuksessa rajoitetun lähdekielen kielieditorin kanssa. Joskin käsitteellä "käyttöliittymä" tarkoitetaan usein hieman yleisemmin liitäntää koko ohjelmistojärjestelmään, on se tässä rajoitettu käsittämään vain liitäntää rajoitetun läh-15 dekielen tarkistustoimintoihin, sanaston hakutoimintoihin ja yksikäsitteistystoimintoon.
Käyttöliittymän tulee mm. toimittaa selkeää tietoa koskien (a) kielieditorin toimintaa, (b) tämän toiminnan tuloksia ja (c) seuraavaa toimintaa. Esim. kun käyttöliit-20 tymän kautta käynnistetty toiminta tuottaa reaaliaikaisen tauon, jonka kesto jatkuu tiettyä minimipituutta kauemmin, tulisi käyttöliittymän tiedottaa kirjoittajalle mahdolli-·...· sesta viiveestä lyhyen viestin avulla.
*'·1'· Kirjoittaja voi aktivoida kielieditoritoiminnon va- : 25 litsemalla asianmukaisen vaihtoehdon tekstieditorin 140 va- «t» ·;··· likosta. Vaihtoehtoisten valintojen avulla kirjoittaja voi l käynnistää rajoitetun lähdekielen tarkistustoiminnot (sekä « 1 » · sanaston tarkistus että kielioppitarkistus) ja sanaston ha- t f | kutoiminnot sekä lukea niiltä tulevan palautteen. Kirjoit-.. . 30 taja voi pyytää työn alla olevan asiakirjan tarkistuksen i » · *,,1 aloittamista tai pyytää sanaston hakua annetulle sanalle • · *·;·’ tai ilmaukselle.
:1·.· Käyttöliittymä ilmaisee selkeästi jokaisen asiakir- • · ·:·· jasta löydetyn rajoitetun lähdekielen piiriin kuulumattoman * . 35 tapauksen. Tällaiset tapaukset voidaan ilmaista esim.
Miit » · · 19 113096 värin käytön avulla tai SGML-editorin ikkunassa näkyvän kirjasimen tyypin tai koon muutoksilla. Käyttöliittymä näyttää kaikki saatavilla olevat tiedot havaitusta rajoitetun lähdekielen vastaisesta sanasta. Asianmukaisessa tapa-5 uksessa se näyttää esim. viestin, joka kertoo, että sana ei ole rajoitetun lähdekielen mukainen, mutta että sille on löydettävissä rajoitetun lähdekielen mukaisia synonyymejä, jotka se luetteloi. Niissä tapauksissa, jois sa sanaston tarkistusraportti sisältää luettelon vaihtoehdoista kohtee-10 na olevalle rajoitetun kielen vastaiselle sanalle (esim. oikeinkirjoituksen tai rajoitetun lähdekielen mukaisten synonyymien suhteen), kirjoittaja voi valita yhden vaihtoehdoista ja pyytää sen automaattista käyttöä asiakirjassa. Joissakin tapauksissa kirjoittajan tulee mahdollisesti 15 muokata valitun vaihtoehdon kirjoitusasu (esim. lisätä sopiva pääte) varmistaakseen, että se on asianmukaisessa muodossa.
Kun kirjoittaja pyytää sanastotietoja, käyttöliittymä näyttää oikeinkirjoitusvaihtoehtoja, synonyymejä, mää-20 ritelmän ja/tai käyttöesimerkkejä osoitetulle kohteelle.
Kirjoittaja voi siirtyä nopeasti ja vaivattomasti tarkistintietojen ja sanaston hakutoimintojen antamien tie- 1 « t tojen välillä käyttöliittymän sisällä. Tämän johdosta kir-““· joittaja voi suorittaa tiedonhakuja (esim. synonyymien ha- : : 25 ku) samanaikaisesti rajoitetun lähdekielen vastaisen kieli- ·:*·· aineksen eliminoinnin kanssa.
j Useimmissa tapauksissa käyttöliittymä korvaa auto- 11« » maattisesti rajoitetun lähdekielen vastaiset sanat sen mu- • · 9 karsilla, ilman että käyttäjän tarvitsee muokata rajoitetun .. . 30 lähdekielen mukaista sanaa varmistaakseen, että se on •tl asianmukaisessa asussa. On kuitenkin tapauksia, joissa sa- * · naston tarkistustoiminnot (kuvattu jäljempänä) , jotka eivät suorita asiakirjan jäsennystä, eivät kykene tunnistamaan ·;·* tarvittavaa oikeaa muotoa. Hyvä esimerkki löytyy seuraavas- ‘ , 35 ta englanninkielisestä otsikosta, jossa käytetty verbi view • · » • » 20 113096 ("nähdä", "katsoa" jne.) ei ole rajoitetun lähdekielen mukainen, mutta sillä on kuitenkin rajoitetun lähdekielen mukainen synonyymi see:
Direction of Crankshaft Rotation 5 (when viewed from flywheel end)
Sanan käyttötapaan liittyvän epätarkkuuden johdosta sanastontarkistuksessa ei voida todeta, tulisiko saw (joku "näki") vai seen ("nähtynä") tarjota sanan viewed synonyyminä (ts. onko kyseessä aktiivi- vai passiivimuoto). Tässä 10 tapauksessa olisi tietenkin järkevää tarjota molemmat vaihtoehdot ja antaa kirjoittajan valita niistä oikea. Koska ei ole varmuutta siitä, että kaikissa tapauksissa on mahdollista tarjota kirjoittajalle vaihtoehto, joka voidaan valita näytöstä suoraan, LE 130 antaa luettelon vaih-15 toehtoisista korvaavista sanoista ja ilmauksista mahdollisuuksien mukaan oikeassa muodossa. Voi kuitenkin esiintyä tapauksia, jolloin kirjoittaja toteaa tarpeelliseksi muokata ehdotettua rajoitetun lähdekielen mukaista sanaa tai ilmausta ennen kuin pyytää sen sisällyttämistä asiakir-20 jaan.
Lopuksi kielieditorin käyttöliittymä avustaa lauseiden merkityksen monitulkintaisuuksien ratkaisemisessa. ·...· Tämä tapahtuu tarjoamalla ensin kirjoittajalle luettelo *''*· mahdollisista vaihtoehtoisista tulkinnoista, sallimalla • » i :>ti: 25 kirjoittajan tehdä näistä sopivin valinta, sekä sen jäl- ·:·· keen varustamalla kyseinen lause tuntomerkillä osoittamaan • kirjoittajan tekemä valinta.
« * · · B. Tiedostonhallintajärjestelmä * * *
Tiedostonhallintajärjestelmä FMS 110 toimii kir- .. . 30 joittajan liitäntänä tietoelementtien versiokohtaiseen • * * *,,) ohjelmakirjastoon 470 ja SGML-tekstieditoriin 140. Tavalli- ’*;·* sesti kirjoittaja valitsee tietoelementin editointia varten osoittamalla siihen liittyvän tiedoston tiedostonhallinta-·;"· järjestelmän liitännässä. Tiedostonhallintajärjestelmä 110 ’ , 35 käynnistää ja ohjaa tämän jälkeen kyseisen tietoelementin I I I I » t · » iiiii » · 21 113096 SGML-editointitoiminnon. Viimeistellyt asiakirjat toimitetaan edelleen ihmiseditorille tai informaation integroijaan tiedostonhallintajärjestelmän kontrolloimien apuvälineiden kautta.
5 C. Rajoitettu lähdekieli
Nykyaikaisen teknisen asiakirjamateriaalin monimutkaisuudesta johtuen on käytännössä mahdotonta tuottaa luonnolliseen kieleen perustuvasta rajoittamattomasta tekstistä korkealaatuisia konekäännöksiä. Suurimmat ongelmat 10 aiheutuvat nimenomaan kielen luonteesta. Lähdetekstin kääntämisessä ratkaisevin prosessi onkin sen merkityksen onnistunut kääntäminen kohdekielelle. Koska tällainen merkitys on löydettävissä tekstimerkkien pintakerroksen takaa, tulee tekstimerkit analysoida tarkasti. Analyysin kautta tavoi-15 tettu merkitys käytetään edelleen prosessissa, jossa tuotetaan kohdekielen merkit. Monet käännöstyön kaikkein hanka-limmista ongelmista liittyvätkin juuri kielen sisäisiin ominaisuuksiin, jotka vaikeuttavat lähdekielen analyysiä ja käännöskielen tuottamista.
20 Ongelmallisia ominaisuuksia ovat mm.: 1. Sanat, joilla on useampi kuin yksi merkitys epäselvässä asiayhteydessä
Esim. englannin kielen lause Make it with light ma- » terial. (Tarkoittaako light tässä yhteydessä "va- :#ii: 25 loisaa" vai "kevyttä"?) *:*· 2. Sanat, joiden muodostus ei ole yksiselitteinen ·* ·*. Esim. saksan kielen ilmaus Arbeiterinformation voi
t » I
olla joko "tietoa työntekijöille" (Arbeiter + In- » * i formation) tai "naistyöntekijöiden muodostelma/ 30 muodostus" [Arbeiterin + Formation) 3. Sanat, joilla on useampi kuin yksi syntaktinen *·;·’ rooli, » » 22 113096
Englannin kielen sana round voi olla substantiivi (S), verbi (V) tai adjektiivi (A): (S) Liston was knocked out in the first round.
(V) Round off the figures before tabulating them.
5 (A) Do not place the cube in a round box.
4. Sanayhdistelmät, joiden osilla voi olla useampi kuin yksi syntaktinen rooli:
Esim. British Left Waffles on Falklands.
(Jos Left waffles katsotaan olevan S + V, uutisot-10 sikko kertoo päättämättömästä brittiläisestä vasem mistosta) (Jos Left Waffles katsotaan olevan V + S, otsikko kertoo brittiläisten jälkeenjättämistä vohveleista) 5. Sanayhdistelmät epäselvissä rakenteissa 15 Esim. Visiting' relatives can be boring.
(Mikä voi olla pitkästyttävää - sukulaisissa vierailu vai vierailevat sukulaiset?)
Esim. Lift the head with the lifting eye.
(Onko lifting eye instrumentti vai pään "ominai- 20 suus"?) 6. Hämmentävä pronominin viittaus
Esim. The monkey ate the banana because it was... (Mihin it viittaa - apinaan vai banaaniin?) '·**· Varsinaiseen kielentuottamiseen liittyvät ongelmat • t · ‘ ’ 25 vaikeuttavat tilannetta edelleen ja hankaloittavat siten *:··: entisestäänkin kone käännöksen mahdollisuuksia.
• Käännösongelmia voidaan vähentää huomattavasti su-pistämällä tietyn tekstin kielellisten ilmiöiden vaihtelua. Ns. kielen osajoukko kattaa objektien, prosessien ja suh- .. . 30 teiden skaalan tietyn määritellyn aihealueen sisällä. Kie- * »
Ien osajoukko voi kuitenkin olla suppea sanastonsa osalta, ;·’ joskaan ei välttämättä kielioppikapasiteettinsa suhteen.
Valvotuissa olosuhteissa voidaan konekäännöksen mahdolli-i suuksia parantaa rajoittamalla sekä kielen osajoukon sanas- _ ’ . 35 to että sen kielioppi.
* · 23 113096
Sanastorajoitukset vaikuttavat sanaston laajuuteen välttämällä synonyymejä sekä sen sisältämiin monitulkin taisuuksiin rajoittamalla leksikaaliset yksiköt mahdollisuuksien mukaan yhteen merkitykseen kutakin yksikköä koh-5 den. On helppo kuvitella, kuinka tällaisten rajoitusten avulla voitaisiin välttää yllä kuvattujen esimerkkien 1, 2 ja 4 havainnollistamat ongelmat. Kielioppirajoitusten avulla voitaisiin eliminoida kokonaisuudessaan esimerkin 6 kaltaiset pronominalisaatio-ongelmat tai pyytää tarkoitet-10 tujen merkitykseen liittyvien monitulkintaisuuksien ratkaisemista joko lisäämällä tai toistamalla muuten tarpeetonta tietoa tai uudelleenkirjoituksen avulla. Jälkimmäisen vaihtoehdon sovelluksen parametrit ilmenevät seuraa-vasta esimerkistä: 15 Rajoittamaton, merkitykseltään epäselvä englannin kielinen lause (jonka tulkinta voi olla joko A, B1 tai B2 alla olevan mukaisesti): Clean the connect ing rod and main bearings.
Merkitykseltään yksiselitteinen englanninkielinen 20 versio A: Clean the connecting rod bearings and the main bearings.
Merkitykseltään yksiselitteinen englanninkielinen '· ·’ versio Bl: Clean the main bearings and the con- ’* '· necting rod.
• I I
25 Merkitykseltään yksiselitteinen englanninkielinen "•i versio B2: Clean the main bearings and the connect- • ing rods.
• * · ·
Leksikaalisten ja kieliopillisten rajoitusten määrä ja tyypit voivat vaihdella laajalti riippuen rajoitetun :·<·> 30 kielen osajoukon muodostamisen tarkoituksesta.
* »
Keksintö rajoittaa näin ollen asiakirjojen tekstin-*;*’ tuoton tapahtuvaksi rajoitetun kielen sisällä. Rajoitettu i t kieli on lähdekielen erityiskieli (esim. amerikanenglan-ti), joka luodaan tietyn käyttäjäsovelluksen aihealuetta ’ ; 35 varten. Rajoitettuja tai kontrolloituja kieliä koskeva 24 113096 yleiskatsaus löytyy teoksesta Adriaens et ai, From COGRAM to ALCOGRAM: Toward a controlled English Grammar Checker, esitetty kokouksessa Coling-92, Nantes, 23. - 28. elokuuta 1992, joka sisällytetään täten viitteenomaisesti tukemaan 5 patenttihakemusta. Rajoitetulle kielelle konekäännöksen yhteydessä asetetut tavoitteet ovat seuraavat: 1. Edesauttaa lähdekielisten asiakirjojen yhdenmukaisessa kirjoittamisessa ja edistää selkeää ja suoraviivaista kirjoitusta.
10 2. Luoda lähdeteksteille systemaattinen viitekehys, jonka avulla aikaansaadaan käyttäjäasiakirjojen nopea, tarkka ja korkealaatuinen konekäännös.
Niitä sääntöjä, joita asiakirjan kirjoittajan tulee noudattaa varmistaakseen kirjoitettavan tekstin yhdenmukai-15 suus rajoitetun lähdekielen vaatimusten kanssa, kutsutaan alla rajoitetun lähdekielen kieliopillisiksi rajoituksiksi. Kun näitä rajoituksia käytetään konekäännöskomponentissa tapahtuvaan rajoitetun lähdekielen mukaisten tekstien analysointiin, niiden atk-toteutusta kutsutaan alla rajoitetun 20 lähdekielen funktionaaliseksi kieliopiksi perustuen Martin Käyn kehittämiin ja R. Kaplanin ja J. Bresnanin modifioimiin formalismeihin (ks. Kay, M., "Parsing in Functional • s »
Unification Grammar", D. Dowty, L. Karttunen ja A. Zwicky, eds., Natural Language Parsing: Psychological, Com- 25 putational, and Theoretical Perspectives, Cambridge, Mass., ·:*· Cambridge University Press, 1985, s. 251 - 278; Kaplan, R.
: ja J. Bresnan, "Lexical Functional Grammar: A Formal System • i I » for Grammatical Representation", J. Bresnan, ed., The Men- * » · tal Representation of Grammatical Relations, Cambridge, .. . 30 Mass., MIT Press, 1982, s. 172 - 281; molemmat teokset si- » » · * säilytetään täten viitteenomaisesti tukemaan patenttihake- musta.) : ,· Tässä asiakirjassa tullaan toistuvasti käyttämään *;ilmaisua, että sana tai ilmaus on "rajoitetun lähdekielen ‘ , 35 mukainen" tai "rajoitetun lähdekielen vastainen". Alla on 25 113096 kuvattu rajoitetun lähdekielen asettamiin sanaston rajoi-tetyyppeihin liittyvät olettamukset sekä selitetty ilmaisun "rajoitetun lähdekielen mukainen" käyttö.
Sama englannin kielen sana tai ilmaus voi merkitä 5 useita eri asioita. Esim. yleissanakirjasta saattaisi löytyä seuraavat määritelmät sanalle leak: (1) verbi: vuotaa tai tihkua rikkouman, murtuman tai halkeaman kautta; (2) verbi: antaa (tietojen) vuotaa tai päästää tie-10 toon ilman virallisia valtuuksia tai lupaa; ja (3) substantiivi: halkeama, aukko tms., jonka kautta vuoto tapahtuu.
Kuhunkin näistä erilaisista merkityksistä viitataan sanan tai ilmauksen yhtenä "alamerkityksenä". Yhteen sa-15 naan tai ilmaukseen liittyvät useat alamerkitykset voivat tehdä konekäännöksen ongelmalliseksi, sillä konekäännösjärjestelmä ei voi toimia kaiken sen tiedon perusteella, jonka avulla ihminen erottaa tietyssä lauseessa mahdollisten merkitysten joukosta sen, joka on kirjoittajan tarkoittama. 20 Useiden sanojen kohdalla käännösjärjestelmä voi karsia monitulkintaisuutta tunnistamalla tietyn sanan sen lauseen tietyksi lauseenjäseneksi (substantiiviksi, verbiksi, ad- 1 I · jektiiviksi jne.). Tämä on mahdollista silloin kun sanan ,;,U eri merkitykset ovat sidonnaisia sen käyttöön eri lauseen- : : 25 jäseninä, kuten esim. yllä leak-sanan kohdalla.
·:··· Rajoitetun lähdekielen määritteet pyrkivät kuiten- j kin rajaamaan sanan tai ilmauksen merkityksen vain yhteen sanan kutakin lauseenjäsenfunktiota kohden ja täten välttämään sellaista monitulkintaisuutta, jota MT 120 ei pysty .. . 30 eliminoimaan. Kun sana tai ilmaus on näin saatu rajoitetun *,,* lähdekielen mukaiseksi, sitä voidaan käyttää rajoitetulla lähdekielellä ainakin yhdessä sen mahdollisista alamerki-: tyksistä. Näin kirjoittajalle voidaan rajoitetulla lähde- ·;··* kielellä kirjoitettaessa esim. sallia sanan leak käyttö ’ , 35 sen yllä annetuissa merkityksissä (1) ja (3), mutta ei • t 26 113096 merkityksessä (2). Sanan tai ilmauksen toteaminen rajoitetun lähdekielen mukaiseksi ei tarkoita sitä, että sanan tai ilmauksen kaikki mahdolliset käyttötavat ovat käännettävissä .
5 Jos sana tai ilmaus on rajoitetun lähdekielen mu kainen, myös kaikki sen eri muodot, jotka ilmaisevat sen rajoitetun lähdekielen alamerkityksiä, ovat rajoitetun lähdekielen mukaisia. Yllä olevan esimerkin mukaisesti kirjoittaja voi käyttää verbin leak lisäksi myös siihen 10 liittyviä verbimuotoja leaked, leaking ja leaks. Jos sana tai ilmaus, jolla on substantiivinen merkitys, kuuluu rajoitettuun lähdekieleen, sekä sen yksikkö- että monikkomuotoja voidaan käyttää. On kuitenkin todettava, että ilmaukset, jotka voivat toimia useampana kuin yhtenä lauseenjä-15 senenä, ovat epätavallisia. Tämä ongelmanratkaisumenetelmä onkin siten vähemmän merkityksellinen monitulkintaisten ilmausten kohdalla.
Sanasto on tietyssä kielessä tai erityiskielessä käytettyjen sanojen ja ilmausten kokoelma. Rajoitettuun 20 aihealueeseen viitataan rajoitetun sanaston avulla, jota käytetään välittämään tai ilmaisemaan tiettyä rajallista kokemuksen alaa koskevaa tietoa. Rajoitettu aihealue voi > · · • » olla esim. maatalous, jolloin rajoitettu sanasto sisältää-si maatalousvälineitä ja -töitä koskevia sanoja. Konekään-25 nöskomponentin toiminta käsittää useampia kuin vain yhden ·;·*: sanaston. Konekäännöksessä käytettävät sanat ja ilmaukset • :tallennetaan MT-sanastoon. Sanasto voidaan jaotella eri • · · » luokkiin: (1) funktionaaliset sanat; (2) yleistä sisältöä ♦ » » kuvaavat sanat; ja (3) tekninen sanasto.
... 30 Englannin kielen funktionaaliset sanat ovat yksit- täisiä sanoja ja sanayhdistelmiä, jotka toimivat ensisijai- • t sesti ajatusten yhdistäjinä lauseessa. Niitä tarvitaan lä-hes jokaisessa englanninkielisessä kirjallisen viestinnän ·:·* lajissa. Tähän luokkaan kuuluvat prepositiot (to, from, ' . 35 with, in front of jne.), konjunktiot (and, but, or, 27 113096 if, when, because, since, while jne.)/ määreet (the, a, your, most of), pronominit (it, something, anybody jne.), tietyt adverbit (no, never, always, not, slowly jne.) ja apuverbit (should, may, ought, must jne.).
5 Yleistä sisältöä kuvaavia sanoja käytetään laajalti kuvaamaan ympäröivää maailmaa; pääasiallisessa käyttötavassaan ne heijastelevat tavallisen inhimillisen kokemuksen sisältöä.
Asiakirjat kohdistuvat tyypillisesti tiettyyn inhi-10 millisen kokemuksen pitkälle erikoistuneeseen osa-alueeseen (esim. koneet ja niiden ylläpito). Konekäännöksessä yleistä sisältöä kuvaava sanasto jää näin ollen suhteellisen rajalliseksi .
Tekninen termistö sisältää teknistä sisältöä kuvaa-15 via sanoja ja ilmauksia sekä käyttäjäsovellussidonnaista erityissanastoa. Tekniset sisältöä kuvaavat sanat ovat sanoja ja ilmauksia, jotka ovat ominaisia tietylle toimintapiirille tai jollekin erityisalalle. Useimmat tekniset sanat ovat substantiiveja, joita käytetään nimeämään esim. 20 osia, komponentteja, koneita tai materiaaleja. Niihin voi kuitenkin kuulua myös muita sanaluokkia, kuten esim. verbejä, adjektiiveja ja adverbejä. Koska tällaisia sanoja ei
* I I
ί,,,ί luonnollisestikaan käytetä tavallisessa jokapäiväisessä •:**: keskustelussa, ne eroavat jyrkästi yleistä sisältöä kuvaa- 25 vista sanoista.
i > »
Teknistä sisältöä kuvaavat ilmaukset ovat monista i · : ·, sanoista koostuvia sanaketjuja, jotka rakentuvat kaikista edellä käsitellyistä luokista. Tällaiset ilmaukset edustavat tekniselle asiakirjasanastolle luonteenomaisinta muo-30 toa. Käyttäjäsovellussidonnainen sanasto on se sanaston » * · : »' osa, joka sisältää käyttäjän nimenomaisesti sovellusta var- *...· ten luomat sanat ja monimutkaiset termit. Tällaisia ovat | mm. tuotenimikkeet, asiakirjojen otsikot, käyttäjän käyt-
* I
tämät akronyymit ja lomakenumerot.
* » » · 28 113096 Käyttökelpoisen ja täydellisen sanaston luomisella on tärkeä merkitys asiakirjanvalmistuksessa. Kun asiakirjamateriaali sittemmin käännetään, muodostuu sanastosta tärkeä resurssi itse käännöstyössä. MT 120 on suunniteltu 5 käsittelemään useimmat englanniksi esiintyvät funktionaa liset sanat, lukuun ottamatta hyvin henkilökohtaiseen (I, me, my jne.) tai sukusidonnaiseen (hers, she jne.) tai muuhun pronominikäyttöön (it, them jne.) viittaavia sanoja. Tähän sisältyvät myös monet tekniset lainat englannin 10 yleissanoista (kuten esim. truck tai length). Suuri enem mistö rajoitetun kielen sanastosta muodostuu täten "eri-tyistermeistä" (esim. teknisistä termeistä), jotka koostuvat yhdestä tai useammasta sanasta ja ilmaisevat tietyn erityisalueen olioita ja tapahtumia. Sikäli kun sanasto ky-15 kenee ilmaisemaan erityisalueen käsitteiden koko kirjoa, sen voidaan katsoa olevan täydellinen.
IATS 105 -järjestelmän menestyksekkään ratkaisun takana on osaltaan rationalisoidun mutta silti täydellisen sanaston onnistunut kehittäminen. Sanaston oikean ja vir-20 heellisen käytön määrittävä rajoitettu kieli varmistaa, että asiakirjat voidaan valmistella tavalla, joka edistää nopeaa, tarkkaa ja korkealaatuista konekäännöstä.
Sanastoon kuuluvien sanojen tulisi kuvastella sel- keitä käsitteitä ja niiden tulisi olla sopivia kohdeluki- 25 jakunnan kannalta. Vältettäviin ilmaisuihin kuuluvat mm.
sukupuolisuuteen liittyviä ennakkoluuloja ja eriarvoisuutta : heijastelevat ilmaukset ja termit, puhekielenomaiset il- • * · maukset, idiomit, vaikeaselkoiset tai liian tekniset sekä epämääräiset tai viestintää muuten haittaavat ilmaisut. Nä-30 mä ja muut yleisesti hyväksytyt tyyliseikat eivät luonnol- ·' *’ lisestikaan ole välttämättä pakollisia konekääntämisessä, mutta ne toimivat silti tärkeinä opasteina asiakir j atuo- t : tannossa yleensä.
On huomattava, että vaikka tässä asiakirjassa käsi-35 tellyistä rajoitettua lähdekieltä ja/tai kieltä yleensä 29 113096 koskevista kysymyksistä valtaosa keskittyy amerikanenglannin ympärille, voidaan vastaavia vertailukohtia löytää myös kaikista muista kielistä. Tässä kuvattu järjestelmä 100 ei olennaisesti edellytä amerikanenglannin käyttöä lähdekiele-5 nä. Järjestelmä 100 on itse asiassa suunniteltu toimimaan myös muilla lähdekielillä. Kielieditorin 130 ja MT 12Q:n kanssa vuorovaikutuksessa olevat tietokannat (esim. aihealueen malli) tulee kuitenkin vaihtaa kyseessä olevan läh-dekielen rajoitusten mukaisiksi.
10 Amerikanenglannin yleiskielen oikeinkirjoitussään töjä tulee noudattaa. Epätavallisia kirjoitusasuja, kuten thru sanasta through, moulding sanasta molding tai hodometer sanasta odometer, tulee välttää. Isolla alkukirjaimella kirjoitettuja sanoja (esim. On-Off, Value Planned Repair) 15 tulisi käyttää ainoastaan sanojen erityismerkityksen ilmaisemiseen. Tällaiset sanat tulee sisällyttää käyttäjäsovel-luksen sanaluetteloon, samoin kuin myös sanat, joille on ominaista epätavallinen ison alkukirjaimen käyttö (Bra-keSaver). Samaten mahdollisesti käytetyt lyhenteet (ROPS, 20 API, PIN) tulee sisällyttää käyttäjäsovelluskohtaiseen sanastoon. Numeroiden, mittayksiköiden ja päivämäärien muodon tulee olla yhtenäinen.
• · · ·,,,· Rajoitetun kielen mukaisia korvaavia ilmauksia tu- lee myös käyttää niiden rajoitetun kielen merkityksen mu-25 kaisesti. Näin toimien kirjoittaja varmistaa, että kone-·;··· käännös kääntää sanan aina sen asianmukaisen rajoitetun j kielen merkityksen mukaisesti. Jotkut englanninkieliset sa- * · I · .·;·, nat voivat myös kuulua useampaan kuin yhteen syntaktiseen kategoriaan. Rajoitetussa kielessä kaikkia syntaktisesti .. . 30 epäselviä sanoja tulisi käyttää lauserakenteissa, jotka yk- sikäsitteistävät ne.
Joillakin aloilla on aihealueen erityisluonteesta aiheutuvana ongelmana pitkien, substantiiveista rakennet-*: * tujen yhdyssanojen toistuva käyttö. Tällaisten yhdyssanojen ' . 35 sisältämien substantiivien väliset keskinäiset modifiointi- t i ί i 30 113096 suhteet ilmaistaan eri tavoin eri kielissä. Koska aina ei ole mahdollista välittää tällaisia suhteita lähdetekstistä kohdekielelle, luonteenpiirteiltään seuraavan kaltaiset monimutkaiset substantiiviset yhdyssanat voidaan sisällyttää 5 konekäännöstoiminnon sanaluetteloon: -Tekniset termit käyttäjäsovelluskohtaisesta sanastosta -Yhdyssanat, joiden osat ovat itsenäisiä (esim. tietyt englanninkieliset sanat) 10 Monimutkaisia substantiivi-substantiivi-rakenteisia yhdyssanoja tulisi välttää mahdollisuuksien mukaan. Kone-käännös kykenee kuitenkin käsittelemään joidenkin sanaston nimikkeiden kohdalla tämänkin asiakirjoille tyypillisen luonteenpiirteen. On merkille pantavaa, että substantiivi- 15 substantiivi-muotoisten yhdyssanojen muodostus, joka on hyvin tavallista englannin kielessä, ei välttämättä ole yleistä muissa kielissä, ja näin ollen rajoitukset, joiden alaisuudessa rajoitettu kieli luodaan, vaihtelevat käytetystä lähdekielestä riippuen.
20 Englannin kielessä on myös runsaasti verbin ja par tikkelin yhdistelmiä, joissa verbiin on yhdistetty prepositio, adverbi tai muu lauseenjäsen. Koska verbin ja par- • · · tikkelin välissä voi usein esiintyä objekti tai muu ilmaus, syötetekstin konekäännöskäsittely voi olla monimutkaista ja 25 epäselvää. Näin ollen verbin ja partikkelin yhdistelmät tu- « · ·;·.] lisi korvata mahdollisuuksien mukaan yksisanaisella verbil- ; lä. Esim. tulisi käyttää sanaa: - must tai need ilmauksen have to sijasta; - consult ilmauksen refer to sijasta; 30 - start the motor ilmauksen turn the motor on si- ‘ *’ jasta.
’* ’ Mahdollisuuksien mukaan tulisi käyttää sanoja ja ·’ I ajatuksia näiden täydellisessä muodossa. Tämä on erityisen : ; tärkeää silloin kun on olemassa väärinkäsityksen vaara.
1 , 35 Esim. ilmauksessa: * » S * » 31 113096
Use a monkey wrench to loosen the bolt...
(Käytä jakoavainta pultin irrottamiseksi...) sanaa wrench (ruuviavain) ei tule jättää pois. Vaikka useimmat tekniikkaan perehtyneet henkilöt ymmärtäisivät 5 lauseen sisällön ilman tätä sanaakin pelkän sanan monkey (apina) perusteella, sen merkitys tulee kuitenkin tehdä selväksi käännösprosessin kuluessa. Caterpillarin teknisellä kielellä luodulla tekstillä tulee olla sanasto, joka ilmaistaan täydellisenä mahdollisuuksien mukaan; lyhenteet 10 tai lyhennetyt sanamuodot tulisi kirjoittaa uudelleen lek-sikaalisesti täydellisiksi ilmaisuiksi.
Toinen esimerkki:
If the electrolyte density indicates that...
(Jos elektrolyytin voimakkuus osoittaa, että...) 15 Lauseen merkitys tulee ilmi selkeämmin ja kokonaisuudessaan, kun ajatus tuodaan täydellisemmin esille lisäämällä sana measurement (mittaus):
If measurement of the electrolyte density indicates that... (Jos elektrolyytin voimakkuuden mittaus 20 osoittaa, että...)
Lopuksi on seuraavissa lauseissa alunperin puuttuvien sanojen tai ilmausten kohdalle lisätty alleviivatut ' ..· sanat täsmentämään lauseen merkitys:
Turn the start switch key to OFF and remove the key 25 Pull the backrest (1) up, and move the backrest to « » » ·;·· the desired position.
; .·. Jump starting: make sure the machines do not touch • · * · each other.
• · · Tällaiset "aukot" täyttämällä saadaan lauseen si-, 30 sältämä ajatus paremmin esille ja mahdollisuudet tuottaa • ;* mielekäs käännös IATS 105:llä paranevat. Aukkojen aiheutta- I » *···* mat käännösvirheet ovat yleinen syy jälkikäsittelyyn, mistä syystä niitä tulee välttää.
: Puhutussa englannissa suositaan hyvin yleislaatuis- • , 35 ten sanojen käyttöä. Tämä saattaa johtaa tiettyyn epämää- 32 113096 räisyyteen, joka täytyy korjata käännöstyön aikana. Esim. sanat kuten conditions, remove, facilities, procedure, go, do, is for, make, get jne. ovat oikein mutta epätarkkoja. Esimerkkilauseessa: 5 When the temperature reaches 0 °C, you must take special precautions.
sanasta reaches ei välity selkeästi, onko lämpötila laskemassa vai kohoamassa. Valittaessa ilmaukseksi toinen näistä kahdesta vaihtoehdosta lauseen merkitys tarkentuu sen luet-10 tavuuden millään lailla kärsimättä.
Joissakin kielissä erotellaan asioita eri tavalla kuin englannin kielessä. Esim. englannissa käytetään sanaa oil riippumatta siitä, onko kyseessä voiteluaine vai polttoaine, ja sanaa fuel käytetään ilman erottelua myös die-15 selöljystä. Samaten sanasta door ei ilman asiayhteyden tuomia vihjeitä aina voi päätellä, minkälaisesta ovesta on kysymys - auton ovi? Rakennuksen ulko-ovi? Väliseinässä oleva kulkuportti? Muissa kielissä saatetaan käyttää kussakin tapauksessa englannin kielestä poikkeavaa ilmausta. Täydelli-20 siä ilmauksia tulisikin käyttää mahdollisuuksien mukaan.
C. Aihealueen malli
Tietämyspohjaisen konekäännöksen (Knowledge-based Machine Translation, KBMT) tukena tulee olla maailmantieto ja kielitieteellinen semanttinen tietämys leksikaalisten 25 yksiköiden ja niiden yhdistelmien merkityksistä. KBMT-tie-'V.* tämys kannan täytyy kyetä esittämään ei ainoastaan kohde- : : : tyyppien yleinen taksonominen aihealue, kuten esim. car is a kind of vehicle (auto on eräänlainen kulkuneuvo) , a door handle is part of the door (ovenkahva kuuluu oveen), arte-:v. 30 fakteille on (muun ohella) ominaista se, että ne ovat jon- kun "tekemiä"; sen tulee esittää myös tietoa kohdetyyppien erityisistä tapauksista (esim. "IBM" voidaan sijoittaa ai-healueen malliin kohdetyypin "yritys" merkittynä erityiset tapauksena) sekä (mahdollisesti kokonaisuuksista muodostu- : 35 vien) tapahtumatyyppien erityistapauksista (esim. George 33 113096
Bushin valinta Yhdysvaltain presidentiksi on kokonaistoiminnan "valita" merkitty erityistapaus). Tietämyskannan ontologinen osa järjestyy monihierarkiaksi, joka koostuu taksonomioita muodostavilla kytkennöillä toisiinsa liittyvistä 5 käsitteistä, kuten esim. englannin kielen is-a, part-of tms. Muodostuvaa rakennetta kutsutaan tässä monihierarkiaksi, koska käsitteillä voi olla useita yläkäsitteitä kutakin linkkityyppiä kohden.
Aihealueen malli eli käsitesanasto sisältää ontolo-10 gisen mallin, joka antaa tiettyjen aihealueiden kuvaukseen käytettävien peruskategorioiden (kuten oliot, tapahtumatyy-pit, suhteet, ominaisuudet, episodit jne.) yhdenmukaiset määritelmät. Tämä "maailmanmalli" on suhteellisen staattinen ja se on järjestynyt moninkertaisten keskinäisten yhte-15 yksien muodostamaksi ontologisten käsitteiden verkostoksi. Ne prosessit, joilla sovelluksen (erityis)maailmalle kehitellään yleisesti ontologiaa, tunnetaan alalla hyvin; ks. esim. Brachman ja Schmolze, "An Overview of the KL-ONE Knowledge Representation System", Cognitive Science, voi. 20 9, 1985; Lenat et ai, Cyc: "Using Common Sense Knowledge to
Overcom Brittleness and Knowledge Acquisition Bottlenecks", AI Magazine, VI:65-68, 1985; Hobbs, "Overview of the Taci- • · tus Project", Computational Linguistics, 12:3, 1986; ja Ni-v renburg et al, Acquisition of Very Large Knowledge Bases: .· 25 Methodology, Tools and Applications, Center for Machine ·; ·· Translation, Carnegie Mellon University, 1988; kaikki em.
: teokset sisällytetään täten viitteenomaisesti tukemaan tätä hakemusta.
Ontologia on kielestä riippumaton käsitteellinen ,, , 30 esitys tietystä erityismaailmasta. Tällaisia voivat olla • ;* esim. raskaiden työkoneiden vianetsintä ja korjaus tai mik rotietokoneiden ja niiden käyttäjien välinen vuorovaikutus. Ontologia tuottaa semanttista tietoa, jota tarvitaan eri-| tyiskielen aihealueella lähdetekstin jäsentämiseksi inter- 35 lingva-tekstinä ja kohdetekstien luomiseksi interlingva- > · · * * 34 113096 tekstistä. Aihealueen mallin tulee olla riittävän yksityiskohtainen tuottaakseen semanttisia rajoituksia, jotka kykenevät ratkaisemaan epäselvyydet jäsennysvaiheessa, ja ontologisen mallin tulee luoda yhdenmukaiset määritelmät onto-5 logisille peruskategorioille, joita käytetään erityisten aihealueiden kuvauksen muodostuksessa.
Maailmanmallissa ontologiset käsitteet voidaan ensin jaotella alaosiin olioiksi, tapahtumiksi, vaikutuksiksi (selittämään ei-intentionaalisia agentteja) ja ominaisuuk-10 siksi. Ominaisuudet voidaan jaotella edelleen suhteisiin ja attribuutteihin. Suhteet määritellään tässä käsitteiden välisenä kuvauksena (esim. belongs-to on suhde, sillä se kuvaa olion joukkoon {*human *organization}), kun taas attribuutit voidaan määritellä käsitteiden kuvaukseksi erityi-15 sesti määriteltyihin arvojoukkoihin (esim. temperature on attribuutti, joka kuvaa fyysisiä olioita arvoiksi puoliavoimella asteikolla [0,*] absoluuttisen lämpötilan asteikon mukaisesti). Käsitteet esitetään yleisesti kehyksinä, joiden rakennepaikat ovat järjestelmässä täydellisesti mää-20 riteltyjä ominaisuuksia.
Aihealueen mallit ovat välttämätön osa kaikkia tietämyspohjaisia järjestelmiä eivätkä siis ainoastaan tietä-*...· myspohjaisia konekäännösjärjestelmiä. Aihealueen malli on käännösalueella esiintyvien käsitteiden semanttinen moni-25 hierarkia. Voimme esim. määritellä objektin *0-VEHICLE ·;·<· niin, että se sisältää objektit *0-WHEELED-VEHICLE ja *0- : TRACKED-VEHICLE, sekä edelleen niin, että näistä edellinen sisältää *0-TRUCK, *0-WHEELED-TRACTOR jne. Monihierarkiassa » * · alimpana ovat rajoitetun lähdekielen sanastoa vastaavat 30 erityiskäsitteet. Tätä alinta osaa voidaan kutsua nimityk- * * * sellä jaettu ydinaihealueen malli. Tarkan käännöksen var-mistamiseksi on välttämätöntä asettaa semanttisia rajoituk-siä niille rooleille, joissa eri käsitteet toimivat. Esim. se, että *E-DRIVE-toiminnan agentin roolissa tulee olla ih-1 , 35 minen, on semanttinen rajoitus, joka on asetettu objektille 35 113096 *0-VEHICLE ja joka on automaattisesti siirtynyt edelleen kaikille ajoneuvotyypeille (vehicle) (eliminoiden näin tarpeen jokaisen esimerkin käsinkoodaukseen). Aihealueen mallin tekstintuotto-osan vaikutuksesta ydinalueinani laa-5 jentuu rajoitettuun lähdekieleen kuulumattomien synonyymien lisäyksellä sekä muulla informaatiolla, jonka ansioista kirjoittaja saa hyödyllistä palautetta koostaessaan kutakin tietoelementtiä.
Kuviossa 5 on käsitteellisesti havainnollistettu 10 keksinnön käyttämä aihealueen malli (Domain Model). Aihealueen malli DM 500 on esitys MT 120:n ja kielieditorin LE 130 käyttämää rajoitetun lähdekielen sanastoa koskevasta deklaratiivisesta tiedosta. Aihealueen malli 500 koostuu kolmesta erillisestä osasta:
15 1. Ydinaihealueen malli (Kernel Domain Model) K/DM
510 sisältää kaiken leksikaalisen tiedon, jota MT-analy-saattori 127 ja kielieditori 130 tarvitsevat; erityisesti ydinaihealueen malliin sisältyvät kaikki rajoitetun lähde-kielen leksikaaliset sanat ja ilmaukset, sekä niihin liit-20 tyvät semanttiset käsitteet, sanojen lauseenjäsenfunktiot, morfologinen tieto jne.
2. Konekäännöksen aihealueen malli (MT Domain Mo- • · « del) MT/DM 520 sisältää vain MT-analysaattorin 127 tarvit-”**.* semia tietoja. MT-aihealueen malli on käsitteiden moni- 25 hierarkia, jota käytetään kääntämisessä yksitulkintaiseen ·;<>· kuvaukseen ja semanttiseen varmistukseen. Siihen sisältyy : valittavissa olevia, käsitteisiin kohdistuvia rajoituksia ja käsitteiden monihierarkia.
3. Kielieditorin aihealueen malli (LE Domain Model) 30 LE/DM 530 sisältää vain kielieditorin 130 tarvitsemia tietoja; tällaisia ovat mm. rajoitettuun lähdekieleen kuulu-mattomat synonyymit rajoitetun lähdekielen leksikaalisille nimikkeille, rajoitetun lähdekielen leksikaalisten nimik- ..keiden sanakirjamääritelmät sekä esimerkit rajoitetun läh-• # 35 dekielen leksikaalisten nimikkeiden käytöstä.
36 113096
Ydinaihealueen malli K/DM 510 sisältää yhden leksikaalisen hakusanan jokaista rajoitetun lähdekielen nimikettä (sana tai ilmaus) kohden. ("Leksikaalinen hakusana" koostuu minimimuodossaan leksikaalisesta nimikkeestä - sana 5 tai ilmaus - ja siihen liittyvästä semanttisesta käsitteestä ja lauseenjäsenfunktiosta; esim. jos sanalla leak on rajoitetussa lähdekielessä sekä substantiivinen että verbinen merkitys, sille annetaan kaksi leksikaalista hakusanaa.) Kukin leksikaalinen nimike päivitetään kielieditorin 130 10 ja/tai MT 120:n tarvitseman lisätiedon valossa, kuten esim. määritelmä ja epäsäännölliset morfologiset rinnakkaismuodot .
Jaettu ydinaihealueen malli 510 nopeuttaa rajoitetun lähdekielen täsmentämistä ja laajentamista, eliminoi 15 tehtävien päällekkäisyyttä tekstintuotto- ja käännöskompo-nenteissa ja luo ihmisen luettavissa olevan rakenteen edistämään ylläpitoa ja laajennusta.
Ydinaihealueen malli 510 on sanaluettelo, joka sisältää rajoitetun kielen tekstin sanoja ja ilmauksia kos-20 kevan syntaktisen ja semanttisen informaation. Se on automaattisen konekäännösprosessin analyysipuolen keskeinen leksikaalinen tietolähde. Ydinaihealueen malli 510 toimii • k ·...· myös kielieditorin ydinaihealueen mallin perustana.
Ydinaihealueen malli 510 sisältää erillisen hakusa-25 nan jokaisen syntaktisen kategorian jokaiselle ilmaukselle.
* j· | (Täten esim. sanalle truck, joka toimii sekä substantiivina : että verbinä, on kaksi hakusanaa.) Ydinaihealueen mallin * i t * * · hakusanat sisältävät seuraavan informaation: - kanta (esim. truck) ,,, 30 - sanan lauseenjäsenfunktio (esim. substantiivi) * - sisältöä ilmaisevien sanojen kohdalla käsite tai ‘<*·’ merkitys (esim. O-TRUCK) - morfologinen informaatio (esim. epäsäännölliset ...·: taivutusmuodot) 35 - syntaktinen informaatio (esim. ilmaiseeko subs- 37 113096 tantiivi määrää vai laatua) - määritelmätietoja: lyhyitä määritelmiä ja teksti-esimerkkejä, joista ilmenee sanojen mahdolliset eri merkitykset ja niiden käyttö, sekä selvitys 5 siitä alamerkityksestä, missä sanaa tullaan käyt tämään rajoitetussa kielessä.
Aihealueen malli 500 on määritelty kolmessa ulkopuolisessa, käyttäjän luettavissa olevassa tiedostosarjas-sa, jotka niiden käyttöä vaativa prosessi (tai prosessit) 10 voi lukea. Koska MT 120 ja kielieditori 130 toimivat erillisinä prosesseina, mallin tiedot on esitetty sisäisesti kahdessa muodossa: toinen MT 120:n tarvitsemia aihealueen mallin osia varten ja toinen kielieditorin 130 tarvitsemia osia varten. Täten ydinaihealueen malli 510 on määritelty 15 tiedostosarjassa, joka voidaan esittää molemmissa muodoissa, kielieditorin ydinaihealueen malli 530 on esitetty vain kielieditorin 130 käyttämässä muodossa ja konekäännöksen aluemalli 520 on esitetty vain MT 120:n käyttämässä muodossa. Alla on kuvattu ulkoiset tiedostomuodot, aihealueen 20 mallin eri osien sisältö ja kielieditorin 130 käyttämien tietojen sisäinen esitys.
Kuten on todettu, ydinaihealueen malli sisältää *·. * kaikki sekä MT 120:n että kielieditorin 130 tarvitsemat "·' · tiedot. Tällaisia ovat rajoitetun lähdekielen leksikaalinen 25 nimike (kantasana, ilmaus tai siteerattu ilmaus) ja semant- tinen käsite (semanttinen, leksikaaliseen nimikkeeseen • liittyvä käsite, jota edustaa leksikaalisessa hakusanassa
• « · I
"käsitteen nimi") . Lisäksi näihin tietoihin sisältyy lau-seenjäsenfunktio (yksi rajatusta lauseenjäsenten sarjasta, 30 esim. verbi, adjektiivi tms.), määritelmä (sanaston yleis- \.| ilmausten karkea määritelmä, josta selviää, mistä rajoite- *;* tun lähdekielen leksikaalisen nimikkeen nimenomaisesta ala- : merkityksestä tai -merkityksistä on kysymys), sekä epäsään- ;··* nölliset morfologiset rinnakkaismuodot (kunkin kohdalla lu- 35 ettelo epäsäännöllisistä morfologisista muodoista sekä mor- * t 38 113096 fologisten transformaatioiden nimet). Verbien morfologisten transformaatioiden nimiä ovat esim. "imperfekti", "yksikön kolmannen persoonan preesens", "partisiipin perfekti" ja "partisiipin preesens". Tämän kentän arvo esim. englannin 5 sanan drive kohdalla olisi ([imperfekti drove] [partisiipin perfekti driven]), mistä ilmenee, että kyseiset kaksi verbimuotoa ovat epäsäännöllisiä ja kaikki muut muodot ovat säännöllisiä. Lopuksi ydinaihealueen malli sisältää typografisia rajoituksia - esim. jos leksikaalisen nimikkeen 10 tulee esiintyä kokonaan isoilla kirjaimilla kirjoitettuna, isoilla alkukirjaimilla kirjoitettuna, jne.
Konekäännöksen aihealueen malli MT/DM 520 sisältää vain MT 120:n tarvitsemia tietoja. Näihin lukeutuu käsitteisiin kohdistuvia selektiorajoituksia sekä monihierarki-15 nen käsitteiden luokittelu selektiorajoitusten organisointia ja periytymistä varten.
Kielieditorin aihealueen malli LE/DM 530 sisältää rajoitettuun lähdekieleen kuulumattomia synonyymejä, jotka avustavat kirjoittajaa valitsemaan oikein rajoitetun läh-20 dekielen leksikaalisten nimikkeiden joukosta. Ydinaihealueen malli ja kielieditorin aihealueen malli yhdessä sisältävät kaikki tiedot ja rajoitukset, joita tarvitaan kuvaa- . .· maan rajoitetun lähdekielen sanastoa kielieditorin sanaston ’ : tarkistimen (ks. alla) tukena. Kielieditorin aihealueen ; 25 malli sisältää vain kielieditorin sanaston tarkistimen tar- •( j vitsemia lisätietoja, kuten sanakirjamääritelmä (sanan tai : .·. ilmauksen määritelmä, jonka kielieditori esittää kir- ,· >, joittajalle), rajoitettuun lähdekieleen kuulumattomat sy nonyymit (rajoitetun lähdekielen leksikaalisten nimikkeiden .. , 30 synonyymit, joita saatetaan käyttää asiakirjan kir- * ** joittamisessa), sekä esimerkkilause (sanan tai ilmauksen * · *'.* esimerkki rajoitetun lähdekielen mukaisessa lauseessa, jon- ka kielieditori esittää kirjoittajalle) .
• · Näitä tietoja kielieditorin aihealueen malliin si- • t 35 säilyttämällä avustetaan kirjoittajia sen varmistamisessa, • · 39 113096 että kirjoitettu teksti on muodostettu oikeista rajoitetun lähdekielen sanoista ja ilmauksista. Sanakirjamääritelmien ja esimerkkilauseiden avulla kirjoittaja voi varmistaa, että kirjoituksessa käytetään puheen osan sanaa tai ilmausta, 5 joka lauseenjäsenen osalta ja merkitykseltään on rajoitetun lähdekielen mukainen. Sanakirjamääritelmiä tai esimerkki-lauseita ei kuitenkaan tarvita rajoitetun lähdekielen jokaiselle leksikaaliselle nimikkeelle. Niitä edellytetään lähinnä vain pienehkölle joukolle merkitykseltään epäselviä 10 tai epämääräisiä ilmauksia, joiden rajoitetun lähdekielen mukainen merkitys ei ole kirjoittajalle välittömästi selvä. Tällaiset ilmaukset edustavat todennäköisesti vain korkeintaan puolta aihealueen mallin kaikista leksikaalisista nimikkeistä. Esim. funktionaaliset sanat, kuten englannin for 15 ja the, eivät vaadi määritelmää tai esimerkkejä. Myöskään monet tekniset termit, erityisesti ne, joilla on pitkälle erikoistunut tekninen merkitys, eivät välttämättä tarvitse määritelmiä tai esimerkkejä.
Kielieditorin aihealueen mallin rajoitettuun lähde-20 kieleen kuulumattomat synonyymit avustavat rajoitettuun lähdekieleen kuulumattomia sanoja tai ilmauksia käyttävää kirjoittajaa valitsemaan niille synonyymisen tai muuten • i » verrattavan sanan tai ilmauksen rajoitetun lähdekielen alu- ""»* eelta, jolla korvata ne. Olisi toivottavaa, että sanaston 25 tarkistin ilmoittaisi paitsi synonyymeistä, jotka edustavat *;·*· samaa puheen osaa kuin se rajoitettuun lähdekieleen kuulu- : .·, maton sanakin, jonka synonyymejä ne ovat, myös sukulaissa- •« * » noista, joiden avulla kirjoittaja voi kirjoittaa lauseen • it uudelleen. Jos jälkimmäinen otetaan huomioon, tulee kieli-. 30 editorin aihealueen mallin sisältää tietoja myös näistä su- * I · kulaissanoista pakollisen sisältönsä lisäksi.
’ *' D. Kielieditori
Kuvion 1(b) mukaisesti rajoitetun kielen kieliedi-•; *»j tori LE 130 on työkalusarja, joka tukee tekstintuotosta ', 35 vastaavia kirjoittajia ja tekstin käsittelijöitä asiakirjan 40 113096 luomisessa rajoitetun lähdekielen rajoitusten puitteissa. Näiden työkalujen avulla kirjoittaja käyttää asianmukaista rajoitetun lähdekielen sanastoa ja kielioppia huoltooppai-den kirjoittamisessa. Kielieditori 130 on rakennettu 5 SGML-tekstieditorin 140 "jatkeeksi". Joskin kielieditori 130 käyttää samoja tietoyhteyksiä kuin SGML-tekstieditori 140, näiden kahden editorin toiminnot ovat keskinäisesti toisensa poissulkevia. Vuorovaikutukseen kielieditorin 130 kanssa käytetty käyttöliittymä on kuitenkin SGML-tekstiedi-10 toriliitännän "saumaton jatke".
Kirjoittaja 160 luo asiakirjat SGML-tekstieditoris-sa 140 ja herättää kielieditorin 130. Kielieditori 130 tiedottaa kirjoittajalle asiakirjassa esiintyvien yksittäisten sanojen rajoitetun lähdekielen vastaisuudesta ja kykenee 15 ehdottamaan rajoitetun lähdekielen mukaisia synonyymejä sanoille, jotka ovat merkityksellisiä käyttäjäsovelluksen tietoalueella olematta kuitenkaan rajoitetun lähdekielen mukaisia. Lisäksi kielieditori 130 ilmoittaa käyttäjälle siitä, vastaako tiedostoon sisältyvä teksti rajoitetun läh-20 dekielen syntaktisia vaatimuksia.
Kielieditori 130 -ohjelmistoon sisältyy seuraavaa: sanaston tarkistin, kielioppitarkistin ml. liitäntä MT-syn-taksianalysaattorin kautta, jolla saadaan keskeiset kieli-'1 : oppitarkistustoiminnot, sekä käyttöliittymä. Lisäksi rajoi- 25 tetun lähdekielen kielieditorin käyttämä rajoitetun lähde- • ♦ t ·;··[ kielen sanastotieto esitetään ydinaihealueen mallissa ja .· .*. kielieditorin aihealueen mallissa.
• · t • · t · ,·;·_ Kielieditori 130 vahvistaa, että asiakirjan kaikki • · · sanasto- ja lauserakenteet vastaavat rajoitetun lähdekie-,, , 30 Ien vaatimuksia. Kielieditori 130 varustaa asiakirjan i » « • ·’ SGML-tuntomerkillä, joka ilmoittaa tällaisesta rajoitetun I · *-··* lähdekielen mukaisuudesta. Asiakirjan koko teksti tulee tarkistaa, mukaan lukien lauseet, otsikot, luettelonimik- » t keet, kuvatekstit ja nimiöt, grafiikkateksti ja taulukko- 35 tiedot.
I t » M t · t i > e · • * 41 113096
Koska keksinnön lähtökohtana on, että kirjoittajien työn tulisi olla mahdollisimman tuottavaa rajoitetun lähdekielen tarkistusten aikana, ja että kirjoittajien ei tarvitsisi työskennellä useiden kirjoitettavien asiakirjo-5 jen parissa yhtaikaa, ei ole soveliasta käyttää eräkäsit-telytilaa, jossa käyttäjä lähettää asiakirjan käsittelyyn ja sen jälkeen odottaa koko asiakirjan valmistumista ennen palautteen saamista. Kielieditorin 130 avulla saadaan vuorovaikutteinen toimintamuoto sanaston tarkistusta, kieli-10 oppitarkistusta ja vuorovaikutteista yksikäsitteistystä varten.
Kuviossa 6 on korkeamman tason kulkukaavio kieli-editorin LE 130 toiminnasta. Kielieditori 130 vastaanottaa syötteenä tekstiä 605, joka voi olla merkitykseltään epä-15 selvää ja rajoittamatonta. Mahdollisesti monitulkintainen, rajoittamaton syöteteksti 605 tarkistetaan ensin sanaston tarkistimella 610, jonka toiminnot suoritetaan (alla kuvatun mukaisesti) oikeinkirjoituksen tarkistimen 615 avulla. (Oikeinkirjoituksen tarkistimen toiminnasta vastaa patent-20 tihakemuksen suoritusmuodossa isäntänä toimivan tekstieditorin TE 140 vakiovarusteinen oikeinkirjoituksen tarkistin.) Kun sanaston tarkistin 610 on suorittanut tarkistuk-·...· sen ja tehnyt kaikki tarvittavat korjaukset (kirjoittajan avustuksella), sanastollisesti rajoitettu teksti 617 lähe-25 tetään edelleen kielioppitarkistimeen 620. Kielioppitar-·;··· kistin 620 tuottaa syntaktisesti virheetöntä rajoitetun .* lähdekielen mukaista tekstiä 625. Tämän jälkeen rajoitettu * * · · syntaktisesti virheetön teksti 625 yksikäsitteistetään loh- • · « kon 630 mukaisesti. Yksikäsitteistyksen tuloksena saadaan .. . 30 käännöskelpoinen, monitulkintaisuuksiltaan ratkaistu ja ra- • » · • » joitettu teksti 635. Käännöskelpoinen teksti 635 voidaan • f kääntää vieraalle kielelle ilman tarvetta tekstin esikäsit-telyyn. Tuloksena saatavan käännöksen tarkkuus tekee myös • · ·;··! tekstin jälkikäsittelyn tarpeettomaksi.
» » * t » » »»•Il » % 42 1 13 0 9 6 1. Sanaston tarkistin
Kuviossa 7 on kulkukaavio sanaston tarkistimen 610 toiminnasta. Sanaston tarkistin 610 tunnistaa sanat, joiden ei tiedetä olevan rajoitetun lähdekielen mukaisia. Sanaston 5 tarkistin 610 tunnistaa tapaukset, joissa kirjoitetun tekstin sana ei ole rajoitetun lähdekielen mukainen, ja avustaa tekstin kirjoittajaa hakemaan niille sopivat rajoitetun lähdekielen mukaiset vaihtoehdot. Se tunnistaa asiakirjassa sanarajat ja tapaukset, joissa sanaston nimikkeen ei tiede-10 tä olevan rajoitetun lähdekielen mukainen.
Lohkon 706 mukaisesti yksikön ensimmäinen ilmaus valitaan tarkistukseen. Ilmaus tarkistetaan lohkon 710 mukaisesti kaikki lähdekielen sanat sisältävän rajoitetun lähdekielen sanastollisen tietokannan (ts. sanakirjan) va-15 lossa. Jos ilmausta ei löydy rajoitetun lähdekielen sanakirjasta, sen oikeinkirjoitus tarkistetaan standardisana-kirjan valossa lohkon 722 mukaisesti. Jos sana on kirjoitettu väärin, kirjoittajalla on mahdollisuus korjata kirjoitusvirhe (ts. sanaston tarkistin ilmoittaa vaihtoehtoi-20 siä kirjoitusasuja) lohkon 726 mukaisesti.
Tämän jälkeen nimike tarkistetaan sen määrittämiseksi, onko se rajoitetun lähdekielen sanaston mukainen • · · :,t,: (lohko 734) . Jos nimike kuuluu rajoitetun lähdekielen sa- nastoon, toimintasarjassa siirrytään lohkoon 718. Jos nimi-25 ke ei kuulu rajoitetun lähdekielen sanastoon, järjestelmä tarkistaa, sisältääkö kielieditorin aihealueen malli syno- : .·. nyymin tarkistettavalle nimikkeelle lohkon 736 mukaisesti.
,·;·] Jos kielieditorin aihealueen malli sisältää ainakin yhden i · » synonyymin, järjestelmä ilmoittaa synonyymit (synonyymin), . 30 jotka kuuluvat rajoitetun lähdekielen sanastoon, ja kir- » · « • joittajalla on mahdollisuus suorittaa näistä valinta lohkon » · *···* 738 mukaisesti. Jos kielieditorin aihealueen malli ei kui- » :*·,· tenkaan sisällä synonyymejä tarkistettavalle nimikkeelle, kirjoittajalla on mahdollisuus ottaa syöteteksti uudelleen-• t 35 käsittelyyn lohkon 740 mukaisesti. Uudelleenkäsitelty teks- *
• I
43 113096 ti lähetetään takaisin lohkoon 710. Kun kirjoittaja on tehnyt pätevän valinnan, toimintasarja 700 jatkuu lohkoon 718.
Kun rajoitettuun lähdekieleen kuulumaton sana on tunnistettu, kirjoittajan valittavana ovat seuraavat vaih-5 toehdot: voidaan joko valita vaihtoehtoinen sana ja korvata sillä asiakirjassa esiintyvä alkuperäinen sana tai voidaan kirjata uusi nimike ja korvata sillä asiakirjassa esiintyvä sana. Tavallisesti kirjoittaja valitsee yhden mahdollisista synonyymeistä korvaamaan rajoitetun lähdekielen vastaisen 10 nimikkeen. Jos kirjoittaja jättää ongelman huomiotta, tekstiä ei hyväksytä rajoitetuksi lähdekieleksi.
Lohko 718 tarkistaa, onko yksikössä vielä muita ilmauksia. Jos ilmauksia ei ole, toimintasarja 700 keskeytyy. Muussa tapauksessa valitaan seuraava ilmaus lohkon 714 mu-15 kaisesti ja toimintasarja 700 alkaa uudelleen lohkosta 710.
Erityisesti sanaston tarkistin tunnistaa kaikki tapaukset, joissa leksikaalisen nimikkeen ei tiedetä olevan rajoitetun lähdekielen mukainen. Jokaisen tällaisen sanan kohdalla sanaston tarkistin toteaa, mikä seuraavista kuva-20 uksista soveltuu tapaukseen ja ilmoittaa tukitietoja käyttöliittymään alla luetellun mukaisesti: - rajoitetun lähdekielen vastainen sana, jolle tie- IM • « detään rajoitetun lähdekielen mukaisia synonyyme-jä - tässä tapauksessa sanaston tarkistin 610 * · · : _ : 25 tunnistaa synonyymit. Oletetaan esim. että eng- *:*: lännin kielen sana let on rajoitetun lähdekielen ·*. vastainen: » I | • » · »
Kirjoittajan on tarkistettava syötelause: Open the ) » t valve and let more nitrogen go to the accumulator. Sanaston ., . 30 tarkistimen viesti: Termi on rajoitetun lähdekielen vastai- » t nen, mutta sille löytyy vaihtoehtoisia rajoitetun lähdekie- • ·
Ien mukaisia ilmauksia.
Vaihtoehdot rajoitetulla lähdekielellä: allow, al-·;··; lowed, enable, enabled, permit, permitted, leave, left.
• * 2 « » t * · 44 113096
Editoitu lause rajoitetulla lähdekielellä: Open the valve and allow more nitrogen to go to the accumulator.
- sana, joka voi esiintyä rajoitetulla lähdekielellä ainoastaan ilmauksen osana, mutta jota ei 5 käytetä rajoitetun lähdekielen ilmauksessa ko.
yhteydessä - tässä tapauksessa sanaston tarkistin 610 ilmoittaa hyväksyttävät rajoitetun lähdekielen mukaiset ilmaukset, joihin sana sisältyy: Kirjoittajan tarkistettava syötelause: The first 10 time the valve lash is checked, the injector timing should be checked. Sanaston tarkistimen viesti: Ilmausta on käy tetty rajoitetun lähdekielen vastaisessa yhteydessä. Vaihtoehdot rajoitetulla lähdekielellä: advance signal timing, advance timing groove, timing gear, timing mechanism. Edi-15 toitu lause rajoitetulla lähdekielellä: The first time the valve lash is checked, the injector timing mechanism should be checked.
- sana tai ilmaus, jonka tulee esiintyä lainausmerkein varustettuna rajoitetulla lähdekielellä, 20 mutta joka ei ole lainausmerkeissä ko. yhteydessä - tässä tapauksessa sanaston tarkistin 610 ilmoittaa, että ilmaus tulisi esittää siteerauk-sena: ·;··· Kirjoittajan tarkistettava syötelause: For more de- 25 tails, read the Testing and Adjusting article in the next section. Sanaston tarkistimen viesti: Ilmaus on yleensä va- • * . . rustettu lainausmerkein. Vaihtoehdot rajoitetulla lähdekie- lellä: Ei ole. Editoitu lause rajoitetulla lähdekielellä: '·’ ’ For more details, read the "Testing and Adjusting" article 30 in the next section.
; .· - sana tai ilmaus, jossa tulee rajoitetun lähdekie-
Ien mukaisesti välttämättä käyttää tiettyä isoa , , : kirjainta, mutta josta iso kirjain puuttuu ko.
» · ! yhteydessä (esim. akronyymi, joka on kirjoitettu 35 pikkukirjaimin) - tässä tapauksessa sanaston tar- > · * • · 45 113096 kistin 610 ilmoittaa oikean rajoitetun lähdekie-len mukaisen muodon (muodot):
Kirjoittajan tarkistettava syötelause: Turn the screw until the pressure gauge reads 0 kPa (0 psi). Sanas-5 ton tarkistimen viesti: Ilmauksessa puutteellinen ison kirjaimen käyttö. Vaihtoehdot rajoitetulla lähdekielellä: kPa. Editoitu lause rajoitetulla lähdekielellä: Turn the screw until the pressure gauge reads 0 kPa (0 psiJ.
- "epäsana" (ts. kirjainjoukko, joka esittää väärin 10 kirjoitettua sanaa), jolle tiedetään vaihtoehtoi sia kirjoitusasuja - tässä tapauksessa sanaston tarkistin 610 tunnistaa vaihtoehtoiset kirjoitusasut riippumatta siitä, onko tulos rajoitetun lähdekielen mukainen (kirjoittaja antaa valitse- 15 mansa vaihtoehdon uudelleentarkistettavaksi) :
Kirjoittajan tarkistettava syötelause: When it is necesarv to raise the boom, the boom must have correct support. Sanaston tarkistimen viesti: Ilmaus on rajoitetun lähdekielen vastainen. Vaihtoehdot rajoitetulla lähdekie-20 lellä: necessary. Editoitu lause rajoitetulla lähdekielellä: When it is necessary to raise the boom, the boom must have correct support.
• · - sana, joka on rajoitetun lähdekielen vastainen ja » *! ': josta järjestelmällä ei ole tietoa. Tuntematto- 25 masta sanasta tai ilmauksesta ilmoittava viesti ·;·· antaa kirjoittajalle mahdollisuuden tapauksesta : riippuen joko muuttaa sanamuoto kokonaisuudessaan tai suojata epäpätevä ilmaisu tarkistukselta.
» « φ
Seuraavassa esimerkissä kirjoittaja käyttää SGML- . 30 tuntomerkkiä viestimään järjestelmälle, että sen • · ' tulisi sivuuttaa näin osoitettu ilmaisu:
Kirjoittajan tarkistettava syötelause: Put ap- : ,· proximately 0.9 L (1 quart) of SAE10W hydraulic oil in the : nitrogen end of the accumulator. Sanaston tarkistimen 35 viesti: Ilmaus tuntematon. Vaihtoehdot rajoitetulla lähde- » 46 113096 kielellä: Ei ole. Editoitu lause rajoitetulla lähdekielel-lä: Put approximately 0.9 L (1 quart) of <sic>SAElOW</sic> hydraulic oil in the nitrogen end of the accumulator.
- Välimerkki tai erikoissymboli, jonka käyttö ei 5 ole sallittua rajoitetussa lähdekielessä missään yhteydessä
Niissä tapauksissa, joissa rajoitetun lähdekielen vastaisella sanalla ei ole synonyymistä rajoitetun lähde-kielen vastinetta (ts. sanoja, jotka voisivat suoraan kor-10 vata sen asiakirjassa), järjestelmä voi etsiä rajoitetun lähdekielen sukulaissanat ja -ilmaukset, joita kirjoittaja voi käyttää ilmaisemaan tarkoitettua ajatusta. Tämä toiminto avustaa kirjoittajaa lauseen uudelleenkirjoittamisessa vain rajoitetun lähdekielen mukaisia sanoja käyttä-15 en. Muutos näiden sukulaissanojen käyttöön ei kuitenkaan voi tapahtua synonyymikorvauksen kaltaisella automaattisella toiminnolla, sillä tällaiset muutokset vaativat tavallisesti lauserakenteen muuttamista. Esim. jos englannin kielen can on rajoitetun lähdekielen mukainen ja capable 20 taas ei, niin kirjoittajan laatiman lauseen:
The system is capable of being programmed for several customer-specific parameters « » · ·...· kohdalla ilmoitettaisiin, että capable [capable] ei ole ”·1·: rajoitetun lähdekielen sana. Vaikka sana can [can] on ra- 25 joitetun lähdekielen mukainen, ei ilmausta is capable of ·;··· ["is capable of"] voida suoraan korvata sanalla can ilman : lauseeseen tehtäviä lisämuutoksia.
• · · • 1 # · 2. Kielioppi tarkistin • · ·
Kielioppitarkistimen tarkoituksena on tunnistaa ne . 30 kohdat, joissa kirjoittajan teksti ei vastaa rajoitetun \ lähdekielen kieliopillisia rajoituksia, sekä kiinnittää ’··1 kirjoittajan huomio näihin kohtiin. Kielioppitarkistimen :1·,· 620 toiminnoista vastaa konekäännösjärjestelmän 120 ana- ·; = ·: lyysimoduuli 127, joka on laajennettu niin, että järjes- ' , 35 telmä voi tiedottaa syntaktisista ja semanttisista epäsel- * . - k » 47 113096 vyyksistä. Kielioppitarkistinliitännän ansiosta kirjoittaja voi vuorovaikutteisesti vastata monitulkintaisuuksiin kohdistuviin yksikäsitteistyspyyntöihin. On mahdollista, että lause on rajoitetun lähdekielen mukainen ja voidaan 5 silti tulkita useammalla kuin yhdellä tavalla. Kielioppi-tarkistinliitäntä osoittaa kirjoittajalle vähintään kaksi eri merkitystä, jotka ovat lauseelle mahdollisia, pyytäen samalla selvennystä. Epäselvä englanninkielinen lause on esim. Check the cylinders on the inside: sijaitsevatko sy-10 linterit sisäpuolella vai onko tarkoitus kenties tarkistaa sylinterien sisäpuoli? Kaksi erilaista epäselvyystapausta voi tulla kysymykseen:
Leksikaaliset epäselvyydet. Leksikaalisia epäselvyyksiä ilmenee, kun sanalla voi olla yksi tai useampia 15 merkityksiä rajoitetussa lähdekielessä. Vaikka onkin toivottavaa, että kullakin rajoitetun lähdekielen sanalla olisi vain yksi merkitys sanan lauseenjäsenfunktiota kohden, on olemassa sanoja, joilla väistämättä on useampia kuin yksi merkitys. Esim. englannin kielen gas voi viitata 20 luonnonkaasuun (natural gas) tai bensiiniin (gasoline).
Leksikaalisella tasolla voi ongelmia aiheuttaa myös sellaisen sanan esiintyminen, joka voi toimia rajoi- • · * ·...· tetussa lähdekielessä kahdessa erilaisessa syntaktisessa '·"· roolissa. Tällainen on esim. englannin kielen fuel, joka : 25 voi rajoitetussa lähdekielessä olla joko substantiivi tai *:·*· verbi. Kun kirjoittaja syöttää lauseen, jossa sanan syn- J taktinen tehtävä ei ole selkeä, kielioppitarkistin GC 620 voi kehottaa kirjoittajaa seuraavasti: • * ·
Kirjoittajan tarkistettava syötelause: The sensor ,, , 30 is attached to fuel rack. Kielioppitarkistimen viesti: Ilmausta voidaan käyttää substantiivina ‘ tai verbinä.
: \: Tässä vaiheessa kirjoittaja voi niin valitessaan V* muokata lauseen ilman järjestelmän apua (yksinkertaisesti ‘ , 35 uudelleenkirjoittamalla ja antamalla lause uudelleentar- 48 113096 kistettavaksi). Jos kirjoittaja haluaa pyytää apua, järjestelmä voi tarjota erityisohjeita kyseisen tyyppisen ongelman korjaamiseksi. Tässä tapauksessa neuvo on tarkka:
Help! Kielioppitarkistimen viesti: Jos sana on 5 substantiivi, haluat ehkä sijoittaa määreen sen eteen. Jos se on verbi, voisiko sanan jälkeen sijoitettu määre olla avuksi? Esimerkki: The ship sinks vs. Ship the sinks. ("Laiva [the ship] uppoaa" vs. "Lähetä [ship] pesualtaat").
10 Tämän jälkeen kirjoittaja muokkaa lauseen ja antaa sen uudelleen kielioppitarkistimelle 620 tarkistettavaksi.
Rakenteelliset epäselvyydet- Rakenteellisia epäselvyyksiä syntyy, kun lauseen sanojen voidaan ajatella ryhmittyvän useammalla kuin yhdellä tavalla. Esim: Remove 15 the valve with the lever. Tässä tapauksessa ongelmia aiheuttaa konjunktio with: Yhdistyykö ilmaus with the lever ilmaukseen the valve, vai yhdistyykö se ennemminkin verbiin remove? Onko siten kyseessä venttiili (valve), jossa on vipu (lever), vai tarkoitetaanko, että venttiili tulisi 20 irrottaa vivulla? IATS 105:n komponenteista aihealueen malli 137 on suunniteltu vastaamaan tähän kysymykseen. Se on rakennettu M* ·...· minimoimaan tämänkaltaisten epäselvyyksien esiintyminen.
Kuvion 5 mukaisesti aihealueen malli MT 520, joka 25 tukee yksinomaan konekäännösprosessia, sisältää kahden- ;·.· laista informaatiota. Semanttinen informaatio (A) avustaa : käsitteiden välisten suhteiden tunnistamisessa. Kontekstu- aalinen informaatio (B) taas täsmentää tietyn verbin koh- ♦ · t dalla sen ns. syväsijoja tai argumentteja, jotka ovat mah- ... 30 dollisia tällaiselle verbille. Ko. esimerkkitapauksessa * » ♦ * ·’ voidaan ensin pohtia, kuinka semanttinen informaatio (A) ja kontekstuaalinen informaatio (B) avustavat analysaatto-ria 127 määrittämään lauseen Remove the valve with the le- » t ver kieliopillinen rakenne.
49 113096
Semanttisten suhteiden joukkoon sisältyy kuulumista ja yhteyttä ilmaiseva suhde (esim. englannin is a part of, olla osa jtkn., sisältyä jhkn. jnkn. osana), joka vallitsee esim. käsitteen "hattu" ja käsitteen "asu" välillä 5 niin, että "hattu" "kuuluu" "asuun". Sama suhde vallitsee käsitteen "kengänpohja" ja käsitteen "kenkä" välillä tai käsitteiden "kenkä" ja "korko" tms. välillä. Aihealueen malliin MT 520 sisältyvä semanttinen informaatio (A) tunnistaa tämän ja muut semanttiset suhteet aihealueen käsit-10 teiden välillä.
Kun MT-analysaattorin 127 prosessi pyytää aihealueen mallilta MT 520 käsitteiden valve ja lever välistä suhdetta koskevaa semanttista informaatiota, aihealueen malliin 137 sisältyvät tiedot eivät riitä MT-analysaatto-15 rille 127 sen tunnistamiseksi, onko lever osa käsitettä valve - tällaista tietoa ei yksinkertaisesti ole saatavilla. MT-analysaattori 127 ei tässä tilanteessa kykene tunnistamaan, tulisiko ilmaus with the lever liittää sanaan valve.
20 Kun MT-analysaattori 127 nyt hakee kontekstuaa- lista informaatiota (B) , se havaitsee, että verbillä remove on kolme eri semanttista roolia: nominatiivi (NOM), akkusatiivi (AKK) ja instrumentaali (INS) . Näin ollen re-move sopii seuraavaan kehykseen: 25 ·:·: __________verbi (N0M' AKK' INS) • · » t t t Tämän abstraktin mallin perusteella voimme rakentaa seuraavanlaisia englanninkielisiä lauseita:
30 NOM VERBI AKK INS
• ·
The workman removed the sand with a shovel
Peter has removed the box with the nail jne.
v: Aihealueen malli MT sisältää informaatiota, joka ; 35 koskee with-preposition ja niiden verbien yhdistelmää,
» I
* · 50 113096 joiden semanttinen ominaisuus on [+INSTRUMENT]. Tällainen yhdistelmä muodostaa instrumentaali-ilmauksia. Tämän tiedon avulla analysaattori voi todeta, että: a) koska lever on [+INSTRUMENT], with the lever on 5 INS, ja b) koska remove voi olla asemassa INS, ilmaus with the lever liittyy sanaan remove sopien yhteen sen kanssa ja tullen täten tulkituksi sen määreenä.
Aihealueen malli 137 voi kuitenkin olla vain niin 10 tehokas kuin sen rakenne sallii. Niissä tapauksissa, joissa semanttista informaatiota ei ole kehitelty niin pitkälle kuin mahdollista, aihealueen leksikaalisista nimikkeistä ei ehkä ole apua MT-analysaattorin 127 suorittamassa yksikäsitteistyksessä.
15 Voidaan tarkastella sanaa naii (naula) esimerkki- lauseessa Peter has removed the box with the nail. Jos aihealueen malli 137 sisältää informaatiota nauloista puuke-hyksen osana, muttei siitä, että naulat ovat [+INSTRU-MENT], MT 127 ei kykene toteamaan, yhdistyykö with sanan 20 naii kanssa muodostaen instrumentaali-ilmauksen. Koska analysaattori ei pysty ratkaisemaan rakenteellista epäselvyyttä, pyydetään kirjoittajaa ratkaisemaan se. Suoritet- • * taessa kielioppitarkistusta kirjoittajan antamalle teks-tille toiminta etenee seuraavasti: : 25 Kirjoittajan on tarkistettava syötelause: Peter >;·· has removed the box with the nail. Kielioppitar- : ,·. kistimen 620 viesti: Lause on epäselvä.
• ti * 1. Onko naula väline tai työkalu? • * · 2. Onko naula laatikon (box) osa? , 30 Kun kirjoittaja valitsee tulkinnan, tarkistin va- • · · • ·* rustaa lauseen SGML-piilotuntomerkillä ilmoittamaan jär- • · ’···’ jestelmälle, kuinka lause tulisi kääntää.
* :*·,· Kuten on mainittu, kielioppitarkistin herättää MT- analysaattorin 127 tarkistamaan, onko syöteteksti tai tie-• ( 35 toelementti (tai sen osa) rajoitetun lähdekielen kieli- » S 1 « * » » » » 51 113096 opillisten ja semanttisten rajoitusten mukainen. Patenttihakemuksen suoritusmuoto näyttää tämän suhteen jokaiselle lauseelle "punaista tai vihreää valoa", joista edellinen viesti ilmoittaa, että kirjoittajan tulee korjata liputet-5 tujen lauseiden muodostus tekstintuottoympäristössä. Kun koko syöteteksti tai tietoelementti on varmistettu rajoitetun lähdekielen mukaiseksi, se voidaan tallentaa muistiin tai lähettää edelleen välittömästi käännettäväksi.
Kuviossa 8 on korkeamman tason kulkukaavio kieli-10 oppitarkistimesta 620 (syntaktinen analyysi) ja yksikäsit-teistystarkistimesta 630 (semanttinen analyysi). Sanaa "lause" käytetään alla viittaamaan tekstiyksikköön, joka joko hyväksytään tai hylätään analyysimoduulin 127 tarkistuksessa. Tarkistettava yksikkö voi todellisuudessa olla 15 muu tekstikomponentti kuin lause, kuten esim. otsikko, nimike, luettelon jäsen, kuvateksti tai muu grafiikkatekstin osa. Kielioppitarkistin 620 tunnistaa lauserajat ja SGML-elementtien rajat merkityssä SGML-tekstissä. Se tunnistaa kaikki lauseet, jotka eivät vastaa rajoitetun läh-20 dekielen vaatimuksia. Näihin sisältyvät kaikki lauseet, joita MT-analyysimoduuli 127 ei onnistu jäsentämään. Jäsennys voi epäonnistua seuraavista syistä, joskaan ei yk-sinomaan näiden takia: * - Lause sisältää kieliopillisia lauserakenteita, : : 25 joita analyysimoduuli 127 ei jäsennä. Tällainen tapaus on ·:>· mm. englannin kielessä kyseessä, jos lauseeseen sisältyy : .·. redusoitu relatiivilause. Redusointi aiheutuu tällöin re- latiivipronominin that ja verbin be poistamisesta lausees- • f » sa kuten Don’t change the values that are programmed into .. . 30 the unit.
Kirjoittajan on tarkistettava syötelause: Don’t change the values programmed into the unit. Kieli-:1·,! oppitarkistimen viesti: Lause on vaikea jäsentää.
• :1>j Tarkista seuraavat mahdolliset ongelmat: * , 35 Tämän jälkeen kielioppitarkistin 620 luetteloi t t t I t · 52 113096 tyypilliset ja useimmin toistuvat tapaukset, joissa jäsennys on hankalaa tai mahdotonta rajoitettuun lähdekieleen kuulumattomien kieliopillisten lauserakenteiden käytön takia.
5 - Välimerkkien käyttö lauseessa ei ole rajoitetun lähdekielen rajoitusten mukainen. Kuten on jo todettu, sanaston tarkistin 610 liputtaa välimerkit ja erikoiset kirjainmerkit, jotka eivät ole rajoitettua lähdekieltä missään yhteydessä. Sanaston tarkistin 610 ei kuitenkaan jä-10 sennä syötettä, joten se ei ilmoita tapauksista, joissa tällainen elementti on olemassa rajoitetulla lähdekielel-lä, mutta sitä on käytetty väärässä yhteydessä. Tällainen tapaus aiheuttaa kielioppitarkistimen 620 "hylkäysreak-tion".
15 - Rajoitetun lähdekielen sanaston sanaa on käy tetty syntaktisessa muodossa, jota ei tunnisteta tämän sanan rajoitetun lähdekielen version kohdalla. Sanaston tarkistin 610 liputtaa jotkut näistä tapauksista; esim. jos englannin sana test kuuluu rajoitettuun lähdekieleen sub-20 stantiivina mutta ei verbinä, sanaston tarkistin ilmoittaa, että menneen ajan muoto tested ei ole rajoitetun lähdekielen mukainen. Sanaston tarkistin 610 hyväksyy kuiten-: kin verbin preesensmuodon tests, sillä se on identtinen : rajoitetun lähdekielen substantiivin test monikkomuodon 25 tests kanssa. Tällainen tapaus aiheuttaa kielioppitarkis- • j. j timen 620 "hylkäysreaktion".
Kielioppitarkistin 620 käyttää MT-analyysimoduulia .··’<, 127 (ja aihealueen mallia 137) tunnistaakseen lauseet, * * * jotka eivät vastaa rajoitetun lähdekielen kieliopillisia . 30 vaatimuksia. Tätä kutsutaan syntaktiseksi analyysiksi ja se on esitetty lohkossa 805. Kielioppitarkistin 620 il- ’>·*’ moittaa jokaisen tällaisen lauseen kohdalla, että kyseinen lause ei ole rajoitetun lähdekielen mukainen. On kuitenkin myös mahdollista, että lause on rajoitetun lähdekielen mu- * , 35 kainen ja silti merkitykseltään epäselvä. Tämän johdosta » » * * » j < » * » 53 113096 keksintöön kuuluu sen osana semanttinen analyysi lohkon 710 mukaisesti. Jos tarkistettava lause ei ole semanttisesti epäselvä, yksikäsitteistystarkistin 630 osoittaa kirjoittajalle vähintään kaksi mahdollista eri merkitystä 5 ja pyytää selvennystä lohkojen 815 ja 825 mukaisesti. Kun lause patenttihakemuksen suoritusmuodossa hylätään kieli-oppitarkistimen 620 ja/tai yksikäsitteistystarkistimen 630 käskystä, kirjoittaja voi valita yhden seuraavista mahdollisuuksista: asiakirjan editointi, epäselvässä tulkintata-10 pauksessa lauseen yksikäsitteistys, saman syötteen uudelleentarkistus tai tarkistuksen jatkaminen ilman editointia.
On huomattava, että keksintö pitäytyy ehdottomasti sanasto- ja kielioppirajoituksiin, eikä siis pelkästään 15 anna tyylillisiä varoituksia tai toimi virheiden (kuten esim. subjektin ja verbin yhteensopivuus) paikallistajana.
Jos lause on semanttisesti selvä, se käännetään Interlingva-tekstiksi lohkon 820 mukaisesti. Kun asiakirja läpäisee kielioppitarkistuksen 620, rajoitetun lähdekielen 20 mukaisuudesta ilmoittava SGML-tuntomerkki voidaan kirjoittaa asiakirjan tekstiin.
Patenttihakemuksen suoritusmuodossa kielioppitar-kistin 620 antaa hyväksymisestä tai hylkäämisestä ilmoit-; tavaa palautetta kirjoittajalle 160. Annettu palaute voi- 25 daan kuitenkin muuttaa sisällöltään tätä yksityiskohtai- ... : semmaksikin.
; Kielioppitarkistusta ja yksikäsitteistystä koske- * * · via tarkempia tietoja löytyy teoksista Tomita, M., "Sen- I I | tence Disambiguation by Asking", Computers and Translation 30 1:39-51, 1986; Carbonell, J. ja M. Tomita, "Knowledge-Ba- • I » ·* sed Machine Translation, the CMU Approach", S. Nirenburg, '...· (ed.), Machine Translation: Theoretical and Methodological
Issues, Cambridge, Mass., Cambridge University Press, s.
» » 68 - 89, 1987, jotka molemmat sisällytetään täten viit- • _ 35 teenomaisesti tukemaan tätä hakemusta.
I I I J » I · 54 113096 E. Konekäännös MT 120 on interlingva-tyyppinen konekäännösjärjes-telmä. Tällaisissa järjestelmissä rajoitettu lähdekieli ja kohdekieli eivät koskaan ole suorassa kontaktissa. Näissä 5 järjestelmissä prosessi on yleensä toteutettu kahdessa vaiheessa: ensin rajoitetun lähdekielen mukaisen tekstin merkitys esitetään kielestä riippumattomalla formaalisella kielellä, jota kutsutaan interlingvaksi, ja sen jälkeen tämä merkitys ilmaistaan kohdekielen leksikaalisia yksilö köitä ja syntaktisia konstruktioita käyttäen.
Interlingva-konekäännösjärjestelmät samoin kuin muutkin konekäännösjärjestelmien tyypit tunnetaan alalla hyvin. Yksityiskohtaisia kuvauksia näistä konekäännöksen eri lähestymistavoista löytyy teoksista Hutchins, Machine 15 Translation: Past, Present, Future, Chichester, UK, Ellis
Horwood Ltd., 1986; Zarechnak, "The History of Machine Translation", Henisz-Dostert, McDonald, Zarenack, (eds.), Machine Translation. Trends in Linguistics: Studies and
Monographs, vol. 11, The Hague, Mouton, 1979, jotka molem-20 mat sisällytetään täten viitteenomaisesti tukemaan tätä hakemusta kokonaisuudessaan.
Rajoitetun lähdekielen tekstin 350 merkitys esite- • · tään varta vasten suunnitellussa tiedon esitysmuodossa, '1 ’· jota kutsutaan interlingvaksi (joka tunnetaan alalla hy- 25 vin). Interlingva puolestaan esitetään kehysnotaatiossa, ·;· · ja täten sitä voidaan pitää eräänlaisena semanttisena ver- : .·. kostona. Muiden tekokielten tai formaalisten kielten ta- * » « · voin interlingvalla on oma sanastonsa ja syntaksinsa. Sen > t i sanasto pohjaa siihen aihealueeseen, johon käännettävät , 30 tekstit liittyvät (esim. tietokoneiden huolto ja korjaus, * · · avaruudentutkimus jne.). Täten interlingvan substantiivit t | '><' ovat "oliokäsitteitä" ontologiassa, sen verbit vastaavat karkeasti ottaen ontologian "tapahtumia" ja sen adjektii- » i vit ja adverbit ovat ontologian määrittelemiä "ominaisuuk-* , 35 siä". Ontologia muodostaa eri käsitetyyppien tiheän, yhte- » 1 » } I • · 55 113096 naisen verkoston, jota kutsutaan aihealueen malliksi.
Kuvioiden 3 ja 9 mukaisesti IATS 105:n konekään-nöskomponentti MT 120 sisältää kaksi pääosiota. Näistä ensimmäinen, rajoitetun lähdekielen analysaattori 127, vas-5 taa ensimmäisestä käsittelyvaiheesta eli rajoitetun lähde-kielen esittämisestä interlingva-muodossa. Toinen pääosio, kohdekielen generaattori 123, kääntää rajoitetun lähdekielen mukaisiksi hyväksyttyjen tekstien interlingva-esityk-sen kohdekielelle (esim. ranskaksi, japaniksi, espanjak-10 si). Molemmissa tehtävissä MT 120 toimii yhtenä tai useampana itsenäisenä palvelinmoduulina hyväksyen käännöspyyn-töjä toimintoja valvovalta ihmiskääntäjäitä (ei kuviossa). Kohdekielen tuottamisprosessin aikana kohdekielen generaattori 123 kuvaa Interlingva-tekstin 260 sopiviin kohde-15 kielen syntaktisiin yksiköihin tuottaakseen korkealaatuista tulostustekstiä 950, joka ei enää vaadi jälkikäsittelyä .
Kun MT-analyysimoduuli 127 on tuottanut rajoitetun lähdekielen mukaiseksi hyväksytylle tietoelementille In-20 terlingva-tekstin 260, voidaan interlingva tallentaa muistiin, lähettää eteenpäin tai muuntaa välittömästi kohdekieliseksi tietoelementiksi tai tietoelementiksi kullakin « 1 · ’···’ kohdekielellä generaattorin 123 avulla (jälkimmäiseen si- ""· sältyy semantiikasta syntaksiin kuvausohjelma ja tuotto- :..,ϊ 25 tarvikkeet [Tomita, M. ja E. Nyberg, The Generation Kit and Transformation Version 3.2: User's Manual, Technical • Memo, 1988, saatavilla osoitteesta Center for Machine Translation, Carnegie Mellon University, Pittsburgh, Pa., USA]). MT-analysaattori 127 ja MT-generaattori 123 ovat 30 vuorovaikutuksessa toistensa kanssa kahdella eri tavalla: toisaalta edellisen tulostus toimii jälkimmäisen syötteenä ja toisaalta ne yhdessä jakavat eräitä ulkoisia tietoläh-teitä, kuten erityisesti aihealueen mallin 137.
•;’ ί Konekäännösjärjestelmä 120 jakautuu edelleen osiin i(‘ . 35 kuvion 9 mukaisesti. Analyysi käsittää jäsentäjän 910 ja 1 i 56 113096 tulkin 920. MT 120:n toinen puoli voidaan jakaa kuvausoh-jelmaan 930 ja generaattoriin 940. Kuvion 9 soikiot edustavat tuotettavia tietoja, jotka siirtyvät tärkeimpien so-vellusmoduulien kesken moduulista toiseen.
5 Aihealueen malli DM 137 (ja erityisesti konekään- nöksen aihealueen malli 520) osallistuu käännösprosessiin kolmella eri tavalla: (1) jäsennin 910 käyttää aihealueen mallia 137 rajoittamaan mahdolliset liitteet (käyttäen argumenttien ja määreiden tarkkaa jaottelua käsiteluokkien 10 alaosastoihin syntaktisen jäsennyksen aikana); (2) tulkki 920 käyttää aihealueen mallia 137 asianmukaisten aihealueen käsitteiden instantioimiseksi tulkinnan aikana; (3) kuvausohjelma 930 käyttää aihealueen mallia 137 valitsemaan kullekin interlingva-käsitteelle sopivan kohdekieli-15 sen toteutuksen.
MT 120:n ajo suoritetaan yhtenä tai useampana palvelinprosessina. Kaikki nämä konekäännösprosessit hyväksyvät käännöspyyntöjä FMS 110:stä ja palauttavat niiden tulokset. Tällaiset pyynnöt sisältävät SGML-tuntomerkeillä 20 varustettua rajoitetun lähdekielen tekstiä ja palautetut tulokset sisältävät SGML-tuntomerkeillä varustettuja kohdekielisiä käännöksiä. Koska useita erikielisiä käännöksiä voidaan suorittaa samanaikaisesti, pyyntöihin sisältyy myös haluttu kohdekieli. Koska MT 120:n palvelinprosessit 25 erikoistuvat kohdekielen mukaan, toimintaan osallistuu *;·· myös väylöitystoiminto, josta vastaa automaattisesti FMS
: 110. FMS 110 määrittää kunakin ajankohtana ajettavat kone- « t t | käännösprosessit sekä niiden jakautumisen eri koneiden
» » I
kesken muunnellen tätä jakautumissuhdetta kunakin hetkenä ,, , 30 työn alle tulevien käännöstehtävien joukon mukaisesti.
’ Kuvion 9 mukaisesti rajoitetun lähdekielen analy- >' saattori 127 käsittää kaksi toisiinsa liittyvää komponent- ;' · tia: syntaktisen jäsentimen 910 ja semanttisen tulkin 920.
Semanttinen tulkki 920 tunnetaan alalla myös nimellä ku- , 35 vaussääntötulkki. Syntaktinen jäsennin 910 saa syötteenä 57 113096 rajoitetun lähdekielen tekstin 305 ja tuottaa sille syntaktisen rakenteen. Syntaktinen jäsennin 910 käyttää ns. LFG-tyyppistä kielioppia. Tämä leksikaalis-funktionaalinen kielioppi (Lexical Functional Grammar) on formalisoitu 5 kielioppi, joka tunnetaan hyvin konekäännöksen alalla. Tällä aikaansaatava syntaktinen rakenne on LFG f-rakenne 960. Välittömästi sen jälkeen kun rajoitetun lähdekielen lauseen 960 f-rakenne on luotu, semanttinen tulkki 920 aloittaa kuvaussääntöjen soveltamisen korvatakseen lähde-10 kielen leksikaaliset yksiköt ja syntaktiset konstruktiot niiden interlingva-käännöksillä. Leksikaaliset yksiköt kuvautuvat aihealueen käsitteiden tapauksiin (esim. englannin sana data kuvautuu interlingvan käsitteeseen information) , kun taas syntaktiset rakenteet kuvautuvat käsit-15 teellisiksi suhteiksi (esim. lauseen subjekti kuvautuu in-terlingvassa usein "agenttien" suhteiksi). Ks. Mitamura, The Hierarchical Organization of Predicate Frames for Interpretive Mapping in Natural Language Processing, Center for Machine Translation, Carnegie Mellon University, tou-20 kokuu 1990, joka sisällytetään täten viitteenomaisesti tämän patenttihakemuksen selitykseen.
MT-analysaattori 127 kääntää analyysitietojen » · ,/ (tiedostojen) opastamana rajoitetun lähdekielen tekstin ;,ί 305 lähdekielisen syötelauseen merkityksen semanttiseksi 25 kehysesitykseksi. Analyysivaiheessa vaikuttaviin tietora- ·;·: kenteisiin kuuluvat analyysikieliopit, kuvaussäännöt ja : käsitesanasto.
.·[·’ Analyysin ensimmäinen osa on jäsennysprosessi, jo- • · » ta ohjaa syötelauseen syntaktinen analyysi. Jäsennin 910 ,, t 30 käyttää käsitesanaston piiriin sisältyviä semanttisia ra- • · * : ·' joituksia (aihealueen mallia) ohjaamaan syötteen analyy- sissä todettujen syntaktisten epäselvyyksien käsittelyä. ;*· ! Kuvaussäännöt toimivat syntaktisten analyysikielioppien ja » s käsitesanastojen välittäjinä.
» > * 1 » 58 113096 Tästä analyysistä saatava tuloste koostuu syntaktisista f-rakenteista, joihin sisältyy kaikki soveltuva semanttinen informaatio. Tämä rakenne voidaan käsitellä edelleen MT-analysaattorin 127 toisessa osassa ja tuottaa 5 näin semanttisesti organisoitu kehysesitys lauseenjäsennyksessä havaittujen käsitesanaston asiaan kuuluvien käsitteiden instantiaation muodossa. MT-analysaattori 127 päätyy tähän muotoon hakemalla f-rakenteen semanttiset ominaisuudet; nämä ominaisuudet sisältävät kaiken merkit-10 tävän semanttisen informaation.
Keksinnössä käytettävä syntaktinen jäsennin 910 tunnetaan alalla hyvin, ja se on kuvattu yksityiskohtaisesti teoksissa Tomita ja Carbonell, The Universal Parser Architecture for Knowledge-Based Machine Translation, 15 Technical Report, Center for Machine Translation, Carnegie Mellon University, toukokuu 1987; Tomita et al, (eds.), The Generalized LR Parser/Compiler Version 8.1: User's
Guide, Technical Memo, Center for Machine Translation, Carnegie Mellon University, huhtikuu 1988; molemmat sisäl-20 lytetään täten viitteenomaisesti tukemaan patenttihakemusta .
Eräs interlingva-käännösjärjestelmien tarjoamista eduista muihin konekäännösjärjestelmiin nähden on se, että interlingva 260 on kielestä riippumaton, ts. lähdekieli ja ‘<t i 25 kohdekieli eivät koskaan ole suorassa kontaktissa. Tämän ; ’ 1 1 avulla voidaan luoda konekäännösjärjestelmä, joka mahdol- • listaa periaatteessa minkä tahansa lähde- ja kohdekielen valinnan vain minimaalisilla analyysirakenteen muutoksilla. Järjestelmien tulee täten selvästikin kyetä jäsentä- ... 30 mään suuri määrä eri lähdekieliä. Tästä syystä tarvitaan yleiskäyttöinen jäsennin, joka käyttää kielen kielioppia syötteenä sen sijasta, että kielioppi rakennettaisiin var-sinaiseen tulkkiin. Näin saavutetaan suurempi laajennetta-*:’· vuus ja yleisyys.
> » 59 113096
Toisin sanoen useita kieliä käsiteltäessä kielellinen rakenne ei enää ole universaali invariantti, joka siirtyy kaikkiin sovelluksiin (kuten oli laita yksinomaan englannin kielen jäsentimien kohdalla) , vaan se toimii pi-5 kemminkin parameterisoinnin ja laajennettavuuden yhtenä ulottuvuutena. Semanttinen informaatio voi kuitenkin pysyä vakiona kaikissa kielissä (joskaan ymmärrettävästi ei kaikilla aihealueilla). Tästä syystä on olennaista, että semanttiset tietolähteet pidetään erillään syntaktisista 10 tietolähteistä niin, että uutta kielellistä informaatiota lisättäessä tällainen tieto on sovellettavissa kaikkiin semanttisiin aihealueisiin, ja uutta semanttista informaatiota lisättäessä tämä tieto on sovellettavissa kaikkiin asiaan kuuluviin kieliin. Yleisjäsentimen tarkoituksena on 15 saavuttaa tällainen tekijöihin jakautuminen ilman merkittäviä kompromisseja ajoajan tehokkuuden tai semanttisen tarkkuuden suhteen.
Jäsentimelle 910 on tunnusomaista sen kolme erilaatuista tietolähdettä. Ensimmäiseen sisältyvät eri kiel-20 ten syntaktiset kieliopit, toiseen eri aihealueiden semanttiset tietokannat ja kolmanteen sääntöjoukot, jotka kuvauttavat syntaktiset muodot (sanat ja ilmaukset) semanttiseksi tietorakenteeksi. Kukin syntaktinen kielioppi "· on riippumaton suhteessa kaikkiin yksittäisiin aihealuei- : 25 siin. Samaten kukin semanttinen tietämyskanta on riippuma- ·;*·· ton suhteessa kaikkiin yksittäisiin kieliin.
• Kuvaussäännöt ovat niinikään kielestä ja aihealu- eista riippuvaisia, ja uusi kuvaussääntöjen joukko luodaan jokaista kieli/aihealueyhdistelmää varten. Syntaktiset .. . 30 kieliopit, aihealueiden tietämyskannat ja kuvaussäännöt on kirjoitettu erittäin abstraktilla, ihmisen luettavissa I t olevalla tavalla. Tämän järjestelyn ansiosta niitä on helppo laajentaa tai muuttaa, mutta samalla ne saattavat ;··| kuitenkin vaikuttaa ajoaikaisen jäsentimen toimintaan te- 1 , 35 hoa alentavasti.
60 113096
Kuvaussääntötulkin 920 tehtävänä on luoda ja käsitellä jäsennyksen syntaktisia ja semanttisia rakenteita ja lisäksi luoda tällaisia rakenteita samanaikaisesti.
Yleisjäsennin 910 tuottaa kaikki mahdolliset - ts.
5 pätevät - f-rakenteet, jotka voidaan johtaa jäsennetyistä lauseista. Jokaisella näistä syntaktisista f-rakenteista on semanttisia ominaisuuksia, ja LFG-teorian mukaisesti nämä ominaisuudet luodaan samanaikaisesti muiden syntaktisten f-rakenteiden kanssa. Semanttista komponenttia voi-10 daan näin ollen pitää f-rakenteiden lisäominaisuutena.
Täten semanttinen komponentti on syntaktisen jäsennyksen "näkyvä" osa. Tällaisen lähestymistavan, jossa samanaikaisesti luodaan syntaktiset ja semanttiset rakenteet, tuloksena on saatu järjestelmä, joka kykenee elimi-15 noimaan "merkityksettömät" osittaisjäsennykset ennen niiden loppuunsaattamista. Semantiikka lisätään syntaktiseen rakenteeseen, kun sanastoon suoritetaan haku sanan määritelmää varten. Sanan määritelmään kuuluu osana myös rakenteellisten kuvaussääntöjen joukko. Näitä kuvaussääntöjä 20 käytetään, kun kielioppisääntöjen syntaktiset yhtälöt lisäävät informaatiota syntaktiseen rakenteeseen.
Kohdekielen generaattorikomponentti 123 vastaanot- ·’...· taa interlingva-tekstiä 260 syötteenä ja tuottaa kohdekie- ""·* listä tekstiä 950 tulosteena. Kohdekielen generaattori 123 : ' : 25 muodostuu kahdesta keskeisestä moduulista, joista toinen ·;*·· on semanttinen ja toinen syntaktinen. Semanttinen moduuli : .·. suorittaa kohdetekstin leksikaalisen valinnan ja kohdekie- * * » »
Ien syntaktisten konstruktioiden valinnan. Näissä tehtä- • * · vissä sen apuna toimii kumpaakin vastaten tuottosanasto ja .. . 30 tuottorakenteen kuvaussäännöt. Tämän moduulin tulosteena •>f; saadaan järjestelmän tulostaman kohdekielen lauseen f-ra- » » ‘y·’ kenne.
Generaatiomoduulin tarkoituksena on tuottaa kohde- kielen lauseita interlingva-tekstin 260 kehyksistä, jotka ‘ , 35 rajoitetun lähdekielen analysaattori 127 on tuottanut.
* » · j » 61 113096 Tällainen tuottaminen tapahtuu kolmessa päävaiheessa: 1. Leksikaalinen valinta. Jokaista interlingva— muotoista käsitettä kohden tulee valita sopivin leksikaalinen nimike.
5 2. F-rakenteen luominen. Syntaktinen funktionaali nen rakenne, joka määrittää kohdeilmaisun kieliopillisen rakenteen, tulee tuottaa Interlingva-tekstikehyksistä.
3. Syntaksin tuottaminen. Tuottokielioppi käsittelee syntaktisen funktionaalisen rakenteen kohdekielisen 10 lauseen tuottamiseksi.
Generaatiomoduulin 940 suunnittelussa yhdistyvät viimeaikaisen leksikaaliseen valintaan kohdistuneen tutkimuksen tulokset ja nk. kuvaus ja tuotto -paradigma (map-and-generate), jota on hyödynnetty aiemmissa käännösjär-15 jestelmissä.
Konekäännöstä ja yllä kuvattujen moduulien suunnittelua ja toimintaa on käsitelty tarkemmin teoksissa Ni-renburg et ai, Machine Translation: A Knowledge-Based Approach, Morgan Kaufmann Publishers, Inc., 1992; Sommers & 20 Hutchins, Introduction to Machine Translation, London,
Academic Press, lokakuu 1991; Mitamura et ai, An Efficient Interlingva Translation System for Multi-lingual Document *...· Production, Machine Translation Summit II -kokouksen toi- "”·* mituksia, Washington D.C., 2. - 4. heinäkuuta 1991; Niren- 25 burg, S., "World Knowledge and Text Meaning", K. Goodman ·;··· ja S. Nirenburg, (eds.), The KBMT Project: A Case Study in j Knowledge-Based Machine Translation, San Mateo, Calif., t t » ·
Morgan Kaufmann; KBMT-89 projektiraportti on saatavilla • > · osoitteesta Center for Machine Translation, Carnegie Mel-,, . 30 Ion University, Pittsburgh, PA (puh. +412-268-6591) (4.
painos: maaliskuu 1990); S. Nirenburg, (ed.), Machine ‘t'·" Translation: Theoretical and Methodological Issues, Cam- : bridge, Mass., Cambridge University Press, 1987, s. 68 - *;; 89; Carbonell et al, Steps Toward Knowledge-Based Machine ‘ , 35 Translation, IEEE Transaction on Pattern Analysis and Ma- t · < r t > t 62 113096 chine Intelligence, Voi. PAMI-3, nro 4, heinäkuu 1981; kaikki tämä sisällytetään täten viitteenomaisesti tukemaan patenttihakemusta.
Vaikka keksintö on erityisesti esitelty ja kuvattu 5 viittaamalla patenttihakemuksen suoritusmuotoihin, on kaikille alaa tunteville selvää, että useita sen muotoa ja yksityiskohtia koskevia muutoksia voidaan tehdä, ilman että keksinnön hengestä tai piiristä poiketaan.
• · • · • · • 1 • · · • · · tl» » tl» • · · * 1 1 · 1 • 1 « 1 · * t • · » 1 » 1 · i i * I » M » ·

Claims (26)

63 113096
1. Tietokonepohjainen järjestelmä (105) yksikieliseen asiakirjanvalmistukseen käsittäen: 5 tekstieditorin (140), joka on sovellettu vastaan ottamaan vuorovaikutteisesti kirjoittajalta (160) lähde-kielellä kirjoitettua syötetekstiä, sekä kielieditorin (130), joka on kyseisen tekstieditorin (140) jatke, joka vuorovaikutteisesti saattaa voimaan 10 leksikaaliset rajoitukset ja kieliopilliset rajoitukset, jotka koskevat kyseisen kirjoittajan (160) kyseisen syöte-tekstin luomisessa käyttämää luonnollisen kielen osajoukkoa, jolloin kyseistä kirjoittajaa (160) avustetaan vuorovaikutteisesti saattamaan voimaan kyseiset leksikaaliset 15 rajoitukset ja kyseistä syötetekstiä koskevat kyseiset kieliopilliset rajoitukset niin, että tuloksena saadaan merkitykseltään yksiselitteistä rajoitettua tekstiä, konekäännösjärjestelmän (105), vasteellinen kyseiselle kielieditorille (130), joka on konfiguroitu kääntä-20 mään kyseinen yksiselitteinen rajoitettu teksti vieraalle kielelle, tunnettu siitä, että järjestelmä käsittää lisäksi aihealueen mallin (137), joka on yhteydessä kysei-25 sen kielieditorin (130) kanssa, jolloin kyseinen aihealu- Ή ·;··· een malli (137) tuottaa ennalta määrättyä aihealuekohtais- j ta tietoa ja kielellistä semanttista informaatiota leksi- kaalisista yksiköistä ja niiden yhdistelmistä avustaakseen * * · näin kyseistä kielieditoria (130) kyseisten leksikaalisten , 30 ja kieliopillisten rajoitusten voimaansaattamisessa, jossa * * · kyseinen aihealueen malli (137) on kolmiosainen aihealueen • i malli, kyseisen kolmiosaisen aihealueen mallin käsittäes-sä: >;·*· ytimen (510), joka sisältää kyseisen kielieditorin ' . 35 (130) ja kyseisen konekäännösjärjestelmän (105) tarvitse- » i ί ί | man leksikaalisen tiedon, jolloin mainittu leksikaalinen • · 64 113096 tieto sisältää leksikaaliset osaset mainitusta luonnollisen kielen osajoukosta yhdessä siihen liittyvien semanttisten käsitteiden, puheenparsien ja muoto-opillisen informaation kanssa, 5 kielieditorin aihealueen mallin (530), joka sisäl tää ainoastaan kyseisen kielieditorin (130) tarvitsemia tietoja, jolloin mainitut tiedot sisältävät vähintään yhden luonnollisen kielen osajoukon synonyymit osasille, jotka eivät ole mainitussa luonnollisen kielen osajoukos-10 sa, mainittujen leksikaalisten osasten sanakirja-määritelmät, ja mainittujen leksikaalisten osasten käyttöesimerkit, ja konekäännöksen aihealueen mallin (520), joka sisältää ainoastaan kyseisen konekäännöksen aihealueen mal-15 Iin (520) tarvitsemia tietoja sisältäen käännöksen yksiselitteisessä kartoituksessa ja semanttisessa tarkastuksessa käytettyjen käsitteiden hierarkian.
2. Patenttivaatimuksen 1 mukainen tietokone-poh-jainen järjestelmä (105), tunnettu siitä, että 20 kyseinen kielieditori (130) käsittää kieliopin tarkastajan (610), joka sisältää välineet yksikäsitteiselle vuorovaikutteisuudelle.
• * « ·...· 3. Patenttivaatimuksen 1 mukainen tietokone- *’·: pohjainen järjestelmä (105), tunnettu siitä, että : 25 kyseinen kielieditori (130) käsittää sanaston tarkastajan ;*'· (160) vertaamaan kyseistä syötetekstiä sallittuun sanas- : toon ja ehdottamaan vaihtoehtoja. • · · ·
4. Tietokonepohjainen menetelmä yksikielistä asia- • I i kirjanvalmistelua varten käsittäen seuraavat vaiheet: ... 30 (1) syötetekstin kirjoittaminen lähdekielellä *(i>* tekstieditoriin (140) , ♦ · ’··* (2) kyseisen syötetekstin tarkistus kielieditorin (130) välityksellä ennalta määrättyä rajoitejoukkoa vas- * · ten, • . 35 (3) vuorovaikutteisen palautteen antaminen kir- [ joittajalle (160) koskien kyseistä syötetekstiä, kyseinen * · 65 113096 vuorovaikutteinen palaute ilmoittaen vastaavuudesta kyseisen ennalta määrätyn rajoitejoukon vaatimusten suhteen, (4) merkitykseltään yksiselitteisen rajoitetun tekstin tuotanto vaiheen (3) suorittamisen jälkeen, ja 5 (5) yksiselitteisen rajoitetun tekstin kääntäminen konekäännösjärjestelmällä (105) vieraalle kielelle; menetelmän ollessa tunnettu siitä, että ennalta määrätty rajoitejoukko on tallennettu aihealueen malliin (137), joka tuottaa ennalta määrättyä ai-10 healuekohtaista tietoa ja kielellistä semanttista tietoa leksikaalisista yksiköistä ja niiden yhdistelmistä, kyseisen ennalta määrätyn rajoitejoukon sisältäessä lähde-kielenä toimivan erityiskielen sanastoa ja kielioppia koskevan sääntöjoukon, aihealueen malli (137) on kolmiosainen 15 aihealueen malli, kyseisen kolmiosaisen aihealueen mallin käsittäessä: ytimen (510), joka sisältää kyseisen kielieditorin ja konekäännösjärjestelmän (105) tarvitsemia tietoja, jolloin mainittu leksikaalinen informaatio sisältää leksikaa-20 liset osaset, jotka tyydyttävät kyseisen ennalta määrätyn rajoitejoukon yhdessä siihen liittyvien semanttisten käsitteiden, puheenparsien ja muoto-opillisen informaation • * » kanssa, kielieditorin aihealueen mallin (530), joka sisäl-25 tää ainoastaan kyseisen kielieditorin tarvitsemia tietoja, ·;·*· jolloin mainitut tiedot sisältävät vähintään yhden osajou- : kon synonyymit osasille, jotka eivät tyydytä mainittua ennalta määrättyä rajoitejoukkoa, mainittujen leksikaalis- • * * ten osasten sanakirjamääritelmät, ja mainittujen leksikaa-, 30 listen osasten käyttöesimerkit, sekä *, t ** konekäännöksen aihealueen mallin (520), joka ’·-· sisältää ainoastaan kyseisen konekäännösjär jestelmän (105) tarvitsemia tietoja, mainitun konekäännöksen aihealueen mallin (520) käsittäessä käännöksen yksiselitteisessä kar-* , 35 toituksessa ja semanttisessa tarkastuksessa käytettyjen ’ käsitteiden hierarkianpa » > I i I * I 66 113096 kyseisen vuorovaikutteisen palautteen tullessa annetuksi kyseisen aihealueen mallin (137) käyttöönoton jälkeen, joka malli antaa tarvittavan aihealuekohtaisen tiedon sekä kielellisen semanttisen tiedon leksikaalisista 5 yksiköistä ja niiden yhdistelmistä, ja lisäksi kyseessä olevan luonnollisen kielen osajoukon kieliopin.
5. Patenttivaatimuksen 4 mukainen tietokonepohjainen menetelmä, tunnettu siitä, että kyseinen ennalta määrätty rajoitejoukko sisältää lähdekielenä toimi- 10 van erityiskielen sanastoa ja kielioppia koskevan sääntö-joukon, jolloin kyseinen vuorovaikutteinen palaute annetaan kyseisen syötetekstin mukauttamiseksi kyseisen lähde-kielenä toimivan erityiskielen sääntöjoukon vaatimuksiin sekä tekstin sisältämien monitulkintaisuuksien eliminoimi-15 seksi.
6. Patenttivaatimuksen 4 mukainen tietokonepohjainen menetelmä, tunnettu siitä, että vaihe 4 sisältää : syntaktisten kielioppivirheiden ja semanttisten 20 epäselvyyksien tarkistaminen kyseisestä rajoitetusta läh-detekstistä kyseisen aihealueen mallin (137) käytön avulla, ja ·...· vuorovaikutteisen palautteen antaminen kyseiselle ’ i ’ ‘ i tekstin kirjoittajalle (160) avustamaan kyseiseen rajoi- 25 tettuun lähdetekstiin sisältyvien kyseisen kaltaisten syn-·;··· taktisten kielioppivirheiden ja semanttisten epäselvyyksi- I en poistamiseksi niin, että tuloksena saadaan merkityksel- I I I · tään yksiselitteistä rajoitettua tekstiä. * * ·
7. Patenttivaatimuksen 1 mukainen järjestelmä ,, , 30 (105), tunnettu siitä, että se käsittää lisäksi 1 ** välineet kyseisen vuorovaikutteisen voimaansaatta misen kautta merkitykseltään yksiselitteiseksi rajoitetuk- ,si tekstiksi muokatun syötetekstin osan varustamiseksi > · .tuntomerkillä siten, että kyseinen tuntomerkki toimii mai- , 35 nitun syötetekstin kyseisen osan kielellisenä merkkinä. 67 113096
8. Patenttivaatimuksen 7 mukainen järjestelmä (105), tunnettu siitä, että se käsittää edelleen toiminnot, joiden avulla kyseisen vuorovaikutteisen voimaansaattamisen kautta merkitykseltään yksiselitteiseksi 5 rajoitetuksi tekstiksi muokattu syötetekstin osa voidaan varustaa tuntomerkillä siten, että kyseinen tuntomerkki toimii ilmaisuna käännöskelpoisuudesta.
9. Patenttivaatimuksen 7 mukainen järjestelmä (105), tunnettu siitä, että kyseinen konekäännös- 10 järjestelmä (123) on sijoitettu käännöspalvelinympäris- töön, jossa useat kirjoittajat (160) voivat käyttää järjestelmää samanaikaisesti.
10. Patenttivaatimuksen 7 mukainen järjestelmä (105), tunnettu siitä, että kyseinen kirjoittaja 15 (160) käyttää työasemaa, joka on osa tietokoneverkkoa.
11. Patenttivaatimuksen 7 mukainen järjestelmä, tunnettu siitä, että kyseiseen konekäännösjärjes-telmään (123) sisältyy tulkki (920), joka kokoonpanomäärityksen mukaisesti kääntää kyseistä merkitykseltään yksise- 20 litteistä rajoitettua lähdetekstiä interlingua-muotoon.
12. Patenttivaatimuksen 7 mukainen järjestelmä, tunnettu siitä, että kyseinen kielieditori (130) ·...· vastaa yhteydestä kyseisen kirjoittajan (160) kanssa erä- käsittelytilassa. :>t>: 25
13. Patenttivaatimuksen 7 mukainen järjestelmä *:··· (105) käsittäen edelleen tekstinimikkeitä luomaan sovelle- • ;"· tun grafiikkaeditorin (150), tunnettu siitä, että » V » k kyseiset tekstinimikkeet voidaan muokata kyseisen kirjoit- ' * · tajan (160) toimesta kyseisen kielieditorin (130) avulla ... 30 ja tämän jälkeen kääntää kyseisen konekäännösjärjestelmän *,.* (123) toimesta.
» · ’;·* 14. Patenttivaatimuksen 7 mukainen järjestelmä (105), tunnettu siitä, että rajoitettu kieli on ·:*: luonnollisen kielen osajoukko ja määritelty sanaston ja 35 kieliopin suhteen. » t 68 113096
15. Patenttivaatimuksen 7 mukainen järjestelmä (105), tunnettu siitä, että kyseinen kielieditori (130) käsittää sanaston tarkistimen (610) ja kielioppitar-kistimen (620).
16. Patenttivaatimuksen 15 mukainen järjestelmä (105), tunnettu siitä, että kyseinen sanaston tarkistin (610) tarkistaa kyseisen syötetekstin sallittua sanastoa vasten ja ehdottaa vaihtoehtoja käytetyille sanoille, jotka eivät ole tämän sanaston mukaisia.
17. Patenttivaatimuksen 15 mukainen järjestelmä (105), tunnettu siitä, että kyseinen kielioppi- tarkistin (620) tarkistaa tekstin ennalta määriteltyihin kielioppisääntöihin pitäytymisen suhteen ja ehdottaa vaihtoehtoja kielioppirakenteille, jotka eivät vastaa näitä 15 määritelmiä.
18. Patenttivaatimuksen 15 mukainen järjestelmä (105), tunnettu siitä, että kyseinen kielioppi- tarkistin (620) antaa palautetta kirjoittajalle (160) koskien leksikaalisia epäselvyyksiä ja rakenteellisia epäsel- 20 vyyksiä.
19. Patenttivaatimuksen 15 mukainen järjestelmä (105), tunnettu siitä, että kyseinen kielioppi- « · tarkistin (620) vastaa vuorovaikutteisen yksikäsitteistyk-”·* sen toteuttamisesta. : 25
20. Patenttivaatimuksen 15 mukainen järjestelmä (105), tunnettu siitä, että kyseiseen sanaston tarkistimeen (610) sisältyy oikeinkirjoituksen tarkistin (615). • · I
21. Patenttivaatimuksen 15 mukainen järjestelmä , 30 (105) , tunnettu siitä, että kyseinen sanaston t;’ tarkistin (610) kokoonpanomäärityksen mukaisesti tunnistaa ’··* sanat, jotka eivät kuulu rajoitettuun lähdekieleen.
22. Patenttivaatimuksen 7 mukainen järjestelmä ' * * ij (105), tunnettu siitä, että kyseinen syöteteksti , 35 tuotetaan tietoelementeistä koostuvina lohkoina. > - , » » · 69 113096
23. Patenttivaatimuksen 22 mukainen järjestelmä (105), tunnettu siitä, että kyseiset tietoelementit sisältävät tuntomerkkejä, joiden avulla tietoelementit (410) voidaan kuvailla niiden sisällön ja loogisen raken- 5 teen suhteen.
24. Patenttivaatimuksen 7 mukainen järjestelmä (105), tunnettu siitä, että se käsittää edelleen muistiintallennustoiminnot kyseisen merkitykseltään yksiselitteisen rajoitetun tekstin tallentamiseksi muistiin 10 myöhempää käyttöä varten.
25. Patenttivaatimuksen 7 mukainen järjestelmä (105), tunnettu siitä, että mainittu tuntomerkki ilmaisee sisällön ja loogisen rakenteen.
26. Patenttivaatimuksen 7 mukainen järjestelmä 15 (105), tunnettu siitä, että mainittu tuntomerkki ilmaisee kyseisen kirjailijan valitseman mainitun osan määritellyn merkityksen. • · · • · t I • « * > · · r · » · * « * » ( * i * * > » ) I I t > · I * * · · » I · » » > · • · * J · » · I · 70 113096
FI951010A 1992-09-04 1995-03-03 Integroitu tekstintuotto- ja käännösjärjestelmä FI113096B (fi)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US94118092A 1992-09-04 1992-09-04
US94118092 1992-09-04
US9307928 1993-08-23
PCT/US1993/007928 WO1994006086A1 (en) 1992-09-04 1993-08-23 Integrated authoring and translation system

Publications (3)

Publication Number Publication Date
FI951010A0 FI951010A0 (fi) 1995-03-03
FI951010A FI951010A (fi) 1995-03-03
FI113096B true FI113096B (fi) 2004-02-27

Family

ID=25476055

Family Applications (1)

Application Number Title Priority Date Filing Date
FI951010A FI113096B (fi) 1992-09-04 1995-03-03 Integroitu tekstintuotto- ja käännösjärjestelmä

Country Status (14)

Country Link
US (3) US5677835A (fi)
EP (1) EP0658259B1 (fi)
JP (1) JPH08501166A (fi)
CN (2) CN1083952A (fi)
AT (1) ATE190156T1 (fi)
AU (2) AU677605B2 (fi)
BR (1) BR9307175A (fi)
CA (1) CA2141221A1 (fi)
DE (1) DE69333568T2 (fi)
ES (1) ES2143509T3 (fi)
FI (1) FI113096B (fi)
NZ (3) NZ255865A (fi)
RU (1) RU2136038C1 (fi)
WO (1) WO1994006086A1 (fi)

Families Citing this family (310)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ255865A (en) * 1992-09-04 1997-06-24 Caterpillar Inc Computerised multilingual translator: text editor enforces lexical constraints
FR2716734B1 (fr) * 1994-02-25 1996-05-15 Sonovision Itep Technologies Méthode et dispositif d'optimisation d'un système de production de documents en plusieurs langues.
US7024666B1 (en) * 2002-01-28 2006-04-04 Roy-G-Biv Corporation Motion control systems and methods
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
CA2263459A1 (en) * 1996-07-03 1998-01-15 Polydoc N.V. Document producing support system
US6061697A (en) * 1996-09-11 2000-05-09 Fujitsu Limited SGML type document managing apparatus and managing method
GB9619165D0 (en) * 1996-09-13 1996-10-23 British Telecomm Training apparatus and method
US6173298B1 (en) * 1996-09-17 2001-01-09 Asap, Ltd. Method and apparatus for implementing a dynamic collocation dictionary
US6466900B1 (en) 1998-05-29 2002-10-15 Citicorp Development Center, Inc. Multi-language phrase editor and method thereof
US7165020B2 (en) * 1998-05-29 2007-01-16 Citicorp Development Center, Inc. Multi-language phrase editor and method thereof
WO1998020428A1 (en) * 1996-11-01 1998-05-14 Bland Linda M Interactive and automatic processing of text to identify language bias
EP0841624A1 (en) * 1996-11-08 1998-05-13 Softmark Limited Input and output communication in a data processing system
US6498921B1 (en) 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
JPH10198680A (ja) * 1997-01-07 1998-07-31 Hitachi Ltd 分散辞書管理方法及びそれを用いた機械翻訳方法
US5956708A (en) * 1997-03-06 1999-09-21 International Business Machines Corporation Integration of link generation, cross-author user navigation, and reuse identification in authoring process
WO1998054655A1 (en) * 1997-05-28 1998-12-03 Shinar Linguistic Technologies Inc. Translation system
JPH113338A (ja) * 1997-06-11 1999-01-06 Toshiba Corp 多言語入力システム、多言語入力方法及び多言語入力プログラムを記録した記録媒体
US20010032278A1 (en) 1997-10-07 2001-10-18 Brown Stephen J. Remote generation and distribution of command programs for programmable devices
JPH11175527A (ja) * 1997-12-15 1999-07-02 Fujitsu Ltd 出力制御装置及び出力制御方法
GB9726654D0 (en) * 1997-12-17 1998-02-18 British Telecomm Data input and retrieval apparatus
US8489980B2 (en) * 1998-02-23 2013-07-16 Transperfect Global, Inc. Translation management system
US20130124987A1 (en) 1998-02-23 2013-05-16 Transperfect Global, Inc. Translation management system
US6526426B1 (en) * 1998-02-23 2003-02-25 David Lakritz Translation management system
WO1999054015A1 (en) 1998-04-16 1999-10-28 Creator Ltd. Interactive toy
US7020601B1 (en) * 1998-05-04 2006-03-28 Trados Incorporated Method and apparatus for processing source information based on source placeable elements
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6345244B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically aligning translations in a translation-memory system
US6345243B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically propagating translations in a translation-memory system
US6173250B1 (en) 1998-06-03 2001-01-09 At&T Corporation Apparatus and method for speech-text-transmit communication over data networks
US6667736B1 (en) * 1998-06-17 2003-12-23 Microsoft Corporation Method for communicating local information between component objects and hosts
JP3114703B2 (ja) * 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
US6285978B1 (en) 1998-09-24 2001-09-04 International Business Machines Corporation System and method for estimating accuracy of an automatic natural language translation
US6336214B1 (en) * 1998-11-10 2002-01-01 International Business Machines Corporation System and method for automatically generating browsable language grammars
US6347316B1 (en) * 1998-12-14 2002-02-12 International Business Machines Corporation National language proxy file save and incremental cache translation option for world wide web documents
US6496844B1 (en) 1998-12-15 2002-12-17 International Business Machines Corporation Method, system and computer program product for providing a user interface with alternative display language choices
US7099876B1 (en) 1998-12-15 2006-08-29 International Business Machines Corporation Method, system and computer program product for storing transliteration and/or phonetic spelling information in a text string class
US6460015B1 (en) * 1998-12-15 2002-10-01 International Business Machines Corporation Method, system and computer program product for automatic character transliteration in a text string object
US6389386B1 (en) 1998-12-15 2002-05-14 International Business Machines Corporation Method, system and computer program product for sorting text strings
US6321372B1 (en) * 1998-12-23 2001-11-20 Xerox Corporation Executable for requesting a linguistic service
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6223150B1 (en) * 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
AU2440100A (en) 1999-03-19 2000-10-09 Trados Gmbh Workflow management system
TWI268806B (en) * 1999-09-15 2006-12-21 Rohm & Haas A catalyst useful for oxidation of alkanes
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US6301554B1 (en) 1999-09-23 2001-10-09 Wordstream, Inc. Language translation using a constrained grammar in the form of structured sentences formed according to pre-defined grammar templates
US6442522B1 (en) * 1999-10-12 2002-08-27 International Business Machines Corporation Bi-directional natural language system for interfacing with multiple back-end applications
US6721697B1 (en) * 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
US6928448B1 (en) 1999-10-18 2005-08-09 Sony Corporation System and method to match linguistic structures using thesaurus information
US6535886B1 (en) 1999-10-18 2003-03-18 Sony Corporation Method to compress linguistic structures
US6778949B2 (en) 1999-10-18 2004-08-17 Sony Corporation Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
US6529865B1 (en) 1999-10-18 2003-03-04 Sony Corporation System and method to compile instructions to manipulate linguistic structures into separate functions
US8032605B2 (en) 1999-10-27 2011-10-04 Roy-G-Biv Corporation Generation and distribution of motion commands over a distributed network
JP2003518266A (ja) * 1999-12-20 2003-06-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのテキスト編集用音声再生
JP2001256333A (ja) * 2000-01-06 2001-09-21 Canon Inc 作業割付システム、作業割付方法、分散型クライアントサーバシステム及びコンピュータプログラム記憶媒体
JP2001195463A (ja) * 2000-01-06 2001-07-19 Canon Inc 作業標準作成システム、作業標準作成方法、分散型クライアントサーバシステム及びコンピュータプログラムの記憶媒体
JP2001195115A (ja) 2000-01-06 2001-07-19 Canon Inc 工数自動設定システム、工数自動設定方法、分散型クライアントサーバシステム及びコンピュータプログラムの記憶媒体
JP2001195462A (ja) * 2000-01-06 2001-07-19 Canon Inc 組立情報管理システムと組立情報管理のためのクライアントサーバ型分散システム
US6571240B1 (en) 2000-02-02 2003-05-27 Chi Fai Ho Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
US6341959B1 (en) * 2000-03-23 2002-01-29 Inventec Besta Co. Ltd. Method and system for learning a language
WO2001082111A2 (en) 2000-04-24 2001-11-01 Microsoft Corporation Computer-aided reading system and method with cross-language reading wizard
US20040006560A1 (en) * 2000-05-01 2004-01-08 Ning-Ping Chan Method and system for translingual translation of query and search and retrieval of multilingual information on the web
US6604101B1 (en) 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US6662181B1 (en) * 2000-05-08 2003-12-09 International Business Machines Corporation Mechanism for selection using access control structures for authoring systems
US7437669B1 (en) * 2000-05-23 2008-10-14 International Business Machines Corporation Method and system for dynamic creation of mixed language hypertext markup language content through machine translation
US7278100B1 (en) 2000-07-10 2007-10-02 International Business Machines Corporation Translating a non-unicode string stored in a constant into unicode, and storing the unicode into the constant
US7051278B1 (en) * 2000-07-10 2006-05-23 International Business Machines Corporation Method of, system for, and computer program product for scoping the conversion of unicode data from single byte character sets, double byte character sets, or mixed character sets comprising both single byte and double byte character sets
JP3494292B2 (ja) * 2000-09-27 2004-02-09 インターナショナル・ビジネス・マシーンズ・コーポレーション アプリケーションデータの誤り訂正支援方法、コンピュータ装置、アプリケーションデータ提供システム、および記憶媒体
US7747434B2 (en) * 2000-10-24 2010-06-29 Speech Conversion Technologies, Inc. Integrated speech recognition, closed captioning, and translation system and method
US7130790B1 (en) * 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
US20020087302A1 (en) * 2000-11-10 2002-07-04 Miyuki Tomaru Processing system, processing method and recording medium
WO2002043295A1 (fr) * 2000-11-22 2002-05-30 Nikolai Borisovich Borodulin Procede de communication radiotelephonique entre locuteurs de langues differentes
US20010056448A1 (en) * 2000-12-06 2001-12-27 Kazuhiro Takeda Document modifying system, document transmission system utilizing the modifying system, document modifying method and medium
US20020078106A1 (en) * 2000-12-18 2002-06-20 Carew David John Method and apparatus to spell check displayable text in computer source code
US7127402B2 (en) * 2001-01-12 2006-10-24 International Business Machines Corporation Method and apparatus for converting utterance representations into actions in a conversational system
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US7085723B2 (en) * 2001-01-12 2006-08-01 International Business Machines Corporation System and method for determining utterance context in a multi-context speech application
US7257537B2 (en) * 2001-01-12 2007-08-14 International Business Machines Corporation Method and apparatus for performing dialog management in a computer conversational interface
US6950793B2 (en) * 2001-01-12 2005-09-27 International Business Machines Corporation System and method for deriving natural language representation of formal belief structures
US6825844B2 (en) * 2001-01-16 2004-11-30 Microsoft Corp System and method for optimizing a graphics intensive software program for the user's graphics hardware
US7120868B2 (en) * 2002-05-30 2006-10-10 Microsoft Corp. System and method for adaptive document layout via manifold content
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7904194B2 (en) 2001-02-09 2011-03-08 Roy-G-Biv Corporation Event management systems and methods for motion control systems
US6964014B1 (en) * 2001-02-15 2005-11-08 Networks Associates Technology, Inc. Method and system for localizing Web pages
US20020133392A1 (en) * 2001-02-22 2002-09-19 Angel Mark A. Distributed customer relationship management systems and methods
US8874431B2 (en) * 2001-03-16 2014-10-28 Meaningful Machines Llc Knowledge system method and apparatus
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus
US7483828B2 (en) * 2001-03-16 2009-01-27 Meaningful Machines, L.L.C. Multilingual database creation system and method
US20040205674A1 (en) * 2001-04-09 2004-10-14 Delgado Maria Elena E-mail translation system and method
US20020165708A1 (en) * 2001-05-03 2002-11-07 International Business Machines Corporation Method and system for translating human language text
US7283947B2 (en) 2001-05-24 2007-10-16 International Business Machines Corporation Method and system for translation management of source language text phrases
US20030018668A1 (en) * 2001-07-20 2003-01-23 International Business Machines Corporation Enhanced transcoding of structured documents through use of annotation techniques
US7089559B2 (en) * 2001-07-31 2006-08-08 International Business Machines Corporation Method, apparatus, and program for chaining server applications
US6993472B2 (en) * 2001-07-31 2006-01-31 International Business Machines Corporation Method, apparatus, and program for chaining machine translation engines to control error propagation
JP4304268B2 (ja) * 2001-08-10 2009-07-29 独立行政法人情報通信研究機構 複数言語対訳テキスト入力による第3言語テキスト生成アルゴリズム及び装置、プログラム
US20070265834A1 (en) * 2001-09-06 2007-11-15 Einat Melnick In-context analysis
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
WO2003032188A1 (en) * 2001-10-05 2003-04-17 Vitria Technology, Inc. System and method for vocabulary-based data transformation
US20030093262A1 (en) * 2001-11-15 2003-05-15 Gines Sanchez Gomez Language translation system
US20030101046A1 (en) * 2001-11-28 2003-05-29 Mark Krasnov Word, expression, and sentence translation management tool
FR2833375B1 (fr) * 2001-12-07 2004-06-04 Amadeus Procede, dispositif d'adaptation de fichiers numeriques
US6952691B2 (en) 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
AU2003216161A1 (en) * 2002-02-01 2003-09-02 John Fairweather System and method for creating a distributed network architecture
US20030212962A1 (en) * 2002-05-08 2003-11-13 Amikai, Inc. Thin client-server architecture for automated machine translation
US7805302B2 (en) * 2002-05-20 2010-09-28 Microsoft Corporation Applying a structured language model to information extraction
US7356458B1 (en) * 2002-06-27 2008-04-08 Electronic Data Systems Corporation Multi-language correspondence/form generator
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
US20060005126A1 (en) * 2002-10-07 2006-01-05 Shaul Shapiro Method for manipulation of objects within electronic graphic documents
CN100380373C (zh) * 2002-10-29 2008-04-09 埃里·阿博 知识系统方法和装置
RU2323470C2 (ru) * 2002-12-18 2008-04-27 Майкрософт Корпорейшн Система и способ автоматического измерения высоты строки, размера и других параметров международного шрифта
EP1574967A4 (en) * 2002-12-18 2009-05-27 Ricoh Kk TRANSLATION ASSISTING SYSTEM AND PROGRAM THEREOF
US8214378B2 (en) 2003-02-10 2012-07-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time-critical filtering of information using domain ontologies
US7627479B2 (en) * 2003-02-21 2009-12-01 Motionpoint Corporation Automation tool for web site content language translation
US7296260B2 (en) * 2003-02-26 2007-11-13 Inventec Corporation System and method for composing a multi-lingual instructional software
US20040193399A1 (en) * 2003-03-31 2004-09-30 Microsoft Corporation System and method for word analysis
US10332416B2 (en) * 2003-04-10 2019-06-25 Educational Testing Service Automated test item generation system and method
CA2427182A1 (en) * 2003-04-29 2004-10-29 Cognos Incorporated Security filters in metadata modelling for reporting
CA2427226A1 (en) * 2003-04-29 2004-10-29 Cognos Incorporated Dynamic generation of dimensional metadata
CA2427185A1 (en) * 2003-04-29 2004-10-29 Cognos Incorporated Automated database query generation
CA2427159A1 (en) * 2003-04-29 2004-10-29 Cognos Incorporated Simplified metadata modelling for reporting
US7319949B2 (en) * 2003-05-27 2008-01-15 Microsoft Corporation Unilingual translator
US8301436B2 (en) 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US20040250209A1 (en) * 2003-06-05 2004-12-09 Gail Norcross Automated composition assistant
US7854009B2 (en) * 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US20050282133A1 (en) * 2004-06-18 2005-12-22 Christopher Crowhurst System and method for facilitating computer-based testing using traceable test items
US7246311B2 (en) * 2003-07-17 2007-07-17 Microsoft Corporation System and methods for facilitating adaptive grid-based document layout
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US8014997B2 (en) 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US20040107124A1 (en) * 2003-09-24 2004-06-03 James Sharpe Software Method for Regulatory Compliance
US8027349B2 (en) 2003-09-25 2011-09-27 Roy-G-Biv Corporation Database event driven motion systems
US20060064503A1 (en) 2003-09-25 2006-03-23 Brown David W Data routing systems and methods
WO2005043415A1 (en) * 2003-10-29 2005-05-12 Trainum Michael W System and method for managing documents
BRPI0417634A (pt) * 2003-12-17 2007-03-27 Speechgear Inc método, meio legìvel por computador, e, sistema
US20050138556A1 (en) * 2003-12-18 2005-06-23 Xerox Corporation Creation of normalized summaries using common domain models for input text analysis and output text generation
US20050137843A1 (en) * 2003-12-18 2005-06-23 Xerox Corporation Method and apparatus for authoring documents using object-based elements as an interaction interface
JP2005200547A (ja) * 2004-01-15 2005-07-28 Tombow Pencil Co Ltd 筆記具用水性インキ組成物
US8200475B2 (en) * 2004-02-13 2012-06-12 Microsoft Corporation Phonetic-based text input method
US7437709B2 (en) * 2004-02-19 2008-10-14 International Business Machines Corporation Providing assistance for editing markup document based on inferred grammar
US8296126B2 (en) * 2004-02-25 2012-10-23 Research In Motion Limited System and method for multi-lingual translation
US20050197826A1 (en) * 2004-03-02 2005-09-08 Neeman Yoni M. Embedded translation document method and system
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
EP1745392A2 (de) * 2004-03-16 2007-01-24 Star AG Computergestütztes hilfsmittel für ein verfahren zur erstellung von fremdsprachigen dokumenten
JP2005301817A (ja) 2004-04-14 2005-10-27 Ricoh Co Ltd 翻訳支援システム
US20060031386A1 (en) * 2004-06-02 2006-02-09 International Business Machines Corporation System for sharing ontology information in a peer-to-peer network
US20060020465A1 (en) * 2004-07-26 2006-01-26 Cousineau Leo E Ontology based system for data capture and knowledge representation
GB2417103A (en) * 2004-08-11 2006-02-15 Sdl Plc Natural language translation system
CN101137983A (zh) * 2005-01-10 2008-03-05 梅林格有限公司 嵌入式翻译增强的搜索
US7693705B1 (en) * 2005-02-16 2010-04-06 Patrick William Jamieson Process for improving the quality of documents using semantic analysis
US20060206797A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Authorizing implementing application localization rules
US8219907B2 (en) * 2005-03-08 2012-07-10 Microsoft Corporation Resource authoring with re-usability score and suggested re-usable data
US7774195B2 (en) * 2005-03-08 2010-08-10 Microsoft Corporation Method and system for creating, storing, managing and consuming culture specific data
JP2006268375A (ja) * 2005-03-23 2006-10-05 Fuji Xerox Co Ltd 翻訳メモリシステム
JP2006276915A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 翻訳処理方法、文書翻訳装置およびプログラム
JP2006277103A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文書翻訳方法および文書翻訳装置
US7711551B2 (en) 2005-06-13 2010-05-04 Microsoft Corporation Static analysis to identify defects in grammars
US20060282266A1 (en) * 2005-06-13 2006-12-14 Microsoft Corporation Static analysis of grammars
US20070033520A1 (en) * 2005-08-08 2007-02-08 Kimzey Ann M System and method for web page localization
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8392872B2 (en) * 2005-11-19 2013-03-05 International Business Machines Corporation Pseudo translation within integrated development environment
US7587308B2 (en) * 2005-11-21 2009-09-08 Hewlett-Packard Development Company, L.P. Word recognition using ontologies
US8019714B2 (en) * 2005-12-12 2011-09-13 Qin Zhang Thinking system and method
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US8706470B2 (en) * 2006-05-08 2014-04-22 David T. Lorenzen Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet
US8209163B2 (en) * 2006-06-02 2012-06-26 Microsoft Corporation Grammatical element generation in machine translation
US20070282594A1 (en) * 2006-06-02 2007-12-06 Microsoft Corporation Machine translation in natural language application development
US7865352B2 (en) * 2006-06-02 2011-01-04 Microsoft Corporation Generating grammatical elements in natural language sentences
US20080005667A1 (en) 2006-06-28 2008-01-03 Dias Daniel M Method and apparatus for creating and editing electronic documents
US20080019281A1 (en) * 2006-07-21 2008-01-24 Microsoft Corporation Reuse of available source data and localizations
US8346555B2 (en) * 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US8024173B1 (en) 2006-09-11 2011-09-20 WordRake Holdings, LLC Computer processes for detecting and correcting writing problems associated with nominalizations
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
EP2067101A1 (de) * 2006-09-21 2009-06-10 WRH Marketing AG Druckprodukt und verfahren zu seiner herstellung
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US9588958B2 (en) 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9053090B2 (en) 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US8892423B1 (en) 2006-10-10 2014-11-18 Abbyy Infopoisk Llc Method and system to automatically create content for dictionaries
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US8078450B2 (en) * 2006-10-10 2011-12-13 Abbyy Software Ltd. Method and system for analyzing various languages and constructing language-independent semantic structures
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9189482B2 (en) 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
KR100834549B1 (ko) * 2006-10-19 2008-06-02 한국전자통신연구원 번역 시스템 및 번역 서비스 제공방법
DE102006050112A1 (de) * 2006-10-25 2008-04-30 Dspace Digital Signal Processing And Control Engineering Gmbh Verfahren zur Erstellung einer Anforderungsbeschreibung für ein eingebettetes System
US20080115072A1 (en) * 2006-11-09 2008-05-15 International Business Machines Corporation Method and apparatus for visually assisting language input mode indentification
US7774193B2 (en) * 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
US8099287B2 (en) * 2006-12-05 2012-01-17 Nuance Communications, Inc. Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands
US8285697B1 (en) * 2007-01-23 2012-10-09 Google Inc. Feedback enhanced attribute extraction
US8768689B2 (en) * 2007-02-14 2014-07-01 Nuance Communications, Inc. Method and system for translation management of source language text phrases
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US20080244511A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Developing a writing system analyzer using syntax-directed translation
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8630841B2 (en) 2007-06-29 2014-01-14 Microsoft Corporation Regular expression word verification
IL186505A0 (en) * 2007-10-08 2008-01-20 Excelang Ltd Grammar checker
US20120101803A1 (en) * 2007-11-14 2012-04-26 Ivaylo Popov Formalization of a natural language
US10176827B2 (en) 2008-01-15 2019-01-08 Verint Americas Inc. Active lab
CN101303692B (zh) * 2008-06-19 2012-08-29 徐文和 一种供机器语言翻译的通用数码语义库
US11048765B1 (en) 2008-06-25 2021-06-29 Richard Paiz Search engine optimizer
US20090326925A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Projecting syntactic information using a bottom-up pattern matching algorithm
US8229735B2 (en) * 2008-06-27 2012-07-24 Microsoft Corporation Grammar checker for visualization
US20090326924A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Projecting Semantic Information from a Language Independent Syntactic Model
US20100030548A1 (en) * 2008-07-31 2010-02-04 International Business Machines Corporation Method for displaying software applications in a secondary language while interacting and viewing the default language version
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
JP5282528B2 (ja) * 2008-11-04 2013-09-04 富士通株式会社 翻訳支援プログラム、翻訳支援装置、および翻訳支援方法
US10489434B2 (en) * 2008-12-12 2019-11-26 Verint Americas Inc. Leveraging concepts with information retrieval techniques and knowledge bases
DE102009009123A1 (de) * 2009-02-16 2010-08-19 Marius Gevers Verfahren und ein System zum Übersetzen eines Textes aus einer ersten Sprache in zumindest eine weitere Sprache sowie ein Computer-Programm-Produkt
GB2468278A (en) 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
DE102009011724A1 (de) * 2009-03-04 2010-09-09 Siemens Aktiengesellschaft Verfahren zum Erstellen von Anforderungsspezifikationen für Prozessleitsysteme der Kraftwerksleittechnik
US8943094B2 (en) 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
KR101072100B1 (ko) * 2009-10-23 2011-10-10 포항공과대학교 산학협력단 표현 및 설명 추출을 위한 문서 처리 장치 및 방법
US20110097693A1 (en) * 2009-10-28 2011-04-28 Richard Henry Dana Crawford Aligning chunk translations for language learners
RU2009144948A (ru) * 2009-12-03 2011-06-10 Виталий Евгеньевич Пилкин (RU) Система улучшения автоматизированного перевода информации
US20110144972A1 (en) * 2009-12-11 2011-06-16 Christoph Koenig Method and System for Generating a Localized Software Product
US8478581B2 (en) * 2010-01-25 2013-07-02 Chung-ching Chen Interlingua, interlingua engine, and interlingua machine translation system
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US10936687B1 (en) 2010-04-21 2021-03-02 Richard Paiz Codex search patterns virtual maestro
US11379473B1 (en) 2010-04-21 2022-07-05 Richard Paiz Site rank codex search patterns
US11423018B1 (en) 2010-04-21 2022-08-23 Richard Paiz Multivariate analysis replica intelligent ambience evolving system
US9767095B2 (en) * 2010-05-21 2017-09-19 Western Standard Publishing Company, Inc. Apparatus, system, and method for computer aided translation
US9304786B2 (en) * 2010-07-07 2016-04-05 Canon Kabushiki Kaisha Information processing apparatus, method of controlling the same, and program
EP2593884A2 (en) 2010-07-13 2013-05-22 Motionpoint Corporation Dynamic language translation of web site content
US9122744B2 (en) 2010-10-11 2015-09-01 Next It Corporation System and method for providing distributed intelligent assistance
US8965751B2 (en) * 2010-11-01 2015-02-24 Microsoft Corporation Providing multi-lingual translation for third party content feed applications
US9710429B1 (en) * 2010-11-12 2017-07-18 Google Inc. Providing text resources updated with translation input from multiple users
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
CN102622342B (zh) * 2011-01-28 2018-09-28 上海肇通信息技术有限公司 中间语系统、中间语引擎、中间语翻译系统和相应方法
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US9063931B2 (en) * 2011-02-16 2015-06-23 Ming-Yuan Wu Multiple language translation system
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US20120221319A1 (en) * 2011-02-28 2012-08-30 Andrew Trese Systems, Methods and Media for Translating Informational Content
US20120239381A1 (en) * 2011-03-17 2012-09-20 Sap Ag Semantic phrase suggestion engine
US8527451B2 (en) 2011-03-17 2013-09-03 Sap Ag Business semantic network build
US9098488B2 (en) 2011-04-03 2015-08-04 Microsoft Technology Licensing, Llc Translation of multilingual embedded phrases
US20120290288A1 (en) * 2011-05-09 2012-11-15 Xerox Corporation Parsing of text using linguistic and non-linguistic list properties
US8725760B2 (en) 2011-05-31 2014-05-13 Sap Ag Semantic terminology importer
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8935230B2 (en) 2011-08-25 2015-01-13 Sap Se Self-learning semantic search engine
US9158759B2 (en) 2011-11-21 2015-10-13 Zero Labs, Inc. Engine for human language comprehension of intent and command execution
US9961442B2 (en) 2011-11-21 2018-05-01 Zero Labs, Inc. Engine for human language comprehension of intent and command execution
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
US9430449B2 (en) 2012-03-30 2016-08-30 Sdl Plc Systems, methods, and media for managing editable previews of webpages
CN102609410B (zh) * 2012-04-12 2014-12-17 传神联合(北京)信息技术有限公司 规范文档辅助写作系统及规范文档生成方法
US9223537B2 (en) 2012-04-18 2015-12-29 Next It Corporation Conversation user interface
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9536049B2 (en) 2012-09-07 2017-01-03 Next It Corporation Conversational virtual healthcare assistant
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9047274B2 (en) 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
US9672822B2 (en) 2013-02-22 2017-06-06 Next It Corporation Interaction with a portion of a content item through a virtual assistant
US11809506B1 (en) 2013-02-26 2023-11-07 Richard Paiz Multivariant analyzing replicating intelligent ambience evolving system
US11741090B1 (en) 2013-02-26 2023-08-29 Richard Paiz Site rank codex search patterns
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
US20140358519A1 (en) * 2013-06-03 2014-12-04 Xerox Corporation Confidence-driven rewriting of source texts for improved translation
US9547641B2 (en) * 2013-09-26 2017-01-17 International Business Machines Corporation Domain specific salient point translation
CN103593340B (zh) * 2013-10-28 2017-08-29 余自立 自然表达信息处理方法、处理及回应方法、设备及系统
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2642343C2 (ru) * 2013-12-19 2018-01-24 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое построение семантического описания целевого языка
US9830044B2 (en) 2013-12-31 2017-11-28 Next It Corporation Virtual assistant team customization
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US20160071517A1 (en) 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
RU2595616C1 (ru) * 2015-01-21 2016-08-27 Федеральное государственное бюджетное образовательное учреждение высшего образования "Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского" Способ прогнозирования эффективности речевого воздействия фрагментов дискурса на разных языках
RU2584457C1 (ru) * 2015-02-03 2016-05-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Система и способ создания и использования пользовательских семантических словарей для обработки пользовательского текста на естественном языке
KR102407630B1 (ko) * 2015-09-08 2022-06-10 삼성전자주식회사 서버, 사용자 단말 및 이들의 제어 방법.
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
IT201600074756A1 (it) * 2016-07-18 2018-01-18 Beatrice Branchesi sistema e metodo per identificare, segnalare e correggere inefficienze linguistiche e comunicative della scrittura professionale
US10229113B1 (en) 2016-09-28 2019-03-12 Amazon Technologies, Inc. Leveraging content dimensions during the translation of human-readable languages
US10261995B1 (en) 2016-09-28 2019-04-16 Amazon Technologies, Inc. Semantic and natural language processing for content categorization and routing
US10275459B1 (en) * 2016-09-28 2019-04-30 Amazon Technologies, Inc. Source language content scoring for localizability
US10235362B1 (en) 2016-09-28 2019-03-19 Amazon Technologies, Inc. Continuous translation refinement with automated delivery of re-translated content
US10223356B1 (en) 2016-09-28 2019-03-05 Amazon Technologies, Inc. Abstraction of syntax in localization through pre-rendering
WO2018203912A1 (en) * 2017-05-05 2018-11-08 Midmore Roger Interactive story system using four-valued logic
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
CN108536675B (zh) * 2018-03-22 2021-09-03 云知声智能科技股份有限公司 异常分词的处理方法及系统
US10497366B2 (en) * 2018-03-23 2019-12-03 Servicenow, Inc. Hybrid learning system for natural language understanding
US11568175B2 (en) 2018-09-07 2023-01-31 Verint Americas Inc. Dynamic intent classification based on environment variables
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US11232264B2 (en) 2018-10-19 2022-01-25 Verint Americas Inc. Natural language processing with non-ontological hierarchy models
US11196863B2 (en) 2018-10-24 2021-12-07 Verint Americas Inc. Method and system for virtual assistant conversations
US11250842B2 (en) * 2019-01-27 2022-02-15 Min Ku Kim Multi-dimensional parsing method and system for natural language processing
CN110287498B (zh) * 2019-05-30 2023-04-07 北京百度网讯科技有限公司 层次化翻译方法、装置及存储介质
CN112417900B (zh) * 2020-11-25 2024-08-09 北京乐我无限科技有限责任公司 一种翻译方法、装置、电子设备及计算机可读存储介质
US20220343069A1 (en) * 2021-04-24 2022-10-27 Jonathan Mark Vyse Method of converting between an n-tuple and a document using a readable text and a text grammar
IL314485A (en) * 2022-01-28 2024-09-01 PITTS Lauren A covert, deniable encryption method based on transferring the meaning of the text to an unrelated content domain

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) * 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
US4829423A (en) * 1983-01-28 1989-05-09 Texas Instruments Incorporated Menu-based natural language understanding system
US4771401A (en) * 1983-02-18 1988-09-13 Houghton Mifflin Company Apparatus and method for linguistic expression processing
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式
JPS61184685A (ja) * 1985-02-12 1986-08-18 Hitachi Ltd 翻訳情報追加方法
JPS62163173A (ja) * 1986-01-14 1987-07-18 Toshiba Corp 機械翻訳方法
US5201042A (en) * 1986-04-30 1993-04-06 Hewlett-Packard Company Software process and tools for development of local language translations of text portions of computer source code
US5225981A (en) * 1986-10-03 1993-07-06 Ricoh Company, Ltd. Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
GB2208448A (en) * 1987-07-22 1989-03-30 Sharp Kk Word processor
US4864501A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
US5005127A (en) * 1987-10-26 1991-04-02 Sharp Kabushiki Kaisha System including means to translate only selected portions of an input sentence and means to translate selected portions according to distinct rules
US5185698A (en) * 1989-02-24 1993-02-09 International Business Machines Corporation Technique for contracting element marks in a structured document
SE466029B (sv) * 1989-03-06 1991-12-02 Ibm Svenska Ab Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem
JP2859661B2 (ja) * 1989-11-02 1999-02-17 株式会社リコー 機械翻訳装置
US5289375A (en) * 1990-01-22 1994-02-22 Sharp Kabushiki Kaisha Translation machine
US5369574A (en) * 1990-08-01 1994-11-29 Canon Kabushiki Kaisha Sentence generating system
US5175684A (en) * 1990-12-31 1992-12-29 Trans-Link International Corp. Automatic text translation and routing system
US5243519A (en) * 1992-02-18 1993-09-07 International Business Machines Corporation Method and system for language translation within an interactive software application
JP3220560B2 (ja) * 1992-05-26 2001-10-22 シャープ株式会社 機械翻訳装置
NZ255865A (en) * 1992-09-04 1997-06-24 Caterpillar Inc Computerised multilingual translator: text editor enforces lexical constraints
US5342519A (en) * 1993-07-30 1994-08-30 Donaldson Company, Inc. Fluid filter cartridge with replaceable filter element
US5995920A (en) * 1994-12-22 1999-11-30 Caterpillar Inc. Computer-based method and system for monolingual document development

Also Published As

Publication number Publication date
RU2136038C1 (ru) 1999-08-27
CN1350250A (zh) 2002-05-22
DE69333568D1 (de) 2004-08-19
AU1500797A (en) 1997-04-17
EP0658259A1 (en) 1995-06-21
CN1083952A (zh) 1994-03-16
NZ314657A (en) 1997-06-24
BR9307175A (pt) 1999-03-30
JPH08501166A (ja) 1996-02-06
AU677605B2 (en) 1997-05-01
FI951010A0 (fi) 1995-03-03
EP0658259B1 (en) 2000-03-01
ATE190156T1 (de) 2000-03-15
AU5087993A (en) 1994-03-29
CA2141221A1 (en) 1994-03-17
US6658627B1 (en) 2003-12-02
EP0658259A4 (en) 1995-10-18
WO1994006086A1 (en) 1994-03-17
ES2143509T3 (es) 2000-05-16
NZ255865A (en) 1997-06-24
NZ299101A (en) 1997-06-24
FI951010A (fi) 1995-03-03
US6163785A (en) 2000-12-19
DE69333568T2 (de) 2004-10-21
AU696867B2 (en) 1998-09-17
US5677835A (en) 1997-10-14

Similar Documents

Publication Publication Date Title
FI113096B (fi) Integroitu tekstintuotto- ja käännösjärjestelmä
US6139201A (en) Integrated authoring and translation system
Boudlal et al. Alkhalil morpho sys1: A morphosyntactic analysis system for arabic texts
US5903858A (en) Translation machine for editing a original text by rewriting the same and translating the rewrote one
US5721938A (en) Method and device for parsing and analyzing natural language sentences and text
McKeown Paraphrasing using given and new information in a question-answer system
Garvin On machine translation: selected papers
Souter et al. Corpus-based computational linguistics
Felshin The Athena Language Learning Project NLP System: a multilingual system for conversation-based language learning
Amsler et al. An SGML-based standard for English monolingual dictionaries
Schulze et al. The CQP user’s manual
Thurmair Exchange interfaces for translation tools
Lehtola et al. Controlled Language Technology in Multilingual User Interfaces
Adriaens SECC: Using text structure information to improve checker quality and coverage
Karkaletsis et al. A knowledge-based methodology for supporting multilingual and user-tailored interfaces
Schubert Resource and Workflow Management Support in Teletranslation
MĂRĂNDUC et al. A Resource for the Written Romanian: the UAIC Dependency Treebank
Thurmair Recent developments in machine translation
Quah Computer-Aided Translation Tools and Resources
Bird et al. Web‐based Dictionaries for Languages of the South‐west USA
Klein et al. Construction and annotation of test-items in DiET
Nyberg 3rd Controlled English for Knowledge-Based MT: Experience with the KANT System l
Mohanlal et al. A SURVEY OF THE STATE OF THE ART IN TAMIL LANGUAGE TECHNOLOGY
Bear et al. April, l984
Bickford Advanced Toolbox Workshop

Legal Events

Date Code Title Description
MA Patent expired