FI116991B

FI116991B - Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin

Info

Publication number: FI116991B
Application number: FI990077A
Authority: FI
Inventors: Kari Laurila; Juha Iso-Sipilae
Original assignee: Nokia Corp
Priority date: 1999-01-18
Filing date: 1999-01-18
Publication date: 2006-04-28
Also published as: FI990077A; EP1020847A3; US6697782B1; EP1020847B1; EP1020847A2; DE60024506T2; FI990077A0; DE60024506D1

Description

Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja ohjattava langaton viestin

Nyt esillä oleva keksintö kohdistuu oheisen patenttivaatimus 5 danto-osassa esitettyyn menetelmään puheen tunnistuksessa patenttivaatimuksen 7 johdanto-osan mukaiseen puheentun teeseen sekä oheisen patenttivaatimuksen 8 johdanto-osan nr puheella ohjattavaan langattomaan viestimeen.

10 Langattomien viestimien käytön helpottamiseksi on kehitetty n toiminto-laitteistoja (hands free), joiden avulla langatonta vie; daan ohjata puheella. Puheella voidaan tällöin ohjata langattoi timen erilaisia toimintoja, kuten päälle/päältä-kytkemistä, tä/vastaanottoa, äänenvoimakkuuden säätöä, puhelinnumeron 15 puheluun vastaamista, jolloin erityisesti ajoneuvokäytössä kä> helpompi keskittyä ajamiseen.

Puheella ohjattavan langattoman viestimen eräänä haittapuole että puheen tunnistus ei ole täysin virheetöntä. Autossa ymp£ 20 heuttama taustamelu on korkea ja puheen tunnistus vaikeu syystä. Puheen tunnistuksen epäluotettavuuden vuoksi on lanc viestimien käyttäjien kiinnostus puheohjausta kohtaan to melko pientä. Nykyisten puheentunnistimien tunnistustarkkui :\a erityisen hyvä varsinkaan vaikeissa olosuhteissa, kuten lii 25 autossa, jossa korkea taustamelu haittaa olennaisesti iuotettav

« «I

| jen tunnistusta. Väärät tunnistuspäätökset aiheuttavat yleera hankaluuksia käyttäjäliitynnän toteuttamisessa, koska väärät t päätökset saattavat käynnistää ei-toivottuja toimintoja, kuten * « * lopettamisen kesken puhelun, mikä on luonnollisesti erityisen v : 30 vää käyttäjälle. Eräänä virheellisen tunnistuspäätöksen seu voi olla se, että puhelu yhdistyy väärään numeroon. Tästä syy I täiäliitvnfä suunnitellaankin siten, että ouheentunnistin ei tee t 2 1 sesti varsin monimutkaisella menetelmällä joukkoon eri referen ja, jotka on tallennettu puheentunnistimen muistiin aikaisemi heentunnistimet laskevat yleensä kullekin referenssisanalle j< vun, joka kuvaa, kuinka paljon käyttäjän lausuma sana muisti 5 referenssisanaa. Tunnistuspäätös tehdään lopuksi näiden luk rusteella siten, että päätökseksi valitaan se referenssisana, jot tu sana eniten muistuttaa. Tunnetuimpia menetelmiä lausutun referenssisanojen välisessä vertailussa ovat dynaaminen aih (dynamic time warping, DTW) ja tilastollinen HMM-menetelmä 10 Markov model-menetelmä).

Sekä DTW- että HMM- menetelmässä vertaillaan tuntematon kuviota tunnettuihin referenssikuvioihin. Dynaamisessa aikasoi sa puhekuvio jaetaan useaan kehykseen ja jokaiseen kehykse 15 tyvän puheosan ja referenssi kuvion vastaavan puheosan ps etäisyys lasketaan. Tämä etäisyys lasketaan vertaamalla puhi referenssikuvion vastaavaa puheosaa toisiinsa ja on siis erä lukuarvo sille, kuinka paljon vertailussa havaittiin eroavaisuul hellä toisiaan oleville puheosille saadaan tavallisesti pienempi 20 kuin kauempana toisiaan oleville puheosille. Tällä tavalla saati kallisten etäisyyksien perusteella etsitään sanan alku- ja lopp välille minimipolku DTW-algoritmilla. Näin ollen dynaamisella i tuksella saadaan jokin etäisyys lausutun sanan ja referenssiss lille. HMM-menetelmässä tuotetaan puhekuvioita ja tätä put :·. 25 generointivaihetta mallitetaan tilanmuutosmallilla Markovin mer I···. mukaan. Kyseinen tilanmuutosmalli on siis HMM. Puheent ::: vastaanotetuille puhekuvioille tapahtuu tällöin määrittelemällä t todennäköisyys kyseisille puhekuvioille HMM-mallin avulla. Put • * * nistuksessa HMM-menetelmää käyttäen muodostetaan aluks v : 30 malli jokaiselle sanalle, joka pitäisi tunnistaa, eli jokaiselle refer nalle. Nämä HMM-mallit tallennetaan puheentunnistimen muisi puheentunnistin vastaanottaa puhekuvion, lasketaan jokaisen 3 vion ja lähimmän HMM-mallin eli lähimmän referenssipuhekuv Iäisyyttä.

Patenttijulkaisu US 5,566,272 liittyy puheentunnistusmen* 5 jossa määritetään tunnistustulokselle luotettavuusarvo, jota määrättyyn kynnysarvoon. Tämän vertailun perusteella selvit onko kyseessä riittävän luotettava sanan tunnistus. Jos riittäv; tavuutta ei saavutettu, toistetaan esitettyjä vaiheita, kunnes luotettava tunnistus saavutetaan, tai ennalta määrätty toistoke 10 kumäärä ylittyy. Tässä julkaisussa esitetyssä menetelmässä c kin mm. se epäkohta, että kullakin tunnistusyrityksellä aloite nistus ikään kuin alusta, jolloin toistolla ei välttämättä saavute nusta tunnistuksen luotettavuuteen. Esimerkiksi taustamelu koko ajan liian häiritsevää, jotta tunnistus onnistuisi riittävän 15 vasti kyseisellä menetelmällä.

Toinen patenttijulkaisu US 5,640,485 puolestaan esittää pu nistusmenetelmän, jossa ensimmäisen ja toisen tunnistustulo taessa määrätyn kynnysarvon lasketaan todennäköisyys olett 20 ensimmäinen ja toinen tunnistustulos tarkoittavat olennaises sanaa, jolloin todennäköisyyden ylittäessä kynnysarvon, valil nistustulokseksi tämä sana. Tässä menetelmässä ei ehtyisi noissa olosuhteissa kuitenkaan saavuteta parempaa tunnistu täiselle sanalle, jolloin molemmat vertailussa käytettävät tunnis 25 set voivat olla epäluotettavia. Tällöin ensimmäisessä tunnis . voidaan helposti saada eri komentosana kuin toisessa tunnist y.l] vaikka sama sana olisikin lausuttu. Lisäksi kynnysarvon alitt nistustuloksia voi olla vaikea saavuttaa molemmilla tunnistuske • · · • · · • a· *·:: 30 Nykyisissä järjestelmissä puheentunnistin laskee siis tietyn lu1 renssisanoille käyttäjän lausuman sanan perusteella. DTW-s?'· mässä luku on sanoien välinen etäisvvs ia HMM-menetelmäss: 4 1 oltava tarpeeksi suuri, jotta voidaan tehdä tunnistuspäätös. Ί mahdollista, että taustamelun ollessa korkea saadaan käyttäj; man komennon perusteella muistissa olevalle referenssisana referenssisanalle ’’kyllä”, jokaisella yrityksellä suurin todenr 5 muihin referenssisanoihin nähden, esim. todennäköisyys 0,8. nystodennäköisyys on esim. 0,9, ei tunnistusta hyväksytä ja ka joutua lausumaan komennon useamman kerran ennen kuin 1 todennäköisyyspä ylittyy ja puheentunnistin hyväksyy ke vaikka todennäköisyys on voinut olla erittäin lähellä hyväksyt 10 voa. Tämä on erittäin häiritsevää käyttäjälle.

Puheentunnistusta vaikeuttaa vielä se, että eri käyttäjät lausu\ sanat eri tavoilla, jolloin puheentunnistin toimii paremmin yhde jän käyttämänä kuin jonkin toisen käyttäjän käyttämänä. Puhe 15 timien varmuustasojen säätäminen kaikki käyttäjät huomioide kyisin tunnetulla tekniikalla käytännössä erittäin vaikeaa. Kun säätää vaadittava varmuustaso esim. ”kyllä”-sanalle, aseteta; tun tekniikan mukaisissa puheentunnistimissa vaadittava kynn lisesti ns. huonoimpien puhujien mukaan. Tällöin ongelmaksi t 20 se, että lähellä ”kyllä”-sanaa olevat sanat alkavat myös tulla sesti hyväksytyiksi. Ongelmaa pahentaa vielä se, että myö taustakohina saattaa joissakin tilanteissa tunnistua komento Tunnetun tekniikan mukaisissa puheentunnistimissa pyritä; mään sopiva tasapainotila, jossa tietyllä osalla käyttäjistä on s 25 gelmia saada sanojaan hyväksytyiksi ja virheellisesti hyväksyi nojen määrä on riittävän pieni. Jos puheentunnistin pyritään sä siten, että mahdollisimman pienellä osalla käyttäjistä on < saada sanoja hyväksytyiksi, tarkoittaa se käytännössä sitä, ett; lisesti hyväksyttyjen sanojen määrä kasvaa. Vastaavasti jos v : 30 mahdollisimman virheettömään tunnistukseen, on entistä suur osalla käyttäjistä vaikeuksia saada lausumiaan komentoja hyv • · ;:; si.

5 Käyttäjä ei sano mitään, mutta jokin komento nistuu tästä huolimatta tai käyttäjä sanoo sana ole komentosana ja kuitenkin jokin komentosai tuu.

5

Poistovirhe (Deletion Error) Käyttäjä sanoo jonkin komentosanan, mutta tunnistu.

10 - Korvausvirhe (Substitution Error) Käyttäjän sanoma komentosana tunnistuu toi mentosanaksi.

Teoreettisessa optimiratkaisussa puheentunnistin ei tee m 15 mainituista virheistä. Kuitenkin käytännön tilanteissa, kuten jo esitetty, puheentunnistin tekee kaikkia mainittuja virhetyyppej; liittymän käytettävyyden kannalta on tärkeää suunnitella puhe tusjärjestelmä siten, että eri virhetyyppien suhteelliset määrät timaaliset. Esimerkiksi puheaktivoinnissa, jossa puheella ohjat 20 odottaa jopa useita tunteja tiettyä aktivointisanaa, on tärkeät laite ei satunnaisesti virheaktivoidu. Lisäksi on tärkeää, että sanomat komentosanat tunnistetaan hyvällä tarkkuudella. Ί pauksessa on kuitenkin tärkeämpää se, että virheaktivointejc dostuisi. Käytännössä tämä tarkoittaa sitä, että käyttäjän on u |.t 25 toistettava lausumansa komentosana, jotta tunnistus tapahtuis \.Γ lä todennäköisyydellä oikein.

« * ·«· ·*

Numerosarjan tunnistuksessa kaikki virheet ovat lähes yhtä m< v't! Mikä tahansa virhe numerosarjan numeroiden tunnistuksesi v : 30 tulokseksi väärän numerosarjan. Myös se tilanne, että käyttäji mitään ja kuitenkin jokin numero tunnistetaan, on myös käytti • ·*· naItä Qon diaan lene>i 6 oletetaan vastaavan joko "kyllä” tai "en”. Usein tällaisissa ti joissa vaihtoehtoisia komentosanoja on hyvin vähän, komi tunnistuvat oikein, mikäli yleensä tunnistuvat. Toisin sanoen ti tilanteessa korvausvirheiden määrä on hyvin pieni. Suurin on( 5 sittäisten komentosanojen tunnistuksessa on se, että puhuttu ei tunnistu lainkaan, tai epäkelpo sana tunnistetaan joksikir tosanaksi. Tästä esimerkistä on seuraavassa kolme eri vaihl tilannetta: 10 1) Puheella ohjattava laite kysyy käyttäjältä: "Halui taanottaa puhelun?”, johon käyttäjä vastaa ep ’'Kyllä ... kyl-”. Laite ei tunnista käyttäjän vastausta uudelleen käyttäjältä: ’’Haluatko vastaanottaa Sano kyllä tai ei.” Tällöin käyttäjä saattaa helposti ti 15 mikäli laite usein pyytää käyttäjää toistamaan lau komentosanan.

2) Jälleen laite tiedustelee käyttäjältä: ’’Haluatko vas puhelun?", johon käyttäjä vastaa selkeästi "kyllä” 20 kuitenkaan varmasti tunnistanut tätä ja haluaa v sen: "Sanoitko kyllä?”, johon käyttäjä vastaa i "kyllä". Vieläkään ei luotettavaa tunnistusta tapahtu laite kysyy uudelleen: "Sanoitko kyllä?”. Vielä käy uudelleen toistettava vastauksena "kyllä", jotta lai y, 25 taisi tunnistuksen.

# · · M· « · 3) Vielä kolmannessa esimerkkitilanteessa puheella * « 'lii laite tiedustelee käyttäjältä, haluaako hän vastaan· v/ helun. Tähän käyttäjä mumisee jotakin epämää

v : 30 tästä huolimatta laite tulkitsee käyttäjän ääntelyn "I

mentosanaksi ja ilmoittaa käyttäjälle: "Selvä, puhe • · · t\/\s” Täccä filäntoaeeo ciic aI! loiHaan tnll/inla 7. 1 kunaa, jonka kuluessa käyttäjän tulee lausua komentosana, toisessa tunnetun tekniikan mukaisessa puheentunnistusmei sä lasketaan käyttäjän lausumalle komentosanalle tunnistustoi syys, ja mikäli tämä todennäköisyys ei ylitä ennalta määrätty; 5 arvoa, käyttäjää pyydetään lausumaan komentosana uudesta; jälkeen suoritetaan uusi tunnistustodennäköisyyden laskenta k lä hyväksi edellisellä tunnistuskerralla laskettua todennäköis) löin tunnistuspäätös tehdään, mikäli edelliset todennäköisyyd oonottaen saavutetaan kynnystodennäköisyys. Tässä mene 10 toiston hyödyntäminen johtaa helposti kuitenkin edellä mainiti virhe-mahdollisuuden kasvamiseen, jolloin toistettaessa sana; puolista sanaa se tunnistetaan helpommin komentosanaksi.

Nyt esillä olevan keksinnön eräänä tarkoituksena on aikaans 15 rannettu puheentunnistusmenetelmä sekä puheella ohjattava viestin, jossa puheen tunnistusta on varmennettu tunnettuu kaan nähden. Keksintö perustuu siihen ajatukseen, että laus mentosanalle laskettua tunnistustodennäköisyyttä verrataan hinatodennäköisyyteen, jolloin näin saadun luotettavuusarvo 20 denssiarvon) perusteella päätellään, oliko tunnistus varma. J tavuusarvo jää alle määritetyn varman tunnistuksen kynnysl dennetään tunnistuksessa käytettävää aikaikkunaa ja suorite tunnistus käyttäjän lausumalle komentosanan toistolle. Jos komentosanaa ei tunnisteta riittävällä varmuudella, suoritet; * * * I., 25 käyttäjän lausumien komentosanojen vertailu, jolloin, mikäli \.Γ lausumien sanojen tunnistukset osoittavat, että käyttäjä on saman komentosanan kaksi kertaa peräkkäin, hyväksytään 1 Nyt esillä olevan keksinnön mukaiselle menetelmälle on pä v : tunnusomaista se, mitä on esitetty oheisen patenttivaatimuks* a « a : 30 nusmerkkiosassa. Nyt esillä olevan keksinnön mukaiselle pu nistuslaitteelle on pääasiassa tunnusomaista se, mitä on esto : sen patenttivaatimuksen 7 tunnusmerkkiosassa. Nvt esillä ol€ 8 ^ ' na. Keksinnön mukaisella menetelmällä saavutetaan pienem virheiden todennäköisyys kuin tunnetun tekniikan mukaisilla millä on mahdollista aikaansaada. Keksinnön mukaisessa massa tunnistuksen ollessa epävarma, pidennetään komentos 5 kinta-aikaa, jolloin käyttäjällä on mahdollisuus toistaa antam mentosana. Lisäksi keksinnön mukaisessa menetelmässä hyödyntää käyttäjän lausuman komentosanan toistoa tehokks rittamalla tarvittaessa vertailu käyttäjän aikaisemmin lausun mentosanaan, mikä parantaa merkittävästi komentosanan 10 mistä. Tällöin virheellisten tunnistusten määrää voidaan mei pienentää. Myös sellaisten tilanteiden todennäköisyys, joissa i sana tunnistetaan, vaikka käyttäjä ei lausunut mitään komer vähenee merkittävästi. Keksinnön mukainen menetelmä mal sellaisten varmuustasojen käytön, jossa virheellisesti tunnistel 15 mentosanojen määrä on minimaalinen. Käyttäjät, jotka eivät tekniikan mukaisissa ratkaisuissa saa puhekomentojaan hei väksytyiksi, voivat nyt esillä olevan keksinnön mukaisella koi nan toistamisella parantaa merkittävästi lausumiensa puhekoi hyväksymistodennäköisyyttä.

20

Keksintöä selostetaan seuraavassa tarkemmin viitaten samalfc piirustuksiin, joissa kuva 1 esittää keksinnön erään edullisen suoritusmuodoi λ, 25 sessa menetelmässä käytettäviä tunnistuskynnyksii ··· • « '"f kuva 2 esittää keksinnön erään edullisen suoritusmuodon menetelmää tilakone-esityksenä, Ψ · 1 » t « v : 30 kuva 3 esittää piirrevektorien aikasovitusta, ·1· kuva 4 esittää kahden sanan vertailua histnnrammina ia 9 11 täjän lausumalle komentosanalle suoritetaan tunnistus, jossa I sinänsä tunnetusti todennäköisyys sille, kuinka lähellä lausutti eri komentosanoja. Näiden komentosanoille laskettujen toc syyksien perusteella valitaan edullisesti se komentosana, jonl 5 näköisyys on suurin. Tämän jälkeen tunnistetulle sanalle lasi dennäköisyyttä verrataan taustakohinamallin tuottamaan toc syyteen. Taustakohinamalli kuvaa yleistä taustakohinaa ja myc sellaisia sanoja, jotka eivät ole komentosanoja. Tässä lasketa! dennäköisyys sille, että tunnistettu sana olisikin vain taustakc 10 sana, joka ei ole komentosana. Tämän vertailun perusteella ensimmäinen luotettavuusarvo, joka ilmoittaa sen, kuinka sana on tunnistettu. Kuvassa 1 on esitetty tämä tunnistuksen den määrittely käyttämällä kynnysarvoja sekä mainittua luotet voa. Keksinnön erään edullisen suoritusmuodon mukaisessa 15 mässä määritetään ensimmäinen kynnysarvo, joka oheiseen k merkitty viitteellä Y. Se on määritetty luotettavuusarvon raja tunnistus on varma (luotettavuusarvo suurempi tai yhtäsuuri simmäinen kynnysarvo Y). Keksinnön erään toisen edullisen muodon mukaisessa menetelmässä määritetään lisäksi toiner 20 arvo, joka oheiseen kuvaan on merkitty viitteellä A. Tämä ilmo onko tunnistus epävarma (luotettavuusarvo suurempi tai yhtäs toinen kynnysarvo A, mutta pienempi kuin ensimmäinen kynn} tai hyvin epävarma (luotettavuusarvo pienempi kuin toinen ky A).

25 • » " Kuvan 2 tilakone-esityksessä tila 1 esittää komentosanan tur n * Tässä komentosanan tunnistusvaiheessa määritetään käyttäjä man komentosanan perusteella todennäköisyydet eri koment puheentunnistuslaitteen sanastossa. Käyttäjän lausumaa puh * · · v : 30 toa vastaavaksi komentosanaksi valitaan alustavasti se kome jonka todennäköisyys on suurin. Valitulle komentosanalle mä mainittu luotettavuusarvo, iota verrataan ensimmäiseen kvnn' 11 10 tai yhtä suuri kuin toinen kynnysarvo A, mutta pienempi kuin e nen kynnysarvo Y, oli tunnistus epävarma, ja siirrytään tilaan aikaikkunaa pidennetään, eli käyttäjällä on lisää aikaa sane mansa komentosana uudestaan. Tähän tilaan 2 voidaan siir 5 virheellisen sanan vuoksi esimerkiksi käyttäjän hyvin epäsei suman sanan seurauksena tai taustakohinan aiheuttaman vii tunnistuksen seurauksena. Tässä tilassa 2 odotetaan kome toistoa pidennetyn aikaikkunan ajan. Jos tässä aikaikkunassi lausui jonkin komentosanan uudelleen, suoritetaan komentosi 10 nistus ja luotettavuusarvon laskenta, kuten edellä tilan 1 koi esitetty. Jos tässä vaiheessa laskettu luotettavuusarvo ilmoi käyttäjän tässä toisessa vaiheessa lausuma komentosana on tu riittävällä varmuudella, siirrytään tilaan 4 ja hyväksytään 1 Esimerkiksi tilanteessa, jossa käyttäjä on saattanut sanoa jo 15 selvää tilassa 1, mutta lausunut tilassa 2 selkeästi oikean ko nan, voidaan tunnistus tehdä pelkästään tämän tilassa 2 laui mentosanan perusteella. Tällöin ei siis suoriteta vertailua ensi ja toisen lausutun komentosanan kesken, koska tämä johtais epävarmempaan tunnistuspäätökseen.

20

Sen sijaan, mikäli tilassa 2 komentosanaa ei saada tunnistel vän luotettavasti, siirrytään tilaan 3, jossa suoritetaan toistet mentosanojen vertailu. Mikäli tämä vertailu osoittaa, että toistama komentosana oli hyvin lähellä käyttäjän ensin mai 25 komentosanaa, eli sama sana on todennäköisesti sanottu kah " peräkkäin, hyväksytään tunnistus ja siirrytään tilaan 4. Jos * · vertailu osoittaa, että käyttäjä todennäköisesti ei ole sanone sanaa kahdesti, siirrytään tilaan 5 ja hylätään tunnistus.

• * • # :Χ· 30 Keksinnön mukaisessa menetelmässä siis ensimmäisen :T: osoittaessa epävarmaa tunnistusta, suoritetaan toinen tunnisti cacti cinäncä ti innati illo ti innieti lemanotalmöll^ 11 11 muodostettuja piirrevektoreita puhevastemuistiin 4. Tämän jäi nistus siirtyy tilaan 3, jossa vertaillaan näitä mainittuja muist pettuja piirrevektoreita edullisesti aikasovituksella (Dynan Warping). Kuvassa 3 on esitetty pelkistettynä tätä piirrevektoi 5 kasovitusta. Kuvassa ylempänä on esitetty ensimmäisen turn tuottamia piirrevektoreita, joita on merkitty viitenumerolla V1, j vasti kuvassa alempana viitenumerolla V2 on esitetty toisen 1 sen tuottamia piirrevektoreita. Tässä esimerkissä ensimmäii on ollut pidempi kuin toinen sana, eli käyttäjä on sanonut tois 10 heessa sanan nopeammin tai kyseessä ovat eri sanat. Tällöir män sanan, tässä esimerkissä toisen sanan, piirrevektoreille pidemmästä sanasta yksi tai useampi vastaava piirrevektori ; tamalla kahden sanan piirrevektoreita siten, että ne optimaafo taavat toisiaan. Kuvaan 3 on katkoviivoin merkitty tässä esi 15 näitä aikasovitustuloksia. Sanojen etäisyys lasketaan esimerki disena etäisyytenä sovitettujen piirrevektoreiden välillä. Mikäl etäisyys on pieni, voidaan olettaa, että kyseessä ovat sam Etäisyyden ollessa suuri, voidaan olettaa, että kyseessä ovat « Kuvassa 4 on esitetty eräs esimerkki tästä vertailusta histogri 20 viona. Histogrammikaavioon on merkitty kaksi eri vertailua: ka man sanan vertailu (merkitty katkoviivoituksella) sekä kahden vertailu (merkitty yhtenäisellä viivoituksella). Vaaka-akselina vektorien lasketun etäisyyden logaritmiarvo, jolloin pienempi lu pienempää etäisyyttä, ja pystyakselina on histogrammiarvc 25 mitä pienempiä erityisesti suuret histogrammiarvot ovat, eli etäisyys on hyvin pieni, sitä suuremmalla todennäköisyydellä vat sanat ovat samoja.

• « m * 9··

Kuvassa 5 on esitetty keksinnön erään edullisen suoritusmuc v : 30 kainen puhekomennoilla ohjattava langaton viestin 1, joka or kiksi GSM-matkaviestin. Kuvassa 5 on esitetty vain keksinnör

l/nnn^ltA ηΙηηΙΙίκΐίΜΜΑί Π. iUmaU'.mi O

12 1 kaiutintoiminnon 17 kaiuttimen 11b kautta. Keksinnön mukain ohjausyksikkö 2 voidaan toteuttaa myös ilman puhesyntetisa jolloin ohjeet ja tiedotteet välitetään käyttäjälle sopivimmin te dossa telepäätelaitteen näyttöelimellä 13. Vielä eräänä mal 5 tena on se, että ohjeet ja tiedotteet välitetään sekä ääni- että t« teinä käyttäjälle. Puhevastemuisti 4 tai osa siitä voidaan toteut luku/kirjoitusmuistin 7 yhteydessä tai se voi olla osana lan< viestimen mahdollisesta muusta yleisestä muistiavaruudesta.

10 Seuraavassa kuvataan vielä keksinnön mukaisen langattani men 1 toimintaa. Ennen kuin puheohjaus toimii, on puheohjau* 2 opetettava tavallisimmin kaikki käytettävät komentosanat. I opetettu sopivimmin laitteen valmistusvaiheessa esim. siten, mentosanoja vastaavat mallit on tallennettu puhevastemuistiin 15

Siinä vaiheessa, kun suoritetaan komentosanan tunnistus, lausuma komentosana muunnetaan mikrofonilla 10a, 10b säl signaaliksi ja johdetaan se puheohjausyksikköön 2. Puheoii kössä 2 puheentunnistuseiin 3 muodostaa lausutusta koment 20 piirrevektoreita, jotka tallennetaan puhevastemuistiin 4. Puhec sikkö 2 laskee vielä kullekin puheohjausyksikön 2 sanastoon k komentosanalle todennäköisyyden, jolla ilmaistaan se, kuinka köisesti käyttäjän lausuma komentosana on tietty sanastoon komentosana. Tämän jälkeen puheohjausyksikkö 2 tutkii, mill 25 ton komentosanalla on suurin todennäköisyysarvo, jolloin täi valitaan alustavasti tunnistetuksi komentosanaksi. Tämän sana tua todennäköisyyttä verrataan vielä taustakohinamallin tuottai dennäköisyyteen luotettavuusarvon määrittämiseksi. Puheohji kö 2 vertailee tätä luotettavuusarvoa puheohjausyksikön muist v : 30 lisesti lukumuistiin 6 tallennettuun ensimmäiseen kynnysarvoo v : vertailu osoittaa, että luotettavuusarvo on suurempi tai yhtä s ensimmäinen kvnnvsarvn V nuhenhiat icvksikkn 9 näättelea c 13 1 toimenpiteet, kuten on sinänsä tunnettua. Käyttäjä voi esimer sua tai näppäillä haluamansa puhelinnumeron.

Siinä tapauksessa, että edellä vertailu osoitti sen, että luotetta 5 on pienempi kuin ensimmäinen kynnysarvo Y, suoritetaan to tailu toiseen kynnysarvoon A nähden. Mikäli vertailu osoittaa, tettavuusarvo on suurempi tai yhtä suuri kuin toinen kynnysar heohjausyksikkö 2 pidentää komentosanan tunnistukselle m aikarajaa ja jää odottamaan, lausuuko käyttäjä komentosana 10 ieen. Jos puheohjausyksikkö 2 havaitsee käyttäjän lausuvan j< hekomennon mainitun aikarajan puitteissa, puheohjausyksikös tetaan ne toimenpiteet, jotka edellä menetelmän edullista suoi toa kuvattaessa on esitetty, eli muodostetaan piirrevektorit ja taan ne puhevastemuistiin 4, lasketaan todennäköisyydet ja ui 15 tavuusarvo. Seuraavaksi suoritetaan uusi vertailu luotettavuu; ensimmäisen kynnysarvon Y välillä. Mikäli luotettavuusarvo rempi tai yhtä suuri kuin ensimmäinen kynnysarvo Y, puheohjj kö 2 tulkitsee, että puhekomento on tunnistettu oikein, jolloin jausyksikkö 2 muuntaa puhekomennon vastaavaksi ohjaussign 20 välittää sen ohjausiohkolle 16. Mikäli kuitenkin luotettavuusarv nempi kuin ensimmäinen kynnysarvo Y puheohjausyksikkö 2 vertailun puhevastemuistiin 4 tallennettujen ensimmäisen laus nan ja toisen lausutun sanan piirrevektoreiden välillä. Tässä v€ suoritetaan ensin piirrevektoreiden aikasovitus ja tämän jälke( ... 25 taan sanojen etäisyys, kuten edellä menetelmän kuvauksen yh on esitetty. Näiden laskettujen etäisyyksien perusteella puhec sikkö 2 päättelee sen, olivatko käyttäjän lausumat sanat samo • * ‘ill sanoja. Mikäli kyseessä olivat eri sanat, puheohjausyksikkö 2 < tanut komentosanaa ja ei myöskään muodosta ohjaussigna v : 30 komentosanat olivat todennäköisesti samoja, suorittaa puhec O'1 sikkö 2 komentosanan muuntamisen vastaavaksi ohjaussignaa 14 1

Mikäli ensimmäisessä komentosanan tunnistuksessa ei saati luotettavaa tunnistusta, voidaan langattoman viestimen 1 kä> vuuden lisäämiseksi informoida käyttäjää ensimmäisen vaihee tuksen epäonnistumisesta ja pyytää lausumaan komentosar 5 leen. Langaton viestin 1 muodostaa esim. ääniviestin puhesy torilla 8 ja/tai visuaalisen viestin näyttöefimelle 13. Langaton voi informoida käyttäjää ääni· ja/tai visuaalisella signaalilla m teessä, jossa tunnistus onnistui. Tällöin käyttäjälle ei jää ep se, onnistuiko tunnistus vai ei. Tästä on hyötyä erityisesti häi 10 käyttöolosuhteissa.

Piirrevektoreiden aikasovitus sekä sanojen etäisyyksien lasker nänsä tunnettua tekniikkaa, joten niitä ei ole esitetty tarkemn yhteydessä. On selvää, että nyt esillä olevaa keksintöä ei ole 15 ainoastaan edellä esitettyihin suoritusmuotoihin, vaan sitä muunnella oheisten patenttivaatimusten puitteissa.

• I

I ·· • • »

• II

• I

• * »Il ··· • · • » • Il • f · • · · * i«*

♦ · I

• · I •

Claims

15 11

1. Menetelmä puhekomentojen tunnistamiseksi, jossa mä joukko puhekomennoilla valittavissa olevia komentosanoja, mä 5 tarvittaessa dynaamisesti pidennettävissä oleva aika-ikkuna, j luessa puhekomennon tunnistus suoritetaan, suoritetaan ensii tunnistusvaihe, jossa valitaan ensimmäisen tunnistusvaiheei tustulos, jolloin menetelmässä lisäksi a) määritetään ensimmäisen tunnistusvaiheen tunnistust 10 ensimmäinen luotettavuusarvo, b) määritetään ensimmäinen kynnysarvo (Y), c) verrataan mainittua ensimmäistä luotettavuusarvoa rr ensimmäiseen kynnysarvoon (Y), d) jos mainittu ensimmäinen luotettavuusarvo on suurempi 15 suuri kuin mainittu ensimmäinen kynnysarvo (Y), valita; komennon tunnistustulokseksi ensimmäisen tunnistu tunnistustulos, e) jos mainittu ensimmäinen luotettavuusarvo on pienet mainittu ensimmäinen kynnysarvo (Y), suoritetaan toinr 20 komennon tunnistusvaihe toistetulle komentosanalle, jos 0 valitaan toisen tunnistusvaiheen tunnistustulos, g) määritetään toisen tunnistusvaiheen tunnistustuloksell luotettavuusarvo, h) verrataan mainittua toista luotettavuusarvoa mainittuun k 25 voon (Y), ;·. i) jos mainittu toinen luotettavuusarvo on suurempi tai ) kuin mainittu ensimmäinen kynnysarvo (Y), valitaan puh' * ·· non tunnistustulokseksi toisen tunnistusvaiheen tunnistus • ψ j) jos mainittu toinen luotettavuusarvo on pienempi kuin * « 30 ensimmäinen kynnysarvo (Y), suoritetaan vertailuvaihi : vertaillaan ensimmäisen ja toisen tunnistusvaiheen tun ··· v : losta sen selvittämiseksi, millä todennäköisyydellä ne o\ 16 1

2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu i mainituissa tunnistusvaiheissa määritetään yhdelle tai use mainitulle komentosanalle todennäköisyys, jolla käyttäjän laus 5 hekomento vastaa mainittua komentosanaa, jolloin mainittujei tusvaiheiden tunnistustulokseksi valitaan se komentosana, joll tetty todennäköisyys on suurin.

3. Patenttivaatimuksen 1 tai 2 mukainen menetelmä, tunne 10 että menetelmässä lisäksi määritetään toinen kynnysarvo^ vaiheet e)—k) suoritetaan vain, mikäli mainittu ensimmäinen vuusarvo on suurempi kuin mainittu toinen kynnysarvo (A).

4. Patenttivaatimuksen 3 mukainen menetelmä, tunnettu s 15 vertailuvaihe j) suoritetaan vain, mikäli mainittu toinen luotetta\ on suurempi kuin mainittu toinen kynnysarvo (A).

5. Jonkin patenttivaatimuksen 1—4 mukainen menetelmä, t siitä, että ensimmäisen luotettavuusarvon määrittämiseksi mä; 20 todennäköisyys sille, että ensimmäinen puhekomento oli tausta jolloin ensimmäinen luotettavuusarvo muodostetaan ensimmäi nistusvaiheen tunnistustulokseksi valitulle komentosanalle m todennäköisyyden ja taustakohinatodennäköisyyden perusteelle

6. Jonkin patenttivaatimuksen 1—5 mukainen menetelmä, I siitä, että toisen luotettavuusarvon määrittämiseksi määritetää näköisyys sille, että toinen puhekomento oli taustakohinaa, jc nen luotettavuusarvo muodostetaan toisen tunnistusvaiheen ti tulokseksi valitulle komentosanalle määritetyn todennäköisy 30 taustakohinatodennäköisyyden perusteella.

• · · • * » : 7. Puheentunnistuslaite, johon on määritetty valittavissa olevien 17 1 välineet (3,5) ensimmäisen luotettavuusarvon lask mainitulle ensimmäisen tunnistusvaiheen tunnistustuloks välineet (5) mainitun ensimmäisen luotettavuusarvon > seksi ennalta määritettyyn ensimmäiseen kynnysarvoor 5 loin puhekomennon tunnistustulokseksi on järjestetty va ensimmäisen tunnistusvaiheen tunnistustulos, jos mai simmäinen luotettavuusarvo on suurempi tai yhtäsuuri f nittu ensimmäinen kynnysarvo (Y), ja välineet (5) toisen puhekomennon tunnistusvaiheen $i 10 seksi toistetulle komentosanalle, jos mainittu ensimmäi tettavuusarvo on pienempi kuin mainittu ensimmäinen k vo (Y), jotka välineet toisen puhekomennon tunnistui suorittamiseksi käsittävät: välineet (3,4, 5) toisen tunnistusvaiheen tunnistustuloki 15 semiseksi, välineet (5) toisen luotettavuusarvon laskemiseksi main sen tunnistusvaiheen tunnistustulokselle, välineet (5) mainitun toisen luotettavuusarvon vertaamia naita määritettyyn ensimmäiseen kynnysarvoon (Y), jolle 20 komennon tunnistustulokseksi on järjestetty valittavat tunnistusvaiheen tunnistustulos, jos mainittu toinen luoti arvo on suurempi tai yhtäsuuri kuin mainittu ensimmäii nysarvo (Y), ja välineet (3, 4, 5) vertailuvaiheen suorittamiseksi, joka 25 vaihe on järjestetty suoritettavaksi, jos mainittu toinen vuusarvo on pienempi kuin mainittu ensimmäinen k j\ vo (Y), ja jotka välineet vertailuvaiheen suorittamiseksi k |...e välineet (3,4, 5) ensimmäisen ja toisen tunnistusvaiheei tustuloksen vertailemiseksi, jolloin vertailuvaiheessa oi 30 tetty vertailtavaksi ensimmäistä ja toista tunnistustulosta : vetämiseksi, millä todennäköisyydellä ne ovat olennais : mat, jolloin todennäköisyyden ylittäessä ennalta määril 18 1

8. Langaton viestin, joka käsittää välineet puhekomentojen tu seksi, johon on määritetty valittavissa olevien komentosanojen jotka välineet puhekomentojen tunnistamiseksi käsittävät vä tunnistukseen käytettävän ajan mittaamiseksi ja vertailemiseks 5 määritettyyn aika-ikkunaan, joka on järjestetty dynaamisesti | täväksi tarvittaessa, ja välineet (3, 4, 5) ensimmäisen tunnistu tunnistustuloksen valitsemiseksi, jolloin välineet puhekoment nistamiseksi käsittävät lisäksi: välineet (3,5) ensimmäisen luotettavuusarvon lask 10 mainitulle ensimmäisen tunnistusvaiheen tunnistustuloks välineet (5) mainitun ensimmäisen luotettavuusarvon i seksi ennalta määritettyyn ensimmäiseen kynnysarvooi loin puhekomennon tunnistustulokseksi on järjestetty va ensimmäisen tunnistusvaiheen tunnistustulos, jos mai 15 simmäinen luotettavuusarvo on suurempi tai yhtäsuuri I nittu ensimmäinen kynnysarvo (Y), ja välineet (5) toisen puhekomennon tunnistusvaiheen si seksi toistetulle komentosanalle, jos mainittu ensimmä tettavuusarvo on pienempi kuin mainittu ensimmäinen k 20 vo (Y), jotka välineet toisen puhekomennon tunnistu suorittamiseksi käsittävät: välineet (3, 4, 5) toisen tunnistusvaiheen tunnistustuloks semiseksi, välineet (5) toisen luotettavuusarvon laskemiseksi main 25 sen tunnistusvaiheen tunnistustulokselle, - välineet (5) mainitun toisen luotettavuusarvon vertaamis ί.# * naita määritettyyn ensimmäiseen kynnysarvoon (Y), jolle komennon tunnistustulokseksi on järjestetty valittavat ♦ · tunnistusvaiheen tunnistustulos, jos mainittu toinen luot* 30 arvo on suurempi tai yhtäsuuri kuin mainittu ensimmäii : nysarvo (Y), ja 0 : - välineet (3,4,5) vertailuvaiheen suorittamiseksi, joka 19 11 vittämiseksi, millä todennäköisyydellä ne ovat olenna mat, jolloin todennäköisyyden ylittäessä ennalta määr von, puhekomennon tunnistustulokseksi on järjestetty v< toisen tunnistusvaiheen tunnistustulos, 5 tunnettu siitä, että välineet puhekomentojen tunnistamiseksi I lisäksi välineet (5) mainitun aika-ikkunan pidentämiseksi, jolle tussa toisessa tunnistusvaiheessa on järjestetty pidennettävä nittua aika-ikkunaa. 4 4 4 44 • 44 • 4 4 #4 • «·· • 4 4 4 Ml • 4 • 4 • # f 9 · · 4 4 4 4 4 4 4 4 4» 4 20