FI116991B - Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin - Google Patents

Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin Download PDF

Info

Publication number
FI116991B
FI116991B FI990077A FI990077A FI116991B FI 116991 B FI116991 B FI 116991B FI 990077 A FI990077 A FI 990077A FI 990077 A FI990077 A FI 990077A FI 116991 B FI116991 B FI 116991B
Authority
FI
Finland
Prior art keywords
recognition
value
command
threshold value
result
Prior art date
Application number
FI990077A
Other languages
English (en)
Swedish (sv)
Other versions
FI990077A (fi
FI990077A0 (fi
Inventor
Kari Laurila
Juha Iso-Sipilae
Original Assignee
Nokia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp filed Critical Nokia Corp
Priority to FI990077A priority Critical patent/FI116991B/fi
Publication of FI990077A0 publication Critical patent/FI990077A0/fi
Priority to DE60024506T priority patent/DE60024506T2/de
Priority to US09/483,770 priority patent/US6697782B1/en
Priority to EP00660008A priority patent/EP1020847B1/en
Publication of FI990077A publication Critical patent/FI990077A/fi
Application granted granted Critical
Publication of FI116991B publication Critical patent/FI116991B/fi

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Description

Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja ohjattava langaton viestin
Nyt esillä oleva keksintö kohdistuu oheisen patenttivaatimus 5 danto-osassa esitettyyn menetelmään puheen tunnistuksessa patenttivaatimuksen 7 johdanto-osan mukaiseen puheentun teeseen sekä oheisen patenttivaatimuksen 8 johdanto-osan nr puheella ohjattavaan langattomaan viestimeen.
10 Langattomien viestimien käytön helpottamiseksi on kehitetty n toiminto-laitteistoja (hands free), joiden avulla langatonta vie; daan ohjata puheella. Puheella voidaan tällöin ohjata langattoi timen erilaisia toimintoja, kuten päälle/päältä-kytkemistä, tä/vastaanottoa, äänenvoimakkuuden säätöä, puhelinnumeron 15 puheluun vastaamista, jolloin erityisesti ajoneuvokäytössä kä> helpompi keskittyä ajamiseen.
Puheella ohjattavan langattoman viestimen eräänä haittapuole että puheen tunnistus ei ole täysin virheetöntä. Autossa ymp£ 20 heuttama taustamelu on korkea ja puheen tunnistus vaikeu syystä. Puheen tunnistuksen epäluotettavuuden vuoksi on lanc viestimien käyttäjien kiinnostus puheohjausta kohtaan to melko pientä. Nykyisten puheentunnistimien tunnistustarkkui :\a erityisen hyvä varsinkaan vaikeissa olosuhteissa, kuten lii 25 autossa, jossa korkea taustamelu haittaa olennaisesti iuotettav
« «I
| jen tunnistusta. Väärät tunnistuspäätökset aiheuttavat yleera hankaluuksia käyttäjäliitynnän toteuttamisessa, koska väärät t päätökset saattavat käynnistää ei-toivottuja toimintoja, kuten * « * lopettamisen kesken puhelun, mikä on luonnollisesti erityisen v : 30 vää käyttäjälle. Eräänä virheellisen tunnistuspäätöksen seu voi olla se, että puhelu yhdistyy väärään numeroon. Tästä syy I täiäliitvnfä suunnitellaankin siten, että ouheentunnistin ei tee t 2 1 sesti varsin monimutkaisella menetelmällä joukkoon eri referen ja, jotka on tallennettu puheentunnistimen muistiin aikaisemi heentunnistimet laskevat yleensä kullekin referenssisanalle j< vun, joka kuvaa, kuinka paljon käyttäjän lausuma sana muisti 5 referenssisanaa. Tunnistuspäätös tehdään lopuksi näiden luk rusteella siten, että päätökseksi valitaan se referenssisana, jot tu sana eniten muistuttaa. Tunnetuimpia menetelmiä lausutun referenssisanojen välisessä vertailussa ovat dynaaminen aih (dynamic time warping, DTW) ja tilastollinen HMM-menetelmä 10 Markov model-menetelmä).
Sekä DTW- että HMM- menetelmässä vertaillaan tuntematon kuviota tunnettuihin referenssikuvioihin. Dynaamisessa aikasoi sa puhekuvio jaetaan useaan kehykseen ja jokaiseen kehykse 15 tyvän puheosan ja referenssi kuvion vastaavan puheosan ps etäisyys lasketaan. Tämä etäisyys lasketaan vertaamalla puhi referenssikuvion vastaavaa puheosaa toisiinsa ja on siis erä lukuarvo sille, kuinka paljon vertailussa havaittiin eroavaisuul hellä toisiaan oleville puheosille saadaan tavallisesti pienempi 20 kuin kauempana toisiaan oleville puheosille. Tällä tavalla saati kallisten etäisyyksien perusteella etsitään sanan alku- ja lopp välille minimipolku DTW-algoritmilla. Näin ollen dynaamisella i tuksella saadaan jokin etäisyys lausutun sanan ja referenssiss lille. HMM-menetelmässä tuotetaan puhekuvioita ja tätä put :·. 25 generointivaihetta mallitetaan tilanmuutosmallilla Markovin mer I···. mukaan. Kyseinen tilanmuutosmalli on siis HMM. Puheent ::: vastaanotetuille puhekuvioille tapahtuu tällöin määrittelemällä t todennäköisyys kyseisille puhekuvioille HMM-mallin avulla. Put • * * nistuksessa HMM-menetelmää käyttäen muodostetaan aluks v : 30 malli jokaiselle sanalle, joka pitäisi tunnistaa, eli jokaiselle refer nalle. Nämä HMM-mallit tallennetaan puheentunnistimen muisi puheentunnistin vastaanottaa puhekuvion, lasketaan jokaisen 3 vion ja lähimmän HMM-mallin eli lähimmän referenssipuhekuv Iäisyyttä.
Patenttijulkaisu US 5,566,272 liittyy puheentunnistusmen* 5 jossa määritetään tunnistustulokselle luotettavuusarvo, jota määrättyyn kynnysarvoon. Tämän vertailun perusteella selvit onko kyseessä riittävän luotettava sanan tunnistus. Jos riittäv; tavuutta ei saavutettu, toistetaan esitettyjä vaiheita, kunnes luotettava tunnistus saavutetaan, tai ennalta määrätty toistoke 10 kumäärä ylittyy. Tässä julkaisussa esitetyssä menetelmässä c kin mm. se epäkohta, että kullakin tunnistusyrityksellä aloite nistus ikään kuin alusta, jolloin toistolla ei välttämättä saavute nusta tunnistuksen luotettavuuteen. Esimerkiksi taustamelu koko ajan liian häiritsevää, jotta tunnistus onnistuisi riittävän 15 vasti kyseisellä menetelmällä.
Toinen patenttijulkaisu US 5,640,485 puolestaan esittää pu nistusmenetelmän, jossa ensimmäisen ja toisen tunnistustulo taessa määrätyn kynnysarvon lasketaan todennäköisyys olett 20 ensimmäinen ja toinen tunnistustulos tarkoittavat olennaises sanaa, jolloin todennäköisyyden ylittäessä kynnysarvon, valil nistustulokseksi tämä sana. Tässä menetelmässä ei ehtyisi noissa olosuhteissa kuitenkaan saavuteta parempaa tunnistu täiselle sanalle, jolloin molemmat vertailussa käytettävät tunnis 25 set voivat olla epäluotettavia. Tällöin ensimmäisessä tunnis . voidaan helposti saada eri komentosana kuin toisessa tunnist y.l] vaikka sama sana olisikin lausuttu. Lisäksi kynnysarvon alitt nistustuloksia voi olla vaikea saavuttaa molemmilla tunnistuske • · · • · · • a· *·:: 30 Nykyisissä järjestelmissä puheentunnistin laskee siis tietyn lu1 renssisanoille käyttäjän lausuman sanan perusteella. DTW-s?'· mässä luku on sanoien välinen etäisvvs ia HMM-menetelmäss: 4 1 oltava tarpeeksi suuri, jotta voidaan tehdä tunnistuspäätös. Ί mahdollista, että taustamelun ollessa korkea saadaan käyttäj; man komennon perusteella muistissa olevalle referenssisana referenssisanalle ’’kyllä”, jokaisella yrityksellä suurin todenr 5 muihin referenssisanoihin nähden, esim. todennäköisyys 0,8. nystodennäköisyys on esim. 0,9, ei tunnistusta hyväksytä ja ka joutua lausumaan komennon useamman kerran ennen kuin 1 todennäköisyyspä ylittyy ja puheentunnistin hyväksyy ke vaikka todennäköisyys on voinut olla erittäin lähellä hyväksyt 10 voa. Tämä on erittäin häiritsevää käyttäjälle.
Puheentunnistusta vaikeuttaa vielä se, että eri käyttäjät lausu\ sanat eri tavoilla, jolloin puheentunnistin toimii paremmin yhde jän käyttämänä kuin jonkin toisen käyttäjän käyttämänä. Puhe 15 timien varmuustasojen säätäminen kaikki käyttäjät huomioide kyisin tunnetulla tekniikalla käytännössä erittäin vaikeaa. Kun säätää vaadittava varmuustaso esim. ”kyllä”-sanalle, aseteta; tun tekniikan mukaisissa puheentunnistimissa vaadittava kynn lisesti ns. huonoimpien puhujien mukaan. Tällöin ongelmaksi t 20 se, että lähellä ”kyllä”-sanaa olevat sanat alkavat myös tulla sesti hyväksytyiksi. Ongelmaa pahentaa vielä se, että myö taustakohina saattaa joissakin tilanteissa tunnistua komento Tunnetun tekniikan mukaisissa puheentunnistimissa pyritä; mään sopiva tasapainotila, jossa tietyllä osalla käyttäjistä on s 25 gelmia saada sanojaan hyväksytyiksi ja virheellisesti hyväksyi nojen määrä on riittävän pieni. Jos puheentunnistin pyritään sä siten, että mahdollisimman pienellä osalla käyttäjistä on < saada sanoja hyväksytyiksi, tarkoittaa se käytännössä sitä, ett; lisesti hyväksyttyjen sanojen määrä kasvaa. Vastaavasti jos v : 30 mahdollisimman virheettömään tunnistukseen, on entistä suur osalla käyttäjistä vaikeuksia saada lausumiaan komentoja hyv • · ;:; si.
5 Käyttäjä ei sano mitään, mutta jokin komento nistuu tästä huolimatta tai käyttäjä sanoo sana ole komentosana ja kuitenkin jokin komentosai tuu.
5
Poistovirhe (Deletion Error) Käyttäjä sanoo jonkin komentosanan, mutta tunnistu.
10 - Korvausvirhe (Substitution Error) Käyttäjän sanoma komentosana tunnistuu toi mentosanaksi.
Teoreettisessa optimiratkaisussa puheentunnistin ei tee m 15 mainituista virheistä. Kuitenkin käytännön tilanteissa, kuten jo esitetty, puheentunnistin tekee kaikkia mainittuja virhetyyppej; liittymän käytettävyyden kannalta on tärkeää suunnitella puhe tusjärjestelmä siten, että eri virhetyyppien suhteelliset määrät timaaliset. Esimerkiksi puheaktivoinnissa, jossa puheella ohjat 20 odottaa jopa useita tunteja tiettyä aktivointisanaa, on tärkeät laite ei satunnaisesti virheaktivoidu. Lisäksi on tärkeää, että sanomat komentosanat tunnistetaan hyvällä tarkkuudella. Ί pauksessa on kuitenkin tärkeämpää se, että virheaktivointejc dostuisi. Käytännössä tämä tarkoittaa sitä, että käyttäjän on u |.t 25 toistettava lausumansa komentosana, jotta tunnistus tapahtuis \.Γ lä todennäköisyydellä oikein.
« * ·«· ·*
Numerosarjan tunnistuksessa kaikki virheet ovat lähes yhtä m< v't! Mikä tahansa virhe numerosarjan numeroiden tunnistuksesi v : 30 tulokseksi väärän numerosarjan. Myös se tilanne, että käyttäji mitään ja kuitenkin jokin numero tunnistetaan, on myös käytti • ·*· naItä Qon diaan lene>i 6 oletetaan vastaavan joko "kyllä” tai "en”. Usein tällaisissa ti joissa vaihtoehtoisia komentosanoja on hyvin vähän, komi tunnistuvat oikein, mikäli yleensä tunnistuvat. Toisin sanoen ti tilanteessa korvausvirheiden määrä on hyvin pieni. Suurin on( 5 sittäisten komentosanojen tunnistuksessa on se, että puhuttu ei tunnistu lainkaan, tai epäkelpo sana tunnistetaan joksikir tosanaksi. Tästä esimerkistä on seuraavassa kolme eri vaihl tilannetta: 10 1) Puheella ohjattava laite kysyy käyttäjältä: "Halui taanottaa puhelun?”, johon käyttäjä vastaa ep ’'Kyllä ... kyl-”. Laite ei tunnista käyttäjän vastausta uudelleen käyttäjältä: ’’Haluatko vastaanottaa Sano kyllä tai ei.” Tällöin käyttäjä saattaa helposti ti 15 mikäli laite usein pyytää käyttäjää toistamaan lau komentosanan.
2) Jälleen laite tiedustelee käyttäjältä: ’’Haluatko vas puhelun?", johon käyttäjä vastaa selkeästi "kyllä” 20 kuitenkaan varmasti tunnistanut tätä ja haluaa v sen: "Sanoitko kyllä?”, johon käyttäjä vastaa i "kyllä". Vieläkään ei luotettavaa tunnistusta tapahtu laite kysyy uudelleen: "Sanoitko kyllä?”. Vielä käy uudelleen toistettava vastauksena "kyllä", jotta lai y, 25 taisi tunnistuksen.
# · · M· « · 3) Vielä kolmannessa esimerkkitilanteessa puheella * « 'lii laite tiedustelee käyttäjältä, haluaako hän vastaan· v/ helun. Tähän käyttäjä mumisee jotakin epämää
v : 30 tästä huolimatta laite tulkitsee käyttäjän ääntelyn "I
mentosanaksi ja ilmoittaa käyttäjälle: "Selvä, puhe • · · t\/\s” Täccä filäntoaeeo ciic aI! loiHaan tnll/inla 7. 1 kunaa, jonka kuluessa käyttäjän tulee lausua komentosana, toisessa tunnetun tekniikan mukaisessa puheentunnistusmei sä lasketaan käyttäjän lausumalle komentosanalle tunnistustoi syys, ja mikäli tämä todennäköisyys ei ylitä ennalta määrätty; 5 arvoa, käyttäjää pyydetään lausumaan komentosana uudesta; jälkeen suoritetaan uusi tunnistustodennäköisyyden laskenta k lä hyväksi edellisellä tunnistuskerralla laskettua todennäköis) löin tunnistuspäätös tehdään, mikäli edelliset todennäköisyyd oonottaen saavutetaan kynnystodennäköisyys. Tässä mene 10 toiston hyödyntäminen johtaa helposti kuitenkin edellä mainiti virhe-mahdollisuuden kasvamiseen, jolloin toistettaessa sana; puolista sanaa se tunnistetaan helpommin komentosanaksi.
Nyt esillä olevan keksinnön eräänä tarkoituksena on aikaans 15 rannettu puheentunnistusmenetelmä sekä puheella ohjattava viestin, jossa puheen tunnistusta on varmennettu tunnettuu kaan nähden. Keksintö perustuu siihen ajatukseen, että laus mentosanalle laskettua tunnistustodennäköisyyttä verrataan hinatodennäköisyyteen, jolloin näin saadun luotettavuusarvo 20 denssiarvon) perusteella päätellään, oliko tunnistus varma. J tavuusarvo jää alle määritetyn varman tunnistuksen kynnysl dennetään tunnistuksessa käytettävää aikaikkunaa ja suorite tunnistus käyttäjän lausumalle komentosanan toistolle. Jos komentosanaa ei tunnisteta riittävällä varmuudella, suoritet; * * * I., 25 käyttäjän lausumien komentosanojen vertailu, jolloin, mikäli \.Γ lausumien sanojen tunnistukset osoittavat, että käyttäjä on saman komentosanan kaksi kertaa peräkkäin, hyväksytään 1 Nyt esillä olevan keksinnön mukaiselle menetelmälle on pä v : tunnusomaista se, mitä on esitetty oheisen patenttivaatimuks* a « a : 30 nusmerkkiosassa. Nyt esillä olevan keksinnön mukaiselle pu nistuslaitteelle on pääasiassa tunnusomaista se, mitä on esto : sen patenttivaatimuksen 7 tunnusmerkkiosassa. Nvt esillä ol€ 8 ^ ' na. Keksinnön mukaisella menetelmällä saavutetaan pienem virheiden todennäköisyys kuin tunnetun tekniikan mukaisilla millä on mahdollista aikaansaada. Keksinnön mukaisessa massa tunnistuksen ollessa epävarma, pidennetään komentos 5 kinta-aikaa, jolloin käyttäjällä on mahdollisuus toistaa antam mentosana. Lisäksi keksinnön mukaisessa menetelmässä hyödyntää käyttäjän lausuman komentosanan toistoa tehokks rittamalla tarvittaessa vertailu käyttäjän aikaisemmin lausun mentosanaan, mikä parantaa merkittävästi komentosanan 10 mistä. Tällöin virheellisten tunnistusten määrää voidaan mei pienentää. Myös sellaisten tilanteiden todennäköisyys, joissa i sana tunnistetaan, vaikka käyttäjä ei lausunut mitään komer vähenee merkittävästi. Keksinnön mukainen menetelmä mal sellaisten varmuustasojen käytön, jossa virheellisesti tunnistel 15 mentosanojen määrä on minimaalinen. Käyttäjät, jotka eivät tekniikan mukaisissa ratkaisuissa saa puhekomentojaan hei väksytyiksi, voivat nyt esillä olevan keksinnön mukaisella koi nan toistamisella parantaa merkittävästi lausumiensa puhekoi hyväksymistodennäköisyyttä.
20
Keksintöä selostetaan seuraavassa tarkemmin viitaten samalfc piirustuksiin, joissa kuva 1 esittää keksinnön erään edullisen suoritusmuodoi λ, 25 sessa menetelmässä käytettäviä tunnistuskynnyksii ··· • « '"f kuva 2 esittää keksinnön erään edullisen suoritusmuodon menetelmää tilakone-esityksenä, Ψ · 1 » t « v : 30 kuva 3 esittää piirrevektorien aikasovitusta, ·1· kuva 4 esittää kahden sanan vertailua histnnrammina ia 9 11 täjän lausumalle komentosanalle suoritetaan tunnistus, jossa I sinänsä tunnetusti todennäköisyys sille, kuinka lähellä lausutti eri komentosanoja. Näiden komentosanoille laskettujen toc syyksien perusteella valitaan edullisesti se komentosana, jonl 5 näköisyys on suurin. Tämän jälkeen tunnistetulle sanalle lasi dennäköisyyttä verrataan taustakohinamallin tuottamaan toc syyteen. Taustakohinamalli kuvaa yleistä taustakohinaa ja myc sellaisia sanoja, jotka eivät ole komentosanoja. Tässä lasketa! dennäköisyys sille, että tunnistettu sana olisikin vain taustakc 10 sana, joka ei ole komentosana. Tämän vertailun perusteella ensimmäinen luotettavuusarvo, joka ilmoittaa sen, kuinka sana on tunnistettu. Kuvassa 1 on esitetty tämä tunnistuksen den määrittely käyttämällä kynnysarvoja sekä mainittua luotet voa. Keksinnön erään edullisen suoritusmuodon mukaisessa 15 mässä määritetään ensimmäinen kynnysarvo, joka oheiseen k merkitty viitteellä Y. Se on määritetty luotettavuusarvon raja tunnistus on varma (luotettavuusarvo suurempi tai yhtäsuuri simmäinen kynnysarvo Y). Keksinnön erään toisen edullisen muodon mukaisessa menetelmässä määritetään lisäksi toiner 20 arvo, joka oheiseen kuvaan on merkitty viitteellä A. Tämä ilmo onko tunnistus epävarma (luotettavuusarvo suurempi tai yhtäs toinen kynnysarvo A, mutta pienempi kuin ensimmäinen kynn} tai hyvin epävarma (luotettavuusarvo pienempi kuin toinen ky A).
25 • » " Kuvan 2 tilakone-esityksessä tila 1 esittää komentosanan tur n * Tässä komentosanan tunnistusvaiheessa määritetään käyttäjä man komentosanan perusteella todennäköisyydet eri koment puheentunnistuslaitteen sanastossa. Käyttäjän lausumaa puh * · · v : 30 toa vastaavaksi komentosanaksi valitaan alustavasti se kome jonka todennäköisyys on suurin. Valitulle komentosanalle mä mainittu luotettavuusarvo, iota verrataan ensimmäiseen kvnn' 11 10 tai yhtä suuri kuin toinen kynnysarvo A, mutta pienempi kuin e nen kynnysarvo Y, oli tunnistus epävarma, ja siirrytään tilaan aikaikkunaa pidennetään, eli käyttäjällä on lisää aikaa sane mansa komentosana uudestaan. Tähän tilaan 2 voidaan siir 5 virheellisen sanan vuoksi esimerkiksi käyttäjän hyvin epäsei suman sanan seurauksena tai taustakohinan aiheuttaman vii tunnistuksen seurauksena. Tässä tilassa 2 odotetaan kome toistoa pidennetyn aikaikkunan ajan. Jos tässä aikaikkunassi lausui jonkin komentosanan uudelleen, suoritetaan komentosi 10 nistus ja luotettavuusarvon laskenta, kuten edellä tilan 1 koi esitetty. Jos tässä vaiheessa laskettu luotettavuusarvo ilmoi käyttäjän tässä toisessa vaiheessa lausuma komentosana on tu riittävällä varmuudella, siirrytään tilaan 4 ja hyväksytään 1 Esimerkiksi tilanteessa, jossa käyttäjä on saattanut sanoa jo 15 selvää tilassa 1, mutta lausunut tilassa 2 selkeästi oikean ko nan, voidaan tunnistus tehdä pelkästään tämän tilassa 2 laui mentosanan perusteella. Tällöin ei siis suoriteta vertailua ensi ja toisen lausutun komentosanan kesken, koska tämä johtais epävarmempaan tunnistuspäätökseen.
20
Sen sijaan, mikäli tilassa 2 komentosanaa ei saada tunnistel vän luotettavasti, siirrytään tilaan 3, jossa suoritetaan toistet mentosanojen vertailu. Mikäli tämä vertailu osoittaa, että toistama komentosana oli hyvin lähellä käyttäjän ensin mai 25 komentosanaa, eli sama sana on todennäköisesti sanottu kah " peräkkäin, hyväksytään tunnistus ja siirrytään tilaan 4. Jos * · vertailu osoittaa, että käyttäjä todennäköisesti ei ole sanone sanaa kahdesti, siirrytään tilaan 5 ja hylätään tunnistus.
• * • # :Χ· 30 Keksinnön mukaisessa menetelmässä siis ensimmäisen :T: osoittaessa epävarmaa tunnistusta, suoritetaan toinen tunnisti cacti cinäncä ti innati illo ti innieti lemanotalmöll^ 11 11 muodostettuja piirrevektoreita puhevastemuistiin 4. Tämän jäi nistus siirtyy tilaan 3, jossa vertaillaan näitä mainittuja muist pettuja piirrevektoreita edullisesti aikasovituksella (Dynan Warping). Kuvassa 3 on esitetty pelkistettynä tätä piirrevektoi 5 kasovitusta. Kuvassa ylempänä on esitetty ensimmäisen turn tuottamia piirrevektoreita, joita on merkitty viitenumerolla V1, j vasti kuvassa alempana viitenumerolla V2 on esitetty toisen 1 sen tuottamia piirrevektoreita. Tässä esimerkissä ensimmäii on ollut pidempi kuin toinen sana, eli käyttäjä on sanonut tois 10 heessa sanan nopeammin tai kyseessä ovat eri sanat. Tällöir män sanan, tässä esimerkissä toisen sanan, piirrevektoreille pidemmästä sanasta yksi tai useampi vastaava piirrevektori ; tamalla kahden sanan piirrevektoreita siten, että ne optimaafo taavat toisiaan. Kuvaan 3 on katkoviivoin merkitty tässä esi 15 näitä aikasovitustuloksia. Sanojen etäisyys lasketaan esimerki disena etäisyytenä sovitettujen piirrevektoreiden välillä. Mikäl etäisyys on pieni, voidaan olettaa, että kyseessä ovat sam Etäisyyden ollessa suuri, voidaan olettaa, että kyseessä ovat « Kuvassa 4 on esitetty eräs esimerkki tästä vertailusta histogri 20 viona. Histogrammikaavioon on merkitty kaksi eri vertailua: ka man sanan vertailu (merkitty katkoviivoituksella) sekä kahden vertailu (merkitty yhtenäisellä viivoituksella). Vaaka-akselina vektorien lasketun etäisyyden logaritmiarvo, jolloin pienempi lu pienempää etäisyyttä, ja pystyakselina on histogrammiarvc 25 mitä pienempiä erityisesti suuret histogrammiarvot ovat, eli etäisyys on hyvin pieni, sitä suuremmalla todennäköisyydellä vat sanat ovat samoja.
• « m * 9··
Kuvassa 5 on esitetty keksinnön erään edullisen suoritusmuc v : 30 kainen puhekomennoilla ohjattava langaton viestin 1, joka or kiksi GSM-matkaviestin. Kuvassa 5 on esitetty vain keksinnör
l/nnn^ltA ηΙηηΙΙίκΐίΜΜΑί Π. iUmaU'.mi O
12 1 kaiutintoiminnon 17 kaiuttimen 11b kautta. Keksinnön mukain ohjausyksikkö 2 voidaan toteuttaa myös ilman puhesyntetisa jolloin ohjeet ja tiedotteet välitetään käyttäjälle sopivimmin te dossa telepäätelaitteen näyttöelimellä 13. Vielä eräänä mal 5 tena on se, että ohjeet ja tiedotteet välitetään sekä ääni- että t« teinä käyttäjälle. Puhevastemuisti 4 tai osa siitä voidaan toteut luku/kirjoitusmuistin 7 yhteydessä tai se voi olla osana lan< viestimen mahdollisesta muusta yleisestä muistiavaruudesta.
10 Seuraavassa kuvataan vielä keksinnön mukaisen langattani men 1 toimintaa. Ennen kuin puheohjaus toimii, on puheohjau* 2 opetettava tavallisimmin kaikki käytettävät komentosanat. I opetettu sopivimmin laitteen valmistusvaiheessa esim. siten, mentosanoja vastaavat mallit on tallennettu puhevastemuistiin 15
Siinä vaiheessa, kun suoritetaan komentosanan tunnistus, lausuma komentosana muunnetaan mikrofonilla 10a, 10b säl signaaliksi ja johdetaan se puheohjausyksikköön 2. Puheoii kössä 2 puheentunnistuseiin 3 muodostaa lausutusta koment 20 piirrevektoreita, jotka tallennetaan puhevastemuistiin 4. Puhec sikkö 2 laskee vielä kullekin puheohjausyksikön 2 sanastoon k komentosanalle todennäköisyyden, jolla ilmaistaan se, kuinka köisesti käyttäjän lausuma komentosana on tietty sanastoon komentosana. Tämän jälkeen puheohjausyksikkö 2 tutkii, mill 25 ton komentosanalla on suurin todennäköisyysarvo, jolloin täi valitaan alustavasti tunnistetuksi komentosanaksi. Tämän sana tua todennäköisyyttä verrataan vielä taustakohinamallin tuottai dennäköisyyteen luotettavuusarvon määrittämiseksi. Puheohji kö 2 vertailee tätä luotettavuusarvoa puheohjausyksikön muist v : 30 lisesti lukumuistiin 6 tallennettuun ensimmäiseen kynnysarvoo v : vertailu osoittaa, että luotettavuusarvo on suurempi tai yhtä s ensimmäinen kvnnvsarvn V nuhenhiat icvksikkn 9 näättelea c 13 1 toimenpiteet, kuten on sinänsä tunnettua. Käyttäjä voi esimer sua tai näppäillä haluamansa puhelinnumeron.
Siinä tapauksessa, että edellä vertailu osoitti sen, että luotetta 5 on pienempi kuin ensimmäinen kynnysarvo Y, suoritetaan to tailu toiseen kynnysarvoon A nähden. Mikäli vertailu osoittaa, tettavuusarvo on suurempi tai yhtä suuri kuin toinen kynnysar heohjausyksikkö 2 pidentää komentosanan tunnistukselle m aikarajaa ja jää odottamaan, lausuuko käyttäjä komentosana 10 ieen. Jos puheohjausyksikkö 2 havaitsee käyttäjän lausuvan j< hekomennon mainitun aikarajan puitteissa, puheohjausyksikös tetaan ne toimenpiteet, jotka edellä menetelmän edullista suoi toa kuvattaessa on esitetty, eli muodostetaan piirrevektorit ja taan ne puhevastemuistiin 4, lasketaan todennäköisyydet ja ui 15 tavuusarvo. Seuraavaksi suoritetaan uusi vertailu luotettavuu; ensimmäisen kynnysarvon Y välillä. Mikäli luotettavuusarvo rempi tai yhtä suuri kuin ensimmäinen kynnysarvo Y, puheohjj kö 2 tulkitsee, että puhekomento on tunnistettu oikein, jolloin jausyksikkö 2 muuntaa puhekomennon vastaavaksi ohjaussign 20 välittää sen ohjausiohkolle 16. Mikäli kuitenkin luotettavuusarv nempi kuin ensimmäinen kynnysarvo Y puheohjausyksikkö 2 vertailun puhevastemuistiin 4 tallennettujen ensimmäisen laus nan ja toisen lausutun sanan piirrevektoreiden välillä. Tässä v€ suoritetaan ensin piirrevektoreiden aikasovitus ja tämän jälke( ... 25 taan sanojen etäisyys, kuten edellä menetelmän kuvauksen yh on esitetty. Näiden laskettujen etäisyyksien perusteella puhec sikkö 2 päättelee sen, olivatko käyttäjän lausumat sanat samo • * ‘ill sanoja. Mikäli kyseessä olivat eri sanat, puheohjausyksikkö 2 < tanut komentosanaa ja ei myöskään muodosta ohjaussigna v : 30 komentosanat olivat todennäköisesti samoja, suorittaa puhec O'1 sikkö 2 komentosanan muuntamisen vastaavaksi ohjaussignaa 14 1
Mikäli ensimmäisessä komentosanan tunnistuksessa ei saati luotettavaa tunnistusta, voidaan langattoman viestimen 1 kä> vuuden lisäämiseksi informoida käyttäjää ensimmäisen vaihee tuksen epäonnistumisesta ja pyytää lausumaan komentosar 5 leen. Langaton viestin 1 muodostaa esim. ääniviestin puhesy torilla 8 ja/tai visuaalisen viestin näyttöefimelle 13. Langaton voi informoida käyttäjää ääni· ja/tai visuaalisella signaalilla m teessä, jossa tunnistus onnistui. Tällöin käyttäjälle ei jää ep se, onnistuiko tunnistus vai ei. Tästä on hyötyä erityisesti häi 10 käyttöolosuhteissa.
Piirrevektoreiden aikasovitus sekä sanojen etäisyyksien lasker nänsä tunnettua tekniikkaa, joten niitä ei ole esitetty tarkemn yhteydessä. On selvää, että nyt esillä olevaa keksintöä ei ole 15 ainoastaan edellä esitettyihin suoritusmuotoihin, vaan sitä muunnella oheisten patenttivaatimusten puitteissa.
• I
I ·· • • »
• II
• I
• * »Il ··· • · • » • Il • f · • · · * i«*
♦ · I
• · I •

Claims (8)

15 11
1. Menetelmä puhekomentojen tunnistamiseksi, jossa mä joukko puhekomennoilla valittavissa olevia komentosanoja, mä 5 tarvittaessa dynaamisesti pidennettävissä oleva aika-ikkuna, j luessa puhekomennon tunnistus suoritetaan, suoritetaan ensii tunnistusvaihe, jossa valitaan ensimmäisen tunnistusvaiheei tustulos, jolloin menetelmässä lisäksi a) määritetään ensimmäisen tunnistusvaiheen tunnistust 10 ensimmäinen luotettavuusarvo, b) määritetään ensimmäinen kynnysarvo (Y), c) verrataan mainittua ensimmäistä luotettavuusarvoa rr ensimmäiseen kynnysarvoon (Y), d) jos mainittu ensimmäinen luotettavuusarvo on suurempi 15 suuri kuin mainittu ensimmäinen kynnysarvo (Y), valita; komennon tunnistustulokseksi ensimmäisen tunnistu tunnistustulos, e) jos mainittu ensimmäinen luotettavuusarvo on pienet mainittu ensimmäinen kynnysarvo (Y), suoritetaan toinr 20 komennon tunnistusvaihe toistetulle komentosanalle, jos 0 valitaan toisen tunnistusvaiheen tunnistustulos, g) määritetään toisen tunnistusvaiheen tunnistustuloksell luotettavuusarvo, h) verrataan mainittua toista luotettavuusarvoa mainittuun k 25 voon (Y), ;·. i) jos mainittu toinen luotettavuusarvo on suurempi tai ) kuin mainittu ensimmäinen kynnysarvo (Y), valitaan puh' * ·· non tunnistustulokseksi toisen tunnistusvaiheen tunnistus • ψ j) jos mainittu toinen luotettavuusarvo on pienempi kuin * « 30 ensimmäinen kynnysarvo (Y), suoritetaan vertailuvaihi : vertaillaan ensimmäisen ja toisen tunnistusvaiheen tun ··· v : losta sen selvittämiseksi, millä todennäköisyydellä ne o\ 16 1
2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu i mainituissa tunnistusvaiheissa määritetään yhdelle tai use mainitulle komentosanalle todennäköisyys, jolla käyttäjän laus 5 hekomento vastaa mainittua komentosanaa, jolloin mainittujei tusvaiheiden tunnistustulokseksi valitaan se komentosana, joll tetty todennäköisyys on suurin.
3. Patenttivaatimuksen 1 tai 2 mukainen menetelmä, tunne 10 että menetelmässä lisäksi määritetään toinen kynnysarvo^ vaiheet e)—k) suoritetaan vain, mikäli mainittu ensimmäinen vuusarvo on suurempi kuin mainittu toinen kynnysarvo (A).
4. Patenttivaatimuksen 3 mukainen menetelmä, tunnettu s 15 vertailuvaihe j) suoritetaan vain, mikäli mainittu toinen luotetta\ on suurempi kuin mainittu toinen kynnysarvo (A).
5. Jonkin patenttivaatimuksen 1—4 mukainen menetelmä, t siitä, että ensimmäisen luotettavuusarvon määrittämiseksi mä; 20 todennäköisyys sille, että ensimmäinen puhekomento oli tausta jolloin ensimmäinen luotettavuusarvo muodostetaan ensimmäi nistusvaiheen tunnistustulokseksi valitulle komentosanalle m todennäköisyyden ja taustakohinatodennäköisyyden perusteelle
6. Jonkin patenttivaatimuksen 1—5 mukainen menetelmä, I siitä, että toisen luotettavuusarvon määrittämiseksi määritetää näköisyys sille, että toinen puhekomento oli taustakohinaa, jc nen luotettavuusarvo muodostetaan toisen tunnistusvaiheen ti tulokseksi valitulle komentosanalle määritetyn todennäköisy 30 taustakohinatodennäköisyyden perusteella.
• · · • * » : 7. Puheentunnistuslaite, johon on määritetty valittavissa olevien 17 1 välineet (3,5) ensimmäisen luotettavuusarvon lask mainitulle ensimmäisen tunnistusvaiheen tunnistustuloks välineet (5) mainitun ensimmäisen luotettavuusarvon > seksi ennalta määritettyyn ensimmäiseen kynnysarvoor 5 loin puhekomennon tunnistustulokseksi on järjestetty va ensimmäisen tunnistusvaiheen tunnistustulos, jos mai simmäinen luotettavuusarvo on suurempi tai yhtäsuuri f nittu ensimmäinen kynnysarvo (Y), ja välineet (5) toisen puhekomennon tunnistusvaiheen $i 10 seksi toistetulle komentosanalle, jos mainittu ensimmäi tettavuusarvo on pienempi kuin mainittu ensimmäinen k vo (Y), jotka välineet toisen puhekomennon tunnistui suorittamiseksi käsittävät: välineet (3,4, 5) toisen tunnistusvaiheen tunnistustuloki 15 semiseksi, välineet (5) toisen luotettavuusarvon laskemiseksi main sen tunnistusvaiheen tunnistustulokselle, välineet (5) mainitun toisen luotettavuusarvon vertaamia naita määritettyyn ensimmäiseen kynnysarvoon (Y), jolle 20 komennon tunnistustulokseksi on järjestetty valittavat tunnistusvaiheen tunnistustulos, jos mainittu toinen luoti arvo on suurempi tai yhtäsuuri kuin mainittu ensimmäii nysarvo (Y), ja välineet (3, 4, 5) vertailuvaiheen suorittamiseksi, joka 25 vaihe on järjestetty suoritettavaksi, jos mainittu toinen vuusarvo on pienempi kuin mainittu ensimmäinen k j\ vo (Y), ja jotka välineet vertailuvaiheen suorittamiseksi k |...e välineet (3,4, 5) ensimmäisen ja toisen tunnistusvaiheei tustuloksen vertailemiseksi, jolloin vertailuvaiheessa oi 30 tetty vertailtavaksi ensimmäistä ja toista tunnistustulosta : vetämiseksi, millä todennäköisyydellä ne ovat olennais : mat, jolloin todennäköisyyden ylittäessä ennalta määril 18 1
8. Langaton viestin, joka käsittää välineet puhekomentojen tu seksi, johon on määritetty valittavissa olevien komentosanojen jotka välineet puhekomentojen tunnistamiseksi käsittävät vä tunnistukseen käytettävän ajan mittaamiseksi ja vertailemiseks 5 määritettyyn aika-ikkunaan, joka on järjestetty dynaamisesti | täväksi tarvittaessa, ja välineet (3, 4, 5) ensimmäisen tunnistu tunnistustuloksen valitsemiseksi, jolloin välineet puhekoment nistamiseksi käsittävät lisäksi: välineet (3,5) ensimmäisen luotettavuusarvon lask 10 mainitulle ensimmäisen tunnistusvaiheen tunnistustuloks välineet (5) mainitun ensimmäisen luotettavuusarvon i seksi ennalta määritettyyn ensimmäiseen kynnysarvooi loin puhekomennon tunnistustulokseksi on järjestetty va ensimmäisen tunnistusvaiheen tunnistustulos, jos mai 15 simmäinen luotettavuusarvo on suurempi tai yhtäsuuri I nittu ensimmäinen kynnysarvo (Y), ja välineet (5) toisen puhekomennon tunnistusvaiheen si seksi toistetulle komentosanalle, jos mainittu ensimmä tettavuusarvo on pienempi kuin mainittu ensimmäinen k 20 vo (Y), jotka välineet toisen puhekomennon tunnistu suorittamiseksi käsittävät: välineet (3, 4, 5) toisen tunnistusvaiheen tunnistustuloks semiseksi, välineet (5) toisen luotettavuusarvon laskemiseksi main 25 sen tunnistusvaiheen tunnistustulokselle, - välineet (5) mainitun toisen luotettavuusarvon vertaamis ί.# * naita määritettyyn ensimmäiseen kynnysarvoon (Y), jolle komennon tunnistustulokseksi on järjestetty valittavat ♦ · tunnistusvaiheen tunnistustulos, jos mainittu toinen luot* 30 arvo on suurempi tai yhtäsuuri kuin mainittu ensimmäii : nysarvo (Y), ja 0 : - välineet (3,4,5) vertailuvaiheen suorittamiseksi, joka 19 11 vittämiseksi, millä todennäköisyydellä ne ovat olenna mat, jolloin todennäköisyyden ylittäessä ennalta määr von, puhekomennon tunnistustulokseksi on järjestetty v< toisen tunnistusvaiheen tunnistustulos, 5 tunnettu siitä, että välineet puhekomentojen tunnistamiseksi I lisäksi välineet (5) mainitun aika-ikkunan pidentämiseksi, jolle tussa toisessa tunnistusvaiheessa on järjestetty pidennettävä nittua aika-ikkunaa. 4 4 4 44 • 44 • 4 4 #4 • «·· • 4 4 4 Ml • 4 • 4 • # f 9 · · 4 4 4 4 4 4 4 4 4» 4 20
FI990077A 1999-01-18 1999-01-18 Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin FI116991B (fi)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FI990077A FI116991B (fi) 1999-01-18 1999-01-18 Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
DE60024506T DE60024506T2 (de) 1999-01-18 2000-01-18 Verfahren zur mehrstufigen Spracherkennung und Funkübertragungsvorrichtung zur Steuerung durch Sprache
US09/483,770 US6697782B1 (en) 1999-01-18 2000-01-18 Method in the recognition of speech and a wireless communication device to be controlled by speech
EP00660008A EP1020847B1 (en) 1999-01-18 2000-01-18 Method for multistage speech recognition using confidence measures

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI990077A FI116991B (fi) 1999-01-18 1999-01-18 Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
FI990077 1999-01-18

Publications (3)

Publication Number Publication Date
FI990077A0 FI990077A0 (fi) 1999-01-18
FI990077A FI990077A (fi) 2000-07-19
FI116991B true FI116991B (fi) 2006-04-28

Family

ID=8553377

Family Applications (1)

Application Number Title Priority Date Filing Date
FI990077A FI116991B (fi) 1999-01-18 1999-01-18 Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin

Country Status (4)

Country Link
US (1) US6697782B1 (fi)
EP (1) EP1020847B1 (fi)
DE (1) DE60024506T2 (fi)
FI (1) FI116991B (fi)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
US7158935B1 (en) * 2000-11-15 2007-01-02 At&T Corp. Method and system for predicting problematic situations in a automated dialog
WO2002060162A2 (en) * 2000-11-30 2002-08-01 Enterprise Integration Group, Inc. Method and system for preventing error amplification in natural language dialogues
US20020107695A1 (en) * 2001-02-08 2002-08-08 Roth Daniel L. Feedback for unrecognized speech
US6985859B2 (en) 2001-03-28 2006-01-10 Matsushita Electric Industrial Co., Ltd. Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments
EP1262954A1 (en) * 2001-05-30 2002-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for verbal entry of digits or commands
US6792408B2 (en) * 2001-06-12 2004-09-14 Dell Products L.P. Interactive command recognition enhancement system and method
AUPR578801A0 (en) * 2001-06-19 2001-07-12 Syrinx Speech Systems Pty Limited Language assisted recognition module
EP1442451B1 (en) * 2001-10-31 2006-05-03 Koninklijke Philips Electronics N.V. Method of and system for transcribing dictations in text files and for revising the texts
US7295982B1 (en) * 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
JP3826032B2 (ja) * 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
EP1505573B1 (en) * 2002-05-10 2008-09-03 Asahi Kasei Kabushiki Kaisha Speech recognition device
US7788097B2 (en) * 2002-06-06 2010-08-31 Nuance Communications, Inc. Multiple sound fragments processing and load balancing
US20040162116A1 (en) * 2003-02-14 2004-08-19 Lucent Technologies Inc. User programmable voice dialing for mobile handset
DE10341305A1 (de) * 2003-09-05 2005-03-31 Daimlerchrysler Ag Intelligente Nutzeradaption bei Dialogsystemen
TWI225638B (en) * 2003-09-26 2004-12-21 Delta Electronics Inc Speech recognition method
EP1691345A4 (en) * 2003-12-05 2008-08-13 Kenwood Corp DEVICE CONTROLLER, LANGUAGE DETECTION DEVICE, AGENT SETUP, DATA STRUCTURE, AND SETUP CONTROL METHOD
US20060200878A1 (en) * 2004-12-21 2006-09-07 Linda Lutfiyya Recombinant DNA constructs and methods for controlling gene expression
US20060149544A1 (en) * 2005-01-05 2006-07-06 At&T Corp. Error prediction in spoken dialog systems
JP4298672B2 (ja) * 2005-04-11 2009-07-22 キヤノン株式会社 混合分布hmmの状態の出力確率計算方法および装置
US7454352B2 (en) * 2005-05-20 2008-11-18 General Motors Corporation Method and system for eliminating redundant voice recognition feedback
JP4680691B2 (ja) * 2005-06-15 2011-05-11 富士通株式会社 対話システム
CA2618623C (en) * 2005-08-09 2015-01-06 Mobilevoicecontrol, Inc. Control center for a voice controlled wireless communication device system
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
JP4845118B2 (ja) * 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
US7881933B2 (en) * 2007-03-23 2011-02-01 Verizon Patent And Licensing Inc. Age determination using speech
US8140330B2 (en) * 2008-06-13 2012-03-20 Robert Bosch Gmbh System and method for detecting repeated patterns in dialog systems
US20120224711A1 (en) * 2011-03-04 2012-09-06 Qualcomm Incorporated Method and apparatus for grouping client devices based on context similarity
US9570086B1 (en) * 2011-11-18 2017-02-14 Google Inc. Intelligently canceling user input
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9715878B2 (en) * 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
DE102014109122A1 (de) * 2013-07-12 2015-01-15 Gm Global Technology Operations, Llc Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
GB2518002B (en) * 2013-09-10 2017-03-29 Jaguar Land Rover Ltd Vehicle interface system
US9858920B2 (en) * 2014-06-30 2018-01-02 GM Global Technology Operations LLC Adaptation methods and systems for speech systems
WO2016039847A1 (en) * 2014-09-11 2016-03-17 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
US9354687B2 (en) 2014-09-11 2016-05-31 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US9335966B2 (en) 2014-09-11 2016-05-10 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
US9653075B1 (en) 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
JP2017123564A (ja) * 2016-01-07 2017-07-13 ソニー株式会社 制御装置、表示装置、方法及びプログラム
WO2018039045A1 (en) * 2016-08-24 2018-03-01 Knowles Electronics, Llc Methods and systems for keyword detection using keyword repetitions
JP2018116206A (ja) * 2017-01-20 2018-07-26 アルパイン株式会社 音声認識装置、音声認識方法及び音声認識システム
US10410635B2 (en) * 2017-06-09 2019-09-10 Soundhound, Inc. Dual mode speech recognition
CN111833867B (zh) * 2020-06-08 2023-12-05 北京嘀嘀无限科技发展有限公司 语音指令识别方法、装置、可读存储介质和电子设备
CN112151033A (zh) * 2020-09-23 2020-12-29 苏州臻迪智能科技有限公司 一种无人机语音控制方法、装置、电子设备和存储介质
US11830486B2 (en) * 2020-10-13 2023-11-28 Google Llc Detecting near matches to a hotword or phrase
CN115132197B (zh) * 2022-05-27 2024-04-09 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、程序产品及介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
FI97919C (fi) 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
TW323364B (fi) * 1993-11-24 1997-12-21 At & T Corp
US6397180B1 (en) * 1996-05-22 2002-05-28 Qwest Communications International Inc. Method and system for performing speech recognition based on best-word scoring of repeated speech attempts
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6018711A (en) * 1998-04-21 2000-01-25 Nortel Networks Corporation Communication system user interface with animated representation of time remaining for input to recognizer

Also Published As

Publication number Publication date
FI990077A (fi) 2000-07-19
EP1020847A3 (en) 2001-05-02
US6697782B1 (en) 2004-02-24
EP1020847B1 (en) 2005-12-07
EP1020847A2 (en) 2000-07-19
DE60024506T2 (de) 2006-07-27
FI990077A0 (fi) 1999-01-18
DE60024506D1 (de) 2006-01-12

Similar Documents

Publication Publication Date Title
FI116991B (fi) Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
CN110808039B (zh) 信息处理装置、信息处理方法以及记录介质
KR100854044B1 (ko) 음성 인식 시스템에서의 발성 끝 검출
KR970001165B1 (ko) 대화자 훈련의 음성 인식기 및 그 사용방법
CA1204865A (en) Adaptive automatic discrete utterance recognition
US9002709B2 (en) Voice recognition system and voice recognition method
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US10733986B2 (en) Apparatus, method for voice recognition, and non-transitory computer-readable storage medium
JP6654611B2 (ja) 成長型対話装置
US6922668B1 (en) Speaker recognition
US20160240188A1 (en) Speech recognition device and speech recognition method
JPH05181494A (ja) 音声パターンの識別装置と方法
US20210183362A1 (en) Information processing device, information processing method, and computer-readable storage medium
CN104462912B (zh) 改进的生物密码安全
KR20190051600A (ko) 차량의 기능 추천 장치 및 방법
CN110473533B (zh) 语音对话系统、语音对话方法以及程序
JP2016177045A (ja) 音声認識装置および音声認識プログラム
US6721702B2 (en) Speech recognition method and device
JPH10254475A (ja) 音声認識方法
CN110580901A (zh) 语音识别设备、包括该设备的车辆及该车辆控制方法
KR20190056115A (ko) 차량의 음성인식 시스템 및 방법
KR20150035312A (ko) 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체
US10950227B2 (en) Sound processing apparatus, speech recognition apparatus, sound processing method, speech recognition method, storage medium
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JP7172120B2 (ja) 音声認識装置及び音声認識方法

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 116991

Country of ref document: FI

MM Patent lapsed