CZ287316B6

CZ287316B6 - Method and apparatus for improved communication

Info

Publication number: CZ287316B6
Application number: CZ19973953A
Authority: CZ
Inventors: Troy Lee Cline; Scott Harlan Isensee; Ricky Lee Poston; Jon Harald Werner
Original assignee: Ibm
Priority date: 1995-06-30
Filing date: 1996-06-27
Publication date: 2000-10-11
Also published as: WO1997002526A1; DE69606042T2; CN1095563C; TW366483B; EP0836720A1; JPH10507559A; CA2220861A1; DE69606042D1; EP0836720B1; KR100297076B1; KR19990022423A; US5704009A; CN1189900A; PL324025A1; HUP9801839A3; JP3335178B2; HUP9801839A2; CA2220861C; CZ395397A3; PL182225B1

Description

Způsob a systém pro zlepšenou komunikaci

Oblast techniky

Vynález se týká vylepšení v komunikaci se systémy pro rozpoznávání řeči a podrobněji, ale bez omezení, způsobu a zařízení pro vysílání vzorků hlasu do systému rozpoznávajícího řeč, který je závislý na hlase hovořícího člověka systému zpracovávajícího data.

Dosavadní stav techniky

Mluvené slovo hraje v lidské komunikaci a v komunikaci člověk-stroj a stroj-člověk důležitou roli. Například moderní systémy hlasové pošty, systémy nápovědy a systémy video konferencí využívají lidskou řeč. Dále, tak jak se postupně vyvíjí technologie, bude lidská řeč hrát v komunikaci stroj/člověk dokonce větší roli. Podrobně je představa bezdrátového ATM stroje (nebo libovolného bezdrátového stroje, jako například benzínové pumpy, informačního Stánku o cestování, prodejního terminálu) obsahujícího systém rozpoznávání řeči, kde uživatel pouze hovoří do ATM stroje. Tento vynález uvažuje uživatele, který snadno a účinně verbálně komunikuje s takovým strojem, aniž by do stroje musel vkládat karty nebo jiný typ zařízení. Avšak nejdříve by měly být projednány některé dodatečné informace o pozadí.

Obvyklé systémy rozpoznávání řeči „poslouchají“ a rozumí lidské řeči. Avšak za účelem získání přijatelné přesnosti rozpoznání hlasu, používají běžné systémy pro rozpoznávání řeči uložený vzorek hlasu uživatele. Uživatel generuje vzorek hlasu přednesením přibližně 30 pozorně složených vět, které zachytí dostatečně vlastnosti hlasu. Vlastnosti hlasu obsahují prozódii hlasu uživatele včetně intonace, výšky, modulace a rychlosti. Běžný analyzátor řeči zpracovává vzorek hlasu za účelem odloučení hlasových vzorků pro každý úsek slabiky a určení charakteristických prozodických křivek. Analyzátor řeči používá dobře známé techniky zpracování digitálního signálu, jako například skryté Markovy modely, za účelem generování úseků slabik a prozodických křivek. Proto s uloženým vzorkem hlasu mají běžné systémy pro rozpoznávání řeči stupeň přesnosti okolo 90 %. Avšak bylo by neobyčejně nevýhodné opakovat těchto 30 vět pokaždé, kdy si uživatel přeje verbálně komunikovat s bezdrátovým strojem.

S těmito danými informacemi o pozadí by bylo velmi žádoucí a výhodné pro velký počet uživatelů výkonně, účinně a vzdáleně komunikovat řečí s bezdrátovým interaktivním strojem. Avšak musí být vyvinuta technika přístroje, která vyšle analyzovaný vzorek hlasu uživatele do stroje předtím, než může uživatel verbálně komunikovat se strojem s vysokým stupněm přesnosti.

Evropský patent EP 0633520 zveřejňuje multimediální zařízení zpracovávající data obsahující vizuální zobrazovací zařízení a uživatelské rozhraní s prostředky hlasového vstupu a ručně aktivovatelnými prostředky dálkového ovládání integrovanými do jednotky vzdáleného ovládání. Diskrétní manipulační řídicí signály a signály hlasového vstupu se používají k výběru a dočasnému komentování zobrazovaných obrázků.

Podstata vynálezu

V prvním ohledu zajišťuje vynález způsob pro vylepšenou hlasovou komunikaci s nejméně jedním vzdáleným hlasem aktivovaným systémem zpracovávajícím data, který má na sobě systém rozpoznávání řeči, obsahující kroky:

(a) uložení vlastností hlasu uživatele do paměti bezdrátového vysílacího zařízení;

-1 CZ 287316 B6 (b) odezvou hlasový aktivační příkaz hlasovou aktivaci bezdrátového vysílacího zařízení a vzdáleného systému rozpoznávajícího řeč; a (c) odezvou na aktivaci bezdrátového vysílacího zařízení a systému rozpoznávajícího řeč vyslání vlastností hlasu zpaměti do systému rozpoznávajícího řeč, čímž umožní uživateli verbálně komunikovat přímo s hlasem aktivovaným systémem zpracovávajícím data.

Ve druhém ohledu zajišťuje vynález systém vysílající hlas, který umožňuje hlasovou komunikaci se vzdáleným systémem rozpoznávajícím řeč umístěným ve vzdáleném systému zpracovávajícím data, který obsahuje:

bezdrátové vysílací zařízení, které má paměť pro ukládání vlastností hlasu uživatele, bezdrátové vysílací zařízení a systém rozpoznávající řeč, který je přizpůsobený k aktivaci odezvou na přijatý hlasový aktivační příkaz bezdrátovým vysílacím zařízením; a bezdrátové vysílací zařízení, které je přizpůsobené k vyslání vlastností hlasu z paměti do systému rozpoznávajícího řeč odezvou na aktivaci systému rozpoznávajícího řeč a bezdrátového vysílacího zařízení, čímž umožní uživateli verbálně komunikovat přímo se systémem rozpoznávajícím řeč.

V upřednostněném provedení vynálezu, přístroj a počítačem implementovaný způsob přenáší analyzované hlasové vzorky z bezdrátového vysílacího zařízení, neseného uživatelem, do vzdáleného systému zpracovávajícího data, který má v sobě čtoucí systém rozpoznávání řeči. Způsob obsahuje první krok uložení skupiny vlastností hlasu uživatele do paměti (například do čipu RAM) bezdrátového vysílacího zařízení. Druhý krok obsahuje hlasovou aktivaci vysílacího zařízení a vzdáleného systému rozpoznávajícího řeč odezvou na hlasový příkaz. Po aktivaci vysílacího zařízení a systému rozpoznávajícího řeč obsahuje třetí krok automatické a vzdálené vyslání vlastností hlasu z paměti do systému rozpoznávajícího řeč, což uživateli umožní verbálně komunikovat přímo s hlasem aktivovaným systémem zpracovávajícím data.

Vynález poskytuje vylepšený hlasový přenosový systém, který automaticky vysílá vlastnosti hlasu uživatele do bezdrátového systému zpracovávajícího data odezvou na předem definovaný hlasový příkaz.

Vynález dále zajišťuje přístroj (např. vysílací zařízení) pro ukládání a vyslání vlastností hlasu uživatele do systému zpracovávajícího data a přístroj pro aktivaci systému zpracovávajícího data k tomu, aby čekal a přijímal vlastnosti hlasu.

Přehled obrázků na výkresech

Vynález bude blíže vysvětlen prostřednictvím konkrétních příkladů provedení znázorněných na výkresech, na kterých představuje obr. 1 blokový diagram typického hardwarového prostředí pro implementaci tohoto vynálezu.

obr. 2 blokový diagram vylepšeného systému vysílajícího hlas podle tohoto vynálezu.

obr. 3 schéma bezdrátového vysílacího zařízení nošeného uživatelem pro komunikaci se vzdáleným systémem zpracovávajícím data.

-2CZ 287316 B6 obr. 4 blokové schéma pro vyslání vlastností hlasu z bezdrátového vysílacího zařízení do vzdáleného systému zpracovávajícího data.

Příklady provedení vynálezu

Upřednostňované provedení obsahuje způsob a zařízení pro vzdálené a automatické vyslání hlasového vzorku obsahujícího vlastnosti hlasu uživatele do systému rozeznávajícího řeč.

Upřednostněné provedení je realizováno v počítači laptop nebo eventuelně v pracovní stanici znázorněné na obrázku 1. Pracovní stanice 100 obsahuje základní procesorovou jednotku (CPU) 10, jako například mikroprocesor IBM™ PowerPC™ 601 nebo Intel™ 486, které pracují s rychlou vyrovnávací pamětí 15, pamětí s přímým přístupem (RAM) 14, permanentní pamětí 16 a energeticky nezávislou pamětí RAM (NVRAM) 32 . Jeden nebo více disků 20, řízených I/O 15 adaptérem 18 zajišťují dlouhodobou paměť. Může být zapojeno množství jiných úložných médií včetně pásek a jednotek CD-ROM a WORM. Mohou být rovněž zajištěna odstranitelná úložná média za účelem ukládání dat nebo počítačových instrukcí pro zpracování.

Instrukce a data ze stolního počítače s jakýmkoli vhodným operačním systémem, jako například 20 Sun Solaris™, Microsoft Windows NT™, IBM OS/2™, nebo Apple MAC OS™, řídí CPU JO z RAM 14. Odborník v oboru však snadno pozná, že k implementaci tohoto vynálezu mohou být využity jiné hardwarové platformy a operační systémy.

Uživatelé komunikují s pracovní stanicí 100 pomocí I/O zařízení (tj. uživatelských ovládacích 25 prvků) řízených pomocí adaptéru uživatelského rozhraní 22. Zobrazovací zařízení 38 zobrazuje informace uživateli, zatímco klávesnice 24, ukazovací zařízení 26, vysílací zařízení 30 a reproduktor 28 umožňují uživateli řídit počítačový systém. Eventuelně mohou být využity další typy uživatelských ovládacích prvků, jako například pákový ovladač, dotekem ovládaná obrazovka, nebo souprava k upevnění na hlavu pro virtuální realitu (není ukázána). Komunikační 30 adaptér 34 ovládá komunikaci mezi tímto počítačovým systémem a jinými zpracovávajícími jednotkami připojenými k síti pomocí síťového adaptéru 40. Zobrazovací adaptér 36 řídí komunikaci mezi tímto počítačovým systémem a zobrazovacím zařízením 38.

Obrázek 2 znázorňuje blokový diagram úplného systému 200 vysílajícího hlas podle upřednost35 něného provedení. Vysílací systém 200 obsahuje extraktér 210 znaků hlasu, vysílací zařízení 220 a systém 230 rozpoznávající řeč. Extraktér 210 hlasových znaků se nachází v jakékoli vhodné pracovní stanici, jako například v pracovní stanici 100 (viz. obr. 1) a obsahuje A/D subsystém 204, analyzátor 206 řeči a jednotku 207 komprimace řeči.

Obr. 4 znázorňuje blokové schéma pro vyslání vlastností hlasu z bezdrátového vysílacího zařízení do vzdáleného systému zpracovávajícího data. S odkazem na obrázky 2 a 4, v upřednostňovaném provedení sdělí uživatel vzorek hlasu (např. okolo 30 vět) obsahující dostatek vlastností hlasu hovořící osoby do mikrofonu 202 (krok 410). Vlastnosti hlasu obsahují prozódii hlasu, jako například intonaci, výšku, modulaci a lychlost. Věty tohoto typu jsou odborníkům na poli 45 hlasové syntézy dobře známy. Například jedna věta může být „The quick fox jumped over the lazy brown dog.“ A/D subsystém 204 (a 222) ovzorkuje a digitalizuje hlasové vzorky a obsahuje jakýkoli vhodný systém převádějící analogový signál na digitální, jako například IBM MACPA (tj. Multimedia Audio Capture and Playback Adaptér), zvukovou kartu Creative Labs Sound Blaster nebo řešení jedním čipem (krok 412).

Dále jakýkoli vhodný běžný analyzátor řeči 206 zpracovává digitalizované hlasové vzorky, aby oddělil hlasové vzorky pro každou část slabiky a aby zjistil charakteristické prozodické křivky (krok 414). Hlasový analyzátor 206 používá ke generování úseků slabik a prozodických křivek

-3 CZ 287316 B6 dobře známé techniky zpracování digitálního signálu, jako například skryté Markovy modely. U.S. patenty 4 961 229 a 3 816 722 popisují vhodné analyzátory řeči.

Obvod 207 kódování řeči vykonává běžné techniky digitálního kódování za účelem komprimace úseků slabik a prozodických křivek a tím snížení šířky přenosového pásma a nároků na úložný prostor (krok 416). Obvod kódování řeči 207 ukládá výsledné zkomprimované prozodické křivky a úseky slabik do RAM 226 (např. paměti) vysílacího zařízení 220. Odborník pozná, že paměť RAM 226 lze nahradit libovolným vhodným typem paměťového zařízen jako například proudovou shlukovou pamětí, rychle mazatelnou pamětí, nebo zmenšeným DASD. Vysílací zařízení 220 také obsahuje hlasem aktivovaný mikrofon 221 pro přijímání hlasového aktivačního příkazu. A/D subsystém 222, obvod 224 rozpoznávající řeč, napájení (neukázáno), procesor 228 a vysílací jednotku 229.

Obrázek 3 znázorňuje schéma bezdrátového vysílacího zařízení 220 neseného uživatelem pro komunikaci se vzdáleným systémem 310 zpracovávajícím data. S odkazem na obrázky 2, 3, a 4 v upřednostněném provedení uživatel nosí vysílací zařízení 220. podobně jako se nosí spona. Eventuelně může uživatel podržet vysílací zařízení 220 u svých úst. Pokud si uživatel přeje komunikovat se systémem 230 rozpoznávajícím řeč nacházejícím se ve vzdáleném systému zpracovávajícím data (např. v ATM stroji) 310, uživatel (který nosí vysílací zařízení 220), se přiblíží ke vzdálenému systému 310 zpracovávajícímu data a vysloví hlasový aktivační příkaz (např. „COMPUTER“; „LOGON COMPUTER“) do hlasem aktivovaného mikrofonu 221 vysílacího zařízení (krok 418). Je důležité všimnout si, že „bezdrátový“ znamená, že systém 310 zpracovávající data je bezdrátový vzhledem k vysílacímu zařízení 220. Hlasem aktivovaný mikrofon 221 detekuje hlasový aktivační příkaz a A/D subsystém 222 ovzorkuje a digitalizuje tento hlasový aktivační příkaz. A/D subsystém 222 pošle digitalizovaný hlasový aktivační příkaz do obvodu 224 rozpoznávajícího řeč.

Obvod 224 (a 234) rozpoznávající řeč obsahuje jakýkoli vhodný obvod rozpoznávající řeč, jako například obvod rozpoznávající řeč v produktu IBM Voicetype Dictation™ nebo Dragon Voice Recognition Systém. Pokud obvod 224 rozeznávající řeč rozezná hlasový aktivační příkaz, vyšle signál, který to sdělí procesoru 228. Jako odezvu procesor 228 vyšle signál do vysílací jednotky 229, aby vyslala hlasový aktivační příkaz do přijímací jednotky 232 systému 230 rozeznávajícího řeč (krok 420). Vysílací jednotka 229 může být jakýkoli vhodný typ bezdrátové vysílací jednotky (např. laserová, dioda emitující infračervené světlo); avšak v upřednostněném provedení je vysílací jednotka 229 RF vysílač. Procesor 228 posílá krátký signál časové prodlevy do RAM 226, který umožní systému 230 rozeznávajícímu řeč, aby byl probuzen (krok 422).

Systém rozpoznávání řeči 230 obsahuje přijímací jednotku 232, obvod 233 dekomprimace řeči a obvod 234 rozpoznávání řeči, a je umístěn v jakékoli vhodné pracovní stanici, jako například v pracovní stanici 100. Přijímací jednotka 232 posílá přijatý hlasový aktivační příkaz do obvodu 233 dekomprimace řeči, kde je dekomprimován. Obvod 233 dekomprimace řeči posílá hlasový aktivační příkaz do obvodu 234 rozpoznávání řeči. Pokud obvod rozpoznávání řeči 234 rozezná hlasový aktivační příkaz, je aktivován a čeká na přijetí prozodických křivek a úseků slabik z vysílacího zařízení 220. Proto samotný hlasový aktivační příkaz aktivuje vysílací zařízení 220 a systém 230 rozpoznávání řeči. Proto po krátké časové prodlevě dá procesor 228 pokyn RAM 226 k vyslání pomocí vysílací jednotky 229 a přijímací jednotky 232 prozodických křivek a úseků slabik do obvodu 234 rozpoznávajícího řeč (krok 424 a 426). Obvod 234 rozpoznávající řeč používá tyto prozodické křivky a úseky slabik k rozpoznání hlasu uživatele. Uživatel nemusí mluvit přímo do systému 230 rozpoznávajícího řeč.

Proto upřednostněné provedení vysílá vlastnosti hlasu uživatele do bezdrátového vzdáleného stroje, aniž by uživatel musel dělat cokoli jiného, než vyslovit hlasový aktivační příkaz. Není zapotřebí vkládat žádné karty. Proto může uživatel současně aktivovat více než jeden bezdrátový vzdálený systém zpracovávající data, což nelze provést vložením karty.

-4CZ 287316 B6

I když byl vynález ukázán a popsán s odkazem na jeho konkrétní provedení, odborníci pochopí, že lze provádět předchozí a jiné změny ve formě a detailech v rozsahu vynálezu.

Claims

PATENTOVÉ NÁROKY

1. Způsob pro zlepšenou komunikaci mezi uživatelem a alespoň jedním vzdáleným hlasem aktivovaným systémem (310) zpracovávajícím data, který má na sobě systém (230) rozpoznávání řeči, vyznačující se tím, že obsahuje kroky:

uložení vlastností hlasu uživatele do paměti (226) bezdrátového vysílacího zařízení (220);

hlasová aktivace bezdrátového vysílacího zařízení (220) a vzdáleného systému (230) rozpoznávajícího řeč odezvou na hlasový aktivační příkaz; a vyslání vlastností hlasu z paměti (226) do systému (230) rozpoznávajícího řeč odezvou na krok aktivace, čímž je uživateli umožněno verbálně komunikovat přímo s hlasem aktivovaným systémem (310) zpracovávajícím data.
2. Způsob podle nároku 1, vyznačující se t í m , že krok uložení obsahuje kroky:

zachycení (410) vzorků hlasu uživatele;

digitalizace (412) zachycených vzorků hlasu;

vytažení (414) vlastností hlasu ze vzorku hlasu s použitím analyzátoru (206) řeči; a uložení (416) vlastností hlasu do paměti (226).
3. Způsob podle nároku 1 nebo 2, vyznačující se tím, že kde krok aktivace obsahuje kroky:

přijetí (418) bezdrátovým vysílacím zařízením (220) hlasového aktivačního příkazu od uživatele za účelem aktivace bezdrátového vysílacího zařízení (220); a poslání (420) hlasového aktivačního příkazu z bezdrátového vysílacího zařízení (220) do systému (230) rozpoznávajícího řeč za účelem aktivace systému (230) rozpoznávajícího řeč.
4. Způsob podle nároku 3, vyznačující se t í m, že krok aktivace dále obsahuje krok:

poslání (422) signálu z procesoru (228) v bezdrátovém vysílacím zařízení (220) do paměti (226), aby bylo systému (230) rozpoznávajícímu řeč umožněno aktivovat se před vysíláním vlastností hlasu.
5. Způsob podle nároku 4, vyznačující se tím, že krok vyslání obsahuje krok:

poslání (424) signálu z procesoru (228) do paměti (226) za účelem přenesení vlastností hlasu do systému (230) rozpoznávajícího řeč.

-5CZ 287316 B6
6. Systém pro zlepšenou komunikaci mezi uživatelem a alespoň jedním vzdáleným hlasem aktivovaným systémem (310) zpracovávajícím data, který má v sobě systém (230) rozpoznávání řeči, vyznačující se tím, že obsahuje:

bezdrátové vysílací zařízení (220), které je přizpůsobené k aktivaci odezvou na hlasový aktivační příkaz od uživatele a které má paměť (226) připojenou k vysílací jednotce (229) a procesor (228) připojený k paměti (226) a vysílací jednotce (229), přičemž procesor je přizpůsoben k řízení paměti (226) a vysílací jednotky (229) kvůli vysílání hlasového aktivačního příkazu a vlastností hlasu z paměti (226) do systému (230) rozpoznávající řeč a systém (230) rozpoznávající řeč, který má přijímací jednotku (232), připojenou k obvodu (234) pro rozpoznávání řeči, přičemž obvod (234) pro rozpoznávání řeči je přizpůsoben tak, aby se aktivoval odezvou na hlasový aktivační příkaz přijatý přijímací jednotkou (232).
7. Systém podle nároku 6, vyznačující se tím, že dále obsahuje:

extraktér (210) hlasových znaků.
8. Systém podle nároku 6 nebo 7, vyznačující se tím, že bezdrátové vysílací zařízení (220) obsahuje mikrofon (221) připojený k obvodu (224) rozpoznávání řeči, který je připojen k procesoru (228).
9. Systém podle nároku 8, vyznačující se tím, že vysílací jednotka (229) obsahuje VF vysílač.
10. Systém podle nároku 8 nebo 9, vyznačující se tím, že bezdrátové vysílací zařízení (220) dále obsahuje procesor (228) pro řízení paměti (226) a vysílací jednotky (229).