CZ395397A3 - Způsob a zařízení pro vysílání vzorku hlasu do hlasem aktivovaného systému zpracovávajícího data - Google Patents
Způsob a zařízení pro vysílání vzorku hlasu do hlasem aktivovaného systému zpracovávajícího data Download PDFInfo
- Publication number
- CZ395397A3 CZ395397A3 CZ973953A CZ395397A CZ395397A3 CZ 395397 A3 CZ395397 A3 CZ 395397A3 CZ 973953 A CZ973953 A CZ 973953A CZ 395397 A CZ395397 A CZ 395397A CZ 395397 A3 CZ395397 A3 CZ 395397A3
- Authority
- CZ
- Czechia
- Prior art keywords
- voice
- speech recognition
- recognition system
- user
- transmitting
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000015654 memory Effects 0.000 claims abstract description 27
- 230000004913 activation Effects 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 8
- 230000006837 decompression Effects 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000005284 excitation Effects 0.000 claims 2
- 230000003213 activating effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/20—Individual registration on entry or exit involving the use of a pass
- G07C9/22—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
- G07C9/25—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
- G07C9/257—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
- Arrangements For Transmission Of Measured Signals (AREA)
- Selective Calling Equipment (AREA)
- Machine Translation (AREA)
Description
(57) Anotace:
Zařízení a způsob přenášejí analyzované hlasové vzorky s bezdrátového vysílacího zařízení /220/ uživatelem do vzdáleného hlasem aktivovaného systému /310/ zpracovávajícího data, který v sobě má uložen systém /230/ rozpoznávající řeč. Způsob obsahuje první krok uložení vlastností hlasu uživatele do paměti /např. do čipu RAM/ /226/ v bezdrátovém vysílacím zařízení /220/. Druhý krok obsahuje hlasovou aktivaci vysílacího zařízení /220/ a systému /230/ rozpoznávajícího řeč. Po aktivaci vysílacího zařízení /220/ a systému /230/ rozpoznávajícího řeč, obsahuje třetí krok přenesení vlastností hlasu z paměti /226/ do systému /230/ rozpoznávajícího řeč, čímž je uživateli umožněno verbálně komunikovat přímo s hlasem aktivovaným systémem /310/ zpracovávajícím data.
-PF
V ·· ·· ···· • · · · · • · · · • · · · · · • · · ····· ♦· 6
JUDr. Petr Kalenský advokát
120 00 Praha 2, Hálkova 2 e
Způsob a zařízení pro vysílání vzorku hlasu do hlasem aktivovaného systému zpracovávajícího data
Oblast techniky
Vynález se týká vylepšení v komunikaci se systémy pro rozpoznávání řeči a podrobněji, ale bez omezení, způsobu a zařízení pro vysílání vzorků hlasu do systému rozpoznávajícího řeč, který je závislý na hlase hovořícího člověka systému zpracovávajícího data.
Dosavadní stav techniky
Mluvené slovo hraje v lidské komunikaci a v stroj-člověk důležitou roli.
hlasové pošty, využívají lidskou řeč. Dále, technologie, bude lidská stroj/člověk bezdrátového komunikaci člověk-stroj a moderní systémy video konferencí systémy nápovědy postupně komunikaci představa vyvíj í dokonce větší roli .
tak řeč
Například systémy j ak hrát se
Podrobně bezdrátového informačního stroje,
Stánku o
ATM stroje jako například cestování, (nebo je libovolného obsahuj ícího hovoří do ATM snadno pouze který aniž by do
Avšak benzínové pumpy, prodejního terminálu) systém rozpoznávání řeči, kde uživatel stroje. Tento vynález uvažuje uživatele, a účinně verbálně komunikuje s takovým strojem, stroje musel vkládat karty nebo jiný typ zařízení, nejdříve by měly být projednány některé dodatečné informace o pozadí.
Obvyklé systémy rozpoznávání řeči „poslouchají a rozumí lidské řeči. Avšak za účelem získání přijatelné
0 0 0 · · «i ······
0*0 ···· · · · ···· · · · · · o 0 0*00* ······
Z · · * · ·· · ·
0» 000 0000 ·· · přesnosti rozpoznání hlasu, používají běžné systémy pro rozpoznávání řeči uložený vzorek hlasu uživatele. Uživatel generuje vzorek hlasu přednesením přibližně 30 pozorně složených vět, které zachytí dostatečně vlastnosti hlasu. Vlastnosti hlasu obsahují prozódii hlasu uživatele včetně ... intonace, výšky, modulace a rychlosti. Běžný analyzátor řeči zpracovává vzorek hlasu za účelem odloučení hlasových vzorků pro každý úsek slabiky a určení charakteristických prozodických křivek. Analyzátor řeči používá dobře známé techniky zpracování digitálního signálu, jako například skryté Markovy modely, za účelem generování úseků slabik a prozodických křivek. Proto s uloženým vzorkem hlasu mají běžné systémy pro rozpoznávání řeči stupeň přesnosti okolo 90%. Avšak bylo by neobyčejně nevýhodné opakovat těchto 30 vět pokaždé, kdy si uživatel přeje verbálně komunikovat s bezdrátovým strojem.
S těmito danými informacemi o pozadí by bylo velmi žádoucí a výhodné pro velký počet uživatelů výkonně, účinně a vzdáleně komunikovat řečí s bezdrátovým interaktivním strojem. Avšak musí být vyvinuta technika přístroje, která vyšle analyzovaný vzorek hlasu uživatele do stroje předtím, než může uživatel verbálně komunikovat se strojem s vysokým stupněm přesnosti.
Podstata vynálezu
V prvním ohledu zajišťuje vynález způsob pro vylepšenou hlasovou komunikaci s nejméně jedním vzdáleným hlasem aktivovaným systémem zpracovávajícím data, který má na sobě systém rozpoznávání řeči, obsahující kroky:
(a) uložení vlastností hlasu uživatele do paměti bezdrátového vysílacího zařízení;
(b) odezvou hlasový aktivační příkaz hlasovou aktivaci bezdrátového vysílacího zařízení a vzdáleného systému rozpoznávajícího řeč; a (c) odezvou na aktivaci bezdrátového vysílacího zařízení a systému rozpoznávajícího řeč vysláni vlastností hlasu z paměti do systému rozpoznávajícího řeč, čímž umožní uživateli verbálně komunikovat přímo s hlasem aktivovaným systémem zpracovávajícím data.
Ve druhém ohledu zajišťuje vynález systém vysílající hlas, který umožňuje hlasovou komunikaci se vzdáleným systémem rozpoznávajícím řeč umístěným ve vzdáleném systému zpracovávajícím data, který obsahuje:
bezdrátové vysílací zařízení, které má paměť pro ukládání vlastností hlasu uživatele;
bezdrátové vysílací zařízení a systém rozpoznávájící řeč, který je přizpůsobený k aktivaci odezvou na přijatý hlasový aktivační příkaz bezdrátovým vysílacím zařízením; a bezdrátové vysílací zařízení, vyslání vlastností rozpoznávajícího řeč rozpoznávajícího řeč a hlasu z odezvou které je přizpůsobené k systému systému zařízení, paměti do na aktivaci bezdrátového vysílacího čímž umožní uživateli verbálně komunikovat přímo se systémem rozpoznávajícím řeč.
V upřednostněném počítačem implementovaný vzorky z uživatelem, který má obsahuje uživatele bezdrátového vysílacího vysílacího provedení způsob přenáší vysílacího do vzdáleného systému sobě čtoucí systém první krok uložení do paměti zařízení.
(například
Druhý krok vynálezu, přístroj a analyzované hlasové zařízení, neseného zpracováváj ícího rozpoznávání řeči, skupiny do čipu obsahuje a vzdáleného systému rozpoznávajícího vlastností data, Způsob hlasu
RAM) bezdrátového hlasovou aktivaci zařízení řeč odezvou na hlasový příkaz. Po aktivaci vysílacího zařízení a systému rozpoznávajícího řeč obsahuje třetí krok • ·· ·· · · · · · · · • · · · · · ·· • · ·· ······· ·· · automatické a vzdálené vysláni vlastností hlasu z paměti do systému rozpoznávajícího řeč, což uživateli umožní verbálně komunikovat přímo s hlasem aktivovaným systémem zpracovávajícím data.
Vynález poskytuje vylepšený hlasový přenosový systém, který automaticky vysílá vlastnosti hlasu uživatele do bezdrátového systému zpracovávajícího data odezvou na předem definovaný hlasový příkaz.
Vynález dále zajišťuje přístroj (např. vysílací zařízení) pro ukládání a vyslání vlastností hlasu uživatele do systému zpracovávajícího data a přístroj pro aktivaci systému zpracovávajícího data k tomu, aby čekal a přijímal vlastnosti hlasu.
Přehled obrázků na výkresech
Vynález bude blíže vysvětlen prostřednictvím konkrétních příkladů provedení znázorněných na výkresech, na kterých představuje
obr. 1 | blokový diagram typického hardwarového prostředí pro implementaci tohoto vynálezu. |
obr. 2 | blokový diagram vylepšeného systému vysílajícího hlas podle tohoto vynálezu. |
obr. 3 | schéma bezdrátového vysílacího zařízení nošeného uživatelem pro komunikaci se vzdáleným systémem zpracovávajícím data. |
obr. 4 | blokové schéma pro vyslání vlastností hlasu z bezdrátového vysílacího zařízení do vzdáleného |
- 5 systému zpracovávajícího data.
Příklady provedeni vynálezu
Upřednostňované provedení obsahuje způsob a zařízení pro vzdálené a automatické vyslání hlasového vzorku obsahujícího vlastnosti hlasu uživatele do systému rozeznávajícího řeč.
Upřednostněné provedení je realizováno v počítači laptop nebo eventuelně v pracovní stanici znázorněné na obrázku 1. Pracovní stanice 100 obsahuje základní procesorovou jednotku (CPU) 10, jako například mikroprocesor IBM™ PowerPC™ 601 nebo Intel™ 486, které pracují s rychlou vyrovnávací pamětí 15, pamětí s přímým přístupem (RAM) 14, permanentní pamětí 16 a energeticky nezávislou pamětí RAM (NVRAM) 32 . Jeden nebo více disků 20, řízených I/O adaptérem 18 zajišťují dlouhodobou paměť. Může být zapojeno množství jiných úložných médií včetně pásek a jednotek CDROM a WORM. Mohou být rovněž zajištěna odstranitelná úložná média za účelem ukládání dat nebo počítačových instrukcí pro zpracování.
Instrukce a data ze stolního počítače s jakýmkoli vhodným operačním systémem, jako například Sun Solaris ,
TM TM TM
Microsoft Windows NT , IBM OS/2 , nebo Apple MAC OS , ridi CPU 10 z RAM 14 . Odborník v oboru však snadno pozná, že k implementaci tohoto vynálezu mohou být využity jiné hardwarové platformy a operační systémy.
Uživatelé komunikují s pracovní stanicí 100 pomocí I/O zařízení (tj . uživatelských ovládacích prvků) řízených pomocí adaptéru uživatelského rozhraní 22 . Zobrazovací zařízení 38 zobrazuje informace uživateli, zatímco • ·
- 6 klávesnice 24, ukazovací zařízení 26, vysílací zařízení 30 a reproduktor 28 umožňují uživateli řídit počítačový systém. Eventuelně mohou být využity další typy uživatelských ovládacích prvků, jako například pákový ovladač, dotekem ovládaná obrazovka, nebo souprava k upevnění na hlavu pro virtuální realitu (není ukázána) . Komunikační adaptér 34 ovládá komunikaci mezi tímto počítačovým systémem a jinými zpracovávajícími jednotkami připojenými k síti pomocí síťového adaptéru 40 . Zobrazovací adaptér 36 řídí komunikaci mezi tímto počítačovým systémem a zobrazovacím zařízením 38.
Obrázek 2 znázorňuje blokový diagram úplného systému 200 vysílajícího hlas podle upřednostněného provedení. Vysílací systém 200 obsahuje extraktér 210 znaků hlasu, vysílací zařízení 220 a systém 230 rozpoznávající řeč. Extraktér 210 hlasových znaků se nachází v jakékoli vhodné pracovní stanici, jako například v pracovní stanici 100 (viz. obr. 1) a obsahuje A/D subsystém 204, analyzátor 206 řeči a jednotku 207 komprimace řeči.
Obr. 4 znázorňuje blokové schéma pro vyslání vlastností hlasu z bezdrátového vysílacího zařízení do vzdáleného systému zpracovávajícího data. S odkazem na obrázky 2 a 4, v upřednostňovaném provedení sdělí uživatel vzorek hlasu (např. okolo 30 vět) obsahující dostatek vlastností hlasu hovořící osoby do mikrofonu 202 (krok 410). Vlastnosti hlasu obsahují prozódii hlasu, jako například intonaci, výšku, modulaci a rychlost. Věty tohoto typu jsou odborníkům na poli hlasové syntézy dobře známy. Například jedna věta může být „The quick fox jumped over the lazy brown dog. A/D subsystém 204 (a 222) ovzorkuje a digitalizuje hlasové vzorky a obsahuje jakýkoli vhodný systém převádějící analogový signál na digitální, jako například IBM MACPA (tj. Multimedia Audio Capture and Playback Adaptér), zvukovou kartu Creative Labs Sound Blaster nebo řešení jedním čipem běžný hlasové analyzátor řeči 206 vzorky, aby slabiky a aby křivky (krok 414) . generování úseků známé (krok 412) .
Dále jakýkoli vhodný digitalizované pro každou prozodické používá ke křivek zpracovává hlasové vzorky charakteristické oddělil část analyzátor 206 prozodických digitálního signálu, U.S. patenty 4 961 analyzátory dobře jako
229 řeči.
zj istil
Hlasový slabik a například a 3
816 techniky zpracování skryté Markovy modely. 722 popisují vhodné
Obvod 207 kódování řeči vykonává běžné techniky digitálního kódování za účelem komprimace úseků slabik a prozodických křivek a tím snížení šířky přenosového pásma a nároků na úložný prostor (krok 416). Obvod kódování řeči 207 ukládá výsledné zkomprimované prozodické křivky a úseky slabik do RAM 226 (např. paměti) vysílacího zařízení 220. Odborník pozná, že paměť RAM 226 lze nahradit libovolným vhodným typem paměťového zařízení, jako například proudovou shlukovou pamětí, rychle mazatelnou pamětí, nebo zmenšeným DASD. Vysílací zařízení 220 také obsahuje hlasem aktivovaný mikrofon 221 pro přijímání hlasového aktivačního příkazu, A/D subsystém 222, obvod 224 rozpoznávající řeč, napájení (neukázáno), procesor 228 a vysílací jednotku 229.
Obrázek 3 znázorňuje schéma bezdrátového vysílacího zařízení 220 neseného uživatelem pro komunikaci se vzdáleným systémem 310 zpracovávajícím data. S odkazem na obrázky 2, 3, a 4 v upřednostněném provedení uživatel nosí vysílací zařízení 220, podobně jako se nosí spona. Eventuelně může uživatel podržet vysílací zařízení 220 u svých úst. Pokud si uživatel přeje komunikovat se systémem 230 rozpoznávajícím řeč nacházejícím se ve vzdáleném systému zpracovávajícím data (např. v ATM stroji) 310, uživatel (který nosí vysílací zařízení 220), se přiblíží ke vzdálenému systému 310 zpracovávajícímu data a vysloví hlasový aktivační příkaz (např. „COMPUTER; „LOGON COMPUTER) do hlasem aktivovaného mikrofonu 221 vysílacího zařízení (krok 418) . Je důležité všimnout si, že „bezdrátový znamená, že systém 310 zpracovávající data je bezdrátový vzhledem k vysílacímu zařízeni 220. Hlasem aktivovaný mikrofon 221 detekuje hlasový aktivační příkaz a A/D subsystém 222 ovzorkuje a digitalizuje tento hlasový aktivační příkaz. A/D subsystém 221 pošle digitalizovaný hlasový aktivační příkaz do obvodu 224 rozpoznávajícího řeč.
Obvod 224 (a 234) rozpoznávající řeč obsahuje jakýkoli vhodný obvod rozpoznávající řeč, jako například obvod • · TM i rozpoznávající řeč v produktu IBM Voicetype Dictation nebo Dragon Voice Recognition Systém. Pokud obvod 224 rozeznávající řeč rozezná hlasový aktivační příkaz, vyšle signál, který to sdělí procesoru 228. Jako odezvu procesor 228 vyšle signál do vysílací jednotky 229, aby vyslala hlasový aktivační příkaz do přijímací jednotky 232 systému 230 rozeznávajícího řeč (krok 420) . Vysílací jednotka 229 může být jakýkoli vhodný typ bezdrátové vysílací jednotky (např. laserová, dioda emitující infračervené světlo); avšak v upřednostněném provedení je vysílací jednotka 229 RF vysílač. Procesor 228 posílá krátký signál časové prodlevy do RAM 226, který umožní systému 230 rozeznávajícímu řeč, aby byl probuzen (krok 422).
Systém rozpoznávání řeči 230 obsahuje přijímací jednotku 232, obvod 233 dekomprimace řeči a obvod 234 rozpoznávání řeči, a je umístěn v jakékoli vhodné pracovní stanici, jako například v pracovní stanici 100. Přijímací jednotka 232 posílá přijatý hlasový aktivační příkaz do obvodu 233 dekomprimace řeči, kde je dekomprimován. Obvod 233 dekomprese řeči posílá hlasový aktivační příkaz do • · · • · · φ · · • · · · · · ♦
obvodu 234 rozpoznávání řeči. Pokud obvod rozpoznávání řeči 234 rozezná hlasový aktivační příkaz, je aktivován a čeká na přijetí prozodických křivek a úseků slabik z vysílacího zařízení 220. Proto samotný hlasový aktivační příkaz aktivuje vysílací zařízení 220 a systém 230 rozpoznávání řeči. Proto po krátké časové prodlevě dá procesor 228 pokyn RAM 226 k vyslání pomocí vysílací jednotky 229 a přijímací jednotky 232 prozodických křivek a úseků slabik do obvodu 234 rozpoznávajícího řeč (krok 424 a 426). Obvod 234 rozpoznávající řeč používá tyto prozodické křivky a úseky slabik k rozpoznání hlasu uživatele. Uživatel nemusí mluvit přímo do systému 230 rozpoznávajícího řeč.
Proto upřednostněné provedení vysílá vlastnosti hlasu uživatele do bezdrátového vzdáleného stroje, aniž by uživatel musel dělat cokoli jiného, než vyslovit hlasový aktivační příkaz. Není zapotřebí vkládat žádné karty. Proto může uživatel současně aktivovat více než jeden bezdrátový vzdálený systém zpracovávající data, což nelze provést vložením karty.
I když byl vynález ukázán a popsán s odkazem na jeho konkrétní provedení, odborníci pochopí, že lze provádět předchozí a jiné změny ve formě a detailech v rozsahu vynálezu.
Claims (9)
- PATENTOVÉ NÁROKYJUDr. Petr Kalenský advokát120 00 Praha 2, Hálkova 21. Způsob pro zlepšenou hlasovou komunikaci s nejméně jedním vzdáleným hlasem aktivovaným systémem zpracovávajícím data, který má na sobě systém rozpoznávání řeči, obsahující kroky:(a) uložení vlastností hlasu uživatele do paměti bezdrátového vysílacího zařízení;(b) odezvou na hlasový aktivační příkaz, hlasová aktivace bezdrátového vysílacího zařízení a vzdáleného systému rozpoznávajícího řeč; a (c) odezvou na aktivaci bezdrátového vysílacího zařízení a systému rozpoznávajícího řeč, vyslání vlastností hlasu z paměti do systému rozpoznávajícího řeč, čímž je uživateli umožněno verbálně komunikovat přímo s hlasem aktivovaným systémem zpracovávajícím data.
- 2. Způsob podle nároku 1, kde krok (a) obsahuje kroky:zachycení vzorků hlasu uživatele;digitalizace zachycených vzorků hlasu a tím tvorba digitalizovaného hlasu;vytažení vlastností hlasu z digitalizovaného hlasu s použitím analyzátoru řeči; a uložení vlastností hlasu do paměti.•· •· •· •· • · ?|/2>Τ53·· · · · ······ • · · · · ·· · «· · · · · · • · · · · · · · · • · · · · • · «······ · · ·
- 3. Způsob podle nároku 1 nebo 2, kde krok (b) obsahuje kroky:přijeti bezdrátovým vysílacím zařízením hlasového aktivačního příkazu od uživatele za účelem probuzení vysílacího zařízení; a vyslání hlasového aktivačního příkazu z bezdrátového vysílacího zařízení do systému rozpoznávajícího řeč za účelem probuzení systému rozpoznávajícího řeč.
- 4. Způsob podle nároku 3, kde krok (b) dále obsahuje krok:poslání signálu z procesoru v bezdrátovém vysílacím zařízení do paměti, aby bylo systému rozpoznávajícímu řeč umožněno probudit se před vysíláním vlastností hlasu.
- 5. Způsob podle nároku 4, kde krok (c) obsahuje krok:poslání signálu z procesoru do paměti za účelem přenesení vlastností hlasu do systému rozpoznávajícího řeč.
- 6. Hlasový vysílací systém pro umožnění hlasové komunikace se vzdáleným systémem rozpoznávajícím řeč umístěným ve vzdáleném systému zpracovávajícím data, obsahující:bezdrátové vysílací zařízení, které má paměť pro ukládání vlastností hlasu uživatele;bezdrátové vysílací zařízení a systém rozpoznávající řeč, který je upraven k aktivaci odezvou na přijatý hlasový aktivační příkaz bezdrátovým vysílacím zařízením; a ·· ·· • · • · · • · • · • · · · • · ·· · · · · bezdrátové vysílací zařízení, které je přizpůsobené k vysílání vlastností hlasu z paměti do systému rozeznávajícího řeč, odezvou na aktivaci systému rozpoznávajícího řeč a bezdrátového vysílacího zařízení, čímž umožní uživateli verbálně komunikovat přímo se systémem rozpoznávajícím řeč.Ί. Systém podle nároku 6, dále obsahující:extraktér hlasových znaků pro generování vlastností hlasu ze vzorku hlasu uživatele.
- 8. Systém podle nároku 6 nebo 7, kde bezdrátové vysílací zařízení obsahuje mikrofon pro přijímání hlasového aktivačního příkazu, obvod rozpoznávání řeči pro rozeznávání hlasového aktivačního příkazu a vysílací jednotku pro vyslání přijatého hlasového aktivačního příkazu do systému rozeznávajícího řeč.
- 9. Systém podle nároku 8, kde vysílací jednotka obsahuje RF vysílač.
- 10. Systém podle nároku 8 nebo 9, kde bezdrátové vysílací zařízení dále obsahuje procesor pro řízení paměti a vysílací jednotky.Zastupuje:Dr. Petr Ka120 00 Praha 2, Málkova 2Česká republika ·· · · · · · ······ • · · · ···· ·· · • · · · · ···· • ·· ·· · · · · · · · • · · · ·· · · ·· ·· ······· ·· ·Seznam vztahových značekJUDr. Petr Kalenský advokát120 00 Praha 2, Hálkova 2
10 CPU 226 Paměť RAM 14 Paměť RAM 228 Procesor 15 Rychlá., vyrovnávací 229 Vysílací jednotka paměť 16 Paměť ROM 230 Systém rozpoznávání řeči 18 I/O adaptér 232 Přijímací jednotka 20 Disk 233 Obvod dekomprimace řeči 22 Uživatelské rozhraní 234 Systém rozpoznávání řeči 24 Klávesnice 310 Vzdálený systém 26 Ukazovací zařízení 28 Reproduktor 30 Vysílací zařízení 32 Paměť NVRAM 34 Komunikační adaptér 36 Zobrazovací adaptér 38 Zobrazovací zařízení 40 Síťový adaptér 100 Pracovní stanice 200 Vysílací systém 202 Mikrofon 204 A/D susbsystém 206 Analyzátor řeči 207 Jednotka komprimace řeči 210 Extraktér znaků hlasu 220 Vysílací zařízení 221 Mikrofon 222 A/D susbsystém 224 Systém rozpoznávání řečiJUDr. Petr Kalenský advokát120 00 Praha 2, Hálkova 2 • ··Seznam kroků410 Zachycení vzorků hlasu uživatele412 Digitalizace vzorků hlasu414 Vytažení, vlastností hlasu z digitalizovaného hlasu pomocí analyzátoru řeči416 Komprimace a pak ukládání vlastností hlasu do paměti vysílacího zařízení418 Přijetí budícího příkazu od uživatele do vysílacího zařízení420 Vyslání budícího příkazu z vysílacího zařízení do systému rozpoznávajícího řeč422 Vyslání časové prodlevy z procesoru ve vysílacím zařízení do paměti424 Poslání signálu z procesoru do pamětí, který dá pokyn paměti k vyslání vlastností hlasu do vysílací jednotky426 Vyslání vlastností hlasu z vysílací jednotky do přijímací jednotky systému rozpoznávájícího řeč
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/497,302 US5704009A (en) | 1995-06-30 | 1995-06-30 | Method and apparatus for transmitting a voice sample to a voice activated data processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
CZ395397A3 true CZ395397A3 (cs) | 1999-01-13 |
CZ287316B6 CZ287316B6 (en) | 2000-10-11 |
Family
ID=23976298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CZ19973953A CZ287316B6 (en) | 1995-06-30 | 1996-06-27 | Method and apparatus for improved communication |
Country Status (12)
Country | Link |
---|---|
US (1) | US5704009A (cs) |
EP (1) | EP0836720B1 (cs) |
JP (1) | JP3335178B2 (cs) |
KR (1) | KR100297076B1 (cs) |
CN (1) | CN1095563C (cs) |
CA (1) | CA2220861C (cs) |
CZ (1) | CZ287316B6 (cs) |
DE (1) | DE69606042T2 (cs) |
HU (1) | HUP9801839A3 (cs) |
PL (1) | PL182225B1 (cs) |
TW (1) | TW366483B (cs) |
WO (1) | WO1997002526A1 (cs) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3697748B2 (ja) * | 1995-08-21 | 2005-09-21 | セイコーエプソン株式会社 | 端末、音声認識装置 |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US5940476A (en) | 1996-06-28 | 1999-08-17 | Distributed Software Development, Inc. | System and method for identifying an unidentified caller |
US6205204B1 (en) | 1996-06-28 | 2001-03-20 | Distributed Software Development, Inc. | System and method for identifying an unidentified person using an ambiguity-resolution criterion |
US5901203A (en) | 1996-06-28 | 1999-05-04 | Distributed Software Development, Inc. | Computer-based system and method for identifying an unidentified caller |
US6529881B2 (en) * | 1996-06-28 | 2003-03-04 | Distributed Software Development, Inc. | System and method for identifying an unidentified customer at the point of sale |
US7006605B1 (en) * | 1996-06-28 | 2006-02-28 | Ochopee Big Cypress Llc | Authenticating a caller before providing the caller with access to one or more secured resources |
JPH10178490A (ja) * | 1996-10-15 | 1998-06-30 | Casio Comput Co Ltd | 音声記憶システム |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US7383200B1 (en) | 1997-05-05 | 2008-06-03 | Walker Digital, Llc | Method and apparatus for collecting and categorizing data at a terminal |
US6567787B1 (en) | 1998-08-17 | 2003-05-20 | Walker Digital, Llc | Method and apparatus for determining whether a verbal message was spoken during a transaction at a point-of-sale terminal |
US5987405A (en) * | 1997-06-24 | 1999-11-16 | International Business Machines Corporation | Speech compression by speech recognition |
US6003004A (en) | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
GB9824762D0 (en) * | 1998-11-11 | 1999-01-06 | Ncr Int Inc | Self-service terminal |
US6260016B1 (en) | 1998-11-25 | 2001-07-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing prosody templates |
US6195636B1 (en) | 1999-02-19 | 2001-02-27 | Texas Instruments Incorporated | Speech recognition over packet networks |
US6185533B1 (en) | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
NL1012860C2 (nl) * | 1999-08-19 | 2001-02-20 | Nedap Nv | Boerderijautomatiseringssysteem. |
EP1120752A1 (de) * | 2000-01-24 | 2001-08-01 | Franke & Co. Verwaltungs KG | System zur Kontrolle von Zugangs- bzw. Zugriffsberechtigungen |
DE10003617A1 (de) * | 2000-01-28 | 2001-08-02 | Volkswagen Ag | Verfahren und Vorrichtung zur Spracheingabe bei Autoradios |
EP1542120A4 (en) * | 2002-08-22 | 2006-03-01 | Matsushita Electric Ind Co Ltd | CONTROL SYSTEM, METHOD AND PROGRAM WITH A RHYTHM PATTERN |
US20060173681A1 (en) * | 2005-02-01 | 2006-08-03 | Bae Systems Information And Electronic Systems Integration Inc | Semi-covert emergency transmitter |
US20070083367A1 (en) * | 2005-10-11 | 2007-04-12 | Motorola, Inc. | Method and system for bandwidth efficient and enhanced concatenative synthesis based communication |
US10257191B2 (en) | 2008-11-28 | 2019-04-09 | Nottingham Trent University | Biometric identity verification |
WO2010075623A1 (en) * | 2008-12-31 | 2010-07-08 | Bce Inc. | System and method for unlocking a device |
WO2011082521A1 (en) * | 2010-01-06 | 2011-07-14 | Zoran Corporation | Method and apparatus for voice controlled operation of a media player |
ES2958183T3 (es) | 2011-08-05 | 2024-02-05 | Samsung Electronics Co Ltd | Procedimiento de control de aparatos electrónicos basado en el reconocimiento de voz y de movimiento, y aparato electrónico que aplica el mismo |
KR101262700B1 (ko) * | 2011-08-05 | 2013-05-08 | 삼성전자주식회사 | 음성 인식 및 모션 인식을 이용하는 전자 장치의 제어 방법 및 이를 적용한 전자 장치 |
CN102436813A (zh) * | 2011-12-21 | 2012-05-02 | 成都众询科技有限公司 | 一种可控语音控制系统 |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9135915B1 (en) * | 2012-07-26 | 2015-09-15 | Google Inc. | Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors |
CN106296867B (zh) * | 2015-06-11 | 2019-09-06 | 杭州萤石网络有限公司 | 影像记录设备及其影像标记方法 |
CN107256707B (zh) * | 2017-05-24 | 2021-04-30 | 深圳市冠旭电子股份有限公司 | 一种语音识别方法、系统及终端设备 |
US10283117B2 (en) * | 2017-06-19 | 2019-05-07 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for identification of response cue at peripheral device |
JP7044633B2 (ja) * | 2017-12-28 | 2022-03-30 | シャープ株式会社 | 操作支援装置、操作支援システム、及び操作支援方法 |
CN109065058B (zh) * | 2018-09-30 | 2024-03-15 | 合肥鑫晟光电科技有限公司 | 语音通信方法、装置及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0633520B1 (en) * | 1993-07-01 | 2000-09-20 | Koninklijke Philips Electronics N.V. | Remote control having voice input |
US5657425A (en) * | 1993-11-15 | 1997-08-12 | International Business Machines Corporation | Location dependent verbal command execution in a computer based control system |
AU1298995A (en) * | 1993-12-01 | 1995-06-19 | Nhc Corporation | Wireless remote switching system |
US5444673A (en) * | 1994-07-12 | 1995-08-22 | Mathurin; Trevor S. | Audio controlled and activated wristwatch memory aid device |
-
1995
- 1995-06-30 US US08/497,302 patent/US5704009A/en not_active Expired - Lifetime
-
1996
- 1996-05-15 TW TW085105742A patent/TW366483B/zh active
- 1996-06-27 DE DE69606042T patent/DE69606042T2/de not_active Expired - Lifetime
- 1996-06-27 CZ CZ19973953A patent/CZ287316B6/cs not_active IP Right Cessation
- 1996-06-27 PL PL96324025A patent/PL182225B1/pl unknown
- 1996-06-27 KR KR1019970708903A patent/KR100297076B1/ko not_active IP Right Cessation
- 1996-06-27 EP EP96920991A patent/EP0836720B1/en not_active Expired - Lifetime
- 1996-06-27 JP JP50490997A patent/JP3335178B2/ja not_active Expired - Fee Related
- 1996-06-27 CN CN96195188A patent/CN1095563C/zh not_active Expired - Lifetime
- 1996-06-27 WO PCT/GB1996/001544 patent/WO1997002526A1/en active IP Right Grant
- 1996-06-27 HU HU9801839A patent/HUP9801839A3/hu unknown
- 1996-06-27 CA CA002220861A patent/CA2220861C/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR100297076B1 (ko) | 2001-08-07 |
JP3335178B2 (ja) | 2002-10-15 |
PL182225B1 (pl) | 2001-11-30 |
CN1095563C (zh) | 2002-12-04 |
US5704009A (en) | 1997-12-30 |
EP0836720B1 (en) | 2000-01-05 |
WO1997002526A1 (en) | 1997-01-23 |
HUP9801839A3 (en) | 2002-09-30 |
CA2220861A1 (en) | 1997-01-23 |
DE69606042T2 (de) | 2000-10-26 |
JPH10507559A (ja) | 1998-07-21 |
HUP9801839A2 (hu) | 1998-11-30 |
PL324025A1 (en) | 1998-05-11 |
TW366483B (en) | 1999-08-11 |
KR19990022423A (ko) | 1999-03-25 |
DE69606042D1 (de) | 2000-02-10 |
CA2220861C (en) | 2002-11-05 |
CZ287316B6 (en) | 2000-10-11 |
EP0836720A1 (en) | 1998-04-22 |
CN1189900A (zh) | 1998-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CZ395397A3 (cs) | Způsob a zařízení pro vysílání vzorku hlasu do hlasem aktivovaného systému zpracovávajícího data | |
US5696879A (en) | Method and apparatus for improved voice transmission | |
US9430467B2 (en) | Mobile speech-to-speech interpretation system | |
EP0860811A2 (en) | Automated speech alignment for image synthesis | |
US5615296A (en) | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors | |
US5208897A (en) | Method and apparatus for speech recognition based on subsyllable spellings | |
US7124082B2 (en) | Phonetic speech-to-text-to-speech system and method | |
US6167376A (en) | Computer system with integrated telephony, handwriting and speech recognition functions | |
EP1045373A3 (en) | Method for goal-oriented speech translation using meaning extraction and dialogue | |
US20030182113A1 (en) | Distributed speech recognition for mobile communication devices | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
US20020198716A1 (en) | System and method of improved communication | |
KR20200027331A (ko) | 음성 합성 장치 | |
US20030009342A1 (en) | Software that converts text-to-speech in any language and shows related multimedia | |
EP0472193A2 (en) | Translation device based on voice recognition and voice synthesis | |
KR950014504B1 (ko) | 전자문서를 음성 처리하는 휴대용 컴퓨터 디바이스 | |
Brown et al. | Video mail retrieval by voice: An overview of the Cambridge/Olivetti retrieval system | |
US5222188A (en) | Method and apparatus for speech recognition based on subsyllable spellings | |
JP2010128766A (ja) | 情報処理装置、情報処理方法、プログラム及び記憶媒体 | |
JPH09319297A (ja) | 音声筆談器 | |
Sun et al. | An adaptable speech system for MS-DOS based personal computers | |
JPS5957298A (ja) | 音声入力方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PD00 | Pending as of 2000-06-30 in czech republic | ||
MM4A | Patent lapsed due to non-payment of fee |
Effective date: 20040627 |