CZ297095B6 - Zpusob a zarízení ke zvýsení pravdepodobnosti rozeznávání rozeznávacích systému reci - Google Patents

Zpusob a zarízení ke zvýsení pravdepodobnosti rozeznávání rozeznávacích systému reci Download PDF

Info

Publication number
CZ297095B6
CZ297095B6 CZ20002854A CZ20002854A CZ297095B6 CZ 297095 B6 CZ297095 B6 CZ 297095B6 CZ 20002854 A CZ20002854 A CZ 20002854A CZ 20002854 A CZ20002854 A CZ 20002854A CZ 297095 B6 CZ297095 B6 CZ 297095B6
Authority
CZ
Czechia
Prior art keywords
term
recognition
terms
speech
stored
Prior art date
Application number
CZ20002854A
Other languages
English (en)
Other versions
CZ20002854A3 (en
Inventor
Kausche@Ulrich
Roland Rast@Herbert
Runge@Fred
Original Assignee
T-Mobile Deutschland Gmbh
Deutsche Telekom Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by T-Mobile Deutschland Gmbh, Deutsche Telekom Ag filed Critical T-Mobile Deutschland Gmbh
Publication of CZ20002854A3 publication Critical patent/CZ20002854A3/cs
Publication of CZ297095B6 publication Critical patent/CZ297095B6/cs

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Abstract

Zpusob spocívá v tom, ze po zadání pojmu, který je treba rozeznat, se podle volby uskutecnuje dodatecné procvicování stejne znejících, jiz ulozených pojmu. Tím se dosahuje, ze rychlost rozeznávání sei v akusticky rusených prostredích zlepsuje.

Description

Oblast techniky
Vynález se týká způsobu a zařízení ke zvýšení pravděpodobnosti rozeznávání rozeznávacích systémů řeči.
Dosavadní stav techniky ------Rozeznávací systémy řeči se dnes používají především v počítačích, komunikačních systémech a jiných technických přístrojích, kde záleží na snadnosti obsluhy nebo na rychlém zadávání dat. Dosud známé systémy, ale nejsou vyzrálé a pracují chybně, zejména když se mají provozovat 15 v akusticky rušených prostředích. Slovo, které je třeba rozeznat, se potom rozeznává špatně, nebo vůbec ne. Toto vyžaduje od uživatele několikanásobné opakování slova, které je třeba rozeznat, což při častém výskytu chyby rozeznávání vede k neočekávaným zpožděním.
Dokument US-A-5 617 468 zveřejňuje způsob ke zvýšení pravděpodobnosti rozeznání rozezná20 vacích systémů řeči, u kterého se po zadání pojmu, který je třeba rozeznat, uskutečňuje dodatečné procvičování stejně znějícího, již uloženého pojmu na základě zadaného pojmu. Tento způsob nepřipouští v akusticky proměnlivých prostředcích bezpečné rozeznání řeči.
Dokument EP-A-0 241 163 se týká rozeznávacího způsobu řeči, který uživatele upozorňuje na to, když je pojem, který je třeba rozeznat, již uložen v podobném tvaru v rozeznávacím systému řeči a může dojít k záměně mezi oběma pojmy. Bezpečné rozeznávání pojmů v proměnlivém akustickém prostředí tento způsob také nenabízí.
Předkládaný vynález má proto za úkol, takovým způsobem navrhnout způsob k rozeznávání řeči, 30 že uživatelsky přátelským způsobem zvyšuje pravděpodobnost rozeznávání, závislou na mluvící osobě, zejména v akusticky rušených prostředích.
Podstata vynálezu
Tento úkol se řeší charakteristickými znaky patentového nároku 1.
Přednostní variace a další provedení vynálezu jsou předmětem závislých patentových nároků.
Podle vynálezu se pro rozeznávací systémy řeči navrhuje dodatečné procvičování vzorků řeči nově zadaných, možná že špatně rozeznaných nebo vůbec nerozeznaných pojmů. Dodatečné procvičování znamená, že špatně nebo vůbec nerozeznaný pojem se po opakovaném zadání jednoduše nepřepisuje, nýbrž se porovnává a koreluje s dříve zadanými pojmy, popř. se doplňuje novým vzorkem, aby se tak pro rozeznávání pojmu redukovaly nebo potlačily nedůležité vzorky nebo vedlejší šumy. Vynález je myšlen zejména pro použití v rozeznávacích systémech řeči, které pracují v akusticky rušených prostorech, např. v mobilních radiotelefonních přístrojích, telefonech atd.
U úspěšného rozeznávání pojmu, uloženého již jako vzorek řeči, se uložený vzorek řeči dodateč50 ně procvičuje s nově zaznamenaným. Toto dodatečné procvičování se uskutečňuje při úspěšném rozeznávání každého již zaznamenaného pojmu n-krát, přičemž počet proběhnutí je volně nastavitelný a nechá se kdykoliv změnit. Pomocí tohoto dodatečného procvičování se dosahuje trvalého zmenšení vlivu proměnlivých vedlejších šumů na vlastní, konstantní vzorek řeči nějakého slova.
- 1 CZ 297095 B6
Při nejistém rozeznání slova se uskutečňuje nový požadavek na zadání, který se používá k dodatečnému procvičování. Také zde je maximální počet proběhnutí volně nastavitelný a kdykoliv se nechá změnit. Když dává porovnání zadaného vzorku řeči s uloženým vzorkem řeči podobnou nebo málo rozdílnou pravděpodobnost rozeznávání pro několik uložených pojmů, zahrají se tyto 5 pojmy uživateli systému a požaduje se po něm, aby pojem, zadaný na začátku, řekl ještě jednou.
U potom úspěšného rozeznávání se dodatečné procvičování přerušuje. Z důvodu přehlednosti se upřednostňuje, u nejistého rozeznání, omezit počet pojmů, vydaných systémem a přicházejících do úvahy, na předem daný počet a omezit opakování procesu na např. tři bezprostřední opakování.
Další řešení navrhuje, že u nového zápisu slova nebo pojmu v systému, po zadání nového pojmu, se uskutečňuje porovnání sjiž uloženými pojmy. Rozeznávací systém řeči se tedy používá k tomu, aby se porovnal nový pojem sjiž uloženými pojmy a aby se zjistilo, zda se vzorek řeči z nového pojmu tak dalece odlišuje od vzorků řeči z již uložených pojmů, že se neočekává žádné 15 chybné, popř. nejisté rozeznání. Pokud ale vede nový vzorek řeči v rámci korelačního porovnávání podle pevně stanoveného kritéria nejistého rozeznávání k silné podobnosti nebo k pravděpodobnému souhlasu s již uloženými vzorky řeči, informuje se uživatel optický nebo akusticky systémem a požaduje se po něm opakované zadání nového pojmu, které slouží k dodatečnému procvičování. Počet opakování, následujících po sobě se nechá volně volit a může se kdykoliv 20 změnit.
Přehled obrázků na výkresech
Vynález bude blíže vysvětlen prostřednictvím konkrétních příkladů provedení znázorněných na výkresech, na kterých představuje obr. 1 schematické blokové schéma způsobu podle vynálezu na příkladu rozeznávacího systému řeči, použitého v mobilním radiotelefonním přístroji;
obr. 2 schematické blokové schéma způsobu při zpracování nových zápisů.
Příklady provedení vynálezu
Na základě nakreslených obrázků se blíže popisuje způsob podle vynálezu ve spojení s mobilním 35 radiotelefonním přístrojem s rozeznávací funkcí řeči. Vychází se z mobilního radiotelefonního přístroje s rozeznáváním řeči a s hlasovým výstupem. Mobilní radiotelefonní přístroj má telefonní seznam se záznamy jmen, kterým je přiřazeno právě jedno příslušné telefonní číslo. Hlasovým zadáním jména, uloženého v telefonním seznamu, může uživatel vyvolat proces vytáčení nebo jinou akci.
40
Podle obr. 1 se po úspěšném rozeznání jména, uloženého již jako vzorek řeči v telefonním -seznamu, uložený vzorek řeči dodatečně procvičuje snově zaznamenaným. Při nejistém rozeznání jména se uskutečňuje nový požadavek na zadání, který se používá k dodatečnému procvičování.
Proměnné k popř. kmaY, stanovené úvodem v kroku 1, popisují počet, popř. maximální počet, proběhnutí procvičování. Po požadavku k zadání jména a po něm, podle kroku 2, se v kroku 3 uskutečňuje nejdříve porovnání, zda se dosáhlo maximálního počtu proběhnutí procvičování. Pokud je to tak, operace se přerušuje podle kroku 4. Pokud není dosaženo maximálního počtu 50 proběhnutí, uskutečňuje se pomocí rozeznávacího systému řeči v kroku 5 porovnání zadaného jména se jmény, již uloženými v telefonním seznamu. Pokud se zadané jméno bezpečně rozeznává podle kroku 6, provádí se akce, žádaná uživatelem, krok 7, např. vytvoření spojení k žádanému partnerovi v rozhovoru. Dále se uskutečňuje v kroku 8 dodatečné procvičování příslušného
-2CZ 297095 B6 zápisu v telefonním seznamu s naposledy zadaným jménem, rozeznaným jako správné. Akce je ukončena, krok 9.
Pokud se ale zadané jméno nerozezná správně, a pokud porovnání zadaného vzorku řeči 5 s uloženými vzorky řeči podle kroku 6 dává podobnou a málo rozdílnou pravděpodobnost rozeznávání pro několik uložených jmen, uživatel systému se potom informuje a zahrají se mu jména, která se nejvíce podobají zadanému jménu, krok 10. Po uživateli se v kroku 11 požaduje, ještě jednou říci úvodem zadané jméno, krok 12. Počítadlo proměnné k se zvyšuje o jednotku, podle kroku 13, a rutina skáče zpět na krok 3 a opakuje se od tohoto kroku.
io - :
Podle obr. 2 se uskutečňuje při novém zápisu jména do telefonního seznamu porovnání s již uloženými jmény. Nejdříve se počítadlo cyklů k v kroku 20 nastavuje na nulu. Po uživateli se potom v kroku 21 vyžaduje zadání nového jména. V kroku 22 se potom kontroluje, zda počet proběhnutí překročil definovanou hodnotu. Pokud je to tak, nové jméno se ukládá podle kroku 25 15 v telefonním seznamu a způsob se ukončuje, krok 26. Pokud je stav počítadla menší než předem zadaná hodnota, porovnává rozeznávací systém řeči v kroku 23 nové jméno sjiž uloženými jmény. Pokud se podle kroku 24 vzorek řeči nového jména odlišuje od vzorků řeči již uložených jmen tak, že se neočekává žádné chybné rozeznání popř. nejisté rozeznání, ukládá se nové jméno podle kroku 25 v telefonním seznamu a způsob se končí, krok 26. Pokud ale vede nový vzorek 20 řeči v rámci korelačního porovnávání podle pevně stanoveného kritéria nejistého rozeznání k silné podobnosti nebo k pravděpodobné shodě sjiž uloženými jmény, informuje se uživatel v kroku 27 systémem opticky nebo akusticky a v kroku 28 se po něm požaduje opakované zadání nového jména. Nové jméno se může zadat ještě jednou, krok 29. Opakované zadání slouží podle kroku 30 dodatečnému procvičování. Počet opakování, následujících po sobě, je volně volitelný a 25 nechá se kdykoliv změnit. Po každém proběhnutí se podle kroku 31 počítadlo zvyšuje o jednotku, a rutina skáče zpět na krok 21.

Claims (2)

1. Způsob ke zvýšení pravděpodobnosti rozeznávání rozeznávacích systémů řeči, u kterého se 35 po zadání pojmu, který je třeba rozeznat, provádí procvičování stejně znějícího, již uloženého pojmu, podle zadaného pojmu, vyznačující se tím, že zahrnuje kroky:
a) zadání pojmu, který je třeba rozeznat;
b) porovnání zadaného pojmu s pojmem, již uloženým v rozeznávacím systému řeči; a
c) v případě, že se pojem jednoznačně rozeznal:
40 c.l) provedení žádané akce, ____ c 2) dodatečné procvičování příslušného pojmu, uloženého v rozeznávacím systémů řeči, s pojmem, zadaným úvodem, a
c. 3) ukončení způsobu;
d) v případě, že porovnání dává podobnou a málo odlišnou pravděpodobnost rozeznání pro
45 několik uložených pojmů:
d. l) informování uživatele systému a zobrazení nebo zahrání těchto pojmů, podobných zadanému pojmu,
d.2) požadavek na uživatele systému k opakovanému zadání pojmu, zadaného úvodem.
e) pokračováním krokem způsobu b).
2. Způsob podle nároku 1, vyznačující se tím, že dodatečné procvičování je založeno na porovnání pomocí korelace zadaného pojmu se stejně znějícím, již uloženým pojmem, přičemž se zjišťují a ukládají právě charakteristické vzorky řeči.
5
3. Způsob podle nároku 1, vyznačující se tím, že počet ukázaných nebo zahraných pojmů je libovolně volitelný.
4. Způsob podle kteréhokoli předcházejícího nároku, vyznačující se tím, že při novém zápisu pojmu v rozeznávacím systému řeči, po zadání nového pojmu, se uskutečňuje
10 porovnání sjiž uloženými pojmyTaby sě~zjištilo, zda se~vzorek řeči žňového pojmuodlišuje od vzorků řeči z již uložených pojmů tak dalece, že se neočekává žádné chybné rozeznání popřípadě nejisté rozeznání.
5. Způsob podle kteréhokoli předcházejícího nároku, vyznačující se tím, že když
15 nový pojem v rámci korelačního porovnání podle pevně stanoveného kritéria vede k nejistému ______rozeznání nebo k silné podobnosti nebo pravděpodobné shodě s již uloženými pojmy, informuje__ se uživatel systémem opticky nebo akusticky a požaduje se po něm opakované zadání nového pojmu, které slouží dodatečnému procvičování.
20 6. Způsob podle kteréhokoli předcházejícího nároku, vyznačující se tím, že počet proběhnutí dodatečného procvičování je libovolně nastavitelný.
2 výkresy
CZ20002854A 1998-02-03 1999-01-20 Zpusob a zarízení ke zvýsení pravdepodobnosti rozeznávání rozeznávacích systému reci CZ297095B6 (cs)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19804047A DE19804047C2 (de) 1998-02-03 1998-02-03 Verfahren und Einrichtung zur Erhöhung der Erkennungswahrscheinlichkeit von Spracherkennungssystemen

Publications (2)

Publication Number Publication Date
CZ20002854A3 CZ20002854A3 (en) 2001-05-16
CZ297095B6 true CZ297095B6 (cs) 2006-09-13

Family

ID=7856410

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ20002854A CZ297095B6 (cs) 1998-02-03 1999-01-20 Zpusob a zarízení ke zvýsení pravdepodobnosti rozeznávání rozeznávacích systému reci

Country Status (9)

Country Link
US (1) US6801890B1 (cs)
EP (1) EP1051702B1 (cs)
JP (1) JP2002502992A (cs)
AT (1) ATE217437T1 (cs)
CZ (1) CZ297095B6 (cs)
DE (2) DE19804047C2 (cs)
ES (1) ES2179624T3 (cs)
PL (1) PL342208A1 (cs)
WO (1) WO1999040570A1 (cs)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9822931D0 (en) 1998-10-20 1998-12-16 Canon Kk Speech processing apparatus and method
DE19933323C2 (de) * 1999-07-16 2003-05-22 Bayerische Motoren Werke Ag Spracherkennungssystem und Verfahren zur Spracherkennung vorgegebener Sprachmuster, insbesondere zur Sprachsteuerung von Kraftfahrzeugsystemen
US20060009974A1 (en) * 2004-07-09 2006-01-12 Matsushita Electric Industrial Co., Ltd. Hands-free voice dialing for portable and remote devices
US8787535B2 (en) * 2008-01-30 2014-07-22 At&T Intellectual Property I, L.P. Caller authentication system
US8417526B2 (en) * 2009-03-13 2013-04-09 Adacel, Inc. Speech recognition learning system and method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3548202A (en) * 1968-11-29 1970-12-15 Ibm Adaptive logic system for unsupervised learning
US4672668A (en) * 1982-04-12 1987-06-09 Hitachi, Ltd. Method and apparatus for registering standard pattern for speech recognition
EP0241163A1 (en) * 1986-03-25 1987-10-14 AT&T Corp. Speaker-trained speech recognizer

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4087630A (en) * 1977-05-12 1978-05-02 Centigram Corporation Continuous speech recognition apparatus
US4489435A (en) * 1981-10-05 1984-12-18 Exxon Corporation Method and apparatus for continuous word string recognition
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
JPS59109099A (ja) * 1982-12-14 1984-06-23 三菱自動車工業株式会社 登録型音声認識装置
JPS61148497A (ja) * 1984-12-21 1986-07-07 松下電器産業株式会社 標準パタン作成装置
JPS62260194A (ja) * 1986-05-06 1987-11-12 株式会社リコー 特定話者認識装置の辞書登録方法
JPH02198499A (ja) * 1989-01-27 1990-08-06 Ricoh Co Ltd 音声認識装置の辞書の自動更新システム
US5040213A (en) * 1989-01-27 1991-08-13 Ricoh Company, Ltd. Method of renewing reference pattern stored in dictionary
JPH02265000A (ja) * 1989-04-06 1990-10-29 Canon Inc 音声対話装置
JPH0310298A (ja) * 1989-06-08 1991-01-17 Oki Electric Ind Co Ltd 音声認識装置
JP2543603B2 (ja) * 1989-11-16 1996-10-16 積水化学工業株式会社 単語認識システム
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
DE4024890A1 (de) * 1990-08-06 1992-02-13 Standard Elektrik Lorenz Ag Anpassung von referenzsprachmustern an umgebungsbedingte aussprachevarianten
JP2975772B2 (ja) * 1992-06-30 1999-11-10 三洋電機株式会社 音声認識装置
AU7802194A (en) * 1993-09-30 1995-04-18 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
JP3267047B2 (ja) * 1994-04-25 2002-03-18 株式会社日立製作所 音声による情報処理装置
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US6044343A (en) * 1997-06-27 2000-03-28 Advanced Micro Devices, Inc. Adaptive speech recognition with selective input data to a speech classifier
US6347297B1 (en) * 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
US6178404B1 (en) * 1999-07-23 2001-01-23 Intervoice Limited Partnership System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3548202A (en) * 1968-11-29 1970-12-15 Ibm Adaptive logic system for unsupervised learning
US4672668A (en) * 1982-04-12 1987-06-09 Hitachi, Ltd. Method and apparatus for registering standard pattern for speech recognition
EP0241163A1 (en) * 1986-03-25 1987-10-14 AT&T Corp. Speaker-trained speech recognizer

Also Published As

Publication number Publication date
DE59901392D1 (de) 2002-06-13
DE19804047A1 (de) 1999-08-05
DE19804047C2 (de) 2000-03-16
EP1051702B1 (de) 2002-05-08
JP2002502992A (ja) 2002-01-29
CZ20002854A3 (en) 2001-05-16
ATE217437T1 (de) 2002-05-15
EP1051702A1 (de) 2000-11-15
PL342208A1 (en) 2001-05-21
WO1999040570A1 (de) 1999-08-12
US6801890B1 (en) 2004-10-05
ES2179624T3 (es) 2003-01-16

Similar Documents

Publication Publication Date Title
US5917890A (en) Disambiguation of alphabetic characters in an automated call processing environment
US5960395A (en) Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US5832063A (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
US8473290B2 (en) Voice barge-in in telephony speech recognition
US5917889A (en) Capture of alphabetic or alphanumeric character strings in an automated call processing environment
CA2220256C (en) Voice-dialing system using both spoken names and initials in recognition
US6366882B1 (en) Apparatus for converting speech to text
EP0689194A1 (en) Method of and apparatus for signal recognition that compensates for mismatching
US5452397A (en) Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list
US6233556B1 (en) Voice processing and verification system
JP3168033B2 (ja) 音声テレフォン・ダイヤリング
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
US5752230A (en) Method and apparatus for identifying names with a speech recognition program
WO2006101673A1 (en) Voice nametag audio feedback for dialing a telephone call
GB2323694A (en) Adaptation in speech to text conversion
EP1516479A2 (en) Speech dialogue systems with repair facility
US20060020471A1 (en) Method and apparatus for robustly locating user barge-ins in voice-activated command systems
EP3627498A1 (en) Method and system, for generating speech recognition training data
US20010049599A1 (en) Tone and speech recognition in communications systems
CZ297095B6 (cs) Zpusob a zarízení ke zvýsení pravdepodobnosti rozeznávání rozeznávacích systému reci
JPH09205478A (ja) 音声認識データベースにアドレスを登録する方法とシステム
JP2001520764A (ja) スピーチ分析システム
CN1898970B (zh) 音调检测方法和系统
JPH06266386A (ja) ワードスポッティング方法
JP4201455B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
MM4A Patent lapsed due to non-payment of fee

Effective date: 20170120