CZ20002854A3 - Process and apparatus for increasing probability of recognition of speech recognition system - Google Patents

Process and apparatus for increasing probability of recognition of speech recognition system Download PDF

Info

Publication number
CZ20002854A3
CZ20002854A3 CZ20002854A CZ20002854A CZ20002854A3 CZ 20002854 A3 CZ20002854 A3 CZ 20002854A3 CZ 20002854 A CZ20002854 A CZ 20002854A CZ 20002854 A CZ20002854 A CZ 20002854A CZ 20002854 A3 CZ20002854 A3 CZ 20002854A3
Authority
CZ
Czechia
Prior art keywords
term
recognition
speech
terms
stored
Prior art date
Application number
CZ20002854A
Other languages
English (en)
Other versions
CZ297095B6 (cs
Inventor
Ulrich Kausche
Herbert Roland Rast
Fred Runge
Original Assignee
Deutsche Telekom Mobil
Deutsche Telekom Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom Mobil, Deutsche Telekom Ag filed Critical Deutsche Telekom Mobil
Publication of CZ20002854A3 publication Critical patent/CZ20002854A3/cs
Publication of CZ297095B6 publication Critical patent/CZ297095B6/cs

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Radio Relay Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)

Description

Oblast techniky
Vynález se týká způsobu a zařízení ke zvýšení pravděpodobnosti rozeznávání rozeznávacích systémů řeči podle druhové části patentového nároku 1.
Dosavadní stav techniky
Rozeznávací systémy řeči se dnes používají především v počítačích, komunikačních systémech a jiných technických přístrojích, kde záleží na snadnosti obsluhy nebo na rychlém zadávání dat. Dosud známé systémy ale nejsou vyzrálé a pracují chybně, zejména když se mají provozovat v akusticky rušených prostředích. Slovo, které je třeba rozeznat, se potom rozeznává špatně, nebo vůbec ne. Toto vyžaduje od uživatele několikanásobné opakování slova, které je třeba rozeznat, což při častém výskytu chyby rozeznávání vede k neočekávaným zpožděním.
Předkládaný vynález má proto za úkol, takovým způsobem dále provést způsob a zařízení k rozeznávání řeči, že pravděpodobnost rozeznávání, závislá na mluvící osobě, zejména v akusticky rušených prostředích, se zvyšuje.
Podstata vynálezu
Tento úkol se řeší charakteristickými znaky patentového
80422 (80422a)
PV 2000 - 2854
• ·
nároku 1.
Přednostní variace a další provedení vynálezu jsou předmětem závislých patentových nároků.
Podle vynálezu se pro rozeznávací systémy řeči navrhuje dodatečné procvičování vzorků řeči nově zadaných, možná že špatně rozeznaných nebo vůbec nerozeznaných pojmů. Dodatečné procvičování znamená, že špatně nebo vůbec nerozeznaný pojem se po opakovaném zadání jednoduše nepřepisuje, nýbrž se porovnává a koreluje s dříve zadanými pojmy, popř. se doplňuje novým vzorkem, aby se tak pro rozeznávání pojmu redukovaly nebo potlačily nedůležité vzorky nebo vedlejší šumy. Vynález je myšlen zejména pro použití v rozeznávacích systémech řeči, které pracují v akusticky rušených prostorech, např. v mobilních radiotelefonních přístrojích, telefonech atd.
U úspěšného rozeznávání pojmu, uloženého již jako vzorek řeči, se uložený vzorek řeči dodatečně procvičuje s nově zaznamenaným. Toto dodatečné procvičování se uskutečňuje při úspěšném rozeznávání každého již zaznamenaného pojmu n-krát, přičemž počet proběhnutí je volně nastavitelný a nechá se kdykoliv změnit. Pomocí tohoto dodatečného procvičování se dosahuje trvalého zmenšení vlivu proměnlivých vedlejších šumů na vlastní, konstantní vzorek řeči nějakého slova.
Podle dalšího provedení vynálezu se při nejistém rozeznávání slova uskutečňuje nový požadavek na zadání, který se používá k dodatečnému procvičování. Také zde je maximální počet proběhnutí volně nastavitelný a kdykoliv se nechá změnit. Když dává porovnání zadaného vzorku řeči s uloženým vzorkem řeči podobnou nebo málo rozdílnou pravděpodobnost rozeznávání pro několik uložených pojmů,
80422 (80422a)
PV 2000 - 2854 • · • · · φ • φ · • · · · * β · • · · · φ zahrají se tyto pojmy uživateli systému a požaduje se po něm, aby pojem, zadaný na začátku, řekl ještě jednou. U potom úspěšného rozeznávání se dodatečné procvičování přerušuje. Z důvodu přehlednosti se upřednostňuje, u nejistého rozeznání, omezit počet pojmů, vydaných systémem a přicházejících do úvahy, na předem daný počet a omezit opakování procesu na např. tři bezprostřední opakování.
Další řešení navrhuje, že u nového zápisu slova nebo pojmu v systému, po zadání nového pojmu, se uskutečňuje porovnání s již uloženými pojmy. Rozeznávací systém řeči se tedy používá k tomu, aby se porovnal nový pojem s již uloženými pojmy a aby se zjistilo, zda se vzorek řeči nového pojmu tak dalece odlišuje od vzorků řeči již uložených pojmů, že se neočekává žádné chybné,
Pokud ale vede nový vzorek popr. řeči nej isté v rámci rozeznaní.
korelačního porovnávání podle pevně stanoveného kritéria nejistého rozeznávání k silné podobnosti nebo k pravděpodobnému souhlasu s již uloženými vzorky řeči, informuje se uživatel opticky nebo akusticky systémem a požaduje se po něm opakované zadání nového pojmu, které slouží k dodatečnému procvičování tréninku. Počet opakování, následujících po sobě, se nechá volně volit a může se kdykoliv změnit.
Přehled obrázků na výkresech
Vynález bude blíže vysvětlen prostřednictvím konkrétních příkladů provedení znázorněných na výkresech, na kterých.představuje obr. 1 schematické blokové schéma způsobu podle vynálezu na příkladu rozeznávacího systému řeči, použitého v mobilním raditelefonním přístroji;
80422 (80422a)
PV 2000 - 2854 • ·· 9 99 ·9 99
9 9 9 9 9 9 · «’ ·· 9 • 0 9 9 * 9 9 9 9 • · · · · · 9 9 9 9 9 · • « ·· ····
999 99 99 9 999 9 99 99 obr. 2 schématické blokové schéma způsobu při zpracováni nových zápisů;
Příklady provedení vynálezu
Na základě nakreslených obrázků se blíže popisuje způsob podle vynálezu ve spojení s mobilním radiotelefonním přístrojem s rozeznávací funkcí řeči. Vychází se z mobilního radiotelefonního přístroje s rozeznáváním řeči a s hlasovým výstupem. Mobilní radiotelefonní přístroj má telefonní seznam se záznamy jmen, kterým je přiřazeno právě jedno příslušné telefonní číslo. Hlasovým zadáním jména, uloženého v telefonním seznamu, může uživatel vyvolat proces vytáčení nebo jinou akci.
Podle obr. 1 se po úspěšném rozeznání jména, uloženého již jako vzorek řeči v telefonním seznamu, uložený vzorek řeči dodatečně procvičuje s nově zaznamenaným. Při nejistém rozeznání jména se uskutečňuje nový požadavek na zadání, který se používá k dodatečnému procvičování.
Proměnné k popř. kmax, stanovené úvodem v kroku popisují počet, popř. maximální počet proběhnutí procvičování. Po požadavku k zadání jména a po něm, podle kroku 2, se v kroku 3 uskutečňuje nejdříve porovnání, zda se dosáhlo maximálního počtu proběhnutí procvičování. Pokud je to tak, operace se přerušuje podle kroku 4. Pokud není dosaženo maximálního počtu proběhnutí, uskutečňuje se pomocí rozeznávacího systému řeči v kroku 5 porovnání zadaného jména se jmény, již uloženými v telefonním seznamu. Pokud se zadané jméno bezpečně rozeznává podle kroku 6, provádí se akce, žádaná uživatelem, krok 7, např. vytvoření spojení k žádanému partnerovi v rozhovoru. Dále se uskutečňuje
80422 (80422a)
PV 2000 - 2854 • · • · • 0 v kroku 8_ dodatečné procvičování příslušného zápisu v telefonním seznamu s naposledy zadaným jménem, rozeznaným jako správné. Akce je ukončena, krok 9.
Pokud se ale zadané jméno nerozezná správně, a pokud porovnání zadaného vzorku řeči s uloženými vzorky řeči podle kroku 6 dává podobnou a málo rozdílnou pravděpodobnost rozeznávání pro několik uložených jmen, uživatel systému se potom informuje a zahrají se mu jména, která se nejvíce podobají zadanému jménu, krok 10. Po uživateli se v kroku 11 požaduje, ještě jednou říci úvodem zadané jméno, krok 12. Počítadlo k se zvyšuje o jednotku, podle kroku 13, a rutina skáče zpět na krok 3 a opakuje se od tohoto kroku.
Podle obr. 2 se uskutečňuje při novém zápisu jména do telefonního seznamu porovnání s již uloženými jmény. Nejdříve se počítadlo cyklů k v kroku 20 nastavuje na nulu. Po uživateli se potom v kroku 21 vyžaduje zadání nového jména. V kroku 22 se potom kontroluje, zda počet proběhnutí překročil definovanou hodnotu. Pokud je to tak, nové jméno se ukládá podle kroku 25 v telefonním seznamu a způsob se ukončuje, krok 2 6. Pokud je stav počítadla menší než předem zadaná hodnota, porovnává rozeznávací systém řeči v kroku 23 nové jméno s již uloženými jmény. Pokud se podle kroku 24 vzorek řeči nového jména odlišuje od vzorků řeči již uložených jmen, že se neočekává žádné chybné rozeznání popř. nejisté rozeznání, ukládá se nové jméno podle kroku 25 v telefonním seznamu a způsob se končí, krok 26. Pokud ale vede nový vzorek řeči v rámci korelačního porovnávání podle pevně stanoveného kritéria nejistého rozeznání k silné podobnosti nebo k pravděpodobné shodě s již uloženými jmény, informuje se uživatel v kroku 27 systémem opticky nebo akusticky a v kroku 28 se po něm požaduje opakované zadání nového jména. Nové jméno se může zadat ještě jednou, krok 29. Opakované zadání slouží podle kroku 30 dodatečnému
80422 (80422a)
PV 2000 - 2854
9 9 9 « * 9 • · · · β>
• · • · · » t · • · · 9 9
9 9 9 9 • 9 9 9 9 • Φ 9 9 9 9 « · · ·
9 9 99 procvičování. Počet opakování, následujících po sobě, je volně volitelný a nechá se kdykoliv změnit. Po každém proběhnutí se podle kroku 31 počítadlo zvyšuje o jednotku, a rutina skáče zpět na krok 21.
Zastupuj e:
Dr. Miloš Všetečka v.r.
80422 (80422a)
PV 2000 - 2854 ·· * · ·· · · ♦ .« · · , : : Uíjrayena strana • · · · · · · ·
JUDr. Miloš Všetečka advokát
120 00 Praha 2, Hálkova 2

Claims (6)

  1. PATENTOVÉ NÁROKY
    1. Způsob ke zvýšení pravděpodobnosti rozeznávání rozeznávacích systémů řeči, u kterého se po zadání pojmu, který je třeba rozeznat, provádí procvičování stejně znějícího, již uloženého pojmu, podle zadaného pojmu, vyznačující se:
    a) zadáním pojmu, který je třeba rozeznat;
    b) porovnání zadaného pojmu s pojmem, již uloženým v rozeznávacím systému řeči; a
    c) v případě, že se pojem jednoznačně rozeznal:
    c.l) provedením žádané akce,
    c.2) dodatečným procvičováním příslušného pojmu, uloženého v rozeznávacím systému řeči, s pojmem, zadaným úvodem, a
    c. 3) ukončením způsobu;
    d) v případě, že porovnání dává podobnou a málo odlišnou pravděpodobnost rozeznání pro několik uložených pojmů:
    d. l) informováním uživatele systému a zobrazením nebo zahráním těchto pojmů, podobných zadanému pojmu,
    d.2) požadavkem na uživatele systému k opakovanému zadání pojmu, zadaného úvodem,
    e) pokračováním krokem způsobu b).
  2. 2. Způsob podle nároku 1, vyznačující se tím, že dodatečné procvičování je založeno na porovnání pomocí korelace zadaného pojmu se stejně znějícím, již uloženým pojmem, přičemž se zjišťují a ukládají právě charakteristické vzorky řeči.
  3. 3. Způsob podle nároku 1, vyznačující se tím, že počet ukázaných/zahraných pojmů je libovolně volitelný.
    16 80422 (80422a)
    PV 2000 - 2854 : Upravená strana ·· ··
    00 0
  4. 4. Způsob podle kteréhokoli předcházejícího nároku, vyznačující se tím, že při novém zápisu pojmu v rozeznávacím systému řeči, po zadání nového pojmu, se uskutečňuje porovnání s již uloženými pojmy, aby se zjistilo, zda se vzorek řeči nového pojmu odlišuje od vzorků řeči již uložených pojmů tak dalece, že se neočekává žádné chybné rozeznání popř. nejisté rozeznání.
  5. 5. Způsob podle kteréhokoli předcházejícího nároku, vyznačující se tím, že když nový pojem v rámci korelačního porovnání podle pevně stanoveného kritéria vede k nejistému rozeznání nebo k silné podobnosti nebo pravděpodobné shodě s již uloženými pojmy, informuje se uživatel systémem opticky nebo akusticky a požaduje se po něm opakované zadání nového pojmu, které slouží dodatečnému procvičování.
  6. 6. Způsob podle kteréhokoli předcházejícího nároku, vyznačující se tím, že počet proběhnutí dodatečného procvičování je libovolně nastavitelný.
CZ20002854A 1998-02-03 1999-01-20 Zpusob a zarízení ke zvýsení pravdepodobnosti rozeznávání rozeznávacích systému reci CZ297095B6 (cs)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19804047A DE19804047C2 (de) 1998-02-03 1998-02-03 Verfahren und Einrichtung zur Erhöhung der Erkennungswahrscheinlichkeit von Spracherkennungssystemen

Publications (2)

Publication Number Publication Date
CZ20002854A3 true CZ20002854A3 (en) 2001-05-16
CZ297095B6 CZ297095B6 (cs) 2006-09-13

Family

ID=7856410

Family Applications (1)

Application Number Title Priority Date Filing Date
CZ20002854A CZ297095B6 (cs) 1998-02-03 1999-01-20 Zpusob a zarízení ke zvýsení pravdepodobnosti rozeznávání rozeznávacích systému reci

Country Status (9)

Country Link
US (1) US6801890B1 (cs)
EP (1) EP1051702B1 (cs)
JP (1) JP2002502992A (cs)
AT (1) ATE217437T1 (cs)
CZ (1) CZ297095B6 (cs)
DE (2) DE19804047C2 (cs)
ES (1) ES2179624T3 (cs)
PL (1) PL342208A1 (cs)
WO (1) WO1999040570A1 (cs)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9822931D0 (en) 1998-10-20 1998-12-16 Canon Kk Speech processing apparatus and method
DE19933323C2 (de) * 1999-07-16 2003-05-22 Bayerische Motoren Werke Ag Spracherkennungssystem und Verfahren zur Spracherkennung vorgegebener Sprachmuster, insbesondere zur Sprachsteuerung von Kraftfahrzeugsystemen
US20060009974A1 (en) * 2004-07-09 2006-01-12 Matsushita Electric Industrial Co., Ltd. Hands-free voice dialing for portable and remote devices
US8787535B2 (en) 2008-01-30 2014-07-22 At&T Intellectual Property I, L.P. Caller authentication system
US8417526B2 (en) * 2009-03-13 2013-04-09 Adacel, Inc. Speech recognition learning system and method

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3548202A (en) * 1968-11-29 1970-12-15 Ibm Adaptive logic system for unsupervised learning
US4087630A (en) * 1977-05-12 1978-05-02 Centigram Corporation Continuous speech recognition apparatus
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
US4489435A (en) * 1981-10-05 1984-12-18 Exxon Corporation Method and apparatus for continuous word string recognition
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
JPS59109099A (ja) * 1982-12-14 1984-06-23 三菱自動車工業株式会社 登録型音声認識装置
JPS61148497A (ja) * 1984-12-21 1986-07-07 松下電器産業株式会社 標準パタン作成装置
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
JPS62260194A (ja) * 1986-05-06 1987-11-12 株式会社リコー 特定話者認識装置の辞書登録方法
JPH02198499A (ja) * 1989-01-27 1990-08-06 Ricoh Co Ltd 音声認識装置の辞書の自動更新システム
US5040213A (en) * 1989-01-27 1991-08-13 Ricoh Company, Ltd. Method of renewing reference pattern stored in dictionary
JPH02265000A (ja) * 1989-04-06 1990-10-29 Canon Inc 音声対話装置
JPH0310298A (ja) * 1989-06-08 1991-01-17 Oki Electric Ind Co Ltd 音声認識装置
JP2543603B2 (ja) * 1989-11-16 1996-10-16 積水化学工業株式会社 単語認識システム
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
DE4024890A1 (de) * 1990-08-06 1992-02-13 Standard Elektrik Lorenz Ag Anpassung von referenzsprachmustern an umgebungsbedingte aussprachevarianten
JP2975772B2 (ja) * 1992-06-30 1999-11-10 三洋電機株式会社 音声認識装置
WO1995009416A1 (en) * 1993-09-30 1995-04-06 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
JP3267047B2 (ja) * 1994-04-25 2002-03-18 株式会社日立製作所 音声による情報処理装置
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US6044343A (en) * 1997-06-27 2000-03-28 Advanced Micro Devices, Inc. Adaptive speech recognition with selective input data to a speech classifier
US6347297B1 (en) * 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
US6178404B1 (en) * 1999-07-23 2001-01-23 Intervoice Limited Partnership System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases

Also Published As

Publication number Publication date
US6801890B1 (en) 2004-10-05
PL342208A1 (en) 2001-05-21
ES2179624T3 (es) 2003-01-16
DE19804047C2 (de) 2000-03-16
DE59901392D1 (de) 2002-06-13
EP1051702A1 (de) 2000-11-15
ATE217437T1 (de) 2002-05-15
JP2002502992A (ja) 2002-01-29
WO1999040570A1 (de) 1999-08-12
CZ297095B6 (cs) 2006-09-13
DE19804047A1 (de) 1999-08-05
EP1051702B1 (de) 2002-05-08

Similar Documents

Publication Publication Date Title
US10832686B2 (en) Method and apparatus for pushing information
CN107210039B (zh) 环境调节的讲话人标识
US6411927B1 (en) Robust preprocessing signal equalization system and method for normalizing to a target environment
EP0689194A1 (en) Method of and apparatus for signal recognition that compensates for mismatching
US5917890A (en) Disambiguation of alphabetic characters in an automated call processing environment
US9196252B2 (en) Selective enablement of speech recognition grammars
US5719921A (en) Methods and apparatus for activating telephone services in response to speech
US20090094029A1 (en) Managing Audio in a Multi-Source Audio Environment
CA2480509A1 (en) Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
KR20010005685A (ko) 음성 분석 시스템
CN102984666A (zh) 一种通话过程中的通讯录语音信息处理方法及系统
CN110648680A (zh) 语音数据的处理方法、装置、电子设备及可读存储介质
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN109688271A (zh) 联系人信息输入的方法、装置及终端设备
CN115631738A (zh) 音频数据处理方法、装置、电子设备及存储介质
CN111989934B (zh) 回声消除装置、回声消除方法、信号处理芯片及电子设备
CZ20002854A3 (en) Process and apparatus for increasing probability of recognition of speech recognition system
CN113012680B (zh) 一种语音机器人用话术合成方法及装置
JPH09205478A (ja) 音声認識データベースにアドレスを登録する方法とシステム
CN112165558B (zh) 一种双讲状态检测方法、装置、存储介质及终端设备
US20050239511A1 (en) Speaker identification using a mobile communications device
CN1898970B (zh) 音调检测方法和系统
CN111968630B (zh) 信息处理方法、装置和电子设备
JP4201455B2 (ja) 音声認識システム
JP4658022B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
MM4A Patent lapsed due to non-payment of fee

Effective date: 20170120