DE623914T1 - Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes. - Google Patents

Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes.

Info

Publication number
DE623914T1
DE623914T1 DE0623914T DE94106987T DE623914T1 DE 623914 T1 DE623914 T1 DE 623914T1 DE 0623914 T DE0623914 T DE 0623914T DE 94106987 T DE94106987 T DE 94106987T DE 623914 T1 DE623914 T1 DE 623914T1
Authority
DE
Germany
Prior art keywords
word
output
vector
words
neuron
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE0623914T
Other languages
English (en)
Inventor
Dario Albesano
Roberto Gemello
Franco Mana
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecom Italia SpA
Original Assignee
CSELT Centro Studi e Laboratori Telecomunicazioni SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CSELT Centro Studi e Laboratori Telecomunicazioni SpA filed Critical CSELT Centro Studi e Laboratori Telecomunicazioni SpA
Publication of DE623914T1 publication Critical patent/DE623914T1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Claims (8)

  1. LEDERER, KELLER & RIEDERER dr. &lgr;. van der wer™
    Patentanwälte - European Patent Attorneys
    DR. &Ggr;&Pgr;&Lgr;&Ngr;&Zgr; LEDERER
    Dipi. Cbem. München
    DR. GÜNTER KELLER
    Dlpl.-Bioi. M iinchen
    ANTON FREIHERR
    RIEDERER v. PAAR
    Dipl.-Ins Landshut
    Lederer. Keller & Riederer. Postfach 2664. D-84010 Landshut
    D-84010 Landshut
    Europäische Patentanmeldung 94 106 987.4 Postfach 26 64
    Publikationsnummer 0 623 914 (8-1028 Landshut. Freyung 615)
    CSELT - Centro Studi e Laboratori Telefon (08 71)2 2170
    Telecomunicazioni S.p.A. Telefax (08 71)2.2143
    Turin / Italien
    Patentansprüche
    1. Erkennungssystem für sprecherunabhängige alleinstehende Wörter, bei dem das Sprachsignal digitalisiert und einer Spektralanalyse bei konstanten Zeitintervallen unter Anwendung der schnellen Fourier-Transformation unterworfen wird, das Analyseergebnis zum Erhalten von Cepstral-Parametern einer orthogonalen Transformation unterworfen wird und der Logarithmus der in jedem Zeitintervall enthaltenen Gesamtenergie berechnet wird, woraufhin die numerischen Ableitungen dieser Werte berechnet werden, wodurch man die charakteristischen Parameter des Sprachsignals für jedes Zeitintervall erhält, wobei die Wortenden durch die Energiehöhe des Signals festgestellt werden und das Wort von einem Erkenner (RNA) analysiert wird, in dem vollständige Wörter mit Markovmodell-Automaten der Art "von links nach rechts" mit Rekursion auf die Zustände modelliert werden, von denen jeder einem akustischen Teil des Worts entspricht, und die Erkennung durch eine dynamische Programmierung gemäß dem Viterbi-Algorithmus an allen Automaten zum Herausfinden des Automaten mit dem Pfad des Kostenminimums durchgeführt wird, der dem am Ausgang (PR) angezeigten erkannten Wort entspricht, wobei die Emissionsmöglichkeiten mit einem neuralen Netz mit Rückkopplung berechnet werden, das speziell trainiert wurde, und die Übergangswahrscheinlichkeiten in geeigne-
    ter Weise abgeschätzt werden, und wobei das Trainingsverfahren dadurch gekennzeichnet ist, daß es die folgenden Operationen umfaßt:
    Initialisierung:
    a. Initialisierung des neuralen Netzes mit kleinen
    zufälligen synaptischen Gewichtungen;
    b. Erzeugung der ersten Abschnittbildung durch gleichförmige Segmentierung der Wörter des Trainingssatzes;
    Iteration:
    15
    1) Initialisierung des Trainingssatzes mit allen segmentiert en Wörtern;
  2. 2) Zufallswahl eines nicht bereits erlernten Worts (ein Wort wird als erlernt angesehen, wenn der mittlere Fehler für dieses Wort ausreichend niedrig ist);
  3. 3) Fortschreiben von synaptischen Gewichtungen W1- für das betrachtete Wort durch Anwenden eines korrelativen Trainings, wobei speziell das Eingangssignal des neuralen Netzes gemäß einem Fenster zur Veränderung gebracht wird, das von links nach rechts über das Wort gleitet, und für jedes Eingangsfenster ein geeigneter objektiver Vektor am Ausgang geliefert wird, der dadurch konstruiert wird, daß eine 1 auf das Neuron gesetzt wird, das dem Zustand entspricht, zu dem das Eingangsfenster gemäß der laufenden Abschnittbildung gehört, und 0 auf alle anderen Neuronen gesetzt wird;
  4. 4) Erneute Berechnung der Abschnittbildung für das betrachtete Wort unter Verwendung des insoweit trainierten neuralen Netzes, und Durchführung einer dynamischen Programmierung nur mit dem korrekten Modell;
  5. 5) Fortschreiben der laufenden Abschnittbildung St+1;
  6. 6) Falls es noch nicht untersuchte Wörter im Trainingssatz gibt, gehe zum Schritt 2);
  7. 7) Erneute Berechnung von Übergangswahrscheinlichkeiten der Automaten;
  8. 8) Sofern die Zahl der Iterationen am Trainingssatz größer ist als eine gegebene Maximalzahl NMAX, beendige, oder gehe im anderen Fall zum Schritt 1).
    2. Erkennungssystem für sprecherunabhängige alleinstehende Wörter nach Anspruch 1, dadurch gekennzeichnet, daß das korrelative Training die folgenden Schritte umfaßt, die für jeden Abtastwert des Trainingssatzes wiederholt werden:
    1) Betrachtung des Eingangswert-Vektors X und des Vektors T des gewünschten Werts (objektiver Vektor);
    2) Positionieren der Eingangswerte auf die Eingangseinheiten;
    3) Ausführen des Netzes durch Weiterleiten in Vorwärtsrichtung dieser Werte von Eingangseinheiten bis zu Ausgangseinheiten und Erhalten des Ausgangsvektors 0 gemäß den bekannten Formeln:
    O1 = Finet^ mit
    neti = &Sgr; w^ + ejt F(x) =
    j 1 + e"x
    wobei O1 der Ausgang eines allgemeinen Neurons i und G1 ein konstanter Wert, der typisch für das Neuron ist, ist;
    4) Berechnen des Fehlers E, der als quadratischer Fehler zwischen dem Ausgangsvektor 0 und dem ge-
    4
    wünschten Vektor T definiert ist, gemäß der Formel:
    E = &Sgr; <tk - ok)2
    k
    wobei der Gegenstand definiert ist gemäß der Korrelationsformel von Ausgängen:
    tk=ok-oh wenn tk*l und th=l
    unverändert wenn tk=l
    wobei tk das k-te Element des Gegenstandsvektors und ok und oh die Ausgänge des k-ten und des h-ten Neurons der Ausgangsebene des Netzes sind;
    OE
    5) Berechnen der Teilableitung des Fehlers in
    Bezug zu den Gewichtungen, die in der Fortschreitungsgleichung der synaptischen Gewichtungen
    ^y(t -1) = TjS1O, +/3Aw..(t -1)
    verwendet wird, wobei W1- die synaptische Gewichtung vom Neuron j zum Neuron i ist, &eegr; ein Koeffizient ist, der die Lerngeschwindigkeit bestimmt, ß ein Koeffizient ist, der als Moment bezeichnet wird und die Trägheit beim Fortschreiben der Gewichtung bestimmt, O1 der zurückgeleitete Fehler am Neuron i ist und o. der Ausgang des Neurons j ist; ausgehend vom im Schritt 4) definierten Fehler, werden die neuen Rückleitungs-Fehlergesetze für das korrelative Training erhalten, die folgendermaßen definiert sind:
    für Ausgangsneuronen:
    6i = (ti-oi)F/(net^ wenn t^l
    5^-O1(On-I)2F' (net^ wenn t^l th=l;
    35
    für innere Neuronen:
    wobei der Index k sich auf Neuronen der oberen Ebene bewegt;
    6) Fortschreiben jeder synaptischen Gewichtung w.. gemäß der Gleichung:
    ch.vä
    IJ
    3. Erkennungssystem " für sprecherunabhängige alleinstehende Wörter nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Übergangswahrscheinlichkeit in den Zustand i+1 des Worts w zur Zeit t+1 unter der Voraussetzung, daß der Zustand i zur Zeit t herrscht, folgendermaßen berechnet wird:
    25
    PTlSw.i*i
    0 wobei min die Funktion ist, die das Minimum zwischen dem betrachteten Bruchteil und 1 wiederherstellt, und
    h=t
    wenn t<K
    wobei in dieser letzten Gleichung Freq(SUfi (h)) die Anzahl von Wörtern ist, die in Sw#1 für h Male verbleiben.
    4. Erkennungssystem für sprecherunabhängige alleinstehende Wörter nach Anspruch 2 oder nach dem auf Anspruch 2 rückbezogenen Anspruch 3, dadurch gekennzeichnet, daß die folgenden Parameter verwendet werden:
    - Moment ß = 0,2;
    Anzahl der Korrekturen, die akkumuliert werden, bevor sie tatsächlich an den Gewichtungen durchgeführt werden (Batch-Größe = 10;
    - Lerngeschwindigkeit &eegr; linear abnehmend von
    0,1 bis 0,001.
    5. Erkennungssystem für sprecherunabhängige alleinstehende Wörter nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß jedes Wort durch einen Automaten modelliert wird, der eine zentrale Sequenz von zum Wort gehörenden Zuständen (3,...,7) enthält, dem ein für das Wort spezifischer Anfangs-Ruhezustand (2) vorhergeht und End-Ruhezustand (8) folgt, die die Übergänge Ruhe-Wort beziehungsweise Wort-Ruhe enthalten und denen ihrerseits zwei weitere Zustände von allgemeinem Hintergrundrauschen (1,9) vorhergehen beziehungsweise folgen.
DE0623914T 1993-05-05 1994-05-04 Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes. Pending DE623914T1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ITTO930309A IT1270919B (it) 1993-05-05 1993-05-05 Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali

Publications (1)

Publication Number Publication Date
DE623914T1 true DE623914T1 (de) 1995-08-24

Family

ID=11411463

Family Applications (2)

Application Number Title Priority Date Filing Date
DE0623914T Pending DE623914T1 (de) 1993-05-05 1994-05-04 Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes.
DE69414752T Expired - Lifetime DE69414752T2 (de) 1993-05-05 1994-05-04 Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69414752T Expired - Lifetime DE69414752T2 (de) 1993-05-05 1994-05-04 Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes

Country Status (6)

Country Link
US (1) US5566270A (de)
EP (1) EP0623914B1 (de)
JP (1) JP2654917B2 (de)
CA (1) CA2122575C (de)
DE (2) DE623914T1 (de)
IT (1) IT1270919B (de)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728487A (ja) * 1993-03-26 1995-01-31 Texas Instr Inc <Ti> 音声認識方法
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US6167374A (en) * 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
US6208963B1 (en) * 1998-06-24 2001-03-27 Tony R. Martinez Method and apparatus for signal classification using a multilayer network
DE19948308C2 (de) * 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
US7369993B1 (en) 2000-11-02 2008-05-06 At&T Corp. System and method of pattern recognition in very high-dimensional space
US7006969B2 (en) * 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
US6662091B2 (en) 2001-06-29 2003-12-09 Battelle Memorial Institute Diagnostics/prognostics using wireless links
EP1405044A1 (de) 2001-07-02 2004-04-07 Battelle Memorial Institute Intelligente mikrosensoreinheit
ITTO20020170A1 (it) 2002-02-28 2003-08-28 Loquendo Spa Metodo per velocizzare l'esecuzione di reti neurali per il riconoscimento della voce e relativo dispositivo di riconoscimento vocale.
GB2397664B (en) * 2003-01-24 2005-04-20 Schlumberger Holdings System and method for inferring geological classes
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
US8126262B2 (en) * 2007-06-18 2012-02-28 International Business Machines Corporation Annotating video segments using feature rhythm models
DE202008016880U1 (de) 2008-12-19 2009-03-12 Hörfabric GmbH Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
DE202010013508U1 (de) 2010-09-22 2010-12-09 Hörfabric GmbH Software-definiertes Hörgerät
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN102693723A (zh) * 2012-04-01 2012-09-26 北京安慧音通科技有限责任公司 一种基于子空间的非特定人孤立词识别方法及装置
US9627532B2 (en) * 2014-06-18 2017-04-18 Nuance Communications, Inc. Methods and apparatus for training an artificial neural network for use in speech recognition
US10825445B2 (en) 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
US10255909B2 (en) 2017-06-29 2019-04-09 Intel IP Corporation Statistical-analysis-based reset of recurrent neural networks for automatic speech recognition
CN109902292B (zh) * 2019-01-25 2023-05-09 网经科技(苏州)有限公司 中文词向量处理方法及其系统
KR102152902B1 (ko) * 2020-02-11 2020-09-07 주식회사 엘솔루 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8908205D0 (en) * 1989-04-12 1989-05-24 Smiths Industries Plc Speech recognition apparatus and methods
GB8911461D0 (en) * 1989-05-18 1989-07-05 Smiths Industries Plc Temperature adaptors
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system

Also Published As

Publication number Publication date
IT1270919B (it) 1997-05-16
JPH06332497A (ja) 1994-12-02
EP0623914A1 (de) 1994-11-09
US5566270A (en) 1996-10-15
ITTO930309A0 (it) 1993-05-05
DE69414752T2 (de) 1999-05-27
JP2654917B2 (ja) 1997-09-17
DE69414752D1 (de) 1999-01-07
EP0623914B1 (de) 1998-11-25
CA2122575A1 (en) 1994-11-06
ITTO930309A1 (it) 1994-11-05
CA2122575C (en) 1997-05-13

Similar Documents

Publication Publication Date Title
DE623914T1 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes.
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69523219T2 (de) Anpassungsfähiges Lernverfahren zur Mustererkennung
DE69705830T2 (de) Sprachverarbeitung
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69328275T2 (de) Spracherkennungssystem
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69712277T2 (de) Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3876379T2 (de) Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem.
DE69916255T2 (de) System und verfahren zur geräuschkompensierten spracherkennung
DE69629763T2 (de) Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM)
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69324428T2 (de) Verfahren zur Sprachformung und Gerät zur Spracherkennung