DE623914T1 - Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes. - Google Patents
Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes.Info
- Publication number
- DE623914T1 DE623914T1 DE0623914T DE94106987T DE623914T1 DE 623914 T1 DE623914 T1 DE 623914T1 DE 0623914 T DE0623914 T DE 0623914T DE 94106987 T DE94106987 T DE 94106987T DE 623914 T1 DE623914 T1 DE 623914T1
- Authority
- DE
- Germany
- Prior art keywords
- word
- output
- vector
- words
- neuron
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims 5
- 210000002569 neuron Anatomy 0.000 claims 11
- 230000000946 synaptic effect Effects 0.000 claims 5
- 230000007704 transition Effects 0.000 claims 4
- 230000011218 segmentation Effects 0.000 claims 3
- 101100286286 Dictyostelium discoideum ipi gene Proteins 0.000 claims 1
- 101000635799 Homo sapiens Run domain Beclin-1-interacting and cysteine-rich domain-containing protein Proteins 0.000 claims 1
- 102100030852 Run domain Beclin-1-interacting and cysteine-rich domain-containing protein Human genes 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000012937 correction Methods 0.000 claims 1
- 230000003247 decreasing effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 claims 1
- 238000000034 method Methods 0.000 claims 1
- 210000004205 output neuron Anatomy 0.000 claims 1
- 230000001902 propagating effect Effects 0.000 claims 1
- 238000010183 spectrum analysis Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Claims (8)
- LEDERER, KELLER & RIEDERER dr. &lgr;. van der wer™Patentanwälte - European Patent AttorneysDR. &Ggr;&Pgr;&Lgr;&Ngr;&Zgr; LEDERERDipi. Cbem. MünchenDR. GÜNTER KELLERDlpl.-Bioi. M iinchenANTON FREIHERR
RIEDERER v. PAARDipl.-Ins LandshutLederer. Keller & Riederer. Postfach 2664. D-84010 LandshutD-84010 LandshutEuropäische Patentanmeldung 94 106 987.4 Postfach 26 64Publikationsnummer 0 623 914 (8-1028 Landshut. Freyung 615)CSELT - Centro Studi e Laboratori Telefon (08 71)2 2170Telecomunicazioni S.p.A. Telefax (08 71)2.2143Turin / ItalienPatentansprüche1. Erkennungssystem für sprecherunabhängige alleinstehende Wörter, bei dem das Sprachsignal digitalisiert und einer Spektralanalyse bei konstanten Zeitintervallen unter Anwendung der schnellen Fourier-Transformation unterworfen wird, das Analyseergebnis zum Erhalten von Cepstral-Parametern einer orthogonalen Transformation unterworfen wird und der Logarithmus der in jedem Zeitintervall enthaltenen Gesamtenergie berechnet wird, woraufhin die numerischen Ableitungen dieser Werte berechnet werden, wodurch man die charakteristischen Parameter des Sprachsignals für jedes Zeitintervall erhält, wobei die Wortenden durch die Energiehöhe des Signals festgestellt werden und das Wort von einem Erkenner (RNA) analysiert wird, in dem vollständige Wörter mit Markovmodell-Automaten der Art "von links nach rechts" mit Rekursion auf die Zustände modelliert werden, von denen jeder einem akustischen Teil des Worts entspricht, und die Erkennung durch eine dynamische Programmierung gemäß dem Viterbi-Algorithmus an allen Automaten zum Herausfinden des Automaten mit dem Pfad des Kostenminimums durchgeführt wird, der dem am Ausgang (PR) angezeigten erkannten Wort entspricht, wobei die Emissionsmöglichkeiten mit einem neuralen Netz mit Rückkopplung berechnet werden, das speziell trainiert wurde, und die Übergangswahrscheinlichkeiten in geeigne-ter Weise abgeschätzt werden, und wobei das Trainingsverfahren dadurch gekennzeichnet ist, daß es die folgenden Operationen umfaßt:Initialisierung:a. Initialisierung des neuralen Netzes mit kleinen
zufälligen synaptischen Gewichtungen;b. Erzeugung der ersten Abschnittbildung durch gleichförmige Segmentierung der Wörter des Trainingssatzes;Iteration:
151) Initialisierung des Trainingssatzes mit allen segmentiert en Wörtern; - 2) Zufallswahl eines nicht bereits erlernten Worts (ein Wort wird als erlernt angesehen, wenn der mittlere Fehler für dieses Wort ausreichend niedrig ist);
- 3) Fortschreiben von synaptischen Gewichtungen W1- für das betrachtete Wort durch Anwenden eines korrelativen Trainings, wobei speziell das Eingangssignal des neuralen Netzes gemäß einem Fenster zur Veränderung gebracht wird, das von links nach rechts über das Wort gleitet, und für jedes Eingangsfenster ein geeigneter objektiver Vektor am Ausgang geliefert wird, der dadurch konstruiert wird, daß eine 1 auf das Neuron gesetzt wird, das dem Zustand entspricht, zu dem das Eingangsfenster gemäß der laufenden Abschnittbildung gehört, und 0 auf alle anderen Neuronen gesetzt wird;
- 4) Erneute Berechnung der Abschnittbildung für das betrachtete Wort unter Verwendung des insoweit trainierten neuralen Netzes, und Durchführung einer dynamischen Programmierung nur mit dem korrekten Modell;
- 5) Fortschreiben der laufenden Abschnittbildung St+1;
- 6) Falls es noch nicht untersuchte Wörter im Trainingssatz gibt, gehe zum Schritt 2);
- 7) Erneute Berechnung von Übergangswahrscheinlichkeiten der Automaten;
- 8) Sofern die Zahl der Iterationen am Trainingssatz größer ist als eine gegebene Maximalzahl NMAX, beendige, oder gehe im anderen Fall zum Schritt 1).2. Erkennungssystem für sprecherunabhängige alleinstehende Wörter nach Anspruch 1, dadurch gekennzeichnet, daß das korrelative Training die folgenden Schritte umfaßt, die für jeden Abtastwert des Trainingssatzes wiederholt werden:1) Betrachtung des Eingangswert-Vektors X und des Vektors T des gewünschten Werts (objektiver Vektor);2) Positionieren der Eingangswerte auf die Eingangseinheiten;3) Ausführen des Netzes durch Weiterleiten in Vorwärtsrichtung dieser Werte von Eingangseinheiten bis zu Ausgangseinheiten und Erhalten des Ausgangsvektors 0 gemäß den bekannten Formeln:O1 = Finet^ mitneti = &Sgr; w^ + ejt F(x) =j 1 + e"xwobei O1 der Ausgang eines allgemeinen Neurons i und G1 ein konstanter Wert, der typisch für das Neuron ist, ist;4) Berechnen des Fehlers E, der als quadratischer Fehler zwischen dem Ausgangsvektor 0 und dem ge-4
wünschten Vektor T definiert ist, gemäß der Formel:E = &Sgr; <tk - ok)2
kwobei der Gegenstand definiert ist gemäß der Korrelationsformel von Ausgängen:tk=ok-oh wenn tk*l und th=lunverändert wenn tk=lwobei tk das k-te Element des Gegenstandsvektors und ok und oh die Ausgänge des k-ten und des h-ten Neurons der Ausgangsebene des Netzes sind;OE
5) Berechnen der Teilableitung des Fehlers inBezug zu den Gewichtungen, die in der Fortschreitungsgleichung der synaptischen Gewichtungen^y(t -1) = TjS1O, +/3Aw..(t -1)verwendet wird, wobei W1- die synaptische Gewichtung vom Neuron j zum Neuron i ist, &eegr; ein Koeffizient ist, der die Lerngeschwindigkeit bestimmt, ß ein Koeffizient ist, der als Moment bezeichnet wird und die Trägheit beim Fortschreiben der Gewichtung bestimmt, O1 der zurückgeleitete Fehler am Neuron i ist und o. der Ausgang des Neurons j ist; ausgehend vom im Schritt 4) definierten Fehler, werden die neuen Rückleitungs-Fehlergesetze für das korrelative Training erhalten, die folgendermaßen definiert sind:für Ausgangsneuronen:6i = (ti-oi)F/(net^ wenn t^l
5^-O1(On-I)2F' (net^ wenn t^l th=l;35für innere Neuronen:wobei der Index k sich auf Neuronen der oberen Ebene bewegt;6) Fortschreiben jeder synaptischen Gewichtung w.. gemäß der Gleichung:ch.väIJ3. Erkennungssystem " für sprecherunabhängige alleinstehende Wörter nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Übergangswahrscheinlichkeit in den Zustand i+1 des Worts w zur Zeit t+1 unter der Voraussetzung, daß der Zustand i zur Zeit t herrscht, folgendermaßen berechnet wird:25PTlSw.i*i0 wobei min die Funktion ist, die das Minimum zwischen dem betrachteten Bruchteil und 1 wiederherstellt, undh=twenn t<Kwobei in dieser letzten Gleichung Freq(SUfi (h)) die Anzahl von Wörtern ist, die in Sw#1 für h Male verbleiben.4. Erkennungssystem für sprecherunabhängige alleinstehende Wörter nach Anspruch 2 oder nach dem auf Anspruch 2 rückbezogenen Anspruch 3, dadurch gekennzeichnet, daß die folgenden Parameter verwendet werden:- Moment ß = 0,2;Anzahl der Korrekturen, die akkumuliert werden, bevor sie tatsächlich an den Gewichtungen durchgeführt werden (Batch-Größe = 10;- Lerngeschwindigkeit &eegr; linear abnehmend von0,1 bis 0,001.5. Erkennungssystem für sprecherunabhängige alleinstehende Wörter nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß jedes Wort durch einen Automaten modelliert wird, der eine zentrale Sequenz von zum Wort gehörenden Zuständen (3,...,7) enthält, dem ein für das Wort spezifischer Anfangs-Ruhezustand (2) vorhergeht und End-Ruhezustand (8) folgt, die die Übergänge Ruhe-Wort beziehungsweise Wort-Ruhe enthalten und denen ihrerseits zwei weitere Zustände von allgemeinem Hintergrundrauschen (1,9) vorhergehen beziehungsweise folgen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ITTO930309A IT1270919B (it) | 1993-05-05 | 1993-05-05 | Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali |
Publications (1)
Publication Number | Publication Date |
---|---|
DE623914T1 true DE623914T1 (de) | 1995-08-24 |
Family
ID=11411463
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE0623914T Pending DE623914T1 (de) | 1993-05-05 | 1994-05-04 | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes. |
DE69414752T Expired - Lifetime DE69414752T2 (de) | 1993-05-05 | 1994-05-04 | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69414752T Expired - Lifetime DE69414752T2 (de) | 1993-05-05 | 1994-05-04 | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes |
Country Status (6)
Country | Link |
---|---|
US (1) | US5566270A (de) |
EP (1) | EP0623914B1 (de) |
JP (1) | JP2654917B2 (de) |
CA (1) | CA2122575C (de) |
DE (2) | DE623914T1 (de) |
IT (1) | IT1270919B (de) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0728487A (ja) * | 1993-03-26 | 1995-01-31 | Texas Instr Inc <Ti> | 音声認識方法 |
US5774846A (en) * | 1994-12-19 | 1998-06-30 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus |
US5687287A (en) * | 1995-05-22 | 1997-11-11 | Lucent Technologies Inc. | Speaker verification method and apparatus using mixture decomposition discrimination |
US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
US6167374A (en) * | 1997-02-13 | 2000-12-26 | Siemens Information And Communication Networks, Inc. | Signal processing method and system utilizing logical speech boundaries |
US5924066A (en) * | 1997-09-26 | 1999-07-13 | U S West, Inc. | System and method for classifying a speech signal |
ITTO980383A1 (it) | 1998-05-07 | 1999-11-07 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano. |
US6208963B1 (en) * | 1998-06-24 | 2001-03-27 | Tony R. Martinez | Method and apparatus for signal classification using a multilayer network |
DE19948308C2 (de) * | 1999-10-06 | 2002-05-08 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
US7369993B1 (en) | 2000-11-02 | 2008-05-06 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US7006969B2 (en) * | 2000-11-02 | 2006-02-28 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US6662091B2 (en) | 2001-06-29 | 2003-12-09 | Battelle Memorial Institute | Diagnostics/prognostics using wireless links |
EP1405044A1 (de) | 2001-07-02 | 2004-04-07 | Battelle Memorial Institute | Intelligente mikrosensoreinheit |
ITTO20020170A1 (it) | 2002-02-28 | 2003-08-28 | Loquendo Spa | Metodo per velocizzare l'esecuzione di reti neurali per il riconoscimento della voce e relativo dispositivo di riconoscimento vocale. |
GB2397664B (en) * | 2003-01-24 | 2005-04-20 | Schlumberger Holdings | System and method for inferring geological classes |
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
US8126262B2 (en) * | 2007-06-18 | 2012-02-28 | International Business Machines Corporation | Annotating video segments using feature rhythm models |
DE202008016880U1 (de) | 2008-12-19 | 2009-03-12 | Hörfabric GmbH | Digitales Hörgerät mit getrennter Ohrhörer-Mikrofon-Einheit |
US8700399B2 (en) * | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
DE202010013508U1 (de) | 2010-09-22 | 2010-12-09 | Hörfabric GmbH | Software-definiertes Hörgerät |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
CN102693723A (zh) * | 2012-04-01 | 2012-09-26 | 北京安慧音通科技有限责任公司 | 一种基于子空间的非特定人孤立词识别方法及装置 |
US9627532B2 (en) * | 2014-06-18 | 2017-04-18 | Nuance Communications, Inc. | Methods and apparatus for training an artificial neural network for use in speech recognition |
US10825445B2 (en) | 2017-03-23 | 2020-11-03 | Samsung Electronics Co., Ltd. | Method and apparatus for training acoustic model |
US10255909B2 (en) | 2017-06-29 | 2019-04-09 | Intel IP Corporation | Statistical-analysis-based reset of recurrent neural networks for automatic speech recognition |
CN109902292B (zh) * | 2019-01-25 | 2023-05-09 | 网经科技(苏州)有限公司 | 中文词向量处理方法及其系统 |
KR102152902B1 (ko) * | 2020-02-11 | 2020-09-07 | 주식회사 엘솔루 | 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8908205D0 (en) * | 1989-04-12 | 1989-05-24 | Smiths Industries Plc | Speech recognition apparatus and methods |
GB8911461D0 (en) * | 1989-05-18 | 1989-07-05 | Smiths Industries Plc | Temperature adaptors |
GB2240203A (en) * | 1990-01-18 | 1991-07-24 | Apple Computer | Automated speech recognition system |
-
1993
- 1993-05-05 IT ITTO930309A patent/IT1270919B/it active IP Right Grant
-
1994
- 1994-04-26 JP JP6109158A patent/JP2654917B2/ja not_active Expired - Lifetime
- 1994-04-29 CA CA002122575A patent/CA2122575C/en not_active Expired - Lifetime
- 1994-05-04 DE DE0623914T patent/DE623914T1/de active Pending
- 1994-05-04 EP EP94106987A patent/EP0623914B1/de not_active Expired - Lifetime
- 1994-05-04 DE DE69414752T patent/DE69414752T2/de not_active Expired - Lifetime
- 1994-05-05 US US08/238,319 patent/US5566270A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
IT1270919B (it) | 1997-05-16 |
JPH06332497A (ja) | 1994-12-02 |
EP0623914A1 (de) | 1994-11-09 |
US5566270A (en) | 1996-10-15 |
ITTO930309A0 (it) | 1993-05-05 |
DE69414752T2 (de) | 1999-05-27 |
JP2654917B2 (ja) | 1997-09-17 |
DE69414752D1 (de) | 1999-01-07 |
EP0623914B1 (de) | 1998-11-25 |
CA2122575A1 (en) | 1994-11-06 |
ITTO930309A1 (it) | 1994-11-05 |
CA2122575C (en) | 1997-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE623914T1 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes. | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
DE602004000382T2 (de) | Rauschadaptierung zur Spracherkennung | |
DE60302407T2 (de) | Umgebungs- und sprecheradaptierte Spracherkennung | |
DE69827586T2 (de) | Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung | |
DE69523219T2 (de) | Anpassungsfähiges Lernverfahren zur Mustererkennung | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE69725106T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung | |
DE69422097T2 (de) | Training von kombinierten Kettenmodellen mit minimaler Fehlerrate | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE69635655T2 (de) | Sprecherangepasste Spracherkennung | |
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE69328275T2 (de) | Spracherkennungssystem | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE69712277T2 (de) | Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten | |
DE69831114T2 (de) | Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen | |
DE69726235T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3876379T2 (de) | Automatische bestimmung von kennzeichen und markov-wortmodellen in einem spracherkennungssystem. | |
DE69916255T2 (de) | System und verfahren zur geräuschkompensierten spracherkennung | |
DE69629763T2 (de) | Verfahren und Vorrichtung zur Ermittlung von Triphone Hidden Markov Modellen (HMM) | |
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
DE69420842T2 (de) | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode | |
DE69324428T2 (de) | Verfahren zur Sprachformung und Gerät zur Spracherkennung |