EP1886303B1

EP1886303B1 - Verfahren zum anpassen eines neuronalen netzwerks einer automatischen spracherkennungseinrichtung

Info

Publication number: EP1886303B1
Application number: EP05747980A
Authority: EP
Inventors: Roberto LOQUENDO S.p.A. GEMELLO; Franco LOQUENDO S.p.A. MANA
Original assignee: Loquendo SpA
Current assignee: Loquendo SpA
Priority date: 2005-06-01
Filing date: 2005-06-01
Publication date: 2009-12-23
Anticipated expiration: 2025-06-01
Also published as: EP1886303A1; US8126710B2; DE602005018552D1; ATE453183T1; CA2610269C; ES2339130T3; CA2610269A1; US20090216528A1; WO2006128496A1

Claims

Verfahren zum Anpassen eines mehrschichtigen neuronalen Netzwerks (NN) einer automatischen Spracherkennungsvorrichtung (ASR), wobei das Verfahren die folgenden Schritte umfasst:
- Bereitstellen eines neuronalen Netzwerks (NN), das eine Eingangsstufe (Ins) zum Speichern von mindestens einer Sprachsignalprobe, eine Zwischenstufe (IntS, IntS1, IntS2), die Eingangsverbindungen hat, welche mit einer ersten Gewichtungsmatrix (W) verbunden sind, und eine Ausgangsstufe (OutS) umfasst, die Eingangsverbindungen hat, welche mit einer zweiten Gewichtungsmatrix (W') verbunden sind, wobei die Ausgangsstufe (OutS) Phonemwahrscheinlichkeiten ausgibt;

- Bereitstellen einer linearen Stufe (LHN) im neuronalen Netzwerk (NN) nach der Zwischenstufe (IntS, IntS1, IntS2), wobei die lineare Stufe (LHN) dieselbe Zahl von Knoten wie die Zwischenstufe (IntS, IntS1, IntS2) hat; und

- Trainieren der linearen Stufe (LHN) mittels eines Anpassungssets, wobei die erste Gewichtungsmatrix (W) und die zweite Gewichtungsmatrix (W') während des Trainings unverändert gelassen werden.
Verfahren nach Anspruch 1, wobei der Schritt des Trainierens der linearen Stufe (LHN) das Training der linearen Stufe (LHN) derart umfasst, dass die Phonemwahrscheinlichkeit eines Phonems, das zu den Sprachsignalen gehört, die nicht im Anpassungsset enthalten sind, gleich der Phonemwahrscheinlichkeit des Phonems ist, das vom neuronalen Netzwerk (NN) vor dem Schritt des Bereitstellens einer linearen Stufe (LHN) berechnet wurde.
Verfahren nach Anspruch 2, wobei der Schritt des Trainierens der linearen Stufe (LHN) das Trainieren der linearen Stufe (LHN) derart umfasst, dass die Phonemwahrscheinlichkeit des Phonems, das einer Sprachsignalprobe des Anpassungssets entspricht, durch Subtrahieren der Phonemwahrscheinlichkeiten aller Phoneme, die zu den Sprachsignalen gehören, welche nicht im Anpassungsset von 1 enthalten sind, berechnet ist.
Verfahren nach Anspruch 3, wobei der Schritt des Trainierens der linearen Stufe (LHN) das Trainieren der linearen Stufe (LHN) derart umfasst, dass die Phonemwahrscheinlichkeit der restlichen Phoneme gleich null gesetzt ist.
Verfahren nach einem der Ansprüche 1 bis 4, wobei der Schritt des Bereitstellens der linearen Stufe (LHN) den Schritt des Bereitstellens der linearen Stufe (LHN) zwischen der Zwischenstufe (IntS) und der Ausgangsstufe (OutS) umfasst.
Verfahren nach einem der Ansprüche 1 bis 4, wobei der Schritt des Bereitstellens des neuronalen Netzwerks (NN) den Schritt des Bereitstellens eines neuronalen Netzwerks (NN) umfasst, das zwei Zwischenstufen (Int1, Int2) umfasst, und wobei der Schritt des Bereitstellens der linearen Stufe (LHN) das Bereitstellen der linearen Stufe (LHN) zwischen den zwei Zwischenstufen (IntS1, IntS2) umfasst.
Verfahren nach einem der vorherigen Ansprüche, wobei der Schritt des Trainierens der linearen Stufe (LHN) den Schritt des Trainierens der linearen Stufe (LHN) mittels eines Fehlerrückführungsalgorithmus umfasst.
Verfahren nach einem der vorherigen Ansprüche, das ferner einen Schritt des Bereitstellens einer äquivalenten Stufe umfasst, die durch Kombinieren der linearen Stufe (LHN) und entweder der folgenden Zwischenstufe (IntS2) oder der Ausgangsstufe (OutS) erhalten ist.
Berechnungsmodul für mehrschichtige neuronale Netzwerke (NN), das eine Eingangsstufe (Ins) zum Speichern von mindestens einer Sprachsignalprobe, eine Zwischenstufe (IntS, IntS1, IntS2), die Eingangsverbindungen hat, welche mit einer ersten Gewichtungsmatrix (W) verbunden sind, eine Ausgangsstufe (OutS), die Eingangsverbindungen hat, welche mit einer zweiten Gewichtungsmatrix (W') verbunden sind, und eine lineare Stufe (LHN) umfasst, welche dafür ausgelegt ist, mittels eines Anpassungssets trainiert zu werden, wobei die erste Gewichtungsmatrix (W) und die zweite Gewichtungsmatrix (W') unverändert gelassen werden, während die lineare Stufe (LHN) trainiert wird, wobei die Ausgangsstufe (OutS) dafür ausgelegt ist, Phonemwahrscheinlichkeiten auszugeben, wobei die lineare Stufe (LHN) nach der Zwischenstufe (IntS, IntS1, IntS2) bereitgestellt ist, wobei die lineare Stufe (LHN) dieselbe Zahl von Knoten wie die Zwischenstufe (IntS, IntS1, IntS2) hat.
Neuronales Netzwerk nach Anspruch 9, wobei die lineare Stufe (LHN) dafür ausgelegt ist, so trainiert zu werden, dass die Phonemwahrscheinlichkeit eines Phonems, das zu Sprachsignalen gehört, die nicht im Anpassungsset enthalten sind, gleich der Phonemwahrscheinlichkeit des Phonems ist, das vom neuronalen Netzwerk (NN) vor dem Bereitstellen einer linearen Stufe (LHN) berechnet wurde.
Neuronales Netzwerk nach Anspruch 10, wobei die lineare Stufe (LHN) dafür ausgelegt ist, so trainiert zu werden, dass die Phonemwahrscheinlichkeit des Phonems, das einer Sprachsignalprobe des Anpassungssets entspricht, durch Subtrahieren der Phonemwahrscheinlichkeiten aller Phoneme, die zu den Sprachsignalen gehören, welche nicht im Anpassungsset von 1 enthalten sind, berechnet ist.
Neuronales Netzwerk nach Anspruch 11, wobei die lineare Stufe (LHN) dafür ausgelegt ist, so trainiert zu werden, dass die Phonemwahrscheinlichkeit der restlichen Phoneme gleich null gesetzt ist.
Neuronales Netzwerk nach einem der Ansprüche 9 oder 12, wobei die lineare Stufe (LHN) zwischen der Zwischenstufe (IntS) und der Ausgangsstufe (OutS) bereitgestellt ist.
Neuronales Netzwerk nach einem der Ansprüche 9 oder 12, wobei das neuronale Netzwerk (NN) zwei Zwischenstufen (Int1, Int2) umfasst und die lineare Stufe (LHN) zwischen den zwei Zwischenstufen (IntS1, IntS2) bereitgestellt ist.
Neuronales Netzwerk nach einem der Ansprüche 9 bis 14, wobei die lineare Stufe (LHN) dafür ausgelegt ist, mittels eines Fehlerrückführungsalgorithmus trainiert zu werden.
Neuronales Netzwerk nach einem der Ansprüche 9 bis 15, wobei das neuronale Netzwerk (NN) eine äquivalente Stufe umfasst, die durch Kombinieren der linearen Stufe (LHN) und entweder der folgenden Zwischenstufe (IntS2) oder der Ausgangsstufe (OutS) erhalten ist.
Automatische Spracherkennungsvorrichtung (ASR), die einen Mustererkennungsblock (PM) umfasst, der ein neuronales Netzwerk (NN) nach einem der Ansprüche 9 bis 16 umfasst.
Computerprogramm, das Computerprogrammcodemittel umfasst, welche zum Ausführen aller Schritte jeder der Ansprüche 1 bis 8 ausgelegt sind, wenn das Programm auf einem Computer ausgeführt ist.
Computerlesbares Medium, das ein Programm hat, welches darauf aufgezeichnet ist, wobei das computerlesbare Medium Computerprogrammcodemittel umfasst, welche zum Ausführen aller Schritte jeder der Ansprüche 1 bis 8 ausgelegt sind, wenn das Programm auf einem Computer ausgeführt ist.