DE102008024258A1

DE102008024258A1 - Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung

Info

Publication number: DE102008024258A1
Application number: DE102008024258A
Authority: DE
Inventors: Stephan Dr. Grashey; Klaus Lukas
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2008-05-20
Filing date: 2008-05-20
Publication date: 2009-11-26
Also published as: WO2009140781A1

Abstract

Es wird ein Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung beschrieben, bei dem alle Anteile der Äußerung identifiziert werden, die von ein und demselben Sprecher stammen, bzw. Anteile der Äußerung erkannt werden, die nicht dem jeweiligen Sprecher zuzuordnen sind, wobei Anteile der Äußerung, die nicht dem jeweiligen Sprecher zuzuordnen sind, bei der Spracherkennung unberücksichtigt bleiben, so dass nur die von dem jeweiligen Sprecher gesprochenen Anteile der Äußerung für die Ergebnisauswertung der Spracherkennung berücksichtigt werden.

Description

Die Erfindung betrifft ein Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung gemäß dem Oberbegriff des Anspruchs 1.
Spracherkennung findet zunehmend in vielen Bereichen des Lebens Anwendung, z. B. in mobilen Endgeräten, Fahrzeug-Infotainment-Systemen und sprachbasierten Telefonauskunftdiensten. Oftmals jedoch wird die Spracherkennungsrate durch Hintergrundgeräusche von anderen Sprechern, der Umgebung oder im Falle eines Fahrzeug-Infotainment-Systems vom Fahrzeug selbst beeinträchtigt.
Gerade bei der Eingabe längerer Sequenzen wie z. B. Telefonnummern, Kreditkartennummern oder bei der Eingabe von freien Sätzen in Dialogsystemen sind Wort-Einfügungen durch Hintergrundgeräusche äußerst störend und können mitunter zu einer kompletten Neueingabe zwingen.
So kann es z. B. bei Regenfahrten immer wieder zu unerwünschten Wort-Einfügungen kommen, die z. B. durch das Scheibenwischergeräusch verursacht werden, da das Geräusch akustisch einer Ziffer oder einem Wort sehr nahe ist. Auch kurze Zwischenäußerungen von einem Beifahrer erschweren beispielsweise eine Ziffernketteneingabe erheblich. Bei langen Ziffernketten ist ein Editieren hieraus hervorgegangener Einfügungen in der Regel dann sehr aufwändig und nötigt den Benutzer meist zu einer vollständigen Neueingabe.
Generell finden heute leistungsfähige Geräuschreduktionsalgorithmen bei der Spracherkennung breiten Einsatz. Mit Verfahren wie Wiener Filter oder Spektralsubtraktion können stationäre Geräusche bzw. deren Einfluss äußerst effektiv verringert werden. Bei nicht-stationären Geräuschen, wie z. B. einem Scheibenwischergeräusch oder sprechenden Personen auf dem Beifahrersitz oder auf den Rücksitzen, sind diese Verfahren nachteiligerweise nur bedingt erfolgreich.
Mittels audio-visueller Verfahren kann eine gewisse Unabhängigkeit der Eingabe von der Modalität Sprache erreicht werden, dies bedingt jedoch nachteilhafterweise eine Kamera-Ausstattung als Voraussetzung.
Als eine Aufgabe der Erfindung kann es daher angesehen werden, ein Verfahren zu entwickeln, welches aus einer Äußerung bei einer Spracherkennung ungewünschte Anteile klassifizieren und entfernen kann.
Die Aufgabe wird gelöst durch ein Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung, bei dem alle Anteile der Äußerung identifiziert werden, die von ein und demselben Sprecher bzw. von ein und derselben Person stammen, bzw. Anteile der Äußerung erkannt werden, die nicht dem jeweiligen Sprecher bzw. derselben Person zuzuordnen sind, wobei Anteile der Äußerung, die nicht dem jeweiligen Sprecher bzw. derselben Person zuzuordnen sind, bei der Spracherkennung unberücksichtigt bleiben, so dass nur die von dem jeweiligen Benutzer bzw. Sprecher gesprochenen Anteile der Äußerung für die Ergebnisauswertung der Spracherkennung berücksichtigt werden.
Das erfindungsgemäße Verfahren ermöglicht ein Entfernen bzw. Nichtbeachten von nichtstationären Hintergrundgeräuschen aus einer Spracherkennungsäußerung, so dass nur die von dem jeweiligen Benutzer bzw. Sprecher gesprochenen Anteile für die Ergebnisauswertung berücksichtigt werden. Eine solche Identifikation erlaubt eine Zuordnung von Anteilen oder gar einzelner Wörter einer Äußerung zu einem Sprecher oder zu mehreren unterschiedlichen Sprechern.
Speziell die Spracherkennung bei einer Zifferneingabe oder bei längeren sprachlichen Dialogeingaben, bei denen das Auf treten von Hintergrundgeräuschen durchaus wahrscheinlich ist, kann mit dem erfindungsgemäßen Verfahren deutlich verbessert werden. Der Benutzer hat einen spürbaren positiven Effekt bei seiner so genannten Task-Completion-Rate, welche die Erfolgsquote einer richtigen Erkennung einer gesprochenen Benutzereingabe angibt, und kann damit deutlich effizienter mit einem hinter der Spracherkennung liegenden bzw. von der Spracherkennung gesteuerten System kommunizieren.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass zur Identifikation bzw. Erkennung der Anteile der Äußerung die Äußerung bei der Spracherkennung in Worte bzw. Wortanteile zerlegt wird, um alle Worte der Äußerung zu identifizieren, die von ein und demselben Sprecher bzw. von derselben Person stammen, bzw. Worte der Äußerung zu erkennen, die nicht dem jeweiligen Sprecher bzw. derselben Person zuzuordnen sind.
Dabei ist beispielsweise denkbar, dass das Zerlegen der Äußerung bei der Spracherkennung in Worte bzw. Wortanteile explizit mittels einer so genannten Silence-Erkennung erfolgt, oder dass das Zerlegen der Äußerung bei der Spracherkennung in Worte bzw. Wortanteile implizit im Erkennungsvorgang über die Grammatiken der Spracherkennung erfolgt. Bei der Silence-Erkennung werden Anteile in einer Audioaufnahme erkannt, die keine Sprache enthalten, z. B. Sprechpausen zwischen den einzelnen Wörtern. Die Sprechpausen können z. B. über eine Pegelabsenkung oder über andere Möglichkeiten detektiert werden.
Eine andere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass für jedes der ermittelten Worte parallel sprecherabhängige Merkmale extrahiert und mittels Sprecherverifikationsmechanismen bewertet werden.
Alternativ können für jedes der ermittelten Worte im Nachgang sprecherabhängige Merkmale extrahiert und mittels Sprecherverifikationsmechanismen bewertet werden.
Vorzugsweise wird zur erfindungsgemäßen Anwendung von Mechanismen zur Sprecherverifikation bzw. -erkennung von dem jeweiligen Sprecher bzw. der jeweiligen Person ein Referenzmodell erzeugt, das beispielsweise in Form eines so genannten Benutzermodells vorliegt, mit dem alle Anteile bzw. Worte einer aktuellen Äußerung verglichen werden.
Vorzugsweise wird das Referenzmodell explizit beispielsweise während eines so genannten Enrollments für einen Sprecher erstellt und alle Anteile bzw. Worte der Äußerung werden mit dem Referenzmodell verglichen, wobei wenn einzelne Anteile bzw. Worte zu stark von dem Referenzmodell bzw. Benutzermodell abweichen, diese Worte mit einer verringerten Erkennungskonfidenz belegt werden, und die Spracherkennung aus den Erkennungsergebnissen die Erkennungskonfidenzen auswertet und einzelne Einfügungen aussortiert, auch wenn sie korrekt ausgesprochen wurden, aber von einem anderen Sprecher bzw. von einer anderen Person stammen.
Ebenfalls ist denkbar, dass anhand zumindest der ersten Worte einer Äußerung ein auch als Sprecher- oder Benutzermodell bezeichnetes Referenzmodell des aktuellen Sprechers bzw. der gerade sprechenden Person sukzessive geschätzt wird. Je mehr Worte in die Schätzung eingehen, desto besser wird das Referenzmodell bzw. Benutzermodell.
Vorzugsweise werden hierbei bereits während der Schätzung Worte, welche stark vom bisher erstellten Referenzmodell abweichen, sowohl vom Einfügen in das Referenz- bzw. Benutzermodell ausgeschlossen, als auch mit einer reduzierten Erkennungskonfidenz belegt.
Gemäß einer besonders vorteilhaften Ausgestaltung der Erfindung wird auf eine weitere Integration verzichtet, wenn eine ausreichende Anzahl an Worten in die Erstellung des Referenzmodells eingeflossen ist, und das Verfahren läuft wie im Falle eines explizit trainierten Referenzmodells weiter ab.
Zur Erhöhung der Sprecherverifikationsrate wird die Schätzung des auch als Sprecher- oder Benutzermodell bezeichneten Referenzmodells vorzugsweise über mehrere Spracherkennungsvorgänge akkumuliert, z. B. für die Dauer bzw. während einer Auto-Fahrt, einer Gerätebenutzung, oder eines Telefonats mit einem Sprachdienst. Dabei können aus den gesamten Dialogen Merkmale extrahiert und einer Referenzdatenbasis bzw. einem Referenzmodell zugeordnet werden.
Zur Elimination stationärer Geräusche sind vorzugsweise zusätzlich Konventionelle Geräuschreduktionsalgorithmen vorgesehen.
Die Erfindung wird nachfolgend anhand von in den Zeichnungen dargestellten Ausführungsbeispielen näher erläutert. Es zeigen:
1 eine überblickartige schematische Darstellung eines Ablaufs eines Verfahrens zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung.
2 eine fallbezogene schematische Darstellung eines Ablaufs eines Verfahrens zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung am Beispiel einer Telefonnummereingabe.
1 zeigt einen schematischen Aufbau zur Durchführung eines erfindungsgemäßen Verfahrens zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung bzw. eine schematische Darstellung dessen Ablaufs. Über ein Mikrophon 01 wird eine sprachliche Äußerung AI erfasst und in einen auch als Audio-Signal bezeichneten Audio-Input AI bzw. in Audio-Daten AI umgewandelt. Die Audio-Daten AI werden einem eine Spracherkennung mit Klassifikationsberechnung durchführenden Spracherkennungsmodul 02 zugeführt. Dazwischen findet eine durch ein Wortdetektionsmodul 03 durchgeführte implizite oder explizite Wortdetektion statt. Mit den so detektierten Wortanteilen WA bzw. Worten WA erfolgt in einem Modul 04 eine Extraktion von Sprechermerkmalen SM bzw. von benutzerspezifischen, vorzugsweise biometrischen Merkmalen SM pro Wort WA.
Um aus einer Äußerung AI eines Sprechers ungewünschte Anteile zu klassifizieren und zu entfernen, wird die Äußerung AI bei der Spracherkennung, hier durch das vor dem Spracherkennungsmodul 02 liegende Wortdetektionsmodul 03, in Wortanteile WA zerlegt. Dies kann entweder explizit mittels Silence-Erkennung oder implizit im Erkennungsvorgang über die Grammatiken der Spracherkennung erfolgen. Für jedes der ermittelten Worte WA werden dann parallel oder im Nachgang sprecherabhängige Merkmale extrahiert und mittels Sprecherverifikationsmechanismen bewertet.
Die Idee dabei ist, alle Worte zu identifizieren, die von derselben Person stammen, bzw. Worte zu erkennen, die nicht derselben Person zuzuordnen sind.
Eine Anwendung von Mechanismen zur Sprechererkennung setzt voraus, dass von einer Person ein Referenzmodell 05 beispielsweise in Form eines so genannten Sprechermodells 05 bzw. Benutzermodells 05 vorliegt bzw. erzeugt wird, mit dem eine aktuelle Äußerung AI verglichen werden kann. Dieses Referenzmodell 05 kann z. B. explizit während eines so genannten Enrollments erstellt werden. Alle Worte WA bzw. die aus allen Worten WA extrahierten Sprechermerkmale SM werden dann mit diesem Referenzmodell 05 in einem Vergleichmodul 06 verglichen. Weichen einzelne Worte WA bzw. die Sprechermerkmale SM einzelner Worte WA dann zu stark vom Benutzermodell 05 ab, können diese Worte WA mit einer reduzierten Erkennungskonfidenz belegt werden. Das die Spracherkennung beispielsweise im Sinne einer Anwendung bzw. Applikation durchführende Spracherkennungsmodul 02, kann dann um zu einem Spracherkennungsergebnis SE zu kommen, aus den wortweisen Erkennungsergebnissen WE wie bisher die Konfidenzen auswerten und einzelne Einfü gungen aussortieren, auch wenn sie korrekt ausgesprochen wurden, aber von einer anderen Person stammen.
Ist ein explizites Enrollment nicht vorgesehen, so kann alternativ versucht werden, anhand der ersten Wortanteile WA bzw. Worte WA ein Referenzmodell 05 in Form eines Sprecher- bzw. Benutzermodells 05 der gerade sprechenden Person sukzessive zu schätzen. Je mehr Worte WA in die Schätzung eingehen, desto besser wird das Benutzermodell 05. Bereits während der Schätzung können Worte WA, welche stark vom bisher erstellten Benutzermodell 05 abweichen, sowohl vom Einfügen in das Benutzermodell 05 ausgeschlossen werden, als auch mit einer reduzierten Erkennungskonfidenz belegt werden.
Ist eine ausreichende Anzahl an Worten WA in die Erstellung des Referenzmodells 05 eingeflossen, kann auf eine weitere Integration verzichtet werden und das Verfahren wie im Falle eines weiter oben beschriebenen explizit trainierten Benutzermodells weiter arbeiten.
Das erfindungsgemäße Verfahren ermöglicht ein Entfernen bzw. Nichtbeachten von nichtstationären Hintergrundgeräuschen aus einer Spracherkennungsäußerung, so dass nur die von dem jeweiligen Benutzer bzw. Sprecher gesprochenen Anteile für die Ergebnisauswertung berücksichtigt werden.
2 zeigt eine fallbezogene schematische Darstellung eines Ablaufs eines Verfahrens zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung am Beispiel einer Ziffernfolge ZF bei einer Telefonnummereingabe. Bei der in 2 dargestellten Auswertung einer Telefonnummereingabe stammt die Ziffer „zwei” von einem Hintergrundsprecher bzw. wurde die Ziffer „zwei” von einem Hintergrundsprecher, beispielsweise von einem Bei- oder Mitfahrer oder von einem zufälligen Passanten gesprochen.
In den aufeinander folgenden Schritten W1 ... W6, die den einzelnen, nacheinander gesprochenen Worten WA bzw. Ziffern WA der gesprochenen Ziffernfolge „Null Acht Neun Sechs Zwei Drei” entsprechen, erfolgt zunächst im Schritt W1 eine initiale Schätzung des Referenzmodells 05 bzw. des Sprecher- 05 oder Benutzermodells 05 anhand der aus dem durch die Ziffer „Null” gebildeten Wort WA extrahierten Sprechermerkmale SM. Im Schritt W2 erfolgt bereits ein Vergleich der zwischenzeitlich im Sprechermodell 05 gespeicherten Sprechermerkmale SM mit den aktuell aus dem durch die Ziffer „Acht” gebildeten Wort WA extrahierten Sprechermerkmalen SM. Sind die aktuell im Schritt W2 extrahierten Merkmale SM ähnlich den bereits im Sprechermodel 05 gespeicherten bzw. abgelegten Sprechermerkmalen SM, so erfolgt eine Integration der aktuell extrahierten Sprechermerkmale SM in das Sprechermodell 05. Ebenso verhält es sich im Schritt W3, welcher die Ziffer „Neun” betrifft, und im Schritt W4, welcher die Ziffer „Sechs” betrifft.
Im Schritt W5, der die Ziffer „Zwei” betrifft, die von einem anderen Sprecher, als vom Sprecher der ersten vier Worte WA bzw. Ziffern WA gesprochen wird, ergibt der Vergleich des Sprechermodells 05 und der aktuell aus der Ziffer „Zwei” extrahierten Sprechermerkmale SM, dass die aktuellen Merkmale SM weit abweichend vom bisherigen Referenzmodell 05 bzw. Sprechermodell 05 sind. Diese aktuell extrahierten Sprechermerkmale SM finden daher keine Integration in das Sprechermodell 05. Außerdem wird die Konfidenz der erkannten Ziffer „Zwei” verringert, so dass sie bei der Erzeugung des Spracherkennungsergebnisses SE nur geringen bzw. gar keinen Einfluss hat.
Die darauf folgenden Schritte W6, ... sind nicht näher ausgeführt. Sie wiederholen die beschriebenen Schritte W1, ..., W5 derart, dass wenn ein aktuell extrahiertes Sprechermerkmal SM mit dem Sprechermodell 05 übereinstimmt das zugehörige Wort WA mit einer hohen Konfidenz belegt wird und gegebenenfalls das Sprechermerkmal SM in das Sprechermodell 05 aufgenommen wird. Stimmt ein aktuell extrahiertes Sprechermerkmal SM mit dem Sprechermodell 05 nicht überein, wird das zugehörige Wort WA mit einer niedrigen Konfidenz belegt und nicht in das Sprechermodell 05 aufgenommen.
Vorteile der Erfindung gegenüber dem Stand der Technik ergeben sich dadurch, dass das Verfahren es ermöglicht, nichtstationäre Hintergrundgeräusche effizient aus Äußerungen herauszufiltern. Konventionelle Geräuschreduktionsalgorithmen können dabei nach wie vor für die Elimination von stationären Geräuschen verwendet werden.
Das Verfahren kann als reine Software-Lösung aufgebaut werden und benötigt keine Zusatzhardware.
Speziell die Zifferneingabe oder längere sprachliche Dialogeingaben, bei denen das Auftreten eines Hintergrundgeräuschs durchaus wahrscheinlich ist, können mit dem vorgeschlagenen Verfahren deutlich verbessert werden. Der Benutzer hat einen spürbaren positiven Effekt bei seiner so genannten Task-Completion-Rate, welche die Erfolgsquote bei der richtigen Erkennung der Benutzereingabe angibt, und kann damit deutlich effizienter mit dem System kommunizieren.
Als Erweiterung kann zur Erhöhung der Sprecherverifikationsrate die Schätzung des Sprechermodells über mehrere Spracherkennungsvorgänge akkumuliert werden, z. B. während einer Auto-Fahrt, einer Gerätebenutzung, oder eines Telefonats mit einem Sprachdienst. Dabei können aus den gesamten Dialogen Merkmale extrahiert und einer Referenzdatenbasis bzw. einem Referenzmodell zugeordnet werden.

Claims

Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung, dadurch gekennzeichnet, dass alle Anteile der Äußerung identifiziert werden, die von ein und demselben Sprecher stammen, bzw. Anteile der Äußerung erkannt werden, die nicht dem jeweiligen Sprecher zuzuordnen sind, wobei Anteile der Äußerung, die nicht dem jeweiligen Sprecher zuzuordnen sind, bei der Spracherkennung unberücksichtigt bleiben, so dass nur die von dem jeweiligen Sprecher gesprochenen Anteile der Äußerung für die Ergebnisauswertung der Spracherkennung berücksichtigt werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Äußerung bei der Spracherkennung in Worte bzw. Wortanteile zerlegt wird, um alle Worte der Äußerung zu identifizieren, die von ein und demselben Sprecher stammen, bzw. Worte der Äußerung zu erkennen, die nicht dem jeweiligen Sprecher zuzuordnen sind.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das Zerlegen der Äußerung bei der Spracherkennung in Worte bzw. Wortanteile explizit mittels Silence-Erkennung erfolgt.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das Zerlegen der Äußerung bei der Spracherkennung in Worte bzw. Wortanteile implizit im Erkennungsvorgang über die Grammatiken der Spracherkennung erfolgt.
Verfahren nach einem der Ansprüche 2, 3 oder 4, dadurch gekennzeichnet, dass für jedes der ermittelten Worte parallel sprecherabhängige Merkmale extrahiert und mittels Sprecherverifikationsmechanismen bewertet werden.
Verfahren nach einem der Ansprüche 2, 3 oder 4, dadurch gekennzeichnet, dass für jedes der ermittelten Worte im Nachgang sprecherabhängige Merkmale extrahiert und mittels Sprecherverifikationsmechanismen bewertet werden.
Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass von dem jeweiligen Sprecher ein Referenzmodell erzeugt wird, mit dem alle Anteile bzw. Worte einer aktuellen Äußerung verglichen werden.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass das Referenzmodell explizit für einen Sprecher erstellt wird und alle Anteile bzw. Worte der Äußerung mit dem Referenzmodell verglichen werden, wobei wenn einzelne Anteile bzw. Worte zu stark von dem Referenzmodell abweichen, diese Worte mit einer verringerten Erkennungskonfidenz belegt werden, und die Spracherkennung aus den Erkennungsergebnissen die Erkennungskonfidenzen auswertet und einzelne Einfügungen aussortiert, wenn sie von einem anderen Sprecher stammen.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass anhand zumindest der ersten Worte einer Äußerung ein Referenzmodell des aktuellen Sprechers sukzessive geschätzt wird.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass bereits während der Schätzung Worte, welche stark vom bisher erstellten Referenzmodell abweichen, sowohl vom Einfü gen in das Referenzmodell ausgeschlossen, als auch mit einer reduzierten Erkennungskonfidenz belegt werden.
Verfahren nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass wenn eine ausreichende Anzahl an Worten in die Erstellung des Referenzmodells eingeflossen ist, das Verfahren wie im Falle eines explizit trainierten Referenzmodells weiter abläuft.
Verfahren nach Anspruch 9, 10 oder 11, dadurch gekennzeichnet, dass die Schätzung des Referenzmodells über mehrere Spracherkennungsvorgänge akkumuliert wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Elimination stationärer Geräusche zusätzlich Konventionelle Geräuschreduktionsalgorithmen vorgesehen sind.