DE10243832A1

DE10243832A1 - Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen

Info

Publication number: DE10243832A1
Application number: DE2002143832
Authority: DE
Inventors: Volkmar Naumburger; Frank Oberle; Hellmar Zimmer
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 2002-09-13
Filing date: 2002-09-13
Publication date: 2004-03-25

Abstract

Die erfindungsgemäße Lösung bezieht sich auf ein Verfahren und eine Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen und hat zum Ziel, die bei der Dialogführung in der zwischenmenschlichen Kommunikation üblichen Verhaltensweisen auf den Dialog Mensch/Maschine zu übertragen. DOLLAR A Das Wirkprinzip der Lösung beruht darauf, neben dem informativen Inhalt der Systemäußerung auch mittels gezielter Anhebung bzw. Absenkung der Lautstärke der Systemäußerung für den Nutzer erkennbar auf die vorhergehende Nutzeräußerung zu reagieren. DOLLAR A Erfindungsgemäß wird mit dem Beginn einer Nutzeräußerung, der durch eine Intensitätsdetektion mittels eines Intensitätsdetektors (3) erkannt wird, eine hörbare Absenkung der Lautstärke der Systemäußerung vorgenommen. Gleichzeitig wird über einen Spracherkenner (5) eine Spracherkennung gestartet, wobei in Abhängigkeit vom Ergebnis der Spracherkennung die Ausgabelautstärke der nächsten Systemäußerung über ein steuerbares Dämpfungsglied (2) eingestellt wird. Durch eine Veränderung der Lautstärke der Systemäußerung wird dem Nutzer signalisiert, dass seine Äußerungen vom System wahrgenommen wurde bzw. dass seine Äußerungen nicht korrekt waren.

Description

Die Erfindung betrifft ein Verfahren und eine Anordnung zur intelligenten Abbruchsteuerung bei der Sprachausgabe von Bedienhinweisen oder Informationen in automatischen Sprachdialogsystemen durch die menschliche Stimme.
Barge In, Talk over oder cut through sind Begriffe für ein Leistungsmerkmal moderner Spracherkennungslösungen, nämlich für das Hineinsprechen in eine sprachliche Systemäußerung mit dem Ziel, die Systemäußerung auf diese Weise zu unterbrechen und so zu einer Beschleunigung des Dialoges beizutragen.

Bekannte technische Lösungen basieren darauf, diesen Abbruch bereits durch das Auftreten von beliebigen Signalen einer bestimmten Intensität herbeizuführen (siehe WO 02/052546). Diese Lösung ist einfach und schont die Ressourcen des Sprachdialogsystems. Nachteilig ist allerdings, dass so ungewollt jedes Räuspern, jede unspezifische Äußerung oder jedes Hintergrundgeräusch bereits diesen Effekt auslösen. Das führt zu häufigen Wiederholungen im Dialog, da ja der aktuelle Dialogschritt ungewollt unterbrochen und damit unverständlich geblieben ist. Auf diese Weise wird gerade das Gegenteil dessen bewirkt, was ursprünglich beabsichtig war – die Dialogbeschleunigung.

Ein intelligenteres Verfahren wertet hingegen die Bedeutung der Äußerung des Nutzers aus und reagiert nur dann mit einem Abbruch der Systemäußerung, wenn die Nutzeräußerung sinnvoll ist. Dies setzt voraus, dass ein Spracherkenner aktiv an diesem Prozess beteiligt ist. Nachteilig an dieser Lösung ist, dass infolge der Reaktionszeit des Spracherkenners Verzögerungen zwischen Äußerung und Abbruch auftreten, die dem Nutzer unmotiviert erscheinen und so zu Irritationen führt (siehe P 0 895 224 und US 6,246,986 ).

Die Erfindung verfolgt das Ziel, eine Lösung für ein intelligentes Barge In anzugeben, die ein Verhalten nachbildet, wie es der zwischenmenschlichen Kommunikation nahe kommt.

Der Erfindung liegt die Aufgabe zugrunde, eine Barge In Lösung zu schaffen, die nur dann zu einem Abbruch der Systemäußerungen führt, wenn eine sinnvolle Nutzeräußerung erkannt wird. Die dabei zwangsläufig entstehende Verzögerung soll für den Nutzer nachvollziehbar sein, so dass beim Nutzer keine Irritationen entstehen, die ihn zu unkontrollierten Aktionen verleiten.

Die erfindungsgemäße Lösung beruht darauf, dass mit dem Beginn der Nutzeräußerung, der durch eine Intensitätsdetektion erkannt wird, eine hörbare Absenkung der Lautstärke der Systemäußerung vorgenommen wird. Dadurch wird dem Nutzer signalisiert, dass seine Äußerung wahrgenommen wurde. Gleichzeitig wird ein Spracherkenner 5 gestartet. Nach Ablauf der für die Erkennung notwendigen Zeit steht das Erkennungsergebnis für eine logische Auswertung zur Verfügung. Drei Fälle sind jetzt möglich:

1. die Erkennung war erfolgreich, d.h. das Erkennungsergebnis ist eine sinnvolle Nutzeräußerung (erkennbares Kommando). Damit wird der Ausgabevorgang der Systemäußerung korrekt beendet, und der Dialog wird in regulärer Weise fortgesetzt.
2. die Erkennung war erfolgreich, aber das Erkennungsergebnis steht in keinem Bezug zu der aktuellen Systemäußerung. Das ist beispielsweise der Fall, wenn ein in diesem Zusammenhang nicht zugelassenes erkennbares Kommando erkannt wurde. Dann wird der Ausgabevorgang der Systemäußerung nicht unterbrochen und die Ausgabelautstärke kehrt zu ihrem Normalwert zurück. Der Dialog wird anschließend in regulärer Weise fortgesetzt.
3. die Erkennung war nicht erfolgreich. Das ist dann der Fall, wenn Signale von der Nutzerseite vorliegen, wie – z.B. Husten oder Hintergrundgeräusche, aus denen kein Bezug (Kommando) zum aktuellen Dialog abgeleitet werden kann. Dann wird der Ausgabevorgang der Systemäußerung ebenfalls nicht unterbrochen und die Ausgabelautstärke kehrt zu ihrem Normalwert zurück. Auch in diesem Fall wird der Dialog in regulärer Weise fortgesetzt.

Auf die oben beschriebene Weise wird das natürliche Verhalten eines menschlichen Kommunikationspartners nachgebildet. Eine Verhaltensweise, die dem Nutzer bekannt ist und somit, auch bei langen Reaktionszeiten, nicht zu Irritationen führt.

Die Erfindung wird nachfolgend an einem Ausführungsbeispiel näher erläutert.
1 zeigt dabei das Wirkprinzip der erfindungsgemäßen Anordnung.
In 2a ist anhand eines Diagrammes der Fall dargestellt, dass vom Nutzer zwar ein Signal ausreichender Intensität vorliegt, das Erkennungsergebnis jedoch negativ ist.
2b zeigt den Fall, dass vom Nutzer ein Signal ausreichender Intensität vorliegt, wobei das vorliegende Signal von der Bewertungseinrichtung 4 als positives Signal, also als gültiges Kommando, erkannt wurde.
Die in 1 dargestellte prinzipielle Anordnung besteht aus der Sprachausgabeeinheit 1, die die Systemäußerungen an den Nutzer erzeugt, einem Intensitätsdetektor 3, der die von der Nutzerseite eingehenden Signale in Bezug auf Ihre Intensität (vorliegen von Sprachsignalen) bewertet, und einem Spracherkenner 5, der die sprachlichen Nutzeräußerungen in Bezug auf ihren Inhalt (gültige Kommandos) bewertet. Weiterhin befindet sich im Ausgabepfad der Sprachausgabeeinheit 1 ein steuerbares Dämpfungsglied 2, das von der Bewertungseinrichtung 4 gesteuert wird.
Während das System über die Sprachausgabeeinheit 1 eine Systemäußerung an den Nutzer erzeugt, überwacht der Intensitätsdetektor 3 die Intensität der vom Nutzer eingehenden Signale. Gibt der Nutzer ein Signal hinreichender Intensität (Sprachsignal) ab, stellt der Intensitätsdetektor 3 das Vorhandensein eines Signales fest und bewirkt über die Bewertungseinrichtung 4 eine Signaldämpfung mittels des Dämpfungsgliedes 2 (siehe auch 1 in Verbindung mit 2a bzw. 2b). Gleichzeitig beginnt der Spracherkenner 5 den Erkennungsvorgang. Nach Ablauf der hierfür erforderlichen Reaktionszeit wird bei Erkennung eines gültigen Kommandos die Systemäußerung gänzlich gestoppt (2b) und das erkannte Kommando wird realisiert. Der weitere Dialog wird dann in regulärer Weise fortgeführt, indem in Abhängigkeit vom Erkennungsergebnis die nächste Systemäußerung der Sprachausgabeeinheit 1 ausgelöst wird.
Wird vom Spracherkenner 5 kein gültiges Kommando erkannt, wird der ursprüngliche Wiedergabepegel (Normalwert der Ausgabelautstärke) für die laufende Systemäußerungen wieder hergestellt (2a). Auch in diesem Fall wird der Dialog in regulärer Weise fortgesetzt. Fortsetzung des Dialoges in regulärer Weise bedeutet dabei, dass bei der weiteren Dialogführung berücksichtigt wird, dass der Nutzer kein gültiges Kommando gegeben hat, z.B. durch einen entsprechenden Hinweis.
Durch die gezielte Variation der Ausgabelautstärke der Systemäußerung im Dialog Mensch/Maschine wird ein Verhalten nachgebildet, wie es von der zwischenmenschlichen Kommunikation bekannt ist. Durch eine Absenkung der Lautstärke der Systemäußerungen wird dem Nutzer signalisiert, dass seine Äußerung vom System wahrgenommen wurde. Eine Erhöhung auf den Normalwert der Lautstärke der Systemäußerung bedeutet hingegen, dass aus einem von der Nutzerseite empfangenen Signal ausreichender Intensität (Nutzeräußerung/Störsignal usw.), kein gültiges Kommando herausgefiltert wurde.

1: Sprachausgabeeinheit
2: steuerbares Dämpfungsglied
3: Intensitätsdetektor
4: Bewertungseinrichtung
5: Spracherkenner

Claims

Verfahren zur intelligenten Abbruchsteuerung von Sprachdialogen in Sprachdialogsystemen, dadurch gekennzeichnet, – dass mit Beginn einer Nutzeräußerung der durch eine Intensitätsdetektion erkannt wird, ausgehend von einem Normalwert der Ausgabelautstärke eine hörbare Absenkung der Ausgabelautstärke der Systemäußerung vorgenommen wird, und – dass gleichzeitig eine Spracherkennung über einen Spracherkenner (5) gestartet wird, wobei a) bei erfolgreicher Spracherkennung, bei der das Erkennungsergebnis einen aktuellen Bezug zur vorangegangenen Systemäußerung aufweist, der Ausgabevorgang der betreffenden Systemäußerung vorzeitig beendet und der Dialog dann in regulärer Weise fortgesetzt wird, b) sowohl bei erfolgreicher Spracherkennung, bei der das Erkennungsergebnis in keinem Bezug zur vorangegangenen Systemäußerung steht, als auch bei nicht erfolgreicher Spracherkennung, die laufende Systemäußerung fortgesetzt wird, wobei die Ausgabelautstärke wieder auf den Normalwert der Ausgabelautstärke angehoben wird, und dass auch in diesem Fall der Dialog in regulärer Weise fortgesetzt wird.
Anordnung zur intelligenten Abbruchsteuerung von Sprachdialogen in Sprachdialogsystemen mit Sprachausgabeeinheit (1), Intensitätsdetektor (3) und Spracherkenner (5), dadurch gekennzeichnet, – dass im Eingabepfad des Nutzers der Intensitätsdetektor 3, durch welchen die Intensität der von der Nutzerseite eingehenden Signale bewertet wird, und der Spracherkenner (5), welcher bei ausreichender Intensität die sprachlichen Äußerungen des Nutzers bewertet, angeordnet sind, – dass der Ausgang des Intensitätsdetektors (3) mit dem Start-Eingang einer Bewertungseinrichtung (4) verbunden ist, durch welche die sprachlichen Äußerungen des Nutzers in Bezug auf ihren Sinngehalt, gültige Kommandos, bewertet werden, – dass der Ausgang des Spracherkenners (5) sowohl eine Verbindung zu einem Stopp-Eingang der Bewertungseinrichtung (4), als auch zum Stopp-Eingang der Sprachausgabeeinheit (1) aufweist, welche die Systemäußerungen an den Nutzer erzeugt, und – dass sich im Ausgabepfad ein der Sprachausgabeeinheit (1) nachgeordnetes steuerbares Dämpfungsglied (2) befindet, dass über eine Querverbindung zur Bewertungseinrichtung (4) verfügt, wobei in Abhängigkeit vom Bewertungsergebnis durch die Bewertungseinrichtung (4) über das Dämpfungsglied (2) die Lautstärke der Systemäußerungen geregelt wird.