DE10243832A1 - Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen - Google Patents

Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen Download PDF

Info

Publication number
DE10243832A1
DE10243832A1 DE2002143832 DE10243832A DE10243832A1 DE 10243832 A1 DE10243832 A1 DE 10243832A1 DE 2002143832 DE2002143832 DE 2002143832 DE 10243832 A DE10243832 A DE 10243832A DE 10243832 A1 DE10243832 A1 DE 10243832A1
Authority
DE
Germany
Prior art keywords
dialog
voice
speech
user
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE2002143832
Other languages
English (en)
Inventor
Volkmar Naumburger
Frank Oberle
Hellmar Zimmer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Priority to DE2002143832 priority Critical patent/DE10243832A1/de
Publication of DE10243832A1 publication Critical patent/DE10243832A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Die erfindungsgemäße Lösung bezieht sich auf ein Verfahren und eine Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen und hat zum Ziel, die bei der Dialogführung in der zwischenmenschlichen Kommunikation üblichen Verhaltensweisen auf den Dialog Mensch/Maschine zu übertragen. DOLLAR A Das Wirkprinzip der Lösung beruht darauf, neben dem informativen Inhalt der Systemäußerung auch mittels gezielter Anhebung bzw. Absenkung der Lautstärke der Systemäußerung für den Nutzer erkennbar auf die vorhergehende Nutzeräußerung zu reagieren. DOLLAR A Erfindungsgemäß wird mit dem Beginn einer Nutzeräußerung, der durch eine Intensitätsdetektion mittels eines Intensitätsdetektors (3) erkannt wird, eine hörbare Absenkung der Lautstärke der Systemäußerung vorgenommen. Gleichzeitig wird über einen Spracherkenner (5) eine Spracherkennung gestartet, wobei in Abhängigkeit vom Ergebnis der Spracherkennung die Ausgabelautstärke der nächsten Systemäußerung über ein steuerbares Dämpfungsglied (2) eingestellt wird. Durch eine Veränderung der Lautstärke der Systemäußerung wird dem Nutzer signalisiert, dass seine Äußerungen vom System wahrgenommen wurde bzw. dass seine Äußerungen nicht korrekt waren.

Description

  • Die Erfindung betrifft ein Verfahren und eine Anordnung zur intelligenten Abbruchsteuerung bei der Sprachausgabe von Bedienhinweisen oder Informationen in automatischen Sprachdialogsystemen durch die menschliche Stimme.
  • Barge In, Talk over oder cut through sind Begriffe für ein Leistungsmerkmal moderner Spracherkennungslösungen, nämlich für das Hineinsprechen in eine sprachliche Systemäußerung mit dem Ziel, die Systemäußerung auf diese Weise zu unterbrechen und so zu einer Beschleunigung des Dialoges beizutragen.
  • Bekannte technische Lösungen basieren darauf, diesen Abbruch bereits durch das Auftreten von beliebigen Signalen einer bestimmten Intensität herbeizuführen (siehe WO 02/052546). Diese Lösung ist einfach und schont die Ressourcen des Sprachdialogsystems. Nachteilig ist allerdings, dass so ungewollt jedes Räuspern, jede unspezifische Äußerung oder jedes Hintergrundgeräusch bereits diesen Effekt auslösen. Das führt zu häufigen Wiederholungen im Dialog, da ja der aktuelle Dialogschritt ungewollt unterbrochen und damit unverständlich geblieben ist. Auf diese Weise wird gerade das Gegenteil dessen bewirkt, was ursprünglich beabsichtig war – die Dialogbeschleunigung.
  • Ein intelligenteres Verfahren wertet hingegen die Bedeutung der Äußerung des Nutzers aus und reagiert nur dann mit einem Abbruch der Systemäußerung, wenn die Nutzeräußerung sinnvoll ist. Dies setzt voraus, dass ein Spracherkenner aktiv an diesem Prozess beteiligt ist. Nachteilig an dieser Lösung ist, dass infolge der Reaktionszeit des Spracherkenners Verzögerungen zwischen Äußerung und Abbruch auftreten, die dem Nutzer unmotiviert erscheinen und so zu Irritationen führt (siehe P 0 895 224 und US 6,246,986 ).
  • Die Erfindung verfolgt das Ziel, eine Lösung für ein intelligentes Barge In anzugeben, die ein Verhalten nachbildet, wie es der zwischenmenschlichen Kommunikation nahe kommt.
  • Der Erfindung liegt die Aufgabe zugrunde, eine Barge In Lösung zu schaffen, die nur dann zu einem Abbruch der Systemäußerungen führt, wenn eine sinnvolle Nutzeräußerung erkannt wird. Die dabei zwangsläufig entstehende Verzögerung soll für den Nutzer nachvollziehbar sein, so dass beim Nutzer keine Irritationen entstehen, die ihn zu unkontrollierten Aktionen verleiten.
  • Die erfindungsgemäße Lösung beruht darauf, dass mit dem Beginn der Nutzeräußerung, der durch eine Intensitätsdetektion erkannt wird, eine hörbare Absenkung der Lautstärke der Systemäußerung vorgenommen wird. Dadurch wird dem Nutzer signalisiert, dass seine Äußerung wahrgenommen wurde. Gleichzeitig wird ein Spracherkenner 5 gestartet. Nach Ablauf der für die Erkennung notwendigen Zeit steht das Erkennungsergebnis für eine logische Auswertung zur Verfügung. Drei Fälle sind jetzt möglich:
    • 1. die Erkennung war erfolgreich, d.h. das Erkennungsergebnis ist eine sinnvolle Nutzeräußerung (erkennbares Kommando). Damit wird der Ausgabevorgang der Systemäußerung korrekt beendet, und der Dialog wird in regulärer Weise fortgesetzt.
    • 2. die Erkennung war erfolgreich, aber das Erkennungsergebnis steht in keinem Bezug zu der aktuellen Systemäußerung. Das ist beispielsweise der Fall, wenn ein in diesem Zusammenhang nicht zugelassenes erkennbares Kommando erkannt wurde. Dann wird der Ausgabevorgang der Systemäußerung nicht unterbrochen und die Ausgabelautstärke kehrt zu ihrem Normalwert zurück. Der Dialog wird anschließend in regulärer Weise fortgesetzt.
    • 3. die Erkennung war nicht erfolgreich. Das ist dann der Fall, wenn Signale von der Nutzerseite vorliegen, wie – z.B. Husten oder Hintergrundgeräusche, aus denen kein Bezug (Kommando) zum aktuellen Dialog abgeleitet werden kann. Dann wird der Ausgabevorgang der Systemäußerung ebenfalls nicht unterbrochen und die Ausgabelautstärke kehrt zu ihrem Normalwert zurück. Auch in diesem Fall wird der Dialog in regulärer Weise fortgesetzt.
  • Auf die oben beschriebene Weise wird das natürliche Verhalten eines menschlichen Kommunikationspartners nachgebildet. Eine Verhaltensweise, die dem Nutzer bekannt ist und somit, auch bei langen Reaktionszeiten, nicht zu Irritationen führt.
  • Die Erfindung wird nachfolgend an einem Ausführungsbeispiel näher erläutert.
  • 1 zeigt dabei das Wirkprinzip der erfindungsgemäßen Anordnung.
  • In 2a ist anhand eines Diagrammes der Fall dargestellt, dass vom Nutzer zwar ein Signal ausreichender Intensität vorliegt, das Erkennungsergebnis jedoch negativ ist.
  • 2b zeigt den Fall, dass vom Nutzer ein Signal ausreichender Intensität vorliegt, wobei das vorliegende Signal von der Bewertungseinrichtung 4 als positives Signal, also als gültiges Kommando, erkannt wurde.
  • Die in 1 dargestellte prinzipielle Anordnung besteht aus der Sprachausgabeeinheit 1, die die Systemäußerungen an den Nutzer erzeugt, einem Intensitätsdetektor 3, der die von der Nutzerseite eingehenden Signale in Bezug auf Ihre Intensität (vorliegen von Sprachsignalen) bewertet, und einem Spracherkenner 5, der die sprachlichen Nutzeräußerungen in Bezug auf ihren Inhalt (gültige Kommandos) bewertet. Weiterhin befindet sich im Ausgabepfad der Sprachausgabeeinheit 1 ein steuerbares Dämpfungsglied 2, das von der Bewertungseinrichtung 4 gesteuert wird.
  • Während das System über die Sprachausgabeeinheit 1 eine Systemäußerung an den Nutzer erzeugt, überwacht der Intensitätsdetektor 3 die Intensität der vom Nutzer eingehenden Signale. Gibt der Nutzer ein Signal hinreichender Intensität (Sprachsignal) ab, stellt der Intensitätsdetektor 3 das Vorhandensein eines Signales fest und bewirkt über die Bewertungseinrichtung 4 eine Signaldämpfung mittels des Dämpfungsgliedes 2 (siehe auch 1 in Verbindung mit 2a bzw. 2b). Gleichzeitig beginnt der Spracherkenner 5 den Erkennungsvorgang. Nach Ablauf der hierfür erforderlichen Reaktionszeit wird bei Erkennung eines gültigen Kommandos die Systemäußerung gänzlich gestoppt (2b) und das erkannte Kommando wird realisiert. Der weitere Dialog wird dann in regulärer Weise fortgeführt, indem in Abhängigkeit vom Erkennungsergebnis die nächste Systemäußerung der Sprachausgabeeinheit 1 ausgelöst wird.
  • Wird vom Spracherkenner 5 kein gültiges Kommando erkannt, wird der ursprüngliche Wiedergabepegel (Normalwert der Ausgabelautstärke) für die laufende Systemäußerungen wieder hergestellt (2a). Auch in diesem Fall wird der Dialog in regulärer Weise fortgesetzt. Fortsetzung des Dialoges in regulärer Weise bedeutet dabei, dass bei der weiteren Dialogführung berücksichtigt wird, dass der Nutzer kein gültiges Kommando gegeben hat, z.B. durch einen entsprechenden Hinweis.
  • Durch die gezielte Variation der Ausgabelautstärke der Systemäußerung im Dialog Mensch/Maschine wird ein Verhalten nachgebildet, wie es von der zwischenmenschlichen Kommunikation bekannt ist. Durch eine Absenkung der Lautstärke der Systemäußerungen wird dem Nutzer signalisiert, dass seine Äußerung vom System wahrgenommen wurde. Eine Erhöhung auf den Normalwert der Lautstärke der Systemäußerung bedeutet hingegen, dass aus einem von der Nutzerseite empfangenen Signal ausreichender Intensität (Nutzeräußerung/Störsignal usw.), kein gültiges Kommando herausgefiltert wurde.
  • 1
    Sprachausgabeeinheit
    2
    steuerbares Dämpfungsglied
    3
    Intensitätsdetektor
    4
    Bewertungseinrichtung
    5
    Spracherkenner

Claims (2)

  1. Verfahren zur intelligenten Abbruchsteuerung von Sprachdialogen in Sprachdialogsystemen, dadurch gekennzeichnet, – dass mit Beginn einer Nutzeräußerung der durch eine Intensitätsdetektion erkannt wird, ausgehend von einem Normalwert der Ausgabelautstärke eine hörbare Absenkung der Ausgabelautstärke der Systemäußerung vorgenommen wird, und – dass gleichzeitig eine Spracherkennung über einen Spracherkenner (5) gestartet wird, wobei a) bei erfolgreicher Spracherkennung, bei der das Erkennungsergebnis einen aktuellen Bezug zur vorangegangenen Systemäußerung aufweist, der Ausgabevorgang der betreffenden Systemäußerung vorzeitig beendet und der Dialog dann in regulärer Weise fortgesetzt wird, b) sowohl bei erfolgreicher Spracherkennung, bei der das Erkennungsergebnis in keinem Bezug zur vorangegangenen Systemäußerung steht, als auch bei nicht erfolgreicher Spracherkennung, die laufende Systemäußerung fortgesetzt wird, wobei die Ausgabelautstärke wieder auf den Normalwert der Ausgabelautstärke angehoben wird, und dass auch in diesem Fall der Dialog in regulärer Weise fortgesetzt wird.
  2. Anordnung zur intelligenten Abbruchsteuerung von Sprachdialogen in Sprachdialogsystemen mit Sprachausgabeeinheit (1), Intensitätsdetektor (3) und Spracherkenner (5), dadurch gekennzeichnet, – dass im Eingabepfad des Nutzers der Intensitätsdetektor 3, durch welchen die Intensität der von der Nutzerseite eingehenden Signale bewertet wird, und der Spracherkenner (5), welcher bei ausreichender Intensität die sprachlichen Äußerungen des Nutzers bewertet, angeordnet sind, – dass der Ausgang des Intensitätsdetektors (3) mit dem Start-Eingang einer Bewertungseinrichtung (4) verbunden ist, durch welche die sprachlichen Äußerungen des Nutzers in Bezug auf ihren Sinngehalt, gültige Kommandos, bewertet werden, – dass der Ausgang des Spracherkenners (5) sowohl eine Verbindung zu einem Stopp-Eingang der Bewertungseinrichtung (4), als auch zum Stopp-Eingang der Sprachausgabeeinheit (1) aufweist, welche die Systemäußerungen an den Nutzer erzeugt, und – dass sich im Ausgabepfad ein der Sprachausgabeeinheit (1) nachgeordnetes steuerbares Dämpfungsglied (2) befindet, dass über eine Querverbindung zur Bewertungseinrichtung (4) verfügt, wobei in Abhängigkeit vom Bewertungsergebnis durch die Bewertungseinrichtung (4) über das Dämpfungsglied (2) die Lautstärke der Systemäußerungen geregelt wird.
DE2002143832 2002-09-13 2002-09-13 Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen Withdrawn DE10243832A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2002143832 DE10243832A1 (de) 2002-09-13 2002-09-13 Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2002143832 DE10243832A1 (de) 2002-09-13 2002-09-13 Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen

Publications (1)

Publication Number Publication Date
DE10243832A1 true DE10243832A1 (de) 2004-03-25

Family

ID=31896249

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2002143832 Withdrawn DE10243832A1 (de) 2002-09-13 2002-09-13 Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen

Country Status (1)

Country Link
DE (1) DE10243832A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013012453B3 (de) * 2013-07-26 2014-10-16 Audi Ag Verfahren zum Betreiben eines Infotainment-Systems eines Kraftwagens und Infotainment-System für einen Kraftwagen

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
DE10040466A1 (de) * 2000-08-18 2002-03-07 Bosch Gmbh Robert Verfahren zur Steuerung einer Spracheingabe und -ausgabe
US6405170B1 (en) * 1998-09-22 2002-06-11 Speechworks International, Inc. Method and system of reviewing the behavior of an interactive speech recognition application
DE69710213T2 (de) * 1996-11-28 2002-08-29 British Telecomm Interaktives gerät und verfahren

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
DE69710213T2 (de) * 1996-11-28 2002-08-29 British Telecomm Interaktives gerät und verfahren
US6405170B1 (en) * 1998-09-22 2002-06-11 Speechworks International, Inc. Method and system of reviewing the behavior of an interactive speech recognition application
DE10040466A1 (de) * 2000-08-18 2002-03-07 Bosch Gmbh Robert Verfahren zur Steuerung einer Spracheingabe und -ausgabe

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013012453B3 (de) * 2013-07-26 2014-10-16 Audi Ag Verfahren zum Betreiben eines Infotainment-Systems eines Kraftwagens und Infotainment-System für einen Kraftwagen

Similar Documents

Publication Publication Date Title
DE69831991T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE3236724C2 (de) Durch Sprache steuerbare Betätigungseinrichtung für Kraftfahrzeuge oder dergleichen
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE102008056343A1 (de) Warnsystem für ein Kraftfahrzeug
EP1256936A2 (de) Verfahren zum Training oder zur Adaption eines Spracherkenners
EP1139333A2 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
DE4318529A1 (de) Adaptiver Rauschunterdrücker
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE69532026T2 (de) Schaltung zum automatischen Variieren des Pegels eines Empfangssprachsignals in einem Fernprechgerät
DE19521258A1 (de) Spracherkennungssystem
DE19910590A1 (de) Verfahren und Vorrichtung zur Abstandsregelung für ein Fahrzeug
DE10341305A1 (de) Intelligente Nutzeradaption bei Dialogsystemen
DE60205095T2 (de) Transkriptionsdienst mit abbruch der automatischen transkription
DE3445630A1 (de) Anordnung zur unterdrueckung der amplitudenspitzen am beginn von explosivlauten in einem elektroakustischen uebertragungssystem, an dessen eingang ein mikrophon angeordnet ist
EP0623995A1 (de) Anordnung zur geräuschabhängigen Regelung der Lautstärke eines Autoradios
EP1673762B1 (de) Nutzeradaptive dialogunterstützung für sprachdialogsysteme
DE10243832A1 (de) Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen
EP3115886B1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
DE2740419C2 (de) Schaltungsanordnung zur Verhinderung eines !berschwingens der Radgeschwindigkeit über die Fahrzeuggeschwindigkeit bei Fahrzeugen mit blockiergeschützten Bremsanlagen
DE102005030965A1 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
DE2139452A1 (de) Automatisches Flugsteuerungssystem für Luftfahrzeuge
DE102017207685A1 (de) Verfahren zum Ansteuern mindestens eines Magnetventils
DE102011106271B4 (de) Verfahren und Vorrichtung zum Bereitstellen einer Sprachschnittstelle, insbesondere in einem Fahrzeug
EP0793819B1 (de) Verfahren zur sprachsteuerung von anlagen und geräten
DE4426226A1 (de) Schaltungsanordnung zum Übertragen von codierten Sprachsignalen

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8141 Disposal/no request for examination