DE10243832A1 - Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen - Google Patents
Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen Download PDFInfo
- Publication number
- DE10243832A1 DE10243832A1 DE2002143832 DE10243832A DE10243832A1 DE 10243832 A1 DE10243832 A1 DE 10243832A1 DE 2002143832 DE2002143832 DE 2002143832 DE 10243832 A DE10243832 A DE 10243832A DE 10243832 A1 DE10243832 A1 DE 10243832A1
- Authority
- DE
- Germany
- Prior art keywords
- dialog
- voice
- speech
- user
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 7
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims 1
- 230000007794 irritation Effects 0.000 description 3
- 230000035484 reaction time Effects 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Die erfindungsgemäße Lösung bezieht sich auf ein Verfahren und eine Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen und hat zum Ziel, die bei der Dialogführung in der zwischenmenschlichen Kommunikation üblichen Verhaltensweisen auf den Dialog Mensch/Maschine zu übertragen. DOLLAR A Das Wirkprinzip der Lösung beruht darauf, neben dem informativen Inhalt der Systemäußerung auch mittels gezielter Anhebung bzw. Absenkung der Lautstärke der Systemäußerung für den Nutzer erkennbar auf die vorhergehende Nutzeräußerung zu reagieren. DOLLAR A Erfindungsgemäß wird mit dem Beginn einer Nutzeräußerung, der durch eine Intensitätsdetektion mittels eines Intensitätsdetektors (3) erkannt wird, eine hörbare Absenkung der Lautstärke der Systemäußerung vorgenommen. Gleichzeitig wird über einen Spracherkenner (5) eine Spracherkennung gestartet, wobei in Abhängigkeit vom Ergebnis der Spracherkennung die Ausgabelautstärke der nächsten Systemäußerung über ein steuerbares Dämpfungsglied (2) eingestellt wird. Durch eine Veränderung der Lautstärke der Systemäußerung wird dem Nutzer signalisiert, dass seine Äußerungen vom System wahrgenommen wurde bzw. dass seine Äußerungen nicht korrekt waren.
Description
- Die Erfindung betrifft ein Verfahren und eine Anordnung zur intelligenten Abbruchsteuerung bei der Sprachausgabe von Bedienhinweisen oder Informationen in automatischen Sprachdialogsystemen durch die menschliche Stimme.
- Barge In, Talk over oder cut through sind Begriffe für ein Leistungsmerkmal moderner Spracherkennungslösungen, nämlich für das Hineinsprechen in eine sprachliche Systemäußerung mit dem Ziel, die Systemäußerung auf diese Weise zu unterbrechen und so zu einer Beschleunigung des Dialoges beizutragen.
- Bekannte technische Lösungen basieren darauf, diesen Abbruch bereits durch das Auftreten von beliebigen Signalen einer bestimmten Intensität herbeizuführen (siehe WO 02/052546). Diese Lösung ist einfach und schont die Ressourcen des Sprachdialogsystems. Nachteilig ist allerdings, dass so ungewollt jedes Räuspern, jede unspezifische Äußerung oder jedes Hintergrundgeräusch bereits diesen Effekt auslösen. Das führt zu häufigen Wiederholungen im Dialog, da ja der aktuelle Dialogschritt ungewollt unterbrochen und damit unverständlich geblieben ist. Auf diese Weise wird gerade das Gegenteil dessen bewirkt, was ursprünglich beabsichtig war – die Dialogbeschleunigung.
- Ein intelligenteres Verfahren wertet hingegen die Bedeutung der Äußerung des Nutzers aus und reagiert nur dann mit einem Abbruch der Systemäußerung, wenn die Nutzeräußerung sinnvoll ist. Dies setzt voraus, dass ein Spracherkenner aktiv an diesem Prozess beteiligt ist. Nachteilig an dieser Lösung ist, dass infolge der Reaktionszeit des Spracherkenners Verzögerungen zwischen Äußerung und Abbruch auftreten, die dem Nutzer unmotiviert erscheinen und so zu Irritationen führt (siehe
P 0 895 224 US 6,246,986 ). - Die Erfindung verfolgt das Ziel, eine Lösung für ein intelligentes Barge In anzugeben, die ein Verhalten nachbildet, wie es der zwischenmenschlichen Kommunikation nahe kommt.
- Der Erfindung liegt die Aufgabe zugrunde, eine Barge In Lösung zu schaffen, die nur dann zu einem Abbruch der Systemäußerungen führt, wenn eine sinnvolle Nutzeräußerung erkannt wird. Die dabei zwangsläufig entstehende Verzögerung soll für den Nutzer nachvollziehbar sein, so dass beim Nutzer keine Irritationen entstehen, die ihn zu unkontrollierten Aktionen verleiten.
- Die erfindungsgemäße Lösung beruht darauf, dass mit dem Beginn der Nutzeräußerung, der durch eine Intensitätsdetektion erkannt wird, eine hörbare Absenkung der Lautstärke der Systemäußerung vorgenommen wird. Dadurch wird dem Nutzer signalisiert, dass seine Äußerung wahrgenommen wurde. Gleichzeitig wird ein Spracherkenner
5 gestartet. Nach Ablauf der für die Erkennung notwendigen Zeit steht das Erkennungsergebnis für eine logische Auswertung zur Verfügung. Drei Fälle sind jetzt möglich: - 1. die Erkennung war erfolgreich, d.h. das Erkennungsergebnis ist eine sinnvolle Nutzeräußerung (erkennbares Kommando). Damit wird der Ausgabevorgang der Systemäußerung korrekt beendet, und der Dialog wird in regulärer Weise fortgesetzt.
- 2. die Erkennung war erfolgreich, aber das Erkennungsergebnis steht in keinem Bezug zu der aktuellen Systemäußerung. Das ist beispielsweise der Fall, wenn ein in diesem Zusammenhang nicht zugelassenes erkennbares Kommando erkannt wurde. Dann wird der Ausgabevorgang der Systemäußerung nicht unterbrochen und die Ausgabelautstärke kehrt zu ihrem Normalwert zurück. Der Dialog wird anschließend in regulärer Weise fortgesetzt.
- 3. die Erkennung war nicht erfolgreich. Das ist dann der Fall, wenn Signale von der Nutzerseite vorliegen, wie – z.B. Husten oder Hintergrundgeräusche, aus denen kein Bezug (Kommando) zum aktuellen Dialog abgeleitet werden kann. Dann wird der Ausgabevorgang der Systemäußerung ebenfalls nicht unterbrochen und die Ausgabelautstärke kehrt zu ihrem Normalwert zurück. Auch in diesem Fall wird der Dialog in regulärer Weise fortgesetzt.
- Auf die oben beschriebene Weise wird das natürliche Verhalten eines menschlichen Kommunikationspartners nachgebildet. Eine Verhaltensweise, die dem Nutzer bekannt ist und somit, auch bei langen Reaktionszeiten, nicht zu Irritationen führt.
- Die Erfindung wird nachfolgend an einem Ausführungsbeispiel näher erläutert.
-
1 zeigt dabei das Wirkprinzip der erfindungsgemäßen Anordnung. - In
2a ist anhand eines Diagrammes der Fall dargestellt, dass vom Nutzer zwar ein Signal ausreichender Intensität vorliegt, das Erkennungsergebnis jedoch negativ ist. -
2b zeigt den Fall, dass vom Nutzer ein Signal ausreichender Intensität vorliegt, wobei das vorliegende Signal von der Bewertungseinrichtung4 als positives Signal, also als gültiges Kommando, erkannt wurde. - Die in
1 dargestellte prinzipielle Anordnung besteht aus der Sprachausgabeeinheit1 , die die Systemäußerungen an den Nutzer erzeugt, einem Intensitätsdetektor3 , der die von der Nutzerseite eingehenden Signale in Bezug auf Ihre Intensität (vorliegen von Sprachsignalen) bewertet, und einem Spracherkenner5 , der die sprachlichen Nutzeräußerungen in Bezug auf ihren Inhalt (gültige Kommandos) bewertet. Weiterhin befindet sich im Ausgabepfad der Sprachausgabeeinheit1 ein steuerbares Dämpfungsglied2 , das von der Bewertungseinrichtung4 gesteuert wird. - Während das System über die Sprachausgabeeinheit
1 eine Systemäußerung an den Nutzer erzeugt, überwacht der Intensitätsdetektor3 die Intensität der vom Nutzer eingehenden Signale. Gibt der Nutzer ein Signal hinreichender Intensität (Sprachsignal) ab, stellt der Intensitätsdetektor3 das Vorhandensein eines Signales fest und bewirkt über die Bewertungseinrichtung4 eine Signaldämpfung mittels des Dämpfungsgliedes2 (siehe auch1 in Verbindung mit2a bzw.2b ). Gleichzeitig beginnt der Spracherkenner5 den Erkennungsvorgang. Nach Ablauf der hierfür erforderlichen Reaktionszeit wird bei Erkennung eines gültigen Kommandos die Systemäußerung gänzlich gestoppt (2b ) und das erkannte Kommando wird realisiert. Der weitere Dialog wird dann in regulärer Weise fortgeführt, indem in Abhängigkeit vom Erkennungsergebnis die nächste Systemäußerung der Sprachausgabeeinheit1 ausgelöst wird. - Wird vom Spracherkenner
5 kein gültiges Kommando erkannt, wird der ursprüngliche Wiedergabepegel (Normalwert der Ausgabelautstärke) für die laufende Systemäußerungen wieder hergestellt (2a ). Auch in diesem Fall wird der Dialog in regulärer Weise fortgesetzt. Fortsetzung des Dialoges in regulärer Weise bedeutet dabei, dass bei der weiteren Dialogführung berücksichtigt wird, dass der Nutzer kein gültiges Kommando gegeben hat, z.B. durch einen entsprechenden Hinweis. - Durch die gezielte Variation der Ausgabelautstärke der Systemäußerung im Dialog Mensch/Maschine wird ein Verhalten nachgebildet, wie es von der zwischenmenschlichen Kommunikation bekannt ist. Durch eine Absenkung der Lautstärke der Systemäußerungen wird dem Nutzer signalisiert, dass seine Äußerung vom System wahrgenommen wurde. Eine Erhöhung auf den Normalwert der Lautstärke der Systemäußerung bedeutet hingegen, dass aus einem von der Nutzerseite empfangenen Signal ausreichender Intensität (Nutzeräußerung/Störsignal usw.), kein gültiges Kommando herausgefiltert wurde.
-
- 1
- Sprachausgabeeinheit
- 2
- steuerbares Dämpfungsglied
- 3
- Intensitätsdetektor
- 4
- Bewertungseinrichtung
- 5
- Spracherkenner
Claims (2)
- Verfahren zur intelligenten Abbruchsteuerung von Sprachdialogen in Sprachdialogsystemen, dadurch gekennzeichnet, – dass mit Beginn einer Nutzeräußerung der durch eine Intensitätsdetektion erkannt wird, ausgehend von einem Normalwert der Ausgabelautstärke eine hörbare Absenkung der Ausgabelautstärke der Systemäußerung vorgenommen wird, und – dass gleichzeitig eine Spracherkennung über einen Spracherkenner (
5 ) gestartet wird, wobei a) bei erfolgreicher Spracherkennung, bei der das Erkennungsergebnis einen aktuellen Bezug zur vorangegangenen Systemäußerung aufweist, der Ausgabevorgang der betreffenden Systemäußerung vorzeitig beendet und der Dialog dann in regulärer Weise fortgesetzt wird, b) sowohl bei erfolgreicher Spracherkennung, bei der das Erkennungsergebnis in keinem Bezug zur vorangegangenen Systemäußerung steht, als auch bei nicht erfolgreicher Spracherkennung, die laufende Systemäußerung fortgesetzt wird, wobei die Ausgabelautstärke wieder auf den Normalwert der Ausgabelautstärke angehoben wird, und dass auch in diesem Fall der Dialog in regulärer Weise fortgesetzt wird. - Anordnung zur intelligenten Abbruchsteuerung von Sprachdialogen in Sprachdialogsystemen mit Sprachausgabeeinheit (
1 ), Intensitätsdetektor (3 ) und Spracherkenner (5 ), dadurch gekennzeichnet, – dass im Eingabepfad des Nutzers der Intensitätsdetektor3 , durch welchen die Intensität der von der Nutzerseite eingehenden Signale bewertet wird, und der Spracherkenner (5 ), welcher bei ausreichender Intensität die sprachlichen Äußerungen des Nutzers bewertet, angeordnet sind, – dass der Ausgang des Intensitätsdetektors (3 ) mit dem Start-Eingang einer Bewertungseinrichtung (4 ) verbunden ist, durch welche die sprachlichen Äußerungen des Nutzers in Bezug auf ihren Sinngehalt, gültige Kommandos, bewertet werden, – dass der Ausgang des Spracherkenners (5 ) sowohl eine Verbindung zu einem Stopp-Eingang der Bewertungseinrichtung (4 ), als auch zum Stopp-Eingang der Sprachausgabeeinheit (1 ) aufweist, welche die Systemäußerungen an den Nutzer erzeugt, und – dass sich im Ausgabepfad ein der Sprachausgabeeinheit (1 ) nachgeordnetes steuerbares Dämpfungsglied (2 ) befindet, dass über eine Querverbindung zur Bewertungseinrichtung (4 ) verfügt, wobei in Abhängigkeit vom Bewertungsergebnis durch die Bewertungseinrichtung (4 ) über das Dämpfungsglied (2 ) die Lautstärke der Systemäußerungen geregelt wird.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002143832 DE10243832A1 (de) | 2002-09-13 | 2002-09-13 | Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002143832 DE10243832A1 (de) | 2002-09-13 | 2002-09-13 | Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10243832A1 true DE10243832A1 (de) | 2004-03-25 |
Family
ID=31896249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2002143832 Withdrawn DE10243832A1 (de) | 2002-09-13 | 2002-09-13 | Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10243832A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013012453B3 (de) * | 2013-07-26 | 2014-10-16 | Audi Ag | Verfahren zum Betreiben eines Infotainment-Systems eines Kraftwagens und Infotainment-System für einen Kraftwagen |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
DE10040466A1 (de) * | 2000-08-18 | 2002-03-07 | Bosch Gmbh Robert | Verfahren zur Steuerung einer Spracheingabe und -ausgabe |
US6405170B1 (en) * | 1998-09-22 | 2002-06-11 | Speechworks International, Inc. | Method and system of reviewing the behavior of an interactive speech recognition application |
DE69710213T2 (de) * | 1996-11-28 | 2002-08-29 | British Telecomm | Interaktives gerät und verfahren |
-
2002
- 2002-09-13 DE DE2002143832 patent/DE10243832A1/de not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
DE69710213T2 (de) * | 1996-11-28 | 2002-08-29 | British Telecomm | Interaktives gerät und verfahren |
US6405170B1 (en) * | 1998-09-22 | 2002-06-11 | Speechworks International, Inc. | Method and system of reviewing the behavior of an interactive speech recognition application |
DE10040466A1 (de) * | 2000-08-18 | 2002-03-07 | Bosch Gmbh Robert | Verfahren zur Steuerung einer Spracheingabe und -ausgabe |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013012453B3 (de) * | 2013-07-26 | 2014-10-16 | Audi Ag | Verfahren zum Betreiben eines Infotainment-Systems eines Kraftwagens und Infotainment-System für einen Kraftwagen |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69831991T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE3236724C2 (de) | Durch Sprache steuerbare Betätigungseinrichtung für Kraftfahrzeuge oder dergleichen | |
EP1927980B1 (de) | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen | |
DE102008056343A1 (de) | Warnsystem für ein Kraftfahrzeug | |
EP1256936A2 (de) | Verfahren zum Training oder zur Adaption eines Spracherkenners | |
EP1139333A2 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
DE4318529A1 (de) | Adaptiver Rauschunterdrücker | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
DE69532026T2 (de) | Schaltung zum automatischen Variieren des Pegels eines Empfangssprachsignals in einem Fernprechgerät | |
DE19521258A1 (de) | Spracherkennungssystem | |
DE19910590A1 (de) | Verfahren und Vorrichtung zur Abstandsregelung für ein Fahrzeug | |
DE10341305A1 (de) | Intelligente Nutzeradaption bei Dialogsystemen | |
DE60205095T2 (de) | Transkriptionsdienst mit abbruch der automatischen transkription | |
DE3445630A1 (de) | Anordnung zur unterdrueckung der amplitudenspitzen am beginn von explosivlauten in einem elektroakustischen uebertragungssystem, an dessen eingang ein mikrophon angeordnet ist | |
EP0623995A1 (de) | Anordnung zur geräuschabhängigen Regelung der Lautstärke eines Autoradios | |
EP1673762B1 (de) | Nutzeradaptive dialogunterstützung für sprachdialogsysteme | |
DE10243832A1 (de) | Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen | |
EP3115886B1 (de) | Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem | |
DE2740419C2 (de) | Schaltungsanordnung zur Verhinderung eines !berschwingens der Radgeschwindigkeit über die Fahrzeuggeschwindigkeit bei Fahrzeugen mit blockiergeschützten Bremsanlagen | |
DE102005030965A1 (de) | Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments | |
DE2139452A1 (de) | Automatisches Flugsteuerungssystem für Luftfahrzeuge | |
DE102017207685A1 (de) | Verfahren zum Ansteuern mindestens eines Magnetventils | |
DE102011106271B4 (de) | Verfahren und Vorrichtung zum Bereitstellen einer Sprachschnittstelle, insbesondere in einem Fahrzeug | |
EP0793819B1 (de) | Verfahren zur sprachsteuerung von anlagen und geräten | |
DE4426226A1 (de) | Schaltungsanordnung zum Übertragen von codierten Sprachsignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8141 | Disposal/no request for examination |