DE69710213T2 - Interaktives gerät und verfahren - Google Patents

Interaktives gerät und verfahren

Info

Publication number
DE69710213T2
DE69710213T2 DE69710213T DE69710213T DE69710213T2 DE 69710213 T2 DE69710213 T2 DE 69710213T2 DE 69710213 T DE69710213 T DE 69710213T DE 69710213 T DE69710213 T DE 69710213T DE 69710213 T2 DE69710213 T2 DE 69710213T2
Authority
DE
Germany
Prior art keywords
signal
representing
output
speech
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69710213T
Other languages
English (en)
Other versions
DE69710213D1 (de
Inventor
Denis Johnston
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Application granted granted Critical
Publication of DE69710213D1 publication Critical patent/DE69710213D1/de
Publication of DE69710213T2 publication Critical patent/DE69710213T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/18Electrical details
    • H04Q1/30Signalling arrangements; Manipulation of signalling currents
    • H04Q1/44Signalling arrangements; Manipulation of signalling currents using alternate current
    • H04Q1/444Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
    • H04Q1/46Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Communication Control (AREA)

Description

  • Die vorliegende Erfindung betrifft eine interaktive Vorrichtung.
  • In den letzten Jahren ist eine zunehmende Zahl von alltäglichen Fernsprech-Interaktionen automatisiert worden, wodurch die Notwendigkeit entfallen ist, daß eine menschliche Bedienungsperson dieselben weiterschaltet.
  • Eine der ersten Interaktionen, die automatisiert wurden, bestand einfach im Hinterlassen einer Nachricht für einen bestimmten Empfänger, der nicht anwesend war, um den Anruf entgegenzunehmen. In jüngster Zeit sind weit komplexere Dienste, wie beispielsweise Telephon- Banking, Adreßbuch-Abfragen und anwählbare Eisenbahn-Fahrpläne, ebenfalls automatisiert worden. Viele Abfragetelephone bieten nun zusätzlich eine Möglichkeit, die es ihrem Besitzer erlaubt, sie anzurufen und Nachrichten abzuhören, die hinterlassen worden sind. Ein weiterer Dienst, der nun ebenfalls automatisiert wurde, ist das Lesen gespeicherter E-Mail-Nachrichten übers Telephon.
  • In jedem der obigen Fälle führt ein Benutzer praktisch einen gesprochenen Dialog mit einem Gerät, das eine interaktive Vorrichtung, das Telephon, das er/ sie benutzt und Elemente des öffentlichen Telephonnetzes umfaßt.
  • Bei einem gesprochenen Dialog ist es oft zweckmäßig, wenn der Benutzer die Möglichkeit zur Unterbrechung hat. Zum Beispiel könnte ein Benutzer den Wunsch haben, auf halbem Wege durch ein Prompt (eine Bereitmeldung) zu unterbrechen, wenn er/sie vorhersehen kann, welche Information erforderlich ist. Die eine Unterbrechung ermöglichende Einrichtung (dem Fachmann als Möglichkeit zum Dazwischenreden (Barge-in) bekannt) ist noch wünschenswerter in Bezug auf Nachrichtenabspielvorrichtungen (wie z. B. Abfragetelephone), bei denen ein Benutzer den Wunsch haben könnte, zu einer anderen Nachricht weiterzugehen, ohne daß er dazwischenliegende Nachrichten abhört.
  • Das Vorsehen einer Möglichkeit zum Dazwischenreden wird noch schwieriger, wenn einige der Ausgangssignale der interaktiven Vorrichtung zum Eingang zurückgeführt werden, der die Befehle des Benutzers empfängt. Diese Rückkopplung tritt, beispielsweise infolge von Verbindungen, im Netz auf, wobei Signale, die Sprache darstellen, die von der interaktiven Vorrichtung übertragen werden, zum Eingang zurückgekoppelt werden. Das tritt ebenfalls durch das akustische Echo auf, das vom Sprachausgang des Sprechender, des Benutzers des Telephons, zum Mikrophon zurückgeht (was im Hinblick auf einen Freisprechbetrieb besonders problematisch ist).
  • Die Leistung herkömmlicher Spracherkennungseinrichtungen fällt abrupt ab, wenn das Sprachsignal, das sie analysieren, in irgendeiner Weise verfälscht ist. In einer interaktiven Vorrichtung kann eine durch ein Echo am Ausgang der interaktiven Vorrichtung verursachte Verzerrung dazu führen, daß der Befehl des Benutzers verfälscht wird.
  • Das US-Patent 4,914,692 offenbart eine interaktive Vorrichtung, in der eine Echo-Löscheinrichtung verwendet ist, um das Echo aus dem Prompt, das aus der Vorrichtung herausgeht, aus dem ankommenden Signal zu entfernen und so eine unverfälschte Version der Antwort des Benutzers zu liefern. Diese unverfälschte Version der Antwort wird dann an eine Spracherkennungseinheit geliefert.
  • Erfindungsgemäß ist eine interaktive Vorrichtung vorgesehen, die enthält:
  • eine Signalausgabeeinrichtung, die im Betrieb zur Ausgabe eines Signals ausgeführt ist, das ausgegebene Sprache darstellt,
  • eine Signaleingabeeinrichtung, die im. Betrieb zum Empfang eines Signals ausgeführt ist, das den gesprochenen Befehl eines Benutzers darstellt, und die
  • gekennzeichnet ist durch
  • die Signalausgabeeinrichtung, die zur Ausgabe des aufbereitete Sprache darstellenden Signals betrieben werden kann, wobei dem die aufbereitete Sprache darstellenden Signal eine Komponente fehlt, die im Signal vorliegt, das den gesprochenen Befehl darstellt,
  • eine Befehlserfassungseinrichtung, die zur Erfassung des während der Ausgabe der aufbereiteten Sprache gesprochenen Befehls eines Benutzers durch Erfassung der Eingabe eines Signals betrieben werden kann, das die im Signal fehlende Komponente enthält, die die aufbereitete Sprache darstellt.
  • Die vorliegende Erfindung schwächt das Problem, daß die Antwort des Benutzers durch ein Echo verzerrt wird insofern ab, daß die Vorrichtung die Ausgabe von Sprache darstellenden Signalen oder von Sprache unterbricht, sobald die Anwort des Benutzers erfaßt wird.
  • Bei einigen Ausführungsformen umfaßt die Vorrichtung ferner eine Einrichtung zur Aufbereitung von Signalen, die Sprache darstellen, die durch die interaktive Vorrichtung ausgegeben werden. Da die Qualität der aufgezeichneten Sprache besser als die Qualität der Sprache ist, die von herkömmlichen Synthesizern synthetisiert wird, verwenden viele herkömmliche interaktive Vorrichtungen aufgezeichnete Sprache für solche Teile des Dialogs, die häufig gebraucht werden. Jedoch ist es für Vorrichtungen wie sie gebraucht werden, um Signale auszugeben, die eine gesprochene Version verschiedener Telephonnummern sind oder bei denen es sich um Geldbeträge handelt, gegenwärtig unpraktisch, eine gesprochene Version jeder möglichen Ausgabe aufzuzeichnen. Daher werden solche Ausgaben, falls erforderlich, synthetisiert. Ein aufgezeichnetes Sprachsignal kann so vorbehandelt werden, daß zu dem Zeitpunkt, an dem das Sprachsignal aufgezeichnet wird, die angegebene Komponente fehlt. Somit wird in Vorrichtungen, deren gesamte Ausgabe aufgezeichnete Sprache darstellt, keine Einrichtung zur Aufbereitung von Signalen benötigt, die Sprache darstellen, die von der interaktiven Vorrichtung ausgegeben werden sollen. Solche Vorrichtungen haben den klaren Vorteil, daß ihre Konstruktion nicht so komplex ist, und sie können daher kostengünstiger hergestellt werden.
  • Bevorzugt enthält, die fehlende Komponente einen oder mehrere Abschnitte des Frequenzspektrums. Das hat den Vorteil, daß die Vorrichtung einfach zu realisieren ist.
  • Es hat sich gezeigt, daß die Vorrichtung besonders effektiv ist, wenn der Abschnitt des Frequenzspektrums im Bereich von 1000 bis 1500 Hz liegt.
  • Bevorzugt liegt die Breite des Frequenzbandes im Bereich von 80 bis 120 Hz. Es hat sich gezeigt, daß die Ausgabesignale, die der Benutzer dann hört, ziemlich verzerrt sind, wenn die Breite des Frequenzbandes über 120 Hz liegt, während eine Aufbereitung der Ausgabe der interaktiven Vorrichtung schwieriger wird, wenn die Breite des Frequenzbandes unter 80 Hz liegt, und es auch schwieriger wird, zwischen Situationen zu unterscheiden, in denen der Benutzer spricht und solchen, in denen er oder sie nicht spricht.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung ist ein Verfahren zur Erfassung des einer interaktiven Vorrichtung erteilten gesprochenen Befehls eines Benutzers angegeben, das die folgenden Schritte enthält:
  • Ausgabe eines Ausgangssignals, das ausgegebene Sprache darstellt, wobei das Verfahren gekennzeichnet ist durch
  • das Ausgangssignal, das aufbereitete Sprache darstellt, das Signal, das die aufbereitete Sprache darstellt, dem eine Komponente in den Signalen fehlt, die die gesprochenen Befehle des Benutzers darstellt,
  • eine Überwachungssignaleingabe in die interaktive Vorrichtung, die das Vorliegen der Komponente anzeigt, und
  • nach Erfassen des Vorliegens der Komponente, Bestimmung, daß das Eingabesignal den gesprochenen Befehl des Benutzers darstellt.
  • Gemäß einem dritten Aspekt der vorliegenden Erfindung ist eine sprachsteuerbare Vorrichtung angegeben, die enthält:
  • eine interaktive Vorrichtung nach dem ersten Aspekt der vorliegenden Erfindung,
  • eine Einrichtung zur Umwandlung des aufbereitete Sprache darstellenden Signals in aufbereitete Sprache und
  • eine Einrichtung zur Umwandlung des gesprochenen Befehls eines Benutzers in ein Signal, das denselben darstellt.
  • Die in der vorliegenden Erfindung angesprochenen Probleme treten auch in Verbindung mit Vorrichtungen auf, die direkt sprachgesteuert sind (d. h. wo kein dazwischengeschaltetes Kommunikationsnetz vorhanden ist). Vorrichtungen gemäß dem dritten Aspekt der vorliegenden Erfindung umfassen daher unter anderem auch private Geräte, wie z. B. Personalcomputer, Fernseher und Videorecorder, die eine interaktive Sprachsteuerung bieten.
  • Im folgenden wird eine spezielle Ausführungsform der vorliegenden Erfindung im einzelnen beschrieben. Es handelt sich hierbei lediglich um eine beispielhafte Beschreibung unter Bezug auf die beigefügten Zeichnungen, in denen zeigen:
  • Fig. 1 ein Funktionsblockdiagramm eines Teils einer automatisierten Telephon-Banking-Vorrichtung, die in einem Kommunikationsnetz installiert ist,
  • Fig. 2 ein Flußdiagramm, das den Ablauf eines Dialoges mit einem Erstbenutzer der Vorrichtung zeigt,
  • Fig. 3 ein Diagramm, das den Ablauf des gleichen Dialoges mit einem Benutzer zeigt, der bereits Erfahrung hat;
  • Fig. 4A das Spektrum der Stimme des Benutzers,
  • Fig. 4B das Spektrum der Signalausgabe der Vorrichtung,
  • Fig. 4C das Spektrum der Stimme des Benutzers, die durch ein Echo am Ausgang der Vorrichtung verzerrt wird.
  • Fig. 1 zeigt eine Signalverarbeitungseinheit, die bei einem automatisierten Telephone-Banking-Dienst verwendet wird. In der Praxis ist die Sprachverarbeitungseinheit über ein lokales FDDI-Netz (Lichtwellenleiterverteilte-Datenschnittstelle (Fibre Distributed Data Inferface)) mit einer Reihe anderer Einheiten, wie z. B. einer Telephonsignalgebungseinheit, einer Datenservereinheit zum Vorsehen einer großen Datenbankanlage, einer unterstützenden Sicherungs- und Datenerfassungseinheit und einer Element-Verwaltungseinheit verbunden. Eine geeignete Vorrichtung für einen solchen Dienst ist die von Ericsson Ltd. hergestellte interaktive Sprachanwendungsplattform.
  • Die Sprachverarbeitungseinheit (Figure 1) hat eine Schnittstelle zum Telekommunikationsnetz über eine Digitalleitungs-Schnittstelle 10. Die Digitalleitungs-Schnittstelle gibt die digitalen Signale aus dem Telekommunikationsnetz ein, die die Stimme des Benutzers darstellen, und gibt dieses digitale Signal an die Signalverarbeitungseinheit 20 weiter. Die Digitalleitungs-Schnittstelle gibt ferner die Signale ein, die die gesprochenen Nachrichten darstellen, die durch die Vorrichtung von der Signalverarbeitungseinheit 20 ausgegeben werden, und modifiziert diese, so daß sie eine Form haben, die für eine Übertragung im Telekommunikationsnetz geeignet ist, bevor diese Signale ins Netz gegeben werden. Die Digitalleitungs-Schnittstelle 10 ist zur gleichzeitigen Verarbeitung einer großen Menge ankommender und ausgehender Signale befähigt.
  • Eine Signalverarbeitungseinheit 20 gibt die modifizierten Signale von der Digitalleitungs-Schnittstelle 10 ein, die die Stimme des Benutzers darstellen, und führt gesteuert durch eine Dialogsteuereinheit 30 eine Reihe von Operationen an diesen Signalen durch, bevor über die Digitalleitungs-Schnittstelle 10 ein Signal ausgegeben wird, das die gesprochene Antwort für den Benutzer darstellt. Die Signalverarbeitungseinheit 20 enthält vier Ausgangsprozessoren 25, 26, 27, 28 und zwei Eingangsprozessoren 21, 22.
  • Der Ausgangsprozessor 25 der aufgezeichneten Sprache ist so ausgeführt, daß er ein digitales Signal ausgibt, das eine Nachricht aus einer Reihe von darin gespeicherten Nachrichten darstellt, die häufig von der Vorrichtung ausgeben werden. Die spezielle Nachricht, die ausgegeben werden soll, wird in Übereinstimmung mit einem Parameter bestimmt, der von der Dialogsteuereinheit 30 geliefert wird. Der Sprachsynthesizer-Prozessor 26 wird verwendet, um digitale Signale auszugeben, die die synthetisierte Sprache darstellen. Der Inhalt der gesprochenen Nachricht wird durch die Dialogsteuereinheit 30 bestimmt, die alphanumerische Daten sendet, die den Inhalt der Nachricht für den Sprachsynthesizer-Prozessor 26 darstellen.
  • Die Signalausgabe vom Sprachsynthesizer-Prozessor 26 wird zu einem digitalen Sperrfilter 27 geführt. Aus Gründen, die weiter unten erläutert sind, ist dieser Sperrfilter 27 so ausgeführt, daß er Komponenten des synthetisierten Signals entfernt, die in einem Frequenzband von 1200 bis 1300 Hz liegen. Dem Fachmann auf diesem Gebiet wird klar sein, daß, obwohl hier der Sprachsynthesizer-Prozessor 26 und der digitale Sperrfilter 27 als separate Prozessoren gezeigt sind, die zwei Funktionen auch in einem einzigen Prozessor vorgesehen sein können.
  • Die im Ausgangsprozessor 25 der aufgezeichneten Sprache gespeicherten Nachrichten werden aufgezeichnet, indem ein Filter mit einer ähnlichen Transferfunktion wie bei dem digitalen Sperrfilter 27 verwendet wird. Daher kann der Ausgang des Sprachsynthesizer-Prozessors 26 ein Spektrum aufweisen, das ähnlich dem in Fig. 4A gezeigten ist, wohingegen der Ausgang des digitalen Sperrfilters 27 oder des Ausgangsprozessors 25 der aufgezeichneten Sprache ein ähnliches Spektrum wie das Spektrum haben können, das mit der durchgezogenen Linie in Fig. 4B gezeigt ist.
  • Die Ausgangssignale des Filters 27 und des Ausgangsprozessors 25 der aufgezeichneten Sprache werden weitergeleitet an einen Nachrichtengenerator 28, der bei Nachrichten, die sowohl einen synthetisierten Abschnitt als auch einen Abschnitt "aufgezeichnete Sprache" aufweisen, vor Ausgabe der verketteten Nachricht über die Digitalleitungs- Schnittstelle 10 an den Benutzer die zwei Teile der Nachricht verkettet.
  • Die zwei Eingangsprozessoren sind eine Eingangssignal- Analyseeinrichtung 21 und eine Spracherkennungseinrichtung 22.
  • Die Eingangssignal-Analyseeinrichtung 21 empfängt das Signal, das die Stimme des Benutzers darstellt, aus der Digitalleitungs-Schnittstelle 10 und leitet es durch ein Bandpaßfilter, dessen Durchlaßbereich sich von 1200 bis 1300 Hz erstreckt. Danach vergleicht die Eingangssignal- Analyseeinrichtung 21 den Ausgang des Bandpaßfilters mit einem Schwellenwert T (s. Fig. 4). Wenn die Signalstärke im Durchlaßbereich über dem Schwellenwert liegt, gibt die Eingangssignal- Analyseeinrichtung 21 ein Signal 23 "Benutzer anwesend" aus, das die Tatsache anzeigt, daß das in diese eingegebene Signal die Stimme des Benutzers enthält. Wenn andererseits die Signalstärke im Durchlaßbereich unter dem Schwellenwert liegt, gibt die Eingangssignal- Analyseeinrichtung 21 eine alternative Version des Signals 23 aus, das anzeigt, daß das in die Eingangssignal-Analyseeinrichtung 21 eingegebene Signal nicht die Stimme des Benutzers enthält.
  • Das Signal, das ankommende Sprache darstellt, wird ebenfalls in die Spracherkennungseinrichtung 22 eingegeben, an die von der Dialogsteuereinheit 30 die möglichen akzeptablen Antworten geliefert werden. Auf das Signal 23 "Benutzer anwesend", das anzeigt, daß das Ein- gangssignal die Stimme des Benutzers enthält, versucht die Spracherkennungseinrichtung 22 das gegenwärtig vom Benutzer gesprochene Wort zu erkennen und gibt das Ergebnis an die Dialogsteuereinheit 30 aus.
  • In Übereinstimmung mit der Software, die sie steuert, antwortet die Dialogsteuereinheit 30 dann auf das Wort oder das vom Benutzer gesprochene Wort und steuert die Ausgangsprozessoren, um dem Benutzer eine geeignete Antwort zu liefern.
  • Ein Dialog (Fig. 2) zwischen der automatisierten Banking-Vorrichtung und einem unerfahrenen Benutzer wird initiiert, wenn der Benutzer die Telephonnummer der Vorrichtung wählt. Wenn der Benutzer mit der Vorrichtung verbunden ist, instruiert die Dialogsteuereinheit 30 den Ausgangsprozessor 25 der aufgezeichneten Sprache, eine Willkommensnachricht R1 zu senden, die unmittelbar von einer Kontonummer gefolgt ist, die ein Prompt R2 anfordert. Wie oben erwähnt, werden alle Nachrichten und Prompts, die innerhalb des Ausgangsprozessors 25 der aufgezeichneten Sprache aufgezeichnet sind, so aufgezeichnet, als hätten sie ein Spektrum ähnlich dem Spektrum, welches durch die durchgezogene Linie in Fig. 4B gezeigt ist. Fig. 4B zeigt, daß dem Spektrum der aufgezeichneten Nachrichten alle Komponenten fehlen, die eine Frequenz zwischen 1200 und 1300 Hz aufweisen, das sonst aber normal ist. Bei Ausgabe der Nachricht kann es sein, daß ein Echo in der Nachricht am Eingang der Signalprozessoren 21, 22 zurückerhalten wird. Obwohl es möglich ist, daß das Spektrum durch die Reflexion leicht verändert ist, wird dieser Reflexionsprozeß keine Frequenzen einbringen, die im ausgehenden Signal nicht vorhanden waren, weshalb er keine Frequenzen in das Frequenzband von 1200 bis 1300 Hz hineinbringen wird. Es ist aber nichtsdestoweniger möglich, daß dem Ausgangssignal ein gewisses Rauschen mitgeteilt wird, während es von den Ausgangssignalprozessoren 25, 26, 2 r, 28 zu den Eingangssignalprozessoren 21, 22 übertragen wird. Daher kann das Spektrum des Echos ähnlich dem Spektrum sein, das in Fig. 4B mit einer durchbrochenen Linie angezeigt ist.
  • Gemäß Fig. 1 wird das Echo des Prompts R2 an der Eingangssignal- Analyseeinrichtung 21 erhalten, wonach es durch ein Bandpaßfilter geht (dessen Durchlaßbereich sich von 1200 bis 1300 Hz erstreckt); das sich ergebende Signal wird mit einem Schwellenwert T verglichen. Da das Echo des herausgehenden Prompts eine wesentliche Komponente im Frequenzband von 1200 bis 1300 Hz nicht enthält, fällt das Signal unter den Schwellenwert ab, und die Eingangssignal- Analyseeinrichtung 21 gibt das Signal 23 aus, das angibt, während das Prompt R2 andauert, daß der Benutzer nicht spricht.
  • Der Benutzer geht fährt dann fort und gibt seine Kontonummer ein, wobei er die DTMF-Tasten ("Dual Tone Multiple Frequency" - Tastwahl) seines Telephons verwendet. Diese Töne werden von der Spracherkennungseinrichtung 22 empfangen, die sie in numerische Daten umwandelt und sie an die Dialogsteuereinheit 30 weiterleitet. Die Dialogsteuereinheit 30 dann gibt die Kontonummer an einen Kundendatenbank- Datenserver weiter, der im lokalen FDDI-Netz ("Fibre Distributed Data Inferface" - Lichtwellenleiterverteilungs-Datenschnittstelle??) vorgesehen ist. Der Datenserver überträgt die Daten dann zurück und gibt an, welche Dienste im Hinblick auf dieses Konto zur Verfügung zu stellen sind, und er überträgt weitere, auf den Kunden bezogene Daten, wie z. B. eine persönliche Kennnummer (PIN). Obwohl das in den Fig. 2 und 3 nicht gezeigt ist, fordert das System sofort nach der Aufforderung zur Eingabe der Kontonummer auch die Eingabe der PIN-Nummer an.
  • Die Dialogsteuereinheit 30 instruiert dann den Ausgangsprozessor 25 der aufgezeichneten Sprache ein Prompt R3 "geforderter Dienste-Typ" auszugeben, das er Benutzers abhört, bevor er mit dem Wort "Überweisung" antwortet. Die Stimme des Benutzers kann ein Spektrum haben, das dem in Fig. 4A gezeigten ähnlich ist. Wenn ein Signal, das seine Stimme darstellt, an die Eingangssignal- Analyseeinrichtung 21 weitergeleitet wird, wird festgestellt, daß das Signal eine wesentliche Komponente aus dem Frequenzband von 1200 bis 1300 Hz enthält, und somit gibt der Eingang in die Eingangssignal- Analyseeinrichtung 21 ein Signal 23 aus, das die Tatsache anzeigt, daß der Benutzer mit der Spracherkennungseinrichtung 22 spricht. Die Spracherkennungseinrichtung 22 erkennt das Wort, das gegenwärtig in die Vorrichtung eingegeben wird, als das Wort "Überweisung" und gibt ein Signal aus, das anzeigt, daß das das Wort ist, das von der Dialogsteuereinheit 30 empfangen wurde.
  • Nachdem sie diese Antwort erhalten hat, instruiert die Dialogsteuereinheit 30 dann den Ausgangsprozessor 25 der aufgezeichneten Sprache, ein Prompt auszugeben, das den Benutzer fragt, wieviel Geld er überweisen möchte. Der Benutzer antwortet dann und nennt die Summe, die er überweisen möchte, hierbei ist die gesprochene Eingabe potentiell zuverlässiger als Informationen über das Telephon-Tastaturfeld, da ein Fehler bei der Eingabe der DTMF-Töne dazu führen kann, daß der Benutzer die Überweisung eines Betrages fordert, der um eine Größenordnung größer oder kleiner als der Betrag ist, den der überweisen wollte.
  • Die Antwort des Benutzers wird dann von der Spracherkennungseinrichtung 22 bearbeitet, und Daten, die anzeigen, wieviel Geld der Benutzer zu überweisen gebeten hat (in diesem Fall 316.17 englische Pfund), werden an die Dialogsteuereinheit 30 weitergeleitet. Die Dialogsteuereinheit 30 instruiert dann den Ausgangsprozessor 25 der aufgezeichneten Sprache, an den Nachrichtengenerator 28 die aufgezeichneten Sprachnachrichten "Ich habe gehört" und "Ist das richtig?" auszugeben. Danach instruiert die Dialogsteuereinheit 30 den Sprachsynthesizer-Prozessor 26, eine gesprochene Version von 316,17 englische Pfund zu synthetisieren. Vom Sprachsynthesizer-Prozessor 26 wird eine synthetisierte Version dieser Worte ausgegeben, die ein Spektrum ähnlich dem in Fig. 4A gezeigten aufweist. Danach wird das Signal durch den digitalen Sperrfilter 27 geführt und wird ausgegeben, wobei es ein Spektrum hat, das dem mit einer durchgezogenen Linie dargestellten Spektrum von Fig. 4B ähnlich ist. Die modifizierte, synthetisierte Nachricht wird dann zum Nachrichtengenerator 28 gesandt.
  • Der Nachrichtengenerator 28 verkettet dann die zwei aufgezeichneten Sprachnachrichten und die synthetisierte Sprachnachricht zum Prompt R5, das über die Digitalleitungs-Schnittstelle 10 an den Benutzer ausgegeben wird. Der Dialog wird dann fortgesetzt.
  • Ein Benutzer, der mit dem System vertrauter ist, kann einen Dialog ähnlich dem in Fig. 3 gezeigten Dialog führen. Der Beginn des Dialogs ist mit dem in Fig. 2 beschriebenen solange identisch, bis der Benutzer das Prompt R2 unterbricht, das die Kontonummer abfragt und sein Telephon-Tastaturfeld verwendet, um seine Kontonummer einzugeben. Die von seinem Telephon ausgegebenen DTMF-Töne werden in die Spracherkennungseinrichtung 22 eingegeben, die die Töne in die Kontonummer umwandelt, die die Daten darstellen, und gibt diese Daten an die Dialogsteuereinheit 30 weiter. Sobald die Dialogsteuereinheit 30 diese Daten erhalten hat, sendet sie ein Signal zum Ausgangsprozessor 25 der aufgezeichneten Sprache, um die Ausgabe der Kontonummer anzuhalten, die das Prompt R2 anfordert. Es ist einleuchtend, daß wenn die Vorrichtung einmal die Ausgabe des Prompt R2 gestoppt hat, kein Echo von diesem Prompt in der Vorrichtung zurückerhalten wird. Somit kann die Spracherkennungseinrichtung 22 die anderen DTMF-Töne, die vom Benutzer eingegeben wurden, ohne die Gegenwart des störenden Echos erkennen.
  • Der Dialog wird dann wie vorher fortgesetzt, bis der Benutzer den Dienst, bei dem Prompt R3 benötigt wird dadurch unterbricht, daß er das Wort "Überweisung" sagt. Während der ersten zwei Worte der Nachricht R3 wird erkannt, daß die Eingangssignal-Analyseeinrichtung 21 ansetzt, ein Signal 23 auszugeben, das angibt, daß die Stimme des Benutzers nicht präsent ist. Da jedoch der Benutzer die Ausgangsnachricht unterbricht, wird das Signal, das an der Vorrichtung empfangen wird, eine Kombination aus der Stimme des Benutzers und einem Echo des ausgehenden Prompt sein. Das Spektrum dieses Kombinationssignals wird ähnlich dem Signal sein, das nur die Stimme des Benutzers enthält (Fig. 4A); da aber dem Spektrum des Echosignals die Komponenten zwischen 1200 und 1300 Hz fehlen, erscheint eine kleine Kerbe zwischen 1200 und 1300 Hz (Fig. 4C).
  • Das Kombinationssignal wird zur Eingangssignal-Analyseeinrichtung 21 weitergeleitet, wo es durch ein Bandpaßfilter geführt wird und festgestellt wird, daß es eine wesentliche Komponente im Frequenzbereich zwischen 1200 bis 1300 Hz aufweist. Daher gibt die Eingangssignal- Analyseeinrichtung 21 ein Signal 23 sowohl an die Spracherkennungseinrichtung 22 als auch an die Dialogsteuereinheit 30 aus (das anzeigt, daß die Stimme des Benutzers vorliegt). Nach Empfang des Signals 23 instruiert die Dialogsteuereinheit 30 den Ausgangsprozessor 25 der aufgezeichneten Sprache, seine Ausgabe des Prompts R3 anzuhalten. Bald danach hört das Echo des Prompts auf, eine Komponente für Signale zu sein, die an der Spracherkennungseinrichtung 22 empfangen wurden und die Spracherkennungseinrichtung kann das Wort, das der Benutzer gerade sagt, besser erkennen. Wenn die Anwort des Benutzers erkannt worden ist, wird sie an die Dialogsteuereinheit 30 weitergeleitet.
  • Danach unterbricht der Benutzer die nächsten zwei Prompts des Dialogs auf ähnliche Weise, in der er das Prompt R3 "geforderter Dienste- Typ" unterbrochen hat.
  • Es ist anzumerken, daß die Komponente in der obigen Ausführungsform, die im gesprochenen, noch nicht aufbereiteten Prompt fehlt, einen Abschnitt des Frequenzspektrums aufweist. Es ist jedoch vorgesehen, daß auch andere Komponenten fehlen könnten. So könnten beispielsWeise Zeitschlitze von kurzer Dauer (z. B. von 1 bis 5 ms) in einem regelmäßigen Abstand (beispielsweise alle 20 bis 100 ms) aus dem gesprochenen Prompt entfernt werden. Wenn beispielsweise die Sprache digital bei 8 kHz abgetastet wird, ließe sich das erreichen, indem 8 bis 40 Proben bei einem Probenintervall von 160 bis 180 auf einen Nullwert eingestellt würden. Um hier nur einen Wert zu nennen, wenn beispielsweise 20 Proben aus dem Signal bei einem Probenintervall von 400 entfernt werden sollen, kann die Eingangssignal-Analyseeinrichtung so eingerichtet werden, daß sie, wenn sie nicht während einer Signaldauer von 800 Proben für ein empfangenes Signal eine entsprechende Stille oder annhähernd Stille (d. h., das Volumen liegt unter einem vorgegebenen Schwellenwert) erfaßt, ein Signal ausgibt, das anzeigt, daß der Benutzer spricht.
  • Es ist anzumerken, daß die Möglichkeit zum Dazwischenreden es dem Benutzer erlaubt, seine Transaktionen rascher durchzuführen. Was aber noch wichtiger ist, ist die Tatsache, daß der Benutzer, da er dazu befähigt ist, das von der Vorrichtung ausgegebene Prompt auf diese Weise zu unterbrechen, eher das Gefühl hat, den Dialog zu steuern.

Claims (12)

1. Interaktive Vorrichtung, die enthält:
- eine Signalausgabeeinrichtung (28), die im Betrieb zur Ausgabe eines Signals (4B) ausgeführt ist, das ausgegebene Sprache darstellt, eine Signaleingabeeinrichtung (21), die im Betrieb zum Empfang eines Signals (4C) ausgeführt ist, das den gesprochenen Befehl eines Benutzers darstellt, und die
gekennzeichnet ist durch
- die Signalausgabeeinrichtung (28), die zur Ausgabe des aufbereitete Sprache darstellenden Signals (4B) betrieben werden kann, wobei dem die aufbereitete Sprache darstellenden Signal eine Komponente fehlt, die im Signal (4C) vorliegt, das den gesprochenen Befehl darstellt,
- eine Befehlserfassungseinrichtung (21), die zur Erfassung des während der Ausgabe der aufbereiteten Sprache gesprochenen Befehls eines Benutzers durch Erfassung der Eingabe eines Signals (4C) betrieben werden kann, das die im Signal (4B) fehlende Komponente enthält, die die aufbereitete Sprache darstellt.
2. Interaktive Vorrichtung nach Ansprüch 1, die ferner eine Einrichtung (27) zur Aufbereitung eines Signals (4A) enthält, das Sprache darstellt, und die das Signal (4B) liefert, das die aufbereitete Sprache darstellt.
3. Interaktive Vorrichtung nach Anspruch 2, wobei die Aufbereitungseinrichtung (27) ein digitales Filter enthält.
4. Interaktive Vorrichtung nach einem der vorhergehenden Ansprüche, wobei dem Signal (4B), das die aufbereitete Sprache darstellt, Signalkomponenten fehlen, die eine Frequenz innerhalb einer oder mehrerer Abschnitte des Frequenzspektrums aufweisen.
5. Interaktive Vorrichtung nach Anspruch 4, wobei der Mittelpunkt des Abschnitts im Bereich von 1000 bis 1500 Hz liegt.
6. Interaktive Vorrichtung nach Anspruch 5, wobei der Mittelpunkt im Bereich von 1200 bis 1300 Hz liegt.
7. · Interaktive Vorrichtung nach einem der Ansprüche 4 bis 6, wobei die Breite des Abschnitts im Bereich von 80 bis 120 Hz liegt.
8. Interaktive Vorrichtung nach einem der Ansprüche 1 bis 3, wobei die fehlende Komponente mehrere voneinander beabstandete Kurzzeit- Segmente des Sprachsignals enthält.
9. Kommunikationsnetzwerk, das eine Vorrichtung nach einem der Ansprüche 1 bis 8 enthält.
10. Sprachsteuerbare Vorrichtung, die enthält:
- eine interaktive Vorrichtung nach einem der Ansprüche 1 bis 8,
- eine Einrichtung zur Umwandlung des aufbereitete Sprache darstellenden Signals in aufbereitete Sprache und
- eine Einrichtung zur Umwandlung des gesprochenen Befehls eines Benutzers in ein Signal, das denselben darstellt.
11. Verfahren zur Erfassung des einer interaktiven Vorrichtung erteilten gesprochenen Befehls eines Benutzers, das die folgenden Schritte enthält:
- Ausgabe eines Ausgangssignals (4B), das ausgegebene Sprache darstellt, wobei das Verfahren gekennzeichnet ist durch
- das Ausgangssignal (4B), das aufbereitete Sprache darstellt, das Signal (4B), das die aufbereitete Sprache darstellt, dem eine Komponente in den Signalen (4C) fehlt, die die gesprochenen Befehle des Benutzers darstellt,
- eine Überwachungssignaleingabe in die interaktive Vorrichtung, die das Vorliegen der Komponente anzeigt, und
- nach Erfassen des Vorliegens der Komponente, Bestimmung, daß das Eingabesignal den gesprochenen Befehl des Benutzers darstellt.
12. Verfahren nach Anspruch 11, das ferner den Schritt der Aufbereitung des Signals umfaßt; das den gesprochenen Befehl darstellt.
DE69710213T 1996-11-28 1997-11-26 Interaktives gerät und verfahren Expired - Lifetime DE69710213T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP96308590 1996-11-28
PCT/GB1997/003231 WO1998024225A1 (en) 1996-11-28 1997-11-26 Interactive apparatus

Publications (2)

Publication Number Publication Date
DE69710213D1 DE69710213D1 (de) 2002-03-14
DE69710213T2 true DE69710213T2 (de) 2002-08-29

Family

ID=8225164

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69710213T Expired - Lifetime DE69710213T2 (de) 1996-11-28 1997-11-26 Interaktives gerät und verfahren

Country Status (9)

Country Link
US (1) US6603836B1 (de)
EP (1) EP0941597B1 (de)
JP (1) JP3998724B2 (de)
KR (1) KR100526216B1 (de)
AU (1) AU5126698A (de)
DE (1) DE69710213T2 (de)
ES (1) ES2172011T3 (de)
IL (1) IL129893A0 (de)
WO (1) WO1998024225A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10243832A1 (de) * 2002-09-13 2004-03-25 Deutsche Telekom Ag Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7624800A (en) * 1999-10-01 2001-05-10 Bevocal, Inc. Vocal interface system and method
US6944594B2 (en) * 2001-05-30 2005-09-13 Bellsouth Intellectual Property Corporation Multi-context conversational environment system and method
KR100552468B1 (ko) * 2001-07-19 2006-02-15 삼성전자주식회사 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법
US7328159B2 (en) * 2002-01-15 2008-02-05 Qualcomm Inc. Interactive speech recognition apparatus and method with conditioned voice prompts
US7523038B2 (en) * 2002-07-31 2009-04-21 Arie Ariav Voice controlled system and method
US20050180464A1 (en) * 2002-10-01 2005-08-18 Adondo Corporation Audio communication with a computer
US20060276230A1 (en) * 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
EP1576739A4 (de) * 2002-10-01 2006-11-08 Christopher Frank Mcconnell System und verfahren für drahtlose tonkommunikation mit einem computer
US7392188B2 (en) * 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
DE10348408A1 (de) * 2003-10-14 2005-05-19 Daimlerchrysler Ag Nutzeradaptive Dialogunterstützung für Sprachdialogsysteme
US20150279373A1 (en) * 2014-03-31 2015-10-01 Nec Corporation Voice response apparatus, method for voice processing, and recording medium having program stored thereon
US10043516B2 (en) * 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3639848A (en) * 1970-02-20 1972-02-01 Electronic Communications Transverse digital filter
JPS5327332A (en) * 1976-08-26 1978-03-14 Hitachi Ltd Sound response unit of entirely double type
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
US4521647A (en) * 1984-02-17 1985-06-04 Octel Communications, Inc. Tone detection system and method
US4914692A (en) * 1987-12-29 1990-04-03 At&T Bell Laboratories Automatic speech recognition using echo cancellation
JPH02181559A (ja) * 1989-01-05 1990-07-16 Toshiba Corp 電話装置
US4979214A (en) * 1989-05-15 1990-12-18 Dialogic Corporation Method and apparatus for identifying speech in telephone signals
US4932062A (en) * 1989-05-15 1990-06-05 Dialogic Corporation Method and apparatus for frequency analysis of telephone signals
US5125024A (en) * 1990-03-28 1992-06-23 At&T Bell Laboratories Voice response unit
GB2251765B (en) * 1991-01-14 1995-03-08 Telsis Limited Interactive telephone announcement apparatus
US5155760A (en) * 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US5471527A (en) * 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
US5583933A (en) * 1994-08-05 1996-12-10 Mark; Andrew R. Method and apparatus for the secure communication of data
CN1174623A (zh) * 1995-02-15 1998-02-25 英国电讯公司 声音活动检测
US5761638A (en) * 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
US5708704A (en) * 1995-04-07 1998-01-13 Texas Instruments Incorporated Speech recognition method and system with improved voice-activated prompt interrupt capability
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US6233319B1 (en) * 1997-12-30 2001-05-15 At&T Corp. Method and system for delivering messages to both live recipients and recording systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10243832A1 (de) * 2002-09-13 2004-03-25 Deutsche Telekom Ag Verfahren und Anordnung zur intelligenten Abbruchsteuerung in Sprachdialogsystemen

Also Published As

Publication number Publication date
EP0941597B1 (de) 2002-01-30
US6603836B1 (en) 2003-08-05
JP2001504600A (ja) 2001-04-03
KR100526216B1 (ko) 2005-11-04
ES2172011T3 (es) 2002-09-16
IL129893A0 (en) 2000-02-29
JP3998724B2 (ja) 2007-10-31
WO1998024225A1 (en) 1998-06-04
EP0941597A1 (de) 1999-09-15
DE69710213D1 (de) 2002-03-14
KR20000069163A (ko) 2000-11-25
AU5126698A (en) 1998-06-22

Similar Documents

Publication Publication Date Title
DE69232463T2 (de) Sprachgesteuertes nachrichtensystem und verarbeitungsverfahren
DE69839068T2 (de) System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung
DE69710213T2 (de) Interaktives gerät und verfahren
DE69614789T2 (de) Vom Anwender auswählbare mehrfache Schwellenwertkriterien für Spracherkennung
DE3885683T2 (de) Telefonapparat.
DE69625793T2 (de) Telefonnetz-dienst zur umwandlung von sprache in wahltöne
DE69424172T2 (de) Verfahren zur erkennung eines gesprochenen wortes in anwesenheit störender sprache
DE3914841C2 (de)
DE69612480T2 (de) Detektion von sprechaktivität
DE3886460T2 (de) System zur Messung und automatischer Kompensation der Distorsionen von einer Verbindung zwischen einem Fernsprechapparat und einer zentralen Sprachverarbeitungseinheit.
DE69929526T2 (de) Telefonapparat mit lautstärkeregelung
DE10308467A1 (de) Verfahren zur Signalton-/Alarmsignaldetektion und Telefonalarmsignaldetektor
DE3590157T (de) System zur Speicherung und zum Abruf der Stimme eines Telefonisten
DE19956747C1 (de) Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
EP0493703A1 (de) Kommunikationssystem, insbesondere Fernsprechkommunikationssystem
DE69224625T2 (de) Verfahren zum detektieren eines disable-tonsignals eines echokompensators
DE19939102C1 (de) Verfahren und Anordnung zum Erkennen von Sprache
DE69819744T2 (de) Verfahren und vorrichtung zur verwaltung von stimm-registrations-eingaben einer spracherkennungsvorrichtung zur verwendung in sowohl handapparaten als auch freisprechanlagen
DE3854260T2 (de) Leitungsanschlussvermittlungseinrichtung zur Herstellung eines Anschlusses bei der Erkennung eines Sprachmusters.
DE69433587T2 (de) Vorrichtung zur Detektion von Abschaltsignalisierung
DE68926204T2 (de) Kommunikationsgerät unter Verwendung einer Fernsprechleitung
DE60106582T2 (de) Verfahren und vorrichtung für stereoechounterdrückung in einen voip-kommunikationsystemen
EP0693845A2 (de) Digitaler Telefonanrufbeantworter
DE69328356T2 (de) Signaltonerkennungsverfahren und -Apparat zum Erkennen zumindest eines Tones in einem Dualton-Multifrequenzsignal
DE60223334T2 (de) Verbesserungen in Beziehung zur Detektion eines Zweitonmehrfrequenzsignales

Legal Events

Date Code Title Description
8364 No opposition during term of opposition