DE60214391T2

DE60214391T2 - Erkennung von Ereignissen bei der Kommunikation mit mehreren Sprachkanälen

Info

Publication number: DE60214391T2
Application number: DE60214391T
Authority: DE
Inventors: Pierre Sauvage; Marc Brandt; Jean-Philippe Caradec
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2002-10-24
Filing date: 2002-10-24
Publication date: 2007-10-04
Anticipated expiration: 2022-10-25
Also published as: US20040228463A1; ATE338424T1; EP1414227B1; DE60214391D1; EP1414227A1; US7324636B2

Description

Die vorliegende Erfindung bezieht sich allgemein auf das Gebiet von Telekommunikationen und insbesondere auf Telekommunikationen, die mehr als einen Sprachkanal beinhalten.
Aufgrund von beträchtlichen Technologiefortschritten in den letzten Jahren ermöglichen es heute viele Telekommunikationssysteme Benutzern, mehrere Sprachkanalkommunikationen mit relativer Leichtigkeit einzurichten und zu steuern. Ein Beispiel eines Mehrfach-Sprachkanal-Kommunikationsdienstes ist Anklopfen, bei dem eine anrufende Partei separate Verbindungspfade mit zwei oder mehr angerufenen Parteien einrichten kann und selektiv zwischen einem Kommunizieren mit jeder Partei umschalten kann. Jeder der Verbindungspfade liefert einen separaten Sprachkanal, durch den eine Sprachkommunikation stattfinden kann. Beim Anklopfen gibt es, da allgemein nur ein Anruf zu einer bestimmten Zeit aktiv sein kann, etwas, was als „Vordergrund"-Sprachkanal für den gegenwärtigen aktiven Anruf bezeichnet wird, durch den eine Zweiwegekommunikation stattfinden kann, und einen „Hintergrund"-Sprachkanal für den gegenwärtigen Anruf im Wartezustand, durch den allgemein keine Kommunikation stattfinden kann.
Die Anzahl vorhandener Sprachkanäle jedoch steht nicht notwendigerweise mit der Anzahl aktiver Verbindungen in Zusammenhang. Mehrere Sprachkanäle z. B. könnten auch in Audiokonferenzsystemen auf Telefonbasis existieren, sogar wenn nur ein einzelner Kommunikationspfad zwischen einem Anrufer und einem Audiokonferenzdienst eingerichtet ist. Bei einer Audiokonferenz ist es üblich, dass alle Parteien bei der Konferenz an einem einzelnen Sprachkanal teilnehmen, durch den alle Parteien sprechen und den anderen Parteien zuhören können. Es wird außerdem immer üblicher, es zu ermöglichen, dass Unterkonferenzen innerhalb einer Audiokonferenz von einem Teilsatz der Teilnehmer eingerich tet werden können. Eine Unterkonferenz erlaubt üblicherweise die Erzeugung eines zusätzlichen und separaten Sprachkanals, an dem nur Parteien von dieser Unterkonferenz oder diesem Sprachkanal teilnehmen können. Üblicherweise werden keine Audiosignale von der Hauptaudiokonferenz durch Teilnehmer einer Unterkonferenz empfangen, es gibt jedoch auch Systeme, die es ermöglichen, dass Sprachsignale von einem Hintergrundsprachkanal mit Audiosignalen von einem Vordergrundsprachkanal gemischt werden. Derartige Systeme, wie z. B. das, das in der US 6404873 von Beyda u. a. beschrieben ist, ermöglichen es einem Benutzer, Sprachsignale von der Hauptaudiokonferenz zu der gleichen Zeit zu hören, wie an der Unterkonferenz teilgenommen wird.
Die europäische Patentanmeldung EP 1096767 beschreibt ein Anrufzentralensystem, bei dem ein automatischer Anrufverteiler (ACD) einzelne eingehende Anrufe zu einer Telefoneinheit eines ausgewählten Anrufzentralenagenten verteilt. Jede Telefoneinheit handhabt nur einen einzelnen Anruf und so nur einen einzelnen Sprachkanal zu einer bestimmten Zeit. Zusätzlich zu den Telefoneinheiten jedes Anrufzentralenagenten wird eine Aufsichtstelefoneinheit bereitgestellt. Der ACD kann eingehende Anrufe überwachen, um „problematische" Anrufe zu erfassen, und auf eine Erfassung eines „problematischen" Anrufs hin wird die Aufsicht benachrichtigt oder der Anruf wird zu der Aufsicht geliefert.
Die europäische Patentanmeldung EP 1156647 beschreibt ein System zum Entfernen ungewollter Musik und ungewollten Rauschens aus einem Konferenzanruf.
Die Patentanmeldung der Vereinigten Staaten US 5771273 beschreibt ein Verfahren und ein System zum Zugreifen auf eine entfernte personalisierte Sekretärsplattform für einen Telefonteilnehmer.
Es können jedoch Probleme in derartigen Mehrfach-Sprachkanal-Umgebungen vorliegen, teilweise aufgrund der einge schränkten Weise, in der Benutzer steuern und verwalten können, wie sie Sprachsignale von unterschiedlichen Sprachkanälen empfangen. Wenn z. B. ein System derart angeordnet ist, dass ein Benutzer keine Sprachsignale von einem Hintergrundsprachkanal empfängt, verpasst der Benutzer mögliche Informationen, die in diesem Sprachkanal getragen werden. Wenn jedoch ein System derart konfiguriert ist, dass ein Benutzer gleichzeitig Sprachsignale von mehreren Sprachkanälen empfängt, besteht ein erhöhtes Risiko, dass Informationen aufgrund einer Überlastung des menschlichen Hörsinnes verloren gehen. Obwohl von einem technischen Standpunkt Mehrfach-Sprachkanäle für Benutzer zahlreiche Vorteile bieten könnten, sind gleichzeitig Benutzer aufgrund physischer menschlicher Beschränkungen beim Handhaben von Informationen, die von mehreren Quellen gleichzeitig kommen, nicht immer in der Lage, vollen Vorteil aus diesen Vorzügen zu ziehen.
Entsprechend besteht ein Ziel der vorliegenden Erfindung darin, eine Linderung zumindest einiger der oben erwähnten Probleme zu unterstützen.
Gemäß einem ersten Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Steuern der Leitung einer Mehrzahl von Sprachkanälen zu einem Benutzerendgerät bereitgestellt, wobei die Vorrichtung folgendes Merkmal aufweist: ein Leitungselement (106) zum Leiten zumindest eines der Sprachkanäle zu dem Benutzerendgerät; dadurch gekennzeichnet, dass das Leitungselement (106) zum Leiten eines der anderen Sprachkanäle zu einem Überwachungselement (108) angeordnet ist, das Überwachungselement (108) zum Überwachen des Sprachkanals, der zu demselben geleitet ist, angeordnet ist, um das Vorliegen eines vorbestimmbaren Ereignis in demselben zu erfassen, und das Leitungselement (106) ansprechend darauf, dass ein vorbestimmbares Ereignis erfasst wird, zum Schalten dieses Sprachkanals zu dem Benutzerendgerät (100) angeordnet ist.
Vorzugsweise erlaubt es dies einem Benutzer, in der Lage zu sein, mit einer viel größeren Anzahl gleichzeitiger Sprachkanäle in Wechselwirkung zu stehen, als unter Verwendung von nur den menschlichen Sinnen möglich ist. Durch ein Erlauben dessen, dass ausgewählte Sprachkanäle automatisch überwacht werden, kann ein Benutzer entscheiden, Sprachsignale von diesen Kanälen nicht zu empfangen, obwohl er sich auf die automatische Überwachung dieser Kanäle verlassen kann, um ihn auf das Vorliegen vorbestimmbarer Ereignisse, die innerhalb dieser Kanäle auftreten, hinzuweisen.
Vorzugsweise ist die Steuerung angepasst, um einen Sprachkanal ansprechend auf eine Anforderung von dem Benutzerendgerät zu identifizieren.
Das vorbestimmbare Ereignis könnte das Auftreten eines Schlüsselworts sein, wobei in diesem Fall das Ereigniserfassungselement angepasst sein könnte, um das Schlüsselwort durch Spracherkennung zu erfassen.
Das vorbestimmbare Ereignis könnte z. B. auch eine Ruheperiode sein.
Die Steuerung könnte auch zum Identifizieren einer Mehrzahl zu überwachender Sprachkanäle angepasst sein, wobei in diesem Fall das Ereigniserfassungselement zur Überwachung jedes ausgewählten Sprachkanals auf ein unterschiedliches Ereignis angepasst sein könnte.
Der Hinweiserzeuger könnte zum Übertragen eines hörbaren Hinweises an das Benutzerendgerät angepasst sein. Bei einem Ausführungsbeispiel könnte ein hörbarer Hinweis durch Mischen eines hörbaren Hinweises mit dem zumindest einen Sprachkanal, der durch das Benutzerendgerät empfangen wird, übertragen werden. Bei einem weiteren Ausführungsbeispiel wird der hörbare Hinweis vorzugsweise zu einer Zeit übertragen, zu der der Audiopegel des zumindest einen Sprachkanals, der durch das Benutzerendgerät empfangen wird, unter einer vorbestimmten Schwelle liegt. Der Hinweiserzeuger könnte alternativ zum Übertragen eines Signals an das Benutzerendgerät angepasst sein, um dadurch zu bewirken, dass das Benutzerendgerät einen lokalen Hinweis erzeugt.
Bei einem bevorzugten Ausführungsbeispiel sind zu erfassende Ereignisse durch den Benutzer des Benutzerendgeräts definierbar.
Die Vorrichtung könnte ferner ein Aufzeichnungselement aufweisen, um einen Abschnitt des überwachten Sprachkanals um das erfasste Ereignis herum aufzuzeichnen. Der Hinweiserzeuger könnte dann zum Abspielen des aufgezeichneten Abschnitts für den Benutzer angepasst sein.
Die Vorrichtung könnte auch ein Element zum automatischen Einrichten eines Sprachkanals mit einem vorbestimmbaren Ziel aufweisen, wobei in diesem Fall die Steuerung zum Auswählen dieses Sprachkanals zur Überwachung angepasst sein könnte.
Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Steuern der Leitung einer Mehrzahl von Sprachkanälen zu einem Benutzerendgerät (100) bereitgestellt, das folgende Schritte aufweist: Leiten zumindest eines der Sprachkanäle zu einem Benutzerendgerät (100), Leiten zumindest eines der Sprachkanäle zu einem Überwachungselement (106), Überwachen des Sprachkanals, der zu dem Überwachungselement geleitet wird, um das Vorliegen eines vorbestimmbaren Ereignis in demselben zu erfassen, und Schalten des Sprachkanals, der zu dem Überwachungselement (106) geleitet wird, ansprechend auf das erfasste Ereignis zu dem Benutzerendgerät (100).
Vorzugsweise wird der Schritt eines Identifizierens eines Sprachkanals ansprechend auf eine Anforderung von dem Benutzerendgerät durchgeführt.
Der Schritt des Identifizierens eines Sprachkanals könnte auch zum Identifizieren einer Mehrzahl von Sprachkanälen angepasst sein, wobei in diesem Fall der Schritt des Erfassens für ein Überwachen jedes ausgewählten Sprachkanals auf ein unterschiedliches Ereignis angepasst sein könnte.
Der Schritt eines Erzeugens eines Hinweises könnte ein Übertragen eines hörbaren Hinweises an das Benutzerendgerät aufweisen. Bei einem Ausführungsbeispiel könnte der Schritt eines Erzeugens eines Hinweises ein Mischen eines hörbaren Hinweises mit dem zumindest einen Sprachkanal, der durch das Benutzerendgerät empfangen wird, aufweisen. Vorzugsweise wird der Hinweis zu einer Zeit an das Benutzerendgerät übertragen, zu der der Audiopegel des zumindest einen Sprachkanals, der durch das Benutzerendgerät empfangen wird, unterhalb einer vorbestimmten Schwelle ist. Alternativ könnte der Schritt eines Erzeugens eines Hinweises ein Übertragen eines Signals an das Benutzerendgerät aufweisen, um dadurch zu bewirken, dass das Benutzerendgerät einen lokalen Hinweis erzeugt.
Vorzugsweise wird der Schritt eines Erfassens durch ein Erfassen von durch einen Benutzer definierbare Ereignissen durchgeführt.
Das Verfahren könnte außerdem ein automatisches Einrichten eines Sprachkanals mit einem vorbestimmbaren Ziel und ein Auswählen dieses Sprachkanals zur Überwachung umfassen.
Verschiedene Ausführungsbeispiele der vorliegenden Erfindung werden nun lediglich beispielhaft Bezug nehmend auf die beigefügten Zeichnungen beschrieben, in denen:
1 ein Blockdiagramm ist, das ein System gemäß einem ersten Ausführungsbeispiel der vorliegenden Erfindung zeigt;
2 ein Blockdiagramm ist, das das Überwachungselement aus 1 detaillierter zeigt;
3 ein Blockdiagramm ist, das ein weiteres Ausführungsbeispiel der vorliegenden Erfindung zeigt; und
4 ein Blockdiagramm ist, das wiederum ein weiteres Ausführungsbeispiel der vorliegenden Erfindung darstellt.
1 ist ein Blockdiagramm, das ein Mehrfach-Sprachkanalsystem gemäß einem ersten Ausführungsbeispiel der vorliegenden Erfindung zeigt. 1 zeigt ein Audiokonferenzsystem 106, das es ermöglicht, dass ein Audiokonferenzanruf zwischen den Benutzerendgeräten 100, 102 und 104 eingerichtet werden kann. Wie in der Technik gut bekannt ist, könnten Audiokonferenzen in vielen unterschiedlichen Weisen eingerichtet werden, wie z. B. durch Verwendung eines Einwähl- oder Auswähldienstes, und derartige Techniken werden hierin nicht weiter erläutert.
Wie ebenso gut bekannt ist, könnte ein Benutzerendgerät 100 verwendet werden, um eine Unterkonferenz innerhalb der Hauptaudiokonferenz mit z. B. dem Benutzerendgerät 102 einzurichten. Wie dies für derartige Audiokonferenzsysteme typisch ist, könnte, sobald eine Unterkonferenz erzeugt wurde, das Benutzerendgerät 100 auch nur direkt mit den anderen Teilnehmern der Unterkonferenz kommunizieren. In Konferenzsystemen des Stands der Technik würden, während an einer Unterkonferenz teilgenommen wird, Informationen, die in der Hauptkonferenz geschildert werden, durch das Benutzerendgerät 100 nicht empfangen werden und würden so durch einen Benutzer verpasst werden. Um eine Überwindung dieses Problems zu unterstützen, ist ein Überwachungselement 108 vorgesehen, wie in 1 gezeigt ist.
Das Überwachungselement 108 wirkt, um ausgewählte Sprachkanäle zu überwachen und einen Hinweis bereitzustellen, wenn vorbestimmbare Sprachkennungen oder Schlüsselwörter in denselben erfasst werden. Bei einer Audiokonferenz z. B. könnte das Überwachungselement verwendet werden, um die Hauptaudiokonferenz zu überwachen, während ein Benutzer an einer Unterkonferenz teilnimmt. Ein Vorteil hiervon ist, dass es dies einem Benutzer erlaubt, besser mit Mehrfach-Sprachkanal-Umgebungen umzugehen, und ein Benutzer ist nicht weiter durch seine eigene Fähigkeit eingeschränkt, hörbare Informationen von mehreren Quellen zu überwachen und darauf zu reagieren.
Das Überwachungselement 102 ist in 2 detaillierter gezeigt und unten beschrieben.
2 zeigt das Audiokonferenzsystem 106 aus 1, das Sprachkanäle von jedem der Benutzerendgeräte 100, 102 und 104 empfängt, wie zuvor beschrieben wurde. Das Audiokonferenzsystem 106 verwaltet und steuert alle nötigen Funktionen und führt diese durch, um es zu erlauben, dass Audiokonferenzen, Unterkonferenzen und dergleichen eingerichtet, verwaltet und gesteuert werden können.
In Mehrfach-Sprachkanal-Umgebungen könnte ein Sprachkanal für unterschiedliche Benutzer unterschiedlich erscheinen. Ein Sprachkanal z. B., der für einen Benutzer als ein Vordergrundsprachkanal erscheint, könnte gleichermaßen für einen anderen Benutzer als ein Hintergrundsprachkanal erscheinen. Wie zuvor erwähnt wurde, erlaubt ein Vordergrundsprachkanal typischerweise eine Zweiwegesprachkommunikation, während ein Hintergrundsprachkanal dies typischerweise nicht tut. Eine Partei z. B., die in einem Anrufwartesystem im Haltezustand ist (d. h. ein Hintergrundsprachkanal), ist üblicherweise nicht in der Lage, mit der anderen Partei zu kommunizieren, bis der Anruf im Wartezustand zu dem aktiven Anruf gemacht wird. Die folgende Beschreibung ist aus der Sicht des Benutzerendgeräts 100 betrachtet.
Sprachsignale von jedem der Sprachkanäle 102 und 104 werden in ein Leitungselement 212 des Überwachungselements 108 eingegeben. Unter der Steuerung einer Steuerung 218 könnte das Leitungselement Sprachsignale von einer beliebigen Kombination der Sprachkanäle 102 und 104 zu einer Maschine 214 mit automatischer Spracherkennung (ASR) richten. Die Steuerung könnte z. B. konfiguriert sein, um es zu ermöglichen, dass Sprachsignale von einer Hauptaudiokonferenz überwacht werden, während das Benutzerendgerät 100 an einer Unterkonferenz teilnimmt. Durch die Steuerung 218 könnte die ASR-Maschine 214 konfiguriert sein, um einen ausgewählten Sprachkanal auf das Vorliegen eines oder mehrerer Sprachkennungen oder Schlüsselwörter zu überwachen. Eine Sprachkennung könnte z. B. ein Wort, eine Phrase, eine Äußerung oder einen beliebigen anderen identifizierbaren Ton aufweisen. Die ASR-Maschine könnte z. B. eine der vielen ASR-Maschinen sein, die gegenwärtig auf dem Markt sind, wie für Fachleute auf dem Gebiet zu erkennen sein wird. Vorzugsweise ist die ASR-Maschine in der Lage, fortwährendes Sprechen in einer oder mehreren Sprachen zu analysieren.
Auf die Erfassung einer Sprachkennung durch die ASR-Maschine 214 hin wird ein Signal an einen Hinweisverwalter 216 übertragen, der verantwortlich für die Erzeugung eines geeigneten Hinweises ist. Ein Hinweis könnte z. B. aus einem Hinweis an einen Benutzer des Benutzerendgeräts 100, einem Hinweis an das Benutzerendgerät 100 selbst oder sogar einem Hinweis für einen weiteren Benutzer oder eine weitere Vorrichtung bestehen, wie unten beschrieben ist.
Der Hinweiserzeuger 216 könnte den Benutzer des Benutzerendgeräts 100 in einer Anzahl von Weisen hinweisen. Der Hinweisverwalter könnte z. B. bewirken, dass ein hörbarer Hinweis mit den Sprachsignalen gemischt wird, die von dem Audiokonferenzsystem 106 an das Benutzerendgerät 100 gesendet werden. Ein hörbarer Hinweis könnte unter anderem einen hörbaren Ton, einen gesprochenen Hinweis und eine Aufzeichnung eines Abschnitts des überwachten Sprachkanals umfassen. Es könnte z. B. vorzuziehen sein, den Sprachkanal, der gerade überwacht wird, fortwährend aufzuzeichnen, z. B. in einem Ringpuffer oder einem Aufzeichnungselement. Danach könnte, wenn ein Schlüsselwort innerhalb des Sprachkanals erfasst wird, der Hinweis aus einem Abspielen einiger Sekunden der Aufzeichnung, die um die Erfassung des Schlüsselworts herum auftritt, für den Benutzer bestehen, so dass der Benutzer den Kontext des erfassten Schlüsselworts besser verstehen kann.
Ein Hinweis könnte auch nicht hörbar sein und könnte z. B. bewirken, dass das Audiokonferenzsystem 106 den Sprachkanal, in dem das Schlüsselwort erfasst wurde, umschaltet, um der gegenwärtige Vordergrundsprachkanal zu sein. Wenn z. B. eine Sprachkennung in der Audiokonferenz erfasst wird, könnte der Hinweis bewirken, dass der Benutzer eine Unterkonferenz verlässt, um wieder an der Hauptaudiokonferenz teilzunehmen. Ein derartiger Hinweis könnte auch angeordnet sein, um zu bewirken, dass alle Teilnehmer der Unterkonferenz wieder an der Hauptaudiokonferenz teilnehmen.
Bei einem bevorzugten Ausführungsbeispiel wird dem Benutzer während einer geeigneten Pause der Konversation ein gesprochener oder geflüsterter Hinweis gegeben, ähnlich wie wenn eine Person eine andere nicht mitten im Fluss unterbricht, sondern zu einem geeigneten Unterbrechungspunkt in der Konversation. Eine derartige Unterbrechung könnte z. B. durch ein Bestimmen des Vorliegens eines stillen Zwischenraums oder einer Periode, zu der der Audiopegel in dem Sprachkanal unterhalb einer vorbestimmbaren Schwelle ist, erfasst werden.
Der Hinweisverwalter könnte auch bewirken, dass ein Hinweis an das Benutzerendgerät 100 selbst gesendet wird. Dies könnte z. B. unter Verwendung einer In-Band-Zeichengebung oder Außer-Band-Zeichengebung sein, wie z. B. einer Kurz nachricht (SMS) oder Email-Nachricht. Auf den Empfang eines Hinweises hin könnte das Benutzerendgerät 100 einen lokalen Hinweis für den Benutzer des Endgeräts erzeugen. Ein lokaler Hinweis könnte z. B. ein blinkendes Licht, ein Bewirken, dass das Benutzerendgerät vibriert, oder ein Tönen eines Alarms innerhalb des Benutzerendgeräts 100 umfassen.
Der Hinweisverwalter könnte auch bewirken, dass ein Hinweis an eine externe Vorrichtung gesendet wird, wie z. B. ein Funkrufgerät, Mobiltelefon, Email-Account usw. Ein derartiger Hinweis könnte in einem beliebigen geeigneten Format, wie z. B. SMS, Email und dergleichen, gesendet werden.
Vorzugsweise ist die Weise, in der der Hinweisverwalter 216 Hinweise erzeugt, durch den Benutzer definierbar, z. B. durch Speichern eines Satzes von Benutzerpräferenzen in der Steuerung 218.
Zur Klarheit einer Erläuterung zeigt das oben in Bezug auf 2 beschriebene Beispiel nur, dass ein einzelner Sprachkanal zu einer Zeit überwacht werden könnte. Bei einem bevorzugten Ausführungsbeispiel jedoch könnte die Steuerung 218 konfiguriert sein, um es zu erlauben, dass mehrere Sprachkanäle gleichzeitig auf das Vorliegen eines Satzes vordefinierbarer Sprachkennungen überwacht werden. Zusätzlich könnte die Steuerung 218 konfiguriert sein, um unterschiedliche Sprachkanäle auf das Vorliegen unterschiedlicher Sätze von Sprachkennungen zu überwachen.
Obwohl nur eine ASR-Maschine 214 gezeigt ist, ist zu erkennen, dass mehrere ASR-Maschinen oder mehrere Instanzen der ASR-Maschine implementiert sein könnten, um eine effizientere Überwachung mehrerer Sprachkanäle auf einen oder mehrere Sätze von Sprachkennungen zu ermöglichen. Eine unterschiedliche ASR-Maschine könnte z. B. für jeden unterschiedlichen zu überwachenden Sprachkanal verwendet werden, wobei jede ASR-Maschine durch die Steuerung 218 konfigu riert ist, um den erforderlichen Satz von Sprachkennungen zu erfassen.
Vorzugsweise könnte das Überwachungselement 108 durch das Benutzerendgerät 100 z. B. unter Verwendung von Zweiton-Mehrfachfrequenz-(DTMF-)Tönen oder Sprachbefehlen konfiguriert werden.
Vorzugsweise sind die Sprachkennungen, die erfasst werden sollen, durch den Benutzer des Benutzerendgeräts 100 benutzerdefinierbar und könnten z. B. in einer Speichervorrichtung (nicht gezeigt), wie z. B. einem Speicher oder einem Plattenlaufwerk innerhalb des Überwachungselements 108 gespeichert sein. Sprachkennungen könnten z. B. durch Sprechen der erwünschten Schlüsselwörter und Bewirken, dass dieselben durch das Überwachungselement 108 aufgezeichnet werden, gespeichert werden. Es könnte auch möglich sein, dass einer oder mehrere Sätze benutzerdefinierter Sprachkennungen in einem Benutzerprofil zur Verwendung mit dem Überwachungselement gespeichert werden können. Das Benutzerprofil könnte als Teil des Überwachungselements 108 gespeichert sein oder könnte außerhalb des Überwachungselements gespeichert sein. Bei Speicherung außerhalb des Überwachungselements, z. B. auf einem mit dem Internet verbundenen Computerserver, muss nur eine Verbindung oder ein anderer Ortsindikator auf das Benutzerprofil vorgesehen sein, um es zu ermöglichen, dass auf die benutzerdefinierten Sprachkennungen zugegriffen werden kann. Es könnte z. B. vorzuziehen sein, dass die benutzerdefinierten Sprachkennungen in einem Textformat über eine Internet-Webseite eingegeben werden.
Zur Klarheit wird die obige Beschreibung von dem Standpunkt des Benutzerendgeräts 100 durchgeführt. Es ist jedoch zu erkennen, dass das Überwachungselement 108 auch für jeden der Teilnehmer an dem Audiokonferenzsystem implementiert sein könnte, wodurch es erlaubt wird, dass jeder der Teil nehmer selektiv einen beliebigen Sprachkanal überwacht, der für dieselben verfügbar ist.
Obwohl das Überwachungselement 108 der 1 und 2 als ein einzelnes Element dargestellt ist, ist für Fachleute auf dem Gebiet zu erkennen, dass die Untersysteme 212, 214, 216 und 218 nicht darauf eingeschränkt sind, innerhalb eines einzelnen Moduls oder Elements angeordnet zu sein, und eines oder mehrere dieser Untersysteme könnten entfernt von den anderen sein, wie z. B. über ein Netz verteilt sein. Ein derartiges Ausführungsbeispiel ist unten Bezug nehmend auf 3 beschrieben.
3 ist ein Blockdiagramm, das ein weiteres Ausführungsbeispiel der vorliegenden Erfindung zeigt, bei dem eine Überwachung eines oder mehrerer Sprachkanäle, in der allgemein oben beschriebenen Weise, z. B. durch einen Sprachdienst oder eine Medienplattform bereitgestellt werden kann, wie z. B. die OpenCall Media-(OCMP-)Plattform von Hewlett-Packard. Zur Klarheit der Erläuterung ist nur eine vereinfachte Ansicht der Medienplattform 314 gezeigt.
3 zeigt ein allgemeines Telekommunikationssystem 300, bei dem ein Benutzer 302 eine Verbindung zu der Medienplattform 314 durch ein Telekommunikationsnetz 304 herstellen könnte. Das Telekommunikationsnetz 304 könnte z. B. ein SS7-basiertes PSTN, ein Sprache-Über-IP-(VoIP-)Netz oder ein beliebiges anderes geeignetes Netz sein. Die Medienplattform 314 könnte mit dem Netz durch eine Übertragungsverbindung 312 mit hoher Kapazität verbunden sein, wie z. B. eine optische SONET-Verbindung, die in der Lage ist, Tausende gleichzeitiger Sprachanrufe zu tragen, wie für Fachleute auf dem Gebiet zu erkennen ist.
Die Medienplattform 314 ermöglicht es dem Benutzer 302, zusätzliche Anrufe zu z. B. einem Audio-Streaming-Dienst 308 zu platzieren, wie z. B. einem Audioaktiendienst, der Details von Aktienpreisen bereitstellt, sowie einem Audio konferenzserver 306. Die Medienplattform 314 weist ein Mischen-und-Leiten-Element 318 auf, das in Verbindung mit einer Steuerung 316 die mehreren Verbindungen verwaltet und die geeignete Mischung und Leitung der verfügbaren Sprachkanäle derart steuert, dass der Benutzer steuern könnte, durch welche Sprachkanäle er kommunizieren möchte. Die Richtung der Sprachpfade innerhalb des Systems 300 ist durch die verschiedenen gepunkteten Linien dargestellt. Der Audio-Streaming-Dienst 308 z. B. ist als ein Nur-Streaming-Dienst gezeigt, wobei der Audiopfad als unidirektional von dem Streaming-Dienst 308 zu der Medienplattform 314 gezeigt ist. Bidirektionale Audiopfade sind zwischen der Medienplattform 314 und dem Konferenzserver 306 und zwischen dem Benutzer 302 und der Medienplattform 314 gezeigt.
Wie zuvor beschrieben wurde, könnte der Benutzer 302 die Medienplattform z. B. durch die Medienplattform konfigurieren, derart, dass z. B. keine Audiosignale von dem Audio-Streaming-Dienst an den Benutzer gesendet werden, während der Benutzer an der Audiokonferenz teilnimmt, die durch den Audiokonferenzserver 306 bereitgestellt wird. Um die Sicherstellung dessen zu unterstützen, dass Informationen, die relevant für den Benutzer sind, die in dem Audiokanal geschildert werden, von dem Audio-Streaming-Dienst 308 nicht verpasst werden, könnte der Benutzer die Medienplattform konfigurieren, um diesen Audiokanal zu überwachen und jedes Mal einen Hinweis zu erzeugen, wenn ein vorbestimmbares Ereignis, wie z. B. ein Schlüsselwort, in demselben erfasst wird.
In einem Konfigurationsmodus z. B. könnte der Benutzer 302 eines oder mehrere in einem ausgewählten Sprachkanal zu erfassende Schlüsselwörter definieren. Das oder die Schlüsselwörter könnten z. B. in einem Hinweisverwalter 320 gespeichert sein, der wiederum das oder die Schlüsselwörter zu einer Maschine 322 einer automatischen Spracherkennung (ASR-Maschine) kommunizieren könnte. Bei dem gezeigten Beispiel ist die ASR-Maschine 322 entfernt von der Medien plattform 314 und ist über eine Verbindung 324 angeschlossen. Vorzugsweise ist die Verbindung 324 eine Echtzeitprotokoll-(RTP-)Verbindung. Sobald das System konfiguriert ist, könnte der Benutzer an der Audiokonferenz teilnehmen, die durch den Audiokonferenzserver 306 in der normalen Weise bereitgestellt wird. Das Mischen/Leiten-Element 318 leitet den Sprachkanal von dem Audio-Streaming-Dienst 308 über die Verbindung 324 zu der entfernten ASR-Maschine 322. Auf die Erfassung eines der durch die ASR-Maschine 322 definierten Schlüsselwörter hin wird ein Signal an den Hinweisverwalter 320 gesendet, der einen geeigneten Hinweis, z. B. in einer zuvor beschriebenen Weise, erzeugt.
4 ist ein Blockdiagramm, das wiederum ein weiteres Ausführungsbeispiel in Bezug auf ein Sprache-Über-IP-(VoIP-)System darstellt. Ein VoIP-kompatibles Benutzerendgerät 402 könnte eine Verbindung zu einer Anzahl weiterer geeigneter Benutzerendgeräte 404 und 406 durch ein Internetprotokoll-(IP-)Netz 408 herstellen. Die Benutzerendgeräte könnten z. B. VoIP-Telefonendgeräte oder geeignete ausgerüstete Computerendgeräte sein. Das Benutzerendgerät 402 könnte in einer allgemein bekannten Weise konfiguriert sein, um zwei separate Sprachkanäle einzurichten, z. B. einen Vordergrundsprachkanal 410 zwischen den Benutzerendgeräten 402 und 404 und einen Hintergrundsprachkanal 412 zwischen den Benutzerendgeräten 402 und 406. Die Sprachkanäle 410 und 412 werden in ein Überwachungselement 414 eingegeben. Die durch das Überwachungselement 414 bereitgestellte Funktionalität könnte in ihrer Natur derjenigen ähneln, die durch das Überwachungselement 108 bereitgestellt wird, das oben in Bezug auf 2 beschrieben ist. Allgemein könnte ein derartiges Überwachungselement an einem beliebigen Ort implementiert sein, an dem Zugriff zu den einzelnen Sprachkanälen gewonnen werden kann.
Bei einem weiteren Ausführungsbeispiel könnte ein Überwachungselement, wie allgemein oben beschrieben ist, falls nötig in Verbindung mit geeigneter Telefonieausrüstung, konfiguriert sein, um automatisch jedes Mal einen Anruf zu einer vorbestimmten Telefonnummer oder einem Ziel einzurichten, wenn ein Telefonanruf durchgeführt wird, und um diesen Anruf oder Sprachkanal auf eine oder mehrere vorbestimmbare Sprachkennungen zu überwachen.
Die vorliegende Erfindung könnte z. B. verwendet werden, um es zu ermöglichen, dass ein Aktienpreisinformationsdienst auf Telefonbasis überwacht wird, während man sich in einem separaten Telefonanruf befindet. Durch ein Konfigurieren des Überwachungselements in einer geeigneten Weise, z. B. durch Definieren der Sprachkennungen, um diejenigen der Unternehmensnamen zu sein, deren Aktien überwacht werden sollen, wird der Benutzer auf relevante Informationen in Bezug auf diese Unternehmen hingewiesen.
Die vorliegende Erfindung könnte z. B. auch verwendet werden, wenn ein Anruf zu Kundendienstanrufzentren durchgeführt werden soll. Oft werden derartige Anrufe durch eine automatisierte Sprachwarteschlangenanwendung beantwortet, die den Anrufer informiert, dass der Anruf beantwortet wird, sobald ein Bediener verfügbar ist. Derartige Anrufe beinhalten u.U. langes Warten, während in der Warteschlange gewartet wird. Indem das hierin beschriebene Überwachungssystem geeignet genutzt wird, könnte die Zeit, die normalerweise mit Warten, dass der Anruf beantwortet wird, verschwendet wird, vorzugsweise verwendet werden, um z. B. einen zusätzlichen Telefonanruf zu platzieren. Der Benutzer kann dadurch auf einen geeigneten Hinweis von dem Überwachungselement warten, um anzuzeigen, wann der anfängliche Anruf beantwortet wurde.
Fachleute auf dem Gebiet werden erkennen, dass ein beliebiger Typ von Sprachkanal überwacht werden könnte, ob nun der Sprachkanal ein Vordergrundsprachkanal, ein Hintergrundsprachkanal oder was auch immer ist. In einem System, in dem mehrere Sprachkanäle überwacht werden können, gibt es vorzugsweise keine Einschränkung für den Typ von Sprachkanälen, die überwacht werden können.
Es ist ebenso zu erkennen, dass die Überwachung nicht auf die Überwachung eines Sprachkanals auf das Vorliegen einer Sprachkennung oder eines Schlüsselworts eingeschränkt ist. Die Überwachung könnte z. B. durchgeführt werden, um das Vorliegen eines bestimmten definierbaren Ereignis zu erfassen, wie z. B. eine Ruheperiode, einen gerade beantworteten Anruf usw. Abhängig von bestimmten Anforderungen könnte das System angepasst werden, um Sprachkanäle auf das Vorliegen von sowohl Sprachkennungen als auch anderen definierbaren Ereignissen zu überwachen. Wo ein erfassbares Ereignis eine Ruheperiode ist, könnte dies z. B. in einer Situation verwendet werden, in der ein Benutzer an mehreren Konferenzanrufen zu einer Zeit teilnimmt, jedoch nur einem der Konferenzanrufe zuhört. In diesem Fall könnte, sollte dem Benutzer in einem Konferenzanruf eine Frage gestellt werden, dem der Benutzer nicht zuhört, die Erfassung einer Ruheperiode den Benutzer darauf hinweisen, dass eine Antwort erwartet wird. Es könnte deshalb besonders nützlich sein, ein Wiederabspielen einer aufgezeichneten Periode der Audiosignale bereitzustellen, die auftritt, bevor die Ruheperiode erfasst wurde, um die Ermöglichung dessen zu unterstützen, dass der Benutzer wieder den momentanen Kontext des Konferenzanrufs erhalten kann.
Andere definierbare Ereignisse könnten z. B. einen semantischen Inhalt des gerade überwachten Sprachkanals, betonungsbasierte Auslöser, wie z. B. die Erfassung von Fragen basierend auf einer Erfassung einer geeigneten Intonation, eine Sprechererkennung usw. umfassen.

Claims

Vorrichtung zum Steuern der Leitung einer Mehrzahl von Sprachkanälen zu einem Benutzerendgerät (100), wobei die Vorrichtung folgendes Merkmal aufweist: ein Leitungselement (106) zum Leiten zumindest eines der Sprachkanäle zu dem Benutzerendgerät; dadurch gekennzeichnet, dass: das Leitungselement (106) zum Leiten eines der anderen Sprachkanäle zu einem Überwachungselement (108) angeordnet ist; das Überwachungselement (108) zum Überwachen des Sprachkanals, der zu demselben geleitet ist, angeordnet ist, um das Vorliegen eines vorbestimmbaren Ereignis in demselben zu erfassen; und das Leitungselement (106) ansprechend darauf, dass ein vorbestimmbares Ereignis erfasst wird, zum Schalten dieses Sprachkanals zu dem Benutzerendgerät (100) angeordnet ist.
Die Vorrichtung gemäß Anspruch 1, bei der der Sprachkanal, der zu dem Benutzerendgerät geleitet ist, ein Vordergrundsprachkanal ist.
Die Vorrichtung gemäß Anspruch 1 oder 2, bei der der Sprachkanal, der zu dem Benutzerendgerät geleitet ist, ein Hintergrundsprachkanal ist.
Die Vorrichtung gemäß einem der Ansprüche 1, 2 oder 3, die ferner ein Aufzeichnungselement zum Aufzeichnen eines Abschnitts eines überwachten Sprachkanals um das erfasste Ereignis herum aufweist.
Die Vorrichtung gemäß Anspruch 4, die ferner ein Abspielen des aufgezeichneten Abschnitts an das Benutzerendgerät vor einem Schalten des Sprachkanals zu dem Benutzerendgerät aufweist.
Ein Verfahren zum Steuern der Leitung einer Mehrzahl von Sprachkanälen zu einem Benutzerendgerät (100), mit folgenden Schritten: Leiten zumindest eines der Sprachkanäle zu einem Benutzerendgerät (100); Leiten zumindest eines der Sprachkanäle zu einem Überwachungselement (106); Überwachen des Sprachkanals, der zu dem Überwachungselement geleitet wird, um das Vorliegen eines vorbestimmbaren Ereignis in demselben zu erfassen; und Schalten des Sprachkanals, der zu dem Überwachungselement (106) geleitet wird, ansprechend auf das erfasste Ereignis zu dem Benutzerendgerät (100).
Das Verfahren gemäß Anspruch 6, bei dem der Sprachkanal, der zu dem Benutzerendgerät geleitet wird, ein Vordergrundsprachkanal ist.
Das Verfahren gemäß Anspruch 6 oder 7, bei dem der Sprachkanal, der zu dem Überwachungselement geleitet wird, ein Hintergrundsprachkanal ist.
Das Verfahren gemäß einem der Ansprüche 6 bis 8, das ferner ein Aufzeichnen eines Abschnitts des überwach ten Sprachkanals um das erfasste Ereignis herum aufweist.
Das Verfahren gemäß Anspruch 9, das ferner ein Abspielen des aufgezeichneten Abschnitts an das Benutzerendgerät und ein Schalten des überwachten Sprachkanals zu dem Benutzerendgerät aufweist.