DE60018349T2

DE60018349T2 - Erzeugung von einem Namenwörterbuch aus aufgezeichneten telephonischen Grüssen für die Spracherkennung

Info

Publication number: DE60018349T2
Application number: DE60018349T
Authority: DE
Inventors: Brian Oakville Cruickshank; Lin Toronto Lin; Pierre M. Green Park Forgues
Original assignee: Nortel Networks Ltd
Current assignee: BlackBerry Ltd
Priority date: 1999-10-12
Filing date: 2000-09-15
Publication date: 2005-07-21
Anticipated expiration: 2020-09-16
Also published as: EP1093114B1; CA2317104A1; US6397182B1; EP1093114A3; DE60018349D1; EP1093114A2

Description

Gebiet der Erfindung
Die Erfindung bezieht sich auf ein Verfahren und ein System zur Erzeugung eines Spracherkennungs-Wörterbuchs auf der Grundlage von Begrüßungs-Aufzeichnungen in einem Sprachnachrichten-System. Die Erfindung findet praktische Anwendungen in Telefonsystemen, wie z. B. privaten Nebenstellenanlagen- (PBX-) Systemen, die auch als „Reihensysteme" bezeichnet werden, die eine Sprachnachrichten-Fähigkeit und außerdem Spracherkennungsfunktionen haben, wie z. B. die Fähigkeit, einen Anrufer mit einem Teilnehmer des Telefonsystems (als angerufener Teilnehmer bezeichnet) durch Erkennen des Namens des Teilnehmers zu verbinden, der von dem anrufenden Teilnehmer geäußert wird.
Hintergrund der Erfindung
Die moderne Telefonie bringt den Verbrauchern einen breiten Bereich von verbesserten Funktionen über den grundlegenden Telefondienst hinaus, wie z. B. die Fähigkeit, eine Kommunikationsverbindung zwischen zwei entfernten Stellen in einem Netzwerk herzustellen. Spezielle Beispiele derartiger verbesserter anrufbezogener Funktionen schließen die Spracherkennung und die Sprachnachrichten-Übersendung ein, um nur einige zu nennen. Ein Beispiel von Spracherkennungsdiensten, die heute verfügbar sind, ist die Fähigkeit eines Telefonsystems, wie z. B. eines PBX-Systems, eine Verbindung herzustellen, wenn der Anrufer den Namen eines Teilnehmers äußert, den er/sie anrufen möchte. Das Telefonsystem verwendet eine Spracherkennungseinheit, die das von der gesprochenen Äußerung abgeleitete Signal verarbeitet und dann versucht, eine Übereinstimmung dieser Äußerung mit Vokabular-Posten in einem Spracherkennungs-Wörterbuch zu finden. Die Vokabular-Posten in dem Spracherkennungs-Wörterbuch sind Darstellungen der Namen der Teilnehmer, die von dem Telefonsystem mit Diensten versorgt werden. Wenn die Spracherkennungseinheit die beste Übereinstimmung mit der gesprochenen Äußerung findet, wird die Verbindung mit dem Teilnehmer, die dem gewählten Vokabular-Posten zugeordnet ist, entweder unmittelbar oder nach Abschluss eines Bestätigungsdialogs mit dem Anrufer hergestellt.
Während der Inbetriebssetzungsphase des Telefonsystems wird das Spracherkennungs-Wörterbuch aufgebaut. Wie dies in der Veroffentlichung „Name dialling using final user defined vocabularies in mobile (GSM and TACS) and fixed telephone networks", von Elvira et al., ICASSP '98 beschrieben ist, verarbeiten Text-zu-Transskriptionseinheiten orthografische Darstellungen von Vokabular-Posten, die jeweiligen Teilnehmernamen zugeordnet sind. Für jeden Vokabular-Posten geben die Text-zu-Transskriptionseinheiten zumindest eine Transskription ab, die die Aussprache des Vokabular-Postens anzeigt. Jede Transskription besteht aus einer Vielzahl von Teilwort-Einheiten, wobei jede Teilwort-Einheit einem jeweiligen Sprachmodell zugeordnet ist. Typischerweise wird ein Sprecher-unabhängiger Modell-Satz verwendet, der auf der Grundlage einer Vielzahl von Sprechern trainiert wird.
Ein Mangel des vorstehend beschriebenen Verfahrens besteht darin, dass Abweichungen der Aussprache der Teilnehmernamen von den Text-zu-Transskriptionseinheiten üblicherweise nicht vorgesehen sind. Dieses Problem ist insbesondere deutlich, wenn der Name eines Teilnehmers aus einer Ursprungssprache stammt, die von der abweicht, die durch die Text-zu-Transskriptionseinheiten unterstützt wird. In solchen Fällen kann die von den Text-zu-Transskriptionseinheiten abgeleitete Aussprache die tatsächliche Aussprache des Namens des Teilnehmers nicht richtig beschreiben. Entsprechend ist das Erkennungs-Betriebsverhalten für einen derartigen Namen schlecht.
Vor diesem Hintergrund ist es klar zu erkennen, dass ein Bedarf in der Industrie besteht, ein verbessertes Verfahren und ein System zur Erzeugung eines Spracherkennungs-Wörterbuches zu schaffen, insbesondere zur Verwendung in dem Zusammenhang mit Telefonsystemen, die Benutzern Spracherkennungsdienste bieten.
Zusammenfassung der Erfindung
Die Erfindung ergibt ein System und ein Verfahren zur Erzeugung eines Spracherkennungs-Wörterbuches durch die Verwendung von Audio-Begrüßungen, die von Telefonsystem-Teilnehmem aufgezeichnet werden. Die Audio-Begrüßungen werden abgespielt, bevor Anrufer Mitteilungen in einem Sprachnachrichten-Postfach von Teilnehmern hinterlassen. Eine individuelle Begrüßung ist eine Audio-Information, die den Namen des Teilnehmers enthält. Diese Audio-Information kann verarbeitet werden, um eine Transskription zu erzeugen, die eine Aussprache eines Vokabular-Postens in einem Spracherkennungs-Wörterbuch anzeigt, der den Namen des Teilnehmers darstellt.
In einem speziellen Beispiel der Realisierung ist die individuelle Begrüßung eine Identifikationsmitteilung, die im Wesentlichen aus einem Signal besteht, das den Namen des Teilnehmers darstellt. In vorteilhafter Weise ermöglicht es eine individuelle Begrüßung zur Erzeugung einer Transskription, die einem Vokabular-Posten zugeordnet ist, dem Spracherkennungs-Wörterbuch, eine Aussprache des Namens des Teilnehmers zu erfassen, wie er sich selbst aussprechen würde.
In einem speziellen Realisierungsbeispiel ist das Telefonsystem ein PBX-System, das eine Spracherkennungseinheit einschließt, die in der Lage ist, eine Verbindung herzustellen, wenn der Anrufer den Namen des angerufenen Teilnehmers (angerufener Teilnehme) äußert. Der Spracherkennungsprozess wird auf der Grundlage des Spracherkennungs-Wörterbuches bewirkt, das die Vokabular-Posten enthält, die die Teilnehmernamen darstellen, die aus den individuellen Begrüßungen erzeugt wurden. Als eine Variante werden die Vokabular-Posten weiter zu alternativen Aussprachen der Vokabular-Posten zugeordnet, die auf der Grundlage der orthografischen Darstellung des Teilnehmernamens sowie von Text-zu-Phonem-Regeln abgeleitet wurden.
Die vorliegende Erfindung ermöglicht es, in effizienter Weise ein Spracherkennungs-Wörterbuch zu erzeugen, wenn die einzelnen Begrüßungen zur Verfügung stehen.
Die Erfindung erstreckt sich weiterhin auf ein Telefonsystem mit einer Sprachnachrichten-Fähigkeit, das ein Spracherkennungs-Wörterbuch aus den Audio-Begrüßungen der Teilnehmer erzeugen kann.
Kurze Beschreibung der Zeichnungen
1 ist eine schematische Ansicht einer Computer-Vorrichtung, die die Funktionalität eines PBX-Telefonsystems gemäß der vorliegenden Erfindung realisiert;
2 ist ein teilweise funktionelles und teilweise strukturelles Blockschaltbild des PBX-Telefonsystems, das in 1 gezeigt ist (der Block 180 weist einen Schlüssel für die Kommunikationspfade der Einheiten in diesem Block auf – durchgezogene Linien zeigen Datenverbindungsstrecken an, während gestrichelte Linien Steuersignal-Verbindungen zeigen. Dieser Schlüssel gilt lediglich für den Block 180 und gilt nicht für andere Teile der Zeichnungen).
Ausführliche Beschreibung
Unter Bezugnahme auf das spezielle Beispiel der Realisierung der Erfindung, die in 1 gezeigt ist, ist das darin gezeigte Gerät ein PBX- (Nebenstellen-) Telefonsystem 100 mit einer Sprachnachrichten-Fähigkeit, das weiterhin Spracherkennungsdienste bietet, die in der Lage sind, eine Verbindung herzustellen, wenn ein Anrufer den Namen des angerufenen Teilnehmers (angerufener Teilnehmer) äußert. Das PBX-Telefonsystem 100 schließt zwei Hauptkomponenten ein, nämlich eine Computervorrichtung in Form eines Servers und eine Adapter-Karte 180, die mit dem Bus auf der Hauptplatine 110 des Servers verbunden ist, wie dies weiter unten ausführlicher beschrieben wird. In einem speziellen Beispiel ist die Adapter-Karte 180 so ausgelegt, dass sie in einen freien Erweiterungsschlitz auf der Hauptplatine einsteckbar ist, um eine Verbindung mit dem Bus herzustellen. 1 zeigt weiterhin eine Vielzahl von Kästen oberhalb der Adapter-Karte 180. Diese sind zu Vervollständigungszwecken gezeigt, und stellen die üblichen Komponenten dar, die sich in einem Server befinden, wie z. B. die Leistungsversorgung, Festplatten, Bandlaufwerke, Floppy-Laufwerke usw. Diese Bauteile sind allgemein erhältlich und werden aus diesem Grund hier nicht näher beschrieben.
Kurz gesagt stellt die Adapter-Karte 180 die Telefonie-Kernfunktionen sowie außerdem eine DSP-Ressource für Programmelemente bereit, die von dem Server ausgeführt werden, die Anruf-bezogene Funktionen ergeben. Eine derartige DSP-Ressource bietet ein oder mehrere DSP-Dienste, wie z. B. die Sprachcodierung, die Sprachdecodierung, die Spracherkennungs-Verarbeitung usw.
2 zeigt ein Blockschaltbild des PBX-Telefonsystems 100. Die Adapter-Karte 180 schließt vier Hauptkomponenten ein, nämlich eine Leitungsschnittstelle 190, eine Vermittlung 181, einen digitalen Signalprozessor (DSP) 186 und eine Bus-Schnittstelle 188, die mit dem Bus des Servers verbunden ist.
Die Leitungsschnittstelle 180 stellt die physikalische Verbindung zwischen internen Telefonapparaten 200 und der externen Welt her, in diesem Beispiel dem öffentlichen Fernsprech-Wählnetz (PSTN) 202. In dem gezeigten Beispiel ist die Leitungsschnittstelle 190 mit zwei Telefonapparaten 200 und mit einer einzigen externen Leitung verbunden, die zu dem PSTN 202 führt. Es ist für den Fachmann klar zu erkennen, dass die Anzahl von Leitungen, mit der die Leitungsschnittstelle 190 eine Verbindung herstellen kann, eine Frage der konstruktiven Auswahl ist und für die Betriebsweise der Erfindung nicht kritisch ist.
Die Leitungsschnittstelle 180 bildet ein bidirektionales Übertragungsmedium für Sprachesignale, die ein digitales oder analoges Format haben könnten, und sie steuert weiterhin Signale zwischen den Leitungen und der Vermittlung 181. Die Vermittlung 181 ist eine Komponente, die die Telefonie-Kernfunktionen bereitstellt, wie z. B. eine grundlegende Anruf-Weglenkung und die zugehörige Anruf-Abwicklung (beispielsweise die Verwaltung des Überführens eines Anrufs in eine Warteschlange), die erforderlich sind, um es Benutzern zu ermöglichen, Anrufe innerhalb und außerhalb des Systems durchzuführen. In einem speziellen Betriebsbeispiel stellt, wenn ein Telefonapparat 200 eine Verbindung mit einem anderen Telefonapparat 200 herstellen will, die Vermittlung 181 einen Verbindungspfad zwischen den zwei internen Leitungen her, was es dem Audio-Signal ermöglicht, zwischen den zwei Telefonapparaten 200 übertragen zu werden. Die gleiche Funktion kann auch zwischen einem internen Telefonapparat 200 und einem Endpunkt innerhalb des PSTN 202 ausgeführt werden.
Die Vermittlung 181 hat zwei Hauptkomponenten, nämlich einen Steuerprozessor oder einfach eine Steuerung 184, und eine Vermittlungsstruktur 182. Die Steuerung 184 empfängt Steuersignale und realisiert die Logik, die erforderlich ist, um die Betriebsweise der Vermittlungsstruktur 182 derart zu steuern, dass die grundlegenden Telefonie-Funktionen bereitgestellt werden. Weiterhin enthält sie eine Logik zur Bereitstellung eines gewissen Grades von Steuerung über den digitalen Signalprozessor 186, wie dies weiter unten beschrieben wird. Die Vermittlungsstruktur 182 ist lediglich eine Signal-Weglenkungs-Matrix, die auf von der Steuerung 184 über die Steuersignal-Verbindung 124 abgegebene Steuersignale anspricht, um ein Datensignal, wie z. B. ein Audiosignal, an das gewünschte Ziel zu lenken. In einem speziellen Beispiel ist die Vermittlung 181 eine Zeitlagen-Vermittlung. Es ist zu erkennen, dass andere Arten von Vermittlungen verwendet werden können, ohne von dem Grundgedanken der Erfindung abzuweichen. Es wird hier als nicht erforderlich angesehen, die Struktur und die Betiebsweise der Vermittlung 181 mit weiteren Einzelheiten zu beschreiben, weil diese Komponente für den Fachmann gut bekannt ist. In einem speziellen Beispiel kann ein digitaler Signalverarbeitungs-Hardware-Chip als eine Plattform zum Aufbau der Vermittlung 181 verwendet werden.
Die Vermittlung 181 ist mit dem digitalen Signalprozessor 186 verbunden, der die Form eines Hardware-Chips aufweist, der in der Lage ist, Hochgeschwindigkeits-Manipulationen an einem Audio-Signal auszuführen. Ein digitaler Signalprozessor, der sich als geeignet herausgestellt hat, ist der Signalprozessor, der von der Firma Motorola in der DSP56XXX Produktfamilie hergestellt wird. Im Einzelnen ist der digitale Signalprozessor 186 mit der Vermittlungsstruktur 182 verbunden, um über die Datenverbindung 300 das Audio-Signal zu empfangen, an dem Hochgeschwindigkeits-Manipulationen auszuführen sind. Der digitale Signalprozessor 186 ist weiterhin mit der Steuerung 184 über eine Steuersignal-Verbindung 302 verbunden, um Steuerinformationen zu empfangen, insbesondere, welcher Dienst oder welche Funktion, die von dem digitalen Signalprozessor 186 bereitgestellt wird, auf das Audio-Signal angewandt werden soll. Im Einzelnen zeigt die Steuerung 184 dem digitalen Signalprozessor 186 über Steuersignale über die Steuersignal-Verbindung 302 die Art der Verarbeitung an, die an dem Audio-Signal erfolgen soll, entweder Sprachcodierung, Sprachdecodierung, Spracherkennung und andere Sprache bezogene Verarbeitungsoperationen.
Wie dies für den Fachmann gut bekannt ist, ist ein digitaler Signalprozessor in der Lage, Hochgeschwindigkeits-Echtzeit-Datenmanipulationen auszuführen. Der digitale Signalprozessor kann so programmiert werden, dass er eine weite Vielzahl von unterschiedlichen Operationen an einem Eingangssignal ausführt, das entweder digital oder analog ist. Der Signalprozessor 186, wie er in der Vorrichtung 100 verwendet wird, wird so programmiert, dass er die folgenden Dienste ausführt und anbietet, und zwar unter vielen anderen Möglichkeiten:

1. Sprach-Codierung/Decodierung;
2. Spracherkennung;
3. automatisierte Rufverteilung;
4. Integrierte Sprachantwort (Antworten an Benutzer);
5. Text-zu-Sprache-Umwandlung.

Die von dem digitalen Signalprozessor 186 als Ergebnis der DSP-Verarbeitung erzeugten Daten werden zu der Bus-Schnittstelle 188 über die Datenverbindung 304 übertragen. Die Bus-Schnittstelle 188 stellt den Kontaktpunkt zwischen der Adapter-Karte 180 und der Computervorrichtung 218 dar. Zusätzlich zu Datensignalen überträgt die Bus-Schnittstelle außerdem Steuersignale, insbesondere zu und von der Steuerung 184 über die Steuersignal-Verbindung 306.
Die Computer-Vorrichtung 218 ist auf einer Allzweck-Rechnerplattform aufgebaut und schließt eine CPU 216, einen Speicher 204 mit wahlfreiem Zugriff, ein Massenspeichergerät 206 in Form einer Festplatte oder eines Flash-Speichers und einen Bus 208 ein, der alle diese Bauteile verbindet und den Austausch von Daten- und Steuersignalen zwischen diesen ermöglicht. Vorzugsweise ist der Bus ein PCI- Bus. Eine Netzwerk-Schnittstellenadapter-Karte 210 ist mit dem Bus 208 verbunden und ermöglicht es, dass die Computer-Vorrichtung mit einem Netzwerk, wie z. B. einem Paket-vermittelten Netzwerk verbunden wird, das entsprechend unterschiedlicher Protokolle arbeiten kann. In diesem speziellen Beispiel kann ein Paket-vermitteltes Netzwerk so ausgelegt sein, dass es unter dem Ethernet-Protokoll, dem TCP/IP-Protokoll, dem Token-Ring-Protokoll oder irgendeiner anderen geeigneten Art von Protokoll arbeitet. Die Schnittstelle 188 der Adapter-Karte 180 ist mit dem Bus 208 verbunden und ermöglicht den Austausch von Steuer- und Datensignalen zwischen der Adapter-Karte 190 und der Computer-Vorrichtung 218.
Der Speicher 204 mit wahlfreiem Zugriff enthält im Betrieb Programmelemente, die von der CPU ausgeführt werden. Die Programmelemente fallen in zwei Kategorien, nämlich ein Betriebssystem 212 und eine Vielzahl von Anruf bezogenen Funktionseinheiten, die von der CPU ausgeführt werden. Die Anruf bezogenen Funktionseinheiten 204 stellen Anruf-bezogene Funktionen, wie die Aufzeichnung von Begrüßungen, die Spracherkennung und Sprachnachrichten bereit, um nur einige zu nennen. Bei einer bevorzugten Ausführungsform ist das Betriebssystem Windows NT^®, das es den Programmelementen 214 ermöglicht, in einer Mehrprogramm-Betriebsumgebung abzulaufen. Dies ermöglicht es den Programmelementen, parallel ausgeführt zu werden, und ermöglicht es weiterhin, dass mehrere Instanzen des gleichen Programmelementes existieren, wobei jede Instanz einem anderen Anruf zugeordnet ist, der aufgebaut wird oder der über die Vermittlung 181 in Betrieb ist. Obwohl der Block 204 (Speicher mit wahlfreiem Zugriff) eine Anzahl von aktivem Anruf bezogenen Funktionseinheiten 214 zeigt, ist es verständlich, dass der Speicher 204 lediglich die Programmelemente oder Teile hiervon enthält, die den Anrufbezogenen Funktionen zugeordnet sind, die derzeit aktiv sind. Wenn eine bestimmte Funktion aktiviert werden muss, wird der Code von dem Massenspeicher-Gerät 206 in den Speicher 204 mit wahlfreiem Zugriff kopiert, in dem die CPU 216 ihn ausführen kann.
Verschiedene Beispiele des Betriebs der Vorrichtung 100 werden nunmehr zur Erläuterung ihrer Funktionalität beschrieben.
Das erste Beispiel ist eine Situation, die die Aufzeichnung einer Begrüßung durch einen bestimmten Teilnehmer auf einem Endgerät 200 beinhaltet. Um das Begrüßungs-Aufzeichnungsmerkmal aufzurufen, gibt der Teilnehmer üblicherweise einen bestimmten Code auf der Tastatur des Endgerätes 200 ein. Der Tastaturcode wird von der Vermittlungs-Steuerung 184 als ein spezieller Tastaturcode erkannt, und als Ergebnis gibt die Vermittlung über die Steuersignal-Verbindung 306 und dann über die Schnittstelle 108 ein Steuersignal an die Computer-Vorrichtung 218 ab. Das Steuersignal ruft das Programmelement 214 auf, das die Begrüßungs-Aufzeichnung ausführt. Wenn das die Begrüßungs-Aufzeichnung ausführende Programmelement 214 noch nicht aktiv ist, beginnt dessen Ausführung, oder wenn es bereits aktiv ist, wird eine neue Instanz geschaffen, um diesen speziellen Anruf mit Diensten zu versorgen.
Das erste Ereignis während der Ausführung des Begrüßungs-Aufzeichnungs-Programmelementes 214 besteht darin, der Vermittlung 184 eine Mitteilung zu liefern, die dem Benutzer abgespielt wird, um den Benutzer aufzufordern, eine Begrüßung zu äußern. In diesem Beispiel wird die Mitteilung digitalisiert und auf dem Massenspeicher-Gerät 206 gespeichert. Das Begrüßung-Aufzeichnungs-Programmelement 214 bewirkt dann, dass die Audio-Datei, die die Mitteilung enthält, über die Schnittstelle zu der Vermittlung 181 übertragen wird. Die Audio-Daten werden über die Bus-Schnittstelle 188, über die digitale Verbindung 306 ausgesandt, werden von dem DSP 186 verarbeitet und dann an die Vermittlungsstruktur 182 gesandt, von der aus sie zu der Telefonleitung gelenkt werden, so dass die Ankündigung für den Benutzer abgespielt werden kann. In einem speziellen Beispiel ist die Audio-Datei, wie sie von der Computer-Vorrichtung 218 geliefert wird, in einem gut bekannten codierten Format. Die Verarbeitung des digitalen Signalsprozessors 186 besteht in der Decodierung der codierten Audio-Daten in ein Format (beispielsweise ein PCM-Format) derart, dass wenn das Signal auf die Leitung aufgeprägt wird, der Benutzer die Ankündigung hört. Als eine Variante wird die Audio-Datei in einem Format gespeichert, das dazu geeignet ist, auf die Leitung aufgeprägt zu werden, um eine Audio-Wiedergabe der Ankündigung zu erzeugen. In einem speziellen Beispiel der Realisierung wird das G.711 PCM-Format für die Audio-Datei verwendet.
Die Funktion der Vermittlungs-Steuerung 184 besteht darin, den digitalen Signalprozessor 186 anzuweisen, den richtigen Dienst an dem Audio-Signal auszuführen (Decodierung im Fall des Abspielens der Mitteilung), und weiterhin den Audio-Pfad durch die Vermittlungsstruktur 182 derart aufzubauen, dass die von dem digitalen Signalsprozessor 186 abgegebenen Audio-Daten an die richtige Leitung geliefert werden. Die Steuerung 184 führt diese Aufgabe durch Abgeben der erforderlichen Steuersignale über die Steuersignal-Verbindungen 302 und 124 aus. Die Steuerung 184 tauscht weiterhin Steuersignale mit dem Begrüßungs-Aufzeichnungs-Programmelement 214 über die Steuersignal-Verbindung 306 aus, um die Verarbeitung des Audio-Signals durch den digitalen Signalprozessor 186 und die abschließende Verteilung des DSP-verarbeiteten Signals (Abspielen der Ankündigung) mit der Ausführung des Programmelementes 214 zu synchronisieren. Dies heißt mit anderen Worten, dass die Steuerung 184 die DSP-Ressource genau dann zur Verfügung stellt, wenn das Programmelement 214 sie benötigt.
Nachdem die Ankündigung abgespielt wurde, gibt das Begrüßungs-Aufzeichnungs-Programmelement 214 ein weiteres Steuersignal an die Steuerung 184 ab, das anzeigt, dass es nunmehr bereit ist, Daten zur Verarbeitung anzunehmen. Als Antwort auf dieses Steuersignal gibt die Steuerung 184 örtliche Steuersignale über die Steuersignal-Verbindungen 124 und 302 derart ab, dass der Verbindungspfad des Audiosignals an dem digitalen Signalprozessor 186 gelenkt wird, und dass der letztere so eingestellt wird, dass er einen Sprachcodier-Dienst bereitstellt. Der Teilnehmer äußert die Begrüßung, und das von dem Mikrofon des Endgerätes 200 erzeugte Audio-Signal wird von der Vermittlungsstruktur 182 an den digitalen Signalprozessor 186 ausgesandt. Vorzugsweise besteht die Begrüßung im Wesentlichen aus dem Namen des Teilnehmers, beispielsweise „John Doe". In einem speziellen Realisierungsbeispiel kann diese Art der Begrüßung zur Erzeugung eines Audio-Signals verwendet werden, das dem Anrufer abgespielt wird und das vom Typ „[Teilnehmername] ist am Telefon" ist. Hier führt der digitale Signalprozessor 186 den Sprachcodierungsdienst aus, das heißt die Umwandlung des Audio-Signals, das sich in einem PCM-Format befindet, in eine kompaktere Version. Es erscheint hier nicht passend zu sein, mit weiteren Einzelheiten zu erläutern, wie diese Sprach- Codierung/Decodierung ausgeführt wird, weil derartige Manipulationen eines Audio-Signals dem Fachmann gut bekannt sind. Als Variante wird das Audio-Signal ohne jede Codierung gespeichert. In einem speziellen Realisierungsbeispiel wird das G.711-PCM-Format für das Audio-Signal verwendet. Die Verwendung dieses Audio-Signals ohne Codierung erfordert zusätzlichen Speicher zum Speichern des Audio-Signals und ermöglicht eine Vergrößerung der Präzision eines Spracherkennungsprozesses unter Verwendung des Audio-Signals für Spracherkennungszwecke. Das Audio-Signal wird dann an die Computervorrichtung 218 über die Datenverbindung 304 und die Bus-Schnittstelle 188 übertragen und in Form einer Datei von dem Begrüßungs-Aufzeichnungs-Programmelement 214 auf dem Massenspeichergerät 206 gespeichert. Der Datei wird eine Identifikationsnummer zugeordnet, die eine eindeutige Identifikation des Endgerätes ist, an dem die Aufzeichnung der Begrüßung durchgeführt wurde.
Es wird nunmehr ein zweites Beispiel beschrieben, bei dem eine Sprachmitteilung auf der Computer-Vorrichtung 218 gespeichert wird. Dieses Beispiel nimmt an, dass der Anruf von dem PSTN ausgeht und dass er an einen der Telefonapparate 200 gerichtet ist. Wenn der Telefonapparat nicht innerhalb einer vorgegebenen Anzahl von Ruftönen abgehoben wird, liefert die Vermittlung 184 ein Steuersignal, das die Aktivierung des Sprachnachricht-Programmelementes 214 hervorruft. Das Sprachnachricht-Programmelement 214 lenkt die die Begrüßung enthaltende Datei von dem Massenspeichergerät 206, die von der Vermittlung 184 abgespielt wird, auf die Leitung, und informiert den Anrufer, dass er oder sie in eine Sprachnachricht eintritt. Das Abspielen der Begrüßung wird in der gleichen Weise ausgeführt, wie dies weiter oben in Verbindung mit dem Begrüßungs-Aufzeichnungsbeispiel beschrieben wurde. Nachdem die Begrüßung abgespielt wurde, gibt das Sprachnachricht-Programmelement 214 ein weiteres Steuersignal an die Steuerung 184 ab, und als Antwort auf dieses Steuersignal lenkt das letztere den Audio-Pfad von dem PSTN an den digitalen Signalprozessor 186 und stellt den digitalen Signalprozessor 186 derart ein, dass dieser einen Sprachcodierdienst ausführt, wenn dies passend ist. Die ankommenden Audio-Daten werden dann in ein geeignetes Format codiert und über die Schnittstelle 188 zur Speicherung auf dem Massenspeichergerät 206 unter der Steuerung des Sprachnachricht-Programmelementes 214 weitergeleitet.
Es wird nunmehr ein drittes Beispiel gegeben, das den Fall eines ankommenden externer Anruf (ein Telefonanruf zwischen dem PSTN 202 und dem internen Apparat 200) erläutert, der Spracherkennungsdienste erfordert. Diese Art von Diensten ermöglicht es dem anrufenden Teilnehmer, den Namen des Teilnehmers zu äußern, den er oder sie anrufen möchte, und das PBX-Telefonsystem 100 erkennt den geäußerten Namen und stellt die Verbindung her. Wenn der externe Anruf ankommt, liefert die Vermittlung 184 (nach dem Abspielen einer geeigneten Ankündigung an den anrufenden Teilnehmer, die den anrufenden Teilnehmer einlädt, den Namen des Teilnehmers zu äußern, mit dem er oder sie verbunden werden möchte) über die Steuersignal-Verbindung 306 und dann über die Schnittstelle 188 ein Steuersignal an die Computer-Vorrichtung 218, das das Programmelement 214 aufruft, das die Spracherkennungsdienste ausführt. Wenn das Programmelement 214, das die Spracherkennungsdienste ausführt, noch nicht gestartet wurde, beginnt dessen Ausführung, oder wenn es bereits gestartet ist, so wird eine neue Instanz geschaffen, um diesen speziellen Anruf mit Diensten zu versorgen.
Das Spracherkennungs-Programmelement 214 gibt ein Steuersignal an die Steuerung 184 ab, das anzeigt, dass es nunmehr bereit ist, Daten zur Verarbeitung zu empfangen. Als Antwort auf dieses Steuersignal gibt die Steuerung 184 örtliche Steuersignale über die Steuersignal-Verbindungen 124 und 302 derart ab, dass der Verbindungspfad des Audio-Signals zu dem digitalen Signalprozessor 186 gelenkt wird und der letztere so eingestellt wird, dass er einen Spracherkennungsdienst bereitstellt. Der angerufene Teilnehmer spricht den Namen des Teilnehmers, den er oder sie anrufen möchte, und dieses Audio-Signal wird von der Vermittlungsstruktur 182 an den digitalen Signalsprozessor 186 ausgesandt. Hier führt der digitale Signalprozessor 186 den Kern-Spracherkennungsdienst aus, der eine gesprochene Äußerung in eine Transskription umsetzen soll. Diese Transskription wird dann an die Computer-Vorrichtung 218 über die Datenverbindung 304 und die Bus-Schnittstelle 188 weitergeleitet, so dass das Spracherkennungs-Programmelement 214 sie verarbeiten kann. Diese Verarbeitung beinhaltet den Vergleich der Transskription mit einer Liste von Transskriptionen, die jeweiligen Vokabular-Posten in einem Spracherkennungs-Wörterbuch zugeordnet sind, um die bestmögliche Übereinstimmung zu finden. Die Vokabular-Posten stellen einzelne Teilnehmernamen dar. Die Liste von Transkriptionen und zugehörigen Vokabular-Posten wird in dem gleichen Massenspeichergerät 206 gehalten. Wenn die bestmögliche Übereinstimmung festgestellt wird, wird die Identifikationsnummer des Endgerätes 200, das diesen Vokabular-Posten zugeordnet ist, abgeleitet. Die abgeleitete Identifikationsnummer wird dann über die Schnittstelle 188 an die Vermittlung 181 übertragen. Die letztere stellt dann eine Verbindung zwischen dem externen Anruf über das PSTN und dem Endgerät her, das der Identifikationsnummer entspricht.
Ein viertes Beispiel erläutert einen Fall, bei dem die individuellen Begrüßungen, die auf dem Massenspeichergerät 206 gespeichert werden, verarbeitet werden, um das Spracherkennungs-Wörterbuch zu erzeugen, das von dem Spracherkennungs-Programmelement 214 verwendet wird, wie dies weiter oben beschrieben wurde. Die Erzeugung des Spracherkennungs-Wörterbuches wird vorzugsweise während solcher Zeitperioden ausgeführt, zu denen das PBX-Telefonsystem nicht zu sehr beschäftigt ist, wie z. B. in der Nacht oder während Wochenenden. Wenn das Programmelement 214, das das Spracherkennungs-Wörterbuch erzeugt, aufgerufen wird, holt das Programmelement 214 die einzelnen Begrüßungsdateien (durch Austausch der erforderlichen Steuersignale mit der Vermittlung 181) über den DSP 186, um eine Transkription zu schalten, die jeder Datei zugeordnet ist, die den Namen eines Teilnehmers darstellt. In einem speziellen Realisierungsbeispiel ist jede Transkription einem jeweiligen Vokabular-Posten zugeordnet, der den Namen des Teilnehmers anzeigt. Die resultierenden Daten werden dann an den Speicher 204 zur weiteren Verarbeitung durch das Programmelement 214 überführt. Diese weitere Verarbeitung beinhaltet die Schaffung eines eine Darstellung der Aussprache des Teilnehmernamens bildenden verdeckten Markov-Modells für jede Transkription, die einer Begrüßung zugeordnet ist. Als eine Variante wird eine Umsetzung zwischen den Teil-Worteinheiten, die die Transkriptionen fortsetzen und verdeckten Markov-Modellen in einem Satz von Modellen bereitgestellt, was es ermöglicht, dass eine einzelne Kopie der verdeckten Markov-Modelle gespeichert wird, wodurch der Speicherbedarf des Systems verringert wird. Es erscheint nicht erforderlich zu sein, weitere Einzelheiten der Verarbeitung anzugeben, weil dies in der Technik gut bekannt ist, um Transkriptionen zur Verwendung in einem Spracherkennungs- Wörterbuch auf der Grundlage von Sprache-Tokens zu erzeugen, die in diesem Fall die Begrüßungen sind.
Als eine Variante umfasst das Spracherkennungs-Wörterbuch weiterhin für eine Teilmenge der Vokabular-Posten, die jeweiligen Teilnehmernamen zugeordnet sind, Transskriptionen, die auf der Grundlage der orthografischen Darstellung des Teilnehmernamens abgeleitet sind. Bei dieser Variante wird ein Vokabular-Posten zu zumindest einer Transskription, die von der Begrüßungsmitteilung abgeleitet wird, und zumindest einer Transskription zugeordnet, die von der orthografischen Darstellung des Teilnehmernamens abgeleitet ist. Die von der orthografischen Darstellung des Teilnehmernamens abgeleitete Transskription kann von einer Text-zu-Phonem-Verarbeitungsvorrichtung oder anderen gut bekannten Geräten abgeleitet werden.
Das Spracherkennungs-Wörterbuch-Erzeugungs-Programmelement 214 erzeugt somit aus jeder Begrüßung eine Transskription, die einem Vokabular-Posten zugeordnet ist, das den Namen des Teilnehmers darstellt. Die Transskriptionen werden in einer Tabelle gespeichert, die von dem Spracherkennungs-Programmelement 214 verwendet wird, wenn die Spracherkennungsdienste verwendet werden, wie dies weiter oben beschrieben wurde. Vorzugsweise wird ein den jeweiligen Transskriptionen zugeordneter Vokabular-Posten ebenfalls in der Tabelle gespeichert. In Zuordnung zu jedem Vokabular-Posten in der Tabelle wird weiterhin die Identifikationsnummer des Endgerätes 200 gespeichert, die dem entsprechenden Teilnehmernamen zugeordnet ist. Dies ermöglicht es dem Spracherkennungs-Programmelement 214 zu wissen, zu welchem Endgerät 200 ein ankommender Anruf zu lenken ist, wenn es einen bestimmten Vokabular-Posten als die beste Übereinstimmung für die gesprochene Äußerung auswählt. Die Identifikationsnummern der Endgeräte stehen zur Verfügung, weil sie während der Verarbeitung von den Quellen-Begrüßungsdateien übertragen werden.
Obwohl die vorliegende Erfindung in beträchtlichen Einzelheiten unter Bezugnahme auf bestimmte bevorzugte Ausführungsformen beschrieben wurde, sind Änderungen und Verbesserungen möglich, ohne von dem Grundgedanken der Erfindung abzuweichen, wie sie hier in dem gesamten Dokument beschrieben wurde. Daher sollten lediglich die beigefügten Ansprüche und deren Äquivalente den Schutzumfang der Erfindung beschränken.

Claims

System zur Erzeugung eines Spracherkennungs-Wörterbuches, wobei das System Folgendes umfasst: a) einen Eingang zum Empfang eines Signals, das von Audio-Begrüßungen abgeleitet ist, die von Telefonsystem-Teilnehmern aufgezeichnet wurden, und die in hörbarer Weise von dem Telefonsystem abgespielt werden, bevor Anrufer Sprache-Mitteilungen an die Telefonsystem-Teilnehmer zurücklassen können, wobei jede Begrüßung einen Namen eines Teilnehmers des Telefonsystems anzeigt; und b) eine Verarbeitungseinheit, die mit dem Eingang gekoppelt ist, um das Signal zu verarbeiten, um ein Spracherkennungs-Wörterbuch zu erzeugen, wobei das Spracherkennungs-Wörterbuch Vokabular-Posten einschließt, die die Namen der Teilnehmer darstellen, die durch die Begrüßungen angezeigt sind, wobei das Spracherkennungs-Wörterbuch zur Verarbeitung durch ein Spracherkennungssystem geeignet ist, das versucht, eine gesprochene Äußerung mit einem Vokabular-Posten des Spracherkennungs-Wörterbuches in Übereinstimmung zu bringen.
System nach Anspruch 1, bei dem die Verarbeitungseinheit betreibbar ist, um die Begrüßungen zu verarbeiten, um Transskriptionen zu erzeugen, die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellen.
System nach Anspruch 2, bei dem die Verarbeitungseinheit betreibbar ist, um die Transskriptionen zu verarbeiten, die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellen, um entsprechende verdeckte Markov-Modelle der Namen der Teilnehmer abzuleiten.
System nach Anspruch 2, bei dem die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellenden Transskriptionen Transskriptionen eines ersten Typs sind, wobei die Verarbeitungseinheit weiterhin betreibbar ist, um eine orthografische Darstellung eines Vokabular-Postens zu verarbeiten, die dem Namen des Teilnehmers zugeordnet ist, um eine Transskription eines zweiten Typs abzuleiten.
Verfahren zur Erzeugung eines Spracherkennungs-Wörterbuches, mit den folgenden Schritten: a) Empfangen eines Signals, das von Audio-Begrüßungen abgeleitet ist, die von Telefonsystem-Teilnehmem aufgezeichnet wurden, und die in hörbarer Weise von dem Telefonsystem abgespielt werden, bevor Anrufer Sprachmitteilungen an die Telefonsystem-Teilnehmer hinterlassen können, wobei jede Begrüßung einen Namen eines Teilnehmers des Telefonsystems anzeigt; und b) Verarbeiten des Signals zur Erzeugung eines Spracherkennungs-Wörterbuches, wobei das Spracherkennungs-Wörterbuch Vokabular-Posten einschließt, die die Namen der Teilnehmer darstellen, die in den Begrüßungen angegeben sind, wobei das Spracherkennungs-Wörterbuch zur Verarbeitung durch ein Spracherkennungssystem geeignet ist, das versucht, eine Übereinstimmung zwischen einer gesprochenen Äußerung und einem Vokabular-Posten des Spracherkennungs-Wörterbuches herzustellen.
Verfahren nach Anspruch 5, das weiterhin die Verarbeitung der Begrüßungen zur Erzeugung von Transskriptionen umfasst, die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellen.
Verfahren nach Anspruch 6, das weiterhin die Verarbeitung von Transskriptionen umfasst, die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellen, um entsprechende verdeckte Markov-Modelle der Namen der Teilnehmer abzuleiten.
Verfahren nach Anspruch 5, bei dem die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellenden Transskriptionen Transskriptionen eines ersten Typs sind, wobei das Verfahren weiterhin die Verarbeitung einer orthografischen Darstellung eines Vokabular-Postens umfasst, der dem Namen eines Teilnehmers zugeordnet ist, um eine Transskription eines zweiten Typs abzuleiten.
System zur Erzeugung eines Spracherkennungs-Wörterbuches, das wobei das System Folgendes umfasst: a) Eingangseinrichtungen zum Empfang eines Signals, das von Audio-Begrüßungen abgeleitet ist, die von Telefonsystem-Teilnehmern aufgezeichnet wurden, die in hörbarer Weise von dem Telefonsystem abgespielt werden, bevor Anrufer Sprachnachrichten an die Telefonsystem-Teilnehmer hinterlassen können, wobei jede Begrüßung einen Namen eines Teilnehmers des Telefonsystems anzeigt; und b) Verarbeitungseinrichtungen zur Verarbeitung des Signals zur Erzeugung eines Spracherkennungs-Wörterbuches, wobei das Spracherkennungs-Wörterbuch Vokabular-Posten einschließt, die die Namen der Teilnehmer darstellen, die von den Begrüßungen angezeigt werden, wobei das Spracherkennungs-Wörterbuch zur Verarbeitung durch ein Spracherkennungssystem geeignet ist, das versucht, eine Übereinstimmung einer gesprochenen Äußerung mit einem Vokabular-Posten des Spracherkennungs-Wörterbuches festzustellen.
Telefonsystem mit Sprachnachrichten-Fähigkeit, das Folgendes umfasst: a) ein maschinenlesbares Speichermedium zum Speichern von Begrüßungen, wobei jede Begrüßung einem Sprach-Postfach eines Teilnehmers zugeordnet ist und abgespielt wird, bevor man einen Anrufer eine Sprachnachricht an den Telefonsystem-Teilnehmer hinterlassen lässt; b) eine Verarbeitungseinheit, die mit dem maschinenlesbaren Speichermedium gekoppelt ist, um das Signal zur Erzeugung eines Spracherkennungs-Wörterbuches zu verarbeiten, wobei das Spracherkennungs-Wörterbuch Vokabular-Posten einschließt, die die Namen der Teilnehmer darstellen, die in den Begrüßungen angezeigt sind, wobei das Spracherkennungs-Wörterbuch zur Verarbeitung durch ein Spracherkennungssystem geeignet ist, das versucht, eine Übereinstimmung einer gesprochenen Äußerung mit einem Vokabular-Posten des Spracherkennungs-Wörterbuches festzustellen; c) eine Sprachnachrichten-Einheit, die mit dem maschinenlesbaren Speichermedium gekoppelt ist und betreibbar ist, um in hörbarer Weise eine Begrüßung abzuspielen, wenn eine Bedingung existiert, die einen Versuch eines Anrufers anzeigt, eine Nachricht in einem Sprach-Postfach eines Teilnehmers zu hinterlassen.
Telefonsystem nach Anspruch 10, das eine Spracherkennungs-Einheit umfasst, die auf ein von einer gesprochenen Äußerung eines Anrufers abgeleitetes Signal anspricht, um das Spracherkennungs-Wörterbuch zu verarbeiten, um einen Vokabular-Posten abzuleiten, der möglicherweise mit der gesprochenen Äußerung übereinstimmt.
Telefonsystem nach Anspruch 11, bei dem die Spracherkennungs-Einheit betreibbar ist, um die Herstellung einer Anrufverbindung zwischen dem Anrufer und einem Teilnehmer des Telefonsystems zu bewirken, der dem Vokabular-Posten zugeordnet ist, von dem abgeleitet wird, dass er eine mögliche Übereinstimmung mit der gesprochenen Äußerung darstellt.
Telefonsystem nach Anspruch 10, bei dem die Verarbeitungseinheit zur Verarbeitung der Begrüßungen betreibbar ist, um Transskriptionen zu erzeugen, die die Namen der Teilnehmerin den jeweiligen Begrüßungen darstellen.
Telefonsystem nach Anspruch 13, bei dem die Verarbeitungseinheit betreibbar ist, um die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellende Transskription zu verarbeiten, um entsprechende verdeckte Markov-Modelle der Namen der Teilnehmer abzuleiten.
Telefonsystem nach Anspruch 13, bei dem die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellenden Transskriptionen Transskriptionen eines ersten Typs sind, wobei die Verarbeitungseinheit weiterhin betreibbar ist, um eine orthografische Darstellung eines Vokabular-Postens zu verarbeiten, der dem Namen des Teilnehmers zugeordnet ist, um eine Transskription eines zweiten Typs abzuleiten.
Telefonsystem nach Anspruch 10, bei dem das Telefonsystem eine Nebenstellenanlage (PBX) ist.