DE60018349T2 - Erzeugung von einem Namenwörterbuch aus aufgezeichneten telephonischen Grüssen für die Spracherkennung - Google Patents
Erzeugung von einem Namenwörterbuch aus aufgezeichneten telephonischen Grüssen für die Spracherkennung Download PDFInfo
- Publication number
- DE60018349T2 DE60018349T2 DE60018349T DE60018349T DE60018349T2 DE 60018349 T2 DE60018349 T2 DE 60018349T2 DE 60018349 T DE60018349 T DE 60018349T DE 60018349 T DE60018349 T DE 60018349T DE 60018349 T2 DE60018349 T2 DE 60018349T2
- Authority
- DE
- Germany
- Prior art keywords
- speech recognition
- greetings
- recognition dictionary
- telephone system
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S379/00—Telephonic communications
- Y10S379/902—Auto-switch for an incoming voice data, or fax telephone call, e.g. comp/fax/tel
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S379/00—Telephonic communications
- Y10S379/907—Speech recognition via telephone system or component
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S379/00—Telephonic communications
- Y10S379/913—Person locator or person-specific
Description
- Gebiet der Erfindung
- Die Erfindung bezieht sich auf ein Verfahren und ein System zur Erzeugung eines Spracherkennungs-Wörterbuchs auf der Grundlage von Begrüßungs-Aufzeichnungen in einem Sprachnachrichten-System. Die Erfindung findet praktische Anwendungen in Telefonsystemen, wie z. B. privaten Nebenstellenanlagen- (PBX-) Systemen, die auch als „Reihensysteme" bezeichnet werden, die eine Sprachnachrichten-Fähigkeit und außerdem Spracherkennungsfunktionen haben, wie z. B. die Fähigkeit, einen Anrufer mit einem Teilnehmer des Telefonsystems (als angerufener Teilnehmer bezeichnet) durch Erkennen des Namens des Teilnehmers zu verbinden, der von dem anrufenden Teilnehmer geäußert wird.
- Hintergrund der Erfindung
- Die moderne Telefonie bringt den Verbrauchern einen breiten Bereich von verbesserten Funktionen über den grundlegenden Telefondienst hinaus, wie z. B. die Fähigkeit, eine Kommunikationsverbindung zwischen zwei entfernten Stellen in einem Netzwerk herzustellen. Spezielle Beispiele derartiger verbesserter anrufbezogener Funktionen schließen die Spracherkennung und die Sprachnachrichten-Übersendung ein, um nur einige zu nennen. Ein Beispiel von Spracherkennungsdiensten, die heute verfügbar sind, ist die Fähigkeit eines Telefonsystems, wie z. B. eines PBX-Systems, eine Verbindung herzustellen, wenn der Anrufer den Namen eines Teilnehmers äußert, den er/sie anrufen möchte. Das Telefonsystem verwendet eine Spracherkennungseinheit, die das von der gesprochenen Äußerung abgeleitete Signal verarbeitet und dann versucht, eine Übereinstimmung dieser Äußerung mit Vokabular-Posten in einem Spracherkennungs-Wörterbuch zu finden. Die Vokabular-Posten in dem Spracherkennungs-Wörterbuch sind Darstellungen der Namen der Teilnehmer, die von dem Telefonsystem mit Diensten versorgt werden. Wenn die Spracherkennungseinheit die beste Übereinstimmung mit der gesprochenen Äußerung findet, wird die Verbindung mit dem Teilnehmer, die dem gewählten Vokabular-Posten zugeordnet ist, entweder unmittelbar oder nach Abschluss eines Bestätigungsdialogs mit dem Anrufer hergestellt.
- Während der Inbetriebssetzungsphase des Telefonsystems wird das Spracherkennungs-Wörterbuch aufgebaut. Wie dies in der Veroffentlichung „Name dialling using final user defined vocabularies in mobile (GSM and TACS) and fixed telephone networks", von Elvira et al., ICASSP '98 beschrieben ist, verarbeiten Text-zu-Transskriptionseinheiten orthografische Darstellungen von Vokabular-Posten, die jeweiligen Teilnehmernamen zugeordnet sind. Für jeden Vokabular-Posten geben die Text-zu-Transskriptionseinheiten zumindest eine Transskription ab, die die Aussprache des Vokabular-Postens anzeigt. Jede Transskription besteht aus einer Vielzahl von Teilwort-Einheiten, wobei jede Teilwort-Einheit einem jeweiligen Sprachmodell zugeordnet ist. Typischerweise wird ein Sprecher-unabhängiger Modell-Satz verwendet, der auf der Grundlage einer Vielzahl von Sprechern trainiert wird.
- Ein Mangel des vorstehend beschriebenen Verfahrens besteht darin, dass Abweichungen der Aussprache der Teilnehmernamen von den Text-zu-Transskriptionseinheiten üblicherweise nicht vorgesehen sind. Dieses Problem ist insbesondere deutlich, wenn der Name eines Teilnehmers aus einer Ursprungssprache stammt, die von der abweicht, die durch die Text-zu-Transskriptionseinheiten unterstützt wird. In solchen Fällen kann die von den Text-zu-Transskriptionseinheiten abgeleitete Aussprache die tatsächliche Aussprache des Namens des Teilnehmers nicht richtig beschreiben. Entsprechend ist das Erkennungs-Betriebsverhalten für einen derartigen Namen schlecht.
- Vor diesem Hintergrund ist es klar zu erkennen, dass ein Bedarf in der Industrie besteht, ein verbessertes Verfahren und ein System zur Erzeugung eines Spracherkennungs-Wörterbuches zu schaffen, insbesondere zur Verwendung in dem Zusammenhang mit Telefonsystemen, die Benutzern Spracherkennungsdienste bieten.
- Zusammenfassung der Erfindung
- Die Erfindung ergibt ein System und ein Verfahren zur Erzeugung eines Spracherkennungs-Wörterbuches durch die Verwendung von Audio-Begrüßungen, die von Telefonsystem-Teilnehmem aufgezeichnet werden. Die Audio-Begrüßungen werden abgespielt, bevor Anrufer Mitteilungen in einem Sprachnachrichten-Postfach von Teilnehmern hinterlassen. Eine individuelle Begrüßung ist eine Audio-Information, die den Namen des Teilnehmers enthält. Diese Audio-Information kann verarbeitet werden, um eine Transskription zu erzeugen, die eine Aussprache eines Vokabular-Postens in einem Spracherkennungs-Wörterbuch anzeigt, der den Namen des Teilnehmers darstellt.
- In einem speziellen Beispiel der Realisierung ist die individuelle Begrüßung eine Identifikationsmitteilung, die im Wesentlichen aus einem Signal besteht, das den Namen des Teilnehmers darstellt. In vorteilhafter Weise ermöglicht es eine individuelle Begrüßung zur Erzeugung einer Transskription, die einem Vokabular-Posten zugeordnet ist, dem Spracherkennungs-Wörterbuch, eine Aussprache des Namens des Teilnehmers zu erfassen, wie er sich selbst aussprechen würde.
- In einem speziellen Realisierungsbeispiel ist das Telefonsystem ein PBX-System, das eine Spracherkennungseinheit einschließt, die in der Lage ist, eine Verbindung herzustellen, wenn der Anrufer den Namen des angerufenen Teilnehmers (angerufener Teilnehme) äußert. Der Spracherkennungsprozess wird auf der Grundlage des Spracherkennungs-Wörterbuches bewirkt, das die Vokabular-Posten enthält, die die Teilnehmernamen darstellen, die aus den individuellen Begrüßungen erzeugt wurden. Als eine Variante werden die Vokabular-Posten weiter zu alternativen Aussprachen der Vokabular-Posten zugeordnet, die auf der Grundlage der orthografischen Darstellung des Teilnehmernamens sowie von Text-zu-Phonem-Regeln abgeleitet wurden.
- Die vorliegende Erfindung ermöglicht es, in effizienter Weise ein Spracherkennungs-Wörterbuch zu erzeugen, wenn die einzelnen Begrüßungen zur Verfügung stehen.
- Die Erfindung erstreckt sich weiterhin auf ein Telefonsystem mit einer Sprachnachrichten-Fähigkeit, das ein Spracherkennungs-Wörterbuch aus den Audio-Begrüßungen der Teilnehmer erzeugen kann.
- Kurze Beschreibung der Zeichnungen
-
1 ist eine schematische Ansicht einer Computer-Vorrichtung, die die Funktionalität eines PBX-Telefonsystems gemäß der vorliegenden Erfindung realisiert; -
2 ist ein teilweise funktionelles und teilweise strukturelles Blockschaltbild des PBX-Telefonsystems, das in1 gezeigt ist (der Block180 weist einen Schlüssel für die Kommunikationspfade der Einheiten in diesem Block auf – durchgezogene Linien zeigen Datenverbindungsstrecken an, während gestrichelte Linien Steuersignal-Verbindungen zeigen. Dieser Schlüssel gilt lediglich für den Block180 und gilt nicht für andere Teile der Zeichnungen). - Ausführliche Beschreibung
- Unter Bezugnahme auf das spezielle Beispiel der Realisierung der Erfindung, die in
1 gezeigt ist, ist das darin gezeigte Gerät ein PBX- (Nebenstellen-) Telefonsystem100 mit einer Sprachnachrichten-Fähigkeit, das weiterhin Spracherkennungsdienste bietet, die in der Lage sind, eine Verbindung herzustellen, wenn ein Anrufer den Namen des angerufenen Teilnehmers (angerufener Teilnehmer) äußert. Das PBX-Telefonsystem100 schließt zwei Hauptkomponenten ein, nämlich eine Computervorrichtung in Form eines Servers und eine Adapter-Karte180 , die mit dem Bus auf der Hauptplatine110 des Servers verbunden ist, wie dies weiter unten ausführlicher beschrieben wird. In einem speziellen Beispiel ist die Adapter-Karte180 so ausgelegt, dass sie in einen freien Erweiterungsschlitz auf der Hauptplatine einsteckbar ist, um eine Verbindung mit dem Bus herzustellen.1 zeigt weiterhin eine Vielzahl von Kästen oberhalb der Adapter-Karte180 . Diese sind zu Vervollständigungszwecken gezeigt, und stellen die üblichen Komponenten dar, die sich in einem Server befinden, wie z. B. die Leistungsversorgung, Festplatten, Bandlaufwerke, Floppy-Laufwerke usw. Diese Bauteile sind allgemein erhältlich und werden aus diesem Grund hier nicht näher beschrieben. - Kurz gesagt stellt die Adapter-Karte
180 die Telefonie-Kernfunktionen sowie außerdem eine DSP-Ressource für Programmelemente bereit, die von dem Server ausgeführt werden, die Anruf-bezogene Funktionen ergeben. Eine derartige DSP-Ressource bietet ein oder mehrere DSP-Dienste, wie z. B. die Sprachcodierung, die Sprachdecodierung, die Spracherkennungs-Verarbeitung usw. -
2 zeigt ein Blockschaltbild des PBX-Telefonsystems100 . Die Adapter-Karte180 schließt vier Hauptkomponenten ein, nämlich eine Leitungsschnittstelle190 , eine Vermittlung181 , einen digitalen Signalprozessor (DSP)186 und eine Bus-Schnittstelle188 , die mit dem Bus des Servers verbunden ist. - Die Leitungsschnittstelle
180 stellt die physikalische Verbindung zwischen internen Telefonapparaten200 und der externen Welt her, in diesem Beispiel dem öffentlichen Fernsprech-Wählnetz (PSTN)202 . In dem gezeigten Beispiel ist die Leitungsschnittstelle190 mit zwei Telefonapparaten200 und mit einer einzigen externen Leitung verbunden, die zu dem PSTN202 führt. Es ist für den Fachmann klar zu erkennen, dass die Anzahl von Leitungen, mit der die Leitungsschnittstelle190 eine Verbindung herstellen kann, eine Frage der konstruktiven Auswahl ist und für die Betriebsweise der Erfindung nicht kritisch ist. - Die Leitungsschnittstelle
180 bildet ein bidirektionales Übertragungsmedium für Sprachesignale, die ein digitales oder analoges Format haben könnten, und sie steuert weiterhin Signale zwischen den Leitungen und der Vermittlung181 . Die Vermittlung181 ist eine Komponente, die die Telefonie-Kernfunktionen bereitstellt, wie z. B. eine grundlegende Anruf-Weglenkung und die zugehörige Anruf-Abwicklung (beispielsweise die Verwaltung des Überführens eines Anrufs in eine Warteschlange), die erforderlich sind, um es Benutzern zu ermöglichen, Anrufe innerhalb und außerhalb des Systems durchzuführen. In einem speziellen Betriebsbeispiel stellt, wenn ein Telefonapparat200 eine Verbindung mit einem anderen Telefonapparat200 herstellen will, die Vermittlung181 einen Verbindungspfad zwischen den zwei internen Leitungen her, was es dem Audio-Signal ermöglicht, zwischen den zwei Telefonapparaten200 übertragen zu werden. Die gleiche Funktion kann auch zwischen einem internen Telefonapparat200 und einem Endpunkt innerhalb des PSTN202 ausgeführt werden. - Die Vermittlung
181 hat zwei Hauptkomponenten, nämlich einen Steuerprozessor oder einfach eine Steuerung184 , und eine Vermittlungsstruktur182 . Die Steuerung184 empfängt Steuersignale und realisiert die Logik, die erforderlich ist, um die Betriebsweise der Vermittlungsstruktur182 derart zu steuern, dass die grundlegenden Telefonie-Funktionen bereitgestellt werden. Weiterhin enthält sie eine Logik zur Bereitstellung eines gewissen Grades von Steuerung über den digitalen Signalprozessor186 , wie dies weiter unten beschrieben wird. Die Vermittlungsstruktur182 ist lediglich eine Signal-Weglenkungs-Matrix, die auf von der Steuerung184 über die Steuersignal-Verbindung124 abgegebene Steuersignale anspricht, um ein Datensignal, wie z. B. ein Audiosignal, an das gewünschte Ziel zu lenken. In einem speziellen Beispiel ist die Vermittlung181 eine Zeitlagen-Vermittlung. Es ist zu erkennen, dass andere Arten von Vermittlungen verwendet werden können, ohne von dem Grundgedanken der Erfindung abzuweichen. Es wird hier als nicht erforderlich angesehen, die Struktur und die Betiebsweise der Vermittlung181 mit weiteren Einzelheiten zu beschreiben, weil diese Komponente für den Fachmann gut bekannt ist. In einem speziellen Beispiel kann ein digitaler Signalverarbeitungs-Hardware-Chip als eine Plattform zum Aufbau der Vermittlung181 verwendet werden. - Die Vermittlung
181 ist mit dem digitalen Signalprozessor186 verbunden, der die Form eines Hardware-Chips aufweist, der in der Lage ist, Hochgeschwindigkeits-Manipulationen an einem Audio-Signal auszuführen. Ein digitaler Signalprozessor, der sich als geeignet herausgestellt hat, ist der Signalprozessor, der von der Firma Motorola in der DSP56XXX Produktfamilie hergestellt wird. Im Einzelnen ist der digitale Signalprozessor186 mit der Vermittlungsstruktur182 verbunden, um über die Datenverbindung300 das Audio-Signal zu empfangen, an dem Hochgeschwindigkeits-Manipulationen auszuführen sind. Der digitale Signalprozessor186 ist weiterhin mit der Steuerung184 über eine Steuersignal-Verbindung302 verbunden, um Steuerinformationen zu empfangen, insbesondere, welcher Dienst oder welche Funktion, die von dem digitalen Signalprozessor186 bereitgestellt wird, auf das Audio-Signal angewandt werden soll. Im Einzelnen zeigt die Steuerung184 dem digitalen Signalprozessor186 über Steuersignale über die Steuersignal-Verbindung302 die Art der Verarbeitung an, die an dem Audio-Signal erfolgen soll, entweder Sprachcodierung, Sprachdecodierung, Spracherkennung und andere Sprache bezogene Verarbeitungsoperationen. - Wie dies für den Fachmann gut bekannt ist, ist ein digitaler Signalprozessor in der Lage, Hochgeschwindigkeits-Echtzeit-Datenmanipulationen auszuführen. Der digitale Signalprozessor kann so programmiert werden, dass er eine weite Vielzahl von unterschiedlichen Operationen an einem Eingangssignal ausführt, das entweder digital oder analog ist. Der Signalprozessor
186 , wie er in der Vorrichtung100 verwendet wird, wird so programmiert, dass er die folgenden Dienste ausführt und anbietet, und zwar unter vielen anderen Möglichkeiten: - 1. Sprach-Codierung/Decodierung;
- 2. Spracherkennung;
- 3. automatisierte Rufverteilung;
- 4. Integrierte Sprachantwort (Antworten an Benutzer);
- 5. Text-zu-Sprache-Umwandlung.
- Die von dem digitalen Signalprozessor
186 als Ergebnis der DSP-Verarbeitung erzeugten Daten werden zu der Bus-Schnittstelle188 über die Datenverbindung304 übertragen. Die Bus-Schnittstelle188 stellt den Kontaktpunkt zwischen der Adapter-Karte180 und der Computervorrichtung218 dar. Zusätzlich zu Datensignalen überträgt die Bus-Schnittstelle außerdem Steuersignale, insbesondere zu und von der Steuerung184 über die Steuersignal-Verbindung306 . - Die Computer-Vorrichtung
218 ist auf einer Allzweck-Rechnerplattform aufgebaut und schließt eine CPU216 , einen Speicher204 mit wahlfreiem Zugriff, ein Massenspeichergerät206 in Form einer Festplatte oder eines Flash-Speichers und einen Bus208 ein, der alle diese Bauteile verbindet und den Austausch von Daten- und Steuersignalen zwischen diesen ermöglicht. Vorzugsweise ist der Bus ein PCI- Bus. Eine Netzwerk-Schnittstellenadapter-Karte210 ist mit dem Bus208 verbunden und ermöglicht es, dass die Computer-Vorrichtung mit einem Netzwerk, wie z. B. einem Paket-vermittelten Netzwerk verbunden wird, das entsprechend unterschiedlicher Protokolle arbeiten kann. In diesem speziellen Beispiel kann ein Paket-vermitteltes Netzwerk so ausgelegt sein, dass es unter dem Ethernet-Protokoll, dem TCP/IP-Protokoll, dem Token-Ring-Protokoll oder irgendeiner anderen geeigneten Art von Protokoll arbeitet. Die Schnittstelle188 der Adapter-Karte180 ist mit dem Bus208 verbunden und ermöglicht den Austausch von Steuer- und Datensignalen zwischen der Adapter-Karte190 und der Computer-Vorrichtung218 . - Der Speicher
204 mit wahlfreiem Zugriff enthält im Betrieb Programmelemente, die von der CPU ausgeführt werden. Die Programmelemente fallen in zwei Kategorien, nämlich ein Betriebssystem212 und eine Vielzahl von Anruf bezogenen Funktionseinheiten, die von der CPU ausgeführt werden. Die Anruf bezogenen Funktionseinheiten204 stellen Anruf-bezogene Funktionen, wie die Aufzeichnung von Begrüßungen, die Spracherkennung und Sprachnachrichten bereit, um nur einige zu nennen. Bei einer bevorzugten Ausführungsform ist das Betriebssystem Windows NT®, das es den Programmelementen214 ermöglicht, in einer Mehrprogramm-Betriebsumgebung abzulaufen. Dies ermöglicht es den Programmelementen, parallel ausgeführt zu werden, und ermöglicht es weiterhin, dass mehrere Instanzen des gleichen Programmelementes existieren, wobei jede Instanz einem anderen Anruf zugeordnet ist, der aufgebaut wird oder der über die Vermittlung181 in Betrieb ist. Obwohl der Block204 (Speicher mit wahlfreiem Zugriff) eine Anzahl von aktivem Anruf bezogenen Funktionseinheiten214 zeigt, ist es verständlich, dass der Speicher204 lediglich die Programmelemente oder Teile hiervon enthält, die den Anrufbezogenen Funktionen zugeordnet sind, die derzeit aktiv sind. Wenn eine bestimmte Funktion aktiviert werden muss, wird der Code von dem Massenspeicher-Gerät206 in den Speicher204 mit wahlfreiem Zugriff kopiert, in dem die CPU216 ihn ausführen kann. - Verschiedene Beispiele des Betriebs der Vorrichtung
100 werden nunmehr zur Erläuterung ihrer Funktionalität beschrieben. - Das erste Beispiel ist eine Situation, die die Aufzeichnung einer Begrüßung durch einen bestimmten Teilnehmer auf einem Endgerät
200 beinhaltet. Um das Begrüßungs-Aufzeichnungsmerkmal aufzurufen, gibt der Teilnehmer üblicherweise einen bestimmten Code auf der Tastatur des Endgerätes200 ein. Der Tastaturcode wird von der Vermittlungs-Steuerung184 als ein spezieller Tastaturcode erkannt, und als Ergebnis gibt die Vermittlung über die Steuersignal-Verbindung306 und dann über die Schnittstelle108 ein Steuersignal an die Computer-Vorrichtung218 ab. Das Steuersignal ruft das Programmelement214 auf, das die Begrüßungs-Aufzeichnung ausführt. Wenn das die Begrüßungs-Aufzeichnung ausführende Programmelement214 noch nicht aktiv ist, beginnt dessen Ausführung, oder wenn es bereits aktiv ist, wird eine neue Instanz geschaffen, um diesen speziellen Anruf mit Diensten zu versorgen. - Das erste Ereignis während der Ausführung des Begrüßungs-Aufzeichnungs-Programmelementes
214 besteht darin, der Vermittlung184 eine Mitteilung zu liefern, die dem Benutzer abgespielt wird, um den Benutzer aufzufordern, eine Begrüßung zu äußern. In diesem Beispiel wird die Mitteilung digitalisiert und auf dem Massenspeicher-Gerät206 gespeichert. Das Begrüßung-Aufzeichnungs-Programmelement214 bewirkt dann, dass die Audio-Datei, die die Mitteilung enthält, über die Schnittstelle zu der Vermittlung181 übertragen wird. Die Audio-Daten werden über die Bus-Schnittstelle188 , über die digitale Verbindung306 ausgesandt, werden von dem DSP186 verarbeitet und dann an die Vermittlungsstruktur182 gesandt, von der aus sie zu der Telefonleitung gelenkt werden, so dass die Ankündigung für den Benutzer abgespielt werden kann. In einem speziellen Beispiel ist die Audio-Datei, wie sie von der Computer-Vorrichtung218 geliefert wird, in einem gut bekannten codierten Format. Die Verarbeitung des digitalen Signalsprozessors186 besteht in der Decodierung der codierten Audio-Daten in ein Format (beispielsweise ein PCM-Format) derart, dass wenn das Signal auf die Leitung aufgeprägt wird, der Benutzer die Ankündigung hört. Als eine Variante wird die Audio-Datei in einem Format gespeichert, das dazu geeignet ist, auf die Leitung aufgeprägt zu werden, um eine Audio-Wiedergabe der Ankündigung zu erzeugen. In einem speziellen Beispiel der Realisierung wird das G.711 PCM-Format für die Audio-Datei verwendet. - Die Funktion der Vermittlungs-Steuerung
184 besteht darin, den digitalen Signalprozessor186 anzuweisen, den richtigen Dienst an dem Audio-Signal auszuführen (Decodierung im Fall des Abspielens der Mitteilung), und weiterhin den Audio-Pfad durch die Vermittlungsstruktur182 derart aufzubauen, dass die von dem digitalen Signalsprozessor186 abgegebenen Audio-Daten an die richtige Leitung geliefert werden. Die Steuerung184 führt diese Aufgabe durch Abgeben der erforderlichen Steuersignale über die Steuersignal-Verbindungen302 und124 aus. Die Steuerung184 tauscht weiterhin Steuersignale mit dem Begrüßungs-Aufzeichnungs-Programmelement214 über die Steuersignal-Verbindung306 aus, um die Verarbeitung des Audio-Signals durch den digitalen Signalprozessor186 und die abschließende Verteilung des DSP-verarbeiteten Signals (Abspielen der Ankündigung) mit der Ausführung des Programmelementes214 zu synchronisieren. Dies heißt mit anderen Worten, dass die Steuerung184 die DSP-Ressource genau dann zur Verfügung stellt, wenn das Programmelement214 sie benötigt. - Nachdem die Ankündigung abgespielt wurde, gibt das Begrüßungs-Aufzeichnungs-Programmelement
214 ein weiteres Steuersignal an die Steuerung184 ab, das anzeigt, dass es nunmehr bereit ist, Daten zur Verarbeitung anzunehmen. Als Antwort auf dieses Steuersignal gibt die Steuerung184 örtliche Steuersignale über die Steuersignal-Verbindungen124 und302 derart ab, dass der Verbindungspfad des Audiosignals an dem digitalen Signalprozessor186 gelenkt wird, und dass der letztere so eingestellt wird, dass er einen Sprachcodier-Dienst bereitstellt. Der Teilnehmer äußert die Begrüßung, und das von dem Mikrofon des Endgerätes200 erzeugte Audio-Signal wird von der Vermittlungsstruktur182 an den digitalen Signalprozessor186 ausgesandt. Vorzugsweise besteht die Begrüßung im Wesentlichen aus dem Namen des Teilnehmers, beispielsweise „John Doe". In einem speziellen Realisierungsbeispiel kann diese Art der Begrüßung zur Erzeugung eines Audio-Signals verwendet werden, das dem Anrufer abgespielt wird und das vom Typ „[Teilnehmername] ist am Telefon" ist. Hier führt der digitale Signalprozessor186 den Sprachcodierungsdienst aus, das heißt die Umwandlung des Audio-Signals, das sich in einem PCM-Format befindet, in eine kompaktere Version. Es erscheint hier nicht passend zu sein, mit weiteren Einzelheiten zu erläutern, wie diese Sprach- Codierung/Decodierung ausgeführt wird, weil derartige Manipulationen eines Audio-Signals dem Fachmann gut bekannt sind. Als Variante wird das Audio-Signal ohne jede Codierung gespeichert. In einem speziellen Realisierungsbeispiel wird das G.711-PCM-Format für das Audio-Signal verwendet. Die Verwendung dieses Audio-Signals ohne Codierung erfordert zusätzlichen Speicher zum Speichern des Audio-Signals und ermöglicht eine Vergrößerung der Präzision eines Spracherkennungsprozesses unter Verwendung des Audio-Signals für Spracherkennungszwecke. Das Audio-Signal wird dann an die Computervorrichtung218 über die Datenverbindung304 und die Bus-Schnittstelle188 übertragen und in Form einer Datei von dem Begrüßungs-Aufzeichnungs-Programmelement214 auf dem Massenspeichergerät206 gespeichert. Der Datei wird eine Identifikationsnummer zugeordnet, die eine eindeutige Identifikation des Endgerätes ist, an dem die Aufzeichnung der Begrüßung durchgeführt wurde. - Es wird nunmehr ein zweites Beispiel beschrieben, bei dem eine Sprachmitteilung auf der Computer-Vorrichtung
218 gespeichert wird. Dieses Beispiel nimmt an, dass der Anruf von dem PSTN ausgeht und dass er an einen der Telefonapparate200 gerichtet ist. Wenn der Telefonapparat nicht innerhalb einer vorgegebenen Anzahl von Ruftönen abgehoben wird, liefert die Vermittlung184 ein Steuersignal, das die Aktivierung des Sprachnachricht-Programmelementes214 hervorruft. Das Sprachnachricht-Programmelement214 lenkt die die Begrüßung enthaltende Datei von dem Massenspeichergerät206 , die von der Vermittlung184 abgespielt wird, auf die Leitung, und informiert den Anrufer, dass er oder sie in eine Sprachnachricht eintritt. Das Abspielen der Begrüßung wird in der gleichen Weise ausgeführt, wie dies weiter oben in Verbindung mit dem Begrüßungs-Aufzeichnungsbeispiel beschrieben wurde. Nachdem die Begrüßung abgespielt wurde, gibt das Sprachnachricht-Programmelement214 ein weiteres Steuersignal an die Steuerung184 ab, und als Antwort auf dieses Steuersignal lenkt das letztere den Audio-Pfad von dem PSTN an den digitalen Signalprozessor186 und stellt den digitalen Signalprozessor186 derart ein, dass dieser einen Sprachcodierdienst ausführt, wenn dies passend ist. Die ankommenden Audio-Daten werden dann in ein geeignetes Format codiert und über die Schnittstelle188 zur Speicherung auf dem Massenspeichergerät206 unter der Steuerung des Sprachnachricht-Programmelementes214 weitergeleitet. - Es wird nunmehr ein drittes Beispiel gegeben, das den Fall eines ankommenden externer Anruf (ein Telefonanruf zwischen dem PSTN
202 und dem internen Apparat200 ) erläutert, der Spracherkennungsdienste erfordert. Diese Art von Diensten ermöglicht es dem anrufenden Teilnehmer, den Namen des Teilnehmers zu äußern, den er oder sie anrufen möchte, und das PBX-Telefonsystem100 erkennt den geäußerten Namen und stellt die Verbindung her. Wenn der externe Anruf ankommt, liefert die Vermittlung184 (nach dem Abspielen einer geeigneten Ankündigung an den anrufenden Teilnehmer, die den anrufenden Teilnehmer einlädt, den Namen des Teilnehmers zu äußern, mit dem er oder sie verbunden werden möchte) über die Steuersignal-Verbindung306 und dann über die Schnittstelle188 ein Steuersignal an die Computer-Vorrichtung218 , das das Programmelement214 aufruft, das die Spracherkennungsdienste ausführt. Wenn das Programmelement214 , das die Spracherkennungsdienste ausführt, noch nicht gestartet wurde, beginnt dessen Ausführung, oder wenn es bereits gestartet ist, so wird eine neue Instanz geschaffen, um diesen speziellen Anruf mit Diensten zu versorgen. - Das Spracherkennungs-Programmelement
214 gibt ein Steuersignal an die Steuerung184 ab, das anzeigt, dass es nunmehr bereit ist, Daten zur Verarbeitung zu empfangen. Als Antwort auf dieses Steuersignal gibt die Steuerung184 örtliche Steuersignale über die Steuersignal-Verbindungen124 und302 derart ab, dass der Verbindungspfad des Audio-Signals zu dem digitalen Signalprozessor186 gelenkt wird und der letztere so eingestellt wird, dass er einen Spracherkennungsdienst bereitstellt. Der angerufene Teilnehmer spricht den Namen des Teilnehmers, den er oder sie anrufen möchte, und dieses Audio-Signal wird von der Vermittlungsstruktur182 an den digitalen Signalsprozessor186 ausgesandt. Hier führt der digitale Signalprozessor186 den Kern-Spracherkennungsdienst aus, der eine gesprochene Äußerung in eine Transskription umsetzen soll. Diese Transskription wird dann an die Computer-Vorrichtung218 über die Datenverbindung304 und die Bus-Schnittstelle188 weitergeleitet, so dass das Spracherkennungs-Programmelement214 sie verarbeiten kann. Diese Verarbeitung beinhaltet den Vergleich der Transskription mit einer Liste von Transskriptionen, die jeweiligen Vokabular-Posten in einem Spracherkennungs-Wörterbuch zugeordnet sind, um die bestmögliche Übereinstimmung zu finden. Die Vokabular-Posten stellen einzelne Teilnehmernamen dar. Die Liste von Transkriptionen und zugehörigen Vokabular-Posten wird in dem gleichen Massenspeichergerät206 gehalten. Wenn die bestmögliche Übereinstimmung festgestellt wird, wird die Identifikationsnummer des Endgerätes200 , das diesen Vokabular-Posten zugeordnet ist, abgeleitet. Die abgeleitete Identifikationsnummer wird dann über die Schnittstelle188 an die Vermittlung181 übertragen. Die letztere stellt dann eine Verbindung zwischen dem externen Anruf über das PSTN und dem Endgerät her, das der Identifikationsnummer entspricht. - Ein viertes Beispiel erläutert einen Fall, bei dem die individuellen Begrüßungen, die auf dem Massenspeichergerät
206 gespeichert werden, verarbeitet werden, um das Spracherkennungs-Wörterbuch zu erzeugen, das von dem Spracherkennungs-Programmelement214 verwendet wird, wie dies weiter oben beschrieben wurde. Die Erzeugung des Spracherkennungs-Wörterbuches wird vorzugsweise während solcher Zeitperioden ausgeführt, zu denen das PBX-Telefonsystem nicht zu sehr beschäftigt ist, wie z. B. in der Nacht oder während Wochenenden. Wenn das Programmelement214 , das das Spracherkennungs-Wörterbuch erzeugt, aufgerufen wird, holt das Programmelement214 die einzelnen Begrüßungsdateien (durch Austausch der erforderlichen Steuersignale mit der Vermittlung181 ) über den DSP 186, um eine Transkription zu schalten, die jeder Datei zugeordnet ist, die den Namen eines Teilnehmers darstellt. In einem speziellen Realisierungsbeispiel ist jede Transkription einem jeweiligen Vokabular-Posten zugeordnet, der den Namen des Teilnehmers anzeigt. Die resultierenden Daten werden dann an den Speicher204 zur weiteren Verarbeitung durch das Programmelement214 überführt. Diese weitere Verarbeitung beinhaltet die Schaffung eines eine Darstellung der Aussprache des Teilnehmernamens bildenden verdeckten Markov-Modells für jede Transkription, die einer Begrüßung zugeordnet ist. Als eine Variante wird eine Umsetzung zwischen den Teil-Worteinheiten, die die Transkriptionen fortsetzen und verdeckten Markov-Modellen in einem Satz von Modellen bereitgestellt, was es ermöglicht, dass eine einzelne Kopie der verdeckten Markov-Modelle gespeichert wird, wodurch der Speicherbedarf des Systems verringert wird. Es erscheint nicht erforderlich zu sein, weitere Einzelheiten der Verarbeitung anzugeben, weil dies in der Technik gut bekannt ist, um Transkriptionen zur Verwendung in einem Spracherkennungs- Wörterbuch auf der Grundlage von Sprache-Tokens zu erzeugen, die in diesem Fall die Begrüßungen sind. - Als eine Variante umfasst das Spracherkennungs-Wörterbuch weiterhin für eine Teilmenge der Vokabular-Posten, die jeweiligen Teilnehmernamen zugeordnet sind, Transskriptionen, die auf der Grundlage der orthografischen Darstellung des Teilnehmernamens abgeleitet sind. Bei dieser Variante wird ein Vokabular-Posten zu zumindest einer Transskription, die von der Begrüßungsmitteilung abgeleitet wird, und zumindest einer Transskription zugeordnet, die von der orthografischen Darstellung des Teilnehmernamens abgeleitet ist. Die von der orthografischen Darstellung des Teilnehmernamens abgeleitete Transskription kann von einer Text-zu-Phonem-Verarbeitungsvorrichtung oder anderen gut bekannten Geräten abgeleitet werden.
- Das Spracherkennungs-Wörterbuch-Erzeugungs-Programmelement
214 erzeugt somit aus jeder Begrüßung eine Transskription, die einem Vokabular-Posten zugeordnet ist, das den Namen des Teilnehmers darstellt. Die Transskriptionen werden in einer Tabelle gespeichert, die von dem Spracherkennungs-Programmelement214 verwendet wird, wenn die Spracherkennungsdienste verwendet werden, wie dies weiter oben beschrieben wurde. Vorzugsweise wird ein den jeweiligen Transskriptionen zugeordneter Vokabular-Posten ebenfalls in der Tabelle gespeichert. In Zuordnung zu jedem Vokabular-Posten in der Tabelle wird weiterhin die Identifikationsnummer des Endgerätes200 gespeichert, die dem entsprechenden Teilnehmernamen zugeordnet ist. Dies ermöglicht es dem Spracherkennungs-Programmelement214 zu wissen, zu welchem Endgerät200 ein ankommender Anruf zu lenken ist, wenn es einen bestimmten Vokabular-Posten als die beste Übereinstimmung für die gesprochene Äußerung auswählt. Die Identifikationsnummern der Endgeräte stehen zur Verfügung, weil sie während der Verarbeitung von den Quellen-Begrüßungsdateien übertragen werden. - Obwohl die vorliegende Erfindung in beträchtlichen Einzelheiten unter Bezugnahme auf bestimmte bevorzugte Ausführungsformen beschrieben wurde, sind Änderungen und Verbesserungen möglich, ohne von dem Grundgedanken der Erfindung abzuweichen, wie sie hier in dem gesamten Dokument beschrieben wurde. Daher sollten lediglich die beigefügten Ansprüche und deren Äquivalente den Schutzumfang der Erfindung beschränken.
Claims (16)
- System zur Erzeugung eines Spracherkennungs-Wörterbuches, wobei das System Folgendes umfasst: a) einen Eingang zum Empfang eines Signals, das von Audio-Begrüßungen abgeleitet ist, die von Telefonsystem-Teilnehmern aufgezeichnet wurden, und die in hörbarer Weise von dem Telefonsystem abgespielt werden, bevor Anrufer Sprache-Mitteilungen an die Telefonsystem-Teilnehmer zurücklassen können, wobei jede Begrüßung einen Namen eines Teilnehmers des Telefonsystems anzeigt; und b) eine Verarbeitungseinheit, die mit dem Eingang gekoppelt ist, um das Signal zu verarbeiten, um ein Spracherkennungs-Wörterbuch zu erzeugen, wobei das Spracherkennungs-Wörterbuch Vokabular-Posten einschließt, die die Namen der Teilnehmer darstellen, die durch die Begrüßungen angezeigt sind, wobei das Spracherkennungs-Wörterbuch zur Verarbeitung durch ein Spracherkennungssystem geeignet ist, das versucht, eine gesprochene Äußerung mit einem Vokabular-Posten des Spracherkennungs-Wörterbuches in Übereinstimmung zu bringen.
- System nach Anspruch 1, bei dem die Verarbeitungseinheit betreibbar ist, um die Begrüßungen zu verarbeiten, um Transskriptionen zu erzeugen, die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellen.
- System nach Anspruch 2, bei dem die Verarbeitungseinheit betreibbar ist, um die Transskriptionen zu verarbeiten, die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellen, um entsprechende verdeckte Markov-Modelle der Namen der Teilnehmer abzuleiten.
- System nach Anspruch 2, bei dem die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellenden Transskriptionen Transskriptionen eines ersten Typs sind, wobei die Verarbeitungseinheit weiterhin betreibbar ist, um eine orthografische Darstellung eines Vokabular-Postens zu verarbeiten, die dem Namen des Teilnehmers zugeordnet ist, um eine Transskription eines zweiten Typs abzuleiten.
- Verfahren zur Erzeugung eines Spracherkennungs-Wörterbuches, mit den folgenden Schritten: a) Empfangen eines Signals, das von Audio-Begrüßungen abgeleitet ist, die von Telefonsystem-Teilnehmem aufgezeichnet wurden, und die in hörbarer Weise von dem Telefonsystem abgespielt werden, bevor Anrufer Sprachmitteilungen an die Telefonsystem-Teilnehmer hinterlassen können, wobei jede Begrüßung einen Namen eines Teilnehmers des Telefonsystems anzeigt; und b) Verarbeiten des Signals zur Erzeugung eines Spracherkennungs-Wörterbuches, wobei das Spracherkennungs-Wörterbuch Vokabular-Posten einschließt, die die Namen der Teilnehmer darstellen, die in den Begrüßungen angegeben sind, wobei das Spracherkennungs-Wörterbuch zur Verarbeitung durch ein Spracherkennungssystem geeignet ist, das versucht, eine Übereinstimmung zwischen einer gesprochenen Äußerung und einem Vokabular-Posten des Spracherkennungs-Wörterbuches herzustellen.
- Verfahren nach Anspruch 5, das weiterhin die Verarbeitung der Begrüßungen zur Erzeugung von Transskriptionen umfasst, die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellen.
- Verfahren nach Anspruch 6, das weiterhin die Verarbeitung von Transskriptionen umfasst, die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellen, um entsprechende verdeckte Markov-Modelle der Namen der Teilnehmer abzuleiten.
- Verfahren nach Anspruch 5, bei dem die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellenden Transskriptionen Transskriptionen eines ersten Typs sind, wobei das Verfahren weiterhin die Verarbeitung einer orthografischen Darstellung eines Vokabular-Postens umfasst, der dem Namen eines Teilnehmers zugeordnet ist, um eine Transskription eines zweiten Typs abzuleiten.
- System zur Erzeugung eines Spracherkennungs-Wörterbuches, das wobei das System Folgendes umfasst: a) Eingangseinrichtungen zum Empfang eines Signals, das von Audio-Begrüßungen abgeleitet ist, die von Telefonsystem-Teilnehmern aufgezeichnet wurden, die in hörbarer Weise von dem Telefonsystem abgespielt werden, bevor Anrufer Sprachnachrichten an die Telefonsystem-Teilnehmer hinterlassen können, wobei jede Begrüßung einen Namen eines Teilnehmers des Telefonsystems anzeigt; und b) Verarbeitungseinrichtungen zur Verarbeitung des Signals zur Erzeugung eines Spracherkennungs-Wörterbuches, wobei das Spracherkennungs-Wörterbuch Vokabular-Posten einschließt, die die Namen der Teilnehmer darstellen, die von den Begrüßungen angezeigt werden, wobei das Spracherkennungs-Wörterbuch zur Verarbeitung durch ein Spracherkennungssystem geeignet ist, das versucht, eine Übereinstimmung einer gesprochenen Äußerung mit einem Vokabular-Posten des Spracherkennungs-Wörterbuches festzustellen.
- Telefonsystem mit Sprachnachrichten-Fähigkeit, das Folgendes umfasst: a) ein maschinenlesbares Speichermedium zum Speichern von Begrüßungen, wobei jede Begrüßung einem Sprach-Postfach eines Teilnehmers zugeordnet ist und abgespielt wird, bevor man einen Anrufer eine Sprachnachricht an den Telefonsystem-Teilnehmer hinterlassen lässt; b) eine Verarbeitungseinheit, die mit dem maschinenlesbaren Speichermedium gekoppelt ist, um das Signal zur Erzeugung eines Spracherkennungs-Wörterbuches zu verarbeiten, wobei das Spracherkennungs-Wörterbuch Vokabular-Posten einschließt, die die Namen der Teilnehmer darstellen, die in den Begrüßungen angezeigt sind, wobei das Spracherkennungs-Wörterbuch zur Verarbeitung durch ein Spracherkennungssystem geeignet ist, das versucht, eine Übereinstimmung einer gesprochenen Äußerung mit einem Vokabular-Posten des Spracherkennungs-Wörterbuches festzustellen; c) eine Sprachnachrichten-Einheit, die mit dem maschinenlesbaren Speichermedium gekoppelt ist und betreibbar ist, um in hörbarer Weise eine Begrüßung abzuspielen, wenn eine Bedingung existiert, die einen Versuch eines Anrufers anzeigt, eine Nachricht in einem Sprach-Postfach eines Teilnehmers zu hinterlassen.
- Telefonsystem nach Anspruch 10, das eine Spracherkennungs-Einheit umfasst, die auf ein von einer gesprochenen Äußerung eines Anrufers abgeleitetes Signal anspricht, um das Spracherkennungs-Wörterbuch zu verarbeiten, um einen Vokabular-Posten abzuleiten, der möglicherweise mit der gesprochenen Äußerung übereinstimmt.
- Telefonsystem nach Anspruch 11, bei dem die Spracherkennungs-Einheit betreibbar ist, um die Herstellung einer Anrufverbindung zwischen dem Anrufer und einem Teilnehmer des Telefonsystems zu bewirken, der dem Vokabular-Posten zugeordnet ist, von dem abgeleitet wird, dass er eine mögliche Übereinstimmung mit der gesprochenen Äußerung darstellt.
- Telefonsystem nach Anspruch 10, bei dem die Verarbeitungseinheit zur Verarbeitung der Begrüßungen betreibbar ist, um Transskriptionen zu erzeugen, die die Namen der Teilnehmerin den jeweiligen Begrüßungen darstellen.
- Telefonsystem nach Anspruch 13, bei dem die Verarbeitungseinheit betreibbar ist, um die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellende Transskription zu verarbeiten, um entsprechende verdeckte Markov-Modelle der Namen der Teilnehmer abzuleiten.
- Telefonsystem nach Anspruch 13, bei dem die die Namen der Teilnehmer in den jeweiligen Begrüßungen darstellenden Transskriptionen Transskriptionen eines ersten Typs sind, wobei die Verarbeitungseinheit weiterhin betreibbar ist, um eine orthografische Darstellung eines Vokabular-Postens zu verarbeiten, der dem Namen des Teilnehmers zugeordnet ist, um eine Transskription eines zweiten Typs abzuleiten.
- Telefonsystem nach Anspruch 10, bei dem das Telefonsystem eine Nebenstellenanlage (PBX) ist.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US414855 | 1999-10-12 | ||
US09/414,855 US6397182B1 (en) | 1999-10-12 | 1999-10-12 | Method and system for generating a speech recognition dictionary based on greeting recordings in a voice messaging system |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60018349D1 DE60018349D1 (de) | 2005-04-07 |
DE60018349T2 true DE60018349T2 (de) | 2005-07-21 |
Family
ID=23643272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60018349T Expired - Lifetime DE60018349T2 (de) | 1999-10-12 | 2000-09-15 | Erzeugung von einem Namenwörterbuch aus aufgezeichneten telephonischen Grüssen für die Spracherkennung |
Country Status (4)
Country | Link |
---|---|
US (1) | US6397182B1 (de) |
EP (1) | EP1093114B1 (de) |
CA (1) | CA2317104A1 (de) |
DE (1) | DE60018349T2 (de) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2273660A1 (en) * | 1999-06-07 | 2000-12-07 | Nortel Networks Corporation | Adapter card implementing a time-shared digital signal processor |
US20070254682A1 (en) * | 2006-04-27 | 2007-11-01 | Benco David S | Method for determining if a caller is permitted to leave a message in a mailbox |
US9183834B2 (en) * | 2009-07-22 | 2015-11-10 | Cisco Technology, Inc. | Speech recognition tuning tool |
US9852382B2 (en) | 2010-05-14 | 2017-12-26 | Oracle International Corporation | Dynamic human workflow task assignment using business rules |
US9741006B2 (en) | 2010-05-14 | 2017-08-22 | Oracle International Corporation | System and method for providing complex access control in workflows |
US8819055B2 (en) | 2010-05-14 | 2014-08-26 | Oracle International Corporation | System and method for logical people groups |
US9589240B2 (en) * | 2010-05-14 | 2017-03-07 | Oracle International Corporation | System and method for flexible chaining of distinct workflow task instances in a business process execution language workflow |
US8868136B2 (en) | 2011-02-28 | 2014-10-21 | Nokia Corporation | Handling a voice communication request |
US20140074470A1 (en) * | 2012-09-11 | 2014-03-13 | Google Inc. | Phonetic pronunciation |
US8983836B2 (en) * | 2012-09-26 | 2015-03-17 | International Business Machines Corporation | Captioning using socially derived acoustic profiles |
US10037197B2 (en) | 2013-03-15 | 2018-07-31 | Oracle International Corporation | Flexible microinstruction system for constructing microprograms which execute tasks, gateways, and events of BPMN models |
US9240181B2 (en) * | 2013-08-20 | 2016-01-19 | Cisco Technology, Inc. | Automatic collection of speaker name pronunciations |
US10147417B2 (en) | 2016-10-03 | 2018-12-04 | Avaya Inc. | Electronic speech recognition name directory prognostication system by comparing a spoken name's packetized voice to stored phonemes |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5892814A (en) * | 1995-12-29 | 1999-04-06 | Northern Telecom Limited | Flexible, tapeless, personalized auto-attendant telephone |
US5822405A (en) * | 1996-09-16 | 1998-10-13 | Toshiba America Information Systems, Inc. | Automated retrieval of voice mail using speech recognition |
US5894504A (en) * | 1996-10-02 | 1999-04-13 | At&T | Advanced call waiting and messaging system |
GB2333416A (en) * | 1998-01-17 | 1999-07-21 | Ibm | Text and speech conversion in telephony network |
-
1999
- 1999-10-12 US US09/414,855 patent/US6397182B1/en not_active Expired - Lifetime
-
2000
- 2000-08-29 CA CA002317104A patent/CA2317104A1/en not_active Abandoned
- 2000-09-15 EP EP00650132A patent/EP1093114B1/de not_active Expired - Lifetime
- 2000-09-15 DE DE60018349T patent/DE60018349T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1093114B1 (de) | 2005-03-02 |
CA2317104A1 (en) | 2001-04-12 |
US6397182B1 (en) | 2002-05-28 |
EP1093114A3 (de) | 2001-06-27 |
DE60018349D1 (de) | 2005-04-07 |
EP1093114A2 (de) | 2001-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69839068T2 (de) | System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung | |
DE69633883T2 (de) | Verfahren zur automatischen Spracherkennung von willkürlichen gesprochenen Worten | |
DE69635015T2 (de) | Automatische vokabularerzeugung für auf einem telekommunikationsnetzwerk basierte sprachgesteuerte wahl | |
DE69333645T2 (de) | Sprachgesteuertes Kommunikationssystem mit gemeinsamen Teilnehmeridentifizierern | |
DE60214391T2 (de) | Erkennung von Ereignissen bei der Kommunikation mit mehreren Sprachkanälen | |
DE60305458T2 (de) | System und verfahren zur bereitstellung einer nachrichtengestützten kommunikationsinfrastruktur für einen automatisierten anrufzentralenbetrieb | |
DE69629873T2 (de) | Verfahren und Vorrichtung zum Steuern eines Telephons mittels Sprachbefehle | |
DE69732769T2 (de) | Einrichtung und verfahren zur verminderung der undurchschaubarkeit eines spracherkennungswortverzeichnisses und zur dynamischen selektion von akustischen modellen | |
DE60037647T2 (de) | Sprachgesteuerter beantworter für mobiltelefone | |
DE60018349T2 (de) | Erzeugung von einem Namenwörterbuch aus aufgezeichneten telephonischen Grüssen für die Spracherkennung | |
DE60118844T2 (de) | Sprachfilter zur Ersetzung von erkannten Worten einer Sprachmitteilung | |
DE60113644T2 (de) | Methode und System zur Verwaltung einer Datenbank in einem Kommunikationsnetz | |
EP1282296A2 (de) | Verfahren und Anordnung zum Aufbau einer Konferenzschaltung | |
EP1241600A1 (de) | Verfahren und Kommunikationssystem zur Generierung von Antwortmeldungen | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE19751123C1 (de) | Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen | |
EP0693845A2 (de) | Digitaler Telefonanrufbeantworter | |
WO1998012857A2 (de) | Verfahren zum einstellen von endgerätespezifischen parametern eines kommunikationsendgeräts | |
EP0589248A2 (de) | Verfahren und Anordnung zur Anzeige von Rufnummern an Fernmeldeendgeräten einer Fernmeldenebenstellenanlage | |
DE3229659A1 (de) | Verfahren zur uebermittlung von besonderen auftraegen in fernsprechvermittlungsanlagen, insbesondere in fernsprechnebenstellenanlagen | |
DE19953813A1 (de) | Verfahren zur Erstellung eines schriftlichen Telefongesprächprotokolls mit integrierter Spracherkennung | |
EP0822694B1 (de) | Bedienerführung eines Anrufbeantworters | |
EP0765100A2 (de) | Schnittstelleneinrichtung zur Verbindung eines Computers mit dem ISDN-Netz | |
EP1148756A1 (de) | Verfahren zur Abgabe von Daten in einem Telekommunikationssystem sowie Vermittlungszentrale | |
DE60026955T2 (de) | Akustische Identifizierung des Anrufers und des Angerufenes für mobiles Kommunikationsgerät |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
R081 | Change of applicant/patentee |
Ref document number: 1093114 Country of ref document: EP Owner name: RESEARCH IN MOTION LIMITED, CA Free format text: FORMER OWNER: NORTEL NETWORKS LTD., ST. LAURENT, CA Effective date: 20121206 |
|
R082 | Change of representative |
Ref document number: 1093114 Country of ref document: EP Representative=s name: WITTMANN HERNANDEZ PATENTANWAELTE, DE Effective date: 20121206 |