DE102012212185A1

DE102012212185A1 - Pflegen und Bereitstellen von Sprachmodellen

Info

Publication number: DE102012212185A1
Application number: DE102012212185A
Authority: DE
Inventors: Bin Jia; Ying Liu; E Feng Lu; Zhang Zhen; Jia Wu
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-07-25
Filing date: 2012-07-12
Publication date: 2013-01-31
Anticipated expiration: 2032-07-13
Also published as: GB201207210D0; GB2493413B; GB2493413A; US20130030802A1; US8938388B2; DE102012212185B4

Abstract

Ein Verfahren für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen umfasst das Speichern einer Vielzahl von Sprachmodellen, das Speichern von Metadaten für jedes gespeicherte Sprachmodell, das Empfangen einer Anfrage nach einem Sprachmodell von einer Quelle, wobei die Anfrage eine oder mehrere Bedingungen umfasst, das Ermitteln des Sprachmodells, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, das Bereitstellen des ermittelten Sprachmodells an die Quelle, das Empfangen eines verfeinerten Sprachmodells von der Quelle und das Speichern des verfeinerten Sprachmodells.

Description

Technisches Gebiet
Diese Erfindung bezieht sich auf ein Verfahren und System für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen. In einer Ausführungsform stellt die Erfindung ein Verfahren für das Aufbauen einer weit verbreiteten Sprachschnittstelle bereit.
Hintergrund
Spracherkennung wandelt gesprochene Wörter in Text um und bezieht sich dabei auf eine Technologie, die Sprache erkennen kann, ohne dass sie dabei auf einen einzigen Sprecher abzielt, wie z. B. ein Anrufsystem, das beliebige Stimmen erkennen kann. Spracherkennungsanwendungen beinhalten Sprachbenutzerschnittstellen wie z. B. Sprachanwahl, Anrufweiterleitung, Gerätesteuerung, Suche, Dateneingabe und die Erstellung strukturierter Dokumente. Um Sprache zu erkennen, benötigen Spracherkennungsmaschinen ein Sprachmodell, das zwei Arten von Dateien umfasst. Sie benötigen ein akustisches Modell, das erzeugt wird, indem Tonaufzeichnungen von Sprache und ihre Umschriften zu einer statistischen Repräsentation der Klänge zusammengestellt werden, die ein jedes Wort ausmachen. Sie benötigen zudem ein Sprachmodell oder eine Grammatikdatei. Ein Sprachmodell ist eine Datei, welche die Wahrscheinlichkeiten von Wortabfolgen enthält. Eine Grammatik ist eine sehr viel kleinere Datei, die Sätze von vordefinierten Wortkombinationen enthält.
Seit Anfang der 1970er Jahre fand bei einigen Anwendungen nach und nach eine Reifung der modernen Spracherkennungstechnologie von der serverbasierten hin zur mobilen Nutzung statt. Allerdings besteht ein erhebliches Hindernis für eine weit verbreitete Spracherkennungsanwendung darin, dass es keine systematische und wirtschaftliche Methodik gibt, um die Vorgänge des Erzeugens, Speicherns, Abfragens und Bereitstellens von Spracherkennungsmodellen gemäß den jeweiligen Bedingungen und nach Bedarf zu organisieren. Zwar gibt es durchaus Standards und Anwendungen wie die verteilte Spracherkennung (Distributed Speech Recognition, DSR) des Europäischen Instituts für Telekommunikationsnormen (ETSI), die versuchen, breit gefächerte Nutzungssituationen abzudecken. Allerdings beruhen sie unglücklicherweise auf spezifischen Infrastrukturen, ohne dass eine universelle Nutzung berücksichtigt wäre, und schränken die Art und Weise ein, wie Spracherkennungsmodelle verwendet werden, so dass die vorhandenen Ansätze nur in bestimmten Gebieten mit Erfolg einsetzbar sind. So kann die DSR des ETSI nur im Telefoniebereich verwendet werden, wobei Endpunkte lediglich als Spracheingabe-/Sprachausgabe-Einheiten dienen.
Daher besteht in der Technik ein Bedarf an der Lösung des oben genannten Problems.
Zusammenfassung der Erfindung
Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereitgestellt, welches das Speichern einer Vielzahl von Sprachmodellen, das Speichern von Metadaten für jedes gespeicherte Sprachmodell, das Empfangen einer Anfrage nach einem Sprachmodell von einer Quelle, wobei die Anfrage eine oder mehrere Bedingungen umfasst, das Ermitteln des Sprachmodells, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, das Bereitstellen des ermittelten Sprachmodells an die Quelle, das Empfangen eines verfeinerten Sprachmodells von der Quelle und das Speichern des verfeinerten Sprachmodells umfasst.
Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein System für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereitgestellt, das ein oder mehrere Speichereinheiten, die so aufgebaut sind, dass sie eine Vielzahl von Sprachmodellen und Metadaten für jedes gespeicherte Sprachmodell speichern, und eine Netzwerkschnittstelle umfasst, die mit der oder mit jeder Speichereinheit verbunden ist, auf die über eine externe Quelle zugegriffen werden kann und die so angeordnet ist, dass eine Anfrage nach einem Sprachmodell von einer Quelle empfangen wird, wobei die Anfrage eine oder mehrere Bedingungen umfasst, dass sie das Sprachmodell ermittelt, dessen Metadaten der/den bereitgestellten Bedingungen(en) am besten entsprechen, dass sie der Quelle das ermittelte Sprachmodell bereitstellt, dass sie ein verfeinertes Sprachmodell von der Quelle empfängt und dass sie das verfeinerte Sprachmodell in einer Speichereinheit speichert.
Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein Computerprogrammprodukt auf einem computerlesbaren Medium für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereitgestellt, wobei das Produkt Befehle für das Speichern einer Vielzahl von Sprachmodellen, das Speichern von Metadaten für jedes gespeicherte Sprachmodell, das Empfangen einer Anfrage nach einem Sprachmodell von einer Quelle, wobei die Anfrage eine oder mehrere Bedingungen umfasst, das Ermitteln des Sprachmodells, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, das Bereitstellen des ermittelten Sprachmodells an die Quelle, das Empfangen eines verfeinerten Sprachmodells von der Quelle und das Speichern des verfeinerten Sprachmodells umfasst.
Unter einem vierten Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogrammprodukt für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereit, wobei das Computerprogrammprodukt Folgendes umfasst:
ein computerlesbares Speichermedium, das von einer Verarbeitungsschaltung gelesen werden kann und Befehle zur Ausführung durch die Verarbeitungsschaltung speichert, um ein Verfahren gemäß einem der Schritte der Erfindung durchzuführen.
Unter einem weiteren Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogramm bereit, das auf einem computerlesbaren Medium gespeichert ist und in den internen Speicher eines digitalen Computers geladen werden kann, welches Softwarecode-Teile umfasst, die, wenn das Programm auf einem Computer ausgeführt wird, die Schritte des Verfahrens durchführen.
Unter einem weiteren Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogramm bereit, das auf einem computerlesbaren Medium gespeichert ist und in den internen Speicher eines digitalen Computers geladen werden kann, welches Softwarecode-Teile umfasst, die, wenn das Programm auf einem Computer ausgeführt wird, die Schritte des Verfahrens durchführen.
Aufgrund der Erfindung ist es möglich, ein Verfahren und System bereitzustellen, das Sprachmodelle für verschiedene Situationen speichert und das beste Modell einem Client bereitstellt, der die Suchanforderung bereitgestellt hat. Die verschiedenen Modelle können für unterschiedliche Situationen geeignet sein. Der Vorteil eines derartigen Verfahrens und Systems besteht darin, dass der Client ein Modell erhalten kann, das ohne sofortiges Trainieren am besten zu der momentanen Situation passt, und dass alle Sprachmodelle, die trainiert wurden, künftig für unterschiedliche Anfragen wiederverwendet werden können. Darüber hinaus können die Sprachmodelle auf rechenstarken Clients verfeinert und in ein zentrales Serversystem hochgeladen werden, um auf dieselbe Art und Weise gespeichert zu werden wie die auf dem Server trainierten Sprachmodelle.
Wenn ein Sprecher z. B. eine mobile Einheit an einen neuen Ort trägt, passt das durch die mobile Einheit an einem früheren Ort verfeinerte Spracherkennungsmodell nicht notwendigerweise gut zu dem neuen Ort. Bei dem verbesserten System kann die mobile Einheit die momentanen Modelle automatisch in Server hochladen und ein oder mehrere bessere Modelle von dem Server auf den Client herunterladen. Zusätzlich beschränkt das verbesserte System die anfordernde Einheit nicht darauf, nur eine Verbindung mit den bekannten Servern herzustellen. Die Einheit kann vielmehr in einem beliebigen Netzwerk suchen, um von einem zuvor unbekannten Server oder einer unbekannten Einheit das am besten passende Sprachmodell zu erhalten.
Bei einer Ausführungsform umfasst der Schritt des Speicherns des verfeinerten Sprachmodells das Ersetzen des ermittelten Sprachmodells durch das verfeinerte Sprachmodell. Das verfeinerte Sprachmodell wird von der Clienteinheit erneut in dem Serversystem empfangen und in die Datenbank mit Sprachmodellen aufgenommen, die von dem System gepflegt wird. Allerdings kann das empfangene verfeinerte Sprachmodell auch das ursprüngliche Sprachmodell ersetzen, das der Clienteinheit bereitgestellt wurde. So kann das verfeinerte Sprachmodell z. B. eine Verbesserung (durch Trainieren) eines bestehenden Sprachmodells sein, das für einen Benutzer und/oder eine Umgebung spezifisch ist, so dass das verbesserte Sprachmodell das bestehende Sprachmodell für die konkreten Metadaten dieses Sprachmodells ersetzen kann.
Das Verfahren und System kann so konfiguriert werden, dass die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die einen Benutzer an der Quelle bezeichnet, und dass die Metadaten für das ermittelte Sprachmodell den bezeichneten Benutzer angeben. Es können Sprachmodelle erzeugt werden, die spezifisch für einzelne Benutzer sind. Dies hat den Vorteil, dass, wenn sich der Benutzer an einem anderen Ort und in einer anderen Situation befindet, ein Sprachmodell, das für diesen Benutzer trainiert wurde, an dem zweiten Ort verwendet werden kann. So kann ein Benutzer z. B. sein Mobiltelefon verwenden, um Informationen zu seinem Bankkonto über eine Anwendung anzufordern, die Spracherkennungssoftware verwendet. Die Bank erzeugt eine Anfrage nach einem Sprachmodell, die während der Verwendung für diesen Benutzer verfeinert und dann in dem System gespeichert werden kann. Später kann sich der Benutzer z. B. in einem Bahnhof befinden und eine zweckgebundene Datenstation verwenden, um Zugfahrkarten zu kaufen. Die Datenstation verwendet Erkennungssoftware und erzeugt eine Anfrage nach einem Sprachmodell, die nun wiederum das zuvor definierte, für den Benutzer spezifische Sprachmodell zurückgibt.
Vorzugsweise umfasst das Verfahren ferner das Empfangen neuer Metadaten für das verfeinerte Sprachmodell von der Quelle und das Speichern der neuen Metadaten für das verfeinerte Sprachmodell. Das Verfahren und System kann so aufgebaut sein, dass die Clients, die verfeinerte Sprachmodelle zurückgeben, auch neue Metadaten oder Informationen zurückgeben können, welche die Erzeugung neuer Metadaten ermöglichen. Diese können dann mit dem verfeinerten Sprachmodell gespeichert werden, um sicherzustellen, dass die Kategorisierung und Speicherung von Sprachmodellen dahingehend wirksam ist, dass sie ermöglicht, als Reaktion auf künftige Anfragen das richtige Modell abzurufen.
Vorteilhafterweise umfasst die Anfrage nach einem Sprachmodell eine Bedingung, die eine Umgebung an der Quelle bezeichnet, die Metadaten für das ermittelte Sprachmodell geben die ermittelte Umgebung nicht genau an und das Speichern der neuen Metadaten für das verfeinerte Sprachmodell umfasst das genaue Angeben der ermittelten Umgebung. Das Verfahren und System kann so konfiguriert werden, dass, wenn ein Sprachmodell für eine Umgebung angefordert wird, die für das System neu ist und die daher von keinem vorhandenen Sprachmodell abgedeckt wird, dieses neue Sprachmodell unter Bezug auf die neue Umgebung gespeichert werden kann, wenn ein verfeinertes Sprachmodell letztlich durch die Clienteinheit zurückgegeben wird. So kann ein Benutzer z. B. in einem Bus reisen während er auf eine Anwendung zugreift, die Spracherkennung verwendet und die eine Anfrage nach einem Sprachmodell erzeugt. Das System verfügt unter Umständen über kein gespeichertes Sprachmodell, das sich auf eine derartige Umgebung anwenden ließe. Bei dem bereitgestellten Sprachmodell kann es sich um ein Modell handeln, das Metadaten enthält, welche angeben, dass es auf eine Umgebung wie beispielsweise einen fahrenden Zug anwendbar ist. Dieses Modell wird dann während der Verwendung verfeinert und kann, wenn es an den Server zurückgegeben wird, mit der „Busumgebung” als den geeigneten Metadaten gespeichert werden.
Kurze Beschreibung der Zeichnungen
Im Folgenden wird die vorliegende Erfindung lediglich beispielhaft und mit Bezug auf bevorzugte Ausführungsformen beschrieben, wie sie in den folgenden Figuren dargestellt werden:
1 ist eine schematische Darstellung eines Systems, das einen Server und mehrere Clients gemäß dem Stand der Technik umfasst und in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann;
2 ist eine ausführlichere schematische Darstellung des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann;
3 ist eine schematische Darstellung einer zweiten Ausführungsform des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann;
4 ist eine schematische Darstellung einer dritten Ausführungsform des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann;
5 ist eine schematische Darstellung einer vierten Ausführungsform des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann; und
die 6 und 7 sind weitere schematische Darstellungen des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann.
Ausführliche Beschreibung
1 zeigt ein System, das einen Server 10 und mehrere Clienteinheiten 12 umfasst. Der Zweck des Systems besteht darin, als Reaktion auf Anfragen, die von einzelnen Clienteinheiten 12 empfangen werden, den Clientmodellen 12 Sprachmodelle bereitzustellen. Das System stellt eine netzwerkbasierte Technologie bereit, um die universelle Verarbeitung von Spracherkennungsmodellen zu ermöglichen. Als Reaktion auf eine Anfrage nach einem Sprachmodell stellt das System einer Clienteinheit 12 im Allgemeinen ein Modell nach einem Grundsatz der größten Übereinstimmung anstelle nach einem Verfahren der exakten Übereinstimmung bereit.
Die grundlegenden Merkmale des Systems bestehen darin, dass die Sprachmodelle über ein beliebiges Netzwerk angefordert werden können, wobei entweder zentrale Server oder verteilte Endpunkte verwendet werden können, dass Anfrageregeln auf spezifischen Bedingungen beruhen und verwendet werden, um das am besten passende Sprachmodell zu ermitteln, dass Endpunkte auf Grundlage von spezifischen Bedingungen entscheiden, wie und wo Sprachmodelle erhalten werden und wo die Spracherkennung durchgeführt werden soll, und dass die Endpunkte die Sprachmodelle verfeinern und über das Netzwerk mit einer Beschreibung etwaiger spezifischer Bedingungen speichern können.
Bei der Spracherkennungsverarbeitung findet ein enormer, auf einer Sprachmodelldefinition beruhender Rechenaufwand statt, um die genaueste Textausgabe für die ursprüngliche Spracheingabe zu erzeugen. In dem Sprachnetzwerk aus 1 gibt es drei Arten von Endpunkten. Erstens besteht der zentralisierte Sprachserver 10 aus einer Gruppe von einzelnen Computern und kann eine große Anzahl verschiedener Sprachmodelle für unterschiedliche Endbenutzer, einschließlich allgemeiner Modelle und angepasster Modelle, speichern. Der Server 10 ist zudem in der Lage, eine große Anzahl von gleichzeitigen Spracherkennungsanforderungen zu verarbeiten.
Zweitens handelt es sich bei öffentlichen Endpunkten wie den Einheiten 12a und 12c um Endpunkte, die sich in einem öffentlichen/gemeinsam genutzten Bereich befinden und die sprecherunabhängige Sprachanwendungen verwenden. Anhand ihrer Stimme können mehrere Benutzer diese Art von Endpunkt steuern. So kann z. B. ein Bankautomat, der eine Sprachanwendung für den Zugriff auf Benutzerkonten beinhaltet, von jedermann (sprecherunabhängig) verwendet werden. Da solche Endpunkte für eine öffentliche/gemeinsame Verwendung vorgesehen sind, ist es nicht zweckmäßig, angepasste Sprachmodelle für jeden Benutzer zu speichern und anzuwenden, und üblicherweise stellt Datenschutz bei öffentlichen/gemeinsam genutzten Endpunkten kein Problem dar. Es gibt zwei Unterarten von öffentlichen Endpunkten, einen Endpunkt mit vollständiger Sprachverarbeitungsfähigkeit, der eine vollständige Spracherkennungsfähigkeit nutzen kann und die Spracherkennung in der Endpunkteinheit selbst ausführen könnte, und einen Endpunkt mit eingeschränkter Sprachverarbeitungsfähigkeit, der lediglich über eine eingeschränkte Spracherkennungsfähigkeit verfügt und z. B. nur eine Spracheingabe erfassen und mit dem zentralisierten Server 10 Daten austauschen kann, um ein Verarbeitungsergebnis zu erhalten.
Drittens gibt es private Endpunkte wie z. B. die Einheiten 12b und 12d. Ein privater Endpunkt verfügt über eine Netzwerkverbindung, auf die nur ein spezifischer Endbenutzer zugreifen kann, z. B. ein Mobiltelefon. Eine private Einheit kann Sprachmodelle für einen spezifischen Benutzer speichern. Wenn allerdings der Endpunkt eine wie auch immer geartete öffentliche Sprachanwendung erreichen muss, z. B. eine Bankdienstleistungsanwendung, muss die Einheit mit einem öffentlichen Endpunkt Daten austauschen, um die Anwendungsdaten zu erhalten. Ähnlich wie bei öffentlichen Endpunkten gibt es je nach der Rechenfähigkeit des Endpunkts auch zwei Unterarten von privaten Endpunkten. Dabei handelt es sich um einen Endpunkt mit Sprachverarbeitungsfähigkeit, der über eine vollständige Spracherkennungsfähigkeit verfügt und die Spracherkennung in der Endpunkteinheit selbst ausführen und private Sprachmodelldaten für den spezifischen Endbenutzer speichern kann, und um einen Endpunkt mit einer eingeschränkten Sprachverarbeitungsfähigkeit, der lediglich über eine eingeschränkte Spracherkennungsfähigkeit verfügt und private Sprachmodelldaten speichern kann, die erfasste Spracheingabe und das private Sprachmodell jedoch an den zentralisierten Server 10 senden muss, um das Verarbeitungsergebnis zu erhalten.
2 zeigt ein erstes Arbeitsszenario, welches das Verhalten einer privaten Endpunkteinheit 12b beschreibt, die mit dem zentralisierten Server 10 arbeitet. In diesem Szenario wird die private Endpunkteinheit 12b mit vollständiger Spracherkennungsfähigkeit bereitgestellt. Die private Endpunkteinheit 12b verfügt über eine vollständige Sprachverarbeitungsfähigkeit und kann die Spracherkennung in der Endpunkteinheit 12b selbst ausführen. Der Endpunkt 12b verfügt über sein eigenes Benutzersprachmodell 14b, das in der Einheit gespeichert ist. Die Einheit 12b verfügt über die Speicherkapazität, um das Sprachmodell 14b zu speichern, das möglicherweise zuvor heruntergeladen wurde. Die Einheit 12b durchsucht das Netzwerk und vergleicht das am besten passende Sprachmodell 14 aus dem Netzwerk mit dem zuvor in der Einheit 12b gespeicherten Modell. Das überlegene Modell 14 wird in der vorliegenden Spracherkennung verwendet. Falls kein Netzwerkzugriff verfügbar ist, kann die Einheit 12b auch in der Lage sein, das vorab gespeicherte Sprachmodell 14b zu verwenden.
In Schritt 1 (wie durch die in einem Kreis mit einem Pfeil abgebildeten Ziffern in den Figuren kenntlich gemacht) steuert ein Endbenutzer die private Endpunkteinheit 12b, um ein Benutzerüberprüfungsprofil 16 für das Anmelden bei dem zentralen Server 10 zu senden. Die Endpunkteinheit 12b überträgt eine Anfrage nach einem Sprachmodell 14. Die Anfrage umfasst eine oder mehrere Bedingungen. Wenn kein Sprachmodell 14 (wie z. B. ein benutzerspezifisches Modell 14b) genau für diese Endpunkteinheit 12b passt, gibt der zentrale Server 10 ein allgemeines Benutzersprachmodell 14a an die Endpunkteinheit 12b zurück. Die Endpunkteinheit 12b, die hier als ein Smartphone abgebildet ist, verfügt über eine Reihe unterschiedlicher Funktionen. Die Einheit 12b kann eine ASR-Fähigkeit (Automatic Speech Recognition, automatische Spracherkennung) durchführen und in der Lage sein, Sprach- und Umgebungsdaten zu sammeln, was der Spracherkennung und der Verfeinerung des Sprachmodells dient. Die Einheit 12b wird mit einer Anzeige bereitgestellt, um die verfügbaren Anforderungen und Vorgänge einer lokalen Einheit 20 (die hier ein Drucker ist) anzuzeigen. Die Einheit 12b ist in der Lage, Sprachmodelle 14 von dem Server 10 herunterzuladen und Sprachmodelle 14 in den Server 10 hochzuladen. Die Einheit 12b ist außerdem in der Lage, eine Datenübertragung mit geringer Reichweite zwischen der Endpunkteinheit 12b und der lokalen Einheit 20 bereitzustellen.
Bei dieser Ausführungsform wird davon ausgegangen, dass der Benutzer die private Endpunkteinheit 12b verwendet, um die lokale Einheit 20 zu steuern. In Schritt 2 stellt die private Endpunkteinheit 12b eine Verbindung mit der Einheit 20 her. In Schritt 3 gibt die Einheit 20 eine Menüliste in Textform an die Endpunkteinheit 12b zurück. In Schritt 4 spricht der Endbenutzer den Vorgang, und die private Endpunkteinheit 12b sendet das ASR-Ergebnis an die Einheit 20. In Schritt 5 führt die Einheit 20 die erforderlichen Aktionen durch, die der verbalen Eingabe des Endbenutzers entsprechen. Schließlich lädt in Schritt 6 die private Endpunkteinheit 12b alle etwaig erfassten Daten und ein verfeinertes Sprachmodell in den zentralen Server 10 hoch.
3 stellt ein Szenario einer privaten Endpunkteinheit 12d mit eingeschränkter Spracherkennungsfähigkeit wie beispielsweise ein herkömmliches Mobiltelefon dar. Bei diesem Szenario verfügt die private Endpunkteinheit 12d über eine eingeschränkte Sprachverarbeitungsfähigkeit, so dass die Einheit 12d nur eine Spracheingabe erfassen, die Sprache aber nicht erkennen kann. Wie bei der vorherigen Ausführungsform wird davon ausgegangen, dass der Benutzer die private Endpunkteinheit 12d verwendet, um eine lokale Einheit 20 zu steuern. In Schritt 1 steuert der Endbenutzer die private Endpunkteinheit 12d, um das Benutzerüberprüfungsprofil 16 für das Anmelden bei einem zentralen Server 10 zu senden. In Schritt 2 stellt die private Endpunkteinheit 12d eine Verbindung mit der lokalen Einheit 20 her. Die Einheit 20 gibt in Schritt 3 eine Menüliste in Textformat an die Endpunkteinheit 12d zurück.
In Schritt 4 spricht der Endbenutzer den Vorgang, und die private Endpunkteinheit 12d erfasst die Spracheingabe und sendet sie zur Erkennung an den zentralen Server 10. In Schritt 5 gibt der zentrale Server 10 das ASR-Ergebnis an die private Endpunkteinheit 12d zurück, und in Schritt 6 leitet die private Endpunkteinheit 12d das ASR-Ergebnis an die lokale Einheit 20 weiter. In Schritt 7 führt die Einheit 20 die erforderlichen Aktionen durch, die der verbalen Eingabe des Endbenutzers entsprechen. Schließlich lädt in Schritt 8 die private Endpunkteinheit 12d alle etwaig erfassten Daten in den zentralen Server 10 hoch.
Eine dritte Ausführungsform des Systems wird in 4 gezeigt. Diese Figur stellt ein Szenario dar, bei dem eine öffentliche Endpunkteinheit 12a wie beispielsweise ein Auszahlungsautomat einer Bank verwendet wird, die über eine vollständige Spracherkennungsfähigkeit verfügt. Bei diesem Szenario verfügt die öffentliche Endpunkteinheit 12a über eine vollständige Sprachverarbeitungsfähigkeit und kann die Spracherkennung in der Endpunkteinheit 12a selbst durchführen und verfügt über ein darin gespeichertes allgemeines Sprachmodell 14a. Der Endbenutzer verwendet ein Mobiltelefon 22 und besitzt darüber hinaus eine lokale Speichereinheit 24, hier eine Universal Serial Bus(USB)-Speichereinheit.
In Schritt 1 sendet der Endbenutzer sein Überprüfungsprofil 16 an den öffentlichen Endpunkt 12a unter Verwendung seines privaten Mobiltelefons 22 oder USB-Laufwerks 20. In Schritt 2 leitet die öffentliche Endpunkteinheit 12a das Benutzerüberprüfungsprofil 16 an den zentralen Server 10 weiter, um sich bei dem zentralen Server 10 anzumelden. In Schritt 3 gibt der zentrale Server 10 das Sprachmodell 14b an die öffentliche Endpunkteinheit 12a zurück, falls es ein spezifisches Benutzersprachmodell 14b gibt, das für diesen Benutzer passt. Andernfalls wird das allgemeine Benutzersprachmodell 14a in der öffentlichen Endpunkteinheit 12a verwendet.
In Schritt 4 spricht der Endbenutzer seine(n) Sprachbefehl(e) in den öffentlichen Endpunkt 12a. Der öffentliche Endpunkt 12a antwortet dem Benutzer in Schritt 5. Schließlich lädt die öffentliche Endpunkteinheit 12a in Schritt 6 etwaig erfasste Daten und das verfeinerte Modell für diesen Benutzer in den zentralen Server 10 hoch. Auf diese Weise kann der Benutzer mit einer lokalen Einheit interagieren, die dennoch Zugriff auf eine große Bandbreite verschiedener Sprachmodelle 14 hat. Wenn die Interaktion zwischen dem Benutzer und der öffentlichen Endpunkteinheit 12a zur Änderung des verwendeten Sprachmodells 14 führt, wird dieses verfeinerte Sprachmodell in den Server 10 hochgeladen und kann in der Zukunft entweder von diesem Benutzer oder von einem anderen Benutzer wiederverwendet werden.
5 zeigt eine vierte Ausführungsform des Systems, bei der es sich um ein Szenario handelt, das eine öffentliche Endpunkteinheit 12c mit eingeschränkter Spracherkennungsfähigkeit verwendet. Auch hierbei könnte es sich um einen Bankautomaten, jedoch mit verringerter Funktionalität handeln. Bei diesem Szenario verfügt die öffentliche Endpunkteinheit 12 über eine eingeschränkte Sprachverarbeitungsfähigkeit und kann so eine Spracheingabe nur erfassen, die Sprache aber nicht erkennen. In Schritt 1 sendet der Endbenutzer von seinem privaten Mobiltelefon 22 oder USB-Laufwerk 24 sein Überprüfungsprofil 16 an die öffentliche Endpunkteinheit 12c. In Schritt 2 leitet die öffentliche Endpunkteinheit 12c das Benutzerüberprüfungsprofil 16 an den zentralen Server 10 weiter, um sich bei dem zentralen Server 10 anzumelden. Falls es ein spezifisches Benutzersprachmodell 14b gibt, das für diesen Benutzer passt, verwendet der zentrale Server 10 dieses Sprachmodell 14b, um die Stimme dieses Benutzers zu erkennen. Andernfalls wird ein allgemeines Benutzersprachmodell 14a auf dem zentralen Server 10 verwendet.
In Schritt 3 spricht der Endbenutzer in die öffentliche Endpunkteinheit 12c, und in Schritt 4 erfasst die öffentliche Endpunkteinheit 12c die Spracheingabe und leitet die aufgezeichnete Sprache an den zentralen Server 10 weiter. In Schritt 5 gibt der zentrale Server 10 das ASR-Ergebnis in Textform an die öffentliche Endpunkteinheit 12c zurück. In Schritt 6 führt die öffentliche Endpunkteinheit 12c die notwendigen Aktionen als Reaktion auf die Benutzerbefehle durch. Schließlich lädt in Schritt 7 die öffentliche Endpunkteinheit 12c alle etwaig erfassten Daten und ein verfeinertes Sprachmodell für diesen Benutzer in den zentralen Server 10 hoch.
Die in dieser Figur gezeigte Ausführungsform stellt ebenso wie die anderen oben beschriebenen Ausführungsformen dem Server 10 ein verfeinertes Sprachmodell bereit, wenn das bei der Interaktion zwischen dem Benutzer und der Spracherkennungsfunktion verwendete Sprachmodell 14 geändert wurde. Mit Bezug auf das verfeinerte Sprachmodell 14 können Daten wie z. B. die Identität des Benutzers und/oder der Ort des Benutzers und/oder die örtlichen Bedingungen (Hintergrundgeräusche usw.) erfasst und mit dem verfeinerten Sprachmodell 14 dem Server 10 wieder bereitgestellt werden. Dies führt zu besseren Entsprechungen in der Zukunft, wenn weitere Anfragen getätigt werden, um ein Sprachmodell für eine spezifische Verwendung zu erhalten.
6 zeigt ein verallgemeinertes Verfahren für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen 14. Ein Benutzer 26 verfügt über seine eigene Clienteinheit 12, die mit dem Server 10 Daten austauscht. Der Benutzer verfügt über ein rechenstarkes Smartphone 12, das unter Verwendung einer geeigneten Maschine eine lokale Spracherkennung durchführen kann. Um die Spracherkennung durchzuführen, benötigt die Maschine ein Sprachmodell 14, und um ein derartiges Modell 14 zu erhalten, sendet die Maschine 12 eine Anfrage 28 nach einem Sprachmodell 14 an den Server 10, wobei die Anfrage 28 eine oder mehrere Bedingungen umfasst. Die Anfrage wird von einer Netzwerkschnittstelle 30 des Servers 10 empfangen.
Der Server 12 beinhaltet zudem eine Vielzahl von Speichereinheiten 32, die eine Vielzahl von Speichermodellen 14 sowie Metadaten für jedes gespeicherte Sprachmodell 14 speichern. Der Server 10 ermittelt das Sprachmodell 14, dessen Metadaten den in der Anfrage 28 enthaltenen bereitgestellten Bedingungen am besten entsprechen, und stellt das ausgewählte Sprachmodell 14 der Clienteinheit 12 bereit. Wie oben erläutert, können die Bedingungen in der Anfrage 28 einfach aus der Identität des Benutzers 28 bestehen, oder sie können kompliziertere Informationen zum Ort des Benutzers 28, seinem momentanen Transportmittel und zum Niveau des Hintergrundgeräuschs usw. beinhalten. Das der Anfrage 28 am besten entsprechende Sprachmodell wird an den Benutzer 26 zurückgegeben.
Danach interagiert der Benutzer 26 mit der Spracherkennungsmaschine, die das empfangene Sprachmodell 14 mit Bezug auf eine Anwendung verwendet, auf die der Benutzer 26 zugreift und die die Spracherkennung benötigt. Die Beschaffenheit der Interaktion zwischen dem Benutzer und der Maschine kann zu einer Anpassung des Sprachmodells 14 führen, wodurch das Modell auf eine herkömmliche Art und Weise wirksam trainiert wird. Wie in 7 gezeigt, wird das als ein verfeinertes Sprachmodell 14' bezeichnete Sprachmodell dann zurück an den Server 10 übertragen. Die Netzwerkschnittstelle 30 empfängt das verfeinerte Sprachmodell 14' von der Clienteinheit 12 und speichert das verfeinerte Sprachmodell 14' in einer Speichereinheit 32.

Claims

Verfahren für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen, das Folgendes umfasst: Speichern einer Vielzahl von Sprachmodellen, Speichern von Metadaten für jedes gespeicherte Sprachmodell, Empfangen einer Anfrage nach einem Sprachmodell von einer Quelle, wobei die Anfrage eine oder mehrere Bedingungen umfasst, Ermitteln des Sprachmodells, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, Bereitstellen des ermittelten Sprachmodells an die Quelle, Empfangen eines verfeinerten Sprachmodells von der Quelle, und Speichern des verfeinerten Sprachmodells.
Verfahren nach Anspruch 1, wobei der Schritt des Speicherns des verfeinerten Sprachmodells das Ersetzen des ermittelten Sprachmodells durch das verfeinerte Sprachmodell umfasst.
Verfahren nach Anspruch 1 oder 2, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die einen Benutzer an der Quelle bezeichnet und wobei die Metadaten für das ermittelte Sprachmodell den bezeichneten Benutzer angeben.
Verfahren nach Anspruch 1, 2 oder 3, das ferner das Empfangen neuer Metadaten für das verfeinerte Sprachmodell von der Quelle und das Speichern der neuen Metadaten für das verfeinerte Sprachmodell umfasst.
Verfahren nach Anspruch 4, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die eine Umgebung an der Quelle bezeichnet, wobei die Metadaten für das ermittelte Sprachmodell die ermittelte Umgebung nicht genau angeben, und wobei das Speichern der neuen Metadaten für das verfeinerte Sprachmodell das genaue Angeben der ermittelten Umgebung umfasst.
System für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen, wobei das System Folgendes umfasst: eine oder mehrere Speichereinheiten, die so aufgebaut sind, dass sie eine Vielzahl von Sprachmodellen und Metadaten für jedes gespeicherte Sprachmodell speichern, und eine Netzwerkschnittstelle, die mit der oder mit jeder Speichereinheit verbunden ist, auf die über eine externe Quelle zugegriffen werden kann und die so aufgebaut ist, dass sie: eine Anfrage nach einem Sprachmodell von einer Quelle empfängt, wobei die Anfrage eine oder mehrere Bedingungen umfasst, das Sprachmodell, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, ermittelt, das ermittelte Sprachmodell der Quelle bereitstellt, ein verfeinertes Sprachmodells von der Quelle empfängt und das verfeinerte Sprachmodell in einer Speichereinheit speichert.
System nach Anspruch 6, wobei die Netzwerkschnittstelle so aufgebaut ist, dass sie, wenn sie das verfeinerte Sprachmodell auf einer Speichereinheit speichert, das ermittelte Sprachmodell durch das verfeinerte Sprachmodell ersetzt.
System nach Anspruch 6 oder 7, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die einen Benutzer an der Quelle bezeichnet und wobei die Metadaten für das ermittelte Sprachmodell den bezeichneten Benutzer angeben.
System nach Anspruch 6, 7 oder 8, wobei die Netzwerkschnittstelle weiter so aufgebaut ist, dass sie neue Metadaten für das verfeinerte Sprachmodell von der Quelle empfängt und die neuen Metadaten für das verfeinerte Sprachmodell in einer Speichereinheit speichert.
System nach Anspruch 9, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die eine Umgebung an der Quelle bezeichnet, wobei die Metadaten für das ermittelte Sprachmodell die ermittelte Umgebung nicht genau angeben, und wobei das Speichern der neuen Metadaten für das verfeinerte Sprachmodell das genaue Angeben der ermittelten Umgebung umfasst.
Computerprogrammprodukt für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen, wobei das Computerprogrammprodukt Folgendes umfasst: ein computerlesbares Speichermedium, das von einer Verarbeitungsschaltung gelesen werden kann und Befehle zur Ausführung durch die Verarbeitungsschaltung speichert, um ein Verfahren gemäß einem beliebigen der Ansprüche 1 bis 5 durchzuführen.
Computerprogrammprodukt, das auf einem computerlesbaren Medium gespeichert ist und in den internen Speicher eines digitalen Computers geladen werden kann, welches Softwarecode-Teile umfasst, die, wenn das Programm auf einem Computer ausgeführt wird, das Verfahren nach einem beliebigen der Ansprüche 1 bis 5 durchführen.