DE102012212185A1 - Pflegen und Bereitstellen von Sprachmodellen - Google Patents

Pflegen und Bereitstellen von Sprachmodellen Download PDF

Info

Publication number
DE102012212185A1
DE102012212185A1 DE102012212185A DE102012212185A DE102012212185A1 DE 102012212185 A1 DE102012212185 A1 DE 102012212185A1 DE 102012212185 A DE102012212185 A DE 102012212185A DE 102012212185 A DE102012212185 A DE 102012212185A DE 102012212185 A1 DE102012212185 A1 DE 102012212185A1
Authority
DE
Germany
Prior art keywords
language model
refined
source
metadata
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102012212185A
Other languages
English (en)
Other versions
DE102012212185B4 (de
Inventor
Bin Jia
Ying Liu
E Feng Lu
Zhang Zhen
Jia Wu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE102012212185A1 publication Critical patent/DE102012212185A1/de
Application granted granted Critical
Publication of DE102012212185B4 publication Critical patent/DE102012212185B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

Ein Verfahren für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen umfasst das Speichern einer Vielzahl von Sprachmodellen, das Speichern von Metadaten für jedes gespeicherte Sprachmodell, das Empfangen einer Anfrage nach einem Sprachmodell von einer Quelle, wobei die Anfrage eine oder mehrere Bedingungen umfasst, das Ermitteln des Sprachmodells, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, das Bereitstellen des ermittelten Sprachmodells an die Quelle, das Empfangen eines verfeinerten Sprachmodells von der Quelle und das Speichern des verfeinerten Sprachmodells.

Description

  • Technisches Gebiet
  • Diese Erfindung bezieht sich auf ein Verfahren und System für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen. In einer Ausführungsform stellt die Erfindung ein Verfahren für das Aufbauen einer weit verbreiteten Sprachschnittstelle bereit.
  • Hintergrund
  • Spracherkennung wandelt gesprochene Wörter in Text um und bezieht sich dabei auf eine Technologie, die Sprache erkennen kann, ohne dass sie dabei auf einen einzigen Sprecher abzielt, wie z. B. ein Anrufsystem, das beliebige Stimmen erkennen kann. Spracherkennungsanwendungen beinhalten Sprachbenutzerschnittstellen wie z. B. Sprachanwahl, Anrufweiterleitung, Gerätesteuerung, Suche, Dateneingabe und die Erstellung strukturierter Dokumente. Um Sprache zu erkennen, benötigen Spracherkennungsmaschinen ein Sprachmodell, das zwei Arten von Dateien umfasst. Sie benötigen ein akustisches Modell, das erzeugt wird, indem Tonaufzeichnungen von Sprache und ihre Umschriften zu einer statistischen Repräsentation der Klänge zusammengestellt werden, die ein jedes Wort ausmachen. Sie benötigen zudem ein Sprachmodell oder eine Grammatikdatei. Ein Sprachmodell ist eine Datei, welche die Wahrscheinlichkeiten von Wortabfolgen enthält. Eine Grammatik ist eine sehr viel kleinere Datei, die Sätze von vordefinierten Wortkombinationen enthält.
  • Seit Anfang der 1970er Jahre fand bei einigen Anwendungen nach und nach eine Reifung der modernen Spracherkennungstechnologie von der serverbasierten hin zur mobilen Nutzung statt. Allerdings besteht ein erhebliches Hindernis für eine weit verbreitete Spracherkennungsanwendung darin, dass es keine systematische und wirtschaftliche Methodik gibt, um die Vorgänge des Erzeugens, Speicherns, Abfragens und Bereitstellens von Spracherkennungsmodellen gemäß den jeweiligen Bedingungen und nach Bedarf zu organisieren. Zwar gibt es durchaus Standards und Anwendungen wie die verteilte Spracherkennung (Distributed Speech Recognition, DSR) des Europäischen Instituts für Telekommunikationsnormen (ETSI), die versuchen, breit gefächerte Nutzungssituationen abzudecken. Allerdings beruhen sie unglücklicherweise auf spezifischen Infrastrukturen, ohne dass eine universelle Nutzung berücksichtigt wäre, und schränken die Art und Weise ein, wie Spracherkennungsmodelle verwendet werden, so dass die vorhandenen Ansätze nur in bestimmten Gebieten mit Erfolg einsetzbar sind. So kann die DSR des ETSI nur im Telefoniebereich verwendet werden, wobei Endpunkte lediglich als Spracheingabe-/Sprachausgabe-Einheiten dienen.
  • Daher besteht in der Technik ein Bedarf an der Lösung des oben genannten Problems.
  • Zusammenfassung der Erfindung
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereitgestellt, welches das Speichern einer Vielzahl von Sprachmodellen, das Speichern von Metadaten für jedes gespeicherte Sprachmodell, das Empfangen einer Anfrage nach einem Sprachmodell von einer Quelle, wobei die Anfrage eine oder mehrere Bedingungen umfasst, das Ermitteln des Sprachmodells, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, das Bereitstellen des ermittelten Sprachmodells an die Quelle, das Empfangen eines verfeinerten Sprachmodells von der Quelle und das Speichern des verfeinerten Sprachmodells umfasst.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein System für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereitgestellt, das ein oder mehrere Speichereinheiten, die so aufgebaut sind, dass sie eine Vielzahl von Sprachmodellen und Metadaten für jedes gespeicherte Sprachmodell speichern, und eine Netzwerkschnittstelle umfasst, die mit der oder mit jeder Speichereinheit verbunden ist, auf die über eine externe Quelle zugegriffen werden kann und die so angeordnet ist, dass eine Anfrage nach einem Sprachmodell von einer Quelle empfangen wird, wobei die Anfrage eine oder mehrere Bedingungen umfasst, dass sie das Sprachmodell ermittelt, dessen Metadaten der/den bereitgestellten Bedingungen(en) am besten entsprechen, dass sie der Quelle das ermittelte Sprachmodell bereitstellt, dass sie ein verfeinertes Sprachmodell von der Quelle empfängt und dass sie das verfeinerte Sprachmodell in einer Speichereinheit speichert.
  • Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein Computerprogrammprodukt auf einem computerlesbaren Medium für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereitgestellt, wobei das Produkt Befehle für das Speichern einer Vielzahl von Sprachmodellen, das Speichern von Metadaten für jedes gespeicherte Sprachmodell, das Empfangen einer Anfrage nach einem Sprachmodell von einer Quelle, wobei die Anfrage eine oder mehrere Bedingungen umfasst, das Ermitteln des Sprachmodells, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, das Bereitstellen des ermittelten Sprachmodells an die Quelle, das Empfangen eines verfeinerten Sprachmodells von der Quelle und das Speichern des verfeinerten Sprachmodells umfasst.
  • Unter einem vierten Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogrammprodukt für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen bereit, wobei das Computerprogrammprodukt Folgendes umfasst:
    ein computerlesbares Speichermedium, das von einer Verarbeitungsschaltung gelesen werden kann und Befehle zur Ausführung durch die Verarbeitungsschaltung speichert, um ein Verfahren gemäß einem der Schritte der Erfindung durchzuführen.
  • Unter einem weiteren Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogramm bereit, das auf einem computerlesbaren Medium gespeichert ist und in den internen Speicher eines digitalen Computers geladen werden kann, welches Softwarecode-Teile umfasst, die, wenn das Programm auf einem Computer ausgeführt wird, die Schritte des Verfahrens durchführen.
  • Unter einem weiteren Aspekt betrachtet, stellt die vorliegende Erfindung ein Computerprogramm bereit, das auf einem computerlesbaren Medium gespeichert ist und in den internen Speicher eines digitalen Computers geladen werden kann, welches Softwarecode-Teile umfasst, die, wenn das Programm auf einem Computer ausgeführt wird, die Schritte des Verfahrens durchführen.
  • Aufgrund der Erfindung ist es möglich, ein Verfahren und System bereitzustellen, das Sprachmodelle für verschiedene Situationen speichert und das beste Modell einem Client bereitstellt, der die Suchanforderung bereitgestellt hat. Die verschiedenen Modelle können für unterschiedliche Situationen geeignet sein. Der Vorteil eines derartigen Verfahrens und Systems besteht darin, dass der Client ein Modell erhalten kann, das ohne sofortiges Trainieren am besten zu der momentanen Situation passt, und dass alle Sprachmodelle, die trainiert wurden, künftig für unterschiedliche Anfragen wiederverwendet werden können. Darüber hinaus können die Sprachmodelle auf rechenstarken Clients verfeinert und in ein zentrales Serversystem hochgeladen werden, um auf dieselbe Art und Weise gespeichert zu werden wie die auf dem Server trainierten Sprachmodelle.
  • Wenn ein Sprecher z. B. eine mobile Einheit an einen neuen Ort trägt, passt das durch die mobile Einheit an einem früheren Ort verfeinerte Spracherkennungsmodell nicht notwendigerweise gut zu dem neuen Ort. Bei dem verbesserten System kann die mobile Einheit die momentanen Modelle automatisch in Server hochladen und ein oder mehrere bessere Modelle von dem Server auf den Client herunterladen. Zusätzlich beschränkt das verbesserte System die anfordernde Einheit nicht darauf, nur eine Verbindung mit den bekannten Servern herzustellen. Die Einheit kann vielmehr in einem beliebigen Netzwerk suchen, um von einem zuvor unbekannten Server oder einer unbekannten Einheit das am besten passende Sprachmodell zu erhalten.
  • Bei einer Ausführungsform umfasst der Schritt des Speicherns des verfeinerten Sprachmodells das Ersetzen des ermittelten Sprachmodells durch das verfeinerte Sprachmodell. Das verfeinerte Sprachmodell wird von der Clienteinheit erneut in dem Serversystem empfangen und in die Datenbank mit Sprachmodellen aufgenommen, die von dem System gepflegt wird. Allerdings kann das empfangene verfeinerte Sprachmodell auch das ursprüngliche Sprachmodell ersetzen, das der Clienteinheit bereitgestellt wurde. So kann das verfeinerte Sprachmodell z. B. eine Verbesserung (durch Trainieren) eines bestehenden Sprachmodells sein, das für einen Benutzer und/oder eine Umgebung spezifisch ist, so dass das verbesserte Sprachmodell das bestehende Sprachmodell für die konkreten Metadaten dieses Sprachmodells ersetzen kann.
  • Das Verfahren und System kann so konfiguriert werden, dass die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die einen Benutzer an der Quelle bezeichnet, und dass die Metadaten für das ermittelte Sprachmodell den bezeichneten Benutzer angeben. Es können Sprachmodelle erzeugt werden, die spezifisch für einzelne Benutzer sind. Dies hat den Vorteil, dass, wenn sich der Benutzer an einem anderen Ort und in einer anderen Situation befindet, ein Sprachmodell, das für diesen Benutzer trainiert wurde, an dem zweiten Ort verwendet werden kann. So kann ein Benutzer z. B. sein Mobiltelefon verwenden, um Informationen zu seinem Bankkonto über eine Anwendung anzufordern, die Spracherkennungssoftware verwendet. Die Bank erzeugt eine Anfrage nach einem Sprachmodell, die während der Verwendung für diesen Benutzer verfeinert und dann in dem System gespeichert werden kann. Später kann sich der Benutzer z. B. in einem Bahnhof befinden und eine zweckgebundene Datenstation verwenden, um Zugfahrkarten zu kaufen. Die Datenstation verwendet Erkennungssoftware und erzeugt eine Anfrage nach einem Sprachmodell, die nun wiederum das zuvor definierte, für den Benutzer spezifische Sprachmodell zurückgibt.
  • Vorzugsweise umfasst das Verfahren ferner das Empfangen neuer Metadaten für das verfeinerte Sprachmodell von der Quelle und das Speichern der neuen Metadaten für das verfeinerte Sprachmodell. Das Verfahren und System kann so aufgebaut sein, dass die Clients, die verfeinerte Sprachmodelle zurückgeben, auch neue Metadaten oder Informationen zurückgeben können, welche die Erzeugung neuer Metadaten ermöglichen. Diese können dann mit dem verfeinerten Sprachmodell gespeichert werden, um sicherzustellen, dass die Kategorisierung und Speicherung von Sprachmodellen dahingehend wirksam ist, dass sie ermöglicht, als Reaktion auf künftige Anfragen das richtige Modell abzurufen.
  • Vorteilhafterweise umfasst die Anfrage nach einem Sprachmodell eine Bedingung, die eine Umgebung an der Quelle bezeichnet, die Metadaten für das ermittelte Sprachmodell geben die ermittelte Umgebung nicht genau an und das Speichern der neuen Metadaten für das verfeinerte Sprachmodell umfasst das genaue Angeben der ermittelten Umgebung. Das Verfahren und System kann so konfiguriert werden, dass, wenn ein Sprachmodell für eine Umgebung angefordert wird, die für das System neu ist und die daher von keinem vorhandenen Sprachmodell abgedeckt wird, dieses neue Sprachmodell unter Bezug auf die neue Umgebung gespeichert werden kann, wenn ein verfeinertes Sprachmodell letztlich durch die Clienteinheit zurückgegeben wird. So kann ein Benutzer z. B. in einem Bus reisen während er auf eine Anwendung zugreift, die Spracherkennung verwendet und die eine Anfrage nach einem Sprachmodell erzeugt. Das System verfügt unter Umständen über kein gespeichertes Sprachmodell, das sich auf eine derartige Umgebung anwenden ließe. Bei dem bereitgestellten Sprachmodell kann es sich um ein Modell handeln, das Metadaten enthält, welche angeben, dass es auf eine Umgebung wie beispielsweise einen fahrenden Zug anwendbar ist. Dieses Modell wird dann während der Verwendung verfeinert und kann, wenn es an den Server zurückgegeben wird, mit der „Busumgebung” als den geeigneten Metadaten gespeichert werden.
  • Kurze Beschreibung der Zeichnungen
  • Im Folgenden wird die vorliegende Erfindung lediglich beispielhaft und mit Bezug auf bevorzugte Ausführungsformen beschrieben, wie sie in den folgenden Figuren dargestellt werden:
  • 1 ist eine schematische Darstellung eines Systems, das einen Server und mehrere Clients gemäß dem Stand der Technik umfasst und in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann;
  • 2 ist eine ausführlichere schematische Darstellung des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann;
  • 3 ist eine schematische Darstellung einer zweiten Ausführungsform des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann;
  • 4 ist eine schematische Darstellung einer dritten Ausführungsform des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann;
  • 5 ist eine schematische Darstellung einer vierten Ausführungsform des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann; und
  • die 6 und 7 sind weitere schematische Darstellungen des Systems, in dem eine bevorzugte Ausführungsform der vorliegenden Erfindung realisiert werden kann.
  • Ausführliche Beschreibung
  • 1 zeigt ein System, das einen Server 10 und mehrere Clienteinheiten 12 umfasst. Der Zweck des Systems besteht darin, als Reaktion auf Anfragen, die von einzelnen Clienteinheiten 12 empfangen werden, den Clientmodellen 12 Sprachmodelle bereitzustellen. Das System stellt eine netzwerkbasierte Technologie bereit, um die universelle Verarbeitung von Spracherkennungsmodellen zu ermöglichen. Als Reaktion auf eine Anfrage nach einem Sprachmodell stellt das System einer Clienteinheit 12 im Allgemeinen ein Modell nach einem Grundsatz der größten Übereinstimmung anstelle nach einem Verfahren der exakten Übereinstimmung bereit.
  • Die grundlegenden Merkmale des Systems bestehen darin, dass die Sprachmodelle über ein beliebiges Netzwerk angefordert werden können, wobei entweder zentrale Server oder verteilte Endpunkte verwendet werden können, dass Anfrageregeln auf spezifischen Bedingungen beruhen und verwendet werden, um das am besten passende Sprachmodell zu ermitteln, dass Endpunkte auf Grundlage von spezifischen Bedingungen entscheiden, wie und wo Sprachmodelle erhalten werden und wo die Spracherkennung durchgeführt werden soll, und dass die Endpunkte die Sprachmodelle verfeinern und über das Netzwerk mit einer Beschreibung etwaiger spezifischer Bedingungen speichern können.
  • Bei der Spracherkennungsverarbeitung findet ein enormer, auf einer Sprachmodelldefinition beruhender Rechenaufwand statt, um die genaueste Textausgabe für die ursprüngliche Spracheingabe zu erzeugen. In dem Sprachnetzwerk aus 1 gibt es drei Arten von Endpunkten. Erstens besteht der zentralisierte Sprachserver 10 aus einer Gruppe von einzelnen Computern und kann eine große Anzahl verschiedener Sprachmodelle für unterschiedliche Endbenutzer, einschließlich allgemeiner Modelle und angepasster Modelle, speichern. Der Server 10 ist zudem in der Lage, eine große Anzahl von gleichzeitigen Spracherkennungsanforderungen zu verarbeiten.
  • Zweitens handelt es sich bei öffentlichen Endpunkten wie den Einheiten 12a und 12c um Endpunkte, die sich in einem öffentlichen/gemeinsam genutzten Bereich befinden und die sprecherunabhängige Sprachanwendungen verwenden. Anhand ihrer Stimme können mehrere Benutzer diese Art von Endpunkt steuern. So kann z. B. ein Bankautomat, der eine Sprachanwendung für den Zugriff auf Benutzerkonten beinhaltet, von jedermann (sprecherunabhängig) verwendet werden. Da solche Endpunkte für eine öffentliche/gemeinsame Verwendung vorgesehen sind, ist es nicht zweckmäßig, angepasste Sprachmodelle für jeden Benutzer zu speichern und anzuwenden, und üblicherweise stellt Datenschutz bei öffentlichen/gemeinsam genutzten Endpunkten kein Problem dar. Es gibt zwei Unterarten von öffentlichen Endpunkten, einen Endpunkt mit vollständiger Sprachverarbeitungsfähigkeit, der eine vollständige Spracherkennungsfähigkeit nutzen kann und die Spracherkennung in der Endpunkteinheit selbst ausführen könnte, und einen Endpunkt mit eingeschränkter Sprachverarbeitungsfähigkeit, der lediglich über eine eingeschränkte Spracherkennungsfähigkeit verfügt und z. B. nur eine Spracheingabe erfassen und mit dem zentralisierten Server 10 Daten austauschen kann, um ein Verarbeitungsergebnis zu erhalten.
  • Drittens gibt es private Endpunkte wie z. B. die Einheiten 12b und 12d. Ein privater Endpunkt verfügt über eine Netzwerkverbindung, auf die nur ein spezifischer Endbenutzer zugreifen kann, z. B. ein Mobiltelefon. Eine private Einheit kann Sprachmodelle für einen spezifischen Benutzer speichern. Wenn allerdings der Endpunkt eine wie auch immer geartete öffentliche Sprachanwendung erreichen muss, z. B. eine Bankdienstleistungsanwendung, muss die Einheit mit einem öffentlichen Endpunkt Daten austauschen, um die Anwendungsdaten zu erhalten. Ähnlich wie bei öffentlichen Endpunkten gibt es je nach der Rechenfähigkeit des Endpunkts auch zwei Unterarten von privaten Endpunkten. Dabei handelt es sich um einen Endpunkt mit Sprachverarbeitungsfähigkeit, der über eine vollständige Spracherkennungsfähigkeit verfügt und die Spracherkennung in der Endpunkteinheit selbst ausführen und private Sprachmodelldaten für den spezifischen Endbenutzer speichern kann, und um einen Endpunkt mit einer eingeschränkten Sprachverarbeitungsfähigkeit, der lediglich über eine eingeschränkte Spracherkennungsfähigkeit verfügt und private Sprachmodelldaten speichern kann, die erfasste Spracheingabe und das private Sprachmodell jedoch an den zentralisierten Server 10 senden muss, um das Verarbeitungsergebnis zu erhalten.
  • 2 zeigt ein erstes Arbeitsszenario, welches das Verhalten einer privaten Endpunkteinheit 12b beschreibt, die mit dem zentralisierten Server 10 arbeitet. In diesem Szenario wird die private Endpunkteinheit 12b mit vollständiger Spracherkennungsfähigkeit bereitgestellt. Die private Endpunkteinheit 12b verfügt über eine vollständige Sprachverarbeitungsfähigkeit und kann die Spracherkennung in der Endpunkteinheit 12b selbst ausführen. Der Endpunkt 12b verfügt über sein eigenes Benutzersprachmodell 14b, das in der Einheit gespeichert ist. Die Einheit 12b verfügt über die Speicherkapazität, um das Sprachmodell 14b zu speichern, das möglicherweise zuvor heruntergeladen wurde. Die Einheit 12b durchsucht das Netzwerk und vergleicht das am besten passende Sprachmodell 14 aus dem Netzwerk mit dem zuvor in der Einheit 12b gespeicherten Modell. Das überlegene Modell 14 wird in der vorliegenden Spracherkennung verwendet. Falls kein Netzwerkzugriff verfügbar ist, kann die Einheit 12b auch in der Lage sein, das vorab gespeicherte Sprachmodell 14b zu verwenden.
  • In Schritt 1 (wie durch die in einem Kreis mit einem Pfeil abgebildeten Ziffern in den Figuren kenntlich gemacht) steuert ein Endbenutzer die private Endpunkteinheit 12b, um ein Benutzerüberprüfungsprofil 16 für das Anmelden bei dem zentralen Server 10 zu senden. Die Endpunkteinheit 12b überträgt eine Anfrage nach einem Sprachmodell 14. Die Anfrage umfasst eine oder mehrere Bedingungen. Wenn kein Sprachmodell 14 (wie z. B. ein benutzerspezifisches Modell 14b) genau für diese Endpunkteinheit 12b passt, gibt der zentrale Server 10 ein allgemeines Benutzersprachmodell 14a an die Endpunkteinheit 12b zurück. Die Endpunkteinheit 12b, die hier als ein Smartphone abgebildet ist, verfügt über eine Reihe unterschiedlicher Funktionen. Die Einheit 12b kann eine ASR-Fähigkeit (Automatic Speech Recognition, automatische Spracherkennung) durchführen und in der Lage sein, Sprach- und Umgebungsdaten zu sammeln, was der Spracherkennung und der Verfeinerung des Sprachmodells dient. Die Einheit 12b wird mit einer Anzeige bereitgestellt, um die verfügbaren Anforderungen und Vorgänge einer lokalen Einheit 20 (die hier ein Drucker ist) anzuzeigen. Die Einheit 12b ist in der Lage, Sprachmodelle 14 von dem Server 10 herunterzuladen und Sprachmodelle 14 in den Server 10 hochzuladen. Die Einheit 12b ist außerdem in der Lage, eine Datenübertragung mit geringer Reichweite zwischen der Endpunkteinheit 12b und der lokalen Einheit 20 bereitzustellen.
  • Bei dieser Ausführungsform wird davon ausgegangen, dass der Benutzer die private Endpunkteinheit 12b verwendet, um die lokale Einheit 20 zu steuern. In Schritt 2 stellt die private Endpunkteinheit 12b eine Verbindung mit der Einheit 20 her. In Schritt 3 gibt die Einheit 20 eine Menüliste in Textform an die Endpunkteinheit 12b zurück. In Schritt 4 spricht der Endbenutzer den Vorgang, und die private Endpunkteinheit 12b sendet das ASR-Ergebnis an die Einheit 20. In Schritt 5 führt die Einheit 20 die erforderlichen Aktionen durch, die der verbalen Eingabe des Endbenutzers entsprechen. Schließlich lädt in Schritt 6 die private Endpunkteinheit 12b alle etwaig erfassten Daten und ein verfeinertes Sprachmodell in den zentralen Server 10 hoch.
  • 3 stellt ein Szenario einer privaten Endpunkteinheit 12d mit eingeschränkter Spracherkennungsfähigkeit wie beispielsweise ein herkömmliches Mobiltelefon dar. Bei diesem Szenario verfügt die private Endpunkteinheit 12d über eine eingeschränkte Sprachverarbeitungsfähigkeit, so dass die Einheit 12d nur eine Spracheingabe erfassen, die Sprache aber nicht erkennen kann. Wie bei der vorherigen Ausführungsform wird davon ausgegangen, dass der Benutzer die private Endpunkteinheit 12d verwendet, um eine lokale Einheit 20 zu steuern. In Schritt 1 steuert der Endbenutzer die private Endpunkteinheit 12d, um das Benutzerüberprüfungsprofil 16 für das Anmelden bei einem zentralen Server 10 zu senden. In Schritt 2 stellt die private Endpunkteinheit 12d eine Verbindung mit der lokalen Einheit 20 her. Die Einheit 20 gibt in Schritt 3 eine Menüliste in Textformat an die Endpunkteinheit 12d zurück.
  • In Schritt 4 spricht der Endbenutzer den Vorgang, und die private Endpunkteinheit 12d erfasst die Spracheingabe und sendet sie zur Erkennung an den zentralen Server 10. In Schritt 5 gibt der zentrale Server 10 das ASR-Ergebnis an die private Endpunkteinheit 12d zurück, und in Schritt 6 leitet die private Endpunkteinheit 12d das ASR-Ergebnis an die lokale Einheit 20 weiter. In Schritt 7 führt die Einheit 20 die erforderlichen Aktionen durch, die der verbalen Eingabe des Endbenutzers entsprechen. Schließlich lädt in Schritt 8 die private Endpunkteinheit 12d alle etwaig erfassten Daten in den zentralen Server 10 hoch.
  • Eine dritte Ausführungsform des Systems wird in 4 gezeigt. Diese Figur stellt ein Szenario dar, bei dem eine öffentliche Endpunkteinheit 12a wie beispielsweise ein Auszahlungsautomat einer Bank verwendet wird, die über eine vollständige Spracherkennungsfähigkeit verfügt. Bei diesem Szenario verfügt die öffentliche Endpunkteinheit 12a über eine vollständige Sprachverarbeitungsfähigkeit und kann die Spracherkennung in der Endpunkteinheit 12a selbst durchführen und verfügt über ein darin gespeichertes allgemeines Sprachmodell 14a. Der Endbenutzer verwendet ein Mobiltelefon 22 und besitzt darüber hinaus eine lokale Speichereinheit 24, hier eine Universal Serial Bus(USB)-Speichereinheit.
  • In Schritt 1 sendet der Endbenutzer sein Überprüfungsprofil 16 an den öffentlichen Endpunkt 12a unter Verwendung seines privaten Mobiltelefons 22 oder USB-Laufwerks 20. In Schritt 2 leitet die öffentliche Endpunkteinheit 12a das Benutzerüberprüfungsprofil 16 an den zentralen Server 10 weiter, um sich bei dem zentralen Server 10 anzumelden. In Schritt 3 gibt der zentrale Server 10 das Sprachmodell 14b an die öffentliche Endpunkteinheit 12a zurück, falls es ein spezifisches Benutzersprachmodell 14b gibt, das für diesen Benutzer passt. Andernfalls wird das allgemeine Benutzersprachmodell 14a in der öffentlichen Endpunkteinheit 12a verwendet.
  • In Schritt 4 spricht der Endbenutzer seine(n) Sprachbefehl(e) in den öffentlichen Endpunkt 12a. Der öffentliche Endpunkt 12a antwortet dem Benutzer in Schritt 5. Schließlich lädt die öffentliche Endpunkteinheit 12a in Schritt 6 etwaig erfasste Daten und das verfeinerte Modell für diesen Benutzer in den zentralen Server 10 hoch. Auf diese Weise kann der Benutzer mit einer lokalen Einheit interagieren, die dennoch Zugriff auf eine große Bandbreite verschiedener Sprachmodelle 14 hat. Wenn die Interaktion zwischen dem Benutzer und der öffentlichen Endpunkteinheit 12a zur Änderung des verwendeten Sprachmodells 14 führt, wird dieses verfeinerte Sprachmodell in den Server 10 hochgeladen und kann in der Zukunft entweder von diesem Benutzer oder von einem anderen Benutzer wiederverwendet werden.
  • 5 zeigt eine vierte Ausführungsform des Systems, bei der es sich um ein Szenario handelt, das eine öffentliche Endpunkteinheit 12c mit eingeschränkter Spracherkennungsfähigkeit verwendet. Auch hierbei könnte es sich um einen Bankautomaten, jedoch mit verringerter Funktionalität handeln. Bei diesem Szenario verfügt die öffentliche Endpunkteinheit 12 über eine eingeschränkte Sprachverarbeitungsfähigkeit und kann so eine Spracheingabe nur erfassen, die Sprache aber nicht erkennen. In Schritt 1 sendet der Endbenutzer von seinem privaten Mobiltelefon 22 oder USB-Laufwerk 24 sein Überprüfungsprofil 16 an die öffentliche Endpunkteinheit 12c. In Schritt 2 leitet die öffentliche Endpunkteinheit 12c das Benutzerüberprüfungsprofil 16 an den zentralen Server 10 weiter, um sich bei dem zentralen Server 10 anzumelden. Falls es ein spezifisches Benutzersprachmodell 14b gibt, das für diesen Benutzer passt, verwendet der zentrale Server 10 dieses Sprachmodell 14b, um die Stimme dieses Benutzers zu erkennen. Andernfalls wird ein allgemeines Benutzersprachmodell 14a auf dem zentralen Server 10 verwendet.
  • In Schritt 3 spricht der Endbenutzer in die öffentliche Endpunkteinheit 12c, und in Schritt 4 erfasst die öffentliche Endpunkteinheit 12c die Spracheingabe und leitet die aufgezeichnete Sprache an den zentralen Server 10 weiter. In Schritt 5 gibt der zentrale Server 10 das ASR-Ergebnis in Textform an die öffentliche Endpunkteinheit 12c zurück. In Schritt 6 führt die öffentliche Endpunkteinheit 12c die notwendigen Aktionen als Reaktion auf die Benutzerbefehle durch. Schließlich lädt in Schritt 7 die öffentliche Endpunkteinheit 12c alle etwaig erfassten Daten und ein verfeinertes Sprachmodell für diesen Benutzer in den zentralen Server 10 hoch.
  • Die in dieser Figur gezeigte Ausführungsform stellt ebenso wie die anderen oben beschriebenen Ausführungsformen dem Server 10 ein verfeinertes Sprachmodell bereit, wenn das bei der Interaktion zwischen dem Benutzer und der Spracherkennungsfunktion verwendete Sprachmodell 14 geändert wurde. Mit Bezug auf das verfeinerte Sprachmodell 14 können Daten wie z. B. die Identität des Benutzers und/oder der Ort des Benutzers und/oder die örtlichen Bedingungen (Hintergrundgeräusche usw.) erfasst und mit dem verfeinerten Sprachmodell 14 dem Server 10 wieder bereitgestellt werden. Dies führt zu besseren Entsprechungen in der Zukunft, wenn weitere Anfragen getätigt werden, um ein Sprachmodell für eine spezifische Verwendung zu erhalten.
  • 6 zeigt ein verallgemeinertes Verfahren für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen 14. Ein Benutzer 26 verfügt über seine eigene Clienteinheit 12, die mit dem Server 10 Daten austauscht. Der Benutzer verfügt über ein rechenstarkes Smartphone 12, das unter Verwendung einer geeigneten Maschine eine lokale Spracherkennung durchführen kann. Um die Spracherkennung durchzuführen, benötigt die Maschine ein Sprachmodell 14, und um ein derartiges Modell 14 zu erhalten, sendet die Maschine 12 eine Anfrage 28 nach einem Sprachmodell 14 an den Server 10, wobei die Anfrage 28 eine oder mehrere Bedingungen umfasst. Die Anfrage wird von einer Netzwerkschnittstelle 30 des Servers 10 empfangen.
  • Der Server 12 beinhaltet zudem eine Vielzahl von Speichereinheiten 32, die eine Vielzahl von Speichermodellen 14 sowie Metadaten für jedes gespeicherte Sprachmodell 14 speichern. Der Server 10 ermittelt das Sprachmodell 14, dessen Metadaten den in der Anfrage 28 enthaltenen bereitgestellten Bedingungen am besten entsprechen, und stellt das ausgewählte Sprachmodell 14 der Clienteinheit 12 bereit. Wie oben erläutert, können die Bedingungen in der Anfrage 28 einfach aus der Identität des Benutzers 28 bestehen, oder sie können kompliziertere Informationen zum Ort des Benutzers 28, seinem momentanen Transportmittel und zum Niveau des Hintergrundgeräuschs usw. beinhalten. Das der Anfrage 28 am besten entsprechende Sprachmodell wird an den Benutzer 26 zurückgegeben.
  • Danach interagiert der Benutzer 26 mit der Spracherkennungsmaschine, die das empfangene Sprachmodell 14 mit Bezug auf eine Anwendung verwendet, auf die der Benutzer 26 zugreift und die die Spracherkennung benötigt. Die Beschaffenheit der Interaktion zwischen dem Benutzer und der Maschine kann zu einer Anpassung des Sprachmodells 14 führen, wodurch das Modell auf eine herkömmliche Art und Weise wirksam trainiert wird. Wie in 7 gezeigt, wird das als ein verfeinertes Sprachmodell 14' bezeichnete Sprachmodell dann zurück an den Server 10 übertragen. Die Netzwerkschnittstelle 30 empfängt das verfeinerte Sprachmodell 14' von der Clienteinheit 12 und speichert das verfeinerte Sprachmodell 14' in einer Speichereinheit 32.

Claims (12)

  1. Verfahren für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen, das Folgendes umfasst: Speichern einer Vielzahl von Sprachmodellen, Speichern von Metadaten für jedes gespeicherte Sprachmodell, Empfangen einer Anfrage nach einem Sprachmodell von einer Quelle, wobei die Anfrage eine oder mehrere Bedingungen umfasst, Ermitteln des Sprachmodells, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, Bereitstellen des ermittelten Sprachmodells an die Quelle, Empfangen eines verfeinerten Sprachmodells von der Quelle, und Speichern des verfeinerten Sprachmodells.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Speicherns des verfeinerten Sprachmodells das Ersetzen des ermittelten Sprachmodells durch das verfeinerte Sprachmodell umfasst.
  3. Verfahren nach Anspruch 1 oder 2, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die einen Benutzer an der Quelle bezeichnet und wobei die Metadaten für das ermittelte Sprachmodell den bezeichneten Benutzer angeben.
  4. Verfahren nach Anspruch 1, 2 oder 3, das ferner das Empfangen neuer Metadaten für das verfeinerte Sprachmodell von der Quelle und das Speichern der neuen Metadaten für das verfeinerte Sprachmodell umfasst.
  5. Verfahren nach Anspruch 4, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die eine Umgebung an der Quelle bezeichnet, wobei die Metadaten für das ermittelte Sprachmodell die ermittelte Umgebung nicht genau angeben, und wobei das Speichern der neuen Metadaten für das verfeinerte Sprachmodell das genaue Angeben der ermittelten Umgebung umfasst.
  6. System für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen, wobei das System Folgendes umfasst: eine oder mehrere Speichereinheiten, die so aufgebaut sind, dass sie eine Vielzahl von Sprachmodellen und Metadaten für jedes gespeicherte Sprachmodell speichern, und eine Netzwerkschnittstelle, die mit der oder mit jeder Speichereinheit verbunden ist, auf die über eine externe Quelle zugegriffen werden kann und die so aufgebaut ist, dass sie: eine Anfrage nach einem Sprachmodell von einer Quelle empfängt, wobei die Anfrage eine oder mehrere Bedingungen umfasst, das Sprachmodell, dessen Metadaten der/den bereitgestellten Bedingung(en) am besten entsprechen, ermittelt, das ermittelte Sprachmodell der Quelle bereitstellt, ein verfeinertes Sprachmodells von der Quelle empfängt und das verfeinerte Sprachmodell in einer Speichereinheit speichert.
  7. System nach Anspruch 6, wobei die Netzwerkschnittstelle so aufgebaut ist, dass sie, wenn sie das verfeinerte Sprachmodell auf einer Speichereinheit speichert, das ermittelte Sprachmodell durch das verfeinerte Sprachmodell ersetzt.
  8. System nach Anspruch 6 oder 7, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die einen Benutzer an der Quelle bezeichnet und wobei die Metadaten für das ermittelte Sprachmodell den bezeichneten Benutzer angeben.
  9. System nach Anspruch 6, 7 oder 8, wobei die Netzwerkschnittstelle weiter so aufgebaut ist, dass sie neue Metadaten für das verfeinerte Sprachmodell von der Quelle empfängt und die neuen Metadaten für das verfeinerte Sprachmodell in einer Speichereinheit speichert.
  10. System nach Anspruch 9, wobei die Anfrage nach einem Sprachmodell eine Bedingung umfasst, die eine Umgebung an der Quelle bezeichnet, wobei die Metadaten für das ermittelte Sprachmodell die ermittelte Umgebung nicht genau angeben, und wobei das Speichern der neuen Metadaten für das verfeinerte Sprachmodell das genaue Angeben der ermittelten Umgebung umfasst.
  11. Computerprogrammprodukt für das Pflegen und Bereitstellen einer Vielzahl von Sprachmodellen, wobei das Computerprogrammprodukt Folgendes umfasst: ein computerlesbares Speichermedium, das von einer Verarbeitungsschaltung gelesen werden kann und Befehle zur Ausführung durch die Verarbeitungsschaltung speichert, um ein Verfahren gemäß einem beliebigen der Ansprüche 1 bis 5 durchzuführen.
  12. Computerprogrammprodukt, das auf einem computerlesbaren Medium gespeichert ist und in den internen Speicher eines digitalen Computers geladen werden kann, welches Softwarecode-Teile umfasst, die, wenn das Programm auf einem Computer ausgeführt wird, das Verfahren nach einem beliebigen der Ansprüche 1 bis 5 durchführen.
DE102012212185.4A 2011-07-25 2012-07-12 Pflegen und Bereitstellen von Sprachmodellen Active DE102012212185B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP11175174 2011-07-25
EP11175174.9 2011-07-25

Publications (2)

Publication Number Publication Date
DE102012212185A1 true DE102012212185A1 (de) 2013-01-31
DE102012212185B4 DE102012212185B4 (de) 2019-03-07

Family

ID=46261816

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102012212185.4A Active DE102012212185B4 (de) 2011-07-25 2012-07-12 Pflegen und Bereitstellen von Sprachmodellen

Country Status (3)

Country Link
US (1) US8938388B2 (de)
DE (1) DE102012212185B4 (de)
GB (1) GB2493413B (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8571865B1 (en) * 2012-08-10 2013-10-29 Google Inc. Inference-aided speaker recognition
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor
KR102073102B1 (ko) * 2013-03-21 2020-02-04 삼성전자 주식회사 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템
US9754258B2 (en) * 2013-06-17 2017-09-05 Visa International Service Association Speech transaction processing
US10846699B2 (en) * 2013-06-17 2020-11-24 Visa International Service Association Biometrics transaction processing
US9443527B1 (en) * 2013-09-27 2016-09-13 Amazon Technologies, Inc. Speech recognition capability generation and control
US9530416B2 (en) * 2013-10-28 2016-12-27 At&T Intellectual Property I, L.P. System and method for managing models for embedded speech and language processing
US9666188B2 (en) 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
WO2015088480A1 (en) * 2013-12-09 2015-06-18 Intel Corporation Device-based personal speech recognition training
US9966073B2 (en) 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US9870196B2 (en) 2015-05-27 2018-01-16 Google Llc Selective aborting of online processing of voice inputs in a voice-enabled electronic device
US10083697B2 (en) * 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
KR102405793B1 (ko) * 2015-10-15 2022-06-08 삼성전자 주식회사 음성 신호 인식 방법 및 이를 제공하는 전자 장치
US10621977B2 (en) 2015-10-30 2020-04-14 Mcafee, Llc Trusted speech transcription
KR102691541B1 (ko) * 2016-12-19 2024-08-02 삼성전자주식회사 음성 인식 방법 및 장치
WO2020001652A1 (en) * 2018-06-29 2020-01-02 Yunding Network Technology (Beijing) Co., Ltd. Systems and methods for informarion management
US11211071B2 (en) * 2018-12-14 2021-12-28 American International Group, Inc. System, method, and computer program product for home appliance care
US11120805B1 (en) * 2020-06-19 2021-09-14 Micron Technology, Inc. Intelligent microphone having deep learning accelerator and random access memory
US11929079B2 (en) * 2020-10-27 2024-03-12 Samsung Electronics Co., Ltd Electronic device for managing user model and operating method thereof

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7174299B2 (en) 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6424945B1 (en) 1999-12-15 2002-07-23 Nokia Corporation Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection
US6823306B2 (en) 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
US6915262B2 (en) 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
FR2820872B1 (fr) 2001-02-13 2003-05-16 Thomson Multimedia Sa Procede, module, dispositif et serveur de reconnaissance vocale
US7209880B1 (en) * 2001-03-20 2007-04-24 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6785647B2 (en) 2001-04-20 2004-08-31 William R. Hutchison Speech recognition system with network accessible speech processing resources
US6915259B2 (en) * 2001-05-24 2005-07-05 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on linear separation of variability sources
US7366673B2 (en) 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7072834B2 (en) * 2002-04-05 2006-07-04 Intel Corporation Adapting to adverse acoustic environment in speech processing using playback training data
JP2004009356A (ja) * 2002-06-04 2004-01-15 Seiko Epson Corp 印刷装置
EP1400953B1 (de) 2002-09-12 2013-03-20 me2me AG Verfahren zum Erstellen von akustischen Modellen und/oder Sprachmodellen
EP1635328B1 (de) * 2004-09-14 2018-05-30 Swisscom AG Verfahren zur eingeschränkten Spracherkennung mit einer von einem entfernten System empfangenen Grammatik.
ES2330758T3 (es) * 2005-11-25 2009-12-15 Swisscom Ag Procedimiento para personalizar un servicio.
US20070250311A1 (en) * 2006-04-25 2007-10-25 Glen Shires Method and apparatus for automatic adjustment of play speed of audio data
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
US20080221884A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
JP4877113B2 (ja) * 2007-07-12 2012-02-15 ヤマハ株式会社 音響モデル処理装置およびプログラム
US8219404B2 (en) * 2007-08-09 2012-07-10 Nice Systems, Ltd. Method and apparatus for recognizing a speaker in lawful interception systems
EP2339576B1 (de) * 2009-12-23 2019-08-07 Google LLC Mehrmodulare Eingabe in eine elektronische Vorrichtung
US8234111B2 (en) * 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition

Also Published As

Publication number Publication date
GB201207210D0 (en) 2012-06-06
GB2493413B (en) 2013-12-25
GB2493413A (en) 2013-02-06
US20130030802A1 (en) 2013-01-31
US8938388B2 (en) 2015-01-20
DE102012212185B4 (de) 2019-03-07

Similar Documents

Publication Publication Date Title
DE102012212185B4 (de) Pflegen und Bereitstellen von Sprachmodellen
DE112013000865T5 (de) Konsolidieren von unterschiedlichen Cloud-Dienst-Daten und -Verhaltensweisen auf der Grundlage von Vertrauensbeziehungen zwischen Cloud-Diensten
DE112020003306T5 (de) Unterscheiden von sprachbefehlen
EP1956814A1 (de) Digitales Verfahren und Anordnung zur Authentifizierung eines Nutzers eines Telekommunikations- bzw. Datennetzes
DE102006055864A1 (de) Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung
EP3095114B1 (de) Verfahren und system zur erzeugung eines steuerungsbefehls
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE60214850T2 (de) Für eine benutzergruppe spezifisches musterverarbeitungssystem
DE102015211101A1 (de) Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
DE102015121098A1 (de) Multimodale Antwort auf eine Multimodale Suche
DE102020215954A1 (de) Dialogsystem und verfahren zum steuern desselben
DE102020128250A1 (de) Fahrzeugbasierte gebärdensprachkommunikationssysteme und -verfahren
DE112021004829T5 (de) Durchgängiges verstehen gesprochener sprache ohne vollständige abschriften
DE112016007250T5 (de) Verfahren und System zum Optimieren von Spracherkennung und Informationssuche basierend auf Gesprächsgruppenaktivitäten
DE102018000471A1 (de) Blockchain-basiertes Identitätssystem
DE102022202150A1 (de) System und verfahren zur kontextbewussten audioverstärkung
EP1848187B1 (de) Verfahren und Vorrichtung zur Verifizierung der Identität eines Nutzers verschiedener Telekommunikationsdienste mittels biometrischer Merkmale
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
DE112008002626T5 (de) Verfahren und System zum Konvertieren eines virtuellen Elements
DE102015212650B4 (de) Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe
DE112017007900T5 (de) Systeme und verfahren zur erzeugung von daten natürlicher sprache
EP1321851A2 (de) Verfahren zum Betrieb eines Sprach-Dialogsystems
WO2001013196A2 (de) Serversystem und verfahren zur automatischen bestimmung, überwachung und übermittlung von aktuellen wertdaten individueller portefeuilles
DE102017121780B4 (de) Hierarchische Annotation von Dialogakten
AT509043B1 (de) Verfahren zum elektronischen signieren von dateien

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: RICHARDT PATENTANWAELTE GBR, DE

R016 Response to examination communication
R016 Response to examination communication
R082 Change of representative

Representative=s name: RICHARDT PATENTANWAELTE GBR, DE

R081 Change of applicant/patentee

Owner name: INTERNATIONAL BUSINESS MACHINES CORPORATION, A, US

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, ARMONK, N.Y., US

Effective date: 20121010

Owner name: INTERNATIONAL BUSINESS MACHINES CORPORATION, A, US

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, NEW YORK, N.Y., US

Effective date: 20130430

Owner name: INTERNATIONAL BUSINESS MACHINES CORPORATION, US

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, NEW YORK, US

Effective date: 20130430

Owner name: INTERNATIONAL BUSINESS MACHINES CORPORATION, US

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, ARMONK, US

Effective date: 20121010

R082 Change of representative

Representative=s name: RICHARDT PATENTANWAELTE GBR, DE

Effective date: 20121010

Representative=s name: RICHARDT PATENTANWAELTE GBR, DE

Effective date: 20130430

Representative=s name: RICHARDT PATENTANWAELTE PART GMBB, DE

Effective date: 20130430

Representative=s name: RICHARDT PATENTANWAELTE PART GMBB, DE

Effective date: 20121010

Representative=s name: RICHARDT PATENTANWAELTE PARTG MBB, DE

Effective date: 20121010

Representative=s name: RICHARDT PATENTANWAELTE PARTG MBB, DE

Effective date: 20130430

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R084 Declaration of willingness to licence
R020 Patent grant now final