DE60217241T2 - Fokussierte Sprachmodelle zur Verbesserung der Spracheingabe von strukturierten Dokumenten - Google Patents
Fokussierte Sprachmodelle zur Verbesserung der Spracheingabe von strukturierten Dokumenten Download PDFInfo
- Publication number
- DE60217241T2 DE60217241T2 DE60217241T DE60217241T DE60217241T2 DE 60217241 T2 DE60217241 T2 DE 60217241T2 DE 60217241 T DE60217241 T DE 60217241T DE 60217241 T DE60217241 T DE 60217241T DE 60217241 T2 DE60217241 T2 DE 60217241T2
- Authority
- DE
- Germany
- Prior art keywords
- topic
- text
- message
- speech recognition
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Description
- GEBIET DER ERFINDUNG
- Die vorliegende Erfindung betrifft Spracherkennungssysteme und insbesondere fokussierte Modelle zur verbesserten Spracheingabe und deren Verwendung zum Generieren von E-Mail- und Textnachrichten.
- DISKUSSION
- Die Zusammenlegung der Funktionalität von Zellulartelefonen, persönlichen digitalen Assistenten und anderen Handheld-Geräten macht es möglich, von potenziell jedem Ort aus auf das Internet zuzugreifen. Eine der beliebtesten Internet-Anwendungen ist immer noch das klassische E-Mail. Gleichzeitig ist der Kurznachrichtendienst (Short Message Service, SMS) sehr beliebt für die Verwendung mit Zellulartelefonen. Beide Anwendungen bieten einen Sofort-Nachrichtenübermittlungsdienst, für den möglicherweise eine erhebliche Textmenge eingegeben werden muss. Solche Texteingaben können umständlich sein, wenn ein persönlicher digitaler Assistent oder ein Zellulartelefonsystem verwendet wird. Dementsprechend ist es wünschenswert, einen persönlichen digitalen Assistenten mit E-Mail-Fähigkeiten bereitzustellen, der Spracheingabe für die Konvertierung zu Textnachrichtenübermittlung nutzt.
- Die heutigen Spracherkennungssysteme mit großem Vokabular verlassen sich in hohem Maß auf Sprachmodelle, die Eine statistische Repräsentation der Sprache liefern, die an Corpora abgeschätzt wurden, die zwischen Dutzenden und Hunderten von Millionen von Wörtern umfassen. Um die Leistung zu verbessern, können Sprachmodelle auf eng begrenzte Gebiete beschränkt werden. Solche Systeme sind in US Patent Nr. 5,444,617 an Merialdo mit dem Titel METHOD AND APPARATUS FOR ADAPTIVELY GENERATING A FIELD OF APPLICATION DEPENDENT LANGUAGE MODELS OF USE IN INTELLIGENT SYSTEMS (Verfahren und Vorrichtung zum adaptiven Generieren eines Felds von anwendungsspezifischen Sprachmodellen des Gebrauchs in intelligenten Systemen) und U.S. Patent Nr. 6,188,976 an Ramaswamy et al mit dem Titel APPARATUS AND METHOD FOR BUILDING DOMAIN-SPECIFIC LANGUAGE MODELS (Vorrichtung und Verfahren zum Aufbauen gebietsspezifischer Sprachmodelle) offenbart.
- Beispiele von Spracherkennungssystemen mit großem Vokabular sind zum Beispiel die Folgenden: Internationale Patentanmeldung Nr. WO 00\58945 im Namen von Philips Corporate Intellectual Property GMBH (Erfinder: Thelen et al.) betrifft Spracherkennungsmaschinen mit komplementären Sprachmodellen und offenbart die Auswahl von Spracherkennungsmodellen basierend auf einem Kontext, der durch Dokumente bestimmt wird, auf die sich die Spracheingabe bezieht. Internationale Patentanmeldungsschrift Nr. WO 01\01391 im Namen von Dictalaphone Corporation (Erfinder: Kuhnen et al) betrifft ein verteiltes Spracherkennungssystem mit Mehrbenutzer-Eingabestationen.
- Darüber hinaus bieten mobile Geräte wie Zellulartelefone und persönliche digitale Assistenten typischerweise kleine Anzeigebildschirme, so dass die Informationsmenge, die angezeigt werden kann, stark eingeschränkt ist. Dementsprechend ist es wünschenswert, dem Benutzer eine Zusammenfassung einer Textnachricht vorzulegen, sowohl von eintreffenden als auch ausgehenden.
- Dementsprechend bietet die vorliegende Erfindung ein Nachrichtenverarbeitungssystem, das fokussierte Sprachmodelle zur verbesserten Spracheingabe zum Konvertieren der Sprache zu Textnachrichten nutzt. Die Erfindung eignet sich daher gut für die Verwendung mit Handheld-Geräten wie Zellulartelefonen und drahtlosen persönlichen digitalen Assistenten. Die Erfindung macht es sehr einfach, E-Mails und andere Sofortnachrichten über eine Zellulartelefon- oder andere drahtlose Verbindung zu schicken. Gemäß einem Aspekt der Erfindung werden Textnachrichten vom System zusammengefasst, so dass sie vom Benutzer auf dem relativ kleinen Bildschirm des Geräts angezeigt und bearbeitet werden können.
- Gemäß der vorliegenden Erfindung, wie in den unabhängigen Ansprüchen beansprucht, wird ein Spracherkennungsprozessor bereitgestellt, um eingegebene Sprache zu verarbeiten und die eingegebene Sprache zu Text zu konvertieren. Der Prozessor ermöglicht es einem Benutzer, gesprochene Nachrichten zu äußern, die dann von einem Spracherkennungsmodul oder -abschnitt zu Text konvertiert werden, das bzw. der ein fokussiertes Sprachmodell nutzt, um Geschwindigkeit und Genauigkeit des Erkennungsverfahrens zu erhöhen. Das fokussierte Sprachmodell ist davon abgeleitet, dass der Prozessor das Thema der beabsichtigten Nachricht erkennt und ein Sprachmodell für die Verwendung durch den Spracherkennungsabschnitt von einem Internet-Server abruft. Das Thema der ausgehenden Nachricht kann aus einer empfangenen E-Mail abgeleitet werden, auf die die ausgehende E-Mail-Nachricht eine Antwort ist, insbesondere kann das Thema jedoch vom Benutzer eingegeben werden. Außerdem wird ein Registerbestimmungsmittel bereitgestellt, um ein Registerattribut für eine ausgehende Nachricht, basierend auf dem Thema und/oder Metadaten, die beschreiben, wie eine empfangene Nachricht formatiert wurde, zu bestimmen, wobei das Registerattribut indikativ ist für den Ton oder Stil der ausgehenden Nachricht und wobei das Abrufen des fokussierten Sprachmodells auf dem Thema und dem Registerattribut basiert. Sobald die geäußerte Sprachnachricht zu Text konvertiert ist, kann die Textnachricht vom Benutzer bearbeitet und/oder vom Prozessor zusammengefasst werden, um die Nachricht zum Anzeigen auf einem Bildschirm eines persönlichen digitalen Assistenten zu kürzen. Die Textnachricht kann in der Form einer E-Mail-Vorlage bereitgestellt werden, die dann zur Auslieferung an einen Empfänger über eine drahtlose oder zellulare Verbindung an einen Internet-Server übertragen werden kann.
- Weitere Anwendungsgebiete der vorliegenden Erfindung werden aus der nachfolgend bereitgestellten ausführlichen Beschreibung offensichtlich. Es ist zu beachten, dass die ausführliche Beschreibung und die spezifischen Beispiele zwar auf die bevorzugte Ausführungsform der Erfindung hinweisen, jedoch lediglich zur Veranschaulichung bestimmt sind und nicht den Umfang der Erfindung einschränken sollen.
- KURZE BESCHREIBUNG DER ZEICHNUNGEN
- Die vorliegende Erfindung wird anhand der ausführlichen Beschreibung und der beiliegenden Zeichnungen verdeutlicht, wobei:
-
1 eine perspektivische Ansicht eines beispielhaften persönlichen digitalen Assistenten ist, der für die Verwendung mit der vorliegenden Erfindung angepasst ist; -
2 ein Blockdiagramm eines computerimplementierten Spracherkennungssystems zum Generieren von E-Mail-Nachrichten basierend auf fokussierten Sprachmodellen ist, auf die über eine Zellulartelefonverbindung und einen Internet-Server zugegriffen wird; -
3 ein Datenflussdiagramm eines E-Mail-Abrufmoduls für den Gebrauch mit einem E-Mail-Prozessor für einen persönlichen digitalen Assistenten gemäß den Grundsätzen der vorliegenden Erfindung ist; -
4 ein Datenflussdiagramm eines E-Mail-Nachrichtenmoduls für den Gebrauch mit einem E-Mail-Prozessor eines persönlichen digitalen Assistenten gemäß den Grundsätzen der vorliegenden Erfindung ist; -
5A und5B ein Flussdiagramm sind, dass die Funktionsgrundsätze des E-Mail-Prozessors gemäß der vorliegenden Erfindung veranschaulicht; -
6 ein Datenflussdiagramm ist, das zum Verständnis der Grundsätze der Erfindung nützlich ist. - AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
- Die nachfolgende Beschreibung der bevorzugten Ausführungsform(en) ist lediglich beispielhafter Art und soll auf keine Weise die Erfindung, ihre Anwendung oder ihre Nutzen einschränken.
- Unter Verweis auf die beiliegenden Zeichnungen wird das fokussierte Sprachmodelle zur verbesserten Spracheingabe nutzende E-Mail-Verarbeitungssystem nun beschrieben.
1 zeigt einen persönlichen digitalen Assistenten10 mit einem Gehäuse12 , das kompakt ist und allgemein in der Hand eines Benutzers gehalten werden kann. Der persönliche digitale Assistent10 umfasst einen Anzeigebildschirm14 auf einer Vorderseite des Gehäuses12 . Der Anzeigebildschirm14 ist vorzugsweise des Typs, der durch eine Berührungseingabe aktiviert werden kann, entweder unter Verwendung eines Fingers eines Bedieners oder eines Stylus16 , um auf Informationen, Daten und Programme zuzugreifen, die im Prozessor18 (am besten in2 dargestellt) des persönlichen digitalen Assistenten10 gespeichert sind. Der persönliche digitale Assistent10 umfasst außerdem eine Vielzahl von Eingabetasten20a -20e , die selektiv programmiert werden können, um es einem Benutzer zu ermöglichen, verschiedenen Anwendungen wie Adressen- und Telefonlisten, Kalender, Taschenrechner, Notizen und andere Anwendungsfunktionen aufzurufen. - Wie in
2 gezeigt, wird der persönliche digitale Assistent10 mit einem Computersystem18 eingesetzt und umfasst einen Zellulartelefonsender22a und einen Zellulartelefonempfänger22b , Berührungstastatureingaben wie die Tasten20a -20e und den Berührungsbildschirm14 (siehe1 ). Ein Mikrofon24 ist für die Spracheingabe des Benutzers bereitgestellt und ein Lautsprecher26 ist optional bereitgestellt, damit der Benutzer die aufgezeichnete Sprache abspielen kann. Ein Ein/Aus-Schalter28 kann bereitgestellt werden, um den persönlichen digitalen Assistenten10 zu aktivieren. Andere bekannte Verfahren zum Aktivieren des persönlichen digitalen Assistenten10 , wie beispielsweise das Öffnen eines Deckels, könnten ebenfalls angewandt werden. - Das Computersystem
18 umfasst einen Mikrocomputer, einen digitalen Signalprozessor oder eine ähnliche Vorrichtung mit einer Kombination von einer CPU30 , einem ROM32 , einem RAM34 , und einem Eingabe/Ausgabe-Abschnitt36 . Der Eingabe/Ausgabe-Abschnitt36 erhält Eingaben vom Ein/Aus-Schalter28 , den Tastaturgliedern20a -20e , dem Berührungsbildschirm14 , dem Zellularempfänger22b und dem Mikrofon24 . Der Eingabe/Ausgabe-Abschnitt36 liefert eine Ausgabe an den Anzeigebildschirm14 , den Zellularsender22a und den Lautsprecher26 . Eine wiederaufladbare Batterie (nicht abgebildet) und/oder ein Wechselstromadapter werden verwendet, um den persönlichen digitalen Assistenten mit elektrischer Energie zu versorgen. - Unter Verweis auf
3 wird nun das E-Mail-Abrufmodul40 des Computersystems18 beschrieben. Das E-Mail-Abrufsystem40 umfasst einen E-Mail-Zugriffs- und Download-Anforderungsabschnitt42 , der aktiviert wird, indem ein Benutzer unter Verwendung einer der Benutzeroberflächen-Eingabevorrichtungen einschließlich den Tastaturglieders20a -20e oder dem Berührungsbildschirm14 die E-Mail-Abrufanwendung wählt. In anderen Worten, der Benutzer wählt das E-Mail-Abrufen entweder, indem er eine der Tasten20a -20e drückt, oder indem er ein Symbol wählt, das auf dem Bildschirm14 angezeigt wird. Sobald er aktiviert ist, initiiert der E-Mail-Zugriffs- und Download-Anforderungsabschnitt42 eine Zellularverbindung über den Zellularsender22a , um über eine Zellulartelefonverbindung auf einen Internet-E-Mail-Server44 zuzugreifen. Sobald die Verbindung hergestellt ist, lädt der E-Mail-Zugriffs- und Download-Anforderungsabschnitt42 die E-Mails des Benutzers auf das Computersystem18 herunter, wo sie dann im RAM34 gespeichert werden. Die E-Mails des Benutzers können auf die gleiche Weise wie bei im Handel bekannten E-Mail-Systemen durch Aktivierung einer Benutzeroberfläche angezeigt werden, die es dem Benutzer ermöglicht, übliche Funktionen wie "Anzeigen", "Antworten", "Weiterleiten" und "Löschen" bezüglich der heruntergeladenen E-Mail-Nachrichten auszuführen. Das Benutzeroberflächenmodul48 ermöglicht es dem Benutzer, zu entscheiden, welche Funktionen ausgeführt werden sollen und die gewählten Funktionen können dann gemäß der Vorgabe des Anzeigeabschnitts46 des E-Mail-Abrufmoduls40 angezeigt werden, was das Format einschließt, in dem jeder Typ von Benutzeroberfläche auf dem Anzeigebildschirm14 des persönlichen digitalen Assistenten10 angezeigt wird. - Unter Verweis auf
4 wird nun das E-Mail-Nachrichtenmodul50 beschrieben. Das E-Mail-Nachrichtenmodul50 ermöglicht es einem Benutzer eines persönlichen digitalen Assistenten10 unter Verwendung eines fokussierten Sprachmodells, das durch eine Zellulartelefonverbindung von einem Internet-Server abgerufen wird, eine E-Mail-Nachricht zu erstellen, die Textnachrichten aus Spracheingabe enthält. Insbesondere kann das E-Mail-Nachrichtenmodul50 aktiviert werden, indem ein Benutzer des persönlichen digitalen Assistenten10 entweder ein Symbol aus einem auf dem Bildschirm14 angezeigten Anwendungsmenü wählt oder indem eine der vorprogrammierten Drucktasten20a -20e gewählt wird, die programmiert ist, das E-Mail-Nachrichtenmodul50 zu aktivieren. Außerdem wird das E-Mail-Nachrichtenmodul50 automatisch aktiviert, indem in der E-Mail-Abrufbetriebsart "Antworten" oder "Weiterleiten" gewählt wird. - Sobald es initiiert ist, umfasst das E-Mail-Nachrichtenmodul
50 einen Vorlagenabschnitt52 , der die ausgehende E-Mail-Nachricht über eine Vorlage strukturiert, um die Erkennung zu verbessern. Der Vorlagenabschnitt52 ermöglicht es dem Benutzer, die E-Mail-Adresse des bestimmungsgemäßen Empfängers, ein Thema für die Nachricht und einen anfängliches Nachrichtenleerfeld für die zu schickende Textnachricht einzugeben. Wie hierin noch ausführlicher diskutiert wird, fordert der Vorlagenabschnitt den Benutzer auf, Adresse und Thema für die ausgehende E-Mail-Nachricht einzugeben. Für "Antwort"-E-Mail-Nachrichten, wird das Thema aus der empfangenen Nachricht abgeleitet. - Das Thema kann auf verschiedene Weise von der empfangenen Nachricht abgeleitet werden. Eine gegenwärtig bevorzugte Weise besteht im Parsing der empfangenen Nachricht in syntaktische Einheiten wie Absätze, Sätze und Wörter. Die geparsten Wörter werden dann mit einer Datenbank von "Störwörtern" verglichen, das sind Wörter, die keine starke thematische Bedeutung vermitteln (beispielsweise "das", "ein", "wenige", "viele", "mit freundlichen Grüßen"). Diesen Störwörtern wird ein sehr geringes Gewicht zugeordnet oder sie werden aus der weiteren Analyse ganz ausgeschlossen. Die übrigen Wörter werden dann basierend auf ihrer Verwendung in der Nachricht gewichtet. Auf Satzebene können einzelne Wörter basierend auf ihren jeweiligen Teilen der Sprache gewichtet werden. Substantiven wird ein hohes Gewicht verliehen. Aktiven Verben wird ein mittleres Gewicht verliehen. Passiven Verben, Adjektiven und Adverbien wird ein noch niedrigeres Gewicht verliehen. Dann werden durch Einteilen der Wörter je nach Gewicht in eine Rangordnung die "wichtigsten" Wörter (die mit den höheren Gewichten) als Schlüsselwörter zum Identifizieren des Themas der Nachricht genutzt. Außerdem kann, falls gewünscht, die Stellung eines Satzes in einem Absatz auch berücksichtigt werden. Viele Absätze beginnen mit einem Themensatz, der das Thema dieses Absatzes einleitet. Daher kann Wörtern im ersten (und zweiten) Satz jedes Absatzes zusätzliches Gewicht verliehen werden, um ihre Wirkung auf die Bestimmung des Themas der Nachricht zu betonen.
- Als Alternative zum Ableiten des Themas einer Nachricht aus ihrem Text kann das System auch die Themenwahl durch Benutzereingabe umfassen. Ein praktisches Verfahren zum Bereitstellen dieser Funktionalität ist über eine Pull-down-Liste oder ein Themeneingabefeld, das der Benutzer verwendet, um ein Thema anzugeben. Falls gewünscht, kann Spracheingabe verwendet werden, um das Thema anzugeben.
- Basierend auf dem eingegebenen Thema initiiert ein Sprachmodul-Abrufabschnitt
54 eine Zellularverbindung über den Zellularsender22a , um auf einen Sprachmodell-Internet-Server56 zuzugreifen und eine Anforderung für ein mit dem identifizierten Thema zusammenhängendes Sprachmodell bereitzustellen. Der Sprachmodell-Internet-Server56 umfasst Sprachmodelle (SM1-SMn), die nach Thema kategorisiert werden können. Außerdem ist der Sprachmodell-Internet-Server auch mit einem Sprachmodellprozessor58 ausgestattet, der Sprachmodelle für Themen generieren kann, die nicht vorab gespeichert sind. Der Sprachmodellprozessor58 kann außerdem auf ältere geschickte und/oder empfangene E-Mail-Nachrichten des Benutzers als Teil einer Datenbank zum Generieren eines Sprachmodells zugreifen. Da die Menge der zum Generieren eines Sprachmodells erforderlichen Verarbeitungsressourcen allgemein größer ist, als in einem persönlichen digitalen Assistenten verfügbar ist, löst die Nutzung des Servers dieses Problem. - Eine wichtige Informationsquelle für die Spracherkennung ist das Sprachmodell, das genutzt wird, um Beschränkungen einzuführen, um die Zahl von Sequenzen zu begrenzen, die während des Erkennungsprozesses tatsächlich in Betracht gezogen werden. Für Spracherkennungssoftware wurden mehrere Typen von Sprachmodellen genutzt, wobei Schwerpunkte bei rein statistischen und rein syntaktischen Modellen liegen. Die Aufgabe eines Sprachmodells besteht darin, in einem gegebenen Kontext Wörter vorherzusagen. Die Nutzung von Sprachmodellen wird im Buch ROBUSTNESS IN AUTOMATIC SPEECH RECOGNITION FUNDAMENTALS AND APPLICATION (Robustheit bei der automatischen Spracherkennung – Grundlagen und Anwendung), von Jean-Claude Junqua und Jean-Paul Haton (Kapitel 11.4, S. 356-360) © 1996 diskutiert, das durch Literaturhinweis hierin enthalten ist. Außerdem offenbaren U.S. Patent Nr. 5,444,617 an Merialdo, mit dem Titel METHOD AND APPARATUS FOR ADAPTIVELY GENERATING FIELD OF APPLICATION DEPENDANT LANGUAGE MODELS FOR USE IN INTELLIGENT SYSTEMS (Verfahren und Vorrichtung zum adaptiven Generieren von anwendungsgebietabhängigen Sprachmodellen zur Anwendung in intelligenten Systemen) und U.S. Patent Nr. 6,188,976 an Ramaswamy et al, mit dem Titel APPARATUS AND METHOD FOR BUILDING DOMAIN-SPECIFIC LANGUAGE MODELS (Vorrichtung und Verfahren zum Aufbauen gebietsspezifischer Sprachmodelle) (die jeweils durch Literaturhinweis hierin enthalten sind) jeweils Sprachmodellierungsprozessoren zum Generieren von fokussierten Sprachmodellen für Spracherkennungssysteme.
- Sobald eine Datei eines fokussierten Sprachmodells vom Sprachmodell-Abrufabschnitt
54 abgerufen wurde, wird das fokussierte Sprachmodell einem Spracherkennungsabschnitt60 des E-Mail-Nachrichtenmoduls50 bereitgestellt. Sobald ihm die Datei für ein fokussiertes Sprachmodell bereitgestellt wurde, wird der Spracherkennungsabschnitt60 genutzt, um eine vom Benutzer eingegebene Sprachnachricht zu Text zu konvertieren. Die vom Benutzer eingegebene Sprachnachricht wird über das Mikrofon24 eingegeben, das am Gehäuse des persönlichen digitalen Assistenten10 angebracht ist. Die aufgezeichnete Sprachnachricht wird von einem Wandler verarbeitet und wird dem Computersystem18 über den Eingabe/Ausgabe-Abschnitt36 bereitgestellt und kann im RAM34 gespeichert werden, bis sie vom Spracherkennungsmodul60 des E-Mail-Nachrichtenmoduls50 verarbeitet wird. - Der Spracherkennungsabschnitt
60 kann bekannte Spracherkennungssoftware nutzen, um, die Spracheingabe unter Verwendung des abgerufenen fokussierten Sprachmodells, wie dies auf dem Gebiet bekannt ist, zu Text zu konvertieren. - Sobald die Sprachnachricht zu Text konvertiert wurde, kann ein Textzusammenfassungsabschnitt
62 implementiert werden, um den konvertierten Text zusammenzufassen, um die Textmenge zu verringern, die auf dem Anzeigebildschirm14 des persönlichen digitalen Assistenten10 anzuzeigen ist. Da der Anzeigebildschirm14 relativ klein ist, ermöglicht es der Textzusammenfassungsabschnitt62 dem Prozessor18 , die Größe der Textnachricht zu verringern. Ein solches Textzusammenfassungssystem wird gegenwärtig als Symbolleistenauswahl als AutoZusammenfassen in MICROSOFT WORD genutzt, die es einem Benutzer ermöglicht, die wichtigsten Punkte im Text eines Dokuments automatisch zusammenzufassen. Sobald die E-Mail-Nachricht vom Vorlagenabschnitt52 generiert wurde, einschließlich Adresse, Thema und Textnachricht (von Spracheingabe konvertiert), kann ein Benutzeroberflächenabschnitt64 angewandt werden, um es dem Benutzer zu ermöglichen, die Textnachricht zu bearbeiten. Die Textbearbeitungsfunktionen können Folgendes einschließen, sind aber nicht darauf beschränkt: Hinzufügen oder Löschen von Text, Zeichensetzung, Ausschneiden, Kopieren, Einfügen und Wählen von zusätzlichen Auto-Zusammenfassungsoptionen, um es dem Benutzer zu ermöglichen, entweder den Text weiter zusammenzufassen oder die Zusammenfassung der Nachricht aufzuheben. Sobald die E-Mail-Nachricht komplett ist, kann ein Übertragungsabschnitt66 des E-Mail-Nachrichtenmoduls50 genutzt werden, um die E-Mail-Nachricht über eine Zellularverbindung an einen Internet-E-Mail-Server68 zu übertragen, der die E-Mail-Nachricht dann basierend auf der Adresse von der E-Mail-Vorlage an den E-Mail-Server des Empfängers überträgt. - In Anbetracht der obigen ausführlichen Beschreibung des E-Mail-Nachrichtenmoduls
50 folgt nun unter Verweis auf5A und5B eine ausführliche Beschreibung der Funktion des E-Mail-Nachrichtenübermittlungssystems für persönliche digitale Assistenten. Sobald das E-Mail-Nachrichtenmodul50 des Computersystems18 aktiviert ist, lädt die CPU30 vom ROM32 die E-Mail-Vorlage herunter, die dann auf dem Anzeigebildschirm angezeigt wird. Das E-Mail-Nachrichtenmodul50 stellt dann in Schritt S2 fest, ob die Nachricht, die erstellt wird, eine Antwortnachricht ist und fährt, wenn ja, mit Schritt S3 fort, um die ausgehende Nachricht unter Nutzung der E-Mail-Adresse des Absenders der vorherigen Nachricht zu adressieren. Falls in Schritt S2 festgestellt wird, dass die Nachricht keine Antwortnachricht ist, wird der Benutzer aufgefordert, die Adresse des bestimmungsgemäßen Empfängers der E-Mail-Nachricht in Schritt S4 einzugeben und die eingegebene Adresse wird in Schritt S3 genutzt, um die ausgehende Nachricht zu adressieren. - Wenn es sich in Schritt S5 um eine "Antwort"-E-Mail-Nachricht handelt, wird das Thema von der empfangenen Nachricht abgeleitet. Andernfalls kann der Benutzer aufgefordert werden, ein Thema für die E-Mail-Nachricht einzugeben. Das Thema kann aus einem vorab gespeicherten Menü ausgewählt oder als neues Thema eingegeben werden, beispielsweise durch Schlüsselworteingabe unter Verwendung bekannte manueller Texteingabeverfahren, die mit älteren persönlichen digitalen Assistenten genutzt wurden. In Schritt S6 wird festgestellt, ob das eingegebene Thema ein existierendes Sprachmodellthema ist. Falls das Thema kein existierendes Sprachmodellthema ist, generiert Schritt S7 eine Anforderung für das Generieren ein neues Themensprachmodells. In Schritt
8 greift der Sprachmodellabrufabschnitt54 über den Zellularsender22a auf den Sprachmodell-Internet-Server56 zu und es wird eine Anforderung bereitgestellt, um ein existierendes fokussiertes Sprachmodell herunterzuladen oder eine Anforderung bereitzustellen, um ein neues fokussiertes Sprachmodell für ein Thema zu generieren, das kein existierendes Sprachmodell hat. In Schritt S9 in5B wird das Sprachmodell vom Zellularempfänger22b empfangen und dann auf den Spracherkennungsabschnitt60 des E-Mail-Nachrichtenmoduls50 heruntergeladen. - In Schritt S10 wird ein Benutzer aufgefordert, eine Sprachnachricht einzugeben, die über das Mikrofon
24 eingegeben und im RAM34 gespeichert wird. Der Spracherkennungsabschnitt60 wird dann in Schritt S11 aktiviert, um die eingegebene Sprachnachricht unter Verwendung des fokussierten Sprachmodells, das vom Sprachmodell-Internet-Server56 empfangen wurde, zu Text zu konvertieren. Der generierte Text kann dann optional vom Textzusammenfassungsabschnitt62 zusammengefasst werden (Schritt S12), um die Textmenge zu verringern, die auf dem begrenzten Textanzeigebildschirm in Schritt S13 anzuzeigen ist. In Schritt14 wird der Benutzer aufgefordert, Bearbeitungen für den generierten Text bereitzustellen und/oder die E-Mail-Nachricht zu senden. Sobald Übertragung ausgewählt wurde, wird der Übertragungsabschnitt66 des E-Mail-Nachrichtenmoduls50 genutzt, um eine Zellularverbindung zu einem Internet-E-Mail-Server68 bereitzustellen, um die E-Mail-Nachricht an den empfangenden E-Mail-Server70 zu übertragen. - Die Erfindung bietet eine natürliche, einfach anzuwendende Benutzeroberfläche, über die der Benutzer eines Handheld-Geräts E-Mail- und Sofortnachrichten überprüfen und generieren kann.
6 fasst einige der nützlichen Merkmale der Erfindung zusammen. Wie in6 zu sehen ist, extrahiert das System eine Reihe nützlicher Informationskomponenten aus der empfangenen Nachricht100 . Die empfangene Nachricht wird von einem Zusammenfassungsmodul102 verarbeitet, das den Zusammenfassungsdatenspeicher104 bevölkert. Das System extrahiert außerdem über das Themenextraktionsmodul106 das Thema der Nachricht und dieses extrahierte Thema wird verwendet, um auf eines aus einem Satz von vorab gespeicherten Sprachmodellen108 zuzugreifen. Das Spracherkennungsmodul110 nutzt das gewählte Sprachmodell, um die Geschwindigkeit des Erkennungsverfahrens zu erhöhen und dessen Genauigkeit zu verbessern. - Da die Zahl der verfügbaren Sprachmodelle in manchen Vorrichtungen begrenzt sein kann, umfasst das System außerdem ein Sprachmodell-Download-Verfahren, das einen Datenspeicher für neue Sprachmodelle
114 basierend auf vom Internet116 enthaltene Informationen bevölkert. Das extrahierte Thema und/oder das vorab gespeicherte Sprachmodell werden vom Verfahren12 genutzt, um ein reichhaltigeres Sprachmodell zu identifizieren, das zu nutzen ist, wenn der Benutzer eine Antwort auf die empfangene Nachricht100 diktiert. Obwohl es viele Arten gibt, geeignete Sprachmodelle zu beschaffen, besteht eine gegenwärtig bevorzugte Lösung darin, einen Sprachmodell-Extraktionsprozessor zu verwenden, der Text120 analysiert, der auf verschiedenen Textseiten im ganzen Internet zu finden ist. Der Sprachmodell-Extraktionsprozessor118 kann das Modellextraktionsverfahren als Reaktion auf Anforderungen von Client-Anwendungen (Anforderungen von Handheld-Geräten von Benutzern) ausführen oder er kann das Modellextraktionsverfahren im Voraus ausführen. In einer Ausführungsform lädt der Sprachmodell-Extraktionsprozessor118 ständig Text102 herunter und erstellt dynamisch neue Sprachmodelle, wenn genügend Daten verfügbar sind. Daher kann die Definition von Sprachmodellen dynamisch sein. Wie der Fachmann ohne Weiteres einsehen wird, ist dies eng verwandt mit Unsupervised Clustering, so dass beispielsweise Soft Clustering und automatische Clustering-Generierung auf dieser Ebene angewandt werden können. Kopien der extrahierten Sprachmodelle können gespeichert werden, beispielsweise in122 , um als Reaktion auf eine Anforderung vom Download-Sprachmodellverfahren112 dieser Vorrichtung an eine Client-Anwendung bereitgestellt zu werden. - Das System speichert eine Vielzahl von Anzeige- und Nachrichtengenerierungsvorlagen
124 , die dazu dienen, die empfangene Nachricht100 oder die zusammengefasste Nachricht102 zu formatieren. Die Vorlagen werden außerdem verwendet, um Antwortnachrichten zu formatieren, wenn der Benutzer sie diktiert. Obwohl dies nicht notwendig ist, ist die Standardeinstellung des Systems so, dass beim Formatieren der Antwortnachricht die Vorlage der empfangenen Nachricht verwendet wird. Wenn daher die empfangene Nachricht in einem Standardbriefformat war (Sehr geehrter Herr Meier...., Mit freundlichen Grüßen, ....}, verwendet die Antwortvorlage standardmäßig ebenfalls dieses Format. Der Benutzer kann Vorlagen durch Menüauswahl oder Sprachauswahl ändern. - In einer Ausführungsform gibt der Benutzer Text in die Vorlage ein, die dem Spracherkennungsmodul
110 hilft, seine bisherigen Kenntnisse zu spezialisieren. Es ist möglich, dass auf eine bestimmte Nachricht mehrere Sprachmodelle angewandt werden, so dass eine Präambel beispielsweise ein anderes Sprachmodell hat als ein Schluss. - Ein weiterer Aspekt der Erfindung umfasst das Extrahieren eines mit der empfangenen Nachricht
100 assoziierten "Registerattributs". Dies wird vom Modul130 ausgeführt, das einen Registerdatenspeicher132 bevölkert. Das Registerattribut dient dazu, den Ton oder Stil der empfangenen Nachricht und der zugehörigen Antwort zu folgern. Wenn die empfangene Nachricht förmlicher Art ist, wird die für die Antwort verwendete Vorlage ähnlich förmlich sein. Wenn die empfangene Nachricht formlos ist (wie beispielsweise eine Sofortnachricht oder Chat-Nachricht), wird eine weniger förmliche Antwort verwendet. Das System bestimmt das Registerattribut, indem es die zur Folgerung des Sprachmodells verwendeten Informationen und die Metadaten, die beschreiben, wie die empfangene Nachricht formatiert war, untersucht. Das Extrahieren der Themeninformationen, aus denen das Sprachmodell gefolgert wird, wurde vorangehend diskutiert. Die mit dem Brief assoziierten Metadaten, beispielsweise welche Wörter in der Begrüßung oder Anrede und in der ergänzenden Schlussformel verwendet werden, werden verwendet, um zu schließen, ob die empfangene Nachricht förmlich, formlos, salopp oder Dergleichen ist. In der bevorzugten Ausführungsform nutzt das Extraktionsmodul130 einen Satz von WENN-DANN-Regeln, um das Register zu folgern. - In einer Ausführungsform kann der Zusammenfassungsdatenspeicher
104 Informationen wie unter160 an den Sprachmodell-Extraktionsprozessor118 schicken, wie unter162 , um das Maßschneidern eines Sprachmodells für den Benutzer zu ermöglichen. Diese Ausführungsform ermöglicht es außerdem dem Sprachmodell-Extraktionsprozessor118 , zu wissen, welche Sprachmodelle beliebter sind. Auf ähnliche Weise und aus den selben Gründen, können Informationen zu einem extrahierten "Registerattribut" vom Modul130 , wie unter164 , dem Sprachmodell-Extraktionsprozessor118 mitgeteilt werden, wie unter162 . - Die Beschreibung der Erfindung ist lediglich beispielhafter Art und daher sollen Abwandlungen im Umfang der Erfindung enthalten sein. Solche Abwandlungen sind nicht als Abweichung vom Umfang der Erfindung zu betrachten.
Claims (15)
- Spracherkennungsprozessor zum Verarbeiten eingegebener Sprache und zum Konvertieren zu Text, umfassend: ein Themenbestimmungsmittel zum Bestimmen eines Themas der eingegebenen Sprache vor der Ausführung von Spracherkennung; ein Spracheingabemittel (
36 ), um es einem Benutzer zu ermöglichen, eine Sprachnachricht einzugeben; einen Sprachmodellabrufabschnitt (54 ) zum Abrufen eines fokussierten Sprachmodells; ein Spracherkennungsmodul (60 ), das das abgerufene fokussierte Sprachmodell nutzt, um die Sprachnachricht zu Text zu konvertieren; und einen Anzeigeabschnitt (46 ) zum Anzeigen des Texts; wobei der Prozessor dadurch gekennzeichnet ist, dass zusätzlich Folgendes bereitgestellt ist: ein Registerbestimmungsmittel (130 ), um ein Registerattribut für eine ausgehende Nachricht, basierend auf dem Thema und/oder Metadaten, die beschreiben, wie eine empfangene Nachricht formatiert wurde, zu bestimmen, wobei das Registerattribut indikativ ist für den Ton oder Stil der ausgehenden Nachricht und wobei das Abrufen des fokussierten Sprachmodells auf dem Thema und dem Registerattribut basiert. - Spracherkennungsprozessor nach Anspruch 1, wobei es sich bei dem Themenerkennungsmittel um eine Tastatur-Benutzeroberflächenvorrichtung (
48 ) handelt, die es einem Benutzer ermöglicht, das Thema einzugeben. - Spracherkennungsprozessor nach Anspruch 1, wobei es sich bei dem Themenerkennungsmittel um eine Spracherkennungs-Benutzeroberflächenvorrichtung (
60 ) handelt, die es einem Benutzer ermöglicht, das Thema verbal einzugeben. - Spracherkennungsprozessor nach Anspruch 1, wobei das Themenbestimmungsmittel das Thema aus einer vorab gespeicherten Textnachricht ableitet.
- Spracherkennungsprozessor nach Anspruch 1, wobei der Sprachmodellabrufabschnitt (
54 ) über eine Internet-Verbindung auf einen Server (56 ) zugreift, um das Sprachmodell abzurufen. - Spracherkennungsprozessor nach Anspruch 5, wobei der Sprachmodellabrufabschnitt (
54 ) über eine drahtlose Verbindung auf den Server (56 ) zugreift. - Spracherkennungsprozessor nach Anspruch 1, der weiter einen Textzusammenfassungsabschnitt (
62 ) zum Zusammenfassen des Texts umfasst. - Spracherkennungsprozessor nach Anspruch 1, wobei der Anzeigeabschnitt (
45 ) eine E-Mail-Vorlage (52 ) zum Anzeigen des Texts nutzt. - Spracherkennungsprozessor nach Anspruch 1, eingebettet in einer persönlichen digitalen Computervorrichtung (
10 ), wobei die persönliche digitale Computervorrichtung (10 ) Folgendes umfasst: ein Gehäuse (12 ) mit einem Anzeigebildschirm (14 ) und einer Eingabetastatur, die an einer Außenseite desselben angeordnet sind; eine Mikrofoneinheit (24 ), die in dem Gehäuse angeordnet ist; eine Sender/Empfänger-Vorrichtung (22a ), (22b ), die in dem Gehäuse angeordnet ist; einen Prozessor (18 ) zum Verarbeiten eingegebener Sprache einschließlich dem Themenbestimmungsmittel zum Bestimmen eines Themas der eingegebenen Sprache, Spracheingabemitteln (36 ), dem Spracheingabemittel (36 ), um es einem Benutzer zu ermöglichen, eine Sprachnachricht über das Mikrofon einzugeben, einem Sprachmodellabrufabschnitt (54 ), das dazu angepasst ist, über die Sender/Empfänger-Vorrichtung auf einen Internet-Server (56 ) zuzugreifen, um basierend auf dem Thema ein Sprachmodell vom Internet- Server abzurufen, dem Spracherkennungsmodul (60 ), das das abgerufene Sprachmodell nutzt, um die Sprachnachricht zu Text zu konvertieren und dem Anzeigeabschnitt zum Anzeigen des Texts auf dem Anzeigebildschirm. - Persönliche digitale Computervorrichtung nach Anspruch 9, wobei es sich bei dem Themenerkennungsmittel um eine Tastatur-Benutzeroberflächenvorrichtung (
48 ) handelt, die es einem Benutzer ermöglicht, das Thema einzugeben. - Persönliche digitale Computervorrichtung nach Anspruch 9, wobei es sich bei dem Themenerkennungsmittel um eine Spracherkennungs-Benutzeroberflächenvorrichtung (
60 ) handelt, die es einem Benutzer ermöglicht, das Thema einzugeben. - Persönliche digitale Computervorrichtung nach Anspruch 9, wobei das Themenbestimmungsmittel das Thema aus einer vorab gespeicherten Textnachricht ableitet.
- Persönliche digitale Computervorrichtung nach Anspruch 9, wobei der Sprachmodellabrufabschnitt (
54 ) über eine drahtlose Verbindung auf den Server (56 ) zugreift. - Persönliche digitale Computervorrichtung nach Anspruch 9, wobei der Prozessor einen Textzusammenfassungsabschnitt (
62 ) zum Zusammenfassen des Texts umfasst. - Persönliche digitale Computervorrichtung nach Anspruch 9, wobei der Anzeigeabschnitt (
45 ) eine E-Mail-Vorlage (52 ) zum Anzeigen des Texts nutzt.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/951,093 US6901364B2 (en) | 2001-09-13 | 2001-09-13 | Focused language models for improved speech input of structured documents |
US951093 | 2001-09-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60217241D1 DE60217241D1 (de) | 2007-02-15 |
DE60217241T2 true DE60217241T2 (de) | 2007-05-31 |
Family
ID=25491252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60217241T Expired - Fee Related DE60217241T2 (de) | 2001-09-13 | 2002-08-16 | Fokussierte Sprachmodelle zur Verbesserung der Spracheingabe von strukturierten Dokumenten |
Country Status (4)
Country | Link |
---|---|
US (1) | US6901364B2 (de) |
EP (1) | EP1293962B1 (de) |
AT (1) | ATE350744T1 (de) |
DE (1) | DE60217241T2 (de) |
Families Citing this family (222)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7490092B2 (en) | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
US7243069B2 (en) * | 2000-07-28 | 2007-07-10 | International Business Machines Corporation | Speech recognition by automated context creation |
US8032084B2 (en) | 2001-07-18 | 2011-10-04 | Data Transfer & Communications Limited | Data security device |
US7146320B2 (en) * | 2002-05-29 | 2006-12-05 | Microsoft Corporation | Electronic mail replies with speech recognition |
US20040133416A1 (en) * | 2002-07-18 | 2004-07-08 | Norio Fukuoka | Information terminal device, method of acquiring information corresponding to language identification information from server and program thereof, network system, additional function purchasing progam, and program function adding method |
JP3979209B2 (ja) * | 2002-07-23 | 2007-09-19 | オムロン株式会社 | データ入力方法およびデータ入力装置 |
US7584102B2 (en) * | 2002-11-15 | 2009-09-01 | Scansoft, Inc. | Language model for use in speech recognition |
US7315902B2 (en) * | 2002-12-19 | 2008-01-01 | International Business Machines Corporation | Compression and abbreviation for fixed length messaging |
GB2424153B (en) * | 2003-09-11 | 2007-09-19 | Voice Signal Technologies Inc | Method and apparatus for back-up of customized application information |
GB2406471B (en) * | 2003-09-25 | 2007-05-23 | Samsung Electronics Co Ltd | Improvements in mobile communication devices |
GB0322516D0 (en) * | 2003-09-25 | 2003-10-29 | Canon Europa Nv | Cellular mobile communication device |
JP2005200547A (ja) * | 2004-01-15 | 2005-07-28 | Tombow Pencil Co Ltd | 筆記具用水性インキ組成物 |
US7672436B1 (en) * | 2004-01-23 | 2010-03-02 | Sprint Spectrum L.P. | Voice rendering of E-mail with tags for improved user experience |
US7570746B2 (en) * | 2004-03-18 | 2009-08-04 | Sony Corporation | Method and apparatus for voice interactive messaging |
JP2005293174A (ja) * | 2004-03-31 | 2005-10-20 | Toshiba Corp | テキストデータ編集装置、テキストデータ編集方法及びテキストデータ編集プログラム |
US7275049B2 (en) * | 2004-06-16 | 2007-09-25 | The Boeing Company | Method for speech-based data retrieval on portable devices |
US20060020465A1 (en) * | 2004-07-26 | 2006-01-26 | Cousineau Leo E | Ontology based system for data capture and knowledge representation |
JP4802489B2 (ja) * | 2004-12-07 | 2011-10-26 | 日本電気株式会社 | 音データ提供システムおよびその方法 |
US7599830B2 (en) | 2005-03-16 | 2009-10-06 | Research In Motion Limited | Handheld electronic device with reduced keyboard and associated method of providing quick text entry in a message |
US7620540B2 (en) * | 2005-04-29 | 2009-11-17 | Research In Motion Limited | Method for generating text in a handheld electronic device and a handheld electronic device incorporating the same |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7603424B2 (en) * | 2005-11-03 | 2009-10-13 | Research In Motion Limited | Method and system for generating template replies to electronic mail messages |
WO2007063329A2 (en) * | 2005-12-02 | 2007-06-07 | Data Transfer & Communications Limited | Communication device and method |
US8265933B2 (en) * | 2005-12-22 | 2012-09-11 | Nuance Communications, Inc. | Speech recognition system for providing voice recognition services using a conversational language model |
US11128745B1 (en) * | 2006-03-27 | 2021-09-21 | Jeffrey D. Mullen | Systems and methods for cellular and landline text-to-audio and audio-to-text conversion |
US8510109B2 (en) * | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US9436951B1 (en) | 2007-08-22 | 2016-09-06 | Amazon Technologies, Inc. | Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof |
US20090124272A1 (en) * | 2006-04-05 | 2009-05-14 | Marc White | Filtering transcriptions of utterances |
US8117268B2 (en) * | 2006-04-05 | 2012-02-14 | Jablokov Victor R | Hosted voice recognition system for wireless devices |
CA2644666A1 (en) * | 2006-04-17 | 2007-10-25 | Vovision Llc | Methods and systems for correcting transcribed audio files |
US20070250576A1 (en) * | 2006-04-21 | 2007-10-25 | Shruti Kumar | Method and system for automatically providing an abstract of a response message in a subject line of the response message |
US8521510B2 (en) * | 2006-08-31 | 2013-08-27 | At&T Intellectual Property Ii, L.P. | Method and system for providing an automated web transcription service |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080065378A1 (en) * | 2006-09-08 | 2008-03-13 | James Wyatt Siminoff | System and method for automatic caller transcription (ACT) |
JP4188989B2 (ja) * | 2006-09-15 | 2008-12-03 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
KR100814641B1 (ko) * | 2006-10-23 | 2008-03-18 | 성균관대학교산학협력단 | 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법 |
US7415409B2 (en) * | 2006-12-01 | 2008-08-19 | Coveo Solutions Inc. | Method to train the language model of a speech recognition system to convert and index voicemails on a search engine |
US8433576B2 (en) * | 2007-01-19 | 2013-04-30 | Microsoft Corporation | Automatic reading tutoring with parallel polarized language modeling |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8352261B2 (en) * | 2008-03-07 | 2013-01-08 | Canyon IP Holdings, LLC | Use of intermediate speech transcription results in editing final speech transcription results |
US20090076917A1 (en) * | 2007-08-22 | 2009-03-19 | Victor Roditis Jablokov | Facilitating presentation of ads relating to words of a message |
US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US9973450B2 (en) * | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8326636B2 (en) | 2008-01-16 | 2012-12-04 | Canyon Ip Holdings Llc | Using a physical phenomenon detector to control operation of a speech recognition engine |
US8611871B2 (en) | 2007-12-25 | 2013-12-17 | Canyon Ip Holdings Llc | Validation of mobile advertising from derived information |
CN101286154B (zh) * | 2007-04-09 | 2016-08-10 | 谷歌股份有限公司 | 输入法编辑器用户档案 |
US9286385B2 (en) * | 2007-04-25 | 2016-03-15 | Samsung Electronics Co., Ltd. | Method and system for providing access to information of potential interest to a user |
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
US9053489B2 (en) | 2007-08-22 | 2015-06-09 | Canyon Ip Holdings Llc | Facilitating presentation of ads relating to words of a message |
US8296377B1 (en) | 2007-08-22 | 2012-10-23 | Canyon IP Holdings, LLC. | Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof |
US8306822B2 (en) * | 2007-09-11 | 2012-11-06 | Microsoft Corporation | Automatic reading tutoring using dynamically built language model |
US20090070109A1 (en) * | 2007-09-12 | 2009-03-12 | Microsoft Corporation | Speech-to-Text Transcription for Personal Communication Devices |
US20110022387A1 (en) * | 2007-12-04 | 2011-01-27 | Hager Paul M | Correcting transcribed audio files with an email-client interface |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8676577B2 (en) | 2008-03-31 | 2014-03-18 | Canyon IP Holdings, LLC | Use of metadata to post process speech recognition output |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8112494B2 (en) * | 2008-08-13 | 2012-02-07 | Mediawave International Corporation | Systems and methods for provision of content data |
US8301454B2 (en) | 2008-08-22 | 2012-10-30 | Canyon Ip Holdings Llc | Methods, apparatuses, and systems for providing timely user cues pertaining to speech recognition |
JP5049934B2 (ja) * | 2008-09-22 | 2012-10-17 | 株式会社東芝 | 対話文生成装置及び方法 |
US20100145677A1 (en) * | 2008-12-04 | 2010-06-10 | Adacel Systems, Inc. | System and Method for Making a User Dependent Language Model |
US8447608B1 (en) * | 2008-12-10 | 2013-05-21 | Adobe Systems Incorporated | Custom language models for audio content |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US9442933B2 (en) * | 2008-12-24 | 2016-09-13 | Comcast Interactive Media, Llc | Identification of segments within audio, video, and multimedia items |
US8713016B2 (en) | 2008-12-24 | 2014-04-29 | Comcast Interactive Media, Llc | Method and apparatus for organizing segments of media assets and determining relevance of segments to a query |
US11531668B2 (en) * | 2008-12-29 | 2022-12-20 | Comcast Interactive Media, Llc | Merging of multiple data sets |
US8176043B2 (en) | 2009-03-12 | 2012-05-08 | Comcast Interactive Media, Llc | Ranking search results |
GB0905457D0 (en) | 2009-03-30 | 2009-05-13 | Touchtype Ltd | System and method for inputting text into electronic devices |
US9424246B2 (en) * | 2009-03-30 | 2016-08-23 | Touchtype Ltd. | System and method for inputting text into electronic devices |
US10191654B2 (en) | 2009-03-30 | 2019-01-29 | Touchtype Limited | System and method for inputting text into electronic devices |
US20100250614A1 (en) * | 2009-03-31 | 2010-09-30 | Comcast Cable Holdings, Llc | Storing and searching encoded data |
US8533223B2 (en) | 2009-05-12 | 2013-09-10 | Comcast Interactive Media, LLC. | Disambiguation and tagging of entities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9892730B2 (en) | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
TWI399739B (zh) * | 2009-11-13 | 2013-06-21 | Ind Tech Res Inst | 語音留言與傳達之系統與方法 |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP3091535B1 (de) | 2009-12-23 | 2023-10-11 | Google LLC | Multimodale eingabe in eine elektronische vorrichtung |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8643562B2 (en) | 2010-07-30 | 2014-02-04 | Donald C. D. Chang | Compact patch antenna array |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) * | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9202465B2 (en) * | 2011-03-25 | 2015-12-01 | General Motors Llc | Speech recognition dependent on text message content |
US9679561B2 (en) * | 2011-03-28 | 2017-06-13 | Nuance Communications, Inc. | System and method for rapid customization of speech recognition models |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9009606B2 (en) * | 2011-06-28 | 2015-04-14 | International Business Machines Corporation | Instant messaging association to remote desktops |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8965763B1 (en) | 2012-02-02 | 2015-02-24 | Google Inc. | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9747895B1 (en) * | 2012-07-10 | 2017-08-29 | Google Inc. | Building language models for a user in a social network from linguistic information |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US11468243B2 (en) | 2012-09-24 | 2022-10-11 | Amazon Technologies, Inc. | Identity-based display of text |
US10303746B1 (en) | 2012-12-21 | 2019-05-28 | CRLK, Inc. | Method for coding a vanity message for display |
US11010535B1 (en) | 2012-12-21 | 2021-05-18 | Crkl, Inc. | Method for coding a vanity message for display |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN105264524B (zh) | 2013-06-09 | 2019-08-02 | 苹果公司 | 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
CN104750705B (zh) * | 2013-12-27 | 2019-05-28 | 华为技术有限公司 | 信息回复方法及装置 |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
EP3149728B1 (de) | 2014-05-30 | 2019-01-16 | Apple Inc. | Eingabeverfahren durch einzelne äusserung mit mehreren befehlen |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
KR102371770B1 (ko) * | 2015-01-19 | 2022-03-07 | 삼성전자주식회사 | 음성 인식 장지 및 방법 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10965622B2 (en) * | 2015-04-16 | 2021-03-30 | Samsung Electronics Co., Ltd. | Method and apparatus for recommending reply message |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10896681B2 (en) | 2015-12-29 | 2021-01-19 | Google Llc | Speech recognition with selective use of dynamic language models |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
GB201610984D0 (en) | 2016-06-23 | 2016-08-10 | Microsoft Technology Licensing Llc | Suppression of input images |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10642936B2 (en) | 2016-09-26 | 2020-05-05 | International Business Machines Corporation | Automated message sentiment analysis and aggregation |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
US10535342B2 (en) * | 2017-04-10 | 2020-01-14 | Microsoft Technology Licensing, Llc | Automatic learning of language models |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US11307880B2 (en) * | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
US20190327330A1 (en) | 2018-04-20 | 2019-10-24 | Facebook, Inc. | Building Customized User Profiles Based on Conversational Data |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US11011166B2 (en) * | 2018-11-29 | 2021-05-18 | International Business Machines Corporation | Voice message categorization and tagging |
US20200211540A1 (en) * | 2018-12-27 | 2020-07-02 | Microsoft Technology Licensing, Llc | Context-based speech synthesis |
US20240062008A1 (en) * | 2022-08-17 | 2024-02-22 | Snap Inc. | Text-guided sticker generation |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0602296A1 (de) * | 1992-12-17 | 1994-06-22 | International Business Machines Corporation | Adaptives Verfahren zur Erzeugung gebietsabhängiger Modelle für intelligente Systeme |
US5613036A (en) * | 1992-12-31 | 1997-03-18 | Apple Computer, Inc. | Dynamic categories for a speech recognition system |
US5745776A (en) * | 1995-04-19 | 1998-04-28 | Sheppard, Ii; Charles Bradford | Enhanced electronic dictionary |
US6188976B1 (en) * | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US6463413B1 (en) * | 1999-04-20 | 2002-10-08 | Matsushita Electrical Industrial Co., Ltd. | Speech recognition training for small hardware devices |
US6308151B1 (en) * | 1999-05-14 | 2001-10-23 | International Business Machines Corp. | Method and system using a speech recognition system to dictate a body of text in response to an available body of text |
US6718367B1 (en) * | 1999-06-01 | 2004-04-06 | General Interactive, Inc. | Filter for modeling system and method for handling and routing of text-based asynchronous communications |
US6308158B1 (en) | 1999-06-30 | 2001-10-23 | Dictaphone Corporation | Distributed speech recognition system with multi-user input stations |
US6532446B1 (en) * | 1999-11-24 | 2003-03-11 | Openwave Systems Inc. | Server based speech recognition user interface for wireless devices |
US6507643B1 (en) * | 2000-03-16 | 2003-01-14 | Breveon Incorporated | Speech recognition system and method for converting voice mail messages to electronic mail messages |
US20020013692A1 (en) * | 2000-07-17 | 2002-01-31 | Ravinder Chandhok | Method of and system for screening electronic mail items |
US7003724B2 (en) * | 2000-12-08 | 2006-02-21 | Xerox Corporation | Method and system for display of electronic mail |
US7003736B2 (en) * | 2001-01-26 | 2006-02-21 | International Business Machines Corporation | Iconic representation of content |
US6687671B2 (en) * | 2001-03-13 | 2004-02-03 | Sony Corporation | Method and apparatus for automatic collection and summarization of meeting information |
-
2001
- 2001-09-13 US US09/951,093 patent/US6901364B2/en not_active Expired - Lifetime
-
2002
- 2002-08-16 AT AT02255746T patent/ATE350744T1/de not_active IP Right Cessation
- 2002-08-16 DE DE60217241T patent/DE60217241T2/de not_active Expired - Fee Related
- 2002-08-16 EP EP02255746A patent/EP1293962B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1293962A3 (de) | 2004-08-04 |
EP1293962A2 (de) | 2003-03-19 |
DE60217241D1 (de) | 2007-02-15 |
US20030050778A1 (en) | 2003-03-13 |
US6901364B2 (en) | 2005-05-31 |
ATE350744T1 (de) | 2007-01-15 |
EP1293962B1 (de) | 2007-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60217241T2 (de) | Fokussierte Sprachmodelle zur Verbesserung der Spracheingabe von strukturierten Dokumenten | |
DE60219992T2 (de) | Verfahren und Vorrichtung zur Multimedianachrichtenübertragung | |
DE60019301T2 (de) | Verbesserte text-zu-sprache umsetzung | |
DE4436175B4 (de) | Vorrichtung zum Fernzugreifen auf einen Computer ausgehend von einem Telefonhandapparat | |
EP1113420B1 (de) | Verfahren zur Spracherkennung und Kontrolle einer Sprachsyntheseneinheit oder Kommunikationssystem | |
DE602005002156T2 (de) | Befehlsgesteuertes System zum Rundsenden von Gruppen-Kurznachrichten (SMS) mit mobilem Nachrichtenempfänger und Kommunikations-Server | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
DE102016125852A1 (de) | Verfahren und Vorrichtung für das Ermitteln des nicht-textlichen Antwortinhalts zur Einbeziehung in eine Antwort auf eine elektronische Kommunikation | |
US20050154580A1 (en) | Automated grammar generator (AGG) | |
DE60201939T2 (de) | Vorrichtung zur sprecherunabhängigen Spracherkennung , basierend auf einem Client-Server-System | |
KR20090000442A (ko) | 범용 대화서비스 장치 및 그 방법 | |
DE202016008243U1 (de) | Erweitern von Nachrichtenaustausch-Threads | |
CN106708632A (zh) | 信息编辑方法和信息编辑装置 | |
WO2005106847A2 (de) | Verfahren und vorrichtung für einen akustischen zugang zu einem anwendungsrechner | |
KR20000024318A (ko) | 인터넷을 이용한 tts 시스템 및 tts 서비스 방법 | |
Jemni et al. | Sign Language MMS to Make Cell Phones Accessible to the Deaf and Hard-of-hearing Community. | |
DE10118125A1 (de) | Automatisches Auskunftssystem | |
CN112800195B (zh) | 一种对话机器人的配置方法及系统 | |
CN110795550B (zh) | 一种提高闲聊对话系统回答丰富性的方法 | |
JP3849356B2 (ja) | 文字変換装置及びその方法と文字変換のためのプログラムを記録した記録媒体 | |
EP1352388B1 (de) | Verfahren und anordnung zur spracherkennung für ein kleingerät | |
DE69910412T2 (de) | Sprachgesteuerte navigation für einen elektronischen post leser | |
DE69928022T2 (de) | Funktionstaste zur computer-databearbeitung | |
Whalen et al. | COMODA: a conversation model for database access | |
DE102004014725A1 (de) | Verfahren und Computer zum Versenden eines elektronischen Dokumentes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: PANASONIC CORP., KADOMA, OSAKA, JP |
|
8339 | Ceased/non-payment of the annual fee |