-
TECHNISCHES
GEBIET
-
Diese
Erfindung betrifft im Allgemeinen das Gebiet von Datenverarbeitungssystemen
mit mehreren Quellen (multi-source data processing systems) und
insbesondere ein Hintergrundsystem zur Wiedergewinnung von Audiodaten
für Systeme/Software zur
Spracherkennung.
-
ALLGEMEINER
STAND DER TECHNIK
-
Seit
der Einführung
des Personal-Computers erfolgte die Interaktion des Menschen mit
dem Rechner vorwiegend über
die Tastatur. Wenn ein Benutzer Informationen erfassen oder einen
Befehl in einen Rechner eingeben möchte, tippt er normalerweise die
Informationen oder den Befehl auf der Tastatur, die an den Rechner
angeschlossen ist. Zu anderen Eingabevorrichtungen, welche die Tastatur
als eine Eingabevorrichtung ergänzt
haben, gehören
die Maus, Bildschirme mit Berührungseingabe,
integrierte Zeigervorrichtungen und Scanner. Der Einsatz dieser
anderen Eingabevorrichtungen hat die Menge der für die Eingabe von Daten oder
Befehlen in den Rechner aufgewendeten Benutzerzeit verringert.
-
Rechnerbasierte
Stimmerkennungs- und Spracherkennungssysteme (voice recognition
and speech recognition systems) wurden ebenfalls für die Daten-
oder Befehlseingabe in Personal-Computer verwendet. Stimmerkennungs-
und Spracherkennungssysteme wandeln menschliche Sprache in ein Format
um, das der Rechner verstehen kann. Wenn ein Rechner mit einem Stimmerkennungs-
oder Spracherkennungssystem ausgestattet ist, kann die Daten- und
Befehlseingabe allein durch das Sprechen der Daten oder des Befehls
zum Rechner ausgeführt
werden. Die Geschwindigkeit, mit welcher der Benutzer sprechen kann,
ist normalerweise schneller als die herkömmliche Eingabe von Daten oder
Befehlen. Daher ist die inhärente
Geschwindigkeit beim Verbreiten von Daten oder Befehlen durch die menschliche
Sprache ein begehrter Vorteil hinsichtlich der Integration von Stimmerkennungs-
und Spracherkennungssystemen in Personal-Computern.
-
Die
erhöhte
Effizienz von Benutzern, die mit Personal-Computern arbeiten, die
mit Stimmerkennungs- und Spracherkennungssystemen ausgestattet sind,
hat den Einsatz solcher Systeme am Arbeitsplatz gefördert. Viele
Arbeitnehmer in einer Reihe von Industriebranchen verwenden jetzt
Stimmerkennungs- und Spracherkennungssysteme für zahlreiche Anwendungen. Beispielsweise
wurden Softwareprogramme für
Rechner, die Stimmerkennungs- und Spracherkennungs-Technologien
nutzen, von DRAGON, IBM und LERNOUT & HAUSPIE erstellt. Wenn ein Benutzer
einem Stimmerkennungsprogramm ein Dokument laut vorliest oder diktiert,
kann das Programm die vom Benutzer gesprochenen Wörter direkt
in ein Textverarbeitungsprogramm eingeben, das auf einem Personal-Computer
läuft.
-
Im
Allgemeinen wandeln rechnerbasierte Stimmerkennungs- und Spracherkennungsprogramme
die menschliche Sprache in eine Reihe von digitalisierten Frequenzen
um. Diese Frequenzen werden mit einer vorher gespeicherten Gruppe
von Wörtern
oder Phonemen abgeglichen. Wenn der Rechner korrekte Übereinstimmungen
für die
Reihe von Frequenzen ermittelt, wird die Erkennung dieses Teils
von menschlicher Sprache durch den Rechner durchgeführt. Die
Frequenzübereinstimmungen
werden kompiliert, bis für
eine Reaktion des Rechners genügend
Informationen gesammelt sind. Der Rechner kann dann auf gewisse
gesprochene Wörter
reagieren, indem er die menschliche Sprache in einer Speichervorrichtung
speichert, die menschliche Sprache in ein Dokument für ein Textverarbeitungsprogramm
umsetzt oder einen Befehl in einem Anwendungsprogramm ausführt.
-
Allerdings
sind die Stimmerkennungs- und Spracherkennungssysteme nicht 100-prozentig
exakt. Selbst mit Hardware- und Software-Modifizierungen lässt sich
mit den effizientesten Stimmerkennungs- und Spracherkennungssystemen
nur eine Genauigkeit von etwa 97 bis 99% erzielen. Interne und externe
Faktoren können
die Zuverlässigkeit
der Stimmerkennungs- und Spracherkennungssysteme beeinflussen. Interne
Faktoren, die von der Erkennungstechnologie abhängen, umfassen den Abgleich zwischen
der finiten Gruppe von Wörtern/Phonemen und
dem Wörtervokabular
eines Sprechers. Externe Faktoren umfassen die Umgebung, wie beispielsweise
regionale Akzente, externe Geräusche,
und die Art des Mikrofons kann die Qualität der Eingabe verschlechtern,
wo durch die Frequenz der Wörter
des Benutzers beeinträchtigt
wird und potenzielle Fehler in den Wort- oder Phonem-Abgleich eingeführt werden.
-
Herkömmliche
Stimmerkennungssysteme leiden unter beträchtlichen Erkennungs-Fehlerraten. Es
wurden verschiedene Lösungen
angewendet, um die Erkennungsrate zu erhöhen und die Anzahl der Erkennungsfehler
zu reduzieren. Eine Lösung
besteht darin, das Stimmerkennungs- oder Spracherkennungsprogramm
auf das Erkennen der Frequenzen für eine bestimmte menschliche
Stimme zu schulen. In einem sprecherabhängigen Stimmerkennungssystem
erstellt das System ein Stimmenprofil, das die Aussprachemuster
erkennt, die für
eine bestimmte menschliche Stimme eindeutig sind. Systeme, die nicht
auf einen bestimmten Sprecher geschult sind, werden als sprecherunabhängige Systeme
bezeichnet und sind daher anfälliger
für Erkennungsfehler,
die auf regionale Akzente oder Unterschiede in der Aussprache zurückzuführen sind.
-
Eine
andere Lösung
verwendet ein Verfahren, das als diskrete Spracheingabe (discrete
speech input) bezeichnet wird. Für
die diskrete Spracheingabe ist es erforderlich, dass der Benutzer
relativ langsam spricht, wobei er zwischen jedem Wort eine Pause
einlegt, bevor er das nächste
Wort sagt. Die vom Benutzer gemachte Pause gibt dem Stimmerkennungssystem
eine Gelegenheit, zwischen dem Anfang und dem Ende jedes Worts des
Benutzers zu unterscheiden. Stimmerkennungssysteme, die auf diskreter
Spracheingabe basieren, sind langsam und mühsam für Benutzer, die daran gewöhnt sind,
mit normaler Unterhaltungsgeschwindigkeit zu sprechen.
-
Eine
alternative Lösung
umfasst ein Verfahren, das auf kontinuierlicher Spracheingabe beruht. Bei
Systemen mit kontinuierlicher Spracheingabe ist es erforderlich,
dass der Benutzer eine begrenzte Gruppe von Wörtern sagt, die vorher in dem
Systemvokabular gespeichert worden sind. Daher beruht das Stimmerkennungssystem
auf einem begrenzten Vokabular von Wörtern. Diese Systeme werden
optimal eingesetzt, wenn das System von Benutzern in einer Umgebung
mit einem speziellen Vokabular verwendet wird. Beispielsweise wurden
Systeme mit kontinuierlicher Spracheingabe in der medizinischen Industrie
in bestimmten Bereichen wie der Radiologie, Orthopädie, inneren
Medizin, Notfallmedizin, psychischen Krankheiten usw. implementiert.
Allerdings sind Systeme mit kontinuierlicher Spracheingabe durch
ihre inhärenten
Unzulänglichkeiten
des Vokabulars begrenzt, wodurch ihre Einsatzmöglichkeit in anderen Branchen
oder Arbeitsumgebungen eingeschränkt
wird.
-
Letztendlich
werden Systeme mit natürlicher Spracheingabe
auf den Markt kommen. Bei diesen Systemen wird es nicht mehr erforderlich
sein, dass der Benutzer in einer bestimmten Weise spricht, damit
der Rechner ihn verstehen kann, sondern dieser wird in der Lage
sein, den Unterschied zu verstehen zwischen dem Befehl eines Benutzers
an den Rechner und Informationen, die in den Rechner eingegeben
werden sollen.
-
Im
Rest dieser Offenbarung werden die Begriffe "Stimmerkennung" und "Spracherkennung" synonym verwendet. In einigen Fällen wird
eine Unterscheidung zwischen Stimmerkennung und Spracherkennung
getroffen. Allerdings leiden beide, das Stimmerkennungs- und das
Spracherkennungssystem, unter den gleichen Zuverlässigkeitsproblemen,
die vorher beschrieben wurden, und es wurden die gleichen Lösungen auf
beide Erkennungstechnologien angewendet, um eine Lösung für die Unzulänglichkeiten
bisherigen des Stands der Technik bereitzustellen.
-
Probleme des herkömmlichen
Stands der Technik die durch die vorliegende Erfindung gelöst werden
sollen
-
Viele
Datenverarbeitungssysteme mit mehreren Quellen umfassen eine Spracherkennungs-Software.
Wie oben beschrieben, weist die herkömmliche Spracherkennungs-Software viele Nachteile
auf. Ein großer
Nachteil ist, dass ein Anwendungsprogramm, wie beispielsweise ein
Textverarbeitungsprogramm, das die Spracherkennungs-Software verwendet,
häufig
das von einem Benutzer generierte Diktat verliert oder es nicht
richtig erfasst.
-
Es
gibt zwei wichtige Gründe
dafür,
dass ein Diktat nicht richtig erfasst wird: Einer der Hauptgründe für dieses
verloren gegangene Diktat besteht darin, dass die Benutzer oft vergessen,
die Spracherkennungs-Software zu aktivieren, weil die Statusanzeigen
oder Symbole für
das Mikrofon auf einer Anzeigevorrichtung schlecht zu finden sind.
Ein weiterer Grund dafür,
dass ein Diktat nicht richtig erfasst wird, ist, dass die Benutzer
oft davon ausgehen, dass das Mikrofon der Spracherkennungs-Software
eingeschaltet ist und beginnen, ihre Gedanken zu diktieren. Nach
ein paar Minuten stellen die Benutzer je doch fest, dass ihre gesprochenen
Befehle und/oder das Diktierte von der Spracherkennungs-Software nicht
aufgezeichnet oder richtig verarbeitet wurden. In solchen Situationen
müssen
die Benutzer die Spracherkennungs-Software "einschalten" oder "aufwecken" und ihre Gedanken nochmals diktieren. Dies
kann über
die Sprache erfolgen, selbst das "Aufwecken" des Rechners selbst, siehe beispielsweise "Method for Using
Voice Detection to Restore Computing Equipment in Low-Power State
to Normal Operation" im
IBM Technical Disclaims Bulletin, Band 41, Nr. 01, S. 445 – 446, Januar
1998.
-
Eine
weitere Ursache für
ein verloren gegangenes Diktat ist, dass die Rechner, von denen
die Spracherkennungs-Software unterstützt wird, oft sehr langsame
Verarbeitungsgeschwindigkeiten aufweisen. Normalerweise ist für die Spracherkennungs-Software
eine höhere
Verarbeitungsleistung als in Bezug auf die alltäglichen Anwendungen erforderlich,
und viele herkömmliche
Rechner erfüllen
die Anforderungen der Spracherkennungs-Software nicht in ausreichendem
Maß. Bei
herkömmlichen Rechnern
kann es oft der Fall sein, dass der Benutzer einen Befehl äußert und
davon ausgeht, dass der Befehl vom Rechner richtig erfasst wurde.
Der Benutzer fährt
danach direkt mit dem Diktat fort. Wenn die Software den Befehl "Einschalten" nicht erfasst hat, dann
würde keine
der Äußerungen
des Benutzers erfasst. In solchen Fällen müssen die Benutzer ihre Äußerungen
nochmals so diktieren, dass diese Informationen von dem Rechner
erfasst werden.
-
Bei
einigen der herkömmlichen
Spracherkennungs-Softwares wurde versucht, diese Probleme durch
Bereitstellen von besser sichtbaren Statusanzeigen bzw. Symbolen
für das
Mikrofon bereitzustellen. Diese schnelle Problembehebung oder einfache
Lösung
löst die
vorher genannten Probleme nicht vollständig. Obwohl durch eine besser
sichtbare Anzeige bzw. ein besser sichtbares Symbol für das Mikrofon
die Wahrscheinlichkeit reduziert wird, dass Benutzer versehentlich
diktieren, ohne dass die Spracherkennungs-Software aktiviert ist, bemerken einige
Benutzer die Statusanzeige bzw. das Symbol für das Mikrofon immer noch nicht
oder achten nicht darauf.
-
Beispielsweise
diktieren viele Benutzer, während
sie auf geschriebenes Material blicken, wie beispielsweise auf Notizen
oder Bücher
auf ihrem Schreibtisch, und daher sehen solche Benutzer nicht auf
die Anzeigevorrichtung. Für
diese Benutzer stellt eine besser sichtbare Statusanzeige bzw. ein
besser sichtbares Symbol für
das Mikrofon keine Min derung des Problems eines verloren gegangenen
Diktats dar. Aber selbst mit größeren Statusanzeigen
bzw. Symbolen für
das Mikrofon müssen
die Benutzer einer Spracherkennungs-Software wegen der niedrigen
Geschwindigkeiten von herkömmlichen
Rechnern immer noch eine beträchtliche
Zeit warten, bis die Spracherkennungs-Software aktiviert oder "eingeschaltet" wird.
-
Weitere
Probleme der Spracherkennungs-Software umfassen Fehler bei der Verarbeitung
von Sprache, in der die Spracherkennungs-Software gesprochene Wörter unabsichtlich
durch Wörtern
ersetzt, die phonetisch ähnlich
klingen. Beispielsweise könnte
das Wort "Fenster" von die Spracherkennungs-Software
als der Begriff "finster" interpretiert werden.
-
Demzufolge
besteht ein allgemeiner Bedarf des Stands der Technik an einem Hintergrundsystem zur
Wiedergewinnung von Audiodaten, das mit einem Rechnersystem eingesetzt
werden kann, das diktierte Sprache erfasst und verarbeitet, die
generiert wird, während
die Spracherkennungs-Software einem inaktiven Status zugewiesen
ist. Es besteht ein weiterer Bedarf des Stands der Technik an einem Hintergrundsystem
zur Wiedergewinnung von Audiodaten, das die tatsächlichen Hintergrund-Audiodaten wiedergibt,
die von einem Benutzer generiert werden, um verbesserte Aufbereitungsleistungen
für die verarbeitete
Sprache bereitzustellen. Es besteht ein weiterer Bedarf an einem
Hintergrundsystem zur Wiedergewinnung von Audiodaten, das es einem
Benutzer ermöglicht,
Hintergrund-Audiodaten zu bearbeiten, bevor Hintergrund-Audiodaten
in ein offenes Dokument eines Anwendungsprogramms eingegeben werden.
-
KURZDARSTELLUNG
DER ERFINDUNG
-
Die
vorliegende Erfindung gemäß den Ansprüchen 1 und
20 betrifft im Allgemeinen ein Hintergrundsystem zur Wiederherstellung
von Audiodaten, das ein Programm-Modul zur Spracherkennung ausweist,
Audiodaten aufzeichnen kann und anschließend Spracherkennungs-Techniken
auf die im Hintergrund erfassten Sprachdaten oder die Audiodaten anwendet,
die von einem Mikrofon empfangen wurden, wenn dem Programm-Modul
zur Spracherkennung versehentlich ein inaktiver Modus zugewiesen wurde.
Dieses kontinuierliche Erfassen aller Audiodaten bzw. der Sprachdaten
im Hintergrund, die von einem Mikrofon empfangen werden, während dem Programm-Modul
zur Spracherkennung ein inaktiver Modus zugewiesen ist, verhindert
den Verlust eines Diktats von einem Benutzer.
-
Wie
oben angegeben, speichert das Hintergrundsystem zur Wiedergewinnung
von Audiodaten der vorliegenden Erfindung kontinuierlich Sprache oder
Audiodaten im Hintergrund, wenn dem Programm-Modul zur Spracherkennung
ein inaktiver Modus zugewiesen ist. Wenn der Benutzer feststellt, dass
das Mikrofon für
das Programm-Modul zur Spracherkennung nicht "eingeschaltet" war oder als inaktiv ausgewiesen war,
wird das Mikrofon durch den Benutzer dann entweder durch eine gesprochenes
Befehlswort oder eine Tastatureingabe richtig "eingeschaltet". Das Programm-Modul zur Spracherkennung
fragt das Anwendungsprogramm ab, ob Sprachdaten oder Audiodaten
vor dem "Einschalten" oder Aktivieren
des Programm-Moduls zur Spracherkennung im Hintergrund gespeichert
wurden.
-
Wenn
Audiodaten oder Sprachdaten im Hintergrund gespeichert wurden, informiert
das Hintergrundsystem zur Wiedergewinnung von Audiodaten den Benutzer,
dass vor dem Aktivieren des Mikrofons (oder der Aktivierung des
Programm-Moduls zur Spracherkennung) Sprachdaten im Hintergrund
gespeichert wurden und zum Umwandeln und Einfügen in das aktuell offene Dokument
des Anwendungsprogramms zur Verfügung
stehen. Dem Benutzer wird wenigstens eine der folgenden Optionen
angeboten: (1) das Verarbeiten und Umwandeln der Audiodaten oder
Sprachdaten im Hintergrund in Text und das Anzeigen des Texts nach
dem Anwenden von gesprochenen Befehlen in einer separaten Benutzeroberfläche; (2)
das Verarbeiten und Umwandeln der Audiodaten oder Sprachdaten im
Hintergrund in Text und das Anzeigen des Texts mit den gesprochenen
Befehlen, die als Text in einer separaten Benutzeroberfläche aufgelistet
werden; (3) das Verarbeiten und Umwandeln der Audiodaten oder Sprachdaten
im Hintergrund in Text und das Einfügen des Texts in das aktuell
offene Dokument ohne jede Bearbeitung; oder (4) das Löschen der
Audiodaten oder Sprachdaten im Hintergrund.
-
Wenn
der Benutzer beschließt,
die Hintergrund-Sprachdaten zu verarbeiten und umzuwandeln, wandelt
das Hintergrundsystem zur Wiedergewinnung von Audiodaten die Hintergrund-Sprachdaten
mit dem Programm-Modul zur Spracherkennung in Text um. Anschließend zeigt
das Hintergrundsystem zur Wiedergewinnung von Audiodaten die umgewandelten
Hintergrund-Sprachdaten oder den Text dem Benutzer über eine
Benut zeroberfläche
an, typischerweise im Format eines separaten Dialogfelds oder -fensters,
bevor der Text in das aktuell offene Dokument des Anwendungsprogramms
oder Textverarbeitungssystems eingefügt wird.
-
Das
Hintergrundsystem zur Wiedergewinnung von Audiodaten bietet dem
Benutzer zusätzliche
Bearbeitungsoptionen für
den umgewandelten Text an. Bei einer Ausführungsform der vorliegenden Erfindung
werden die gesamten Hintergrund-Sprachdaten als Text behandelt,
selbst wenn während
des Generierens der Hintergrund-Sprachdaten gesprochene Befehle
ausgegeben wurden. In einer anderen Ausführungsform der vorliegenden
Erfindung werden gesprochene oder diktierte Befehle als Befehle
verarbeitet, und der Benutzer kann festlegen, ob jeder der in Text
umgewandelten Befehle für
die jeweiligen Hintergrund-Sprachdaten ausgeführt werden soll.
-
In
einer weiteren Ausführungsform
werden tatsächliche
Audiodaten oder Sprachdaten, die vom Mikrofon empfangen werden,
ebenfalls in einer Speichervorrichtung in einem Format mit geringer
Wiedergabetreue (low fidelity format) so gespeichert, dass ein Benutzer
die tatsächlichen
Audiodaten abhören
kann, um den Bearbeitungsprozess für den umgewandelten Text zu
verbessern.
-
Die
vorliegende Erfindung gibt dem Benutzer mehr Kontrolle über die
Wiedergewinnung eines "verlorenen" Diktats, das in
ein offenes Dokument eines Textverarbeitungsprogramms eingefügt werden soll.
Eine solche Kontrolle ist vorhanden, wenn Befehle und dazugehörige umgewandelte
Hintergrund-Sprachdaten in einem separaten Dialogfeld angezeigt
werden, bevor die umgewandelten Hintergrund-Sprachdaten in das aktuelle
offene Dokument des Textverarbeitungssysteme eingefügt werden.
Mit anderen Worten, die vorliegende Erfindung zwingt den Benutzer
nicht, den Inhalt der umgewandelten Hintergrund-Sprachdaten einfach
in ein offenes Dokument einzufügen
oder dort "abzuladen".
-
Die
vorliegende Erfindung ermöglicht
es einem Benutzer, das Mikrofon "rückwirkend
einzuschalten" und
stellt eine Anzeige mit Optionen bereit, wie die umgewandelten Hintergrund-Sprachdaten
in das offene Dokument eingefügt
werden können.
Die vorliegende Erfindung ermöglicht
es dem Benutzer auch, Grenzen für
die Verarbeitung von Hintergrund-Sprachdaten einzurichten, wobei
der Benutzer die Zeitdauer oder Speicher menge vorgibt, die verwendet
werden soll, um Diktatverluste zu verhindern. Des Weiteren gestattet
die vorliegende Erfindung dem Benutzer auch das "proaktive Einschalten" des Mikrofons in
Fällen,
in denen die im Hintergrund erfassten Sprachdaten oder Audiodaten
verworfen werden und das Textverarbeitungsprogramm bereit ist, die
kommenden Sprachdaten des Benutzers zu empfangen.
-
Spezifischer
beschrieben ist die vorliegende Erfindung ein Hintergrundsystem
zur Wiedergewinnung von Audiodaten, das ein Anwendungsprogramm umfasst,
wie beispielsweise ein Textverarbeitungsprogramm. Das Hintergrundsystem
zur Wiedergewinnung von Audiodaten zeigt auf einer Anzeigevorrichtung
einen Indikator für
inaktiven Status an für ein
Programm-Modul zur Spracherkennung in einem Anwendungsprogramm.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten ermittelt
dann, ob eine Audiodaten-Eingangsvorrichtung eine Audiodaten-Eingabe
empfängt,
wie beispielsweise die Sprache oder Stimme von einem Benutzer. Wenn
Audiodaten von der Audiodaten-Eingangsvorrichtung (d.h. einem Mikrofon)
empfangen werden, speichert das Hintergrundsystem zur Wiedergewinnung
von Audiodaten die Audiodaten in einer Speichervorrichtung. Alternativ
dazu lassen sich die Audiodaten durch das Hintergrundsystem zur
Wiedergewinnung von Audiodaten in Text umwandeln, bevor sie in einer
Speichervorrichtung gespeichert werden.
-
Das
Hintergrundsystem zur Wiedergewinnung von Audiodaten ermittelt,
ob ein Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung ausgegeben
wurde, und wenn dies der Fall ist, initiiert das Hintergrundsystem
zur Wiedergewinnung von Audiodaten ein Programm-Modul für Hintergrund-Audiodaten
zum Bearbeiten der gespeicherten Audiodaten.
-
Gemäß einem
Gesichtspunkt der vorliegenden Erfindung speichert das Hintergrundsystem
zur Wiedergewinnung von Audiodaten Hintergrund-Audiodaten im Cache-Speicher
einer Zentraleinheit. Gemäß einem
weiteren Gesichtspunkt der vorliegenden Erfindung ist das Anwendungsprogramm
ein Textverarbeitungsprogramm, das für die Bearbeitung der gespeicherten
Daten ausgelegt ist.
-
Das
Hintergrundsystem zur Wiedergewinnung von Audiodaten kann ermitteln,
ob ein Programm zum Aktivieren des Anwendungsprogramms ausgegeben
worden ist, indem der Befehl entweder von einer Tastatur-Schnittstelle
oder einer Audiodaten-Eingangsvorrichtung, wie beispielsweise einem Mikrofon,
erfasst wird. Gemäß einem
weiteren Gesichtspunkt der vorliegenden Erfindung kann das Hintergrundsystem
zur Wiedergewinnung von Audiodaten eine grafische Benutzerfläche, wie
beispielsweise ein Dialogfeld, auf einer Anzeigevorrichtung anzeigen.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten kann dann
eine Optionenliste für
gespeicherte Hintergrund-Audiodaten in dieser grafischen Benutzeroberfläche anzeigen.
-
Das
Hintergrundsystem zur Wiedergewinnung von Audiodaten kann die Hintergrund-Audiodaten in Textdaten
umwandeln und anschließend
die Textdaten auf einer Anzeigevorrichtung anzeigen, wobei die Textdaten
textliche Befehle des Anwendungsprogramms enthalten, die nicht auf
die Textdaten angewendet wurden. Unter einem anderen Gesichtspunkt
der vorliegenden Erfindung kann das Hintergrundsystem zur Wiedergewinnung
von Audiodaten die gesprochenen Befehle auf die anderen gespeicherten
Textdaten anwenden und anschließend die
verarbeiteten Textdaten auf einer Anzeigevorrichtung anzeigen.
-
Das
Hintergrundsystem zur Wiedergewinnung von Audiodaten kann auch die
Hintergrund-Audiodaten in Textdaten umwandeln und die umgewandelten
Textdaten in eine offene Datei einfügen, auf die von dem Anwendungsprogramm
zugegriffen wird. Die Textdaten können textliche Befehle des
Anwendungsprogramms enthalten, die nicht auf die Textdaten angewendet
wurden.
-
Das
Hintergrundsystem zur Wiedergewinnung von Audiodaten kann einen
Benutzer auch auffordern, die gespeicherten Audiodaten aus einer Speichervorrichtung
zu löschen.
Gemäß einem
weiteren Gesichtspunkt der vorliegenden Erfindung kann das Hintergrundsystem
zur Wiedergewinnung von Audiodaten die Hintergrund-Audiodaten als
eine Klangdatei in einer Speichervorrichtung speichern. Das Hintergrundsystem
zur Wiedergewinnung von Audiodaten kann dann die Hintergrund-Audiodaten
in Textdaten umwandeln und anschließend die umgewandelten Textdaten
auf einer Anzeigevorrichtung anzeigen, während die Hintergrund-Audiodaten
von der Klangdatei der Speichervorrichtung wiedergegeben werden.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten gestattet
es dem Benutzer, wenigstens eines von einem Zeitinkrement, ei nem Dateigrößeninkrement
und einem Wert anzuzeigen, um den Audiodaten-Dateien mit aufgezeichneter Sprache
eine vorgegebene Größe zuzuweisen.
-
Dass
die vorliegende Erfindung gegenüber den
Nachteilen der Software zur Spracherkennung nach dem Stand der Technik
eine Verbesserung darstellt und die vorher beschriebenen Vorteile
schafft, wird aus der folgenden detaillierten Beschreibung der beispielhaften
Ausführungsformen
und den Zeichnungen im Anhang sowie den Ansprüchen offenkundig.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 ist
ein Funktions-Blockschaltbild eines Personal-Computer-Systems, das
die Betriebsumgebung für
die beispielhaften Ausführungsformen
der vorliegenden Erfindung bereitstellt.
-
2 ist
ein Funktions-Blockschaltbild der Programm-Module eines Datenverarbeitungssystems
mit mehreren Quellen.
-
3 ist
ein Funktions-Blockschaltbild des Hintergrundsystems zur Wiedergewinnung
von Audiodaten der vorliegenden Erfindung.
-
4 veranschaulicht
eine grafische Benutzeroberfläche
und ein Mikrofon für
das Hintergrundsystem zur Wiedergewinnung von Audiodaten der vorliegenden
Erfindung.
-
5 veranschaulicht
eine grafische Benutzeroberfläche
für das
Hintergrundsystem zur Wiedergewinnung von Audiodaten, nachdem ein
Programm-Modul zur Spracherkennung des Hintergrundsystems zur Wiedergewinnung
von Audiodaten aktiviert oder "eingeschaltet" worden ist.
-
6 ist
ein Bearbeitungsfenster der grafischen Benutzeroberfläche für das Hintergrundsystem
zur Wiedergewinnung von Audiodaten, in dem gesprochene Befehle auf
die Hintergrund-Audiodaten angewendet worden sind.
-
7 ist
ein Bearbeitungsfenster der grafischen Benutzeroberfläche für das Hintergrundsystem
zur Wiedergewinnung von Audiodaten, in dem gesprochene Befehle als
Text angezeigt worden sind.
-
8 ist
eine grafische Benutzeroberfläche für das Hintergrundsystem
zur Wiedergewinnung von Audiodaten, wobei gesprochene Befehle als
Text angezeigt und die Hintergrund-Audiodaten in ein offenes Dokument
eines Textverarbeitungs-Anwendungsprogramms
eingefügt
worden sind.
-
9 veranschaulicht
das Einrichtungsmenü einer
grafischen Benutzeroberfläche
für das
Hintergrundsystem zur Wiedergewinnung von Audiodaten der vorliegenden
Erfindung.
-
10 ist
ein Funktions-Blockschaltbild von Speichervorrichtungen für das Hintergrundsystem zur
Wiedergewinnung von Audiodaten der vorliegenden Erfindung.
-
11 ist
ein Logik-Ablaufdiagramm, das die Funktionsweise des Hintergrundsystems
zur Wiedergewinnung von Audiodaten der vorliegenden Erfindung darstellt.
-
12 ist
ein Logik-Ablaufdiagramm, das eine Einrichtungsfunktion des Hintergrundsystems zur
Wiedergewinnung von Audiodaten der vorliegenden Erfindung darstellt.
-
13 ist
ein Logik-Ablaufdiagramm, das die Details des Menüs für die Anzeige
der Hintergrund-Audiodaten der vorliegenden Erfindung anzeigt.
-
DETAILLIERTE
BESCHREIBUNG BEISPIELHAFTER AUSFÜHRUNGSFORMEN
-
1 und
die folgende Erläuterung
sollen eine kurze, allgemeine Beschreibung einer geeigneten Rechnerumgebung
bereitstellen, in der die vorliegende Erfindung angewendet werden
kann. Obwohl die vorliegende Erfindung in dem allgemeinen Kontext
eines anwendungsunabhängigen
Programms beschrieben wird, das in Verbindung mit einem Betriebssystem
gefahren wird, das auf einem Personal-Computer läuft, erkennt der Fachmann,
dass die vorliegende Erfindung in anderen Programm-Modulen implemen tiert
werden kann. Im Allgemeinen enthalten Programm-Module Routinen,
Programme, Komponenten, Datenstrukturen usw., die bestimmte Aufgaben
ausführen
oder einen bestimmten abstrakten Datentyp implementieren. Außerdem wird
der Fachmann zu schätzen
wissen, dass die vorliegende Erfindung mit anderen Rechnersystem-Konfigurationen
eingesetzt werden kann, einschließlich Taschencomputern, Mehrprozessorsystemen,
auf Mikroprozessoren basierender oder programmierbarer Unterhaltungs-
und Haushaltselektronik, Minicomputern, Großrechnern und Ähnlichem.
Die Erfindung kann auch in verteilten Rechnerumgebungen eingesetzt werden,
in denen Aufgaben durch Fernbearbeitungsvorrichtungen ausgeführt werden,
die über
ein Kommunikationsnetzwerk miteinander verbunden sind. In einer
verteilten Rechnerumgebung können
sich Programm-Module in entfernten Festplatten-Speichereinrichtungen
befinden.
-
Beispielhafte
Betriebsumgebung
-
1 ist
eine allgemeine Beschreibung einer geeigneten Rechnerumgebung 100 für eine Implementierung
der vorliegenden Erfindung. Die beispielhafte Rechnerumgebung 100 umfasst
ein herkömmliches
Personal-Computer-System 120, das eine Verarbeitungseinheit 121,
einen Systemspeicher 122 und einen Systembus 123 aufweist,
der den Systemspeicher 122 mit der Verarbeitungseinheit 121 koppelt.
Der Systemspeicher 122 umfasst einen Festwertspeicher (ROM) 124 und
einen Direktzugriffsspeicher (RAM) 125. Ein grundlegendes
Eingabe-/Ausgabe-System 126 (BIOS), das die wesentlichen
Routinen enthält,
welche die Informationsübertragung
zwischen Elementen im Personal-Computer-System 120 unterstützen, wie
beispielsweise während
der Inbetriebsetzung, ist im ROM 124 gespeichert.
-
Das
Personal-Computer-System 120 umfasst des Weiteren ein Festplattenlaufwerk 127,
ein Magnetplattenlaufwerk 128, z. B. um Daten aus einer austauschbaren
Magnetplatte 129 auszulesen oder auf diese zu schreiben,
und ein Bildplattenlaufwerk 130, z.B. zum Lesen einer CD-ROM-Diskette 131 oder
um andere optische Medien zu beschreiben oder Daten daraus auszulesen.
Das Festplattenlaufwerk 127, Magnetplattenlaufwerk 128 und
Bildplattenlaufwerk 130 sind an den Systembus 123 jeweils angeschlossen über eine
Festplattenlaufwerk-Schnittstelle 132, eine Magnetplattenlaufwerk-Schnittstelle 133 und
eine Bildplattenlaufwerk-Schnittstelle 134. Die Laufwerke
und ihre dazugehörigen
computerlesbaren Medien stellen einen nicht-flüchtigen Speicher für das Personal- Computer-System 120 bereit.
Obwohl die Beschreibung der oben genannten computerlesbaren Medien
sich auf eine Festplatte, eine austauschbare Magnetplatte und eine
CD-ROM-Diskette bezieht, sollte es dem Fachmann klar sein, dass
andere Arten von Medien, die von einem Computersystem gelesen werden
können,
wie beispielsweise Magnetbandkassetten, Flash-Speicherkarten, digitale
Videoplatten, Bernouilli-Einschubkassetten (Bernouilli cartridges)
und Ähnliches
ebenfalls in der beispielhaften Betriebsumgebung verwendet werden
können.
-
Einen
Benutzer kann in den Personal-Computer 120 über herkömmliche
Eingabevorrichtungen, einschließlich
einer Tastatur 140 und einer Zeigevorrichtung, wie beispielsweise
einer Maus 142, Befehle und Informationen eingeben. Ein
Mikrofon 161 kann zum Eingeben einer Audiodaten-Eingabe,
wie beispielsweise Sprache, in das Rechnersystem 120 verwendet
werden. Ein Benutzer kann grafische Daten, wie beispielsweise Zeichnungen
und Handschriftliches in das Computersystem eingeben, indem die grafische
Informationen mit einer Schreibnadel auf ein Schreibtablett 162 gezeichnet
werden. Das Computersystem 120 kann zusätzliche (nicht gezeigte) Eingabevorrichtungen
umfassen, wie beispielsweise einen Joystick, ein Spiel-Pad, eine
Satellitenschüssel,
einen Scanner oder Ähnliches.
Das Mikrofon 161 kann an die Verarbeitungseinheit 121 über einen
Audio-Adapter 160 angeschlossen werden, der an den Systembus
gekoppelt ist. Die anderen Eingabevorrichtungen sind an die Verarbeitungseinheit 121 oft über eine
serielle Anschluss-Schnittstelle 146 angeschlossen, die
mit dem Systembus gekoppelt ist, kann aber über andere Schnittstellen angeschlossen sein,
wie beispielsweise einen Spielanschluss oder einen universellen
seriellen Bus (USB).
-
Ein
Bildschirm 147 oder eine andere Art von Anzeigevorrichtung
ist ebenfalls an den Systembus 123 über eine Schnittstelle angeschlossen,
wie beispielsweise einen Video-Adapter 148.
Neben dem Monitor umfassen Personal-Computer-Systeme typischerweise
andere (nicht gezeigte) periphere Ausgabevorrichtungen, wie beispielsweise
Lautsprecher oder Drucker.
-
Das
Personal-Computer-System 120 kann in einer Netzwerkumgebung
mit logischen Verbindungen zu einem oder mehreren entfernten Computersystemen
betrieben werden, wie beispielsweise dem entfernten Computersystem 149,
das in 1 gezeigt ist. Das entfernte Computersystem 149 kann ein
Server, ein Router, eine gleichrangige Ein richtung oder ein anderer
gemeinsamer Netzwerkknoten sein und enthält typischerweise viele oder
alle der Elemente, die in Bezug auf das Personal-Computer-System 120 beschrieben
wurden, obwohl nur eine Festplatten-Speichervorrichtung 150 in 1 dargestellt
wurde. Die in 1 dargestellten logischen Verbindungen
umfassen ein lokales Netzwerk (LAN) 151 und ein Weitverkehrsnetz
(WAN) 152. Solche Netzwerkumgebungen sind alltäglich in
Büros, unternehmensübergreifenden
Rechnernetzwerken, internen Netzwerken und dem Internet.
-
Wenn
das Personal-Computer-System 120 in einer LAN-Netzwerkumgebung
verwendet wird, ist es mit dem lokalen Netzwerk 151 über eine
Netzwerkschnittstelle 153 verbunden. Wenn das Personal-Computer-System 120 in
einer WAN-Netzwerkumgebung verwendet wird, umfasst es typischerweise
ein Modem 154 oder ein anderes Mittel zum Herstellen von
Kommunikationen über
ein Weitverkehrsnetz 152, wie beispielsweise das Internet.
Das Modem 154, das intern oder extern sein kann, ist an den
Systembus 123 über
die serielle Anschluss-Schnittstelle 146 angeschlossen.
In einer Netzwerkumgebung können
Programm-Module, die in Bezug auf das Personal-Computer-System 120 oder
Teile davon beschrieben wurden, in der entfernten Festplatten-Speichervorrichtung 150 gespeichert werden.
Man wird zu schätzen
wissen, dass die gezeigten Netzwerkverbindungen beispielhaft sind
und andere Mittel zum Herstellen einer Kommunikationsverbindung
zwischen den Rechnersystemen verwendet werden können. Man wird des Weiteren
zu schätzen
wissen, dass die vorliegende Erfindung gleichermaßen auf
anderen Host- oder Server-Rechnersystemen als den Personal-Computer-Systemen
implementiert werden könnte,
und gleichermaßen
an das Host-Rechnersystem über
andere Mittel als eine CD-ROM übertragen
werden könnte,
wie beispielsweise über
die Netzwerk-Verbindungsschnittstelle 153.
-
Eine
Anzahl von Programm-Modulen kann auf den Laufwerken und im RAM 125 des
Rechnersystems 120 gespeichert werden. Programm-Module steuern
die Funktionsweise des Rechnersystems 120 und dessen Interaktion
mit dem Benutzer, mit Eingangs-/Ausgangs-Vorrichtungen und mit anderen Rechnern.
Programm-Module umfassen Routinen, das Betriebssystem 135,
Module des Anwendungsprogramms 138, Datenstrukturen, Browser
und andere Software- oder Firmware-Komponenten. Die vorliegende
Erfindung kann bequem in einem oder mehreren Programm-Modulen implementiert
werden, wie beispielsweise einem stochastischen Eingabe-Kombinator-Programmmodul (input
combiner program module) 137 und einem stochastischen Eingabeschnittstellen-Programm-Modul 139,
von denen jedes auf den Verfahren basiert, die in der detaillierten
Beschreibung erläutert
werden.
-
Die
Module 138 des Anwendungsprogramms können eine Reihe von Anwendungen
umfassen, die in Verbindung mit der vorliegenden Erfindung verwendet
werden, wobei einige davon in 2 dargestellt
sind. Die Ziele einiger dieser Programm-Module und die Interaktion
zwischen ihnen wird ausführlicher
im Beschreibungstext zu 2 erläutert. Diese umfassen ein Textverarbeitungsprogramm 210 (wie
zum Beispiel WORD, hergestellt von Microsoft Corporation in Redmond,
WA), ein Programm-Modul zur Handschrifterkennung 230, ein Programm-Modul
zur Spracherkennung 240 und einen Eingabeverfahren-Editor
(IME) 250.
-
Eine
bestimmte Programmiersprache wird für die Ausführung der einzelnen Prozeduren
nicht beschrieben, die in der detaillierten Beschreibung erläutert werden,
weil davon ausgegangen wird, dass die in den begleitenden Zeichnungen
beschriebenen und dargestellten Arbeitsvorgänge, Schritte und Prozeduren
ausreichend offenbart wurden, um es dem durchschnittlichen Fachmann
zu gestatten, eine beispielhafte Ausführungsform der vorliegenden
Erfindung zu nutzen. Des Weiteren gibt es viele Rechner und Betriebssysteme,
die für
die Nutzung einer beispielhaften Ausführungsform verwendet werden
können,
und daher konnte kein detailliertes Computerprogramm bereitgestellt
werden, das auf alle diese vielen unterschiedlichen Systeme angewendet
werden könnte.
Jeder Benutzer eines bestimmten Rechners kennt die Sprache und Werkzeuge,
die für
seine Bedürfnisse
und Zwecke am nützlichsten
sind.
-
Übersicht über Programm-Module
-
2 stellt
eine Übersicht über die
Programm-Module eines Datenverarbeitungssystems mit mehreren Quellen 200 bereit.
Im Allgemeinen ist der Zweck der in 2 gezeigten
Programm-Module das Erzeugen von stochastischen Daten aus der Benutzereingabe
und die anschließende
Nutzung des stochastischen Ergebnisses als Texteingabe in eine Anwendung,
wie beispielsweise ein Textverarbeitungsprogramm. Ein stochastisches
Ergebnis heißt, dass
Alternativen mit Wahrscheinlichkeiten verknüpft sind. Ein stochastisches
Ergebnis bedeutet des Weiteren im Allgemeinen, dass es mehr als eine
Alternative gibt. Stochastische Daten, die als Eingabe in ein Programm-Modul
verwendet werden, werden als "stochastische
Eingabe" bezeichnet.
Ein Programm-Modul, das eine stochastischen Eingabe für ein anderes
Programm-Modul erzeugt, wird als "stochastische Eingabequelle" bezeichnet.
-
Die
in 2 gezeigten Programm-Module ermöglichen
es einem Benutzer, Text in ein Anwendungsprogramm einzugeben, wie
beispielsweise ein Textverarbeitungsprogramm 210, und dazu
sowohl stochastische als auch nicht-stochastische Eingabequellen
zu verwenden. Zu typischen stochastischen Eingabequellen gehört das Programm-Modul
zur Handschrifterkennung 230, das Programm-Modul zur Spracherkennung 240,
der Eingabeverfahren-Editor (IME) 250 und das Programm-Modul
zur Spracherkennung 260. Eine Tastatur 140 ist
eine typische Quelle für
nicht-stochastische Daten. Sobald der Benutzer Text in das Textverarbeitungsprogramm 210 über eine
oder mehrere dieser Eingabequellen eingibt, kann der Benutzer anschließend einen
Textabschnitt wählen
und eine Kandidatenliste mit Alternativen für den ausgewählten Text
anfordern. Die Textauswahl kann Eingaben aus mehreren stochastischen
und nicht-stochastischen Eingabequellen enthalten. So lange die
Textauswahl aus wenigstens einer stochastischen Eingabequelle ausgewählt wird, sind
für die
Textauswahl Alternativen vorhanden. Die Programm-Module werden aktiviert,
um diese Kandidatenliste zu erzeugen und dem Benutzer über eine grafische
Benutzeroberfläche
bereitzustellen. Wenn der Benutzer einen der Kandidatenwerte wählt, wird die
Textauswahl durch den ausgewählten
Kandidatenwert ersetzt. Die Funktionsweise der stochastischen Eingabequellen 230, 240, 250 und 260 wird
im Folgenden nacheinander erläutert.
-
Das
Programm-Modul zur Handschrifterkennung 230 empfängt die
handschriftliche Eingabe 280 vom Benutzer. Der Benutzer
erzeugt die handschriftliche Eingabe 280 durch Beschreiben
des Schreibtabletts 162 mit einer Schreibnadel. Alternativ
dazu (und nicht in den Zeichnungen dargestellt) kann der Benutzer
eine handschriftliche Eingabe durch Beschreiben eines Berührungsbildschirms
mit einer Schreibnadel erzeugen oder eine Zeigevorrichtung, wie
beispielsweise eine Maus, zum Erstellen von Text verwenden. Nach
der Eingabe wird die handschriftliche Eingabe 280 vorzugsweise
zum Programm-Modul
zur Handschrifterkennung 230 weitergeleitet über ein
Treibermodul des Schreibtabletts im Betriebssystem 135.
-
Da
eine Handschrift für
einen Rechner oft schwierig zu interpretieren ist, kann das Programm-Modul
zur Handschrifterkennung 230 die handschriftliche Eingabe 280 nicht
immer mit voller Genauigkeit entziffern. Das Beste, was das Programm-Modul 230 tun
kann, besteht darin, Alternativen für die handschriftliche Eingabe 280 zu
generieren und jeder Alternative eine Wahrscheinlichkeit zuzuordnen,
nach der sie die Richtige ist. Definitionsgemäß generiert das Programm-Modul
zur Handschrifterkennung 230 anschließend ein stochastisches Ergebnis.
Das stochastische Modell 270a weist eine Datenstruktur
auf, welche die stochastischen Daten enthält, die durch die Verarbeitung
der handschriftlichen Eingabe 280 durch das Programm-Modul 230 zur
Handschrifterkennung erzeugt wurden.
-
Obwohl
jede Datenstruktur, die stochastische Daten speichern kann, ein
stochastisches Modell 270 aufweisen kann, sind zwei nützliche
Strukturen dafür
ein Gitter (lattice) und eine "n-beste" Alternativenliste.
Ein Gitter ist eine Struktur, die dem Fachmann wohlbekannt ist,
so dass keine vollständige
Beschreibung abgegeben wird. Kurzumrissen jedoch speichert ein Gitter
Wörter
oder Sätze,
die von einer stochastischen Eingabequelle erzeugt werden, in einem
Knoten. Da jedes Wort bzw. jeder Satz stochastische Daten sind,
speichert der Knoten auch die Wahrscheinlichkeit, die dem zugehörigen Wort
oder Satz zugeordnet ist. Unter Verwendung von Verfahren, die dem
Fachmann bekannt sind, kann das Gitter durchquert werden, um wahrscheinliche
Alternativen für
jeden Textabschnitt zu erzeugen, der durch die stochastischen Daten
dargestellt ist. Des Weiteren können
Gitter, die benachbarte Textteile darstellen, zu einem größeren Gitter
kombiniert werden durch einen Prozess, der als Konkatenation bekannt ist.
Das größere Gitter
kann dann durchquert werden, um Alternativen für die benachbarten Textteile
zu erzeugen.
-
Alternativ
dazu können
stochastische Daten durch eine Liste der n-besten Alternativen und
ihrer dazugehörigen
Wahrscheinlichkeiten dargestellt werden. Für jedes vorgegebene Wort bzw.
jeden Satz kann eine Liste der n-besten Alternativen aus einem Gitter
erzeugt werden, welches das Word bzw. den Satz darstellt.
-
Das
Programm-Modul zur Spracherkennung 240 arbeitet wie das
Programm-Modul zur Handschrifterkennung 230, mit Ausnahme
dessen, dass es eine Spracheingabe 290 von dem Benutzer über ein
Mikrofon 161 empfängt,
das von einem Mikrofon-Treiber modul im Betriebssystem 135 betrieben wird.
Sprache ist häufig
schwierig zu interpretieren, weil viele Wörter, die ähnlich klingen, verschiedene Bedeutungen
haben und unterschiedlich buchstabiert werden, so dass das Programm-Modul 240 auch
ein stochastisches Ergebnis erzeugt. Das stochastische Modell 270b speichert
die Datenstruktur, welche die stochastischen Daten enthält, die
durch die Verarbeitung der Spracheingabe 290 durch das Programm-Modul 240 zur
Spracherkennung erzeugt wurden.
-
Ein
Eingabeverfahren-Editor (IME) 250 generiert ebenfalls stochastische
Daten. Im Allgemeinen wandelt ein IME 250 Eingaben in der
Form einer phonetischen Darstellung in Folgen von ideografischen
Zeichen um. Die Eingabe in einen IME 250 kann beispielsweise
getippter Text sein, der in den Rechner über eine Tastatur 140 und
eine Maus 142 eingegeben wird. Das stochastische Modell 270c umfasst
eine Datenstruktur, welche die stochastischen Daten enthält, die
vom IME 250 erzeugt wurden.
-
Ein
IME 250 ist besonders nützlich
zum Erstellen von Ideogrammen in asiatischen und anderen Sprachen.
Da es in solchen Sprachen weitaus mehr Ideogramme gibt als Tasten
auf der Tastatur vorhanden sind, ist die Eingabe eines bestimmten
Ideogramms in den Rechner ohne einen IME 250 problematisch.
In einem typischen IME 250 tippt der Benutzer englische
Zeichen mit einer phonetischen Buchstabierung für ein gewünschtes chinesisches Zeichen
ein. Da viele chinesische Zeichen eine ähnliche Aussprache aufweisen,
kann die eingetippte phonetische Buchstabierung eines von einer
Reihe verschiedener chinesischer Zeichen sein, und der IME 250 erzeugt
ein stochastisches Ergebnis. Anschließend stellt der IME 250 für den Benutzer
die wahrscheinlichsten Kandidaten bereit, die durch die getippte phonetische
Buchstabierung beabsichtigt wurden, so dass der Benutzer den Richtigen
auswählen
kann.
-
Die
stochastischen Ergebnisse, die durch eine stochastische Eingabequelle
erzeugt werden, können
als stochastische Eingabe in eine zweite stochastische Eingabequelle
dienen. Wenn dies der Fall ist, sind die stochastischen Eingabequellen "serielle stochastische
Eingabequellen",
und die stochastischen Eingabequellen können als "in Reihe" konfiguriert beschrieben werden. Dies
wird durch die Konfiguration 293 von Programm-Modulen veranschaulicht,
die auch eine andere Ausführungsform
eines IME 250 zeigt.
-
In
dieser Ausführungsform
kann in den Rechner englische Sprache eingegeben und zum Erzeugen
von japanischem Text verwendet werden. Die Sprache wird zunächst einem
Programm-Modul zur Spracherkennung 260 übergeben. Im Betrieb arbeitet
das Programm-Modul zur Spracherkennung 260 ziemlich genau
wie das Programm-Modul zur Spracherkennung 240, doch ist
es als eine eigenständige
Einheit dargestellt, da es eine andere Sprach-Interpretationsmaschine
haben kann. Beispielsweise kann das Programm-Modul zur Spracherkennung 260 eine
andere Sprache interpretieren als das Programm-Modul zur Spracherkennung 240. Das
stochastische Modell 270d umfasst eine Datenstruktur, die
stochastische Daten enthält,
die durch die Verarbeitung der Spracheingabe mit dem Programm-Modul
zur Spracherkennung 260 erzeugt wurden.
-
In
einem IME-Beispiel für
englische Sprache/Japanisch kann das Programm-Modul zur Spracherkennung 260 englische
Textalternativen aus den gesprochenen englischen Wörtern erzeugen
und in dem stochastischen Modell 270d speichern. Anschließend können eine
oder mehrere englischsprachige Textalternativen, die im stochastischen
Modell 270d gespeichert sind, als Eingabe in den IME 250 verwendet
werden, der den eingegebenen englischsprachigen Text in japanische
Zeichen übersetzt. Jede
in den IME 250 eingegebene Alternative erzeugt ein separates
stochastisches Ergebnis, obwohl klar sein sollte, dass es zwischen
den Alternativen, die das stochastische Ergebnis von zwei verschiedenen
Eingaben in den IME 250 bilden, zu Überschneidungen kommen kann.
-
Obwohl
der Pfeil in 2 vom Programm-Modul zur Spracherkennung 260 zum
IME 250 veranschaulicht, dass das Programm-Modul zur Spracherkennung
eine stochastische Eingabequelle für den IME 250 ist,
sollte klar sein, dass die zwei Programm-Module nicht direkt miteinander
verbunden sein können.
So kann beispielsweise die stochastische Eingabe vom Programm-Modul
zur Spracherkennung 260 in den IME 250 über ein
Schnittstellen-Programm-Modul geleitet werden, wie beispielsweise
eine stochastische Eingabeschnittstelle 139, an die jede
stochastische Eingabequelle direkt angeschlossen ist.
-
Eine
stochastische Eingabeschnittstelle 139 dient als Leitung
für stochastische
Daten zwischen einer Anwendung 210, die stochastische Daten
empfangen soll, und einer stochastischen Eingabequelle, wie beispielsweise
einem Programm-Modul zur Handschrift erkennung 230, einem
Programm-Modul zur Spracherkennung 240 oder einem IME 250.
Ein Vorteil dessen, eine stochastische Eingabeschnittstelle 139 als
eine Leitung für
stochastische Daten zu haben, besteht darin, dass sie die Kommunikation zwischen
der Anwendung 210, welche die stochastischen Daten empfängt, und
den stochastischen Eingabequellen vereinfacht. Das bedeutet, die
Anwendung muss nur wissen, wie sie mit der stochastischen Eingabeschnittstelle
kommuniziert, und nicht mit allen möglichen stochastischen Eingabequellen.
In einer beispielhaften Ausführungsform
der vorliegenden Erfindung ist das Anwendungsprogramm 210,
das die stochastische Eingabe aufnehmen soll, ein Textverarbeitungsprogramm.
Die Anwendung 210 könnte aber
auch ein Tabellenkalkulationsprogramm, Browser, Programm für elektronische
Post, Programm für Musik-Transkription
(music transcription program), CAD-Programm oder Betriebssystem
sein.
-
In
der Ausführungsform
mit dem Textverarbeitungsprogramm empfängt das Textverarbeitungsprogramm 210 über die
stochastische Eingabeschnittstelle 139 den Text, der von
jeder stochastischen Eingabequelle die wahrscheinlichste Alternative
darstellt, die zum Eingeben von Daten in das Textverarbeitungsprogramm
verwendet wird. Zusätzlich zum Übertragen
von Daten in das Textverarbeitungsprogramm 210 über mehrere
stochastische Eingabequellen kann der Benutzer auch typische nicht-stochastische
Daten in das Textverarbeitungsprogramm eingeben, wie beispielsweise
durch Eintippen auf einer Tastatur 140. Das Textverarbeitungsprogramm 210 kombiniert
alle diese Quellendaten in einer Textfolge aus mehreren Quellen,
die dem Benutzer vorgelegt wird. Obwohl das Textverarbeitungsprogramm 210 dem
Benutzer nicht die Quelle für
jedes Wort in dem Text angibt, führt
das Textverarbeitungsprogramm trotzdem einen Datensatz über die
Quelle jeder Komponente des Texts.
-
Die
Funktion des Textverarbeitungsprogramms 210 ist auch dafür ausgelegt,
dem Benutzer zu gestatten, einen Textabschnitt auszuwählen und Alternativen
für diese
Auswahl anzufordern. Wenn die Textauswahl von einer oder mehreren
stochastischen Eingabequellen abgeleitet ist, sind Alternativen
für die
Textauswahl vorhanden. Das Textverarbeitungsprogramm 210 kann
eine Kandidatenliste mit Alternativen von der stochastischen Eingabeschnittstelle 139 anfordern,
indem die Textauswahl und die Quellen jeder der Komponenten dieser
Textauswahl für
sie bereitgestellt wird. Nach der Verarbeitung der Anforderung stellt
die stochastische Eingabeschnittstelle 139 eine Kandidaten liste
für die
gesamte Textauswahl für
das Textverarbeitungsprogramm 210 bereit. Das Textverarbeitungsprogramm 210 stellt
die Kandidatenliste für
den Benutzer über eine
grafische Benutzeroberfläche
bereit. Wenn der Benutzer eine der Alternativen für die Textauswahl aus
der Kandidatenliste auswählt,
dann ersetzt das Textverarbeitungsprogramm die Textauswahl durch den
gewählten
Kandidaten.
-
Zum
Verarbeiten der Anforderung einer Kandidatenliste mit Alternativen
für eine
Textauswahl überträgt die stochastische
Eingabeschnittstelle 139 die Anforderung an den stochastischen
Eingabe-Kombinator 137. Durch die Kommunikation mit den
stochastischen Eingabequellen über
die stochastische Eingabeschnittstelle 139 kann der stochastische
Eingabe-Kombinator 137 Informationen über die stochastischen Modelle 270 abfragen,
die zum Erzeugen der Kandidatenliste für die Textauswahl benötigt werden.
Beim Kombinieren der stochastischen Modelle 270 zum Erzeugen
der Kandidatenliste kann der stochastische Eingabe-Kombinator 137 optional
ein natürlichsprachliches
Modell 220 heranziehen, das Anhaltspunkte verwendet, wie
beispielsweise Grammatik und die allgemeine Bedeutung eines Textabschnitts,
um zusätzliche
Alternativen für
die Kandidatenliste zu erzeugen und die Wahrscheinlichkeiten der
Alternativen neu zu bewerten, die beim Kombinieren der stochastischen
Modelle 270 abgeleitet wurden. Die Verfahren zum Erzeugen
einer Kandidatenliste mit Alternativen für eine Textauswahl werden in
Verbindung mit dem Text zur Beschreibung der 3 bis 9 erläutert.
-
Wie
in 2 gezeigt, können
die stochastischen Eingabequellen 230, 240 und 250 jeweils
stochastische Daten für
das Textverarbeitungsprogramm 210 bereitstellen, ohne ihre
stochastischen Daten vorher durch eine andere stochastische Eingabequelle
zu filtern. Mit anderen Worten, die stochastischen Eingabequellen 230, 240 und 250 können jeweils
direkt (über
die stochastische Eingabeschnittstelle 139) stochastische
Daten an das Textverarbeitungsprogramm 210 übertragen,
und stochastische Daten von jeder Quellen können in das gleiche Textverarbeitungsdokument
integriert werden. Aus diesem Grund sind sie "parallele stochastische Eingabequellen" 296, und
diese stochastischen Eingabequellen können als "parallel" konfiguriert beschrieben werden.
-
Obwohl
die verschiedenen Programm-Module getrennt voneinander beschrieben
wurden, sollte der Fachmann erkennen, dass die Module auf verschiedene
Weise kombiniert werden könnten,
und dass neue Programm-Module geschaffen werden könnten, um ähnliche
Ergebnisse zu erzielen. Insbesondere könnten sich der stochastische
Eingabe-Kombinator 137 und das natürlichsprachliche Modell 220 in
der stochastischen Eingabeschnittstelle 139 befinden, und
alle drei Programm-Module könnten
Bestandteil des Betriebssystems 135 oder des Textverarbeitungsprogramms 210 sein.
In ähnlicher Weise
könnten
die stochastischen Eingabequellen 230, 240, 250 und 260 eigenständige Anwendungsprogramm-Module 138 sein,
oder sie könnten
Bestandteil des Betriebssystems 135 sein.
-
Übersicht über das
Hintergrundsystem zur Wiedergewinnung von Audiodaten
-
3 ist
ein Blockschaltbild, welches das Hintergrundsystem zur Wiedergewinnung
von Audiodaten 10 der vorliegenden Erfindung zeigt. Das
Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 empfängt Hintergrund-Audiodaten 20 über ein Mikrofon 161.
Das Programm-Modul zur Spracherkennung 240 des Hintergrundsystems
zur Wiedergewinnung von Audiodaten 10 speichert die Hintergrund-Audiodaten.
Die stochastische Eingabeschnittstelle 139 übergibt
Meldungen, Befehle oder Kommunikationen zwischen der Anwendung 210 und dem
Programm-ModuI zur Spracherkennung 240. In der beispielhaften
Ausführungsform
der vorliegenden Erfindung ist die Anwendung 210 ein Textverarbeitungsprogramm.
Die Anwendung 210 könnte
jedoch auch ein Tabellenkalkulationsprogramm, Browser, Programm
für elektronische
Post, Programm für
Musik-Transkription, CAD-Programm, Betriebssystem oder andere ähnliche
Anwendungen sein.
-
Die
Anwendung 210 ist zuständig
für das Verfolgen
des Speicherns der Hintergrund-Audiodaten 20 als
Dateien 44, die Audiodaten mit geringer Wiedergabetreue
und verarbeitete Sprachdaten oder Textdaten 36 enthalten
(wie in den 6 bis 8 gezeigt).
Das Anwendungsprogramm 210 ist betriebsfähig mit
einer grafischen Benutzeroberfläche 30 verknüpft (in
Form eines Editor-Fensters für
Hintergrund-Audiodaten). Die Anwendung 210 ist zuständig für das Generieren
und Pflegen des aktuellen offenen Dokumentfensters 26.
Die Anwendung 210 ist des Weiteren zuständig für das Erzeugen von Statusindikatoren 22, 28.
Die Anwendung 210 ist auch betriebsfähig mit einer Audiodaten-Ausgabevorrichtung 45 verknüpft. Die
Audiodaten-Ausgabevorrichtung 45 ist vorzugsweise ein Lautsprecher
eines Personal-Computers. Jedoch liegen auch andere Audiodaten-Ausgabevorrichtungen 45 nicht
außerhalb
des Umfangs der vorliegenden Erfindung. Andere Audiodaten-Ausgabevorrichtungen
können
extern angebrachte Lautsprecher, Kopfhörer und andere ähnliche
Audiodaten-Ausgabevorrichtungen umfassen, sind aber nicht darauf
beschränkt.
-
Generierung
von Hintergrund-Audiodaten
-
4 veranschaulicht
die Generierung von Hintergrund-Audiodaten 20 für das Hintergrundsystem
zur Wiedergewinnung von Audiodaten 10 in der vorliegenden
Erfindung. Die Situation in 4 ist repräsentativ
für wenigstens
eines der folgenden Szenarios: der Benutzer hat vergessen, dass
dem Programm-Modul zur Spracherkennung 240 ein inaktiver Status
zugewiesen wurde; der Benutzer bemerkt den Indikator 22 für inaktiven
Status nicht, der auf dem Bildschirm 147 angezeigt wird;
der Benutzer trägt den
gesprochenen Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung 240 nicht
richtig vor; der Benutzer gibt den Aktivierungsbefehl für das Programm-Modul
zur Spracherkennung 240 über die Tastatur 140 nicht
richtig ein; oder der Benutzer aktiviert den zugehörigen Schalter
am Mikrofon 161 nicht; oder der Benutzer wählt mit
der Maus 142 keine Schaltfläche auf der grafischen Benutzeroberfläche, um
das Mikrofon 161 zu aktivieren. Die Hintergrund-Audiodaten 20 umfassen
den gesprochenen Befehl "Neuer
Absatz" zusätzlich zum
folgenden Diktat: "Der
flinke braune Fuchs sprang über
den reglosen Hund. Der reglose Hund lag anscheinend am Fenster."
-
Die
vorher verarbeitete Sprache 24 ist in einem aktuell offenen
Dokument 26 des Anwendungsprogramms 210 vorhanden,
das Eingaben empfängt. Da
dem Programm-Modul zu Spracherkennung 240 ein inaktiver
Status zugewiesen ist, wie durch den Indikator 22 für inaktiven
Status am Bildschirm 147 angezeigt wird, werden die Hintergrund-Audiodaten 20, die
im Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 der
vorliegenden Erfindung gespeichert werden, nicht umgewandelt und
daher nicht in dem offenen Dokument 26 der Textverarbeitungs-Anwendung 210 angezeigt.
Obwohl der Indikator 22 für inaktiven Status einen Benutzer
darüber
informiert, dass dem Programm-Modul
zur Spracherkennung ein inaktiver Status zugewiesen wurde, überwacht das
Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 kontinuierlich
das Mikrofon 161 auf irgendwelche Hintergrund-Audiodaten 20 und
zeichnet solche Audiodaten auf, wenn sie erfasst werden.
-
Aktivierung
des Programm-Moduls für
Hintergrund-Audiodaten
-
5 veranschaulicht
die Aktivierung oder Initiierung eines Programm-Moduls für Hintergrund-Audiodaten
(background audio program module) des Hintergrundsystems zur Wiedergewinnung von
Audiodaten der vorliegenden Erfindung. In 5 ist ein
Indikator 28 für
aktiven Status angezeigt als Ergebnis dessen, dass das Hintergrundsystem
zur Wiedergewinnung von Audiodaten einen Befehl zum Aktivieren des
Programm-Moduls zur Spracherkennung 240 empfängt. Im
unteren Teil von 5 generiert das Hintergrundsystem
zur Wiedergewinnung von Audiodaten der vorliegenden Erfindung im
Anschluss an die Anzeige des Indikators 28 für aktiven Status
eine grafische Benutzeroberfläche 30A,
die eine Liste mit Optionen 32 für die gespeicherten Audiodaten
enthält,
die von dem Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 aufgezeichnet wurden.
-
6 veranschaulicht
die grafische Benutzeroberfläche 30B,
nachdem der Benutzer die erste Option in der Optionenliste 32 ausgewählt hat:
Verarbeiten der Hintergrund-Audiodaten,
Umwandeln der Hintergrund-Audiodaten in Textdaten, und Anzeigen der
umgewandelten Textdaten mit aufgezeichneten gesprochenen Befehlen,
die auf die verarbeiteten Hintergrund-Audiodaten oder Sprache angewendet werden.
In 6 wird der Befehl "Neuer Absatz" der Hintergrund-Audiodaten 20 durch
das Zeilenumschaltungs-Symbol 34 veranschaulicht. Die umgewandelten
Textdaten 36 umfassen einen falsch verarbeiteten Begriff/Satz 38,
der das Ergebnis einer phonetisch ähnlichen Ersetzung ist, die
vom Programm-Modul zur Spracherkennung 240 vorgenommen
wurde. Ebenfalls in 6 wird dem Benutzer ein Optionsfenster 39 mit
einem Wiedergabebefehl zur Verfügung
gestellt, in dem der Benutzer die Möglichkeit hat, die tatsächlichen
Audiodaten für
die verarbeitete Sprache abzuhören.
-
7 veranschaulicht
die grafische Benutzeroberfläche 30B,
nachdem der Benutzer die zweite Option in der Optionenliste 32 ausgewählt hat:
Verarbeiten der Hintergrund-Audiodaten 20,
Umwandeln der Hintergrund-Audiodaten 20 in Textdaten und
Anzeigen der umgewandelten Textdaten mit den vorher gesprochenen
Befehlen, die als Text angezeigt werden. Die umgewandelten Textdaten 36 umfassen
einen Befehl 40, der in Großbuchstaben und umgeben von
einem Grafikzeichen am Anfang und Ende gezeigt ist. Die Textdaten 36 enthalten
des Weiteren den unrichtig/ungenau verarbeiteten Be griff/Satz 38. Die
grafische Benutzeroberfläche 30 in 7 umfasst
des Weiteren das Optionsfenster 39 mit dem Wiedergabebefehl,
mit dem der Benutzer gefragt wird, ob er die tatsächlichen
Audiodaten für
die entsprechenden Textdaten 36 abhören möchte.
-
Die
Wiedergabe der tatsächlichen
Audiodaten für
die Textdaten 36 stellt ein nützliches Werkzeug für die Korrektur
ungenauer, phonetisch ersetzter Wörter 38 bereit. Beispielsweise
bemerkt der Benutzer bei der Wiedergabe der tatsächlichen Audiodaten für den in 7 dargestellten
Text 36, dass der ungenau/unrichtig Begriff/Satz 38 "finster" eigentlich "Fenster" heißen müsste. Die
Wiedergabefunktion für
die eigentlichen Audiodaten stellt sicher, dass die Textdaten 36 eine
genaue Umwandlung oder Transkription der Hintergrund-Audiodaten 20 sind.
-
8 veranschaulicht
die Platzierung der Textdaten 36 in einem offenen Dokument 26 eines Anwendungsprogramms 210. 8 ist
das Ergebnis, wenn der Benutzer die dritte Option aus einer in 5 gezeigten
Optionenliste 32 auswählt.
Die dritte Option umfasst das Verarbeiten der Hintergrund-Audiodaten 20,
das Umwandeln der Hintergrund-Audiodaten 20 in
Text und das ohne Bearbeitung erfolgende Einfügen des umgewandelten Texts
mit den als Text angezeigten gesprochenen Befehlen in das aktuelle
offene Dokument. Der Befehl "Neuer
Absatz" 40 ist
in Großbuchstaben
mit Grafikzeichen am Anfang und Ende dargestellt. 8 veranschaulicht auch,
wie die Textdaten 36 Bestandteil des Texts des offenen
Dokuments 26 werden. Der Indikator 28 für aktiven
Status ist in dem offenen Dokument 26 ebenfalls dargestellt,
um anzugeben, dass das Programm-Modul zur Spracherkennung 240 für den Empfang
von Sprach-Audiodaten bereit ist.
-
9 veranschaulicht
eine grafische Benutzeroberfläche 30C für die Einrichtungsfunktion
des Hintergrundsystems zur Wiedergewinnung von Audiodaten 10.
Der Benutzer kann ein Zeitinkrement/einen Zeitwert oder eine Speichermenge/einen
Speicherwert in die grafische Benutzeroberfläche 30C entweder über eine
Tastatur 140 eingeben oder über einen gesprochenen Befehl,
der über
das Mikrofon 161 oder die Maus 142 oder mit einem
anderen Eingabeverfahren eingegeben wird. Die zweite grafische Benutzeroberfläche 30C fordert
den Benutzer auf, die Größe für die Datei
der Hintergrund-Audiodaten entweder in Zeiteinheiten oder als Speicherplatzbelegung
einzugeben. In der in 9 veranschaulichten Ausführungsform
ist das Zeitinkrement in Einheiten von Minuten an gegeben, und die
Größe der Speicherbelegung
ist in Kilobyte angegeben. Jedoch liegen auch andere Einheiten nicht
außerhalb
des Umfangs der vorliegenden Erfindung. Andere Zeiteinheiten umfassen
Stunden, Tausende von Sekunden usw. Weitere Einheiten der Speicherbelegung umfassen
Megabytes, Gigabytes und andere ähnliche
Parameter.
-
Beispielhafte
Festplatten-Speichervorrichtungen
-
10 ist
ein Blockschaltdiagramm, das die Zentraleinheit 121 und
ihre verschiedenen Speichervorrichtungen veranschaulicht. In einer
bevorzugten Ausführungsform
werden die Textdaten 36 und die Hintergrund-Audiodaten 20 in
einer primären
Speichervorrichtung 46 und einer sekundären Speichervorrichtung 48 gespeichert.
Die primäre
Speichervorrichtung 46 ist vorzugsweise ein Cache-Speicher,
der direkt auf dem Zentraleinheit-Chip 121 hergestellt
ist. Die sekundäre
Speichervorrichtung 48 ist vorzugsweise ein zweiter Cache-Speicher
in der Form eines statischen Direktzugriffsspeichers (SRAM). Ein
Vorteil der primären
Speichervorrichtung 46 und der sekundären Speichervorrichtung 48 besteht
darin, dass jede in Bezug auf den Arbeitsspeicher 125 und
das Festplattenlaufwerk 127 einen Hochgeschwindigkeitszugriff
bereitstellt. Die vorliegende Erfindung ist nicht darauf beschränkt, nur
die primäre
Speichervorrichtung 46 und die sekundäre Speichervorrichtung 48 zu
nutzen. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 kann
auf den Arbeitsspeicher 125 und den Festplattenspeicher 127 oder Kombinationen
davon verwenden, um die Hintergrund-Audiodaten 20 und dazugehörige Textdaten 36 zu
speichern.
-
Betrieb des
Hintergrundsystems zur Wiedergewinnung von Audiodaten
-
11 ist
ein Logik-Ablaufdiagramm, das eine Routine 300 für den Betrieb
des Hintergrundsystems zur Wiedergewinnung von Audiodaten 10 veranschaulicht.
Im Verlauf der folgenden Beschreibung der Routine 300 wird
gelegentlich auf die in den 5 bis 9 gezeigten
grafischen Benutzeroberflächen 30A–C Bezug
genommen. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 überwacht
kontinuierlich das Mikrofon 161, wenn dem Programm-Modul
zur Spracherkennung 240 ein inaktiver Modus zugewiesen
wurde. In Schritt 302 zeigt die Anwendung 210 den
Indikator 22 für
inaktiven Status an, während
dem Programm-Modul zur Spracherkennung 240 ein inaktiver
Modus zugewiesen ist. Das Hintergrundsystem zur Wiedergewinnung
von Audiodaten 10 überwacht
kontinuierlich das Mikrofon 161, um zu ermitteln, ob ein
Audiosignal durch die Audiodaten-Eingangsvorrichtung oder das Mikrofon 161 generiert
wird, wie in Schritt 304 veranschaulicht. Wenn durch das
Mikrofon 161 kein Audiosignal generiert wird, kehrt die "Nein"-Verzweigung zu Schritt 302 zurück. Wenn
durch das Mikrofon 161 ein Audiosignal generiert wird,
fährt die "Ja"-Verzweigung mit
Schritt 306 fort.
-
In
Schritt 306 speichert das Programm-Modul zur Spracherkennung 240 das
Audiosignal in einer Speichervorrichtung. Zum Reduzieren der Anforderungen
an die Festplatten-Speichervorrichtung kann
das Programm-Modul zur Spracherkennung alternativ dazu die Hintergrund-Audiodaten 20 sofort
in Textdaten 36 umwandeln. Die Textdaten 36 könnten dann
in der primären
Speichervorrichtung 46 gespeichert werden, während die
tatsächlichen
Hintergrund-Audiodaten 20 als Audiodaten-Datei mit geringer
Wiedergabetreue entweder in der sekundären Speichervorrichtung 48 oder
auf dem Festplattenlaufwerk 127 gespeichert werden. In
der bevorzugten Ausführungsform
jedoch speichert das Programm-Modul zur Spracherkennung 240 die
Hintergrund-Audiodaten 20, ohne sie in Textdaten umzuwandeln.
-
In
Schritt 310 bestimmt das Hintergrundsystem zur Wiedergewinnung
von Audiodaten 10, ob ein Befehl zum Aktivieren des Programm-Moduls
zur Spracherkennung 240 ausgegeben worden ist. Das Hintergrundsystem
zur Wiedergewinnung von Audiodaten 10 überwacht jede Tastatureingabe
des Befehls bzw. jeden gesprochenen Befehl, der durch das Programm-Modul
zur Spracherkennung 240 verarbeitet wird. Wenn das Hintergrundsystem
zur Wiedergewinnung von Audiodaten 10 keinen Befehl zum Aktivieren
des Programm-Moduls zur Spracherkennung 240 erfasst, kehrt
die "Nein"-Verzweigung zum Schritt 302 zurück. Wenn
der Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung 240 erfasst
wird, fährt
die "Ja"-Verzweigung mit
der Routine 312 fort.
-
Die
Routine 312 für
das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 wird
unter Bezugnahme auf 13 detaillierter beschrieben. Während der
Routine 312 ändert
das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 den
Indikator 22 für
inaktiven Status in den Indikator 28 für aktiven Status und generiert
anschließend
die grafische Benutzeroberfläche 30A,
wie sie in 5 dargestellt ist.
-
Nach
der Routine 312 folgt Schritt 313. Für Schritt 313 weist
der Benutzer dem Programm-Modul zur Spracherkennung 240 einen
aktiven Modus zu oder beschließt,
dem Programm-Modul zur Spracherkennung 240 einen inaktiven
Modus zuzuweisen. Wenn der Benutzer dem Programm-Modus zur Spracherkennung 240 einen
inaktiven Status oder Modus zuweist, kehrt der Prozess zu Schritt 302 zurück.
-
12 ist
ein Logik-Ablaufdiagramm, das eine Routine 500 für einen
Einrichtungsvorgang des Hintergrundsystems zur Wiedergewinnung von
Audiodaten 10 (wie in 9 dargestellt)
veranschaulicht. In Schritt 500 erfasst das Hintergrundsystem
zur Wiedergewinnung von Audiodaten 10, ob ein Befehl zum Einrichten
von Hintergrund-Audiodaten durch den Benutzer ausgegeben wurde.
Wenn vom Benutzer kein Einrichtungsbefehl ausgegeben wurde, fährt die "Nein"-Verzweigung bis
zum "Ende"-Schritt 504 fort. Wenn
durch den Benutzer ein Befehl zum Einrichten von Hintergrund-Audiodaten
ausgegeben wurde, fährt
die "Ja"-Verzweigung mit
dem Schritt 502 fort, in dem das Hintergrundsystem zur
Wiedergewinnung von Audiodaten 10 die grafische Benutzeroberfläche 30A generiert,
wie in 9 dargestellt. In Schritt 502 wird der
Benutzer aufgefordert, ein Zeitinkrement oder ein Dateigrößeninkrement
für die
Datei der Hintergrund-Audiodaten einzurichten. Wie oben erwähnt, kann
der Benutzer die Größe der Datei
der Hintergrund-Audiodaten entweder mit einem Zeitinkrement oder
einem Speichergrößeninkrement wählen. Der
Benutzer kann vom System auch aufgefordert werden, die Größe der Datei
festzulegen, die später
den umgewandelten Text enthalten wird.
-
13 ist
ein Logik-Ablaufdiagramm, das die Routine 312 für das Hintergrundsystem
zur Wiedergewinnung von Audiodaten 10 veranschaulicht. Die
Routine 312 beginnt nach Schritt 310, der in 11 gezeigt
ist. In Schritt 402 zeigt das Hintergrundsystem zur Wiedergewinnung
von Audiodaten 10 eine Optionenliste 32 an gemäß der in 5 gezeigten
grafischen Benutzeroberfläche 30A.
Die Optionenliste 32 gehört zu den gespeicherten Hintergrund-Audiodaten 20,
die vom Programm-Modul zur Spracherkennung 240 während des
inaktiven Modus aufgezeichnet wurden.
-
Nach
Schritt 402 folgt Schritt 404, in dem das Hintergrundsystem
zur Wiedergewinnung von Audiodaten 10 ermittelt, ob der
Benutzer die Audiodaten bearbeiten und in Textdaten 36 umwandeln
und die Textdaten 36 anschließend anzeigen möchte, nachdem
beliebige gesprochene Befehle auf die Textdaten 36 angewendet
wurden. Wenn der Be nutzer zusätzlich
zur Anwendung gesprochener Befehle die Hintergrund-Audiodaten 20 nicht
verarbeiten und die Audiodaten in Textdaten 36 umwandeln
möchte,
fährt die "Nein"-Verzweigung mit
Schritt 406 fort. Wenn der Benutzer nach der Anwendung
gesprochener Befehle die Hintergrunddaten verarbeiten und sie in
Textdaten 36 umwandeln möchte, fährt die "Ja"-Verzweigung
mit Schritt 408 fort.
-
In
Schritt 406 verarbeitet das Programm-Modul zur Spracherkennung 240 die
erfassten Hintergrund-Audiodaten 20 und wendet alle gesprochenen Befehle
auf die restlichen umzuwandelnden Audiodaten an und wandelt die
Audiodaten 20 in Textdaten 36 um. Nach Schritt 408 folgt
Schritt 410, in dem das Hintergrundsystem zur Wiedergewinnung
von Audiodaten 10 die grafische Benutzeroberfläche 30B generiert
und die umgewandelten Textdaten 36 anzeigt, wie in 6 dargestellt.
-
Wenn
der Benutzer in Schritt 406 die Hintergrund-Audiodaten 20 verarbeiten
und sie ohne Anwendung gesprochener Befehle in Textdaten 36 umwandeln,
die Befehle aber als Text anzeigen möchte, fährt die "Ja"-Verzweigung
mit Schritt 409 fort. In Schritt 409 verarbeitet
das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 die
Hintergrund-Audiodaten und wandelt alle Audiodaten (einschließlich der
Befehle) in Textdaten 36 um. Nach Schritt 409 folgt
Schritt 410, in dem das Hintergrundsystem zur Wiedergewinnung
von Audiodaten 10 die grafische Benutzeroberfläche 30B generiert
und umgewandelte Textdaten 36 anzeigt, wie in 7 dargestellt.
-
Nach
Schritt 410 folgt Schritt 416, in dem das Hintergrundsystem
zur Wiedergewinnung von Audiodaten 10 dem Benutzer das
Optionsfenster 39 mit dem Wiedergabebefehl zur Verfügung stellt,
das in den 6 bis 8 dargestellt
ist. Das Optionsfenster 39 mit dem Wiedergabebefehl fragt
ab, ob der Benutzer die Datei mit den tatsächlichen Audiodaten mit geringer
Wiedergabetreue wiedergeben möchte,
um den Bearbeitungsprozess der Textdaten 36 zu verbessern.
Wenn der Benutzer die Datei mit den tatsächlichen Audiodaten mit geringer
Wiedergabetreue nicht abhören
möchte,
fährt die "Nein"-Verzweigung mit
Schritt 424 fort, der den Prozess zu Schritt 313 in 11 zurückführt. Wenn
der Benutzer die Datei mit den tatsächlichen Audiodaten mit geringer Wiedergabetreue
abhören
möchte,
fährt die "Ja"-Verzweigung mit
Schritt 418 fort.
-
In
Schritt 418 ruft das Hintergrundsystem zur Wiedergewinnung
von Audiodaten die Datei mit den tatsächlichen Audiodaten mit geringer
Wiedergabetreue ab und gibt die tatsächlichen Audiodaten über die
Audiodaten-Ausgangsvorrichtung 45 wieder, wie in 3 dargestellt.
Eine solche Wiedergabe der Dateien mit den tatsächlichen Audiodaten mit geringer Wiedergabetreue
verbessert den Bearbeitungsprozess der Textdaten 36, wobei
der Benutzer erkennt, dass das ungenau/unrichtig verarbeitete Wort 38 "finster" in "Fenster" geändert werden
muss, um den ursprünglichen
Hintergrund-Audiodaten 20 direkt zu entsprechen.
-
In
Schritt 412 ermittelt das Hintergrundsystem zur Wiedergewinnung
von Audiodaten 10, ob der Benutzer die Hintergrund-Audiodaten 20 verarbeiten und
alle Hintergrund-Audiodaten (einschließlich der Befehle) in Textdaten 36 umwandeln
und die Textdaten 36 direkt in das aktuelle offene Dokument 26 des Anwendungsprogramms 210 ohne
jede Bearbeitung einfügen
möchte.
Wenn sich der Benutzer dafür
entscheidet, die Hintergrund-Audiodaten nicht zu verarbeiten und
sie in Textdaten 36 umzuwandeln, die in das aktuell offene
Dokument 26 eingefügt
werden sollen, fährt
die "Nein"-Verzweigung mit
Schritt 420 fort. Wenn der Benutzer die Hintergrund-Audiodaten 20 verarbeiten
und alle Hintergrund-Audiodaten (einschließlich der Befehle) in Textdaten 36 umwandeln und
sie anschließend
in das aktuelle offene Dokument 26 einfügen möchte, fährt die "Ja"-Verzweigung mit
Schritt 414 fort.
-
In
Schritt 414 verarbeitet das Hintergrundsystem zur Wiedergewinnung
von Audiodaten 10 die Hintergrund-Audiodaten 20 und
wandelt alle Audiodaten (einschließlich der Befehle) in Textdaten 36 um.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 fügt dann
diese Textdaten 36 in das aktuelle offene Dokument 26 ein,
wie in 8 dargestellt. Alternativ könnte das Hintergrundsystem zur
Wiedergewinnung von Audiodaten 10 in dieser Phase auch
gesprochene Befehle auf die aufgezeichneten Audiodaten 20 anwenden,
wenn ein Benutzer dies wünscht.
Nach Schritt 414 folgt Schritt 416. In Schritt 416 wird
das Optionsfenster 39 mit dem Wiedergabebefehl angezeigt,
und das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 wartet
auf eine Benutzereingabe, wie oben beschrieben.
-
In
Schritt 420 ermittelt das Hintergrundsystem zur Wiedergewinnung
von Audiodaten 10, ob der Benutzer die aufgezeichneten
Hintergrund-Audiodaten 20 verwerfen möchte.
-
Wenn
der Benutzer die Hintergrund-Audiodaten 20 nicht verwerfen
möchte,
kehrt die "Nein"-Verzweigung zum
Schritt 402 zurück.
Wenn der Benutzer die Hintergrund-Audiodaten 20 verwerfen
möchte,
fährt die "Ja"-Verzweigung mit
Schritt 422 fort.
-
In
Schritt 422 löscht
das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 die
aufgezeichneten Hintergrund-Audiodaten 20 aus der primären Speichervorrichtung 46 und
löscht
alle tatsächlichen
Audiodaten mit geringer Wiedergabetreue aus einer entsprechenden
Speichervorrichtung. Nach Schritt 422 folgt Schritt 424,
in dem der Prozess zu Schritt 313 in 11 zurückkehrt.
-
Das
Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 kann
eine zusätzliche
Funktionalität
umfassen: Wenn der Benutzer beispielsweise die Hintergrund-Audiodaten
oder Textdaten 36 anzeigen und die darin enthaltenen Befehle
jeweils einzeln nacheinander anwenden möchte, kann das Hintergrundsystem
zur Wiedergewinnung von Audiodaten 10 den Benutzer auffordern
anzugeben, ob der Benutzer möchte,
dass ein Befehl auf einen bestimmten Abschnitt der Textdaten angewendet
wird oder nicht. Mit anderen Worten, der Benutzer kann nach jedem
erfassten Befehl entscheiden, ob er der Befehl auf den entsprechenden
Abschnitt der Textdaten 36 anwenden möchte oder nicht.
-
Das
Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 kann
des Weiteren verbesserte Wiedergabefunktionen bereitstellen, mit
denen tatsächliche
Hintergrund-Audiodaten Satz für
Satz wiedergegeben werden, oder Absatz für Absatz, oder gemäß einem
bestimmten, vom Benutzer gewählten Abschnitt
der Textdaten 36. Eine solche verbesserte Wiedergabefunktion
würde den
Benutzer nach jeder Wiedergabe auffordern anzugeben, ob er sich
den ausgewählten
Abschnitt der Textdaten 36 nochmals anhören möchte oder nicht. Andere verbesserte
Wiedergabefunktionen würden
den Einsatz eines Sprachgenerators für einen Text umfassen, der
von einem Benutzer eingetippt wurde oder Text, der über andere
Mittel eingegeben wurde.
-
Viele
andere Modifizierungen und zusätzliche
Merkmale werden im Hinblick auf die vorhergehende Beschreibung der
beispielhaften Ausführungsformen
der vorliegenden Erfindung offenkundig. Es sollte daher klar sein,
dass sich das Vorhergehende nur auf die beispielhaften Ausführungsformen der
vorliegenden Erfindung bezieht, und dass zahl reiche Änderungen
daran vorgenommen werden können,
ohne vom Gegenstand der vorliegenden Erfindung abzuweichen, wie
dieser in den folgenden Anspruche definiert ist.