DE60010827T2

DE60010827T2 - Hintergrundsystem für Audiodatenbeseitigung

Info

Publication number: DE60010827T2
Application number: DE60010827T
Authority: DE
Inventors: Jeffrey C. Woodinville Reynar; Erik Seattle Rucker; Paul Kyong Hwan Seattle Kim; David Allen Redmond Caulton
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1999-10-06
Filing date: 2000-10-03
Publication date: 2005-06-16
Anticipated expiration: 2020-10-04
Also published as: EP1091346A2; JP2001184088A; EP1091346A3; US6415258B1; CN1201225C; DE60010827D1; CN1292523A; EP1091346B1

Description

TECHNISCHES GEBIET
Diese Erfindung betrifft im Allgemeinen das Gebiet von Datenverarbeitungssystemen mit mehreren Quellen (multi-source data processing systems) und insbesondere ein Hintergrundsystem zur Wiedergewinnung von Audiodaten für Systeme/Software zur Spracherkennung.
ALLGEMEINER STAND DER TECHNIK
Seit der Einführung des Personal-Computers erfolgte die Interaktion des Menschen mit dem Rechner vorwiegend über die Tastatur. Wenn ein Benutzer Informationen erfassen oder einen Befehl in einen Rechner eingeben möchte, tippt er normalerweise die Informationen oder den Befehl auf der Tastatur, die an den Rechner angeschlossen ist. Zu anderen Eingabevorrichtungen, welche die Tastatur als eine Eingabevorrichtung ergänzt haben, gehören die Maus, Bildschirme mit Berührungseingabe, integrierte Zeigervorrichtungen und Scanner. Der Einsatz dieser anderen Eingabevorrichtungen hat die Menge der für die Eingabe von Daten oder Befehlen in den Rechner aufgewendeten Benutzerzeit verringert.
Rechnerbasierte Stimmerkennungs- und Spracherkennungssysteme (voice recognition and speech recognition systems) wurden ebenfalls für die Daten- oder Befehlseingabe in Personal-Computer verwendet. Stimmerkennungs- und Spracherkennungssysteme wandeln menschliche Sprache in ein Format um, das der Rechner verstehen kann. Wenn ein Rechner mit einem Stimmerkennungs- oder Spracherkennungssystem ausgestattet ist, kann die Daten- und Befehlseingabe allein durch das Sprechen der Daten oder des Befehls zum Rechner ausgeführt werden. Die Geschwindigkeit, mit welcher der Benutzer sprechen kann, ist normalerweise schneller als die herkömmliche Eingabe von Daten oder Befehlen. Daher ist die inhärente Geschwindigkeit beim Verbreiten von Daten oder Befehlen durch die menschliche Sprache ein begehrter Vorteil hinsichtlich der Integration von Stimmerkennungs- und Spracherkennungssystemen in Personal-Computern.
Die erhöhte Effizienz von Benutzern, die mit Personal-Computern arbeiten, die mit Stimmerkennungs- und Spracherkennungssystemen ausgestattet sind, hat den Einsatz solcher Systeme am Arbeitsplatz gefördert. Viele Arbeitnehmer in einer Reihe von Industriebranchen verwenden jetzt Stimmerkennungs- und Spracherkennungssysteme für zahlreiche Anwendungen. Beispielsweise wurden Softwareprogramme für Rechner, die Stimmerkennungs- und Spracherkennungs-Technologien nutzen, von DRAGON, IBM und LERNOUT & HAUSPIE erstellt. Wenn ein Benutzer einem Stimmerkennungsprogramm ein Dokument laut vorliest oder diktiert, kann das Programm die vom Benutzer gesprochenen Wörter direkt in ein Textverarbeitungsprogramm eingeben, das auf einem Personal-Computer läuft.
Im Allgemeinen wandeln rechnerbasierte Stimmerkennungs- und Spracherkennungsprogramme die menschliche Sprache in eine Reihe von digitalisierten Frequenzen um. Diese Frequenzen werden mit einer vorher gespeicherten Gruppe von Wörtern oder Phonemen abgeglichen. Wenn der Rechner korrekte Übereinstimmungen für die Reihe von Frequenzen ermittelt, wird die Erkennung dieses Teils von menschlicher Sprache durch den Rechner durchgeführt. Die Frequenzübereinstimmungen werden kompiliert, bis für eine Reaktion des Rechners genügend Informationen gesammelt sind. Der Rechner kann dann auf gewisse gesprochene Wörter reagieren, indem er die menschliche Sprache in einer Speichervorrichtung speichert, die menschliche Sprache in ein Dokument für ein Textverarbeitungsprogramm umsetzt oder einen Befehl in einem Anwendungsprogramm ausführt.
Allerdings sind die Stimmerkennungs- und Spracherkennungssysteme nicht 100-prozentig exakt. Selbst mit Hardware- und Software-Modifizierungen lässt sich mit den effizientesten Stimmerkennungs- und Spracherkennungssystemen nur eine Genauigkeit von etwa 97 bis 99% erzielen. Interne und externe Faktoren können die Zuverlässigkeit der Stimmerkennungs- und Spracherkennungssysteme beeinflussen. Interne Faktoren, die von der Erkennungstechnologie abhängen, umfassen den Abgleich zwischen der finiten Gruppe von Wörtern/Phonemen und dem Wörtervokabular eines Sprechers. Externe Faktoren umfassen die Umgebung, wie beispielsweise regionale Akzente, externe Geräusche, und die Art des Mikrofons kann die Qualität der Eingabe verschlechtern, wo durch die Frequenz der Wörter des Benutzers beeinträchtigt wird und potenzielle Fehler in den Wort- oder Phonem-Abgleich eingeführt werden.
Herkömmliche Stimmerkennungssysteme leiden unter beträchtlichen Erkennungs-Fehlerraten. Es wurden verschiedene Lösungen angewendet, um die Erkennungsrate zu erhöhen und die Anzahl der Erkennungsfehler zu reduzieren. Eine Lösung besteht darin, das Stimmerkennungs- oder Spracherkennungsprogramm auf das Erkennen der Frequenzen für eine bestimmte menschliche Stimme zu schulen. In einem sprecherabhängigen Stimmerkennungssystem erstellt das System ein Stimmenprofil, das die Aussprachemuster erkennt, die für eine bestimmte menschliche Stimme eindeutig sind. Systeme, die nicht auf einen bestimmten Sprecher geschult sind, werden als sprecherunabhängige Systeme bezeichnet und sind daher anfälliger für Erkennungsfehler, die auf regionale Akzente oder Unterschiede in der Aussprache zurückzuführen sind.
Eine andere Lösung verwendet ein Verfahren, das als diskrete Spracheingabe (discrete speech input) bezeichnet wird. Für die diskrete Spracheingabe ist es erforderlich, dass der Benutzer relativ langsam spricht, wobei er zwischen jedem Wort eine Pause einlegt, bevor er das nächste Wort sagt. Die vom Benutzer gemachte Pause gibt dem Stimmerkennungssystem eine Gelegenheit, zwischen dem Anfang und dem Ende jedes Worts des Benutzers zu unterscheiden. Stimmerkennungssysteme, die auf diskreter Spracheingabe basieren, sind langsam und mühsam für Benutzer, die daran gewöhnt sind, mit normaler Unterhaltungsgeschwindigkeit zu sprechen.
Eine alternative Lösung umfasst ein Verfahren, das auf kontinuierlicher Spracheingabe beruht. Bei Systemen mit kontinuierlicher Spracheingabe ist es erforderlich, dass der Benutzer eine begrenzte Gruppe von Wörtern sagt, die vorher in dem Systemvokabular gespeichert worden sind. Daher beruht das Stimmerkennungssystem auf einem begrenzten Vokabular von Wörtern. Diese Systeme werden optimal eingesetzt, wenn das System von Benutzern in einer Umgebung mit einem speziellen Vokabular verwendet wird. Beispielsweise wurden Systeme mit kontinuierlicher Spracheingabe in der medizinischen Industrie in bestimmten Bereichen wie der Radiologie, Orthopädie, inneren Medizin, Notfallmedizin, psychischen Krankheiten usw. implementiert. Allerdings sind Systeme mit kontinuierlicher Spracheingabe durch ihre inhärenten Unzulänglichkeiten des Vokabulars begrenzt, wodurch ihre Einsatzmöglichkeit in anderen Branchen oder Arbeitsumgebungen eingeschränkt wird.
Letztendlich werden Systeme mit natürlicher Spracheingabe auf den Markt kommen. Bei diesen Systemen wird es nicht mehr erforderlich sein, dass der Benutzer in einer bestimmten Weise spricht, damit der Rechner ihn verstehen kann, sondern dieser wird in der Lage sein, den Unterschied zu verstehen zwischen dem Befehl eines Benutzers an den Rechner und Informationen, die in den Rechner eingegeben werden sollen.
Im Rest dieser Offenbarung werden die Begriffe "Stimmerkennung" und "Spracherkennung" synonym verwendet. In einigen Fällen wird eine Unterscheidung zwischen Stimmerkennung und Spracherkennung getroffen. Allerdings leiden beide, das Stimmerkennungs- und das Spracherkennungssystem, unter den gleichen Zuverlässigkeitsproblemen, die vorher beschrieben wurden, und es wurden die gleichen Lösungen auf beide Erkennungstechnologien angewendet, um eine Lösung für die Unzulänglichkeiten bisherigen des Stands der Technik bereitzustellen.
Probleme des herkömmlichen Stands der Technik die durch die vorliegende Erfindung gelöst werden sollen
Viele Datenverarbeitungssysteme mit mehreren Quellen umfassen eine Spracherkennungs-Software. Wie oben beschrieben, weist die herkömmliche Spracherkennungs-Software viele Nachteile auf. Ein großer Nachteil ist, dass ein Anwendungsprogramm, wie beispielsweise ein Textverarbeitungsprogramm, das die Spracherkennungs-Software verwendet, häufig das von einem Benutzer generierte Diktat verliert oder es nicht richtig erfasst.
Es gibt zwei wichtige Gründe dafür, dass ein Diktat nicht richtig erfasst wird: Einer der Hauptgründe für dieses verloren gegangene Diktat besteht darin, dass die Benutzer oft vergessen, die Spracherkennungs-Software zu aktivieren, weil die Statusanzeigen oder Symbole für das Mikrofon auf einer Anzeigevorrichtung schlecht zu finden sind. Ein weiterer Grund dafür, dass ein Diktat nicht richtig erfasst wird, ist, dass die Benutzer oft davon ausgehen, dass das Mikrofon der Spracherkennungs-Software eingeschaltet ist und beginnen, ihre Gedanken zu diktieren. Nach ein paar Minuten stellen die Benutzer je doch fest, dass ihre gesprochenen Befehle und/oder das Diktierte von der Spracherkennungs-Software nicht aufgezeichnet oder richtig verarbeitet wurden. In solchen Situationen müssen die Benutzer die Spracherkennungs-Software "einschalten" oder "aufwecken" und ihre Gedanken nochmals diktieren. Dies kann über die Sprache erfolgen, selbst das "Aufwecken" des Rechners selbst, siehe beispielsweise "Method for Using Voice Detection to Restore Computing Equipment in Low-Power State to Normal Operation" im IBM Technical Disclaims Bulletin, Band 41, Nr. 01, S. 445 – 446, Januar 1998.
Eine weitere Ursache für ein verloren gegangenes Diktat ist, dass die Rechner, von denen die Spracherkennungs-Software unterstützt wird, oft sehr langsame Verarbeitungsgeschwindigkeiten aufweisen. Normalerweise ist für die Spracherkennungs-Software eine höhere Verarbeitungsleistung als in Bezug auf die alltäglichen Anwendungen erforderlich, und viele herkömmliche Rechner erfüllen die Anforderungen der Spracherkennungs-Software nicht in ausreichendem Maß. Bei herkömmlichen Rechnern kann es oft der Fall sein, dass der Benutzer einen Befehl äußert und davon ausgeht, dass der Befehl vom Rechner richtig erfasst wurde. Der Benutzer fährt danach direkt mit dem Diktat fort. Wenn die Software den Befehl "Einschalten" nicht erfasst hat, dann würde keine der Äußerungen des Benutzers erfasst. In solchen Fällen müssen die Benutzer ihre Äußerungen nochmals so diktieren, dass diese Informationen von dem Rechner erfasst werden.
Bei einigen der herkömmlichen Spracherkennungs-Softwares wurde versucht, diese Probleme durch Bereitstellen von besser sichtbaren Statusanzeigen bzw. Symbolen für das Mikrofon bereitzustellen. Diese schnelle Problembehebung oder einfache Lösung löst die vorher genannten Probleme nicht vollständig. Obwohl durch eine besser sichtbare Anzeige bzw. ein besser sichtbares Symbol für das Mikrofon die Wahrscheinlichkeit reduziert wird, dass Benutzer versehentlich diktieren, ohne dass die Spracherkennungs-Software aktiviert ist, bemerken einige Benutzer die Statusanzeige bzw. das Symbol für das Mikrofon immer noch nicht oder achten nicht darauf.
Beispielsweise diktieren viele Benutzer, während sie auf geschriebenes Material blicken, wie beispielsweise auf Notizen oder Bücher auf ihrem Schreibtisch, und daher sehen solche Benutzer nicht auf die Anzeigevorrichtung. Für diese Benutzer stellt eine besser sichtbare Statusanzeige bzw. ein besser sichtbares Symbol für das Mikrofon keine Min derung des Problems eines verloren gegangenen Diktats dar. Aber selbst mit größeren Statusanzeigen bzw. Symbolen für das Mikrofon müssen die Benutzer einer Spracherkennungs-Software wegen der niedrigen Geschwindigkeiten von herkömmlichen Rechnern immer noch eine beträchtliche Zeit warten, bis die Spracherkennungs-Software aktiviert oder "eingeschaltet" wird.
Weitere Probleme der Spracherkennungs-Software umfassen Fehler bei der Verarbeitung von Sprache, in der die Spracherkennungs-Software gesprochene Wörter unabsichtlich durch Wörtern ersetzt, die phonetisch ähnlich klingen. Beispielsweise könnte das Wort "Fenster" von die Spracherkennungs-Software als der Begriff "finster" interpretiert werden.
Demzufolge besteht ein allgemeiner Bedarf des Stands der Technik an einem Hintergrundsystem zur Wiedergewinnung von Audiodaten, das mit einem Rechnersystem eingesetzt werden kann, das diktierte Sprache erfasst und verarbeitet, die generiert wird, während die Spracherkennungs-Software einem inaktiven Status zugewiesen ist. Es besteht ein weiterer Bedarf des Stands der Technik an einem Hintergrundsystem zur Wiedergewinnung von Audiodaten, das die tatsächlichen Hintergrund-Audiodaten wiedergibt, die von einem Benutzer generiert werden, um verbesserte Aufbereitungsleistungen für die verarbeitete Sprache bereitzustellen. Es besteht ein weiterer Bedarf an einem Hintergrundsystem zur Wiedergewinnung von Audiodaten, das es einem Benutzer ermöglicht, Hintergrund-Audiodaten zu bearbeiten, bevor Hintergrund-Audiodaten in ein offenes Dokument eines Anwendungsprogramms eingegeben werden.
KURZDARSTELLUNG DER ERFINDUNG
Die vorliegende Erfindung gemäß den Ansprüchen 1 und 20 betrifft im Allgemeinen ein Hintergrundsystem zur Wiederherstellung von Audiodaten, das ein Programm-Modul zur Spracherkennung ausweist, Audiodaten aufzeichnen kann und anschließend Spracherkennungs-Techniken auf die im Hintergrund erfassten Sprachdaten oder die Audiodaten anwendet, die von einem Mikrofon empfangen wurden, wenn dem Programm-Modul zur Spracherkennung versehentlich ein inaktiver Modus zugewiesen wurde. Dieses kontinuierliche Erfassen aller Audiodaten bzw. der Sprachdaten im Hintergrund, die von einem Mikrofon empfangen werden, während dem Programm-Modul zur Spracherkennung ein inaktiver Modus zugewiesen ist, verhindert den Verlust eines Diktats von einem Benutzer.
Wie oben angegeben, speichert das Hintergrundsystem zur Wiedergewinnung von Audiodaten der vorliegenden Erfindung kontinuierlich Sprache oder Audiodaten im Hintergrund, wenn dem Programm-Modul zur Spracherkennung ein inaktiver Modus zugewiesen ist. Wenn der Benutzer feststellt, dass das Mikrofon für das Programm-Modul zur Spracherkennung nicht "eingeschaltet" war oder als inaktiv ausgewiesen war, wird das Mikrofon durch den Benutzer dann entweder durch eine gesprochenes Befehlswort oder eine Tastatureingabe richtig "eingeschaltet". Das Programm-Modul zur Spracherkennung fragt das Anwendungsprogramm ab, ob Sprachdaten oder Audiodaten vor dem "Einschalten" oder Aktivieren des Programm-Moduls zur Spracherkennung im Hintergrund gespeichert wurden.
Wenn Audiodaten oder Sprachdaten im Hintergrund gespeichert wurden, informiert das Hintergrundsystem zur Wiedergewinnung von Audiodaten den Benutzer, dass vor dem Aktivieren des Mikrofons (oder der Aktivierung des Programm-Moduls zur Spracherkennung) Sprachdaten im Hintergrund gespeichert wurden und zum Umwandeln und Einfügen in das aktuell offene Dokument des Anwendungsprogramms zur Verfügung stehen. Dem Benutzer wird wenigstens eine der folgenden Optionen angeboten: (1) das Verarbeiten und Umwandeln der Audiodaten oder Sprachdaten im Hintergrund in Text und das Anzeigen des Texts nach dem Anwenden von gesprochenen Befehlen in einer separaten Benutzeroberfläche; (2) das Verarbeiten und Umwandeln der Audiodaten oder Sprachdaten im Hintergrund in Text und das Anzeigen des Texts mit den gesprochenen Befehlen, die als Text in einer separaten Benutzeroberfläche aufgelistet werden; (3) das Verarbeiten und Umwandeln der Audiodaten oder Sprachdaten im Hintergrund in Text und das Einfügen des Texts in das aktuell offene Dokument ohne jede Bearbeitung; oder (4) das Löschen der Audiodaten oder Sprachdaten im Hintergrund.
Wenn der Benutzer beschließt, die Hintergrund-Sprachdaten zu verarbeiten und umzuwandeln, wandelt das Hintergrundsystem zur Wiedergewinnung von Audiodaten die Hintergrund-Sprachdaten mit dem Programm-Modul zur Spracherkennung in Text um. Anschließend zeigt das Hintergrundsystem zur Wiedergewinnung von Audiodaten die umgewandelten Hintergrund-Sprachdaten oder den Text dem Benutzer über eine Benut zeroberfläche an, typischerweise im Format eines separaten Dialogfelds oder -fensters, bevor der Text in das aktuell offene Dokument des Anwendungsprogramms oder Textverarbeitungssystems eingefügt wird.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten bietet dem Benutzer zusätzliche Bearbeitungsoptionen für den umgewandelten Text an. Bei einer Ausführungsform der vorliegenden Erfindung werden die gesamten Hintergrund-Sprachdaten als Text behandelt, selbst wenn während des Generierens der Hintergrund-Sprachdaten gesprochene Befehle ausgegeben wurden. In einer anderen Ausführungsform der vorliegenden Erfindung werden gesprochene oder diktierte Befehle als Befehle verarbeitet, und der Benutzer kann festlegen, ob jeder der in Text umgewandelten Befehle für die jeweiligen Hintergrund-Sprachdaten ausgeführt werden soll.
In einer weiteren Ausführungsform werden tatsächliche Audiodaten oder Sprachdaten, die vom Mikrofon empfangen werden, ebenfalls in einer Speichervorrichtung in einem Format mit geringer Wiedergabetreue (low fidelity format) so gespeichert, dass ein Benutzer die tatsächlichen Audiodaten abhören kann, um den Bearbeitungsprozess für den umgewandelten Text zu verbessern.
Die vorliegende Erfindung gibt dem Benutzer mehr Kontrolle über die Wiedergewinnung eines "verlorenen" Diktats, das in ein offenes Dokument eines Textverarbeitungsprogramms eingefügt werden soll. Eine solche Kontrolle ist vorhanden, wenn Befehle und dazugehörige umgewandelte Hintergrund-Sprachdaten in einem separaten Dialogfeld angezeigt werden, bevor die umgewandelten Hintergrund-Sprachdaten in das aktuelle offene Dokument des Textverarbeitungssysteme eingefügt werden. Mit anderen Worten, die vorliegende Erfindung zwingt den Benutzer nicht, den Inhalt der umgewandelten Hintergrund-Sprachdaten einfach in ein offenes Dokument einzufügen oder dort "abzuladen".
Die vorliegende Erfindung ermöglicht es einem Benutzer, das Mikrofon "rückwirkend einzuschalten" und stellt eine Anzeige mit Optionen bereit, wie die umgewandelten Hintergrund-Sprachdaten in das offene Dokument eingefügt werden können. Die vorliegende Erfindung ermöglicht es dem Benutzer auch, Grenzen für die Verarbeitung von Hintergrund-Sprachdaten einzurichten, wobei der Benutzer die Zeitdauer oder Speicher menge vorgibt, die verwendet werden soll, um Diktatverluste zu verhindern. Des Weiteren gestattet die vorliegende Erfindung dem Benutzer auch das "proaktive Einschalten" des Mikrofons in Fällen, in denen die im Hintergrund erfassten Sprachdaten oder Audiodaten verworfen werden und das Textverarbeitungsprogramm bereit ist, die kommenden Sprachdaten des Benutzers zu empfangen.
Spezifischer beschrieben ist die vorliegende Erfindung ein Hintergrundsystem zur Wiedergewinnung von Audiodaten, das ein Anwendungsprogramm umfasst, wie beispielsweise ein Textverarbeitungsprogramm. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten zeigt auf einer Anzeigevorrichtung einen Indikator für inaktiven Status an für ein Programm-Modul zur Spracherkennung in einem Anwendungsprogramm. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten ermittelt dann, ob eine Audiodaten-Eingangsvorrichtung eine Audiodaten-Eingabe empfängt, wie beispielsweise die Sprache oder Stimme von einem Benutzer. Wenn Audiodaten von der Audiodaten-Eingangsvorrichtung (d.h. einem Mikrofon) empfangen werden, speichert das Hintergrundsystem zur Wiedergewinnung von Audiodaten die Audiodaten in einer Speichervorrichtung. Alternativ dazu lassen sich die Audiodaten durch das Hintergrundsystem zur Wiedergewinnung von Audiodaten in Text umwandeln, bevor sie in einer Speichervorrichtung gespeichert werden.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten ermittelt, ob ein Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung ausgegeben wurde, und wenn dies der Fall ist, initiiert das Hintergrundsystem zur Wiedergewinnung von Audiodaten ein Programm-Modul für Hintergrund-Audiodaten zum Bearbeiten der gespeicherten Audiodaten.
Gemäß einem Gesichtspunkt der vorliegenden Erfindung speichert das Hintergrundsystem zur Wiedergewinnung von Audiodaten Hintergrund-Audiodaten im Cache-Speicher einer Zentraleinheit. Gemäß einem weiteren Gesichtspunkt der vorliegenden Erfindung ist das Anwendungsprogramm ein Textverarbeitungsprogramm, das für die Bearbeitung der gespeicherten Daten ausgelegt ist.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten kann ermitteln, ob ein Programm zum Aktivieren des Anwendungsprogramms ausgegeben worden ist, indem der Befehl entweder von einer Tastatur-Schnittstelle oder einer Audiodaten-Eingangsvorrichtung, wie beispielsweise einem Mikrofon, erfasst wird. Gemäß einem weiteren Gesichtspunkt der vorliegenden Erfindung kann das Hintergrundsystem zur Wiedergewinnung von Audiodaten eine grafische Benutzerfläche, wie beispielsweise ein Dialogfeld, auf einer Anzeigevorrichtung anzeigen. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten kann dann eine Optionenliste für gespeicherte Hintergrund-Audiodaten in dieser grafischen Benutzeroberfläche anzeigen.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten kann die Hintergrund-Audiodaten in Textdaten umwandeln und anschließend die Textdaten auf einer Anzeigevorrichtung anzeigen, wobei die Textdaten textliche Befehle des Anwendungsprogramms enthalten, die nicht auf die Textdaten angewendet wurden. Unter einem anderen Gesichtspunkt der vorliegenden Erfindung kann das Hintergrundsystem zur Wiedergewinnung von Audiodaten die gesprochenen Befehle auf die anderen gespeicherten Textdaten anwenden und anschließend die verarbeiteten Textdaten auf einer Anzeigevorrichtung anzeigen.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten kann auch die Hintergrund-Audiodaten in Textdaten umwandeln und die umgewandelten Textdaten in eine offene Datei einfügen, auf die von dem Anwendungsprogramm zugegriffen wird. Die Textdaten können textliche Befehle des Anwendungsprogramms enthalten, die nicht auf die Textdaten angewendet wurden.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten kann einen Benutzer auch auffordern, die gespeicherten Audiodaten aus einer Speichervorrichtung zu löschen. Gemäß einem weiteren Gesichtspunkt der vorliegenden Erfindung kann das Hintergrundsystem zur Wiedergewinnung von Audiodaten die Hintergrund-Audiodaten als eine Klangdatei in einer Speichervorrichtung speichern. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten kann dann die Hintergrund-Audiodaten in Textdaten umwandeln und anschließend die umgewandelten Textdaten auf einer Anzeigevorrichtung anzeigen, während die Hintergrund-Audiodaten von der Klangdatei der Speichervorrichtung wiedergegeben werden. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten gestattet es dem Benutzer, wenigstens eines von einem Zeitinkrement, ei nem Dateigrößeninkrement und einem Wert anzuzeigen, um den Audiodaten-Dateien mit aufgezeichneter Sprache eine vorgegebene Größe zuzuweisen.
Dass die vorliegende Erfindung gegenüber den Nachteilen der Software zur Spracherkennung nach dem Stand der Technik eine Verbesserung darstellt und die vorher beschriebenen Vorteile schafft, wird aus der folgenden detaillierten Beschreibung der beispielhaften Ausführungsformen und den Zeichnungen im Anhang sowie den Ansprüchen offenkundig.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Funktions-Blockschaltbild eines Personal-Computer-Systems, das die Betriebsumgebung für die beispielhaften Ausführungsformen der vorliegenden Erfindung bereitstellt.
2 ist ein Funktions-Blockschaltbild der Programm-Module eines Datenverarbeitungssystems mit mehreren Quellen.
3 ist ein Funktions-Blockschaltbild des Hintergrundsystems zur Wiedergewinnung von Audiodaten der vorliegenden Erfindung.
4 veranschaulicht eine grafische Benutzeroberfläche und ein Mikrofon für das Hintergrundsystem zur Wiedergewinnung von Audiodaten der vorliegenden Erfindung.
5 veranschaulicht eine grafische Benutzeroberfläche für das Hintergrundsystem zur Wiedergewinnung von Audiodaten, nachdem ein Programm-Modul zur Spracherkennung des Hintergrundsystems zur Wiedergewinnung von Audiodaten aktiviert oder "eingeschaltet" worden ist.
6 ist ein Bearbeitungsfenster der grafischen Benutzeroberfläche für das Hintergrundsystem zur Wiedergewinnung von Audiodaten, in dem gesprochene Befehle auf die Hintergrund-Audiodaten angewendet worden sind.
7 ist ein Bearbeitungsfenster der grafischen Benutzeroberfläche für das Hintergrundsystem zur Wiedergewinnung von Audiodaten, in dem gesprochene Befehle als Text angezeigt worden sind.
8 ist eine grafische Benutzeroberfläche für das Hintergrundsystem zur Wiedergewinnung von Audiodaten, wobei gesprochene Befehle als Text angezeigt und die Hintergrund-Audiodaten in ein offenes Dokument eines Textverarbeitungs-Anwendungsprogramms eingefügt worden sind.
9 veranschaulicht das Einrichtungsmenü einer grafischen Benutzeroberfläche für das Hintergrundsystem zur Wiedergewinnung von Audiodaten der vorliegenden Erfindung.
10 ist ein Funktions-Blockschaltbild von Speichervorrichtungen für das Hintergrundsystem zur Wiedergewinnung von Audiodaten der vorliegenden Erfindung.
11 ist ein Logik-Ablaufdiagramm, das die Funktionsweise des Hintergrundsystems zur Wiedergewinnung von Audiodaten der vorliegenden Erfindung darstellt.
12 ist ein Logik-Ablaufdiagramm, das eine Einrichtungsfunktion des Hintergrundsystems zur Wiedergewinnung von Audiodaten der vorliegenden Erfindung darstellt.
13 ist ein Logik-Ablaufdiagramm, das die Details des Menüs für die Anzeige der Hintergrund-Audiodaten der vorliegenden Erfindung anzeigt.
DETAILLIERTE BESCHREIBUNG BEISPIELHAFTER AUSFÜHRUNGSFORMEN
1 und die folgende Erläuterung sollen eine kurze, allgemeine Beschreibung einer geeigneten Rechnerumgebung bereitstellen, in der die vorliegende Erfindung angewendet werden kann. Obwohl die vorliegende Erfindung in dem allgemeinen Kontext eines anwendungsunabhängigen Programms beschrieben wird, das in Verbindung mit einem Betriebssystem gefahren wird, das auf einem Personal-Computer läuft, erkennt der Fachmann, dass die vorliegende Erfindung in anderen Programm-Modulen implemen tiert werden kann. Im Allgemeinen enthalten Programm-Module Routinen, Programme, Komponenten, Datenstrukturen usw., die bestimmte Aufgaben ausführen oder einen bestimmten abstrakten Datentyp implementieren. Außerdem wird der Fachmann zu schätzen wissen, dass die vorliegende Erfindung mit anderen Rechnersystem-Konfigurationen eingesetzt werden kann, einschließlich Taschencomputern, Mehrprozessorsystemen, auf Mikroprozessoren basierender oder programmierbarer Unterhaltungs- und Haushaltselektronik, Minicomputern, Großrechnern und Ähnlichem. Die Erfindung kann auch in verteilten Rechnerumgebungen eingesetzt werden, in denen Aufgaben durch Fernbearbeitungsvorrichtungen ausgeführt werden, die über ein Kommunikationsnetzwerk miteinander verbunden sind. In einer verteilten Rechnerumgebung können sich Programm-Module in entfernten Festplatten-Speichereinrichtungen befinden.
Beispielhafte Betriebsumgebung
1 ist eine allgemeine Beschreibung einer geeigneten Rechnerumgebung 100 für eine Implementierung der vorliegenden Erfindung. Die beispielhafte Rechnerumgebung 100 umfasst ein herkömmliches Personal-Computer-System 120, das eine Verarbeitungseinheit 121, einen Systemspeicher 122 und einen Systembus 123 aufweist, der den Systemspeicher 122 mit der Verarbeitungseinheit 121 koppelt. Der Systemspeicher 122 umfasst einen Festwertspeicher (ROM) 124 und einen Direktzugriffsspeicher (RAM) 125. Ein grundlegendes Eingabe-/Ausgabe-System 126 (BIOS), das die wesentlichen Routinen enthält, welche die Informationsübertragung zwischen Elementen im Personal-Computer-System 120 unterstützen, wie beispielsweise während der Inbetriebsetzung, ist im ROM 124 gespeichert.
Das Personal-Computer-System 120 umfasst des Weiteren ein Festplattenlaufwerk 127, ein Magnetplattenlaufwerk 128, z. B. um Daten aus einer austauschbaren Magnetplatte 129 auszulesen oder auf diese zu schreiben, und ein Bildplattenlaufwerk 130, z.B. zum Lesen einer CD-ROM-Diskette 131 oder um andere optische Medien zu beschreiben oder Daten daraus auszulesen. Das Festplattenlaufwerk 127, Magnetplattenlaufwerk 128 und Bildplattenlaufwerk 130 sind an den Systembus 123 jeweils angeschlossen über eine Festplattenlaufwerk-Schnittstelle 132, eine Magnetplattenlaufwerk-Schnittstelle 133 und eine Bildplattenlaufwerk-Schnittstelle 134. Die Laufwerke und ihre dazugehörigen computerlesbaren Medien stellen einen nicht-flüchtigen Speicher für das Personal- Computer-System 120 bereit. Obwohl die Beschreibung der oben genannten computerlesbaren Medien sich auf eine Festplatte, eine austauschbare Magnetplatte und eine CD-ROM-Diskette bezieht, sollte es dem Fachmann klar sein, dass andere Arten von Medien, die von einem Computersystem gelesen werden können, wie beispielsweise Magnetbandkassetten, Flash-Speicherkarten, digitale Videoplatten, Bernouilli-Einschubkassetten (Bernouilli cartridges) und Ähnliches ebenfalls in der beispielhaften Betriebsumgebung verwendet werden können.
Einen Benutzer kann in den Personal-Computer 120 über herkömmliche Eingabevorrichtungen, einschließlich einer Tastatur 140 und einer Zeigevorrichtung, wie beispielsweise einer Maus 142, Befehle und Informationen eingeben. Ein Mikrofon 161 kann zum Eingeben einer Audiodaten-Eingabe, wie beispielsweise Sprache, in das Rechnersystem 120 verwendet werden. Ein Benutzer kann grafische Daten, wie beispielsweise Zeichnungen und Handschriftliches in das Computersystem eingeben, indem die grafische Informationen mit einer Schreibnadel auf ein Schreibtablett 162 gezeichnet werden. Das Computersystem 120 kann zusätzliche (nicht gezeigte) Eingabevorrichtungen umfassen, wie beispielsweise einen Joystick, ein Spiel-Pad, eine Satellitenschüssel, einen Scanner oder Ähnliches. Das Mikrofon 161 kann an die Verarbeitungseinheit 121 über einen Audio-Adapter 160 angeschlossen werden, der an den Systembus gekoppelt ist. Die anderen Eingabevorrichtungen sind an die Verarbeitungseinheit 121 oft über eine serielle Anschluss-Schnittstelle 146 angeschlossen, die mit dem Systembus gekoppelt ist, kann aber über andere Schnittstellen angeschlossen sein, wie beispielsweise einen Spielanschluss oder einen universellen seriellen Bus (USB).
Ein Bildschirm 147 oder eine andere Art von Anzeigevorrichtung ist ebenfalls an den Systembus 123 über eine Schnittstelle angeschlossen, wie beispielsweise einen Video-Adapter 148. Neben dem Monitor umfassen Personal-Computer-Systeme typischerweise andere (nicht gezeigte) periphere Ausgabevorrichtungen, wie beispielsweise Lautsprecher oder Drucker.
Das Personal-Computer-System 120 kann in einer Netzwerkumgebung mit logischen Verbindungen zu einem oder mehreren entfernten Computersystemen betrieben werden, wie beispielsweise dem entfernten Computersystem 149, das in 1 gezeigt ist. Das entfernte Computersystem 149 kann ein Server, ein Router, eine gleichrangige Ein richtung oder ein anderer gemeinsamer Netzwerkknoten sein und enthält typischerweise viele oder alle der Elemente, die in Bezug auf das Personal-Computer-System 120 beschrieben wurden, obwohl nur eine Festplatten-Speichervorrichtung 150 in 1 dargestellt wurde. Die in 1 dargestellten logischen Verbindungen umfassen ein lokales Netzwerk (LAN) 151 und ein Weitverkehrsnetz (WAN) 152. Solche Netzwerkumgebungen sind alltäglich in Büros, unternehmensübergreifenden Rechnernetzwerken, internen Netzwerken und dem Internet.
Wenn das Personal-Computer-System 120 in einer LAN-Netzwerkumgebung verwendet wird, ist es mit dem lokalen Netzwerk 151 über eine Netzwerkschnittstelle 153 verbunden. Wenn das Personal-Computer-System 120 in einer WAN-Netzwerkumgebung verwendet wird, umfasst es typischerweise ein Modem 154 oder ein anderes Mittel zum Herstellen von Kommunikationen über ein Weitverkehrsnetz 152, wie beispielsweise das Internet. Das Modem 154, das intern oder extern sein kann, ist an den Systembus 123 über die serielle Anschluss-Schnittstelle 146 angeschlossen. In einer Netzwerkumgebung können Programm-Module, die in Bezug auf das Personal-Computer-System 120 oder Teile davon beschrieben wurden, in der entfernten Festplatten-Speichervorrichtung 150 gespeichert werden. Man wird zu schätzen wissen, dass die gezeigten Netzwerkverbindungen beispielhaft sind und andere Mittel zum Herstellen einer Kommunikationsverbindung zwischen den Rechnersystemen verwendet werden können. Man wird des Weiteren zu schätzen wissen, dass die vorliegende Erfindung gleichermaßen auf anderen Host- oder Server-Rechnersystemen als den Personal-Computer-Systemen implementiert werden könnte, und gleichermaßen an das Host-Rechnersystem über andere Mittel als eine CD-ROM übertragen werden könnte, wie beispielsweise über die Netzwerk-Verbindungsschnittstelle 153.
Eine Anzahl von Programm-Modulen kann auf den Laufwerken und im RAM 125 des Rechnersystems 120 gespeichert werden. Programm-Module steuern die Funktionsweise des Rechnersystems 120 und dessen Interaktion mit dem Benutzer, mit Eingangs-/Ausgangs-Vorrichtungen und mit anderen Rechnern. Programm-Module umfassen Routinen, das Betriebssystem 135, Module des Anwendungsprogramms 138, Datenstrukturen, Browser und andere Software- oder Firmware-Komponenten. Die vorliegende Erfindung kann bequem in einem oder mehreren Programm-Modulen implementiert werden, wie beispielsweise einem stochastischen Eingabe-Kombinator-Programmmodul (input combiner program module) 137 und einem stochastischen Eingabeschnittstellen-Programm-Modul 139, von denen jedes auf den Verfahren basiert, die in der detaillierten Beschreibung erläutert werden.
Die Module 138 des Anwendungsprogramms können eine Reihe von Anwendungen umfassen, die in Verbindung mit der vorliegenden Erfindung verwendet werden, wobei einige davon in 2 dargestellt sind. Die Ziele einiger dieser Programm-Module und die Interaktion zwischen ihnen wird ausführlicher im Beschreibungstext zu 2 erläutert. Diese umfassen ein Textverarbeitungsprogramm 210 (wie zum Beispiel WORD, hergestellt von Microsoft Corporation in Redmond, WA), ein Programm-Modul zur Handschrifterkennung 230, ein Programm-Modul zur Spracherkennung 240 und einen Eingabeverfahren-Editor (IME) 250.
Eine bestimmte Programmiersprache wird für die Ausführung der einzelnen Prozeduren nicht beschrieben, die in der detaillierten Beschreibung erläutert werden, weil davon ausgegangen wird, dass die in den begleitenden Zeichnungen beschriebenen und dargestellten Arbeitsvorgänge, Schritte und Prozeduren ausreichend offenbart wurden, um es dem durchschnittlichen Fachmann zu gestatten, eine beispielhafte Ausführungsform der vorliegenden Erfindung zu nutzen. Des Weiteren gibt es viele Rechner und Betriebssysteme, die für die Nutzung einer beispielhaften Ausführungsform verwendet werden können, und daher konnte kein detailliertes Computerprogramm bereitgestellt werden, das auf alle diese vielen unterschiedlichen Systeme angewendet werden könnte. Jeder Benutzer eines bestimmten Rechners kennt die Sprache und Werkzeuge, die für seine Bedürfnisse und Zwecke am nützlichsten sind.
Übersicht über Programm-Module
2 stellt eine Übersicht über die Programm-Module eines Datenverarbeitungssystems mit mehreren Quellen 200 bereit. Im Allgemeinen ist der Zweck der in 2 gezeigten Programm-Module das Erzeugen von stochastischen Daten aus der Benutzereingabe und die anschließende Nutzung des stochastischen Ergebnisses als Texteingabe in eine Anwendung, wie beispielsweise ein Textverarbeitungsprogramm. Ein stochastisches Ergebnis heißt, dass Alternativen mit Wahrscheinlichkeiten verknüpft sind. Ein stochastisches Ergebnis bedeutet des Weiteren im Allgemeinen, dass es mehr als eine Alternative gibt. Stochastische Daten, die als Eingabe in ein Programm-Modul verwendet werden, werden als "stochastische Eingabe" bezeichnet. Ein Programm-Modul, das eine stochastischen Eingabe für ein anderes Programm-Modul erzeugt, wird als "stochastische Eingabequelle" bezeichnet.
Die in 2 gezeigten Programm-Module ermöglichen es einem Benutzer, Text in ein Anwendungsprogramm einzugeben, wie beispielsweise ein Textverarbeitungsprogramm 210, und dazu sowohl stochastische als auch nicht-stochastische Eingabequellen zu verwenden. Zu typischen stochastischen Eingabequellen gehört das Programm-Modul zur Handschrifterkennung 230, das Programm-Modul zur Spracherkennung 240, der Eingabeverfahren-Editor (IME) 250 und das Programm-Modul zur Spracherkennung 260. Eine Tastatur 140 ist eine typische Quelle für nicht-stochastische Daten. Sobald der Benutzer Text in das Textverarbeitungsprogramm 210 über eine oder mehrere dieser Eingabequellen eingibt, kann der Benutzer anschließend einen Textabschnitt wählen und eine Kandidatenliste mit Alternativen für den ausgewählten Text anfordern. Die Textauswahl kann Eingaben aus mehreren stochastischen und nicht-stochastischen Eingabequellen enthalten. So lange die Textauswahl aus wenigstens einer stochastischen Eingabequelle ausgewählt wird, sind für die Textauswahl Alternativen vorhanden. Die Programm-Module werden aktiviert, um diese Kandidatenliste zu erzeugen und dem Benutzer über eine grafische Benutzeroberfläche bereitzustellen. Wenn der Benutzer einen der Kandidatenwerte wählt, wird die Textauswahl durch den ausgewählten Kandidatenwert ersetzt. Die Funktionsweise der stochastischen Eingabequellen 230, 240, 250 und 260 wird im Folgenden nacheinander erläutert.
Das Programm-Modul zur Handschrifterkennung 230 empfängt die handschriftliche Eingabe 280 vom Benutzer. Der Benutzer erzeugt die handschriftliche Eingabe 280 durch Beschreiben des Schreibtabletts 162 mit einer Schreibnadel. Alternativ dazu (und nicht in den Zeichnungen dargestellt) kann der Benutzer eine handschriftliche Eingabe durch Beschreiben eines Berührungsbildschirms mit einer Schreibnadel erzeugen oder eine Zeigevorrichtung, wie beispielsweise eine Maus, zum Erstellen von Text verwenden. Nach der Eingabe wird die handschriftliche Eingabe 280 vorzugsweise zum Programm-Modul zur Handschrifterkennung 230 weitergeleitet über ein Treibermodul des Schreibtabletts im Betriebssystem 135.
Da eine Handschrift für einen Rechner oft schwierig zu interpretieren ist, kann das Programm-Modul zur Handschrifterkennung 230 die handschriftliche Eingabe 280 nicht immer mit voller Genauigkeit entziffern. Das Beste, was das Programm-Modul 230 tun kann, besteht darin, Alternativen für die handschriftliche Eingabe 280 zu generieren und jeder Alternative eine Wahrscheinlichkeit zuzuordnen, nach der sie die Richtige ist. Definitionsgemäß generiert das Programm-Modul zur Handschrifterkennung 230 anschließend ein stochastisches Ergebnis. Das stochastische Modell 270a weist eine Datenstruktur auf, welche die stochastischen Daten enthält, die durch die Verarbeitung der handschriftlichen Eingabe 280 durch das Programm-Modul 230 zur Handschrifterkennung erzeugt wurden.
Obwohl jede Datenstruktur, die stochastische Daten speichern kann, ein stochastisches Modell 270 aufweisen kann, sind zwei nützliche Strukturen dafür ein Gitter (lattice) und eine "n-beste" Alternativenliste. Ein Gitter ist eine Struktur, die dem Fachmann wohlbekannt ist, so dass keine vollständige Beschreibung abgegeben wird. Kurzumrissen jedoch speichert ein Gitter Wörter oder Sätze, die von einer stochastischen Eingabequelle erzeugt werden, in einem Knoten. Da jedes Wort bzw. jeder Satz stochastische Daten sind, speichert der Knoten auch die Wahrscheinlichkeit, die dem zugehörigen Wort oder Satz zugeordnet ist. Unter Verwendung von Verfahren, die dem Fachmann bekannt sind, kann das Gitter durchquert werden, um wahrscheinliche Alternativen für jeden Textabschnitt zu erzeugen, der durch die stochastischen Daten dargestellt ist. Des Weiteren können Gitter, die benachbarte Textteile darstellen, zu einem größeren Gitter kombiniert werden durch einen Prozess, der als Konkatenation bekannt ist. Das größere Gitter kann dann durchquert werden, um Alternativen für die benachbarten Textteile zu erzeugen.
Alternativ dazu können stochastische Daten durch eine Liste der n-besten Alternativen und ihrer dazugehörigen Wahrscheinlichkeiten dargestellt werden. Für jedes vorgegebene Wort bzw. jeden Satz kann eine Liste der n-besten Alternativen aus einem Gitter erzeugt werden, welches das Word bzw. den Satz darstellt.
Das Programm-Modul zur Spracherkennung 240 arbeitet wie das Programm-Modul zur Handschrifterkennung 230, mit Ausnahme dessen, dass es eine Spracheingabe 290 von dem Benutzer über ein Mikrofon 161 empfängt, das von einem Mikrofon-Treiber modul im Betriebssystem 135 betrieben wird. Sprache ist häufig schwierig zu interpretieren, weil viele Wörter, die ähnlich klingen, verschiedene Bedeutungen haben und unterschiedlich buchstabiert werden, so dass das Programm-Modul 240 auch ein stochastisches Ergebnis erzeugt. Das stochastische Modell 270b speichert die Datenstruktur, welche die stochastischen Daten enthält, die durch die Verarbeitung der Spracheingabe 290 durch das Programm-Modul 240 zur Spracherkennung erzeugt wurden.
Ein Eingabeverfahren-Editor (IME) 250 generiert ebenfalls stochastische Daten. Im Allgemeinen wandelt ein IME 250 Eingaben in der Form einer phonetischen Darstellung in Folgen von ideografischen Zeichen um. Die Eingabe in einen IME 250 kann beispielsweise getippter Text sein, der in den Rechner über eine Tastatur 140 und eine Maus 142 eingegeben wird. Das stochastische Modell 270c umfasst eine Datenstruktur, welche die stochastischen Daten enthält, die vom IME 250 erzeugt wurden.
Ein IME 250 ist besonders nützlich zum Erstellen von Ideogrammen in asiatischen und anderen Sprachen. Da es in solchen Sprachen weitaus mehr Ideogramme gibt als Tasten auf der Tastatur vorhanden sind, ist die Eingabe eines bestimmten Ideogramms in den Rechner ohne einen IME 250 problematisch. In einem typischen IME 250 tippt der Benutzer englische Zeichen mit einer phonetischen Buchstabierung für ein gewünschtes chinesisches Zeichen ein. Da viele chinesische Zeichen eine ähnliche Aussprache aufweisen, kann die eingetippte phonetische Buchstabierung eines von einer Reihe verschiedener chinesischer Zeichen sein, und der IME 250 erzeugt ein stochastisches Ergebnis. Anschließend stellt der IME 250 für den Benutzer die wahrscheinlichsten Kandidaten bereit, die durch die getippte phonetische Buchstabierung beabsichtigt wurden, so dass der Benutzer den Richtigen auswählen kann.
Die stochastischen Ergebnisse, die durch eine stochastische Eingabequelle erzeugt werden, können als stochastische Eingabe in eine zweite stochastische Eingabequelle dienen. Wenn dies der Fall ist, sind die stochastischen Eingabequellen "serielle stochastische Eingabequellen", und die stochastischen Eingabequellen können als "in Reihe" konfiguriert beschrieben werden. Dies wird durch die Konfiguration 293 von Programm-Modulen veranschaulicht, die auch eine andere Ausführungsform eines IME 250 zeigt.
In dieser Ausführungsform kann in den Rechner englische Sprache eingegeben und zum Erzeugen von japanischem Text verwendet werden. Die Sprache wird zunächst einem Programm-Modul zur Spracherkennung 260 übergeben. Im Betrieb arbeitet das Programm-Modul zur Spracherkennung 260 ziemlich genau wie das Programm-Modul zur Spracherkennung 240, doch ist es als eine eigenständige Einheit dargestellt, da es eine andere Sprach-Interpretationsmaschine haben kann. Beispielsweise kann das Programm-Modul zur Spracherkennung 260 eine andere Sprache interpretieren als das Programm-Modul zur Spracherkennung 240. Das stochastische Modell 270d umfasst eine Datenstruktur, die stochastische Daten enthält, die durch die Verarbeitung der Spracheingabe mit dem Programm-Modul zur Spracherkennung 260 erzeugt wurden.
In einem IME-Beispiel für englische Sprache/Japanisch kann das Programm-Modul zur Spracherkennung 260 englische Textalternativen aus den gesprochenen englischen Wörtern erzeugen und in dem stochastischen Modell 270d speichern. Anschließend können eine oder mehrere englischsprachige Textalternativen, die im stochastischen Modell 270d gespeichert sind, als Eingabe in den IME 250 verwendet werden, der den eingegebenen englischsprachigen Text in japanische Zeichen übersetzt. Jede in den IME 250 eingegebene Alternative erzeugt ein separates stochastisches Ergebnis, obwohl klar sein sollte, dass es zwischen den Alternativen, die das stochastische Ergebnis von zwei verschiedenen Eingaben in den IME 250 bilden, zu Überschneidungen kommen kann.
Obwohl der Pfeil in 2 vom Programm-Modul zur Spracherkennung 260 zum IME 250 veranschaulicht, dass das Programm-Modul zur Spracherkennung eine stochastische Eingabequelle für den IME 250 ist, sollte klar sein, dass die zwei Programm-Module nicht direkt miteinander verbunden sein können. So kann beispielsweise die stochastische Eingabe vom Programm-Modul zur Spracherkennung 260 in den IME 250 über ein Schnittstellen-Programm-Modul geleitet werden, wie beispielsweise eine stochastische Eingabeschnittstelle 139, an die jede stochastische Eingabequelle direkt angeschlossen ist.
Eine stochastische Eingabeschnittstelle 139 dient als Leitung für stochastische Daten zwischen einer Anwendung 210, die stochastische Daten empfangen soll, und einer stochastischen Eingabequelle, wie beispielsweise einem Programm-Modul zur Handschrift erkennung 230, einem Programm-Modul zur Spracherkennung 240 oder einem IME 250. Ein Vorteil dessen, eine stochastische Eingabeschnittstelle 139 als eine Leitung für stochastische Daten zu haben, besteht darin, dass sie die Kommunikation zwischen der Anwendung 210, welche die stochastischen Daten empfängt, und den stochastischen Eingabequellen vereinfacht. Das bedeutet, die Anwendung muss nur wissen, wie sie mit der stochastischen Eingabeschnittstelle kommuniziert, und nicht mit allen möglichen stochastischen Eingabequellen. In einer beispielhaften Ausführungsform der vorliegenden Erfindung ist das Anwendungsprogramm 210, das die stochastische Eingabe aufnehmen soll, ein Textverarbeitungsprogramm. Die Anwendung 210 könnte aber auch ein Tabellenkalkulationsprogramm, Browser, Programm für elektronische Post, Programm für Musik-Transkription (music transcription program), CAD-Programm oder Betriebssystem sein.
In der Ausführungsform mit dem Textverarbeitungsprogramm empfängt das Textverarbeitungsprogramm 210 über die stochastische Eingabeschnittstelle 139 den Text, der von jeder stochastischen Eingabequelle die wahrscheinlichste Alternative darstellt, die zum Eingeben von Daten in das Textverarbeitungsprogramm verwendet wird. Zusätzlich zum Übertragen von Daten in das Textverarbeitungsprogramm 210 über mehrere stochastische Eingabequellen kann der Benutzer auch typische nicht-stochastische Daten in das Textverarbeitungsprogramm eingeben, wie beispielsweise durch Eintippen auf einer Tastatur 140. Das Textverarbeitungsprogramm 210 kombiniert alle diese Quellendaten in einer Textfolge aus mehreren Quellen, die dem Benutzer vorgelegt wird. Obwohl das Textverarbeitungsprogramm 210 dem Benutzer nicht die Quelle für jedes Wort in dem Text angibt, führt das Textverarbeitungsprogramm trotzdem einen Datensatz über die Quelle jeder Komponente des Texts.
Die Funktion des Textverarbeitungsprogramms 210 ist auch dafür ausgelegt, dem Benutzer zu gestatten, einen Textabschnitt auszuwählen und Alternativen für diese Auswahl anzufordern. Wenn die Textauswahl von einer oder mehreren stochastischen Eingabequellen abgeleitet ist, sind Alternativen für die Textauswahl vorhanden. Das Textverarbeitungsprogramm 210 kann eine Kandidatenliste mit Alternativen von der stochastischen Eingabeschnittstelle 139 anfordern, indem die Textauswahl und die Quellen jeder der Komponenten dieser Textauswahl für sie bereitgestellt wird. Nach der Verarbeitung der Anforderung stellt die stochastische Eingabeschnittstelle 139 eine Kandidaten liste für die gesamte Textauswahl für das Textverarbeitungsprogramm 210 bereit. Das Textverarbeitungsprogramm 210 stellt die Kandidatenliste für den Benutzer über eine grafische Benutzeroberfläche bereit. Wenn der Benutzer eine der Alternativen für die Textauswahl aus der Kandidatenliste auswählt, dann ersetzt das Textverarbeitungsprogramm die Textauswahl durch den gewählten Kandidaten.
Zum Verarbeiten der Anforderung einer Kandidatenliste mit Alternativen für eine Textauswahl überträgt die stochastische Eingabeschnittstelle 139 die Anforderung an den stochastischen Eingabe-Kombinator 137. Durch die Kommunikation mit den stochastischen Eingabequellen über die stochastische Eingabeschnittstelle 139 kann der stochastische Eingabe-Kombinator 137 Informationen über die stochastischen Modelle 270 abfragen, die zum Erzeugen der Kandidatenliste für die Textauswahl benötigt werden. Beim Kombinieren der stochastischen Modelle 270 zum Erzeugen der Kandidatenliste kann der stochastische Eingabe-Kombinator 137 optional ein natürlichsprachliches Modell 220 heranziehen, das Anhaltspunkte verwendet, wie beispielsweise Grammatik und die allgemeine Bedeutung eines Textabschnitts, um zusätzliche Alternativen für die Kandidatenliste zu erzeugen und die Wahrscheinlichkeiten der Alternativen neu zu bewerten, die beim Kombinieren der stochastischen Modelle 270 abgeleitet wurden. Die Verfahren zum Erzeugen einer Kandidatenliste mit Alternativen für eine Textauswahl werden in Verbindung mit dem Text zur Beschreibung der 3 bis 9 erläutert.
Wie in 2 gezeigt, können die stochastischen Eingabequellen 230, 240 und 250 jeweils stochastische Daten für das Textverarbeitungsprogramm 210 bereitstellen, ohne ihre stochastischen Daten vorher durch eine andere stochastische Eingabequelle zu filtern. Mit anderen Worten, die stochastischen Eingabequellen 230, 240 und 250 können jeweils direkt (über die stochastische Eingabeschnittstelle 139) stochastische Daten an das Textverarbeitungsprogramm 210 übertragen, und stochastische Daten von jeder Quellen können in das gleiche Textverarbeitungsdokument integriert werden. Aus diesem Grund sind sie "parallele stochastische Eingabequellen" 296, und diese stochastischen Eingabequellen können als "parallel" konfiguriert beschrieben werden.
Obwohl die verschiedenen Programm-Module getrennt voneinander beschrieben wurden, sollte der Fachmann erkennen, dass die Module auf verschiedene Weise kombiniert werden könnten, und dass neue Programm-Module geschaffen werden könnten, um ähnliche Ergebnisse zu erzielen. Insbesondere könnten sich der stochastische Eingabe-Kombinator 137 und das natürlichsprachliche Modell 220 in der stochastischen Eingabeschnittstelle 139 befinden, und alle drei Programm-Module könnten Bestandteil des Betriebssystems 135 oder des Textverarbeitungsprogramms 210 sein. In ähnlicher Weise könnten die stochastischen Eingabequellen 230, 240, 250 und 260 eigenständige Anwendungsprogramm-Module 138 sein, oder sie könnten Bestandteil des Betriebssystems 135 sein.
Übersicht über das Hintergrundsystem zur Wiedergewinnung von Audiodaten
3 ist ein Blockschaltbild, welches das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 der vorliegenden Erfindung zeigt. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 empfängt Hintergrund-Audiodaten 20 über ein Mikrofon 161. Das Programm-Modul zur Spracherkennung 240 des Hintergrundsystems zur Wiedergewinnung von Audiodaten 10 speichert die Hintergrund-Audiodaten. Die stochastische Eingabeschnittstelle 139 übergibt Meldungen, Befehle oder Kommunikationen zwischen der Anwendung 210 und dem Programm-ModuI zur Spracherkennung 240. In der beispielhaften Ausführungsform der vorliegenden Erfindung ist die Anwendung 210 ein Textverarbeitungsprogramm. Die Anwendung 210 könnte jedoch auch ein Tabellenkalkulationsprogramm, Browser, Programm für elektronische Post, Programm für Musik-Transkription, CAD-Programm, Betriebssystem oder andere ähnliche Anwendungen sein.
Die Anwendung 210 ist zuständig für das Verfolgen des Speicherns der Hintergrund-Audiodaten 20 als Dateien 44, die Audiodaten mit geringer Wiedergabetreue und verarbeitete Sprachdaten oder Textdaten 36 enthalten (wie in den 6 bis 8 gezeigt). Das Anwendungsprogramm 210 ist betriebsfähig mit einer grafischen Benutzeroberfläche 30 verknüpft (in Form eines Editor-Fensters für Hintergrund-Audiodaten). Die Anwendung 210 ist zuständig für das Generieren und Pflegen des aktuellen offenen Dokumentfensters 26. Die Anwendung 210 ist des Weiteren zuständig für das Erzeugen von Statusindikatoren 22, 28. Die Anwendung 210 ist auch betriebsfähig mit einer Audiodaten-Ausgabevorrichtung 45 verknüpft. Die Audiodaten-Ausgabevorrichtung 45 ist vorzugsweise ein Lautsprecher eines Personal-Computers. Jedoch liegen auch andere Audiodaten-Ausgabevorrichtungen 45 nicht außerhalb des Umfangs der vorliegenden Erfindung. Andere Audiodaten-Ausgabevorrichtungen können extern angebrachte Lautsprecher, Kopfhörer und andere ähnliche Audiodaten-Ausgabevorrichtungen umfassen, sind aber nicht darauf beschränkt.
Generierung von Hintergrund-Audiodaten
4 veranschaulicht die Generierung von Hintergrund-Audiodaten 20 für das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 in der vorliegenden Erfindung. Die Situation in 4 ist repräsentativ für wenigstens eines der folgenden Szenarios: der Benutzer hat vergessen, dass dem Programm-Modul zur Spracherkennung 240 ein inaktiver Status zugewiesen wurde; der Benutzer bemerkt den Indikator 22 für inaktiven Status nicht, der auf dem Bildschirm 147 angezeigt wird; der Benutzer trägt den gesprochenen Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung 240 nicht richtig vor; der Benutzer gibt den Aktivierungsbefehl für das Programm-Modul zur Spracherkennung 240 über die Tastatur 140 nicht richtig ein; oder der Benutzer aktiviert den zugehörigen Schalter am Mikrofon 161 nicht; oder der Benutzer wählt mit der Maus 142 keine Schaltfläche auf der grafischen Benutzeroberfläche, um das Mikrofon 161 zu aktivieren. Die Hintergrund-Audiodaten 20 umfassen den gesprochenen Befehl "Neuer Absatz" zusätzlich zum folgenden Diktat: "Der flinke braune Fuchs sprang über den reglosen Hund. Der reglose Hund lag anscheinend am Fenster."
Die vorher verarbeitete Sprache 24 ist in einem aktuell offenen Dokument 26 des Anwendungsprogramms 210 vorhanden, das Eingaben empfängt. Da dem Programm-Modul zu Spracherkennung 240 ein inaktiver Status zugewiesen ist, wie durch den Indikator 22 für inaktiven Status am Bildschirm 147 angezeigt wird, werden die Hintergrund-Audiodaten 20, die im Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 der vorliegenden Erfindung gespeichert werden, nicht umgewandelt und daher nicht in dem offenen Dokument 26 der Textverarbeitungs-Anwendung 210 angezeigt. Obwohl der Indikator 22 für inaktiven Status einen Benutzer darüber informiert, dass dem Programm-Modul zur Spracherkennung ein inaktiver Status zugewiesen wurde, überwacht das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 kontinuierlich das Mikrofon 161 auf irgendwelche Hintergrund-Audiodaten 20 und zeichnet solche Audiodaten auf, wenn sie erfasst werden.
Aktivierung des Programm-Moduls für Hintergrund-Audiodaten
5 veranschaulicht die Aktivierung oder Initiierung eines Programm-Moduls für Hintergrund-Audiodaten (background audio program module) des Hintergrundsystems zur Wiedergewinnung von Audiodaten der vorliegenden Erfindung. In 5 ist ein Indikator 28 für aktiven Status angezeigt als Ergebnis dessen, dass das Hintergrundsystem zur Wiedergewinnung von Audiodaten einen Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung 240 empfängt. Im unteren Teil von 5 generiert das Hintergrundsystem zur Wiedergewinnung von Audiodaten der vorliegenden Erfindung im Anschluss an die Anzeige des Indikators 28 für aktiven Status eine grafische Benutzeroberfläche 30A, die eine Liste mit Optionen 32 für die gespeicherten Audiodaten enthält, die von dem Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 aufgezeichnet wurden.
6 veranschaulicht die grafische Benutzeroberfläche 30B, nachdem der Benutzer die erste Option in der Optionenliste 32 ausgewählt hat: Verarbeiten der Hintergrund-Audiodaten, Umwandeln der Hintergrund-Audiodaten in Textdaten, und Anzeigen der umgewandelten Textdaten mit aufgezeichneten gesprochenen Befehlen, die auf die verarbeiteten Hintergrund-Audiodaten oder Sprache angewendet werden. In 6 wird der Befehl "Neuer Absatz" der Hintergrund-Audiodaten 20 durch das Zeilenumschaltungs-Symbol 34 veranschaulicht. Die umgewandelten Textdaten 36 umfassen einen falsch verarbeiteten Begriff/Satz 38, der das Ergebnis einer phonetisch ähnlichen Ersetzung ist, die vom Programm-Modul zur Spracherkennung 240 vorgenommen wurde. Ebenfalls in 6 wird dem Benutzer ein Optionsfenster 39 mit einem Wiedergabebefehl zur Verfügung gestellt, in dem der Benutzer die Möglichkeit hat, die tatsächlichen Audiodaten für die verarbeitete Sprache abzuhören.
7 veranschaulicht die grafische Benutzeroberfläche 30B, nachdem der Benutzer die zweite Option in der Optionenliste 32 ausgewählt hat: Verarbeiten der Hintergrund-Audiodaten 20, Umwandeln der Hintergrund-Audiodaten 20 in Textdaten und Anzeigen der umgewandelten Textdaten mit den vorher gesprochenen Befehlen, die als Text angezeigt werden. Die umgewandelten Textdaten 36 umfassen einen Befehl 40, der in Großbuchstaben und umgeben von einem Grafikzeichen am Anfang und Ende gezeigt ist. Die Textdaten 36 enthalten des Weiteren den unrichtig/ungenau verarbeiteten Be griff/Satz 38. Die grafische Benutzeroberfläche 30 in 7 umfasst des Weiteren das Optionsfenster 39 mit dem Wiedergabebefehl, mit dem der Benutzer gefragt wird, ob er die tatsächlichen Audiodaten für die entsprechenden Textdaten 36 abhören möchte.
Die Wiedergabe der tatsächlichen Audiodaten für die Textdaten 36 stellt ein nützliches Werkzeug für die Korrektur ungenauer, phonetisch ersetzter Wörter 38 bereit. Beispielsweise bemerkt der Benutzer bei der Wiedergabe der tatsächlichen Audiodaten für den in 7 dargestellten Text 36, dass der ungenau/unrichtig Begriff/Satz 38 "finster" eigentlich "Fenster" heißen müsste. Die Wiedergabefunktion für die eigentlichen Audiodaten stellt sicher, dass die Textdaten 36 eine genaue Umwandlung oder Transkription der Hintergrund-Audiodaten 20 sind.
8 veranschaulicht die Platzierung der Textdaten 36 in einem offenen Dokument 26 eines Anwendungsprogramms 210. 8 ist das Ergebnis, wenn der Benutzer die dritte Option aus einer in 5 gezeigten Optionenliste 32 auswählt. Die dritte Option umfasst das Verarbeiten der Hintergrund-Audiodaten 20, das Umwandeln der Hintergrund-Audiodaten 20 in Text und das ohne Bearbeitung erfolgende Einfügen des umgewandelten Texts mit den als Text angezeigten gesprochenen Befehlen in das aktuelle offene Dokument. Der Befehl "Neuer Absatz" 40 ist in Großbuchstaben mit Grafikzeichen am Anfang und Ende dargestellt. 8 veranschaulicht auch, wie die Textdaten 36 Bestandteil des Texts des offenen Dokuments 26 werden. Der Indikator 28 für aktiven Status ist in dem offenen Dokument 26 ebenfalls dargestellt, um anzugeben, dass das Programm-Modul zur Spracherkennung 240 für den Empfang von Sprach-Audiodaten bereit ist.
9 veranschaulicht eine grafische Benutzeroberfläche 30C für die Einrichtungsfunktion des Hintergrundsystems zur Wiedergewinnung von Audiodaten 10. Der Benutzer kann ein Zeitinkrement/einen Zeitwert oder eine Speichermenge/einen Speicherwert in die grafische Benutzeroberfläche 30C entweder über eine Tastatur 140 eingeben oder über einen gesprochenen Befehl, der über das Mikrofon 161 oder die Maus 142 oder mit einem anderen Eingabeverfahren eingegeben wird. Die zweite grafische Benutzeroberfläche 30C fordert den Benutzer auf, die Größe für die Datei der Hintergrund-Audiodaten entweder in Zeiteinheiten oder als Speicherplatzbelegung einzugeben. In der in 9 veranschaulichten Ausführungsform ist das Zeitinkrement in Einheiten von Minuten an gegeben, und die Größe der Speicherbelegung ist in Kilobyte angegeben. Jedoch liegen auch andere Einheiten nicht außerhalb des Umfangs der vorliegenden Erfindung. Andere Zeiteinheiten umfassen Stunden, Tausende von Sekunden usw. Weitere Einheiten der Speicherbelegung umfassen Megabytes, Gigabytes und andere ähnliche Parameter.
Beispielhafte Festplatten-Speichervorrichtungen
10 ist ein Blockschaltdiagramm, das die Zentraleinheit 121 und ihre verschiedenen Speichervorrichtungen veranschaulicht. In einer bevorzugten Ausführungsform werden die Textdaten 36 und die Hintergrund-Audiodaten 20 in einer primären Speichervorrichtung 46 und einer sekundären Speichervorrichtung 48 gespeichert. Die primäre Speichervorrichtung 46 ist vorzugsweise ein Cache-Speicher, der direkt auf dem Zentraleinheit-Chip 121 hergestellt ist. Die sekundäre Speichervorrichtung 48 ist vorzugsweise ein zweiter Cache-Speicher in der Form eines statischen Direktzugriffsspeichers (SRAM). Ein Vorteil der primären Speichervorrichtung 46 und der sekundären Speichervorrichtung 48 besteht darin, dass jede in Bezug auf den Arbeitsspeicher 125 und das Festplattenlaufwerk 127 einen Hochgeschwindigkeitszugriff bereitstellt. Die vorliegende Erfindung ist nicht darauf beschränkt, nur die primäre Speichervorrichtung 46 und die sekundäre Speichervorrichtung 48 zu nutzen. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 kann auf den Arbeitsspeicher 125 und den Festplattenspeicher 127 oder Kombinationen davon verwenden, um die Hintergrund-Audiodaten 20 und dazugehörige Textdaten 36 zu speichern.
Betrieb des Hintergrundsystems zur Wiedergewinnung von Audiodaten
11 ist ein Logik-Ablaufdiagramm, das eine Routine 300 für den Betrieb des Hintergrundsystems zur Wiedergewinnung von Audiodaten 10 veranschaulicht. Im Verlauf der folgenden Beschreibung der Routine 300 wird gelegentlich auf die in den 5 bis 9 gezeigten grafischen Benutzeroberflächen 30A–C Bezug genommen. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 überwacht kontinuierlich das Mikrofon 161, wenn dem Programm-Modul zur Spracherkennung 240 ein inaktiver Modus zugewiesen wurde. In Schritt 302 zeigt die Anwendung 210 den Indikator 22 für inaktiven Status an, während dem Programm-Modul zur Spracherkennung 240 ein inaktiver Modus zugewiesen ist. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 überwacht kontinuierlich das Mikrofon 161, um zu ermitteln, ob ein Audiosignal durch die Audiodaten-Eingangsvorrichtung oder das Mikrofon 161 generiert wird, wie in Schritt 304 veranschaulicht. Wenn durch das Mikrofon 161 kein Audiosignal generiert wird, kehrt die "Nein"-Verzweigung zu Schritt 302 zurück. Wenn durch das Mikrofon 161 ein Audiosignal generiert wird, fährt die "Ja"-Verzweigung mit Schritt 306 fort.
In Schritt 306 speichert das Programm-Modul zur Spracherkennung 240 das Audiosignal in einer Speichervorrichtung. Zum Reduzieren der Anforderungen an die Festplatten-Speichervorrichtung kann das Programm-Modul zur Spracherkennung alternativ dazu die Hintergrund-Audiodaten 20 sofort in Textdaten 36 umwandeln. Die Textdaten 36 könnten dann in der primären Speichervorrichtung 46 gespeichert werden, während die tatsächlichen Hintergrund-Audiodaten 20 als Audiodaten-Datei mit geringer Wiedergabetreue entweder in der sekundären Speichervorrichtung 48 oder auf dem Festplattenlaufwerk 127 gespeichert werden. In der bevorzugten Ausführungsform jedoch speichert das Programm-Modul zur Spracherkennung 240 die Hintergrund-Audiodaten 20, ohne sie in Textdaten umzuwandeln.
In Schritt 310 bestimmt das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10, ob ein Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung 240 ausgegeben worden ist. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 überwacht jede Tastatureingabe des Befehls bzw. jeden gesprochenen Befehl, der durch das Programm-Modul zur Spracherkennung 240 verarbeitet wird. Wenn das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 keinen Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung 240 erfasst, kehrt die "Nein"-Verzweigung zum Schritt 302 zurück. Wenn der Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung 240 erfasst wird, fährt die "Ja"-Verzweigung mit der Routine 312 fort.
Die Routine 312 für das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 wird unter Bezugnahme auf 13 detaillierter beschrieben. Während der Routine 312 ändert das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 den Indikator 22 für inaktiven Status in den Indikator 28 für aktiven Status und generiert anschließend die grafische Benutzeroberfläche 30A, wie sie in 5 dargestellt ist.
Nach der Routine 312 folgt Schritt 313. Für Schritt 313 weist der Benutzer dem Programm-Modul zur Spracherkennung 240 einen aktiven Modus zu oder beschließt, dem Programm-Modul zur Spracherkennung 240 einen inaktiven Modus zuzuweisen. Wenn der Benutzer dem Programm-Modus zur Spracherkennung 240 einen inaktiven Status oder Modus zuweist, kehrt der Prozess zu Schritt 302 zurück.
12 ist ein Logik-Ablaufdiagramm, das eine Routine 500 für einen Einrichtungsvorgang des Hintergrundsystems zur Wiedergewinnung von Audiodaten 10 (wie in 9 dargestellt) veranschaulicht. In Schritt 500 erfasst das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10, ob ein Befehl zum Einrichten von Hintergrund-Audiodaten durch den Benutzer ausgegeben wurde. Wenn vom Benutzer kein Einrichtungsbefehl ausgegeben wurde, fährt die "Nein"-Verzweigung bis zum "Ende"-Schritt 504 fort. Wenn durch den Benutzer ein Befehl zum Einrichten von Hintergrund-Audiodaten ausgegeben wurde, fährt die "Ja"-Verzweigung mit dem Schritt 502 fort, in dem das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 die grafische Benutzeroberfläche 30A generiert, wie in 9 dargestellt. In Schritt 502 wird der Benutzer aufgefordert, ein Zeitinkrement oder ein Dateigrößeninkrement für die Datei der Hintergrund-Audiodaten einzurichten. Wie oben erwähnt, kann der Benutzer die Größe der Datei der Hintergrund-Audiodaten entweder mit einem Zeitinkrement oder einem Speichergrößeninkrement wählen. Der Benutzer kann vom System auch aufgefordert werden, die Größe der Datei festzulegen, die später den umgewandelten Text enthalten wird.
13 ist ein Logik-Ablaufdiagramm, das die Routine 312 für das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 veranschaulicht. Die Routine 312 beginnt nach Schritt 310, der in 11 gezeigt ist. In Schritt 402 zeigt das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 eine Optionenliste 32 an gemäß der in 5 gezeigten grafischen Benutzeroberfläche 30A. Die Optionenliste 32 gehört zu den gespeicherten Hintergrund-Audiodaten 20, die vom Programm-Modul zur Spracherkennung 240 während des inaktiven Modus aufgezeichnet wurden.
Nach Schritt 402 folgt Schritt 404, in dem das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 ermittelt, ob der Benutzer die Audiodaten bearbeiten und in Textdaten 36 umwandeln und die Textdaten 36 anschließend anzeigen möchte, nachdem beliebige gesprochene Befehle auf die Textdaten 36 angewendet wurden. Wenn der Be nutzer zusätzlich zur Anwendung gesprochener Befehle die Hintergrund-Audiodaten 20 nicht verarbeiten und die Audiodaten in Textdaten 36 umwandeln möchte, fährt die "Nein"-Verzweigung mit Schritt 406 fort. Wenn der Benutzer nach der Anwendung gesprochener Befehle die Hintergrunddaten verarbeiten und sie in Textdaten 36 umwandeln möchte, fährt die "Ja"-Verzweigung mit Schritt 408 fort.
In Schritt 406 verarbeitet das Programm-Modul zur Spracherkennung 240 die erfassten Hintergrund-Audiodaten 20 und wendet alle gesprochenen Befehle auf die restlichen umzuwandelnden Audiodaten an und wandelt die Audiodaten 20 in Textdaten 36 um. Nach Schritt 408 folgt Schritt 410, in dem das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 die grafische Benutzeroberfläche 30B generiert und die umgewandelten Textdaten 36 anzeigt, wie in 6 dargestellt.
Wenn der Benutzer in Schritt 406 die Hintergrund-Audiodaten 20 verarbeiten und sie ohne Anwendung gesprochener Befehle in Textdaten 36 umwandeln, die Befehle aber als Text anzeigen möchte, fährt die "Ja"-Verzweigung mit Schritt 409 fort. In Schritt 409 verarbeitet das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 die Hintergrund-Audiodaten und wandelt alle Audiodaten (einschließlich der Befehle) in Textdaten 36 um. Nach Schritt 409 folgt Schritt 410, in dem das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 die grafische Benutzeroberfläche 30B generiert und umgewandelte Textdaten 36 anzeigt, wie in 7 dargestellt.
Nach Schritt 410 folgt Schritt 416, in dem das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 dem Benutzer das Optionsfenster 39 mit dem Wiedergabebefehl zur Verfügung stellt, das in den 6 bis 8 dargestellt ist. Das Optionsfenster 39 mit dem Wiedergabebefehl fragt ab, ob der Benutzer die Datei mit den tatsächlichen Audiodaten mit geringer Wiedergabetreue wiedergeben möchte, um den Bearbeitungsprozess der Textdaten 36 zu verbessern. Wenn der Benutzer die Datei mit den tatsächlichen Audiodaten mit geringer Wiedergabetreue nicht abhören möchte, fährt die "Nein"-Verzweigung mit Schritt 424 fort, der den Prozess zu Schritt 313 in 11 zurückführt. Wenn der Benutzer die Datei mit den tatsächlichen Audiodaten mit geringer Wiedergabetreue abhören möchte, fährt die "Ja"-Verzweigung mit Schritt 418 fort.
In Schritt 418 ruft das Hintergrundsystem zur Wiedergewinnung von Audiodaten die Datei mit den tatsächlichen Audiodaten mit geringer Wiedergabetreue ab und gibt die tatsächlichen Audiodaten über die Audiodaten-Ausgangsvorrichtung 45 wieder, wie in 3 dargestellt. Eine solche Wiedergabe der Dateien mit den tatsächlichen Audiodaten mit geringer Wiedergabetreue verbessert den Bearbeitungsprozess der Textdaten 36, wobei der Benutzer erkennt, dass das ungenau/unrichtig verarbeitete Wort 38 "finster" in "Fenster" geändert werden muss, um den ursprünglichen Hintergrund-Audiodaten 20 direkt zu entsprechen.
In Schritt 412 ermittelt das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10, ob der Benutzer die Hintergrund-Audiodaten 20 verarbeiten und alle Hintergrund-Audiodaten (einschließlich der Befehle) in Textdaten 36 umwandeln und die Textdaten 36 direkt in das aktuelle offene Dokument 26 des Anwendungsprogramms 210 ohne jede Bearbeitung einfügen möchte. Wenn sich der Benutzer dafür entscheidet, die Hintergrund-Audiodaten nicht zu verarbeiten und sie in Textdaten 36 umzuwandeln, die in das aktuell offene Dokument 26 eingefügt werden sollen, fährt die "Nein"-Verzweigung mit Schritt 420 fort. Wenn der Benutzer die Hintergrund-Audiodaten 20 verarbeiten und alle Hintergrund-Audiodaten (einschließlich der Befehle) in Textdaten 36 umwandeln und sie anschließend in das aktuelle offene Dokument 26 einfügen möchte, fährt die "Ja"-Verzweigung mit Schritt 414 fort.
In Schritt 414 verarbeitet das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 die Hintergrund-Audiodaten 20 und wandelt alle Audiodaten (einschließlich der Befehle) in Textdaten 36 um. Das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 fügt dann diese Textdaten 36 in das aktuelle offene Dokument 26 ein, wie in 8 dargestellt. Alternativ könnte das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 in dieser Phase auch gesprochene Befehle auf die aufgezeichneten Audiodaten 20 anwenden, wenn ein Benutzer dies wünscht. Nach Schritt 414 folgt Schritt 416. In Schritt 416 wird das Optionsfenster 39 mit dem Wiedergabebefehl angezeigt, und das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 wartet auf eine Benutzereingabe, wie oben beschrieben.
In Schritt 420 ermittelt das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10, ob der Benutzer die aufgezeichneten Hintergrund-Audiodaten 20 verwerfen möchte.
Wenn der Benutzer die Hintergrund-Audiodaten 20 nicht verwerfen möchte, kehrt die "Nein"-Verzweigung zum Schritt 402 zurück. Wenn der Benutzer die Hintergrund-Audiodaten 20 verwerfen möchte, fährt die "Ja"-Verzweigung mit Schritt 422 fort.
In Schritt 422 löscht das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 die aufgezeichneten Hintergrund-Audiodaten 20 aus der primären Speichervorrichtung 46 und löscht alle tatsächlichen Audiodaten mit geringer Wiedergabetreue aus einer entsprechenden Speichervorrichtung. Nach Schritt 422 folgt Schritt 424, in dem der Prozess zu Schritt 313 in 11 zurückkehrt.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 kann eine zusätzliche Funktionalität umfassen: Wenn der Benutzer beispielsweise die Hintergrund-Audiodaten oder Textdaten 36 anzeigen und die darin enthaltenen Befehle jeweils einzeln nacheinander anwenden möchte, kann das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 den Benutzer auffordern anzugeben, ob der Benutzer möchte, dass ein Befehl auf einen bestimmten Abschnitt der Textdaten angewendet wird oder nicht. Mit anderen Worten, der Benutzer kann nach jedem erfassten Befehl entscheiden, ob er der Befehl auf den entsprechenden Abschnitt der Textdaten 36 anwenden möchte oder nicht.
Das Hintergrundsystem zur Wiedergewinnung von Audiodaten 10 kann des Weiteren verbesserte Wiedergabefunktionen bereitstellen, mit denen tatsächliche Hintergrund-Audiodaten Satz für Satz wiedergegeben werden, oder Absatz für Absatz, oder gemäß einem bestimmten, vom Benutzer gewählten Abschnitt der Textdaten 36. Eine solche verbesserte Wiedergabefunktion würde den Benutzer nach jeder Wiedergabe auffordern anzugeben, ob er sich den ausgewählten Abschnitt der Textdaten 36 nochmals anhören möchte oder nicht. Andere verbesserte Wiedergabefunktionen würden den Einsatz eines Sprachgenerators für einen Text umfassen, der von einem Benutzer eingetippt wurde oder Text, der über andere Mittel eingegeben wurde.
Viele andere Modifizierungen und zusätzliche Merkmale werden im Hinblick auf die vorhergehende Beschreibung der beispielhaften Ausführungsformen der vorliegenden Erfindung offenkundig. Es sollte daher klar sein, dass sich das Vorhergehende nur auf die beispielhaften Ausführungsformen der vorliegenden Erfindung bezieht, und dass zahl reiche Änderungen daran vorgenommen werden können, ohne vom Gegenstand der vorliegenden Erfindung abzuweichen, wie dieser in den folgenden Anspruche definiert ist.

Claims

Ein maschinenlesbares Medium, auf dem ein Programm-Modul gespeichert ist, wobei das Programm-Modul Anweisungen enthält, wobei es, wenn diese von einem Computer ausgeführt werden, die folgenden Schritte ausführt: Anzeigen eines Indikators für einen inaktiven Zustand für ein Programm-Modul zur Spracherkennung in einem Anwendungsprogramm; Ermitteln, ob eine Audiodaten-Eingangsvorrichtung Audiodaten empfängt; wenn von der Audiodaten-Eingangsvorrichtung Audiodaten empfangen werden, Speichern der Audiodaten; Ermitteln, ob ein Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung ausgegeben worden ist; und wenn der Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung ausgegeben worden ist. Initiieren eines Audiodaten-Hintergrundprogramm-Moduls (background audio program module) zum Bearbeiten der gespeicherten Audiodaten.
Maschinenlesbares Medium nach Anspruch 1, wobei der Schritt des Speicherns von Audiodaten das Speichern von Audiodaten in einer Speichervorrichtung umfasst.
Maschinenlesbares Medium nach Anspruch 2, wobei die Speichervorrichtung einen Cache-Speicher einer Zentraleinheit umfasst.
Maschinenlesbares Medium nach Anspruch 2, wobei die Speichervorrichtung eine überschreibbare Speichervorrichtung umfasst.
Maschinenlesbares Medium nach Anspruch 2, wobei die Speichervorrichtung wenigstens einen von einem Direktzugriffsspeicher und eine Festplatte umfasst.
Maschinenlesbares Medium nach Anspruch 1, wobei der Schritt des Ermittelns, ob eine Audiodaten-Eingangsvorrichtung ein Audiodaten-Signal generiert, den Schritt des Ermittelns umfasst, ob ein Mikrofon Sprachdaten erfasst.
Maschinenlesbares Medium nach Anspruch 1, wobei das Anwendungsprogramm ein Textverarbeitungsprogramm umfasst.
Maschinenlesbares Medium nach Anspruch 1, wobei der Schritt des Anzeigens eines Indikators für einen inaktiven Status für ein Anwendungsprogramm das Anzeigen eines Symbols für einen inaktiven Status auf einer Anzeigevorrichtung umfasst.
Maschinenlesbares Medium nach Anspruch 1, wobei der Schritt des Ermittelns, ob ein Befehl zum Aktivieren des Anwendungsprogramms ausgegeben worden ist, den Schritt des Erfassens des Befehls von einer Befehlseingabevorrichtung umfasst.
Maschinenlesbares Medium nach Anspruch 9, wobei die Befehlseingabevorrichtung wenigstens eines von der Audiodaten-Eingangsvorrichtung, einer Tastatur-Schnittstelle, einer Maus und einem Berührungsbildschirm umfasst.
Maschinenlesbares Medium nach Anspruch 1, wobei der Schritt des Initiierens eines Audiodaten-Hintergrundprogramm-Moduls zum Bearbeiten der Textdaten die folgenden Schritte umfasst: das Anzeigen einer graphischen Benutzeroberfläche auf einer Anzeigevorrichtung; und das Anzeigen einer Optionenliste für die Audiodaten in der graphischen Benutzeroberfläche.
Maschinenlesbares Medium nach Anspruch 1, wobei der Schritt des Initiierens eines Audiodaten-Hintergrundprogramm-Moduls zum Bearbeiten der Audiodaten den Schritt des Umwandelns der gespeicherten Audiodaten in Textdaten und das Anzeigen der Textdaten auf einer Anzeigevorrichtung umfasst, wobei die Textdaten Textbefehle des Anwendungsprogramms (textual application program commands) umfassen, die als graphische Zeichen angezeigt werden.
Maschinenlesbares Medium nach Anspruch 1, wobei der Schritt des Initiierens eines Audiodaten-Hintergrundprogramm-Moduls zum Bearbeiten der Audiodaten die folgenden Schritte umfasst: das Umwandeln der gespeicherten Audiodaten in Textdaten; das Anwenden der Textbefehle, die in den Audiodaten nach dem Umwandeln eines Teils der gespeicherten Audiodaten vorhanden sind; und das Anzeigen der Textdaten auf einer Anzeigevorrichtung.
Maschinenlesbares Medium nach Anspruch 1, wobei der Schritt des Initiierens eines Audiodaten-Hintergrundprogramm-Moduls zum Bearbeiten der Audiodaten die folgenden Schritte umfasst: das Umwandeln der gespeicherten Audiodaten in Textdaten; das Einfügen der Textdaten in eine geöffnete Datei, auf die vom Anwendungsprogramm zugegriffen wird, wobei die Textdaten Textbefehle des Anwendungsprogramms umfassen, die als graphische Zeichen angezeigt werden.
Maschinenlesbares Medium nach Anspruch 1, wobei der Schritt des Initiierens eines Audiodaten-Hintergrundprogramm-Moduls zum Bearbeiten der Audiodaten die Schritte des Löschens der gespeicherten Audiodaten aus einer Speichervorrichtung umfasst.
Maschinenlesbares Medium nach Anspruch 1, des Weiteren umfassend den Schritt des Speicherns der Audiodaten als eine Klangdatei in einer Speichervorrichtung.
Maschinenlesbares Medium nach Anspruch 16, des Weiteren umfassend die folgenden Schritte: das Umwandeln der gespeicherten Audiodaten in Textdaten; das Anzeigen der Textdaten auf einer Anzeigevorrichtung; und das Ausgeben der Audiodaten als Ton von einer Klangdatei der Speichervorrichtung.
Maschinenlesbares Medium nach Anspruch 1, des Weiteren umfassend den folgenden Schritt: das Erhalten von wenigstens einem eines Zeitinkrements und eines Dateigrößeninkrements, wobei das Zeitinkrement und das Dateigrößeninkrement einer Größe einer Audiodatei entsprechen.
Maschinenlesbares Medium nach Anspruch 1, des Weiteren umfassend den folgenden Schritt: das Erhalten von wenigstens einem eines Zeitinkrements und eines Dateigrößeninkrements, wobei das Zeitinkrement und das Dateigrößeninkrement einer Größe einer Textdatei entsprechen, die wenigstens eines von Textdaten und Textbefehlen des Anwendungsprogramms enthält.
Ein Hintergrundsystem zur Wiedergewinnung (background recovery system) von Audiodaten, umfassend: einen Prozessor; eine erste Festplatten-Speichervorrichtung (memory storage device) zum Speichern eines Anwendungsprogramms und eines Programm-Moduls zur Spracherkennung; eine mit dem Prozessor gekoppelte Anzeigevorrichtung zum Anzeigen von Informationen; eine mit dem Prozessor gekoppelte Eingabevorrichtung zum Bearbeiten eines Auswahlindikators, der auf der Anzeigevorrichtung angezeigt wird; und eine mit dem Prozessor gekoppelte Audiodaten-Eingangsvorrichtung; wobei der Prozessor, der auf Anweisungen vom Anwendungsprogramm-Modul und vom Programm-Modul zur Spracherkennung reagiert, für Folgendes funktionsfähig ist: zum Anzeigen eines Indikators für einen inaktiven Status für das Programm-Modul zur Spracherkennung auf der Anzeigevorrichtung; zum Ermitteln, ob die Audiodaten-Eingangsvorrichtung Audiodaten empfängt; wenn von der Audiodaten-Eingangsvorrichtung Audiodaten empfangen werden, zum Speichern der Audiodaten; zum Speichern der Audiodaten in einer zweiten Festplatten-Speichervorrichtung; zum Ermitteln, ob ein Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung ausgegeben wurde; und wenn der Befehl zum Aktivieren des Programm-Moduls zur Spracherkennung ausgegeben worden ist, zum Initiieren eines Audiodaten-Hintergrundprogramm-Moduls zum Bearbeiten der gespeicherten Audiodaten.
Hintergrundsystem zur Wiedergewinnung von Audiodaten nach Anspruch 20, des Weiteren umfassend eine stochastische Eingabeschnittstelle, wobei die stochastische Eingabeschnittstelle Befehle übersetzt, die von dem Anwendungsprogramm für das Programm zur Spracherkennung ausgegeben wurden.
Hintergrundsystem zur Wiedergewinnung von Audiodaten nach Anspruch 20, wobei die zweite Festplatten-Speichereinrichtung einen Cache-Speicher einer Zentraleinheit umfasst.
Hintergrundsystem zur Wiedergewinnung von Audiodaten nach Anspruch 20, wobei der Prozessor des Weiteren funktionsfähig ist für: das Bereitstellen einer Optionenliste, wobei die Optionenliste den Prozessor umfasst, der funktionsfähig ist für wenigstens eines von: Umwandlung der gespeicherten Audiodaten in Textdaten; Anzeigen der Textdaten auf der Anzeigevorrichtung, wobei die Textdaten Textbefehle des Anwendungsprogramms umfassen; Anwenden von gesprochenen Befehlen, die in den gespeicherten Audiodaten vorhanden sind, auf Textdaten; Einfügen der Textdaten in eine geöffnete Datei, auf die von dem Anwendungsprogramm zugegriffen wird; und Löschen der gespeicherten Audiodaten aus einer Festplatten-Speichervorrichtung.
Hintergrundsystem zur Wiedergewinnung von Audiodaten nach Anspruch 20, des Weiteren umfassend eine Audio-Ausgangsvorrichtung zum Wiedergeben von Audiodaten, die auf der Festplatten-Speichervorrichtung gespeichert sind.