DE69829802T2

DE69829802T2 - Spracherkennungsapparat zum Übertragen von Sprachdaten auf einem Datenträger in Textdaten

Info

Publication number: DE69829802T2
Application number: DE69829802T
Authority: DE
Inventors: Hidetaka Kunitachi-shi Takahashi; Takafumi Tama-shi Onishi
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 1997-06-06
Filing date: 1998-06-05
Publication date: 2006-03-02
Anticipated expiration: 2018-06-06
Also published as: DE69829802D1; EP0887788A3; US6353809B2; EP0887788A2; US20010016815A1; EP0887788B1

Description

HINTERGRUND DER ERFINDUNG
1. Gebiet der Erfindung
Die vorliegende Erfindung betrifft eine Spracherkennungsvorrichtung und ein Aufzeichnungsmedium mit einem darauf aufgezeichneten Spracherkennungsprogramm. Insbesondere betrifft diese Erfindung eine Spracherkennungsvorrichtung zum Erkennen von Sprachdaten und ein Aufzeichnungsmedium, auf dem ein Spracherkennungsprogramm, das bewirkt, dass ein Computer Sprachdaten erkennt, aufgezeichnet ist.
2. Beschreibung des Standes der Technik
In den letzten Jahren wurde die Forschung und Entwicklung bezüglich einer Spracherkennungstechnologie ernsthaft betrieben. Ein technologisches Mittel, das in der Lage ist, Sprache in Echtzeit zu erkennen, wurde vorgeschlagen. Diese Art von Technologie wurde an verschiedene Arten von Produkten oder Verwendungen, beispielsweise Reservierung von Tickets per Telefon oder Sprachbefehlsgabe innerhalb einer Autonavigation, angepasst.
Zusammen mit einem jüngeren Durchbruch in der Spracherkennungstechnologie und einer Verbesserung der Leistung von Personalcomputern wurde eine Technologie zum Dokumentieren einer Spracheingabe über ein mit einem Personalcomputer verbundenes Mikrophon durch Erkennen der Sprache innerhalb einer Anwendungssoftware, die auf dem Personalcomputer läuft, und zum Anzeigen des Dokuments, entwickelt.
Ein Beispiel eines Softwarepakets, das Spracherkennung ermöglicht, ist ein Produkt "Voice Type 3.0 für Windows 95", das vor kurzem von IMB Ltd. auf den Markt gebracht wurde. Dieses Produkt wandelt eine Spracheingabe über ein Mikrophon in Textdaten in Echtzeit um und weist eine beträchtlich hohe Erkennungsrate auf.
Die Anwendungssoftware ermöglicht jedoch eine Echtzeiteingabe über ein Mikrophon, das nur ein Mittel zum Eingeben von Sprachdaten ist. Eine bereits existierende Sprachdatei kann nicht direkt erkannt werden.
Eine Aufgabe der Entwicklung der vorstehend genannten Spracherkennungstechnologie besteht darin, ein sogenanntes Sprachtextverarbeitungssystem oder ein Diktiersystem zum automatischen Erzeugen eines Dokuments auf der Basis von Sprachdaten, die durch Vornahme eines Diktats eingegeben werden, und zum Anzeigen des Dokuments auf einem Bildschirm oder dergleichen zu realisieren.
Ein üblicherweise aufgegriffenes Mittel ist derart, dass, wenn der Inhalt eines zu erzeugenden Dokuments diktiert und von einer Aufzeichnungsvorrichtung wie z.B. einer Bandaufzeichnungsvorrichtung vorübergehend aufgezeichnet wird, eine Sekretärin, eine Schreibkraft oder dergleichen den diktierten Inhalt reproduziert und ihn unter Verwendung einer Dokumentationsvorrichtung wie z.B. einer Schreibmaschine, eines Textverarbeitungssystems oder dergleichen dokumentiert. Dieser Stil wurde im Allgemeinen als eine Form der effektiven Nutzung der Aufzeichnungsvorrichtung wie z.B. einer Bandaufzeichnungsvorrichtung aufgegriffen.
Hinsichtlich einer solchen Diktataufzeichnung war in der Vergangenheit ein Verfahren zum Anhängen einer Indexmarkierung oder Endmarkierung an Sprachdaten, um einer Sekretärin oder Schreibkraft Anweisungen zu geben, bekannt. Gemäß einem Stand der Technik zum Anhängen einer solchen Markierung wird ein gewünschter Bereich von Sprachdaten nicht als Intervall festgelegt, sondern ein festgelegter Bereich von Sprachdaten wird als Punkt festgelegt.
Bei der vorangehenden Form der Verwendung, bei der eine Aufzeichnungsvorrichtung zum Diktieren verwendet wird, wurde das Aufkommen einer Technologie zum automatischen Umwandeln des Inhalts einer Aufzeichnung in ein Dokument in der Vergangenheit stark gefordert.
Beim aktuellen Diktieren kann ein Wort, das für den zu informierenden Inhalt irrelevant ist, enthalten sein. Wenn beispielsweise geschriebene Sätze rezitiert werden, kann ein falsch geäußertes Wort oder ein Wort ohne Bedeutung wie z.B. "Ah" oder "Gut" (nachstehend ein unnötiges Wort) enthalten sein (in einigen Fällen häufig).
In diesem Fall verschlechtert sich die Leistung der Spracherkennung. Dies führt zu einem Nachteil, dass ein auf einem Bildschirm angezeigtes Dokument viele Fehler enthält. Eine Technologie zum Konstruieren eines Diktiersystems, indem die obigen unnötigen Worte berücksichtigt werden und Sprachmodelle erzeugt werden, die alle Worte, einschließlich der unnötigen Worte, erfassen und die dazu vorgesehen sind, zur Spracherkennung verwendet zu werden, wurde in der Vergangenheit vorgeschlagen.
Gemäß JP-A-7005893 wird beispielsweise eine Spracherkennungsvorrichtung bereitgestellt, die umfasst: ein Standardmuster-Speichermittel zum Speichern von Standardmustern; ein Speichermittel für unnötige Wortmuster zum Speichern von Mustern von unnötigen Worten; ein Wortentdeckungsmittel zum Entdecken als Wort oder zur Wortentdeckung eines Standardmusters, das im Standardmuster-Speichermittel gespeichert ist, oder eines Musters eines unnötigen Worts, das im Speichermittel für unnötige Wortmuster gespeichert ist, auf der Basis von Eingangssprache und zum Ausgeben eines entsprechenden Intervalls und Punktwerts; ein Erzeugungsmittel zum hypothetischen Annehmen des Inhalts von geäußerter Sprache und zum Erzeugen einer Darstellung der Bedeutung; und ein Analysemittel zum Analysieren des Ergebnisses der Wortentdeckung, die vom Wortentdeckungsmittel durchgeführt wird, auf der Basis der Darstellung der Bedeutung der vom Erzeugungsmittel erzeugten Hypothese. Das Analysemittel ordnet einen Punktwert, der sich aus der Wortentdeckung ergibt, die am Muster eines unnötigen Worts durchgeführt wird, restlichen Intervallen, von welchen entsprechende Standardmuster oder Muster eines unnötigen Worts nicht hinsichtlich Worten entdeckt wurden, unter allen Intervallen von Datenelementen, die die Sprache bilden, zu. Das Ergebnis der Wortentdeckung, die vom Wortentdeckungsmittel durchgeführt wird, wird dann analysiert.
Die in JP-A-7005893 beschriebene Spracherkennungsvorrichtung hat jedoch eine Schwierigkeit beim Ausführen einer praktischen Verarbeitung innerhalb eines existierenden Computers (insbesondere eines Computers auf Personalniveau), da die Datengröße von Sprachmodellen enorm wird.
Unter Verwendung eines derzeit kommerzialisierten Produkts muss ein Sprecher vorsichtig sein, dass er kein unnötiges Wort oder dergleichen äußert, und kann daher nur Unbeholfenheit spüren.
Zum Verbessern der Leistung der Spracherkennung ist es erforderlich, dass der Schallpegel der Eingangssprache zweckmäßig ist. Derzeit ist es schwierig, eine hohe Erkennungsrate über einen breiten Bereich von Schallpegeln von einem niedrigen Pegel bis zu einem hohen Pegel zu garantieren. Daher ist ein System dazu ausgelegt, eine maximale Erkennungsrate relativ zu einem mittleren Schallpegel von Sprache bereitzustellen.
In einer Spracherkennungsvorrichtung mit einer Betriebsart, in der Sprache über ein Mikrophon eingegeben wird, wie vorstehend erwähnt, wird ein Schallpegelmesser zum Anzeigen eines Schallpegels von Sprache beispielsweise auf einem Bildschirm oder dergleichen angezeigt, so dass ein Sprecher selbst seinen Schallpegel von Sprache zweckmäßig handhaben kann.
Als Beispiel eines Ausführungsbeispiels dieser Technologie ist eine Schalldruckpegel-Anzeige für eine Spracherkennungsvorrichtung mit einem ersten Schallempfänger zum Empfangen eines Sprachsignals, einem zweiten Schallempfänger zum Empfangen eines Geräuschs, dessen Pegel nahe jenem des vom ersten Schallempfänger empfangenen Sprachsignals liegt, einem Schalldruckpegel-Verhältnisberechnungsmittel zum Berechnen eines Verhältnisses eines Schalldruckpegels eines in den ersten Schallempfänger eingegebenen Sprachsignals zu einem Verhältnis eines Schalldruckpegels eines in den zweiten Schallempfänger eingegebenen Geräuschs und einem Anzeigemittel zum Anzeigen des Verhältnisses der Schalldruckpegel, die vom Schalldruckpegel- Verhältnisberechungsmittel berechnet werden, in JP-A-5231922 beschrieben.
Es ist jedoch für einen Sprecher lästig, seine eigene Sprache so zu handhaben, dass der Schallpegel zweckmäßig wird. Daher besteht ein zunehmender Bedarf für eine benutzerfreundliche Spracherkennungsvorrichtung. Da der Schallpegel von Eingangssprache nicht unter Verwendung von bereits aufgezeichneten Sprachdaten erfasst werden kann, kann die in JP-A-5231922 offenbarte Technologie nicht so, wie sie ist, angepasst werden. Es kann nicht beurteilt werden, ob der Schallpegel von Sprachdaten für die Spracherkennung geeignet ist oder nicht. Da die Schalldruckpegel-Anzeige außerdem nicht mit einer Einrichtung zum selbständigen Einstellen eines Schallpegels von Sprache versehen ist, kann sich die Spracherkennungsrate in Abhängigkeit von einem durch aufgezeichnete Sprachdaten angezeigten Schallpegel abrupt ändern.
EP 0 649 144 A1 offenbart ein Verfahren zum Erkennen von Sprache, die vorher aufgezeichnet wurde, und um den spracherkannten Text mit einem geschriebenen Originaltext zu korrelieren (indizieren). Dadurch wird die aufgezeichnete Sprache mit dem verwendeten Textmanuskript z.B. für Videoclips synchronisiert.
Die Spracherkennungsvorrichtung von EP 0 750 291 A1 behandelt das Problem des korrekten Erkennens des Beginns und Endes von Sprache, die Teile von aufgezeichneter Sprache enthält. Ein Hintergrundgeräusch wird erfasst und analysiert, um einen Schwellenwert zur Geräuschunterdrückung zweckmäßig festzulegen.
"Improved Correction of Speech Recognition Errors Through Audio Playback", IBM Technical Disclosure Bulletin, Band 36, Nr. 6A, Juni 1993, Seiten 153–154, offenbart ein Verfahren, um den Benutzer eines Spracherkennungssystems beim Identifizieren von Erkennungsfehlern zu unterstützen.
AUFGABEN UND ZUSAMMENFASSUNG DER ERFINDUNG
Die erste Aufgabe der vorliegenden Erfindung besteht darin, eine Spracherkennungsvorrichtung zum Erkennen von Sprache, die durch Sprachdaten dargestellt wird, die auf einem gegebenen Aufzeichnungsmedium aufgezeichnet sind, und ein Aufzeichnungsmedium, auf dem ein Spracherkennungsprogramm aufgezeichnet ist, bereitzustellen, was beides einen schnellen Zugriff auf den aufgezeichneten Inhalt ermöglicht.
Die Erfindung ist in den Ansprüchen 1 bzw. 3 definiert.
Spezielle Ausführungsbeispiele der Erfindung sind in den abhängigen Ansprüchen dargelegt.
Kurz gesagt umfasst eine erfindungsgemäße Spracherkennungsvorrichtung zum Erkennen von Sprache innerhalb eines programmierten Computers ein Sprachdaten-Lesemittel zum Lesen von Sprachdaten von einem Sprachdaten-Aufzeichnungsmedium, auf dem die Sprachdaten aufgezeichnet sind, ein Spracherkennungsmittel zum Erkennen von Sprache, die durch die Sprachdaten dargestellt wird, um die Sprache in Textdaten umzuwandeln, und ein Anzeigemittel zum Anzeigen der Textdaten.
Ein erfindungsgemäßes Aufzeichnungsmedium mit einem darin aufgezeichneten Spracherkennungsprogramm wird verwendet, um das Spracherkennungsprogramm auf einem Computer laufen zu lassen, wodurch das Spracherkennungsprogramm bewirkt, dass der Computer Sprachdaten von einem Sprachdaten-Aufzeichnungsmedium liest, auf dem die Sprachdaten aufgezeichnet sind, Sprache erkennt, die durch die Sprachdaten dargestellt wird, um die Sprache in Textdaten umzuwandeln, und die Textdaten anzeigt.
Diese Aufgabe und diese Vorteile der vorliegenden Erfindung werden aus der folgenden detaillierten Erläuterung weiter ersichtlich.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Die Ausführungsbeispiele von 12 bis 21 sind erläuternd und bilden keinen Teil der beanspruchten Erfindung.
1 ist ein Blockdiagramm, das schematisch die Konfiguration eines Computers zeigt, der das erste Ausführungsbeispiel einer Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung ist;
2 ist ein Ablaufplan, der das erste Beispiel (erste Spracherkennungsprogramm) eines Spracherkennungsprogramms beschreibt, das auf einem erfindungsgemäßen Aufzeichnungsmedium, auf dem das Spracherkennungsprogramm aufgezeichnet ist, aufgezeichnet ist und auf dem ersten Ausführungsbeispiel läuft;
3 ist ein Diagramm, das ein Beispiel einer Anzeige, die erscheint, wenn eine Spracherkennungs-Anwendungssoftware, die vom ersten Aufzeichnungsmedium gelesen wird, im Computer des ersten Ausführungsbeispiels aktiviert wird, oder eines Hauptbildschirms, der zum Wiedergeben von komprimierten Sprachdaten verwendet wird, zeigt;
4 ist ein Diagramm, das ein Beispiel eines Bildschirms zeigt, auf dem Textdaten angezeigt werden, wenn die Spracherkennungs-Anwendungssoftware, die vom ersten Aufzeichnungsmedium gelesen wird, im Computer des ersten Ausführungsbeispiels aktiviert wird;
5 ist ein Diagramm, das ein Beispiel eines Dialogkästchen-Bildschirms zeigt, der verwendet wird, um ein Zeitintervall zwischen Spracherkennungen und die Anzahl von angezeigten Worten festzulegen, wenn eine gegebene Anzahl von Worten in gegebenen Zeitintervallen seit dem Beginn einer Datei, die einer Spracherkennung unterzogen wird, erkannt werden, nachdem die Spracherkennungs-Anwendungssoftware, die vom ersten Aufzeichnungsmedium gelesen wird, im Computer des ersten Ausführungsbeispiels aktiviert wird;
6 ist ein Diagramm, das ein Beispiel eines Bildschirms zeigt, auf dem eine gegebene Anzahl von Worten, die in gegebenen Zeitintervallen seit dem Beginn einer Datei, die einer Spracherkennung unterzogen wird, erkannt werden, nachdem die Spracherkennungs-Anwendungssoftware, die vom ersten Aufzeichnungsmedium gelesen wird, im Computer des ersten Ausführungsbeispiels aktiviert wird, angezeigt wird;
7 ist ein Ablaufplan, der ein zweites Beispiel (zweites Spracherkennungsprogramm) eines Spracherkennungsprogramms beschreibt, das auf einem erfindungsgemäßen Aufzeichnungsmedium, auf dem das Spracherkennungsprogramm aufgezeichnet ist, aufgezeichnet ist und beim ersten Ausführungsbeispiel abläuft;
8 ist ein Ablaufplan, der ein drittes Beispiel (drittes Spracherkennungsprogramm) eines Spracherkennungsprogramms beschreibt, das auf einem Aufzeichnungsmedium, auf dem das Spracherkennungsprogramm aufgezeichnet ist, aufgezeichnet ist und beim ersten Ausführungsbeispiel abläuft;
9 ist ein Diagramm, das ein Beispiel eines Dialogkästchen-Bildschirms zeigt, der verwendet wird, um ein zur Spracherkennung abzurufendes Wort festzulegen, wenn nur ein Wort, das in Sprache erkannt werden muss und in einer sprachkomprimierten Datei enthalten ist, in Sprache erkannt wird, nachdem die Spracherkennungs-Anwendungssoftware, die vom ersten Aufzeichnungsmedium gelesen wird, im Computer des ersten Ausführungsbeispiels aktiviert wird;
10 ist ein Ablaufplan, der ein viertes Beispiel (viertes Spracherkennungsprogramm) eines Spracherkennungsprogramms zeigt, das auf einem Aufzeichnungsmedium aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet ist, und beim ersten Ausführungsbeispiel abläuft;
11 ist ein Ablaufplan, der ein fünftes Beispiel (fünftes Spracherkennungsprogramm) eines Spracherkennungsprogramm beschreibt, das auf einem Aufzeichnungsmedium aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet ist, und beim ersten Ausführungsbeispiel abläuft;
12 ist ein konzeptionelles Diagramm, das die Gesamtkonfiguration eines Diktiersystems des zweiten Ausführungsbeispiels zeigt;
13 ist ein Blockdiagramm, das die elektrische Konfiguration einer digitalen Aufzeichnungsvorrichtung des zweiten Ausführungsbeispiels zeigt;
14 ist ein Diagramm, das eine Szene zeigt, bei der eine Kontrollzeichentaste der digitalen Aufzeichnungsvorrichtung während des Diktierens im zweiten Ausführungsbeispiel betätigt wird;
15 ist ein Diagramm, das das in einem Sprachspeicher einer Miniaturkarte mittels der digitalen Aufzeichnungsvorrichtung des zweiten Ausführungsbeispiels aufzuzeichnende Datenformat zeigt;
16 ist ein Blockdiagramm, das die elektrische Konfiguration eines Personalcomputers des zweiten Ausführungsbeispiels zeigt;
17 ist ein Ablaufplan, der eine Spracherkennung beschreibt, die im Personalcomputer des zweiten Ausführungsbeispiels ausgeführt wird;
18 ist ein Diagramm, das den gesamten Ablauf des Lesens von Sprachdaten aus einem Sprachspeicher und des Erkennens von Sprache, was vom Diktiersystem des dritten Ausführungsbeispiels ausgeführt wird, zeigt;
19 ist ein Ablaufplan, der eine Spracherkennung beschreibt, die von einem Diktiersystem des dritten Ausführungsbeispiels ausgeführt wird;
20 ist ein Ablaufplan, der den Inhalt der Verarbeitung beschreibt, die für die Beurteilung von mit Sprache oder ohne Sprache relevant ist, die in 19 kurz dargestellt ist; und
21 ist ein Ablaufplan, der den Inhalt einer Verstärkungsberechnung beschreibt, die in 19 kurz zusammengefaßt ist.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
Mit Bezug auf die Zeichnungen werden nachstehend Ausführungsbeispiele der vorliegenden Erfindung beschrieben.
1 ist ein Blockdiagramm, das schematisch die Konfiguration eines Computers zeigt, der das erste Ausführungsbeispiel einer erfindungsgemäßen Spracherkennungsvorrichtung darstellt.
Ein Computer 1 besteht, wie in 1 gezeigt, hauptsächlich aus: einer Zentralverarbeitungseinheit (CPU) 1a, die für die Steuerung des ganzen Computers 1 verantwortlich ist; einer ersten Eingabeeinheit 5, in die ein externes Aufzeichnungsmedium (erstes Aufzeichnungsmedium 7), auf dem ein gegebenes Programm aufgezeichnet ist, frei eingesetzt werden kann; einem in die erste Eingabeeinheit 5 integrierten ersten Aufzeichnungsmediumstreiber 6 zum Lesen eines gegebenen Programms vom ersten Aufzeichnungsmedium 7 unter der Steuerung der CPU 1a, wenn das erste Aufzeichnungsmedium 7 in die erste Eingabeeinheit 5 eingesetzt ist; einer zweiten Eingabe/Ausgabe-Einheit 8, in die ein externes Aufzeichnungsmedium (zweites Aufzeichnungsmedium 10), auf dem gegebene Sprachdaten aufgezeichnet sind, frei eingesetzt werden kann; einem in die zweite Eingabe/Ausgabe-Einheit 8 integrierten zweiten Aufzeichnungsmediumstreiber 9 zum Lesen von gegebenen Sprachdaten und Schreiben von gegebenen Daten von dem und in das zweite Aufzeichnungsmedium 10 unter der Steuerung der CPU 1a, wenn das zweite Aufzeichnungsmedium 10 in die zweiten Eingabe/Ausgabe-Einheit 8 eingesetzt ist; einer Operationseinheit 2 zum Eingeben eines von einem Benutzer eingegebenen gegebenen Befehls; einer Anzeigeeinheit 3, die als Anzeigemittel zum Anzeigen von gegebenen Daten dient, nachdem eine gegebene Verarbeitung durch die CPU 1a ausgeführt wird; und einer Sprachausgabeeinheit 4 zum Ausgeben von erzeugter Sprache, nachdem eine gegebene Verarbeitung von der CPU 1a ausgeführt wird.
Der Computer 1 ist dazu ausgelegt, den Betrieb eines Betriebssystems (OS) zu ermöglichen, das in der Lage ist, eine Vielzahl von Anwendungssoftware gleichzeitig auszuführen (Multitasking). Nachstehend wird eine Beschreibung unter der Annahme durchgeführt, dass das OS im Computer 1 installiert ist.
Das erste Aufzeichnungsmedium 7 ist ein Aufzeichnungsmedium, auf dem ein gegebenes Spracherkennungsprogramm aufgezeichnet ist. Bei diesem Ausführungsbeispiel stellt man sich beispielsweise ein tragbares Aufzeichnungsmedium wie z.B. einen CD-ROM oder eine Diskette als Aufzeichnungsmedium vor.
Überdies ist das zweite Aufzeichnungsmedium 10 ein Sprachdaten-Aufzeichnungsmedium, auf dem gegebene Sprachdaten aufgezeichnet werden. Das zweite Aufzeichnungsmedium 10 wird nachstehend beschrieben.
Das zweite Aufzeichnungsmedium 10 ist ein Aufzeichnungsmedium, auf dem Sprachdaten, die durch eine externe Halbleiter-Aufzeichnungsvorrichtung erfasst werden, aufgezeichnet werden. Bei diesem Ausführungsbeispiel stellt man sich ein kartenförmiges Aufzeichnungsmedium, das ein Flashspeicher ist, vor.
In den letzten Jahren bestand ein zunehmender Bedarf für einen Flashspeicher. Digitale Halbleiter-Aufzeichnungsvorrichtungen unter Verwendung des Flashspeichers als Aufzeichnungsmedium wurden kommerzialisiert. Der Flashspeicher ist in vielen Arten von kartenförmigen Aufzeichnungsmedien bekannt. Eine Speicherkarte, die an den PCMCIA-Standard anpassbar ist, eine Miniaturkarte, die von Intel Corp. hergestellt wird, eine SSDFC, die von Toshiba Co., Ltd. hergestellt wird, und ein kompakter Flashspeicher, der von SunDis Co., Ltd. hergestellt wird, sind beispielsweise bekannt.
Im Allgemeinen werden diese kartenförmigen Flashspeicher mit einem Personalcomputer über einen Adapter oder dergleichen verbunden und sind zur Übertragung gegebener Daten in der Lage. Viele der existierenden kartenförmigen Speicher weisen eine Speicherkapazität auf, die von 2 M Bytes bis 8 M Bytes reicht. Überdies umfassen die derzeit auf dem Markt befindlichen digitalen Halbleiter-Aufzeichnungsvorrichtungen diejenigen, die in der Lage sind, Ton auf einer Karte mit einer Speicherkapazität von 2 M Bytes für 20 min. bis 40 min. aufzuzeichnen.
Die Halbleiter-Aufzeichnungsvorrichtungen wandeln ein analoges Signal, das über ein Mikrophon eingegeben wird, in digitale PCM-Daten um, die impulscodemodulierte digitale Daten oder dergleichen sind, komprimieren PCM-Daten gemäß einem Algorithmus zum Codieren auf der Basis von ADPCM oder CELP und zeichnen komprimierte Daten auf einer Flashspeicherkarte auf. Die so aufgezeichneten Daten können von einem Personalcomputer über einen Adapter direkt gelesen werden.
Der Computer 1 dieses Ausführungsbeispiels liest Sprachdaten von der Flashspeicherkarte (zweites Aufzeichnungsmedium 10), die wie vorstehend erwähnt angebracht wird.
Als nächstes wird eine Spracherkennungsoperation zum Erkennen von Sprache, die durch Sprachdaten dargestellt wird, welche vom Computer 1 ausgeführt wird, beschrieben.
Anfangs setzt ein Benutzer ein Aufzeichnungsmedium (erstes Aufzeichnungsmedium 7), auf dem ein gegebenes Spracherkennungsprogramm aufgezeichnet ist, in die erste Eingabeeinheit 5 des Computers 1 ein. Der Computer 1 liest ein gegebenes Spracherkennungsprogramm, das eine Anwendungssoftware ist, mittels des ersten Aufzeichnungsmediumstreibers 6 vom angeschlossenen ersten Aufzeichnungsmedium 7 in einen internen Speicher, der nicht dargestellt ist. Dies bewirkt, dass die CPU 1a eine Spracherkennungsoperation gemäß dem Programm steuert.
Nun wird die gemäß dem Spracherkennungsprogramm auszuführende Spracherkennungsoperation beschrieben.
2 ist ein Ablaufplan, der das erste Beispiel (erste Spracherkennungsprogramm) eines Spracherkennungsprogramms beschreibt, das auf dem erfindungsgemäßen Aufzeichnungsmedium aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet ist.
Wenn das zweite Aufzeichnungsmedium 10 in den Computer 1 eingesetzt ist, liest die CPU 1a Sprachdaten von einer sprachkomprimierten Datei, die Sprachdaten enthält, die durch eine externe Halbleiter-Aufzeichnungsvorrichtung komprimiert und aufgezeichnet wurden (Schritt S1). Das erste Spracherkennungsprogramm dehnt komprimierte Sprachdaten in PCM-Daten, indem es einem Kompressionsalgorithmus, gemäß dem Daten durch die Halbleiter-Aufzeichnungsvorrichtung aufgezeichnet werden, umgekehrt folgt (Schritt S2). Mit anderen Worten, diese Verarbeitung, die zur Wiedergabe, die von der Halbleiter-Aufzeichnungsvorrichtung durchgeführt wird, identisch ist, wird vom Computer 1 ausgeführt, der vom ersten Spracherkennungsprogramm gesteuert wird.
Die in Schritt S2 gedehnten PCM-Daten werden einer Spracherkennung unterzogen (Schritt S3). Die spracherkannten Daten oder hinsichtlich Sprache erkannten Daten werden in Textdaten umgewandelt (Schritt S4) und die umgewandelten Textdaten werden auf einer Anzeige (Anzeigeeinheit 3) angezeigt (Schritt S5). Diese Verarbeitung wird fortgesetzt, bis die spracherkannten Daten zu Ende gehen (Schritt S6).
3 zeigt ein Beispiel einer Anzeige, die erscheint, wenn die vom ersten Aufzeichnungsmedium 7 gelesene Spracherkennungs-Anwendungssoftware im Computer 1 dieses Ausführungsbeispiels aktiviert wird, oder eines Hauptbildschirms, der zum Wiedergeben von Sprachdaten verwendet wird, die komprimierte Daten, die Sprache darstellen, sind.
3 zeigt einen Hauptbildschirm 11, auf dem: eine Menüleiste 12, die zum Auswählen von einer mit einer Datei in Beziehung stehenden Bearbeitung oder einer mit einer Aufbereitung in Beziehung stehenden Bearbeitung verwendet wird; eine Werkzeugschaltflächenleiste 13, die leicht unterscheidbar verschiedene Arten von Bearbeitung in Form von Bildsymbolen darstellt; ein Sprachdatei-Listenkästchen 14, das eine Liste von Informationen wie z.B. Namen von Sprachdateien, die vom zweiten Aufzeichnungsmedium 10 übertragen werden, Aufzeichnungszeiten, Aufzeichnungsdaten und Prioritäten anzeigt und in dem eine Sprachdatei, deren Daten wiedergegeben oder spracherkannt werden, im Gegensatz zu den anderen Sprachdateien hervorgehoben ist; und eine Wiedergabesteuerung 18, die verwendet wird, um eine Verarbeitung wie z.B. Wiedergabe, Stop, schneller Vorlauf oder schneller Rücklauf auszuführen, angezeigt sind.
Die Werkzeugschaltflächenleiste 13 ist mit einer Spracherkennungswerkzeug-Schaltflächengruppe 21 versehen, die aus einer Spracherkennungs-Startschaltfläche 22, einer Worterkennungs-Schaltfläche 23 und einer Listenanzeige-Schaltfläche 24 besteht.
Überdies ist die Wiedergabesteuerung 18 mit einem Indikatorschieber 15 für die aktuelle Wiedergabeposition, Linien 16 und einer Indexsuch-Schaltfläche 17 versehen.
Auf dem in 3 gezeigten Hauptbildschirm 11 wird, wenn die Spracherkennungs-Startschaltfläche 22, die zur Spracherkennungswerkzeug-Schaltflächengruppe 21 gehört, die in der Werkzeugschaltflächenleiste 13 enthalten ist, gedrückt wird, die Spracherkennung einer Sprachdatei, die im Sprachdatei-Listenkästchen 14 hervorgehoben ist, gestartet. Ein Texteditor, der in 4 gezeigt ist, wird hochgefahren. Erkannte Sprachdaten werden als serielle Textdaten auf dem Editorbildschirm angezeigt.
Als nächstes wird eine Verarbeitungsoperation zur Erkennung einer gegebenen Anzahl von Worten in gegebenen Zeitintervallen seit dem Beginn einer Datei, die einer Spracherkennung unterzogen wird, und zum Anzeigen einer Liste der Worte beschrieben.
Die Listenanzeige-Schaltfläche 24, die zur Spracherkennungswerkzeug-Schaltflächengruppe 21 gehört, ist eine Schaltfläche, die zum Erkennen einer bestimmten Anzahl von Worten in bestimmten Zeitintervallen seit dem Beginn einer Datei, die einer Spracherkennung unterzogen wird, und zum Anzeigen der Worte in Form einer Liste verwendet wird.
Wenn die Listenanzeige-Schaltfläche 24 gedrückt wird, erscheint ein in 5 gezeigtes Dialogkästchen. Ein Benutzer wird aufgefordert, die Festlegung einer Zeit in s, in welchen Intervallen Worte seit dem Beginn einer Datei (einer Spracherkennung unterzogenen Datei) erkannt werden, welche im Sprachdatei-Listenkästchen 14 hervorgehoben ist, und die Festlegung der Anzahl von zu erkennenden und anzuzeigenden Worten einzugeben. Wenn der Benutzer die Verarbeitung unterbrechen will, drückt er eine in 5 gezeigte Abbruchschaltfläche. Somit kann die Steuerung an den in 3 gezeigten Hauptbildschirm zurückgegeben werden.
Wenn der Benutzer die Festlegung des Zeitintervalls und die Festlegung der Anzahl von zu erkennenden Worten eingibt und die Startschaltfläche drückt, wird das in 5 gezeigte Dialogkästchen geschlossen und ein in 6 gezeigtes Listenkästchen erscheint.
7 ist ein Ablaufplan, der das zweite Beispiel (zweite Spracherkennungsprogramm) eines Spracherkennungsprogramms beschreibt, das auf einem erfindungsgemäßen Aufzeichnungsmedium aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet ist. Hierbei wird eine Verarbeitungsoperation zum Erkennen einer gegebenen Anzahl von Worten in bestimmten Zeitintervallen seit dem Beginn einer Datei, die einer Spracherkennung unterzogen wird, und zum Anzeigen der Worte in Form einer Liste beschrieben.
Insbesondere wenn der Benutzer das Zeitintervall und die Anzahl von zu erkennenden Worten festlegt und dann die Startschaltfläche drückt, werden Sprachdaten zuerst von einer Datei gelesen, die einer Spracherkennung unterzogen wird und die auf dem zweiten Aufzeichnungsmedium 10 aufgezeichnet ist (Schritt S11). Das zweite Spracherkennungsprogramm dehnt die komprimierten Sprachdaten auf dieselbe Weise wie das erste Spracherkennungsprogramm (Schritt S12). Wenn ein Wort, das mit einem Zeitmoment zusammenfällt, in dem die festgelegte Zeit abgelaufen ist, erfasst wird (Schritt S13), werden gedehnte PCM-Daten, die mit dem Wort beginnen, spracherkannt (Schritt S14).
Die spracherkannten Daten werden in Textdaten umgewandelt (Schritt S15) und die umgewandelten Textdaten werden, wie in 6 gezeigt, durch die gegebene Anzahl von Worten auf der Anzeige (Anzeigeeinheit 3) angezeigt. Im in 6 gezeigten Listenkästchen werden insbesondere die Anzeige einer Wiedergabepositionszeit, die seit dem Beginn der spracherkannten Datei vergangen ist, und die Anzeige von Textdaten beginnend in der Wiedergabeposition nacheinander durch die Anzahl von Worten, die in dem in 5 gezeigten Dialogkästchen festgelegt wird, ausgeführt. Diese Verarbeitung wird beendet, wenn die Daten zu Ende gehen (Schritt S17).
Als nächstes wird eine Verarbeitungsoperation zum Erkennen von Sprache, die an einer bestimmten Position in einer Datei, die einer Spracherkennung unterzogen wird, begonnen wird, beschrieben.
Wenn die Wiedergabeposition, die durch den Indikatorschieber 15 für die aktuelle Wiedergabeposition angezeigt wird, welcher auf dem in 3 gezeigten Hauptbildschirm 11 angezeigt wird, geändert wird und wenn die Spracherkennungs-Startschaltfläche 22, die zur Spracherkennungswerkzeug-Schaltflächengruppe 21 gehört, gedrückt wird, wird die Spracherkennung in der geänderten Wiedergabeposition begonnen. Das Ergebnis der Spracherkennung erscheint dann auf dem in 4 gezeigten Texteditorbildschirm.
8 ist ein Ablaufplan, der das dritte Beispiel (dritte Spracherkennungsprogramm) eines Spracherkennungsprogramms beschreibt, das auf einem Aufzeichnungsmedium aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet ist, wobei eine Verarbeitungsoperation zum Starten einer Spracherkennung an einer bestimmten Position in einer Datei, die einer Spracherkennung unterzogen wird, und zum Anzeigen des Ergebnisses beschrieben wird.
Insbesondere wenn ein Benutzer die Wiedergabeposition ändert, die durch den Indikatorschieber 15 für die aktuelle Wiedergabeposition, der in 3 gezeigt ist, angezeigt wird, werden Sprachdaten von einer Datei, die einer Spracherkennung unterzogen wird, auf dem zweiten Aufzeichnungsmedium gelesen (Schritt S21). Das dritte Spracherkennungsprogramm dehnt komprimierte Sprachdaten auf dieselbe Weise wie das erste Spracherkennungsprogramm (Schritt S22). Wenn ein Wort, das mit einer gegebenen Position zusammenfällt, erfasst wird (Schritt S23), werden gedehnte PCM-Daten, die mit dem Wort an der bestimmten Position beginnen, spracherkannt (Schritt S24).
Die spracherkannten Daten werden in Textdaten umgewandelt (Schritt S25) und die umgewandelten Textdaten werden auf der Anzeige (Anzeigeeinheit 3) angezeigt (Schritt S26). Mit anderen Worten, Textdaten, die in der gegebenen Position beginnen, die im in 4 gezeigten Editorbildschirm festgelegt wird, werden angezeigt. Diese Verarbeitung wird beendet, wenn die Daten zu Ende gehen.
Als nächstes wird eine Verarbeitungsoperation zur Spracherkennung eines gewünschten Worts, das spracherkannt werden sollte, unter denjenigen, die in einer Datei enthalten sind, die einer Spracherkennung unterzogen wird, und zum Anzeigen der Positionen des gewünschten Worts beschrieben.
Die Worterkennungs-Schaltfläche 23, die zur in 3 gezeigten Spracherkennungswerkzeug-Schaltflächengruppe 21 gehört, ist eine Schaltfläche zur Verwendung bei der Spracherkennung eines gewünschten Worts, das spracherkannt werden sollte, unter denjenigen, die in einer Datei enthalten sind, die einer Spracherkennung unterzogen wird, und zum Anzeigen der Positionen des gewünschten Worts. Insbesondere wenn die Worterkennungs-Schaltfläche 23 gedrückt wird, wird nur das Wort, das spracherkannt werden sollte, aus einer sprachkomprimierten Datei abgerufen, indem eine Spracherkennung ausgeführt wird. Abgerufene Stellen werden mit den Linien 16 im Indikatorschieber 15 für die aktuelle Wiedergabeposition angezeigt, so dass sie auf Anhieb unterschieden werden können. Die Details werden nachstehend beschrieben.
Wenn die Worterkennungs-Schaltfläche 23 gedrückt wird, erscheint das in 9 gezeigte Dialogkästchen. Mit dem Dialogkästchen wird ein Benutzer aufgefordert, ein festgelegtes Wort einzugeben, das erkannt werden sollte. Zum Unterbrechen dieser Verarbeitung wird die Abbruchschaltfläche gedrückt. Die Verarbeitung wird dann verlassen und der in 3 gezeigte Hauptbildschirm kehrt zurück.
10 ist ein Ablaufplan, der das vierte Beispiel (vierte Spracherkennungsprogramm) eines Spracherkennungsprogramms beschreibt, das auf einem Aufzeichnungsmedium aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet ist, wobei eine Verarbeitungsoperation zur Spracherkennung gewünschter Worte allein, die unter denjenigen, die in einer Datei enthalten sind, die einer Spracherkennung unterzogen wird, spracherkannt werden sollten, und zum Anzeigen der Positionen der gewünschten Worte beschrieben wird.
Insbesondere nachdem ein gewünschtes Wort, das erkannt werden sollte, auf dem in 9 gezeigten Bildschirm durch einen Benutzer eingegeben wird, und wenn die Startschaltfläche gedrückt wird, werden Sprachdaten von einer Datei, die einer Spracherkennung unterzogen wird, auf dem zweiten Aufzeichnungsmedium gelesen (Schritt S31). Das vierte Spracherkennungsprogramm dehnt komprimierte Sprachdaten auf dieselbe Weise wie das erste Spracherkennungsprogramm (Schritt S32). Die Spracherkennung wird dann am Beginn der ausgewählten sprachkomprimierten Datei begonnen (Schritt S33).
Anschließend, wenn das in das in 9 gezeigte Dialogkästchen eingetragene Wort unter denjenigen erkannt wird, die in der Datei enthalten sind, die der Spracherkennung unterzogen wird (Schritt S34), werden die Positionen des Worts mit den Linien 16 im Indikatorschieber 15 für die aktuelle Wiedergabeposition auf dem in 3 gezeigten Hauptbildschirm 12 angezeigt. Eine Indexmarkierung wird in ein Sprachdatenelement, das mit der Position zusammenfällt, eingefügt. Jedes Mal, wenn die Indexsuch-Schaltfläche 17 in der Wiedergabesteuerung 18 auf dem in 3 gezeigten Hauptbildschirm 11 gedrückt wird, wird die Steuerung nacheinander zu einer der mit den Linien 16 angegebenen Positionen übersprungen (Schritt S35 und Schritt S36). Diese Einrichtung kann nicht nur für gültig erklärt werden, wenn die Wiedergabe gestoppt ist, sondern auch wenn die Wiedergabe in Gang ist.
Wenn eine Spracherkennung, die das Ende der sprachkomprimierten Datei beinhaltet, beendet ist, werden alle Positionen, an denen das eingetragene Wort gefunden wird, mit den Linien 16 im Indikatorschieber 15 für die aktuelle Wiedergabeposition anzeigt.
Diese Verarbeitung wird beendet, wenn Daten zu Ende gehen (Schritt S37).
Als nächstes wird eine Verarbeitungsoperation zum Löschen eines Teils von Sprachdaten entsprechend einem festgelegten Teil von Textdaten aus einer Datei, die einer Spracherkennung unterzogen wird, beschrieben.
11 ist ein Ablaufplan, der das fünfte Beispiel (fünfte Spracherkennungsprogramm) eines Spracherkennungsprogramms beschreibt, das auf einem Aufzeichnungsmedium aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet ist, wobei eine Verarbeitungsoperation zum Löschen eines Teils von Sprachdaten entsprechend einem festgelegten Teil von Textdaten vom zweiten Aufzeichnungsmedium 10 beschrieben wird.
Zuerst werden Sprachdaten von einer Datei, die einer Spracherkennung unterzogen wird, auf dem zweiten Aufzeichnungsmedium 10 gelesen (Schritt S41). Das fünfte Spracherkennungsprogramm dehnt komprimierte Sprachdaten auf dieselbe Weise wie das erste Spracherkennungsprogramm (Schritt S42). Die gedehnten PCM-Daten werden spracherkannt (Schritt S43).
Die spracherkannten Daten werden in Textdaten umgewandelt (Schritt S44). Adressen auf dem zweiten Aufzeichnungsmedium 10, die Worten zugeordnet sind, werden erfasst und dann aufgelistet (Schritt S45). Tabelle 1 gibt die Adressen auf dem zweiten Aufzeichnungsmedium 10 an, die einem Beispiel von Textdaten "Der Himmel ist blau und der Ozean ist auch blau" zugeordnet sind.
Tabelle 1
Anschließend werden die obigen Textdaten auf der Anzeige angezeigt gehalten, bis die Daten zu Ende gehen (Schritt S46 und Schritt S47).
Wenn die Daten zu Ende gehen, wird beurteilt, ob die Textdaten gelöscht werden sollten oder nicht (Schritt S48). Wenn die Daten gelöscht werden sollten, wird eine Löschposition in den Textdaten festgelegt (Schritt S49). Adressen auf dem zweiten Aufzeichnungsmedium 10, die der festgelegten Position zugeordnet sind, werden aus Tabelle 1 abgerufen (Schritt S50).
Anschließend werden Sprachdaten vom zweiten Aufzeichnungsmedium 10 gelesen (Schritt S51) und gedehnt (Schritt S52). Der Teil der Sprachdaten, der durch die Adressen festgelegt wird, wird gelöscht (Schritt S53). Anschließend werden die Sprachdaten wieder komprimiert (Schritt S54) und dann überschrieben (Schritt S55).
In diesem Ausführungsbeispiel werden Adressen so aufgelistet, dass eine Löschposition in Textdaten einer Position auf dem zweiten Aufzeichnungsmedium zugeordnet werden kann. Alternativ können Zeiten, die seit dem Beginn einer Datei vergangen sind, in Form einer Liste aufgezeichnet werden.
Gemäß dem Spracherkennungsprogramm des ersten Ausführungsbeispiels, das auf einem an einen Computer anzupassenden Aufzeichnungsmedium aufgezeichnet ist, muss eine CPU üblicherweise eine große Verarbeitungsleistung aufweisen, da, wenn eine Sprachausgabe über ein Mikrophon direkt erkannt wird, die Spracherkennung in Echtzeit ausgeführt werden muss. Da jedoch das Dehnen einer sprachkomprimierten Datei und eine Spracherkennung lediglich wiederholt werden sollten, ergibt sich der Vorteil, dass die Echtzeitverarbeitung nicht erforderlich ist und die CPU keine große Verarbeitungsleistung erbringen muss, ausgeübt.
Da eine Echtzeitverarbeitung nicht erforderlich ist, besteht überdies der Vorteil, dass ein Algorithmus, der eine Spracherkennung mit hoher Präzision ermöglicht, erzeugt werden kann.
Da der Inhalt eines Teils einer sprachkomprimierten Datei auf Anhieb unterschieden werden kann, kann ferner das, was in welcher Wiedergabeposition aufgezeichnet ist, umfassend erfasst werden.
Nur ein Teil einer existierenden sprachkomprimierten Datei, die in Textdaten umgewandelt werden sollte, kann spracherkannt werden.
Außerdem kann die Steuerung spontan von einer existierenden sprachkomprimierten Datei zur Position eines als Schlüsselwort dienenden Worts übersprungen werden. Eine Position des Worts, das abgerufen werden sollte, kann sofort erreicht werden.
Selbst nachdem Daten aufgezeichnet sind, verbessert sich ferner die Nützlichkeit, da ein Wort später festgelegt werden kann und eine Indexmarkierung in den aufgezeichneten Daten eingetragen werden kann. Selbst nachdem Daten aufgezeichnet sind, kann außerdem, da ein unnötiges Wort später festgelegt und aus den aufgezeichneten Daten gelöscht werden kann, ein erfolgloses Diktieren leicht gelöscht werden.
Beim Computer 1 des ersten Ausführungsbeispiels ist das erste Aufzeichnungsmedium 7 ein externes Aufzeichnungsmedium. Nachdem ein Aufzeichnungsmedium, auf dem ein gegebenes Spracherkennungsprogramm aufgezeichnet ist, in den Computer 1 eingesetzt ist, kann das gegebene Spracherkennungsprogramm, das eine Anwendungssoftware ist, vom Aufzeichnungsmedium gelesen werden. Die vorliegende Erfindung ist nicht auf diese Betriebsart begrenzt. Alternativ genügt eine beliebige Betriebsart, solange ein gegebenes Spracherkennungsprogramm durch Arbeiten auf der CPU 1a im Computer aktiviert werden kann.
Der Computer 1 kann beispielsweise mit einem Aufzeichnungsmedium, auf dem ein Spracherkennungsprogramm aufgezeichnet ist, im voraus versehen werden, so dass das Spracherkennungsprogramm jederzeit gelesen werden kann.
12 bis 17 betreffen das zweite Ausführungsbeispiel, das keinen Teil der beanspruchten Erfindung bildet. 12 ist ein konzeptionelles Diagramm, das die Gesamtkonfiguration eines Diktiersystems zeigt.
Das Diktiersystem umfasst: wie in 12 gezeigt, eine digitale Aufzeichnungsvorrichtung 26, die eine Sprachaufzeichnungsvorrichtung zum Umwandeln von Sprache in ein elektrisches Signal und zum Erzeugen von Sprachdaten ist; eine Miniaturkarte 10A, die frei lösbar an der digitalen Aufzeichnungsvorrichtung 26 angebracht wird und die als Sprachdaten-Aufzeichnungsmedium dient, auf dem Sprachdaten aufgezeichnet werden; einen PC-Kartenadapter 27, der zum Einsetzen der Miniaturkarte 10A in einen PC-Kartenschlitz 9A (siehe 16), der später beschrieben werden soll, zur Verbindung verwendet wird; und einen Personalcomputer 1A mit einer Anzeige 3A, die als Anzeigemittel dient, und einer Tastatur 2A und einer Maus 2B, die als Betätigungseinheit dienen, der als Spracherkennungsvorrichtung zum Verarbeiten von Sprachdaten, die von der Miniaturkarte 10A über den PC-Kartenschlitz 9A gelesen werden, gemäß einem Steuerprogramm 28 oder einem Spracherkennungsprogramm 29 wirkt.
13 ist ein Blockdiagramm, das die elektrische Konfiguration der digitalen Aufzeichnungsvorrichtung 26 zeigt.
Die digitale Aufzeichnungsvorrichtung 26 umfasst: wie in 13 gezeigt, ein Mikrophon 31, das als Sprachdaten-Eingabemittel zum Eingeben von Sprache und Umwandeln derselben in ein elektrisches Signal dient; einen Mikrophonverstärker 32 zum Verstärken eines vom Mikrophon 31 zugeführten Sprachsignals auf einen zweckmäßigen Pegel; ein Tiefpassfilter 33 zum Entfernen von unnötigen Hochfrequenzkomponenten aus dem durch den Mikrophonverstärker 32 verstärkten Sprachsignal; einen A/D-Wandler 34 zum Umwandeln eines analogen Sprachsignals, das vom Tiefpassfilter 33 ausgegeben wird, in digitale Daten; einen Codierer-Decodierer 35 zum Codieren (Komprimieren) des digitalisierten Sprachsignals während einer Aufzeichnungsoperation und zum Decodieren (Dehnen) von codierten Daten während einer Wiedergabeoperation; eine Speichersteuereinheit 36, die als Aufzeichnungsmittel zum Steuern der Aufzeichnung oder Wiedergabe von Sprachinformation in oder von einem Sprachspeicher 37, der später beschrieben wird, auf der Basis einer Adresseninformation, die durch eine später zu beschreibende Systemsteuereinheit 38 gegeben wird, dient; einen Sprachspeicher 37, der in die Miniaturkarte 10A integriert ist, die als Sprachdaten-Aufzeichnungsmedium dient und beispielsweise mit einem Halbleiterspeicher ausgebildet ist; einen Miniaturkartenanschluss 44, der als Aufzeichnungsmedium-Anschlussmittel dient, das ermöglicht, dass die Miniaturkarte 10A mit dem Sprachspeicher 37 frei an der digitalen Aufzeichnungsvorrichtung 26 angebracht oder von dieser gelöst werden kann; einen D/A-Wandler 39 zum Umwandeln des aus dem Codierer-Decodierer 35 ausgegebenen digitalen Sprachsignals in ein analoges Signal; ein Tiefpassfilter 40 zum Entfernen von unnötigen Hochfrequenzkomponenten aus einem Sprachsignal, das durch den D/A-Wandler 39 in eine analoge Form umgewandelt wurde; einen Leistungsverstärker 41 zum Verstärken eines analogen Sprachsignals, das vom Tiefpassfilter 40 ausgegeben wird; einen Lautsprecher 42 zur Tonwiedergabe, wenn er durch den Leistungsverstärker 41 angesteuert wird; eine Operationseingabeeinheit 43, die aus verschiedenen Arten von Betätigungstasten besteht, einschließlich einer Kontrollzeichentaste 43a (siehe 14), die später beschrieben werden soll; und eine Systemsteuereinheit 38, die die digitale Aufzeichnungsvorrichtung 26, einschließlich des Codierer-Decodierers 35, der Speichersteuereinheit 36 und des Sprachspeichers 37, auf eine zentralisierte Weise steuert und die als Aufzeichnungsmittel dient, mit dem ein Ausgangsanschluss der Operationseingabeeinheit 43 verbunden wird.
14 ist ein Diagramm, das eine Szene zeigt, in der die Kontrollzeichentaste der digitalen Aufzeichnungsvorrichtung während des Diktierens betätigt wird.
Die Kontrollzeichentaste 43a, die als Intervallfestlegungsmittel der Operationseingabeeinheit 43 dient, ist, wie in 14 gezeigt, in einer Position angeordnet, die es ermöglicht, dass der Daumen einer Hand, mit der die digitale Aufzeichnungsvorrichtung 26 ergriffen wird, die Kontrollzeichentaste leicht betätigt. Die Kontrollzeichentaste ist eine Taste, die gedrückt werden soll, um ein Kontrollzeichen, das anzeigt, dass ein geäußertes Wort ein unnötiges Wort ist, an Sprachdaten anzuhängen, wenn ein unnötiges Wort oder dergleichen geäußert wird, während der Inhalt eines zu erzeugenden Dokuments diktiert wird.
Das unnötige Wort oder dergleichen wird unbewusst geäußert. In dem Moment, in dem ein unnötiges Wort geäußert wurde, kann ein Sprecher das geäußerte Wort als unnötiges Wort erkennen. Da die Kontrollzeichentaste 43a in einer Position angeordnet ist, die ermöglicht, dass der Sprecher sie leicht drücken kann, kann ein Kontrollzeichen bei Bedarf leicht angehängt werden.
15 ist ein Diagramm, das das Format von Daten zeigt, die im Sprachspeicher 37 der Miniaturkarte 10A durch die digitale Aufzeichnungsvorrichtung 26 aufgezeichnet werden sollen.
Ein Datensatz wird in Form einer Datei verwaltet. In jeder Datei ist eine Information, beispielsweise ein Aufzeichnungsdatum und eine Aufzeichnungszeit, als Dateikopfzeile geschrieben. Im restlichen Bereich sind Daten, die in Datenblöcke unterteilt sind, geschrieben.
Jeder Datenblock umfasst überdies eine Kontrollzeicheninformation, die angibt, ob die Kontrollzeichentaste 43a gedrückt wurde oder nicht, und codierte Sprachdaten. Die Kontrollzeicheninformation ist wie beispielsweise ein Kennzeichen mit beispielsweise einer Länge von 1 Bit strukturiert. Wenn die Kontrollzeichentaste 43a gedrückt wird, wird das Kennzeichen auf "1" gesetzt. Wenn die Kontrollzeichentaste 53a nicht gedrückt wird, wird das Kennzeichen auf "0" gesetzt.
16 ist ein Blockdiagramm, das die elektrische Konfiguration des Personalcomputers 1A zeigt.
Der Personalcomputer 1A führt eine Sprachwiedergabe, eine Informationsanzeige und dergleichen gemäß dem Steuerprogramm 28 aus, führt eine Dokumentation gemäß dem Spracherkennungsprogramm 29 aus und führt auch verschiedene Arten von Verarbeitung gemäß den anderen verschiedenen Arten von Programmen aus. Der Personalcomputer 1A umfasst: eine CPU 51, die als Erfassungsmittel dient, ein Pegeleinstellmittel, ein Spracherkennungsmittel, ein Sprachbewertungsmittel, ein Minimalwert-Berechnungsmittel, ein Verstärkungswert-Berechungsmittel, ein Multiplikationsmittel und ein Mittelungsmittel; einen Hauptspeicher 52, der als Aufzeichnungsmedium dient und der einen Arbeitsbereich für die CPU 51 bietet; ein internes Aufzeichnungsmedium 53, das als Aufzeichnungsmedium dient, das beispielsweise mit einer Festplatte oder Diskette ausgebildet ist und in dem das Steuerprogramm 28 und das Spracherkennungsprogramm 29 aufgezeichnet sind; einen externen Anschluss 54, der zum Verbinden des Personalcomputers mit verschiedenen Arten einer externen Anlage verwendet wird; eine Schnittstelle 55, die zum Verbinden der Anzeige 3A mit dem Personalcomputer verwendet wird; eine Schnittstelle 56, die zum Verbinden der Tastatur 2A oder der Maus 2B verwendet wird; einen Lautsprecher 4A, der eine Sprachausgabeeinheit zum Wiedergeben von Ton auf der Basis von Sprachdaten ist; eine Schnittstelle 57, die zum Verbinden des Lautsprechers 4A verwendet wird; einen PC-Kartenschlitz 9A, der als Sprachdaten-Lesemittel dient und in den die Miniaturkarte 10, die am PC-Kartenadapter 27 angebracht ist, eingesetzt wird; und eine Schnittstelle 58, die zum Verbinden des PC-Kartenschlitzes 9A verwendet wird. Die CPU 51, der Hauptspeicher 52, das interne Aufzeichnungsmedium 53, der externe Anschluss 54 und die Schnittstellen 55, 56, 57 und 58 sind über einen Bus miteinander verbunden.
Sprachdaten können direkt von der Miniaturkarte 10A über den PC-Kartenschlitz 9A gelesen werden. Alternativ können die Sprachdaten vorübergehend im internen Aufzeichnungsmedium 53 aufgezeichnet und vom internen Aufzeichnungsmedium 53 gelesen werden. Ansonsten können die Sprachdaten direkt von der digitalen Aufzeichnungsvorrichtung 26 über ein Kommunikationsmittel oder dergleichen gelesen werden. Somit ist das Sprachdaten-Lesemittel nicht auf den PC-Kartenschlitz begrenzt.
Überdies ist ein Beispiel einer Bildschirmanzeige, die erreicht wird, indem das Steuerprogramm auf dem Personalcomputer läuft, zu der in 3 gezeigten fast identisch.
17 ist ein Ablaufplan, der die Verarbeitung einer Spracherkennung beschreibt, die im Personalcomputer 1A ausgeführt wird.
Die Spracherkennung wird, wie später erwähnt, schrittweise in der Reihenfolge der Sprachlauterkennung, Worterkennung und Satzerkennung ausgeführt.
Insbesondere wenn die Spracherkennungs-Startschaltfläche 22, die zur Spracherkennungswerkzeug-Schaltflächengruppe 21 in der Werkzeugschaltflächenleiste 13 auf dem Hauptbildschirm 11 gehört, angeklickt wird, wird die Spracherkennung begonnen. Eine Sprachdatei, die im Sprachdatei-Listenkästchen 14 hervorgehoben ist, wird in Einheiten eines gegebenen Datenblocks gelesen (Schritt S61) und in Einheiten des Datenblocks decodiert (Schritt S62).
Die decodierten Sprachdaten werden an das Spracherkennungsprogramm 29 übergeben. Zuerst wird ein Sprachlaut identifiziert (Schritt S63). Eine Worterkennung wird dann ausgeführt, wobei ein Wortstrom, der Eingangssprache äußerst zufriedenstellend entspricht, auf der Basis eines gegebenen Sprachmodells abgerufen wird, das vom identifizierten Sprachlaut vorgeschlagen wird (Schritt S64).
Was als Sprachmodell bezeichnet wird, ist ein Modell, das eine Wahrscheinlichkeit für das Auftreten gibt, die auf einen gegebenen Wortstrom hindeutet. Als Sprachmodell wurden verschiedene Formen in Erwägung gezogen. Ein effizientes Modell, das unnötige Worte oder dergleichen berücksichtigt, wurde jedoch noch nicht erfunden.
Bei diesem Ausführungsbeispiel wird daher die Kontrollzeicheninformation, die sich am Beginn jedes in 15 gezeigten Datenblocks befindet, geprüft, um festzustellen, ob ein Wort, das durch Daten in einem Datenblock dargestellt wird, der dem Datenblock unmittelbar vorangeht, ein unnötiges Wort oder dergleichen ist.
Insbesondere wird beurteilt, ob die Kontrollzeicheninformation 1 ist oder nicht (Schritt S65). Wenn die Kontrollzeicheninformation 1 ist, wird ein Wort, das durch Daten in einem Datenblock dargestellt wird, der dem Datenblock unmittelbar vorangeht, nicht als Objekt der Verarbeitung der Satzerkennung des nächsten Schritts betrachtet (Schritt S66). Wenn die Kontrollzeicheninformation 0 ist, wird eine Satzerkennung ausgeführt (Schritt S67).
Es folgt eine Zeichenumwandlung zum Umwandeln von Sprachdaten in Zeichencodes auf der Basis eines erkannten Satzes (Schritt S68). Das Ergebnis der Erkennung wird auf einem Bildschirm auf der Anzeige 3A angezeigt (Schritt S69).
Danach wird beurteilt, ob die Sprachdatei zu Ende gegangen ist oder nicht (Schritt S70). Wenn die Sprachdatei nicht zu Ende gegangen ist, wird die Steuerung zu Schritt S61 zurückgeführt. Wenn die Sprachdatei zu Ende gegangen ist, wird die Verarbeitung beendet.
Die Verarbeitung dessen, ein unnötiges Wort gemäß dem Ergebnis der Erfassung der Kontrollzeicheninformation nicht als Objekt der Erkennung zu betrachten, wurde als innerhalb des Spracherkennungsprogramms 29 ausgeführt beschrieben. Alternativ kann die Verarbeitung beispielsweise innerhalb des Steuerprogramms 28 ausgeführt werden und das Ergebnis kann an das Spracherkennungsprogramm 29 übergeben werden.
In diesem Fall bewirkt das Steuerprogramm 28, dass der Personalcomputer 1A Sprachdaten von der Miniaturkarte 10A abruft und die an die Sprachdaten angehängte Kontrollzeicheninformation erfasst. Wenn die Kontrollzeicheninformation 1 ist, werden die Sprachdaten nicht an das Spracherkennungsprogramm 29 übergeben. Wenn die Kontrollzeicheninformation 0 ist, werden die Sprachdaten an das Spracherkennungsprogramm 29 übergeben.
Ein Wort, das durch Daten in einem Datenblock dargestellt wird, der einem Datenblock mit einer Kontrollzeicheninformation von 1 unmittelbar vorangeht, wurde überdies als nicht als Objekt der Spracherkennung betrachtet beschrieben. Alternativ kann ein Wort, das durch Daten in einem Datenblock mit einer Kontrollzeicheninformation von 1 dargestellt wird, nicht als Objekt der Spracherkennung betrachtet werden.
Ferner wurde das Ergebnis der Spracherkennung als als Zeichen auf der Anzeige 3A angezeigt beschrieben. Alternativ können die Zeichen als Zeichendaten an ein Aufzeichnungsmedium ausgegeben werden oder können gleichzeitig angezeigt und ausgegeben werden.
Die Kontrollzeicheninformation wurde als während der Aufzeichnung durch die digitale Aufzeichnungsvorrichtung 26 aufgezeichnet beschrieben. Alternativ kann das System so ausgelegt sein, dass die Kontrollzeicheninformation während der Wiedergabe durch die digitale Aufzeichnungsvorrichtung 26 oder Wiedergabe durch den Personalcomputer 1A festgelegt werden kann.
Gemäß dem zweiten Ausführungsbeispiel wird, wenn ein Sprecher die Kontrollzeichentaste drückt, ein Kontrollzeichen in Sprachdaten aufgezeichnet. Während der Verarbeitung der Wiedergabe und der Spracherkennung wird das Kontrollzeichen erfasst. Ein Wort, das durch Daten in einem Datenblock mit einem darin einbeschriebenen Kontrollzeichen dargestellt wird, oder ein Wort, das durch Daten in einem Datenblock dargestellt wird, der dem Datenblock mit dem darin einbeschriebenen Kontrollzeichen vorangeht oder folgt, wird nicht als Objekt der Spracherkennung betrachtet. Folglich kann die Bearbeitung eines unnötigen Worts oder dergleichen, die in der Vergangenheit nicht vorgenommen werden konnte, leicht ohne den Bedarf an einer Steigerung der Anforderungen für die Spracherkennung, das heißt den Bedarf für eine besonders schnelle Verarbeitung, ausgeführt werden. Dies führt zu einem Diktiersystem mit guter Qualität, das in der Lage ist, eine Spracherkennung zweckmäßig auszuführen und ein Dokument mit wenigen Fehlern zu erzeugen.
18 bis 21 betreffen das dritte Ausführungsbeispiel, das keinen Teil der beanspruchten Erfindung bildet. Die konzeptionelle Gesamtkonfiguration eines Diktiersystems des dritten Ausführungsbeispiels ist identisch zu der in 12 gezeigten. Überdies ist die elektrische Konfiguration des Personalcomputers 1A zu der in 16 gezeigten identisch.
Als nächstes stellt 18 ein Diagramm dar, das den gesamten Ablauf für das Lesen von Sprachdaten von einem Sprachspeicher und das Erkennen von Sprache zeigt, was vom Diktiersystem ausgeführt wird, und 19 stellt einen Ablaufplan dar, der die Verarbeitung der Spracherkennung, die vom Diktiersystem ausgeführt wird, beschreibt.
Wie in 19 beschrieben, werden, wenn die Verarbeitung begonnen wird, Sprachdaten, die in Einheiten einer Datei aufgezeichnet sind, aus einem Sprachspeicher 61 in der Miniaturkarte 10A oder einem internen Aufzeichnungsmedium 53 gelesen und eine Decodierung 62 wird ausgeführt (Schritt S71).
Das Ergebnis der Decodierung 62 wird zu einer Beurteilung 63 mit Sprache oder ohne Sprache und zu einer Abtastwert-Absolutwert-Mittelung 64 gesandt.
Die Beurteilung 63 mit Sprache oder ohne Sprache berechnet einen Schwellenwert, der zur Beurteilung mit Sprache oder ohne Sprache verwendet wird (Schritt S72). Auf der Basis des berechneten Schwellenwerts wird beurteilt, ob Sprachdaten mit Sprache oder ohne Sprache sind (Schritt S73). Diese Verarbeitung wird später in Verbindung mit 20 im einzelnen erläutert. Das Ergebnis der Beurteilung 63 mit Sprache oder ohne Sprache wird zur Abtastwert-Absolutwert-Mittelung 64 gesandt.
Die Abtastwert-Absolutwert-Mittelung 64 und die Verstärkungsberechnung 65 werden ausgeführt, um eine Verstärkung zu berechnen (Schritt S74). Diese Verarbeitung wird später in Verbindung mit 21 beschrieben. Auf der Basis einer durch die Verstärkungsberechnung 65 berechneten Verstärkung verstärkt eine Verstärkungsmultiplikation 66 ein Ausgangssignal der Decodierung 62 (Schritt S75).
Sprachdaten, die durch die Verstärkungsmultiplikation 66 auf einen zweckmäßigen Pegel eingestellt wurden, werden zur Spracherkennung 67 gesandt, wodurch eine Spracherkennung ausgeführt wird (Schritt S76).
Eine Zeichenumwandlung wird ausgeführt, um das Ergebnis der Spracherkennung in Zeichencodes umzuwandeln (Schritt S77). Resultierende Zeichencodes werden ausgegeben und auf einem Bildschirm auf der Anzeige 3A oder dergleichen angezeigt 68 (Schritt S78).
20 ist ein Ablaufplan, der den Inhalt einer Verarbeitung beschreibt, die für die Beurteilung mit Sprache oder ohne Sprache, die in den Schritten S72 und S73 durchgeführt wird, relevant ist.
Wenn diese Verarbeitung begonnen wird, wird zuerst eine Variable f, die einen Zählwert der Anzahl von Datenblöcken angibt, auf 0 initialisiert (Schritt S81).
Nachdem die Variable f inkrementiert ist (Schritt S82), wird ein Pegel der Datenblockenergie e(f) gemäß einer dargestellten Formel berechnet (Schritt s83). In der Formel bedeutet s(i) ein Eingangssignal des (i – 1)-ten Abtastwerts aus einem Datenblock und N bedeutet die Anzahl von Datenblöcken, die eine Datei bilden.
Dann wird beurteilt, ob die Variable f 1 ist, das heißt ein zu verarbeitender Datenblock ein anfänglicher Datenblock ist, oder nicht (Schritt S84). Wenn die Variable f 1 ist, wird eine Variable min, die einen minimalen Pegel der Datenblockenergie angibt, auf e(1) gesetzt (Schritt S86).
Wenn in Schritt S84 festgestellt wird, dass die Variable f nicht 1 ist, wird beurteilt, ob der Pegel der Datenblockenergie e(f) kleiner ist als die Variable min oder nicht (Schritt S85). Wenn der Pegel der Datenblockenergie e(f) kleiner ist, wird die Variable min auf den Pegel der Datenblockenergie e(f) gesetzt (Schritt S87). Wenn der Pegel der Datenblockenergie e(f) im Gegenteil nicht kleiner ist, wird nichts getan, sondern die Steuerung wird an den nächsten Schritt S88 übergeben.
Dann wird beurteilt, ob die Datei zu Ende gegangen ist oder nicht (Schritt S88). Wenn die Datei nicht zu Ende gegangen ist, wird die Steuerung zu Schritt S82 zurückgeführt und die vorangehende Verarbeitung wird wiederholt.
Wenn in Schritt S88 beurteilt wird, dass die Datei zu Ende gegangen ist, wird ein Produkt der Variable min mit einem gegebenen Wert α (beispielsweise 1,8) als Schwellenwert trs festgelegt (Schritt S89). Die Verarbeitung wird dann verlassen.
Diese Prozedur zum Festlegen eines Schwellenwerts macht das meiste aus der Tatsache, dass Sprachdaten bereits aufgezeichnet sind. Da der Schwellenwert auf der Basis des minimalen Energiepegels der ganzen Datei festgelegt werden kann, kann eine Beurteilung mit Sprache oder ohne Sprache mit einem geringen Fehler erzielt werden.
Wie vorstehend beschrieben, werden Minimalwerte aller gelesenen Intervalle (das heißt, aller Datenblöcke, die eine Sprachdatei bilden) berechnet. Anstatt der Minimalwerte aller Intervalle genügt ein Minimalwert eines Intervalls mit einer bestimmten Länge.
Als nächstes stellt 21 einen Ablaufplan dar, der den Inhalt der Verstärkungsberechnung beschreibt, die in Schritt S74 in 19 durchgeführt werden soll.
Wenn diese Verarbeitung begonnen wird, werden eine Variable f, die einen Zählwert der Anzahl von Datenblöcken angibt, eine Variable SumAbs, die eine Summe von Absolutwerten von Abtastwerten angibt, und eine Variable Cnt, die die Anzahl von Additionen angibt, auf 0-en initialisiert (Schritt S91).
Die Variable f wird dann inkrementiert (Schritt S92). Es wird beurteilt, ob der Pegel der Datenblockenergie e(f), der innerhalb der in 20 beschriebenen Verarbeitung berechnet wird, größer ist als der Schwellenwert trs oder nicht (Schritt S93). Wenn der Pegel der Datenblockenergie e(f) größer ist als der Schwellenwert trs, wird die Summe von Absolutwerten von Abtastwerten von Datenblöcken zur Variable SumAbs addiert (Schritt S94) und die Variable Cnt wird inkrementiert (Schritt S95).
Wenn in Schritt S93 festgestellt wird, dass der Pegel der Datenblockenergie e(f) gleich dem oder kleiner als der Schwellenwert ist, wird die Steuerung an den nächsten Schritt S96 übergeben.
Anschließend wird beurteilt, ob die Datei zu Ende gegangen ist oder nicht (Schritt S96). Wenn die Datei nicht zu Ende gegangen ist, wird die Steuerung zu Schritt S92 zurückgeführt und die vorangehende Verarbeitung wird wiederholt.
Wenn in Schritt S96 beurteilt wird, dass die Datei zu Ende gegangen ist, wird die Variable SumAbs durch die Variable Cnt dividiert, um einen Mittelwert average der Absolutwerte der Abtastwerte von Datenblöcken zu berechnen (Schritt S97).
Ein gegebener Wert LEV wird durch den Mittelwert average dividiert, um eine Verstärkung gain zu berechnen (Schritt S98). Hierbei wird der gegebene Wert LEV auf den Mittelwert der vorhergesagten Absolutwerte von Abtastwerten gesetzt. Ein Mittelwert von Absolutwerten von Sprachabtastwerten, die zum Lernen von Sprachdaten durch eine Spracherkennungsvorrichtung verwendet werden, wird beispielsweise verwendet.
Gemäß dem dritten Ausführungsbeispiel können bereits aufgezeichnete Sprachdaten auf einen Schallpegel eingestellt werden, der sich zur Spracherkennung eignet. Die Spracherkennung kann daher auf einer stabilen Basis ungeachtet eines Schallpegels von aufgezeichneten Sprachdaten ausgeführt werden. Dies führt zu einem Diktiersystem mit hoher Qualität.
Bei dieser Erfindung ist ersichtlich, dass ein breiter Bereich von verschiedenen Arbeitsweisen auf der Basis der Erfindung ohne Abweichung vom Schutzbereich der Erfindung geschaffen werden kann.

Claims

Aufzeichnungsmedium (7) mit einem darin aufgezeichneten Spracherkennungsprogramm, wobei das Spracherkennungsprogramm ein Computerprogrammcodemittel umfasst, das dazu ausgelegt ist, die folgenden Schritte durchzuführen, wenn man das Programm auf einem Computer (1) laufen lässt: Lesen von Sprachdaten von einem Sprachdaten-Aufzeichnungsmedium (10), auf dem die Sprachdaten aufgezeichnet sind; gekennzeichnet durch: in bestimmten Zeitintervallen seit dem Beginn der Sprachdaten, Durchführen einer Spracherkennung bei nur einer festgelegten Anzahl von Worten, Umwandeln derselben in Textdaten; und Anzeigen der Textdaten.
Aufzeichnungsmedium nach Anspruch 1, wobei die auf dem Sprachdaten-Aufzeichnungsmedium aufgezeichneten Sprachdaten komprimierte digitale Sprachdaten sind.
Spracherkennungsvorrichtung (1) zum Erkennen von Sprache, mit: einem Sprachdaten-Lesemittel (8) zum Lesen von Sprachdaten von einem Sprachdaten-Aufzeichnungsmedium (10), auf dem die Sprachdaten aufgezeichnet sind; einem Spracherkennungsmittel (1a) zum Erkennen von Sprache, die durch die Sprachdaten dargestellt wird, und zum Umwandeln derselben in Textdaten; und einem Anzeigemittel (11) zum Anzeigen der Textdaten; dadurch gekennzeichnet, dass das Spracherkennungsmittel (1a) nur eine bestimmte Anzahl von Worten seit dem Beginn der Sprachdaten in festgelegten Zeitintervallen einer Spracherkennung unterzieht und sie in Textdaten umwandelt.
Spracherkennungsvorrichtung nach Anspruch 3, wobei die auf dem Sprachdaten-Aufzeichnungsmedium aufgezeichneten Sprachdaten komprimierte digitale Sprachdaten sind.
Spracherkennungsvorrichtung nach Anspruch 3, wobei die Spracherkennungsvorrichtung einen Anschluss umfasst, der den Anschluss des Sprachdaten-Aufzeichnungsmediums ermöglicht.
Spracherkennungsvorrichtung nach Anspruch 5, wobei das Sprachdaten-Aufzeichnungsmedium über einen Adapter an den Anschluss angeschlossen wird.
Aufzeichnungsmedium nach Anspruch 1 oder 2, wobei in einer weiteren Spracherkennungs-Programmprozedur mit einer Spracherkennung einer bestimmten Anzahl von Worten an einer festgelegten Stelle auf dem Sprachdaten-Aufzeichnungsmedium begonnen wird.
Spracherkennungsvorrichtung nach Anspruch 3 oder 4, wobei in einer weiteren Spracherkennungs-Programmprozedur des Spracherkennungsmittels mit einer Spracherkennung einer bestimmten Anzahl von Worten an einer festgelegten Stelle auf dem Sprachdaten-Aufzeichnungsmedium begonnen wird.