-
HINTERGRUND DER ERFINDUNG
-
1. Gebiet der Erfindung
-
Die
vorliegende Erfindung betrifft eine Spracherkennungsvorrichtung
und ein Aufzeichnungsmedium mit einem darauf aufgezeichneten Spracherkennungsprogramm.
Insbesondere betrifft diese Erfindung eine Spracherkennungsvorrichtung
zum Erkennen von Sprachdaten und ein Aufzeichnungsmedium, auf dem
ein Spracherkennungsprogramm, das bewirkt, dass ein Computer Sprachdaten
erkennt, aufgezeichnet ist.
-
2. Beschreibung des Standes
der Technik
-
In
den letzten Jahren wurde die Forschung und Entwicklung bezüglich einer
Spracherkennungstechnologie ernsthaft betrieben. Ein technologisches
Mittel, das in der Lage ist, Sprache in Echtzeit zu erkennen, wurde
vorgeschlagen. Diese Art von Technologie wurde an verschiedene Arten
von Produkten oder Verwendungen, beispielsweise Reservierung von
Tickets per Telefon oder Sprachbefehlsgabe innerhalb einer Autonavigation,
angepasst.
-
Zusammen
mit einem jüngeren
Durchbruch in der Spracherkennungstechnologie und einer Verbesserung
der Leistung von Personalcomputern wurde eine Technologie zum Dokumentieren
einer Spracheingabe über
ein mit einem Personalcomputer verbundenes Mikrophon durch Erkennen
der Sprache innerhalb einer Anwendungssoftware, die auf dem Personalcomputer
läuft,
und zum Anzeigen des Dokuments, entwickelt.
-
Ein
Beispiel eines Softwarepakets, das Spracherkennung ermöglicht,
ist ein Produkt "Voice
Type 3.0 für
Windows 95", das
vor kurzem von IMB Ltd. auf den Markt gebracht wurde. Dieses Produkt
wandelt eine Spracheingabe über
ein Mikrophon in Textdaten in Echtzeit um und weist eine beträchtlich
hohe Erkennungsrate auf.
-
Die
Anwendungssoftware ermöglicht
jedoch eine Echtzeiteingabe über
ein Mikrophon, das nur ein Mittel zum Eingeben von Sprachdaten ist.
Eine bereits existierende Sprachdatei kann nicht direkt erkannt
werden.
-
Eine
Aufgabe der Entwicklung der vorstehend genannten Spracherkennungstechnologie
besteht darin, ein sogenanntes Sprachtextverarbeitungssystem oder
ein Diktiersystem zum automatischen Erzeugen eines Dokuments auf
der Basis von Sprachdaten, die durch Vornahme eines Diktats eingegeben
werden, und zum Anzeigen des Dokuments auf einem Bildschirm oder
dergleichen zu realisieren.
-
Ein üblicherweise
aufgegriffenes Mittel ist derart, dass, wenn der Inhalt eines zu
erzeugenden Dokuments diktiert und von einer Aufzeichnungsvorrichtung
wie z.B. einer Bandaufzeichnungsvorrichtung vorübergehend aufgezeichnet wird,
eine Sekretärin,
eine Schreibkraft oder dergleichen den diktierten Inhalt reproduziert
und ihn unter Verwendung einer Dokumentationsvorrichtung wie z.B.
einer Schreibmaschine, eines Textverarbeitungssystems oder dergleichen
dokumentiert. Dieser Stil wurde im Allgemeinen als eine Form der
effektiven Nutzung der Aufzeichnungsvorrichtung wie z.B. einer Bandaufzeichnungsvorrichtung
aufgegriffen.
-
Hinsichtlich
einer solchen Diktataufzeichnung war in der Vergangenheit ein Verfahren
zum Anhängen einer
Indexmarkierung oder Endmarkierung an Sprachdaten, um einer Sekretärin oder
Schreibkraft Anweisungen zu geben, bekannt. Gemäß einem Stand der Technik zum
Anhängen
einer solchen Markierung wird ein gewünschter Bereich von Sprachdaten
nicht als Intervall festgelegt, sondern ein festgelegter Bereich
von Sprachdaten wird als Punkt festgelegt.
-
Bei
der vorangehenden Form der Verwendung, bei der eine Aufzeichnungsvorrichtung
zum Diktieren verwendet wird, wurde das Aufkommen einer Technologie
zum automatischen Umwandeln des Inhalts einer Aufzeichnung in ein
Dokument in der Vergangenheit stark gefordert.
-
Beim
aktuellen Diktieren kann ein Wort, das für den zu informierenden Inhalt
irrelevant ist, enthalten sein. Wenn beispielsweise geschriebene
Sätze rezitiert
werden, kann ein falsch geäußertes Wort
oder ein Wort ohne Bedeutung wie z.B. "Ah" oder "Gut" (nachstehend ein
unnötiges
Wort) enthalten sein (in einigen Fällen häufig).
-
In
diesem Fall verschlechtert sich die Leistung der Spracherkennung.
Dies führt
zu einem Nachteil, dass ein auf einem Bildschirm angezeigtes Dokument
viele Fehler enthält.
Eine Technologie zum Konstruieren eines Diktiersystems, indem die
obigen unnötigen
Worte berücksichtigt
werden und Sprachmodelle erzeugt werden, die alle Worte, einschließlich der
unnötigen
Worte, erfassen und die dazu vorgesehen sind, zur Spracherkennung
verwendet zu werden, wurde in der Vergangenheit vorgeschlagen.
-
Gemäß JP-A-7005893
wird beispielsweise eine Spracherkennungsvorrichtung bereitgestellt,
die umfasst: ein Standardmuster-Speichermittel zum Speichern von
Standardmustern; ein Speichermittel für unnötige Wortmuster zum Speichern
von Mustern von unnötigen
Worten; ein Wortentdeckungsmittel zum Entdecken als Wort oder zur
Wortentdeckung eines Standardmusters, das im Standardmuster-Speichermittel
gespeichert ist, oder eines Musters eines unnötigen Worts, das im Speichermittel
für unnötige Wortmuster
gespeichert ist, auf der Basis von Eingangssprache und zum Ausgeben
eines entsprechenden Intervalls und Punktwerts; ein Erzeugungsmittel
zum hypothetischen Annehmen des Inhalts von geäußerter Sprache und zum Erzeugen
einer Darstellung der Bedeutung; und ein Analysemittel zum Analysieren
des Ergebnisses der Wortentdeckung, die vom Wortentdeckungsmittel
durchgeführt
wird, auf der Basis der Darstellung der Bedeutung der vom Erzeugungsmittel
erzeugten Hypothese. Das Analysemittel ordnet einen Punktwert, der
sich aus der Wortentdeckung ergibt, die am Muster eines unnötigen Worts
durchgeführt
wird, restlichen Intervallen, von welchen entsprechende Standardmuster
oder Muster eines unnötigen
Worts nicht hinsichtlich Worten entdeckt wurden, unter allen Intervallen
von Datenelementen, die die Sprache bilden, zu. Das Ergebnis der
Wortentdeckung, die vom Wortentdeckungsmittel durchgeführt wird,
wird dann analysiert.
-
Die
in JP-A-7005893 beschriebene Spracherkennungsvorrichtung hat jedoch
eine Schwierigkeit beim Ausführen
einer praktischen Verarbeitung innerhalb eines existierenden Computers
(insbesondere eines Computers auf Personalniveau), da die Datengröße von Sprachmodellen
enorm wird.
-
Unter
Verwendung eines derzeit kommerzialisierten Produkts muss ein Sprecher
vorsichtig sein, dass er kein unnötiges Wort oder dergleichen äußert, und
kann daher nur Unbeholfenheit spüren.
-
Zum
Verbessern der Leistung der Spracherkennung ist es erforderlich,
dass der Schallpegel der Eingangssprache zweckmäßig ist. Derzeit ist es schwierig,
eine hohe Erkennungsrate über
einen breiten Bereich von Schallpegeln von einem niedrigen Pegel
bis zu einem hohen Pegel zu garantieren. Daher ist ein System dazu
ausgelegt, eine maximale Erkennungsrate relativ zu einem mittleren
Schallpegel von Sprache bereitzustellen.
-
In
einer Spracherkennungsvorrichtung mit einer Betriebsart, in der
Sprache über
ein Mikrophon eingegeben wird, wie vorstehend erwähnt, wird
ein Schallpegelmesser zum Anzeigen eines Schallpegels von Sprache
beispielsweise auf einem Bildschirm oder dergleichen angezeigt,
so dass ein Sprecher selbst seinen Schallpegel von Sprache zweckmäßig handhaben
kann.
-
Als
Beispiel eines Ausführungsbeispiels
dieser Technologie ist eine Schalldruckpegel-Anzeige für eine Spracherkennungsvorrichtung
mit einem ersten Schallempfänger
zum Empfangen eines Sprachsignals, einem zweiten Schallempfänger zum
Empfangen eines Geräuschs,
dessen Pegel nahe jenem des vom ersten Schallempfänger empfangenen
Sprachsignals liegt, einem Schalldruckpegel-Verhältnisberechnungsmittel zum
Berechnen eines Verhältnisses
eines Schalldruckpegels eines in den ersten Schallempfänger eingegebenen
Sprachsignals zu einem Verhältnis
eines Schalldruckpegels eines in den zweiten Schallempfänger eingegebenen
Geräuschs
und einem Anzeigemittel zum Anzeigen des Verhältnisses der Schalldruckpegel,
die vom Schalldruckpegel- Verhältnisberechungsmittel
berechnet werden, in JP-A-5231922 beschrieben.
-
Es
ist jedoch für
einen Sprecher lästig,
seine eigene Sprache so zu handhaben, dass der Schallpegel zweckmäßig wird.
Daher besteht ein zunehmender Bedarf für eine benutzerfreundliche
Spracherkennungsvorrichtung. Da der Schallpegel von Eingangssprache
nicht unter Verwendung von bereits aufgezeichneten Sprachdaten erfasst
werden kann, kann die in JP-A-5231922 offenbarte Technologie nicht
so, wie sie ist, angepasst werden. Es kann nicht beurteilt werden,
ob der Schallpegel von Sprachdaten für die Spracherkennung geeignet
ist oder nicht. Da die Schalldruckpegel-Anzeige außerdem nicht
mit einer Einrichtung zum selbständigen
Einstellen eines Schallpegels von Sprache versehen ist, kann sich
die Spracherkennungsrate in Abhängigkeit
von einem durch aufgezeichnete Sprachdaten angezeigten Schallpegel
abrupt ändern.
-
EP 0 649 144 A1 offenbart
ein Verfahren zum Erkennen von Sprache, die vorher aufgezeichnet
wurde, und um den spracherkannten Text mit einem geschriebenen Originaltext
zu korrelieren (indizieren). Dadurch wird die aufgezeichnete Sprache
mit dem verwendeten Textmanuskript z.B. für Videoclips synchronisiert.
-
Die
Spracherkennungsvorrichtung von
EP 0 750 291 A1 behandelt das Problem des
korrekten Erkennens des Beginns und Endes von Sprache, die Teile
von aufgezeichneter Sprache enthält.
Ein Hintergrundgeräusch
wird erfasst und analysiert, um einen Schwellenwert zur Geräuschunterdrückung zweckmäßig festzulegen.
-
"Improved Correction
of Speech Recognition Errors Through Audio Playback", IBM Technical Disclosure
Bulletin, Band 36, Nr. 6A, Juni 1993, Seiten 153–154, offenbart ein Verfahren,
um den Benutzer eines Spracherkennungssystems beim Identifizieren
von Erkennungsfehlern zu unterstützen.
-
AUFGABEN UND ZUSAMMENFASSUNG
DER ERFINDUNG
-
Die
erste Aufgabe der vorliegenden Erfindung besteht darin, eine Spracherkennungsvorrichtung
zum Erkennen von Sprache, die durch Sprachdaten dargestellt wird,
die auf einem gegebenen Aufzeichnungsmedium aufgezeichnet sind,
und ein Aufzeichnungsmedium, auf dem ein Spracherkennungsprogramm
aufgezeichnet ist, bereitzustellen, was beides einen schnellen Zugriff
auf den aufgezeichneten Inhalt ermöglicht.
-
Die
Erfindung ist in den Ansprüchen
1 bzw. 3 definiert.
-
Spezielle
Ausführungsbeispiele
der Erfindung sind in den abhängigen
Ansprüchen
dargelegt.
-
Kurz
gesagt umfasst eine erfindungsgemäße Spracherkennungsvorrichtung
zum Erkennen von Sprache innerhalb eines programmierten Computers
ein Sprachdaten-Lesemittel
zum Lesen von Sprachdaten von einem Sprachdaten-Aufzeichnungsmedium, auf dem die Sprachdaten
aufgezeichnet sind, ein Spracherkennungsmittel zum Erkennen von
Sprache, die durch die Sprachdaten dargestellt wird, um die Sprache
in Textdaten umzuwandeln, und ein Anzeigemittel zum Anzeigen der
Textdaten.
-
Ein
erfindungsgemäßes Aufzeichnungsmedium
mit einem darin aufgezeichneten Spracherkennungsprogramm wird verwendet,
um das Spracherkennungsprogramm auf einem Computer laufen zu lassen,
wodurch das Spracherkennungsprogramm bewirkt, dass der Computer
Sprachdaten von einem Sprachdaten-Aufzeichnungsmedium liest, auf dem die
Sprachdaten aufgezeichnet sind, Sprache erkennt, die durch die Sprachdaten
dargestellt wird, um die Sprache in Textdaten umzuwandeln, und die
Textdaten anzeigt.
-
Diese
Aufgabe und diese Vorteile der vorliegenden Erfindung werden aus
der folgenden detaillierten Erläuterung
weiter ersichtlich.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
Die
Ausführungsbeispiele
von 12 bis 21 sind
erläuternd
und bilden keinen Teil der beanspruchten Erfindung.
-
1 ist
ein Blockdiagramm, das schematisch die Konfiguration eines Computers
zeigt, der das erste Ausführungsbeispiel
einer Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung
ist;
-
2 ist
ein Ablaufplan, der das erste Beispiel (erste Spracherkennungsprogramm)
eines Spracherkennungsprogramms beschreibt, das auf einem erfindungsgemäßen Aufzeichnungsmedium,
auf dem das Spracherkennungsprogramm aufgezeichnet ist, aufgezeichnet
ist und auf dem ersten Ausführungsbeispiel läuft;
-
3 ist
ein Diagramm, das ein Beispiel einer Anzeige, die erscheint, wenn
eine Spracherkennungs-Anwendungssoftware,
die vom ersten Aufzeichnungsmedium gelesen wird, im Computer des
ersten Ausführungsbeispiels
aktiviert wird, oder eines Hauptbildschirms, der zum Wiedergeben
von komprimierten Sprachdaten verwendet wird, zeigt;
-
4 ist
ein Diagramm, das ein Beispiel eines Bildschirms zeigt, auf dem
Textdaten angezeigt werden, wenn die Spracherkennungs-Anwendungssoftware,
die vom ersten Aufzeichnungsmedium gelesen wird, im Computer des
ersten Ausführungsbeispiels
aktiviert wird;
-
5 ist
ein Diagramm, das ein Beispiel eines Dialogkästchen-Bildschirms zeigt, der
verwendet wird, um ein Zeitintervall zwischen Spracherkennungen
und die Anzahl von angezeigten Worten festzulegen, wenn eine gegebene
Anzahl von Worten in gegebenen Zeitintervallen seit dem Beginn einer
Datei, die einer Spracherkennung unterzogen wird, erkannt werden,
nachdem die Spracherkennungs-Anwendungssoftware,
die vom ersten Aufzeichnungsmedium gelesen wird, im Computer des
ersten Ausführungsbeispiels
aktiviert wird;
-
6 ist
ein Diagramm, das ein Beispiel eines Bildschirms zeigt, auf dem
eine gegebene Anzahl von Worten, die in gegebenen Zeitintervallen
seit dem Beginn einer Datei, die einer Spracherkennung unterzogen wird,
erkannt werden, nachdem die Spracherkennungs-Anwendungssoftware,
die vom ersten Aufzeichnungsmedium gelesen wird, im Computer des
ersten Ausführungsbeispiels
aktiviert wird, angezeigt wird;
-
7 ist
ein Ablaufplan, der ein zweites Beispiel (zweites Spracherkennungsprogramm)
eines Spracherkennungsprogramms beschreibt, das auf einem erfindungsgemäßen Aufzeichnungsmedium,
auf dem das Spracherkennungsprogramm aufgezeichnet ist, aufgezeichnet
ist und beim ersten Ausführungsbeispiel
abläuft;
-
8 ist
ein Ablaufplan, der ein drittes Beispiel (drittes Spracherkennungsprogramm)
eines Spracherkennungsprogramms beschreibt, das auf einem Aufzeichnungsmedium,
auf dem das Spracherkennungsprogramm aufgezeichnet ist, aufgezeichnet
ist und beim ersten Ausführungsbeispiel
abläuft;
-
9 ist
ein Diagramm, das ein Beispiel eines Dialogkästchen-Bildschirms zeigt, der
verwendet wird, um ein zur Spracherkennung abzurufendes Wort festzulegen,
wenn nur ein Wort, das in Sprache erkannt werden muss und in einer
sprachkomprimierten Datei enthalten ist, in Sprache erkannt wird,
nachdem die Spracherkennungs-Anwendungssoftware,
die vom ersten Aufzeichnungsmedium gelesen wird, im Computer des ersten
Ausführungsbeispiels
aktiviert wird;
-
10 ist
ein Ablaufplan, der ein viertes Beispiel (viertes Spracherkennungsprogramm)
eines Spracherkennungsprogramms zeigt, das auf einem Aufzeichnungsmedium
aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet
ist, und beim ersten Ausführungsbeispiel
abläuft;
-
11 ist
ein Ablaufplan, der ein fünftes
Beispiel (fünftes
Spracherkennungsprogramm) eines Spracherkennungsprogramm beschreibt,
das auf einem Aufzeichnungsmedium aufgezeichnet ist, auf dem das Spracherkennungsprogramm
aufgezeichnet ist, und beim ersten Ausführungsbeispiel abläuft;
-
12 ist
ein konzeptionelles Diagramm, das die Gesamtkonfiguration eines
Diktiersystems des zweiten Ausführungsbeispiels
zeigt;
-
13 ist
ein Blockdiagramm, das die elektrische Konfiguration einer digitalen
Aufzeichnungsvorrichtung des zweiten Ausführungsbeispiels zeigt;
-
14 ist
ein Diagramm, das eine Szene zeigt, bei der eine Kontrollzeichentaste
der digitalen Aufzeichnungsvorrichtung während des Diktierens im zweiten
Ausführungsbeispiel
betätigt
wird;
-
15 ist
ein Diagramm, das das in einem Sprachspeicher einer Miniaturkarte
mittels der digitalen Aufzeichnungsvorrichtung des zweiten Ausführungsbeispiels
aufzuzeichnende Datenformat zeigt;
-
16 ist
ein Blockdiagramm, das die elektrische Konfiguration eines Personalcomputers
des zweiten Ausführungsbeispiels
zeigt;
-
17 ist
ein Ablaufplan, der eine Spracherkennung beschreibt, die im Personalcomputer
des zweiten Ausführungsbeispiels
ausgeführt
wird;
-
18 ist
ein Diagramm, das den gesamten Ablauf des Lesens von Sprachdaten
aus einem Sprachspeicher und des Erkennens von Sprache, was vom
Diktiersystem des dritten Ausführungsbeispiels
ausgeführt
wird, zeigt;
-
19 ist
ein Ablaufplan, der eine Spracherkennung beschreibt, die von einem
Diktiersystem des dritten Ausführungsbeispiels
ausgeführt
wird;
-
20 ist
ein Ablaufplan, der den Inhalt der Verarbeitung beschreibt, die
für die
Beurteilung von mit Sprache oder ohne Sprache relevant ist, die
in 19 kurz dargestellt ist; und
-
21 ist
ein Ablaufplan, der den Inhalt einer Verstärkungsberechnung beschreibt,
die in 19 kurz zusammengefaßt ist.
-
BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
-
Mit
Bezug auf die Zeichnungen werden nachstehend Ausführungsbeispiele
der vorliegenden Erfindung beschrieben.
-
1 ist
ein Blockdiagramm, das schematisch die Konfiguration eines Computers
zeigt, der das erste Ausführungsbeispiel
einer erfindungsgemäßen Spracherkennungsvorrichtung
darstellt.
-
Ein
Computer 1 besteht, wie in 1 gezeigt,
hauptsächlich
aus: einer Zentralverarbeitungseinheit (CPU) 1a, die für die Steuerung
des ganzen Computers 1 verantwortlich ist; einer ersten
Eingabeeinheit 5, in die ein externes Aufzeichnungsmedium
(erstes Aufzeichnungsmedium 7), auf dem ein gegebenes Programm aufgezeichnet
ist, frei eingesetzt werden kann; einem in die erste Eingabeeinheit 5 integrierten
ersten Aufzeichnungsmediumstreiber 6 zum Lesen eines gegebenen
Programms vom ersten Aufzeichnungsmedium 7 unter der Steuerung
der CPU 1a, wenn das erste Aufzeichnungsmedium 7 in
die erste Eingabeeinheit 5 eingesetzt ist; einer zweiten
Eingabe/Ausgabe-Einheit 8, in die ein externes Aufzeichnungsmedium
(zweites Aufzeichnungsmedium 10), auf dem gegebene Sprachdaten
aufgezeichnet sind, frei eingesetzt werden kann; einem in die zweite
Eingabe/Ausgabe-Einheit 8 integrierten zweiten Aufzeichnungsmediumstreiber 9 zum
Lesen von gegebenen Sprachdaten und Schreiben von gegebenen Daten
von dem und in das zweite Aufzeichnungsmedium 10 unter
der Steuerung der CPU 1a, wenn das zweite Aufzeichnungsmedium 10 in
die zweiten Eingabe/Ausgabe-Einheit 8 eingesetzt ist; einer
Operationseinheit 2 zum Eingeben eines von einem Benutzer
eingegebenen gegebenen Befehls; einer Anzeigeeinheit 3,
die als Anzeigemittel zum Anzeigen von gegebenen Daten dient, nachdem
eine gegebene Verarbeitung durch die CPU 1a ausgeführt wird;
und einer Sprachausgabeeinheit 4 zum Ausgeben von erzeugter
Sprache, nachdem eine gegebene Verarbeitung von der CPU 1a ausgeführt wird.
-
Der
Computer 1 ist dazu ausgelegt, den Betrieb eines Betriebssystems
(OS) zu ermöglichen,
das in der Lage ist, eine Vielzahl von Anwendungssoftware gleichzeitig
auszuführen
(Multitasking). Nachstehend wird eine Beschreibung unter der Annahme
durchgeführt,
dass das OS im Computer 1 installiert ist.
-
Das
erste Aufzeichnungsmedium 7 ist ein Aufzeichnungsmedium,
auf dem ein gegebenes Spracherkennungsprogramm aufgezeichnet ist.
Bei diesem Ausführungsbeispiel
stellt man sich beispielsweise ein tragbares Aufzeichnungsmedium
wie z.B. einen CD-ROM oder eine Diskette als Aufzeichnungsmedium
vor.
-
Überdies
ist das zweite Aufzeichnungsmedium 10 ein Sprachdaten-Aufzeichnungsmedium,
auf dem gegebene Sprachdaten aufgezeichnet werden. Das zweite Aufzeichnungsmedium 10 wird
nachstehend beschrieben.
-
Das
zweite Aufzeichnungsmedium 10 ist ein Aufzeichnungsmedium,
auf dem Sprachdaten, die durch eine externe Halbleiter-Aufzeichnungsvorrichtung
erfasst werden, aufgezeichnet werden. Bei diesem Ausführungsbeispiel
stellt man sich ein kartenförmiges
Aufzeichnungsmedium, das ein Flashspeicher ist, vor.
-
In
den letzten Jahren bestand ein zunehmender Bedarf für einen
Flashspeicher. Digitale Halbleiter-Aufzeichnungsvorrichtungen unter Verwendung
des Flashspeichers als Aufzeichnungsmedium wurden kommerzialisiert.
Der Flashspeicher ist in vielen Arten von kartenförmigen Aufzeichnungsmedien
bekannt. Eine Speicherkarte, die an den PCMCIA-Standard anpassbar
ist, eine Miniaturkarte, die von Intel Corp. hergestellt wird, eine
SSDFC, die von Toshiba Co., Ltd. hergestellt wird, und ein kompakter
Flashspeicher, der von SunDis Co., Ltd. hergestellt wird, sind beispielsweise
bekannt.
-
Im
Allgemeinen werden diese kartenförmigen
Flashspeicher mit einem Personalcomputer über einen Adapter oder dergleichen
verbunden und sind zur Übertragung
gegebener Daten in der Lage. Viele der existierenden kartenförmigen Speicher
weisen eine Speicherkapazität
auf, die von 2 M Bytes bis 8 M Bytes reicht. Überdies umfassen die derzeit
auf dem Markt befindlichen digitalen Halbleiter-Aufzeichnungsvorrichtungen diejenigen,
die in der Lage sind, Ton auf einer Karte mit einer Speicherkapazität von 2
M Bytes für
20 min. bis 40 min. aufzuzeichnen.
-
Die
Halbleiter-Aufzeichnungsvorrichtungen wandeln ein analoges Signal,
das über
ein Mikrophon eingegeben wird, in digitale PCM-Daten um, die impulscodemodulierte
digitale Daten oder dergleichen sind, komprimieren PCM-Daten gemäß einem
Algorithmus zum Codieren auf der Basis von ADPCM oder CELP und zeichnen
komprimierte Daten auf einer Flashspeicherkarte auf. Die so aufgezeichneten
Daten können
von einem Personalcomputer über
einen Adapter direkt gelesen werden.
-
Der
Computer 1 dieses Ausführungsbeispiels
liest Sprachdaten von der Flashspeicherkarte (zweites Aufzeichnungsmedium 10),
die wie vorstehend erwähnt
angebracht wird.
-
Als
nächstes
wird eine Spracherkennungsoperation zum Erkennen von Sprache, die
durch Sprachdaten dargestellt wird, welche vom Computer 1 ausgeführt wird,
beschrieben.
-
Anfangs
setzt ein Benutzer ein Aufzeichnungsmedium (erstes Aufzeichnungsmedium 7),
auf dem ein gegebenes Spracherkennungsprogramm aufgezeichnet ist,
in die erste Eingabeeinheit 5 des Computers 1 ein. Der
Computer 1 liest ein gegebenes Spracherkennungsprogramm,
das eine Anwendungssoftware ist, mittels des ersten Aufzeichnungsmediumstreibers 6 vom
angeschlossenen ersten Aufzeichnungsmedium 7 in einen internen
Speicher, der nicht dargestellt ist. Dies bewirkt, dass die CPU 1a eine
Spracherkennungsoperation gemäß dem Programm
steuert.
-
Nun
wird die gemäß dem Spracherkennungsprogramm
auszuführende
Spracherkennungsoperation beschrieben.
-
2 ist
ein Ablaufplan, der das erste Beispiel (erste Spracherkennungsprogramm)
eines Spracherkennungsprogramms beschreibt, das auf dem erfindungsgemäßen Aufzeichnungsmedium
aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet
ist.
-
Wenn
das zweite Aufzeichnungsmedium 10 in den Computer 1 eingesetzt
ist, liest die CPU 1a Sprachdaten von einer sprachkomprimierten
Datei, die Sprachdaten enthält,
die durch eine externe Halbleiter-Aufzeichnungsvorrichtung komprimiert
und aufgezeichnet wurden (Schritt S1). Das erste Spracherkennungsprogramm
dehnt komprimierte Sprachdaten in PCM-Daten, indem es einem Kompressionsalgorithmus,
gemäß dem Daten
durch die Halbleiter-Aufzeichnungsvorrichtung aufgezeichnet werden,
umgekehrt folgt (Schritt S2). Mit anderen Worten, diese Verarbeitung,
die zur Wiedergabe, die von der Halbleiter-Aufzeichnungsvorrichtung durchgeführt wird,
identisch ist, wird vom Computer 1 ausgeführt, der
vom ersten Spracherkennungsprogramm gesteuert wird.
-
Die
in Schritt S2 gedehnten PCM-Daten werden einer Spracherkennung unterzogen
(Schritt S3). Die spracherkannten Daten oder hinsichtlich Sprache
erkannten Daten werden in Textdaten umgewandelt (Schritt S4) und
die umgewandelten Textdaten werden auf einer Anzeige (Anzeigeeinheit 3)
angezeigt (Schritt S5). Diese Verarbeitung wird fortgesetzt, bis
die spracherkannten Daten zu Ende gehen (Schritt S6).
-
3 zeigt
ein Beispiel einer Anzeige, die erscheint, wenn die vom ersten Aufzeichnungsmedium 7 gelesene
Spracherkennungs-Anwendungssoftware im Computer 1 dieses Ausführungsbeispiels
aktiviert wird, oder eines Hauptbildschirms, der zum Wiedergeben
von Sprachdaten verwendet wird, die komprimierte Daten, die Sprache
darstellen, sind.
-
3 zeigt
einen Hauptbildschirm 11, auf dem: eine Menüleiste 12,
die zum Auswählen
von einer mit einer Datei in Beziehung stehenden Bearbeitung oder
einer mit einer Aufbereitung in Beziehung stehenden Bearbeitung
verwendet wird; eine Werkzeugschaltflächenleiste 13, die
leicht unterscheidbar verschiedene Arten von Bearbeitung in Form
von Bildsymbolen darstellt; ein Sprachdatei-Listenkästchen 14,
das eine Liste von Informationen wie z.B. Namen von Sprachdateien,
die vom zweiten Aufzeichnungsmedium 10 übertragen werden, Aufzeichnungszeiten,
Aufzeichnungsdaten und Prioritäten
anzeigt und in dem eine Sprachdatei, deren Daten wiedergegeben oder
spracherkannt werden, im Gegensatz zu den anderen Sprachdateien
hervorgehoben ist; und eine Wiedergabesteuerung 18, die
verwendet wird, um eine Verarbeitung wie z.B. Wiedergabe, Stop,
schneller Vorlauf oder schneller Rücklauf auszuführen, angezeigt
sind.
-
Die
Werkzeugschaltflächenleiste 13 ist
mit einer Spracherkennungswerkzeug-Schaltflächengruppe 21 versehen,
die aus einer Spracherkennungs-Startschaltfläche 22, einer Worterkennungs-Schaltfläche 23 und einer
Listenanzeige-Schaltfläche 24 besteht.
-
Überdies
ist die Wiedergabesteuerung 18 mit einem Indikatorschieber 15 für die aktuelle
Wiedergabeposition, Linien 16 und einer Indexsuch-Schaltfläche 17 versehen.
-
Auf
dem in 3 gezeigten Hauptbildschirm 11 wird,
wenn die Spracherkennungs-Startschaltfläche 22, die zur Spracherkennungswerkzeug-Schaltflächengruppe 21 gehört, die
in der Werkzeugschaltflächenleiste 13 enthalten
ist, gedrückt
wird, die Spracherkennung einer Sprachdatei, die im Sprachdatei-Listenkästchen 14 hervorgehoben
ist, gestartet. Ein Texteditor, der in 4 gezeigt
ist, wird hochgefahren. Erkannte Sprachdaten werden als serielle
Textdaten auf dem Editorbildschirm angezeigt.
-
Als
nächstes
wird eine Verarbeitungsoperation zur Erkennung einer gegebenen Anzahl
von Worten in gegebenen Zeitintervallen seit dem Beginn einer Datei,
die einer Spracherkennung unterzogen wird, und zum Anzeigen einer
Liste der Worte beschrieben.
-
Die
Listenanzeige-Schaltfläche 24,
die zur Spracherkennungswerkzeug-Schaltflächengruppe 21 gehört, ist
eine Schaltfläche,
die zum Erkennen einer bestimmten Anzahl von Worten in bestimmten
Zeitintervallen seit dem Beginn einer Datei, die einer Spracherkennung
unterzogen wird, und zum Anzeigen der Worte in Form einer Liste
verwendet wird.
-
Wenn
die Listenanzeige-Schaltfläche 24 gedrückt wird,
erscheint ein in 5 gezeigtes Dialogkästchen.
Ein Benutzer wird aufgefordert, die Festlegung einer Zeit in s,
in welchen Intervallen Worte seit dem Beginn einer Datei (einer
Spracherkennung unterzogenen Datei) erkannt werden, welche im Sprachdatei-Listenkästchen 14 hervorgehoben
ist, und die Festlegung der Anzahl von zu erkennenden und anzuzeigenden
Worten einzugeben. Wenn der Benutzer die Verarbeitung unterbrechen
will, drückt
er eine in 5 gezeigte Abbruchschaltfläche. Somit
kann die Steuerung an den in 3 gezeigten
Hauptbildschirm zurückgegeben
werden.
-
Wenn
der Benutzer die Festlegung des Zeitintervalls und die Festlegung
der Anzahl von zu erkennenden Worten eingibt und die Startschaltfläche drückt, wird
das in 5 gezeigte Dialogkästchen geschlossen und ein
in 6 gezeigtes Listenkästchen erscheint.
-
7 ist
ein Ablaufplan, der das zweite Beispiel (zweite Spracherkennungsprogramm)
eines Spracherkennungsprogramms beschreibt, das auf einem erfindungsgemäßen Aufzeichnungsmedium
aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet
ist. Hierbei wird eine Verarbeitungsoperation zum Erkennen einer
gegebenen Anzahl von Worten in bestimmten Zeitintervallen seit dem
Beginn einer Datei, die einer Spracherkennung unterzogen wird, und
zum Anzeigen der Worte in Form einer Liste beschrieben.
-
Insbesondere
wenn der Benutzer das Zeitintervall und die Anzahl von zu erkennenden
Worten festlegt und dann die Startschaltfläche drückt, werden Sprachdaten zuerst
von einer Datei gelesen, die einer Spracherkennung unterzogen wird
und die auf dem zweiten Aufzeichnungsmedium 10 aufgezeichnet
ist (Schritt S11). Das zweite Spracherkennungsprogramm dehnt die
komprimierten Sprachdaten auf dieselbe Weise wie das erste Spracherkennungsprogramm
(Schritt S12). Wenn ein Wort, das mit einem Zeitmoment zusammenfällt, in
dem die festgelegte Zeit abgelaufen ist, erfasst wird (Schritt S13),
werden gedehnte PCM-Daten, die mit dem Wort beginnen, spracherkannt
(Schritt S14).
-
Die
spracherkannten Daten werden in Textdaten umgewandelt (Schritt S15)
und die umgewandelten Textdaten werden, wie in 6 gezeigt,
durch die gegebene Anzahl von Worten auf der Anzeige (Anzeigeeinheit 3)
angezeigt. Im in 6 gezeigten Listenkästchen werden
insbesondere die Anzeige einer Wiedergabepositionszeit, die seit
dem Beginn der spracherkannten Datei vergangen ist, und die Anzeige
von Textdaten beginnend in der Wiedergabeposition nacheinander durch
die Anzahl von Worten, die in dem in 5 gezeigten
Dialogkästchen
festgelegt wird, ausgeführt.
Diese Verarbeitung wird beendet, wenn die Daten zu Ende gehen (Schritt
S17).
-
Als
nächstes
wird eine Verarbeitungsoperation zum Erkennen von Sprache, die an
einer bestimmten Position in einer Datei, die einer Spracherkennung
unterzogen wird, begonnen wird, beschrieben.
-
Wenn
die Wiedergabeposition, die durch den Indikatorschieber 15 für die aktuelle
Wiedergabeposition angezeigt wird, welcher auf dem in 3 gezeigten
Hauptbildschirm 11 angezeigt wird, geändert wird und wenn die Spracherkennungs-Startschaltfläche 22,
die zur Spracherkennungswerkzeug-Schaltflächengruppe 21 gehört, gedrückt wird,
wird die Spracherkennung in der geänderten Wiedergabeposition
begonnen. Das Ergebnis der Spracherkennung erscheint dann auf dem
in 4 gezeigten Texteditorbildschirm.
-
8 ist
ein Ablaufplan, der das dritte Beispiel (dritte Spracherkennungsprogramm)
eines Spracherkennungsprogramms beschreibt, das auf einem Aufzeichnungsmedium
aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet
ist, wobei eine Verarbeitungsoperation zum Starten einer Spracherkennung
an einer bestimmten Position in einer Datei, die einer Spracherkennung
unterzogen wird, und zum Anzeigen des Ergebnisses beschrieben wird.
-
Insbesondere
wenn ein Benutzer die Wiedergabeposition ändert, die durch den Indikatorschieber 15 für die aktuelle
Wiedergabeposition, der in 3 gezeigt
ist, angezeigt wird, werden Sprachdaten von einer Datei, die einer
Spracherkennung unterzogen wird, auf dem zweiten Aufzeichnungsmedium
gelesen (Schritt S21). Das dritte Spracherkennungsprogramm dehnt
komprimierte Sprachdaten auf dieselbe Weise wie das erste Spracherkennungsprogramm
(Schritt S22). Wenn ein Wort, das mit einer gegebenen Position zusammenfällt, erfasst
wird (Schritt S23), werden gedehnte PCM-Daten, die mit dem Wort
an der bestimmten Position beginnen, spracherkannt (Schritt S24).
-
Die
spracherkannten Daten werden in Textdaten umgewandelt (Schritt S25)
und die umgewandelten Textdaten werden auf der Anzeige (Anzeigeeinheit 3)
angezeigt (Schritt S26). Mit anderen Worten, Textdaten, die in der
gegebenen Position beginnen, die im in 4 gezeigten
Editorbildschirm festgelegt wird, werden angezeigt. Diese Verarbeitung
wird beendet, wenn die Daten zu Ende gehen.
-
Als
nächstes
wird eine Verarbeitungsoperation zur Spracherkennung eines gewünschten
Worts, das spracherkannt werden sollte, unter denjenigen, die in
einer Datei enthalten sind, die einer Spracherkennung unterzogen
wird, und zum Anzeigen der Positionen des gewünschten Worts beschrieben.
-
Die
Worterkennungs-Schaltfläche 23,
die zur in 3 gezeigten Spracherkennungswerkzeug-Schaltflächengruppe 21 gehört, ist
eine Schaltfläche
zur Verwendung bei der Spracherkennung eines gewünschten Worts, das spracherkannt
werden sollte, unter denjenigen, die in einer Datei enthalten sind,
die einer Spracherkennung unterzogen wird, und zum Anzeigen der
Positionen des gewünschten
Worts. Insbesondere wenn die Worterkennungs-Schaltfläche 23 gedrückt wird,
wird nur das Wort, das spracherkannt werden sollte, aus einer sprachkomprimierten
Datei abgerufen, indem eine Spracherkennung ausgeführt wird.
Abgerufene Stellen werden mit den Linien 16 im Indikatorschieber 15 für die aktuelle
Wiedergabeposition angezeigt, so dass sie auf Anhieb unterschieden
werden können.
Die Details werden nachstehend beschrieben.
-
Wenn
die Worterkennungs-Schaltfläche 23 gedrückt wird,
erscheint das in 9 gezeigte Dialogkästchen.
Mit dem Dialogkästchen
wird ein Benutzer aufgefordert, ein festgelegtes Wort einzugeben,
das erkannt werden sollte. Zum Unterbrechen dieser Verarbeitung
wird die Abbruchschaltfläche
gedrückt.
Die Verarbeitung wird dann verlassen und der in 3 gezeigte
Hauptbildschirm kehrt zurück.
-
10 ist
ein Ablaufplan, der das vierte Beispiel (vierte Spracherkennungsprogramm)
eines Spracherkennungsprogramms beschreibt, das auf einem Aufzeichnungsmedium
aufgezeichnet ist, auf dem das Spracherkennungsprogramm aufgezeichnet
ist, wobei eine Verarbeitungsoperation zur Spracherkennung gewünschter
Worte allein, die unter denjenigen, die in einer Datei enthalten
sind, die einer Spracherkennung unterzogen wird, spracherkannt werden
sollten, und zum Anzeigen der Positionen der gewünschten Worte beschrieben wird.
-
Insbesondere
nachdem ein gewünschtes
Wort, das erkannt werden sollte, auf dem in 9 gezeigten Bildschirm
durch einen Benutzer eingegeben wird, und wenn die Startschaltfläche gedrückt wird,
werden Sprachdaten von einer Datei, die einer Spracherkennung unterzogen
wird, auf dem zweiten Aufzeichnungsmedium gelesen (Schritt S31).
Das vierte Spracherkennungsprogramm dehnt komprimierte Sprachdaten
auf dieselbe Weise wie das erste Spracherkennungsprogramm (Schritt
S32). Die Spracherkennung wird dann am Beginn der ausgewählten sprachkomprimierten
Datei begonnen (Schritt S33).
-
Anschließend, wenn
das in das in 9 gezeigte Dialogkästchen eingetragene
Wort unter denjenigen erkannt wird, die in der Datei enthalten sind,
die der Spracherkennung unterzogen wird (Schritt S34), werden die
Positionen des Worts mit den Linien 16 im Indikatorschieber 15 für die aktuelle
Wiedergabeposition auf dem in 3 gezeigten
Hauptbildschirm 12 angezeigt. Eine Indexmarkierung wird
in ein Sprachdatenelement, das mit der Position zusammenfällt, eingefügt. Jedes
Mal, wenn die Indexsuch-Schaltfläche 17 in
der Wiedergabesteuerung 18 auf dem in 3 gezeigten
Hauptbildschirm 11 gedrückt
wird, wird die Steuerung nacheinander zu einer der mit den Linien 16 angegebenen
Positionen übersprungen
(Schritt S35 und Schritt S36). Diese Einrichtung kann nicht nur
für gültig erklärt werden,
wenn die Wiedergabe gestoppt ist, sondern auch wenn die Wiedergabe
in Gang ist.
-
Wenn
eine Spracherkennung, die das Ende der sprachkomprimierten Datei
beinhaltet, beendet ist, werden alle Positionen, an denen das eingetragene
Wort gefunden wird, mit den Linien 16 im Indikatorschieber 15 für die aktuelle
Wiedergabeposition anzeigt.
-
Diese
Verarbeitung wird beendet, wenn Daten zu Ende gehen (Schritt S37).
-
Als
nächstes
wird eine Verarbeitungsoperation zum Löschen eines Teils von Sprachdaten
entsprechend einem festgelegten Teil von Textdaten aus einer Datei,
die einer Spracherkennung unterzogen wird, beschrieben.
-
11 ist
ein Ablaufplan, der das fünfte
Beispiel (fünfte
Spracherkennungsprogramm) eines Spracherkennungsprogramms beschreibt,
das auf einem Aufzeichnungsmedium aufgezeichnet ist, auf dem das Spracherkennungsprogramm
aufgezeichnet ist, wobei eine Verarbeitungsoperation zum Löschen eines
Teils von Sprachdaten entsprechend einem festgelegten Teil von Textdaten
vom zweiten Aufzeichnungsmedium 10 beschrieben wird.
-
Zuerst
werden Sprachdaten von einer Datei, die einer Spracherkennung unterzogen
wird, auf dem zweiten Aufzeichnungsmedium 10 gelesen (Schritt
S41). Das fünfte
Spracherkennungsprogramm dehnt komprimierte Sprachdaten auf dieselbe
Weise wie das erste Spracherkennungsprogramm (Schritt S42). Die
gedehnten PCM-Daten werden spracherkannt (Schritt S43).
-
Die
spracherkannten Daten werden in Textdaten umgewandelt (Schritt S44).
Adressen auf dem zweiten Aufzeichnungsmedium 10, die Worten
zugeordnet sind, werden erfasst und dann aufgelistet (Schritt S45). Tabelle
1 gibt die Adressen auf dem zweiten Aufzeichnungsmedium 10 an,
die einem Beispiel von Textdaten "Der Himmel ist blau und der Ozean ist
auch blau" zugeordnet
sind.
-
-
Anschließend werden
die obigen Textdaten auf der Anzeige angezeigt gehalten, bis die
Daten zu Ende gehen (Schritt S46 und Schritt S47).
-
Wenn
die Daten zu Ende gehen, wird beurteilt, ob die Textdaten gelöscht werden
sollten oder nicht (Schritt S48). Wenn die Daten gelöscht werden
sollten, wird eine Löschposition
in den Textdaten festgelegt (Schritt S49). Adressen auf dem zweiten
Aufzeichnungsmedium 10, die der festgelegten Position zugeordnet sind,
werden aus Tabelle 1 abgerufen (Schritt S50).
-
Anschließend werden
Sprachdaten vom zweiten Aufzeichnungsmedium 10 gelesen
(Schritt S51) und gedehnt (Schritt S52). Der Teil der Sprachdaten,
der durch die Adressen festgelegt wird, wird gelöscht (Schritt S53). Anschließend werden
die Sprachdaten wieder komprimiert (Schritt S54) und dann überschrieben
(Schritt S55).
-
In
diesem Ausführungsbeispiel
werden Adressen so aufgelistet, dass eine Löschposition in Textdaten einer
Position auf dem zweiten Aufzeichnungsmedium zugeordnet werden kann.
Alternativ können
Zeiten, die seit dem Beginn einer Datei vergangen sind, in Form
einer Liste aufgezeichnet werden.
-
Gemäß dem Spracherkennungsprogramm
des ersten Ausführungsbeispiels,
das auf einem an einen Computer anzupassenden Aufzeichnungsmedium
aufgezeichnet ist, muss eine CPU üblicherweise eine große Verarbeitungsleistung
aufweisen, da, wenn eine Sprachausgabe über ein Mikrophon direkt erkannt
wird, die Spracherkennung in Echtzeit ausgeführt werden muss. Da jedoch
das Dehnen einer sprachkomprimierten Datei und eine Spracherkennung
lediglich wiederholt werden sollten, ergibt sich der Vorteil, dass
die Echtzeitverarbeitung nicht erforderlich ist und die CPU keine
große
Verarbeitungsleistung erbringen muss, ausgeübt.
-
Da
eine Echtzeitverarbeitung nicht erforderlich ist, besteht überdies
der Vorteil, dass ein Algorithmus, der eine Spracherkennung mit
hoher Präzision
ermöglicht,
erzeugt werden kann.
-
Da
der Inhalt eines Teils einer sprachkomprimierten Datei auf Anhieb
unterschieden werden kann, kann ferner das, was in welcher Wiedergabeposition
aufgezeichnet ist, umfassend erfasst werden.
-
Nur
ein Teil einer existierenden sprachkomprimierten Datei, die in Textdaten
umgewandelt werden sollte, kann spracherkannt werden.
-
Außerdem kann
die Steuerung spontan von einer existierenden sprachkomprimierten
Datei zur Position eines als Schlüsselwort dienenden Worts übersprungen
werden. Eine Position des Worts, das abgerufen werden sollte, kann
sofort erreicht werden.
-
Selbst
nachdem Daten aufgezeichnet sind, verbessert sich ferner die Nützlichkeit,
da ein Wort später festgelegt
werden kann und eine Indexmarkierung in den aufgezeichneten Daten
eingetragen werden kann. Selbst nachdem Daten aufgezeichnet sind,
kann außerdem,
da ein unnötiges
Wort später
festgelegt und aus den aufgezeichneten Daten gelöscht werden kann, ein erfolgloses
Diktieren leicht gelöscht
werden.
-
Beim
Computer 1 des ersten Ausführungsbeispiels ist das erste
Aufzeichnungsmedium 7 ein externes Aufzeichnungsmedium.
Nachdem ein Aufzeichnungsmedium, auf dem ein gegebenes Spracherkennungsprogramm
aufgezeichnet ist, in den Computer 1 eingesetzt ist, kann
das gegebene Spracherkennungsprogramm, das eine Anwendungssoftware
ist, vom Aufzeichnungsmedium gelesen werden. Die vorliegende Erfindung
ist nicht auf diese Betriebsart begrenzt. Alternativ genügt eine
beliebige Betriebsart, solange ein gegebenes Spracherkennungsprogramm
durch Arbeiten auf der CPU 1a im Computer aktiviert werden
kann.
-
Der
Computer 1 kann beispielsweise mit einem Aufzeichnungsmedium,
auf dem ein Spracherkennungsprogramm aufgezeichnet ist, im voraus
versehen werden, so dass das Spracherkennungsprogramm jederzeit
gelesen werden kann.
-
12 bis 17 betreffen
das zweite Ausführungsbeispiel,
das keinen Teil der beanspruchten Erfindung bildet. 12 ist
ein konzeptionelles Diagramm, das die Gesamtkonfiguration eines
Diktiersystems zeigt.
-
Das
Diktiersystem umfasst: wie in 12 gezeigt,
eine digitale Aufzeichnungsvorrichtung 26, die eine Sprachaufzeichnungsvorrichtung
zum Umwandeln von Sprache in ein elektrisches Signal und zum Erzeugen von
Sprachdaten ist; eine Miniaturkarte 10A, die frei lösbar an
der digitalen Aufzeichnungsvorrichtung 26 angebracht wird
und die als Sprachdaten-Aufzeichnungsmedium dient, auf dem Sprachdaten
aufgezeichnet werden; einen PC-Kartenadapter 27, der zum
Einsetzen der Miniaturkarte 10A in einen PC-Kartenschlitz 9A (siehe 16),
der später
beschrieben werden soll, zur Verbindung verwendet wird; und einen
Personalcomputer 1A mit einer Anzeige 3A, die
als Anzeigemittel dient, und einer Tastatur 2A und einer
Maus 2B, die als Betätigungseinheit
dienen, der als Spracherkennungsvorrichtung zum Verarbeiten von
Sprachdaten, die von der Miniaturkarte 10A über den
PC-Kartenschlitz 9A gelesen
werden, gemäß einem
Steuerprogramm 28 oder einem Spracherkennungsprogramm 29 wirkt.
-
13 ist
ein Blockdiagramm, das die elektrische Konfiguration der digitalen
Aufzeichnungsvorrichtung 26 zeigt.
-
Die
digitale Aufzeichnungsvorrichtung 26 umfasst: wie in 13 gezeigt,
ein Mikrophon 31, das als Sprachdaten-Eingabemittel zum Eingeben von Sprache
und Umwandeln derselben in ein elektrisches Signal dient; einen
Mikrophonverstärker 32 zum
Verstärken
eines vom Mikrophon 31 zugeführten Sprachsignals auf einen
zweckmäßigen Pegel;
ein Tiefpassfilter 33 zum Entfernen von unnötigen Hochfrequenzkomponenten aus
dem durch den Mikrophonverstärker 32 verstärkten Sprachsignal;
einen A/D-Wandler 34 zum
Umwandeln eines analogen Sprachsignals, das vom Tiefpassfilter 33 ausgegeben
wird, in digitale Daten; einen Codierer-Decodierer 35 zum
Codieren (Komprimieren) des digitalisierten Sprachsignals während einer
Aufzeichnungsoperation und zum Decodieren (Dehnen) von codierten
Daten während
einer Wiedergabeoperation; eine Speichersteuereinheit 36,
die als Aufzeichnungsmittel zum Steuern der Aufzeichnung oder Wiedergabe
von Sprachinformation in oder von einem Sprachspeicher 37,
der später
beschrieben wird, auf der Basis einer Adresseninformation, die durch
eine später
zu beschreibende Systemsteuereinheit 38 gegeben wird, dient;
einen Sprachspeicher 37, der in die Miniaturkarte 10A integriert
ist, die als Sprachdaten-Aufzeichnungsmedium dient und beispielsweise
mit einem Halbleiterspeicher ausgebildet ist; einen Miniaturkartenanschluss 44,
der als Aufzeichnungsmedium-Anschlussmittel dient, das ermöglicht,
dass die Miniaturkarte 10A mit dem Sprachspeicher 37 frei
an der digitalen Aufzeichnungsvorrichtung 26 angebracht
oder von dieser gelöst
werden kann; einen D/A-Wandler 39 zum Umwandeln des aus
dem Codierer-Decodierer 35 ausgegebenen digitalen Sprachsignals
in ein analoges Signal; ein Tiefpassfilter 40 zum Entfernen
von unnötigen
Hochfrequenzkomponenten aus einem Sprachsignal, das durch den D/A-Wandler 39 in
eine analoge Form umgewandelt wurde; einen Leistungsverstärker 41 zum
Verstärken
eines analogen Sprachsignals, das vom Tiefpassfilter 40 ausgegeben wird;
einen Lautsprecher 42 zur Tonwiedergabe, wenn er durch
den Leistungsverstärker 41 angesteuert
wird; eine Operationseingabeeinheit 43, die aus verschiedenen
Arten von Betätigungstasten
besteht, einschließlich einer
Kontrollzeichentaste 43a (siehe 14), die
später
beschrieben werden soll; und eine Systemsteuereinheit 38,
die die digitale Aufzeichnungsvorrichtung 26, einschließlich des
Codierer-Decodierers 35, der Speichersteuereinheit 36 und
des Sprachspeichers 37, auf eine zentralisierte Weise steuert
und die als Aufzeichnungsmittel dient, mit dem ein Ausgangsanschluss
der Operationseingabeeinheit 43 verbunden wird.
-
14 ist
ein Diagramm, das eine Szene zeigt, in der die Kontrollzeichentaste
der digitalen Aufzeichnungsvorrichtung während des Diktierens betätigt wird.
-
Die
Kontrollzeichentaste 43a, die als Intervallfestlegungsmittel
der Operationseingabeeinheit 43 dient, ist, wie in 14 gezeigt,
in einer Position angeordnet, die es ermöglicht, dass der Daumen einer
Hand, mit der die digitale Aufzeichnungsvorrichtung 26 ergriffen
wird, die Kontrollzeichentaste leicht betätigt. Die Kontrollzeichentaste
ist eine Taste, die gedrückt
werden soll, um ein Kontrollzeichen, das anzeigt, dass ein geäußertes Wort
ein unnötiges
Wort ist, an Sprachdaten anzuhängen,
wenn ein unnötiges
Wort oder dergleichen geäußert wird,
während
der Inhalt eines zu erzeugenden Dokuments diktiert wird.
-
Das
unnötige
Wort oder dergleichen wird unbewusst geäußert. In dem Moment, in dem
ein unnötiges Wort
geäußert wurde,
kann ein Sprecher das geäußerte Wort
als unnötiges
Wort erkennen. Da die Kontrollzeichentaste 43a in einer
Position angeordnet ist, die ermöglicht,
dass der Sprecher sie leicht drücken
kann, kann ein Kontrollzeichen bei Bedarf leicht angehängt werden.
-
15 ist
ein Diagramm, das das Format von Daten zeigt, die im Sprachspeicher 37 der
Miniaturkarte 10A durch die digitale Aufzeichnungsvorrichtung 26 aufgezeichnet
werden sollen.
-
Ein
Datensatz wird in Form einer Datei verwaltet. In jeder Datei ist
eine Information, beispielsweise ein Aufzeichnungsdatum und eine
Aufzeichnungszeit, als Dateikopfzeile geschrieben. Im restlichen
Bereich sind Daten, die in Datenblöcke unterteilt sind, geschrieben.
-
Jeder
Datenblock umfasst überdies
eine Kontrollzeicheninformation, die angibt, ob die Kontrollzeichentaste 43a gedrückt wurde
oder nicht, und codierte Sprachdaten. Die Kontrollzeicheninformation
ist wie beispielsweise ein Kennzeichen mit beispielsweise einer
Länge von
1 Bit strukturiert. Wenn die Kontrollzeichentaste 43a gedrückt wird,
wird das Kennzeichen auf "1" gesetzt. Wenn die
Kontrollzeichentaste 53a nicht gedrückt wird, wird das Kennzeichen
auf "0" gesetzt.
-
16 ist
ein Blockdiagramm, das die elektrische Konfiguration des Personalcomputers 1A zeigt.
-
Der
Personalcomputer 1A führt
eine Sprachwiedergabe, eine Informationsanzeige und dergleichen gemäß dem Steuerprogramm 28 aus,
führt eine
Dokumentation gemäß dem Spracherkennungsprogramm 29 aus
und führt
auch verschiedene Arten von Verarbeitung gemäß den anderen verschiedenen
Arten von Programmen aus. Der Personalcomputer 1A umfasst:
eine CPU 51, die als Erfassungsmittel dient, ein Pegeleinstellmittel,
ein Spracherkennungsmittel, ein Sprachbewertungsmittel, ein Minimalwert-Berechnungsmittel, ein Verstärkungswert-Berechungsmittel,
ein Multiplikationsmittel und ein Mittelungsmittel; einen Hauptspeicher 52,
der als Aufzeichnungsmedium dient und der einen Arbeitsbereich für die CPU 51 bietet;
ein internes Aufzeichnungsmedium 53, das als Aufzeichnungsmedium
dient, das beispielsweise mit einer Festplatte oder Diskette ausgebildet
ist und in dem das Steuerprogramm 28 und das Spracherkennungsprogramm 29 aufgezeichnet
sind; einen externen Anschluss 54, der zum Verbinden des
Personalcomputers mit verschiedenen Arten einer externen Anlage
verwendet wird; eine Schnittstelle 55, die zum Verbinden
der Anzeige 3A mit dem Personalcomputer verwendet wird;
eine Schnittstelle 56, die zum Verbinden der Tastatur 2A oder
der Maus 2B verwendet wird; einen Lautsprecher 4A,
der eine Sprachausgabeeinheit zum Wiedergeben von Ton auf der Basis
von Sprachdaten ist; eine Schnittstelle 57, die zum Verbinden
des Lautsprechers 4A verwendet wird; einen PC-Kartenschlitz 9A,
der als Sprachdaten-Lesemittel dient und in den die Miniaturkarte 10,
die am PC-Kartenadapter 27 angebracht ist, eingesetzt wird;
und eine Schnittstelle 58, die zum Verbinden des PC-Kartenschlitzes 9A verwendet
wird. Die CPU 51, der Hauptspeicher 52, das interne
Aufzeichnungsmedium 53, der externe Anschluss 54 und
die Schnittstellen 55, 56, 57 und 58 sind über einen
Bus miteinander verbunden.
-
Sprachdaten
können
direkt von der Miniaturkarte 10A über den PC-Kartenschlitz 9A gelesen
werden. Alternativ können
die Sprachdaten vorübergehend
im internen Aufzeichnungsmedium 53 aufgezeichnet und vom
internen Aufzeichnungsmedium 53 gelesen werden. Ansonsten
können
die Sprachdaten direkt von der digitalen Aufzeichnungsvorrichtung 26 über ein
Kommunikationsmittel oder dergleichen gelesen werden. Somit ist
das Sprachdaten-Lesemittel
nicht auf den PC-Kartenschlitz begrenzt.
-
Überdies
ist ein Beispiel einer Bildschirmanzeige, die erreicht wird, indem
das Steuerprogramm auf dem Personalcomputer läuft, zu der in 3 gezeigten
fast identisch.
-
17 ist
ein Ablaufplan, der die Verarbeitung einer Spracherkennung beschreibt,
die im Personalcomputer 1A ausgeführt wird.
-
Die
Spracherkennung wird, wie später
erwähnt,
schrittweise in der Reihenfolge der Sprachlauterkennung, Worterkennung
und Satzerkennung ausgeführt.
-
Insbesondere
wenn die Spracherkennungs-Startschaltfläche 22, die zur Spracherkennungswerkzeug-Schaltflächengruppe 21 in
der Werkzeugschaltflächenleiste 13 auf
dem Hauptbildschirm 11 gehört, angeklickt wird, wird die
Spracherkennung begonnen. Eine Sprachdatei, die im Sprachdatei-Listenkästchen 14 hervorgehoben
ist, wird in Einheiten eines gegebenen Datenblocks gelesen (Schritt
S61) und in Einheiten des Datenblocks decodiert (Schritt S62).
-
Die
decodierten Sprachdaten werden an das Spracherkennungsprogramm 29 übergeben.
Zuerst wird ein Sprachlaut identifiziert (Schritt S63). Eine Worterkennung
wird dann ausgeführt,
wobei ein Wortstrom, der Eingangssprache äußerst zufriedenstellend entspricht,
auf der Basis eines gegebenen Sprachmodells abgerufen wird, das
vom identifizierten Sprachlaut vorgeschlagen wird (Schritt S64).
-
Was
als Sprachmodell bezeichnet wird, ist ein Modell, das eine Wahrscheinlichkeit
für das
Auftreten gibt, die auf einen gegebenen Wortstrom hindeutet. Als
Sprachmodell wurden verschiedene Formen in Erwägung gezogen. Ein effizientes
Modell, das unnötige
Worte oder dergleichen berücksichtigt,
wurde jedoch noch nicht erfunden.
-
Bei
diesem Ausführungsbeispiel
wird daher die Kontrollzeicheninformation, die sich am Beginn jedes in 15 gezeigten
Datenblocks befindet, geprüft,
um festzustellen, ob ein Wort, das durch Daten in einem Datenblock
dargestellt wird, der dem Datenblock unmittelbar vorangeht, ein
unnötiges
Wort oder dergleichen ist.
-
Insbesondere
wird beurteilt, ob die Kontrollzeicheninformation 1 ist oder nicht
(Schritt S65). Wenn die Kontrollzeicheninformation 1 ist, wird ein
Wort, das durch Daten in einem Datenblock dargestellt wird, der
dem Datenblock unmittelbar vorangeht, nicht als Objekt der Verarbeitung
der Satzerkennung des nächsten
Schritts betrachtet (Schritt S66). Wenn die Kontrollzeicheninformation
0 ist, wird eine Satzerkennung ausgeführt (Schritt S67).
-
Es
folgt eine Zeichenumwandlung zum Umwandeln von Sprachdaten in Zeichencodes
auf der Basis eines erkannten Satzes (Schritt S68). Das Ergebnis
der Erkennung wird auf einem Bildschirm auf der Anzeige 3A angezeigt
(Schritt S69).
-
Danach
wird beurteilt, ob die Sprachdatei zu Ende gegangen ist oder nicht
(Schritt S70). Wenn die Sprachdatei nicht zu Ende gegangen ist,
wird die Steuerung zu Schritt S61 zurückgeführt. Wenn die Sprachdatei zu
Ende gegangen ist, wird die Verarbeitung beendet.
-
Die
Verarbeitung dessen, ein unnötiges
Wort gemäß dem Ergebnis
der Erfassung der Kontrollzeicheninformation nicht als Objekt der
Erkennung zu betrachten, wurde als innerhalb des Spracherkennungsprogramms 29 ausgeführt beschrieben.
Alternativ kann die Verarbeitung beispielsweise innerhalb des Steuerprogramms 28 ausgeführt werden
und das Ergebnis kann an das Spracherkennungsprogramm 29 übergeben werden.
-
In
diesem Fall bewirkt das Steuerprogramm 28, dass der Personalcomputer 1A Sprachdaten
von der Miniaturkarte 10A abruft und die an die Sprachdaten
angehängte
Kontrollzeicheninformation erfasst. Wenn die Kontrollzeicheninformation
1 ist, werden die Sprachdaten nicht an das Spracherkennungsprogramm 29 übergeben.
Wenn die Kontrollzeicheninformation 0 ist, werden die Sprachdaten
an das Spracherkennungsprogramm 29 übergeben.
-
Ein
Wort, das durch Daten in einem Datenblock dargestellt wird, der
einem Datenblock mit einer Kontrollzeicheninformation von 1 unmittelbar
vorangeht, wurde überdies
als nicht als Objekt der Spracherkennung betrachtet beschrieben.
Alternativ kann ein Wort, das durch Daten in einem Datenblock mit
einer Kontrollzeicheninformation von 1 dargestellt wird, nicht als
Objekt der Spracherkennung betrachtet werden.
-
Ferner
wurde das Ergebnis der Spracherkennung als als Zeichen auf der Anzeige 3A angezeigt
beschrieben. Alternativ können
die Zeichen als Zeichendaten an ein Aufzeichnungsmedium ausgegeben
werden oder können
gleichzeitig angezeigt und ausgegeben werden.
-
Die
Kontrollzeicheninformation wurde als während der Aufzeichnung durch
die digitale Aufzeichnungsvorrichtung 26 aufgezeichnet
beschrieben. Alternativ kann das System so ausgelegt sein, dass
die Kontrollzeicheninformation während
der Wiedergabe durch die digitale Aufzeichnungsvorrichtung 26 oder
Wiedergabe durch den Personalcomputer 1A festgelegt werden
kann.
-
Gemäß dem zweiten
Ausführungsbeispiel
wird, wenn ein Sprecher die Kontrollzeichentaste drückt, ein Kontrollzeichen
in Sprachdaten aufgezeichnet. Während
der Verarbeitung der Wiedergabe und der Spracherkennung wird das
Kontrollzeichen erfasst. Ein Wort, das durch Daten in einem Datenblock
mit einem darin einbeschriebenen Kontrollzeichen dargestellt wird,
oder ein Wort, das durch Daten in einem Datenblock dargestellt wird,
der dem Datenblock mit dem darin einbeschriebenen Kontrollzeichen
vorangeht oder folgt, wird nicht als Objekt der Spracherkennung
betrachtet. Folglich kann die Bearbeitung eines unnötigen Worts
oder dergleichen, die in der Vergangenheit nicht vorgenommen werden
konnte, leicht ohne den Bedarf an einer Steigerung der Anforderungen
für die
Spracherkennung, das heißt
den Bedarf für
eine besonders schnelle Verarbeitung, ausgeführt werden. Dies führt zu einem
Diktiersystem mit guter Qualität,
das in der Lage ist, eine Spracherkennung zweckmäßig auszuführen und ein Dokument mit wenigen
Fehlern zu erzeugen.
-
18 bis 21 betreffen
das dritte Ausführungsbeispiel,
das keinen Teil der beanspruchten Erfindung bildet. Die konzeptionelle
Gesamtkonfiguration eines Diktiersystems des dritten Ausführungsbeispiels
ist identisch zu der in 12 gezeigten. Überdies
ist die elektrische Konfiguration des Personalcomputers 1A zu der
in 16 gezeigten identisch.
-
Als
nächstes
stellt 18 ein Diagramm dar, das den
gesamten Ablauf für
das Lesen von Sprachdaten von einem Sprachspeicher und das Erkennen
von Sprache zeigt, was vom Diktiersystem ausgeführt wird, und 19 stellt
einen Ablaufplan dar, der die Verarbeitung der Spracherkennung,
die vom Diktiersystem ausgeführt
wird, beschreibt.
-
Wie
in 19 beschrieben, werden, wenn die Verarbeitung
begonnen wird, Sprachdaten, die in Einheiten einer Datei aufgezeichnet
sind, aus einem Sprachspeicher 61 in der Miniaturkarte 10A oder
einem internen Aufzeichnungsmedium 53 gelesen und eine
Decodierung 62 wird ausgeführt (Schritt S71).
-
Das
Ergebnis der Decodierung 62 wird zu einer Beurteilung 63 mit
Sprache oder ohne Sprache und zu einer Abtastwert-Absolutwert-Mittelung 64 gesandt.
-
Die
Beurteilung 63 mit Sprache oder ohne Sprache berechnet
einen Schwellenwert, der zur Beurteilung mit Sprache oder ohne Sprache
verwendet wird (Schritt S72). Auf der Basis des berechneten Schwellenwerts
wird beurteilt, ob Sprachdaten mit Sprache oder ohne Sprache sind
(Schritt S73). Diese Verarbeitung wird später in Verbindung mit 20 im
einzelnen erläutert.
Das Ergebnis der Beurteilung 63 mit Sprache oder ohne Sprache
wird zur Abtastwert-Absolutwert-Mittelung 64 gesandt.
-
Die
Abtastwert-Absolutwert-Mittelung 64 und die Verstärkungsberechnung 65 werden
ausgeführt,
um eine Verstärkung
zu berechnen (Schritt S74). Diese Verarbeitung wird später in Verbindung
mit 21 beschrieben. Auf der Basis einer durch die
Verstärkungsberechnung 65 berechneten
Verstärkung
verstärkt
eine Verstärkungsmultiplikation 66 ein
Ausgangssignal der Decodierung 62 (Schritt S75).
-
Sprachdaten,
die durch die Verstärkungsmultiplikation 66 auf
einen zweckmäßigen Pegel
eingestellt wurden, werden zur Spracherkennung 67 gesandt,
wodurch eine Spracherkennung ausgeführt wird (Schritt S76).
-
Eine
Zeichenumwandlung wird ausgeführt,
um das Ergebnis der Spracherkennung in Zeichencodes umzuwandeln
(Schritt S77). Resultierende Zeichencodes werden ausgegeben und
auf einem Bildschirm auf der Anzeige 3A oder dergleichen
angezeigt 68 (Schritt S78).
-
20 ist
ein Ablaufplan, der den Inhalt einer Verarbeitung beschreibt, die
für die
Beurteilung mit Sprache oder ohne Sprache, die in den Schritten
S72 und S73 durchgeführt
wird, relevant ist.
-
Wenn
diese Verarbeitung begonnen wird, wird zuerst eine Variable f, die
einen Zählwert
der Anzahl von Datenblöcken
angibt, auf 0 initialisiert (Schritt S81).
-
Nachdem
die Variable f inkrementiert ist (Schritt S82), wird ein Pegel der
Datenblockenergie e(f) gemäß einer
dargestellten Formel berechnet (Schritt s83). In der Formel bedeutet
s(i) ein Eingangssignal des (i – 1)-ten
Abtastwerts aus einem Datenblock und N bedeutet die Anzahl von Datenblöcken, die
eine Datei bilden.
-
Dann
wird beurteilt, ob die Variable f 1 ist, das heißt ein zu verarbeitender Datenblock
ein anfänglicher Datenblock
ist, oder nicht (Schritt S84). Wenn die Variable f 1 ist, wird eine
Variable min, die einen minimalen Pegel der Datenblockenergie angibt,
auf e(1) gesetzt (Schritt S86).
-
Wenn
in Schritt S84 festgestellt wird, dass die Variable f nicht 1 ist,
wird beurteilt, ob der Pegel der Datenblockenergie e(f) kleiner
ist als die Variable min oder nicht (Schritt S85). Wenn der Pegel
der Datenblockenergie e(f) kleiner ist, wird die Variable min auf
den Pegel der Datenblockenergie e(f) gesetzt (Schritt S87). Wenn
der Pegel der Datenblockenergie e(f) im Gegenteil nicht kleiner
ist, wird nichts getan, sondern die Steuerung wird an den nächsten Schritt
S88 übergeben.
-
Dann
wird beurteilt, ob die Datei zu Ende gegangen ist oder nicht (Schritt
S88). Wenn die Datei nicht zu Ende gegangen ist, wird die Steuerung
zu Schritt S82 zurückgeführt und
die vorangehende Verarbeitung wird wiederholt.
-
Wenn
in Schritt S88 beurteilt wird, dass die Datei zu Ende gegangen ist,
wird ein Produkt der Variable min mit einem gegebenen Wert α (beispielsweise
1,8) als Schwellenwert trs festgelegt (Schritt S89). Die Verarbeitung
wird dann verlassen.
-
Diese
Prozedur zum Festlegen eines Schwellenwerts macht das meiste aus
der Tatsache, dass Sprachdaten bereits aufgezeichnet sind. Da der
Schwellenwert auf der Basis des minimalen Energiepegels der ganzen
Datei festgelegt werden kann, kann eine Beurteilung mit Sprache
oder ohne Sprache mit einem geringen Fehler erzielt werden.
-
Wie
vorstehend beschrieben, werden Minimalwerte aller gelesenen Intervalle
(das heißt,
aller Datenblöcke,
die eine Sprachdatei bilden) berechnet. Anstatt der Minimalwerte
aller Intervalle genügt
ein Minimalwert eines Intervalls mit einer bestimmten Länge.
-
Als
nächstes
stellt 21 einen Ablaufplan dar, der
den Inhalt der Verstärkungsberechnung
beschreibt, die in Schritt S74 in 19 durchgeführt werden
soll.
-
Wenn
diese Verarbeitung begonnen wird, werden eine Variable f, die einen
Zählwert
der Anzahl von Datenblöcken
angibt, eine Variable SumAbs, die eine Summe von Absolutwerten von
Abtastwerten angibt, und eine Variable Cnt, die die Anzahl von Additionen
angibt, auf 0-en initialisiert (Schritt S91).
-
Die
Variable f wird dann inkrementiert (Schritt S92). Es wird beurteilt,
ob der Pegel der Datenblockenergie e(f), der innerhalb der in 20 beschriebenen
Verarbeitung berechnet wird, größer ist
als der Schwellenwert trs oder nicht (Schritt S93). Wenn der Pegel
der Datenblockenergie e(f) größer ist
als der Schwellenwert trs, wird die Summe von Absolutwerten von
Abtastwerten von Datenblöcken
zur Variable SumAbs addiert (Schritt S94) und die Variable Cnt wird
inkrementiert (Schritt S95).
-
Wenn
in Schritt S93 festgestellt wird, dass der Pegel der Datenblockenergie
e(f) gleich dem oder kleiner als der Schwellenwert ist, wird die
Steuerung an den nächsten
Schritt S96 übergeben.
-
Anschließend wird
beurteilt, ob die Datei zu Ende gegangen ist oder nicht (Schritt
S96). Wenn die Datei nicht zu Ende gegangen ist, wird die Steuerung
zu Schritt S92 zurückgeführt und
die vorangehende Verarbeitung wird wiederholt.
-
Wenn
in Schritt S96 beurteilt wird, dass die Datei zu Ende gegangen ist,
wird die Variable SumAbs durch die Variable Cnt dividiert, um einen
Mittelwert average der Absolutwerte der Abtastwerte von Datenblöcken zu
berechnen (Schritt S97).
-
Ein
gegebener Wert LEV wird durch den Mittelwert average dividiert,
um eine Verstärkung
gain zu berechnen (Schritt S98). Hierbei wird der gegebene Wert
LEV auf den Mittelwert der vorhergesagten Absolutwerte von Abtastwerten
gesetzt. Ein Mittelwert von Absolutwerten von Sprachabtastwerten,
die zum Lernen von Sprachdaten durch eine Spracherkennungsvorrichtung
verwendet werden, wird beispielsweise verwendet.
-
Gemäß dem dritten
Ausführungsbeispiel
können
bereits aufgezeichnete Sprachdaten auf einen Schallpegel eingestellt
werden, der sich zur Spracherkennung eignet. Die Spracherkennung
kann daher auf einer stabilen Basis ungeachtet eines Schallpegels
von aufgezeichneten Sprachdaten ausgeführt werden. Dies führt zu einem
Diktiersystem mit hoher Qualität.
-
Bei
dieser Erfindung ist ersichtlich, dass ein breiter Bereich von verschiedenen
Arbeitsweisen auf der Basis der Erfindung ohne Abweichung vom Schutzbereich
der Erfindung geschaffen werden kann.