-
Die
vorliegende Erfindung bezieht sich auf ein Zeichen-Erkennungs- und Übersetzungssystem, das
geeignet ist zur Verwendung in einer tragbaren Übersetzungsvorrichtung oder Ähnlichem,
und weiter insbesondere auf ein Zeichen-Erkennungs- und Übersetzungssystem zum Aufnehmen,
als Kamera-Bilddaten, von Zeichen, die geschrieben sind auf Ansichts-Führer-Tafeln,
Namenstafeln von Gebäuden,
Hinweistafeln, Ansichts-Führer-Prospekten, Speisekarten
von Restaurants, etc., auf welche Reisende oft Bezug nehmen an überseeischen
Reiseorten, z.B. um die Zeichen zu erkennen. Das Zeichen-Erkennungs-
und Übersetzungssystem
ist weder beschränkt
auf irgendeine bestimmte Gestalt oder Größe eines Zeichens, noch auf
irgendwelche bestimme Sprachen, und es ist geeignet zur Verwendung
beim Erkennen und Übersetzen
von verschiedenen Zeichen, die in verschiedenen Sprachen geschrieben
sind, die als Kamera-Bilddaten aufgenommen oder abgebildet werden.
Ferner bezieht sich die vorliegende Erfindung auf ein Spracherkennungs- und Übersetzungssystem,
welches dazu geeignet ist in einem tragbaren Übersetzungsgerät verwendet
zu werden und speziell auf ein Spracherkennungs- und Übersetzungssystem
zur Aufnahme (nehmen) oder Aufzeichnung von verschiedenen Arten
von Stimmen oder anderen hörbaren
Informationen, welche in einer Flughafenhalle, einen Bahnhof, einem
Flugzeug, einem Fahrzeug, einem Aussichtsort usw. angekündigt werden,
ebenso wie Umgebungsgespräche
und Stimmen und Ankündigungen
bei Vorlesungen usw., um derartig aufgenommene oder aufgezeichnete Stimmen
zu erkennen und zu übersetzen.
-
Vor
kurzem wurde eine Flüssigkristall-Digitalkamera
entwickelt, die einem Benutzer erlaubt, gerade fotografierte Standbildinformation
an der Stelle zu betrachten, wo die Fotografien aufgenommen wurden,
die Standbildinformation auf einem Aufzeichnungsmedium aufzuzeichnen,
die Bildinformation auf einem Groß bildschirmmonitor anzuzeigen,
die Bildinformation mit einem Drucker zu drucken, etc.
-
Eine
japanische Patentanmeldung offenbart eine Zeichenerkennungs- und Übersetzungsvorrichtung
für eine
elektronische Standbildkamera, die verbunden ist mit einer elektronischen
Standbildkamera, wie vom oben beschriebenen Typ einer Flüssigkristall-Digitalkamera
oder ähnlichem,
um Zeicheninformation in aufgezeichneten Bildern zu erkennen, und des
Weiteren das erkannte Ergebnis zu übersetzen. Diese Vorrichtung
ist zum Empfangen von Zeicheninformation und Zeichen entworfen,
und Zeichen zu erkennen und zu übersetzen,
welche in Objekt-Bildern enthalten
ist, von der elektronischen Standbildkamera. Noch genauer werden
gemäß der Zeichen
erkennenden und übersetzenden
Vorrichtung Videosignale von der elektronischen Standbildkamera
in Signale umgewandelt, die zur Zeichenerkennung und zur Übersetzungsverarbeitung
geeignet sind, und sie werden dann einer Folge von allgemeinen informationsverarbeitenden
Schritten unterworfen, wie z.B. einer Zeichenflächenextraktionsverarbeitung
auf der Grundlage eines Kantenextraktionsverfahrens, Hintergrundtilgungsverarbeitung,
Zeichenanordnungs-Neigungskorrektur-Verarbeitung, Zeichenerkennungsverarbeitung
auf der Grundlage eines Muster-Anpassungsverfahrens, Maschinenübersetzungsverarbeitung,
etc.
-
Nach
den herkömmlichen
Zeichenerkennungs- und Übersetzungsvorrichtungen,
wie oben beschrieben, ist es jedoch sehr schwierig gewesen, Zeichen
zu erkennen und zu übersetzen,
die auf Besichtigungsführertafeln,
Namenstafeln von Gebäuden,
Speisekarten von Restaurants, Besichtigungsführerprospekten, etc., geschrieben
sind, auf welche Reisende oft Bezug nehmen in überseeischen Reiseorten. Das
kommt daher, weil es häufig
vorkommt, dass Zeichen nicht genau erkannt werden können, dadurch
dass lediglich ein Musteranpassungsverfahren angewendet wird unter
Anwendung lediglich eines Zeichenreferenzmusters auf kalligraphische
Zeichen, die in verschiedenen Schreibstilen an ausländischen
Orten geschrieben werden.
-
Andererseits,
der rasch ansteigenden Anzahl von Auslandsreisenden folgend, wurden
tragbare Übersetzungsgeräte mit Spracherkennung
entwickelt, welche vorgegebene Formen von Konversationsmustern haben,
um die Schwierigkeiten der Verständigung
von Leuten verschiedener Nationalitäten zu überwinden (die sogenannte Sprachbarriere).
Diese tragbaren Übersetzungsgeräte verwenden
ein Wiedergabesystem, in welchem Sätze, die in verschiedenen Typen
von Gesprächen
verwendet werden, im Voraus als Sprachdaten aufgezeichnet werden
und ein gewünschter
Satz in Übereinstimmung mit
einer vorgegebenen Situation ausgewählt wird. Gemäß diesem
Wiedergabesystem ist es einer Person möglich, mit welcher sich ein
Benutzer unterhält (nachfolgend
als Person beim Gespräch
bezeichnet) einseitig in seiner Muttersprache eine Frage oder eine
Bitte zu hören,
welche der Benutzer durchzuführen
wünscht.
Jedoch kann die Sprache dieser Person nicht durch das Gerät übersetzt
werden. Deswegen wurde ein weiteres Gerät vorgeschlagen, das die Stimme
eines Benutzers erkennt, in welchem die gesprochenen Worte durch
ein Mikrofon eingegeben werden, die Sprache in eine vorbestimmte
Sprache übersetzt
wird und dann ausgegeben wird, wie offenbart in einer Japanischen
Patentanmeldung.
-
Gemäß dieser
Vorrichtung werden Sprachdaten, welche durch das Mikrofon eingegeben
werden, in ein digitales Signal umgewandelt und aufgeteilt, um analysiert
zu werden, und dann wird das Ergebnis der Analyse mit einem Standardsprachmuster verglichen,
das in einem Spracherkennungswörterbuch
gespeichert ist, um Spracherkennung durchzuführen. Ferner werden gemäß dieser
Vorrichtung übersetzte
Worte, welche einer erkannten Stimme entsprechen, von einer Speicherkarte
für gespeicherte
Wortdaten eingelesen, in Signale umgewandelt und dann zu einem Lautsprecher
ausgegeben. Die Speicherkarte für übersetzte
Wortdaten umfasst eine ROM-Karte oder ähnliches und hat darin gespeicherte
Sprachdaten. Durch Austausch der Speicherkarte mit einer für eine andere
Sprache, kann Sprachübersetzung
in eine Vielzahl von Sprachen erreicht werden. Das Spracherkennungswörterbuch
umfasst ein RAM oder ähnliches
und hat darin Standard sprachmuster, welche der besonderen Aussprache
des Benutzers entsprechen, im Voraus aufgezeichnet.
-
Im
oben beschriebenen tragbaren Sprachübersetzungsgerät, das in
der obigen Veröffentlichung offenbart
wird, kann die Stimme eines Benutzers erkannt werden. Jedoch ist
seine Funktion auf diejenige des tragbaren Übersetzungsgeräts beschränkt, welche
feste Konversationsmuster mit Stimmen wie oben beschrieben verwendet.
Dies bedeutet, es gestattet einer im Gespräch befindlichen Person einseitig
die Frage oder Bitte eines Benutzers in der Muttersprache der Person
zu führen.
Jedoch kann es nicht die natürliche
Gesprächsstimme
einer unspezifizierten Person erkennen und übersetzen, demnach kann der
Benutzer deren Sprache nicht verstehen. Wenn der Benutzer sich im
Gespräch
mit einer Person befindet, die eine Sprache spricht, welche der
Benutzer nicht sprechen kann, ist es wichtiger die Sprache des Gesprächspartners
zu übersetzen,
als die Sprache des Benutzers.
-
JP-A-07-146699
offenbart ein Spracherkennungssystem, welches zwischen Rahmen Grade
von Ähnlichkeiten
zwischen einer eingegebenen Stimme und einem Standardmuster verwendet,
um Worte in der eingegebenen Stimme zu erkennen. Jedoch offenbart
sie nicht Gegenmaßnahmen
gegen Rauschen.
-
EP-A-0
586 714 offenbart ein Spracherkennungsgerät, welches ein neuronales Netzwerk
verwendet, das dazu in der Lage ist, Rauschbestandteile in einer
Stimme zu erkennen, welcher Rauschen überlagert ist, und diese Rauschbestandteile
zu entfernen, so dass die Stimme erkannt werden kann.
-
Ferner
hat ein Reisender während
Auslandsreisen Probleme darin, dass er nicht die Sprachankündigungen
verstehen kann, welche in einer Flughafenhalle, einem Bahnhof, einem
Flugzeug, einem Fahrzeug, einem Aussichtsort, usw. kann, noch kann er
normale Umgebungsgespräche,
Stimmen und Ankündigungen
bei Vorlesungen usw. verstehen. Besonders bei der Spracherkennung
von Sprachenankün digung
in Flughafenhallen, einem Bahnhof, einem Flugzeug, einem Fahrzeug,
einem Aussichtsort, usw. ist die Verminderung in der Erkennungswirksamkeit
der Spracherkennung ein kritisches Problem, wenn Hintergrundgeräusche vorliegen.
-
Deshalb
ist es eine Aufgabe der vorliegenden Erfindung, ein Zeichenerkennungs- und Übersetzungssystem
bereitzustellen, das weder durch die Gestalt oder Größe von Zeichen,
noch durch irgendeinen Unterschied in der Sprache beschränkt ist,
und das verschiedene Zeichen erkennen und übersetzen kann, die in verschiedenen
Sprachen geschrieben sind, die als Kamera-Bilddaten erfasst werden.
-
Ferner
ist es eine weitere Aufgabe der vorliegenden Erfindung ein Spracherkennungs-
und Übersetzungssystem
anzugeben, um zuverlässig
verschiedene Arten von fließender
Sprache oder Ankündigungen
zu erkennen und zu übersetzen,
wenn es Hintergrundgeräusche
gibt, so wie in einer Flughafenhalle, einem Bahnhof in einem Flugzeug,
in einem Fahrzeug, an einem Aussichtsort, usw.
-
Ein
Spracherkennungs- und Übersetzungssystem
gemäß der Erfindung
wird in Anspruch 1 angegeben.
-
Um
die oben beschriebenen Ziele zu erreichen, beinhaltet gemäß einer
Ausführungsform
der vorliegenden Erfindung ein Zeichenerkennungs- und Übersetzungssystem
zur Abtastung von Zeichen, die auf Ansichtsführertafeln, Namenstafeln von
Gebäuden,
Speisekarten von Restaurants, Ansichtführerprospekten und ähnlichem
geschrieben sind, das eine Kamera verwendet und die Zeichen und
Worte oder Sätze
erkennt, welche die erkannten Zeichen beinhalten:
eine Zeichen-Datenbasis
zum Ansammeln von Zeichendaten, welche die Zeichen repräsentieren,
die in dem abgetasteten Bild enthalten sind;
eine Einheit zur
Zeichen-Gestaltanalyse zum Analysieren der Gestalt jedes Zeichens
auf der Basis der Zeichendaten in der Zeichen-Datenbasis und zum Extrahieren
von Merkmalen elementarer Zeichenbestandteile, welche das Zeichen
bilden;
eine Masken-Lerneinheit zum Erzeugen von Muster-Masken-Daten
der elementaren Zeichenbestandteile auf der Basis eines Ergebnisses
der Analyse der Zeichen-Gestaltanalyse-Einheit;
eine
Zeichenzusammenstellungs-Einheit zum Zuordnen von Zeichendaten eines
Zeichens, welches erkannt werden soll, welche in dem abgetasteten
Bild enthalten sind, welches neu aufgenommen wird, zu den Muster-Masken-Daten
der elementaren Zeichenbestandteile, um dadurch die Zeichen zu erkennen;
und eine Übersetzungseinheit
zum Übersetzen eines
Wortes oder Satzes, welcher die erkannten Zeichen enthält, die
durch die Zeichenzusammenstellungs-Einheit erkannt werden.
-
In
dem Zeichen-Erkennungs- und Übersetzungssystem,
wie oben beschrieben, ist die Zeichen-Gestaltanalyse-Einheit vorzugsweise
so entworfen, um binäre
Daten von m × n
Punkten (Pixel) von den Zeichendaten in der Zeichendatenbasis abzutrennen, "1" oder "0" für jedes
Pixel zu detektieren während
n inkrementiert wird, die Daten in Bildelement-Bereiche von m × n1 (n1 ≤ n), m × n2 (n2 ≤ n), ...,
m × ni
(ni ≤ n)
zu teilen, welche Merkmale des Zeichens enthalten, und einen Gewichtungskoeffizienten
zu analysieren, welcher eine Kennzeichnung des Zeichens darstellt
und/oder ein Attribut, welches den Beginn, die Verbindung und das
Ende eines Zeichens für
jeden Pixelbereich darstellt.
-
In
der Zeichen-Erkennungs- und Übersetzungsvorrichtung,
wie oben beschrieben, ist es weiter wünschenswert, dass die Masken-Lerneinheit
jeden der Bildelementbereiche von m × n1 (n1 ≤ n), m × n2 (n2 ≤ n), ..., m × nj (nj ≤ n), welche Merkmale der Zeichen
enthält
mit einem Gewichtskoeffizienten versieht, der eine Zeichen-Kennzeichnung
darstellt und/oder Attribute, die den Beginn, die Verbindung und
das Ende eines Zeichens für
jeden Pixelbereich darstellen, um Muster-Masken-Daten zu erzeugen.
-
In
der Zeichen-Erkennungs- und Übersetzungsvorrichtung,
wie oben beschrieben, ist es weiter wünschenswert, dass die Zeichenzusammenstellungseinheit
Binärda ten
abtrennt von m × n
Punkten von den Zeichendaten, "1" oder "0" für
jedes Bildelement erkennt, während
n inkrementiert wird, die Daten in Bildelementbereiche von m × n1 (n1 ≤ n), m × n2 (n2 ≤ n), ... m × ni (ni ≤ n) teilt,
welche die Merkmale der Zeichen enthalten und die Daten des Bildelementbereichs
und die Muster-Maskendaten zuordnet.
-
In
der Zeichen-Erkennungs- und Übersetzungsvorrichtung,
wie oben beschrieben, ist es weiter vorteilhaft, dass das System
weiter einen Muster-Maskenspeicher zum Speichern von Muster-Maskendaten
umfasst, welche durch die Masken-Lerneinheit
erhalten wurden, wobei der Muster-Maskenspeicher darin Muster-Maskendaten speichert,
welche n1, n2, ..., nj Elemente aufweisen, die für jedes verschiedene Zeichen
verschieden sind.
-
In
der Zeichen-Erkennungs- und Übersetzungsvorrichtung,
wie oben beschrieben, ist es weiter vorteilhaft, dass das System
weiter eine Bildabtast-(Aufnahme)-Einheit zum Abtasten eines Bildes umfasst,
das Zeichen enthält,
und eine Zeichenfeld-Spezifiziereinheit zum Spezifizieren eines
Zeichenfeldes, welches Wörter
oder Sätze
enthält,
die auf der Grundlage der Bilddaten erkannt werden sollen, die von
dem abgetasteten Bild erhalten werden.
-
In
der Zeichen-Erkennungs- und Übersetzungsvorrichtung,
wie oben beschrieben, ist es weiter vorteilhaft, dass die Zeichenfeld-Spezifizierungseinheit
in jeder Position mindestens einen Bereich von m × n Punkten
spezifiziert.
-
Weiterhin
ist es noch weiter bevorzugt, dass, wenn das erhaltene Zeichenfeld
lateral geschriebene Zeichen enthält, die Zeichenzusammenstellungseinheit
einen Bildelementbereich in der Richtung der Breite der Zeichen
erhält,
während
n inkrementiert wird, was in Verbindung mit n Punkten in der Richtung
der Breite der Zeichen steht, um die Daten des Bildelementbereichs
mit den Muster-Maskendaten zuzuordnen.
Weiterhin, falls oder wenn das erhaltene Zeichenfeld longitudinal
geschriebene Zeichen enthält,
erhält
die Zeichenzusammenstellungs einheit einen Bildelementbereich in
der Richtung der Höhe
der Buchstaben, während
n inkrementiert wird, was in Verbindung mit n Punkten in der Richtung
der Höhe der
Buchstaben steht, um die Daten des Bildelementbereichs den Muster-Maskendaten zuzuordnen.
-
Weiterhin
gemäß einer
Ausführungsform
der vorliegenden Erfindung, umfasst das Zeichen-Erkennungs- und Übersetzungssystem
vorzugsweise eine Informationseinrichtung vom stationär angebrachten Typ,
welche eine externe Speichervorrichtung und eine Informationseinrichtung
vom tragbaren Typ aufweist, die abnehmbar mit der Informationseinrichtung vom
stationär
angebrachten Typ verbunden ist, und wobei zumindest die Zeichendatenbasis
in der externen Speichervorrichtung der Informationseinrichtung vom
stationär
angebrachten Typ bereit gestellt wird, während die anderen konstituierenden
Teile in der Informationseinrichtung vom tragbaren Typ bereit gestellt
werden. Insbesondere werden die Zeichendatenbasis, die Zeichen-Gestaltanalyse-Einheit
und die Masken-Lerneinheit in der Informationseinrichtung vom stationär angebrachten
Typ bereit gestellt, während
die anderen konstituierenden Teile in der Informationseinrichtung
vom tragbaren Typ bereit gestellt werden.
-
Gemäß dem derartig
aufgebauten Zeichen-Erkennungs- und Übersetzungssystem, können diejenigen
Zeichen, die auf Aussichtsführertafeln,
Namenstafeln von Gebäuden,
Hinweistafeln, Aussichtsführer-Prospekten,
Speisekarten von Restaurants, etc. geschrieben sind, auf welche
sich Reisende an ausländischen
Reiseorten häufig
beziehen, als Bilddaten abgetastet werden, um die Zeichen, die darin
enthalten sind, zu erkennen und zu übersetzen, und die Zeichen
von verschiedenen Sprachen, die so als Bilddaten abgetastet sind,
können
richtig erkannt und übersetzt
werden ohne Beschränkung
der Gestalt oder Größe der Zeichen
und Sprachen.
-
Gemäß einer
Ausführungsform
der vorliegenden Erfindung beinhaltet ein Spracherkennungs- und Übersetzungssystem
zur Erkennung einer Stimme und Übersetzung
der Stimme in Worte oder Sätze:
einen
Sprachspeicher zur Speicherung von Sprachdaten, welche eine Stimme
darstellen;
eine Rauschlöschungseinheit
zur Entfernung von Rauschdaten, welche einem Rauschen der Sprachdaten
entsprechen;
eine Lautdatenbasis zur Speicherung der Sprachdaten,
von welchen die Rauschdaten durch die Rauschlöscheinheit entfernt wurden
und der Rauschdaten;
eine erste Lautanalyseeinheit zur Extraktion
eines Merkmals der Sprache, welches den Sprachdaten entspricht,
die in der Lautdatenbasis gespeichert sind, und zur Extraktion eines
Merkmals des Rauschens, welches den Rauschdaten entspricht, die
in der Lautdatenbasis gespeichert sind;
eine Modelllerneinheit
zur Erzeugung eines akustischen Modells aus dem Merkmal der Sprache
und dem Merkmal des Rauschens, welche durch die erste Lautanalyseeinheit
extrahiert wurden;
eine akustische Modellspeichereinheit zum
Speichern einer Vielzahl der akustischen Modelle, welche durch die
Modelllerneinheit erzeugt wurden;
eine zweite Lautanalyseeinheit
zur Extraktion eines Merkmals aus einer Sprache, welche übersetzt
werden soll und zur Extraktion eines Merkmals von Rauschen aus der
Sprache, die übersetzt
werden soll;
eine Sprachzuordnungseinheit zur Auswahl eines akustischen
Modells aus der Vielzahl von akustischen Modellen, die in der akustischen
Modellspeichereinheit gespeichert sind, basierend auf dem Merkmal,
des Rauschens, das durch die zweite Lautanalyseeinheit extrahiert
wurde, und zur Zuordnung des Merkmals der Sprache, die durch die
zweite Lautanalyseeinheit extrahiert wurde, zu dem gewählten akustischen
Modell um die Sprache zu erkennen; und
eine Übersetzungseinheit
zur Übersetzung
der Worte oder Sätze,
welche aus der Sprache zusammengesetzt sind, die durch die Sprachzuordnungseinheit
erkannt wurden.
-
Im
oben beschriebenen Spracherkennungs- und Übersetzungssystem ist es zu
bevorzugen, dass der Speicher dazu entworfen ist, die ersten Sprachdaten,
welche einer ersten Stimme entsprechen, in welcher Umgebungsrauschen
einer Stimme überlagert
ist zu speichern, welche erkannt und übersetzt werden soll, und die
zweiten Sprachdaten, die einer zweiten Sprache entsprechen, welche
von Umgebungsrauschen überlagert
ist.
-
Ferner
ist es in einem oben beschriebenen Spracherkennungs- und Übersetzungssystem
zu bevorzugen, dass die Rauschlöscheinheit
erste Sprachspektraldaten der ersten Sprachdaten mit zweiten Sprachspektraldaten
der zweiten Sprachdaten vergleicht, um Spektraldaten zu erhalten,
welche Daten entsprechen, aus denen das Rauschen entfernt ist.
-
Im
Spracherkennungs- und Übersetzungssystem
ist es weiter zu bevorzugen, dass die Lautdatenbasis dazu entworfen
ist, erste und zweite Spektraldaten darin zu speichern, während diese
einander zugeordnet werden.
-
Im
Spracherkennungs- und Übersetzungssystem
ist es weiter zu bevorzugten, dass vor der Eingabe der zu erkennenden
und zu übersetzenden Sprache,
die akustische Zuordnungseinheit die Rauschspektraldaten des Umgebungsrauschens,
die am selben Ort erhalten wurde, wie die Sprache den Daten eines
rausch-akustischen Modells zuordnet, welches auf der Basis der zweiten
Spektraldaten erhalten wurde, um die Art des Rauschens zu erkennen,
und weiter die Sprachdaten der zu erkennenden und zu übersetzenden
Sprache den Daten eines akustischen Modells der ersten Sprachdaten
zuordnet, die auf der Basis der Art des Rauschens bestimmt wird,
um die Sprache zu erkennen.
-
Im
oben beschriebenen Spracherkennungs- und Übersetzungssystem, ist es weiter
zu bevorzugen, dass ein Übersetzungsergebnis,
das durch die Übersetzungseinheit
erhalten wird, wenigstens durch Zeichen auf einer Anzeigevorrichtung
ausgegeben wird, und dass ein originaler Sprachtext, welcher Worte
oder Sätze
vor der Übersetzung
enthält
und ein Übersetzer-Sprachtext,
der Wörter
oder Sätze nach
der Übersetzung
enthält,
auf dem Schirm oder der Anzeigevorrichtung angezeigt wird. Besonders enthält das Übersetzungsergebnis
bevorzugt wenigstens eine Information, die einer Übersetzungsrate
entspricht, welche eine Übersetzungsgenauigkeit darstellt,
oder Information, die der Sprachart entspricht.
-
Im
oben beschriebenen Spracherkennungs- und Übersetzungssystem ist es weiter
zu bevorzugen, dass das Spracherkennungs- und Übersetzungssystem eine Informationsausrüstung stationärer Bauart
aufweist, welche eine externe Speichervorrichtung besitzt und einer
Informationsausrüstung von
tragbarer Bauart, die lösbar
mit der Informationsausrüstung
stationärer
Montagebauart verbunden ist, wobei wenigstens die Lautdatenbasis
in der externen Speichervorrichtung der Informationsausrüstung von stationär montierter
Bauart bereitgestellt ist, während andere
Teile in der Informationsausrüstung
tragbarer Bauart bereitgestellt werden. Besonders ist es weiter zu
bevorzugen, dass die Lautdatenbasis, die erste Sprachanalyseeinheit
und die Modelllerneinheit in der Informationsausrüstung der
stationär
montierten Bauart bereitgestellt werden, während die anderen Teile in
der Informationsausrüstung
von tragbarer Art bereitgestellt werden.
-
Gemäß dem oben
beschriebenen Spracherkennungs- und Übersetzungssystem, können verschiedene
Arten von Sprachen, die in einer Flughafenhalle, einem Bahnhof,
einem Flugzeug, einem Fahrzeug, einem Aussichtsort, usw. angekündigt werden,
auf welche sich Reisende bei Auslandsreiseorten verlassen, wie auch
Umgebungsgespräche Sprache
und Stimmen oder Ankündigungen
bei Vorlesungen usw. geeignet erkannt werden, sogar in einer lauten
Umgebung. Ferner können
die Worte oder Sätze,
die erkannte Sprache darstellen, durch ein Wörterbuch oder ein grammatikalisches
Wörterbuch erkannt
werden. Zusätzlich
können
Worte oder Sätze,
die als Schlüsselworte
dienen, in den erkannten Worten oder Sätzen analysiert und übersetzt
werden.
-
Demgemäß kann die
Sprache von jedem unspezifizierten Sprecher klar erkannt werden,
sogar in verschiedenen lauten Umgebungen, wie einer Flughafenhalle,
einem Bahnhof, einem Flugzeug, einem Fahrzeug, usw. und bei Aussichtsorten.
-
In
den Zeichnungen
-
1 ist
ein Blockdiagramm, das den Aufbau eines Zeichen-Erkennungs- und Übersetzungssystems
zeigt gemäß einer
ersten Ausführungsform der
vorliegenden Erfindung;
-
2 ist
ein Diagramm, welches ein Verfahren des Erzeugens von beispielhaften
Maskendaten zeigt gemäß der ersten
Ausführungsform
der vorliegenden Erfindung;
-
3 ist
ein Flussdiagramm für
das Verfahren zum Erzeugen beispielhafter Maskendaten in der ersten
Ausführungsform;
-
4 ist
ein Diagramm, welches das Verfahren zeigt zum Zusammenstellen beispielhafter
Maskendaten gemäß der ersten
Ausführungsform
der vorliegenden Erfindung;
-
5 ist
ein Flussdiagramm für
das Verfahren zum Zusammenstellen beispielhafter Maskendaten der
ersten Ausführungsform
der vorliegenden Erfindung;
-
6A und 6B zeigen
eine tragbare Übersetzungsvorrichtung,
auf welche das Zeichen-Erkennungs- und Übersetzungssystem der ersten
Ausführungsform
angewandt wird;
-
7A und 7B zeigen
ein Beispiel eines Zeichen-Spezifizierungsbereichs der ersten Ausführungsform
der vorliegenden Erfindung;
-
8 zeigt
ein Blockdiagramm, welches den Aufbau des Spracherkennungs- und Übersetzungssystems
gemäß einer
zweiten Ausführungsform
der vorliegenden Erfindung zeigt;
-
9 zeigt
ein Flussdiagramm zur Erzeugung eines akustischen Modells in jeder
zweiten Ausführungsbeispiel
der vorliegenden Erfindung;
-
10 zeigt
ein Flussdiagramm zur Erkennung von Ansagen in der zweiten Ausführungsform der
vorliegenden Erfindung;
-
11 zeigt
ein Diagramm, welches Ansagespracherkennung gemäß einer lauten Umgebung in
dem zweiten Ausführungsbeispiel
veranschaulicht;
-
12A und 12B sind
Diagramme, welche ein tragbares Übersetzungsgerät zeigen,
an welchem das Spracherkennungs- und Übersetzungssystem der zweiten
Ausführungsform;
und
-
13 zeigt
ein Diagramm, welches eine Anzeige auf einem Schirm der Anzeige
des tragbaren Übersetzungsgeräts zeigt,
das in 12B gezeigt ist.
-
Ausführungsformen
gemäß der vorliegenden Erfindung
werden unten unter Bezugnahme auf die begleitenden Zeichnungen beschrieben
werden.
-
In 1 stellt
das Bezugszeichen 101 ein Erkennungssystem zum Ausführen einer
Zeichenerkennung dar, das Bezugszeichen 102 stellt ein
Lernsystem zum Erzeugen beispielhafter Maskendaten dar, das zur
Zeichenerkennung benötigt
wird, und das Bezugszeichen 103 stellt ein Übersetzungssystem
zum Empfangen eines Erkennungsergebnisses vom Erkennungssystem zum
Analysieren von Sätzen
auf der Grundlage von Schlüsselwörtern dar
und um sie zu übersetzen.
Das Bezugszeichen 104 stellt eine Kamera dar, die ein CCD
oder Ähnliches
aufweist, um als Bilddaten Zeichen abzutasten, die geschrieben sind
auf Führertafeln,
Namenstafeln von Gebäuden,
Speisekarten von Restaurants, Aussichts-Führer-Prospekten, etc. Hier
wird, um die erlaubte minimale Auflösung pro Zeichen sicher zu
stellen, die zur Zeichenerkennung erforderlich ist, eine Bildanalyse
durchgeführt
unter Verwendung einer hoch auflösenden
Kamera oder unter Verwendung von mehreren Kameras. Entsprechend
ist die Auflösung
der Zeichen in einem Zeichen-Spezifikationsbereich,
wie später
beschrieben wird, welche angezeigt werden auf einer Flüssigkristall-Anzeigevorrichtung oder ähnlichem,
deutlich verschieden von der Auflösung von Zeichen-Bilddaten,
die aufgenommen werden zur Erken nungsverarbeitung, und die letztere Auflösung ist
größer als
die erste Auflösung.
Das Bezugszeichen 129 stellt eine Anzeige dar, die eine Licht
emittierende Diode (LED) umfasst, und das Bezugszeichen 130 stellt
einen Lautsprecher dar. Das Verarbeitungsergebnis des Übersetzungssystems 103 wird
als ein Bild und als eine Stimme, die Sätze enthält von der Anzeige 129 bzw.
dem Lautsprecher 130 ausgegeben.
-
In
dem Erkennungssystem 101 stellt das Bezugszeichen 105 einen
A/D-Konverter dar, das Bezugszeichen 106 stellt eine Zeichen-Digitalisier-(Binär)-Verarbeitungseinheit
dar, das Bezugszeichen 107 stellt eine Rauschtilgungs-(Entfernungs)-Einheit dar,
das Bezugszeichen 108 stellt eine Zeichen-Teileinheit dar,
das Bezugszeichen 109 stellt eine Zusammenstellungseinheit
dar, das Bezugszeichen 110 stellt eine Beurteilungseinheit
dar, das Bezugszeichen 111 stellt eine Beispiel-Maskenspeichereinheit dar,
das Bezugszeichen 112 stellt ein Wörterbuch dar, das Bezugszeichen 113 stellt
ein Grammatik-Wörterbuch
dar und das Bezugszeichen 114 stellt eine Verbindungseinheit
dar.
-
Weiterhin
stellt in dem Lernsystem 102 das Bezugszeichen 115 eine
Zeichen-Datenbasis
in großem
Maßstab
dar, das Bezugszeichen 116 stellt eine Zeichen-Gestaltanalyse-Einheit
dar und das Bezugszeichen 117 stellt eine Masken-Lerneinheit dar.
-
Im Übersetzungssystem 103 stellt
das Bezugszeichen 119 eine Schlüsselwort-Analyseeinheit dar, das Bezugszeichen 120 stellt
ein Wort-Bedeutungswörterbuch
(Wörterbuch
für Wörter) dar,
das Bezugszeichen 122 stellt einen Mittel-Sprach-Prozessor dar, das
Bezugszeichen 123 stellt eine Satzbildungseinheit dar,
das Bezugszeichen 124 stellt ein Wörterbuch dar, das Bezugszeichen 125 stellt
ein Satzstrukturbeispiel-Wörterbuch
(Wörterbuch
für Sätze) dar,
das Bezugszeichen 126 stellt einen Lautsyntheseprozessor
dar, das Bezugszeichen 127 stellt ein Lautwörterbuch
dar und das Bezugszeichen 128 stellt einen D/A-Wandler
dar.
-
In
dem derartig aufgebauten Lernsystem 102 werden Standbilddaten,
die Zeichenfelder enthalten, die von einer Kamera (CCD-Kamera) 104 fotografiert (abgetastet)
wurden und dann von Analogsignalen in Digitalsignale umgewandelt
werden, in der Massen-Zeichendatenbasis 115 akkumuliert
und gespeichert. Auf der Grundlage der Standbilddaten, die in der
Massen-Zeichendatenbasis 115 gespeichert sind, führt die
Zeichen-Gestaltanalyse-Einheit 116 eine Binär-(digitalisierende)-Verarbeitung
des Digitalisierens der Bilddaten aus, die Zeichen enthalten, eine
Extraktionsverarbeitung zur Extraktion eines Zeichens vom Hintergrund,
welche Rauschentfernungsverarbeitung einschließt, eine Extraktionsverarbeitung
des Analysierens der Gestalt eines Zeichens, um die Merkmale der
Zeichen aufbauenden Elemente zu extrahieren, welche das Zeichen
aufbauen.
-
Danach
empfängt
die Masken-Lerneinheit 117 das Ergebnis der Merkmalsextraktion
eines Zeichens von der Zeichen-Gestaltanalyse-Einheit 116 und
erzeugt Muster-Maskendaten auf der Grundlage des Merkmal-Extraktionsergebnisses.
Die Muster-Maskendaten, die von der Masken-Lerneinheit 117 erzeugt
werden, werden in der Beispiel-Maskenspeichereinheit 111 in
dem Erkennungssystem 101 gespeichert.
-
Das
Einlesen von Bildzeichendaten in die Massen-Zeichendatenbasis kann
zu jeder Zeit durchgeführt
werden. Trotzdem ist es zu bevorzugen, dass die Verarbeitung durch
das Lernsystem 102 vor der Einleseoperation abgeschlossen
wurde, wie oben beschrieben, falls zusätzliche oder ausreichende Zeit zur
Verfügung
steht. Weiterhin ist es wünschenswert, im
Voraus die Bildzeichendaten zu erhalten, die Zeichen von mehreren
verschiedenen Schreibstilen für jeden öffentlich
bekannten Zeichensatz (jeden Zeichen-Code) entsprechen.
-
Wie
die Muster-Maskenspeichereinheit 111 ist das Erkennungssystem 101 auch
mit dem Wörterbuch 112 und
dem Grammatik-Wörterbuch 113 versehen,
die erforderlich sind, um Wörter
oder Sätze
zu erkennen. Zum Beispiel sind in einem Fall, in dem die Zeichen,
die von einer Kamera abgetastet werden, in französisch geschrieben sind und
diese Zeichen ins Japanische übersetzt
werden sollen, die Muster-Maskenspeichereinheit 111, das
Wörterbuch 112 und
das Grammatik-Wörterbuch 113 entworfen,
dem Französischen
zu entsprechen. Es ist weiter vorzuziehen, dass ein Speichermedium
mit großer
Kapazität,
wie z.B. eine austauschbare IC-(integrierte Schaltkreis)-Karte,
CD-ROM (schreibgeschützter Compact-Disc-Speicher)
oder Ähnliches
für die
Beispiel-Maskenspeichereinheit 111, das Wörterbuch 112 und
das Grammatik-Wörterbuch 113 verwendet wird,
damit das System der vorliegenden Erfindung in einem Mehr-Sprachen-Modus
verwendet werden kann.
-
In
dem Fall, in dem das Zeichen-(Dokument)-Erkennungs- und Übersetzungssystem
auf eine Vorrichtung angewandt wird, welche eine Beschränkung in
ihrem Hardware-Maßstab
(Größe) aufweist,
wie z.B. eine tragbare Übersetzungsmaschine,
kann das Lernsystem 102 in einem Personalcomputer installiert
werden, während
andere Teile in einer tragbaren Übersetzungsvorrichtung
installiert sind, wie später
beschrieben. Die Verarbeitung des Lernsystems 102 wird
später
beschrieben werden.
-
In
dem Erkennungssystem 101 werden die Bilddaten, die von
der CCD-Kamera 104 abgetastet werden und dann von dem A/D-Wandler 105 in
digitale Signale umgewandelt werden, einer Binärverarbeitung unterworfen durch
den Zeichen-Binär-Prozessor 106.
Zu diesem Zeitpunkt werden die binären Bilddaten normalisiert
durch ein Auflösungsumwandlungsverfahren
und umgewandelt in Bilddaten von m × n Bildelementen (Punkten),
die ein Zeichenfeld enthalten. Danach werden die Bilddaten einer
Rauschbeseitigungsverarbeitung unterworfen, um Hintergrundrauschen
und jedes weitere Rauschen herauszuschneiden, so dass nur Zeichendaten übrig bleiben.
Danach trennt die Zeichenteileinheit 108 einen Zeichenbereich
von dem m × n
Bildelementen (Punkten) umfassenden Zeichenfeld ab, während n
inkrementiert wird (d.h. Erhöhen
von n durch jedes Bildelement (Punkt)). Diese abgetrennten Zeichenbereiche
werden als elementare Zeichenbestandteile, welche ein Zeichen ausmachen,
den Muster-Maskendaten zugeordnet, die in der Muster-Maskendatenspeichereinheit 111 durch
die Zusammenstellungseinheit 109 gespeichert sind.
-
Danach
wird ein Zeichen durch entsprechend zugeordnete elementare Zeichenbestandteile aufgebaut
und dann wird das so aufgebaute Zeichen erkannt. Weiterhin werden
Zeichen, die so erkannt werden, in der Verbindungseinheit 114 durch
Bezugnahme auf das Wörterbuch 112 und
das Grammatik-Wörterbuch 113 miteinander
verbunden und dann werden die aufeinanderfolgenden Zeichen, die
von der Verbindungseinheit 114 verbunden werden, zusammengestellt,
um ein Wort oder einen Satz durch die Beurteilungseinheit 110 zu
erkennen. In 1 bezeichnet das Bezugszeichen 118 kodierte
Daten, die von dem Erkennungssystem 101 ausgegeben werden
und steht für
ein Wort oder einen Satz. Die genauere Verarbeitung der Zusammenstellungseinheit 109 wird
beschrieben.
-
In
dem Übersetzungssystem 103 werden
die kodierten Daten 118, die ein Wort oder einen Satz darstellen
und die von dem Erkennungssystem 101 ausgegeben werden,
durch die Schlüsselwort-Analyseeinheit 119 analysiert,
um zu beurteilen, ob das Wort oder der Satz ein tatsächliches
Schlüsselwort für eine Übersetzung
darstellt, und die Bedeutung eines solchen Wortes oder Satzes wird
auf der Basis des Schlüsselworts
erkannt. Außerdem
wird eine Mittelsprache, die lediglich die Bedeutung des Satzes darstellt
und die nicht von irgendeiner besonderen gesprochenen Sprache irgendeines
Landes abhängig
ist, in dem Mittelsprachprozessor 122 erzeugt.
-
Die
Schlüsselwort-Analyseeinheit 119 ist
mit dem Wortbedeutungswörterbuch
(Wörterbuch
für Wörter) 120 und
einem Satzstrukturbedeutungswörterbuch
(Wörterbuch
für Sätze) 121 verbunden.
Zum Beispiel, wenn Zeichen, die von der CCD-Kamera 104 abgetastet
werden, in französisch
geschrieben sind und wenn sie in das Japanische übersetzt werden sollen, sind
das Wörterbuch
für Wörter 120 und das
Wörterbuch
für Sätze 121 dazu
entworfen, dem Französischen
zu entsprechen. Um dieses System in einem Mehrsprachen-Modus zu
verwenden, wird vorzugsweise ein Speichermedium großer Kapazität, wie z.B.
eine austauschbare IC-Karte oder eine CD-ROM für das Wörterbuch für Wörter 120 und das Wörterbuch
für Sätze 121 verwendet.
-
Die
Mittelsprache, die in dem Mittelsprachprozessor 122 erzeugt
wird, wird übersetzt
in Sätze, die
in der gewünschten
Sprache geschrieben sind. Die Satzbildungseinheit 123 ist
verbunden mit dem Wörterbuch 124 und
dem Wörterbuch
für Sätze 125, die
z.B. dem Japanischen entsprechen. Der übersetzte Satz wird auf dem
Bildschirm der Anzeige 129 angezeigt. Der übersetzte
Satz wird weiter in eine digitale Stimme in dem Lautsyntheseprozessor 126 umgewandelt,
weitergegeben durch den D/A-Umwandler 128 zum Umwandeln der digitalen
Signale in analoge Signale und dann von dem Lautsprecher 130 als
eine Stimme ausgegeben.
-
Der
Lautsyntheseprozessor 126 ist mit dem Wörterbuch für Sätze 125 und einem
Schallwörterbuch 127 verbunden,
die z.B. dem Japanischen entsprechen. Um dieses System in einem
mehrsprachigen Modus zu verwenden, wird ein Speichermedium von großer Kapazität, wie z.B.
eine austauschbare IC-Karte, eine CD-ROM, oder Ähnliches vorzugsweise für das Wörterbuch 124,
das Wörterbuch
für Sätze 125 und
das Schallwörterbuch 127 verwendet.
-
Jeder
Verarbeitungsschritt, der in dem Blockdiagramm in 1 gezeigt
ist, kann von einem System, das mehrere LSI-(large-scale integrated)-Schaltkreise
und einen Speicher umfasst erhalten werden oder durch ein oder mehrere
Systeme auf Chips, die auf einer Halbleitervorrichtung ausgebildet sind.
-
Als
Nächstes
wird die detaillierte Verarbeitung des Lernsystems 102 beschrieben
werden.
-
2 zeigt
ein Verfahren zum Erzeugen von Muster-Maskendaten im Lernsystem 102 und 3 ist
ein Flussdiagramm, das einen Muster-Maskendatenerzeugungsprozess
zeigt.
-
Die
Zeichen-Gestaltanalyse-Einheit 116 führt eine Binärverarbeitung
auf Bilddaten aus, die Zeichen enthalten, die von der Massen-Zeichen-Datenbasis
geliefert werden, gespeichert mit Standbilddaten, welche ein Zeichenfeld
enthalten, die in digitale Signale umgewandelt wurden. Die binären Bilddaten werden
durch ein Auflösungsumwandlungsverfahren normalisiert
und in Bilddaten 201 (2) von m × n Bildelementen
(Punkte oder Pixel) eines Zeichenfeldes (lateral geschrieben) umgewandelt
(Schritt ST301). Weiterhin wird die Extraktionsverarbeitung der
Extraktion eines Zeichenbereichs vom Hintergrund durchgeführt, welche
die Rauschbeseitigungsverarbeitung beinhaltet, um die Gestalt jedes
Zeichens zu analysieren; um z.B. die Merkmale elementarer Zeichenbestandteile
zu extrahieren, welche ein Zeichen "M" von
m × n
Bildelementen (Punkte), gezeigt 2 aufbauen.
Um diese Verarbeitung durchzuführen,
wird "1" (schwarz) oder "0" (weiß) detektiert für die m × n Bildelemente
während
n (= 1, 2 3, ....) inkrementiert wird für jedes Bildelement (Punkte)
in lateraler Richtung und der Zeichenbereich von m × n Bildelementen
wird eingeteilt in Bildbereiche (202 bis 205 in 2)
von elementaren Zeichenbestandteilen m × n1 (n1 ≤ n), m × n2 (n2 ≤ n), m × n3 (n3 ≤ n), m × n4 (n4 ≤ n), wobei jeder elementare Zeichenbestandteil
ein Merkmal, wie z.B. den Umriss eines Zeichens oder Ähnliches,
enthält.
Zum selben Zeitpunkt werden ein Gewichtungskoeffizient, der eine
Kennzeichnung eines Zeichens darstellt (d.h. darstellt, was das
betreffende Zeichen ist) und Attribute, die den Beginn, die Verbindung
und das Ende des Zeichens darstellen, analysiert (Schritt ST302).
Danach gewichtet die Masken-Lerneinheit 117 die Merkmale der
Teile, des geteilten Zeichens. Falls der Typ des Zeichens auf der
Grundlage von lediglich einem Teil des Zeichens abgeschätzt wird,
wird der Gewichtungskoeffizient des Teils auf einen großen Wert (Schritt
ST303) eingestellt. Weiterhin wird das Attribut, welches den Beginn,
die Verbindung und das Ende des Zeichens darstellt, addiert, um
Beispiel-Maskendaten (Schritt ST304) zu erzeugen.
-
Als
Nächstes
wird die detaillierte Verarbeitung der Zusammenstellungseinheit 109 im
Erkennungssystem 101 beschrieben werden.
-
4 zeigt
einen tatsächlichen
Fall, in den Zeichendaten, die tatsächlich als Kamerabilddaten abgetastet
wurden an einem ausländischen
Reiseort Muster-Maskendaten
in einer tragbaren Übersetzungsvorrichtung
zugeordnet werden, um ein Zeichen "M" zu
erkennen. 5 ist ein Flussdiagramm, das
einen Zeichenzuordnungsstellungsprozess, gezeigt in 4,
zeigt.
-
Zuerst
werden m × n
Bildelemente eines Zeichen-Spezifikationsbereichs für ein Zeichen,
das erkannt und übersetzt
werden soll spezifiziert, und sie werden abgetastet als Kamerabilddaten
(Schritt ST501). Das Bezugszeichen 401 in 4 stellt
ein Zeichen "M" dar, entsprechend
den Bildelementen (m × n),
die als die Kamerabilddaten abgetastet wurden. Zu diesem Zeitpunkt
wird im Zeichen-Binär-Prozessor 106,
falls die Auflösung
der abgetasteten Zeichendaten verschieden ist von der der Beispiel-Maskendaten,
eine Auflösungsumwandlung
auf den abgetasteten Zeichendaten durchgeführt, um die Zeichendaten so
zu normalisieren, dass die Auflösung von
m Punkten in der Richtung der Höhe
des Zeichens gleich gemacht wird zwischen den abgetasteten Zeichendaten
und den Muster-Maskendaten
in einem Fall, in dem das Zeichen in einem lateralen Schreibstil
(Schritt ST502) geschrieben ist. Bezüglich der Auflösung von
n Punkten in Richtung der Breite ist es vorzuziehen, mehrfache Muster-Masken
vorzubereiten, welche verschiedene Werte von n aufweisen.
-
Danach
wird eine Zeichenfläche
sukzessive aus den Zeichendaten 401 durch Inkrementieren
des Wertes von n (= 1, 2, 3, ...) in jedem Bildelement (Punkt) in
lateraler Richtung erzeugt, und die Daten dieser Flächen, die
so erzeugt wurden, werden den Muster-Maskendaten zugeordnet, um
eine Korrelation durchzuführen,
welche die Gewichtskoeffizienten der Beispiel-Maskendaten, zwischen
den Zeichendaten und den Beispiel-Maskendaten enthält.
-
Falls
die Korrelation ein Maximum darstellt, wird eine nachfolgende Bildelementfläche erzeugt, um
eine Korrelation auf die gleiche Weise wie oben beschrieben (Schritt
ST503) vorzunehmen. Zum Beispiel wird von der Korrelation zwischen
den Bildelementflächen
(402 bis 405 in 4) von m × n1 (n1 ≤ n), m × n2 (n2 ≤ n), m × n3 (n3 ≤ n), m × n4 (n4 ≤ n) und den
Beispiel-Maskendaten (407 bis 410 in 4)
angenommen, dass sie die Beste sei. Hier bezeichnet das Bezugszeichen 411 in 4 Muster-Maskendaten,
die elementare Zeichenbestandteile eines anderen Zeichens darstellen.
Die Bezugszeichen 412, 413, 414 und 415 stellen
Bilddaten dar, die jeweils Gewichtungskoeffizienten von 0,7, 0,3,
0,8 und 0,4 enthalten.
-
Wie
oben beschrieben, werden die Beispiel-Maskendaten mit dem Attribut
des Beginns, der Verbindung und des Endes des Zeichens versehen, womit
eine Zeitspanne zum Suchen von Muster-Maskendaten vom Speicher verkürzt werden
kann. Schließlich
wird ein Zeichen-Code "M" 421 von
mehreren Zeichen-Codes 420 als ein Zielzeichen-Code auf
der Grundlage der Muster-Maskendaten ausgewählt, welcher die maximale Summe
der Korrelationswerte (Schritt S7504) bereit stellt. In 4 bezeichnen
die Bezugszeichen 418 und 419 Signale, die andere
Beispiel-Maskendaten anzeigen, von denen jedes die maximale Summe
der Korrelationswerte bereit stellt.
-
6A zeigt
eine tragbare Übersetzungsvorrichtung,
auf welche das Bildzeichen-Übersetzungssystem
der vorliegenden Erfindung angewandt wird, und 6B zeigt
eine Außenansicht
der Vorrichtung.
-
In 6A wird
ein Erläuterungssatz,
der in einer fremden Sprache unter einer Bronzestatue geschrieben
ist, von dem System erkannt und übersetzt.
Ein Benutzer gibt die Wörter
oder Sätze,
die er wissen will, innerhalb einer rechteckigen Fläche an, während er
sie durch den Sucher der tragbaren Übersetzungsvorrichtung betrachtet.
Das bezeichnete Zeichenfeld wird sofort der Zeichenerkennung unterworfen.
Zum Beispiel wird, wenn der Benutzer eine japanisch sprechende Person
ist, das Zeichenfeld in das Japanische übersetzt.
-
In 6B stellt
das Bezugszeichen 601 den Hauptkörper der tragbaren Übersetzungsmaschine dar,
und Bezugszeichen 602 stellt eine CDD-Kamera zum Aufnehmen
eines Zeichenbildes dar. Die Bezugszeichen 603 und 604 stellen
IC-Karten dar. In der
IC-Karte 603 werden Daten zum Aufbauen der Beispiel-Maskenspeichereinheit 111,
des Wörterbuchs 112,
des Grammatik-Wörterbuchs 113,
des Wörterbuchs
für Wörter 120 und
des Wörterbuchs
für Sätze 121 gespeichert,
um die Zeichenerkennung und -übersetzung
durchzuführen.
Weiterhin werden in der IC-Karte 604 Daten zum Aufbauen
des Wörterbuchs 124,
des Wörterbuchs
für Sätze 125 und
des Lautwörterbuchs 127 zum
Durchführen
der Zeichenerkennung und -übersetzung
gespeichert.
-
Das
Bezugszeichen 605 stellt eine Flüssigkristallanzeige zum Anzeigen
einer Zeichen spezifizierenden Fläche dar, um das Zeichenfeld
eines Wortes oder eines Satzes zu spezifizieren, für welches die
Zeichenerkennung und -übersetzung
gewünscht wird,
und eines Zeichenerkennungs- und Übersetzungs-Ergebnisses. Bezugszeichen 606 stellt
einen Lautsprecher dar, zum Ausgeben des Zeichen-Erkennungs- und Übersetzungsergebnisses durch
eine Stimme.
-
7A und 7B sind
Diagramme, die einen Zeichenkennzeichnungsbereich zum Kennzeichnen
eines Zeichenfeldes von einem Wort oder einem Satz zeigen, für welche
Zeichenerkennung- und -übersetzung
gewünscht
wird.
-
7A zeigt
ein Zeichenspezifikationsverfahren, wenn das Zeichenfeld lateral
geschrieben ist. In 7A bezeichnet das Bezugszeichen 703 einen Sucherbereich
oder eine Anzeigefläche
zum Anzeigen des Sucherbereichs. Sowohl das Bezugszeichen 701 als
auch das Bezugszeichen 702 stellen einen Zeichenkennzeichnungsbereich
zum Kennzeichnen des Zeichenfeldes eines Wortes oder eines Satzes dar,
von denen gewünscht
wird, dass sie erkannt und übersetzt
werden. Die Zeichenspezifizierungsbereiche 701 und 702 haben
jeweils eine Größe von m × n Bildelementen
(Punkten); d.h. m Bildelemente (Punkte) in Richtung der Höhe des Zeichens
und n Bildelemente (Punkte) in der lateralen Richtung der Zeichen.
Die Größe von jedem
Zeichen-kennzeichnenden Bereich kann unabhängig verändert werden. Zusätzlich sind
die Zeichen-kennzeichnenden Bereiche 701 und 702 unabhängig in
jeder beliebigen Lage angeordnet. Entsprechend können die Zeichen-kennzeichnenden Flächen in
jeder gewünschten
Lage angeordnet sein, um verschiedene Zeichen zu bedecken, die in
allen beliebigen Lagen auf einer Führertafel, einer Namenstafel
eines Gebäudes,
einer Speisekarte eines Restaurants, einem Aussichts-Führer-Prospekt
oder Ähnlichem
geschrieben sind. In 7A bezeichnet das Bezugszeichen 704 einen Übersetzungsanzeigebereich
zum Anzeigen eines Übersetzungsergebnisses
des Zeichenfeldes eines Wortes oder eines Satzes, von denen gewünscht wird,
dass sie erkannt und übersetzt
werden.
-
Ebenso
zeigt 7B ein Zeichen-kennzeichnendes
Verfahren, wenn das Zeichenfeld in vertikaler Richtung geschrieben
ist. In 7B bezeichnet das Bezugszeichen 707 einen
Sucherbereich oder einen Anzeigebereich zum Anzeigen des Sucherbereichs.
Beide Bezugszeichen 705 und 706 stellen einen
Zeichen-kennzeichnenden
Bereich zum Kennzeichnen des Zeichenfeldes eines Wortes oder eines
Satzes dar, die erkennt und übersetzt
werden müssen.
Wie die Zeichen-kennzeichnende
Bereiche von 7A weisen sowohl der Zeichen-kennzeichnende Bereich 705 als
auch 706 eine Größe von m × n Bildelementen
(Punkten) auf, welche m Bildelemente (Punkte) in lateraler Richtung
des Zeichens und n Bildelemente (Punkte) in der vertikalen Richtung
umfasst. Die Größe jedes
Zeichen-kennzeichnenden Bereichs kann unabhängig verändert werden.
-
Weiterhin
kann sowohl der Zeichen-kennzeichnende Bereich 705 als
auch 706 in jeder beliebigen Lage angeordnet sein. Entsprechend
können die
Zeichen-kennzeichnenden
Bereiche in jeder gewünschten
Lage angeordnet sein, um verschiedene Zeichen zu überdecken,
die in jeder beliebigen Lage auf einer Führertafel, einer Namenstafel
eines Gebäudes,
einer Speisekarte eines Restaurants, eines Aussichts-Führer-Prospekts
oder Ähnlichem
geschrieben sind. In 7B bezeichnet das Bezugszeichen 708 ein Übersetzungsanzeigebereich
zum Anzeigen eines Übersetzungsergebnisses
des Zeichenfeldes eines Wortes oder eines Satzes, die erkannt und übersetzt
werden müssen.
-
Gemäß dieser
Ausführungsform
kann das Zeichen-Erkennungs- und Übersetzungssystem zum genauen
Erkennen und Übersetzen
von Zeichen von verschiedenen Sprachen bereit gestellt werden, die als
Kamera-Bilddaten abgetastet werden ohne Beschränkung in der Gestalt oder Größe der Zeichen oder
der Sprache. Entsprechend können
Zeichen, die geschrieben sind auf Aussichts-Führer-Tafeln, Namenstafeln von
Gebäuden,
Hinweistafeln, Prospekten, Speisekarten von Restaurants, etc., auf
welche Reisende an ausländischen
Reiseorten Bezug nehmen, als Kamera-Bilddaten abgetastet werden und
zuverlässig
erkannt und übersetzt
werden. Deshalb kann ein Benutzer leicht die Bedeutung des Zeichens
(Sätze),
wie oben beschreiben, verstehen.
-
Als
nächstes
wird eine zweite Ausführungsform
gemäß der vorliegenden
Erfindung im Einzelnen beschrieben.
-
8 zeigt
ein Blockdiagramm, welches den Aufbau eines Spracherkennungs- und Übersetzungssystems
gemäß einer
zweiten Ausführungsform
der Erfindung zeigt.
-
In 8 bezeichnet
Bezugszeichen 801 ein Erkennungssystem zur Durchführung von
Spracherkennung, Bezugszeichen 823 bezeichnet ein Lernsystem
zur Erzeugung eines akustischen Modells, das für die Spracherkennung benötigt wird,
und Bezugszeichen 828 bezeichnet ein Übersetzungssystem zum Empfangen
eines Erkennungsergebnisses vom Erkennungssystem und zur Analyse
von Sprache auf der Basis von Schlüsselworten, um Sprache zu übersetzen.
-
Bezugszeichen 802 bezeichnet
ein Richtungsmikrofon, und Bezugszeichen 803 bezeichnet ein
Vielrichtungsmikrofon. Diese Mikrofone sind bereitgestellt, um verschiedene
Sprachen zu erkennen, die in einem Flughafen, einem Bahnhof, ei nem
Flugzeug, einem Fahrzeug wie einem Bus, einer U-Bahn, einem Taxi
oder ähnlichem,
in einem Gebäude
bei einem Aussichtsort, usw. angesagt werden, sowohl als auch Umgebungssprache,
Stimmen bei Vorlesungen usw.
-
In
der zweiten Ausführungsform,
sind sowohl das Richtmikrofon 802 als auch das Vielrichtungsmikrofon 803 bereitgestellt
und das Richtmikrofon wird dazu verwendet, um verlässlich eine
bestimmte gewünschte
Stimme aufzunehmen (Zielsprache), während das Vielrichtungsmikrofon 803 dazu
verwendet wird, die gesamten Umgebungsgeräusche aufzunehmen (verschiedene
Geräusche,
die Umgebungsstimmen und Rauschen enthalten) an einem beliebigen
Aufzeichnungsort. Demgemäß können die Eigenschaften
von jedem Mikrofon individuell am wirksamsten verwendet werden.
Jedoch kann lediglich ein Mikrofon verwendet werden oder eine Vielzahl
von Mikrofonen kann verwendet werden. Dies bedeutet, dass die Anzahl
von Mikrofonen, welche verwendet wird, nicht beschränkt ist.
Ferner kann die Bauart des zu verwendeten Mikrofons auf jedes von Richtmikrofon
oder dem Vielrichtungsmikrofon beschränkt werden.
-
Bezugszeichen 839 bezeichnet
eine Anzeige, welche ein LCD (Lichtemissionsdiode) oder ähnliches
beinhaltet, und Bezugszeichen 840 bezeichnet ein Schallausgabemittel,
wie einen Lautsprecher, einen Kopfhörer oder ähnliches. Die Anzeige 839 und die
Schallausgabemittel 840 dienen zur Ausgabe des Verarbeitungsergebnisses
des Übersetzungssystems 828 als
Bild, welches jeweils einen Satz (Sätze) und eine Sprache, die
einen Satz (Sätze)
beinhaltet, enthält.
-
Im
Erkennungssystem 801, bezeichnet Bezugszeichen 804 einen
A/D (Analog-Digital-Wandler) zur
Wandlung analoger Signale vom Richtmikrofon 802 in digitale
Signale, und Bezugszeichen 806 bezeichnet Digitaldaten
einer Ansagesprache, welche eine Zielsprache darstellt und durch
den A/D-Wandler 804 gewandelt wird.
-
Gemäß dieser
Ausführungsform,
sind die digitalen Daten 806 der Ankündigungssprache aus 16 Bits
zusammengesetzt (d.h. ausgedrückt
mit) und enthalten Rauschdaten an verschiedenen Orten. Bezugszeichen 805 bezeichnet
einen A/D-Wandler
zur Wandlung analoger Signale des Vielrichtungsmikrofons 803 in
digitale Signale. Bezugszeichen 807 bezeichnet digitale
Daten des Gesamtschalls, welche durch den A/D-Wandler 80 gewandelt
werden und beinhaltet Rauschen, wenn es keine Sprachansage gibt.
In dieser Ausführungsform
bestehen die digitalen Daten 807 des Gesamtumgebungsschalls
bei verschiedenen Orten aus 16 Bits (d.h. ausgedrückt mit).
-
Bezugszeichen 808 bezeichnet
einen Sprachrekorder zur digitalen Aufzeichnung der digitalen Daten 806 der
Ansagesprache, welche durch den A/D-Wandler 804 gewandelt
werden und der digitalen Daten der Umgebungsgeräusche bei verschiedenen Orten,
welche durch den A/D-Wandler 805 gewandelt werden, wenn
keine Ansagesprache gegeben wird, und Speichern dieser Daten in
einem Speicher 809. Die digitalen Daten 806 der
Ansagesprache und die digitalen Daten 807 des Gesamtgeräusches bei
verschiedenen Orten, wenn es keine Ansagesprache gibt, werden im
Speicher 809 so gespeichert, dass diese Daten parallel
von diesem ausgelesen und in diesen Speicher eingeschrieben werden
können.
Bezugszeichen 810 bezeichnet die digitalen Daten der Ansagesprache,
welche vom Speicher 809 durch den Sprachrekorder 808 ausgelesen wird
und Bezugszeichen 811 bezeichnet die digitalen Daten des
Gesamtschalls bei verschiedenen Orten, welche von dem Speicher 809 durch
den Sprachrekorder 808 ausgelesen ist, wenn es keine Ansagesprache
gibt.
-
Bezugszeichen 812 bezeichnet
eine Rauschlöscheinheit
zum Empfangen der digitalen Daten 810 der Ansagesprache
und der digitalen Daten 811 des Gesamtschalls bei verschiedenen
Orten, wenn keine Ansagesprache gegeben ist, und zur Entfernung
von Rauschen aus den digitalen Daten 810 der Ansagesprache,
welche Rauschen enthält.
Bezugszeichen 813 bezeichnet die digitalen Daten der Ansagesprache,
welche durch Erkennung des Rauschens und der Rauschlöscheinheit 812 erhalten werden,
aus den digitalen Daten 810 der Ansagesprache, welche das
Rauschen enthält.
In diesem Ablauf kann das Rauschen nicht perfekt entfernt werden,
aber es wird vermindert, weil die Ansagesprache relativ hervorgehoben
wird.
-
Gemäß dieser
Ausführungsform
ist das System so entworfen, dass die Art des Rauschens erkannt
wird, und als ein Schlüssel
verwendet wird, um Ansagesprachen oder Umgebungssprachen in einer lauten
Umgebung an verschiedenen Orten, wie später beschrieben, zu erkennen.
Dieser Aspekt des Systementwurfs erleichtert den Suchablauf eines akustischen
Modus zur akustischen Zuordnung, um Spracherkennung durchzuführen.
-
Bezugszeichen 814 steht
für Daten,
die sowohl digitale Daten 813 der Ansagesprache enthalten,
die durch Entfernung des Rauschens aus den digitalen Daten 810 der
Ansagesprache erhalten werden, welche Rauschen enthält und der
digitalen Daten 811 des Gesamtschalls an verschiedenen
Orten, wenn keine Ansagesprache gegeben wird, welche direkt aus
der Rauschlöscheinheit 812 ausgegeben werden.
-
Bezugszeichen 815 bezeichnet
eine Lautanalyseeinheit zur Durchführung von Lautmerkmalsextraktionsverarbeitung
an den digitalen Daten 813 der Ansagesprache, von welcher
das Rauschen entfernt wurde, indem eine Kurzzeitfrequenzanalyse verwendet
wird. Bezugszeichen 816 bezeichnet einen Abschnittsdetektor
zur Detektion eines Sprachexistenzabschnittes auf der Basis der
eingegebenen Sprachwellenform. Bezugszeichen 817 bezeichnet eine
akustische Zuordnungseinheit zur Zuordnung der Eingabesprache über eine
Linkeinheit zu einem akustischen Modell zu einem Erkennungsziel
in einer akustischen Modellspeichereinheit 819, einem Wörterbuch 820 und
einem Grammatikwörterbuch 821. Das
Zuordnungsergebnis der akustischen Zuordnungseinheit 817 wird
als Erkennungsergebnis eines Wortes oder Satzes in fließende Sprache
von einer Bewertungseinheit 818 ausgegeben. Bezugszeichen 827 bezeichnet
codierte Daten, die ein Wort oder einen Satz repräsentieren,
die als Erkennungsergebnis des Wortes oder Satzes in fließender Sprache
in der Bewertungseinheit 818 ausgegeben werden.
-
Im
Lernsystem 823 werden die digitalen Daten der Ansagesprache,
die durch Entfernung des Rauschens aus digitalen Daten 810 der
Ansagesprache, welche Rauschen enthält, erhalten werden, und die
digitalen Daten des Gesamtschalls bei verschiedenen Orten, wo es
keine Ansagesprache gibt, in einer Massenspeicheransagelautdatenbasis 824 gespeichert.
Eine Lautanalyseeinheit 825 liest die Daten aus, welche
in der Massenspeicheransagelautdatenbasis 824 gespeichert
sind und unterzieht die ausgelesenen Daten einer Lautmerkmalsextraktionsverarbeitung,
basierend auf der Kurzzeitfrequenzanalyse. Die Modelllerneinheit 826 erhält das Lautmerkmalsextraktionsergebnis
von der Lautanalyseeinheit 825, um ein akustisches Modell zu erzeugen.
-
Hier
ist das akustische Modell ein Referenzmodell, welches ein Kriterium
für die
Spracherkennung darstellt, und es gibt ein Modell für jede Einheit, wie
einen Konsonanten, einen Vokal oder ähnliches von einem Fonem. Zum
Beispiel wird das Hidden Markov Modell (HMM) als solches Modell
verwendet.
-
Das
erzeugte akustische Modell wird einem Code zugeordnet (oder mit
ihn verbunden), welcher ein Wort oder einen Satz darstellt und mit
Unterstützung
eines Betätigers,
der mit zugeordneter oder erfasster Sprache vertraut ist, und ein
benötigter
Teil davon wird in der akustischen Modellspeichereinheit 819 gespeichert.
Zu diesem Zeitpunkt wird das erzeugte akustische Modell ebenso mit
einem Umgebungsrauschcode in Verbindung gebracht, von Datensammelorten,
wo keine Sprachankündigung
gegeben wird und in der akustischen Modellspeichereinheit 819 gespeichert.
In der Lautanalyseeinheit 825 wird der Umgebungsrauschcode
auf der Basis der digitalen Daten des Gesamtschalls an verschiedenen
Orten erzeugt, wenn es keine Ansagesprache gibt.
-
In
dieser Ausführungsform
werden viele akustische Modelle unter verschiedenen Rauschumgebungen
für einen
Code erzeugt, der ein Wort oder einen Satz repräsentiert. Bevorzugt werden
viele akustische Modelle in Übereinstimmung
mit einem Dialekt der Sprache, die übersetzt werden soll oder ähnlichem,
erzeugt.
-
Im Übersetzungssystem 828,
werden die codierten Daten 827, die ein Wort oder einen
Satz repräsentieren,
welche vom Erkennungssystem 801 ausgegeben werden durch
eine Schlüsselwortanalyseeinheit 829 analysiert,
ob die Daten ein Schlüsselwort
bereitstellen, welches wirksam für
die Übersetzung
ist, und die Bedeutung dieses Satzes wird auf Basis dieses Schlüsselwortes
erkannt. Ferner erzeugt der Mittelsprachprozessor 823 eine
Mittelsprache, die lediglich die Bedeutung des Satzes repräsentiert,
welche noch nicht von irgendeiner Sprache abhängig ist.
-
Die
Schlüsselwortanalyseeinheit 829 ist
mit einem Wortbedeutungswörterbuch 830 (Wörterbuch für Wörter) verbunden
und einem Satzstrukturbedeutungswörterbuch (Wörterbuch für Sätze) 831. Zum Beispiel,
wenn die eingegebene Ansagesprache Deutsch ist, und es erforderlich
ist, dass sie in Japanisch übersetzt
wird, sind die akustische Modellspeichereinheit 819, das
Wörterbuch 820 und
das grammatikalische Wörterbuch 821 im
Erkennungssystem 801 und das Wörterbuch für Worte 830 im Wörterbuch
für Sätze 831 im Übersetzungssystem 828 entworfen,
um der deutschen Sprache zu entsprechen. Ferner, um das System in
einem vielsprachigen Modus zu verwenden, wird bevorzugt, ein austauschbares
Speichermedium von großer
Kapazität,
wie eine IC-Karte, eine CD-ROM oder ähnliches für die akustische Modellspeichereinheit 819,
das Wörterbuch 820,
das Grammatikwörterbuch 821,
das Wörterbuch für Worte 830 und
das Wörterbuch
für Sätze 831 verwendet.
-
Der
Satz der Mittelsprache, welcher im Mittelsprachenprozessor 832 erzeugt
wird, wird in einen Satz übersetzt,
in einer gewünschten
Sprache, in einer Satzbildungseinheit 833. Die Satzbildungseinheit 833 ist
mit einem Wörterbuch 834 und einem
Satzstrukturbeispielwörterbuch
(Wörterbuch
für Sätze) 835 verbunden,
welche dazu entworfen sind, z.B. dem Japanischen zu entsprechen.
Der übersetzte Satz
wird auf dem Schirm der Anzeige 839 angezeigt. Der übersetzte
Satz wird ferner in digitale Sprache gewandelt im Lautsyntheseprozessor 837 durch einen
D/A-Wandler 838 geleitet zur Umwandlung digitaler Signale
in analoge Signale und dann als Sprache aus dem Lautausgabemittel 840 ausgegeben.
-
Der
Lautsyntheseprozessor 837 ist mit dem Wörterbuch für Sätze 835 und einem
Lautwörterbuch 836 verbunden,
welche entworfen sind, um beispielsweise dem Japanischen zu entsprechen.
Ferner, um dieses System in einem Mehrsprachenmodus zu verwenden,
wird ein austauschbares Speichermedium großer Kapazität bevorzugt, wie eine IC-Karte,
ein CD-ROM oder ähnliches
verwendet, für
das Wörterbuch 834,
das Wörterbuch
für Sätze 835 und
die Lautbibliothek 836.
-
Jeder
Verarbeitungsblock von 8 kann aus einem System zusammengesetzt
sein, das eine Vielzahl von LSIs und Speichern umfasst, oder eines oder
mehreren Systemen von Chips, die auf einer Halbleitervorrichtung
gebildet werden.
-
Als
nächstes
wird nachfolgend ein Spracherkennungsablauf und eine tatsächliche
Situation beschrieben, wenn das Spracherkennungs- und Übersetzungssystem
dieser Ausführungsform
auf ein tragbares Übersetzungsgerät angewendet
wird.
-
9 zeigt
ein Ablaufdiagramm, welches die Anwendung eines tragbaren Übersetzungsgeräts während Auslandsreisen
veranschaulicht, um im Voraus Umgebungsrauschen und Ansagen (Ansagesprachen)
mit dem tragbaren Übersetzungsgerät in ausländischen
Flughäfen,
einem Bahnhof oder ähnlichem,
in einem Fahrzeug, wie einem Flugzeug, einem Bus, einer U-Bahn,
einem Taxi oder ähnlichen, oder
in einem Aussichtsgebäude
zu erkennen und zuvor akustische Modelle zu erzeugen, die zur Durchführung der Übersetzung
von Ansagesprachen benötigt
werden.
-
Erstens
unter Verwendung des Vielrichtungsmikrofons 803 oder des
Richtungsmikrofons 802, die an dem tragbaren Übersetzungsgerät montiert
sind, wird stationäres
Rauschen "B" an einem beliebigen
Ort zu einer Zeit aufgezeichnet, wo keine Ansagesprache gegeben
wird (Schritt ST901). Nachfolgend wird eine Ansagesprache "A" aufgezeichnet, wenn eine Ansage tatsächlich durch
das Richtmikrofon 802 abläuft, z.B. (Schritt ST902).
Die Ansagesprache "A" enthält im Wesentlichen
dasselbe Hintergrundrauschen wie das zuvor aufgezeichnete Rauschen "B". Nachfolgend subtrahiert die Rauschlöscheinheit 812 das
Spektrum "B" des Signals, welches
das stationäre
Rauschen vom Spektrum "A" des Ansagesprachsignals
repräsentiert, welchem
das Rauschen überlagert
ist (Schritt ST903). Nachfolgend wird ein Spektrum "C" durch Subtraktion (d.h. Spektrum "C" = Spektrum "A" – Spektrum "B") erhalten, und als Ansagesprachspektraldaten
in der Massenspeicheransagelautdatenbasis 824 gespeichert
und in Verbindung mit diesen Daten werden die Spektraldaten des
stationären
Rauschens "B" ebenso in der Massenspeicheransagelautdatenbasis 824 gespeichert
(Schritt ST904). Die Lautanalyseeinheit 825 führt die
Kurzzeitfrequenzanalyse auf dem gespeicherten Ansagesprachspektrum "C" aus, um die Lautmerkmalsextraktion
(Lautanalyse) durchzuführen
und ebenso die Rauschumgebung zu analysieren (Schritt ST905). Schließlich erzeugt
die Modelllerneinheit 826 ein akustisches Modell auf der
Basis des Sprachanalyseergebnisses (Modelllernen), bringt das erzeugte
akustische Modell mit einem Code in Verbindung, der ein Wort oder einen
Satz repräsentiert
und speichert es dann in der akustischen Modellspeichereinheit 819 (Schritt ST906).
-
10 zeigt
ein Flussdiagramm, das eine Reihe von Prozessen zeigt, in welchen
das tragbaren Übersetzungsgerät, mit welchem
ein Reisender im Ausland reist, die Spracherkennung für Ansagesprachen
durchführt,
welchen der Reisende zuhört,
in einem Flughafen, oder einen Bahnhof, in einem Fahrzeug wie einem
Flugzeug, einem Bus, einer U-Bahn, einem Taxi oder ähnlichem,
oder in einem Aussichtsgebäude.
-
Es
wird angenommen, dass der Reisende die Bedeutung einer Ansage, die
in einem Flughafen, einem Bahnhof, einem Fahrzeug wie einem Flugzeug,
einem Bus, einer U-Bahn, einem Taxi oder ähnlichem, oder einem Aussichtsgebäude nicht
versteht, jedoch kann er einfach von der Reaktion seiner Mithörenden bewerten,
ob die Ankündigung
irgendetwas für
ihn interessantes wäre.
Zu diesem Zeitpunkt schaltet der Reisende einen Schalter am tragbaren Übersetzungsgerät ein, und
das stationäre
(d.h. Hintergrundumgebungs-)Rauschen "B" bei
verschiedenen Orten wird zu einer Zeit aufgezeichnet, wo es keine
Ansagesprache gibt, durch das Vielrichtungsmikrofon oder das Richtungsmikrofon,
die am tragbaren Übersetzungsgerät montiert
sind (Schritt ST1001). Nachfolgend, wenn die Ansage von Interesse
tatsächlich
startet, wird eine Ansagesprache "A",
die im Wesentlichen dasselbe Rauschen enthält, wie das zuvor aufgezeichnete
stationäre
Rauschen "B" aufgezeichnet durch
das Richtungsmikrofon 802, z.B. (Schritt ST1002).
-
Nachfolgend
zieht die Rauschlöscheinheit 812 das
Spektrum "B" des stationären Rauschsignals vom
Spektrum "A" des Ansagesprachsignals
ab, das mit Rauschen vermischt ist (Schritt ST1003). Danach wird
eine Kurzzeitfrequenzanalyse auf dem Spektrum "C" durchgeführt, das
demnach durch die Abzugsoperation erhalten wurde (d.h., Spektrum "C" = Spektrum "A" – Spektrum "B"), um die Lautmerkmalsextraktion (Lautanalyse)
durchzuführen
(Schritt ST1004). Danach wird ein Abschnitt detektiert, in welchem
die gewünschte
Sprache auf der Basis der eingegebenen Wellenform der fortlaufenden
Ansagesprache existiert (Schritt ST1005). Schließlich wird die eingegebene
Sprache von akustischen Modellen eines Ansagerkennungsziels zugeordnet
und ein Modell eines Wortes oder Satzes, um ein Schlüsselwort oder
Schlüsselsatz
zu erkennen.
-
11 zeigt
ein Diagramm, welches zeigt, dass ein akustisches Modell einfach
mit einem akustischen Zuordnungsprozess für digitale Daten 813 einer
Ansagesprache gesucht werden kann, welche erhalten wurde durch Entfernung
des Rauschens aus den digitalen Daten 810 einer Ansagesprache,
welche das Rauschen enthält.
-
Wie
zuvor erwähnt,
wird das Gesamtrauschen nicht perfekt aus den digitalen Daten der
Ansagesprache entfernt, welche dem Rauschentfernungsprozess unterzogen
wurde. Jedoch wird in diesem Prozess das Rauschen relativ vermindert,
weil die Ansagesprache relativ hervorgehoben wird. Demgemäß, falls
die Art des Rauschens (Umgebungsrauschen) erkannt werden kann, ist
es möglich Spracherkennung
einer Ansagesprache in einer lauten Umgebung an verschiedenen Orten
durchzuführen.
-
In 11 bezeichnet
Bezugszeichen 1101 die digitalen Daten einer Ansagesprache,
aus welchen Rauschen entfernt wurde, Bezugszeichen 1102 bezeichnet
eine akustische Zuordnungseinheit zur Durchführung akustischer Zuordnung,
Bezugszeichen 1103 bezeichnet einen akustischen Modus des Rauschens,
Bezugszeichen 1104 bezeichnet eine Bewertungseinheit, und
Bezugszeichen 1105 bezeichnet ein akustisches Modell einer
Ansage, welches in Übereinstimmung
mit jedem Rauschumgebungscode gelernt und gespeichert wird. In den
aufbauenden Elementen von 11, sind
das akustische Modell 1103 und das Ansagesprachmodell 1105 in
der akustischen Modellspeichereinheit 819 von 8 enthalten.
Ferner entsprechen die akustische Zuordnungseinheit 1102 und
die Bewertungseinheit 1104 jeweils der akustischen Zuordnungseinheit 817 und
der Bewertungseinheit 818 aus B.
-
In
dieser Ausführungsform,
wie oben beschrieben, wird das stationäre Rauschen (d.h. Hintergrundumgebungs-) "B" aufgezeichnet, wenn keine Ansagesprache
gegeben wird, durch das Vielrichtungs- oder Richtmikrofon aufgezeichnet,
das an dem tragbaren Übersetzungsgerät montiert
ist, bevor eine Zielsprache detektiert wird, die übersetzt
werden soll (in diesem Fall eine Ansagesprache) (siehe Schritt ST1001
von 10). Zu diesem Zeitpunkt, wird in der akustischen
Zuordnungseinheit 1102 das Rauschen "B" den
verschiedenen Modellen zugeordnet, die im akustischen Modell 1103 gespeichert
sind, um einen Ort zu erkennen (Rauschumgebung) an dem das Rauschen "B" erzeugt wird. Diese Erkennung wird
durchge führt,
indem ein Rauschumgebungscode identifiziert wird, welcher jedem
der akustischen Modelle zugefügt
ist. Nachfolgend wird die Ansagesprache "A",
die das stationäre
Rauschen "B" enthält, aufgezeichnet,
einer vorbestimmten Verarbeitung unterzogen und dann einem Ansagesprachmodell
unter der Rauschumgebung zugeordnet, welche dem identifizierten
Umgebungscode entspricht. Wie oben beschrieben, wird lediglich das
Ansagesprachmodell gesucht, das dem erkannten Sprachumgebungscode
entspricht und dann wird die Ansagesprache dem gesuchten Modell
zugeordnet, so dass die Suchoperation einfach und schnell durchgeführt werden
kann. Zum Beispiel, wenn das Rauschen "B" das
Hintergrundumgebungsgeräusch
in einer U-Bahn ist, ist es ausreichend für die akustische Zuordnungseinheit 1104 lediglich
die Ansagesprachmodelle zu durchsuchen in einer "In-U-Bahn"-Rauschumgebung.
-
12A und 12B sind
Diagramme, welche eine Situation veranschaulichen, wo das tragbare Übersetzungsgerät verwendet
wird, und jeweils ein Beispiel der äußeren Ansicht des tragbaren Übersetzungsgeräts. Besonders
zeigt 12A die Situation wo eine Leitansage
mit Sprache in einem Bahnhof durchgeführt wird. Ein Benutzer, der
ein Reisender ist, kann einen Übersetzungsinhalt
der Ansage über
die Anzeige erkennen und die Sprachausgabemittel des tragbaren Übersetzungsgerätes. Wenn
der Benutzer es wünscht
die Ansage in z.B. Japanisch zu übersetzen,
weil er eine japanische Person ist, wird die Ansage in Japanisch übersetzt
werden.
-
12B zeigt die Außenansicht des tragbaren Übersetzungsgerätes. In 12B bezeichnet das Bezugszeichen 1201 den
Hauptkörper
des tragbaren Übersetzungsgerätes, und
Bezugszeichen 1202 bezeichnet ein Richtmikrofon zur Detektion
als Analogsignal, einer Sprache, welche angekündigt wird in einem Flughafen
einem Bahnhof, einem Fahrzeug wie einem Flugzeug, wie einem Bus,
einer U-Bahn, einem
Taxi oder ähnlichem
oder in einem Aussichtsgebäude,
in einer Umgebungsgesprächsprache
oder einer Sprache, die an einem Vorlesungsort gesprochen wird.
Bezugszeichen 1203 bezeichnet ein Vielrichtungsmikrofon,
welches dazu verwendet wird, Umgebungsgeräusche (d.h. Hintergrundumgebungs-)
aus der Sprache zu entfernen, die angesagt wird in einem Flughafen
oder Bahnhof, in einem Fahrzeug wie einem Flugzeug, einem Bus, einer
U-Bahn, einem Taxi oder ähnlichem
oder in einem Aussichtsgebäude,
in einer Umgebungsgesprächssprache
oder einer Sprache, die an einem Vorlesungsort gesprochen wird,
und zur Erfassung des Gesamtgeräusches
an einem Ort, wenn es dort keine Zielsprache gibt. Bezugszeichen 1204 bezeichnet
eine Schallausgabeeinheit zur Ausgabe der übersetzten Sprache, so dass
der Benutzer sie hören kann
und sie umfasst einen Lautsprecher oder einen Ohrhörer. Bezugszeichen 1205 bezeichnet
eine Anzeige zur Anzeige des Inhalts des Übersetzungsergebnisses. Bezugszeichen 1206 bezeichnet
eine IC-Karte, in welcher die akustische Modellspeichereinheit 819,
das Wörterbuch 820,
das grammatikalische Wörterbuch 821,
das Wörterbuch
für Worte 830 und
das Wörterbuch
für Sätze 831 zur
Spracherkennung und Übersetzung
installiert sind. Bezugszeichen 1207 bezeichnet eine IC-Karte,
in welcher das Wörterbuch 834,
das Wörterbuch
für Sätze 835 und das
Lautwörterbuch 836 zur
Spracherkennung und Übersetzung
installiert sind.
-
13 zeigt
ein Beispiel eines Anzeigeinhalts, der durch Spracherkennung und Übersetzung durch
das tragbare Erkennungs- und Übersetzungsgerät erhalten
wird. In 13 bezeichnet Bezugszeichen 1301 einen
Anzeigebereich des tragbaren Übersetzungsgerätes. Ein
Spracherkennungsergebnis welches durch Erkennung einer Sprache,
welche in einem Flughafen oder Bahnhof, in einem Fahrzeug wie einem
Flugzeug, einem Bus, einer U-Bahn, einem Taxi oder ähnlichem
oder einem Aussichtsgebäude
angekündigt
wird, in einer Umgebungsgesprächssprache,
oder Sprache, welche an einem Vorlesungsort gesprochen wird und
erhalten wird und direkt die erkannte Sprache in der Muttersprache
des Benutzers darstellt, wird in einer Buchstabenweise auf einem
Teilbereich 1302 des Anzeigebereichs 1301 angezeigt.
Ferner wird ein Übersetzungsergebnis
in einer Zeichenart auf einem Teilbereich 1303 angezeigt.
In diesem Fall wird z.B. eine arabische Stimme ein englisches Wort
oder einen Satz übersetzten. Zusätzlich wird
ein Teilbereich 1304 auf dem Anzeigebereich 1301 bereitgestellt,
um Informationen über die Überset zung
anzuzeigen, wie eine Wahrscheinlichkeit der Übersetzung, eine Übersetzungserfolgsrate
oder ähnliches.
In diesem Fall wird die Übersetzungserfolgsrate
auf dem Teilbereich 1304 angezeigt. Zusätzlich zu der Übersetzungserfolgsrate kann
Information über
die Art der Originalsprache vor der Übersetzung auf dem Teilbereich 1304 angezeigt werden.
-
Gemäß dieser
Ausführungsform
kann ein Spracherkennungs- und Übersetzungssystem
bereitgestellt werden, welches dazu geeignet ist, zur Verwendung
bei der Erkennung und Übersetzung
einer Sprache, welche in einem Flughafen, einen Bahnhof, einem Fahrzeug
wie einem Flugzeug, einem Bus, einer U-Bahn, einem Taxi oder ähnlichem,
oder einem Aussichtsgebäude,
einer Umgebungsgesprächssprache,
oder eine Stimme, welche an einem Vorlesungsort gesprochen wird,
angesagt wird.
-
Die
vorliegende Erfindung ist nicht auf die obigen Ausführungsformen
beschränkt
und verschiedene Veränderungen
können
durch Fachleute im Bereich des Gegenstandes dieser Erfindung durchgeführt werden.
Es ist nicht notwendig zu sagen, dass jegliche solcher Veränderungen,
die derartig durchgeführt
werden, durch die vorliegende Erfindung eingeschlossen sind.
-
Zum
Beispiel umfasst in der ersten Erfindung das Zeichen (Dokumenten)
Erkennungs- und Übersetzungssystem
das Erkennungssystem 101, das Lernsystem 102 und
das Übersetzungssystem 103, jedoch
können
das Erkennungssystem 101 und das Übersetzungssystem 103 auf
einer kompakten Vorrichtung, wie einem tragbaren Übersetzungsgerät montiert
werden, während
das Lernsystem 102 an einer Vorrichtung montiert werden
kann, welche eine Speichervorrichtung mit relativ großer Kapazität besitzt,
wie einem Personalcomputer oder ähnlichem. In
diesem Fall, sind der Personalcomputer und das tragbaren Übersetzungsgerät miteinander
verbunden, und das Erkennungssystem und das Lernsystem werden betätigt, um
Daten von der Maskenlerneinheit 117 des Lernsystems 102 in
die Maskenspeichereinheit 111 des Erkennungssystems 101 einzuspeisen.
Demgemäß werden
die benötigten Daten
in der Muster-Maskenspeichereinheit 111 des Erkennungssystems 101 gespeichert,
wobei das tragbare Übersetzungsgerät frei verwendet
werden kann. Alternativ kann der Personalcomputer mit wenigstens
einer Zeichendatenbasis 115 ausgestattet werden, während die
anderen aufbauenden Elemente im tragbaren Übersetzungsgerät bereitgestellt werden,
welches lösbar
mit dem Personalcomputer verbunden sein kann.
-
Ferner,
umfasst in der zweiten Ausführungsform
des Spracherkennungs- und Übersetzungssystems
das Erkennungssystem 801, das Lernsystem 823 und
das Übersetzungssystem 828.
Von diesen Elementen, können
das Erkennungssystem 801 und das Übersetzungssystem 828 in
einer Vorrichtung mit kompakten Abmessungen, wie einem tragbaren Übersetzungsgerät, bereitgestellt
werden, während das
Lernsystem 823 in einer Speichereinrichtung von relativ
großer
Kapazität,
wie einem Personalcomputer, bereitgestellt wird. In diesem Fall,
sind der Personalcomputer und das tragbare Übersetzungsgerät miteinander
verbunden und das Erkennungssystem 801 und das Lernsystem 823 werden
so betätigt, dass
sie die Daten der Modelllerneinheit 826 des Lernsystems 823 der
akustischen Modellspeichereinheit 819 des Erkennungssystems 101 zuführen. Demgemäß werden
die benötigen
Daten in der akustischen Modellspeichereinheit 819 des
Erkennungssystems 801 gespeichert, wobei das tragbare Übersetzungsgerät frei eingesetzt
werden kann. Alternativ kann wenigstens eine Lautdatenbasis 824 auf
dem Personalcomputer bereitgestellt werden, während andere aufbauende Teile
im tragbaren Übersetzungsgerät bereitgestellt
werden, welches lösbar
mit dem Personalcomputer verbunden ist.
-
Ferner
bedeutet in dieser Beschreibung "Mittel" nicht notwendigerweise
ein physikalisches Mittel, aber kann Software umfassen, welche die
Funktion jedes Mittels erzielt. Ferner kann die Funktion eines Mittels
oder Bauteils durch zwei oder mehrere physikalische Mittel oder
Bauteile erreicht werden, oder die Funktionen von zwei oder mehreren
Mitteln oder Bauteilen kann durch ein Mittel oder Bauteil erreicht werden.