DE3819178A1 - Spracherkennungsverfahren und -einrichtung - Google Patents
Spracherkennungsverfahren und -einrichtungInfo
- Publication number
- DE3819178A1 DE3819178A1 DE3819178A DE3819178A DE3819178A1 DE 3819178 A1 DE3819178 A1 DE 3819178A1 DE 3819178 A DE3819178 A DE 3819178A DE 3819178 A DE3819178 A DE 3819178A DE 3819178 A1 DE3819178 A1 DE 3819178A1
- Authority
- DE
- Germany
- Prior art keywords
- speaker
- candidate
- similarity
- speech
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000001419 dependent effect Effects 0.000 claims abstract description 68
- 238000001514 detection method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 238000012790 confirmation Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 230000015654 memory Effects 0.000 description 45
- 230000015572 biosynthetic process Effects 0.000 description 34
- 238000003786 synthesis reaction Methods 0.000 description 34
- 238000001228 spectrum Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000006978 adaptation Effects 0.000 description 7
- 230000003247 decreasing effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101100188552 Arabidopsis thaliana OCT3 gene Proteins 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
Description
Die Erfindung betrifft ein Spracherkennungsverfahren und
eine Spracherkennungseinrichtung, bei welchen sowohl eine
sprecherunabhängige als auch eine sprecherabhängige Erkennung
durchgeführt wird. Die Erfindung ist insbesondere bei
Sprachausgabesystemen, wie einem Sprachbehandlungssystem und
einem Sprach-Wortbearbeitungssystem anzuwenden.
Spracherkennung ist eine bekannte Methode, um ein unbekanntes
Eingangssprachmuster dadurch zu identifizieren, daß es
mit einem gespeicherten Bezugsmuster verglichen und dazwischen
ein Ähnlichkeitsgrad berechnet wird. Spracherkennung
kann in zwei Arten eingeteilt werden, nämlich eine sprecherunabhängige
und eine sprecherabhängige Erkennung. Bei der herkömmlichen
sprecherunabhängigen Erkennung wird ein Wörterbuch
verwendet, das nur zum Speichern von Bezugsmustern gesprochener
Worte für die sprecherunabhängige Erkennung ausgelegt ist.
Ebenso wird bei der herkömmlichen sprecherabhängigen Erkennung
ein Wörterbuch verwendet, das nur zum Speichern von Bezugsmustern
von Worten für die sprecherabhängige Erkennung ausgelegt
ist. Ein Bezugsmuster für die sprecherabhängige Erkennung
wird auf der Basis von Sprachen erzeugt, welche von einer Vielzahl
von Sprechern ausgesprochen worden sind, um ein von einer
Einzelperson abhängiges, spezifisches Muster auszuschließen.
Ein Bezugsmuster für die sprecherabhängige Erkennung wird
für jede Einzelperson erzeugt und enthält folglich ein spezifisches
einer Einzelperson eigenes Muster. Daher unterscheidet
sich ein Bezugssprachmuster eines Wortes für die sprecherunabhängige
Erkennung von einem Bezugssprachmuster desselben
Wortes für die sprecherabhängige Erkennung. Das heißt, sowohl
die sprachunabhängigen als auch die sprachabhängigen Bezugsmuster
für ein gesprochenes Wort entsprechen einander nicht.
Daher ist es sehr schwierig, ein Wörterbuch zu schaffen, das
in dem derzeitigen Stand der Spracherkennungstechnik
gemeinsam für sprachunabhängige und sprachabhängige Erkennungsprozesse
verwendet wird.
Es ist bereits eine Spracherkennungseinrichtung vorgeschlagen
worden, die sowohl die sprecherunabhängige als auch die sprecherabhängige
Erkennung durchführen kann. Eine derartige Einrichtung
enthält zwei Wörterbücher, von welchen eines für die
sprecherunabhängige und das andere für die sprecherabhängige
Erkennung verwendet wird. In diesem Fall ist ein Bezugssprachenmuster
eines Wortes in jedem der beiden Wörterbücher gespeichert.
Beispielsweise ist ein Sprachmuster eines Wortes,
welches oft von vielen Personen benutzt werden kann, in dem
Wörterbuch für die sprecherunabhängige Erkennung registriert.
Wenn während des Betriebs eine unbekannte Eingangsstimme dem
System zugeführt wird, wird ein Muster der Eingangsstimme mit
den Sprachmustern sowohl für die sprecherunabhängige als auch
für die sprecherabhängige Erkennung verglichen. Bei dieser
Vorgehensweise werden dann Ähnlichkeitsgrade zwischen dem
eingegebenen Sprachmuster und den Bezugsmustern sowohl für
die sprecherunabhängige als auch für die sprecherabhängige Erkennung
erhalten. Dann wird eine Sprache mit dem höchsten Ähnlichkeitsgrad
als ein erster Kandidat der unbekannten Eingangssprache
aus den berechneten Ähnlichkeitsgraden ausgewählt.
Die vorstehend beschriebene Spracherkennung hat jedoch den
einen Nachteil, daß es oft zu einem Fehler bei der Erkennung
kommt. Beispielsweise wählt die Einrichtung oft den ersten
Kandidaten mit dem höchsten Ähnlichkeitsgrad aus den Bezugsmustern
aus, welche in dem Wörterbuch für die sprecherunabhängige
Erkennung gespeichert sind, selbst wenn die Eingangssprache
von einer Person ausgesprochen worden ist, deren
Sprachausdruck in dem Wörterbuch für sprecherabhängige Erkennung
registriert worden ist. Natürlich ist dann der ausgewählte
erste Kandidat falsch. Ein falscher Kandidat, oder
Kandidaten, die auf den ersten Kandidaten folgen, können aus
den Kandidaten ausgewählt werden, welche durch den Erkennungstyp
erhalten worden ist, welcher nicht zu dem Sprecher
paßt. Andererseits wählt die Einrichtung oft den ersten Kandidaten
aus den registrierten Sprachen aus, die in dem Wörterbuch
für sprecherabhängige Erkennung gespeichert sind,
selbst wenn die Eingangssprache von einem Sprecher ausgesprochen
ist, deren Sprachausdruck in dem Wörterbuch für
sprecherabhängige Erkennung nicht registriert ist. Auch können
ein falscher Kandidat oder Kandidaten, welche auf den
ersten Kandidaten folgen, ausgewählt werden. Eigentlich
können die Ähnlichkeitsgrade bezüglich der sprecherunabhängigen
und der sprecherabhängigen Erkennung nicht gleichwertig
behandelt werden, da es ein Unterschied in dem Sprachmuster
und dem Algorithmus gibt.
Außerdem muß die Einrichtung zwei verschiedene Prozessoren
enthalten, von welchen der eine ausschließlich für die
sprecherunabhängige und der andere ausschließlich für die
sprecherabhängige Erkennung verwendet wird. Dementsprechend
ist die für die Spracherkennung verwendete Hardware auch
beachtlich groß.
Gemäß der Erfindung sollen daher ein Spracherkennungsverfahren
und eine Einrichtung zur Durchführung des Verfahrens geschaffen
werden, bei welchen die vorstehenden Nachteile beseitigt
sind, und welche durch Entfernen der vorstehend beschriebenen
Tendenz eine Sprachidentifizierung mit einer
hohen Genauigkeit durchführen können. Ferner soll eine
Spracherkennungseinrichtung geschaffen werden, in welcher
sowohl die sprecherunabhängige als auch die sprecherabhängige
Erkennung mit einer reduzierten Hardware durchgeführt
werden kann.
Gemäß der Erfindung ist dies bei einer Spracherkennungseinrichtung
nach dem Oberbegriff des Anspruchs 1 durch die Merkmale
im kennzeicchnenden Teil des Anspruchs 1 erreicht.
Ferner ist dies bei einem Spracherkennungsverfahren durch
die im Anspruch 9 angegebenen Schritte gemäß der Erfindung
erreicht. Vorteilhafte Weiterbildungen sowohl der erfindungsgemäßen
Einrichtung als auch des erfindungsgemäßen Verfahrens
sind Gegenstand der entsprechenden, auf die jeweiligen
Ansprüche rückbezogenen Unteransprüche.
Nachfolgend wird die Erfindung anhand der bevorzugten Ausführungsformen
unter Bezugnahme auf die anliegenden Zeichnungen
im einzelnen erläutert. Es zeigt:
Fig. 1 ein Blockdiagramm einer bevorzugten Ausführungsform
der Erfindung;
Fig. 2 ein Blockdiagramm einer ins einzelne gehenden,
in Fig. 1 dargestellten Sprachidentifizierungsschaltung;
Fig. 3A und 3B Flußdiagramme zum Erläutern der Arbeitsweise
der in Fig. 1 dargestellten Einrichtung;
Fig. 4A und 4D Darstellungen zum Erläutern der Arbeitsweise
der in Fig. 2 dargestellten Anordnung;
Fig. 5 ein Blockdiagramm einer weiteren Ausführungsform
der in Fig. 1 dargestellten Sprachidentifizierungsschaltung;
Fig. 6 ein Blockdiagramm einer Sprachbehandlungseinrichtung,
welche eine Anwendungsmöglichkeit der Erfindung
ist;
Fig. 7 ein Blockdiagramm einer Einrichtung, mit welcher
die in Fig. 1 dargestellte Anordnung erreicht ist;
Fig. 8A und 8B zum Erläutern einer Grundverarbeitung
in der Spracherkennungsverarbeitung, welche
auf einer binären Zeit-Spektrum-Musterverarbeitung
basiert;
Fig. 9 eine Darstellung zum Erläutern eines binären Zeit-
Spektrum-Musters eines unbekannten Eingangssprachmusters;
Fig. 10 eine Darstellung zum Erläutern eines Modell-(Bezugs-)Musters,
das bei der binären Zeit-Spektrum-Musterverarbeitung
verwendet ist;
Fig. 11 ein Blockdiagramm einer in Fig. 7 dargestellten
Ähnlichkeitselement-Element-Berechnungseinheit;
Fig. 12A und 12B Darstellungen zum Erläutern der Arbeitsweise
der in Fig. 11 dargestellten Ähnlichkeitselement-Berechnungseinheit;
Fig. 13A bis 13C Darstellungen zum Erläutern eines Beispiels
der Berechnung, welche mittels der in
Fig. 11 dargestellten Ähnlichkeitselement-Berechnungsschaltung
durchgeführt ist;
Fig. 14 ein Flußdiagramm der Arbeitsweise der in Fig. 11
dargestellten Ähnlichkeitselement-Berechnungsschaltung
und
Fig. 15 ein Blockdiagramm eines Systems zum Durchführen
der in Fig. 7 dargestellten Anordnung.
In Fig. 1 ist ein Blockdiagramm einer bevorzugten Ausführungsform
der Erfindung dargestellt. Hierbei wandelt ein
Mikrophon 1 eine Stimme oder Sprache, welche eine Luftschwingung
ist, in ein entsprechendes elektrisches Sprachsignal
um. Eine Merkmalsextrahierschaltung 2 extrahiert Merkmalsmengen
des Sprachsignals von dem Mikrophon 1 und erzeugt
ein unbekanntes Sprachmuster. Laufend werden verschiedene
Methoden zum Extrahieren von Merkmalen einer Sprache vorgeschlagen;
eines von diesen kann zum Ausführen der Merkmalsextrahierschaltung
verwendet werden. Wie später noch
im einzelnen beschrieben wird, wird jedoch vorzugsweise
ein Merkmalsextrahierverfahren angewendet, das auf einer
binären Zeit-Spektrum-Musteranpassung (BTSP) basiert. Eine
sprecherunabhängige Erkennungsschaltung 3 führt eine Anpassung
zwischen dem unbekannten von der Merkmalsextrahierschaltung
2 erzeugten Sprachmuster und Bezugssprachmustern
für die sprecherunabhängige Erkennung durch, welche in einem
Wörterbuch 5 für sprecherunabhängige Sprachmuster gespeichert
sind. Die sprecherunabhängige Erkennungsschaltung 3 gibt
dann eine Anzahl Kandidaten für die unbekannte Sprache aus.
In diesem Fall können alle Kandidaten mit Ähnlichkeitsgraden,
die mehr als ein vorherbestimmter Schwellenwertpegel sind,
ausgegeben werden; andererseits kann auch eine vorherbestimmte
Anzahl Kandidaten ausgegeben werden. Obwohl irgendein Algorithmus
für die sprecherunabhängige Erkennung zum Ausbilden
der sprecherunabhängigen Erkennungsschaltung 3 verwendet
werden kann, wird vorzugsweise ein Algorithmus benutzt, welcher
auf der BTSP-Anpassung basiert. Eine sprecherabhängige
Erkennungsschaltung 4 führt eine Anpassung zwischen dem
unbekannten von der Merkmalsextrahierschaltung 2 gelieferten
Sprachmuster und sprecherunabhängigen Bezugssprachmustern
durch, welche in einem Wörterbuch 6 für sprecherunabhängige
Bezugsmuster gespeichert sind. Dann gibt die sprecherunabhängige
Erkennungsschaltung 4 eine Anzahl Kandidaten für die
unbekannte Sprache aus. Obwohl einer der Algorithmen für
die sprecherabhängige Erkennung zum Ausführen der sprecherabhängigen
Erkennungsschaltung 4 verwendet werden kann, wird
vorzugsweise ein Algorithmus benutzt, welcher auf der BTSP-Anpassung
basiert.
Eine Sprachidentifizierungsschaltung 7 hat die Aufgabe, einen
Koeffizienten k, welcher von einem Speicher 9 zugeführt worden
ist, und einen Ähnlichkeitsgrad jedes einer vorherbestimmten
Anzahl von Kandidaten zu multiplizieren, welche von
der sprecherunabhängigen Erkennungsschaltung 4 geliefert
werden. Ein Koeffizient k hat eine Funktion, nämlich einen
Ähnlichkeitsgrad eines durch die sprecherunabhängige Erkennung
erhaltenen Kandidaten zu korrigieren und um dabei das
Auftreten eines Fehlers bei der Erkennung zu mindern. In dem
Speicher 9 sind eine Anzahl verschiedener Werte der Koeffizienten
k, nämlich k₁, k₂ und k₃ mit verschiedenen Werten
gespeichert, und einer von ihnen kann durch einen Befehl von
der Sprachidentifizierungsschaltung 7 aus ausgewählt werden.
Die Sprechidentifizierungsschaltung 7 hat ferner die Funktion,
die Kandidaten, welche bei der sprecherunabhängigen
Erkennung erhalten worden sind, und die Kandidaten, welche
bei der sprecherabhängigen Erkennung erhalten worden sind,
in abnehmender Reihenfolge des Ähnlichkeitsgrades anzuordnen,
wobei mit dem höchsten Ähnlichkeitsgrad begonnen wird.
Hierbei kann der Ähnlichkeitsgrad für jeden Kandidaten,
welcher bei der sprecherunabhängigen Erkennung erhalten worden
ist, durch den Koeffizienten k korrigiert werden. Die
Sprachidentifizierungsschaltung 7 kann beginnend mit dem
höchsten Ähnlichkeitsgrad einen Kandidaten nach dem anderen,
beginnend mit dem höchsten Ähnlichkeitsgrad entsprechend
einem Befehl von einer Eingabetastatur 8 aus an eine
Sprachsyntheseschaltung 10 abgeben. Die Sprachsyntheseschaltung
10 führt eine Sprachsynthese mit Hilfe eines entsprechenden
Sprachsynthesemusters durch, welche aus einem
Sprachsynthese, Bezugsmuster-Wörterbuch 11 ausgelesen wird.
In dem Wörterbuch 11 sind eine Vielzahl Sprachsynthese-Bezugsmuster
gespeichert. Eine synthetische Sprache wird dann
an einen Lautsprecher 12 abgegeben, welcher sie in eine entsprechende
Lustschwingung umwandelt.
In Fig. 2 ist ein Blockdiagramm eines detaillierteren Aufbaus
der in Fig. 1 dargestellten Sprachidentifizierschaltung
7 dargestellt. Die Schaltung 7 weist Speicher 71 und 72,
eine Koeffizienten-Multiplizierschaltung 73, einen Kandidatenspeicher
74, eine Steuereinheit 75, eine Koeffizienten-Einstellschaltung
76, ein Hinweisregister 77 und eine Dekodierschaltung
78 auf. Mittels des Speichers 71 werden Ergebnisse
gespeichert, welche an der sprecherunabhängigen Erkennungsschaltung
3 erhalten worden sind, d. h. ein Ähnlichkeitsgrad
für jeden der Kandidaten. Mittels des Speichers 72
werden Ergebnisse gespeichert, welche an der sprecherabhängigen
Erkennungsschaltung 4 erhalten worden sind, d. h. ein
Ähnlichkeitsgrad für jeden der Kandidaten. Die Koeffizienten-
Multiplizierschaltung 73 multipliziert einen Koeffizienten
k und den Ähnlichkeitsgrad jedes der Kandidaten, welche von
dem Speicher 71 geliefert werden. Wie vorstehend beschrieben,
hat der Koeffizient k die Funktion, den bei der sprecherunabhängigen
Erkennung erhaltenen Ähnlichkeitsgrad zu korrigieren,
um dadurch Fehler bei der Erkennung zu verringern.
Multiplikationsergebnisse, d. h. korrigierte Ähnlichkeitsgrade,
werden dem Kandidatenspeicher 74 zugeführt. Die Ähnlichkeitsgrade,
welche bei der sprecherunabhängigen Erkennung
erhalten worden sind, werden unmittelbar dem Kandidatenspeicher
74 zugeführt. Die in dem Speicher 74 gespeicherten Daten
werden in diesem durch die Steuereinheit 75 in abnehmender
Reihenfolge des Ähnlichkeitsgrads angeordnet. Der Ähnlichkeitsgrad
jedes Kandidaten, welcher mittels der sprecherunabhängigen
Erkennung erhalten worden ist, ist durch
den Koeffizienten k korrigiert worden. Wenn ein Ausgeben eines
Kandidaten von der Steuereinheit 75 entsprechend einem
Befehl von der Eingabetastatur 8 befohlen wird, wird ein
Kandidat mit dem höchsten Ähnlichkeitsgrad unter den gespeicherten
Kandidaten von der Sprachsyntheseschaltung 10 abgegeben.
Gleichzeitig wird ein Hinweis, der verwendet wird,
um anzuzeigen, daß der abgegebene Kandidat für die sprecherunabhängige
oder -abhängige Erkennung von Belang ist, in
das Hinweisregister 77 geschrieben wird. Die Steuereinheit
75 kann einen Befehl zum Einstellen des Koeffizienten k zu
erzeugen, welcher an der Multiplizierschaltung 73 einzustellen
ist, wenn eine vorherbestimmte Bedingung, welche
später noch beschrieben wird, festgestellt wird. Dieser Befehl
zur Koeffizienteneinstellung wird der Koeffizienteneinstellschaltung
76 zugeführt, welche eine entsprechende Speicheradresse
an den Koeffizientenspeicher 9 abgibt.
Nunmehr wird anhand von Fig. 3 die Arbeitsweise der in Fig. 1
und 2 dargestellten Ausführungsform beschrieben. Nachstehend
ist hierbei angenommen, daß der Koeffizientenspeicher 9 drei
verschiedene Koeffizienten k₁, k₂ und k₃ (k₁<k₂<k₃) speichert;
der Koeffizient k₂ wird anfangs in der Multiplizierschaltung
73 der Sprachidentifizierschaltung 7 gesetzt.
Während des Betriebs wird eine von einer Person ausgesprochene
Sprache mittels des Mikrophons 1 in ein entsprechendes
elektrisches Signal umgewandelt, welches dann der Merkmalsextrahierschaltung
2 zugeführt wird. Die Schaltung 2 erzeugt
ein unbekanntes Sprachmuster der Eingangssprache, indem
sie deren Merkmale extrahiert (Schritt 1001 in Fig. 3A).
Das unbekannte Sprachmuster wird der sprecherunabhängigen
Erkennungsschaltung 3 und auch der sprecherabhängigen Erkennungsschaltung
4 zugeführt. Die Schaltung 3 wählt eine
Anzahl n Kandidaten für die eingegebene Stimme aus, welche
den höchsten Ähnlichkeitsgrad haben, welcher durch die Anpassung
erhalten worden ist (Schritt 1002). In ähnlicher
Weise wählt die sprecherabhängige Erkennungsschaltung 4
eine Anzahl n Kandidaten für die eingegebene Sprache aus,
welche den höchsten Ähnlichkeitsgrad haben, welcher durch
Anpassung erhalten worden ist (Schritt 1002). Es wird nun
angenommen, daß die Anzahl n Kandidaten, welche von der
sprecherunabhängigen Erkennung erhalten worden ist, in abnehmender
Reihenfolge des Ähnlichkeitsgrads folgendermaßen
dargestellt werden:
WI1, WI2, . . . , WIn
und ein Ähnlichkeitsgrad jedes Kandidaten wird folgendermaßen dargestellt:
SI1, SI2, . . . , SIn.
Ferner wird angenommen, daß eine Anzahl n-Kandidaten, welcher bei der sprecherabhängigen Erkennung erhalten worden ist, in abnehmbarer Reihenfolge des Ähnlichkeitsgrads folgendermaßen dargestellt werden:
WD1, WD2, . . . , WDn
und ein Ähnlichkeitsgrad jedes Kandidaten folgendermaßen dargestellt wird:
SD1, SD2, . . . , SDn.
Die Kandidaten WI1, WI2, . . . , WIn werden zusammen mit dem Ähnlichkeitsgrad SI1, SI2, . . . , SIn in dem Speicher 71 gespeichert, wie in Fig. 4A dargestellt ist. Genauso werden die Kandidaten WD1, WD2, . . . , WDn in dem Speicher 72 zusammen mit dem Ähnlichkeitsgrad SD1, SD2, . . . , SDn gespeichert, wie in Fig. 4B dargestellt ist.
WI1, WI2, . . . , WIn
und ein Ähnlichkeitsgrad jedes Kandidaten wird folgendermaßen dargestellt:
SI1, SI2, . . . , SIn.
Ferner wird angenommen, daß eine Anzahl n-Kandidaten, welcher bei der sprecherabhängigen Erkennung erhalten worden ist, in abnehmbarer Reihenfolge des Ähnlichkeitsgrads folgendermaßen dargestellt werden:
WD1, WD2, . . . , WDn
und ein Ähnlichkeitsgrad jedes Kandidaten folgendermaßen dargestellt wird:
SD1, SD2, . . . , SDn.
Die Kandidaten WI1, WI2, . . . , WIn werden zusammen mit dem Ähnlichkeitsgrad SI1, SI2, . . . , SIn in dem Speicher 71 gespeichert, wie in Fig. 4A dargestellt ist. Genauso werden die Kandidaten WD1, WD2, . . . , WDn in dem Speicher 72 zusammen mit dem Ähnlichkeitsgrad SD1, SD2, . . . , SDn gespeichert, wie in Fig. 4B dargestellt ist.
Die Ähnlichkeitsgrade SI1, SI2, . . . , SIn, welche bei der
sprecherunabhängigen Erkennung erhalten werden, werden
mit der Schaltung 73 mit dem Koeffizienten k₂ multipliziert,
und die berechneten Ergebnisse k₂ · SI1, k₂ · SI2,
. . . , k₂ · SIn werden dem Kandidatenspeicher 74 zugeführt. Andererseits
werden die Ähnlichkeitsgrade SD1, SD2, . . . ,
SDn, welche durch die sprecherabhängige Erkennung erhalten
worden sind, unmittelbar dem Kandidatenspeicher 74 zugeführt.
Wenn alle Kandidaten (d. h. eine Anzahl von 2n
Kandidaten) für die unbekannte Eingangssprache an den Kandidatenspeicher
74 transferiert worden sind, beginnt die
Steuereinheit 75, alle Kandidaten in abnehmender Reihenfolge
des Ähnlichkeitsgrads durch ein Vergleichen untereinander
anzuordnen. Es sei nun angenommen, daß der Ähnlichkeitsgrad
in einer Folge k₂ · SD1, k₂ · SD2, SD1, . . . , in
abnehmender Reihenfolge des Ähnlichkeitsgrads angeordnet
werden, wie in Fig. 4C dargestellt. Die Steuereinheit 75
befiehlt dann dem Kandidatenspeicher 74, einen Kandidaten
mit dem höchsten Ähnlichkeitsgrad abzugeben. Bei der vorstehenden
Annahme wird der Kandidat WI1 aus dem Speicher 74
gelesen und der Sprachsyntheseschaltung 10 zugeführt. Zu
diesem Zeitpunkt wird dann ein Hinweis mit einem Wert "1"
in dem Hinweisregister 77 registriert. Ein Wert "1" des
Hinweises zeigt an, daß der Kandidat, welcher nunmehr aus
dem Speicher 74 gelesen wird, ein bei der sprecherunabhängigen
Erkennung erhaltener Kandidat ist, während ein Wert
"0" des Hinweises anzeigt, daß der Kandidat, welcher nunmehr
gelesen wird, ein bei der sprecherabhängigen Erkennung
erhaltener Kandidat ist.
Die Sprachsyntheseschaltung 10 liest ein Sprachsynthesemuster
aus, das dem Kandidaten WI1 aus dem Sprachsynthesewörterbuch
11 entspricht, und gibt eine Synthesesprache an dem
Lautsprecher 12 ab. Folglich kann der Sprecher erkennen, ob
die ausgesprochene Sprache richtig erkannt worden ist oder
nicht.
Wie vorstehend beschrieben, ist der direkte Vergleich der
Ähnlichkeitsgrade zwischen der sprecherunabhängigen und der
-abhängigen Erkennung nicht vernünftig, weil der Erkennungsalgorithmus
und das Verfahren zum Erzeugen von Bezugsmustern
zwischen der sprecherunabhängigen und der -abhängigen Erkennung
verschieden ist. Andererseits ermöglicht es die Verbindung
des Korrekturkoeffizienten k, Ähnlichkeitsgrade,
welche bei der sprecherunabhängigen bzw. bei der sprecherabhängigen
Erkennung erhalten worden sind, gleichwertig zu
behandeln. Im Ergebnis kann somit das Auftreten eines Erkennungsfehlers
so reduziert werden, daß ein falscher Kandidat
aus den sprecherunabhängigen oder -abhängigen Erkennungsergebnissen
(Kandidaten) ausgewählt wird und an dem
Lautsprecher dargestellt wird. Ein derartiger Erkennungsfehler
kann bei Verwendung einer Anzahl Koeffizientenwerte
extrem gemindert werden. Das heißt, da ein verschiedenes
Erkennungsergebnis in Abhängigkeit von einem Umstand, unter
welchem die sprecherunabhängigen Bezugsmuster erzeugt werden,
einem Erkennungsumstand, usw. erhalten werden kann.
Wenn bei der vorstehenden Arbeitsweise der erste Kandidat
WI1 falsch ist, drückt der Sprecher eine auf der Eingabetastatur
8 vorgesehene Löschtaste 81 um so den ersten Kandidaten
WI1 zu löschen, und fordert den nächsten Kandidaten
an (Schritt 1005 in Fig. 3B). Die Dekodierschaltung 78 unterscheidet
das Drücken der Löschtaste 81 und befiehlt der
Steuereinheit 75, den nächsten Kandidaten auszugeben. Dann
wählt die Steuereinheit 75 den nächsten Kandidaten (WI2
in dem vorstehenden Beispiel aus) und führt ihn der Sprachsyntheseschaltung
10 zu (Schritt 106). Dann wird die dem
Kandidaten WI2 entsprechende Synthesesprache über den Lautsprecher
12 abgegeben. Es wird dann geprüft, ob der ausgewählte
Kandidat der richtige ist oder nicht (Schritt 1007).
Wenn der ausgewählte Kandidat WI2 ebenfalls nicht der richtige
ist, geht das Verfahren auf den Schritt 108 über, bei
welchem durch die Steuereinheit 75 geprüft wird, ob alle
Kandidaten (2n) aus dem Kandidatenspeicher 74 gelesen worden
sind oder nicht. In dem Fall, daß der ausgewählte Kandidat
falsch ist, ist der Inhalt des Hinweisregisters 77 nicht
aktualisiert. Wenn alle Kandidaten ausgelesen worden sind,
wird der Erkennungsprozeß zurückgewiesen. Wenn andererseits
das Unterscheidungsergebnis beim Schritt 1008 nein ist, wird
auf den Schritt 1006 zurückgekehrt. Dann wird der nächste
Kandidat (der dritte Kandidat WD1) entsprechend dem Drücken
der Löschtaste 81 gewählt. Wenn der Kandidat WD1 der
richtige ist und daher eine Bestätigungstaste 82 gedrückt
wird, wird beim Schritt 110 fortgefahren, bei welchem geprüft
wird, ob der ausgewählte Kandidat ein Kandidat ist,
welcher durch den Erkennungstyp (sprecherunabhängige oder
-abhängige Erkennung) erhalten worden ist, was identisch
mit dem für den gelöschten Kandidaten ist. Diese Unterscheidung
kann mit Hilfe des in dem Register 77 gespeicherten
Hinweises durchgeführt werden. Wenn der falsche erste
Kandidat und der richtige Kandidat Kandidaten sind, welche
mittels desselben Speichererkennungstyps erhalten worden
sind, wird der Prozeß beendet. Wenn beispielsweise der zweite
Kandidat WI2 der richtige ist, endet der Prozeß. Wenn
andererseits der richtige Kandidat durch den Erkennungstyp
erhalten wird, welcher sich von dem für den gelöschten
ersten Kandidaten unterscheidet, wird auf den Schritt 1011
übergegangen. Beim Schritt 1011 wird der Wert des Koeffizienten
k in der nachstehend noch näher beschriebenen Weise
eingestellt.
In dem Beispiel der Fig. 4C wird der in dem Hinweisregister
77 eingestellte Wert in "0" geändert, wenn der richtige Kandidat
WD1 aus dem Kandidatenspeicher 74 gelesen ist. Folglich
kann herausgefunden werden, daß der Erkennungstyp für den
dritten Kandidaten WD1 (d. h. die sprecherunabhängige Erkennung)
verschieden ist von derjenigen für den ersten Kandidaten
WI1. Dann wird bei dem Schritt 1011 fortgefahren, bei
welchem der laufende Wert des Koeffizienten k eingestellt
wird. In dem vorstehenden Beispiel sind die ersten und zweiten
Kandidaten WI1 und WI2, welche mittels der sprecherunabhängigen
Erkennung erhalten werden, falsch, und der dritte
Kandidat WD1, welcher mittels der sprecherabhängigen Erkennung
erhalten wird, ist der richtige. Dies bedeutet, daß
der Koeffizient k₂, welcher laufend in der Multiplizierschaltung
73 gesetzt wird, größer ist als ein angemessener
Wert. Daher versorgt die Steuereinheit 75 die Koeffizienteneinstellschaltung
76 mit einem Steuersignal, welches anzeigt,
daß der Koeffizient k₃ welcher kleiner als der Koeffizient
K₂ ist, in der Schaltung 73 eingestellt werden sollte. Die
Koeffizienteneinstellschaltung 76 versorgt den Koeffizientenspeicher
9 mit einer Adresse des Koeffizienten k₃. Dadurch
wird der in der Multiplizierschaltung 73 gesetzte
Koeffizient k₂ durch den Koeffizienten k₃ ersetzt (Schritt
1011). Im Ergebnis kann dann der Koeffizient k auf einen
entsprechenden Wert eingestellt werden.
Die Einstellung des Koeffizienten k kann auch in dem folgenden
Fall durchgeführt werden. Es sei nunmehr angenommen,
daß, wie in Fig. 4D dargestellt, Kandidaten in einer Folge
WD1, WD₂, WI1, . . . , in abnehmender Reihenfolge des Ähnlichkeitsgrads
angeordnet ist, und ein richtiger Kandidat der
Kandidat WI1 ist. Das heißt, die Kandidaten WD1 und WD2
haben Ähnlichkeitsgrade, die höher als derjenige des Kandidaten
WI1 ist. In diesem Fall sind dann zwei Kandidaten WD1
und WD2, welche bei der sprecherabhängigen Erkennung erhalten
worden sind, beim Schritt 1005 gelöscht worden, und der
Kandidat WI1, ist eines der Erkennungsergebnisse mit Hilfe
der sprecherunabhängigen Erkennung. Dies bedeutet, daß der
laufende Koeffizient k mit einem Wert k₂ kleiner als ein angemessener
Wert ist. Daher wird der Wert k so eingestellt,
daß er einen Wert größer als k₂ hat, d. h. in dem vorstehenden
Beispiel wird k₁ eingestellt.
Wenn ferner in dem Beispiel der Fig. 4C der Kandidat WI2
der richtige ist, wird die Einstellung des Koeffizienten
k nicht durchgeführt. Dies ist ein einfacher Fehler bei
der sprecherunabhängigen Erkennung. Wie aus der vorstehenden
Erläuterung zu ersehen ist, wird, wenn der richtige
Kandidat denselben Erkennungstyp wie der gelöschte Kandidat
hat, die Einstellung des Koeffizienten k nicht durchgeführt.
Ebenso wird zum Beispiel nach Fig. 4D, wenn der Kandidat
WD2 der richtige ist, die Einstellung des Koeffizienten
k nicht durchgeführt.
Die Werte des Koeffizienten k können entsprechend einem Versuch
ausgewählt werden. Obwohl drei Werte des Koeffizienten
K in dem vorstehenden Ausführungsbeispiel verwendet sind,
ist die Erfindung keineswegs hierauf beschränkt. Mit einer
größeren Anzahl von Koeffizientenwerten kann die Genauigkeit
bei der Spracherkennung erhöht werden. Obwohl der Ähnlichkeitsgrad,
welcher durch die sprecherunabhängige Erkennung
erhalten worden ist, korrigiert wird, indem der Koeffizient
damit multipliziert wird, kann der Ähnlichkeitsgrad durch
Addieren des Koeffizienten k oder mit Hilfe einer Kombination
aus Multiplikation und Addition korrigiert werden. Ferner
kann die Korrektur des Ähnlichkeitsgrads (bezüglich des Ähnlichkeitsgrads)
bezüglich der sprecherabhängigen Erkennung
möglich sein. In diesem Fall kann ein Koeffizient 1/k mit
dem Ähnlichkeitsgrad multipliziert werden, welcher bei der
sprecherabhängigen Erkennung erhalten worden ist. Jedoch
kann in dem Fall, daß die Anordnung der Fig. 1 und 2 bei
einer Sprachausgabeeinrichtung, wie einer Sprachbehandlungseinrichtung
angewendet wird, der bestätigte oder richtige
Kandidat über ein Terminal 13 geliefert werden. Anstelle von
oder zusätzlich zu der Sprachsyntheseschaltung 10 kann eine
Anzeigeeinheit verwendet werden, um den Kandidaten durch die
Bedienungsperson zu bestätigen.
Fig. 5 ist ein Blockdiagramm einer Abwandlung der Ausführungsform
der Fig. 2, wobei in Fig. 5 dieselben Elemente wie
in Fig. 2 mit denselben Bezugszeichen bezeichnet sind. In
Fig. 2 wird der Koeffizient k automatisch eingestellt. Bei
der Anordnung nach Fig. 5 kann der Koeffizient k von Hand
eingestellt werden. Die Eingabetastatur 8 hat eine Koeffizienteneinstelltaste
83, welche benutzt wird, um den Koeffizienten
k anzuzeigen, welcher einen gewünschten Wert, wie
k₁, k₂ und k₃ (k₁<k₂<k₃) hat. Jedesmal wenn die Koeffizienteneinstelltaste
83 gedrückt wird, kann ein Wert des Koeffizienten
K infolge gewählt werden. Wenn die Taste 83 gedrückt
wird, wird ein entsprechendes Signal dem Dekodierer 78 zugeführt,
welcher dann eine entsprechende Adresse an den
Koeffizientenspeicher 9 abgibt. Der Koeffizient k mit einem
Wert, welcher durch die Adresse von dem Kodierer 78 aus bestimmt
worden ist, wird an die Multiplizierschaltung 73 abgegeben.
Nunmehr wird anhand von Fig. 6 eine Anwendung der vorstehenden
Ausführungsform beschrieben. Fig. 6 ist ein Blockdiagramm
einer Sprachbehandlungseinrichtung. Die dargestellte
Sprachbehandlungseinrichtung weist ein Mikrophon 21, einen
Lautsprecher 22, eine Sprechschaltung 23, einen Haken(um)schalter
24, eine Merkmalsextrahierschaltung 25, eine Eingabetastatur
26, eine Steuerschaltung 27, eine Musteranpassungsschaltung
28, ein Bezugssprachmuster-Wörterbuch 29,
eine Sprachsyntheseschaltung 30, ein Sprachsynthese-Bezugsmuster-Wörterbuch
31, einen Fernsprechnummer-Speicher 32,
eine Ausgangssteuereinheit 33, eine Eingangssteuereinheit
34, eine Leitungssteuereinheit 35 und eine Leitung 36 auf.
Die Musteranpassungsschaltung 28 entspricht der Kombination
aus der sprecherunabhängigen Erkennungsschaltung 3, der
sprecherabhängigen Erkennungsschaltung 4, der Sprachidentifizierschaltung
7 und dem Koeffizientenspeicher 9, welche
in Fig. 1 dargestellt sind. Das Bezugsmuster-Wörterbuch 29
entspricht der Kombination aus dem sprecherunabhängigen Bezugsmusterwörterbuch
5 und dem sprecherabhängigen Bezugsmuster-Wörterbuch
6, die in Fig. 1 dargestellt sind. Die
Merkmalsextrahierschaltung 26, die Sprachsyntheseschaltung
30 und das Sprachsynthese-Bezugsmuster-Wörterbuch 31 entsprechen
der Merkmalsextrahierschaltung 2, der Sprachsyntheseschaltung
10 bzw. dem Sprachsynthese-Bezugsmuster-Wörterbuch
11, welche in Fig. 1 dargestellt sind. Das Mikrophon 21, der
Lautsprecher 22 und die Eingabetastatur 26 entsprechen dem
Mikrophon 1, dem Lautsprecher 12 bzw. der Eingabetastatur 8
der Fig. 1.
Merkmale der dargestellten Anwendung sind in der Anordnung
der Anpassungsschaltung 8 und der Anordnung jeweils des Bezugsmuster-Wörterbuchs 29, des Sprachsynthese-Bezugsmuster-Wörterbuchs
31 und des Telefonnummer-Speichers 32 vorhanden.
Die Anpassungsschaltung 8 ist entsprechend der vorstehend
beschriebenen Ausführungsform ausgeführt. Daher ist eine
Erläuterung der Anpassungsschaltung 8 entbehrlich.
In Fig. 6 ist ein Speicherbereich jeweils des Bezugsmuster-Wörterbuchs
29, des Sprachsynthese-Bezugsmuster-Wörterbuchs
31 und des Telefonnummer-Speichers 32 dargestellt. Jeder der
Speicherbereiche ist in zwei Bereiche unterteilt, von denen
der eine ein Beschreibbarbereich I und der andere ein
Schreibsperrbereich II ist. Das Bezugsmuster-Wörterbuch 29
besteht aus dem sprecherunabhängigen Bezugsmuster-Wörterbuch
5, welches in dem Schreibsperrbereich II gebildet ist, und
aus dem sprecherabhängigen Bezugsmuster-Wörterbuch 6,
welches in dem beschreibbaren Bereich I ausgebildet ist.
Das sprecherunabhängige Bezugsmuster-Wörterbuch 5 speichert
eine Anzahl Bezugssprachenmuster von gesprochenen Worten,
welche oft von vielen Personen verwendet werden, beispielsweise
sprecherunabhängige Bezugssprachenmuster von Telefonnummern
von öffentlichen Einrichtungen, wie Polizei, Feuer/Ambulanz,
Wetterbericht und Uhrzeit. Für eine gesprochene
Telefonnummer werden eine Anzahl sprecherunabhängiger Bezugsmuster
In dem Schreibsperrbereich I gespeichert. Das
sprecherabhängige Bezugsmuster-Wörterbuch 6 speichert sprecherunabhängige
Bezugsmuster, welche durch Benutzer beliebig
registriert werden können. Das Sprachsynthese-Bezugsmuster-Wörterbuch
31 speichert in dem Schreibsperrbereich II ein
Sprachsynthese-Bezugsmuster für jede der Telefonnummern und
speichert in dem beschreibbaren Bereich I ein Sprachsynthese-Bezugsmuster
für jedes der Bezugsmuster, welche von Benutzern
besetzt werden. In ähnlicher Weise werden Telefonnummern,
welche durch die sprecherunabhängige Erkennung gewählt werden
können, in dem Schreibsperrbereich II des Telefonnummer-Speichers
32 gespeichert, und Telefonnummern, welche durch
die sprecherabhängige Erkennung gewählt werden können, werden
in dem beschreibbaren Bereich I gespeichert.
Zu Beginn der Sprachbehandlung befiehlt ein Sprecher die
Durchführung einer Sprachbehandlung an der Steuereinheit
27 mit Hilfe der Eingabetastatur 26. Dann wird eine von
dem Sprecher erzeugte Sprache der Merkmalsextrahierschaltung
25 über das Mikrophon 21 zugeführt. Die Merkmalsextrahierschaltung
25 erzeugt ein unbekanntes Sprachmuster und liefert
es an die Steuereinheit 27. Die Steuereinheit 27 gibt
das unbekannte Sprachmuster an die Musteranpassungsschaltung
28 ab. Die Musteranpassungschaltung 28 bestimmt den ersten
Kandidaten für die unbekannte Sprache entsprechend dem vorstehend
anhand von Fig. 1 bis 5 beschriebenen Ablauf. Der
erste Kandidat wird an die Sprachsyntheseschaltung 30 angelegt,
welche ein dem ersten Kandidaten entsprechendes Sprachsynthese-Bezugsmuster
ausliest und erzeugt die Synthesesprache.
Dann wird die Synthesesprache über den Lautsprecher 22
an den Sprecher abgegeben. Wenn zu diesem Zeitpunkt der
erste Kandidat falsch ist, drückt der Sprecher, wie vorher
beschrieben, die Löschtaste 81. Entsprechend der Betätigung
der Löschtaste gibt dann die Musteranpassungsschaltung 28
den zweiten Kandidaten an die Sprachsyntheseschaltung 30
ab. Dann wird die dem zweiten Kandidaten entsprechende
Syntheseschaltung an den Sprecher abgegeben. Wenn zu diesem
Zeitpunkt der zweite Kandidat richtig ist, drückt der Sprecher
die Betätigungstaste 82 auf der Tastatur 26. Dann
gibt mittels der Steuereinheit 27 die Musteranpassungsschaltung
28 den zweiten Kandidaten an die Ausgangssteuereinheit
33 ab. Die Steuereinheit 33 liest die dem zweiten Kandidaten
entsprechende Telefonnummer aus dem Telefonnummer-Speicher 32
und gibt sie über die Leitungssteuereinheit 35 an die Leitung
36 ab. Die Sprachbehandlungseinrichtung der Fig. 6 hat
eine hohe Zuverlässigkeit und eine hohe Wirksamkeit, da die
Musteranpassungsschaltung 28 den Aufbau der vorstehend beschriebenen
Ausführungsform hat. Da außerdem eine Wählinformation
von öffentlichen Einrichtungen, welche oft von
vielen Benutzern verwendet werden, vorher registriert werden,
ist es für den Benutzer nicht notwendig, die Bezugsmuster
deren Telefonnummern zu registrieren.
Nunmehr wird ein weiterer Aufbau der Ausführungsform der
Fig. 1 und 2 im einzelnen beschrieben. In Fig. 7 ist dieser
detaillierte Aufbau der Ausführungsform nach Fig. 1 und
2 dargestellt. Die dargestellte Spracherkennungseinrichtung
weist einen Prozessor 100 mit der Funktion, Merkmale einer
unbekannten Eingangssprache zu extrahieren, einen Prozessor
200 mit den Funktionen, die unbekannte Sprache zu identifizieren
und andere Verarbeitungen durchzuführen, einen Programmfestwertspeicher
(Programm ROM) 300, einen Modell-Bezugs-Randomspeicher
(RAM) 400, einen Zentraleinheit-Bus 500
und eine periphere Einheit 600 auf. Der Prozessor 100 entspricht
der in Fig. 2 dargestellten Merkmalsextrahierschaltung
2, und der Prozessor 200 entspricht der Kombination aus
der sprecherunabhängigen Erkennungsschaltung 3, der
sprecherabhängigen Erkennungsschaltung 4, der Sprachidentifizierschaltung
7 und der Koeffizientenschaltung 9 der
Fig. 1. Ein Programm zum Durchführen der Spracherkennung ist
in dem Programm-ROM 300 gespeichert. Das heißt, der ROM 300
speichert ein Programm für die sprecherunabhängige Erkennung,
was in dem Block 3 der Fig. 1 durchgeführt wird, und
ein Programm für die sprecherabhängige Erkennung, was in dem
Block 4 durchgeführt wird. Wie später noch im einzelnen beschrieben
sind, werden Elemente, um den Ähnlichkeitsgrad zu
erhalten, mittels einer hardware berechnet. Der Modell-RAM
400 entspricht der Kombination aus den sprecherunabhängigen
und -abhängigen Bezugsmuster-Wörterbüchern 5 und 6 der Fig.
1. Der Zentraleinheit-Bus 500 verbindet die Prozessoren
100 und 200, den ROM 300 und den RAM 400 miteinander. Die
periphere Einheit 600 entspricht der Tastatur 8, der Sprachsyntheseschalter
10, dem Sprachsynthese-Bezugsmuster-Wörterbuch
11 und dem Lautsprecher 12 der Fig. 1. Der Prozessor
100 ist ein hochintegrierter (LSI-)Schaltkreis, der entsprechend
ausgelegt ist, um Merkmale einer unbekannten Eingangssprache
zu extrahieren und um ein Leistungsspektrum-
und ein binäres Zeit-Spektrum-Muster in einem Zeitraum von
10 ms zu erzeugen. Das Leistungsspektrum- und das binäre
Zeit-Spektrum-Muster sind in der US-Patentanmeldung Nr.
5 96 586 der Anmelderin der vorliegenden Anmeldung beschrieben.
Der Prozessor 100 erhält die folgenden Bauelemente.
Ein Mikrophonverstärker 41 verstärkt das von dem Mikrophon
1 zugeführte Sprachsignal. Ein Tiefpaßfilter 42 entfernt unnötige
hochfrequente Komponenten, welche in dem verstärkten
Sprachsignal enthalten sind, um ein Schleifenrauschen zu entfernen,
welches beim Abtasten des eingegebenen Sprachsignals
vorkommt. Eine automatische Verstärkungsregelungs- und Vorverzerrungsschaltung
43 setzt einen Pegel des Sprachsignals
in einen entsprechenden Pegelbereich, und hebt hochfrequente
Komponenten am Ausgang des Tiefpaßfilters 42 an, um deren
Leistung auszugleichen. Ein Block 45 besteht aus einem Tiefpaßfilter
45 c, einem Detektor 45 b und einem Tiefpaßfilter 45 c
und erzeugt ein Leistungsspektrum des Eingangssprachsignals
in einem Intervall von 1/3 oct. in einem Bereich von 250 kHz
bis 6,35 kHz. Ein Q-Wert des Blocks 45 wird auf 6 gesetzt.
Eine Filtersteuereinheit 44 steuert das Tiefpaßfilter 45 a,
den Detektor 45 b und das Tiefpaßfilter 45 c des Blockes 45,
welcher durch geschaltete Kondensatoren gebildet ist. Ein
Analog/Digital-Umsetzer 46 setzt die Leistungsspektrumsdaten
der Eingangssprachsignale in Digitalwerte von 8 Bits um. Ein
Register 47 speichert die Leistungsspektrumsdaten in
digitaler Form. Ein LOG-Umsetzer 48 setzt die Leistungsspektrumsdaten
in Daten auf der logarithmischen Achse um. Ein
LSFL-Filter 49 führt eine Korrektur mit Hilfe der dem kleinsten
Quadratwurzelfehler entsprechenden Näherungslinie durch,
um die Klang- bzw. Tonquelleneigenschaften eines Sprechers
zu normalisieren. Ein Binärumsetzer 50 teilt einen Binärwert
"1" unter 15 Kanälen einem Kanal zu, welcher einen Wert
hat, der gleich oder größer als eine Hälfte jedes lokalen
Spitzenwerts in dem Leistungsspektrum ist, und ordnet einen
Binärwert "0" einem Kanal mit einem Wert zu, welcher kleiner
als eine Hälfte jedes lokalen Spitzenwerts ist.
Eine weitere Erklärung des LOG-Umsetzers 48, des LSFL-Filters
49 und des Binärumsetzers 50 wird nachstehend noch gegeben.
Bekanntlich kann ein Zeit-Spektrummuster (TSP) als
Merkmalsmengen für eine Spracherkennung verwendet werden.
Das Zeit-Spektrum-Muster enthält eine Übertragungs- bzw.
eine Transfercharakteristik einer Kehle und eine Ton.- bzw.
Klangquellencharakteristik. Ein in dem Zeit-Spektrumsmuster
beobachteter Spitzenwert wird als ein lokaler Spitzenwert
definiert. Ferner ist die Tatsache bekannt, daß der Frequenzverlauf
der menschlichen Stimme im hochfrequenten Bereich
gedämpft ist, und daß die Frequenzkennlinien sich in
Abhängigkeit von der jeweiligen Person beträchtlich ändern.
Aus den vorstehenden Gründen wird das Sprachsignal vor einer
binären Bewertung der dem kleinsten Quadratwurzelfehler
entsprechenden Näherungslinie korrigiert. Bezüglich
Frequenzdaten des Sprachsignals, welches in einem Intervall
von 10 ms erhalten wird, wird die Ausgleichslinie nach der
Methode des kleinsten Quadrats (least square fit line) berechnet.
Dann wird ein Wert auf der berechneten Linie von
den Frequenzdaten subtrahiert. Danach werden die korrigierten
Frequenzdaten einer binären Bewertung unterzogen.
In Fig. 8A ist ein Beispiel eines Zeit-Spektrumsmusters dargestellt,
das am Ausgang des Blockes 45 erhalten worden ist;
in Fig. 8B ist das korrigierte Zeit-Spektrumsmuster dargestellt,
das am Ausgang des LSFL-Filters 49 erhalten worden
ist, und es ist auch ein binäres Zeit-Spektrumsmuster dargestellt,
das am Ausgang des Binärumsetzers 50 erhalten worden
ist. Ein Buchstabe L bezeichnete die nach der Methode
des kleinsten Quadrates ermittelte Ausgleichslinie, und die
Buchstaben LP bezeichnen einen lokalen Spitzenwert. Wie vorstehend
beschrieben, ist in dem erfindungsgemäßen System das
Sprachsignal in 15 Kanäle unterteilt, und folglich gibt der
Binärumsetzer 50 das binäre Zeit-Spektrumsmuster eines zweidimensionalen
Frequenz-Zeit-Musters ab, wie in Fig. 9 dargestellt
ist.
Ein Zeitgeber 51 erzeugt einen Impuls mit einer konstanten
Periode (10 ms) und gibt ihn als Unterbrechungssignal an
den Prozessor 200 ab. Der Prozessor 200 ist durch eine LSI-Schaltung
gebildet, welche die Funktion hat, eine Spracherkennungsverarbeitung
und andere Verarbeitungen durchzuführen.
Der Prozessor 200 erhält die folgenden Elemente.
Eine Zentraleinheit (CPU) 61 ist eine 16 Bit Universal-Zentraleinheit
und führt das Programm durch, das in dem
Programm-Festwertspeicher (ROM) 300 gespeichert ist, welches
extern mit dem Prozessor 200 verbunden ist. Eine Bus-Steuereinheit
62 steuert einen internen Bus 63, welcher in dem
Prozessor 200 untergebracht ist, und einen Zentraleinheit-Bus
500, welcher außerhalb der Prozessoren 100 und 200 vorgesehen
ist. Eine Speicher-Steuereinheit 64 versorgt den
Programm-ROM 300 mit einem Chip-Auswählsignal. Eine Unterbrecher-Steuereinheit
65 gibt das Zeitgebersignal von dem
Prozessor 100 ein und führt die Unterbrechungssteuerung
durch. Ein Parallelanschluß 66 wird verwendet, um eine Verbindung
mit der peripheren Einheit 600 herzustellen. Ein
Steuersignalgenerator 67 erzeugt verschiedene Steuersignale,
welche in dem Prozessor 200 verwendet werden. Ein Taktgenerator
68 erzeugt einen Baud-Ratentakt, welcher notwendig
ist, wenn eine serielle Schnittstelle mit dem Prozessor 200
verbunden ist. Eine Ähnlichkeitselement-Berechnungseinheit
(die nachstehend der Einfachheit halber auch als SECU-Einheit
bezeichnet wird) 69 gibt das unbekannte Eingangsmuster,
das in der Form des binären Zeit-Spektrumsmusters beschrieben
ist, wie in Fig. 9 dargestellt ist, und ein Modellmuster
ein, welches ein Bezugsmuster ist, das aus dem Modell-Random-Speicher
(RAM) 400 abgeleitet ist. Die SECU-Einheit 69 berechnet
mit hoher Geschwindigkeit den Wert von Elementen Pd, Py,
Pv und Pi, die notwendig sind, um den Ähnlichkeitsgrad zwischen
dem unbekannten Eingangsmuster und dem Modell- bzw.
Bezugsmuster zu erhalten. Die SECU-Einheit 69 kann den Ähnlichkeitsgrad
jeweils auf der Basis der sprecherunabhängigen
und -abhängigen Erkennung berechnen. Die vorstehenden vier
Elemente werden später noch im einzelnen beschrieben.
Der Programm-ROM 300 speichert ein Steuerprogramm mit den
folgenden Inhalten, welche von der Zentraleinheit (CPU) 61
und der Speicher-Steuereinheit 64 in dem Prozessor 200 durchgeführt
werden. Ein erstes Steuerprogramm steuert die Operation
so, daß, wenn das von dem Zeitgeber 61 abgeleitete
Unterbrechungssignal an die Unterbrecher-Steuereinheit 65
angelegt wird, die Zentraleinheit (CPU) 61 das binäre Zeit-Spektrumsmuster
von dem Binärumsetzer 50 über den Zentraleinheit-Bus
500 und die Bus-Steuereinheit 62 eingibt. Ein
zweites Steuerprogramm steuert eine Operation, so daß die
Zentraleinheit (CPU) 61 einen Sprachabschnitt in dem binären
Zeit-Spektrumsmuster festsetzt. Bei dem festgesetzten
Sprachabschnitt wird entschieden, ob es ein unbekanntes
Eingangsmuster ist und es wird dann zum Vergleich mit dem
Bezugsmuster dargeboten. Bei dem Vergleich zwischen dem
unbekannten Sprachmuster und dem Bezugsmuster wird vorzugsweise
das herkömmliche Zeilenschrumpfungs- oder -Verengungsverfahren
(line shrinking or narrowing method) angewendet,
um eine Veränderung in der Frequenz und der Zeit des unbekannten
Musters auszugleichen. Beispielsweise sind die
bekannten Zeilenverengungsverfahren in "Japanese Electronic
Communications Society Report PRL-75-66, Sten. 9 bis 56 beschrieben.
Ein drittes Steuerprogramm steuert eine Operation,
so daß ein unbekanntes Eingangssprachenmuster der SECU-Einheit
69 zugeführt wird; das in dem Randomspeicher 400 gespeicherte
Modellmuster wird der SECU-Einheit 69 entsprechend
dem Speichertransfer unter der Steuerung der Speichersteuereinheit
64 zugeführt, so daß die Zentraleinheit 61
Elemente PD, Py, Pv und Pi von der SECU-Einheit 69 erhält.
Ein viertes Steuerprogramm steuert eine Operation, so daß
die Zentraleinheit 61 den Ähnlichkeitsgrad zwischen dem
unbekannten Eingangsmuster und jedem der Modellmuster mit
Hilfe der berechneten Werte der vier Elemente berechnet,
und wählt ein Modell mit dem höchsten Ähnlichkeitsgrad aus.
Der Modell-Randomspeicher 400 entspricht der Kombination aus
dem sprecherunabhängigen Bezugsmuster-Wörterbuch 5 und dem
sprecherabhängigen Bezugsmuster-Wörterbuch 6.
Der Ähnlichkeitsgrad Syi zwischen dem unbekannten Eingangsmuster
und einem Modellmuster ist folgendermaßen definiert:
Syi = [PV/(Pd-Pv)] · [Pi/(Py - Pi)] (1)
wobei ist:
In den vorstehenden Gleichungen bezeichnet "·" eine Multiplikation;
"f" bezeichnet eine Frequenz und entspricht dem
jeweiligen Kanal, "t" bezeichnet eine Zeit und entspricht
dem jeweiligen Rahmen und "∩" bezeichnet eine UND-Operation
(wenn y =1 und mi 0 ist, ein Ergebnis der UND-Operation
1 ist und in anderen Fällen ein Ergebnis der UND-Operation
0 ist und in anderen Fällen ein Ergebnis der UND-Operation
0 ist). Ein Rahmen bezeichnet eine Datengruppe von
15 Kanälen, die jeweils in einem Intervall von 10 ms erhalten
worden sind, wie in Fig. 9 dargestellt ist. Eine Funktion
"y(f, t)" bezeichnet einen Wert, welcher in den Frequenz-Zeit-Koordinaten
(f, t) des unbekannten Eingangs-Musters
angeordnet ist. Beispielsweise ist in Fig. 9
y (15,3)=0 dargestellt.
Fig. 10 zeigt ein Modellmuster eines Wortes, welches ein
Bezugsmuster ist. Eine Funktion "mi(f, t)" bezeichnet einen
Wert, welcher in den Frequenz-Zeit-Koordinaten (f, t) des
Modellmusters positioniert ist. Beispielsweise ist in Fig.
10 (in dezimaler Schreibweise) mi (3,3)=3 dargestellt.
Im allgemeinen wird ein Modellmuster durch Addieren einer
Anzahl Muster erzeugt. Beispielsweise bedeutet in dem Fall,
daß das Modellmuster der Fig. 10 aus drei Mustern erzeugt
wird, ein Wert "3", welcher an den Koordinaten (3, 3) des
Modellmusters angeordnet ist, das einen Wert an den Koordinaten
(3, 3) jedes der drei Muster "1" ist. Im allgemeinen
kann in dem Fall, daß ein Wert jedes Kanals des unbekannten
Eingangsmusters durch ein Bit dargestellt ist und die Anzahl
Kanäle, welche einen Rahmen bilden, m ist, ein Rahmen
des unbekannten Eingangsmusters durch m Bits dargestellt
werden. Im Beispiel der Fig. 9 kann ein Rahmen des unbekannten
Eingangsmusters durch 2 Bytes dargestellt werden.
Andererseits kann in dem Fall, daß ein Wert jedes der m
Kanäle des Modellmusters mit n Bits dargestellt ist, ein
Rahmen davon durch n × m Bits dargestellt werden. Beispielsweise
kann ein Rahmen des Modellmusters der Fig. 10 durch
vier Bytes dargestellt werden.
Wie aus der vorstehenden Beschreibung zu ersehen, entspricht
das Element pd der Summe von Werten, die in einem Modellmuster
enthalten sind. Das Element Py entspricht der Anzahl
eines Werts "1", der in einem unbekannten Eingangsmuster enthalten
ist. Das Element Pi entspricht der Anzahl eines Punktes
auf den Koordinaten (f, t), an welchen entweder ein unbekanntes
Eingangsmuster oder das Modellmuster einen Wert
von "0" haben. Ein Element Pv entspricht der Summe eines
Werts, welcher an jedem des oben genannten Punktes auf der
Koordinate (f, t) des Modellmusters positioniert ist.
Die Berechnung der Gl. (1) wird von der SECU-Einheit 69
durchgeführt. Es sei nun angenommen, daß, wie in Fig. 12A
dargestellt, ein Rahmen des unbekannten Eingangsmusters
mit U bezeichnet ist (15 Kanäle: 16 Bits). Es sei ferner
angenommen, daß ein Wert jedes der 15 Kanäle aus n Bits
zusammengestellt ist. In diesem Fall ist es möglich, einen
Rahmen des Modellmusters zu behandeln, wie in Fig. 12B dargestellt
ist. Das heißt, eine Gruppe des höchstwertigen
Bits in jedem Kanal ist durch T n-1 dargestellt, das folgende
höchstwertige Bit jedes Kanals ist durch T n-2 dargestellt,
und jedes der folgenden Bits ist auf diese
Weise dargestellt. Das niedrigstwertige Bit jedes Kanals ist
durch T₀ dargestellt. Beispielsweise kann wie in Fig. 13A
dargestellt, in dem Fall, daß ein Wert jedes Kanals durch
2 Bits dargestellt ist, d. h. n =2 ist, ein Rahmen in zwei
Teile T₁ und T₀ aufgeteilt werden. Der Teil T₁ ist eine
Gruppe des höchstwertigen Bits (× 2¹) jedes Kanals, und
der Teil t 0 ist eine Gruppe des niedrigstwertigen Bits
(× 2⁰). Die SECU-Einheit 69 ist entsprechend ausgelegt,
um die Elemente Pd, PY, Pv und Pi des in der Gl. (2) dargestellten
Ähnlichkeitsgrads mit Hilfe der Daten U, T n-1,
T n-2 . . . , T₀ zu berechnen.
Fig. 11 ist ein Blockdiagramm, das den Aufbau der SECU-Einheit
69 im einzelnen zeigt, welche die folgenden Elemente
enthält. Eine Lösch-Steuereinheit 69 a löscht ein Rahmendaten-Register
69 a und ein Wortdaten-Register 69 i. Ein Register
69 c für unbekannte Daten ist ein 16 Bit-Register
um vorübergehend einen Rahmen des unbekannten Eingangsmusters
U zu speichern. Ein Modelldaten-Register 69 b ist
ein 16 Bit-Register, um nacheinander die Daten T n-1,
T n-2, . . . , T₀ nacheinander zu speichern, welche einem
Rahmen des Modellmusters eines Wortes entsprechen. Eine
Schaltung 69 e führt eine logische Operation zwischen den
Daten, welche in dem Modelldaten-Register 69 b gespeichert
sind, und den Daten durch, welche in dem Register 69 c für
unbekannte Daten gespeichert sind, und erzeugt Daten, bezüglich
der Elemente Py, Pi, Pd und Pv, um den Ähnlichkeitsgrad
zu beschreiben. Die Daten bezüglich der Elemente Py,
Pi werden einem Rahmendatenregister 69 g zugeführt, und die
Daten bezüglich der Elemente Pd und Py werden einem Rahmendaten-Addierer
69 f zugeführt. Das Rahmendaten-Registers 69 g
ist ein Register, und vorübergehend die Elemente bezüglich
eines Rahmens zu speichern. Der Rahmendaten-Addierer 69 f
addiert die von der Schaltung 69 e gelieferten Daten zu Daten,
welche dadurch erhalten werden, daß die aus dem Rahmendaten-Register
69 g gelesenen Daten um ein Bit in Richtung
höherer Ordnung verschoben werden. Das vorstehend beschriebene
Datenverschieben entspricht einem Verdoppeln des durch
die Daten dargestellten Wertes. Ein Wortdaten-Register 69 i
ist ein Register, um berechnete Werte der Elemente Py, Pi,
Pd und Pv bezüglich der Gesamtheit des Modellmusters des
einen Wortes zu speichern. Ein Wortdaten-Addierer 69 f
addiert jedes der Elemente Py, Pi, Pd und Pv, die in dem
Wortdaten-Register 69 i gespeichert sind, zu den entsprechenden,
in dem Rahmendaten-Register 69 g gespeicherten Elementen.
Ein Ausgangspuffer 69 d ist ein Puffer, um jedes in dem Wortdaten-Register
69 i gespeicherte Element an den Datenbus 63
zu übertragen.
In Fig. 14 ist ein Flußdiagramm der Arbeitsweise der SECU-Einheit
69 dargestellt. In Fig. 14 wird das Wortdaten-Register
69 i gelöscht (Schritt 1021). Dann wird das Rahmendaten-Register
69 g gelöscht, und gleichzeitig werden die
Daten U, die zu einem Rahmen des unbekannten Eingangsmusters
beitragen, an das Register 69 c für unbekannte Daten
übertragen (Schritt 1022). Danach wird ein Rahmen der Modelldaten
sequentiell an das Modelldaten-Register 69 b übertragen,
wobei von den Daten T n-1 aus begonnen wird (Schritt
1023). Der Schritt 1023 wird wiederholt durchgeführt, bis
die niedrigsten Daten T₀ übertragen sind (Schritt 1024).
Die Folge, welche sich aus dem Schritt 1022 bis 1024 zusammensetzt,
wird wiederholt durchgeführt, bis alle Rahmen
verarbeitet sind (Schritt 1025).
Entsprechend dem vorstehend beschriebenen Ablauf führt die
SECU-Einheit 69 die folgenden Berechnungen durch. In der
Gl. (1) nimmt jeweils y (f, t) und mi (f, t) ∩y (f, t) einen
Wert von einem Bit an. Folglich werden Elemente Py, Pi
für einen Rahmen, d. h.
an das Rahmenregister 69 g übertragen, unmittelbar nachdem
alle Daten T n-1, T n-2 . . . , T₀ an das Modelldaten-Register
69 b übertragen worden sind.
Andererseits nimmt jeweils mi (f, t) und mi (f, t) · y (f, t)
einen Wert von n Bits an. Daher werden Elemente Pd und Pf
für einen Rahmen, d. h.
folgendermaßen erhalten. Zuerst wird das Element Mi (f, t)
für die Daten T n-1 berechnet. Ein berechnetes Ergebnis wird
um ein Bit nach oben (in Richtung höherer Ordnung) verschoben.
Anschließend wird das Element mi (f, t) für die nächsten
Daten T n-2 berechnet. Dann wird ein berechnetes Ergebnis für
die Daten T n-2 zu dem verschobenen Ergebnis für die Daten
T n-1 addiert. Auf diese Weise wird die Berechnung wiederholt
durchgeführt, bis die Daten T₀ verarbeitet sind. Ebenso wird
das Element
für einen Rahmen berechnet. Wenn
beispielsweise ein Rahmen des in Fig. 13A dargestellten Modellmusters
und ein Rahmen eines in Fig. 13C dargestellten,
unbekannten Eingangsmusters verarbeitet werden, wird mit
(f, t) und mi (f, t) · y (f, t) für die in Fig. 13B dargestellten
Daten T i berechnet. In diesem Fall ist in der binären
Schreibweise (entsprechend 2 in der dezimalen Schreibweise)
mi (f, t) =10 und mi (f, t) · y (f, t) =10 (entsprechend 2 in
in der dezimalen Schreibweise). Die erhaltenen Binärwerte
von Elementen mi (f, t) und mi (f, t) y (f, t) werden jeweils um
ein Bit aufwärts verschoben, so daß verschobene Werte von
100 bzw. 100 erhalten werden. Als nächstes werden mi (f, t)
und mi (f, t) · y (f, t) für die in Fig. 13b dargestellten Daten
t₀ berechnet. In diesem Fall ist dann mi (f, t) =10 (entsprechend
2 in der dezimalen Schreibweise) und mi (f, t) · y (f, t) =01
(entsprechend 1 in dezimaler Schreibweise).
Dann wird bezüglich mi (f, t) ein Binärwert von 100 und ein
Binärwert von 10 zueinander addiert, so daß ein addierter
Wert von 110 (entsprechend 6 in dezimaler Schreibweise) als
ein Wert von
erhalten wird. In ähnlicher Weise
wird bezüglich mi (f, t) · y (f, t) ein Binärwert von 100 zu
einem Binärwert von 01 addiert, so daß ein addierter Wert
von 101 (entsprechend 5 in dezimaler Schreibweise) als
ein Wert von
erhalten wird.
Wenn auf diese Weise alle vier Elemente für einen Rahmen
in dem Rahmenregister 69 g enthalten sind, werden diese
Werte zu Endwerten von den jeweiligen Elementen addiert,
welche bis zu diesem Zeitpunkt erhalten worden sind.
Wie aus der vorstehenden Beschreibung zu ersehen ist, ist
der Aufbau der SECU-Einheit 69 sehr vereinfacht, und es
kann daher eine hochschnelle Berechnung des Ähnlichkeitsgrades
zwischen dem unbekannten Eingangsmuster und dem Modellmuster
erhalten werden. Das heißt, die vier Elemente
Py, Pi, Pd und Pv können bezüglich des Modellmusters des
einen Wortes erhalten werden, unmittelbar nachdem der letzte
Rahmen des Modellmusters an das Modelldatenregister 69 b
übertragen ist.
Es sollte insbesondere beachtet werden, daß die Elemente zum
Beschreiben des Ähnlichkeitsgrades unabhängig von der Anzahl
Bits erhalten werden können, welche zum Darstellen eines
Wertes jedes Kanals verwendet werden, der in einem Rahmen
des Modellmusters enthalten ist, da die Berechnung in
der SECU-Einheit 69 so durchgeführt wird, daß von Daten aus
gestartet wird, die entsprechend dem höchstwertigen Bit
positioniert sind. Aus diesem Grund kann die SECU-Einheit
69 im allgemeinen bei der sprecherunabhängigen und der -abhängigen
Erkennung verwendet werden, welche beide auf der
Methode des binären Zeit-Spektrums-Musters basieren. Das
heißt, es ist möglich, die sprecherunabhängige und die
sprecherabhängige Erkennung mit nur einem Prozessor 200
durchzuführen. In dem herkömmlichen Spracherkennungssystem
behandelt ein Prozessor die sprecherabhängige und der
andere Prozessor die sprecherabhängige Erkennung, da die
Algorithmen zwischen beiden Erkennungstypen infolge der
Unterschiede zwischen den Wörterbüchern verschieden sind.
Daher kann im Vergleich zu dem herkömmlichen System die
hardware des Systems der Fig. 7 kompakt ausgebildet werden.
Außerdem ist zu beachten, daß die Berechnung der Elemente,
welche zum Beschreiben des Ähnlichkeitsgrades verwendet
worden sind, mit Hilfe der SECU-Einheit 69 durchgeführt
werden, welche die in Fig. 11 dargestellte Hardware aufweisen.
Daher können mit Hilfe der Zentraleinheit (CPU)
61 in den Prozessor 200 zusätzlich zu der Spracherkennung
auch in dem Programm-Festwertspeicher (ROM) 300 gespeichert
Anwendungsprogramme behandelt werden. In dem herkömmlichen
System wird die Berechnung, welche der von der
SECU-Einheit 69 durchgeführten Berechnung entspricht, von
der Zentraleinheit in dem Prozessor durchgeführt werden.
Daher muß die Zentraleinheit eine sehr große Datenmenge
behandeln, um die Spracherkennung durchzuführen. Aus diesem
Grund führt die Zentraleinheit in dem herkömmlichen
System kaum Anwendungsprogramme durch.
Ferner sind die Programme für die Spracherkennung in dem
Programm-Festwertspeicher (ROM) 300 gespeichert, welcher
extern mit dem Prozessor 200 verbunden ist, welcher die
Zentraleinheit 61 enthält. Folglich ist eine Änderung in
dem Programm leicht möglich, indem der ROM 300 durch einen
anderen ausgetauscht wird oder dessen Inhalt neu geschrieben
wird. Andererseits ist eine Änderung der Programme, welche
von der Zentraleinheit durchgeführt wird, unmöglich, da der
herkömmliche Prozessor, der ausschließlich für die Spracherkennung
in LSI-Technik ausgelegt ist, in sich den Festwertspeicher
(ROM) enthält.
Fig. 15 ist ein schematisches Blockdiagramm eines Spracherkenungssystems
mit einem Personalcomputer. Ein Universal-Personalcomputer
140 hat einen Erweiterungsschlitz, welcher
mit einem Bus 150 einer Zentraleinheit (CPU) 141 verbunden
ist. Daher kann ein Spracherkennungssystem erhalten werden,
indem eine Spracherkennungskarte 160 in den Erweiterungsschlitz
eingeführt wird. Es sind nur ein Prozessor 161 und
ein Dekodierer 62 zum Durchführen von Adressenkodierern notwendig,
die auf der Spracherkennungskarte 160 angebracht
sind. Diese Teile sind mit dem Bus 150 verbunden. Die Zentraleinheit
141 führt alle Funktionen durch, welche durch
den Prozessor 200 durchgeführt werden. Die Programme und
Modelldaten sind in einer Festplatte 180 und einer Floppy
Disk 190 gespeichert und werden an einen Programm-Random-Speicher
(RAM) 142 und einen Modell-Random-Speicher (RAM)
143 übertragen.
Claims (14)
1. Spracherkennungseinrichtung, mit einer Merkmalsextrahiereinrichtung
(2), um Merkmale einer unbekannten Eingangssprache
zu extrahieren und um ein entsprechendes unbekanntes
Sprachmuster zu erzeugen, mit einer Speichereinrichtung (5)
zum Speichern von sprecherunabhängigen Bezugsmustern, mit
einer Speichereinrichtung (6) zum Speichern von sprecherabhängigen
Bezugsmustern, mit einer sprecherunabhängigen Erkennungseinrichtung
(3), um einen Ähnlichkeitsgrad zwischen
dem unbekannten Eingangsmuster und jedem der sprecherunabhängigen
Bezugsmuster zu berechnen und um zumindest einen
Kandidaten für das unbekannte Eingangsmuster zu erzeugen,
und mit einer sprecherabhängigen Erkennungseinrichtung (4),
um einen Ähnlichkeitsgrad zwischen dem unbekannten Eingangsmuster
und jedem der sprecherabhängigen Bezugsmuster
zu berechnen und um zumindest einen Kandidaten für ein unbekanntes
Eingangsmuster zu erzeugen, dadurch gekennzeichnet,
daß die Spracherkennungseinrichtung ferner
aufweist; eine Koeffizienten-Speichereinrichtung (9), um
zumindest einen Koeffizienten zum Korrigieren des Ähnlichkeitsgrades
zu speichern, welcher entweder durch die
sprecherunabhängige oder die sprecherabhängige Erkennungseinrichtung
erhalten wird, und eine Sprachidentifizierungseinrichtung
(7), um den Ähnlichkeitsgrad des einen Kandidaten,
der entweder von der sprecherunabhängigen oder von
der sprecherabhängigen Erkennungseinrichtung geliefert
worden ist, mit korrigierten Ähnlichkeitsgraden des Kandidaten
zu vergleichen, welcher zu der anderen Erkennungseinrichtung
in Bezug gesetzt worden ist, wobei dies erhalten
wird, indem eine vorherbestimmte Operation bezüglich des
Ähnlichkeitsgrades jedes Kandidaten durchgeführt wird, welcher
von der anderen Erkennungseinrichtung geliefert wird,
und um unter den Kandidaten, die von der sprecherunabhängigen
und der sprecherabhängigen Erkennungseinrichtung geliefert
worden sind, einen Kandidaten mit dem höchsten Ähnlichkeitsgrad
zu bestimmen, was dann Identifizierungsergebnis ist.
2. Spracherkennungseinrichtung nach Anspruch 1, gekennzeichnet
durch eine Bestätigungseinrichtung (10, 11
12), um den Kandidaten mit dem höchsten Ähnlichkeitsgrad
an einen Lautsprecher abzugeben, welcher die Sprache hervorbringt,
um zu bestätigen, ob der Kandidat der richtige ist
oder nicht.
3. Spracherkennungseinrichtung nach Anspruch 2, gekennzeichnet
durch eine Löscheinrichtung (8, 78) zum
Löschen des Kandidaten, wenn bestätigt wird, daß er der
falsche ist, durch eine Kandidaten-Auswähleinrichtung (74,
75), um nacheinander einzeln andere Kandidaten aus den Kandidaten
in abnehmender Reihenfolge des Ähnlichkeitsgrads
auszuwählen, und durch eine Koeffizienten-Einstelleinrichtung
(76), um einen Wert des Koeffizienten einzustellen,
wenn ein Kandidat, welcher durch die Kandidaten-Auswähleinrichtung
(74, 75) ausgewählt ist und von der Bestätigungseinrichtung
bestätigt wird, daß er der richtige ist,
eines der Bezugsmuster ist, zu welchem der gelöschte Kandidat
nicht gehört, so daß eines der Bezugsmuster, zu
welchen der gelöschte Kandidat gehört, als der erste Kandidat
ausgewählt wird, wenn dieselbe Eingangssprache verarbeitet wird.
4. Spracherkennungseinrichtung nach Anspruch 1, dadurch
gekennzeichnet, daß der Wert des Koeffizienten
auf Versuchsbasis bestimmt wird.
5. Spracherkennungseinrichtung nach Anspruch 1, dadurch
gekennzeichnet, daß die vorherbestimmte Operation
eine Multiplikation ist, bei welcher der Koeffizient
mit dem Ähnlichkeitsgrad jedes Kandidaten multipliziert
wird, welcher entweder zu der sprecherunabhängigen oder zu
der sprecherabhängigen Erkennung gehört.
6. Spracherkennungseinrichtung nach Anspruch 5, dadurch
gekennzeichnet, daß zusätzlich zu der Multiplikation
eine Addition durchgeführt wird, bei welcher das
Multiplikationsergebnis dadurch korrigiert wird, daß ein
vorherbestimmter Wert des Koeffizienten zu dem Multiplikationsergebnis
addiert wird.
7. Spracherkennungseinrichtung nach Anspruch 1, dadurch
gekennzeichnet, daß der Koeffizient eine
Vielzahl verschiedener Werte hat, und daß die Spracherkennungseinrichtung
ferner Einrichtungen aufweist, um
einen der vorherbestimmten Werte des Koeffizienten von
Hand einzustellen, welcher der vorherbestimmten Operation
zu unterziehen ist.
8. Spracherkennungseinrichtung nach Anspruch 2, dadurch
gekennzeichnet, daß die sprecherunabhängige
Bezugsmuster speichernde Einrichtung (5) eine Bezugssprache
bezüglich einer öffentlichen Einrichtung speichert,
und daß die Spracherkennungseinrichtung ferner eine Einrichtung
(32) zum Speichern von Telefonnummern und eine
Übertragungseinrichtung (23, 33, 34, 35) zum Herstellen einer
Verbindung mit einer Fernsprecheinrichtung und eine Steuereinrichtung
(27) aufweist, um eine Telefonnummer entsprechend
dem Erkennungsergebnis, welches von der Sprachidentifizierungseinrichtung
ausgegeben worden ist, aus den Telefonnummern
auszuwählen, welche in der Telefonnummern-Speichereinrichtung
gespeichert sind, so daß die ausgewählte
Telefonnummer an die Fernmeldeeinrichtung abgegeben wird.
9. Spracherkennungsverfahren, bei welchem ein unbekanntes
Eingangssprachmuster einer unbekannten Eingangssprache aus
Merkmalen erzeugt wird, welche aus der unbekannten Eingangssprache
extrahiert worden sind, und bei welchem
ein Ähnlichkeitsgrad zwischen dem erzeugten unbekannten
Muster und Bezugsmustern berechnet wird, welche aus Bezugsmuster,
welche ausschließlich für eine sprecherunabhängige
Erkennung verwendet werden und aus Bezugsmustern
zusammengesetzt sind, welche ausschließlich für eine sprecherabhängige
Erkennung verwendet werden, dadurch gekennzeichnet,
daß der Ähnlichkeitsgrad jedes
Kandidaten entweder bezüglich der sprecherunabhängigen oder
sprecherabhängigen Erkennung korrigiert wird, indem der
Ähnlichkeitsgrad einer vorherbestimmten Operation unterzogen
wird, und daß dann ein Kandidat mit dem höchsten
Ähnlichkeitsgrad bei einem Identifizierungsergebnis bestimmt
wird.
10. Spracherkennungsverfahren nach Anspruch 9, dadurch
gekennzeichnet, daß der Kandidat mit dem
höchsten Ähnlichkeitsgrad an einen Lautsprecher abgegeben
wird, welcher die Sprache abgibt, um dadurch zu bestätigen,
ob der Kandidat der richtige ist oder nicht..
11. Spracherkennungsverfahren nach Anspruch 10, dadurch
gekennzeichnet, daß der Kandidat gelöscht
wird, wenn bestätigt wird, daß er der falsche ist, daß
nacheinander einzeln andere Kandidaten aus den Kandidaten
in abnehmender Reihenfolge des Ähnlichkeitsgrads ausgewählt
werden, und daß ein Wert des Koeffizienten eingestellt
wird, wenn ein Kandidat, welcher durch den Auswählschritt
ausgewählt wird, bei welchem bei dem Bestätigungsschritt
bestätigt wird, daß er der richtige ist,
eines der Bezugsmuster ist, zu welchen der gelöschte Kandidat
nicht gehört, so daß eines der Bezugsmuster, zu
welchen der gelöschte Kandidat gehört, wahrscheinlich nicht
bei dem folgenden Erkennungsschritt ausgewählt wird.
12. Spracherkennungsverfahren nach Anspruch 9, dadurch
gekennzeichnet, daß die vorherbestimmte Operation
eine Multiplikation ist, bei welcher der Koeffizient
mit dem Ähnlichkeitsgrad jedes Kandidaten multipliziert
wird, welcher entweder zu der sprecherunabhängigen oder zu
der sprecherabhängigen Erkennung gehört.
13. Spracherkennungseinrichtung, mit einer Merkmalsextrahiereinrichtung
(100) zum Extrahieren von Merkmalen einer unbekannten
Eingangssprache und zum Erzeugen eines entsprechenden
unbekannten Sprachmusters, wobei die Merkmalsextrahiereinrichtung
durch einen Prozessor (100) in Form einer LSI-Schaltung
gebildet ist, mit einer Speichereinrichtung (100)
zum Speichern von Bezugssprachmustern, mit einer Spracherkennungseinrichtung
(69), um einen Ähnlichkeitsgrad zwischen
dem unbekannten Eingangsmuster und jedem der Bezugsmuster
zu berechnen und um eine Anzahl Kandidaten für das
unbekannte Eingangsmuster zu erzeugen, und mit einer Sprachidentifizierungseinrichtung
(61), um einen Kandidaten mit
dem höchsten Ähnlichkeitsgrad aus Kandidaten auszuwählen,
dadurch gekennzeichnet, daß die Spracherkennungseinrichtung
(69) und die Sprachidentifizierungseinrichtung
(61) durch einen zweiten Prozessor (100) in Form
einer LSI-Schaltung gebildet sind, und daß die ersten und
zweiten Prozessoren und die Bezugsmuster-Speichereinrichtungen
gemeinsam mit einem Bus verbunden sind, so daß
der zweite Prozessor im allgemeinen für die sprecherunabhängige
und/oder sprecherabhängige Erkennung verwendet
werden kann.
14. Spracherkennungseinrichtung nach Anspruch 13, dadurch
gekennzeichnet, daß jedes der unbekannten Eingangsmuster
und die Bezugsmuster ein zweidimensionales
Muster aus Zeit und Frequenz mit einer Anzahl Rahmen sind,
wobei in jedem Rahmen enthaltene Rahmendaten Leistungsdaten
einer Sprache sind, die in einer Anzahl Frequenzkanälen extrahiert
worden ist, und daß die Spracherkennungseinrichtung
ferner eine erste Speichereinrichtung (69 c) zum sequentiellen
Speichern der Rahmendaten des unbekannten, von der
Merkmalsextrahiereinrichtung gelieferten Sprachmusters,
eine zweite Speichereinrichtung (69 b) zum sequentiellen
Speichern der Rahmendaten eines der Bezugsmuster, welches
von der Bezugsmuster-Speichereinrichtung geliefert wird,
eine eine logische Operation durchführende Einrichtung (69 e)
um eine vorherbestimmte Operation zwischen den Rahmendaten
des unbekannten Musters und jeder der Unterteilungen der
Rahmendaten des Bezugsmusters durchzuführen, um dadurch
vorherbestimmte Elemente zu erzeugen, die zum Berechnen
des Ähnlichkeitsgrades eines Kandidaten notwendig sind,
ein erstes Register (69 g), um die berechneten Elemente bezüglich
der Rahmendaten zu speichern, einen ersten Addierer
(69 f), um die berechneten Elemente, welche von der die
logische Operation durchführenden Einrichtungen geliefert
sind, zu Daten zu addieren, welche durch Verdoppeln der
Elemente erhalten worden sind, welche aus dem ersten Register
gelesen werden, und um ein Additionsergebnis in
das erste Register zu schreiben, ein zweites Register
(69 i), um berechnete Elemente bezüglich der Gesamtheit
eines unbekannten Musters zu speichern, und einen zweiten
Addierer (69 h) aufweist, um die Elemente, welche aus dem
ersten Register gelesen werden, zu den Elementen zu addieren,
welche aus dem zweiten Register gelesen werden, und
um ein Additionsergebnis in das zweite Register zu schreiben,
so daß der Ähnlichkeitsgrad eines Kandidaten durch
die berechneten Elemente bezüglich eines unbekannten Musters
dargestellt wird, welche in dem Wortdatenregister
gespeichert sind.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14034487 | 1987-06-04 | ||
JP14367287 | 1987-06-08 | ||
JP2532688 | 1988-02-04 | ||
JP63126847A JPH01309099A (ja) | 1987-06-04 | 1988-05-23 | 音声応答装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3819178A1 true DE3819178A1 (de) | 1988-12-22 |
DE3819178C2 DE3819178C2 (de) | 1991-06-20 |
Family
ID=27458289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3819178A Granted DE3819178A1 (de) | 1987-06-04 | 1988-06-06 | Spracherkennungsverfahren und -einrichtung |
Country Status (2)
Country | Link |
---|---|
US (1) | US5091947A (de) |
DE (1) | DE3819178A1 (de) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4031638A1 (de) * | 1989-10-05 | 1991-04-18 | Ricoh Kk | Spracherkennungseinrichtung |
EP0431890A2 (de) * | 1989-12-06 | 1991-06-12 | Fujitsu Limited | System zur Spracherkennung |
EP0526347A2 (de) * | 1991-08-01 | 1993-02-03 | Fujitsu Limited | System zur Bestimmung einer Anzahl von Kandidaten zur Erkennung in einer Spracherkennungseinrichtung |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
DE4328752B4 (de) * | 1992-08-27 | 2004-08-05 | Gold Star Electron Co., Ltd. | Spracherkennungssystem |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5127043A (en) * | 1990-05-15 | 1992-06-30 | Vcs Industries, Inc. | Simultaneous speaker-independent voice recognition and verification over a telephone network |
GB9116433D0 (en) * | 1991-07-30 | 1991-09-11 | Active Noise & Vibration Tech | Noise reduction system |
JP3088035B2 (ja) * | 1991-12-18 | 2000-09-18 | パイオニアビデオ株式会社 | ディジタル信号プロセッサ |
FI97919C (fi) * | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
US5325421A (en) * | 1992-08-24 | 1994-06-28 | At&T Bell Laboratories | Voice directed communications system platform |
US5566229A (en) * | 1992-08-24 | 1996-10-15 | At&T | Voice directed communications system employing shared subscriber identifiers |
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
US5717743A (en) * | 1992-12-16 | 1998-02-10 | Texas Instruments Incorporated | Transparent telephone access system using voice authorization |
US5488652A (en) * | 1994-04-14 | 1996-01-30 | Northern Telecom Limited | Method and apparatus for training speech recognition algorithms for directory assistance applications |
JP3968133B2 (ja) * | 1995-06-22 | 2007-08-29 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
US6073101A (en) | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US5893902A (en) * | 1996-02-15 | 1999-04-13 | Intelidata Technologies Corp. | Voice recognition bill payment system with speaker verification and confirmation |
US5719921A (en) * | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
US5905773A (en) * | 1996-03-28 | 1999-05-18 | Northern Telecom Limited | Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models |
TW356548B (en) * | 1996-07-11 | 1999-04-21 | Sega Entpr Corp | Sound identifying device method of sound identification and the game machine using the said device |
US5950160A (en) * | 1996-10-31 | 1999-09-07 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
US5884258A (en) * | 1996-10-31 | 1999-03-16 | Microsoft Corporation | Method and system for editing phrases during continuous speech recognition |
US5829000A (en) * | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
US5899976A (en) * | 1996-10-31 | 1999-05-04 | Microsoft Corporation | Method and system for buffering recognized words during speech recognition |
US5987414A (en) * | 1996-10-31 | 1999-11-16 | Nortel Networks Corporation | Method and apparatus for selecting a vocabulary sub-set from a speech recognition dictionary for use in real time automated directory assistance |
US5839107A (en) * | 1996-11-29 | 1998-11-17 | Northern Telecom Limited | Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing |
US5987408A (en) * | 1996-12-16 | 1999-11-16 | Nortel Networks Corporation | Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US5924070A (en) * | 1997-06-06 | 1999-07-13 | International Business Machines Corporation | Corporate voice dialing with shared directories |
US5897616A (en) | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
JP3050180B2 (ja) * | 1997-08-08 | 2000-06-12 | 日本電気株式会社 | 音声認識装置 |
US6018708A (en) * | 1997-08-26 | 2000-01-25 | Nortel Networks Corporation | Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies |
US6122361A (en) * | 1997-09-12 | 2000-09-19 | Nortel Networks Corporation | Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality |
US5995929A (en) * | 1997-09-12 | 1999-11-30 | Nortel Networks Corporation | Method and apparatus for generating an a priori advisor for a speech recognition dictionary |
CA2216224A1 (en) * | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
DE69820222T2 (de) * | 1997-10-07 | 2004-09-30 | Koninklijke Philips Electronics N.V. | Verfahren und vorrichtung zur aktivierung einer sprachgesteuerten funktion in einem mehrplatznetzwerk mittels sowohl sprecherabhängiger als auch sprecherunabhängiger spracherkennung |
US6253173B1 (en) | 1997-10-20 | 2001-06-26 | Nortel Networks Corporation | Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors |
US6098040A (en) * | 1997-11-07 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking |
JP3899498B2 (ja) * | 1997-11-12 | 2007-03-28 | 株式会社セガ | ゲーム機 |
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
KR100577990B1 (ko) * | 1997-12-31 | 2006-08-30 | 엘지전자 주식회사 | 화자종속/독립음성인식장치 |
US6246987B1 (en) * | 1998-02-04 | 2001-06-12 | Alcatel Usa Sourcing, L.P. | System for permitting access to a common resource in response to speaker identification and verification |
US6229880B1 (en) | 1998-05-21 | 2001-05-08 | Bell Atlantic Network Services, Inc. | Methods and apparatus for efficiently providing a communication system with speech recognition capabilities |
US6233315B1 (en) | 1998-05-21 | 2001-05-15 | Bell Atlantic Network Services, Inc. | Methods and apparatus for increasing the utility and interoperability of peripheral devices in communications systems |
US6243680B1 (en) | 1998-06-15 | 2001-06-05 | Nortel Networks Limited | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances |
US6208964B1 (en) | 1998-08-31 | 2001-03-27 | Nortel Networks Limited | Method and apparatus for providing unsupervised adaptation of transcriptions |
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
US6744860B1 (en) | 1998-12-31 | 2004-06-01 | Bell Atlantic Network Services | Methods and apparatus for initiating a voice-dialing operation |
US6832194B1 (en) * | 2000-10-26 | 2004-12-14 | Sensory, Incorporated | Audio recognition peripheral system |
US20020143540A1 (en) | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
US20030101052A1 (en) * | 2001-10-05 | 2003-05-29 | Chen Lang S. | Voice recognition and activation system |
US7212248B2 (en) * | 2002-09-09 | 2007-05-01 | The Directv Group, Inc. | Method and apparatus for lipsync measurement and correction |
US7676026B1 (en) * | 2005-03-08 | 2010-03-09 | Baxtech Asia Pte Ltd | Desktop telephony system |
US7948558B2 (en) * | 2006-09-29 | 2011-05-24 | The Directv Group, Inc. | Audio video timing measurement and synchronization |
KR20120063982A (ko) * | 2010-12-08 | 2012-06-18 | 한국전자통신연구원 | 시각장애 사용자를 위한 인터페이스 장치 및 방법 |
US9443522B2 (en) * | 2013-11-18 | 2016-09-13 | Beijing Lenovo Software Ltd. | Voice recognition method, voice controlling method, information processing method, and electronic apparatus |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3129282A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherabhaengigen erkennung von einzelnen gesprochenen worten in fernmeldesystemen |
DE3129353A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen |
EP0191354A1 (de) * | 1985-01-31 | 1986-08-20 | International Business Machines Corporation | Verfahren zur Spracherkennung |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57147781A (en) * | 1981-03-06 | 1982-09-11 | Nec Corp | Pattern matching device |
US4400828A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Word recognizer |
CH644246B (fr) * | 1981-05-15 | 1900-01-01 | Asulab Sa | Dispositif d'introduction de mots a commande par la parole. |
JPS5879300A (ja) * | 1981-11-06 | 1983-05-13 | 日本電気株式会社 | パタ−ン距離計算方式 |
JPS59192A (ja) * | 1982-06-25 | 1984-01-05 | 株式会社東芝 | 個人照合装置 |
JPS59178587A (ja) * | 1983-03-30 | 1984-10-09 | Nec Corp | 話者確認システム |
-
1988
- 1988-06-06 DE DE3819178A patent/DE3819178A1/de active Granted
-
1990
- 1990-08-13 US US07/566,884 patent/US5091947A/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3129282A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherabhaengigen erkennung von einzelnen gesprochenen worten in fernmeldesystemen |
DE3129353A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen |
EP0191354A1 (de) * | 1985-01-31 | 1986-08-20 | International Business Machines Corporation | Verfahren zur Spracherkennung |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4031638A1 (de) * | 1989-10-05 | 1991-04-18 | Ricoh Kk | Spracherkennungseinrichtung |
EP0431890A2 (de) * | 1989-12-06 | 1991-06-12 | Fujitsu Limited | System zur Spracherkennung |
EP0431890A3 (en) * | 1989-12-06 | 1992-10-28 | Fujitsu Limited | A voice recognition system |
US5257314A (en) * | 1989-12-06 | 1993-10-26 | Fujitsu Limited | Voice recognition system having word frequency and intermediate result display features |
EP0526347A2 (de) * | 1991-08-01 | 1993-02-03 | Fujitsu Limited | System zur Bestimmung einer Anzahl von Kandidaten zur Erkennung in einer Spracherkennungseinrichtung |
EP0526347A3 (en) * | 1991-08-01 | 1993-08-11 | Fujitsu Limited | A number-of-recognition candidates determining system in a speech recognizing device |
US5732190A (en) * | 1991-08-01 | 1998-03-24 | Fujitsu Limited | Number-of recognition candidates determining system in speech recognizing device |
DE4328752B4 (de) * | 1992-08-27 | 2004-08-05 | Gold Star Electron Co., Ltd. | Spracherkennungssystem |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US6839670B1 (en) | 1995-09-11 | 2005-01-04 | Harman Becker Automotive Systems Gmbh | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process |
Also Published As
Publication number | Publication date |
---|---|
US5091947A (en) | 1992-02-25 |
DE3819178C2 (de) | 1991-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3819178C2 (de) | ||
DE3247229C2 (de) | ||
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE60126722T2 (de) | Aussprache von neuen Wörtern zur Sprachverarbeitung | |
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE3135483C2 (de) | Verfahren und Schaltungsanordnung zur Erkennung einer alphanumerischen Eingangszeichenkette | |
DE4031638C2 (de) | ||
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE69930961T2 (de) | Vorrichtung und verfahren zur sprachsegmentierung | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE4031421C2 (de) | Musteranpassungssystem für eine Spracherkennungseinrichtung | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE2659083A1 (de) | Verfahren und vorrichtung zur sprechererkennung | |
DE3503508A1 (de) | Verfahren und vorrichtung zum erzeugen eines signals erhoehter bildschaerfe | |
DE3736193A1 (de) | Sprachsignal-kodierverfahren | |
DE4109785C2 (de) | Verfahren zur Aufbereitung von Wörterbuchdateien und zur Erstellung von Anwendungsprogrammen sowie System zur Durchführung dieses Verfahrens | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE3733391A1 (de) | Verfahren zur spracherkennung | |
DE60014031T2 (de) | Sprachererkennung durch korrelierung von spektrogrammen | |
EP0202404A1 (de) | System zur Erkennung einzeln gesprochener Wörter | |
DE4002336A1 (de) | Bezugsmuster-erneuerungsverfahren | |
EP1231596A9 (de) | Trainingsmethode von den freien Parameten eines Maximum-Entropie-Sprachmodells | |
DE69908518T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese | |
DE3246631A1 (de) | Zeichenerkennungsvorrichtung | |
EP1279094A1 (de) | Verfahren und einrichtung zur modulo-berechnung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |