DE3819178C2 - - Google Patents
Info
- Publication number
- DE3819178C2 DE3819178C2 DE3819178A DE3819178A DE3819178C2 DE 3819178 C2 DE3819178 C2 DE 3819178C2 DE 3819178 A DE3819178 A DE 3819178A DE 3819178 A DE3819178 A DE 3819178A DE 3819178 C2 DE3819178 C2 DE 3819178C2
- Authority
- DE
- Germany
- Prior art keywords
- speaker
- candidate
- similarity
- pattern
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000001419 dependent effect Effects 0.000 claims description 53
- 238000000034 method Methods 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 14
- 230000006978 adaptation Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000001356 surgical procedure Methods 0.000 claims 1
- 230000015654 memory Effects 0.000 description 45
- 230000015572 biosynthetic process Effects 0.000 description 34
- 238000003786 synthesis reaction Methods 0.000 description 34
- 238000001228 spectrum Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101100188552 Arabidopsis thaliana OCT3 gene Proteins 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
Description
Die Erfindung betrifft ein Spracherkennungsverfahren nach
dem Anspruch 1 sowie eine Spracherkennungseinrichtung zur
Durchführung dieses Verfahrens nach Anspruch 4.
Aus der DE 31 29 282 A1 ist bereits eine Spracherkennungs
einrichtung bekannt, die neben einer Merkmalsextrahierein
richtung, um Merkmale einer unbekannten Eingangssprache zu
extrahieren und um ein entsprechendes unbekanntes Sprach
muster zu erzeugen, auch eine Speichereinrichtung aufweist
zum Speichern von sprecherabhängigen Bezugsmustern. Diese
bekannte Spracherkennungseinrichtung umfaßt ferner eine
sprecherabhängige Erkennungseinrichtung, um einen Ähnlich
keitsgrad zwischen den unbekannten Eingangsmuster und jedem
der sprecherabhängigen Bezugsmuster zu berechnen und um
zumindest einen Kandidaten für ein unbekanntes Eingangsmu
ster zu erzeugen.
Aus der DE 31 29 353 A1 ist ebenfalls eine Spracherken
nungseinrichtung bekannt, die eine Merkmalsextrahierein
richtung enthält, um Merkmale einer unbekannten Eingangs
sprache zu extrahieren und um ein entsprechendes unbekann
tes Sprachmuster zu erzeugen. Es ist ferner eine Speicher
einrichtung zum Speichern von sprecherunabhängigen Bezugs
mustern und auch eine sprecherunabhängige Erkennungsein
richtung vorhanden, um einen Ähnlichkeitsgrad zwischen dem
unbekannten Eingangsmuster und jedem der sprecherunabhängi
gen Bezugsmuster zu berechnen und um zumindest einen Kandi
daten für das bekannte Eingangsmuster zu erzeugen.
Aus der EP 01 91 354 A1 ist ein Spracherkennungsverfahren be
kannt, bei welchem zunächst eine Trainingsfolge durchge
führt wird und zu Beginn eine grobe Wortauswahl vorgenommen
wird, um dadurch eine Vorentscheidung zu treffen, ob die
ausgewählten Worte richtig oder falsch sind. Bei diesen
Vorauswahlen bzw. der Trainingsfolge wird jeder Laut mit
einem vorgewählten Wort verglichen bzw. an dieses angepaßt,
um dadurch eine Wahrscheinlichkeitsgröße zu erhalten, mit
welcher die Erkennung durchgeführt werden kann. Auf der
Grundlage der Erkenntnis des richtigen oder fehlerhaften
Ergebnisses der Grobauswahl und in Kombination mit der
Wahrscheinlichkeitsgröße wird dann eine Diskriminierung
vorgenommen, um zu bestimmen, wie jeder Laut in jedem Wort
modell gewichtet werden muß, um eine optimale Entscheidung
zwischen ähnlichen Worten zu erreichen. Dabei werden die
Wichtungskoeffizienten gewonnen und diese werden mit den
Wortmodellen abgespeichert und werden zu einem späteren
Zeitpunkt verwendet, und zwar während der aktuellen Sprach
erkennung.
Darüber hinaus ist es der Fachwelt auch bekannt, daß der
Ähnlichkeitsgrad, der von einer sprecherunabhängigen
Spracherkennung erhalten wird und der Ähnlichkeitsgrad, der
von einer sprecherabhängigen Spracherkennung erhalten wird,
nicht in gleicher Weise behandelt werden kann.
Die der Erfindung zugrundeliegende Aufgabe besteht darin,
ein Spracherkennungsverfahren und auch eine Spracherken
nungseinrichtung zur Durchführung dieses Verfahrens zu
schaffen, bei welchem bzw. bei welcher sowohl eine spre
cherunabhängige Erkennung als auch eine sprecherabhängige
Erkennung mit hoher Geschwindigkeit realisiert werden kann,
wobei die beiden Erkennungsarten sich gegenseitig unter
stützen sollen, um eine hohe Genauigkeit der Sprach- bzw.
Wortidentifizierung zu erreichen.
Diese Aufgabe wird erfindungsgemäß durch die im Anspruch 1
aufgeführten Merkmale gelöst.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen
des erfindungsgemäßen Verfahrens ergeben sich aus den Un
teransprüchen 2 und 3.
Die Spracherkennungseinrichtung zur Durchführung des erfin
dungsgemäßen Verfahrens ergibt sich aus dem Anspruch 4.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen
dieser Spracherkennungseinrichtung ergeben sich aus den
Unteransprüchen 5 bis 11.
Im folgenden wird die Erfindung anhand von Ausführungsbei
spielen unter Hinweis auf die Zeichnung näher erläutert.
Es zeigt
Fig. 1 ein Blockdiagramm einer bevorzugten Ausführungsform
mit Merkmalen nach der Erfindung;
Fig. 2 ein Blockdiagramm einer ins einzelne gehenden,
in Fig. 1 dargestellten Sprachidentifizierungsschaltung;
Fig. 3A und 3B Flußdiagramme zum Erläutern der Arbeitsweise
der in Fig. 1 dargestellten Einrichtung;
Fig. 4A und 4D Darstellungen zum Erläutern der Arbeitsweise
der in Fig. 2 dargestellten Anordnung;
Fig. 5 ein Blockdiagramm einer weiteren Ausführungsform
der in Fig. 1 dargestellten Sprachidentifizierungsschaltung;
Fig. 6 ein Blockdiagramm einer Sprachbehandlungseinrichtung,
welche eine Anwendungsmöglichkeit der Erfindung
ist;
Fig. 7 ein Blockdiagramm einer Einrichtung, mit welcher
die in Fig. 1 dargestellte Anordnung erreicht ist;
Fig. 8A und 8B zum Erläutern einer Grundverarbeitung
in der Spracherkennungsverarbeitung, welche
auf einer binären Zeit-Spektrum-Musterverarbeitung
basiert;
Fig. 9 eine Darstellung zum Erläutern eines binären Zeit-
Spektrum-Musters eines unbekannten Eingangssprachmusters;
Fig. 10 eine Darstellung zum Erläutern eines Bezugsmusters,
das bei der binären Zeit-Spektrum-Musterverarbeitung
verwendet wird;
Fig. 11 ein Blockdiagramm einer in Fig. 7 dargestellten
Ähnlichkeitselement-Berechnungseinheit;
Fig. 12A und 12B Darstellungen zum Erläutern der Arbeitsweise
der in Fig. 11 dargestellten Ähnlichkeitselement-Berechnungseinheit;
Fig. 13A bis 13C Darstellungen zum Erläutern eines Beispiels
der Berechnung, welche mittels der in
Fig. 11 dargestellten Ähnlichkeitselement-Berechnungseinheit
durchgeführt wird;
Fig. 14 ein Flußdiagramm der Arbeitsweise der in Fig. 11
dargestellten Ähnlichkeitselement-Berechnungseinheit
und
Fig. 15 ein Blockdiagramm eines Systems zur Ausführung
der in Fig. 7 dargestellten Anordnung.
In Fig. 1 ist ein Blockdiagramm einer bevorzugten Ausführungsform
mit Merkmalen nach der Erfindung dargestellt. Hierbei wandelt ein
Mikrophon 1 eine Stimme oder Sprache, welche eine Luftschwingung
ist, in ein entsprechendes elektrisches Sprachsignal
um. Eine Merkmalsextrahierschaltung 2 extrahiert Merkmalsmengen
des Sprachsignals von dem Mikrophon 1 und erzeugt
ein unbekanntes Sprachmuster. Laufend werden verschiedene
Methoden zum Extrahieren von Merkmalen einer Sprache vorgeschlagen;
eines von diesen kann zum Ausführen der Merkmalsextrahierschaltung
verwendet werden. Wie später noch
im einzelnen beschrieben wird, wird jedoch vorzugsweise
ein Merkmalsextrahierverfahren angewendet, das auf einer
binären Zeit-Spektrum-Musteranpassung (BTSP) basiert. Eine
sprecherunabhängige Erkennungsschaltung 3 führt eine Anpassung
zwischen dem unbekannten von der Merkmalsextrahierschaltung
2 erzeugten Sprachmuster und Bezugssprachmustern
für die sprecherunabhängige Erkennung durch, welche in einem
Wörterbuch 5 für sprecherunabhängige Sprachmuster gespeichert
sind. Die sprecherunabhängige Erkennungsschaltung 3 gibt
dann eine Anzahl Kandidaten für die unbekannte Sprache aus.
In diesem Fall können alle Kandidaten mit Ähnlichkeitsgraden,
die mehr als ein vorherbestimmter Schwellenwertpegel sind,
ausgegeben werden; andererseits kann auch eine vorherbestimmte
Anzahl Kandidaten ausgegeben werden. Obwohl irgendein Algorithmus
für die sprecherunabhängige Erkennung zum Ausbilden
der sprecherunabhängigen Erkennungsschaltung 3 verwendet
werden kann, wird vorzugsweise ein Algorithmus benutzt, welcher
auf der BTSP-Anpassung basiert. Eine sprecherabhängige
Erkennungsschaltung 4 führt eine Anpassung zwischen dem
unbekannten von der Merkmalsextrahierschaltung 2 gelieferten
Sprachmuster und sprecherabhängigen Bezugssprachmustern
durch, welche in einem Wörterbuch 6 für sprecherabhängige
Bezugsmuster gespeichert sind. Dann gibt die sprecherabhängige
Erkennungsschaltung 4 eine Anzahl Kandidaten für die
unbekannte Sprache aus. Obwohl einer der Algorithmen für
die sprecherabhängige Erkennung zum Ausführen der sprecherabhängigen
Erkennungsschaltung 4 verwendet werden kann, wird
vorzugsweise ein Algorithmus benutzt, welcher auf der BTSP-Anpassung
basiert.
Eine Sprachidentifizierungsschaltung 7 hat die Aufgabe, einen
Koeffizienten k, welcher von einem Speicher 9 zugeführt worden
ist, und einen Ähnlichkeitsgrad jedes einer vorherbestimmten
Anzahl von Kandidaten zu multiplizieren, welche von
der sprecherabhängigen Erkennungsschaltung 4 geliefert
werden. Ein Koeffizient k hat eine Funktion, nämlich einen
Ähnlichkeitsgrad eines durch die sprecherabhängige Erkennung
erhaltenen Kandidaten zu korrigieren und um dabei das
Auftreten eines Fehlers bei der Erkennung zu mindern. In dem
Speicher 9 sind eine Anzahl verschiedener Werte der Koeffizienten
k, nämlich k₁, k₂ und k₃ mit verschiedenen Werten
gespeichert, und einer von ihnen kann durch einen Befehl von
der Sprachidentifizierungsschaltung 7 aus ausgewählt werden.
Die Sprachidentifizierungsschaltung 7 hat ferner die Funktion,
die Kandidaten, welche bei der sprecherunabhängigen
Erkennung erhalten worden sind, und die Kandidaten, welche
bei der sprecherabhängigen Erkennung erhalten worden sind,
in abnehmender Reihenfolge des Ähnlichkeitsgrades anzuordnen,
wobei mit dem höchsten Ähnlichkeitsgrad begonnen wird.
Hierbei kann der Ähnlichkeitsgrad für jeden Kandidaten,
welcher bei der sprecherunabhängigen Erkennung erhalten worden
ist, durch den Koeffizienten k korrigiert werden. Die
Sprachidentifizierungsschaltung 7 kann beginnend mit dem
höchsten Ähnlichkeitsgrad einen Kandidaten nach dem anderen,
beginnend mit dem höchsten Ähnlichkeitsgrad entsprechend
einem Befehl von einer Eingabetastatur 8 aus an eine
Sprachsyntheseschaltung 10 abgeben. Die Sprachsyntheseschaltung
10 führt eine Sprachsynthese mit Hilfe eines entsprechenden
Sprachsynthesemusters durch, welche aus einem
Sprachsynthese, Bezugsmuster-Wörterbuch 11 ausgelesen wird.
In dem Wörterbuch 11 sind eine Vielzahl Sprachsynthese-Bezugsmuster
gespeichert. Eine synthetische Sprache wird dann
an einen Lautsprecher 12 abgegeben, welcher sie in eine entsprechende
Luftschwingung umwandelt.
In Fig. 2 ist ein Blockdiagramm eines detaillierteren Aufbaus
der in Fig. 1 dargestellten Sprachidentifizierschaltung
7 dargestellt. Die Schaltung 7 weist Speicher 71 und 72,
eine Koeffizienten-Multiplizierschaltung 73, einen Kandidatenspeicher
74, eine Steuereinheit 75, eine Koeffizienten-Einstellschaltung
76, ein Hinweisregister 77 und eine Dekodierschaltung
78 auf. Mittels des Speichers 71 werden Ergebnisse
gespeichert, welche an der sprecherunabhängigen Erkennungsschaltung
3 erhalten worden sind, d. h. ein Ähnlichkeitsgrad
für jeden der Kandidaten. Mittels des Speichers 72
werden Ergebnisse gespeichert, welche an der sprecherabhängigen
Erkennungsschaltung 4 erhalten worden sind, d. h. ein
Ähnlichkeitsgrad für jeden der Kandidaten. Die Koeffizienten-
Multiplizierschaltung 73 multipliziert einen Koeffizienten
k und den Ähnlichkeitsgrad jedes der Kandidaten, welche von
dem Speicher 71 geliefert werden. Wie vorstehend beschrieben,
hat der Koeffizient k die Funktion, den bei der sprecherunabhängigen
Erkennung erhaltenen Ähnlichkeitsgrad zu korrigieren,
um dadurch Fehler bei der Erkennung zu verringern.
Multiplikationsergebnisse, d. h. korrigierte Ähnlichkeitsgrade,
werden dem Kandidatenspeicher 74 zugeführt. Die Ähnlichkeitsgrade,
welche bei der sprecherunabhängigen Erkennung
erhalten worden sind, werden unmittelbar dem Kandidatenspeicher
74 zugeführt. Die in dem Speicher 74 gespeicherten Daten
werden in diesem durch die Steuereinheit 75 in abnehmender
Reihenfolge des Ähnlichkeitsgrads angeordnet. Der Ähnlichkeitsgrad
jedes Kandidaten, welcher mittels der sprecherunabhängigen
Erkennung erhalten worden ist, ist durch
den Koeffizienten k korrigiert worden. Wenn ein Ausgeben eines
Kandidaten von der Steuereinheit 75 entsprechend einem
Befehl von der Eingabetastatur 8 befohlen wird, wird ein
Kandidat mit dem höchsten Ähnlichkeitsgrad unter den gespeicherten
Kandidaten von der Sprachsyntheseschaltung 10 abgegeben.
Gleichzeitig wird ein Hinweis, der verwendet wird,
um anzuzeigen, daß der abgegebene Kandidat für die sprecherunabhängige
oder -abhängige Erkennung von Belang ist, in
das Hinweisregister 77 geschrieben. Die Steuereinheit
75 kann einen Befehl zum Einstellen des Koeffizienten k
erzeugen, welcher an der Multiplizierschaltung 73 einzustellen
ist, wenn eine vorherbestimmte Bedingung, welche
später noch beschrieben wird, festgestellt wird. Dieser Befehl
zur Koeffizienteneinstellung wird der Koeffizienteneinstellschaltung
76 zugeführt, welche eine entsprechende Speicheradresse
an den Koeffizientenspeicher 9 abgibt.
Nunmehr wird anhand von Fig. 3 die Arbeitsweise der in Fig. 1
und 2 dargestellten Ausführungsform beschrieben. Nachstehend
ist hierbei angenommen, daß der Koeffizientenspeicher 9 drei
verschiedene Koeffizienten k₁, k₂ und k₃ (k₁<k₂<k₃) speichert;
der Koeffizient k₂ wird anfangs in der Multiplizierschaltung
73 der Sprachidentifizierschaltung 7 gesetzt.
Während des Betriebs wird eine von einer Person ausgesprochene
Sprache mittels des Mikrophons 1 in ein entsprechendes
elektrisches Signal umgewandelt, welches dann der Merkmalsextrahierschaltung
2 zugeführt wird. Die Schaltung 2 erzeugt
ein unbekanntes Sprachmuster der Eingangssprache, indem
sie deren Merkmale extrahiert (Schritt 1001 in Fig. 3A).
Das unbekannte Sprachmuster wird der sprecherunabhängigen
Erkennungsschaltung 3 und auch der sprecherabhängigen Erkennungsschaltung
4 zugeführt. Die Schaltung 3 wählt eine
Anzahl n Kandidaten für die eingegebene Stimme aus, welche
den höchsten Ähnlichkeitsgrad haben, welcher durch die Anpassung
erhalten worden ist (Schritt 1002). In ähnlicher
Weise wählt die sprecherabhängige Erkennungsschaltung 4
eine Anzahl n Kandidaten für die eingegebene Sprache aus,
welche den höchsten Ähnlichkeitsgrad haben, welcher durch
Anpassung erhalten worden ist (Schritt 1002). Es wird nun
angenommen, daß die Anzahl n Kandidaten, welche von der
sprecherunabhängigen Erkennung erhalten worden ist, in abnehmender
Reihenfolge des Ähnlichkeitsgrads folgendermaßen
dargestellt werden:
WI1, WI2, . . . , WIn
und ein Ähnlichkeitsgrad jedes Kandidaten wird folgendermaßen dargestellt:
SI1, SI2, . . . , SIn.
Ferner wird angenommen, daß eine Anzahl n-Kandidaten, welcher bei der sprecherabhängigen Erkennung erhalten worden ist, in abnehmbarer Reihenfolge des Ähnlichkeitsgrads folgendermaßen dargestellt werden:
WD1, WD2, . . . , WDn
und ein Ähnlichkeitsgrad jedes Kandidaten folgendermaßen dargestellt wird:
SD1, SD2, . . . , SDn.
Die Kandidaten WI1, WI2, . . . , WIn werden zusammen mit dem Ähnlichkeitsgrad SI1, SI2, . . . , SIn in dem Speicher 71 gespeichert, wie in Fig. 4A dargestellt ist. Genauso werden die Kandidaten WD1, WD2, . . . , WDn in dem Speicher 72 zusammen mit dem Ähnlichkeitsgrad SD1, SD2, . . . , SDn gespeichert, wie in Fig. 4B dargestellt ist.
WI1, WI2, . . . , WIn
und ein Ähnlichkeitsgrad jedes Kandidaten wird folgendermaßen dargestellt:
SI1, SI2, . . . , SIn.
Ferner wird angenommen, daß eine Anzahl n-Kandidaten, welcher bei der sprecherabhängigen Erkennung erhalten worden ist, in abnehmbarer Reihenfolge des Ähnlichkeitsgrads folgendermaßen dargestellt werden:
WD1, WD2, . . . , WDn
und ein Ähnlichkeitsgrad jedes Kandidaten folgendermaßen dargestellt wird:
SD1, SD2, . . . , SDn.
Die Kandidaten WI1, WI2, . . . , WIn werden zusammen mit dem Ähnlichkeitsgrad SI1, SI2, . . . , SIn in dem Speicher 71 gespeichert, wie in Fig. 4A dargestellt ist. Genauso werden die Kandidaten WD1, WD2, . . . , WDn in dem Speicher 72 zusammen mit dem Ähnlichkeitsgrad SD1, SD2, . . . , SDn gespeichert, wie in Fig. 4B dargestellt ist.
Die Ähnlichkeitsgrade SI1, SI2, . . . , SIn, welche bei der
sprecherunabhängigen Erkennung erhalten werden, werden
mit der Schaltung 73 mit dem Koeffizienten k₂ multipliziert,
und die berechneten Ergebnisse k₂ · SI1, k₂ · SI2,
. . . , k₂ · SIn werden dem Kandidatenspeicher 74 zugeführt. Andererseits
werden die Ähnlichkeitsgrade SD1, SD2, . . . ,
SDn, welche durch die sprecherabhängige Erkennung erhalten
worden sind, unmittelbar dem Kandidatenspeicher 74 zugeführt.
Wenn alle Kandidaten (d. h. eine Anzahl von 2n
Kandidaten) für die unbekannte Eingangssprache an den Kandidatenspeicher
74 transferiert worden sind, beginnt die
Steuereinheit 75, alle Kandidaten in abnehmender Reihenfolge
des Ähnlichkeitsgrads durch ein Vergleichen untereinander
anzuordnen. Es sei nun angenommen, daß der Ähnlichkeitsgrad
in einer Folge k₂ · SD1, k₂ · SD2, SD1, . . . , in
abnehmender Reihenfolge des Ähnlichkeitsgrads angeordnet
werden, wie in Fig. 4C dargestellt. Die Steuereinheit 75
befiehlt dann dem Kandidatenspeicher 74, einen Kandidaten
mit dem höchsten Ähnlichkeitsgrad abzugeben. Bei der vorstehenden
Annahme wird der Kandidat WI1 aus dem Speicher 74
gelesen und der Sprachsyntheseschaltung 10 zugeführt. Zu
diesem Zeitpunkt wird dann ein Hinweis mit einem Wert "1"
in dem Hinweisregister 77 registriert. Ein Wert "1" des
Hinweises zeigt an, daß der Kandidat, welcher nunmehr aus
dem Speicher 74 gelesen wird, ein bei der sprecherunabhängigen
Erkennung erhaltener Kandidat ist, während ein Wert
"0" des Hinweises anzeigt, daß der Kandidat, welcher nunmehr
gelesen wird, ein bei der sprecherabhängigen Erkennung
erhaltener Kandidat ist.
Die Sprachsyntheseschaltung 10 liest ein Sprachsynthesemuster
aus, das dem Kandidaten WI1 aus dem Sprachsynthesewörterbuch
11 entspricht, und gibt eine Synthesesprache an dem
Lautsprecher 12 ab. Folglich kann der Sprecher erkennen, ob
die ausgesprochene Sprache richtig erkannt worden ist oder
nicht.
Wie vorstehend beschrieben, ist der direkte Vergleich der
Ähnlichkeitsgrade zwischen der sprecherunabhängigen und der
-abhängigen Erkennung nicht vernünftig, weil der Erkennungsalgorithmus
und das Verfahren zum Erzeugen von Bezugsmustern
zwischen der sprecherunabhängigen und der -abhängigen Erkennung
verschieden ist. Andererseits ermöglicht es die Verbindung
des Korrekturkoeffizienten k, Ähnlichkeitsgrade,
welche bei der sprecherunabhängigen bzw. bei der sprecherabhängigen
Erkennung erhalten worden sind, gleichwertig zu
behandeln. Im Ergebnis kann somit das Auftreten eines Erkennungsfehlers
so reduziert werden, daß ein falscher Kandidat
aus den sprecherunabhängigen oder -abhängigen Erkennungsergebnissen
(Kandidaten) ausgewählt wird und an dem
Lautsprecher dargestellt wird. Ein derartiger Erkennungsfehler
kann bei Verwendung einer Anzahl Koeffizientenwerte
extrem gemindert werden. Das heißt, da ein verschiedenes
Erkennungsergebnis in Abhängigkeit von einem Umstand, unter
welchem die sprecherunabhängigen Bezugsmuster erzeugt werden,
einem Erkennungsumstand, usw. erhalten werden kann.
Wenn bei der vorstehenden Arbeitsweise der erste Kandidat
WI1 falsch ist, drückt der Sprecher eine auf der Eingabetastatur
8 vorgesehene Löschtaste 81 um so den ersten Kandidaten
WI1 zu löschen, und fordert den nächsten Kandidaten
an (Schritt 1005 in Fig. 3B). Die Dekodierschaltung 78 unterscheidet
das Drücken der Löschtaste 81 und befiehlt der
Steuereinheit 75, den nächsten Kandidaten auszugeben. Dann
wählt die Steuereinheit 75 den nächsten Kandidaten (WI2
in dem vorstehenden Beispiel aus) und führt ihn der Sprachsyntheseschaltung
10 zu (Schritt 106). Dann wird die dem
Kandidaten WI2 entsprechende Synthesesprache über den Lautsprecher
12 abgegeben. Es wird dann geprüft, ob der ausgewählte
Kandidat der richtige ist oder nicht (Schritt 1007).
Wenn der ausgewählte Kandidat WI2 ebenfalls nicht der richtige
ist, geht das Verfahren auf den Schritt 108 über, bei
welchem durch die Steuereinheit 75 geprüft wird, ob alle
Kandidaten (2n) aus dem Kandidatenspeicher 74 gelesen worden
sind oder nicht. In dem Fall, daß der ausgewählte Kandidat
falsch ist, ist der Inhalt des Hinweisregisters 77 nicht
aktualisiert. Wenn alle Kandidaten ausgelesen worden sind,
wird der Erkennungsprozeß zurückgewiesen. Wenn andererseits
das Unterscheidungsergebnis beim Schritt 1008 nein ist, wird
auf den Schritt 1006 zurückgekehrt. Dann wird der nächste
Kandidat (der dritte Kandidat WD1) entsprechend dem Drücken
der Löschtaste 81 gewählt. Wenn der Kandidat WD1 der
richtige ist und daher eine Bestätigungstaste 82 gedrückt
wird, wird beim Schritt 110 fortgefahren, bei welchem geprüft
wird, ob der ausgewählte Kandidat ein Kandidat ist,
welcher durch den Erkennungstyp (sprecherunabhängige oder
-abhängige Erkennung) erhalten worden ist, was identisch
mit dem für den gelöschten Kandidaten ist. Diese Unterscheidung
kann mit Hilfe des in dem Register 77 gespeicherten
Hinweises durchgeführt werden. Wenn der falsche erste
Kandidat und der richtige Kandidat Kandidaten sind, welche
mittels desselben Speichererkennungstyps erhalten worden
sind, wird der Prozeß beendet. Wenn beispielsweise der zweite
Kandidat WI2 der richtige ist, endet der Prozeß. Wenn
andererseits der richtige Kandidat durch den Erkennungstyp
erhalten wird, welcher sich von dem für den gelöschten
ersten Kandidaten unterscheidet, wird auf den Schritt 1011
übergegangen. Beim Schritt 1011 wird der Wert des Koeffizienten
k in der nachstehend noch näher beschriebenen Weise
eingestellt.
In dem Beispiel der Fig. 4C wird der in dem Hinweisregister
77 eingestellte Wert in "0" geändert, wenn der richtige Kandidat
WD1 aus dem Kandidatenspeicher 74 gelesen ist. Folglich
kann herausgefunden werden, daß der Erkennungstyp für den
dritten Kandidaten WD1 (d. h. die sprecherabhängige Erkennung)
verschieden ist von derjenigen für den ersten Kandidaten
WI1. Dann wird bei dem Schritt 1011 fortgefahren, bei
welchem der laufende Wert des Koeffizienten k eingestellt
wird. In dem vorstehenden Beispiel sind die ersten und zweiten
Kandidaten WI1 und WI2, welche mittels der sprecherunabhängigen
Erkennung erhalten werden, falsch, und der dritte
Kandidat WD1, welcher mittels der sprecherabhängigen Erkennung
erhalten wird, ist der richtige. Dies bedeutet, daß
der Koeffizient k₂, welcher laufend in der Multiplizierschaltung
73 gesetzt wird, größer ist als ein angemessener
Wert. Daher versorgt die Steuereinheit 75 die Koeffizienteneinstellschaltung
76 mit einem Steuersignal, welches anzeigt,
daß der Koeffizient k₃ welcher kleiner als der Koeffizient
K₂ ist, in der Schaltung 73 eingestellt werden sollte. Die
Koeffizienteneinstellschaltung 76 versorgt den Koeffizientenspeicher
9 mit einer Adresse des Koeffizienten k₃. Dadurch
wird der in der Multiplizierschaltung 73 gesetzte
Koeffizient k₂ durch den Koeffizienten k₃ ersetzt (Schritt
1011). Im Ergebnis kann dann der Koeffizient k auf einen
entsprechenden Wert eingestellt werden.
Die Einstellung des Koeffizienten k kann auch in dem folgenden
Fall durchgeführt werden. Es sei nunmehr angenommen,
daß, wie in Fig. 4D dargestellt, Kandidaten in einer Folge
WD1, WD2, WI1, . . . , in abnehmender Reihenfolge des Ähnlichkeitsgrads
angeordnet sind, und ein richtiger Kandidat der
Kandidat WI1 ist. Das heißt, die Kandidaten WD1 und WD2
haben Ähnlichkeitsgrade, die höher als derjenige des Kandidaten
WI1 ist. In diesem Fall sind dann zwei Kandidaten WD1
und WD2, welche bei der sprecherabhängigen Erkennung erhalten
worden sind, beim Schritt 1005 gelöscht worden, und der
Kandidat WI1, ist eines der Erkennungsergebnisse mit Hilfe
der sprecherunabhängigen Erkennung. Dies bedeutet, daß der
laufende Koeffizient k mit einem Wert k₂ kleiner als ein angemessener
Wert ist. Daher wird der Wert k so eingestellt,
daß er einen Wert größer als k₂ hat, d. h. in dem vorstehenden
Beispiel wird k₁ eingestellt.
Wenn ferner in dem Beispiel der Fig. 4C der Kandidat WI2
der richtige ist, wird die Einstellung des Koeffizienten
k nicht durchgeführt. Dies ist ein einfacher Fehler bei
der sprecherunabhängigen Erkennung. Wie aus der vorstehenden
Erläuterung zu ersehen ist, wird, wenn der richtige
Kandidat denselben Erkennungstyp wie der gelöschte Kandidat
hat, die Einstellung des Koeffizienten k nicht durchgeführt.
Ebenso wird zum Beispiel nach Fig. 4D, wenn der Kandidat
WD2 der richtige ist, die Einstellung des Koeffizienten
k nicht durchgeführt.
Die Werte des Koeffizienten k können entsprechend einem Versuch
ausgewählt werden. Obwohl drei Werte des Koeffizienten
K in dem vorstehenden Ausführungsbeispiel verwendet sind,
ist die Erfindung keineswegs hierauf beschränkt. Mit einer
größeren Anzahl von Koeffizientenwerten kann die Genauigkeit
bei der Spracherkennung erhöht werden. Obwohl der Ähnlichkeitsgrad,
welcher durch die sprecherunabhängige Erkennung
erhalten worden ist, korrigiert wird, indem der Koeffizient
damit multipliziert wird, kann der Ähnlichkeitsgrad durch
Addieren des Koeffizienten k oder mit Hilfe einer Kombination
aus Multiplikation und Addition korrigiert werden. Ferner
kann die Korrektur des Ähnlichkeitsgrads (bezüglich des Ähnlichkeitsgrads)
bezüglich der sprecherabhängigen Erkennung
durchgeführt werden. In diesem Fall kann ein Koeffizient 1/k mit
dem Ähnlichkeitsgrad multipliziert werden, welcher bei der
sprecherabhängigen Erkennung erhalten worden ist. Jedoch
kann in dem Fall, daß die Anordnung der Fig. 1 und 2 bei
einer Sprachausgabeeinrichtung, wie einer Sprachbehandlungseinrichtung
angewendet wird, der bestätigte oder richtige
Kandidat über ein Terminal 13 geliefert werden. Anstelle von
oder zusätzlich zu der Sprachsyntheseschaltung 10 kann eine
Anzeigeeinheit verwendet werden, um den Kandidaten durch die
Bedienungsperson zu bestätigen.
Fig. 5 ist ein Blockdiagramm einer Abwandlung der Ausführungsform
der Fig. 2, wobei in Fig. 5 dieselben Elemente wie
in Fig. 2 mit denselben Bezugszeichen bezeichnet sind. In
Fig. 2 wird der Koeffizient k automatisch eingestellt. Bei
der Anordnung nach Fig. 5 kann der Koeffizient k von Hand
eingestellt werden. Die Eingabetastatur 8 hat eine Koeffizienteneinstelltaste
83, welche benutzt wird, um den Koeffizienten
k anzuzeigen, welcher einen gewünschten Wert, wie
k₁, k₂ und k₃ (k₁<k₂<k₃) hat. Jedesmal wenn die Koeffizienteneinstelltaste
83 gedrückt wird, kann ein Wert des Koeffizienten
K infolge gewählt werden. Wenn die Taste 83 gedrückt
wird, wird ein entsprechendes Signal dem Dekodierer 78 zugeführt,
welcher dann eine entsprechende Adresse an den
Koeffizientenspeicher 9 abgibt. Der Koeffizient k mit einem
Wert, welcher durch die Adresse von dem Kodierer 78 aus bestimmt
worden ist, wird an die Multiplizierschaltung 73 abgegeben.
Nunmehr wird anhand von Fig. 6 eine Anwendung der vorstehenden
Ausführungsform beschrieben. Fig. 6 ist ein Blockdiagramm
einer Sprachbehandlungseinrichtung. Die dargestellte
Sprachbehandlungseinrichtung weist ein Mikrophon 21, einen
Lautsprecher 22, eine Sprechschaltung 23, einen Haken(um)schalter
24, eine Merkmalsextrahierschaltung 25, eine Eingabetastatur
26, eine Steuerschaltung 27, eine Musteranpassungsschaltung
28, ein Bezugssprachmuster-Wörterbuch 29,
eine Sprachsyntheseschaltung 30, ein Sprachsynthese-Bezugsmuster-Wörterbuch
31, einen Fernsprechnummer-Speicher 32,
eine Ausgangssteuereinheit 33, eine Eingangssteuereinheit
34, eine Leitungssteuereinheit 35 und eine Leitung 36 auf.
Die Musteranpassungsschaltung 28 entspricht der Kombination
aus der sprecherunabhängigen Erkennungsschaltung 3, der
sprecherabhängigen Erkennungsschaltung 4, der Sprachidentifizierschaltung
7 und dem Koeffizientenspeicher 9, welche
in Fig. 1 dargestellt sind. Das Bezugsmuster-Wörterbuch 29
entspricht der Kombination aus dem sprecherunabhängigen Bezugsmusterwörterbuch
5 und dem sprecherabhängigen Bezugsmuster-Wörterbuch
6, die in Fig. 1 dargestellt sind. Die
Merkmalsextrahierschaltung 26, die Sprachsyntheseschaltung
30 und das Sprachsynthese-Bezugsmuster-Wörterbuch 31 entsprechen
der Merkmalsextrahierschaltung 2, der Sprachsyntheseschaltung
10 bzw. dem Sprachsynthese-Bezugsmuster-Wörterbuch
11, welche in Fig. 1 dargestellt sind. Das Mikrophon 21, der
Lautsprecher 22 und die Eingabetastatur 26 entsprechen dem
Mikrophon 1, dem Lautsprecher 12 bzw. der Eingabetastatur 8
der Fig. 1.
Merkmale der dargestellten Anwendung sind in der Anordnung
der Anpassungsschaltung 28 und der Anordnung jeweils des Bezugsmuster-Wörterbuchs 29, des Sprachsynthese-Bezugsmuster-Wörterbuchs
31 und des Telefonnummer-Speichers 32 vorhanden.
Die Anpassungsschaltung 28 ist entsprechend der vorstehend
beschriebenen Ausführungsform ausgeführt. Daher ist eine
Erläuterung der Anpassungsschaltung 28 entbehrlich.
In Fig. 6 ist ein Speicherbereich jeweils des Bezugsmuster-Wörterbuchs
29, des Sprachsynthese-Bezugsmuster-Wörterbuchs
31 und des Telefonnummer-Speichers 32 dargestellt. Jeder der
Speicherbereiche ist in zwei Bereiche unterteilt, von denen
der eine ein Beschreibbarbereich I und der andere ein
Schreibsperrbereich II ist. Das Bezugsmuster-Wörterbuch 29
besteht aus dem sprecherunabhängigen Bezugsmuster-Wörterbuch
5, welches in dem Schreibsperrbereich II gebildet ist, und
aus dem sprecherabhängigen Bezugsmuster-Wörterbuch 6,
welches in dem beschreibbaren Bereich I ausgebildet ist.
Das sprecherunabhängige Bezugsmuster-Wörterbuch 5 speichert
eine Anzahl Bezugssprachenmuster von gesprochenen Worten,
welche oft von vielen Personen verwendet werden, beispielsweise
sprecherunabhängige Bezugssprachenmuster von Telefonnummern
von öffentlichen Einrichtungen, wie Polizei, Feuer/Ambulanz,
Wetterbericht und Uhrzeit. Für eine gesprochene
Telefonnummer werden eine Anzahl sprecherunabhängiger Bezugsmuster
In dem Schreibsperrbereich I gespeichert. Das
sprecherabhängige Bezugsmuster-Wörterbuch 6 speichert sprecherunabhängige
Bezugsmuster, welche durch Benutzer beliebig
registriert werden können. Das Sprachsynthese-Bezugsmuster-Wörterbuch
31 speichert in dem Schreibsperrbereich II ein
Sprachsynthese-Bezugsmuster für jede der Telefonnummern und
speichert in dem beschreibbaren Bereich I ein Sprachsynthese-Bezugsmuster
für jedes der Bezugsmuster, welche von Benutzern
besetzt werden. In ähnlicher Weise werden Telefonnummern,
welche durch die sprecherunabhängige Erkennung gewählt werden
können, in dem Schreibsperrbereich II des Telefonnummer-Speichers
32 gespeichert, und Telefonnummern, welche durch
die sprecherabhängige Erkennung gewählt werden können, werden
in dem beschreibbaren Bereich I gespeichert.
Zu Beginn der Sprachbehandlung befiehlt ein Sprecher die
Durchführung einer Sprachbehandlung an der Steuereinheit
27 mit Hilfe der Eingabetastatur 26. Dann wird eine von
dem Sprecher erzeugte Sprache der Merkmalsextrahierschaltung
25 über das Mikrophon 21 zugeführt. Die Merkmalsextrahierschaltung
25 erzeugt ein unbekanntes Sprachmuster und liefert
es an die Steuereinheit 27. Die Steuereinheit 27 gibt
das unbekannte Sprachmuster an die Musteranpassungsschaltung
28 ab. Die Musteranpassungschaltung 28 bestimmt den ersten
Kandidaten für die unbekannte Sprache entsprechend dem vorstehend
anhand von Fig. 1 bis 5 beschriebenen Ablauf. Der
erste Kandidat wird an die Sprachsyntheseschaltung 30 angelegt,
welche ein dem ersten Kandidaten entsprechendes Sprachsynthese-Bezugsmuster
ausliest und erzeugt die Synthesesprache.
Dann wird die Synthesesprache über den Lautsprecher 22
an den Sprecher abgegeben. Wenn zu diesem Zeitpunkt der
erste Kandidat falsch ist, drückt der Sprecher, wie vorher
beschrieben, die Löschtaste 81. Entsprechend der Betätigung
der Löschtaste gibt dann die Musteranpassungsschaltung 28
den zweiten Kandidaten an die Sprachsyntheseschaltung 30
ab. Dann wird die dem zweiten Kandidaten entsprechende
Syntheseschaltung an den Sprecher abgegeben. Wenn zu diesem
Zeitpunkt der zweite Kandidat richtig ist, drückt der Sprecher
die Betätigungstaste 82 auf der Tastatur 26. Dann
gibt mittels der Steuereinheit 27 die Musteranpassungsschaltung
28 den zweiten Kandidaten an die Ausgangssteuereinheit
33 ab. Die Steuereinheit 33 liest die dem zweiten Kandidaten
entsprechende Telefonnummer aus dem Telefonnummer-Speicher 32
und gibt sie über die Leitungssteuereinheit 35 an die Leitung
36 ab. Die Sprachbehandlungseinrichtung der Fig. 6 hat
eine hohe Zuverlässigkeit und eine hohe Wirksamkeit, da die
Musteranpassungsschaltung 28 den Aufbau der vorstehend beschriebenen
Ausführungsform hat. Da außerdem eine Wählinformation
von öffentlichen Einrichtungen, welche oft von
vielen Benutzern verwendet werden, vorher registriert werden,
ist es für den Benutzer nicht notwendig, die Bezugsmuster
deren Telefonnummern zu registrieren.
Nunmehr wird ein weiterer Aufbau der Ausführungsform der
Fig. 1 und 2 im einzelnen beschrieben. In Fig. 7 ist dieser
detaillierte Aufbau der Ausführungsform nach Fig. 1 und
2 dargestellt. Die dargestellte Spracherkennungseinrichtung
weist einen Prozessor 100 mit der Funktion, Merkmale einer
unbekannten Eingangssprache zu extrahieren, einen Prozessor
200 mit den Funktionen, die unbekannte Sprache zu identifizieren
und andere Verarbeitungen durchzuführen, einen Programmfestwertspeicher
(Programm ROM) 300, einen Modell-Bezugs-Randomspeicher
(RAM) 400, einen Zentraleinheit-Bus 500
und eine periphere Einheit 600 auf. Der Prozessor 100 entspricht
der in Fig. 2 dargestellten Merkmalsextrahierschaltung
2, und der Prozessor 200 entspricht der Kombination aus
der sprecherunabhängigen Erkennungsschaltung 3, der
sprecherabhängigen Erkennungsschaltung 4, der Sprachidentifizierschaltung
7 und der Koeffizientenschaltung 9 der
Fig. 1. Ein Programm zum Durchführen der Spracherkennung ist
in dem Programm-ROM 300 gespeichert. Das heißt, der ROM 300
speichert ein Programm für die sprecherunabhängige Erkennung,
was in dem Block 3 der Fig. 1 durchgeführt wird, und
ein Programm für die sprecherabhängige Erkennung, was in dem
Block 4 durchgeführt wird. Wie später noch im einzelnen beschrieben
wird, werden Elemente, um den Ähnlichkeitsgrad zu
erhalten, mittels einer hardware berechnet. Der Modell-RAM
400 entspricht der Kombination aus den sprecherunabhängigen
und -abhängigen Bezugsmuster-Wörterbüchern 5 und 6 der Fig.
1. Der Zentraleinheit-Bus 500 verbindet die Prozessoren
100 und 200, den ROM 300 und den RAM 400 miteinander. Die
periphere Einheit 600 entspricht der Tastatur 8, der Sprachsyntheseschalter
10, dem Sprachsynthese-Bezugsmuster-Wörterbuch
11 und dem Lautsprecher 12 der Fig. 1. Der Prozessor
100 ist ein hochintegrierter (LSI-)Schaltkreis, der entsprechend
ausgelegt ist, um Merkmale einer unbekannten Eingangssprache
zu extrahieren und um ein Leistungsspektrum-
und ein binäres Zeit-Spektrum-Muster in einem Zeitraum von
10 ms zu erzeugen. Das Leistungsspektrum- und das binäre
Zeit-Spektrum-Muster sind in der US-Patentanmeldung Nr.
5 96 586 der Anmelderin der vorliegenden Anmeldung beschrieben.
Der Prozessor 100 erhält die folgenden Bauelemente.
Ein Mikrophonverstärker 41 verstärkt das von dem Mikrophon
1 zugeführte Sprachsignal. Ein Tiefpaßfilter 42 entfernt unnötige
hochfrequente Komponenten, welche in dem verstärkten
Sprachsignal enthalten sind, um ein Schleifenrauschen zu entfernen,
welches beim Abtasten des eingegebenen Sprachsignals
vorkommt. Eine automatische Verstärkungsregelungs- und Vorverzerrungsschaltung
43 setzt einen Pegel des Sprachsignals
in einen entsprechenden Pegelbereich, und hebt hochfrequente
Komponenten am Ausgang des Tiefpaßfilters 42 an, um deren
Leistung auszugleichen. Ein Block 45 besteht aus einem Tiefpaßfilter
45c, einem Detektor 45b und einem Tiefpaßfilter 45c
und erzeugt ein Leistungsspektrum des Eingangssprachsignals
in einem Intervall von 1/3 oct. in einem Bereich von 250 kHz
bis 6,35 kHz. Ein Q-Wert des Blocks 45 wird auf 6 gesetzt.
Eine Filtersteuereinheit 44 steuert das Tiefpaßfilter 45a,
den Detektor 45b und das Tiefpaßfilter 45c des Blockes 45. Ein
Analog/Digital-Umsetzer 46 setzt die Leistungsspektrumsdaten
der Eingangssprachsignale in Digitalwerte von 8 Bits um. Ein
Register 47 speichert die Leistungsspektrumsdaten in
digitaler Form. Ein LOG-Umsetzer 48 setzt die Leistungsspektrumsdaten
in Daten auf der logarithmischen Achse um. Ein
LSFL-Filter 49 führt eine Korrektur mit Hilfe der dem kleinsten
Quadratwurzelfehler entsprechenden Näherungslinie durch,
um die Klang- bzw. Tonquelleneigenschaften eines Sprechers
zu normalisieren. Ein Binärumsetzer 50 teilt einen Binärwert
"1" unter 15 Kanälen einem Kanal zu, welcher einen Wert
hat, der gleich oder größer als eine Hälfte jedes lokalen
Spitzenwerts in dem Leistungsspektrum ist, und ordnet einen
Binärwert "0" einem Kanal mit einem Wert zu, welcher kleiner
als eine Hälfte jedes lokalen Spitzenwerts ist.
Eine weitere Erklärung des LOG-Umsetzers 48, des LSFL-Filters
49 und des Binärumsetzers 50 wird nachstehend noch gegeben.
Bekanntlich kann ein Zeit-Spektrummuster (TSP) als
Merkmalsmengen für eine Spracherkennung verwendet werden.
Das Zeit-Spektrum-Muster enthält eine Übertragungs- bzw.
eine Transfercharakteristik einer Kehle und eine Ton- bzw.
Klangquellencharakteristik. Ein in dem Zeit-Spektrumsmuster
beobachteter Spitzenwert wird als ein lokaler Spitzenwert
definiert. Ferner ist die Tatsache bekannt, daß der Frequenzverlauf
der menschlichen Stimme im hochfrequenten Bereich
gedämpft ist, und daß die Frequenzkennlinien sich in
Abhängigkeit von der jeweiligen Person beträchtlich ändern.
Aus den vorstehenden Gründen wird das Sprachsignal vor einer
binären Bewertung der dem kleinsten Quadratwurzelfehler
entsprechenden Näherungslinie korrigiert. Bezüglich
Frequenzdaten des Sprachsignals, welches in einem Intervall
von 10 ms erhalten wird, wird die Ausgleichslinie nach der
Methode des kleinsten Quadrats berechnet.
Dann wird ein Wert auf der berechneten Linie von
den Frequenzdaten subtrahiert. Danach werden die korrigierten
Frequenzdaten einer binären Bewertung unterzogen.
In Fig. 8A ist ein Beispiel eines Zeit-Spektrumsmusters dargestellt,
das am Ausgang des Blockes 45 erhalten worden ist;
in Fig. 8B ist das korrigierte Zeit-Spektrumsmuster dargestellt,
das am Ausgang des LSFL-Filters 49 erhalten worden
ist, und es ist auch ein binäres Zeit-Spektrumsmuster dargestellt,
das am Ausgang des Binärumsetzers 50 erhalten worden
ist. Ein Buchstabe L bezeichnet die nach der Methode
des kleinsten Quadrates ermittelte Ausgleichslinie, und die
Buchstaben LP bezeichnen einen lokalen Spitzenwert. Wie vorstehend
beschrieben, ist in dem System das
Sprachsignal in 15 Kanäle unterteilt, und folglich gibt der
Binärumsetzer 50 das binäre Zeit-Spektrumsmuster eines zweidimensionalen
Frequenz-Zeit-Musters ab, wie in Fig. 9 dargestellt
ist.
Ein Zeitgeber 51 erzeugt einen Impuls mit einer konstanten
Periode (10 ms) und gibt ihn als Unterbrechungssignal an
den Prozessor 200 ab. Der Prozessor 200 ist durch eine LSI-Schaltung
gebildet, welche die Funktion hat, eine Spracherkennungsverarbeitung
und andere Verarbeitungen durchzuführen.
Der Prozessor 200 erhält die folgenden Elemente.
Eine Zentraleinheit (CPU) 61 ist eine 16 Bit Universal-Zentraleinheit
und führt das Programm aus, das in dem
Programm-Festwertspeicher (ROM) 300 gespeichert ist, welcher
extern mit dem Prozessor 200 verbunden ist. Eine Bus-Steuereinheit
62 steuert einen internen Bus 63, welcher in dem
Prozessor 200 untergebracht ist, und einen Zentraleinheit-Bus
500, welcher außerhalb der Prozessoren 100 und 200 vorgesehen
ist. Eine Speicher-Steuereinheit 64 versorgt den
Programm-ROM 300 mit einem Chip-Auswählsignal. Eine Unterbrecher-Steuereinheit
65 gibt das Zeitgebersignal von dem
Prozessor 100 ein und führt die Unterbrechungssteuerung
durch. Ein Parallelanschluß 66 wird verwendet, um eine Verbindung
mit der peripheren Einheit 600 herzustellen. Ein
Steuersignalgenerator 67 erzeugt verschiedene Steuersignale,
welche in dem Prozessor 200 verwendet werden. Ein Taktgenerator
68 erzeugt einen Baud-Ratentakt, welcher notwendig
ist, wenn eine serielle Schnittstelle mit dem Prozessor 200
verbunden ist. Eine Ähnlichkeitselement-Berechnungseinheit
(die nachstehend der Einfachheit halber auch als SECU-Einheit
bezeichnet wird) 69 gibt das unbekannte Eingangsmuster,
das in der Form des binären Zeit-Spektrumsmusters beschrieben
ist, wie in Fig. 9 dargestellt ist, und ein Bezugsmuster
ein, das aus dem Modell-Random-Speicher
(RAM) 400 abgeleitet ist. Die SECU-Einheit 69 berechnet
mit hoher Geschwindigkeit den Wert von Elementen Pd, Py,
Pv und Pi, die notwendig sind, um den Ähnlichkeitsgrad zwischen
dem unbekannten Eingangsmuster und dem Modell- bzw.
Bezugsmuster zu erhalten. Die SECU-Einheit 69 kann den Ähnlichkeitsgrad
jeweils auf der Basis der sprecherunabhängigen
und -abhängigen Erkennung berechnen. Die vorstehenden vier
Elemente werden später noch im einzelnen beschrieben.
Der Programm-ROM 300 speichert ein Steuerprogramm mit den
folgenden Inhalten, welche von der Zentraleinheit (CPU) 61
und der Speicher-Steuereinheit 64 in dem Prozessor 200 durchgeführt
werden. Ein erstes Steuerprogramm steuert die Operation
so, daß, wenn das von dem Zeitgeber 61 abgeleitete
Unterbrechungssignal an die Unterbrecher-Steuereinheit 65
angelegt wird, die Zentraleinheit (CPU) 61 das binäre Zeit-Spektrumsmuster
von dem Binärumsetzer 50 über den Zentraleinheit-Bus
500 und die Bus-Steuereinheit 62 eingibt. Ein
zweites Steuerprogramm steuert eine Operation, so daß die
Zentraleinheit (CPU) 61 einen Sprachabschnitt in dem binären
Zeit-Spektrumsmuster festsetzt. Bei dem festgesetzten
Sprachabschnitt wird entschieden, ob es ein unbekanntes
Eingangsmuster ist und es wird dann zum Vergleich mit dem
Bezugsmuster dargeboten. Bei dem Vergleich zwischen dem
unbekannten Sprachmuster und dem Bezugsmuster wird vorzugsweise
das herkömmliche Zeilenschrumpfungs- oder -Verengungsverfahren
angewendet,
um eine Veränderung in der Frequenz und der Zeit des unbekannten
Musters auszugleichen. Beispielsweise sind die
bekannten Zeilenverengungsverfahren in "Japanese Electronic
Communications Society Report PRL-75-66, Sten. 9 bis 56 beschrieben.
Ein drittes Steuerprogramm steuert eine Operation,
so daß ein unbekanntes Eingangssprachenmuster der SECU-Einheit
69 zugeführt wird; das in dem Randomspeicher 400 gespeicherte
Bezugsmuster wird der SECU-Einheit 69 entsprechend
dem Speichertransfer unter der Steuerung der Speichersteuereinheit
64 zugeführt, so daß die Zentraleinheit 61
Elemente PD, Py, Pv und Pi von der SECU-Einheit 69 erhält.
Ein viertes Steuerprogramm steuert eine Operation, so daß
die Zentraleinheit 61 den Ähnlichkeitsgrad zwischen dem
unbekannten Eingangsmuster und jedem der Bezugsmuster mit
Hilfe der berechneten Werte der vier Elemente berechnet,
und wählt ein Muster mit dem höchsten Ähnlichkeitsgrad aus.
Der Modell-Randomspeicher 400 entspricht der Kombination aus
dem sprecherunabhängigen Bezugsmuster-Wörterbuch 5 und dem
sprecherabhängigen Bezugsmuster-Wörterbuch 6.
Der Ähnlichkeitsgrad Syi zwischen dem unbekannten Eingangsmuster
und einem Bezugsmuster ist folgendermaßen definiert:
Syi = [PV/(Pd-Pv)] · [Pi/(Py - Pi)] (1)
wobei ist:
In den vorstehenden Gleichungen bezeichnet "·" eine Multiplikation;
"f" bezeichnet eine Frequenz und entspricht dem
jeweiligen Kanal, "t" bezeichnet eine Zeit und entspricht
dem jeweiligen Rahmen und "∩" bezeichnet eine UND-Operation
(wenn y =1 und mi 0 ist, ein Ergebnis der UND-Operation
1 ist und in anderen Fällen ein Ergebnis der UND-Operation
0 ist und in anderen Fällen ein Ergebnis der UND-Operation
0 ist). Ein Rahmen bezeichnet eine Datengruppe von
15 Kanälen, die jeweils in einem Intervall von 10 ms erhalten
worden sind, wie in Fig. 9 dargestellt ist. Eine Funktion
"y(f, t)" bezeichnet einen Wert, welcher in den Frequenz-Zeit-Koordinaten
(f, t) des unbekannten Eingangs-Musters
angeordnet ist. Beispielsweise ist in Fig. 9
y (15,3)=0 dargestellt.
Fig. 10 zeigt ein Bezugsmuster eines Wortes.
Eine Funktion "mi(f, t)" bezeichnet einen
Wert, welcher in den Frequenz-Zeit-Koordinaten (f, t) des
Bezugsmusters positioniert ist. Beispielsweise ist in Fig.
10 (in dezimaler Schreibweise) mi (3,3)=3 dargestellt.
Im allgemeinen wird ein Bezugsmuster durch Addieren einer
Anzahl Muster erzeugt. Beispielsweise bedeutet in dem Fall,
daß das Bezugsmuster der Fig. 10 aus drei Mustern erzeugt
wird, ein Wert "3", welcher an den Koordinaten (3, 3) des
Bezugsmusters angeordnet ist, das einen Wert an den Koordinaten
(3, 3) jedes der drei Muster "1" ist. Im allgemeinen
kann in dem Fall, daß ein Wert jedes Kanals des unbekannten
Eingangsmusters durch ein Bit dargestellt ist und die Anzahl
Kanäle, welche einen Rahmen bilden, m ist, ein Rahmen
des unbekannten Eingangsmusters durch m Bits dargestellt
werden. Im Beispiel der Fig. 9 kann ein Rahmen des unbekannten
Eingangsmusters durch 2 Bytes dargestellt werden.
Andererseits kann in dem Fall, daß ein Wert jedes der m
Kanäle des Bezugsmusters mit n Bits dargestellt ist, ein
Rahmen davon durch n × m Bits dargestellt werden. Beispielsweise
kann ein Rahmen des Bezugsmusters der Fig. 10 durch
vier Bytes dargestellt werden.
Wie aus der vorstehenden Beschreibung zu ersehen, entspricht
das Element pd der Summe von Werten, die in einem Bezugsmuster
enthalten sind. Das Element Py entspricht der Anzahl
eines Werts "1", der in einem unbekannten Eingangsmuster enthalten
ist. Das Element Pi entspricht der Anzahl eines Punktes
auf den Koordinaten (f, t), an welchen entweder ein unbekanntes
Eingangsmuster oder das Bezugsmuster einen Wert
von "0" haben. Ein Element Pv entspricht der Summe eines
Werts, welcher an jedem des oben genannten Punktes auf der
Koordinate (f, t) des Bezugsmusters positioniert ist.
Die Berechnung der Gl. (1) wird von der SECU-Einheit 69
durchgeführt. Es sei nun angenommen, daß, wie in Fig. 12A
dargestellt, ein Rahmen des unbekannten Eingangsmusters
mit U bezeichnet ist (15 Kanäle: 16 Bits). Es sei ferner
angenommen, daß ein Wert jedes der 15 Kanäle aus n Bits
zusammengestellt ist. In diesem Fall ist es möglich, einen
Rahmen des Bezugsmusters zu behandeln, wie in Fig. 12B dargestellt
ist. Das heißt, eine Gruppe des höchstwertigen
Bits in jedem Kanal ist durch Tn-1 dargestellt, das folgende
höchstwertige Bit jedes Kanals ist durch Tn-2 dargestellt,
und jedes der folgenden Bits ist auf diese
Weise dargestellt. Das niedrigstwertige Bit jedes Kanals ist
durch T₀ dargestellt. Beispielsweise kann wie in Fig. 13A
dargestellt, in dem Fall, daß ein Wert jedes Kanals durch
2 Bits dargestellt ist, d. h. n =2 ist, ein Rahmen in zwei
Teile T₁ und T₀ aufgeteilt werden. Der Teil T₁ ist eine
Gruppe des höchstwertigen Bits (× 2¹) jedes Kanals, und
der Teil t 0 ist eine Gruppe des niedrigstwertigen Bits
(× 2⁰). Die SECU-Einheit 69 ist entsprechend ausgelegt,
um die Elemente Pd, PY, Pv und Pi des in der Gl. (2) dargestellten
Ähnlichkeitsgrads mit Hilfe der Daten U, Tn-1,
Tn-2 . . . , T₀ zu berechnen.
Fig. 11 ist ein Blockdiagramm, das den Aufbau der SECU-Einheit
69 im einzelnen zeigt, welche die folgenden Elemente
enthält. Eine Lösch-Steuereinheit 69a löscht ein Rahmendaten-Register
69a und ein Wortdaten-Register 69i. Ein Register
69c für unbekannte Daten ist ein 16 Bit-Register
um vorübergehend einen Rahmen des unbekannten Eingangsmusters
U zu speichern. Ein Modelldaten-Register 69b ist
ein 16 Bit-Register, um nacheinander die Daten Tn-1,
Tn-2, . . . , T₀ nacheinander zu speichern, welche einem
Rahmen des Bezugsmusters eines Wortes entsprechen. Eine
Schaltung 69e führt eine logische Operation zwischen den
Daten, welche in dem Modelldaten-Register 69b gespeichert
sind, und den Daten durch, welche in dem Register 69c für
unbekannte Daten gespeichert sind, und erzeugt Daten, bezüglich
der Elemente Py, Pi, Pd und Pv, um den Ähnlichkeitsgrad
zu beschreiben. Die Daten bezüglich der Elemente Py,
Pi werden einem Rahmendatenregister 69g zugeführt, und die
Daten bezüglich der Elemente Pd und Py werden einem Rahmendaten-Addierer
69f zugeführt. Das Rahmendaten-Registers 69g
ist ein Register, und vorübergehend die Elemente bezüglich
eines Rahmens zu speichern. Der Rahmendaten-Addierer 69f
addiert die von der Schaltung 69e gelieferten Daten zu Daten,
welche dadurch erhalten werden, daß die aus dem Rahmendaten-Register
69g gelesenen Daten um ein Bit in Richtung
höherer Ordnung verschoben werden. Das vorstehend beschriebene
Datenverschieben entspricht einem Verdoppeln des durch
die Daten dargestellten Wertes. Ein Wortdaten-Register 69i
ist ein Register, um berechnete Werte der Elemente Py, Pi,
Pd und Pv bezüglich der Gesamtheit des Bezugsmusters des
einen Wortes zu speichern. Ein Wortdaten-Addierer 69f
addiert jedes der Elemente Py, Pi, Pd und Pv, die in dem
Wortdaten-Register 69i gespeichert sind, zu den entsprechenden,
in dem Rahmendaten-Register 69g gespeicherten Elementen.
Ein Ausgangspuffer 69d ist ein Puffer, um jedes in dem Wortdaten-Register
69i gespeicherte Element an den Datenbus 63
zu übertragen.
In Fig. 14 ist ein Flußdiagramm der Arbeitsweise der SECU-Einheit
69 dargestellt. In Fig. 14 wird das Wortdaten-Register
69i gelöscht (Schritt 1021). Dann wird das Rahmendaten-Register
69g gelöscht, und gleichzeitig werden die
Daten U, die zu einem Rahmen des unbekannten Eingangsmusters
beitragen, an das Register 69c für unbekannte Daten
übertragen (Schritt 1022). Danach wird ein Rahmen der Bezugsdaten
sequentiell an das Modelldaten-Register 69b übertragen,
wobei von den Daten Tn-1 aus begonnen wird (Schritt
1023). Der Schritt 1023 wird wiederholt durchgeführt, bis
die niedrigsten Daten T₀ übertragen sind (Schritt 1024).
Die Folge, welche sich aus dem Schritt 1022 bis 1024 zusammensetzt,
wird wiederholt durchgeführt, bis alle Rahmen
verarbeitet sind (Schritt 1025).
Entsprechend dem vorstehend beschriebenen Ablauf führt die
SECU-Einheit 69 die folgenden Berechnungen durch. In der
Gl. (1) nimmt jeweils y (f, t) und mi (f, t) ∩y (f, t) einen
Wert von einem Bit an. Folglich werden Elemente Py, Pi
für einen Rahmen, d. h.
an das Rahmenregister 69g übertragen, unmittelbar nachdem
alle Daten Tn-1, Tn-2 . . . , T₀ an das Modelldaten-Register
69b übertragen worden sind.
Andererseits nimmt jeweils mi (f, t) und mi (f, t) · y (f, t)
einen Wert von n Bits an. Daher werden Elemente Pd und Pf
für einen Rahmen, d. h.
folgendermaßen erhalten. Zuerst wird das Element Mi (f, t)
für die Daten Tn-1 berechnet. Ein berechnetes Ergebnis wird
um ein Bit nach oben (in Richtung höherer Ordnung) verschoben.
Anschließend wird das Element mi (f, t) für die nächsten
Daten Tn-2 berechnet. Dann wird ein berechnetes Ergebnis für
die Daten Tn-2 zu dem verschobenen Ergebnis für die Daten
Tn-1 addiert. Auf diese Weise wird die Berechnung wiederholt
durchgeführt, bis die Daten T₀ verarbeitet sind. Ebenso wird
das Element
für einen Rahmen berechnet. Wenn
beispielsweise ein Rahmen des in Fig. 13A dargestellten Bezugsmusters
und ein Rahmen eines in Fig. 13C dargestellten,
unbekannten Eingangsmusters verarbeitet werden, wird mit
(f, t) und mi (f, t) · y (f, t) für die in Fig. 13B dargestellten
Daten Ti berechnet. In diesem Fall ist in der binären
Schreibweise (entsprechend 2 in der dezimalen Schreibweise)
mi (f, t) =10 und mi (f, t) · y (f, t) =10 (entsprechend 2 in
in der dezimalen Schreibweise). Die erhaltenen Binärwerte
von Elementen mi (f, t) und mi (f, t) y (f, t) werden jeweils um
ein Bit aufwärts verschoben, so daß verschobene Werte von
100 bzw. 100 erhalten werden. Als nächstes werden mi (f, t)
und mi (f, t) · y (f, t) für die in Fig. 13b dargestellten Daten
t₀ berechnet. In diesem Fall ist dann mi (f, t) =10 (entsprechend
2 in der dezimalen Schreibweise) und mi (f, t) · y (f, t) =01
(entsprechend 1 in dezimaler Schreibweise).
Dann wird bezüglich mi (f, t) ein Binärwert von 100 und ein
Binärwert von 10 zueinander addiert, so daß ein addierter
Wert von 110 (entsprechend 6 in dezimaler Schreibweise) als
ein Wert von
erhalten wird. In ähnlicher Weise
wird bezüglich mi (f, t) · y (f, t) ein Binärwert von 100 zu
einem Binärwert von 01 addiert, so daß ein addierter Wert
von 101 (entsprechend 5 in dezimaler Schreibweise) als
ein Wert von
erhalten wird.
Wenn auf diese Weise alle vier Elemente für einen Rahmen
in dem Rahmenregister 69g enthalten sind, werden diese
Werte zu Endwerten von den jeweiligen Elementen addiert,
welche bis zu diesem Zeitpunkt erhalten worden sind.
Wie aus der vorstehenden Beschreibung zu ersehen ist, ist
der Aufbau der SECU-Einheit 69 sehr vereinfacht, und es
kann daher eine hochschnelle Berechnung des Ähnlichkeitsgrades
zwischen dem unbekannten Eingangsmuster und dem Bezugsmuster
erhalten werden. Das heißt, die vier Elemente
Py, Pi, Pd und Pv können bezüglich des Bezugsmusters des
einen Wortes erhalten werden, unmittelbar nachdem der letzte
Rahmen des Bezugsmusters an das Modelldatenregister 69b
übertragen ist.
Es sollte insbesondere beachtet werden, daß die Elemente zum
Beschreiben des Ähnlichkeitsgrades unabhängig von der Anzahl
Bits erhalten werden können, welche zum Darstellen eines
Wertes jedes Kanals verwendet werden, der in einem Rahmen
des Bezugsmusters enthalten ist, da die Berechnung in
der SECU-Einheit 69 so durchgeführt wird, daß von Daten aus
gestartet wird, die entsprechend dem höchstwertigen Bit
positioniert sind. Aus diesem Grund kann die SECU-Einheit
69 im allgemeinen bei der sprecherunabhängigen und der -abhängigen
Erkennung verwendet werden, welche beide auf der
Methode des binären Zeit-Spektrums-Musters basieren. Das
heißt, es ist möglich, die sprecherunabhängige und die
sprecherabhängige Erkennung mit nur einem Prozessor 200
durchzuführen. In dem herkömmlichen Spracherkennungssystem
behandelt ein Prozessor die sprecherabhängige oder ein
Prozessor die sprecherabhängige Erkennung, wobei die
Algorithmen zwischen beiden Erkennungstypen infolge der
Unterschiede zwischen den Wörterbüchern verschieden sind.
Daher kann im Vergleich zu dem herkömmlichen System die
hardware des Systems der Fig. 7 kompakt ausgebildet werden.
Außerdem ist zu beachten, daß die Berechnung der Elemente,
welche zum Beschreiben des Ähnlichkeitsgrades verwendet
werden, mit Hilfe der SECU-Einheit 69 durchgeführt
werden, welche die in Fig. 11 dargestellte Hardware aufweisen.
Daher können mit Hilfe der Zentraleinheit (CPU)
61 in den Prozessor 200 zusätzlich zu der Spracherkennung
auch in dem Programm-Festwertspeicher (ROM) 300 gespeichert
Anwendungsprogramme behandelt werden.
Ferner sind die Programme für die Spracherkennung in dem
Programm-Festwertspeicher (ROM) 300 gespeichert, welcher
extern mit dem Prozessor 200 verbunden ist, welcher die
Zentraleinheit 61 enthält. Folglich ist eine Änderung in
dem Programm leicht möglich, indem der ROM 300 durch einen
anderen ausgetauscht wird oder dessen Inhalt neu geschrieben
wird. Andererseits ist eine Änderung der Programme, welche
von der Zentraleinheit durchgeführt wird, unmöglich, da der
herkömmliche Prozessor, der ausschließlich für die Spracherkennung
in LSI-Technik ausgelegt ist, in sich den Festwertspeicher
(ROM) enthält.
Fig. 15 ist ein schematisches Blockdiagramm eines Spracherkenungssystems
mit einem Personalcomputer. Ein Universal-Personalcomputer
140 hat einen Erweiterungsschlitz, welcher
mit einem Bus 150 einer Zentraleinheit (CPU) 141 verbunden
ist. Daher kann ein Spracherkennungssystem erhalten werden,
indem eine Spracherkennungskarte 160 in den Erweiterungsschlitz
eingeführt wird. Es sind nur ein Prozessor 161 und
ein Dekodierer 62 zum Durchführen von Adressenkodierern notwendig,
die auf der Spracherkennungskarte 160 angebracht
sind. Diese Teile sind mit dem Bus 150 verbunden. Die Zentraleinheit
141 führt alle Funktionen durch, welche durch
den Prozessor 200 durchgeführt werden. Die Programme und
Bezugsdaten sind in einer Festplatte 180 und einer Floppy
Disk 190 gespeichert und werden an einen Programm-Random-Speicher
(RAM) 142 und einen Modell-Random-Speicher (RAM)
143 übertragen.
Claims (11)
1. Spracherkennungsverfahren, gemäß welchem während einer
Anpassungsphase ein zu erkennendes Eingangssprachmuster
einer Eingangsphase aus Merkmalen erzeugt wird, welche
aus der unbekannten Eingangssprache extrahiert werden, wo
nach mit Hilfe einer sprecherunabhängigen Erkennungsschal
tung (3) eine Anzahl an Musterkandidaten eines ersten Typs
gewonnen werden und mit Hilfe einer sprecherabhängigen Er
kennungsschaltung (4) eine Anzahl an Musterkandidaten eines
zweiten Typs gewonnen werden, die Musterkandidaten des
ersten und des zweiten Typs in abnehmender Reihenfolge des
Ähnlichkeitsgrades angeordnet werden und die einzelnen
Musterkandidaten auf ihre Richtigkeit hin überprüft werden,
abhängig von dem Überprüfungsergebnis einer der beiden
Kandidatentypen mit einer spezifischen Korrekturgröße kor
rigiert wird und die Spracherkennung dann mit dem korri
gierten Kandidatentypen durchgeführt wird.
2. Spracherkennungsverfahren nach Anspruch 1,
dadurch gekennzeichnet, daß die Korrektur
eine Multiplikation ist, bei welcher der Ähnlichkeitsgrad
jedes Kandidaten mit einem Koeffizienten multipliziert wird,
welcher entweder zu der sprecherunabhängigen oder zu der
sprecherabhängigen Erkennung gehört.
3. Spracherkennungsverfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet, daß der Kandidat
mit dem höchsten Ähnlichkeitsgrad akustisch zur Anzeige
gebracht wird.
4. Spracherkennungseinrichtung, mit einer Merkmalsextrahiereinrichtung
(2), um Merkmale einer unbekannten Eingangssprache
zu extrahieren und um ein entsprechendes unbekanntes
Sprachmuster zu erzeugen, zur Durchführung des Ver
fahrens nach einem der Ansprüche 1 bis 3,
gekennzeichnet durch eine Speichereinrichtung (5)
zum Speichern von sprecherunabhängigen Bezugsmustern, mit
einer Speichereinrichtung (6) zum Speichern von sprecherabhängigen
Bezugsmustern, mit einer sprecherunabhängigen Erkennungseinrichtung
(3), um einen Ähnlichkeitsgrad
zwischen dem unbekannten Eingangsmuster und jedem der spre
cherunabhängigen Bezugsmuster zu berechnen und um zumindest
einen Kandidaten für das unbekannte Eingangsmuster zu er
zeugen, durch eine sprecherunabhängigen Erkennungseinrich
tung (4), um einen Ähnlichkeitsgrad zwischen dem unbekann
ten Eingangsmuster und jedem der sprecherabhängigen Bezugs
muster zu berechnen und um zumindest einen Kandidaten für
ein unbekanntes Eingangsmuster zu erzeugen, durch eine
Koeffizienten-Speichereinrichtung (9), um zumindest einen
Koeffizienten zum Korrigieren des Ähnlichkeitsgrades zu
speichern, welcher entweder durch die sprecherunabhängige
oder die sprecherabhängige Erkennungseinrichtung erhalten
wird, und durch eine Sprachidentifizierungseinrichtung (7),
um den Ähnlichkeitsgrad des Kandidaten, der entweder von
der sprecherunabhängigen oder von der sprecherabhängigen
Erkennungseinrichtung geliefert worden ist, mit korrigier
ten Ähnlichkeitsgraden des Kandidaten zu vergleichen, wel
cher von der anderen Erkennungseinrichtung erhalten worden
ist und um unter den Kandidaten, die von der sprecherunab
hängigen und der sprecherabhängigen Erkennungseinrichtung
geliefert worden sind, einen Kandidaten mit dem höchsten
Ähnlichkeitsgrad zu bestimmen.
5. Spracherkennungseinrichtung nach Anspruch 4, gekennzeichnet
durch eine Bestätigungseinrichtung (10, 11
12), um den Kandidaten mit dem höchsten Ähnlichkeitsgrad
an einen Lautsprecher abzugeben.
6. Spracherkennungseinrichtung nach Anspruch 4 oder 5,
gekennzeichnet durch eine Löscheinrichtung
(8, 78) zum Löschen des Kandidaten, wenn bestätigt wird, daß er der
falsche ist, durch eine Kandidaten-Auswähleinrichtung (74,
75), um nacheinander einzeln andere Kandidaten aus den Kandidaten
in abnehmender Reihenfolge des Ähnlichkeitsgrads
auszuwählen, und durch eine Koeffizienten-Einstelleinrichtung
(76), um einen Wert des Koeffizienten einzustellen,
wenn ein Kandidat, welcher durch die Kandidaten-Auswähleinrichtung
(74, 75) ausgewählt ist und von der Bestätigungseinrichtung
bestätigt wird, daß er der richtige ist.
7. Spracherkennungseinrichtung nach Anspruch 6,
gekennzeichnet durch eine Additionseinrich
tung, durch die das Koeffizienten-Multiplikationsergebnis
dadurch korrigiert wird, daß ein vorherbestimmter Wert des
Koeffizienten zu dem Multiplikationsergebnis addiert wird.
8. Spracherkennungseinrichtung nach Anspruch 6 oder 7,
dadurch gekennzeichnet, daß der Koeffi
zient eine Vielzahl verschiedener Werte hat, und daß die
Spracherkennungseinrichtung ferner Einrichtungen (8, 76)
aufweist, um einen der vorherbestimmten Werte des Koeffi
zienten von Hand einzustellen, welcher der vorherbestimmten
Operation zu unterziehen ist.
9. Spracherkennungseinrichtung nach einem der Ansprüche 4
bis 8, dadurch gekennzeichnet, daß die sprecher
unabhängige Bezugsmuster speichernde Einrichtung (5) eine
Bezugssprache bezüglich einer öffentlichen Einrichtung
speichert, und daß die Spracherkennungseinrichtung ferner
eine Einrichtung (32) zum Speichern von Telefonnummern und
eine Übertragungseinrichtung (23, 33, 34, 35) zum Herstel
len einer Verbindung mit einer Fernsprecheinrichtung und
eine Steuereinrichtung (27) aufweist, um eine Telefonnummer
entsprechend dem Erkennungsergebnis, welches von der
Sprachidentifizierungseinrichtung ausgegeben worden ist,
aus den Telefonnummern auszuwählen, welche in der Telefon
nummern-Speichereinrichtung gespeichert sind, so daß die
ausgewählte Telefonnummer an die Fernmeldeeinrichtung abge
geben wird.
10. Spracherkennungseinrichtung nach einem der Ansprüche 4
bis 9, dadurch gekennzeichnet, daß die Merkmals
extrahiereinrichtung, die Spracherkennungseinrichtung (69)
und die Sprachidentifizierungseinrichtung (61) durch Pro
zessoren (100, 200) in Form jeweils einer LSI-Schaltung
gebildet sind, und daß die Prozessoren (100, 200) und die
Bezugsmuster-Speichereinrichtungen gemeinsam mit einem Bus
(500) verbunden sind, so daß ein Prozessor im allgemeinen
für die sprecherunabhängige und/oder die sprecherabhängige
Erkennung verwendet werden kann.
11. Spracherkennungseinrichtung nach Anspruch 10,
dadurch gekennzeichnet, daß jedes der unbe
kannten Eingangsmuster und die Bezugsmuster ein zweidimen
sionales Muster aus Zeit und Frequenz mit einer Anzahl Rah
men sind, wobei in jedem Rahmen enthaltene Rahmendaten Lei
stungsdaten einer Sprache sind, die in einer Anzahl Fre
quenzkanälen extrahiert worden ist, und daß die Spracher
kennungseinrichtung ferner eine erste Speichereinrichtung
(69c) zum sequentiellen Speichern der Rahmendaten des unbe
kannten, von der Merkmalsextrahiereinrichtung gelieferten
Sprachmusters, eine zweite Speichereinrichtung (69b) zum
sequentiellen Speichern der Rahmendaten eines der Bezugsmu
ster, welches von der Bezugsmuster-Speichereinrichtung ge
liefert wird, eine eine logische Operation durchführende
Einrichtung (69e), um eine vorherbestimmte Operation zwi
schen den Rahmendaten des unbekannten Musters und jeder der
Unterteilungen der Rahmendaten des Bezugsmusters durchzu
führen, um dadurch vorherbestimmte Elemente zu erzeugen,
die zum Berechnen des Ähnlichkeitsgrades eines Kandidaten
notwendig sind, ein erstes Register (69g), um die berechne
ten Elemente bezüglich der Rahmendaten zu speichern, einen
ersten Addierer (69f), um die berechneten Elemente, von der
die logische Operation durchführenden Einrichtungen gelie
fert sind, zu Daten zu addieren, welche durch Verdoppeln
der Elemente erhalten worden sind, welche aus dem ersten
Register gelesen werden, und um ein Additionsergebnis in
das erste Register zu schreiben, ein zweites Register
(69i), um berechnete Elemente bezüglich der Gesamtheit
eines unbekannten Musters zu speichern, und einen zweiten
Addierer (69h) aufweist, um die Elemente, welche aus dem
ersten Register gelesen werden, zu den Elementen zu addie
ren, welche aus dem zweiten Register gelesen werden, und um
ein Additionsergebnis in das zweite Register zu schreiben,
so daß der Ähnlichkeitsgrad eines Kandidaten durch die be
rechneten Elemente bezüglich eines unbekannten Musters dar
gestellt wird, welche in dem Wortdatenregister gespeichert
sind.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14034487 | 1987-06-04 | ||
JP14367287 | 1987-06-08 | ||
JP2532688 | 1988-02-04 | ||
JP63126847A JPH01309099A (ja) | 1987-06-04 | 1988-05-23 | 音声応答装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3819178A1 DE3819178A1 (de) | 1988-12-22 |
DE3819178C2 true DE3819178C2 (de) | 1991-06-20 |
Family
ID=27458289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3819178A Granted DE3819178A1 (de) | 1987-06-04 | 1988-06-06 | Spracherkennungsverfahren und -einrichtung |
Country Status (2)
Country | Link |
---|---|
US (1) | US5091947A (de) |
DE (1) | DE3819178A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
Families Citing this family (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5144672A (en) * | 1989-10-05 | 1992-09-01 | Ricoh Company, Ltd. | Speech recognition apparatus including speaker-independent dictionary and speaker-dependent |
JP3045510B2 (ja) * | 1989-12-06 | 2000-05-29 | 富士通株式会社 | 音声認識処理装置 |
US5127043A (en) * | 1990-05-15 | 1992-06-30 | Vcs Industries, Inc. | Simultaneous speaker-independent voice recognition and verification over a telephone network |
GB9116433D0 (en) * | 1991-07-30 | 1991-09-11 | Active Noise & Vibration Tech | Noise reduction system |
JPH0535293A (ja) * | 1991-08-01 | 1993-02-12 | Fujitsu Ltd | 音声認識装置における認識候補数設定方式 |
JP3088035B2 (ja) * | 1991-12-18 | 2000-09-18 | パイオニアビデオ株式会社 | ディジタル信号プロセッサ |
FI97919C (fi) * | 1992-06-05 | 1997-03-10 | Nokia Mobile Phones Ltd | Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten |
US5566229A (en) * | 1992-08-24 | 1996-10-15 | At&T | Voice directed communications system employing shared subscriber identifiers |
US5325421A (en) * | 1992-08-24 | 1994-06-28 | At&T Bell Laboratories | Voice directed communications system platform |
KR100202425B1 (ko) * | 1992-08-27 | 1999-06-15 | 정호선 | 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템 |
CA2105034C (en) * | 1992-10-09 | 1997-12-30 | Biing-Hwang Juang | Speaker verification with cohort normalized scoring |
US5717743A (en) * | 1992-12-16 | 1998-02-10 | Texas Instruments Incorporated | Transparent telephone access system using voice authorization |
US5488652A (en) * | 1994-04-14 | 1996-01-30 | Northern Telecom Limited | Method and apparatus for training speech recognition algorithms for directory assistance applications |
JP3968133B2 (ja) * | 1995-06-22 | 2007-08-29 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
DE19533541C1 (de) | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
US5893902A (en) * | 1996-02-15 | 1999-04-13 | Intelidata Technologies Corp. | Voice recognition bill payment system with speaker verification and confirmation |
US5719921A (en) | 1996-02-29 | 1998-02-17 | Nynex Science & Technology | Methods and apparatus for activating telephone services in response to speech |
US5905773A (en) * | 1996-03-28 | 1999-05-18 | Northern Telecom Limited | Apparatus and method for reducing speech recognition vocabulary perplexity and dynamically selecting acoustic models |
KR100534502B1 (ko) * | 1996-07-11 | 2006-11-10 | 가부시키가이샤 세가 | 음성인식장치,음성인식방법및이것을이용한게임기 |
US5950160A (en) * | 1996-10-31 | 1999-09-07 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
US5987414A (en) * | 1996-10-31 | 1999-11-16 | Nortel Networks Corporation | Method and apparatus for selecting a vocabulary sub-set from a speech recognition dictionary for use in real time automated directory assistance |
US5829000A (en) * | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
US5899976A (en) * | 1996-10-31 | 1999-05-04 | Microsoft Corporation | Method and system for buffering recognized words during speech recognition |
US5884258A (en) * | 1996-10-31 | 1999-03-16 | Microsoft Corporation | Method and system for editing phrases during continuous speech recognition |
US5839107A (en) * | 1996-11-29 | 1998-11-17 | Northern Telecom Limited | Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing |
US5987408A (en) * | 1996-12-16 | 1999-11-16 | Nortel Networks Corporation | Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US5924070A (en) * | 1997-06-06 | 1999-07-13 | International Business Machines Corporation | Corporate voice dialing with shared directories |
US5897616A (en) | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
JP3050180B2 (ja) * | 1997-08-08 | 2000-06-12 | 日本電気株式会社 | 音声認識装置 |
US6018708A (en) * | 1997-08-26 | 2000-01-25 | Nortel Networks Corporation | Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies |
US6122361A (en) * | 1997-09-12 | 2000-09-19 | Nortel Networks Corporation | Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality |
US5995929A (en) * | 1997-09-12 | 1999-11-30 | Nortel Networks Corporation | Method and apparatus for generating an a priori advisor for a speech recognition dictionary |
CA2216224A1 (en) * | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
WO1999018566A2 (en) * | 1997-10-07 | 1999-04-15 | Koninklijke Philips Electronics N.V. | A method and device for activating a voice-controlled function in a multi-station network through using both speaker-dependent and speaker-independent speech recognition |
US6253173B1 (en) | 1997-10-20 | 2001-06-26 | Nortel Networks Corporation | Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors |
US6098040A (en) * | 1997-11-07 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking |
JP3899498B2 (ja) * | 1997-11-12 | 2007-03-28 | 株式会社セガ | ゲーム機 |
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
KR100577990B1 (ko) * | 1997-12-31 | 2006-08-30 | 엘지전자 주식회사 | 화자종속/독립음성인식장치 |
US6246987B1 (en) * | 1998-02-04 | 2001-06-12 | Alcatel Usa Sourcing, L.P. | System for permitting access to a common resource in response to speaker identification and verification |
US6233315B1 (en) | 1998-05-21 | 2001-05-15 | Bell Atlantic Network Services, Inc. | Methods and apparatus for increasing the utility and interoperability of peripheral devices in communications systems |
US6229880B1 (en) | 1998-05-21 | 2001-05-08 | Bell Atlantic Network Services, Inc. | Methods and apparatus for efficiently providing a communication system with speech recognition capabilities |
US6243680B1 (en) | 1998-06-15 | 2001-06-05 | Nortel Networks Limited | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances |
US6208964B1 (en) | 1998-08-31 | 2001-03-27 | Nortel Networks Limited | Method and apparatus for providing unsupervised adaptation of transcriptions |
US6744860B1 (en) | 1998-12-31 | 2004-06-01 | Bell Atlantic Network Services | Methods and apparatus for initiating a voice-dialing operation |
US6832194B1 (en) * | 2000-10-26 | 2004-12-14 | Sensory, Incorporated | Audio recognition peripheral system |
US20020143540A1 (en) * | 2001-03-28 | 2002-10-03 | Narendranath Malayath | Voice recognition system using implicit speaker adaptation |
US20030101052A1 (en) * | 2001-10-05 | 2003-05-29 | Chen Lang S. | Voice recognition and activation system |
US7212248B2 (en) * | 2002-09-09 | 2007-05-01 | The Directv Group, Inc. | Method and apparatus for lipsync measurement and correction |
US7676026B1 (en) | 2005-03-08 | 2010-03-09 | Baxtech Asia Pte Ltd | Desktop telephony system |
US7948558B2 (en) * | 2006-09-29 | 2011-05-24 | The Directv Group, Inc. | Audio video timing measurement and synchronization |
KR20120063982A (ko) * | 2010-12-08 | 2012-06-18 | 한국전자통신연구원 | 시각장애 사용자를 위한 인터페이스 장치 및 방법 |
US9443522B2 (en) * | 2013-11-18 | 2016-09-13 | Beijing Lenovo Software Ltd. | Voice recognition method, voice controlling method, information processing method, and electronic apparatus |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57147781A (en) * | 1981-03-06 | 1982-09-11 | Nec Corp | Pattern matching device |
US4400828A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Word recognizer |
CH644246B (fr) * | 1981-05-15 | 1900-01-01 | Asulab Sa | Dispositif d'introduction de mots a commande par la parole. |
DE3129282A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherabhaengigen erkennung von einzelnen gesprochenen worten in fernmeldesystemen |
DE3129353A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen |
JPS5879300A (ja) * | 1981-11-06 | 1983-05-13 | 日本電気株式会社 | パタ−ン距離計算方式 |
JPS59192A (ja) * | 1982-06-25 | 1984-01-05 | 株式会社東芝 | 個人照合装置 |
JPS59178587A (ja) * | 1983-03-30 | 1984-10-09 | Nec Corp | 話者確認システム |
US4741036A (en) * | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
-
1988
- 1988-06-06 DE DE3819178A patent/DE3819178A1/de active Granted
-
1990
- 1990-08-13 US US07/566,884 patent/US5091947A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
Also Published As
Publication number | Publication date |
---|---|
US5091947A (en) | 1992-02-25 |
DE3819178A1 (de) | 1988-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3819178C2 (de) | ||
DE3247229C2 (de) | ||
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69320722T2 (de) | Quantisierungsbitzahlzuweisung dadurch, dass zuerst das Subband mit der höchsten Signal/Verdeckungsrate ausgewählt wird | |
DE3854154T2 (de) | Vorrichtung und Verfahren zur Erzeugung von Daten für einen Druckvorgang, und ein Drucker, in Kombination mit der Vorrichtung, zur Ausführung des Druckvorganges. | |
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE69422406T2 (de) | Verfahren zum Durchführen eines Vergleichs von Datenketten | |
DE2659096C2 (de) | ||
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE4031638C2 (de) | ||
DE2659083A1 (de) | Verfahren und vorrichtung zur sprechererkennung | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP1214703A1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE69329354T2 (de) | Verfahren und Gerät zur Mustererkennung | |
DE4031421C2 (de) | Musteranpassungssystem für eine Spracherkennungseinrichtung | |
DE3503508A1 (de) | Verfahren und vorrichtung zum erzeugen eines signals erhoehter bildschaerfe | |
DE3736193A1 (de) | Sprachsignal-kodierverfahren | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE3733391A1 (de) | Verfahren zur spracherkennung | |
DE4002336A1 (de) | Bezugsmuster-erneuerungsverfahren | |
EP0595889B1 (de) | Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache | |
DE2720666A1 (de) | Verfahren und anordnung zur geraeuschanalyse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |