DE3043516C2 - Verfahren und Vorrichtung zur Spracherkennung - Google Patents
Verfahren und Vorrichtung zur SpracherkennungInfo
- Publication number
- DE3043516C2 DE3043516C2 DE3043516A DE3043516A DE3043516C2 DE 3043516 C2 DE3043516 C2 DE 3043516C2 DE 3043516 A DE3043516 A DE 3043516A DE 3043516 A DE3043516 A DE 3043516A DE 3043516 C2 DE3043516 C2 DE 3043516C2
- Authority
- DE
- Germany
- Prior art keywords
- characteristic parameters
- parameters
- pattern
- speech
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 title claims description 21
- 230000003595 spectral effect Effects 0.000 abstract 3
- 230000015654 memory Effects 0.000 description 31
- 239000013598 vector Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 239000012723 sample buffer Substances 0.000 description 2
- 206010012289 Dementia Diseases 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
a) Berechnen von ρ ersten charakteristischen Parametern
aus einem Spracheingangssignal zu einzelnen Zeitpunkten, wobei ρ eine positve. ganze
Zahl > 2 ist, is
b) Durchführen einer Vergleichsoperation zwischen den im ersten Schritt a) berechneten ersten charakteristischen
Parametern und einer Anzahl von ρ ersten charakteristischen Parametern von
η spezifischen Sprachmustern hoher Unterscheidfearkeit
zu einzelnen Zeitpunkten zur Bestimmung einer Anzahl von η zweiten charakteristischen
Parametern, die den Abstand der Korrelation zwischen den ersten, charakteristischen
Parametern des Sprachcingangssignals und den ersten charakteristischen Parametern
der spezifischen Sprachmusler darstellen, wobei
η eine positive ganze Zahl mit 1 <n<p ist,
c) Ermitteln einer Koinzidenz zwischen den erhaltenen zweiten charakteristischen Parametern des Mt
Spracheingangssignalcs und den η zweiten charakteristischen
Parametern einer jeder Standardsprache, die entsprechend Jem Verfahrensschritt
b) aus den ersten charakteristischen Parametern einer jeden Standardsprari -■ berechnet und abgespeichert
wurden, bevor das Spracheingangssignal zugeführt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß beim ersten Schritt a) eine Normierung der ersten charakteristischen Parameter durchgeführt
wird.
3. Verfahren nach einem der Ansprikhc 1 oder 2, dadurch gekennzeichnet, daß für die spezifischen
Sprachsignale beliebige Vokale. Rcib-Konsonanten und/oder Nasal-Konsonanten verwendet werden.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß beim zweiten Schritt
eine Glättung der Zeitfolgcdatcn der zweiten charakteristischen Parameter durchgeführt und diese Daten
in vorgegebenen Intervallen abgetastet werden. ;ii
5. Vorrichtung zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 4. gekennzeichnet
durch eine erste Einrichtung (21-26) zum Berechnen von ρ ersten charakteristischen Parametern aus
Spracheingangssignalen (1) zu entsprechenden Zeitpunkten, wobei ρ eine positive ganze Zahl größer
oder gleich 2 ist, eine Mustcranpassungscinheit (3).
die die von der ersten Einrichtung (21 -26) berechneten ersten charakteristischen Parameter mit ρ ersten
charakteristischen Parametern von η vorgegebenen, ni
spezifischen Spraclinuisiern hoher Untefseheklbm'-keil
y.u einzelnen Zeitpunkten vergleicht und /weile charakteristische Parameter liefert, wobei η eine
positive ganze Zahl mit 1 </; <:/> ist. durch eine Hntscheiuunpseinheii
(4), die eine Koinzidenz zwischen <■<
den von der Miistcranpassungscinhcit (3) erhaltenen,
/weiten charakteristischen Parametern des Spracheingangssignals und den zuvor aus jeder Standardsprache
ermittelten zweiten charakteristischen Parametern bestimmt.
6. Vorrichtung nach Anspruch 5. dadurch gekennzeichnet,
daß die erste Hinrichtung (21-26) eine Normicrungseinrichtung
(26) zum Normieren der ersten charakteristischen Parameter aufweist.
7. Vorrichtung nach Anspruch 5 oder 6, dadurch gekennzeichnet, daß die Musteranpassungseinhcii
(3) eine Einrichtung (242-1. 242-16) zum Glätten der Zcitfolgedaten der zweiten charakteristischen Parameter
und Abtasten dieser Daten in vorgegebenen Intervallen aufweist.
Die Erfindung betrifft ein Verfahren zur Spracherkennung gemäß dem Oberbegriff des Patentanspruches 1
sowie eine Vorrichtung zu seiner Durchführung.
Allgemein kann eine Vorrichtung zur Spracherkennung konstruktiv aufgeteilt werden in (1) eine Recheneinheit
zur Berechnung von charakteristischen Parametern der Sprache und (2) eine Entschcidungsschaltung
zur Anpassung der charakteristischen Parameter an Siandardparameter und zur Bestimmung und Erkennung
der Sprache. Als charakteristische Parameter der Sprache sind bislang ein linearer Vorhersagekoeffizient, ein Teil-Autokorrelations-Koeffizient
und ein Filterbankausgangssignai verwendet worden. Wenn irgendeiner dieser Parameter verwendet wird, wird das Sprachmuster im
allgemeinen als Zeitfolge von Parametern einiger Ordnungen ausgedrückt. Wenn ein AutokorrelationskoelTizient
achter Ordnung, der alle 10 Millisekunden abgetastet wird, zu berücksichtigen ist. sind beispielsweise
800 Parameter erforderlich, um die Sprache einer Sekunde auszudrücken, so daß eine große Zunahme bei
der Verarbeitung erforderlich ist, um eine Vcrgleichsopcration mit den zur Erkennung erforderlichen Parametern
der Standardraster durchzuttihren. Außerdem
ist eine große Speicherkapazität erforderlich, um die Standardmustcr zu speichern. Dementsprechend ist ss
erforderlich, effektive charakteristische Parametern zu erhalten, die in der Lage sind, die Sprachmuster mit
einer möulichsi hohen Wiedergabetreue zu repräsentieren.
Aus der DLi-OS 23 47 738 ist ein Verfahren zur Spracherkennung
bekannt, bei dem aus besonderen Lehr- und Übungsworten ein Mcrkmalsauszug gewonnen wird. Für
jedes einzelne I ehr- oder Übungswort wird ein solcher Mcrkmalsausz.ug abgespeichert. Bei der Spracherkennung
wird nach den gleichen Regeln, nach denen für die Übungsworte der Merkmalsauszug erzielt wurde,
auch für die Sprachcingangssignale ein Merkmalsauszug angefertigt. Der Mcrkmalsauszug des aktuellen
Spracheingangssignals wird dann mit den gespeicherten Mcrkmalsauszügcn der Übungsworte verglichen, und
das Vergleichsergebnis wird durch eine Korrelationsziffer dargestellt. Anhand der Korrelationsziffer wird
dann ermittelt, mil welcher Wahrscheinlichkeit das Sprachoinunniissipiiiil mit dein jeweiligen (Ib'ingswort
übercinstitnn'.i. dessen Mcrkmalsausz.ug abgespeichert
isi.
Auch bei diesem bekannten Vcrl'ahicn muß innerhalb
kurzer /eil eine große Menge von Vcrglcichsopcraiionen
durchgeführt werden, so daß die insgesamt für die Spracherkennuni;
benötigte Verarbeiuingsz.eil groß wird.
Aufnähe der hrfindunu is' daher, ein Verfahren und
:inc Vorrichtung zur Spracherkennung anzugeben, bei Jem die Zahl der Parameter, die in einer Vergleiehsiperation
mit Parametern von Standardmusiern versuchen werden, komprimiert wird, um dadurch die für
die Vergleichsoperation und damit für die Spracherkennung erforderliche Verarbeitungszeit zu reduzieren
und zugleich die für das Abspeichern der Parameter der Standardmuster erforderliche Speicherkapazität zu
verringern.
Diese Aufgabe wird mit einem Verfahren gemäß dem Oberbegriff des Patentanspruches 1 gelöst, das erfindungsgemäß
nach der im kennzeichnenden Teil dieses Anspruches angegebenen Weise ausgestaltet ist.
Vorteilhafte Ausgestaltungen des erfindungsgemäßcn Verfahrens sowie eine bevorzugte Vorrichtung zu seiner
Durchführung sind in den Unteransprüchen angegeben.
Gemäß der Erfindung werden aus den Spracheingangssignalen
errechnete ρ charakteristische Parameter jeweils mit ρ charakteristischen Parametern von η spezifischen
Sprachen verglichen, wobei ihr gegenseitiger Abstand bzw. die Wahrscheinlichkeit ihrer Übereinstimmung bestimmt
wird. Die so erhaltenen Daten werden «1s charakteristische Parameter der Eingangssprachm -5ter verwendet
und mit charakteristischen Parametern von Standardmustern verglichen, die in gleicher Weise bestimmt
wurden. Auf diese Weise wird die Spracherkennung durchgeführt.
Als die η charakteristischen Parameter der spezifischen
Sprache können z.B. die charakteristischen Parameter derjenigen Vokale, die klar voneinander unterschieden
werden können und die eine hohe Trennbarkeit besitzen, verwendet werden.
Die Erfindung wird nachstehend anhand der Beschreibung von Ausführungsbeispielen und unter Bezugnahme
auf die beiliegende Zeichnung näher erläutert. Die Zeichnung zeigt in
Fig. 1 ein Blockschaltbild zur Erläuterung des grundsätzlichen Aufbaus einer erfindungsgemäßen Vorrichtung
zur Spracherkennung;
Fig. 2 ein Blockschaltbild zur Erläuterung der wesentlichen Teile der erfindungsgemäßen Vorrichtung:
Fig. 3 ein Blockschaltbild eines Ausführungsbeispiels für eine Filterbank gemäß Fig. 2;
Fig. 4 ein Diagramm zur Erläuterung der charakteristischen
Parameter von Vokalen: und in
Fig. 5 ein Blockschaltbild zur Erläuterung von Normierungssenaitung,
Musierpufferspeicher und Abstandsrechenschaltunggemäß
Fig. 2.
Fig. 1 zeigt den grundsätzlichen Aufbau der neuartigen Vorrichtung zu Sprchcrkcnnung, wobei das Bezugszeichen
I ein Spracneingangssignal, das Bezugszeichen 2 eine Analysiereinheit, das Bczugszeichen 3
eine Musteranpassungscinheit, das Bezugszeichen 4 eine Entscheidungseinheit und das Bezugszeichen 5 ein Ausgangssignal
des Erkennungsergebnisses bezeichnen.
Bei einem derartigen Aufbau berechnet die Analysiereinheit
2 aus dem Spracheingangssignal Xp charakteristische Parameter, vergleicht die se berechneten charakteristischen
Parameter mit den jcweiligci ρ charakteristischen
Parametern von η spezifischen Sprachen und bestimmt solche charakteristischen Parameter, die den
Abstand oder die Wahrscheinlichkeit zwischen den beiden Arten von Parametern repräsentieren. Die so bestimmten
charakteristischen Parameter werden dann in gleicher Weise mit charakteristischen Parametern des
Standardmusters verglichen, die in gleicher Weise durch Vergleich mit charakteristischen Parametern von spezifischen
Sprachen bestimmt worden sind, in der Musteranpassungseinheit
3, und die Entscheidungseinheii 4
erkennt das Spracheingangssignal und liefen das Ergebnis der F.rkennung als Ausgangssignal 5
Kitt. 2 zemi ein Blockschaltbild eines Ausführiings-
> beispicls für den Aufbau der wesentlichen Teile der
neuartigen Vorrichtung zur Spracherkennung, wobei die wesentlichen Teile der Analysiereinheit 2 in Fig. 1 entsprechen.
In Fig. 2 bezeichnet das Bezugszeichen 21 eine Steuer-
In Fig. 2 bezeichnet das Bezugszeichen 21 eine Steuer-
U) Schaltung, bestehend aus Arbeitsfolgereglern oder dergleichen,
die verschiedene Anen von Steuersignalen erzeugen. Das Bezugszeichen 22 bezeichnet einen Analog-Digital-Wandler,
das Bezugszeichen 23 einen Eingangspufferspeicher. das Bezugszeichen 24 eine Filterbank,
das Bezugszeichen 25 einen Zwischenpufferspeicher, das Bezugszeichen 26 eine Normierschaltung, das Bezugszeichen 27 einen Musterpufferspeicher, das Bezugszeichen 28 einen Mikromuster-Puffenpeicher. das Bezugszeichen
29 eine Abstandsrechenschaltung und das
:n Bezugszeichen 30 einen Parameterpufferspeicher.
Diese Ausführungsform ist so aufj??haut, daß sie die
Aüsgar.gssigruile der Filterbank als charakteristische Parameter
verwendet, welche das Spracheingangssignal repräsentieren.
Das an die Analysiereinheit 2 angelegte Spracheingangssignal
wird mit dem Analog-Digital-Wandler 22 in digitale Signale umgewandelt und an den Eingangspufferspeicher
23 angelegt, wobei eine Steuerung durch die Steuerschaltung 21 erfolgt. Die an den Eingangspuffer-
Xi speicher 23 angelegten digitalen Signale werden in gleicher
Weise der Steuerung der Steuerschaltung 21 unterworfen und an die Filterbank 24 angelegt. Wie in Fig. 3
dargestellt, besteht diese Filterbank 24 beispielsweise aus Bandpaßfiltern 241-1 bis 241-16, die den Frequenzbereich
im Telefonsystem, d.h. 300 bis 3600 Hz in 16 äquidistantc Kanäle logarithmisch unterteilen, sowie
Glättungs- und Abtastschaltungen 242-1 bis 242-16 zum Cilätten und erneuten Abtasten dieser Ausgangssignale
der Bandpaßfiltcr. Die 16 geglätteten Teile von Daten.
die z.B. in lO-Sekundeniniervallen abgetastet werden,
werden dem ZwischenpuiTerspeicher 25 als Vektor der charakteristischen Parameter u, zu den Zeiten / übermittelt.
Die Zeitfolge dieses Vektors von charakteristischen Parametern a, wird sequentiell im Zwischenpufferspeicher
25 angeordnet. Hierbei wird angenommen, daß S1 =',«,,. </,,... .</16ι} und αμ das Ausgangssignal
des /-ten Filters zum Zeitpunkt ι angibt. Im allgemeinen
ändert sich die Größe von Uj, mit dem Eingangspcgcl
des Sprachcingangssignales 1 und mit einer
5(i Sprachumgebung, so daß der Vergleich von Absolutwerten
schwierig ist. Dementsprechend wird der Vektor von charakteristischer! Parametern u,. der aus dem ZwischenpuiTerspeicher
25 durch die Steuerv/irkung der Sieiip'schiiltung 21 ausgelesen wird, an die Normierschaltung
26 angelegt, um einen normierten Vektor von charakteristischen '»nramciern a', zu erhalten. Das /te
F.lemcni dieses Vektors a\ wird gemäß der folgenden
Gleichung erhallen:
ld
Σ",, r ι
Hierbei sind feine Konstante und α ein Koeffizient.
Die Zeitfolge der normierten Vektoren u\ von charak- <>5 teristischen Parame'ern, die auf diese Weise erhalten
werden, wird unter der Steuerwirkung der Steuerschaltung 21 in den Musterpufferspeicher 27 eingespeichert.
Im Mikromusler-Pufferspeicher28gcmäß Fig. 2 ist ein
Vektor von charakteristischen Parametern Vk(k: = 1 ->n)
von η normierten Sprachen gespeichert, sog. Mikromustern.
wie z.B. Vokalen, die '.harakteristische Merkmale
besitzen und mit der gleichen Verarbeitung wie oben erhalten worden sind. Hierbei braucht l\ keine
Zeitfolge von charakteristischen Parametern des Vektors zu sein. Mit anderen Worten, da das Aussprechen von
Vokalen z.B. beträchtlich stabil ist. kann der Vektor der charakteristischen Parameter zu einem Zeitpunkt
innerhalb dieser stabilen Periode ausreichend repräsentativ sein. Fig. 4 zeigt die Vektoren der normierten
charakteristischen Parameter von 5 Vokalen, die von einem erwachsenen Mann ausgesprochen worden sind.
Bei dieser Ausführungsform werden fünf Mikromuster verwendet, die den fünf Vokalen entsprechen.
Die Abstandsrechenschaltung 29 liest die Vektoren der charakteristischen Parameter, die in den Musterpufferspeichcr
27 und den Mikromusterpuflcrspcicher 28 durch die Steuerwirkung der Steuerschaltung 21 eingespeichert
worden sind, und berechnet die Abstände zwischen den Vektoren der 16 normierten charakteristischen
Parameter u't. die im Musterpufferspeicher 27 gespeichert
sind, und den Vektoren der 16 normierten charakteristischen Parameter Y\(k = 1^5) der fünf
Mikromuster. wobei schließlich fünf Abstandsparametcr v*(A = 1^5 und ι ein bestimmter Zeitpunkt) in den Parameterpufferspeicher
30 eingespeichert werden. In diesem Falle wird der Abstandsparameter .vf durch die normale
Abstandsberechnung erhalten, die sich durch die nachstehende Gleichung ausdrücken läßt:
vf= Σ K-l",k>2. it= 1-5).
Somit wird die Zeitfolge von fünf Abstandsparametern
.*J in den Parameierpufferspcicher 30 eingespeichert.
Diese Zeitfolge von Parametern wird der in Fig. 1 dargestellten Mustcranpassungscinhcit 3 übermittelt und
einer Anpassungsoperation mit den Parametern des Staiidardmusters unterworfen, bei dem die Daten bereits
komprimiert und im gleichen Mikromuster registriert sind. Somit wird das Resultat der Erkennung als Ausgangssigna!
der Enischcidungseinheit 4 in Fig. I erzeugt.
Bei dem System von herkömmlichen Vorrichtungen zur Spracherkennung ist die im Zwischenpuftcrspeichcr
25 gespeicherte Zeitfolge von 16 Parametern für die an die Musteranpassungscinheit 3 zu liefernden charakteristischen
Parameter verwendet worden, während bei dem erfindungsgemäßen Verfahren die Zeitfolge von nur
fünf Parametern verwendet werden kann.
Im allgemeinen bestehen die Vektoren von charakteristischen Parametern u\ oder \'k aus derselben Anzahl
von Bits. z.B. 16 Bits als Bitanzahl der Abstandsparameter vf. Dementsprechend kann gemäß der Erfindung
die Anzahl von Bits der charakteristischen Parameter, die für die Musteranpassung in der Musteranpassungseinheit
3 erforderlich sind, auf 5 16 verglichen mit den herkömmlichen Verfahren verringert werden,
und somit läßt sich die erforderliche Zeit für die Vergleichsoperation mit den charakteristischen Parametern
der Standardmuster im gleichen Maße verkürzen. Somit läßt sich die Speicherkapazität zum Speichern
von Standardmustern verringern.
Beim erfindungsgemäßen Verfahren ist es erforderlich,
die Vergleichsoperationen mit den charakteristischen Parametern der Mikromuster separat durchzuführen,
jedoch beträgt die Anzahl von Mikromusiern höchstens
etwa 5 und ist viel kleiner im Vergleich zu der Anzahl
von Standardmusterii. /.U. K). Somit kann die Verglcichsopcration
bezüglich der Mikromusier virtuell vernachlässigt werden. Außerdem wurden experimentelle
■; Daten erhalten, die zeigen, daß auch dann, wenn die
Anzahl von Bits der charakteristischen Parameter für die obige Musteranpassung verringert wird, eine Verschlechterung
des Erkennungsverhältnisses kaum zu beobachten ist.
in Fig. 5 zeigt ein Blockschaltbild eines Ausführungsbeispiels für den Aufbau von Normierungsschaltung 26.
Mnsterpuflerspeichern 27 und 28 sowie Abstandsrechenschallung
29gemäß Fig. 2.
In der Normicrungssehaluing 26 bezeichnet das Be-
i< /ugszeichen 261 einen Addierer mit parallelen Eingängen,
während die lJezugszcichcn 262-1 bis 262-16 Teiler bezeichnen.
Der Mikromusterpuffcrspeicher 28 besteht aus fünf Mikromusterspeichern 281 bis 285. während die
Abstandsrechenschaltung 29 aus fünf Mikromuster-
;ii Komparatorcn 291 bis 295 besteht.
Wenn bei einem derartigen Aufbau ρ charakteristische Parameter zu einer vorgegebenen Zeit parallel aus dem
Zwischenpufferspeicher 25 ausgelesen und an die Normierungsschaltung
26 angelegt werden, werden diese
:< Eingangssignal vom Addierer 261 der Normierungs-
|f>
schaltung 26addiert, was V (/„ergibt.
Die so erhaltenen Additionsergebnisse werden an die Teiler 2o2-l bis 262-16 angelegt, mit denen eine Division
<i) gemäß der obigen Gleichung (1) zwischen diesen Eingangssignalen
bzw. den als Eingangssignalen angelegten charakteristischen Parametern u„ (_/=1~16) durchgeführt
wird. Nach der Normierung wird das Ergebnis zeitweilig in den MusterpufTcrspeicher 27eingespeichert.
Als nächstes werden die aus dem Musterpufferspeichcr 27 ausgclcscnen. normierten ρ charakteristischen Parameter
parallel zueinander an die Mikromuster-Komparatoren 29i bis 295 angclogi. Da andererseits dse aus
den Komparatoren entsprechenden Mikromusterspei-
4Ii ehern 281 bis 285 ausgelcsenen 16 charakteristischen
Parameter an die Komparatoren 291 bis 295 angelegt werden, werden beide charakteristischen Parameter von
Eingangssignalen miteinander verglichen und ihre Abstände in diesen Komparatoren berechnet. Dement-
J> sprechend werden die Ausgangssignaleder Mikromuster-Komparatoren
291 bis 295 zu einer Zeitfolge von 5 Parametern und im ParameterpiilTerspeicher 30 gespeichert.
Unter Verwendung der auf diese Weise im ParameterpiilTerspeicher 30 gespeicherten Parameter wird eine
Anpassung an die Standardmuster in der Musteranpassungseinheit 3 gemäß Fig. I durchgeführt, u-d das
Erkennungsergebnis wird als Ausgangssignal der Entscheidungscinheit
4 erzeugt.
Der Vollständigkeit halber darf darauf hingewiesen
<5 werden, daß die Schaltungsanordnung gemäß Fig. 5
ebenfalls von der Steuerschaltung 21 in Fig. 2 gesteuert ist.
Obwohl 16 Teiler 262-1 bis 262-16 in Fig. 5 dargestellt
sind, ist es auch möglich, nur einen Teuer vorzusehen und
») jeden charakteristischen Parameter auf einer Zeitteilerbasis
unter Verwendung des einen Teilers zu normieren. Außerdem können die Mikromustcr-Speicher 281 bis
285gemeinsam mit den Mikromuster-Komparatoren291
bis 295 verwendet werden.
Außerdem ist es möglich, eine solche Schaltung vorzusehen,
weiche die Zeitfolge der aus den angegebenen Mikromuster-Komparatorcn erhaltenen fünf charakteristischen
Parameter glättet und die Parameter erneut
aile ein oder zwei Intervalle abtastet, um die charakteristischen
Parameter in Richtung ihrer Zeil achse weitet
auf I 2 oder 13 zu komprimieren. Entsprechend den Versuchsergebnissen ist kaum eine Beeinträchtigung
des Erkennungsverhältnisses /u beobachten, wenn diese komprimierten Parameter verwendet werden.
Des weiteren ist es auch möglich, eine Abtastung an einem P"nkt als einen repräsentativen Punkt vorzunehmen,
wo iine Änderung mit der Zeit maximal wird, nachdem die Zeitfolge von 5 charakteristischen Parametern
geglättet ist.
Bei der Ausführungsform nach Fig. 2 sind verschiedene
Speicher 23, 25, 27, 28 und 30 separat angeordnet, wobei diese Speicher durch einen gemeinsamen Speicher
ersetzt werden können. υ
Obwohl bei der oben beschriebenen Ausführungsforni die Ausgangssignale der Filterbank als die die Charakteristika
des Spracheingangssignales repräsentierenden Parameter verwendet werden, kann die Erkennung des
Spracheingangssignales auch mittels anderer Parameter m realisiert werden, z. B. mit linearen Vorhersagekocffizienten,
Teil-AutokorrelationskoeiTizicnten oder dergleichen.
Neben den charakteristischen Parametern der Vokale können auch andere charakteristische Parameter, wie :5
z.B. Reibkonsonanten (z.B. »S« oder dergleichen) oder Nasal-Konsonanten (z.B. »N« oder »M«) als Mikromuster
entweder allein oder in Kombination mit den Vokalen verwendet werden. Ferner ist es möglich, solche
Parameter zu verwenden, die künstlich vorgegeben sind jo
und absichtlich betonte Charakteristika aufweisen.
Bei der obigen Ausführungsform berechnet die Mikromuster-Betriebsschaltung
den Abstand, jedoch kann auch die Wahrscheinlichkeit berechnet werden. In jedem
Falle kann eine beliebige Methode solange verwendet werden, wie Vergleichsergebnisse von zwei Mustern dargestellt
werden.
Obwohl bei der vorstehend beschriebenen Ausführungsform fünf Mikromuster verwendet werden, läßt
sich das Ziel der Erfindung auch unter Verwendung «1
von mindestens einem Mikromuster erreichen, ohne daß eine spezielle Beschränkung auf die obige Ausführungsform
vorliegt.
Aus der vorstehenden Beschreibung ergibt sich bei der Durchführung des Vergleiches zwischen ρ charakteristischen
Parametern des Spracheingangssignals und jeweils ρ charakteristischen Parametern von η Mikromustern
bei dem erfindungsgemäßen Verfahren die Zahl der in der Anpassungseinheit miteinander zu vergleichenden
charakteristischen Parameter im Vergleich zum 5« Stand der Technik auf n/p (mit der Maßgabe, daß n<p
gilt), komprimiert ist. Da damit die Verarbeitungszeit bei der Musteranpassungseinheit sowie der Entscheidungseinheit
erheblich verkürzt werden kann, ist es möglich, eine schnelle Erkennung zu realisieren, und
zwar die Erkennung in einer Realzeitanordnung oder aber die Anzahl von zu erkennenden Worten zu erhöhen.
Die Speicherkapazität zum Speichern der Standardmuster kann ebenfalls in hohem Maße verringert werden.
Somit können beim erfindungsgemäßen Verfahren die charakteristischen Parameter des Spracheingangssignales
in wirksamer Weise komprimiert und damit die Erkennungsgeschwindigkeit verbessert sowie die Erkennungs-Verarbeitungsmenge
erhöht werden.
Das oben beschriebene Verfahren zur Spracherkennung zeichnet sich somit dadurch aus, daß die Vergleichsoperationen zwischen ρ charakteristischen Parametern.
die durch Berechnung der Sprachcingangssignale zu entsprechenden /eilpunkten berechnet sind, und den jeweiligen
/) charakteristischen Parameter von /1 vorgegebenen,
spezifischen Sprachen, durchgeführt werden, um charakteristische Parameter /u erhalten. Dann erfolgt
eine Sortierung hinsichtlich der Koinzidenz, zwischen
den resultierenden charakteristischen Parametern und charakteristischen Parametern von Standardsprache,
die in gleicher Weise durch Vornahme von Vergleichsoperationen mit charakteristischen Parametern
von spezifischen Sprachen erhalten worden sind, um auf diese Weise die Spracherkennung vorzunehmen.
Hierzu 4 Blatt Zeichnungen
Claims (1)
1. Verfahren zur Spracherkennung, bei dem von
Spracheingangssignalcn charakteristische Parameter s bestimmt werden und mit charakteristischen Parametern
verglichen werden, die für vorgegebene Standardsprachen
bestimmt und gespeichert worden sind, gekennzeichnet durch folgende Verfahrensschritte:
n>
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14890479A JPS5672499A (en) | 1979-11-19 | 1979-11-19 | Pretreatment for voice identifier |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3043516A1 DE3043516A1 (de) | 1981-09-17 |
DE3043516C2 true DE3043516C2 (de) | 1984-10-11 |
Family
ID=15463261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3043516A Expired DE3043516C2 (de) | 1979-11-19 | 1980-11-18 | Verfahren und Vorrichtung zur Spracherkennung |
Country Status (3)
Country | Link |
---|---|
US (1) | US4426551A (de) |
JP (1) | JPS5672499A (de) |
DE (1) | DE3043516C2 (de) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5814199A (ja) * | 1981-07-17 | 1983-01-26 | 三洋電機株式会社 | 音声認識装置 |
JPS5844500A (ja) * | 1981-09-11 | 1983-03-15 | シャープ株式会社 | 音声認識方式 |
DE3216871A1 (de) * | 1982-05-03 | 1983-11-03 | Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin | Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem |
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
EP0139642B1 (de) * | 1983-03-28 | 1989-09-13 | Exxon Research And Engineering Company | Spracherkennungsverfahren und vorrichtung |
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
US4817158A (en) * | 1984-10-19 | 1989-03-28 | International Business Machines Corporation | Normalization of speech signals |
US4969193A (en) * | 1985-08-29 | 1990-11-06 | Scott Instruments Corporation | Method and apparatus for generating a signal transformation and the use thereof in signal processing |
US5142657A (en) * | 1988-03-14 | 1992-08-25 | Kabushiki Kaisha Kawai Gakki Seisakusho | Apparatus for drilling pronunciation |
IT1229782B (it) * | 1989-05-22 | 1991-09-11 | Face Standard Ind | Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento |
US5025471A (en) * | 1989-08-04 | 1991-06-18 | Scott Instruments Corporation | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns |
US5440661A (en) * | 1990-01-31 | 1995-08-08 | The United States Of America As Represented By The United States Department Of Energy | Time series association learning |
FR2727236B1 (fr) * | 1994-11-22 | 1996-12-27 | Alcatel Mobile Comm France | Detection d'activite vocale |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1435779A (en) * | 1972-09-21 | 1976-05-12 | Threshold Tech | Word recognition |
-
1979
- 1979-11-19 JP JP14890479A patent/JPS5672499A/ja active Granted
-
1980
- 1980-11-18 DE DE3043516A patent/DE3043516C2/de not_active Expired
- 1980-11-19 US US06/208,251 patent/US4426551A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE3043516A1 (de) | 1981-09-17 |
JPS6128998B2 (de) | 1986-07-03 |
JPS5672499A (en) | 1981-06-16 |
US4426551A (en) | 1984-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE69226594T2 (de) | Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt. | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE69433254T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69520067T2 (de) | Verfahren und Einrichtung zur Kennzeichnung eines Eingangssignales | |
DE3306730C2 (de) | ||
DE69029001T2 (de) | Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen | |
DE3819178C2 (de) | ||
DE68929442T2 (de) | Vorrichtung zur Erfassung von Sprachlauten | |
DE69619284T2 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE69926851T2 (de) | Verfahren und Vorrichtung zur Sprachaktivitätsdetektion | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE69423692T2 (de) | Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln | |
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
EP1214703B1 (de) | Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese | |
DE4031638C2 (de) | ||
DE69918635T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE69118118T2 (de) | Methode und System zur Spracherkennung ohne Rauschbeeinflussung | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE69128582T2 (de) | Methode zur Phonemunterscheidung | |
DE3750365T2 (de) | Sprecheridentifizierung. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8128 | New person/name/address of the agent |
Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |