DE3043516C2 - Verfahren und Vorrichtung zur Spracherkennung - Google Patents

Verfahren und Vorrichtung zur Spracherkennung

Info

Publication number
DE3043516C2
DE3043516C2 DE3043516A DE3043516A DE3043516C2 DE 3043516 C2 DE3043516 C2 DE 3043516C2 DE 3043516 A DE3043516 A DE 3043516A DE 3043516 A DE3043516 A DE 3043516A DE 3043516 C2 DE3043516 C2 DE 3043516C2
Authority
DE
Germany
Prior art keywords
characteristic parameters
parameters
pattern
speech
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE3043516A
Other languages
English (en)
Other versions
DE3043516A1 (de
Inventor
Nobuo Hachiouji Tokio/Tokyo Hataoka
Akira Musashino Tokio/Tokyo Ichikawa
Yoshiaki Sayama Saitama Kitazume
Akio Hachiouji Tokio/Tokyo Komatsu
Kazuhiro Yokohama Kanagawa Umemura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of DE3043516A1 publication Critical patent/DE3043516A1/de
Application granted granted Critical
Publication of DE3043516C2 publication Critical patent/DE3043516C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

a) Berechnen von ρ ersten charakteristischen Parametern aus einem Spracheingangssignal zu einzelnen Zeitpunkten, wobei ρ eine positve. ganze Zahl > 2 ist, is
b) Durchführen einer Vergleichsoperation zwischen den im ersten Schritt a) berechneten ersten charakteristischen Parametern und einer Anzahl von ρ ersten charakteristischen Parametern von η spezifischen Sprachmustern hoher Unterscheidfearkeit zu einzelnen Zeitpunkten zur Bestimmung einer Anzahl von η zweiten charakteristischen Parametern, die den Abstand der Korrelation zwischen den ersten, charakteristischen Parametern des Sprachcingangssignals und den ersten charakteristischen Parametern der spezifischen Sprachmusler darstellen, wobei η eine positive ganze Zahl mit 1 <n<p ist,
c) Ermitteln einer Koinzidenz zwischen den erhaltenen zweiten charakteristischen Parametern des Mt Spracheingangssignalcs und den η zweiten charakteristischen Parametern einer jeder Standardsprache, die entsprechend Jem Verfahrensschritt
b) aus den ersten charakteristischen Parametern einer jeden Standardsprari -■ berechnet und abgespeichert wurden, bevor das Spracheingangssignal zugeführt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß beim ersten Schritt a) eine Normierung der ersten charakteristischen Parameter durchgeführt wird.
3. Verfahren nach einem der Ansprikhc 1 oder 2, dadurch gekennzeichnet, daß für die spezifischen Sprachsignale beliebige Vokale. Rcib-Konsonanten und/oder Nasal-Konsonanten verwendet werden.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß beim zweiten Schritt eine Glättung der Zeitfolgcdatcn der zweiten charakteristischen Parameter durchgeführt und diese Daten
in vorgegebenen Intervallen abgetastet werden. ;ii
5. Vorrichtung zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 4. gekennzeichnet durch eine erste Einrichtung (21-26) zum Berechnen von ρ ersten charakteristischen Parametern aus Spracheingangssignalen (1) zu entsprechenden Zeitpunkten, wobei ρ eine positive ganze Zahl größer oder gleich 2 ist, eine Mustcranpassungscinheit (3). die die von der ersten Einrichtung (21 -26) berechneten ersten charakteristischen Parameter mit ρ ersten charakteristischen Parametern von η vorgegebenen, ni spezifischen Spraclinuisiern hoher Untefseheklbm'-keil y.u einzelnen Zeitpunkten vergleicht und /weile charakteristische Parameter liefert, wobei η eine positive ganze Zahl mit 1 </; <:/> ist. durch eine Hntscheiuunpseinheii (4), die eine Koinzidenz zwischen <■< den von der Miistcranpassungscinhcit (3) erhaltenen, /weiten charakteristischen Parametern des Spracheingangssignals und den zuvor aus jeder Standardsprache ermittelten zweiten charakteristischen Parametern bestimmt.
6. Vorrichtung nach Anspruch 5. dadurch gekennzeichnet, daß die erste Hinrichtung (21-26) eine Normicrungseinrichtung (26) zum Normieren der ersten charakteristischen Parameter aufweist.
7. Vorrichtung nach Anspruch 5 oder 6, dadurch gekennzeichnet, daß die Musteranpassungseinhcii (3) eine Einrichtung (242-1. 242-16) zum Glätten der Zcitfolgedaten der zweiten charakteristischen Parameter und Abtasten dieser Daten in vorgegebenen Intervallen aufweist.
Die Erfindung betrifft ein Verfahren zur Spracherkennung gemäß dem Oberbegriff des Patentanspruches 1 sowie eine Vorrichtung zu seiner Durchführung.
Allgemein kann eine Vorrichtung zur Spracherkennung konstruktiv aufgeteilt werden in (1) eine Recheneinheit zur Berechnung von charakteristischen Parametern der Sprache und (2) eine Entschcidungsschaltung zur Anpassung der charakteristischen Parameter an Siandardparameter und zur Bestimmung und Erkennung der Sprache. Als charakteristische Parameter der Sprache sind bislang ein linearer Vorhersagekoeffizient, ein Teil-Autokorrelations-Koeffizient und ein Filterbankausgangssignai verwendet worden. Wenn irgendeiner dieser Parameter verwendet wird, wird das Sprachmuster im allgemeinen als Zeitfolge von Parametern einiger Ordnungen ausgedrückt. Wenn ein AutokorrelationskoelTizient achter Ordnung, der alle 10 Millisekunden abgetastet wird, zu berücksichtigen ist. sind beispielsweise 800 Parameter erforderlich, um die Sprache einer Sekunde auszudrücken, so daß eine große Zunahme bei der Verarbeitung erforderlich ist, um eine Vcrgleichsopcration mit den zur Erkennung erforderlichen Parametern der Standardraster durchzuttihren. Außerdem ist eine große Speicherkapazität erforderlich, um die Standardmustcr zu speichern. Dementsprechend ist ss erforderlich, effektive charakteristische Parametern zu erhalten, die in der Lage sind, die Sprachmuster mit einer möulichsi hohen Wiedergabetreue zu repräsentieren.
Aus der DLi-OS 23 47 738 ist ein Verfahren zur Spracherkennung bekannt, bei dem aus besonderen Lehr- und Übungsworten ein Mcrkmalsauszug gewonnen wird. Für jedes einzelne I ehr- oder Übungswort wird ein solcher Mcrkmalsausz.ug abgespeichert. Bei der Spracherkennung wird nach den gleichen Regeln, nach denen für die Übungsworte der Merkmalsauszug erzielt wurde, auch für die Sprachcingangssignale ein Merkmalsauszug angefertigt. Der Mcrkmalsauszug des aktuellen Spracheingangssignals wird dann mit den gespeicherten Mcrkmalsauszügcn der Übungsworte verglichen, und das Vergleichsergebnis wird durch eine Korrelationsziffer dargestellt. Anhand der Korrelationsziffer wird dann ermittelt, mil welcher Wahrscheinlichkeit das Sprachoinunniissipiiiil mit dein jeweiligen (Ib'ingswort übercinstitnn'.i. dessen Mcrkmalsausz.ug abgespeichert isi.
Auch bei diesem bekannten Vcrl'ahicn muß innerhalb kurzer /eil eine große Menge von Vcrglcichsopcraiionen durchgeführt werden, so daß die insgesamt für die Spracherkennuni; benötigte Verarbeiuingsz.eil groß wird.
Aufnähe der hrfindunu is' daher, ein Verfahren und
:inc Vorrichtung zur Spracherkennung anzugeben, bei Jem die Zahl der Parameter, die in einer Vergleiehsiperation mit Parametern von Standardmusiern versuchen werden, komprimiert wird, um dadurch die für die Vergleichsoperation und damit für die Spracherkennung erforderliche Verarbeitungszeit zu reduzieren und zugleich die für das Abspeichern der Parameter der Standardmuster erforderliche Speicherkapazität zu verringern.
Diese Aufgabe wird mit einem Verfahren gemäß dem Oberbegriff des Patentanspruches 1 gelöst, das erfindungsgemäß nach der im kennzeichnenden Teil dieses Anspruches angegebenen Weise ausgestaltet ist.
Vorteilhafte Ausgestaltungen des erfindungsgemäßcn Verfahrens sowie eine bevorzugte Vorrichtung zu seiner Durchführung sind in den Unteransprüchen angegeben.
Gemäß der Erfindung werden aus den Spracheingangssignalen errechnete ρ charakteristische Parameter jeweils mit ρ charakteristischen Parametern von η spezifischen Sprachen verglichen, wobei ihr gegenseitiger Abstand bzw. die Wahrscheinlichkeit ihrer Übereinstimmung bestimmt wird. Die so erhaltenen Daten werden «1s charakteristische Parameter der Eingangssprachm -5ter verwendet und mit charakteristischen Parametern von Standardmustern verglichen, die in gleicher Weise bestimmt wurden. Auf diese Weise wird die Spracherkennung durchgeführt.
Als die η charakteristischen Parameter der spezifischen Sprache können z.B. die charakteristischen Parameter derjenigen Vokale, die klar voneinander unterschieden werden können und die eine hohe Trennbarkeit besitzen, verwendet werden.
Die Erfindung wird nachstehend anhand der Beschreibung von Ausführungsbeispielen und unter Bezugnahme auf die beiliegende Zeichnung näher erläutert. Die Zeichnung zeigt in
Fig. 1 ein Blockschaltbild zur Erläuterung des grundsätzlichen Aufbaus einer erfindungsgemäßen Vorrichtung zur Spracherkennung;
Fig. 2 ein Blockschaltbild zur Erläuterung der wesentlichen Teile der erfindungsgemäßen Vorrichtung:
Fig. 3 ein Blockschaltbild eines Ausführungsbeispiels für eine Filterbank gemäß Fig. 2;
Fig. 4 ein Diagramm zur Erläuterung der charakteristischen Parameter von Vokalen: und in
Fig. 5 ein Blockschaltbild zur Erläuterung von Normierungssenaitung, Musierpufferspeicher und Abstandsrechenschaltunggemäß Fig. 2.
Fig. 1 zeigt den grundsätzlichen Aufbau der neuartigen Vorrichtung zu Sprchcrkcnnung, wobei das Bezugszeichen I ein Spracneingangssignal, das Bezugszeichen 2 eine Analysiereinheit, das Bczugszeichen 3 eine Musteranpassungscinheit, das Bezugszeichen 4 eine Entscheidungseinheit und das Bezugszeichen 5 ein Ausgangssignal des Erkennungsergebnisses bezeichnen.
Bei einem derartigen Aufbau berechnet die Analysiereinheit 2 aus dem Spracheingangssignal Xp charakteristische Parameter, vergleicht die se berechneten charakteristischen Parameter mit den jcweiligci ρ charakteristischen Parametern von η spezifischen Sprachen und bestimmt solche charakteristischen Parameter, die den Abstand oder die Wahrscheinlichkeit zwischen den beiden Arten von Parametern repräsentieren. Die so bestimmten charakteristischen Parameter werden dann in gleicher Weise mit charakteristischen Parametern des Standardmusters verglichen, die in gleicher Weise durch Vergleich mit charakteristischen Parametern von spezifischen Sprachen bestimmt worden sind, in der Musteranpassungseinheit 3, und die Entscheidungseinheii 4 erkennt das Spracheingangssignal und liefen das Ergebnis der F.rkennung als Ausgangssignal 5
Kitt. 2 zemi ein Blockschaltbild eines Ausführiings-
> beispicls für den Aufbau der wesentlichen Teile der neuartigen Vorrichtung zur Spracherkennung, wobei die wesentlichen Teile der Analysiereinheit 2 in Fig. 1 entsprechen.
In Fig. 2 bezeichnet das Bezugszeichen 21 eine Steuer-
U) Schaltung, bestehend aus Arbeitsfolgereglern oder dergleichen, die verschiedene Anen von Steuersignalen erzeugen. Das Bezugszeichen 22 bezeichnet einen Analog-Digital-Wandler, das Bezugszeichen 23 einen Eingangspufferspeicher. das Bezugszeichen 24 eine Filterbank, das Bezugszeichen 25 einen Zwischenpufferspeicher, das Bezugszeichen 26 eine Normierschaltung, das Bezugszeichen 27 einen Musterpufferspeicher, das Bezugszeichen 28 einen Mikromuster-Puffenpeicher. das Bezugszeichen 29 eine Abstandsrechenschaltung und das
:n Bezugszeichen 30 einen Parameterpufferspeicher.
Diese Ausführungsform ist so aufj??haut, daß sie die Aüsgar.gssigruile der Filterbank als charakteristische Parameter verwendet, welche das Spracheingangssignal repräsentieren.
Das an die Analysiereinheit 2 angelegte Spracheingangssignal wird mit dem Analog-Digital-Wandler 22 in digitale Signale umgewandelt und an den Eingangspufferspeicher 23 angelegt, wobei eine Steuerung durch die Steuerschaltung 21 erfolgt. Die an den Eingangspuffer-
Xi speicher 23 angelegten digitalen Signale werden in gleicher Weise der Steuerung der Steuerschaltung 21 unterworfen und an die Filterbank 24 angelegt. Wie in Fig. 3 dargestellt, besteht diese Filterbank 24 beispielsweise aus Bandpaßfiltern 241-1 bis 241-16, die den Frequenzbereich im Telefonsystem, d.h. 300 bis 3600 Hz in 16 äquidistantc Kanäle logarithmisch unterteilen, sowie Glättungs- und Abtastschaltungen 242-1 bis 242-16 zum Cilätten und erneuten Abtasten dieser Ausgangssignale der Bandpaßfiltcr. Die 16 geglätteten Teile von Daten.
die z.B. in lO-Sekundeniniervallen abgetastet werden, werden dem ZwischenpuiTerspeicher 25 als Vektor der charakteristischen Parameter u, zu den Zeiten / übermittelt. Die Zeitfolge dieses Vektors von charakteristischen Parametern a, wird sequentiell im Zwischenpufferspeicher 25 angeordnet. Hierbei wird angenommen, daß S1 =',«,,. </,,... .</16ι} und αμ das Ausgangssignal des /-ten Filters zum Zeitpunkt ι angibt. Im allgemeinen ändert sich die Größe von Uj, mit dem Eingangspcgcl des Sprachcingangssignales 1 und mit einer
5(i Sprachumgebung, so daß der Vergleich von Absolutwerten schwierig ist. Dementsprechend wird der Vektor von charakteristischer! Parametern u,. der aus dem ZwischenpuiTerspeicher 25 durch die Steuerv/irkung der Sieiip'schiiltung 21 ausgelesen wird, an die Normierschaltung 26 angelegt, um einen normierten Vektor von charakteristischen '»nramciern a', zu erhalten. Das /te F.lemcni dieses Vektors a\ wird gemäß der folgenden Gleichung erhallen:
ld
Σ",, r ι
Hierbei sind feine Konstante und α ein Koeffizient. Die Zeitfolge der normierten Vektoren u\ von charak- <>5 teristischen Parame'ern, die auf diese Weise erhalten werden, wird unter der Steuerwirkung der Steuerschaltung 21 in den Musterpufferspeicher 27 eingespeichert. Im Mikromusler-Pufferspeicher28gcmäß Fig. 2 ist ein
Vektor von charakteristischen Parametern Vk(k: = 1 ->n) von η normierten Sprachen gespeichert, sog. Mikromustern. wie z.B. Vokalen, die '.harakteristische Merkmale besitzen und mit der gleichen Verarbeitung wie oben erhalten worden sind. Hierbei braucht l\ keine Zeitfolge von charakteristischen Parametern des Vektors zu sein. Mit anderen Worten, da das Aussprechen von Vokalen z.B. beträchtlich stabil ist. kann der Vektor der charakteristischen Parameter zu einem Zeitpunkt innerhalb dieser stabilen Periode ausreichend repräsentativ sein. Fig. 4 zeigt die Vektoren der normierten charakteristischen Parameter von 5 Vokalen, die von einem erwachsenen Mann ausgesprochen worden sind. Bei dieser Ausführungsform werden fünf Mikromuster verwendet, die den fünf Vokalen entsprechen.
Die Abstandsrechenschaltung 29 liest die Vektoren der charakteristischen Parameter, die in den Musterpufferspeichcr 27 und den Mikromusterpuflcrspcicher 28 durch die Steuerwirkung der Steuerschaltung 21 eingespeichert worden sind, und berechnet die Abstände zwischen den Vektoren der 16 normierten charakteristischen Parameter u't. die im Musterpufferspeicher 27 gespeichert sind, und den Vektoren der 16 normierten charakteristischen Parameter Y\(k = 1^5) der fünf Mikromuster. wobei schließlich fünf Abstandsparametcr v*(A = 1^5 und ι ein bestimmter Zeitpunkt) in den Parameterpufferspeicher 30 eingespeichert werden. In diesem Falle wird der Abstandsparameter .vf durch die normale Abstandsberechnung erhalten, die sich durch die nachstehende Gleichung ausdrücken läßt:
vf= Σ K-l",k>2. it= 1-5).
Somit wird die Zeitfolge von fünf Abstandsparametern .*J in den Parameierpufferspcicher 30 eingespeichert. Diese Zeitfolge von Parametern wird der in Fig. 1 dargestellten Mustcranpassungscinhcit 3 übermittelt und einer Anpassungsoperation mit den Parametern des Staiidardmusters unterworfen, bei dem die Daten bereits komprimiert und im gleichen Mikromuster registriert sind. Somit wird das Resultat der Erkennung als Ausgangssigna! der Enischcidungseinheit 4 in Fig. I erzeugt.
Bei dem System von herkömmlichen Vorrichtungen zur Spracherkennung ist die im Zwischenpuftcrspeichcr 25 gespeicherte Zeitfolge von 16 Parametern für die an die Musteranpassungscinheit 3 zu liefernden charakteristischen Parameter verwendet worden, während bei dem erfindungsgemäßen Verfahren die Zeitfolge von nur fünf Parametern verwendet werden kann.
Im allgemeinen bestehen die Vektoren von charakteristischen Parametern u\ oder \'k aus derselben Anzahl von Bits. z.B. 16 Bits als Bitanzahl der Abstandsparameter vf. Dementsprechend kann gemäß der Erfindung die Anzahl von Bits der charakteristischen Parameter, die für die Musteranpassung in der Musteranpassungseinheit 3 erforderlich sind, auf 5 16 verglichen mit den herkömmlichen Verfahren verringert werden, und somit läßt sich die erforderliche Zeit für die Vergleichsoperation mit den charakteristischen Parametern der Standardmuster im gleichen Maße verkürzen. Somit läßt sich die Speicherkapazität zum Speichern von Standardmustern verringern.
Beim erfindungsgemäßen Verfahren ist es erforderlich, die Vergleichsoperationen mit den charakteristischen Parametern der Mikromuster separat durchzuführen, jedoch beträgt die Anzahl von Mikromusiern höchstens etwa 5 und ist viel kleiner im Vergleich zu der Anzahl von Standardmusterii. /.U. K). Somit kann die Verglcichsopcration bezüglich der Mikromusier virtuell vernachlässigt werden. Außerdem wurden experimentelle
■; Daten erhalten, die zeigen, daß auch dann, wenn die Anzahl von Bits der charakteristischen Parameter für die obige Musteranpassung verringert wird, eine Verschlechterung des Erkennungsverhältnisses kaum zu beobachten ist.
in Fig. 5 zeigt ein Blockschaltbild eines Ausführungsbeispiels für den Aufbau von Normierungsschaltung 26. Mnsterpuflerspeichern 27 und 28 sowie Abstandsrechenschallung 29gemäß Fig. 2.
In der Normicrungssehaluing 26 bezeichnet das Be-
i< /ugszeichen 261 einen Addierer mit parallelen Eingängen, während die lJezugszcichcn 262-1 bis 262-16 Teiler bezeichnen. Der Mikromusterpuffcrspeicher 28 besteht aus fünf Mikromusterspeichern 281 bis 285. während die Abstandsrechenschaltung 29 aus fünf Mikromuster-
;ii Komparatorcn 291 bis 295 besteht.
Wenn bei einem derartigen Aufbau ρ charakteristische Parameter zu einer vorgegebenen Zeit parallel aus dem Zwischenpufferspeicher 25 ausgelesen und an die Normierungsschaltung 26 angelegt werden, werden diese
:< Eingangssignal vom Addierer 261 der Normierungs-
|f>
schaltung 26addiert, was V (/„ergibt.
Die so erhaltenen Additionsergebnisse werden an die Teiler 2o2-l bis 262-16 angelegt, mit denen eine Division
<i) gemäß der obigen Gleichung (1) zwischen diesen Eingangssignalen bzw. den als Eingangssignalen angelegten charakteristischen Parametern u„ (_/=1~16) durchgeführt wird. Nach der Normierung wird das Ergebnis zeitweilig in den MusterpufTcrspeicher 27eingespeichert.
Als nächstes werden die aus dem Musterpufferspeichcr 27 ausgclcscnen. normierten ρ charakteristischen Parameter parallel zueinander an die Mikromuster-Komparatoren 29i bis 295 angclogi. Da andererseits dse aus den Komparatoren entsprechenden Mikromusterspei-
4Ii ehern 281 bis 285 ausgelcsenen 16 charakteristischen Parameter an die Komparatoren 291 bis 295 angelegt werden, werden beide charakteristischen Parameter von Eingangssignalen miteinander verglichen und ihre Abstände in diesen Komparatoren berechnet. Dement-
J> sprechend werden die Ausgangssignaleder Mikromuster-Komparatoren 291 bis 295 zu einer Zeitfolge von 5 Parametern und im ParameterpiilTerspeicher 30 gespeichert. Unter Verwendung der auf diese Weise im ParameterpiilTerspeicher 30 gespeicherten Parameter wird eine Anpassung an die Standardmuster in der Musteranpassungseinheit 3 gemäß Fig. I durchgeführt, u-d das Erkennungsergebnis wird als Ausgangssignal der Entscheidungscinheit 4 erzeugt.
Der Vollständigkeit halber darf darauf hingewiesen
<5 werden, daß die Schaltungsanordnung gemäß Fig. 5 ebenfalls von der Steuerschaltung 21 in Fig. 2 gesteuert ist.
Obwohl 16 Teiler 262-1 bis 262-16 in Fig. 5 dargestellt sind, ist es auch möglich, nur einen Teuer vorzusehen und
») jeden charakteristischen Parameter auf einer Zeitteilerbasis unter Verwendung des einen Teilers zu normieren. Außerdem können die Mikromustcr-Speicher 281 bis 285gemeinsam mit den Mikromuster-Komparatoren291 bis 295 verwendet werden.
Außerdem ist es möglich, eine solche Schaltung vorzusehen, weiche die Zeitfolge der aus den angegebenen Mikromuster-Komparatorcn erhaltenen fünf charakteristischen Parameter glättet und die Parameter erneut
aile ein oder zwei Intervalle abtastet, um die charakteristischen Parameter in Richtung ihrer Zeil achse weitet auf I 2 oder 13 zu komprimieren. Entsprechend den Versuchsergebnissen ist kaum eine Beeinträchtigung des Erkennungsverhältnisses /u beobachten, wenn diese komprimierten Parameter verwendet werden.
Des weiteren ist es auch möglich, eine Abtastung an einem P"nkt als einen repräsentativen Punkt vorzunehmen, wo iine Änderung mit der Zeit maximal wird, nachdem die Zeitfolge von 5 charakteristischen Parametern geglättet ist.
Bei der Ausführungsform nach Fig. 2 sind verschiedene Speicher 23, 25, 27, 28 und 30 separat angeordnet, wobei diese Speicher durch einen gemeinsamen Speicher ersetzt werden können. υ
Obwohl bei der oben beschriebenen Ausführungsforni die Ausgangssignale der Filterbank als die die Charakteristika des Spracheingangssignales repräsentierenden Parameter verwendet werden, kann die Erkennung des Spracheingangssignales auch mittels anderer Parameter m realisiert werden, z. B. mit linearen Vorhersagekocffizienten, Teil-AutokorrelationskoeiTizicnten oder dergleichen.
Neben den charakteristischen Parametern der Vokale können auch andere charakteristische Parameter, wie :5 z.B. Reibkonsonanten (z.B. »S« oder dergleichen) oder Nasal-Konsonanten (z.B. »N« oder »M«) als Mikromuster entweder allein oder in Kombination mit den Vokalen verwendet werden. Ferner ist es möglich, solche Parameter zu verwenden, die künstlich vorgegeben sind jo und absichtlich betonte Charakteristika aufweisen.
Bei der obigen Ausführungsform berechnet die Mikromuster-Betriebsschaltung den Abstand, jedoch kann auch die Wahrscheinlichkeit berechnet werden. In jedem Falle kann eine beliebige Methode solange verwendet werden, wie Vergleichsergebnisse von zwei Mustern dargestellt werden.
Obwohl bei der vorstehend beschriebenen Ausführungsform fünf Mikromuster verwendet werden, läßt sich das Ziel der Erfindung auch unter Verwendung «1 von mindestens einem Mikromuster erreichen, ohne daß eine spezielle Beschränkung auf die obige Ausführungsform vorliegt.
Aus der vorstehenden Beschreibung ergibt sich bei der Durchführung des Vergleiches zwischen ρ charakteristischen Parametern des Spracheingangssignals und jeweils ρ charakteristischen Parametern von η Mikromustern bei dem erfindungsgemäßen Verfahren die Zahl der in der Anpassungseinheit miteinander zu vergleichenden charakteristischen Parameter im Vergleich zum 5« Stand der Technik auf n/p (mit der Maßgabe, daß n<p gilt), komprimiert ist. Da damit die Verarbeitungszeit bei der Musteranpassungseinheit sowie der Entscheidungseinheit erheblich verkürzt werden kann, ist es möglich, eine schnelle Erkennung zu realisieren, und zwar die Erkennung in einer Realzeitanordnung oder aber die Anzahl von zu erkennenden Worten zu erhöhen. Die Speicherkapazität zum Speichern der Standardmuster kann ebenfalls in hohem Maße verringert werden.
Somit können beim erfindungsgemäßen Verfahren die charakteristischen Parameter des Spracheingangssignales in wirksamer Weise komprimiert und damit die Erkennungsgeschwindigkeit verbessert sowie die Erkennungs-Verarbeitungsmenge erhöht werden.
Das oben beschriebene Verfahren zur Spracherkennung zeichnet sich somit dadurch aus, daß die Vergleichsoperationen zwischen ρ charakteristischen Parametern.
die durch Berechnung der Sprachcingangssignale zu entsprechenden /eilpunkten berechnet sind, und den jeweiligen /) charakteristischen Parameter von /1 vorgegebenen, spezifischen Sprachen, durchgeführt werden, um charakteristische Parameter /u erhalten. Dann erfolgt eine Sortierung hinsichtlich der Koinzidenz, zwischen den resultierenden charakteristischen Parametern und charakteristischen Parametern von Standardsprache, die in gleicher Weise durch Vornahme von Vergleichsoperationen mit charakteristischen Parametern von spezifischen Sprachen erhalten worden sind, um auf diese Weise die Spracherkennung vorzunehmen.
Hierzu 4 Blatt Zeichnungen

Claims (1)

Patentansprüche:
1. Verfahren zur Spracherkennung, bei dem von Spracheingangssignalcn charakteristische Parameter s bestimmt werden und mit charakteristischen Parametern verglichen werden, die für vorgegebene Standardsprachen bestimmt und gespeichert worden sind, gekennzeichnet durch folgende Verfahrensschritte: n>
DE3043516A 1979-11-19 1980-11-18 Verfahren und Vorrichtung zur Spracherkennung Expired DE3043516C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14890479A JPS5672499A (en) 1979-11-19 1979-11-19 Pretreatment for voice identifier

Publications (2)

Publication Number Publication Date
DE3043516A1 DE3043516A1 (de) 1981-09-17
DE3043516C2 true DE3043516C2 (de) 1984-10-11

Family

ID=15463261

Family Applications (1)

Application Number Title Priority Date Filing Date
DE3043516A Expired DE3043516C2 (de) 1979-11-19 1980-11-18 Verfahren und Vorrichtung zur Spracherkennung

Country Status (3)

Country Link
US (1) US4426551A (de)
JP (1) JPS5672499A (de)
DE (1) DE3043516C2 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5814199A (ja) * 1981-07-17 1983-01-26 三洋電機株式会社 音声認識装置
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
DE3216871A1 (de) * 1982-05-03 1983-11-03 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin Verfahren zur referenzselektion fuer ein automatisches sprachverarbeitungssystem
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
EP0139642B1 (de) * 1983-03-28 1989-09-13 Exxon Research And Engineering Company Spracherkennungsverfahren und vorrichtung
US4718088A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition training method
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US4817158A (en) * 1984-10-19 1989-03-28 International Business Machines Corporation Normalization of speech signals
US4969193A (en) * 1985-08-29 1990-11-06 Scott Instruments Corporation Method and apparatus for generating a signal transformation and the use thereof in signal processing
US5142657A (en) * 1988-03-14 1992-08-25 Kabushiki Kaisha Kawai Gakki Seisakusho Apparatus for drilling pronunciation
IT1229782B (it) * 1989-05-22 1991-09-11 Face Standard Ind Metodo ed apparato per riconoscere parole verbali sconosciute mediante estrazione dei parametri e confronto con parole di riferimento
US5025471A (en) * 1989-08-04 1991-06-18 Scott Instruments Corporation Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US5440661A (en) * 1990-01-31 1995-08-08 The United States Of America As Represented By The United States Department Of Energy Time series association learning
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition

Also Published As

Publication number Publication date
DE3043516A1 (de) 1981-09-17
JPS6128998B2 (de) 1986-07-03
JPS5672499A (en) 1981-06-16
US4426551A (en) 1984-01-17

Similar Documents

Publication Publication Date Title
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69433254T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69520067T2 (de) Verfahren und Einrichtung zur Kennzeichnung eines Eingangssignales
DE3306730C2 (de)
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE3819178C2 (de)
DE68929442T2 (de) Vorrichtung zur Erfassung von Sprachlauten
DE69619284T2 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE4031638C2 (de)
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE69118118T2 (de) Methode und System zur Spracherkennung ohne Rauschbeeinflussung
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE69128582T2 (de) Methode zur Phonemunterscheidung
DE3750365T2 (de) Sprecheridentifizierung.

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8128 New person/name/address of the agent

Representative=s name: STREHL, P., DIPL.-ING. DIPL.-WIRTSCH.-ING. SCHUEBE

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee