DE3306730C2

DE3306730C2 -

Info

Publication number: DE3306730C2
Application number: DE3306730A
Authority: DE
Inventors: Watari Urawa Saitama Jp Masaro; Akabane Saitama Jp Makoto; Nishioka Kamagaya Chiba Jp Hisao; Waku Tokio/Tokyo Jp Toshihiko
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1982-02-25
Filing date: 1983-02-25
Publication date: 1991-10-17
Also published as: US4592085A; NL192701B; KR910002198B1; GB8429480D0; FR2522179B1; JPS58145998A; JPH0441356B2; NL8300718A; GB2118343A; DE3306730A1; NL192701C; KR840003871A; GB2153127A; CA1193732A; GB8305292D0; FR2522179A1; GB2118343B; GB2153127B

Description

Die Erfindung bezieht sich auf Verfahren mit den in den Oberbegriff der Ansprüche 1 und 19 angegebenen Merkmalen sowie auf zugehörige Schaltungsanordnungen gemäß den Oberbegriffen der Ansprüche 10 und 24.

Ein Verfahren der im Oberbegriff des Anspruchs 1 bezeichne ten Art ist prinzipiell bereits bekannt (US 33 44 233). Die zur Durchführung des bekannten Verfahrens dienende Spracherkennungsanordnung kann Phoneme erkennen, die von bestimmten Sprechern gesprochen wird. Bei der Anwendung dieses Typs von Anordnung spricht der Sprecher eine Liste sämtlicher Wörter, die zu erkennen sind, und akustische Parameter der Wörter werden durch verschiedene Schaltungs elemente ermittelt, wie durch eine Filterbank. Ferner werden die Parameter in einem Speicher gespeichert. Wenn der Spre cher dann später dieselben Worte in normaler Sprache be nutzt, werden sodann deren akustische Parameter ermittelt und mit den zuvor gespeicherten akustischen Parametern verglichen. Stimmen die beiden akustischen Parameter mit einander überein, so "erkennt" die Anordnung die später gesprochenen Wörter. Um mit einer Situation fertig zu werden, in der der Sprecher zu verschiedenen Zeiten schneller oder langsamer spricht, kann eine Zeitreihe von akustischen Parametern in regelmäßigen Intervallen gewonnen werden, beispielsweise alle 5 bis 20 ms, und bei der Er kennung der Wörter herangezogen werden.

Bei der vorstehend erwähnten Anordnung müssen im voraus sämtliche akustischen Parameter sämtlicher zu erkennen der Wörter registriert und gespeichert werden, deshalb eine enorme Speicherkapazität erforderlich ist und weshalb eine große Vielzahl von mathematischen Berechnungen durch geführt werden muß. Die "Zeitanspannungs"-Funktion erfordert beispielsweise eine riesige Zahl von mathematischen Berech nungen und belastet die Fähigkeit der meisten Datenprozes soren. Wenn die Zeitbasen nicht genügend aneinander ange paßt sind, könnte die Erkennung fehlerhaft sein.

Es ist auch schon daran gedacht worden, einzelne Phoneme zu erkennen, beispielsweise die Töne bzw. Klänge A, I, U, E, O, K, S, T etc. und die Silben KA, KI, KU, etc.

Ein wesentlicher Nachteil der zuletzt erwähnten Verfahrens weise liegt darin, daß zwar Phoneme, wie Vokale und der gleichen mit quasi-stationären Teilen ohne weiteres erkannt werden können, daß aber Phoneme mit kurzen Phonemcharakteri stiken, wie Verschlußlaute (K, T, P usw.) extrem schwierig in Phoneme unter Ausnutzung akustischer Parameter zu organi sieren sind.

Um diese Schwierigkeit zu überwinden, ist versucht worden, die Phoneme zu speichern, die diskret gesprochen worden sind. Die Phoneme, die diffus gesprochen sind, werden da durch erkannt, daß ihre Zeitbasen unter Anwendung von "Zeitanpassungs"-Verfahren ähnlich jenen, die oben beschrie ben worden sind, angepaßt werden. Dadurch werden Phoneme mit kurzen Phonemcharakteristiken, wie die zuvor erwähnten Verschlußlaute, leichter erkannt. Diese Verfahrensweise weist jedoch ebenfalls nur eine begrenzte Anwendbarkeit auf, und zwar aufgrund der großen Anzahl von mathemati schen Berechnungen, die zur Anpassung der Zeitbasen er forderlich sind. Wenn die betreffende Verfahrensweise zum Erkennen von Phonemen von irgendwelchen Personen angewandt wird und nicht nur zum Erkennen von Phonemen, die ein be stimmter Sprecher spricht, dann sind überdies die Eigen tümlichkeiten des akustischen Parameters aufgrund der individuellen Differenzen in der Sprache derart gestreut, daß die Erkennung der Phoneme praktisch unmöglich wird.

Es ist überdies auch schon daran gedacht worden, eine Viel zahl von akustischen Parametern zu speichern, die ein Wort kennzeichnen bzw. darstellen können, und sodann die Phoneme auf der Grundlage einer Approximation jener akustischen Parameter zu erkennen. So kann ein unvollständiges Wort in Parameter fester Dimensionen umgesetzt werden, und ferner kann eine Bewertung oder Diskriminierung unter diesen Parametern erfolgen, indem eine Diskriminatorfunktion angewandt wird. Diese Vorgehensweise erfordert jedoch ebenfalls eine hohe Speicherkapazität und die Durchführung einer großen Anzahl von mathematischen Berechnungen.

Eine Eigenschaft bzw. Eigentümlichkeit von Sprachsignalen ist das Vorhandensein von Übergängen in den betreffenden Signalen, das sind die Punkte bzw. Stellen, an denen ein Phonem in ein anderes Phonem wechselt bzw. an denen eine Ruhepause zu einem Phonem wird oder umgekehrt. Die bisher bekannten Verfahren zur Ermittlung solcher Übergänge können diese Übergänge jedoch nicht effektiv und wirkungsvoll ausnutzen.

Der Erfindung liegt die Aufgabe zugrunde, einen Weg zu zeigen, wie bei einem Verfahren gemäß dem Oberbegriff des Anspruchs 1 vorzugehen ist, um mit geringerer Speicher kapazität als bei den bisher bekannten Verfahren auszu kommen, ohne daß damit eine Beschränkung der Anzahl der Wörter verbunden ist, die erkannt werden können.

Gelöst wird die vorstehend aufgezeigte Aufgabe durch die im Anspruch 1 gekennzeichneten Maßnahmen.

Die Erfindung zeichnet sich durch den Vorteil auf, daß auf relativ einfache Weise mit geringerem Speicheraufwand als bei den bisher bekannten Verfahren ausgekommen werden kann, um bestimmte Phoneme in einem Sprachsignal sicher erkennen zu können, ohne dabei eine Beschränkung der An zahl der Wörter, die erkennba sind, in Kauf nehmen zu müssen.

Zweckmäßige Weiterbildungen des Verfahrens gemäß der Erfindung ergeben sich aus den Ansprüchen 2 bis 9.

Zur Durchführung des Verfahrens gemäß der Erfindung dient vorzugsweise eine Schaltungsanordnung, wie sie im An spruch 10 gekennzeichnet ist.

Zweckmäßige Weiterbildungen der vorstehend bezeichneten Schaltungsanordnung sind in den Ansprüchen 11 bis 18 erfaßt.

Zum Erzeugen eines Übergangssignals zur Anzeige der Lage eines Übergangs in ein Sprachsignal dient vorzugsweise ein Verfahren, wie es im Anspruch 19 gekennzeichnet ist.

Zweckmäßige Weiterbildungen des vorstehend erwähnten Verfahrens sind in den Ansprüchen 20 bis 23 erfaßt.

Zur Durchführung des Verfahrens zum Erzeugen eines Über gangssignals dient vorzugsweise eine Schaltungsanordnung, wie sie im Anspruch 24 gekennzeichnet ist.

Zweckmäßige Weiterbildungen dieser vorstehend bezeichneten Schaltungsanordnung sind in den Ansprüchen 25 bis 28 ge kennzeichnet.

Anhand von Zeichnungen wird die Erfindung nachstehend bei spielsweise näher erläutert. In den einzelnen Zeichnungen verwendete gleiche Bezugszeichen und Symbole bezeichnen dabei jeweils gleiche bzw. entsprechende Elemente bzw. Merkmale.

Fig. 1A und 1B zeigen in Diagrammen die Änderungen von Phonemen in einem Sprachsignal, welche die Grundlage des Verfahrens und der Schaltungsanordnung gemäß der Erfindung bilden.

Fig. 2 zeigt in einem Blockdiagramm schematisch eine Schaltungsanordnung gemäß einer Ausführungsform der Erfindung.

Fig. 3A bis 3H zeigen in Diagrammen verschiedene Signale, die durch die in Fig. 2 dargestellte Schaltungsanordnung erzeugt werden.

Fig. 4 veranschaulicht in einer Tabelle, wie das Ver fahren gemäß der Erfindung generell arbeitet.

Fig. 5A bis 5I zeigen Kurvenverläufe, die zur Erläuterung eines bekannten Übergangs-Detektorverfahrens her angezogen werden.

Fig. 6 zeigt in einem Blockdiagramm schematisch eine Schaltungsanordnung, die in der in Fig. 2 ge zeigten Anordnung verwendet wird, um Ruhe-Phonem- und Phonem-Phonem-Übergangs-Signale zu er zeugen.

Fig. 7A bis 7C zeigen Kurven, welche die Beziehung zwi schen einem Sprachsignalverlauf, den Phonemen und Übergängen in dem Sprachsignal bzw. dem Übergangssignal veranschaulichen, welches durch die in Fig. 6 dargestellte Schaltungsanordnung erzeugt wird.

Die Verfahren und die Schaltungsanordnungen gemäß der Erfindung nutzen in vorteilhafter Weise eine der Sprache anhaftende Eigenschaft aus. Im allgemeinen wird mit lang betonten Phonemen, wie Voka len und Reibelauten (S, H usw.) gesprochen. Die Aus sprache beispielsweise des Wortes "HAI" ("JA" in japa nisch) umfaßt im Klang "Ruhe → H → A → I → Ruhe", wie dies schematisch in Fig. 1 gezeigt ist. (Das Symbol "*" kennzeichnet eine Ruhepause, und das Symbol "→" kennzeichnet einen Übergang, sei es einen Ruhe-Phonem- oder einen Phonem-Phonem-Übergang.) Dasselbe Wort "HAI" kann entweder so wie in Fig. 1A oder so wie in Fig. 1B gezeigt, gesprochen werden. Fig. 1 veranschaulicht dabei, daß jeder quasi-stationäre Bereich oder jedes quasi- stationäre Segment, welches durch die Phoneme H, A und I gebildet ist, eine Dauer aufweist, die sich mit der Sprechweise ändern kann. Eine Ruhe-Phonem-Übergang oder ein Phonem-Phonem-Übergang (der Bereich oder das Segment zwischen den quasi-stationären Teilen ist in Fig. 1A und 1B durch eine schräge Linie veranschaulicht) weist eine Dauer auf, die sich mit jeder Sprechweise sehr wenig ändert. Dies bedeutet, daß jedesmal dann, wenn das Wort gesprochen wird, die Zeitbasis des quasi- stationären Segments schwanken kann, während die Zeit basis der Übergänge relativ konstant ist.

Eine Schaltungsanordnung gemäß einer Ausführungsform der Erfindung, welche die Eigenschaft der Sprache zur Erkennung bestimmter Phoneme in einem Sprachsignal ausnutzt, ist in Fig. 2 gezeigt. In Fig. 2 stellt ein durch eine vollausgezogene Linie umrahmter Block A eine Einrichtung dar, die ein Sprachsignal in eine elektrisches Signal um setzt, welches kennzeichnend ist für das Sprachsignal. Diese Einrichtung umfaßt ein Mikrophon 1 und einen Ver stärker 2. Ein durch eine vollausgezogene Linie einge rahmter Block B umfaßt ein Tiefpaßfilter 3, einen Ana log-Digital-(A/D-)Wandler 4, ein Schieberegister 6, eine schnelle Fourier-Transformationsschaltung (FFT) 8 und einen Leistungsspektraldetektor 9. Der betreffende Schal tungsblock B arbeitet so, daß ein erstes akustisches Parameter signal erzeugt wird, welches eine Phoneminforma tion des Sprachsignals enthält, und zwar aus dem elek trischen Signal, welches von dem Schaltungsbereich oder der Einrichtung A abgegeben wird. Ein durch eine voll ausgezogene Linie umrahmter Block C enthält eine Empha sis- oder Gewichtungsschaltung 10 und eine Übergangs- Detektorschaltung 20. Die Detektorschaltung 20 erzeugt ein Übergangssignal, welches die Lage eines Ruhe-Phonem- Übergangs oder eines Phonem-Phonem-Übergangs in dem Sprachsignal anzeigt, indem die Phoneminformation in dem ersten akustischen Parameter ausgenutzt wird. Das betreffende Signal ist durch die Schaltung 10 gewichtet worden. Ein durch eine gestrichelte Linie umrahmter Block D stellt eine Schaltung dar, welche die Emphasis schaltung 10, eine erste Bandteilerschaltung (Signaltrenneinrichtung) 11, eine Logarithmusschaltung 12, eine erste diskrete Fourier- Transformationsschaltung (DFT) 13, einen Speicher 14 und eine zweite diskrete Fourier-Transformationsschal tung 15 umfaßt. Die Schaltung D erzeugt ein zweites akustisches Parametersignal aus dem ersten akustischen Parametersignal, indem das Übergangssignal von der De tektorschaltung 20 herangezogen wird. Das zweite aku stische Parametersignal enthält eine Phoneminforma tion des Sprachsignals an den Übergängen.

Im Betrieb wird ein Signal von dem Mikrophon 1 her über den Mikrophonverstärker 2 und das Tiefpaßfilter 3, wel ches eine Frequenz von weniger als 5,5 kHz hat, an den A/D-Wandler (Umsetzeinrichtung) 4 abgegeben. Ein Abtastsignal von 12,5 kHz (welches mit einem Intervall von 80 µs auftritt) wird von einem Taktgenerator 5 an den A/D-Wandler 4 abgege ben, wodurch das Sprachsignal zum Zeitpunkt dieses Ab tasttaktes in ein digitales Signal umgesetzt wird. Das umgesetzte digitale Sprachsignal wird an das Schieberegister (Registriereinrichtung) 6 abgegeben, welches 5×64 Worte umfaßt, und ein Rahmensignal mit einem Intervall von 5,12 ms wird von dem Taktgenerator 5 her an einen Quinär-Zähler 7 ab gegeben. Der Zählwert wird an das Register 6 abgegeben, und dadurch wird das Sprachsignal um jeweils 64 Worte verschoben, wodurch von dem Register 6 ein verschobenes Sprachsignal aus 4×64 Worten erzeugt wird.

Das Signal aus 4×64 (=256) Worten, das von dem Register 6 abgeleitet ist, wird an die schnelle Fourier- Transformationsschaltung 8 abgegeben. Wenn angenommen wird, daß eine Signalwellenfunktion durch n_f Abtastdaten dargestellt wird, die in einer zeitlichen Länge von T enthalten sind, dann wird in der schnellen Fourier- Transformationsschaltung 8 die Größe

U_nfT(f) (1)

durch Fourier-Transformation zu der Signalwellenfunktion U_nfT(f), was zu einem Signal führt, welches folgender Be ziehung genügt:

Das Signal von der schnellen Fourier-Transformations schaltung 8 wird dem Leistungsspektrum-Detektor 9 zu geführt, von dem ein Leistungsspektrum-Signal entspre chend folgender Beziehung erzeugt wird:

Da das fouriertransformierte Signal symmetrisch in bezug auf die Frequenzachse ist, ist die Hälfte der n_f-Ab tastdaten, die sich aus der Fourier-Transformation er geben, redundant und kann weggelassen werden, was zur Bereitstellung von 1/2 n_f-Daten führt. Dies bedeutet, daß das Signal von 256 Worten, die der zuvor erwähnten schnellen Fourier-Transformationsschaltung 8 zugeführt worden sind, umgesetzt und sodann als Leistungsspektrum- Signal von 128 Worten erzeugt wird. Das Leistungsspek trum-Signal umfaßt das erste akustische Parametersignal, und es enthält die Phoneminformation des Sprachsignals, die erforderlich ist, um die Spracherkennung gemäß der vorliegenden Erfindung vorzunehmen.

Das Leistungsspektrum-Signal aus 128 Worten wird an die Emphasis- oder Gewichtungsschaltung (Gewichtungseinrichtung) 10 abgegeben, in der das betreffende Signal gewichtet wird, um in einem ge hörmäßigen Sinne korrigiert zu werden. So könnte das Leistungsspektrum-Signal beispielsweise so gewichtet werden, daß die hochfrequente Komponente des Sprachsignals betont bzw. angehoben wird, um nämlich sicherzu stellen, daß die darin enthaltene Phoneminformation richtig dargestellt wird, um den Rest des Spracherken nungsverfahrens auszuführen. Mit anderen Worten ausge drückt heißt dies, daß die Gewichtungsschaltung 10 den Leistungspegel des ersten akustischen Parametersignals selektiv gewichtet, um die Phoneminformation in dem Sprachsignal genauer darzustellen.

Das gewichtete Signal wird zunächst einer Bandteiler schaltung (Signaltrenneinrichtung) 11 zugeführt und dadurch in beispielsweise 32 Bänder aufgeteilt, welche einer Frequenz-Mel-Skala entsprechen, die auf die gehörmäßigen Charakteristiken des Sprachsignals zugeschnitten sind. Wenn die durch die Bandteilerschaltung (Signaltrenneinrichtung) 11 bereitgestellten Bänder nicht mit den Stellen übereinstimmen, welche die 128 Worte des Leistungsspektrum-Signals kennzeichnen, dann wird das Signal an den nicht miteinander übereinstimmenden Stel len in benachbarter Bänder gebracht, und zwar auf einer anteilmäßigen Basis, um die Information in dem 128-Wort- Signal so genau wie möglich in 32 Bändern darzustellen. In jedem Falle wird das Leistungsspektrum-Signal aus 128 Worten in ein Signal aus 32 Worten komprimiert.

Das komprimierte Signal wird dann an die Logarithmus schaltung 12 abgegeben, in der es in den Logarithmus des jeweiligen Bandes umgesetzt wird. Demgemäß ist dort jegliche Redundanz in dem Leistungsspektrum-Signal ausgeschlossen, beispielsweise aufgrund der Ge wichtung in der Emphasisschaltung 10. Der Logarithmus des Leistungsspektrums

umfaßt einen Spektrum-Parameter x_(i) (i=0, 1, . . . , 31), der an die erste diskrete Fourier-Transformationsschal tung 13 abgegeben wird. Wenn die Anzahl der aufgeteil ten Bänder mit M angenommen wird, dann führt in diesem Fall die erste diskrete Fourier-Transformationsschaltung 13 die diskrete Fourier-Transformation von 2M-2 Punkten mit dem M-dimensionalen Parameter x_(i) (i=0, 1, . . . M-1) durch, der als reelle Zahl angenommen wird, und zwar mit symmetrischen Parametern an 2M-1 Punkten. Demgemäß gilt

wobei

Da die Funktion, durch die diese diskrete Fourier-Transformation durchgeführt wird, als gerade Funktion betrach tet wird, gilt ferner:

Dies führt zu

Die akustischen Parameter, welche eine Einhüllende-Cha rakteristik des Leistungsspektrums kennzeichnen, werden durch diese erste diskrete Fourier-Transformationsope ration gewonnen.

Wie bei dem so durch diskrete Fourier-Transformation er mittelnden Spektrums-Parameter x_(i) werden die Werte von P-Dimensionen von 0 bis P-1 (bei P=8 beispielsweise) dar aus gewonnen und als wörtliche Parameter L_(p) (p-0, 1, . . . p-1) herangezogen:

Da der Spektrums-Parameter symmetrisch ist, wird hier die Beziehung angenommen

x_(i) = x_(2M-i-2) , (11)

wobei die örtlichen Parameter L_(p) wie folgt ausgedrückt werden können:

wobei p=0, 1, . . . P-1 ist.

Auf diese Weise wird das Signal der 32 Worte von dem ersten Bandteiler 11 weiter zu P Worten (beispielsweise zu 8 Worten) komprimiert. Die örtlichen Parameter L_(p) umfassen ein drittes akustisches Parametersignal, welches dadurch erhalten wird, daß das erste akustische Parametersignal in wenige Frequenzbandsignale umgesetzt wird.

Die örtlichen Parameter L_(p) werden an den Speicher 14 abgegeben, der eine Matrix aus Speicherbereichen umfaßt, beispielsweise aus 16 Zeilen, deren eine aus P Worten besteht, in denen die örtlichen Parameter L_(p) der Reihe nach in jeder Dimension gespeichert sind. Dem betref fenden Speicher wird das Rahmentaktsignal in einem In tervall von 5,12 ms von einem Taktgenerator 5 her zuge führt. Der Parameter in jeder Zeile wird dadurch der Reihe nach in der Querrichtung verschoben. Demgemäß speichert der Speicher 14 die örtlichen Parameter L_(p) von P Dimensionen, und zwar mit bzw. in einem Inter vall von 5,12 ms in 16 Rahmen (81,92 ms). Die örtli chen Parameter L_(p) werden durch den Rahmentakt ak tualisiert.

Unterdessen wird das Signal von der Emphasisschaltung 10 an die Übergangs-Detektorschaltung 20 abgegeben, welche die Lagen der Übergänge zwischen den Phonemen und zwi schen den Ruhepausen und den Phonemen ermittelt.

Ein Übergangssignal T_(t), welches die Lage eines Über gangs in dem Sprachsignal anzeigt, wird von der Schal tung 20 an den Speicher 14 abgegeben, durch bzw. aus dem zu dem Zeitpunkt, zu dem der örtliche Parameter L_(p) entsprechend der Zeitspanne bzw. dem Zeitpunkt des Übergangssignals in die achte Zeile verschoben wird, ausgelesen wird. Beim Lesen des Speichers 14 werden die Signale von 16 Rahmen in der Querrichtung ausgelesen, und zwar in jeder Dimension P, und die so ausgele senen Signale werden an die zweite diskrete Fourier-Transformations schaltung 15 abgegeben.

Die zweite diskrete Fourier-Transformationsschaltung 15 führt eine diskrete Fourier-Transformation ähnlich wie die erste diskrete Fourier-Transformationsschaltung 13 aus. Demgemäß wird die Hüllkurven-Charakteristik der Reihen-Änderungen der akustischen Parameter gewonnen. Werte der Q-Dimensionen von 0 bis Q-1 (bei beispielsweise Q=3) werden von den diskreten Fourier-Transformations signalen von der zweiten diskreten Fourier-Transformations schaltung 15 her gewonnen. Diese zweite diskrete Fourier-Transformation wird in jeder Dimension P durchgeführt, um die Übergangsparameter K_(p,q) (p=0, 1 . . . P-1 und q=0, 1, Q-1) von insgesamt P · Q (=24) Wor ten zu bilden. Da K_(0,0) die Leistung der Sprachsignal welle kennzeichnet, kann zum Zwecke der Leistungsnormierung, wenn p=0 ist, q=1 zu Q erhalten werden.

In Fig. 3A bis 3H sind die verschiedenen Signale gezeigt, die bei der dargestellten Anordnung erhalten werden. Fig. 3A zeigt dabei den Verlauf des Sprachsignals für das Sprechen des Wortes "HAI", wobei dieses Signal von dem Verstärker 2 erzeugt wird. Fig. 3B zeigt generell die Konfiguration des Übergangssignals, welches von der Schaltung 20 erzeugt wird. Das Gesamt- Leistungsspektrum des in Fig. 3A gezeigten Sprachsignals ist in Fig. 3C veranschaulicht, in der die Infor mation dargestellt ist, die in dem ersten akustischen Parametersignal enthalten ist. Als Beispiel ist in Fig. 3D das Leistungsspektrum des Übergangs "H→A" gezeigt. Das gewichtete Signal ist in Fig. 3A veranschaulicht. Fig. 3F zeigt das betreffende Signal, welches auf der Basis einer Mel-Skala komprimiert ist. Dieses Signal wird diskret einer Fourier-Transformation unterzogen, um zu dem in Fig. 3G gezeigten Signal zu werden. Wenn die vorderen und hinteren 16 Zeitrahmen dieses Signals einer Matrixbehandlung unterzogen werden, erhält man das in Fig. 3H gezeigte Signal. Die zweite diskrete Fourier-Transformation in Richtung einer Zeitbasis oder Zeitachse t liefert dann die Übergangsparameter K_(p,q), welche die zweiten akustischen Parametersignale umfas sen, die eine Phoneminformation des Sprachsignals an den Übergängen enthalten.

Die Übergangsparameter K_(p,q) werden an eine Rechen schaltung 16 zur Berechnung des Mahalanobis-Abstands abgegeben. Ferner wird ein Cluster-Koeffizient aus einem Bezugsspeicher 17 an die Rechenschaltung 16 ab gegeben, in der der Mahalanobis-Abstand mit jedem der Cluster-Koeffizienten berechnet wird. Die Cluster- Koeffizienten ergeben sich aus der Erzeugung von Über gangsparametern aus dem Sprechen einer Vielzahl von Sprechern bei einer Anordnung ähnlich der bereits be schriebenen Anordnung, wobei eine Klassifizierung der Übergangsparameter auf die Phonem-Inhalte hin erfolgt und wobei sodann diese Phoneme statistisch analysiert werden.

Der berechnete Mahalanobis-Abstand wird von der Schaltung 16 her an eine Bewertungsschaltung 18 abgegeben, welche die bestimmte Übergänge bestimmt, die durch die betref fenden Übergangsparameter dargestellt sind. Diese Infor mation wird dann einem Ausgangsanschluß 19 zugeführt.

Genauer gesagt bedeutet dies im Hinblick auf die 12 Worte von beispielsweise "HAI", "IIE" und "0 (Null)" bis "9 (KYU)", daß die Stimmen einer Anzahl von Sprechern (vorzugsweise von mehr als 100 Personen) im voraus einer Anordnung zu geführt werden, um die Natur bzw. Eigenschaft der Über gänge in ihrer Sprache zu ermitteln und die Übergangs parameter für jene Wörter zu erzeugen. Jene Übergangs parameter werden klassifiziert, wie dies beispielsweise in der Tabelle gemäß Fig. 4 gezeigt ist, und dann für jede Klassifikation oder für jeden Cluster stastistisch analysiert.

Für eine beliebige Probe R_r,n ^(a) (wobei r=1, 2, . . . 24 bedeu tet, wobei a den Clusterindex darstellt und bei a=1 bei spielsweise *→H und bei a=2 H→A entspricht, und wo bei n die Sprecherzahl bedeutet) wird eine Kovarianz-Matrix

berechnet, in der

ist und wobei E einen Phasenmittelwert darstellt. Sodann wird nach einer in versen Matrix von

gesucht.

Demgemäß wird der Abstand zwischen einem beliebigen Übergangsparameter K_r und einem Cluster a entsprechend einem Mahalanobis-Abstand erhalten zu

Wenn die zuvor genannten Größen

gesucht bzw. ermittelt und sodann in dem Bezugsspeicher 17 ge speichert sind, wird der Mahalanobis-Abstand zwischen dem beliebigen Übergangsparameter des Eingangs-Sprach signals und dem Cluster durch die Mahalanobis-Abstands- Rechenschaltung 16 berechnet.

Demgemäß liefert die betreffende Rechenschaltung 16 den minimalen Abstand von jedem Übergang der einzutreffenden Sprache zum jeweiligen Cluster. Die Folge der Übergänge wird dann an die Bewertungsschaltung 18 abgegeben, um die Erkennung und Bewertung durchzuführen, wenn die Ein gangssprache aufhört. So wird beispielsweise bei jedem Wort der Wortabstand durch den Mittelwert der Quadrat wurzel des minimalen Abstands zwischen den entsprechen den Übergangsparametern und den Clustern berechnet. In dem Fall, daß die Übergänge teilweise ausgelassen sind, sucht die Anordnung nach einer Vielzahl von Arten von Übergängen, die in den Bereich passen könnten, der aus gelassen worden ist. Wörter mit einer Übergangsfolge, die verschieden ist von der Tabelle, werden jedoch zurückgewiesen. Sodann wird das Wort mit dem minimalen Wortabstand erkannt und bewertet.

Da die Änderung der Phoneme an den Übergängen ermittelt wird, sind somit Zeitbasisschwankun gen kein Faktor bei der Erkennung der Phoneme, und es können die Phoneme irgendeines Sprechers zufriedenstel lend erkannt werden. Da Parameter an den Übergängen er zeugt werden, wie dies oben beschrieben worden ist, und da ein Übergang in 24 Dimensionen erkannt werden kann, kann überdies die Erkennung mit großer Leichtigkeit und hoher Genauigkeit ausgeführt werden.

Bei einem Experiment mit der zuvor genannten Anordnung lieferten 120 Sprecher eine Bezugsinformation bezüglich 120 Wörter, und dann gebrauchten weitere Sprecher die selben 120 Wörter. Es wurde eine mittlere Erkennungs rate von 98,2% erzielt.

Ferner können "H→A" von "HAI" und "H→A" von "8 (HACHI)" beispielsweise in demselben Cluster klassifiziert werden. Deshalb kann derselbe Übergang auf die Erkennung ver schiedener Wörter angewandt werden. Demgemäß kann eine große Anzahl von Wörtern ohne Schwierigkeit erkannt wer den. Wenn die Anzahl der zu erkennenden Phoneme gegeben ist mit α, dann werden zu diesem Zweck Cluster von etwa αP₂ berechnet, und der Cluster-Koeffizient wird in dem Bezugsspeicher 17 gespeichert.

Fig. 6 zeigt schematisch ein Ausführungsbeispiel der Übergangs-Detektorschaltung 20, die in der Schal tungsanordnung gemäß der Erfindung verwendet wird.

Bevor das mittels der Detektorschaltung 20 durchgeführte Verfahren zum Ermitteln der Übergänge beschrieben wird, erfolgt zunächst unter Bezugnahme auf Fig. 5A bis 5I eine kurze Bezugnahme auf ein bekanntes Verfahren zum Ermitteln von Übergängen in einem Sprachsignal. Das be treffende bekannte Verfahren nutzt die Summe der Zahl der Änderungen der örtlichen Parameter L(p) aus, die jenen entsprechen, welche durch die zweite diskrete Fourier-Transformationsschaltung 13 erzeugt werden. Wenn die Parameter von P Dimensionen im jeweiligen Zeitrahmen gewonnen werden, sofern der Parameter des Rahmens G angenommen wird als L_(p) (G) (p=0, 1, . . . , P-1), dann wird die Ermittlung der Übergänge dadurch vorgenom men, daß die Summe des Absolutwertes des Differenzbe trages herangezogen wird, der gegeben ist durch die Be ziehung

Wenn P eine Dimension ist, wie dies in Fig. 5A und 5B veranschaulicht ist, dann werden die Spitzen des Parameters T(G) an den Stellen erhalten, an denen die Parameter L_(p) (G) sich ändern. Wenn P durch zwei Dimen sionen gegeben ist, dann werden, sofern die Parameter L₍₀₎ (G) und L₍₁₎ (G) von der 0- bzw. 1-Dimension, wie dies in Fig. 5C und 5D gezeigt ist, sich entsprechend den obigen Verhältnissen ändern, die Differenzbeträge geändert, wie dies in Fig. 5E und 5F gezeigt ist. Ein bekannter Übergangsparameter T (G) weist somit zwei Spitzen auf, wie dies in Fig. 5G gezeigt ist, und die Übergangsstelle kann nicht bestimmt werden. Das betref fende Phonem wird wahrscheinlich zu irgendeinem Zeit punkt auftreten, zu dem die Parameter von mehr als zwei Dimenisionen bzw. Größen aufgenommen werden. Fer ner ist in der obigen Beschreibung der Parameter L_(p) (G) als kontinuierlich angenommen werden, während er in der Praxis einen diskreten Wert hat. Darüber hinaus weisen im allgemeinen Phoneme ziemlich kleine Schwankungen auf, so daß der Parameter L_(p) (G) sich tatsächlich so ändert, wie dies Fig. 5H zeigt, was zum Auftreten einer Anzahl von Spitzen und Tälern in dem Parameter T (G) führt, wie dies Fig. 5I erkennen läßt.

Deshalb weist das bekannte Verfahren zum Ermitteln von Übergängen verschiedene Mängel auf, nämlich den Mangel der Ungenauigkeit der Ermittlung und der Instabilität des Detektorsignals.

Im Gegensatz dazu ermittelt die nach der Erfindung arbeitende Übergangs-Detektorschaltung 20 die Übergänge leicht und stabil.

Fig. 6 zeigt eine Anordnung der Detektorschaltung 20, die besonders brauchbar ist hinsichtlich der Erzeugung des Übergangssignals T (t) in der Schaltungsan ordnung gemäß der vorliegenden Erfindung.

Das gewichtete Signal von der Emphasisschaltung 10 ge mäß Fig. 2 her wird über einen Eingangsanschluß 21a einer zweiten Bandteilerschaltung (Signaltrenneinrichtung) 21 zugeführt, in der aufeinanderfolgende Zeitrahmen dieses Signals unter teilt werden, und zwar in ähnlicher Weise, wie dies durch die erste Bandteilerschaltung 11 vorgenommen wor den ist, wobei eine Aufteilung in N (beispielsweise in 20) Frequenzbänder auf der Basis einer Mel-Skala erfolgt. Dadurch wird ein Signal V_(n) (n=0, 1, . . . N-1), welches den Signalen in den entprechenden Bändern zugehörig ist, erzeugt.

Mit anderen Worten ausgedrückt heißt dies, daß das grafisch in Fig. 3C dargestellte Signal so behandelt wird, als umfaßte es eine Vielzahl von Zeitrahmen, von denen einer (beim Übergang zwischen H und A) in Fig. 3D veranschaulicht ist. Nach dem Gewichten wird das Signal in jedem Zeitrahmen (siehe beispielsweise Fig. 3E) in N Frequenzbänder aufgeteilt, deren jedes ein Frequenz bandsignal umfaßt, welches kennzeichnend ist für einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem Zeitrah men.

Das Signal V_(n) wird an eine (die Logarithmen berechnende Schaltungseinrichtung) Vorspannungs-Logarithmus schaltung 22 abgegeben, um die nachstehende Beziehung zu bilden:

v′_(n) = log (V_(n) + B) . (17)

Das Signal V_(n) wird ferner einem Akkumulator oder einer Mittelungsschaltung (Mittelungseinrichtung) 23 zugeführt, in der das folgende Signal gebildet wird:

Das Signal V_a stellt somit den mittleren Leistungspegel in jedem Zeitrahmen dar. Die Abgabe dieses mittleren Signals V_a an die Vorspannungs-Logarithmusschaltung 22 führt zu:

v′_a = log (V_a + B) . (19)

Ferner werden diese Signale einer Differenzschaltung 24 zugeführt, in der folgende Beziehung erfüllt wird:

v_(n) = v′_a - v′_(n) . (20)

Das Signal v′_(n) von der Differenzschaltung 24 stellt somit eine Vielzahl von ersten Differenzpegeln zwischen dem mittleren Leistungspegel in einem bestimmten Zeit rahmen und der Vielzahl der Leistungspegel in demselben Zeitrahmen dar.

Durch Ausnutzen des Logarithmus des Signals V_(n) sind Änderungen in den ersten Differenzpegeln von Zeitrah men zu Zeitrahmen minimiert, d. h. Änderungen, die sich aus Schwankungen in der Betonung verschiedener Phoneme bei den Sprechern ergeben. Dadurch ist sichergestellt, daß die Änderungen in den ersten Differenzpegeln von Zeitrahmen zu Zeitrahmen tatsächlich die sich ändernde Phoneminformation in dem Sprachsignal darstellen an statt die Änderungen im Pegel des einzutreffenden Sprach signals. Da die Berechnung unter Hinzufügung einer Vor spannung B durchgeführt wird, ist es darüber hinaus möglich, die Empfindlichkeit der Schaltungsanordnung auf ziemlich kleine Schallkomponenten (Störung etc.) im eintreffenden Signal zu senken. Mit anderen Worten ausgedrückt heißt dies, daß die Empfindlichkeit mit Rücksicht darauf herabgesetzt wird, daß v′_(n) sich an 0 annähert, da sich B an einen unendlichen Wert annä hert, so daß die Zunahme der Vorspannung eine Herab setzung der Schaltungsempfindlichkeit auf bzw. gegen über Störung mit sich bringt.

Der Parameter v′_(n) wird an eine Übergangs-Signalspei cheranordnung (Speichereinrichtung) 25 abgegeben, in der die ersten Diffe renzpegel für 2w+1 (beispielsweise 9) Zeitrahmen ge speichert sind bzw. werden. Das gespeicherte Signal wird einer Operationsschaltung 26 zugeführt, um dadurch folgendes Signal zu bilden:

wobei GF_N = {I; -w + t I w + t} ist.

Somit wird der niedrigste erste Differenzpegel für je des Frequenzband (hier 20) über die Vielzahl (hier 9) der Zeitrahmen bestimmt. Mit anderen Worten ausge drückt heißt dies, daß minimal 20 erste Differenzpegel vorliegen.

Die Abgabe dieses Signals und der übrigen ersten Diffe renzpegel von der Übergangs-Speicheranordnung (Speichereinrichtung) 25 an eine Summierschaltung (Summiereinrichtung) 27 führt zu folgender Beziehung:

Die Summierschaltung 27 liefert somit eine Summe einer Vielzahl von zweiten Differenzpegeln. Jeder zweite Dif ferenzpegel umfaßt die Differenz zwischen dem minimalen ersten Differenzpegel in einem Frequenzband und jedem der anderen ersten Differenzpegel in dem betreffenden Frequenzband. Bei dem vorliegenden Beispiel sind 180 zweite Differenzpegel (20 Frequenzbänder über neun Zeit rahmen) vorhanden, und 20 dieser zweiten Differenzpegel werden 0 sein. In jedem Fall ist die Summe der zweiten Differenzpegel der Übergangsparameter T(t). Die Größe T_(t) , der Übergangs-Detektorparameter, wird einer Spit zenbewertungsschaltung (Spitzenbewertungseinrichtung) 28 zugeführt, welche die Lage der Übergänge in dem Eingangs-Sprachsignal ermittelt. Jene Lagen werden an einem Ausgangsanschluß 29 angezeigt und dann an die Speichereinrichtung 14 gemäß Fig. 2 abge geben.

Da der Parameter T_(t) durch w Zeitrahmen definiert ist, ist die Bildung von falschen oder mehrfachen Spitzen minimiert. Die Fig. 7A bis 7C veranschaulichen das Spre chen beispielsweise von "ZERO". Ein 12 Bits umfassendes digitales Signal weist bei einer Abtastfrequenz von 12,5 kHz 256 Stellen bzw. Punkte auf, die durch eine schnelle Fourier-Transformation in die Rahmenperiode von 5,12 ms transformiert werden. Die Übergangsermitt lung erfolgt dadurch, daß die Band-Zahl N=20 beträgt, daß die Vorspannung B=0 ist und daß die Anzahl der Zeit rahmen 2w + 1 = 9 ist. Fig. 7A veranschaulicht den Kur venverlauf eines Sprachsignals; Fig. 7B zeigt die Pho neme und Übergänge, und Fig. 7C zeigt den Verlauf des Übergangssignals T(t), in welchem gut definierte Spit zen an den entsprechenden Übergängen "Ruhe→Z", "Z→E", "E→", "R→0" und "0→Ruhe" erzeugt werden. Obwohl einige fremde Spitzen und Täler während der Ruhepausen gebildet werden, und zwar aufgrund einer Hintergrundstö rung, sind diese Spitzen bzw. Täler weitgehend auf 0 ver mindert, und zwar durch Erhöhen der Vorspannung B, wie dies in Fig. 7C durch gestrichelte Linien veranschau licht ist.

Die Spitzenbewertungsschaltung 28 stellt die Übergänge in dem Sprachsignal durch zeitliche Abtastung des Über gangssignals T(t) fest. Dies wird am besten durch eine Betrachtung des Kurvenverlaufs T(t) in Abhängigkeit von der Zeit gemäß Fig. 7C verstanden. Die Spitzenbe wertungsschaltung 28 identifiziert als Übergang ein in der Mitte eines bestimmten Zeitintervalls auftre tendes Maximum T(t). Das Signal T(t) wird kontinuier lich überwacht, um Maxima zu ermitteln, die in der Mitte des betreffenden Zeitintervalls auftreten. Wenn die Dauer des Zeitintervalls richtig gewählt ist, werden lediglich "tatsächliche" Übergänge ermittelt, und zwar wie jene, die in Fig. 7C gezeigt sind. Kleinere Spitzen zwischen den tatsächlichen Übergängen werden lediglich sehr selten in der Mitte der Zeitintervalle für die je weilige Probe von T(t) über das betreffende Intervall auftreten. Da die Phonemerkennung letztlich davon ab hängt, die weitestgehende Anpassung zwischen der Phonem information an den Übergängen und der Bezugs-Phonemin formation zu erzielen, wird überdies eine geringfügige und selten vorkommende fehlerhafte Identifizierung der Übergänge nicht die Rate beeinträchtigen, mit der die in Fig. 2 dargestellte Anordnung Phoneme in einem Sprach signal genau erkennt.

Auf diese Weise können die Übergänge in einem Sprachsignal ermittelt werden. Unter Verwendung der Schaltungsanordnung 20 gemäß der Erfindung können die Lagen dere Übergänge unabhängig von Differenzen in der Be tonung bezüglich bestimmter Phoneme oder bezüglich Pe geländerungen in dem Sprachsignal ermittelt werden.

Darüber hinaus kann die Schaltungsanordnung auch in einem solchen Fall angewandt werden, in welchem das stationäre Segment zwischen den Segmenten ermittelt wird, wobei die Zeitbasen der stationären Segmente durch Heranziehen der ermittelten Übergänge angepaßt werden. Es ist auch möglich, die Schaltungsanordnung zur Analyse der Übergänge bei der Sprachklangsynthese heranzuziehen.

Claims

1. Verfahren zum Erkennen bestimmter Phoneme in einem Sprach signal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist,
wobei ein für das Sprachsignal kennzeichnendes elektrisches Signal abgegeben wird,
wobei aus dem betreffenden elektrischen Signal ein erstes akustisches Parametersignal erzeugt wird, welches den Phonemen des Sprachsignals entspricht,
wobei ein Übergangssignal erzeugt wird, welches in dem Sprachsignal die Lage eines Übergangs anzeigt,
und wobei das erste akustische Parametersignal und das Übergangssignal für die Bestimmung der Phoneme herange zogen werden, dadurch gekennzeichnet,
daß das erste akustische Parametersignal gespeichert wird,
daß aus dem gespeicherten ersten akustischen Parameter signal unter Heranziehung des Übergangssignals ein zweites akustisches Parametersignal erzeugt wird, welches den Phonemen des Sprachsignals an dem betreffenden Übergang entspricht,
und daß das zweite akustische Parametersignal mit ge speicherten bekannten Phonemen verglichen und bei Über einstimmung als das korrespondierende bekannte Phonem erkannt wird.

2. Verfahren nach Anspruch 1, dadurch gekenn zeichnet,
daß die Erzeugung des ersten akustischen Parametersignals dadurch erfolgt, daß aus einem analogen elektrischen Signal ein für das Sprachsignal kennzeichnendes digitales elektrisches Signal erzeugt wird,
daß eine Vielzahl der digitalen Signale in einer Register einrichtung (6) gespeichert wird
und daß aus den gespeicherten digitalen Signalen das erste akustische Parametersignal durch Fourier-Transformation erzeugt wird.

3. Verfahren nach Anspruch 1, dadurch gekenn zeichnet,
daß eine Vielzahl von Zeitrahmen des ersten akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen kennzeichnet,
daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel bei jedem Zeitrahmen berechnet wird,
daß für sämtliche Zeitrahmen eine Vielzahl von ersten Dif ferenzpegeln zwischen dem mittleren Leistungspegel bei dem jeweiligen Zeitrahmen und der Vielzahl von Leistungspegeln im selben Zeitrahmen berechnet wird,
daß für sämtliche Frequenzbänder eine Vielzahl von zweiten Differenzpegeln berechnet wird zwischen a) dem niedrigsten ersten Differenzpegel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) jedem ersten Differenzpegel im selben Frequenzband über die Vielzahl der Zeitrahmen,
und daß die Summe sämtlicher zweiter Differenzpegel berech net wird, wobei die betreffende Summe das Übergangssignal umfaßt, welches derart bewertet werden kann, daß die Über gänge in dem Sprachsignal ermittelt werden.

4. Verfahren nach Anspruch 3, dadurch ge kennzeichnet, daß eine Bewertung des Übergangs signals erfolgt, durch die Spitzen in dem betreffenden Signal ermittelt werden, indem eine zeitliche Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls und eine Identifizierung jedes Maximums des Übergangssignals als Spitzenpegel erfolgt, der in der Mitte des Zeitintervalls auftritt, derart, daß die Über gänge in dem Sprachsignal ermittelt werden.

5. Verfahren nach Anspruch 4, dadurch gekenn zeichnet, daß der jeweilige erste Differenzpegel durch die Differenz zwischen dem Logarithmus des betreffen den mittleren Leistungspegels und dem Logarithmus des vor liegenden Leistungspegels gebildet wird, wobei der Einfluß von Schwankungen auf die ersten Differenzpegel in der Be tonung von Phonem zu Phonem eines bestimmten Sprechers minimiert ist.

6. Verfahren nach Anspruch 5, dadurch gekenn zeichnet, daß eine Vorspannung für jeden mittleren Leistungspegel und für jeden Leistungspegel vor der Berech nung der betreffenden Logarithmen abgegeben wird, derart, daß der Einfluß einer gesonderten Störung während der Pausen im Sprechsignal auf die betreffenden ersten Differenzpegel hin minimiert ist.

7. Verfahren nach Anspruch 6, dadurch gekenn zeichnet, daß die Leistungspegel des ersten akusti schen Parametersignals derart selektiv gewichtet werden, daß eine genaue Darstellung der Phoneme im Sprachsignal erhalten wird.

8. Verfahren nach Anspruch 1, dadurch gekenn zeichnet,
daß das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufgetrennt wird,
daß das erste akustische Parametersignal in ein drittes akustisches Parametersignal umgesetzt wird, welches weniger Frequenzbandsignale umfaßt und welches die Phoneminformation in dem ersten akustischen Parametersignal enthält,
und daß das dritte akustische Parametersignal für die Ver wendung zur Erzeugung des zweiten akustischen Parameter signals aus dem umgesetzten ersten akustischen Parameter signal gespeichert wird.

9. Verfahren nach Anspruch 8, dadurch gekenn zeichnet, daß der Leistungspegel des ersten akusti schen Parametersignals zur genauen Darstellung der Phonem information in dem betreffenden Sprachsignal gewichtet wird.

10. Schaltungsanordnung zur Durchführung des Verfahren nach einem der Ansprüche 1 bis 9, dadurch ge kennzeichnet,
daß eine Einrichtung (A) vorgesehen ist, die ein für das Sprachsignal kennzeichnendes elektrisches Signal abgibt,
daß eine Einrichtung (B) vorgesehen ist, die aus dem be treffenden elektrischen Signal ein erstes akustisches Parameter signal erzeugt, welches den Phonemen des Sprachsignals entspricht,
daß eine erste Signalerzeugungseinrichtung (C; 20) vorge sehen ist, die aus der die Phoneme betreffenden Information in dem ersten akustischen Parametersignal ein Übergangs signal erzeugt, welches kennzeichnend ist für die Lage eines Übergangs in dem Sprachsignal,
daß eine Speichereinrichtung (14) vorgesehen ist, die das erste akustische Parametersignal speichert,
und daß eine zweite Signalerzeugungseinrichtung (D) vor gesehen ist, die aus dem gespeicherten ersten akustischen Parametersignal unter Ausnutzung des Übergangssignals ein zweites Parametersignal unter Ausnutzung des Übergangssignals ein zweites Parametersignal erzeugt, welches den Phonemen des Sprachsignals an dem Übergang entspricht, wobei das zweite akustische Parametersignal mit einer bekannten Phonem information zur Erkennung der Phoneminformation in dem betreffenden Sprachsignal vergleichbar ist.

11. Schaltungsanordnung nach Anspruch 10, dadurch gekennzeichnet,
daß die das erste Para metersignal erzeugende Einrichtung (B) eine Umsetzein richtung (4) aufweist, welche ein analoges elektrisches Signal des Sprachsignals in ein digitales elektrisches Signal umsetzt,
daß eine Registereinrichtung (6) vorgesehen ist, die der Reihe nach eine Vielzahl der digitalen Signale speichert,
und daß eine Einrichtung (8, 9) vorgesehen ist, die aus den gespeicherten digitalen Signalen durch Fourier-Transformation das erste akustische Parametersignal erzeugt.

12. Schaltungsanordnung nach Anspruch 10, dadurch gekennzeichnet,
daß die erstgenannte Signal erzeugungseinrichtung (C; 20) eine Signaltrenneinrich tung (21) umfaßt, welche das erste akustische Parameter signal in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß eine Mittelungseinrichtung (23) vorgesehen ist, die aus der Vielzahl der Frequenzbandsignale einen mittleren Leistungspegel in dem jeweiligen Zeitrahmen berechnet,
daß eine Differenzschaltung (24) vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Leistungspegel in dem jeweiligen Zeitrahmen und der Viel zahl der Leistungspegel im selben Zeitrahmen berechnet,
daß eine Speichereinrichtung (25) vorgesehen ist, welche eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,
daß eine Operationsschaltung (26) vorgesehen ist, die aus den gespeicherten ersten Differenzpegeln eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei jedes Frequenzband einen minimalen ersten Differenz pegel für die betreffende Vielzahl von Zeitrahmen umfaßt,
und daß eine Summiereinrichtung (27) vorgesehen ist, welche die Summe einer Vielzahl von zweiten Differenzpegeln be rechnet, deren jeder die Differenz zwischen a) dem mini malen ersten Differenzpegel in dem jeweiligen Frequenz band und b) dem jeweiligen ersten Differenzpegel im selben Frequenzband für die betreffende Vielzahl von Zeitrahmen umfaßt, wobei die Summe das Übergangssignal umfaßt, welches derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.

13. Schaltungsanordnung nach Anspruch 12, dadurch gekennzeichnet, daß die erstgenannte Signal erzeugungseinrichtung (C; 20) ferner eine Spitzenbewertungs einrichtung (28) aufweist, mit deren Hilfe das Übergangs signal bewertet wird, um darin auftretende Spitzen zu er mitteln, indem eine Zeit-Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls und eine Kennzeichnung als Spitzenpegel erfolgt, wobei jedes Maximum des betreffenden Übergangssignals in der Mitte des betref fenden Zeitintervalls derart auftritt, daß Übergänge in dem Sprachsignal lokalisiert sind.

14. Schaltungsanordnung nach Anspruch 13, dadurch gekennzeichnet, daß eine Schaltungseinrich tung (22) vorgesehen ist, welche die Logarithmen der mittleren Leistungspegel und der vorliegenden Leistungs pegel berechnet, wobei die ersten Differenzpegel die Differenzen zwischen den entsprechenden Logarithmen kenn zeichnen und wobei der Einfluß von Änderungen in der Betonung von Phonem zu Phonem eines bestimmten Sprechers auf die betreffenden ersten Differenzpegel hin minimiert ist.

15. Schaltungsanordnung nach Anspruch 14, dadurch gekennzeichnet, daß die die Logarithmen berechnende Schaltungseinrichtung (22) eine Vorspannungs einrichtung umfaßt, welche eine Vorspannung für den je weiligen mittleren Leistungspegel und für den jeweiligen Leistungspegel vor der Berechnung der Logarithmen dieser Leistungspegel abgibt, wobei der Einfluß von Fremdstörung während der Ruhepausen des Sprachsignals auf die betreffenden ersten Differenzpegel hin minimiert ist.

16. Schaltungsanordnung zum Erkennen be stimmter Phoneme in einem Sprachsignal nach Anspruch 15, dadurch gekennzeichnet, daß die zweite Signalerzeugungseinrichtung (D) ferner eine Ge wichtungseinrichtung (10) umfaßt, mit deren Hilfe der Leistungspegel des ersten akustischen Parametersignals derart gewichtet wird, daß er genau den Phonemen in dem Sprechsignal entspricht.

17. Schaltungsanordnung zum Erkennen be stimmter Phoneme in einem Sprachsignal, nach Anspruch 10, dadurch gekennzeichnet,
daß der Speichereinrichtung (14) eine Signaltrenneinrichtung (11) zugeordnet ist, welche das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufteilt,
daß eine Umsetzeinrichtung (21) vorgesehen ist, welche das erste akustische Parametersignal in ein drittes aku stisches Parametersignal umsetzt, das weniger Frequenz bandsignale umfaßt und das den Phonemen in dem ersten akustischen Parametersignal entspricht,
und daß eine Speichereinrichtung (14) vorgesehen ist, die das dritte akustische Parametersignal für die Erzeugung des zweiten akustischen Parametersignals aus dem umge setzten ersten akustischen Parametersignal heranzieht.

18. Schaltungsanordnung nach Anspruch 11, dadurch gekennzeichnet, daß die Gewichtungseinrich tung (10) den Leistungspegel des ersten akustischen Parameter signals derart wichtet, daß eine genaue Darstellung der Phoneme in dem Sprachsignal erfolgt.

19. Verfahren zum Erzeugeen eines Übergangssignals zur Anzeige der Lage eines Übergangs in einem Sprachsignal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist, insbesondere in einer Schaltungsanordnung nach einem der Ansprüche 10 bis 18, dadurch gekenn zeichnet,
daß ein akustisches Parametersignal abgegeben wird, welches den Phonemen des Sprachsignals entspricht,
daß eine Vielzahl von Zeitrahmen des akustischen Parameter signals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes kennzeichnend ist für einen Leistungspegel des betreffenden akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel im jeweiligen Zeitrahmen berechnet wird,
daß für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Lei stungspegel im jeweiligen Zeitrahmen und der Vielzahl der Leistungspegel im selben Zeitrahmen berechnet wird,
daß für sämtliche Frequenzbänder eine Vielzahl von zwei ten Differenzpegeln berechnet wird zwischen a) dem niedrig sten ersten Differenzpegel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) dem jeweiligen ersten Differenzpegel im selben Frequenzband für die betreffende Vielzahl von Zeitrahmen,
und daß die Summe sämtlicher zweiter Differenzpegel be rechnet wird, wobei diese Summe das Übergangssignal um faßt, welches dadurch bewertet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.

20. Verfahren nach Anspruch 19, dadurch ge kennzeichnet, daß die Bewertung des Über gangssignals zur Ermittlung von Spitzen in dem betreffen den Signal dadurch erfolgt, daß eine zeitliche Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls erfolgt und da als Spitzenpegel jedes Maximum des Übergangssignals identifiziert wird, welches in der Mitte des betreffenden Zeitintervalls auftritt, derart, daß die Übergänge in dem betreffenden Sprachsignal lokalisiert werden.

21. Verfahren nach Anspruch 20, dadurch ge kennzeichnet, daß als jeweiliger erster Differenzpegel die Differenz zwischen dem Logarithmus des betreffenden mittleren Leistungspegels und dem Logarithmus des vorliegenden Leistungspegels verwendet wird, wobei der Einfluß von Änderungen bzw. Schwankungen in der Be tonung von Phonem zu Phonem eines bestimmten Sprechers auf die ersten Differenzpegel hin minimiert ist.

22. Verfahren nach Anspruch 21, dadurch ge kennzeichnet, daß jedem mittleren Leistungs pegel und jedem vorliegenden Leistungspegel vor der Be rechnung des zugehörigen Logarithmus eine Vorspannung zugeführt wird, derart, daß der Einfluß von Fremstörung während der Ruhepausen im Sprachsignal auf die ersten Differenzpegel hin minimiert ist.

23. Verfahren nach Anspruch 22, dadurch ge kennzeichnet, daß die Leistungspegel des akustischen Parametersignals derart selektiv gewichtet werden, daß eine genaue Darstellung der Phoneme in dem Sprachsignal erfolgt.

24. Schaltungsanordnung zur Durchführung des Verfahrens nach einem der Ansprüche 19 bis 23, dadurch ge kennzeichnet,
daß eine Trenneinrichtung (21) vorgesehen ist, die eine Vielzahl von Zeitrahmen eines den Phonemen des Sprachsignals entsprechenden akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des akustischen Parameter signals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß eine Mittelungseinrichtung (23) vorgesehen ist, die aus der betreffenden Vielzahl von Frequenzbandsignalen einen mittleren Leistungspegel im jeweiligen Zeitrahmen berechnet,
daß eine Differenzschaltung (24) vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem mittleren Leistungs pegel im jeweiligen Zeitrahmen und der Vielzahl von vor liegenden Leistungspegeln im selben Zeitrahmen berechnet,
daß eine Speichereinrichtung (25) vorgesehen ist, welche eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,
daß eine Operationsschaltung (26) vorgesehen ist, welche aus den gespeicherten ersten Differenzpegeln eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei das betreffende Frequenzband einen minimalen ersten Differenzpegel für die Vielzahl der Zeitrahmen aufweist,
daß eine Summiereinrichtung (27) vorgesehen ist, welche die Summe einer Vielzahl der zweiten Differenzpegel be rechnet, die jeweils die Differenz zwischen a) dem minimalen ersten Differenzpegel in dem jeweiligen Differenzband und b) dem jeweiligen ersten Differenzpegel in demselben Differenzband für die betreffende Vielzahl von Zeitrahmen umfassen,
und daß die Summe das Übergangssignal umfaßt, welches derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt sind.

25. Schaltungsanordnung nach Anspruch 24, dadurch gekennzeichnet,
daß ferner eine Spitzenbe wertungseinrichtung (28) vorgesehen ist, die das Übergangs signal derart bewertet, daß darin enthaltene Spitzen er mittelt werden, indem eine zeitliche Abtastung des Über gangssignals unter Heranziehung eines bestimmten Zeitinter valls erfolgt,
und daß als Spitzenpegel jedes Maximum des Übergangssignals in der Mitte des Zeitintervalls identifiziert wird, derart, daß die Übergänge in dem Sprachsignal lokalisiert sind.

26. Schaltungsanordnung nach Anspruch 25, dadurch gekennzeichnet, daß eine Logarithmus-Schal tungseinrichtung (22) vorgesehen ist, welche die Logarith men der entsprechenden mittleren Leistungspegel und der vor handenen Leistungspegel berechnet, wobei die ersten Dif ferenzpegel Differenzen zwischen den entsprechenden Loga rithmen kennzeichnen und wobei der Einfluß von Änderungen in der Betonung von Phonem zu Phonem eines bestimmten Sprechers auf die ersten Differenzpegel hin minimiert ist.

27. Schaltungsanordnung nach Anspruch 26, dadurch gekennzeichnet, daß die Logarithmus-Schal tungseinrichtung (22) eine Vorspannungseinrichtung umfaßt, welche eine Vorspannung zu dem jeweiligen mittleren Leistungspegel und zu dem jeweiligen Leistungspegel vor der Berechnung der zugehörigen Logarithmen abgibt, wobei der Einfluß einer Fremdstörung während der Ruhepausen in dem Sprachsignal auf die ersten Differenzpegel hin mini miert ist.

28. Schaltungsanordnung nach Anspruch 27, dadurch gekennzeichnet, daß eine Gewichtungsein richtung (10) vorgesehen ist, welche den Leistungspegel des akustischen Parametersignals derart wichtet, daß die Phoneme in dem Sprachsignal genau dargestellt sind.