DE3306730C2 - - Google Patents
Info
- Publication number
- DE3306730C2 DE3306730C2 DE3306730A DE3306730A DE3306730C2 DE 3306730 C2 DE3306730 C2 DE 3306730C2 DE 3306730 A DE3306730 A DE 3306730A DE 3306730 A DE3306730 A DE 3306730A DE 3306730 C2 DE3306730 C2 DE 3306730C2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- difference
- acoustic parameter
- power level
- transition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000007704 transition Effects 0.000 claims abstract description 119
- 238000000034 method Methods 0.000 claims description 43
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims 3
- 238000002372 labelling Methods 0.000 claims 1
- 230000036316 preload Effects 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000005428 wave function Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Character Discrimination (AREA)
- Image Processing (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
Die Erfindung bezieht sich auf Verfahren mit den in den
Oberbegriff der Ansprüche 1 und 19 angegebenen Merkmalen sowie auf
zugehörige Schaltungsanordnungen gemäß den Oberbegriffen der Ansprüche 10 und 24.
Ein Verfahren der im Oberbegriff des Anspruchs 1 bezeichne
ten Art ist prinzipiell bereits bekannt (US 33 44 233).
Die zur Durchführung des bekannten Verfahrens dienende
Spracherkennungsanordnung kann Phoneme erkennen, die von
bestimmten Sprechern gesprochen wird. Bei der Anwendung
dieses Typs von Anordnung spricht der Sprecher eine Liste
sämtlicher Wörter, die zu erkennen sind, und akustische
Parameter der Wörter werden durch verschiedene Schaltungs
elemente ermittelt, wie durch eine Filterbank. Ferner werden
die Parameter in einem Speicher gespeichert. Wenn der Spre
cher dann später dieselben Worte in normaler Sprache be
nutzt, werden sodann deren akustische Parameter ermittelt
und mit den zuvor gespeicherten akustischen Parametern
verglichen. Stimmen die beiden akustischen Parameter mit
einander überein, so "erkennt" die Anordnung die später
gesprochenen Wörter. Um mit einer Situation fertig zu
werden, in der der Sprecher zu verschiedenen Zeiten
schneller oder langsamer spricht, kann eine Zeitreihe von
akustischen Parametern in regelmäßigen Intervallen gewonnen
werden, beispielsweise alle 5 bis 20 ms, und bei der Er
kennung der Wörter herangezogen werden.
Bei der vorstehend erwähnten Anordnung müssen im voraus
sämtliche akustischen Parameter sämtlicher zu erkennen
der Wörter registriert und gespeichert werden, deshalb
eine enorme Speicherkapazität erforderlich ist und weshalb
eine große Vielzahl von mathematischen Berechnungen durch
geführt werden muß. Die "Zeitanspannungs"-Funktion erfordert
beispielsweise eine riesige Zahl von mathematischen Berech
nungen und belastet die Fähigkeit der meisten Datenprozes
soren. Wenn die Zeitbasen nicht genügend aneinander ange
paßt sind, könnte die Erkennung fehlerhaft sein.
Es ist auch schon daran gedacht worden, einzelne Phoneme
zu erkennen, beispielsweise die Töne bzw. Klänge A, I,
U, E, O, K, S, T etc. und die Silben KA, KI, KU, etc.
Ein wesentlicher Nachteil der zuletzt erwähnten Verfahrens
weise liegt darin, daß zwar Phoneme, wie Vokale und der
gleichen mit quasi-stationären Teilen ohne weiteres erkannt
werden können, daß aber Phoneme mit kurzen Phonemcharakteri
stiken, wie Verschlußlaute (K, T, P usw.) extrem schwierig
in Phoneme unter Ausnutzung akustischer Parameter zu organi
sieren sind.
Um diese Schwierigkeit zu überwinden, ist versucht worden,
die Phoneme zu speichern, die diskret gesprochen worden
sind. Die Phoneme, die diffus gesprochen sind, werden da
durch erkannt, daß ihre Zeitbasen unter Anwendung von
"Zeitanpassungs"-Verfahren ähnlich jenen, die oben beschrie
ben worden sind, angepaßt werden. Dadurch werden Phoneme
mit kurzen Phonemcharakteristiken, wie die zuvor erwähnten
Verschlußlaute, leichter erkannt. Diese Verfahrensweise
weist jedoch ebenfalls nur eine begrenzte Anwendbarkeit
auf, und zwar aufgrund der großen Anzahl von mathemati
schen Berechnungen, die zur Anpassung der Zeitbasen er
forderlich sind. Wenn die betreffende Verfahrensweise zum
Erkennen von Phonemen von irgendwelchen Personen angewandt
wird und nicht nur zum Erkennen von Phonemen, die ein be
stimmter Sprecher spricht, dann sind überdies die Eigen
tümlichkeiten des akustischen Parameters aufgrund der
individuellen Differenzen in der Sprache derart gestreut,
daß die Erkennung der Phoneme praktisch unmöglich wird.
Es ist überdies auch schon daran gedacht worden, eine Viel
zahl von akustischen Parametern zu speichern, die ein Wort
kennzeichnen bzw. darstellen können, und sodann die Phoneme
auf der Grundlage einer Approximation jener akustischen
Parameter zu erkennen. So kann ein unvollständiges Wort in
Parameter fester Dimensionen umgesetzt werden, und ferner
kann eine Bewertung oder Diskriminierung unter diesen Parametern
erfolgen, indem eine Diskriminatorfunktion angewandt
wird. Diese Vorgehensweise erfordert jedoch ebenfalls eine
hohe Speicherkapazität und die Durchführung einer großen
Anzahl von mathematischen Berechnungen.
Eine Eigenschaft bzw. Eigentümlichkeit von Sprachsignalen
ist das Vorhandensein von Übergängen in den betreffenden
Signalen, das sind die Punkte bzw. Stellen, an denen ein
Phonem in ein anderes Phonem wechselt bzw. an denen eine
Ruhepause zu einem Phonem wird oder umgekehrt. Die bisher
bekannten Verfahren zur Ermittlung solcher Übergänge können
diese Übergänge jedoch nicht effektiv und wirkungsvoll
ausnutzen.
Der Erfindung liegt die Aufgabe zugrunde, einen Weg zu
zeigen, wie bei einem Verfahren gemäß dem Oberbegriff des
Anspruchs 1 vorzugehen ist, um mit geringerer Speicher
kapazität als bei den bisher bekannten Verfahren auszu
kommen, ohne daß damit eine Beschränkung der Anzahl der
Wörter verbunden ist, die erkannt werden können.
Gelöst wird die vorstehend aufgezeigte Aufgabe durch die
im Anspruch 1 gekennzeichneten Maßnahmen.
Die Erfindung zeichnet sich durch den Vorteil auf, daß
auf relativ einfache Weise mit geringerem Speicheraufwand
als bei den bisher bekannten Verfahren ausgekommen werden
kann, um bestimmte Phoneme in einem Sprachsignal sicher
erkennen zu können, ohne dabei eine Beschränkung der An
zahl der Wörter, die erkennba sind, in Kauf nehmen zu
müssen.
Zweckmäßige Weiterbildungen des Verfahrens gemäß der
Erfindung ergeben sich aus den Ansprüchen 2 bis 9.
Zur Durchführung des Verfahrens gemäß der Erfindung dient
vorzugsweise eine Schaltungsanordnung, wie sie im An
spruch 10 gekennzeichnet ist.
Zweckmäßige Weiterbildungen der vorstehend bezeichneten
Schaltungsanordnung sind in den Ansprüchen 11 bis 18 erfaßt.
Zum Erzeugen eines Übergangssignals zur Anzeige der Lage
eines Übergangs in ein Sprachsignal dient vorzugsweise
ein Verfahren, wie es im Anspruch 19 gekennzeichnet ist.
Zweckmäßige Weiterbildungen des vorstehend erwähnten
Verfahrens sind in den Ansprüchen 20 bis 23 erfaßt.
Zur Durchführung des Verfahrens zum Erzeugen eines Über
gangssignals dient vorzugsweise eine Schaltungsanordnung,
wie sie im Anspruch 24 gekennzeichnet ist.
Zweckmäßige Weiterbildungen dieser vorstehend bezeichneten
Schaltungsanordnung sind in den Ansprüchen 25 bis 28 ge
kennzeichnet.
Anhand von Zeichnungen wird die Erfindung nachstehend bei
spielsweise näher erläutert. In den einzelnen Zeichnungen
verwendete gleiche Bezugszeichen und Symbole bezeichnen
dabei jeweils gleiche bzw. entsprechende Elemente bzw.
Merkmale.
Fig. 1A und 1B zeigen in Diagrammen die Änderungen von Phonemen
in einem Sprachsignal, welche die Grundlage des
Verfahrens und der Schaltungsanordnung gemäß
der Erfindung bilden.
Fig. 2 zeigt in einem Blockdiagramm schematisch eine
Schaltungsanordnung gemäß einer Ausführungsform
der Erfindung.
Fig. 3A bis 3H zeigen in Diagrammen verschiedene Signale, die
durch die in Fig. 2 dargestellte Schaltungsanordnung
erzeugt werden.
Fig. 4 veranschaulicht in einer Tabelle, wie das Ver
fahren gemäß der Erfindung generell arbeitet.
Fig. 5A bis 5I zeigen Kurvenverläufe, die zur Erläuterung
eines bekannten Übergangs-Detektorverfahrens her
angezogen werden.
Fig. 6 zeigt in einem Blockdiagramm schematisch eine
Schaltungsanordnung, die in der in Fig. 2 ge
zeigten Anordnung verwendet wird, um Ruhe-Phonem-
und Phonem-Phonem-Übergangs-Signale zu er
zeugen.
Fig. 7A bis 7C zeigen Kurven, welche die Beziehung zwi
schen einem Sprachsignalverlauf, den Phonemen
und Übergängen in dem Sprachsignal bzw. dem
Übergangssignal veranschaulichen, welches durch
die in Fig. 6 dargestellte Schaltungsanordnung
erzeugt wird.
Die Verfahren und die Schaltungsanordnungen
gemäß der Erfindung nutzen in vorteilhafter
Weise eine der Sprache anhaftende Eigenschaft aus. Im
allgemeinen wird mit lang betonten Phonemen, wie Voka
len und Reibelauten (S, H usw.) gesprochen. Die Aus
sprache beispielsweise des Wortes "HAI" ("JA" in japa
nisch) umfaßt im Klang "Ruhe → H → A → I → Ruhe", wie
dies schematisch in Fig. 1 gezeigt ist. (Das Symbol
"*" kennzeichnet eine Ruhepause, und das Symbol "→"
kennzeichnet einen Übergang, sei es einen Ruhe-Phonem-
oder einen Phonem-Phonem-Übergang.) Dasselbe Wort "HAI"
kann entweder so wie in Fig. 1A oder so wie in Fig. 1B
gezeigt, gesprochen werden. Fig. 1 veranschaulicht dabei,
daß jeder quasi-stationäre Bereich oder jedes quasi-
stationäre Segment, welches durch die Phoneme H, A und I
gebildet ist, eine Dauer aufweist, die sich mit der
Sprechweise ändern kann. Eine Ruhe-Phonem-Übergang oder
ein Phonem-Phonem-Übergang (der Bereich oder das Segment
zwischen den quasi-stationären Teilen ist in Fig. 1A
und 1B durch eine schräge Linie veranschaulicht) weist
eine Dauer auf, die sich mit jeder Sprechweise sehr
wenig ändert. Dies bedeutet, daß jedesmal dann, wenn
das Wort gesprochen wird, die Zeitbasis des quasi-
stationären Segments schwanken kann, während die Zeit
basis der Übergänge relativ konstant ist.
Eine Schaltungsanordnung gemäß einer Ausführungsform der
Erfindung, welche die Eigenschaft der Sprache zur Erkennung
bestimmter Phoneme in einem Sprachsignal ausnutzt,
ist in Fig. 2 gezeigt. In Fig. 2 stellt ein durch eine
vollausgezogene Linie umrahmter Block A eine Einrichtung
dar, die ein Sprachsignal in eine elektrisches Signal um
setzt, welches kennzeichnend ist für das Sprachsignal.
Diese Einrichtung umfaßt ein Mikrophon 1 und einen Ver
stärker 2. Ein durch eine vollausgezogene Linie einge
rahmter Block B umfaßt ein Tiefpaßfilter 3, einen Ana
log-Digital-(A/D-)Wandler 4, ein Schieberegister 6, eine
schnelle Fourier-Transformationsschaltung (FFT) 8 und
einen Leistungsspektraldetektor 9. Der betreffende Schal
tungsblock B arbeitet so, daß ein erstes akustisches Parameter
signal erzeugt wird, welches eine Phoneminforma
tion des Sprachsignals enthält, und zwar aus dem elek
trischen Signal, welches von dem Schaltungsbereich oder
der Einrichtung A abgegeben wird. Ein durch eine voll
ausgezogene Linie umrahmter Block C enthält eine Empha
sis- oder Gewichtungsschaltung 10 und eine Übergangs-
Detektorschaltung 20. Die Detektorschaltung 20 erzeugt
ein Übergangssignal, welches die Lage eines Ruhe-Phonem-
Übergangs oder eines Phonem-Phonem-Übergangs in dem
Sprachsignal anzeigt, indem die Phoneminformation in
dem ersten akustischen Parameter ausgenutzt wird. Das
betreffende Signal ist durch die Schaltung 10 gewichtet
worden. Ein durch eine gestrichelte Linie umrahmter
Block D stellt eine Schaltung dar, welche die Emphasis
schaltung 10, eine erste Bandteilerschaltung (Signaltrenneinrichtung) 11, eine
Logarithmusschaltung 12, eine erste diskrete Fourier-
Transformationsschaltung (DFT) 13, einen Speicher 14
und eine zweite diskrete Fourier-Transformationsschal
tung 15 umfaßt. Die Schaltung D erzeugt ein zweites
akustisches Parametersignal aus dem ersten akustischen
Parametersignal, indem das Übergangssignal von der De
tektorschaltung 20 herangezogen wird. Das zweite aku
stische Parametersignal enthält eine Phoneminforma
tion des Sprachsignals an den Übergängen.
Im Betrieb wird ein Signal von dem Mikrophon 1 her über
den Mikrophonverstärker 2 und das Tiefpaßfilter 3, wel
ches eine Frequenz von weniger als 5,5 kHz hat, an den
A/D-Wandler (Umsetzeinrichtung) 4 abgegeben. Ein Abtastsignal von 12,5 kHz
(welches mit einem Intervall von 80 µs auftritt) wird
von einem Taktgenerator 5 an den A/D-Wandler 4 abgege
ben, wodurch das Sprachsignal zum Zeitpunkt dieses Ab
tasttaktes in ein digitales Signal umgesetzt wird. Das
umgesetzte digitale Sprachsignal wird an das Schieberegister
(Registriereinrichtung) 6 abgegeben, welches 5×64 Worte umfaßt, und
ein Rahmensignal mit einem Intervall von 5,12 ms wird
von dem Taktgenerator 5 her an einen Quinär-Zähler 7 ab
gegeben. Der Zählwert wird an das Register 6 abgegeben,
und dadurch wird das Sprachsignal um jeweils 64 Worte
verschoben, wodurch von dem Register 6 ein verschobenes
Sprachsignal aus 4×64 Worten erzeugt wird.
Das Signal aus 4×64 (=256) Worten, das von dem Register
6 abgeleitet ist, wird an die schnelle Fourier-
Transformationsschaltung 8 abgegeben. Wenn angenommen
wird, daß eine Signalwellenfunktion durch nf Abtastdaten
dargestellt wird, die in einer zeitlichen Länge von
T enthalten sind, dann wird in der schnellen Fourier-
Transformationsschaltung 8 die Größe
UnfT(f) (1)
durch Fourier-Transformation zu der Signalwellenfunktion
UnfT(f), was zu einem Signal führt, welches folgender Be
ziehung genügt:
Das Signal von der schnellen Fourier-Transformations
schaltung 8 wird dem Leistungsspektrum-Detektor 9 zu
geführt, von dem ein Leistungsspektrum-Signal entspre
chend folgender Beziehung erzeugt wird:
Da das fouriertransformierte Signal symmetrisch in bezug
auf die Frequenzachse ist, ist die Hälfte der nf-Ab
tastdaten, die sich aus der Fourier-Transformation er
geben, redundant und kann weggelassen werden, was zur
Bereitstellung von 1/2 nf-Daten führt. Dies bedeutet,
daß das Signal von 256 Worten, die der zuvor erwähnten
schnellen Fourier-Transformationsschaltung 8 zugeführt
worden sind, umgesetzt und sodann als Leistungsspektrum-
Signal von 128 Worten erzeugt wird. Das Leistungsspek
trum-Signal umfaßt das erste akustische Parametersignal,
und es enthält die Phoneminformation des Sprachsignals,
die erforderlich ist, um die Spracherkennung gemäß der
vorliegenden Erfindung vorzunehmen.
Das Leistungsspektrum-Signal aus 128 Worten wird an die
Emphasis- oder Gewichtungsschaltung (Gewichtungseinrichtung) 10 abgegeben, in der
das betreffende Signal gewichtet wird, um in einem ge
hörmäßigen Sinne korrigiert zu werden. So könnte das
Leistungsspektrum-Signal beispielsweise so gewichtet
werden, daß die hochfrequente Komponente des Sprachsignals
betont bzw. angehoben wird, um nämlich sicherzu
stellen, daß die darin enthaltene Phoneminformation
richtig dargestellt wird, um den Rest des Spracherken
nungsverfahrens auszuführen. Mit anderen Worten ausge
drückt heißt dies, daß die Gewichtungsschaltung 10 den
Leistungspegel des ersten akustischen Parametersignals
selektiv gewichtet, um die Phoneminformation in dem
Sprachsignal genauer darzustellen.
Das gewichtete Signal wird zunächst einer Bandteiler
schaltung (Signaltrenneinrichtung) 11 zugeführt und dadurch in beispielsweise
32 Bänder aufgeteilt, welche einer Frequenz-Mel-Skala
entsprechen, die auf die gehörmäßigen Charakteristiken
des Sprachsignals zugeschnitten sind. Wenn die durch
die Bandteilerschaltung (Signaltrenneinrichtung) 11 bereitgestellten Bänder nicht
mit den Stellen übereinstimmen, welche die 128 Worte des
Leistungsspektrum-Signals kennzeichnen, dann wird das
Signal an den nicht miteinander übereinstimmenden Stel
len in benachbarter Bänder gebracht, und zwar auf einer
anteilmäßigen Basis, um die Information in dem 128-Wort-
Signal so genau wie möglich in 32 Bändern darzustellen.
In jedem Falle wird das Leistungsspektrum-Signal aus
128 Worten in ein Signal aus 32 Worten komprimiert.
Das komprimierte Signal wird dann an die Logarithmus
schaltung 12 abgegeben, in der es in den Logarithmus
des jeweiligen Bandes umgesetzt wird. Demgemäß ist
dort jegliche Redundanz in dem Leistungsspektrum-Signal
ausgeschlossen, beispielsweise aufgrund der Ge
wichtung in der Emphasisschaltung 10. Der Logarithmus
des Leistungsspektrums
umfaßt einen Spektrum-Parameter x(i) (i=0, 1, . . . , 31),
der an die erste diskrete Fourier-Transformationsschal
tung 13 abgegeben wird. Wenn die Anzahl der aufgeteil
ten Bänder mit M angenommen wird, dann führt in diesem
Fall die erste diskrete Fourier-Transformationsschaltung
13 die diskrete Fourier-Transformation von 2M-2 Punkten
mit dem M-dimensionalen Parameter x(i) (i=0, 1, . . . M-1)
durch, der als reelle Zahl angenommen wird, und zwar mit
symmetrischen Parametern an 2M-1 Punkten. Demgemäß
gilt
wobei
Da die Funktion, durch die diese diskrete Fourier-Transformation
durchgeführt wird, als gerade Funktion betrach
tet wird, gilt ferner:
Dies führt zu
Die akustischen Parameter, welche eine Einhüllende-Cha
rakteristik des Leistungsspektrums kennzeichnen, werden
durch diese erste diskrete Fourier-Transformationsope
ration gewonnen.
Wie bei dem so durch diskrete Fourier-Transformation er
mittelnden Spektrums-Parameter x(i) werden die Werte von
P-Dimensionen von 0 bis P-1 (bei P=8 beispielsweise) dar
aus gewonnen und als wörtliche Parameter L(p) (p-0, 1,
. . . p-1) herangezogen:
Da der Spektrums-Parameter symmetrisch ist, wird hier
die Beziehung angenommen
x(i) = x(2M-i-2) , (11)
wobei die örtlichen Parameter L(p) wie folgt ausgedrückt
werden können:
wobei p=0, 1, . . . P-1 ist.
Auf diese Weise wird das Signal der 32 Worte von dem
ersten Bandteiler 11 weiter zu P Worten (beispielsweise
zu 8 Worten) komprimiert. Die örtlichen Parameter L(p)
umfassen ein drittes akustisches Parametersignal, welches
dadurch erhalten wird, daß das erste akustische
Parametersignal in wenige Frequenzbandsignale umgesetzt
wird.
Die örtlichen Parameter L(p) werden an den Speicher 14
abgegeben, der eine Matrix aus Speicherbereichen umfaßt,
beispielsweise aus 16 Zeilen, deren eine aus P Worten
besteht, in denen die örtlichen Parameter L(p) der Reihe
nach in jeder Dimension gespeichert sind. Dem betref
fenden Speicher wird das Rahmentaktsignal in einem In
tervall von 5,12 ms von einem Taktgenerator 5 her zuge
führt. Der Parameter in jeder Zeile wird dadurch der
Reihe nach in der Querrichtung verschoben. Demgemäß
speichert der Speicher 14 die örtlichen Parameter L(p)
von P Dimensionen, und zwar mit bzw. in einem Inter
vall von 5,12 ms in 16 Rahmen (81,92 ms). Die örtli
chen Parameter L(p) werden durch den Rahmentakt ak
tualisiert.
Unterdessen wird das Signal von der Emphasisschaltung 10
an die Übergangs-Detektorschaltung 20 abgegeben, welche
die Lagen der Übergänge zwischen den Phonemen und zwi
schen den Ruhepausen und den Phonemen ermittelt.
Ein Übergangssignal T(t), welches die Lage eines Über
gangs in dem Sprachsignal anzeigt, wird von der Schal
tung 20 an den Speicher 14 abgegeben, durch bzw. aus
dem zu dem Zeitpunkt, zu dem der örtliche Parameter L(p)
entsprechend der Zeitspanne bzw. dem Zeitpunkt des
Übergangssignals in die achte Zeile verschoben wird,
ausgelesen wird. Beim Lesen des Speichers 14 werden
die Signale von 16 Rahmen in der Querrichtung ausgelesen,
und zwar in jeder Dimension P, und die so ausgele
senen Signale werden an die zweite diskrete Fourier-Transformations
schaltung 15 abgegeben.
Die zweite diskrete Fourier-Transformationsschaltung 15
führt eine diskrete Fourier-Transformation ähnlich wie
die erste diskrete Fourier-Transformationsschaltung 13
aus. Demgemäß wird die Hüllkurven-Charakteristik der
Reihen-Änderungen der akustischen Parameter gewonnen.
Werte der Q-Dimensionen von 0 bis Q-1 (bei beispielsweise
Q=3) werden von den diskreten Fourier-Transformations
signalen von der zweiten diskreten Fourier-Transformations
schaltung 15 her gewonnen. Diese zweite diskrete
Fourier-Transformation wird in jeder Dimension P
durchgeführt, um die Übergangsparameter K(p,q) (p=0, 1
. . . P-1 und q=0, 1, Q-1) von insgesamt P · Q (=24) Wor
ten zu bilden. Da K(0,0) die Leistung der Sprachsignal
welle kennzeichnet, kann zum Zwecke der Leistungsnormierung,
wenn p=0 ist, q=1 zu Q erhalten werden.
In Fig. 3A bis 3H sind die verschiedenen Signale gezeigt,
die bei der dargestellten Anordnung
erhalten werden. Fig. 3A zeigt dabei den Verlauf des
Sprachsignals für das Sprechen des Wortes "HAI", wobei
dieses Signal von dem Verstärker 2 erzeugt wird. Fig. 3B
zeigt generell die Konfiguration des Übergangssignals,
welches von der Schaltung 20 erzeugt wird. Das Gesamt-
Leistungsspektrum des in Fig. 3A gezeigten Sprachsignals
ist in Fig. 3C veranschaulicht, in der die Infor
mation dargestellt ist, die in dem ersten akustischen
Parametersignal enthalten ist. Als Beispiel ist in Fig. 3D
das Leistungsspektrum des Übergangs "H→A" gezeigt.
Das gewichtete Signal ist in Fig. 3A veranschaulicht.
Fig. 3F zeigt das betreffende Signal, welches auf der
Basis einer Mel-Skala komprimiert ist. Dieses Signal
wird diskret einer Fourier-Transformation unterzogen,
um zu dem in Fig. 3G gezeigten Signal zu werden. Wenn
die vorderen und hinteren 16 Zeitrahmen dieses Signals
einer Matrixbehandlung unterzogen werden, erhält man
das in Fig. 3H gezeigte Signal. Die zweite diskrete
Fourier-Transformation in Richtung einer Zeitbasis oder
Zeitachse t liefert dann die Übergangsparameter K(p,q),
welche die zweiten akustischen Parametersignale umfas
sen, die eine Phoneminformation des Sprachsignals an
den Übergängen enthalten.
Die Übergangsparameter K(p,q) werden an eine Rechen
schaltung 16 zur Berechnung des Mahalanobis-Abstands
abgegeben. Ferner wird ein Cluster-Koeffizient aus
einem Bezugsspeicher 17 an die Rechenschaltung 16 ab
gegeben, in der der Mahalanobis-Abstand mit jedem der
Cluster-Koeffizienten berechnet wird. Die Cluster-
Koeffizienten ergeben sich aus der Erzeugung von Über
gangsparametern aus dem Sprechen einer Vielzahl von
Sprechern bei einer Anordnung ähnlich der bereits be
schriebenen Anordnung, wobei eine Klassifizierung der
Übergangsparameter auf die Phonem-Inhalte hin erfolgt
und wobei sodann diese Phoneme statistisch analysiert
werden.
Der berechnete Mahalanobis-Abstand wird von der Schaltung
16 her an eine Bewertungsschaltung 18 abgegeben, welche
die bestimmte Übergänge bestimmt, die durch die betref
fenden Übergangsparameter dargestellt sind. Diese Infor
mation wird dann einem Ausgangsanschluß 19 zugeführt.
Genauer gesagt bedeutet dies im Hinblick auf die 12 Worte
von beispielsweise "HAI", "IIE" und "0 (Null)" bis "9 (KYU)",
daß die Stimmen einer Anzahl von Sprechern (vorzugsweise
von mehr als 100 Personen) im voraus einer Anordnung zu
geführt werden, um die Natur bzw. Eigenschaft der Über
gänge in ihrer Sprache zu ermitteln und die Übergangs
parameter für jene Wörter zu erzeugen. Jene Übergangs
parameter werden klassifiziert, wie dies beispielsweise
in der Tabelle gemäß Fig. 4 gezeigt ist, und dann für
jede Klassifikation oder für jeden Cluster stastistisch
analysiert.
Für eine beliebige Probe Rr,n (a) (wobei r=1, 2, . . . 24 bedeu
tet, wobei a den Clusterindex darstellt und bei a=1 bei
spielsweise *→H und bei a=2 H→A entspricht, und wo
bei n die Sprecherzahl bedeutet) wird eine Kovarianz-Matrix
berechnet, in der
ist und wobei E einen
Phasenmittelwert darstellt. Sodann wird nach einer in
versen Matrix von
gesucht.
Demgemäß wird der Abstand zwischen einem beliebigen
Übergangsparameter Kr und einem Cluster a entsprechend
einem Mahalanobis-Abstand erhalten zu
Wenn die zuvor genannten Größen
gesucht
bzw. ermittelt und sodann in dem Bezugsspeicher 17 ge
speichert sind, wird der Mahalanobis-Abstand zwischen
dem beliebigen Übergangsparameter des Eingangs-Sprach
signals und dem Cluster durch die Mahalanobis-Abstands-
Rechenschaltung 16 berechnet.
Demgemäß liefert die betreffende Rechenschaltung 16 den
minimalen Abstand von jedem Übergang der einzutreffenden
Sprache zum jeweiligen Cluster. Die Folge der Übergänge
wird dann an die Bewertungsschaltung 18 abgegeben, um
die Erkennung und Bewertung durchzuführen, wenn die Ein
gangssprache aufhört. So wird beispielsweise bei jedem
Wort der Wortabstand durch den Mittelwert der Quadrat
wurzel des minimalen Abstands zwischen den entsprechen
den Übergangsparametern und den Clustern berechnet. In
dem Fall, daß die Übergänge teilweise ausgelassen sind,
sucht die Anordnung nach einer Vielzahl von Arten von
Übergängen, die in den Bereich passen könnten, der aus
gelassen worden ist. Wörter mit einer Übergangsfolge,
die verschieden ist von der Tabelle, werden jedoch
zurückgewiesen. Sodann wird das Wort mit dem minimalen
Wortabstand erkannt und bewertet.
Da die Änderung der Phoneme an den Übergängen ermittelt
wird, sind somit Zeitbasisschwankun
gen kein Faktor bei der Erkennung der Phoneme, und es
können die Phoneme irgendeines Sprechers zufriedenstel
lend erkannt werden. Da Parameter an den Übergängen er
zeugt werden, wie dies oben beschrieben worden ist, und
da ein Übergang in 24 Dimensionen erkannt werden kann,
kann überdies die Erkennung mit großer Leichtigkeit und
hoher Genauigkeit ausgeführt werden.
Bei einem Experiment mit der zuvor genannten Anordnung
lieferten 120 Sprecher eine Bezugsinformation bezüglich
120 Wörter, und dann gebrauchten weitere Sprecher die
selben 120 Wörter. Es wurde eine mittlere Erkennungs
rate von 98,2% erzielt.
Ferner können "H→A" von "HAI" und "H→A" von "8 (HACHI)"
beispielsweise in demselben Cluster klassifiziert werden.
Deshalb kann derselbe Übergang auf die Erkennung ver
schiedener Wörter angewandt werden. Demgemäß kann eine
große Anzahl von Wörtern ohne Schwierigkeit erkannt wer
den. Wenn die Anzahl der zu erkennenden Phoneme gegeben
ist mit α, dann werden zu diesem Zweck Cluster von etwa
αP₂ berechnet, und der Cluster-Koeffizient wird in dem
Bezugsspeicher 17 gespeichert.
Fig. 6 zeigt schematisch ein Ausführungsbeispiel der
Übergangs-Detektorschaltung 20, die in der Schal
tungsanordnung gemäß der Erfindung verwendet wird.
Bevor das mittels der Detektorschaltung 20 durchgeführte
Verfahren zum Ermitteln der Übergänge beschrieben wird,
erfolgt zunächst unter Bezugnahme auf Fig. 5A bis 5I
eine kurze Bezugnahme auf ein bekanntes Verfahren zum
Ermitteln von Übergängen in einem Sprachsignal. Das be
treffende bekannte Verfahren nutzt die Summe der Zahl
der Änderungen der örtlichen Parameter L(p) aus, die
jenen entsprechen, welche durch die zweite diskrete
Fourier-Transformationsschaltung 13 erzeugt werden.
Wenn die Parameter von P Dimensionen im jeweiligen
Zeitrahmen gewonnen werden, sofern der Parameter des
Rahmens G angenommen wird als L(p) (G) (p=0, 1, . . . , P-1),
dann wird die Ermittlung der Übergänge dadurch vorgenom
men, daß die Summe des Absolutwertes des Differenzbe
trages herangezogen wird, der gegeben ist durch die Be
ziehung
Wenn P eine Dimension ist, wie dies in Fig. 5A und 5B
veranschaulicht ist, dann werden die Spitzen des Parameters
T(G) an den Stellen erhalten, an denen die Parameter
L(p) (G) sich ändern. Wenn P durch zwei Dimen
sionen gegeben ist, dann werden, sofern die Parameter
L(0) (G) und L(1) (G) von der 0- bzw. 1-Dimension, wie
dies in Fig. 5C und 5D gezeigt ist, sich entsprechend
den obigen Verhältnissen ändern, die Differenzbeträge
geändert, wie dies in Fig. 5E und 5F gezeigt ist. Ein
bekannter Übergangsparameter T (G) weist somit zwei
Spitzen auf, wie dies in Fig. 5G gezeigt ist, und die
Übergangsstelle kann nicht bestimmt werden. Das betref
fende Phonem wird wahrscheinlich zu irgendeinem Zeit
punkt auftreten, zu dem die Parameter von mehr als
zwei Dimenisionen bzw. Größen aufgenommen werden. Fer
ner ist in der obigen Beschreibung der Parameter L(p) (G)
als kontinuierlich angenommen werden, während er in der
Praxis einen diskreten Wert hat. Darüber hinaus weisen
im allgemeinen Phoneme ziemlich kleine Schwankungen auf,
so daß der Parameter L(p) (G) sich tatsächlich so ändert,
wie dies Fig. 5H zeigt, was zum Auftreten einer Anzahl
von Spitzen und Tälern in dem Parameter T (G) führt, wie
dies Fig. 5I erkennen läßt.
Deshalb weist das bekannte Verfahren zum Ermitteln von
Übergängen verschiedene Mängel auf, nämlich den Mangel
der Ungenauigkeit der Ermittlung und der Instabilität
des Detektorsignals.
Im Gegensatz dazu ermittelt die nach der Erfindung arbeitende
Übergangs-Detektorschaltung
20 die Übergänge leicht und
stabil.
Fig. 6 zeigt eine Anordnung der Detektorschaltung 20,
die besonders brauchbar ist hinsichtlich der Erzeugung
des Übergangssignals T (t) in der Schaltungsan
ordnung gemäß der vorliegenden Erfindung.
Das gewichtete Signal von der Emphasisschaltung 10 ge
mäß Fig. 2 her wird über einen Eingangsanschluß 21a
einer zweiten Bandteilerschaltung (Signaltrenneinrichtung) 21 zugeführt, in der
aufeinanderfolgende Zeitrahmen dieses Signals unter
teilt werden, und zwar in ähnlicher Weise, wie dies
durch die erste Bandteilerschaltung 11 vorgenommen wor
den ist, wobei eine Aufteilung in N (beispielsweise in
20) Frequenzbänder auf der Basis einer Mel-Skala erfolgt.
Dadurch wird ein Signal V(n) (n=0, 1, . . . N-1), welches
den Signalen in den entprechenden Bändern zugehörig
ist, erzeugt.
Mit anderen Worten ausgedrückt heißt dies, daß das
grafisch in Fig. 3C dargestellte Signal so behandelt
wird, als umfaßte es eine Vielzahl von Zeitrahmen, von
denen einer (beim Übergang zwischen H und A) in Fig. 3D
veranschaulicht ist. Nach dem Gewichten wird das Signal
in jedem Zeitrahmen (siehe beispielsweise Fig. 3E) in
N Frequenzbänder aufgeteilt, deren jedes ein Frequenz
bandsignal umfaßt, welches kennzeichnend ist für einen
Leistungspegel des ersten akustischen Parametersignals
in einem bestimmten Frequenzband und in einem Zeitrah
men.
Das Signal V(n) wird an eine
(die Logarithmen berechnende Schaltungseinrichtung)
Vorspannungs-Logarithmus
schaltung 22 abgegeben, um die nachstehende Beziehung
zu bilden:
v′(n) = log (V(n) + B) . (17)
Das Signal V(n) wird ferner einem Akkumulator oder einer
Mittelungsschaltung (Mittelungseinrichtung)
23 zugeführt, in der das folgende
Signal gebildet wird:
Das Signal Va stellt somit den mittleren Leistungspegel
in jedem Zeitrahmen dar. Die Abgabe dieses mittleren
Signals Va an die Vorspannungs-Logarithmusschaltung 22
führt zu:
v′a = log (Va + B) . (19)
Ferner werden diese Signale einer Differenzschaltung 24
zugeführt, in der folgende Beziehung erfüllt wird:
v(n) = v′a - v′(n) . (20)
Das Signal v′(n) von der Differenzschaltung 24 stellt
somit eine Vielzahl von ersten Differenzpegeln zwischen
dem mittleren Leistungspegel in einem bestimmten Zeit
rahmen und der Vielzahl der Leistungspegel in demselben
Zeitrahmen dar.
Durch Ausnutzen des Logarithmus des Signals V(n) sind
Änderungen in den ersten Differenzpegeln von Zeitrah
men zu Zeitrahmen minimiert, d. h. Änderungen, die sich
aus Schwankungen in der Betonung verschiedener Phoneme
bei den Sprechern ergeben. Dadurch ist sichergestellt,
daß die Änderungen in den ersten Differenzpegeln von
Zeitrahmen zu Zeitrahmen tatsächlich die sich ändernde
Phoneminformation in dem Sprachsignal darstellen an
statt die Änderungen im Pegel des einzutreffenden Sprach
signals. Da die Berechnung unter Hinzufügung einer Vor
spannung B durchgeführt wird, ist es darüber hinaus
möglich, die Empfindlichkeit der Schaltungsanordnung
auf ziemlich kleine Schallkomponenten (Störung etc.)
im eintreffenden Signal zu senken. Mit anderen Worten
ausgedrückt heißt dies, daß die Empfindlichkeit mit
Rücksicht darauf herabgesetzt wird, daß v′(n) sich an
0 annähert, da sich B an einen unendlichen Wert annä
hert, so daß die Zunahme der Vorspannung eine Herab
setzung der Schaltungsempfindlichkeit auf bzw. gegen
über Störung mit sich bringt.
Der Parameter v′(n) wird an eine Übergangs-Signalspei
cheranordnung (Speichereinrichtung)
25 abgegeben, in der die ersten Diffe
renzpegel für 2w+1 (beispielsweise 9) Zeitrahmen ge
speichert sind bzw. werden. Das gespeicherte Signal
wird einer Operationsschaltung 26 zugeführt, um dadurch
folgendes Signal zu bilden:
wobei GFN = {I; -w + t I w + t} ist.
Somit wird der niedrigste erste Differenzpegel für je
des Frequenzband (hier 20) über die Vielzahl (hier 9)
der Zeitrahmen bestimmt. Mit anderen Worten ausge
drückt heißt dies, daß minimal 20 erste Differenzpegel
vorliegen.
Die Abgabe dieses Signals und der übrigen ersten Diffe
renzpegel von der Übergangs-Speicheranordnung (Speichereinrichtung) 25 an
eine Summierschaltung (Summiereinrichtung) 27 führt zu folgender Beziehung:
Die Summierschaltung 27 liefert somit eine Summe einer
Vielzahl von zweiten Differenzpegeln. Jeder zweite Dif
ferenzpegel umfaßt die Differenz zwischen dem minimalen
ersten Differenzpegel in einem Frequenzband und jedem
der anderen ersten Differenzpegel in dem betreffenden
Frequenzband. Bei dem vorliegenden Beispiel sind 180
zweite Differenzpegel (20 Frequenzbänder über neun Zeit
rahmen) vorhanden, und 20 dieser zweiten Differenzpegel
werden 0 sein. In jedem Fall ist die Summe der zweiten
Differenzpegel der Übergangsparameter T(t). Die Größe
T(t) , der Übergangs-Detektorparameter, wird einer Spit
zenbewertungsschaltung (Spitzenbewertungseinrichtung)
28 zugeführt, welche die Lage der
Übergänge in dem Eingangs-Sprachsignal ermittelt. Jene
Lagen werden an einem Ausgangsanschluß 29 angezeigt und
dann an die Speichereinrichtung 14 gemäß Fig. 2 abge
geben.
Da der Parameter T(t) durch w Zeitrahmen definiert ist,
ist die Bildung von falschen oder mehrfachen Spitzen
minimiert. Die Fig. 7A bis 7C veranschaulichen das Spre
chen beispielsweise von "ZERO". Ein 12 Bits umfassendes
digitales Signal weist bei einer Abtastfrequenz von
12,5 kHz 256 Stellen bzw. Punkte auf, die durch eine
schnelle Fourier-Transformation in die Rahmenperiode
von 5,12 ms transformiert werden. Die Übergangsermitt
lung erfolgt dadurch, daß die Band-Zahl N=20 beträgt,
daß die Vorspannung B=0 ist und daß die Anzahl der Zeit
rahmen 2w + 1 = 9 ist. Fig. 7A veranschaulicht den Kur
venverlauf eines Sprachsignals; Fig. 7B zeigt die Pho
neme und Übergänge, und Fig. 7C zeigt den Verlauf des
Übergangssignals T(t), in welchem gut definierte Spit
zen an den entsprechenden Übergängen "Ruhe→Z", "Z→E",
"E→", "R→0" und "0→Ruhe" erzeugt werden. Obwohl
einige fremde Spitzen und Täler während der Ruhepausen
gebildet werden, und zwar aufgrund einer Hintergrundstö
rung, sind diese Spitzen bzw. Täler weitgehend auf 0 ver
mindert, und zwar durch Erhöhen der Vorspannung B, wie
dies in Fig. 7C durch gestrichelte Linien veranschau
licht ist.
Die Spitzenbewertungsschaltung 28 stellt die Übergänge
in dem Sprachsignal durch zeitliche Abtastung des Über
gangssignals T(t) fest. Dies wird am besten durch eine
Betrachtung des Kurvenverlaufs T(t) in Abhängigkeit
von der Zeit gemäß Fig. 7C verstanden. Die Spitzenbe
wertungsschaltung 28 identifiziert als Übergang ein
in der Mitte eines bestimmten Zeitintervalls auftre
tendes Maximum T(t). Das Signal T(t) wird kontinuier
lich überwacht, um Maxima zu ermitteln, die in der Mitte
des betreffenden Zeitintervalls auftreten. Wenn die
Dauer des Zeitintervalls richtig gewählt ist, werden
lediglich "tatsächliche" Übergänge ermittelt, und zwar
wie jene, die in Fig. 7C gezeigt sind. Kleinere Spitzen
zwischen den tatsächlichen Übergängen werden lediglich
sehr selten in der Mitte der Zeitintervalle für die je
weilige Probe von T(t) über das betreffende Intervall
auftreten. Da die Phonemerkennung letztlich davon ab
hängt, die weitestgehende Anpassung zwischen der Phonem
information an den Übergängen und der Bezugs-Phonemin
formation zu erzielen, wird überdies eine geringfügige
und selten vorkommende fehlerhafte Identifizierung der
Übergänge nicht die Rate beeinträchtigen, mit der die
in Fig. 2 dargestellte Anordnung Phoneme in einem Sprach
signal genau erkennt.
Auf diese Weise können die Übergänge in einem Sprachsignal
ermittelt werden. Unter Verwendung der
Schaltungsanordnung 20 gemäß der Erfindung können die Lagen
dere Übergänge unabhängig von Differenzen in der Be
tonung bezüglich bestimmter Phoneme oder bezüglich Pe
geländerungen in dem Sprachsignal ermittelt werden.
Darüber hinaus kann die Schaltungsanordnung auch
in einem solchen Fall angewandt werden, in welchem das
stationäre Segment zwischen den Segmenten ermittelt
wird, wobei die Zeitbasen der stationären Segmente
durch Heranziehen der ermittelten Übergänge angepaßt
werden. Es ist auch möglich, die Schaltungsanordnung zur Analyse
der Übergänge bei der Sprachklangsynthese heranzuziehen.
Claims (28)
1. Verfahren zum Erkennen bestimmter Phoneme in einem Sprach
signal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge
aufweist,
wobei ein für das Sprachsignal kennzeichnendes elektrisches Signal abgegeben wird,
wobei aus dem betreffenden elektrischen Signal ein erstes akustisches Parametersignal erzeugt wird, welches den Phonemen des Sprachsignals entspricht,
wobei ein Übergangssignal erzeugt wird, welches in dem Sprachsignal die Lage eines Übergangs anzeigt,
und wobei das erste akustische Parametersignal und das Übergangssignal für die Bestimmung der Phoneme herange zogen werden, dadurch gekennzeichnet,
daß das erste akustische Parametersignal gespeichert wird,
daß aus dem gespeicherten ersten akustischen Parameter signal unter Heranziehung des Übergangssignals ein zweites akustisches Parametersignal erzeugt wird, welches den Phonemen des Sprachsignals an dem betreffenden Übergang entspricht,
und daß das zweite akustische Parametersignal mit ge speicherten bekannten Phonemen verglichen und bei Über einstimmung als das korrespondierende bekannte Phonem erkannt wird.
wobei ein für das Sprachsignal kennzeichnendes elektrisches Signal abgegeben wird,
wobei aus dem betreffenden elektrischen Signal ein erstes akustisches Parametersignal erzeugt wird, welches den Phonemen des Sprachsignals entspricht,
wobei ein Übergangssignal erzeugt wird, welches in dem Sprachsignal die Lage eines Übergangs anzeigt,
und wobei das erste akustische Parametersignal und das Übergangssignal für die Bestimmung der Phoneme herange zogen werden, dadurch gekennzeichnet,
daß das erste akustische Parametersignal gespeichert wird,
daß aus dem gespeicherten ersten akustischen Parameter signal unter Heranziehung des Übergangssignals ein zweites akustisches Parametersignal erzeugt wird, welches den Phonemen des Sprachsignals an dem betreffenden Übergang entspricht,
und daß das zweite akustische Parametersignal mit ge speicherten bekannten Phonemen verglichen und bei Über einstimmung als das korrespondierende bekannte Phonem erkannt wird.
2. Verfahren nach Anspruch 1, dadurch gekenn
zeichnet,
daß die Erzeugung des ersten akustischen Parametersignals dadurch erfolgt, daß aus einem analogen elektrischen Signal ein für das Sprachsignal kennzeichnendes digitales elektrisches Signal erzeugt wird,
daß eine Vielzahl der digitalen Signale in einer Register einrichtung (6) gespeichert wird
und daß aus den gespeicherten digitalen Signalen das erste akustische Parametersignal durch Fourier-Transformation erzeugt wird.
daß die Erzeugung des ersten akustischen Parametersignals dadurch erfolgt, daß aus einem analogen elektrischen Signal ein für das Sprachsignal kennzeichnendes digitales elektrisches Signal erzeugt wird,
daß eine Vielzahl der digitalen Signale in einer Register einrichtung (6) gespeichert wird
und daß aus den gespeicherten digitalen Signalen das erste akustische Parametersignal durch Fourier-Transformation erzeugt wird.
3. Verfahren nach Anspruch 1, dadurch gekenn
zeichnet,
daß eine Vielzahl von Zeitrahmen des ersten akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen kennzeichnet,
daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel bei jedem Zeitrahmen berechnet wird,
daß für sämtliche Zeitrahmen eine Vielzahl von ersten Dif ferenzpegeln zwischen dem mittleren Leistungspegel bei dem jeweiligen Zeitrahmen und der Vielzahl von Leistungspegeln im selben Zeitrahmen berechnet wird,
daß für sämtliche Frequenzbänder eine Vielzahl von zweiten Differenzpegeln berechnet wird zwischen a) dem niedrigsten ersten Differenzpegel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) jedem ersten Differenzpegel im selben Frequenzband über die Vielzahl der Zeitrahmen,
und daß die Summe sämtlicher zweiter Differenzpegel berech net wird, wobei die betreffende Summe das Übergangssignal umfaßt, welches derart bewertet werden kann, daß die Über gänge in dem Sprachsignal ermittelt werden.
daß eine Vielzahl von Zeitrahmen des ersten akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen kennzeichnet,
daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel bei jedem Zeitrahmen berechnet wird,
daß für sämtliche Zeitrahmen eine Vielzahl von ersten Dif ferenzpegeln zwischen dem mittleren Leistungspegel bei dem jeweiligen Zeitrahmen und der Vielzahl von Leistungspegeln im selben Zeitrahmen berechnet wird,
daß für sämtliche Frequenzbänder eine Vielzahl von zweiten Differenzpegeln berechnet wird zwischen a) dem niedrigsten ersten Differenzpegel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) jedem ersten Differenzpegel im selben Frequenzband über die Vielzahl der Zeitrahmen,
und daß die Summe sämtlicher zweiter Differenzpegel berech net wird, wobei die betreffende Summe das Übergangssignal umfaßt, welches derart bewertet werden kann, daß die Über gänge in dem Sprachsignal ermittelt werden.
4. Verfahren nach Anspruch 3, dadurch ge
kennzeichnet, daß eine Bewertung des Übergangs
signals erfolgt, durch die Spitzen in dem betreffenden
Signal ermittelt werden, indem eine zeitliche Abtastung
des Übergangssignals unter Heranziehung eines bestimmten
Zeitintervalls und eine Identifizierung jedes Maximums
des Übergangssignals als Spitzenpegel erfolgt, der in der
Mitte des Zeitintervalls auftritt, derart, daß die Über
gänge in dem Sprachsignal ermittelt werden.
5. Verfahren nach Anspruch 4, dadurch gekenn
zeichnet, daß der jeweilige erste Differenzpegel
durch die Differenz zwischen dem Logarithmus des betreffen
den mittleren Leistungspegels und dem Logarithmus des vor
liegenden Leistungspegels gebildet wird, wobei der Einfluß
von Schwankungen auf die ersten Differenzpegel in der Be
tonung von Phonem zu Phonem eines bestimmten Sprechers
minimiert ist.
6. Verfahren nach Anspruch 5, dadurch gekenn
zeichnet, daß eine Vorspannung für jeden mittleren
Leistungspegel und für jeden Leistungspegel vor der Berech
nung der betreffenden Logarithmen abgegeben wird, derart,
daß der Einfluß einer gesonderten Störung während der Pausen
im Sprechsignal auf die betreffenden ersten Differenzpegel
hin minimiert ist.
7. Verfahren nach Anspruch 6, dadurch gekenn
zeichnet, daß die Leistungspegel des ersten akusti
schen Parametersignals derart selektiv gewichtet werden,
daß eine genaue Darstellung der Phoneme im Sprachsignal
erhalten wird.
8. Verfahren nach Anspruch 1, dadurch gekenn
zeichnet,
daß das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufgetrennt wird,
daß das erste akustische Parametersignal in ein drittes akustisches Parametersignal umgesetzt wird, welches weniger Frequenzbandsignale umfaßt und welches die Phoneminformation in dem ersten akustischen Parametersignal enthält,
und daß das dritte akustische Parametersignal für die Ver wendung zur Erzeugung des zweiten akustischen Parameter signals aus dem umgesetzten ersten akustischen Parameter signal gespeichert wird.
daß das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufgetrennt wird,
daß das erste akustische Parametersignal in ein drittes akustisches Parametersignal umgesetzt wird, welches weniger Frequenzbandsignale umfaßt und welches die Phoneminformation in dem ersten akustischen Parametersignal enthält,
und daß das dritte akustische Parametersignal für die Ver wendung zur Erzeugung des zweiten akustischen Parameter signals aus dem umgesetzten ersten akustischen Parameter signal gespeichert wird.
9. Verfahren nach Anspruch 8, dadurch gekenn
zeichnet, daß der Leistungspegel des ersten akusti
schen Parametersignals zur genauen Darstellung der Phonem
information in dem betreffenden Sprachsignal gewichtet
wird.
10. Schaltungsanordnung zur Durchführung des Verfahren
nach einem der Ansprüche 1 bis 9, dadurch ge
kennzeichnet,
daß eine Einrichtung (A) vorgesehen ist, die ein für das Sprachsignal kennzeichnendes elektrisches Signal abgibt,
daß eine Einrichtung (B) vorgesehen ist, die aus dem be treffenden elektrischen Signal ein erstes akustisches Parameter signal erzeugt, welches den Phonemen des Sprachsignals entspricht,
daß eine erste Signalerzeugungseinrichtung (C; 20) vorge sehen ist, die aus der die Phoneme betreffenden Information in dem ersten akustischen Parametersignal ein Übergangs signal erzeugt, welches kennzeichnend ist für die Lage eines Übergangs in dem Sprachsignal,
daß eine Speichereinrichtung (14) vorgesehen ist, die das erste akustische Parametersignal speichert,
und daß eine zweite Signalerzeugungseinrichtung (D) vor gesehen ist, die aus dem gespeicherten ersten akustischen Parametersignal unter Ausnutzung des Übergangssignals ein zweites Parametersignal unter Ausnutzung des Übergangssignals ein zweites Parametersignal erzeugt, welches den Phonemen des Sprachsignals an dem Übergang entspricht, wobei das zweite akustische Parametersignal mit einer bekannten Phonem information zur Erkennung der Phoneminformation in dem betreffenden Sprachsignal vergleichbar ist.
daß eine Einrichtung (A) vorgesehen ist, die ein für das Sprachsignal kennzeichnendes elektrisches Signal abgibt,
daß eine Einrichtung (B) vorgesehen ist, die aus dem be treffenden elektrischen Signal ein erstes akustisches Parameter signal erzeugt, welches den Phonemen des Sprachsignals entspricht,
daß eine erste Signalerzeugungseinrichtung (C; 20) vorge sehen ist, die aus der die Phoneme betreffenden Information in dem ersten akustischen Parametersignal ein Übergangs signal erzeugt, welches kennzeichnend ist für die Lage eines Übergangs in dem Sprachsignal,
daß eine Speichereinrichtung (14) vorgesehen ist, die das erste akustische Parametersignal speichert,
und daß eine zweite Signalerzeugungseinrichtung (D) vor gesehen ist, die aus dem gespeicherten ersten akustischen Parametersignal unter Ausnutzung des Übergangssignals ein zweites Parametersignal unter Ausnutzung des Übergangssignals ein zweites Parametersignal erzeugt, welches den Phonemen des Sprachsignals an dem Übergang entspricht, wobei das zweite akustische Parametersignal mit einer bekannten Phonem information zur Erkennung der Phoneminformation in dem betreffenden Sprachsignal vergleichbar ist.
11. Schaltungsanordnung nach Anspruch 10, dadurch
gekennzeichnet,
daß die das erste Para metersignal erzeugende Einrichtung (B) eine Umsetzein richtung (4) aufweist, welche ein analoges elektrisches Signal des Sprachsignals in ein digitales elektrisches Signal umsetzt,
daß eine Registereinrichtung (6) vorgesehen ist, die der Reihe nach eine Vielzahl der digitalen Signale speichert,
und daß eine Einrichtung (8, 9) vorgesehen ist, die aus den gespeicherten digitalen Signalen durch Fourier-Transformation das erste akustische Parametersignal erzeugt.
daß die das erste Para metersignal erzeugende Einrichtung (B) eine Umsetzein richtung (4) aufweist, welche ein analoges elektrisches Signal des Sprachsignals in ein digitales elektrisches Signal umsetzt,
daß eine Registereinrichtung (6) vorgesehen ist, die der Reihe nach eine Vielzahl der digitalen Signale speichert,
und daß eine Einrichtung (8, 9) vorgesehen ist, die aus den gespeicherten digitalen Signalen durch Fourier-Transformation das erste akustische Parametersignal erzeugt.
12. Schaltungsanordnung nach Anspruch 10, dadurch
gekennzeichnet,
daß die erstgenannte Signal erzeugungseinrichtung (C; 20) eine Signaltrenneinrich tung (21) umfaßt, welche das erste akustische Parameter signal in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß eine Mittelungseinrichtung (23) vorgesehen ist, die aus der Vielzahl der Frequenzbandsignale einen mittleren Leistungspegel in dem jeweiligen Zeitrahmen berechnet,
daß eine Differenzschaltung (24) vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Leistungspegel in dem jeweiligen Zeitrahmen und der Viel zahl der Leistungspegel im selben Zeitrahmen berechnet,
daß eine Speichereinrichtung (25) vorgesehen ist, welche eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,
daß eine Operationsschaltung (26) vorgesehen ist, die aus den gespeicherten ersten Differenzpegeln eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei jedes Frequenzband einen minimalen ersten Differenz pegel für die betreffende Vielzahl von Zeitrahmen umfaßt,
und daß eine Summiereinrichtung (27) vorgesehen ist, welche die Summe einer Vielzahl von zweiten Differenzpegeln be rechnet, deren jeder die Differenz zwischen a) dem mini malen ersten Differenzpegel in dem jeweiligen Frequenz band und b) dem jeweiligen ersten Differenzpegel im selben Frequenzband für die betreffende Vielzahl von Zeitrahmen umfaßt, wobei die Summe das Übergangssignal umfaßt, welches derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.
daß die erstgenannte Signal erzeugungseinrichtung (C; 20) eine Signaltrenneinrich tung (21) umfaßt, welche das erste akustische Parameter signal in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß eine Mittelungseinrichtung (23) vorgesehen ist, die aus der Vielzahl der Frequenzbandsignale einen mittleren Leistungspegel in dem jeweiligen Zeitrahmen berechnet,
daß eine Differenzschaltung (24) vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Leistungspegel in dem jeweiligen Zeitrahmen und der Viel zahl der Leistungspegel im selben Zeitrahmen berechnet,
daß eine Speichereinrichtung (25) vorgesehen ist, welche eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,
daß eine Operationsschaltung (26) vorgesehen ist, die aus den gespeicherten ersten Differenzpegeln eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei jedes Frequenzband einen minimalen ersten Differenz pegel für die betreffende Vielzahl von Zeitrahmen umfaßt,
und daß eine Summiereinrichtung (27) vorgesehen ist, welche die Summe einer Vielzahl von zweiten Differenzpegeln be rechnet, deren jeder die Differenz zwischen a) dem mini malen ersten Differenzpegel in dem jeweiligen Frequenz band und b) dem jeweiligen ersten Differenzpegel im selben Frequenzband für die betreffende Vielzahl von Zeitrahmen umfaßt, wobei die Summe das Übergangssignal umfaßt, welches derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.
13. Schaltungsanordnung nach Anspruch 12, dadurch
gekennzeichnet, daß die erstgenannte Signal
erzeugungseinrichtung (C; 20) ferner eine Spitzenbewertungs
einrichtung (28) aufweist, mit deren Hilfe das Übergangs
signal bewertet wird, um darin auftretende Spitzen zu er
mitteln, indem eine Zeit-Abtastung des Übergangssignals
unter Heranziehung eines bestimmten Zeitintervalls und eine
Kennzeichnung als Spitzenpegel erfolgt, wobei jedes Maximum
des betreffenden Übergangssignals in der Mitte des betref
fenden Zeitintervalls derart auftritt, daß Übergänge in
dem Sprachsignal lokalisiert sind.
14. Schaltungsanordnung nach Anspruch 13, dadurch
gekennzeichnet, daß eine Schaltungseinrich
tung (22) vorgesehen ist, welche die Logarithmen der
mittleren Leistungspegel und der vorliegenden Leistungs
pegel berechnet, wobei die ersten Differenzpegel die
Differenzen zwischen den entsprechenden Logarithmen kenn
zeichnen und wobei der Einfluß von Änderungen in der
Betonung von Phonem zu Phonem eines bestimmten Sprechers
auf die betreffenden ersten Differenzpegel hin minimiert
ist.
15. Schaltungsanordnung nach Anspruch 14, dadurch
gekennzeichnet, daß die die Logarithmen
berechnende Schaltungseinrichtung (22) eine Vorspannungs
einrichtung umfaßt, welche eine Vorspannung für den je
weiligen mittleren Leistungspegel und für den jeweiligen
Leistungspegel vor der Berechnung der Logarithmen dieser
Leistungspegel abgibt, wobei der Einfluß von Fremdstörung
während der Ruhepausen des Sprachsignals auf die betreffenden
ersten Differenzpegel hin minimiert ist.
16. Schaltungsanordnung zum Erkennen be
stimmter Phoneme in einem Sprachsignal nach Anspruch 15,
dadurch gekennzeichnet, daß die
zweite Signalerzeugungseinrichtung (D) ferner eine Ge
wichtungseinrichtung (10) umfaßt, mit deren Hilfe der
Leistungspegel des ersten akustischen Parametersignals
derart gewichtet wird, daß er genau den Phonemen in dem
Sprechsignal entspricht.
17. Schaltungsanordnung zum Erkennen be
stimmter Phoneme in einem Sprachsignal, nach Anspruch 10,
dadurch gekennzeichnet,
daß der Speichereinrichtung (14) eine Signaltrenneinrichtung (11) zugeordnet ist, welche das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufteilt,
daß eine Umsetzeinrichtung (21) vorgesehen ist, welche das erste akustische Parametersignal in ein drittes aku stisches Parametersignal umsetzt, das weniger Frequenz bandsignale umfaßt und das den Phonemen in dem ersten akustischen Parametersignal entspricht,
und daß eine Speichereinrichtung (14) vorgesehen ist, die das dritte akustische Parametersignal für die Erzeugung des zweiten akustischen Parametersignals aus dem umge setzten ersten akustischen Parametersignal heranzieht.
daß der Speichereinrichtung (14) eine Signaltrenneinrichtung (11) zugeordnet ist, welche das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufteilt,
daß eine Umsetzeinrichtung (21) vorgesehen ist, welche das erste akustische Parametersignal in ein drittes aku stisches Parametersignal umsetzt, das weniger Frequenz bandsignale umfaßt und das den Phonemen in dem ersten akustischen Parametersignal entspricht,
und daß eine Speichereinrichtung (14) vorgesehen ist, die das dritte akustische Parametersignal für die Erzeugung des zweiten akustischen Parametersignals aus dem umge setzten ersten akustischen Parametersignal heranzieht.
18. Schaltungsanordnung nach Anspruch 11, dadurch
gekennzeichnet, daß die Gewichtungseinrich
tung (10) den Leistungspegel des ersten akustischen Parameter
signals derart wichtet, daß eine genaue Darstellung
der Phoneme in dem Sprachsignal erfolgt.
19. Verfahren zum Erzeugeen eines Übergangssignals zur
Anzeige der Lage eines Übergangs in einem Sprachsignal,
welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist,
insbesondere in einer Schaltungsanordnung nach einem der
Ansprüche 10 bis 18, dadurch gekenn
zeichnet,
daß ein akustisches Parametersignal abgegeben wird, welches den Phonemen des Sprachsignals entspricht,
daß eine Vielzahl von Zeitrahmen des akustischen Parameter signals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes kennzeichnend ist für einen Leistungspegel des betreffenden akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel im jeweiligen Zeitrahmen berechnet wird,
daß für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Lei stungspegel im jeweiligen Zeitrahmen und der Vielzahl der Leistungspegel im selben Zeitrahmen berechnet wird,
daß für sämtliche Frequenzbänder eine Vielzahl von zwei ten Differenzpegeln berechnet wird zwischen a) dem niedrig sten ersten Differenzpegel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) dem jeweiligen ersten Differenzpegel im selben Frequenzband für die betreffende Vielzahl von Zeitrahmen,
und daß die Summe sämtlicher zweiter Differenzpegel be rechnet wird, wobei diese Summe das Übergangssignal um faßt, welches dadurch bewertet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.
daß ein akustisches Parametersignal abgegeben wird, welches den Phonemen des Sprachsignals entspricht,
daß eine Vielzahl von Zeitrahmen des akustischen Parameter signals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes kennzeichnend ist für einen Leistungspegel des betreffenden akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel im jeweiligen Zeitrahmen berechnet wird,
daß für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Lei stungspegel im jeweiligen Zeitrahmen und der Vielzahl der Leistungspegel im selben Zeitrahmen berechnet wird,
daß für sämtliche Frequenzbänder eine Vielzahl von zwei ten Differenzpegeln berechnet wird zwischen a) dem niedrig sten ersten Differenzpegel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) dem jeweiligen ersten Differenzpegel im selben Frequenzband für die betreffende Vielzahl von Zeitrahmen,
und daß die Summe sämtlicher zweiter Differenzpegel be rechnet wird, wobei diese Summe das Übergangssignal um faßt, welches dadurch bewertet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.
20. Verfahren nach Anspruch 19, dadurch ge
kennzeichnet, daß die Bewertung des Über
gangssignals zur Ermittlung von Spitzen in dem betreffen
den Signal dadurch erfolgt, daß eine zeitliche Abtastung
des Übergangssignals unter Heranziehung eines bestimmten
Zeitintervalls erfolgt und da als Spitzenpegel jedes
Maximum des Übergangssignals identifiziert wird, welches
in der Mitte des betreffenden Zeitintervalls auftritt,
derart, daß die Übergänge in dem betreffenden Sprachsignal
lokalisiert werden.
21. Verfahren nach Anspruch 20, dadurch ge
kennzeichnet, daß als jeweiliger erster
Differenzpegel die Differenz zwischen dem Logarithmus des
betreffenden mittleren Leistungspegels und dem Logarithmus
des vorliegenden Leistungspegels verwendet wird, wobei
der Einfluß von Änderungen bzw. Schwankungen in der Be
tonung von Phonem zu Phonem eines bestimmten Sprechers
auf die ersten Differenzpegel hin minimiert ist.
22. Verfahren nach Anspruch 21, dadurch ge
kennzeichnet, daß jedem mittleren Leistungs
pegel und jedem vorliegenden Leistungspegel vor der Be
rechnung des zugehörigen Logarithmus eine Vorspannung
zugeführt wird, derart, daß der Einfluß von Fremstörung
während der Ruhepausen im Sprachsignal auf die ersten
Differenzpegel hin minimiert ist.
23. Verfahren nach Anspruch 22, dadurch ge
kennzeichnet, daß die Leistungspegel des
akustischen Parametersignals derart selektiv gewichtet
werden, daß eine genaue Darstellung der Phoneme in dem
Sprachsignal erfolgt.
24. Schaltungsanordnung zur Durchführung des Verfahrens
nach einem der Ansprüche 19 bis 23, dadurch ge
kennzeichnet,
daß eine Trenneinrichtung (21) vorgesehen ist, die eine Vielzahl von Zeitrahmen eines den Phonemen des Sprachsignals entsprechenden akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des akustischen Parameter signals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß eine Mittelungseinrichtung (23) vorgesehen ist, die aus der betreffenden Vielzahl von Frequenzbandsignalen einen mittleren Leistungspegel im jeweiligen Zeitrahmen berechnet,
daß eine Differenzschaltung (24) vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem mittleren Leistungs pegel im jeweiligen Zeitrahmen und der Vielzahl von vor liegenden Leistungspegeln im selben Zeitrahmen berechnet,
daß eine Speichereinrichtung (25) vorgesehen ist, welche eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,
daß eine Operationsschaltung (26) vorgesehen ist, welche aus den gespeicherten ersten Differenzpegeln eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei das betreffende Frequenzband einen minimalen ersten Differenzpegel für die Vielzahl der Zeitrahmen aufweist,
daß eine Summiereinrichtung (27) vorgesehen ist, welche die Summe einer Vielzahl der zweiten Differenzpegel be rechnet, die jeweils die Differenz zwischen a) dem minimalen ersten Differenzpegel in dem jeweiligen Differenzband und b) dem jeweiligen ersten Differenzpegel in demselben Differenzband für die betreffende Vielzahl von Zeitrahmen umfassen,
und daß die Summe das Übergangssignal umfaßt, welches derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt sind.
daß eine Trenneinrichtung (21) vorgesehen ist, die eine Vielzahl von Zeitrahmen eines den Phonemen des Sprachsignals entsprechenden akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des akustischen Parameter signals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,
daß eine Mittelungseinrichtung (23) vorgesehen ist, die aus der betreffenden Vielzahl von Frequenzbandsignalen einen mittleren Leistungspegel im jeweiligen Zeitrahmen berechnet,
daß eine Differenzschaltung (24) vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem mittleren Leistungs pegel im jeweiligen Zeitrahmen und der Vielzahl von vor liegenden Leistungspegeln im selben Zeitrahmen berechnet,
daß eine Speichereinrichtung (25) vorgesehen ist, welche eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,
daß eine Operationsschaltung (26) vorgesehen ist, welche aus den gespeicherten ersten Differenzpegeln eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei das betreffende Frequenzband einen minimalen ersten Differenzpegel für die Vielzahl der Zeitrahmen aufweist,
daß eine Summiereinrichtung (27) vorgesehen ist, welche die Summe einer Vielzahl der zweiten Differenzpegel be rechnet, die jeweils die Differenz zwischen a) dem minimalen ersten Differenzpegel in dem jeweiligen Differenzband und b) dem jeweiligen ersten Differenzpegel in demselben Differenzband für die betreffende Vielzahl von Zeitrahmen umfassen,
und daß die Summe das Übergangssignal umfaßt, welches derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt sind.
25. Schaltungsanordnung nach Anspruch 24, dadurch
gekennzeichnet,
daß ferner eine Spitzenbe wertungseinrichtung (28) vorgesehen ist, die das Übergangs signal derart bewertet, daß darin enthaltene Spitzen er mittelt werden, indem eine zeitliche Abtastung des Über gangssignals unter Heranziehung eines bestimmten Zeitinter valls erfolgt,
und daß als Spitzenpegel jedes Maximum des Übergangssignals in der Mitte des Zeitintervalls identifiziert wird, derart, daß die Übergänge in dem Sprachsignal lokalisiert sind.
daß ferner eine Spitzenbe wertungseinrichtung (28) vorgesehen ist, die das Übergangs signal derart bewertet, daß darin enthaltene Spitzen er mittelt werden, indem eine zeitliche Abtastung des Über gangssignals unter Heranziehung eines bestimmten Zeitinter valls erfolgt,
und daß als Spitzenpegel jedes Maximum des Übergangssignals in der Mitte des Zeitintervalls identifiziert wird, derart, daß die Übergänge in dem Sprachsignal lokalisiert sind.
26. Schaltungsanordnung nach Anspruch 25, dadurch
gekennzeichnet, daß eine Logarithmus-Schal
tungseinrichtung (22) vorgesehen ist, welche die Logarith
men der entsprechenden mittleren Leistungspegel und der vor
handenen Leistungspegel berechnet, wobei die ersten Dif
ferenzpegel Differenzen zwischen den entsprechenden Loga
rithmen kennzeichnen und wobei der Einfluß von Änderungen
in der Betonung von Phonem zu Phonem eines bestimmten
Sprechers auf die ersten Differenzpegel hin minimiert ist.
27. Schaltungsanordnung nach Anspruch 26, dadurch
gekennzeichnet, daß die Logarithmus-Schal
tungseinrichtung (22) eine Vorspannungseinrichtung umfaßt,
welche eine Vorspannung zu dem jeweiligen mittleren
Leistungspegel und zu dem jeweiligen Leistungspegel vor
der Berechnung der zugehörigen Logarithmen abgibt, wobei
der Einfluß einer Fremdstörung während der Ruhepausen in
dem Sprachsignal auf die ersten Differenzpegel hin mini
miert ist.
28. Schaltungsanordnung nach Anspruch 27, dadurch
gekennzeichnet, daß eine Gewichtungsein
richtung (10) vorgesehen ist, welche den Leistungspegel
des akustischen Parametersignals derart wichtet, daß die
Phoneme in dem Sprachsignal genau dargestellt sind.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57029471A JPS58145998A (ja) | 1982-02-25 | 1982-02-25 | 音声過渡点検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3306730A1 DE3306730A1 (de) | 1983-09-01 |
DE3306730C2 true DE3306730C2 (de) | 1991-10-17 |
Family
ID=12277008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19833306730 Granted DE3306730A1 (de) | 1982-02-25 | 1983-02-25 | Verfahren und schaltungsanordnung zum erkennen bestimmter phoneme in einem sprachsignal sowie zum erzeugen von signalen zur anzeige von uebergaengen in einem sprachsignal |
Country Status (8)
Country | Link |
---|---|
US (1) | US4592085A (de) |
JP (1) | JPS58145998A (de) |
KR (1) | KR910002198B1 (de) |
CA (1) | CA1193732A (de) |
DE (1) | DE3306730A1 (de) |
FR (1) | FR2522179B1 (de) |
GB (2) | GB2118343B (de) |
NL (1) | NL192701C (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4111781A1 (de) * | 1991-04-11 | 1992-10-22 | Ibm | Computersystem zur spracherkennung |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4972490A (en) * | 1981-04-03 | 1990-11-20 | At&T Bell Laboratories | Distance measurement control of a multiple detector system |
JPS5997200A (ja) * | 1982-11-26 | 1984-06-04 | 株式会社日立製作所 | 音声認識方式 |
JPS59166999A (ja) * | 1983-03-11 | 1984-09-20 | ソニー株式会社 | 音声過渡点検出方法 |
JPS59170897A (ja) * | 1983-03-17 | 1984-09-27 | ソニー株式会社 | 音声過渡点検出方法 |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
FR2554623B1 (fr) * | 1983-11-08 | 1986-08-14 | Texas Instruments France | Procede d'analyse de la parole independant du locuteur |
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
US5241649A (en) * | 1985-02-18 | 1993-08-31 | Matsushita Electric Industrial Co., Ltd. | Voice recognition method |
DE3514286A1 (de) * | 1985-04-19 | 1986-10-23 | Siemens AG, 1000 Berlin und 8000 München | System zur erkennung einzeln gesprochener woerter |
CA1250368A (en) * | 1985-05-28 | 1989-02-21 | Tetsu Taguchi | Formant extractor |
JPS62220998A (ja) * | 1986-03-22 | 1987-09-29 | 工業技術院長 | 音声認識装置 |
JPS63158596A (ja) * | 1986-12-23 | 1988-07-01 | 株式会社東芝 | 音韻類似度計算装置 |
US5007093A (en) * | 1987-04-03 | 1991-04-09 | At&T Bell Laboratories | Adaptive threshold voiced detector |
US4860360A (en) * | 1987-04-06 | 1989-08-22 | Gte Laboratories Incorporated | Method of evaluating speech |
US5027408A (en) * | 1987-04-09 | 1991-06-25 | Kroeker John P | Speech-recognition circuitry employing phoneme estimation |
US5136653A (en) * | 1988-01-11 | 1992-08-04 | Ezel, Inc. | Acoustic recognition system using accumulate power series |
US5168524A (en) * | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
JPH03120598A (ja) * | 1989-10-03 | 1991-05-22 | Canon Inc | 音声認識方法及び装置 |
EP0438662A2 (de) * | 1990-01-23 | 1991-07-31 | International Business Machines Corporation | Einrichtung und Verfahren zur Gruppierung von Äusserungen eines Phonemen in von Kontexten abhängigen Kategorien, die auf Tonähnlichkeit basiert sind für automatische Spracherkennung |
JP3716870B2 (ja) * | 1995-05-31 | 2005-11-16 | ソニー株式会社 | 音声認識装置および音声認識方法 |
US5724410A (en) * | 1995-12-18 | 1998-03-03 | Sony Corporation | Two-way voice messaging terminal having a speech to text converter |
KR0173923B1 (ko) * | 1995-12-22 | 1999-04-01 | 양승택 | 다층구조 신경망을 이용한 음소 분할 방법 |
KR100318619B1 (ko) | 1996-08-29 | 2002-02-19 | 아끼구사 나오유끼 | 설비고장진단방법과그장치및고장진단기능을가진반도체제조장치 |
US6006186A (en) * | 1997-10-16 | 1999-12-21 | Sony Corporation | Method and apparatus for a parameter sharing speech recognition system |
US6230122B1 (en) | 1998-09-09 | 2001-05-08 | Sony Corporation | Speech detection with noise suppression based on principal components analysis |
US6173258B1 (en) * | 1998-09-09 | 2001-01-09 | Sony Corporation | Method for reducing noise distortions in a speech recognition system |
US6768979B1 (en) | 1998-10-22 | 2004-07-27 | Sony Corporation | Apparatus and method for noise attenuation in a speech recognition system |
US6442524B1 (en) | 1999-01-29 | 2002-08-27 | Sony Corporation | Analyzing inflectional morphology in a spoken language translation system |
US6223150B1 (en) | 1999-01-29 | 2001-04-24 | Sony Corporation | Method and apparatus for parsing in a spoken language translation system |
US6282507B1 (en) | 1999-01-29 | 2001-08-28 | Sony Corporation | Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection |
US6356865B1 (en) | 1999-01-29 | 2002-03-12 | Sony Corporation | Method and apparatus for performing spoken language translation |
US6243669B1 (en) | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US6278968B1 (en) | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US6266642B1 (en) | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
US6374224B1 (en) | 1999-03-10 | 2002-04-16 | Sony Corporation | Method and apparatus for style control in natural language generation |
US7139708B1 (en) | 1999-03-24 | 2006-11-21 | Sony Corporation | System and method for speech recognition using an enhanced phone set |
US20010029363A1 (en) * | 1999-05-03 | 2001-10-11 | Lin J. T. | Methods and apparatus for presbyopia correction using ultraviolet and infrared lasers |
KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
US8332212B2 (en) * | 2008-06-18 | 2012-12-11 | Cogi, Inc. | Method and system for efficient pacing of speech for transcription |
US8903847B2 (en) * | 2010-03-05 | 2014-12-02 | International Business Machines Corporation | Digital media voice tags in social networks |
US20120244842A1 (en) | 2011-03-21 | 2012-09-27 | International Business Machines Corporation | Data Session Synchronization With Phone Numbers |
US8688090B2 (en) | 2011-03-21 | 2014-04-01 | International Business Machines Corporation | Data session preferences |
US20120246238A1 (en) | 2011-03-21 | 2012-09-27 | International Business Machines Corporation | Asynchronous messaging tags |
JP2013164572A (ja) * | 2012-01-10 | 2013-08-22 | Toshiba Corp | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
JP6461660B2 (ja) * | 2015-03-19 | 2019-01-30 | 株式会社東芝 | 検出装置、検出方法およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3344233A (en) * | 1967-09-26 | Method and apparatus for segmenting speech into phonemes | ||
GB981153A (en) * | 1961-03-20 | 1965-01-20 | Nippon Telegraph & Telephone | Improved phonetic typewriter system |
US3582559A (en) * | 1969-04-21 | 1971-06-01 | Scope Inc | Method and apparatus for interpretation of time-varying signals |
JPS5850360B2 (ja) * | 1978-05-12 | 1983-11-10 | 株式会社日立製作所 | 音声認識装置における前処理方法 |
US4412098A (en) * | 1979-09-10 | 1983-10-25 | Interstate Electronics Corporation | Audio signal recognition computer |
US4454586A (en) * | 1981-11-19 | 1984-06-12 | At&T Bell Laboratories | Method and apparatus for generating speech pattern templates |
-
1982
- 1982-02-25 JP JP57029471A patent/JPS58145998A/ja active Granted
-
1983
- 1983-02-22 CA CA000422146A patent/CA1193732A/en not_active Expired
- 1983-02-23 US US06/469,114 patent/US4592085A/en not_active Expired - Lifetime
- 1983-02-24 KR KR1019830000745A patent/KR910002198B1/ko not_active IP Right Cessation
- 1983-02-25 DE DE19833306730 patent/DE3306730A1/de active Granted
- 1983-02-25 GB GB08305292A patent/GB2118343B/en not_active Expired
- 1983-02-25 FR FR8303208A patent/FR2522179B1/fr not_active Expired
- 1983-02-25 NL NL8300718A patent/NL192701C/nl not_active IP Right Cessation
-
1984
- 1984-11-22 GB GB08429480A patent/GB2153127B/en not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4111781A1 (de) * | 1991-04-11 | 1992-10-22 | Ibm | Computersystem zur spracherkennung |
Also Published As
Publication number | Publication date |
---|---|
US4592085A (en) | 1986-05-27 |
NL192701B (nl) | 1997-08-01 |
KR910002198B1 (ko) | 1991-04-06 |
GB8429480D0 (en) | 1985-01-03 |
FR2522179B1 (fr) | 1986-05-02 |
JPS58145998A (ja) | 1983-08-31 |
JPH0441356B2 (de) | 1992-07-08 |
NL8300718A (nl) | 1983-09-16 |
GB2118343A (en) | 1983-10-26 |
DE3306730A1 (de) | 1983-09-01 |
NL192701C (nl) | 1997-12-02 |
KR840003871A (ko) | 1984-10-04 |
GB2153127A (en) | 1985-08-14 |
CA1193732A (en) | 1985-09-17 |
GB8305292D0 (en) | 1983-03-30 |
FR2522179A1 (fr) | 1983-08-26 |
GB2118343B (en) | 1986-01-02 |
GB2153127B (en) | 1986-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3306730C2 (de) | ||
DE69122017T2 (de) | Verfahren und vorrichtung zur signalerkennung | |
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
EP1371055B1 (de) | Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion | |
DE69121312T2 (de) | Geräuschsignalvorhersagevorrichtung | |
DE3687677T2 (de) | Geraeuschkompensation in einer spracherkennungseinrichtung. | |
DE3878423T2 (de) | System und verfahren zur klassifizierung von rundfunkinformationen. | |
DE3687815T2 (de) | Verfahren und vorrichtung zur sprachanalyse. | |
DE2659096C2 (de) | ||
DE69031189T2 (de) | Sprachverifizierungseinrichtung zur Prüfung der Identität des Benutzers einer Telefonkreditkarte | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
EP1606798B1 (de) | Vorrichtung und verfahren zum analysieren eines audio-informationssignals | |
DE3339288C2 (de) | ||
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE2753707A1 (de) | Einrichtung zur erkennung des auftretens eines kommandowortes aus einer eingangssprache | |
DE2422028A1 (de) | Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort | |
DE4031638C2 (de) | ||
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69105154T2 (de) | Sprachsignalverarbeitungsvorrichtung. | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
EP1388145A1 (de) | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen | |
DE69020736T2 (de) | Wellenanalyse. | |
DE3733391A1 (de) | Verfahren zur spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition |