DE2949582A1 - Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache - Google Patents
Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher spracheInfo
- Publication number
- DE2949582A1 DE2949582A1 DE19792949582 DE2949582A DE2949582A1 DE 2949582 A1 DE2949582 A1 DE 2949582A1 DE 19792949582 DE19792949582 DE 19792949582 DE 2949582 A DE2949582 A DE 2949582A DE 2949582 A1 DE2949582 A1 DE 2949582A1
- Authority
- DE
- Germany
- Prior art keywords
- pitch
- mask
- value
- significant
- positions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 38
- 230000014509 gene expression Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000011295 pitch Substances 0.000 claims 22
- 229910003460 diamond Inorganic materials 0.000 description 56
- 239000010432 diamond Substances 0.000 description 56
- 230000006870 function Effects 0.000 description 14
- 230000015654 memory Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical group 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrophonic Musical Instruments (AREA)
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
Description
I979-IO-23 -t- Vf PHN 9313
"Verfahren und Anordnung zur Bestimmung der Tonhöhe in menschlicher Sprache".
Die Erfindung bezieht sich auf ein Sprachanalysesystem, in dem das Amplitudenspektrum eines Sprachsignals
analysiert wird, indem regelmässig Zeitsegmente des Sprachsignals selektiert und von jedem Sprachsegment eine Reihe
von Spektrumkomponenten bestimmt werden, die die diskrete Fourier-Transformation von Abtastwerten des Sprachsignals
bilden, und in jedem Zeitsegment die Positionen signifikanter Spitzen in dem Spektrum aus der Reihe von Spektrumkomponenten
abgeleitet werden.
Die signifikanten Spitzenpositionen bilden die Eingangsdaten für ein nachfolgendes Teil des Sprachanalysesystems,
das zum Ermitteln der Tonhöhe des Sprachsignals IS dient.
A.(2) Beschreibung des Standes der Technik.
Ein Sprachanalysesystem, das eine FFT-Transformation
der oben beschriebenen Art benutzt, ist in "IEEE Transactions on Acoustics, Speech and Signal Processing", Vol.
ASSP-26, Nr. k, August 1978, Seiten 358-365 beschrieben.
Die Tonhöhe wird dabei aus den Abständen zwischen den Spitzen in dem Spektrum ermittelt.
In einem Artikel in Philips Technical Review, Heft 5, Nr. 10, Oktober 19^0, Seiten 286-29** wurde bereits
dargelegt, dass die Tonhöhe keine Korrelation mit dem Abstand zwischen den Harmonischen, sondern mit der Periodizität
der kollektiven Schwingungsform der zusammengesetzten
Harmonischen bildet.
In der Dissertation von E. de Boer mit dem Titel: On the "residue" in hearing, Universität Amsterdam, wird
ein m.s.e.-Kriterium (mean-square-error) zum Ermitteln eines
bestimmten wahrscheinlichen Werts der Tonhöhe angewandt, der zu einer Reihe von Spektrumkomponenten gehört, von de-
030026/0739
1979-10-23 Or τ PHN 9313
nen die sog. "harmonischen Nummern" bekannt sind. Dies sind
die Nummern der nächstliegenden Harmonischen des Grundtons.
In Journal of the Acoustic Society of America, Heft 5^, Nr. 6, Juni 1973i Seiten 1496-I516 wurde dargelegt,
dass das obengenannte m.s.e.-Kriterium und das in diesem
Artikel entwickelte, auf psychophysisehen Erscheinungen beruhende
"maximum likelihood"-Kriterium zu derselben Schätzung der Tonhöhe führen.
Bei der Analyse von Sprachsignalen aus Quellen wie Fernsprechleitungen tritt nicht nur das Problem auf,
dass der Grundton selbst fehlen kann, sondern auch, dass Störkomponenten eingeführt werden, die das Ergebnis der Tonhöhenermittlung
stark beeinträchtigen können. B. Zusammenfassung der Erfindung.
Die Erfindung hat zur Aufgabe, ein Sprachanalysesystem zur Ermittlung der Tonhöhe von Sprachsignalen zu
schaffen, das gegenüber Störsignalen unempfindlich ist und
das weniger Berechnungen erfordert, als wenn für jede mögliche Reihe harmonischer Nummern ein Fehler berechnet werden
muss.
Diese Aufgabe wird in einem Sprachanalysesystem vom eingangs genannten Typ nach der Erfindung durch ein
Verfahren gelöst, das die nachfolgenden Schritte umfasst:
- das Wählen eines Wertes für die Tonhöhe und das Ermitteln einer Reihe auf-einanderf öl gender ganzer
Vielfachen dieses Wertes und das Ermitteln von Intervallen um diesen Wert und dessen Vielfachen,
wobei die Intervalle eine Maske mit Oeffnungen an der Stelle eines Intervalls definieren,
und den Oeffnungen harmonische Nummern
zugeordnet sind, die den Multiplikationsfaktoren in den genannten Vielfachen entsprechen;
- das Bestimmen der signifikanten Spitzenpositionen,
die mit einer Oeffnung der Maske zusammenfallen;
- das Berechnen einer Qualitätszahl entsprechend einem Kriterium, die das Ausmass angibt, in dem
die signifikanten Spitzenpositionen und die
030026/0739
1979-10-23 2f O PHN 9313
Oeffnungen der Maske übereinstimmen;
- das Wiederholen der vorhergehenden Schritte für aufeinanderfolgende höhere Werte der Tonhöhe bis
zu einem bestimmten höchsten Wert, wodurch eine Reihe diesen Werten der Tonhöhe zugeordneter
Qualitätszahlen erhalten wird;
- das Selektieren des Wertes der Tonhöhe mit der höchsten Qualitätszahl, wobei deren zugeordnete
Maske eine Bezugsmaske bildet; - das Zuordnen der harmonischen Nummern der Oeff
nungen der Bezugsmaske zu den mit diesen Oeffnungen zusammenfallenden signifikanten Spitzenpositionen,
wobei die harmonischen Nummern die Stellen dieser Spitzenpositionen in einer Reihe
von Harmonischen ein und desselben Grundtons
kennzeichnen;
- das Bestimmen eines wahrscheinlichen Wertes für die Tonhöhe, bei dem die Abweichungen zwischen
den letztgenannten signifikanten Spitzenpositionen
und den entsprechenden Vielfachen des wahr
scheinlichen Wertes mit denselben harmonischen Nummern möglichst klein sind.
Der Wert der Tonhöhe mit der höchsten Qualitätszahl selbst kann als Schätzung der wirklichen Tonhöhe benutzt
werden, in welchem Fall die letzten drei Schritte des Verfahrens auf nur einen Schritt zurückgeführt werden. Eine
genauere Schätzung wird aber erhalten, wenn in dem letzten Schritt eine Optimalisierung unter Anwendung des m.s.e.-Kriteriums
benutzt wird. —
Bei einer anderen, auf dem selben Prinzip beruhenden erfindungsgemässen
Lösung der selben Aufgabe wird die Maske aus den Positionen signifikanter Spitzen gebildet und mit Vielfachen
der Tonhöhe verglichen.
C. Beschreibung der Ausführungsbeispiele.
Fig. 1 zeigt ein schematisches Flussdiagramm mit
der Folge von Operationen entsprechend dem erfindungsgemässen Sprachanalysesystem;
Fig. 2 zeigt ein Flussdiagramm eines Programms
030026/0739
1979-10-23 -V 7 PHN 9313
eines digitalen Computers zum Durchführen gewisser Operationen in dem Sprachanalysensystem
nach Fig. 1;
Fig. 3 zeigt ein Flussdiagramm eines Computerprogramms
zum Ausführen gewisser Funktionen
aus dem Flussdiagramm nach Fig. 1; Fig. k zeigt ein schematisch.es Blockschaltbild
einer elektronischen Anordnung des Sprachanalyse
sy st ems
Fig. 5 zeigt das Flussdiagramm eines Programms,
Fig. 5 zeigt das Flussdiagramm eines Programms,
das mit dem Mikroprozessorteil der Apparatur nach Fig. k durchgeführt werden muss,
um bestimmte Operationen in dem betreffenden Sprachanalysesystem durchzuführen.
In dem Sprachanalysesystem soll ein sog. "shorttime"-Amplitudenspektrum
des Sprachsignals gebildet werden, das ein laufendes Bild des Amplitudenspektrums gibt.
Von dem abgetasteten Sprachsignal werden Zeitsegmente mit einer Dauer von ^O ms genommen. Diese Funktion wird
durch Block 10 mit der Inschrift kO ms dargestellt. Die
nächste Bearbeitung ist das Multiplizieren des Sprachsignalsegments mit einem sog. "Hamming window", welche Funktion
durch Block 11 mit der Inschrift WNDW dargestellt wird.
Die Abtastwerte des Sprachsignalsegments werden daraufhin einer diskreten Fourier-Transformation mit 256
Punkten ausgesetzt, wie durch Block 12 mit der Inschrift DFT dargestellt.
In einem nachfolgenden Verfahren werden die Amplituden
von 128 Spektrumkomponenten aus den 256—reellen und
imaginären Werten, die durch die DFT geliefert werden, bestimmt. Aus diesen Spektrumkomponenten werden die signifikanten
Spitzenpositionen x. abgeleitet, die die Stellen der
Spitzen in dem Spektrum darstellen. Diese Funktionen werden durch Block I3 mit der Inschrift DRV x. dargestellt.
Als nächster Schritt in dem Verfahren wird ein Wert F für die Tonhöhe gewählt, wie dieser durch Block ~\k
dargestellt ist.
Um diesen Anfangswert herum und eine Anzahl auf-
030026/0739
1979-10-23 -# ήίΓ PHN 9313
einanderfolgender ganzer Vielfachen derselben herum werden
Intervalle definiert. Diese Intervalle werden als Oeffnungen in einer Maske betrachtet in dem Sinne, dass ein Frequenzwert
x., der mit einer Oeffnung zusammenfällt, von der Maske durchgelassen werden wird. In diesem Sinne ist die
Maske als eine Art von Sieb für Frequenzwerte wirksam. Diese Operationen werden durch Block 15 mit der Inschrift MSK
dargestellt.
Den Oeffnungen einer Maske sind Nummern zugeordnet, die als harmonische Nummern bezeichnet werden und die
den Multiplikationsfaktoren der betreffenden Vielfachen des gewählten Wertes der Tonhöhe entsprechen.
In einer folgenden Bearbeitung wird ermittelt, in welchem Ausmass die signifikanten Spitzenpositionen x. und
die Oeffnungen der Maske übereinstimmen. Wenn wenig signifikante Spitzenpositionen von der Maske durchgelassen werden,
gibt es ganz klar eine schlechte Uebereinstimmung. Wenn andererseits viele der Spitzenpositionen durchgelassen
werden, aber viele Oeffnungen in der Maske keine signifikanten Spitzenpositionen durchlassen, weil diese an dieser
Stelle nicht vorhanden sind, ist ebenfalls von einer schlechten Uebereinstimmung die Rede.
Es ist möglich, ein gutes Kriterium zu finden, um das Ausmass der Uebereinstimmung in einer Qualitätszahl zum
Ausdruck zu bringen, wie untenstehend noch näher erläutert wird. An dieser Stelle in der Beschreibung reicht es aus zu
erwähnen, dass für die Maske eine geeignete Qualitätszahl berechnet wird. Diese Operation steht in dem Block 16 mit
der Inschrift QLT. —
In der Entscheidungsraute 17 wird geprüft, ob der
Wert F , der für die Tonhöhe gewählt worden ist, kleiner
ist als ein bestimmter maximaler Wert: F < MX. Wenn dies
der Fall ist, geht es weiter über den Y-Zweig der Raute 17»
wodurch eine Schleife 18 zum Block 15 entsteht. In dieser
Schleife wird der Wert von F in einer bestimmten Weise er-
höht: um einen bestimmten Betrag oder einen bestimmten Prozentsatz.
Diese Funktion wird durch den Block I9 mit der Inschrift NCR F dargestellt.
030026/0739
1979-10-23 -6" ήή PHN 9313
Die Folge des Vorhandenseins der Entscheidungsraute 17 ist, dass die Vorgänge, die durch die Blöcke I5
und 16 dargestellt werden, für immer wieder neue Werte von F wiederholt werden, bis F den maximalen ¥ert MX erreicht.
S S
Wenn dies der Fall ist, geht es weiter Über den N-Zweig und
wird die Schleife 18 verlassen.
Die nächste Operation in dem Sprachanalysesystem besteht dann in der Ermittlung der Maske oder des Wertes F
der Tonhöhe, deren Qualitätszahl den höchsten Wert hat. Diese Funktion wird durch Block 20 mit der Inschrift SLCT F
dargestellt.
In dem betreffenden Sprachanalysesystem wird
daraufhin in zwei Schritten eine genaue Schätzung der Tonhöhe des Sprachsegmentes gemacht, ausgehend von dem selektierten
Wert F . Zu diesem Wert gehört eine Maske, die als
Bezugsmaske bezeichnet wird. Diese letzten zwei Schritte in der Prozedur zur Ermittlung der Tonhöhe werden durch Block
21 mit der Inschrift STM F dargestellt, dessen Ausgangszweig den geschätzten Wert F der Tonhöhe gibt.
In einem ersten der zwei Schritte werden die harmonischen Nummern der Oeffnungen der Bezugsmaske den mit
diesen Oeffnungen zusammenfallenden signifikanten Spitzenpositionen
x. zugeordnet. Jede dieser Spitzenpositionen x.
1 Λ 1
erhält dann eine harmonische Nummer n. die die Stelle der
Spitzenpositionen in der Reihe von Harmonischen desselben
Grundtons bestimmt.
Ein wahrscheinlicher Wert von F : F kann als
ο ο
der Wert definiert werden, für den die Abweichungen zwischen den letztgenannten signifikanten Spitzenpositionen x.
und den entsprechenden Vielfachen n..F des wahrscheinlichen Wertes möglichst klein sind. Wenn zum Ermitteln der Abweichungen
ein m.s.e.-Kriterium (mean-square-error) ange-
A
wandt wird, lässt sich F durch den folgenden Ausdruck be
wandt wird, lässt sich F durch den folgenden Ausdruck be
rechnen:
A _K_ Λ ,K__ a
F= J-, χ. η. /12-: η. (ΐ)
ο i=i 1 1 ' 1=1 1 x '
Die Summierung in diesem Ausdruck erstreckt sich über alle signifikanten Spitzenpositionen, die mit einer
030026/0739
1979-10-23 -Jf ή% ΡΗΝ 9313
Oeffnung der Bezugsmaske zusammenfallen und deren Anzahl
durch K dargestellt wird.
Es dürfte einleuchten, dass der Wert der Tonhöhe, der zu der Bezugsmaske gehört, bereits eine erste Schätzung
der gesuchten Tonhöhe bildet. Wenn diese Schätzung benutzt wird, werden die letzten drei Schritte der obenstehend beschriebenen
Routine im wesentlichen auf nur einen Schritt zurückgebracht. Eine wesentlich genauere Schätzung wird jedoch
dadurch erhalten, dass der Ausdruck (i) verwendet wird. Manche Operationen des betreffenden Sprachanalysesystems
können als Programm eines Mehrzweckcomputers ausgebildet werden. Andere können durch Verwendung äusserer Einrichtungen
beschleunigt werden.
In Fig. 2 ist ein Flussdiagramm zur Ermittlung der signifikanten Spitzenpositionen x. dargestellt, eine
Funktion, die in Fig. 1 durch Block I3 erfüllt wird.
Die Blöcke 22, 23 und 2k entsprechen den Blöcken
10, 11 bzw. 12 aus Fig. 1. Der Block 25 mit der Inschrift
MP stellt die Amplitudenermittlungsfunktion aus Block I3
nach Fig. 1 dar. Die Funktionen der Blöcke 22-25 lassen sich in dem System unter Verwendung bekannter Bauelemente
verwirklichen. Vom Block 25 an wird die Prozedur durch das
Programm eines Mehrzweckcomputers verwirklicht.
Der Computer erhält als Eingangsdaten die Kompo-
nenten AF(r), r= 1, - , 128 des Amplitudenspektrums,
wie durch Block 26 dargestellt.
Als Anfangswerte für die Routine werden r = 2 und N=O gewählt. Diese Funktion wird durch Block 27 dargestellt,
Anfangend mit der Spektrumkomponente AF(2) wird-dann geprüft,
ob diese Komponente grosser oder gleich der vorhergehenden Spektrumkomponente AF(1) ist und ob die Spektrumkomponente
AF(2) grosser ist als die nachfolgende Spektrumkomponente AF(3). Diese Funktion wird durch die Entscheidungsraute
28 dargestellt. Wenn die Spektrumkomponente ein örtliches Maximum bildet, geht es weiter über den Y-Zweig
der Raute 28.
Der N-Zweig der Raute 28 führt zum Block 29, der angibt, dass r um eins erhöht wird. Danach wird in der Ent-
030026/0739
1979-10-23 -β*" ^3 ΡΗΝ 9313
scheidungsraute 30 untersucht, ob r grosser oder gleich 127
geworden ist. Solange dies nicht der Fall ist, wird eine Schleife zur Raute 28 gebildet. Die Funktion der Raute 28
wird dann mit einem neuen Wert von r wiederholt.
Der Y-Zweig der Entscheidungsraute 28 führt zu der Entscheidungsraute 32, in cbr untersucht wird, ob die Spektrumkomponente
AF(r) grosser ist als ein Schwellenwert THD. Ist dies nicht der Fall, so wird der N-Zweig aktiv und geht
über die Blöcke 29 und 30 in die Schleife 31 hinein, solange
der neue Wert von r kleiner ist als 127.
Der Schwellenwert THD wird an erster Stelle durch einen Absolutwert gebildet, der durch den Pegel des Rauschens
bestimmt wird, das eine Folge der Quantisierung und der "Hamming window"-Funktion ist.
An zweiter Stelle kann ein Teil des Schwellenwerts THD veränderlich sein, um das Maskieren einer Spektrumkomponente
durch die benachbarten Spektrumkomponenten zu berücksichtigen, wenn diese eine viel grössere Amplitude
aufweisen. Dieser Effekt tritt bei dem menschlichen Gehör auf und ist ein wesentlicher Faktor bei der Tonhöhenbestimmung.
Wenn es über den Y-Zweig der Entscheidungsraute 32 weitergeht,wird eine Operation durchgeführt, um die Amplitude
und die Frequenz des örtlichen Maximums des Amplitudenspektrums
zu ermitteln. Dazu wird"eine Interpolation zwischen den Werten AF(r-i), AF(r) und AF(r+i) mit einem
Iblynom zweiten Grades (parabelförmige Interpolation) angewandt.
Diese Funktion wird durch Block 33 mit der Inschrift
NTRP dargestellt. -
Die nachfolgende Operation betrifft einen Test der Form des Amplitudenspektrums in der Umgebung des örtlichen
Maximums. Das Polynom zweiten Grades (Parabel), das in der vorhergehenden Operation gefunden wurde, nähert die
regulären Form an. Die Form des örtlichen Maximums wird dadurch getestet, dass die Unterschiede zwischen den Spektrumkomponenten
AF(r-2) und AF(r+2) und den erwarteten Werten derselben, die auf der Parabel liegen, ermittelt werden.
Ein örtliches Maximum wird als regulär betrachtet, wenn der
030026/0739
1979-10-23 jy ήψ PHN 9313
mittlere quadratische Fehler unterhalb eines bestimmten Wertes liegt. Die Funktion des Testvorgangs der Form wird
durch die Entscheidungsraute Jh mit der Inschrift SHP dargestellt
.
Wenn die Form des Maximums dem Formkriterium nicht entspricht, wird der N-Zweig aktiv, und es wird über die Blöcke 29 und 30 in den Block 3I gegangen. Die Routine der Entscheidungsraute 28 wird dann mit einem neuen Wert von r wiederholt.
Wenn die Form des Maximums dem Formkriterium nicht entspricht, wird der N-Zweig aktiv, und es wird über die Blöcke 29 und 30 in den Block 3I gegangen. Die Routine der Entscheidungsraute 28 wird dann mit einem neuen Wert von r wiederholt.
Wenn die Form des Maximums der Anforderung ent-
1 spricht, wird der Y-Zweig der Entscheidungsraute Jk aktiv
und wird in den Block 35 gegangen, indem der Wert von N um eins erhöht wird. Danach wird in die Entscheidungsraute J6
gegangen. Wenn N nicht grosser.ist als ein bestimmter Wert,
z.B. in dem betreffenden System sechs, wird der N-Zweig aktiv, und es wird über die Blöcke 29 und 30 in die Schleife
31 hineingegangen.
Die Ermittlung örtlicher Maxima des Amplitudenspektrums
wird fortgesetzt, bis maximal die obenerwähnte sechs signifikante Spitzenpositionen x. ermittelt sind.
Wenn dies der Fall ist wird der Y-Zweig der Entscheidungsraute 36 aktiv und werden die signifikanten Spitzenpositionen
x. ausgeführt (Block 37).
Die signifikanten Spitzenpositionen x., die nach der Routine entsprechend Fig. 2 erhalten werden, bilden die
Eingangsdaten für die Routinp nach Fig. 3·
Fig. 3 zeigt das Flussdiagramm eines Programms zum Ermitteln eines wahrscheinlichen Wertes der Tonhöhe
unter Verwendung des Konzepts der Masken. — Das Programm erhält als Eingangsdaten die signifikantenSpitzenpositionen
χ. , i = 1 , .... ,N, wie im Block 38 dargestellt. Diese werden auch als Komponenten bezeichnet
.
Als Anfangswert für die Tonhöhe f wird gewählt f =0, und die Variable C wird auf den maximalen Wert eingestellt
(Block 39).
Wenn die Anzahl angebotener Komponenten kleiner als eins ist (Raute ko), wird die Routine verlassen und der
030026/0739
1979-10-23 +er >/5* ρην 9313
Wert f = 0 ausgeführt (Block 41).
Werden eine oder mehrere Komponenten eingeführt, so geht die Routine weiter.
Als Vorbereitung wird die Variable 1, die die Nummer der Maske angibt, auf 1=1 eingestellt (Block k2).
Danach folgt die Spezifikation eines Wertes der Tonhöhe f 1, und es werden einige Variablen auf einen Anfangswert
eingestellt (Block ^3) .
In dem folgenden Vorgang (Block kk) wird anfangend
mit der ersten Komponente χ eine Schätzung der der Komponente
χ zugeordneten harmonischen Nummer m-, gemacht und
wird dieser Wert auf die am nächsten liegende ganze Zahl mlk gerundet.
Wenn m.., grosser ist als 11 (Entscheidungsraute
^5), wird ein grosser Teil des Programms übersprungen, weil
in dem betreffenden Sprachanalysensystem Harmonische mit einer höheren Nummer als 11 nicht zur Tonhöhenermittlung
einbezogen werden.
Daraufhin wird ermittelt, ob m... den Wert Null
hat (Entscheidungsraute k6). Ist dies nicht der Fall, so wird geprüft, ob die Komponente x. in die Oeffnung der Maske
mit der Tonhöhe f . fällt. Wenn die relative Abweichung von χ gegenüber der am nächsten liegenden Harmonischen des
Grundtons f 1 kleiner ist als ein bestimmter Prozentsatz,
in dem betreffenden System 5%> wird vorausgesetzt, dass χ.
in der Oeffnung liegt (Entscheidungsraute ^7)·
Wenn die Komponente χ in einer Oeffnung einer Maske liegt, wird der N-Zweig der Entscheidungsraute kj aktiv.
Daraufhin wird ermittelt, ob die erste harmonische Nummer der Reihe m . grosser ist als 7 (Entscheidungsraute k8).
Wenn dies der Fall ist, wird ein Teil des Programms übersprungen, weil in dem betreffenden Sprachanalysensystem keine
Reihen, die mit einer derartigen hohen harmonischen Nummer anfangen, zu der Ermittlung der Tonhöhe verwendet werden,
Wenn die niedrigste harmonische Nummer gleich ist an oder kleiner ist als 7» wird der N-Zweig der Entscheidungsraute
k8 aktiv, und es wird in die Entscheidungsraute k9 gegangen.
030026/0739
1979-10-23 -M" 'Iv PHN 9313
Die nächste Operation betrifft nun den Fall, dass für In1 derselbe Wert gefunden wird wie für den Wert
m (K+l=k), der das vorhergehende Mal ermittelt wurde (Für k=1, wird m verglichen mit dem vorabgesetzten Wert
m1 =0). In diesem Fall liegen zwei Komponenten in derselben
Öffnung der Maske. Das betreffende Sprachanalysensystem akzeptiert nur die Komponente, die der Mitte der Öffnung
am nächsten liegt, und lehnt die ändere Komponente ab.
Die Variable K zählt die Anzahl Komponenten, die ]q in einer Öffnung liegen. Wenn m , grosser ist als m v
(Entscheidungsraute hs), wird danach K um eins erhöht
(Block 52).
Wenn jedoch m>, nicht grosser ist als m1Tf, wird
X IC XXv
ermittelt, für welchen der Werte ro., und m die kleinste
relative Abweichung gegenüber der Mitte der Öffnung auftritt (Entscheidungsraute 50). Wenn dies der Fall ist für m ,
wird m gleich m.. eingestellt (Block 51 )· In dem anderen
Fall wird mnTr nicht geändert. In den beiden Fällen wird K
XiV
nicht erhöht.
Wenn das Programm dem Y-Zweig der Entscheidungsraute HS, dem Y-Zweig der Entscheidungsraute k7 oder dem
N-Zweig der Entscheidungsraute 50 folgt, oder nach den
Operationen der Blöcke 5I oder 52, wird der Wert von η um
eins erhöht (Block 53)· Die Variable η zählt die angebotenen Komponenten x., und wenn η kleiner ist als die Gesamtanzahl
angebotener Komponenten (Entscheidungsraute 5Ό» geht es
in die Schleife 55 hinein.
Die beschriebene Routine fängt dann von neuem bei Block kk für einen neuen Wert von η an. Auf diese. Weise wird
die Routine für alle N Komponenten x. wiederholt.
Wenn η grosser wird als N, wird dem Y-Zweig der
Entscheidungsraute $k gefolgt. Danach wird registriert, dass
für die Maske mit dem Index 1 die Anzahl in Betracht gezogener Komponenten N1 gleich N ist. Wenn das Programm
dem Y-Zweig der Entscheidungsraute h5 folgt, wird N1 gleich
η eingestellt (Block 57)· Komponenten x. mit einem höheren Indexwert haben eine geschätzte harmonische Nummer, die
grosser ist als 11, und werden bei der Tonhöhenermittlung
030026/0739
1979-10-23 +& Ί Γ PHN 9313
nicht in Betracht gezogen. Eine Maske hat in dem betreffenden Sprachanalysensystem 11 Offnungen, und Komponenten x.,
die ausserhalb der Maske liegen, werden bei der Ermittlung der Tonhöhe nicht mit berücksichtigt.
In der nachfolgenden Operation wird ermittelt,
ob mindestens die Hälfte der angebotenen Komponenten x. von der Maske durchgelassen werden (Entscheidungsraute 58)·
Dies ist eine nicht sehr strenge Anforderung, mit der auf jeden Fall der triviale Fall N=O ausgeschlossen wird.
Die nachfolgende Prozedur bezieht sich auf die Berechnung einer Qualitätszahl Q, mit der das Ausmass
angegeben wird in dem die Komponenten x. und die Offnungen
der Maske übereinstimmen.
Eine Qualitätszahl kann dadurch abgeleitet werden, dass die Reihe angebotener Komponenten x. und die Reihe
Offnungen einer Maske als Vektoren in einem mehrdimensionalen Raum deren Projektionen auf der Koordinaten-Achsen
den Wert Null oder Eins haben, betrachtet werden. Der Abstand zwischen den Vektoren gibt an, wie gut die Komponenten
x. und die Maske aufeinander passen. Die Qualitätszahl kann dann als eins geteilt durch den Abstand berechnet
werden. Statt des Abstandes kann auch jeder andere Ausdruck genommen werden, der minimal ist, wenn der Abstand
minimal ist, und umgekehrt.
Es lässt sich auf elementare Weise darlegen, dass der Abstand D wie folgt ausgedrückt werden kann:
D =VN + M - 2k" (2)
wobei N die Anzahl Komponenten x., M die Anzahl Offnungen
der Maske und K die Anzahl Komponenten x. darstellt, die in den Offnungen der Maske liegen.
Die Qualitätszahl Q lässt sich wie folgt ausdrücken
:
D N + M - 2K
Der Abstand D kann dadurch genormt werden, dass er durch die Länge des Einheitsvektors
E =Vn + M-K (h)
030026/0739
1979-10-23 J-^ /I Λ PHN 9313
geteilt wird.
Dies würde zu der folgenden Qualitätszahl führen:
Q . lL . ·- (5)
D*" N + M - 2K
Nach elementaren Bearbeitungen lässt sich darlegen, dass Q nach dem Ausdruck (5) maximal ist, wenn Q1 nach dem
Ausdruck
maximal ist. Es ist dann erlaubt, Q durch Q' zu ersetzen.
Eine andere Qualitätszahl kann bestimmt werden aus den Winkel zwischen den zwei Vektoren. Auf elementare Weise
kann dargelegt werden, dass der Winkel minimal ist, wenn Q1· nach dem Ausdruck:
2
Q" = (7)
. . , N.M
maximal ist.
maximal ist.
Komponenten x., die ausserhalb der Maske liegen, tragen nicht zu dem Wert von K bei, obschon sie mit dem
Grundton der Maske einen harmonischen Zusammenhang haben können. Eine besser brauchbare Qualitätszahl wird erhalten
werden, wenn in den Ausdrücken für Q die Grosse N durch N1
ersetzt wird, die die Anzahl Komponenten angibt, die innerhalb des Bereichs der Maske liegen.
Es kann passieren, dass Offnungen der Maske ausserhalb
des Bereichs der angebotenen Komponenten liegen und deshalb keine Komponente durchlassen. Die Qualitätszahl
kann dazu dadurch korrigiert werden, dass in dem Ausdruck für Q die Grosse M durch m ersetzt wird, die die
liv
höchste Nummer der Offnungen ist, die eine Komponente
durchlässt.
In der Prozedur nach Fig. 3 wird, nachdem der N-Zweig
der Entscheidungsraute ^S aktiv geworden ist, eine
Grosse C1 errechnet, die die Inverse der Qualitätszahl Q
nach dem Ausdruk (6) ist, mit N ersetzt durch N und M
ersetzt durch m1v. (Block 59)·
llv
llv
In der nachfolgenden Operation wird ermittelt, ob C.
grosser ist als der Wert der Variable C. (Entscheidungs-
030026/0739
1979-1O-23 -♦''γ 77 PHN 93T3
raute 6o). Wenn dies nicht der Fall ist, wird C der Wert C,
gegeben. Dies bedeutet, dass die jetzige Maske eine bessere Übereinstimmung ergibt als die vorhergehende. Die Tonhöhe
f wird nun entsprechend dem Ausdruck (l) (Block 61) errechnet.
Nach der Operation des Blocks 61 oder wenn das Programm dem Y—Zweig der Entscheidungsraute 58 oder dem
Y-Zweig der Entscheidungsraute 60 folgt, wird der Index 1 der Maske um eins erhöht (Block 62). Wenn 1 kleiner ist als
die Gesamtanzahl der Masken L (Enscheidungsraute 63), geht es in die Schleife 6k hinein und wird die beschriebene
Routine mit einem neuen Wert 1 wiederholt, bis alle Masken verarbeitet sind.
Wenn 1 grosser wird als L, wird der Y-Zweig der Entscheidungsraute 63 aktiv und der zuletzt berechnete Wert
von f ausgeführt (Block 65).
Das vorliegende Sprachanalysensystem kann durch das Programm eines Mehrzweck-Digital—Computers verwirklicht
werden oder zum Teil in einer externen Anordnung und zum restlichen Teil in dem Programm.
Ein Beispiel einer Anordnung, die zur Verwirklichung des betreffenden Sprachanalysensystems verwendet
werden kann, ist in Fig. k dargestellt.
Als Eingangssignal erhält diese Anordnung ein analoges Sprachsignal (Eingang IOO). -Dieses Signal wird in
einem Tiefpassfilter 101 gefiltert und dann von einem
Abtastschalter 102 abgetastet, der mit einer Abtastfrequenz von ^kHz arbeitet.
Die folgende Operation ist die Analag-Digital-Umwandlung
der Abtastwerte des Sprachsignals im A/D \todler 103. Die kodierten Signalabtastwerte werden in einem
Pufferspeicher 104 mit einer Kapazität von 200 Abtastwerten gespeichert. Die Errechnung der Tonhöhe beansprucht
z.B. 10 ms, während für jede Berechnung ein Sprachsegment von kO ms verwendet wird. Die Kapazität des Pufferspeichers
"lOk muss dann für 50 ms Sprache oder 200 Abtastwerte
ausreichen.
Aus den I60 jüngsten Abtastwerten a., 1=1,
030026/0739
C . , = COS
ik
s., = sin
s., = sin
1979-10-23 *Τ *iV PHN 9313
160 werden mit Hilfe einer diskreten Fouriertransformation
(DFT) 6k Frequenzpunkte des Amplitudenspektrums errechnet. Diese Punkte liegen auf den Frequenzen (25 + k.25)Hz, k =
1 , 2, 6k.
Die Koeffizienten der DFT sind:
2tT(k + i)(i - 8O,5)/16OJ
2"rt"(k + i)(i - 8θ,5)/ΐ6θ]
Die Multiplikation mit dem "Hamming window" erfolgt dadurch, dass die Koeffizienten der DFT mit dem
]Q "Hamming window" entsprechend den folgenden Faktoren multipliziert werden:
Η± = 0,5** + 0,46 cos l2TT(i - 8O,5)/i6oJ
i = 1 , 2 , 160
Jeder Frequenzpunkt besteht aus einem reellen Teil FR, und einem imaginären Teil FI, , die wie folgt
erreichriet werden: ..,-_
FR, = 5 a. * c , * H.
k j~-_ 1 i ik i
160
FI1 = > a. * s .. * H.
/u k f—2 1 ■ ik χ
Diese Operationen werden durch einen Multiplizierer 105 und einen Koeffizientenspeicher IO6 (ROM) in
Kombination mit einem Akkumulator IO7 durchgeführt.
Zum errechnen der 6k Frequenzpunkte muss der Multiplizierer IO5 20^80 Multiplikationen durchführen. Bei
einer Multiplikationszeit von 150 ns beträgt die gesamte
Rechenzeit 3.072 ms. Ein geeigneter Multiplizierer ist der vom Typ MPY-12AJ von TRW. _
Die berechneten Werte der Frequenzpunkte werden im Pufferspeicher 108 gespeichert. Wenn das Spektrum
berechnet ist, wird vom Taktimpulsgenerator IO9 ein Unterbrechungssignal
am Ausgang 110 erzeugt, der mit dem Unterbrechungseingang des Mikrocomputers verbunden ist, der in
dem Block 111 dargestellt ist.
Der Ausgang des Puffers 108 ist an den Dateneingang des Mikrocomputers angeschlossen, der nach Empfang
eines Unterbrechungssignals die Werte aus dem Pufferspeicher
030026/0739
1979-10-23 +6· 4'J PHN 9313
108 in den Arbeitsspeicher übernimmt.
Der Mikrocomputer basiert auf dem Signetics 3000 Mikroprozessor und umfasst eine zentrale Verarbeitungseinheit
(CPU) 112, einen direkt zugänglichen Speicher (RAM) 113, eine MikroSteuereinheit (MCU) 114, einen Mikroprogrammspeicher
(MFM) 115 und ein Ausgangsregister (OR) 116.
Beim Durchführen eines Programms erzeugt MCU Adressen für MPM 115. Dieser führt der CPU 112 (Leitung 117)
Instruktionen zu und führt Daten in bezug auf die nachfolgende Instruktion zu der MCU 114 (Leitung 118) zurück.
Zwecks Einga^g-/Ausgangsteuerung führt der
MPM 115 dem RAM 113 (Leitung 119) und dem Ausgangsregister
(OR) 116 (Leitung 120) Steuerbits zu.
Die CPU 112 führt dem RAM 113 Adressen (Leitung
121) und Daten (Leitung 122) und dem OR 116 (Leitung 123)
Daten zu und erhält Daten vom RAM 113 (Leitung 124) und vom Dateneingang (Leitung 125)·
Die MCU 114 tauscht mit der CPU 112 (Leitung 126)
Bedingungs- und Ubertrags-Information aus und erhält das
Unterbrechungssignal (Leitung 127)·
Dieser Mikrocomputer lässt sich von einem
Durchschnittsfachmann entsprechend den Flussdiagrammen aus
den Fig. 5-A— D unter Verwendung der Gebraucherinformation,
die der Hersteller des Mikroprozessors liefert, program— mieren.
Gespeist mit diesem Programm liefert der Mikrocomputer nach Empfang eines Unterbrechungssignals vom Takt—
impulsgenerator 109 einen Wert für F am Ausgang. Dieser Wert wird nach jedem Unterbrechungssignal des Taktimpuls—
generators 109 erneuert. Diese Unterbrechungssignale dürfen nach allen 10 ms auftreten, da diese Zeit für den
Mikrocomputer ausreichen,um die Tonhöhe zu errechnen.
Der Mikrocomputer erhält nach einem Unterbrechungssignal als Eingangsdaten die Werte der Frequenzpunkte
FRk und FIk>
k = 1, 64 (Block 200, Fig. 5A)·
Die nachfolgende Operation besteht aus der Ermittlung des Wertes der Amplitude (Block 201). Danach
wird ein Schwellwert Z bestimmt, der einem Bruchteil der
030026/0739
1979-10-23 -*ΐ- ** PHN 9313
maximalen Amplitude entspricht (Block 202).
Danach wird der Wert der Variablen k, der den Index der Komponenten A des Amplitudenspektrums darstellt, auf
und die Anzahl N der signifikanten Spitzenpositionen x. S auf Null eingestellt (Block 203).
In der nachfolgenden Operation wird zunächst ermittelt^
ob die maximale Anzahl von 8 signifikanten Spitzenpositionen
schon erreicht ist (Block 204). Wenn dies nicht der Fall ist, wird untersucht, ob der Amplitudenwert A, ein ort —
liches Maximum bildet, das über die Schwelle Z hinausgeht (Entscheidungsraute 206).
Wenn dies der Fall ist, wird der Y-Zweig der Entscheidungsraute 2O6 aktiv und N um eins erhöht (Block 207)·
Die richtige Stelle des örtlichen Maximums in dem Spektrum wird durch Interpolation mittels eines Polynoms
zweiten Grades zwischen den Komponenten A, , A, 1 und
A, (Block 208) errechnet. Diese Routine ergibt die Position x. der signifikanten Spitze in dem Amplitudenspektrum.
Danach wird der Index k um eines erhöht (Block 209) und es geht in die Schleife 210 hinein, wenn der neue
Wert von k noch kleiner als 63 oder gleich 63 ist (Entscheidungsraute 211).
Wenn die Komponente A, kein örtliches Maximum bildet,
wird der N-Zweig der Entscheidungsraute 206 aktiv, und N
wird nicht um eins erhöht. Auch in diesem Fall wird k um eins erhöht (Block 209).
Wenn der Schleife 210 gefolgt wird, wird die beschriebene Routine anfangend bei der Entscheidungsraute 2O4 für
den neuen Wert von k wiederholt, bis alle Komponenten A, mit Ausnahme der letzten verarbeitet sind.
Wenn die Entscheidungsraute 211 detektiert, dass der
neue Wert von \z=6k ist, wird der N-Zweig aktiv und werden
die signifikanten Spitzenpositionen x. ausgeführt (Block 212)
falls nicht bereits detektiert wurde, dass acht signifikante Spitzenpositionen gefunden wurden (Entscheidungsraute 204).
In dem letzten Fall wird der Y-Zweig der Entscheidungsraute 204 aktiv und werden danach die acht signifikanten Spitzenpositionen
x. ausgeführt.
030026/0739
1979-10-23 t«· Λ«^ PHN 9313
Die signifikanten Spitzenpositionen χ. bilden
die Eingangsdaten für die folgende Routine, wodurch die harmonischen Nummern R. der Komponenten χ. bestimmt werden.
Diese Eingangsdaten werden in der nachfolgenden Alternative
als Komponenten x. bezeichnet.
Anders als bei der Routine nach Fig. 3 wird
hier eine Maske mit Offnungen um die Komponenten x. herum
gebildet. Dann wird untersucht, für welchen Wert der Tonhöhe die beste Übereinstimmung zwischen der Maske und der Reihe
von Harmonischen der Tonhöhe erhalten wird. Dieses alternative Verfahren bietet arithmetisch Vorteile und liefert
dasselbe Resultat wie bei dem vorhergehenden Verfahren. Für jeden Wert von x. wird ein niedrigerer
Wert xL. und ein höherer Wer xH. berechnet, die zusammen eine Öffnung um die Komponente x. bestimmen (Block 213)·
Die Reihe Offnungen für alle Komponenten x. bildet die Vergleichsmaske.
Vor dem Anfang der Hauptschleife der Routine
wird die Variable C, die die Qualitätszahl registriert, auf Null und ein Anfangswert (50 Hz) für die Tonhöhe SF
eingestellt (Block 214).
Die Reihe der Harmonischen der gewählten Tonhöhe umfasst zunächst immer acht Komponenten. Danach wird
die Anzahl N1 der Komponenten x. ermittelt, die innerhalb
des Bereiches der Reihe Harmonsichen liegen, d.h. die Anzahl Komponenten x., für die xL. kleiner ist als der
achtfache gewählte Wert der Tonhöhe SF (Block 215).
Wenn N' grosser ist als Null (Entscheidungsraute 216), wird die Anzahl M1 der Harmonischen -der
gewählten Tonhöhe SF bestimmt, die innerhalt des Bereichs der Komponenten x. liegen, wobei M1 das ganzzahlige
Resultat des Quotienten χΗ-,,/SF ist.
In der nachfolgenden Operation wird die Anzahl K der Harmonischen der gewählten Tonhöhe bestimmt, die in
den Offnungen der Maske liegen. Dabei wird jeder Komponente x. eine vorläufige harmonische Rangnummer RT. zugeordnet.
Wenn in einer Öffnung keine Harmonische der Tonhöhe liegt, erhält die betreffende Komponente x. die Rangnummer Null.
030026/0739
1979-10-23 +9-Af ' PHN 9313
In dem Fall, dass eine Harmonsiche der gewählten Tonhöhe in den Offnungen von mehr als nur einer Komponente x. liegt,
wird die harmonische Rangnummer der Komponente x. mit dem niedrigsten Wert zugeordnet (Block 218).
In Fig. 5D ist die Routine des Blocks 218
detailliert dargestellt, wobei die Wirkungsweise aus der Figur abgeleitet werden kann.
Nach der Operation von Block 218 folgt die Berechnung der Qualitätszahl Q, die zu dem gewählten Wert
der Tonhöhe SF gehört (Block 219).
Danach wird bestimmt, ob die Qualitätszahl Q
grosser ist oder gleich dem Wert, der das vorige Mal gefunden
wurde (Entscheidungsraute 220). Wenn dies der Fall ist, wird die Variable C dem Wert Q gleich gemacht und werden
die vorläufigen Rangnummern RT. durch die Variablen R. übernommen, die die neuen Rangnummern registreren
(Block 221).
Wenn die Routine dem Y-Zweig der Entscheidungsraute 216 oder dem N-Zweig der Entscheidungsraute 220 folgt,
oder nach der Operation von Block 221, wird ein neuer Anfangswert für die Tonhöhe SF berechnet (Block 222).
Die Routine geht nun in die Schleife wenn dor neue Wert der Tonhöhe noch kleiner als oder gleich
500 Hz ist (Entscheidungsraute 223). Die beschriebene Routine wird dann ab Block 215 für den neuen Wert der Tonhöhe
SF wiederholt,
ο
ο
Wenn, nachdem die Schleife 224 eine Anzahl Male
durchlaufen wurde, der neue Wert der Tonhöhe SF grosser wird als 5OO Hz (Entscheidungsraute 223), wird die Schleife
verlassen und werden die Komponenten x. mit den zugehörenden Rangnummern R. ausgeführt (Block 225)
Die Komponenten x. und die Rangnummern R.
bilden die Eingangsdaten für eine Routine zum Berechnen des wahrscheinlichen Wertes der Tonhöhe F (Ausdruck (i)).
Diese Prozedur fängt an mit der Berechnung einer Grosse DNN, die durch die Summe der Quadrate der
Rangnummern (Block 226) gebildet werden. Wenn diese Grosse nicht gleich Null ist (Entscheidungsraute 227) f wird F
1979-10-23 -es- ^^ PHN 9313
entsprechend dem Ausdruck (i) im Block 228 berechnet. In
dem anderen Fall wird dem Y-Zweig der Entscheidungsraute 227 gefolgt und F auf Null eingestellt (Block 229).
In den beiden Fällen endet die Routine mit dem Ausführen des Wertes der Tonhöhe F (Block 23O).
Die Qualitätszahl Q, die in dem Block 219 berechnet wird, kann natürlich nach einem der anderen
Ausdrücke für Q berechnet werden, ohne dabei den Rahmen des beschriebenen Verfahrens zu verlassen.
Die zwei Prozeduren zum Vergleichen der signifikanten Spitzenpositionen mit Reihen Harmonischen eines
Grundtons, unter Verwendung des Konzepts einer Maske, die in dem ersten Fall durch die Reihe Harmonischen des
Grundtons definiert wird und in dem zweiten Fall durch die signifikanten Spitzenpositionen, liefern dasselbe Resultat.
Jede dieser Prozeduren kann als der duale Fall der anderen betrachtet werden mit denselben Vorteilen bezüglich Unempfindlichkeit
für Störkomponenten.
030026/0739
Claims (10)
1979-10-23 •f PHN 9313
PATENTANSPRÜCHE:
.) Sprachanalysesystem, in dem das Amplitudenspek-Mirum
eines Sprachsignals analysiert wird, in dem regelmässig Zeitsegmente des Sprachsignals selektiert und von
jedem Sprachsegment eine Reihe von Spektrumkomponenten bestimmt werden, die die diskrete Fourier-Transformation
von Abtastwerten dee Sprachsignals bilden, und in jedem Zeitsegment die Positionen signifikanter Spitzen in dem
Spektrum aus der Reihe von Spektrumkomponenten abgeleitet werden, gekennzeichnet durch ein Verfahren, das die nachfolgenden
Schritte umfasst:
- das Wählen eines Wertes für die Tonhöhe und das Ermitteln einer Reihe aufeinanderfolgender ganzer Vielfachen
dieses Wertes und das Ermitteln von Intervallen um diesen Wert und dessen Vielfachen, wobei die Inter—
valle eine Maske mit Offnungen an der Stelle eines Intervalls definieren und den Offnungen harmonische
Nummern zugeordnet sind, die den Multiplikations— faktoren in den genannten Vielfachen entsprechen;
- das Bestimmen der signifikanten Spitzenpositionen,
die mit einer Öffnung der Maske zusammenfallen;
- das Berechnen einer Qualitätszahl entsprechend einem Kriterium, die das Ausmass angibt, in dem die signifikanten
Spitzenpositionen und die Offnungen der
Maske übereinstimmen;
_ Das Wiederholen der vorhergehenden Schritte für aufeinanderfolgende
höhere Werte der Tonhöhe bis zu einem bestimmten höchsten Wert, wodurch eine Reihe
diesen Werten der Tonhöhe zugeordneter Qualitätszahlen erhalten wird;
_ das Selektieren des Wertes der Tonhöhe mit der höchsten Qualitätszahl, wobei deren zugeordnete Maske eine
Bezugsmaske bildet;
- das Zuordnen der harmonischen Nummern der Offnungen
030026/Ü739
1979-10-23 2 PHN 9313
der Bezugsmaske zu den mit diesen Offnungen zusammenfallenden
signifikanten Spitzenpositionen, wobei die harmonischen Nummern dde Stellen dieser Spitzenpositionen
in einer Reihe von Harmonischen ein und desselben Grundtons kennzeichnen;
- das Bestimmen eines wahrscheinlichen Wertes für die Tonhöhe, bei dem die Abweichungen zwischen den letztgenannten
signifikanten Spitzenpositionen und den
entsprechenden Vielfachen des wahrscheinlichen Wertes
mit denselben harmonischen Nummern mqgLichst klein sind.
2. Ein Sprachanalysensystem nach Anspruch 1, dadurch gekennzeichnet, dass die Qualitätszahl Q entsprechend
einem der nachfolgenden Ausdrücke berechnet wird:
2 1
15 Q =
' ^ ~ M + N - 2K
wobei K die Anzahl signifikanter Spitzenpositionen, die mit
Offnungen der Maske zusammenfallen, M die Anzahl Offnungen
der Maske und N die Anzahl signifikanter Spitzenpositionen
20 darstellt.
3. Ein Sprachanalysensystem nach Anspruch 2, dadurch gekennzeichnet, dass in den Ausdrücken für die Qualitätszahl
Q die Grosse M durch M1 ersetzt ist, wobei M1
gleich M weniger die Anzahl Offnungen der Maske, die ausserhalb des Gebietes der signifikanten Spitzenpositionen
liegen, ist.
h. Ein Sprachanalysensystem nach Anspruch 2, dadurch
gekennzeichnet, dass in den Ausdrücken der Qualitäts*-
zahl Q die Grosse N durch Nf ersetzt worden ist^_die gleich
N weniger die Anzahl signifikanter Spitzenpositionen, die
ausserhalb des Gebietes der Offnungen der Maske liegen, ist.
5· Ein Sprachanalysensystem nach Anspruch 1,
dadurch gekennzeichnet, dass der wahrscheinliche Wert der Tonhöhe F entsprechend dem folgenden Ausdruk berechnet
35 wird:
xi * ni / Σ- ni
030026/0739
1979-10-23 3 PHN 9313
wobei χ. die i. signifikante Spitzenposition und n. die derselben zugeordnete Nummer darstellt und wobei K die
Anzahl signifikanter Spitzenpositionen darstellt, die mit Offnungen der Maske zusammenfallen.
6. Sprachanalysensystem, in dem das Amplitudenspektrum eines Sprachsignals analysiert wird, indem regelmässig
Zeitsegmente des Sprachsignals selektiert und von jedem Sprachsegment eine Reihe von Spektrumkomponenten
bestimmt werden, die die diskrete Fourier—Transformation
von Abtastwerten des Sprachsignals bilden, und in jedem Zeitsegement die Positionen signifikanter Spitzen in dem
Spektrum aus der Reihe von Spektrumkomponenten abgeleitet werden, gekennzeichnet durch ein Verfahren, das die nachfolgenden
Schritte umfasst:
- das Wählen eines Wertes für die Tonhöhe und das Ermitteln einer Reihe aufeinanderfolgender ganzer Vielfachen
dieses Wertes und das Ermitteln von Intervallen um die Positionen signifikanter Spitzen, wobei die Intervalle
eine Maske mit Öffnungen an der Stelle einer Position einer Spitze definieren und den Vielfachen der Tonhöhe
harmonische Nummern zugeordnet sind, die den Multipli— kationsfaktoren in den genannten Vielfachen entsprechen;
- das Bestimmen der Vielfachen der Tonhöhe, die mit einer Öffnung der Maske zusammenfallen;
- das Berechnen einer Qualitätszahl entsprechend einem Kriterium, die das Ausmass angibt, in dem die Vielfachen
der Tonhöhe und die Offnungen der Maske übereinstimmen;
- das Wiederholen der vorhergehenden Schritte für aufeinanderfolgende
höhere Werte der Tonhöhe bis zu einem bestimmten höchsten Wert, wodurch eine Reihe diesen
Werten der Tonhöhen zugeordneter Qualitätszahlen erhalten wird;
- das Selektieren des Wertes der Tonhöhe mit der höchsten Qualitätszahl, die die Bezugstonhöhe bildet;
- das Zuordnen der harmonischen Nummern der Vielfachen der Bezugstonhöhe zu den in denselben Offnungen liegenden
Positionen signifikanter Spitzen, wobei die harmonischen Nummern die Stellen dieser Positionen der Spitzen in
030026/0739
1979-10-23 ^ PHN 9313
einer Reihe von Harmonischen ein und desselben Grundtons
kennzeichnen;
- das Bestimmen eines wahrscheinlichen Wertes für die Tonhöhe, bei dem die Abweichungen zwischen den letztgenannten Positionen signifikanter Spitzen und den entsprechenden Vielfachen des wahrscheinlichen Wertes mit denselben harmonischen Nummern möglichst klein sind.
- das Bestimmen eines wahrscheinlichen Wertes für die Tonhöhe, bei dem die Abweichungen zwischen den letztgenannten Positionen signifikanter Spitzen und den entsprechenden Vielfachen des wahrscheinlichen Wertes mit denselben harmonischen Nummern möglichst klein sind.
7. Ein Sprachanalysensystem nach Anspruch 6,
dadurch gekennzeichnet, dass die Qualitätszahl Q ent — sprechend einem der nachfolgenden Ausdrücke berechnet
wird:
M + N M. N M + N-2K
wobei K die Anzahl Vielfachen der Tonhöhe, die mit einer Öffnung der Maske zusammenfallen, M die Anzahl Vielfachen
der Tonhöhe der Reihe und N die Anzahl signifikanter
Spitzenpositionen darstellt.
8. Ein Sprachanalysensystem nach Anspurch 7»
dadurch gekennzeichnet, dass in den Ausdrücken für die
Qualitätszahl Q die Grosse M durch M1 ersetzt worden ist,
wobei M1 gleich M weniger die Anzahl Vielfachen der Tonhöhe
ist, die ausserhalb des Gebietes der signifikanten Spitzenpositionen
liegen.
9· Ein Sprachanalysensystenr nach Anspruch 7»
dadurch gekennzeichnet, dass in den Ausdrücken für die
Qualitätszahl Q die Grosse N durch N1 ersetzt worden ist,
die gleich N weniger der Anzahl signifikanter Spitzenpositionen
ist, die ausserhalb des Gebietes der Reihe Vielfachen der Tonhöhe liegen.
10. Ein Sprachanalysensystem nach Anspruch 6,
dadurch gekennzeichnet, dass der wahrscheinliche Wert der Tonhöhe F entsprechend dem nachfolgenden Ausdruck
berechnet wird:
/\ N N „
F = 21 x. * R. /T" R.
° ITi l * fei x
in dem x. den Wert der i. signifikanten Spitzenposition
030026/0739
1979-10-23 5 PHN 9313
und R. die ihr zugeordnete Rangnummer darstellt, wobei N die Anzahl signifikanter Spitzenpositionen darstellt und einer
signifikanten Spitzenposition die Rangnummer Null zugeordnet
wird, wenn in der betreffenden Öffnung der Maske kein 5 Vielfaches der gewählten Tonhöhe liegt.
030026/0739
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NLAANVRAGE7812151,A NL177950C (nl) | 1978-12-14 | 1978-12-14 | Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak. |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2949582A1 true DE2949582A1 (de) | 1980-06-26 |
Family
ID=19832069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19792949582 Ceased DE2949582A1 (de) | 1978-12-14 | 1979-12-10 | Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache |
Country Status (9)
Country | Link |
---|---|
US (1) | US4384335A (de) |
JP (1) | JPS5848117B2 (de) |
AU (1) | AU536724B2 (de) |
CA (1) | CA1223074A (de) |
DE (1) | DE2949582A1 (de) |
FR (1) | FR2444313A1 (de) |
GB (1) | GB2037129B (de) |
NL (1) | NL177950C (de) |
SE (1) | SE465190B (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19906118C2 (de) * | 1999-02-13 | 2001-09-06 | Primasoft Gmbh | Verfahren und Vorrichtung zum Vergleich von in eine Eingabeeinrichtung eingespeisten akustischen Eingangssignalen mit in einem Speicher abgelegten akustischen Referenzsignalen |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0113257B1 (de) * | 1982-12-30 | 1988-09-07 | Victor Company Of Japan, Limited | Notenanzeige-Vorrichtung |
GB2139405B (en) * | 1983-04-27 | 1986-10-29 | Victor Company Of Japan | Apparatus for displaying musical notes indicative of pitch and time value |
NL8400552A (nl) * | 1984-02-22 | 1985-09-16 | Philips Nv | Systeem voor het analyseren van menselijke spraak. |
US4803730A (en) * | 1986-10-31 | 1989-02-07 | American Telephone And Telegraph Company, At&T Bell Laboratories | Fast significant sample detection for a pitch detector |
NL8701798A (nl) * | 1987-07-30 | 1989-02-16 | Philips Nv | Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. |
US4809334A (en) * | 1987-07-09 | 1989-02-28 | Communications Satellite Corporation | Method for detection and correction of errors in speech pitch period estimates |
NL8900520A (nl) * | 1989-03-03 | 1990-10-01 | Philips Nv | Probabilistische toonhoogtemeter. |
US5321636A (en) * | 1989-03-03 | 1994-06-14 | U.S. Philips Corporation | Method and arrangement for determining signal pitch |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
CZ289724B6 (cs) * | 1994-03-11 | 2002-03-13 | Koninklijke Philips Electronics N.V. | Způsob přenosu signálů a kodér a dekodér pro provádění způsobu |
US5870704A (en) * | 1996-11-07 | 1999-02-09 | Creative Technology Ltd. | Frequency-domain spectral envelope estimation for monophonic and polyphonic signals |
US6182042B1 (en) | 1998-07-07 | 2001-01-30 | Creative Technology Ltd. | Sound modification employing spectral warping techniques |
GB2375028B (en) * | 2001-04-24 | 2003-05-28 | Motorola Inc | Processing speech signals |
KR100347188B1 (en) * | 2001-08-08 | 2002-08-03 | Amusetec | Method and apparatus for judging pitch according to frequency analysis |
FR2830118B1 (fr) * | 2001-09-26 | 2004-07-30 | France Telecom | Procede de caracterisation du timbre d'un signal sonore selon au moins un descripteur |
US7272551B2 (en) * | 2003-02-24 | 2007-09-18 | International Business Machines Corporation | Computational effectiveness enhancement of frequency domain pitch estimators |
US7233894B2 (en) * | 2003-02-24 | 2007-06-19 | International Business Machines Corporation | Low-frequency band noise detection |
JPWO2007088853A1 (ja) * | 2006-01-31 | 2009-06-25 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS50155105A (de) * | 1974-06-04 | 1975-12-15 | ||
US4004096A (en) * | 1975-02-18 | 1977-01-18 | The United States Of America As Represented By The Secretary Of The Army | Process for extracting pitch information |
US4059725A (en) * | 1975-03-12 | 1977-11-22 | Nippon Electric Company, Ltd. | Automatic continuous speech recognition system employing dynamic programming |
GB1541041A (en) * | 1976-04-30 | 1979-02-21 | Int Computers Ltd | Sound analysing apparatus |
DE2715411B2 (de) * | 1977-04-06 | 1979-02-01 | Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt | Elektrisches Verfahren zum Bestimmen der Grundperiode eines Sprachsignals |
US4181821A (en) * | 1978-10-31 | 1980-01-01 | Bell Telephone Laboratories, Incorporated | Multiple template speech recognition system |
-
1978
- 1978-12-14 NL NLAANVRAGE7812151,A patent/NL177950C/xx not_active IP Right Cessation
-
1979
- 1979-12-06 CA CA000341411A patent/CA1223074A/en not_active Expired
- 1979-12-10 DE DE19792949582 patent/DE2949582A1/de not_active Ceased
- 1979-12-11 AU AU53682/79A patent/AU536724B2/en not_active Ceased
- 1979-12-11 GB GB7942692A patent/GB2037129B/en not_active Expired
- 1979-12-11 SE SE7910165A patent/SE465190B/sv not_active IP Right Cessation
- 1979-12-14 FR FR7930736A patent/FR2444313A1/fr active Granted
- 1979-12-14 JP JP54161723A patent/JPS5848117B2/ja not_active Expired
-
1982
- 1982-02-11 US US06/347,763 patent/US4384335A/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19906118C2 (de) * | 1999-02-13 | 2001-09-06 | Primasoft Gmbh | Verfahren und Vorrichtung zum Vergleich von in eine Eingabeeinrichtung eingespeisten akustischen Eingangssignalen mit in einem Speicher abgelegten akustischen Referenzsignalen |
US6505154B1 (en) | 1999-02-13 | 2003-01-07 | Primasoft Gmbh | Method and device for comparing acoustic input signals fed into an input device with acoustic reference signals stored in a memory |
Also Published As
Publication number | Publication date |
---|---|
SE7910165L (sv) | 1980-06-15 |
NL7812151A (nl) | 1980-06-17 |
FR2444313A1 (fr) | 1980-07-11 |
AU5368279A (en) | 1980-06-19 |
CA1223074A (en) | 1987-06-16 |
NL177950C (nl) | 1986-07-16 |
GB2037129B (en) | 1983-02-09 |
GB2037129A (en) | 1980-07-02 |
US4384335A (en) | 1983-05-17 |
JPS5583100A (en) | 1980-06-23 |
NL177950B (nl) | 1985-07-16 |
FR2444313B1 (de) | 1983-08-05 |
JPS5848117B2 (ja) | 1983-10-26 |
AU536724B2 (en) | 1984-05-24 |
SE465190B (sv) | 1991-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2949582A1 (de) | Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache | |
DE3339288C2 (de) | ||
DE3819178C2 (de) | ||
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE68929102T2 (de) | Lernverarbeitungssystem | |
DE2934489C2 (de) | ||
DE3236834A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE2659083C2 (de) | Verfahren und Vorrichtung zur Sprechererkennung | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE2820645A1 (de) | Vorrichtung und verfahren zur spracherkennung | |
DE69614233T2 (de) | Sprachadaptionssystem und Spracherkenner | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE112018006885B4 (de) | Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
DE112020006911T5 (de) | Datenerzeugungsvorrichtung, System für maschinelles Lernen und Bearbeitungszustands-Schätzvorrichtung | |
DE4328752B4 (de) | Spracherkennungssystem | |
DE10295594T5 (de) | ARB-Generator mit mehreren Ausgängen | |
DE102019119776A1 (de) | Zeitverschachtelte digital-analog-wandler-korrektur | |
DE102019001129A1 (de) | Numerische Steuervorrichtung | |
DE3043516A1 (de) | Verfahren und vorrichtung zur spracherkennung | |
DE3929481C2 (de) | ||
EP3812949A1 (de) | Konfigurierbarer digitaler zwilling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8131 | Rejection |