DE2949582A1 - Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache - Google Patents

Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache

Info

Publication number
DE2949582A1
DE2949582A1 DE19792949582 DE2949582A DE2949582A1 DE 2949582 A1 DE2949582 A1 DE 2949582A1 DE 19792949582 DE19792949582 DE 19792949582 DE 2949582 A DE2949582 A DE 2949582A DE 2949582 A1 DE2949582 A1 DE 2949582A1
Authority
DE
Germany
Prior art keywords
pitch
mask
value
significant
positions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19792949582
Other languages
English (en)
Inventor
Hendrikus Duifhuis
Robert Johannes Sluyter
Leonardus Franciscus Willems
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Gloeilampenfabrieken NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Gloeilampenfabrieken NV filed Critical Philips Gloeilampenfabrieken NV
Publication of DE2949582A1 publication Critical patent/DE2949582A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)

Description

N.V. Philips'6!o::i---in^'--lrni Fjndtovm 2949582
I979-IO-23 -t- Vf PHN 9313
"Verfahren und Anordnung zur Bestimmung der Tonhöhe in menschlicher Sprache".
A. Hintergrund der Erfindung A.(1) Gebiet der Erfindung
Die Erfindung bezieht sich auf ein Sprachanalysesystem, in dem das Amplitudenspektrum eines Sprachsignals analysiert wird, indem regelmässig Zeitsegmente des Sprachsignals selektiert und von jedem Sprachsegment eine Reihe von Spektrumkomponenten bestimmt werden, die die diskrete Fourier-Transformation von Abtastwerten des Sprachsignals bilden, und in jedem Zeitsegment die Positionen signifikanter Spitzen in dem Spektrum aus der Reihe von Spektrumkomponenten abgeleitet werden.
Die signifikanten Spitzenpositionen bilden die Eingangsdaten für ein nachfolgendes Teil des Sprachanalysesystems, das zum Ermitteln der Tonhöhe des Sprachsignals IS dient.
A.(2) Beschreibung des Standes der Technik.
Ein Sprachanalysesystem, das eine FFT-Transformation der oben beschriebenen Art benutzt, ist in "IEEE Transactions on Acoustics, Speech and Signal Processing", Vol. ASSP-26, Nr. k, August 1978, Seiten 358-365 beschrieben.
Die Tonhöhe wird dabei aus den Abständen zwischen den Spitzen in dem Spektrum ermittelt.
In einem Artikel in Philips Technical Review, Heft 5, Nr. 10, Oktober 19^0, Seiten 286-29** wurde bereits dargelegt, dass die Tonhöhe keine Korrelation mit dem Abstand zwischen den Harmonischen, sondern mit der Periodizität der kollektiven Schwingungsform der zusammengesetzten Harmonischen bildet.
In der Dissertation von E. de Boer mit dem Titel: On the "residue" in hearing, Universität Amsterdam, wird ein m.s.e.-Kriterium (mean-square-error) zum Ermitteln eines bestimmten wahrscheinlichen Werts der Tonhöhe angewandt, der zu einer Reihe von Spektrumkomponenten gehört, von de-
030026/0739
1979-10-23 Or τ PHN 9313
nen die sog. "harmonischen Nummern" bekannt sind. Dies sind die Nummern der nächstliegenden Harmonischen des Grundtons.
In Journal of the Acoustic Society of America, Heft 5^, Nr. 6, Juni 1973i Seiten 1496-I516 wurde dargelegt, dass das obengenannte m.s.e.-Kriterium und das in diesem Artikel entwickelte, auf psychophysisehen Erscheinungen beruhende "maximum likelihood"-Kriterium zu derselben Schätzung der Tonhöhe führen.
Bei der Analyse von Sprachsignalen aus Quellen wie Fernsprechleitungen tritt nicht nur das Problem auf, dass der Grundton selbst fehlen kann, sondern auch, dass Störkomponenten eingeführt werden, die das Ergebnis der Tonhöhenermittlung stark beeinträchtigen können. B. Zusammenfassung der Erfindung.
Die Erfindung hat zur Aufgabe, ein Sprachanalysesystem zur Ermittlung der Tonhöhe von Sprachsignalen zu schaffen, das gegenüber Störsignalen unempfindlich ist und das weniger Berechnungen erfordert, als wenn für jede mögliche Reihe harmonischer Nummern ein Fehler berechnet werden muss.
Diese Aufgabe wird in einem Sprachanalysesystem vom eingangs genannten Typ nach der Erfindung durch ein Verfahren gelöst, das die nachfolgenden Schritte umfasst:
- das Wählen eines Wertes für die Tonhöhe und das Ermitteln einer Reihe auf-einanderf öl gender ganzer Vielfachen dieses Wertes und das Ermitteln von Intervallen um diesen Wert und dessen Vielfachen, wobei die Intervalle eine Maske mit Oeffnungen an der Stelle eines Intervalls definieren, und den Oeffnungen harmonische Nummern
zugeordnet sind, die den Multiplikationsfaktoren in den genannten Vielfachen entsprechen;
- das Bestimmen der signifikanten Spitzenpositionen, die mit einer Oeffnung der Maske zusammenfallen;
- das Berechnen einer Qualitätszahl entsprechend einem Kriterium, die das Ausmass angibt, in dem die signifikanten Spitzenpositionen und die
030026/0739
1979-10-23 2f O PHN 9313
Oeffnungen der Maske übereinstimmen;
- das Wiederholen der vorhergehenden Schritte für aufeinanderfolgende höhere Werte der Tonhöhe bis zu einem bestimmten höchsten Wert, wodurch eine Reihe diesen Werten der Tonhöhe zugeordneter
Qualitätszahlen erhalten wird;
- das Selektieren des Wertes der Tonhöhe mit der höchsten Qualitätszahl, wobei deren zugeordnete Maske eine Bezugsmaske bildet; - das Zuordnen der harmonischen Nummern der Oeff
nungen der Bezugsmaske zu den mit diesen Oeffnungen zusammenfallenden signifikanten Spitzenpositionen, wobei die harmonischen Nummern die Stellen dieser Spitzenpositionen in einer Reihe von Harmonischen ein und desselben Grundtons
kennzeichnen;
- das Bestimmen eines wahrscheinlichen Wertes für die Tonhöhe, bei dem die Abweichungen zwischen den letztgenannten signifikanten Spitzenpositionen und den entsprechenden Vielfachen des wahr
scheinlichen Wertes mit denselben harmonischen Nummern möglichst klein sind.
Der Wert der Tonhöhe mit der höchsten Qualitätszahl selbst kann als Schätzung der wirklichen Tonhöhe benutzt werden, in welchem Fall die letzten drei Schritte des Verfahrens auf nur einen Schritt zurückgeführt werden. Eine genauere Schätzung wird aber erhalten, wenn in dem letzten Schritt eine Optimalisierung unter Anwendung des m.s.e.-Kriteriums benutzt wird. —
Bei einer anderen, auf dem selben Prinzip beruhenden erfindungsgemässen Lösung der selben Aufgabe wird die Maske aus den Positionen signifikanter Spitzen gebildet und mit Vielfachen der Tonhöhe verglichen.
C. Beschreibung der Ausführungsbeispiele.
Fig. 1 zeigt ein schematisches Flussdiagramm mit
der Folge von Operationen entsprechend dem erfindungsgemässen Sprachanalysesystem; Fig. 2 zeigt ein Flussdiagramm eines Programms
030026/0739
1979-10-23 -V 7 PHN 9313
eines digitalen Computers zum Durchführen gewisser Operationen in dem Sprachanalysensystem nach Fig. 1;
Fig. 3 zeigt ein Flussdiagramm eines Computerprogramms zum Ausführen gewisser Funktionen
aus dem Flussdiagramm nach Fig. 1; Fig. k zeigt ein schematisch.es Blockschaltbild einer elektronischen Anordnung des Sprachanalyse sy st ems
Fig. 5 zeigt das Flussdiagramm eines Programms,
das mit dem Mikroprozessorteil der Apparatur nach Fig. k durchgeführt werden muss, um bestimmte Operationen in dem betreffenden Sprachanalysesystem durchzuführen.
In dem Sprachanalysesystem soll ein sog. "shorttime"-Amplitudenspektrum des Sprachsignals gebildet werden, das ein laufendes Bild des Amplitudenspektrums gibt.
Von dem abgetasteten Sprachsignal werden Zeitsegmente mit einer Dauer von ^O ms genommen. Diese Funktion wird durch Block 10 mit der Inschrift kO ms dargestellt. Die nächste Bearbeitung ist das Multiplizieren des Sprachsignalsegments mit einem sog. "Hamming window", welche Funktion durch Block 11 mit der Inschrift WNDW dargestellt wird.
Die Abtastwerte des Sprachsignalsegments werden daraufhin einer diskreten Fourier-Transformation mit 256 Punkten ausgesetzt, wie durch Block 12 mit der Inschrift DFT dargestellt.
In einem nachfolgenden Verfahren werden die Amplituden von 128 Spektrumkomponenten aus den 256—reellen und imaginären Werten, die durch die DFT geliefert werden, bestimmt. Aus diesen Spektrumkomponenten werden die signifikanten Spitzenpositionen x. abgeleitet, die die Stellen der Spitzen in dem Spektrum darstellen. Diese Funktionen werden durch Block I3 mit der Inschrift DRV x. dargestellt. Als nächster Schritt in dem Verfahren wird ein Wert F für die Tonhöhe gewählt, wie dieser durch Block ~\k dargestellt ist.
Um diesen Anfangswert herum und eine Anzahl auf-
030026/0739
1979-10-23 -# ήίΓ PHN 9313
einanderfolgender ganzer Vielfachen derselben herum werden Intervalle definiert. Diese Intervalle werden als Oeffnungen in einer Maske betrachtet in dem Sinne, dass ein Frequenzwert x., der mit einer Oeffnung zusammenfällt, von der Maske durchgelassen werden wird. In diesem Sinne ist die Maske als eine Art von Sieb für Frequenzwerte wirksam. Diese Operationen werden durch Block 15 mit der Inschrift MSK dargestellt.
Den Oeffnungen einer Maske sind Nummern zugeordnet, die als harmonische Nummern bezeichnet werden und die den Multiplikationsfaktoren der betreffenden Vielfachen des gewählten Wertes der Tonhöhe entsprechen.
In einer folgenden Bearbeitung wird ermittelt, in welchem Ausmass die signifikanten Spitzenpositionen x. und die Oeffnungen der Maske übereinstimmen. Wenn wenig signifikante Spitzenpositionen von der Maske durchgelassen werden, gibt es ganz klar eine schlechte Uebereinstimmung. Wenn andererseits viele der Spitzenpositionen durchgelassen werden, aber viele Oeffnungen in der Maske keine signifikanten Spitzenpositionen durchlassen, weil diese an dieser Stelle nicht vorhanden sind, ist ebenfalls von einer schlechten Uebereinstimmung die Rede.
Es ist möglich, ein gutes Kriterium zu finden, um das Ausmass der Uebereinstimmung in einer Qualitätszahl zum Ausdruck zu bringen, wie untenstehend noch näher erläutert wird. An dieser Stelle in der Beschreibung reicht es aus zu erwähnen, dass für die Maske eine geeignete Qualitätszahl berechnet wird. Diese Operation steht in dem Block 16 mit der Inschrift QLT. —
In der Entscheidungsraute 17 wird geprüft, ob der Wert F , der für die Tonhöhe gewählt worden ist, kleiner
ist als ein bestimmter maximaler Wert: F < MX. Wenn dies
der Fall ist, geht es weiter über den Y-Zweig der Raute 17» wodurch eine Schleife 18 zum Block 15 entsteht. In dieser Schleife wird der Wert von F in einer bestimmten Weise er-
höht: um einen bestimmten Betrag oder einen bestimmten Prozentsatz. Diese Funktion wird durch den Block I9 mit der Inschrift NCR F dargestellt.
030026/0739
1979-10-23 -6" ήή PHN 9313
Die Folge des Vorhandenseins der Entscheidungsraute 17 ist, dass die Vorgänge, die durch die Blöcke I5 und 16 dargestellt werden, für immer wieder neue Werte von F wiederholt werden, bis F den maximalen ¥ert MX erreicht.
S S
Wenn dies der Fall ist, geht es weiter Über den N-Zweig und wird die Schleife 18 verlassen.
Die nächste Operation in dem Sprachanalysesystem besteht dann in der Ermittlung der Maske oder des Wertes F
der Tonhöhe, deren Qualitätszahl den höchsten Wert hat. Diese Funktion wird durch Block 20 mit der Inschrift SLCT F
dargestellt.
In dem betreffenden Sprachanalysesystem wird
daraufhin in zwei Schritten eine genaue Schätzung der Tonhöhe des Sprachsegmentes gemacht, ausgehend von dem selektierten Wert F . Zu diesem Wert gehört eine Maske, die als
Bezugsmaske bezeichnet wird. Diese letzten zwei Schritte in der Prozedur zur Ermittlung der Tonhöhe werden durch Block 21 mit der Inschrift STM F dargestellt, dessen Ausgangszweig den geschätzten Wert F der Tonhöhe gibt. In einem ersten der zwei Schritte werden die harmonischen Nummern der Oeffnungen der Bezugsmaske den mit diesen Oeffnungen zusammenfallenden signifikanten Spitzenpositionen x. zugeordnet. Jede dieser Spitzenpositionen x.
1 Λ 1
erhält dann eine harmonische Nummer n. die die Stelle der
Spitzenpositionen in der Reihe von Harmonischen desselben
Grundtons bestimmt.
Ein wahrscheinlicher Wert von F : F kann als
ο ο
der Wert definiert werden, für den die Abweichungen zwischen den letztgenannten signifikanten Spitzenpositionen x. und den entsprechenden Vielfachen n..F des wahrscheinlichen Wertes möglichst klein sind. Wenn zum Ermitteln der Abweichungen ein m.s.e.-Kriterium (mean-square-error) ange-
A
wandt wird, lässt sich F durch den folgenden Ausdruck be
rechnen:
A _K_ Λ ,K__ a
F= J-, χ. η. /12-: η. (ΐ)
ο i=i 1 1 ' 1=1 1 x '
Die Summierung in diesem Ausdruck erstreckt sich über alle signifikanten Spitzenpositionen, die mit einer
030026/0739
1979-10-23 -Jf ή% ΡΗΝ 9313
Oeffnung der Bezugsmaske zusammenfallen und deren Anzahl durch K dargestellt wird.
Es dürfte einleuchten, dass der Wert der Tonhöhe, der zu der Bezugsmaske gehört, bereits eine erste Schätzung der gesuchten Tonhöhe bildet. Wenn diese Schätzung benutzt wird, werden die letzten drei Schritte der obenstehend beschriebenen Routine im wesentlichen auf nur einen Schritt zurückgebracht. Eine wesentlich genauere Schätzung wird jedoch dadurch erhalten, dass der Ausdruck (i) verwendet wird. Manche Operationen des betreffenden Sprachanalysesystems können als Programm eines Mehrzweckcomputers ausgebildet werden. Andere können durch Verwendung äusserer Einrichtungen beschleunigt werden.
In Fig. 2 ist ein Flussdiagramm zur Ermittlung der signifikanten Spitzenpositionen x. dargestellt, eine Funktion, die in Fig. 1 durch Block I3 erfüllt wird.
Die Blöcke 22, 23 und 2k entsprechen den Blöcken 10, 11 bzw. 12 aus Fig. 1. Der Block 25 mit der Inschrift MP stellt die Amplitudenermittlungsfunktion aus Block I3 nach Fig. 1 dar. Die Funktionen der Blöcke 22-25 lassen sich in dem System unter Verwendung bekannter Bauelemente verwirklichen. Vom Block 25 an wird die Prozedur durch das Programm eines Mehrzweckcomputers verwirklicht.
Der Computer erhält als Eingangsdaten die Kompo-
nenten AF(r), r= 1, - , 128 des Amplitudenspektrums,
wie durch Block 26 dargestellt.
Als Anfangswerte für die Routine werden r = 2 und N=O gewählt. Diese Funktion wird durch Block 27 dargestellt, Anfangend mit der Spektrumkomponente AF(2) wird-dann geprüft, ob diese Komponente grosser oder gleich der vorhergehenden Spektrumkomponente AF(1) ist und ob die Spektrumkomponente AF(2) grosser ist als die nachfolgende Spektrumkomponente AF(3). Diese Funktion wird durch die Entscheidungsraute 28 dargestellt. Wenn die Spektrumkomponente ein örtliches Maximum bildet, geht es weiter über den Y-Zweig der Raute 28.
Der N-Zweig der Raute 28 führt zum Block 29, der angibt, dass r um eins erhöht wird. Danach wird in der Ent-
030026/0739
1979-10-23 -β*" ^3 ΡΗΝ 9313
scheidungsraute 30 untersucht, ob r grosser oder gleich 127 geworden ist. Solange dies nicht der Fall ist, wird eine Schleife zur Raute 28 gebildet. Die Funktion der Raute 28 wird dann mit einem neuen Wert von r wiederholt.
Der Y-Zweig der Entscheidungsraute 28 führt zu der Entscheidungsraute 32, in cbr untersucht wird, ob die Spektrumkomponente AF(r) grosser ist als ein Schwellenwert THD. Ist dies nicht der Fall, so wird der N-Zweig aktiv und geht über die Blöcke 29 und 30 in die Schleife 31 hinein, solange der neue Wert von r kleiner ist als 127.
Der Schwellenwert THD wird an erster Stelle durch einen Absolutwert gebildet, der durch den Pegel des Rauschens bestimmt wird, das eine Folge der Quantisierung und der "Hamming window"-Funktion ist.
An zweiter Stelle kann ein Teil des Schwellenwerts THD veränderlich sein, um das Maskieren einer Spektrumkomponente durch die benachbarten Spektrumkomponenten zu berücksichtigen, wenn diese eine viel grössere Amplitude aufweisen. Dieser Effekt tritt bei dem menschlichen Gehör auf und ist ein wesentlicher Faktor bei der Tonhöhenbestimmung.
Wenn es über den Y-Zweig der Entscheidungsraute 32 weitergeht,wird eine Operation durchgeführt, um die Amplitude und die Frequenz des örtlichen Maximums des Amplitudenspektrums zu ermitteln. Dazu wird"eine Interpolation zwischen den Werten AF(r-i), AF(r) und AF(r+i) mit einem Iblynom zweiten Grades (parabelförmige Interpolation) angewandt. Diese Funktion wird durch Block 33 mit der Inschrift NTRP dargestellt. -
Die nachfolgende Operation betrifft einen Test der Form des Amplitudenspektrums in der Umgebung des örtlichen Maximums. Das Polynom zweiten Grades (Parabel), das in der vorhergehenden Operation gefunden wurde, nähert die regulären Form an. Die Form des örtlichen Maximums wird dadurch getestet, dass die Unterschiede zwischen den Spektrumkomponenten AF(r-2) und AF(r+2) und den erwarteten Werten derselben, die auf der Parabel liegen, ermittelt werden. Ein örtliches Maximum wird als regulär betrachtet, wenn der
030026/0739
1979-10-23 jy ήψ PHN 9313
mittlere quadratische Fehler unterhalb eines bestimmten Wertes liegt. Die Funktion des Testvorgangs der Form wird durch die Entscheidungsraute Jh mit der Inschrift SHP dargestellt .
Wenn die Form des Maximums dem Formkriterium nicht entspricht, wird der N-Zweig aktiv, und es wird über die Blöcke 29 und 30 in den Block 3I gegangen. Die Routine der Entscheidungsraute 28 wird dann mit einem neuen Wert von r wiederholt.
Wenn die Form des Maximums der Anforderung ent-
1 spricht, wird der Y-Zweig der Entscheidungsraute Jk aktiv und wird in den Block 35 gegangen, indem der Wert von N um eins erhöht wird. Danach wird in die Entscheidungsraute J6 gegangen. Wenn N nicht grosser.ist als ein bestimmter Wert, z.B. in dem betreffenden System sechs, wird der N-Zweig aktiv, und es wird über die Blöcke 29 und 30 in die Schleife 31 hineingegangen.
Die Ermittlung örtlicher Maxima des Amplitudenspektrums wird fortgesetzt, bis maximal die obenerwähnte sechs signifikante Spitzenpositionen x. ermittelt sind.
Wenn dies der Fall ist wird der Y-Zweig der Entscheidungsraute 36 aktiv und werden die signifikanten Spitzenpositionen x. ausgeführt (Block 37).
Die signifikanten Spitzenpositionen x., die nach der Routine entsprechend Fig. 2 erhalten werden, bilden die Eingangsdaten für die Routinp nach Fig. 3·
Fig. 3 zeigt das Flussdiagramm eines Programms zum Ermitteln eines wahrscheinlichen Wertes der Tonhöhe unter Verwendung des Konzepts der Masken. — Das Programm erhält als Eingangsdaten die signifikantenSpitzenpositionen χ. , i = 1 , .... ,N, wie im Block 38 dargestellt. Diese werden auch als Komponenten bezeichnet .
Als Anfangswert für die Tonhöhe f wird gewählt f =0, und die Variable C wird auf den maximalen Wert eingestellt (Block 39).
Wenn die Anzahl angebotener Komponenten kleiner als eins ist (Raute ko), wird die Routine verlassen und der
030026/0739
1979-10-23 +er >/5* ρην 9313
Wert f = 0 ausgeführt (Block 41).
Werden eine oder mehrere Komponenten eingeführt, so geht die Routine weiter.
Als Vorbereitung wird die Variable 1, die die Nummer der Maske angibt, auf 1=1 eingestellt (Block k2).
Danach folgt die Spezifikation eines Wertes der Tonhöhe f 1, und es werden einige Variablen auf einen Anfangswert eingestellt (Block ^3) .
In dem folgenden Vorgang (Block kk) wird anfangend mit der ersten Komponente χ eine Schätzung der der Komponente χ zugeordneten harmonischen Nummer m-, gemacht und wird dieser Wert auf die am nächsten liegende ganze Zahl mlk gerundet.
Wenn m.., grosser ist als 11 (Entscheidungsraute ^5), wird ein grosser Teil des Programms übersprungen, weil in dem betreffenden Sprachanalysensystem Harmonische mit einer höheren Nummer als 11 nicht zur Tonhöhenermittlung einbezogen werden.
Daraufhin wird ermittelt, ob m... den Wert Null hat (Entscheidungsraute k6). Ist dies nicht der Fall, so wird geprüft, ob die Komponente x. in die Oeffnung der Maske mit der Tonhöhe f . fällt. Wenn die relative Abweichung von χ gegenüber der am nächsten liegenden Harmonischen des Grundtons f 1 kleiner ist als ein bestimmter Prozentsatz, in dem betreffenden System 5%> wird vorausgesetzt, dass χ. in der Oeffnung liegt (Entscheidungsraute ^7)·
Wenn die Komponente χ in einer Oeffnung einer Maske liegt, wird der N-Zweig der Entscheidungsraute kj aktiv. Daraufhin wird ermittelt, ob die erste harmonische Nummer der Reihe m . grosser ist als 7 (Entscheidungsraute k8). Wenn dies der Fall ist, wird ein Teil des Programms übersprungen, weil in dem betreffenden Sprachanalysensystem keine Reihen, die mit einer derartigen hohen harmonischen Nummer anfangen, zu der Ermittlung der Tonhöhe verwendet werden, Wenn die niedrigste harmonische Nummer gleich ist an oder kleiner ist als 7» wird der N-Zweig der Entscheidungsraute k8 aktiv, und es wird in die Entscheidungsraute k9 gegangen.
030026/0739
1979-10-23 -M" 'Iv PHN 9313
Die nächste Operation betrifft nun den Fall, dass für In1 derselbe Wert gefunden wird wie für den Wert m (K+l=k), der das vorhergehende Mal ermittelt wurde (Für k=1, wird m verglichen mit dem vorabgesetzten Wert m1 =0). In diesem Fall liegen zwei Komponenten in derselben Öffnung der Maske. Das betreffende Sprachanalysensystem akzeptiert nur die Komponente, die der Mitte der Öffnung am nächsten liegt, und lehnt die ändere Komponente ab.
Die Variable K zählt die Anzahl Komponenten, die ]q in einer Öffnung liegen. Wenn m , grosser ist als m v (Entscheidungsraute hs), wird danach K um eins erhöht (Block 52).
Wenn jedoch m>, nicht grosser ist als m1Tf, wird
X IC XXv
ermittelt, für welchen der Werte ro., und m die kleinste relative Abweichung gegenüber der Mitte der Öffnung auftritt (Entscheidungsraute 50). Wenn dies der Fall ist für m , wird m gleich m.. eingestellt (Block 51 )· In dem anderen Fall wird mnTr nicht geändert. In den beiden Fällen wird K
XiV
nicht erhöht.
Wenn das Programm dem Y-Zweig der Entscheidungsraute HS, dem Y-Zweig der Entscheidungsraute k7 oder dem N-Zweig der Entscheidungsraute 50 folgt, oder nach den Operationen der Blöcke 5I oder 52, wird der Wert von η um eins erhöht (Block 53)· Die Variable η zählt die angebotenen Komponenten x., und wenn η kleiner ist als die Gesamtanzahl angebotener Komponenten (Entscheidungsraute 5Ό» geht es in die Schleife 55 hinein.
Die beschriebene Routine fängt dann von neuem bei Block kk für einen neuen Wert von η an. Auf diese. Weise wird die Routine für alle N Komponenten x. wiederholt.
Wenn η grosser wird als N, wird dem Y-Zweig der Entscheidungsraute $k gefolgt. Danach wird registriert, dass für die Maske mit dem Index 1 die Anzahl in Betracht gezogener Komponenten N1 gleich N ist. Wenn das Programm dem Y-Zweig der Entscheidungsraute h5 folgt, wird N1 gleich η eingestellt (Block 57)· Komponenten x. mit einem höheren Indexwert haben eine geschätzte harmonische Nummer, die grosser ist als 11, und werden bei der Tonhöhenermittlung
030026/0739
1979-10-23 +& Ί Γ PHN 9313
nicht in Betracht gezogen. Eine Maske hat in dem betreffenden Sprachanalysensystem 11 Offnungen, und Komponenten x., die ausserhalb der Maske liegen, werden bei der Ermittlung der Tonhöhe nicht mit berücksichtigt.
In der nachfolgenden Operation wird ermittelt, ob mindestens die Hälfte der angebotenen Komponenten x. von der Maske durchgelassen werden (Entscheidungsraute 58)· Dies ist eine nicht sehr strenge Anforderung, mit der auf jeden Fall der triviale Fall N=O ausgeschlossen wird.
Die nachfolgende Prozedur bezieht sich auf die Berechnung einer Qualitätszahl Q, mit der das Ausmass angegeben wird in dem die Komponenten x. und die Offnungen der Maske übereinstimmen.
Eine Qualitätszahl kann dadurch abgeleitet werden, dass die Reihe angebotener Komponenten x. und die Reihe Offnungen einer Maske als Vektoren in einem mehrdimensionalen Raum deren Projektionen auf der Koordinaten-Achsen den Wert Null oder Eins haben, betrachtet werden. Der Abstand zwischen den Vektoren gibt an, wie gut die Komponenten x. und die Maske aufeinander passen. Die Qualitätszahl kann dann als eins geteilt durch den Abstand berechnet werden. Statt des Abstandes kann auch jeder andere Ausdruck genommen werden, der minimal ist, wenn der Abstand minimal ist, und umgekehrt.
Es lässt sich auf elementare Weise darlegen, dass der Abstand D wie folgt ausgedrückt werden kann:
D =VN + M - 2k" (2)
wobei N die Anzahl Komponenten x., M die Anzahl Offnungen der Maske und K die Anzahl Komponenten x. darstellt, die in den Offnungen der Maske liegen.
Die Qualitätszahl Q lässt sich wie folgt ausdrücken :
D N + M - 2K
Der Abstand D kann dadurch genormt werden, dass er durch die Länge des Einheitsvektors
E =Vn + M-K (h)
030026/0739
1979-10-23 J-^ /I Λ PHN 9313
geteilt wird.
Dies würde zu der folgenden Qualitätszahl führen:
Q . lL . ·- (5)
D*" N + M - 2K
Nach elementaren Bearbeitungen lässt sich darlegen, dass Q nach dem Ausdruck (5) maximal ist, wenn Q1 nach dem Ausdruck
maximal ist. Es ist dann erlaubt, Q durch Q' zu ersetzen.
Eine andere Qualitätszahl kann bestimmt werden aus den Winkel zwischen den zwei Vektoren. Auf elementare Weise kann dargelegt werden, dass der Winkel minimal ist, wenn Q1· nach dem Ausdruck:
2
Q" = (7)
. . , N.M
maximal ist.
Komponenten x., die ausserhalb der Maske liegen, tragen nicht zu dem Wert von K bei, obschon sie mit dem Grundton der Maske einen harmonischen Zusammenhang haben können. Eine besser brauchbare Qualitätszahl wird erhalten werden, wenn in den Ausdrücken für Q die Grosse N durch N1 ersetzt wird, die die Anzahl Komponenten angibt, die innerhalb des Bereichs der Maske liegen.
Es kann passieren, dass Offnungen der Maske ausserhalb des Bereichs der angebotenen Komponenten liegen und deshalb keine Komponente durchlassen. Die Qualitätszahl kann dazu dadurch korrigiert werden, dass in dem Ausdruck für Q die Grosse M durch m ersetzt wird, die die
liv
höchste Nummer der Offnungen ist, die eine Komponente durchlässt.
In der Prozedur nach Fig. 3 wird, nachdem der N-Zweig der Entscheidungsraute ^S aktiv geworden ist, eine Grosse C1 errechnet, die die Inverse der Qualitätszahl Q nach dem Ausdruk (6) ist, mit N ersetzt durch N und M
ersetzt durch m1v. (Block 59)·
llv
In der nachfolgenden Operation wird ermittelt, ob C. grosser ist als der Wert der Variable C. (Entscheidungs-
030026/0739
1979-1O-23 -♦''γ 77 PHN 93T3
raute 6o). Wenn dies nicht der Fall ist, wird C der Wert C, gegeben. Dies bedeutet, dass die jetzige Maske eine bessere Übereinstimmung ergibt als die vorhergehende. Die Tonhöhe f wird nun entsprechend dem Ausdruck (l) (Block 61) errechnet.
Nach der Operation des Blocks 61 oder wenn das Programm dem Y—Zweig der Entscheidungsraute 58 oder dem Y-Zweig der Entscheidungsraute 60 folgt, wird der Index 1 der Maske um eins erhöht (Block 62). Wenn 1 kleiner ist als die Gesamtanzahl der Masken L (Enscheidungsraute 63), geht es in die Schleife 6k hinein und wird die beschriebene Routine mit einem neuen Wert 1 wiederholt, bis alle Masken verarbeitet sind.
Wenn 1 grosser wird als L, wird der Y-Zweig der Entscheidungsraute 63 aktiv und der zuletzt berechnete Wert von f ausgeführt (Block 65).
Das vorliegende Sprachanalysensystem kann durch das Programm eines Mehrzweck-Digital—Computers verwirklicht werden oder zum Teil in einer externen Anordnung und zum restlichen Teil in dem Programm.
Ein Beispiel einer Anordnung, die zur Verwirklichung des betreffenden Sprachanalysensystems verwendet werden kann, ist in Fig. k dargestellt.
Als Eingangssignal erhält diese Anordnung ein analoges Sprachsignal (Eingang IOO). -Dieses Signal wird in einem Tiefpassfilter 101 gefiltert und dann von einem Abtastschalter 102 abgetastet, der mit einer Abtastfrequenz von ^kHz arbeitet.
Die folgende Operation ist die Analag-Digital-Umwandlung der Abtastwerte des Sprachsignals im A/D \todler 103. Die kodierten Signalabtastwerte werden in einem Pufferspeicher 104 mit einer Kapazität von 200 Abtastwerten gespeichert. Die Errechnung der Tonhöhe beansprucht z.B. 10 ms, während für jede Berechnung ein Sprachsegment von kO ms verwendet wird. Die Kapazität des Pufferspeichers "lOk muss dann für 50 ms Sprache oder 200 Abtastwerte ausreichen.
Aus den I60 jüngsten Abtastwerten a., 1=1,
030026/0739
C . , = COS
ik
s., = sin
1979-10-23 *Τ *iV PHN 9313
160 werden mit Hilfe einer diskreten Fouriertransformation (DFT) 6k Frequenzpunkte des Amplitudenspektrums errechnet. Diese Punkte liegen auf den Frequenzen (25 + k.25)Hz, k =
1 , 2, 6k.
Die Koeffizienten der DFT sind:
2tT(k + i)(i - 8O,5)/16OJ 2"rt"(k + i)(i - 8θ,5)/ΐ6θ] Die Multiplikation mit dem "Hamming window" erfolgt dadurch, dass die Koeffizienten der DFT mit dem ]Q "Hamming window" entsprechend den folgenden Faktoren multipliziert werden:
Η± = 0,5** + 0,46 cos l2TT(i - 8O,5)/i6oJ
i = 1 , 2 , 160
Jeder Frequenzpunkt besteht aus einem reellen Teil FR, und einem imaginären Teil FI, , die wie folgt erreichriet werden: ..,-_
FR, = 5 a. * c , * H. k j~-_ 1 i ik i
160
FI1 = > a. * s .. * H.
/u k f—2 1 ■ ik χ
Diese Operationen werden durch einen Multiplizierer 105 und einen Koeffizientenspeicher IO6 (ROM) in Kombination mit einem Akkumulator IO7 durchgeführt.
Zum errechnen der 6k Frequenzpunkte muss der Multiplizierer IO5 20^80 Multiplikationen durchführen. Bei einer Multiplikationszeit von 150 ns beträgt die gesamte Rechenzeit 3.072 ms. Ein geeigneter Multiplizierer ist der vom Typ MPY-12AJ von TRW. _
Die berechneten Werte der Frequenzpunkte werden im Pufferspeicher 108 gespeichert. Wenn das Spektrum berechnet ist, wird vom Taktimpulsgenerator IO9 ein Unterbrechungssignal am Ausgang 110 erzeugt, der mit dem Unterbrechungseingang des Mikrocomputers verbunden ist, der in dem Block 111 dargestellt ist.
Der Ausgang des Puffers 108 ist an den Dateneingang des Mikrocomputers angeschlossen, der nach Empfang eines Unterbrechungssignals die Werte aus dem Pufferspeicher
030026/0739
1979-10-23 +6· 4'J PHN 9313
108 in den Arbeitsspeicher übernimmt.
Der Mikrocomputer basiert auf dem Signetics 3000 Mikroprozessor und umfasst eine zentrale Verarbeitungseinheit (CPU) 112, einen direkt zugänglichen Speicher (RAM) 113, eine MikroSteuereinheit (MCU) 114, einen Mikroprogrammspeicher (MFM) 115 und ein Ausgangsregister (OR) 116.
Beim Durchführen eines Programms erzeugt MCU Adressen für MPM 115. Dieser führt der CPU 112 (Leitung 117) Instruktionen zu und führt Daten in bezug auf die nachfolgende Instruktion zu der MCU 114 (Leitung 118) zurück.
Zwecks Einga^g-/Ausgangsteuerung führt der
MPM 115 dem RAM 113 (Leitung 119) und dem Ausgangsregister (OR) 116 (Leitung 120) Steuerbits zu.
Die CPU 112 führt dem RAM 113 Adressen (Leitung 121) und Daten (Leitung 122) und dem OR 116 (Leitung 123) Daten zu und erhält Daten vom RAM 113 (Leitung 124) und vom Dateneingang (Leitung 125)·
Die MCU 114 tauscht mit der CPU 112 (Leitung 126) Bedingungs- und Ubertrags-Information aus und erhält das Unterbrechungssignal (Leitung 127)·
Dieser Mikrocomputer lässt sich von einem
Durchschnittsfachmann entsprechend den Flussdiagrammen aus den Fig. 5-A— D unter Verwendung der Gebraucherinformation, die der Hersteller des Mikroprozessors liefert, program— mieren.
Gespeist mit diesem Programm liefert der Mikrocomputer nach Empfang eines Unterbrechungssignals vom Takt— impulsgenerator 109 einen Wert für F am Ausgang. Dieser Wert wird nach jedem Unterbrechungssignal des Taktimpuls— generators 109 erneuert. Diese Unterbrechungssignale dürfen nach allen 10 ms auftreten, da diese Zeit für den Mikrocomputer ausreichen,um die Tonhöhe zu errechnen.
Der Mikrocomputer erhält nach einem Unterbrechungssignal als Eingangsdaten die Werte der Frequenzpunkte FRk und FIk> k = 1, 64 (Block 200, Fig. 5A
Die nachfolgende Operation besteht aus der Ermittlung des Wertes der Amplitude (Block 201). Danach wird ein Schwellwert Z bestimmt, der einem Bruchteil der
030026/0739
1979-10-23 -*ΐ- ** PHN 9313
maximalen Amplitude entspricht (Block 202).
Danach wird der Wert der Variablen k, der den Index der Komponenten A des Amplitudenspektrums darstellt, auf und die Anzahl N der signifikanten Spitzenpositionen x. S auf Null eingestellt (Block 203).
In der nachfolgenden Operation wird zunächst ermittelt^ ob die maximale Anzahl von 8 signifikanten Spitzenpositionen schon erreicht ist (Block 204). Wenn dies nicht der Fall ist, wird untersucht, ob der Amplitudenwert A, ein ort — liches Maximum bildet, das über die Schwelle Z hinausgeht (Entscheidungsraute 206).
Wenn dies der Fall ist, wird der Y-Zweig der Entscheidungsraute 2O6 aktiv und N um eins erhöht (Block 207)·
Die richtige Stelle des örtlichen Maximums in dem Spektrum wird durch Interpolation mittels eines Polynoms zweiten Grades zwischen den Komponenten A, , A, 1 und A, (Block 208) errechnet. Diese Routine ergibt die Position x. der signifikanten Spitze in dem Amplitudenspektrum. Danach wird der Index k um eines erhöht (Block 209) und es geht in die Schleife 210 hinein, wenn der neue Wert von k noch kleiner als 63 oder gleich 63 ist (Entscheidungsraute 211).
Wenn die Komponente A, kein örtliches Maximum bildet, wird der N-Zweig der Entscheidungsraute 206 aktiv, und N wird nicht um eins erhöht. Auch in diesem Fall wird k um eins erhöht (Block 209).
Wenn der Schleife 210 gefolgt wird, wird die beschriebene Routine anfangend bei der Entscheidungsraute 2O4 für den neuen Wert von k wiederholt, bis alle Komponenten A, mit Ausnahme der letzten verarbeitet sind.
Wenn die Entscheidungsraute 211 detektiert, dass der neue Wert von \z=6k ist, wird der N-Zweig aktiv und werden die signifikanten Spitzenpositionen x. ausgeführt (Block 212) falls nicht bereits detektiert wurde, dass acht signifikante Spitzenpositionen gefunden wurden (Entscheidungsraute 204). In dem letzten Fall wird der Y-Zweig der Entscheidungsraute 204 aktiv und werden danach die acht signifikanten Spitzenpositionen x. ausgeführt.
030026/0739
1979-10-23 t«· Λ«^ PHN 9313
Die signifikanten Spitzenpositionen χ. bilden die Eingangsdaten für die folgende Routine, wodurch die harmonischen Nummern R. der Komponenten χ. bestimmt werden. Diese Eingangsdaten werden in der nachfolgenden Alternative als Komponenten x. bezeichnet.
Anders als bei der Routine nach Fig. 3 wird
hier eine Maske mit Offnungen um die Komponenten x. herum gebildet. Dann wird untersucht, für welchen Wert der Tonhöhe die beste Übereinstimmung zwischen der Maske und der Reihe von Harmonischen der Tonhöhe erhalten wird. Dieses alternative Verfahren bietet arithmetisch Vorteile und liefert dasselbe Resultat wie bei dem vorhergehenden Verfahren. Für jeden Wert von x. wird ein niedrigerer Wert xL. und ein höherer Wer xH. berechnet, die zusammen eine Öffnung um die Komponente x. bestimmen (Block 213)· Die Reihe Offnungen für alle Komponenten x. bildet die Vergleichsmaske.
Vor dem Anfang der Hauptschleife der Routine wird die Variable C, die die Qualitätszahl registriert, auf Null und ein Anfangswert (50 Hz) für die Tonhöhe SF eingestellt (Block 214).
Die Reihe der Harmonischen der gewählten Tonhöhe umfasst zunächst immer acht Komponenten. Danach wird die Anzahl N1 der Komponenten x. ermittelt, die innerhalb des Bereiches der Reihe Harmonsichen liegen, d.h. die Anzahl Komponenten x., für die xL. kleiner ist als der achtfache gewählte Wert der Tonhöhe SF (Block 215).
Wenn N' grosser ist als Null (Entscheidungsraute 216), wird die Anzahl M1 der Harmonischen -der gewählten Tonhöhe SF bestimmt, die innerhalt des Bereichs der Komponenten x. liegen, wobei M1 das ganzzahlige Resultat des Quotienten χΗ-,,/SF ist.
In der nachfolgenden Operation wird die Anzahl K der Harmonischen der gewählten Tonhöhe bestimmt, die in den Offnungen der Maske liegen. Dabei wird jeder Komponente x. eine vorläufige harmonische Rangnummer RT. zugeordnet. Wenn in einer Öffnung keine Harmonische der Tonhöhe liegt, erhält die betreffende Komponente x. die Rangnummer Null.
030026/0739
1979-10-23 +9-Af ' PHN 9313
In dem Fall, dass eine Harmonsiche der gewählten Tonhöhe in den Offnungen von mehr als nur einer Komponente x. liegt, wird die harmonische Rangnummer der Komponente x. mit dem niedrigsten Wert zugeordnet (Block 218).
In Fig. 5D ist die Routine des Blocks 218 detailliert dargestellt, wobei die Wirkungsweise aus der Figur abgeleitet werden kann.
Nach der Operation von Block 218 folgt die Berechnung der Qualitätszahl Q, die zu dem gewählten Wert der Tonhöhe SF gehört (Block 219).
Danach wird bestimmt, ob die Qualitätszahl Q
grosser ist oder gleich dem Wert, der das vorige Mal gefunden wurde (Entscheidungsraute 220). Wenn dies der Fall ist, wird die Variable C dem Wert Q gleich gemacht und werden die vorläufigen Rangnummern RT. durch die Variablen R. übernommen, die die neuen Rangnummern registreren (Block 221).
Wenn die Routine dem Y-Zweig der Entscheidungsraute 216 oder dem N-Zweig der Entscheidungsraute 220 folgt, oder nach der Operation von Block 221, wird ein neuer Anfangswert für die Tonhöhe SF berechnet (Block 222).
Die Routine geht nun in die Schleife wenn dor neue Wert der Tonhöhe noch kleiner als oder gleich 500 Hz ist (Entscheidungsraute 223). Die beschriebene Routine wird dann ab Block 215 für den neuen Wert der Tonhöhe
SF wiederholt,
ο
Wenn, nachdem die Schleife 224 eine Anzahl Male durchlaufen wurde, der neue Wert der Tonhöhe SF grosser wird als 5OO Hz (Entscheidungsraute 223), wird die Schleife verlassen und werden die Komponenten x. mit den zugehörenden Rangnummern R. ausgeführt (Block 225)
Die Komponenten x. und die Rangnummern R.
bilden die Eingangsdaten für eine Routine zum Berechnen des wahrscheinlichen Wertes der Tonhöhe F (Ausdruck (i)). Diese Prozedur fängt an mit der Berechnung einer Grosse DNN, die durch die Summe der Quadrate der Rangnummern (Block 226) gebildet werden. Wenn diese Grosse nicht gleich Null ist (Entscheidungsraute 227) f wird F
1979-10-23 -es- ^^ PHN 9313
entsprechend dem Ausdruck (i) im Block 228 berechnet. In dem anderen Fall wird dem Y-Zweig der Entscheidungsraute 227 gefolgt und F auf Null eingestellt (Block 229). In den beiden Fällen endet die Routine mit dem Ausführen des Wertes der Tonhöhe F (Block 23O).
Die Qualitätszahl Q, die in dem Block 219 berechnet wird, kann natürlich nach einem der anderen Ausdrücke für Q berechnet werden, ohne dabei den Rahmen des beschriebenen Verfahrens zu verlassen.
Die zwei Prozeduren zum Vergleichen der signifikanten Spitzenpositionen mit Reihen Harmonischen eines Grundtons, unter Verwendung des Konzepts einer Maske, die in dem ersten Fall durch die Reihe Harmonischen des Grundtons definiert wird und in dem zweiten Fall durch die signifikanten Spitzenpositionen, liefern dasselbe Resultat. Jede dieser Prozeduren kann als der duale Fall der anderen betrachtet werden mit denselben Vorteilen bezüglich Unempfindlichkeit für Störkomponenten.
030026/0739

Claims (10)

1979-10-23 •f PHN 9313
PATENTANSPRÜCHE:
.) Sprachanalysesystem, in dem das Amplitudenspek-Mirum eines Sprachsignals analysiert wird, in dem regelmässig Zeitsegmente des Sprachsignals selektiert und von jedem Sprachsegment eine Reihe von Spektrumkomponenten bestimmt werden, die die diskrete Fourier-Transformation von Abtastwerten dee Sprachsignals bilden, und in jedem Zeitsegment die Positionen signifikanter Spitzen in dem Spektrum aus der Reihe von Spektrumkomponenten abgeleitet werden, gekennzeichnet durch ein Verfahren, das die nachfolgenden Schritte umfasst:
- das Wählen eines Wertes für die Tonhöhe und das Ermitteln einer Reihe aufeinanderfolgender ganzer Vielfachen dieses Wertes und das Ermitteln von Intervallen um diesen Wert und dessen Vielfachen, wobei die Inter— valle eine Maske mit Offnungen an der Stelle eines Intervalls definieren und den Offnungen harmonische Nummern zugeordnet sind, die den Multiplikations— faktoren in den genannten Vielfachen entsprechen;
- das Bestimmen der signifikanten Spitzenpositionen, die mit einer Öffnung der Maske zusammenfallen;
- das Berechnen einer Qualitätszahl entsprechend einem Kriterium, die das Ausmass angibt, in dem die signifikanten Spitzenpositionen und die Offnungen der Maske übereinstimmen;
_ Das Wiederholen der vorhergehenden Schritte für aufeinanderfolgende höhere Werte der Tonhöhe bis zu einem bestimmten höchsten Wert, wodurch eine Reihe diesen Werten der Tonhöhe zugeordneter Qualitätszahlen erhalten wird;
_ das Selektieren des Wertes der Tonhöhe mit der höchsten Qualitätszahl, wobei deren zugeordnete Maske eine Bezugsmaske bildet;
- das Zuordnen der harmonischen Nummern der Offnungen
030026/Ü739
1979-10-23 2 PHN 9313
der Bezugsmaske zu den mit diesen Offnungen zusammenfallenden signifikanten Spitzenpositionen, wobei die harmonischen Nummern dde Stellen dieser Spitzenpositionen in einer Reihe von Harmonischen ein und desselben Grundtons kennzeichnen;
- das Bestimmen eines wahrscheinlichen Wertes für die Tonhöhe, bei dem die Abweichungen zwischen den letztgenannten signifikanten Spitzenpositionen und den entsprechenden Vielfachen des wahrscheinlichen Wertes mit denselben harmonischen Nummern mqgLichst klein sind.
2. Ein Sprachanalysensystem nach Anspruch 1, dadurch gekennzeichnet, dass die Qualitätszahl Q entsprechend einem der nachfolgenden Ausdrücke berechnet wird:
2 1
15 Q =
' ^ ~ M + N - 2K
wobei K die Anzahl signifikanter Spitzenpositionen, die mit Offnungen der Maske zusammenfallen, M die Anzahl Offnungen der Maske und N die Anzahl signifikanter Spitzenpositionen
20 darstellt.
3. Ein Sprachanalysensystem nach Anspruch 2, dadurch gekennzeichnet, dass in den Ausdrücken für die Qualitätszahl Q die Grosse M durch M1 ersetzt ist, wobei M1 gleich M weniger die Anzahl Offnungen der Maske, die ausserhalb des Gebietes der signifikanten Spitzenpositionen liegen, ist.
h. Ein Sprachanalysensystem nach Anspruch 2, dadurch gekennzeichnet, dass in den Ausdrücken der Qualitäts*- zahl Q die Grosse N durch Nf ersetzt worden ist^_die gleich N weniger die Anzahl signifikanter Spitzenpositionen, die ausserhalb des Gebietes der Offnungen der Maske liegen, ist.
5· Ein Sprachanalysensystem nach Anspruch 1, dadurch gekennzeichnet, dass der wahrscheinliche Wert der Tonhöhe F entsprechend dem folgenden Ausdruk berechnet
35 wird:
xi * ni / Σ- ni
030026/0739
1979-10-23 3 PHN 9313
wobei χ. die i. signifikante Spitzenposition und n. die derselben zugeordnete Nummer darstellt und wobei K die Anzahl signifikanter Spitzenpositionen darstellt, die mit Offnungen der Maske zusammenfallen.
6. Sprachanalysensystem, in dem das Amplitudenspektrum eines Sprachsignals analysiert wird, indem regelmässig Zeitsegmente des Sprachsignals selektiert und von jedem Sprachsegment eine Reihe von Spektrumkomponenten bestimmt werden, die die diskrete Fourier—Transformation von Abtastwerten des Sprachsignals bilden, und in jedem Zeitsegement die Positionen signifikanter Spitzen in dem Spektrum aus der Reihe von Spektrumkomponenten abgeleitet werden, gekennzeichnet durch ein Verfahren, das die nachfolgenden Schritte umfasst:
- das Wählen eines Wertes für die Tonhöhe und das Ermitteln einer Reihe aufeinanderfolgender ganzer Vielfachen dieses Wertes und das Ermitteln von Intervallen um die Positionen signifikanter Spitzen, wobei die Intervalle eine Maske mit Öffnungen an der Stelle einer Position einer Spitze definieren und den Vielfachen der Tonhöhe harmonische Nummern zugeordnet sind, die den Multipli— kationsfaktoren in den genannten Vielfachen entsprechen;
- das Bestimmen der Vielfachen der Tonhöhe, die mit einer Öffnung der Maske zusammenfallen; - das Berechnen einer Qualitätszahl entsprechend einem Kriterium, die das Ausmass angibt, in dem die Vielfachen der Tonhöhe und die Offnungen der Maske übereinstimmen;
- das Wiederholen der vorhergehenden Schritte für aufeinanderfolgende höhere Werte der Tonhöhe bis zu einem bestimmten höchsten Wert, wodurch eine Reihe diesen Werten der Tonhöhen zugeordneter Qualitätszahlen erhalten wird;
- das Selektieren des Wertes der Tonhöhe mit der höchsten Qualitätszahl, die die Bezugstonhöhe bildet; - das Zuordnen der harmonischen Nummern der Vielfachen der Bezugstonhöhe zu den in denselben Offnungen liegenden Positionen signifikanter Spitzen, wobei die harmonischen Nummern die Stellen dieser Positionen der Spitzen in
030026/0739
1979-10-23 ^ PHN 9313
einer Reihe von Harmonischen ein und desselben Grundtons
kennzeichnen;
- das Bestimmen eines wahrscheinlichen Wertes für die Tonhöhe, bei dem die Abweichungen zwischen den letztgenannten Positionen signifikanter Spitzen und den entsprechenden Vielfachen des wahrscheinlichen Wertes mit denselben harmonischen Nummern möglichst klein sind.
7. Ein Sprachanalysensystem nach Anspruch 6,
dadurch gekennzeichnet, dass die Qualitätszahl Q ent — sprechend einem der nachfolgenden Ausdrücke berechnet wird:
M + N M. N M + N-2K
wobei K die Anzahl Vielfachen der Tonhöhe, die mit einer Öffnung der Maske zusammenfallen, M die Anzahl Vielfachen der Tonhöhe der Reihe und N die Anzahl signifikanter Spitzenpositionen darstellt.
8. Ein Sprachanalysensystem nach Anspurch 7»
dadurch gekennzeichnet, dass in den Ausdrücken für die Qualitätszahl Q die Grosse M durch M1 ersetzt worden ist, wobei M1 gleich M weniger die Anzahl Vielfachen der Tonhöhe ist, die ausserhalb des Gebietes der signifikanten Spitzenpositionen liegen.
9· Ein Sprachanalysensystenr nach Anspruch 7»
dadurch gekennzeichnet, dass in den Ausdrücken für die Qualitätszahl Q die Grosse N durch N1 ersetzt worden ist, die gleich N weniger der Anzahl signifikanter Spitzenpositionen ist, die ausserhalb des Gebietes der Reihe Vielfachen der Tonhöhe liegen.
10. Ein Sprachanalysensystem nach Anspruch 6,
dadurch gekennzeichnet, dass der wahrscheinliche Wert der Tonhöhe F entsprechend dem nachfolgenden Ausdruck berechnet wird:
/\ N N „
F = 21 x. * R. /T" R.
° ITi l * fei x
in dem x. den Wert der i. signifikanten Spitzenposition
030026/0739
1979-10-23 5 PHN 9313
und R. die ihr zugeordnete Rangnummer darstellt, wobei N die Anzahl signifikanter Spitzenpositionen darstellt und einer signifikanten Spitzenposition die Rangnummer Null zugeordnet wird, wenn in der betreffenden Öffnung der Maske kein 5 Vielfaches der gewählten Tonhöhe liegt.
030026/0739
DE19792949582 1978-12-14 1979-12-10 Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache Ceased DE2949582A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NLAANVRAGE7812151,A NL177950C (nl) 1978-12-14 1978-12-14 Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak.

Publications (1)

Publication Number Publication Date
DE2949582A1 true DE2949582A1 (de) 1980-06-26

Family

ID=19832069

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19792949582 Ceased DE2949582A1 (de) 1978-12-14 1979-12-10 Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache

Country Status (9)

Country Link
US (1) US4384335A (de)
JP (1) JPS5848117B2 (de)
AU (1) AU536724B2 (de)
CA (1) CA1223074A (de)
DE (1) DE2949582A1 (de)
FR (1) FR2444313A1 (de)
GB (1) GB2037129B (de)
NL (1) NL177950C (de)
SE (1) SE465190B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19906118C2 (de) * 1999-02-13 2001-09-06 Primasoft Gmbh Verfahren und Vorrichtung zum Vergleich von in eine Eingabeeinrichtung eingespeisten akustischen Eingangssignalen mit in einem Speicher abgelegten akustischen Referenzsignalen

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0113257B1 (de) * 1982-12-30 1988-09-07 Victor Company Of Japan, Limited Notenanzeige-Vorrichtung
GB2139405B (en) * 1983-04-27 1986-10-29 Victor Company Of Japan Apparatus for displaying musical notes indicative of pitch and time value
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
US4803730A (en) * 1986-10-31 1989-02-07 American Telephone And Telegraph Company, At&T Bell Laboratories Fast significant sample detection for a pitch detector
NL8701798A (nl) * 1987-07-30 1989-02-16 Philips Nv Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal.
US4809334A (en) * 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
NL8900520A (nl) * 1989-03-03 1990-10-01 Philips Nv Probabilistische toonhoogtemeter.
US5321636A (en) * 1989-03-03 1994-06-14 U.S. Philips Corporation Method and arrangement for determining signal pitch
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
CZ289724B6 (cs) * 1994-03-11 2002-03-13 Koninklijke Philips Electronics N.V. Způsob přenosu signálů a kodér a dekodér pro provádění způsobu
US5870704A (en) * 1996-11-07 1999-02-09 Creative Technology Ltd. Frequency-domain spectral envelope estimation for monophonic and polyphonic signals
US6182042B1 (en) 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
FR2830118B1 (fr) * 2001-09-26 2004-07-30 France Telecom Procede de caracterisation du timbre d'un signal sonore selon au moins un descripteur
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
US7233894B2 (en) * 2003-02-24 2007-06-19 International Business Machines Corporation Low-frequency band noise detection
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS50155105A (de) * 1974-06-04 1975-12-15
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
GB1541041A (en) * 1976-04-30 1979-02-21 Int Computers Ltd Sound analysing apparatus
DE2715411B2 (de) * 1977-04-06 1979-02-01 Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt Elektrisches Verfahren zum Bestimmen der Grundperiode eines Sprachsignals
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19906118C2 (de) * 1999-02-13 2001-09-06 Primasoft Gmbh Verfahren und Vorrichtung zum Vergleich von in eine Eingabeeinrichtung eingespeisten akustischen Eingangssignalen mit in einem Speicher abgelegten akustischen Referenzsignalen
US6505154B1 (en) 1999-02-13 2003-01-07 Primasoft Gmbh Method and device for comparing acoustic input signals fed into an input device with acoustic reference signals stored in a memory

Also Published As

Publication number Publication date
SE7910165L (sv) 1980-06-15
NL7812151A (nl) 1980-06-17
FR2444313A1 (fr) 1980-07-11
AU5368279A (en) 1980-06-19
CA1223074A (en) 1987-06-16
NL177950C (nl) 1986-07-16
GB2037129B (en) 1983-02-09
GB2037129A (en) 1980-07-02
US4384335A (en) 1983-05-17
JPS5583100A (en) 1980-06-23
NL177950B (nl) 1985-07-16
FR2444313B1 (de) 1983-08-05
JPS5848117B2 (ja) 1983-10-26
AU536724B2 (en) 1984-05-24
SE465190B (sv) 1991-08-05

Similar Documents

Publication Publication Date Title
DE2949582A1 (de) Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache
DE3339288C2 (de)
DE3819178C2 (de)
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE68929102T2 (de) Lernverarbeitungssystem
DE2934489C2 (de)
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE2659083C2 (de) Verfahren und Vorrichtung zur Sprechererkennung
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE2820645A1 (de) Vorrichtung und verfahren zur spracherkennung
DE69614233T2 (de) Sprachadaptionssystem und Spracherkenner
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE112018006885B4 (de) Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität
DE2825082A1 (de) Verfahren zur spracherkennung
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE112020006911T5 (de) Datenerzeugungsvorrichtung, System für maschinelles Lernen und Bearbeitungszustands-Schätzvorrichtung
DE4328752B4 (de) Spracherkennungssystem
DE10295594T5 (de) ARB-Generator mit mehreren Ausgängen
DE102019119776A1 (de) Zeitverschachtelte digital-analog-wandler-korrektur
DE102019001129A1 (de) Numerische Steuervorrichtung
DE3043516A1 (de) Verfahren und vorrichtung zur spracherkennung
DE3929481C2 (de)
EP3812949A1 (de) Konfigurierbarer digitaler zwilling

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8131 Rejection