DE3600056A1 - Sprachgrundfrequenzanalysator - Google Patents
SprachgrundfrequenzanalysatorInfo
- Publication number
- DE3600056A1 DE3600056A1 DE19863600056 DE3600056A DE3600056A1 DE 3600056 A1 DE3600056 A1 DE 3600056A1 DE 19863600056 DE19863600056 DE 19863600056 DE 3600056 A DE3600056 A DE 3600056A DE 3600056 A1 DE3600056 A1 DE 3600056A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- unit
- fundamental frequency
- fundamental
- interruption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 8
- 230000001052 transient effect Effects 0.000 abstract description 4
- 238000000034 method Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005526 G1 to G0 transition Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
Die Erfindung betrifft einen Sprachgrundfrequenzanalysator,
bestehend aus einer Filterbank, einer Extremwert- und Nulldurchgangs-
Detektions-Einheit, einer Unterbrechungseinheit,
einer Zeitgebereinheit und einer Auswerteeinheit, zur Ermittlung
der Tonhöhe in Sprachsignalen.
Die Sprachgrundfrequenz oder Tonhöhe ist hinsichtlich der
Verständlichkeit und Natürlichkeit von Sprache ein äußerst
wichtiger Parameter, dessen genaue Kenntnis bei vielen Einrichtungen
zur Sprachsignalverarbeitung benötigt wird.
Dies zeigen auch die weltweiten Anstrengungen und Aktivitäten
auf diesem Gebiet, die sich in sehr vielen Publikationen
äußern (siehe z. B. Hess, W.: Pitch Determination of Speech
Signals. Springer 1983, S. 591-686).
Die Analyseverfahren zur Bestimmung der Sprachgrundfrequenz
können wie folgt eingeteilt werden:
- Zeitbereichsverfahren
-Frequenzbereichsverfahren
-Mischformen aus den Erstgenannten
- Zeitbereichsverfahren
-Frequenzbereichsverfahren
-Mischformen aus den Erstgenannten
Die bekanntesten Zeitbereichsverfahren sind der Gold-Algorithmus
(Gold, B.: Computer program for pitch extraction.
JASA Nr. 7 (1962), S. 916-921) und der Reddy-Algorithmus
(Reddy, D. R.: Pitch determination of speech sounds. Communications
of the ACM Nr. 6 (1967), S. 343-348). Bei beiden
Verfahren werden signifikante Extrema des Sprachsignals bestimmt
aus deren Größe und zeitlichen Abständen die Sprachgrundperioden
ermittelt werden. Nachteilig bei diesen Verfahren
ist der hohe Rechenaufwand, der eine Implementierung
der Algorithmen auf einem Mikrorechner unmöglich macht.
Eines der bekanntesten und zugleich wirkungsvollsten Frequenzbereichsverfahren
ist die Cepstrum-Analyse (Noll, A. M.:
Cepstrum Pitch Determination. J. Acoust. Soc. Am., Nr. 41
(1967), S. 293-309). Das Cepstrum ist definiert als die
Fouriertransfomierte des logarithmierten Amplitudenspektums
eines Signals. Bedingt durch die zweimalige Anwendung der
Fouriertransformation und dem damit verbundenen großen
Rechenaufwand, ist eine Realisierung für Echtzeitanwendung
nur mit Einschränkungen und erheblichem Aufwand möglich.
Die Verfahren von Dudley (Dudley, H.: The Vocoder. Bell Lab.
Record 17 (1939), S. 122-126) und Erb (Erb, H. J.: Ein Verfahren
zur Bestimmung der Sprachgrundfrequenz in Echtzeit.
Frequenz Nr. 1 (1974), S. 23-28) sind Mischformen. Zunächst
wird die im Sprachsignal enthaltene Sprachgrundschwingung
ausgefiltert. Die Abstände der lokalen Maxima der Sprachgrundschwingung
sind dann die Sprachgrundperioden. Nachteilig
bei diesem Verfahren ist, daß die Sprachgrundschwingung im
Signal enthalten sein muß und es während der Einschwingphase
zu erheblichen Fehlern kommen kann. Die ermittelte Sprachgrundperiode
kann bis zu 20% von der wahren Sprachgrundperiode
abweichen.
Der Erfindung liegt die Aufgabe zugrunde, die Bestimmung der
Sprachgrundfrequenz bzw. Sprachgrundperiode in Echtzeit unter
Vermeidung von Fehlern während der Einschwingphase zu vereinfachen
und den Realisierungsaufwand zu verringern.
Diese Aufgabe wird bei einem Sprachgrundfrequenzanalysator
erfindungsgemäß durch die kennzeichnenden Merkmale des Anspruches 1
gelöst. Eine zweckmäßige Realisierung der Erfindung
ist Gegenstand der Unteransprüche 1 bis 5. Sie werden im
Zusammenhang mit der Beschreibung eines Funktionsmusters
näher erläutert.
Der durch diese Erfindung erzielbare Vorteil besteht vor
allem darin, daß die Bestimmung der Sprachgrundfrequenz bzw.
Sprachgrundperiode in Echtzeit mit relativ geringem Schaltungsaufwand
unter Verwendung von Standardbausteinen (wie
z. B. einem 8-Bit Mikroprozessor) möglich ist. Darüberhinaus
werden Fehler während der Einschwingphase weitgehend vermieden.
Ein Funktionsmuster der Erfindung ist in den Bildern 1 bis 7
veranschaulicht und wird im folgenden näher beschrieben.
Es zeigen:
Bild 1 das Blockschaltbild des SGF-Analysators
Bild 2 die Bandpaßcharakteristik
Bild 3 die Blockschaltung der Filterbank
Bild 4 die Blockschaltung der Extremwert- und Nulldurchgangs-
Detektions-Einheit
Bild 5 die Struktur des Extremwertdetektors
Bild 6 das Schaltbild des Nulldurchgangsdetektors
Bild 7 den Aufbau des Mikrorechners
Bei dem hier vorgestellten Funktionsmuster sind die Filterbank
sowie die Extremwert- und Nulldurchgangs-Detektions-
Einheit in Analogtechnik, die Unterbrechungs-, die Zeitgeber-
und die Auswerteeinheit in digitaler Technik ausgeführt.
Dabei kommt für die Realisierung der in digitaler Technik
ausgeführten Einheiten ein Mikrorechner mit einem 8 Bit-
Mikroprozessor zum Einsatz.
Eine Sprachgrundfrequenz kann grundsätzlich nur den stimmhaften
Lauten im Sprachsignal zugeordnet werden. Im Gegensatz
zum unregelmäßigen Zeitverlauf der stimmlosen Laute, ist der
Zeitverlauf stimmhafter Laute quasi periodisch. Es handelt
sich bei den stimmhaften Signalsegmenten um ein harmonisches
Zeitsignal endlicher Dauer, das als Fourierreihe darstellbar
ist.
Ziel der Vorfilterung ist es, die in den stimmhaften Segmenten
des Sprachsignals s (t) enthaltene Sprachgrundschwingung
auszufiltern, deren Periodendauer umgekehrt proportional zur
Sprachgrundfrequenz (SGF) ist. Die SGF liegt abhängig vom
Sprecher zweischen 50 und 450 Hz. Das Ausfiltern der Grundschwingung
mit einem einzigen Tiefpaß ist wegen des großen
SGF-Bereichs nicht allgemein möglich, da man keine brauchbare
Tiefpaßfrequenz angeben kann.
Man benutzt deshalb einen Filter, dessen Kennlinie im Bereich
der SGF über der logarithmischen Frequenzachse um 24 dB/Oktave
linear abfällt. Dadurch erreicht man, daß die erste
Harmonische gegenüber der Grundschwingung 16fach gedämpft
wird. Dies gilt unabhängig davon, wo die SGF liegt. Am
Filterausgang erscheint also im wesentlichen die Grundschwingung.
Nachteilig wirken sich die großen Dämpfungsunterschiede (ca.
60 dB) über dem gesamten SGF-Bereich aus. Dieser Nachteil
wird dadurch beseitigt, daß drei Filter mit sich überlappenden
Arbeitsbereichen eingesetzt werden. Dies setzt jedoch
voraus, daß die digitale Auswerteschaltung fähig ist, in Abhängigkeit
von der momentan auftretenden SGF, den richtigen
bzw. die richtigen Arbeitsbereiche auszuwählen. Im weiteren
wird in diesem Zusammenhang auch von der Auswahl des richtigen
Kanals gesprochen.
Als Filter werden Bandpässe 4. Ordnung gewählt, dessen obere
Dämpfungsflanken je einen Abfall von 24 dB aufweisen.
Die Bandpässe haben zudem noch die guten Eigenschaften, daß
sie eventuell vorhandene niederfrequente Störkomponenten
unterdrücken und kurze Einschwingzeiten (z. B. nach dem Aufschalten
einer Sinusspannung mit beliebiger Phase) ermöglichen.
Am Eingang der Bandpässe liegt das Sprachsignal s (t). Nach
der Filterung ergeben sich die Bandpaßausgangssignale b 1 (t),
b 2 (t) und b 3 (t), die auf die Extremwert- und Nulldurchgangs-
Detektoren gelangen.
Die Extremwert- und Nulldurchgangs-Detektions-Einheit dient
dazu, signifikante Merkmale der Bandpaßausgangssignale zu
markieren. Da das Ausgangssignal eines BP-Filters während
der stationären Phase im wesentlichen aus einer Grundschwingung
sowie der mehr oder weniger stark gedämpften 1. Harmonischen
besteht, sind die signifikanten Merkmale die Extremwerte
(Maxima und Minima) sowie die Nulldurchgänge (Vorzeichenwechsel)
des Signals. Es werden deshalb drei Extremwertdetektoren
E 1, E 2 und E 3 sowie zwei Nulldurchgangs-Detektoren
N 1 und N 3 benutzt (siehe Bild 4). Eine mögliche Schaltungsrealisierung
eines Extremwertdetektors zeigt Bild 5. Das
entsprechende Eingangssignal b i (t) gelangt über ein RC-
Differenzierglied, dessen Zeitkonstante zu
gewählt wird (f ao ist die obere Arbeitsbereichsgrenze des
entsprechenden Kanals), auf einem Schmitt-Trigger. Das
Schmitt-Trigger-Ausgangssignal wird in das Signal e i (t) mit
TTL-Pegel gewandelt.
Die Schaltung der Nulldurchgangsdetektoren N 1 und N 3 ist in
Bild 6 dargestellt. Das Eingangssignal b i (t) gelangt über den
Hochpaß (f g = 1 Hz), der die Offsetspannung der vorherigen
Stufe abkoppelt, auf einen Schmitt-Triffer. Das in das TTL-
Signal n i (t) gewandelte Schmitt-Trigger-Ausgangssignal zeigt
dann Vorzeichenwechsel des Eingangssignals b i (t) an.
Bisher wurde der Analogteil dieses Funktionsmusters beschrieben.
Im folgenden wird der Digitalteil bestehend aus der
Unterbrechungseinheit (3), der Zeitgebereinheit (4) und der
Auswerteeinheit (5) erläutert, der bei dieser speziellen Ausführung
mittels eines Mikrorechners (Struktur siehe Bild 7)
realisiert ist. Die Unterbrechungseinheit wird zweckmäßigerweise
durch einen programmierbaren Unterbrechungs-Steuerbaustein
und eine Logikschaltung zur Verknüpfung und Aufbereitung der
von dem Analogteil kommenden Signale e i (t) und n i (t)
realisiert. Zur Verwirklichung der Zeitgebereinheit wird ein
programmierbarer Zeitgeberbaustein verwendet. Die Auswerteeinheit
besteht aus einem 8-Bit-Mikroprozessor, einen EPROM,
einem statistischen RAM und einem programmierbaren peripheren
Schnittstellenbaustein.
Am Eingang der Unterbrechungseinheit liegen die nicht gleichzeitig
auftretenden Signale e i (t) und n i (t) an (Tabelle 2,
Spalte 1), die mittels der Logikschaltung in die Signale IR i ,
i = 0, . . . , 7 (Tabelle 2, Spalte 2) überführt werden. Die positive
Flanke der Signale IR i zeigt dann jeweils das in Tabelle 2,
Spalte 3 angegebene Ereignis an. Jedes Ereignis wird der
in Tabelle 2, Spalte 4 aufgetragenen Ereignisklasse zugeordnet,
die gleichfalls der jeweiligen Unterbrechungsebene
der Unterbrechungseinheit entspricht.
Die Unterbrechungseinheit hat zwei Aufgaben:
- Sie veranlaßt sofort nach dem Auftreten eines Ereignisses die Auswerteeinheit den momentanen Zeitwert der Zeitgebereinheit zu lesen und dem entsprechenden Ereignis zuzuordnen.
- Sie kann auf Veranlassung der Auswerteeinheit bestimmte Unterbrechungseingänge maskieren und damit z. B. einen speziellen Kanal für die Analyse auswählen. Tabelle 2: Eingangssignale der Unterbrechungseinheit und deren Klassifizierung
- Sie veranlaßt sofort nach dem Auftreten eines Ereignisses die Auswerteeinheit den momentanen Zeitwert der Zeitgebereinheit zu lesen und dem entsprechenden Ereignis zuzuordnen.
- Sie kann auf Veranlassung der Auswerteeinheit bestimmte Unterbrechungseingänge maskieren und damit z. B. einen speziellen Kanal für die Analyse auswählen. Tabelle 2: Eingangssignale der Unterbrechungseinheit und deren Klassifizierung
Von einem externen Gerät kommen die Signale sp und sh. Sie
sind mit der Auswerteeinheit verbunden. Das Signal sp bzw. sh
zeigt an, daß das Eingangssignal s (t) des SGF-Analysators
seit 30 ms nicht stimmhaft bzw. seit 50 ms stimmhaft ist.
Über den PORT-Baustein werden die Periodenschätzwerte in
Form eines 8-Bit Binärwortes ausgegeben. In Pausen wird das
Binärwort Null ausgegeben.
Im folgenden wird nun der Algorithmus für die Zuweisung des
Zeitwertes zu der anstehenden Unterbrechung (IR 0 bis IR 7) und
für die Berechnung des SGP-Schätzwertes P s erläutert.
Die SGP-Analyse erfolgt in zwei Phasen:
- Analyse während der "Einschwingphase", d. h. innerhalb der ersten 50 ms seit Beginn eines stimmhaften Lautes (z. B. nach vorangegangener Pause).
-Analyse innerhalb der quasistationären Phase bis zum Pausebeginn. In diesem Zusammenhang bedeutet der Ausdruck "quasistationär", daß sich der Verlauf eines Bandpaßsignals innerhalb eines quasistationären Intervalls in Abhängigkeit von der SGF nur wenig ändert.
- Analyse während der "Einschwingphase", d. h. innerhalb der ersten 50 ms seit Beginn eines stimmhaften Lautes (z. B. nach vorangegangener Pause).
-Analyse innerhalb der quasistationären Phase bis zum Pausebeginn. In diesem Zusammenhang bedeutet der Ausdruck "quasistationär", daß sich der Verlauf eines Bandpaßsignals innerhalb eines quasistationären Intervalls in Abhängigkeit von der SGF nur wenig ändert.
Die "Einschwingphase" ist dadurch gekennzeichnet, daß
- sich während dieser Zeit das Eingangssignal selbst stark ändert (einschwingt)
- durch die abrupte Änderung des Eingangssignals die Bandpässe zu Eigenschwingungen angeregt werden
- erst nach Beendigung dieser Phase ein SGP-Schätzwert aus den zurückliegenden SGF-spezifischen Merkmalen ermittelt wird.
- sich während dieser Zeit das Eingangssignal selbst stark ändert (einschwingt)
- durch die abrupte Änderung des Eingangssignals die Bandpässe zu Eigenschwingungen angeregt werden
- erst nach Beendigung dieser Phase ein SGP-Schätzwert aus den zurückliegenden SGF-spezifischen Merkmalen ermittelt wird.
Während der "Einschwingphase" werden die Ereignisse von Kanal 1
(Arbeitsbereich: 50-140 Hz) und Kanal 2 (Arbeitsbereich
während der "Einschwingphase": 140-450 Hz) ausgewertet.
Allerdings ist die Auswertung für beide Kanäle unterschiedlich.
Beim Auftreten eines Ereignisses von Kanal 1 aus den Ereignisklassen
0, 1, 2 oder 3 (siehe Tabelle 3) wird der Zeitwert
der Zeitgeberheinheit in den der Ereignisklasse i, i =
0, 1, 2, 3, zugeordneten zyklischen Pufferspeicher T i abgelegt.
In jedem Pufferspeicher T i werden jeweils drei aufeinanderfolgende
Ereigniszeitpunkte einer Ereignisklasse gespeichert.
Die Auswertung erfolgt nach der "Einschwingphase".
Treten in Kanal 2 (Ereignisklasse 4 oder 5) Ereignisse auf,
dann werden diese sofort auf eine "zulässige Periode" hin
untersucht. Eine "zulässige Periode", im folgenden "zul. P."
genannt, liegt nach Definition genau dann vor, wenn das Verhältnis
des längeren, I l , zum kürzeren, I k , zweier aufeinanderfolgender
Zeitintervalle einer Ereignisklasse i kleiner
oder gleich 1,25 ist, d. h.
ξ = I l /I k 1,25 (2)
Liegt ein "zul. P." vor, dann wird die mittlere Periodendauer
i = (I l + I k )/2 (3)
berechnet und in den Zwischenspeicher PVS i , i = 4,5, geschrieben.
Existiert keine "zul. P." wird PVS i Null gesetzt.
Alle 10 ms werden die Werte vom Zwischenspeicher abwechselnd
in die Pufferspeicher P0 i und P 1 i übertragen. In den Pufferspeichern
befinden sich dann jeweils die beiden zuletzt bestimmten
mittleren Periodendauern der Ereignisklassen 4 und
5. Dadurch ist sichergestellt, daß auch bei einer hohen SGF
die geschätzte SGP eine Mitteilung über die letzten 20 ms der
"Einschwingphase" darstellt.
Durch das Signal sh wird die "Einschwingphase" beendet und
der 1. SGP-Schätzwert berechnet. Hierzu werden die vier
Pufferspeicher T i , i = 0, 1, 2, 3, sukzessive anhand der drei
letzten Ereigniszeitpunkt einer Ereignisklasse auf "zul. P."
hin überprüft und gegebenenfalls die mittlere Periodendauer
i , i = 0, 1, 2, 3, berechnet. Anschließend wird der Periodenschätzwert
1 des 1. Kanals bestimmt:
Wird in keiner der Ereignisklassen i = 0, 1, 2, 3 eine "zul. P."
festgestellt, d. h. ε i = 0 i, wird über die, durch die zwei
letzten Ereignisse einer Ereignisklasse i, festgelegten Zeitintervalle
I i gemittelt, d. h.
Auf die gleiche Weise wird der Schätzwert 2 für den 2. Kanal
bestimmt. Hierzu dienen die in den Pufferspeichern P0 i und
P 1 i abgelegten mittleren Periodendauern i . Der Schätzwert P 2
ergibt sich nach Gl. (4) für i = 4 und 5. Wird keine "zul. P."
festgestellt bedeutet dies, daß die SGF unter 100 Hz
liegt. Der 1. SGP-Schätzwert wird dann zu s = 1 gesetzt.
Falls 2 existiert wird überprüft, ob Kanal 1 gestört ist
(tieffrequente Störung z. B. Netzbrumm), was bei einer hohen
Sprachgrundfrequenz möglich sein kann.
Zur Überprüfung eines Störfalls wird das Verhältnis
gebildet. Liegt sowohl in Kanal 1 als auch in Kanal 2 ein
Schätzwert vor wird der SGP-Schätzwert in Abhängigkeit von η,
1/P 1 und 1/P 2 entsprechend Tabelle 3 gesetzt. Eine "*" in
Tabelle 3 bedeutet, daß die Werte beliebig sein können.
Tabelle 3: Bestimmung des 1. SGP-Schätzwertes nach der
"Einschwingphase"
Nach der Aufgabe des 1. SGP-Schätzwertes P s beginnt die
quasistationäre Phase. Sie ist dadurch gekennzeichnet, daß
- sich die Periodendauer aufeinanderfolgender Perioden nur wenig ändert,
- anhand des 1. Schätzwertes maximal zwei Kanäle (nur in Übergangsgebieten) ausgewählt werden, in dessen Arbeitsbereichen die SGF liegt (siehe Tabelle 4), so daß ein Primärkanal und in Übergangsgebieten auch ein Sekundärkanal existiert,
- im ungestörten Fall im zeitlichen Abstand von drei SGP ein neuer Schätzwert ausgegeben wird.
- sich die Periodendauer aufeinanderfolgender Perioden nur wenig ändert,
- anhand des 1. Schätzwertes maximal zwei Kanäle (nur in Übergangsgebieten) ausgewählt werden, in dessen Arbeitsbereichen die SGF liegt (siehe Tabelle 4), so daß ein Primärkanal und in Übergangsgebieten auch ein Sekundärkanal existiert,
- im ungestörten Fall im zeitlichen Abstand von drei SGP ein neuer Schätzwert ausgegeben wird.
Anhand des 1. SGP-Schätzwertes werden zunächst die für die
Bestimmung des nächsten Schätzwertes zuständigen Kanäle gemäß
Tabelle 4 durch Setzen einer Unterbrechungsmaske ausgewählt
und die zugelassenen Ereignisklammern den Modulen PRMIN und
PRMAX sowie in Übergangsgebieten den Modulen SEKMIN und
SEKMAX zugeordnet.
Tabelle 4: Auswahl der Kanäle und Zuordnung der Systemmodule
zu den Ereignisklassen 2 bis 7 während der quasistationären
Phase
Sobald ein Ereignis aus der einem Modul zugeordneten Ereignisklasse
auftritt, wird der Zustandzähler inkrementiert und
der entsprechende Zeitwert in einem Zwischenspeicher abgelegt.
Beim dritten Aufruf eines Moduls, d. h. nach dem dritten
Ereignis einer Ereignisklasse, werden die im Zwischenspeicher
abgelegten Zeitwerte auf "zul. P." hin untersucht und gegebenenfalls
zunächst die mittlere Periodendauer A bzw. B
berechnet. Existiert keine "zul. P." wird A = 0 bzw. B = 0
gesetzt. Andernfalls ergibt sich der SGP-Schätzwert zu:
s = A für A ≠
B = 0,
s = B für für A = 0, B ≠ 0 und
s = ( A + B )/2 für A ≠ 0, B ≠ 0
s = B für für A = 0, B ≠ 0 und
s = ( A + B )/2 für A ≠ 0, B ≠ 0
Falls im Primärkreis keine "zul. P." ermittelt werden, d. h.
A = 0 und B = 0, wird der SGP-Schätzwert gleich dem im
Sekundärkanal berechneten Wert gesetzt. Werden werder im Primär-
noch im Sekundärkanal "zul. P." festgestellt, wird kein
neuer Schätzwert ausgegeben. Die Sekundärmodule arbeiten in
gleicher Weise wie die Primärmodule. Sobald drei Ereignisse
einer Ereignisklasse stattfinden, erfolgt eine Überprüfung auf
"zul. P." in der oben beschriebenen Weise.
Löst das Signal sp (s (t) ist nicht stimmhaft seit 30 ms) eine
Unterbrechungsanforderung aus, führt dies zur Beendigung der
quasistationären Phase mit anschließender Verzweigung zum
Pausemodul.
Claims (6)
1. Sprachgrundfrequenzanalysator zur Bestimmung der Tonhöhe
von Sprachsignalen im Bereich von 50 bis 450 Hz,
bestehend aus einer Filterbank (1), einer Extremwert-
und Nulldurchgangs-Detektions-Einheit (2) einer Unterbrechungseinheit
(3) einer Zeitgebereinheit (4) und
einer Auswerteeinheit (5), dadurch gekennzeichnet, daß
mittels der Filterbank sowie der Extremwert- und Nulldurchgangs-
Detektions-Einheit eine Vorfilterung des
Sprachsignals s (t) und eine Datenreduktion auf sprachgrundfrequenzspezifische
Merkmale (Kennwerte) durchgeführt
wird, aus welchen dann mittels der Unterbrechungseinheit,
der Zeitgebereinheit und der Auswerteeinheit
die Sprachgrundfrequenzbestimmung erfolgt.
2. Sprachgrundfrequenzanalysator nach Anspruch 1, dadurch
gekennzeichnet, daß die Filterbank aus drei Bandpässen
(BP 1 bis BP 3) besteht, deren jeweilige Flankensteilheiten
etwa 24 dB/Oktave betragen und deren untere und
obere 3 dB-Bandgrenzen sowie die Arbeitsbereiche Werte
nach Tabelle 1 besitzen.
Tabelle 1: Untere f gu und obere f go 3dB-Grenzfrequenzen
und Arbeitsbereiche der Bandpässe
3. Sprachgrundfrequenzanalysator nach Anspruch 1, dadurch
gekennzeichnet, daß die Extremwert- und Nulldurchgangs-
Detektions-Einheit, bestehend aus drei Extremwertdetektoren
E 1, E 2 und E 3 sowie zwei Nulldurchgangsdetektoren
N 1 und N 3 (siehe Bild 4), die Extremwerte (Maxima
und Minima) aller Bandpaßausgangssignale sowie die
Nulldurchgänge sowohl mit positiver als auch negativer
Steigung der Ausgangssignale von BP 1 und BP 3 feststellt
und dort entsprechende Markierimpulse erzeugt.
4. Sprachgrundfrequenzanalysator nach Anspruch 1, dadurch
gekennzeichnet, daß die Unterbrechungseinheit beim Auftreten
eines Markierimpulses die Auswerteeinheit veranlaßt,
dem Markierimpuls den momentanen Zeitwert der
Zeitgebereinheit zuzuordnen.
5. Sprachgrundfrequenzanalysator nach Anspruch 1, dadurch
gekennzeichnet, daß die Auswerteeinheit mittels der den
Markierimpulsen zugewiesenen Zeitwerten einen Schätzwert
für die im Eingangssignal enthaltene Sprachgrundfrequenz
bzw. Sprachgrundperiode bestimmt.
6. Einrichtungen nach Anspruch 1 bis 5, dadurch gekennzeichnet,
daß sie mit analogen, hybriden oder digitalen
Systemen realisiert werden.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19863600056 DE3600056A1 (de) | 1986-01-03 | 1986-01-03 | Sprachgrundfrequenzanalysator |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19863600056 DE3600056A1 (de) | 1986-01-03 | 1986-01-03 | Sprachgrundfrequenzanalysator |
Publications (1)
Publication Number | Publication Date |
---|---|
DE3600056A1 true DE3600056A1 (de) | 1987-07-23 |
Family
ID=6291391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19863600056 Withdrawn DE3600056A1 (de) | 1986-01-03 | 1986-01-03 | Sprachgrundfrequenzanalysator |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE3600056A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003090204A1 (en) * | 2002-04-19 | 2003-10-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for pitch period estimation |
-
1986
- 1986-01-03 DE DE19863600056 patent/DE3600056A1/de not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003090204A1 (en) * | 2002-04-19 | 2003-10-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for pitch period estimation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE3012771C2 (de) | ||
DE3236834A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE69431445T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE3236832A1 (de) | Verfahren und geraet zur sprachanalyse | |
WO1983000231A1 (en) | Method for testing analog/digital converters and/or digital/analog converters or sections of information transmission circuits, comprising such converters or connected in series therewith, for communication apparatus, particularly for testing coders-decoders for pcm apparatus, as well as device for implemeting such method | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE3243231C2 (de) | ||
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3878895T2 (de) | Verfahren und einrichtung zur spracherkennung. | |
DE2949582A1 (de) | Verfahren und anordnung zur bestimmung der tonhoehe in menschlicher sprache | |
DE3102385C2 (de) | ||
DE1572516A1 (de) | Schaltungsanordnung fuer die Spracherkennung | |
DE1937464A1 (de) | Sprachanalysiergeraet | |
DE69230090T2 (de) | System zur Bestimmung einer Anzahl von Kandidaten zur Erkennung in einer Spracherkennungseinrichtung | |
DE1422040A1 (de) | Verfahren zum automatischen Erkennen gesprochener Worte | |
DE3600056A1 (de) | Sprachgrundfrequenzanalysator | |
DE1547027C3 (de) | Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen | |
EP0138071B1 (de) | Verfaren zur Anregungsanalyse für die automatische Spracherkennung | |
DE2904426A1 (de) | Analog-sprach-codierer und decodierer | |
DE68919924T2 (de) | Verfahren zur Feststellung des Sättigungspegels eines Sprachsignals. | |
DE4124493C1 (de) | ||
DE2334459C3 (de) | Unterscheidung zwischen stimmhaften und stimmlosen Lauten bei der Sprachsignalauswertung | |
DE2448908C3 (de) | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE4315677C2 (de) | Schaltungsanordnung zur Ermittlung der Grundfrequenz aus einem nicht bandbegrenzten, oberwellen- und störsignalhaltigen Signal, insbesondere zur Ermittlung der Stimmgrundfrequenz aus dem Stimm- und Sprechsignal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |