DE2626793A1 - Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals - Google Patents
Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignalsInfo
- Publication number
- DE2626793A1 DE2626793A1 DE19762626793 DE2626793A DE2626793A1 DE 2626793 A1 DE2626793 A1 DE 2626793A1 DE 19762626793 DE19762626793 DE 19762626793 DE 2626793 A DE2626793 A DE 2626793A DE 2626793 A1 DE2626793 A1 DE 2626793A1
- Authority
- DE
- Germany
- Prior art keywords
- speech signal
- delay time
- unvoiced
- voiced
- autocorrelation function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000005311 autocorrelation function Methods 0.000 claims description 46
- 238000005070 sampling Methods 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 230000005284 excitation Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
PATENTANWÄLTE
HENKEL, KERN, FEILER&HÄNZEL
BAYERISCHE HYPOTHEKEN- UND
TELEX: 05 29 802 HNKL D F Π IT A R H-SCH M I D-STR A SSF ">
WECHSELBANKMÜNCHENNr.318-85111
TPIFPON (nm «„a, «mo, O2 tUUAKUiUHMlUMKASSE. DRESDNER BANK MÜNCHEN 3 914
TELEFON. (0 89) 66 3197, 66 30« - 92 D-8 000 M Ü N CH EN 9 O POSTSCHECK: MÜNCHEN 162147- W>
TELEGRAMME: ELLIPSOID MÜNCHEN
Nippon Telegraph and Telephone
Public Corporation
Public Corporation
Tokio, Japan
unserzeichen: monchen. »hn
B [TRIFFT:
Verfahren zur Bewertung stimmhafter und stimmloser Zustände
eines Sprachsignals
Die Erfindung betrifft ein Verfahren zur Bewertung stimmhafter und stimmloser Zustände eines Sprachsignals zur Verwendung bei
einem Spraehenanalysiersystem, insbesondere ein Verfahren zur Bewertung derartiger Zustände zur Anwendung bei einan Sprachenanalysiersystem,
das z.B. einen Teilautokorrelations- bzw. PARCOR-Koeffizienten verwendet o Ein derartiges, z.B. in der
JA-PS 754 4i8 beschriebenes, den Teilautokorrelationskoeffizienten
verwendendes System dient zum Analysieren und Extrahieren des für die Übertragung von Sprachinformationen nötigen Grundmerkmals
eines Sprachsignals mittels einer speziellen Korrelation zwischen aneinander anschließenden Proben einer Sprachwellenform.
Bei einem bisher verwendeten Detektor für stimmhafte und stimmlose
Zustände werden letztere in Abhängigkeit davon bestimmt, ob der Spitzenwert jzfoi = jzf(T) des Autokorrelationskoeffizienten
eines Sprachsinglas einen bestimmten Schwellenwert über-
vl/Bl/ro -
809852/0799
steigt oder nicht, wobei die Verzögerungs- oder Verzugszeit
X= T entsprechend dem Spitzenwert als Höhen- oder Steigungsperiode (pitch period) des Sprachsignals angesehen wird. Ein
derartiges Verfahren ist von M.M. Sondhi in "New Methods of Pitch Extraction", Ι.Ε.Ε.Εβ, Band Au-16, Nr. 2, Juni 1968,
So 2Ö2 - 2β5, beschrieben.
Wenn jedoch ein solches, nur die Periodizität des Sprachsignals benutzendes Verfahren für den Stimmhaft/Stimmlos-Detektor des
Sprachanalyse- und Synthesesystems benutzt angewandt wird, besteht die Gefahr für eine Fehlbewertung des stimmhaften und
stimmlosen Zustands eines Sprachsignals, mit dem Ergebnis, daß der stimmhafte Anteil, der anhand fehlbewerteter Parameter aufgrund
der Analyse synthetisiert bzw. zusammengesetzt wird, durch ein Störsignal (noise) angeregt wird, das als stimmlose Anregungsquelle
wirkt, oder daß der stimmlose Anteil durch eine als stimmhafte Anregungsquelle wirkende Impulsreihe angeregt wird,
so daß die Wiedergabe einer synthetischen Sprache hoher Güte schwierig wird«
Dieses anhand von Fig. 1 erläuterte Verfahren berücksichtigt
nicht das gleichzeitige Vorhandensein bzv/. die Koexistenz der stimmhaften Anregungsquelle V und der stimmlosen Anregungsquelle
UV, wie in einer Stimmhaft/Stimmlos-Schaltfunktion V1 (x).
Im Gegensatz dazu wird bei dem Sprachanalysiersystem unter Benutzung
des Teilautokorrelationskoeffizienten die Verzugszeit "C= T entsprechend dem Spitzenwert W(T) des Autokorrelationskoeffizienten
des Restsignals als Tonperiode (pitch period) benutzt, und der normalisiertejWert pm - W(T)AKo) des Spitzenwerts
wird als Parameter zur Bewertung der stimmhaften und stimmlosen Zustände bzw. Bedingungen eines Sprachsignals herangezogen, wobei
die Koexistenz der stimmhaften Anregung V und der stimmlosen Anregung UV berücksichtigt wird. Bei diesem Verfahren wird das
609852/0799
Verhältnis von stimmhafter Anregung V zu stimmloser Anregung UV unter Bedingungen der Koexistenz durch die in Fig. 1 dargestellten
Schaltfunktionen Vp(x) und V,(x) bestimmt, Vielehe den Spitzenwert
fim als Veränderliche benutzen. Dieses Verfahren ist ebenfalls
in der JA-PS 754 4i8 beschrieben.
Dieses Verfahren ist insofern vorteilhaft, als mit ihm unvollkommene
Bewertungen der stimmhaften und der stimmlosen Anregungen ausgeglichen werden können, die durch die Varianz des Spitzenwerts
/Om verursacht werden, doch ist dabei die Kompensation
noch nicht vollkommen, während weiterhin die stimmhaften und stimmlosen Informationen zu groß werden. Dieses Verfahren ist
daher nicht für praktische Anwendung geeignet.
Aufgabe der Erfindung ist mithin die Schaffung eines verbesserten Verfahrens zur Bewertung der stimmhaften und stimmlosen Zustände
eines Sprachsignals, mit dem diese Zustände mit hoher Genauigkeit bewertet werden können und welches sich daher für ein
Sprachanalysiersystem eignet.
Dieses Verfahren soll dabei mit einer Mindestzahl von Bauteilen einfach durchführbar seino
Diese Aufgabe wird bei einem Verfahren zur Bewertung der stimmhaften
und stimmlosen Zustände eines Sprachsignals erfindungsgemäß dadurch gelöst, daß ein Verhältnis tf(xs)/rf(o) zwischen dem
Viert /(o) der Autokorrelationsfunktion eines Sprachsignals zu
einer Null-Verzugszeit und dem Wert ^(Xs) der Autokorrelationsfunktion
zu einer Verzugszeit Xs einer Abtastperiode bestimmt wird, dieses Verhältnis mit einem nach Korrelationstechnik aus
dem Sprachsignal extrahierten Parameter kombiniert wird und der Grad der Periodizität des Sprachsignals wiedergegeben und dadurch
bewertet bzw. festgestellt wird, daß das Sprachsignal in einem stimmhaften oder in einem stimmlosen Zustand vorliegt.
609852/0799
In abgewandelter Ausführungsform kennzeichnet sich das erfindungsgemäße
Verfahren dadurch, daß ein Verhältnis tf(xs)/tf(o)
zwischen dem Wert jzf(o) der Autokorrelationsfunktion "eines Sprachsignals
zu einer Null-Verzugszeit und dem Wert rf(Vs) der Autokorrelationsfunktion
zu einer Verzugszeit fs einer Abtastperiode bestimmt wird, daß dieses Verhältnis zur Bildung eines Produkts
mit einer Konstante a multipliziert wird, daß dieses Produkt dem normierten Wert jzf(T)/#(o) der Autokorrelationsfunktion zu
einer Verzugszeit T entsprechend der Tonperiode des Sprachsignals hinzuaddiert wird, um eine Summe zu bilden, und daß die
Summe mit einem vorbestimmten Schwellenwert verglichen und dadurch bewertet bzw. festgestellt wird, daß sich das Sprachsignal in
einem stimmlosen oder in einem stimmhaften Zustand befindet, wenn die Summe kleiner bzw« größer ist als der Schwellenwert.
In weiterer Abwandlung ist dieses Verfahren dadurch gekennzeichnet,
daß ein Verhältnis ^(Ys)/#(o) zwischen dem Wert rf(o) der
Autokorrelationsfunktion eines Sprachsignals zu einer Null-Verzugszeit
und dem Wert tf(Xs) der Autokorrelationsfunktion zu
einer Verzugszeit TTs einer Abtastperiode bestimmt wird, daß dieses
Verhältnis mit dem normierten Wert der Autokorrelationsfunktion zu einer Verzugszeit T entsprechend der Tonperiode des
Sprachsignals multipliziert wird, um ein Produkt zu bilden, und daß das Produkt mit einem vorbestimmten Schwellenwert verglichen
und dadurch bewertet bzw. festgestellt wird, daß sich das Sprachsignal in einem stimmlosen oder in einem stimmhaften Zustand
befindet, wenn das Produkt kleiner bzw. größer ist als der Schwellenwert.
In weiterer Ausgestaltung ist das erfindungsgemäße Verfahren dadurch
gekennzeichnet, daß ein Verhältnis j^(fs)/^(o) zwischen
dem Wert jzf(o) der Autokorrelationsfunktion einer Sprachwellenform
zu einer Null-Verzugszeit und dem Wert rf(Xs) der Autokorrelationsfunktion
zu einer Verzugszeit fs einer Auswerte- oder Abtastperiode bestimmt wird, daß das Verhältnis zur Bildung
609852/0799
eines Produkts mit einer Konstante b multipliziert wird, daß
das Produkt zum normierten V/ert W(T)/fa(o) der Autokorrelationsfunktion
zu einer Verzugszeit T entsprechend der Tonperiode des Restsignals, erhaltbar durch eine lineare Vorausanalyse (predictive)
des Sprachsignals, hinzuaddiert wird, um eine Summe zu bilden, und daß die Summe mit einem vorbestimmten Schwellenwert
verglichen und dadurch bewertet bzw. bestimmt wird, daß das Sprachsignal im einen Fall in einem stimmlosen und im anderen
Fall in einem stimmhaften Zustand vorliegt.
In noch weiterer Ausgestaltung besteht die Besonderheit des erfindungsgemäßen
Verfahrens darin, daß ein Verhältnis ^(fs)/#(o)
zwischen dem Wert rf(o) der Autokorrelationsfunktionneines Sprachsignals
zu einer Null-Verzugszeit und dem Wert ^(fs) der Autokorrelationsfunktion
einer Auswerte- oder Abtastperiode zu einer Verzugszeit Ts bestimmt wird, daß dieses Verhältnis zur Bildung
eines Produkts mit dem normierten V/ert V/(T)/V/(o) zu einer Verzugszeit
T entsprechend der Tonperiode der Autokorrelationsfunktion des Restsignals, erhaltbar durch die lineare Vorausanalyse
des Sprachsignals, multipliziert wird und daß das Produkt mit einem vorbestimmten Schwellenwert verglichen und dadurch bewertet
bzw«, festgestellt wird, daß sich das Sprachsignal in einem stimmlosen oder in einem stimmhaften Zustand befindet, wenn das
Produkt kleiner bzw. größer ist als der Schwellenwert.
Schließlich kennzeichnet sich noch eine andere Ausführungsform
der Erfindung dadurch, daß ein Verhältnis ^0τ&)/#(ο) zwischen
dem V/ert tf(o) der Autokorrelationsfunktionneines Sprachsignals
zu einer Null-Verzugszeit und dem Wert ^(fs) der Autokorrelationsfunktion
einer Auswerte- oder Abtastperiode zu einer Verzugszeit Xs bestimmt wird, daß dieses Verhältnis zur Bildung eines Produkts
mit einer Konstante a multipliziert wird, daß zur Bildung einer Differenz der Wert DT zu einer Verzugszeit T entsprechend
der Tonperiode der Durchschnittsgrößen-Differenzfunktion des Restsignals, erhaltbar durch lineare Vorausanalyse des Sprach-
609852/0799
signals, subtrahiert wird und daß die DifferenzraLt einem vorbestimmten
Schwellenwert verglichen und dadurch bewertet bzw. bestimmt wird, daß das Sprachsignal in einem stimmlosen oder
einem stimmhaften Zustand vorliegt, wenn die Differenz größer bzw. kleiner ist als der Schwellenwerto
Im folgenden sind bevorzugte Ausführungsbeispiele der Erfindung im Vergleich zum Stand der Technik anhand der beigefügten Zeichnung
näher erläutert. Es zeigen:
Figo 1 eine graphische Darstellung einer Stimmhaft/Stimmlos-Sehaltfunktion
Vx zur Erläuterung eines bisher benutzten Stimmhaft/Stimmlos-Detektors,
Fig. 2 eine i)m-k,. -Kennlinie zur Veranschaulichung des Ergebnisses
der Entscheidung nach stimmhaft oder stimmlos, die durch Kombination des Teilautokorrelationskoeffizienten
k. und des Höchstwerts /)m des Autokoirelationskoeffizienten
des Restsignals durchgeführt wird,
Figo J5 ein Blockschaltbild des grundsätzlichen Aufbaus einer
Sprachanalysier- und Synthesevorrichtung beim erfindungsgemäßen
Stimmhaft/Stimmlos-Detektor, welcher das Ergebnis der Bewertung gemäß Fig. 2 benutzt,
Fig. 4 ein detailliertes Blockschaltbild des Teilautokorrelations-
bzwο PARCOR-Analysators bei der Schaltung gemäß Fig. 3,
Fig. 5 ein detailliertes Blockschaltbild eines bei der Schaltung
gemäß Fig. J5 verwendeten Tonperiodendetektors,
Fig. 6 ein detailliertes Blockschaltbild des Stimmhaft/Stimmlos-Detektors
bei der Schaltung gemäß Fig. 3 und
609852/0799
Pig. 7 ein Blockschaltbild eines Sprachanalysier- und Synthesesystems
unter Verwendung eines abgewandelten Stimmhaft/-Stimmlos-Detektors
gemäß der Erfindung.
Erfindungsgemäß wurde ein Sprachsignal unter Anwendung eines Zeitfensters von 20 ms und einer Rahmenfolgeperiode (rate of
frame period) von 10 ms untersucht, wobei Teilautokorrelations- bzw«, PARCOR-Koeffizienten erhalten wurden. Fig. 2 zeigt einen
Maximalwert des Autokorrelationskoeffizienten der Restsignale (residuals) /3m, nämlich die auf diese Weise erhaltene PARCOR-Koeffizientencharakteristik
erster Ordnung. Diese Charakteristik bzwβ Kennlinie wurde mittels einer PARCOR-Analyse der Sprechweise
eines weiblichen Sprechers während einer Zeit von j5 s ermittelt.
In Fig. 2 geben die Quadrate und Sternchen jeweils die stimmhaften bzw. die stimmlosen Zustände in jedem Rahmen (frame) an,
die manuell durch Ablesen oder Auswerten der Wellenform der ursprünglichen Sprache ermittelt wurden.
Wenn das Sprachsignal nach dem bisher üblichen Verfahren als Sprachzustand bewertet wird, indem festgestellt wird, daß pm
einen vorbestimmten Schwellenwert übersteigt, ist es aus Fig. ersichtlich, daß der stimmhafte Bereich im rechten unteren Abschnitt
von Figo 2 als stimmloser Bereich fehlbewertet wird. Durch Herabsetzung des Schwellenwerts wird die Bewertung möglich,
daß der rechte untere Abschnitt den stimmhaften Bereich darstellt. Unter diesen Bedingungen werden jedoch zahlreiche
stimmlose Bereiche als stimmhafte Bereiche fehlbewertet„ Mit
anderen V/orten: Es besteht eine Grenze bzw. Einschränkung für das bisher übliche Verfahren, bei dem die stimmhaften und stimmlosen
Zustände bewertet werden, indem lediglich der Faktor ^m
entsprechend dem Grad der Periodizität als Parameter benutzt wird.
Bezüglich der Beziehung zwischen der Bewertung der stimmhaften und stimmlosen Zustände und der Güte der synthetischen Sprache
609852/0799
sollten die folgenden beiden Punkte in Erwägung gezogen werden:
1· Eine Fehlbewertung des stimmhaften Zustands als stimmloser
Zustand beeinträchtigt die Natürlichkeit der synthetischen Sprache 0
2. Eine Fehlbewertung des stimmlosen Zustands als stimmhafter Zustand beeinträchtigt die Verständlichkeit der stimmlosen
Töne.
Die erstgenannte Fehlbewertung hat einen wesentlich größeren Einfluß auf die Gesamtgüte der synthetischen Sprache als die
zweite Fehlbewertung. Zur einwandfreien Festlegung des Kriteriums für die Bewertung ist daher hauptsächlich darauf zu achten,
daß der stimmhafte Zustand nicht als stimmloser Zustand fehlbewertet wird, weshalb es wünschenswert ist, die Fehlbewertung
des stimmlosen Zustands als stimmhafter Zustand in einem Bereich, in welchem diese Bedingung erfüllt ist, zu verhindern.
Aus obigen Überlegungen geht hervor, daß die angesprochenen Probleme durch die Bewertung gelöst werden könnei, daß der
stimmhafte Zustand vorhanden ist, wenn yOm + a χ \c,
> t, während der stimmlose Zustand anliegt, wenn^Jm + axkxt, wobei a und
t Konstanten darstellen. Die Konstante a stellt somit das Gefälle
einer geraden Linie zwischen den stimmhaften und stimmlosen Bereichen dar, und t gibt den Höchstwert des Autokorrelationskoeffizienten
des Restsignals ^Om an, wenn der PARCOR-Koeffizient
k.. = 0. Anhand von Fig«, 2 läßt sich beispielsweise
ermitteln, daß a = 0,5 und t = 0,4.
Genauer gesagt, ist pm ein Parameter, welcher den Grad der Periodizität des Sprachsignals angibt, während der PARCOR-Koeffizient
k. (Jk1/<1) kombiniert mit fim einen Wert von etwa
-1 bei einem Sprachsignal mit einer Hochfrequenzkomponente nahe 4 kHz besitzt, wobei k, gleich dem Autokorrelationskoeffizienten
609852/0799
einer Verzugszeit Ts einer Abtastperiode ist, wobei die Abtastfrequenz
8 kHz beträgt. Der Wert des PARCOR-Koeffizienten k^ nähert sich Jedoch bei einem Sprachsignal mit einer Niederfrequenzkomponente
der Größe +1 an. Demzufolge ist der Wert von k^ für einen durch einen Vokal dargestellten stimmhaften Zustand
groß und für einen stimmlosen Zustand entsprechend einem stimmlosen Reibelaut klein. Mit anderen Worten: k1 stellt eine Frequenzkonstruktion
für den die Periodizität wiedergebenden Parameter pm dar. Zum Herausziehen der Periodizität, wie dies für
die Verarbeitung einer Längeneinheit des Sprachsignals von etwa ^O ms entsprechend der Kennlinie der Periodizität erforderlich
ist, ist die zeitliche Auflösung von pm gering. Dagegen kann
die zeitliche Auflösung für das Herausziehen von k.. vergrößert
werden, wodurch as möglich ist, einem Übergang zwischen stimmhaften und stimmlosen Zuständen zu folgen, der eine hohe zeitabhängige
Änderungsfrequenz besitzt.
Da weiterhin k1 den PARCOR-Koeffizienten darstellt, braucht dieser
Parameter nicht speziell bestimmt zu werden, wenn die Erfindung auf das Sprachanalysesystem unter Zugrundelegung der
Teilautokorrelation (PARCOR) angewandt wird.
Wie aus der vorstehenden Untersuchung hervorgeht, bezweckt die Erfindung die Bewertung, ob sich das Sprachsignal in einem
stimmhaften oder einem stimmlosen Zustand befindet, durch Kombination eines durch Korrelationsverarbeitung des Sprachsignals
erhaltenen bzw. extrahierten Parameters, z.B. pm, welcher den
Grad der Periodizität eines Sprachsignals angibt, mit einem normalisierten Viert /(fs), welcher dem PARCOR-Koeffizienten k.
gleich ist, wobei die Verzugszeit fs eine Abtastperiode des Sprachsignals darstellt.
Die Erfindung ist nachste-hend in verschiedenen Ausführungsbeispielen erläutert. Fig.,J>
ist ein Blockschaltbild eines Sprachanalyse- und -syntheysiersystems mit einer Ausführungsform
609852/0799
des erfindungsgemäßen Stlmmhaft/Stimrnlos-Detektors, welcher aus
dem Bewertungsergebnis gemäß Fig. 2 Nutzen zieht. Gemäß Fig. 3
wird ein Sprachsignal über eine Eingangsklemme an ein Tiefpaßfilter 12 zur Beseitigung von Frequenzkomponenten von z.B. über
;5>4l<Hz angelegte Der Ausgang des Tiefpaßfilters 12 ist an einen
Analog/Digital-Wandler 1j5 angeschlossen, welcher das Ausgangssignal
mit einer Abfrage- oder Abtastfrequenz von 8 kHz abgreift und es dann einer Amplitudenquantelung unterwirft, um dabei ein Digitalsignal
mit 12 Bits zu bilden. Das Ausgangssignal dieses Wandlers 15 wird an einen PARCOR- bzw. Teilkorrelationskoeffizient-Analysator
14 angelegt, welcher die Frequenzspektrum-Hüllkurve
des Sprachsignals auswertet oder analysiert, um z.B. acht PARCOR-Koeffizienten k. bis kg zu bestimmen,,
Ein in Fig„ 4 beispielhaft dargestellter PARCOR-Koeffizienten-Analysator
14 weist η Stufen von Teilautokorrelatoren 14.. bis
14 auf, die in Kaskade geschaltet sind. Da alle Teilautokorrelatoren
den gleichen Aufbau besitzen, wird nachstehend nur die Einheit 14 im einzelnen beschrieben. Diese Einheit 14 weist ein
Verzögerungsnetz 21 zur Verzögerung des Sprachsignalsuum eine Abtastperiode ffe, einen Korrelationskoeffizienten-Rechner 22,
Multiplizier schaltungen 23 und 24, Addierschaltungen 25 und 2.6
sowie eine Quantisierschaltung bzw„ einen Größenwandler 27 auf.
Die Teilautokorrelatorstufe 14, ist mit einer Eingangsklemme 28
zur Aufnahme eines Sprachsignals und einer Ausgangsklemme 29 zur Lieferung des Ausgangssignals für den Größenwandler 27 und
des quantisierten PARCOR-Koeffizienten dieser Stufe, d.h„ des
PARCOR-Koefffizienten k.. der ersten Ordnung, versehen. Eine Ausgangsklemme
30 der letzten Stufe I4n Ist unbelegt, während die
andere Ausgangsklemme j51 zur Übermittlung eines Restsignals zum Autokorrelator einer noch näher zu erläuternden Anregungssignal-Ausziehstufe
dient. Die Einzelheiten der Arbeitsweise des PAR-COR-Koeffizienten-Analysators
14 sind in der US-PS J5 662 115
beschriebene
609852/0799
Gemäß Pig. 3 ist weiterhin eine Anregungssignal-Ausziehstufe
15 vorgesehen, die so geschaltet ist, daß sie von den Ausgangssignalen
des Analysators 14 den PARCOR-Koeffizienten k.. erster
Ordnung und das Restsignal aufnimmt· Die Ausziehstufe 15 weist
einen Tonperioden-Detektor 16 und einen Stimmhaft/Stimmlos-Detektor
17 gemäß der Erfindung auf. Die Ausziehstufe 15 bestimmt die Autokorrelationsfunktion W(t) des über die Ausgangsklemme 31
gelieferten Restsignals aus einem der Ausgangssignale der des PARCOR-Koeffizienten-Analysators, und sie wählt den Spitzenwert
yOm der Autokorrelationsfunktion Vi(t?) mittels des Höchstwertwählers,
so daß eine Verzugszeit T entsprechend dem gewählten Spitzenwert dm als Tonperiode des Sprachsignals bestimmt oder ermittelt
wird.
Der in Fig. 5 in Einzelheiten dargestellte Tonperioden-Detektor
16 weist einen Autokorrelator 35 auf, welcher die Autokorrelationsfunktion
des Restsignals W(t) bestimmt. Aus einer Vielzahl
von Ausgangssignalen des Autokorrelators 35 wird ein Ausgangssignal
XJo = W(o) zum Herausziehen einer Komponente mit einer Amplitude L und zum Normieren von /jm auf noch zu erläuternde
Weise benutzt. Der Tonperioden-Detektor 16 weist weiterhin einen
Höchstwertwähler 36 zum Ausziehen eines Höchstwerts W(T) im Bereich
von J χ Ts ^ T^ Ic x Ts aus den verschiedenen Werten von
W(T) auf, wobei Ts die Abgreif- bzw. Abtastperiode des Sprachsignals
darstellt und j und k ganze Zahlen sind, die derart gewählt sind, daß die Tonperiode innerhalb des angegebenen Bereichs
liegt. Wenn die Abtastfrequenz 8 kHz entspricht, wird j mit 16
und k mit 120 gewählt. Die Verzugszeit T entsprechend der Verzugs· zeit, welche den Höchstwert W(T) innerhalb dieses Bereichs liefert,
wird als die Tonperiode'(ausgedrückt durch ein ganzzahliges Vielfaches von Ts) bestimmt und an eine Klemme 38 angelegt.
Ein Wert bei Null-Verzugszeit /Qo » W(o) entsprechend dem Quadrat
(power) des Anregungssignals wird an eine Wurzelschaltung (square rooter) 39 angelegt, durch welche L =fPm berechnet wird
Und deren Ausgangssignal über einen Größenwandler 4-0 an eine Ausgangsklemme
41 angelegt wird.
609852/0799
Der durch den Höchstwertwähler 36 extrahierte oder ausgezogene Spitzenwert wird an einem Teiler 42 zum Normalisieren durch das
Signal fio dividiert, und der normalisierte Wert wird über einen
Größenwandler 4J als Signal pm einer Klemme 44 zugeführt. Die
Verzugszeit T entsprechend derjenigen, xvenn der Höchstwertwähler
36 einen Spitzenwert auswählt, wird über einen anderen Größenwandler 45 an eine Klemme 45 angelegt.
Fig. 6 zeigt ein Beispiel für den Stimmhaft/Stimmlos-Detektor
17 mit einer Multiplizier schaltung 48, die ein Produkt aus
a χ k. eines über eine Eingangsklemme 49 vom PARCOR-Koeffizienten-Analysator
14. gelieferten PARCOR-Koeffizienten und einer Konstante a, wie sie vorher in Verbindung mit Fig. 2 beschrieben
ist, berechnet. Der Detektor 17 weist auch eine Addierschaltung
51 aufj die den vom Tonperioden-Detektor 16 gelieferten
normalisierten Spitzenwert Om der Autokorrelationsfunktion der
Restsignale über eine Klemme 52 zum Ausgangssignal (axt) der
Multiplizierschaltung addiert und damit eine Summe (pm + a χ k.)
liefert. Außerdem ist ein Komparator 55 vorgesehen, welcher
diese Summe mit einem Schwellenwert t vergleicht. Im Fall von t > (pm + a χ k1) erzeugt der Komparator 53 ein "θ"- bzw. Niedrigpegel-Ausgangssignal,
während er im Fall von t < (pm + a χ k.)
ein "1"-Ausgangssignal (hoher Pegel) erzeugt, wobei diese Ausgangssignale
über eine Ausgangsklemme 54 an die Klemme i8a
(Fig. 3) angelegt werden,, Wenn daher das Ausgangssignal des
Komparators 53 einer "O" entspricht, wird das Sprachsignal als
in einem stimmlosen Zustand befindlich bewertet, während bei einem Ausgangssignal gleich "1" ein stimmhafter Zustand des
Sprachsignals bewertet wird.
Gemäß Fig. 3 werden die durch den Analysator 14 ausgezogenen
oder analysierten PARCOR-Koeffizienten k. - kg und die durch
die Auszieheinheit 15 analysierten Anregungssignale T, V, UV
und L an eine gemeinsame Ausgangsklemme i8a angelegt. Wenn ein Digitalübertragungssystem gewünscht wird, werden ein geeigneter
6 0 9 8 5 2/0799
Digitalkodewandler und ein Digitalübertrager (nicht dargestellt) an die Ausgangskierame i8a angeschlossen. Wenn eine Tonantwortvorrichtung
(audio response apparatus) gewünscht wird, wird eine geeignete Speichervorrichtung mit der Klemme i8a verbunden.
Die durch die eben beschriebene Vorrichtung von der Klemme 18a abgenommenen Signale werden an eine Klemme i8b angelegt, an
die eine Sprachsynthesierschaltung 19 angeschlossen ist, welche ein Sprachsignal entsprechend den ausgezogenen, durch eine Vorrichtung,
wie den Digitalübertrager und die Speichervorrichtung, an die Klemme i8b angelegten Parametersignalen reproduziert. Die
Sprachsynthesiersehaltung kann von beliebiger bekannter Bauart, z.B. derjenigen gemäß der US-PS 3 662 115>sein. Das Ausgangssignal
dieser Schaltung 19 wird einer Ausgangsklemme 20 aufgeprägt .
Die Schaltung gemäß Figo 3 arbeitet wie folgt: Aus dem an die Eingangsklemme 11 angelegten Sprachsignal werden Hochfrequenzkomponenten
von z.B0 über 3,4 kHz durch das Tiefpaßfilter 12
beseitigt, und dessen Ausgangssignal wird einer Amplitudenquantelungs-Verarbeitung
von 12 Bits bei einer Auswerte- oder Abtastfrequenz von z.B. 8 kHz unterworfen und sodann durch den Analog/-Digital-Wandler
13 in einen Digitalkode umgewandelt. Das Ausgangssignal
des Wandlers 13 wird der PARCOR-Koeffizienten-Analysier-
oder Ausziehvorrichtung 14 eingegeben, um die Frequenzspektrum-Hüllkurve
der Sprache auszuziehen und dabei z.B. acht PARCOR-Koeffizienten k. - kg zu bestimmen. Von diesen Ausgangssignalen
werden der Koeffizient k. erster Ordnung und das Restsignal zur Anregungssignal-Ausziehvorrichtung 15 gesandt. Wie
erwähnt, ist der PARCOR-Koeffizient k. erster Ordnung gleich
) 0 In der Ausziehvorrichtung oder -stufe 15 berechnet
der Stimmhaft/Stimmlos-Detektor 17 die Summe (pm + ak.) des
durch die Tonperioden-Ausziehvorrichtung 16 extrahierten Spitzenwerts
yOm und des primären PARCOR-Koeffizienten k.. Wenn die
Summe (pm + ak..) größer ist als der Schwellenwert t, bestimmt
der Stimmhaft/Stimmlos-Detektor, daß ein stimmhafter Zustand
6098B2/0799
- κ, - 2626733
vorliegt, während bei einer unter dem Schwellenwert t liegenden Summe ein stimmloser Zustand festgestellt wird. Die Ausgangssignale
entsprechend den jeweiligen Zuständen werden an die Ausgangsklemme 18a angelegt. Die Ausgangssignale werden sodann
über einen Digitalübertrager oder eine Speichervorrichtung (nicht dargestellt) zur Klemme i8b und von dieser zur Sprachsynthetisierschaltung
19 zur Reproduktion einer synthetischen Sprache, die zur Ausgangsklemme 20 übermittelt wird, weitergeleitet.
Die Erfindung bietet die folgenden Vorteile:
1. Da die stimmhaften und stimmlosen Zustände entsprechend dem
Verhältnis oder der Beziehung zwischen einem Parameter yOrn,
welcher den Grad der Periodizität eines Sprachsignals angibt, dem Wert rf(o) der Autokorrelationsfunktion bei Null-Verzugszeit
des Sprachsignals und dem Wert jd(ts) der Autokonelationsfunktion
bei einer Verzugszeit Ts der "Abtastperiode bewertet
werden, können die stimmhaften und stimmlosen Zustände (V und UV) mit hoher Genauigkeit bewertet bzw. bestimmt werden.
2„ Hierdurch wird es möglich, eine synthetische Sprache hoher
Güte zu reproduzieren.
J5. Unabhängig davon, daß die stimmhaften und stimmlosen Zustände
nach einem äußerst einfachen Verfahren bewertet werden können, bei dem lediglich ein kleiner Teil der bisher
nötigen Bauteile verwendet wird, lassen sich diese außerdem mit hoher Genauigkeit verarbeiten.
4. Da es möglich ist, die stimmhaften und stimmlosen Zustände (V und UV) mit hoher Genauigkeit zu bewerten, ist das gleichzeitige
Vorhandensein von sowohl stimmhaften als auch stimmlosen Zuständen als Anregungssignale, wie bei der bisher verwendeten
Vorrichtung, nicht erforderlich.
609852/0799
Zur Verdeutlichung der Vorteile der Erfindung wurde ein Doppel-Vergleichsversuch
mit synthetischen Sprachen durchgeführt, die einmal nach dem bekannten Verfahren und zum anderen nach dem erfindungsgemäßen
Verfahren zusammengestellt wurden, wobei die Vorzugsauswertungen (preference scores) gemäß folgender Tabelle
erhalten wurden:
Synth· Satz S.. Synth, Satz
Stand der pn W ^7 nc/
Technik 20'8'0 57'8?i
Erfindung 41, 2$ 80,2.%
Zur Erzielung dieser Ergebnisse wurden ein synthetischer Satz mit einer Gesamtbitfrequenz von 9,6 Kilobit/s als synthetischer
Satz S1 und ein solcher mit einer Gesamtbitfrequenz von 27 Kilobit/s
als Satz Sp benutzt. Diese synthetischen Sätze wurden von
drei Sprecherinnen Jeweils 5,5 s lang gesprochene Zehn männliche
Zuhörer wurden ausgewählt, und das Abhören jedes Vergleichspaars wurde zehnmal wiederholt. Wie aus obiger Tabelle hervorgeht, ist
die Güte des synthetischen Satzes, der aus den vom erfindungsgemäßen
Stimmhaft/Stimmlos-Detektor ermittelten Anregungssignalen V und UV reproduziert wurde, wesentlich höher als bei dem
durch den herkömmlichen Detektor reproduzierten Satz.
Wenn bei dieser Ausführungsform die Konstante a auf z.B. 0,5 eingestellt wird, kann die Multiplizierschaltung 48 gemäß Fige6
durch ein 1-Bit-Schieberegister ersetzt werden, wodurch der Schaltungsaufbau vereinfacht wird.
6098 5 2/0799
Ebenso ist es möglich, eine Kombination
unter Verwendung eines normalisierten Werts ^Om = W(T)/W(o) der
Autokorrelationsfunktion des Restsignals bei einer Verzugszeit T entsprechend der Tonperiode des Sprachsignals zu bilden und
diese Kombination für die Bewertung zu benutzen, daß das Sprachsignal stimmlos, wenn der Viert der Kombination unter einem vorbestimmten
Schwellenwert liegt, und in allen anderen Fällen stimmhaft ist. In diesem Fall werden Multiplizierschaltungen
und 51 anstelle der einen Multiplizierschaltung 48 gemäß Fig.
eingesetzt.
Anstelle der Benutzung der Autokorrelationsfunktion W(t) des
Restsignals ist es auch möglich, die Autokorrelationsfunktion
der Sprachwellenform als /)m = rf(T)/$(o) zu verwenden und die
stimmhaften und stimmlosen Zustände nach dem vorher beschriebenen Verfahren festzustellen.
Fig. 7 ist ein Blockschaltbild einer Sprachanalyse- und -Synthetisiervorrichtung
mit einem abgewandelten Stimmhaft/stimmlos-Detektor gemäß der Erfindung, wobei den Teilen von Fig«, j5 entsprechende
Bauteile mit den gleichen Bezugsziffern wie vorher bezeichnet sind. Gemäß Fig. 7 ist ein als das eine Element der
Anregungssignal-Ausziehvonlchtung 15 dienender Tonperioden-Detektor
60 zur Aufnahme eines Restsignals, nämlich eines von mehreren Ausgangssignalen des PARCOR-Koeffizienten-Analysators
14 geschaltet. Der Detektor 60 bestimmt oder ermittelt die Durchschnittsgrößen-Differenzfunktion
(AMDF)D(t?) des Restsignals und wählt den Inklinations- bzw. Tauchwert (dip value) von Dfä mittels
eines nicht dargestellten Mindestwertwählers, so daß eine entsprechende Verzugszeit T als Tonperiode (pitch period) benutzt
wird. Der Detektor βθ liefert eine Amplitudenkomponente L der
Erregungsquelle und den Inklinationswert Λ1m = D(T) von D(X:).
609852/0799
Das Verfahren der Verwendung von D(T) anstatt der Autokorrelation sf unk ti on jzf(t) ist bekannt und z.B. von M0J. Ross u.a. unter
dem Titel "Average Magnitude Difference Function Pitch Extractor", I.E.E.E., Assp 22, Nr. 5, Oktober 1974, beschrieben. In der vorstehenden
Beschreibung bedeutet D(t) die Mittelwert-Differenzfunktion der Verzugszeit T, ausgedrückt durch die Gleichung
worin S^ = 1 Abtastwerte des Sprachsignals und i = 1, 2 .„. 1
bedeuten. Außerdem ist eine Multiplizierschaltung 61 vorgesehen,
die eine Konstante a' mit dem PARCOR-Koeffizienten k. multipliziert,
nämlich mit dem Verhältnis des V/er te φ (ο) von Autokorrelationsfunktion
bei Null-Verzugszeit des Sprachsignals zur Autokorrelationsfunktion
/(fs) bei einer Verzugszeit fs der Abtastperiode.
Infolgedessen liefert die Multiplizierschaltung 61 ein Ausgangssignal ar χ k. = a1 χ $zf(Ts)/jzf(o)# Der Unterschied zwischen
den Ausgangssignalen der Multiplizierschaltung 61 und dem Tonperioden-Detektor 6θ wird durch eine Subtrahierschaltung 62
berechnet, deren Ausgangssignal (a1 χ k.. - yO'm) an einen Eingang
des !Comparators 63 angelegt wird» An den anderen Eingang des Komparators
63 wird ein Schwellenwert t' angelegt. Die Multiplizierschaltung
61, die Subtrahierschaltung 62 und der Komparator 63
bilden somit den Stimmhaft/Stimmlos-Detektor 64»
Die Schaltung gemäß Fig. 7 arbeitet wie folgt: Aus einer Anzahl
von Ausgangssignalen des Anylsators 14 wird das Restsignal an die
Anregungssignal-Ausziehvorrichtung 15 angelegt, deren Tonperioden Detektor 60 die Durchschnittsgrößen-Differenzfunktion D(tO des
Restsignals ermittelt, und der Inklinationswert (dip) ^'m = D(T)
der Funktion D(f) wird durch die Mindestwert-Wählschaltung gewählt.
Beim Detektor 64 liefert die Multiplizierschaltung 61 das Produkt
aus dem PARCOR-Koeffizienten k. = /(Ts)/^(o) vom betreffen-
609852/0799
den Analysator 14 und einer Konstante a1, und das Ausgangssignal
der Multiplizierschaltung 64 wird zur Subtrahierschaltung 62 geliefert,
an welcher der Unterschied zwischen diesem Produkt und dem Ausgangssignal pxa der Tonperioden-Ausziehvorrichtung 60, d.h.
a1 χ Ic1 - />fm, ermittelt wird«, Das Ausgangssignal der Subtrahierschaltung
62 wird durch den Komparator 63 mit dem Schwellenwert t
verglichen. Wenn a1 χ k. - ffm größer ist als tl, wird ein
stimmhafter Zustand bewertet, und wenn dieser Ausdruck kleiner ist als t*t wird ein stimmloser Zustand festgestellt. Anschliessend
erfolgt die gleiche Verarbeitung wie in Fig. >
Obgleich bei den vorstehend beschriebenen Ausführungsformen j2f(ts)/^(o) als einer der Parameter zur Feststellung von stimmhaften
und stimmlosen Zuständen benutzt wurde, braucht die Verzugszeit Ts nicht genau auf die Abtastperiode Ts abgestimmt zu
sein, vielmehr wird durch eine geringfügige Abweichung von Ts die Arbeitsweise der erfindungsgemäßen Schaltung nicht beeinträchtigt.
Versuche haben gezeigt, daß es, solange 1Cs einer Beziehung
0 <$s «1 ms genügt, möglich ist, die stimmhaften und
stimmlosen Zustände mit ausreichend hoher Genauigkeit zu bewerten.
Obgleich die Erfindung zudem in Anwendung auf die Feststellung eines Anregungssignals für ein Sprachanalysesystem unter Anwendung
des Teilautokorrelationskoeffizienten beschrieben ist, ist sie auch auf ein End- (terminal) oder Anschluß-Analogsprachanalysesystem
mit einer Reihe von Resonanzkreisen entsprechend dem Sprachformat, auf ein Maximal-Wahrscheinlichkeitsverfahren
zur Bestimmung der Frequenzspektrum-Hüllkurve und auf einen Kanal-Vocoder anwendbar, wobei normierte Funktionen ^(Ts),
jzf(T) o.dgl. Korrelationsfunktionen verwendet werden, die als Ergebnis
der Extraktion von Merkmalsparametern der Frequenzspektrum-Hüllkurve oder der Tonperiode abgeleitet werden. Dabei kann
die Erfindungsaufgabe dadurch gelöst werden, daß einfach entsprechende Werte für a und t in Abhängigkeit von der Variation
des Werts der beim betreffenden Sprachanalysesystem verwendeten Korrelationsfunktion gewählt werden.
609852/0799 ;■-.-■
Erfindungsgernäß werden also die stimmhaften und stimmlosen Zustände
eines Sprachsignals durch Kombination eines Verhältnisses rf(l?s)/fi(o) zwischen dem Wert rf(o) der Autokorrelationsfunktion
des Sprächsignals zu einer Null-Verzugszeit und dem Wert rf (fs)
der Autokorrelationsfunktion zu einer Verzugszeit ts der Abtastperiode
mit einem nach einer Korrelationstechnik aus dem Sprachsignal extrahierten Parameter und Wiedergabe des Grads der
Periodizität des Sprachsignals bewertet. Durch Untersuchung des Ergebnisses dieser Kombination kann festgestellt werden, ob
ein Sprachsignal in einem stimmhaften oder in einem stimmlosen Zustand vorliegt.
609852/0799
Claims (1)
- Patentansprüche1·^Verfahren zur Bewertung der stimmhaften und stimmlosen Zuv— stände eines Sprachsignals, dadurch gekennzeichnet, daß ein Verhältnis jzf(Xs)/fzf(o) zwischen dem V/ert tf(o) der Autokorrelationsfunktion eines Sprachsignals zu einer Null-Verzugszeit und dem V/ert jzf(ts) der Autokorrelationsfunktion zu einer Verzugszeit fs einer Abtastperiode bestimmt wird, dieses Verhältnis mit einem nach Korrelationstechnik aus dem Sprachsignal extrahierten Parameter kombiniert wird und der Grad der Periodizität des Sprachsignals wiedergegeben und dadurch bewertet bzw. festgestellt wird, daß das Sprachsignal in einem stimmhaften oder in einem stimmlosen Zustand vorliegt.2« Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als Parameter ein normierter V/ert izf(T)/#(o) der Autokorrelationsfunktion zu einer Verzugszeit T entsprechend der Inklinationsperiode (pitch period) des Sprachsignals benutzt wird.3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als Parameter der normierte V/ert W(T)/V(°) zu einer Verzugszeit T entsprechend der Tonperiode der Autokorrelationsfunktion des Restsignals, erhalten durch eine linear voraussagbare Analyse des Sprachsignals, verwendet wird.4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als Parameter die Durchschnittsgrößen-Differenzfunktion zu einer Verzugszeit T entsprechend der Tonperiode, erhalten durch eine linear voraussagbare Analyse des Sprachsignals, verwendet wird.5· Verfahren zur Bewertung der stimmhaften und stimmlosen Zustände eines Sprachsignals, insbesondere nach Anspruch 1, dadurch gekennzeichnet, daß ein Verhältnis ^(Vs)/#(o) zwischen dem Wert tf(o) der Autokorrelationsfunktion eines Sprachsignals609852/0799zu einer Null-Verzugszeit und dem Wert ^("Cs) der Autokorrelationsfunktion zu einer Verzugszeit TTs einer Atitastperiode bestimmt wird, daß dieses Verhältnis zur Bildung eines Produkts mit einer Konstante a multipliziert wird, daß dieses Produkt dem normierten Wert tf(T)/tf(o) der Autokorrelation funktion zu einer Verzugszeit T entsprechend der Tonperiode des Sprachsignals hinzuaddiert wird, um eine Summe zu bilden, und daß die Summe mit einem vorbestimmten Schwellenwert verglichen und dadurch bewertet bzw. festgestellt wird, daß sich das Sprachsignal in einem stimmlosen oder in einem stimmhaften Zustand befindet, wenn die Summe kleiner bzw, größer ist als der Schwellenwert·Verfahren zur Bewertung der stimmhaften und stimmlosen Zustände eines Sprachsignals, insbesondere nach Anspruch 1, dadurch gekennzeichnet, daß ein Verhältnis ^(*cs)/#(o) zwischen dem Wert jzf(o) der Autokorrelationsfunktion eines Sprachsignals zu einer Null-Verzugszeit und dem Wert ^(fs) der Autokorrelationsfunktion zu einer Verzugszeit TTs einer Abtastperiode bestimmt wird, daß dieses Verhältnis mit dem normierten Wert der Autokorrelationsfunktion zu einer Verzugszeit T entsprechend der Tonperiode des Sprachsignals multipliziert wird, um ein Produkt zu bilden, und daß das Produkt mit einem vorbestimmten Schwellenwert verglichen und dadurch bewertet bzw. festgestellt wird, daß sich das Sprachsignal in einem stimmlosen oder in einem stimmhaften Zustand befindet, wenn das Produkt kleiner bzw. größer ist als der Schwellenwert,,7. Verfahren zur Bewertung der stimmhaften und stimmlosen Zustände eines Sprachsignals, insbesondere nach Anspruch 1, dadurch gekennzeichnet, daß ein Verhältnis tf{Cs)/rf(o) zwischen dem Viert jzf(o) der Autokorrelationsfunktion einer Sprachwellenform zu einer Null-Verzugszeit und dem Wert fi(Xs) der Autokorrelationsfunktion zu einer Verzugszeit609852/0799einer Auswerte- oder Abtastperiode bestimmt wird, daß das Verhältnis zur Bildung eines Produkts mit einer Konstante b multipliziert wird, daß das Produkt zum normierten Wert W(T)AKo) der Autokorrelationsfunktion zu einer Verzugszeit T entsprechend der Tonperiode des Restsignals, erhaltbar durch eine lineare Vorausanalyse (predictive) des Sprachsignals, hinzuaddiert wird, um eine Summe zu bilden, und daß die Summe mit einem vorbestimmten Schwellenwert verglichen und dadurch bewertet bzw. bestimmt wird, daß das Sprachsignal im einen Fall in einem stimmlosen und im anderen Fall in einem stimmhaften Zustand vorliegt.8. Verfahren zur Bewertung der stimmhaften und stimmlosen Zustände eines Sprachsignals, insbesondere nach Anspruch 1, dadurch gekennzeichnet, daß ein Verhältnis /(fs)/jzf(o) zwischen dem Wert rf(o) der Autokorrelationsfunktion eines Sprachsignals zu einer Null-Verzugs ze it und dem Wert ^(t2s) der Autokorrelationsfunktion einer Auswerte- oder Abtastperiode zu einer Verzugszeit fs bestimmt wird, daß dieses Verhältnis zur Bildung eines Produkts mit dem normierten Viert W(T)AKo) zu einer Verzugszeit T entsprechend der Tonperiode der Autokorrelationsfunktion des Restsignals, erhaltbar durch die lineare Vorausanalyse des Sprachsignals, multipliziert wird und daß das Produkt mit einem vorbestimmten Schwellenwert verglichen und dadurch bewertet bzw. festgestellt wird, daß sich das Sprachsignal in einem stimmlosen oder in einem stimmhaften Zustand befindet, wenn das Produkt kleiner bzw. größer ist als der Schwellenwert,,9. Verfahren zur Bewertung der stimmhaften und stimmlosen Zustände eines Sprachsignals, insbesondere nach Anspruch 1, dadurch gekennzeichnet, daß ein Verhältnis tf(Xs)/rf(o) zwischen dem Wert rf(o) der Autokorrelationsfunktion eines Sprachsignals zu einer Null-Verzugszeit und dem Wert tffäs) der Autokorrelationsfunktion einer Auswerte- oder Abtastperiode609852/0799zu einer Verzugszeit Vs bestimmt wird, daß dieses Verhältnis zur Bildung eines Produkts mit einer Konstante a multipliziert wird, daß zur Bildung einer Differenz der Wert DT zu einer Veiaigszeit T entsprechend der Tonperiode der Durchschnittsgrößen-Differenzfunktion des Restsignals, erhaltbar durch lineare Vorausanalyse des Sprachsignals, subtrahiert wird und daß die Differenz mit einem vorbestimmten Schwellenwert verglichen und dadurch bewertet bzw. bestimmt wird, daß das Sprachsignal in einem stimmlosen oder in einem stimmhaften Zustand vorliegt, wenn die Differenz größer bzw. kleiner ist als der Schwellenwerto609852/0799Leerseite
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP50073063A JPS51149705A (en) | 1975-06-18 | 1975-06-18 | Method of analyzing drive sound source signal |
JP50086277A JPS5210002A (en) | 1975-07-15 | 1975-07-15 | Separation method of drivinf sound signal for analysis and composition of voice |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2626793A1 true DE2626793A1 (de) | 1976-12-23 |
DE2626793B2 DE2626793B2 (de) | 1979-08-02 |
DE2626793C3 DE2626793C3 (de) | 1980-04-17 |
Family
ID=26414187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2626793A Expired DE2626793C3 (de) | 1975-06-18 | 1976-06-15 | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals |
Country Status (5)
Country | Link |
---|---|
US (1) | US4074069A (de) |
CA (1) | CA1059631A (de) |
DE (1) | DE2626793C3 (de) |
FR (1) | FR2316682A1 (de) |
GB (1) | GB1538757A (de) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4219695A (en) * | 1975-07-07 | 1980-08-26 | International Communication Sciences | Noise estimation system for use in speech analysis |
JPS54139417A (en) * | 1978-04-21 | 1979-10-29 | Nippon Telegr & Teleph Corp <Ntt> | Interpolation receiving devices at voice short break time |
US4230906A (en) * | 1978-05-25 | 1980-10-28 | Time And Space Processing, Inc. | Speech digitizer |
JPS597120B2 (ja) * | 1978-11-24 | 1984-02-16 | 日本電気株式会社 | 音声分析装置 |
JPS56104399A (en) * | 1980-01-23 | 1981-08-20 | Hitachi Ltd | Voice interval detection system |
US4383135A (en) * | 1980-01-23 | 1983-05-10 | Scott Instruments Corporation | Method and apparatus for speech recognition |
US4335276A (en) * | 1980-04-16 | 1982-06-15 | The University Of Virginia | Apparatus for non-invasive measurement and display nasalization in human speech |
US4972490A (en) * | 1981-04-03 | 1990-11-20 | At&T Bell Laboratories | Distance measurement control of a multiple detector system |
ATE15563T1 (de) * | 1981-09-24 | 1985-09-15 | Gretag Ag | Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung. |
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
US4588979A (en) * | 1984-10-05 | 1986-05-13 | Dbx, Inc. | Analog-to-digital converter |
GB2169719B (en) * | 1985-01-02 | 1988-11-16 | Medical Res Council | Analysis of non-sinusoidal waveforms |
US5007093A (en) * | 1987-04-03 | 1991-04-09 | At&T Bell Laboratories | Adaptive threshold voiced detector |
KR910700582A (ko) * | 1989-01-05 | 1991-03-15 | 에이취. 프라이드 로널드 | 음성 처리 장치 및 방법 |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
US5657418A (en) * | 1991-09-05 | 1997-08-12 | Motorola, Inc. | Provision of speech coder gain information using multiple coding modes |
US5267317A (en) * | 1991-10-18 | 1993-11-30 | At&T Bell Laboratories | Method and apparatus for smoothing pitch-cycle waveforms |
FR2684226B1 (fr) * | 1991-11-22 | 1993-12-24 | Thomson Csf | Procede et dispositif de decision de voisement pour vocodeur a tres faible debit. |
US5471527A (en) | 1993-12-02 | 1995-11-28 | Dsc Communications Corporation | Voice enhancement system and method |
US5970441A (en) * | 1997-08-25 | 1999-10-19 | Telefonaktiebolaget Lm Ericsson | Detection of periodicity information from an audio signal |
US6023674A (en) * | 1998-01-23 | 2000-02-08 | Telefonaktiebolaget L M Ericsson | Non-parametric voice activity detection |
GB2357683A (en) * | 1999-12-24 | 2001-06-27 | Nokia Mobile Phones Ltd | Voiced/unvoiced determination for speech coding |
US7171357B2 (en) * | 2001-03-21 | 2007-01-30 | Avaya Technology Corp. | Voice-activity detection using energy ratios and periodicity |
US7333929B1 (en) * | 2001-09-13 | 2008-02-19 | Chmounk Dmitri V | Modular scalable compressed audio data stream |
US7627091B2 (en) * | 2003-06-25 | 2009-12-01 | Avaya Inc. | Universal emergency number ELIN based on network address ranges |
KR101008022B1 (ko) * | 2004-02-10 | 2011-01-14 | 삼성전자주식회사 | 유성음 및 무성음 검출방법 및 장치 |
US7130385B1 (en) | 2004-03-05 | 2006-10-31 | Avaya Technology Corp. | Advanced port-based E911 strategy for IP telephony |
JP3827317B2 (ja) * | 2004-06-03 | 2006-09-27 | 任天堂株式会社 | コマンド処理装置 |
US7246746B2 (en) * | 2004-08-03 | 2007-07-24 | Avaya Technology Corp. | Integrated real-time automated location positioning asset management system |
US7589616B2 (en) | 2005-01-20 | 2009-09-15 | Avaya Inc. | Mobile devices including RFID tag readers |
US7742914B2 (en) * | 2005-03-07 | 2010-06-22 | Daniel A. Kosek | Audio spectral noise reduction method and apparatus |
US8107625B2 (en) * | 2005-03-31 | 2012-01-31 | Avaya Inc. | IP phone intruder security monitoring system |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
US7821386B1 (en) | 2005-10-11 | 2010-10-26 | Avaya Inc. | Departure-based reminder systems |
JP5229234B2 (ja) * | 2007-12-18 | 2013-07-03 | 富士通株式会社 | 非音声区間検出方法及び非音声区間検出装置 |
US9232055B2 (en) * | 2008-12-23 | 2016-01-05 | Avaya Inc. | SIP presence based notifications |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1318985A (en) * | 1970-02-07 | 1973-05-31 | Nippon Telegraph & Telephone | Audio response apparatus |
US3740476A (en) * | 1971-07-09 | 1973-06-19 | Bell Telephone Labor Inc | Speech signal pitch detector using prediction error data |
-
1976
- 1976-06-01 US US05/691,780 patent/US4074069A/en not_active Expired - Lifetime
- 1976-06-04 CA CA254,064A patent/CA1059631A/en not_active Expired
- 1976-06-04 GB GB23281/76A patent/GB1538757A/en not_active Expired
- 1976-06-15 DE DE2626793A patent/DE2626793C3/de not_active Expired
- 1976-06-17 FR FR7618449A patent/FR2316682A1/fr active Granted
Also Published As
Publication number | Publication date |
---|---|
US4074069A (en) | 1978-02-14 |
DE2626793C3 (de) | 1980-04-17 |
DE2626793B2 (de) | 1979-08-02 |
FR2316682A1 (fr) | 1977-01-28 |
CA1059631A (en) | 1979-07-31 |
GB1538757A (en) | 1979-01-24 |
FR2316682B1 (de) | 1979-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2626793A1 (de) | Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals | |
DE10041512B4 (de) | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen | |
EP1825461B1 (de) | Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen | |
DE69412913T2 (de) | Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern | |
DE2918533C2 (de) | ||
EP1386307B2 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE69616724T2 (de) | Verfahren und System für die Spracherkennung | |
DE19715126C2 (de) | Sprachsignal-Codiervorrichtung | |
DE2919085A1 (de) | Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
EP0508547B1 (de) | Schaltungsanordnung zur Spracherkennung | |
DE69017842T2 (de) | Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE2622423A1 (de) | Vocodersystem | |
DE2636032B2 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
DE69629485T2 (de) | Kompressionsystem für sich wiederholende töne | |
DE19581667C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung | |
DE60018690T2 (de) | Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung | |
DE69527345T2 (de) | CELP-Sprachkodierer mit verbessertem Langzeit-Prädiktor | |
WO2010078938A2 (de) | Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen | |
DE69425591T2 (de) | Trainingsverfahren für einen Spracherkenner | |
DE102004001863A1 (de) | Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals | |
DE2904426A1 (de) | Analog-sprach-codierer und decodierer | |
DE69119005T2 (de) | Verfahren und Einrichtung zur Kodierung eines Analogsignals mit Wiederholeigenschaft |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8328 | Change in the person/name/address of the agent |
Free format text: KERN, R., DIPL.-ING., PAT.-ANW., 8000 MUENCHEN |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: NIPPON TELEGRAPH AND TELEPHONE CORP., TOKIO/TOKYO, |
|
8339 | Ceased/non-payment of the annual fee |