DE1926362C - Einrichtung zur Sprachanalyse und synthe se nach dem Vocoderpnnzip - Google Patents
Einrichtung zur Sprachanalyse und synthe se nach dem VocoderpnnzipInfo
- Publication number
- DE1926362C DE1926362C DE1926362C DE 1926362 C DE1926362 C DE 1926362C DE 1926362 C DE1926362 C DE 1926362C
- Authority
- DE
- Germany
- Prior art keywords
- speech
- spectrum
- channel
- unvoiced
- voiceless
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 15
- 238000003786 synthesis reaction Methods 0.000 title claims description 15
- 230000002194 synthesizing Effects 0.000 title claims description 15
- 238000001228 spectrum Methods 0.000 claims description 42
- 230000005284 excitation Effects 0.000 claims description 10
- 238000000034 method Methods 0.000 claims description 2
- 230000000051 modifying Effects 0.000 description 14
- 210000000867 Larynx Anatomy 0.000 description 5
- 238000011084 recovery Methods 0.000 description 5
- 210000001260 Vocal Cords Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000875 corresponding Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 210000000088 Lip Anatomy 0.000 description 2
- 241000218236 Cannabis Species 0.000 description 1
- 210000003041 Ligaments Anatomy 0.000 description 1
- 229910004676 OOOHz Inorganic materials 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001419 dependent Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 108060002971 flz Proteins 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000011081 inoculation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000009114 investigational therapy Methods 0.000 description 1
- 238000002559 palpation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000001052 transient Effects 0.000 description 1
- 230000001755 vocal Effects 0.000 description 1
Description
Die Erfindung betrifft eine Einrichtung zur Sprach- wiederzugewinnen. Im allgemeinen machen die be-
analyse und -synthese nach dem Vocoderprinzip, kannten Sprachannlysesysienie von einem FiltersiUz
nach dem Sprachsignale durch eine das Sprach- Gebrauch, der den Frequenzbereich von 250 bis
spektrum, durch eine die Sprachanregung und durch 4000 Hz umfaßt, um das Spruchspektrum in die
eine die Stimmhaft-stimmlos-Unterscheidung dar- 5 Spektrumkanäle zu zerlegen. Auch die Systeme zur
stellende Funktion definiert sind und bei der die Sprachsynthese verwenden einen Filtersatz, der den
Spektrumkanäle nur auf die Frequenzen der stimm- gleichen Frequenzbereich umfaßt. Eine Untersuchung
haften Sprachsignale bezogen sind. des Frequenzspektrums der stimmhaften und stimm-
Der Mechanismus für die Spracherzeugung be- losen Sprachabschnitte zeigt, daß unterschiedliche
steht bekanntlich aus zwei Gruppen: (a) den Stimm- io Energieverteilungen vorliegen. Bei den stimmhaften
bändern und (b) dem Mund, der Zunge und den Sprachabschnitten befindet sich die maximale Ener-
Lippen, die das Signal der Stimmbänder modulieren. gie in den Frequenzbändern unterhalb 4000 Hz,
Die Laute werden durch einen Luftstrom erzeugt, der während bei den stimmlosen Sprachabschnitten, be-
durch den Kehlkopf fließt. Der Kehlkopf enthält die sonders bei den Zischlauten, die maximale Energie
Stimmbänder, die im Frequenzbereich von 60 bis 15 in den Frequenzbändern oberhalb 4000 Hz zu fiuden
400 Hz schwingen können. Die Unterschiede in der ist. Daher können die bekannten Systeme lür die
männlichen und weiblichen Stimme bestehen darin, Sprachanalyse und -synthese, deren Frequenzbereich
daß die vom männlichen Kehlkopf erzeugten Schwin- auf den Frequenzumfang des Telefonkanals be-
gungen eine niedrigere Grundschwingung besitzen schränkt ist, stimmlose Sprachabschnitte nicht korrekt
als die vom weiblichen Kehlkopf erzeugten Schwin- ao reproduzieren. Der Filtersatz, welcher zur Definition
gungen der Luft. der Spektrumkanäle verwendet wird, umfaßt das
Bei bestimmten Lauten schwingen die Stimmbän- Frequenzspektrum nur bis etwa 4000 Hz.
der nicht. Das Spektrum ist dann nicht diskret, son- Ein Weg zur Lösung dieses Problems besteht
dem kontinuierlich. Diejenigen Laute, die ihren Ur- darin, Filter zu verwenden, die auch den höheren
sprung in den Stimmbändern i,aben, sind die söge- 35 Frequenzbereich umfassen, die aber zu einem System
nannten stimmhaften Laute. Die anderen Laute, wie führen, welches sehr schwierig zu handhaben ist.
beispielsweise »s« und »ch«, die ihren Ursprung im Daher wird diese nachteilige Lösung bei der vor-
Luftstrom haben, sind die sogenannten stimmlosen liegenden Erfindung nicht angewendet.
Laute. Die Aufgabe der Erfindung ist es daher, eine
Wenn diese Laute den Mund passieren, werden die 30 praktikable Lösung aufzuzeigen, wie stimmlose
Eigenschaften der Spracne mit Hilfe zweier diskreter Sprachabschnitte mit Hilfe des Vocoderprinzips we-
Modulationsverfahren gefonnt. Das erste Verfahren, sentlich besser analysiert und auch wieder zurückgL-
das als eine Beeinflussung der Energieverteilung als wonnen werden können.
Funktion der Frequenz betrachtet werden kann, be- Für eine Einrichtung zur Sprachanalyse und -synsteht
darin, daß der Laut verschiedene Resonanz- 35 these nach dem Vocoderprinzip, nach dem Sprachhöhlen,
die von Zunge und Mund gebildet werden, signale durch eine das Sprachspektrum, durch eine
passiert. Die kontinuierlichen Laute, die in konti- die Sprachanregung und durh eine die Stimmhaftnuierlicher
Weise reproduziert werden können, ent- stimmlos-Unterscheidung darstellende Funktion desprechen
diesem Modulationstyp. Die Konsonanten finiert sind und bei der die Spektrumkanäle nur auf
werden jedoch mit Hilfe des zweiten Modulatiuns- 40 die Frequenzen der stimmhaften Sprachsignale beverfahrens
erzeugt. Sie besitzen ein Einschwingver- zogen sind, besteht die Erfindung darin, daß im
halten und werden mit Hilfe der Zunge, der Lippen Sprachanalysator ein von einem Stimmhaft-stiimmlosusw.
gebildet, indem der Laut für eine kurze Zeit- Diskriminator gesteuerter Umschalter vorgesehen ist,
dauer zurückgehalten und dann plötzlich abgegeben der bei der Analyse stimmloser Sprachabschnitte von
wird. 45 dem höchsten sonst üblichen Spektrumkanal auf
Bei normaler Sprache ändert sich die Frequenz einen besonderen Spektrumkanal umschaltet, der eine
der Kehlkopfschwingung entsprechend dem Inhalt höhere Grenzfrequenz als dieser und eine größere
der Sprache langsam. Die Veränderung der Sprach- Bandbreite als die übrigen Spektrumkanäle besitzt,
grundfrequenz einer Person ist vergleichsweise klein. und daß im Sprachsynthetisator der höchste übliche
Daher hat die Information, die übertragen werden 50 Spektrumkanal bei der Synthese stimmloser Sprachsoll
und für die Wiedergewinnungsoperation not- signale die Signale dieses Sonderkanals empfängt,
wendig ist, die drei folgenden Eigenschaften zu be- Der Vorteil des Vocoders gemäß der Erfindung rücksichtigen, die als Funktion der Zeit definiert besteht in einer wesentlich verbesserten Analyse und sind: Synthese stimmloser Sprachabschnittc, insbesondere
wendig ist, die drei folgenden Eigenschaften zu be- Der Vorteil des Vocoders gemäß der Erfindung rücksichtigen, die als Funktion der Zeit definiert besteht in einer wesentlich verbesserten Analyse und sind: Synthese stimmloser Sprachabschnittc, insbesondere
(a) die Energie/Frequenzverteilung, 55 von Zischlauten.
(b) den Encrgietvp, der durch diese Verteilung »ge- Im folgenden wird die Erfindung an Hand eine«
formt« werden muß, und durch Zeichnungen erläuterten Ausführungsbeispiele;
(c) die Sprachgrundfrcqucnz. näher beschrieben. Es zeigt
Die sich auf (a) beziehende Information ist wc- Fig. 1 das Blockschaltbild des Sprachanalysaton
sentlich und repräsentiert den größten Teil der Über- 5o gemäß der Erfindung,
tragung. Diese Information wird bei den bekannten Fig. 2 das Blockschaltbild des Sprachsynthetisa
Vocodcrsystemen mit Hilfe einer Anzahl von Kanu- tors gemäß der Erfindung,
lcn. den sogenannten Spektrumkanälen gewonnen. Fig. 3 eine Darstellung der Sprachspektren fü
Diese Kanäle geben die Beschreibung des Energie- einen stimmhaften und einen stimmlosen Sprach
spektrums eines Sprachsignals als Funktion der Zeit 65 abschnitt und
an. Während der Wiedergewinnungsoperation in der Fig. 4 eine Darstellung des Spektrums eiies mi
Synthcsccinrichtung dienen diese Kanäle dazu, (Ins Hilfe des Sprachsynthetisators gemäß der Erfindun
Snrachspcktrum aus der übertragenen Beschreibung wiedergewonnenen stimmlosen Sprachabschnittes.
F i y. I zeigt lint; Blockschaltbild des Sprachanuly-
»itors gemäß der Erfindung. Dieser Analysator beucht
aus einem Teil 1 für die Anregungsfimktion und
«us einem Teil 2 für die Spektrumfunktion. Das zu
analysierende Sprachsignal wird als Schallereignis JtI dem Mikrophon 3 und von dort zu dem Spek-Ifum-
und dem Anregungsteil des Analysator übertragen. Der Anregungsteil I enthält einen Stimmhaftjjini"ilos-Diskrimiiiator4
und eine Meßschaltung 5 fir die Ermittlung der Sprachgrundfrequenz. Der
/knalysatorteil 2 für die Spektrumfunktion ist in eine
Reihe Spektrumkanäle mit Hilfe der BandfilterFl
bis F(n + 1) unterteilt. Der Ausgang jedes Filters ist an einen Gleichrichter/?! bis R (n+1) angeschaltet.
Pit sen Gleichrichtern folgen je Kanal für die Signalglättung
Tiefpaßfilter F'l bis F' (n+1). Das von dem Filter F' (n+1) kommende Signal wird zu einem
Pimpfungsglied 6 und von dort zu einem Schalter 7 li'.jrtragen, der außerdem ein Spektrumsignal von
ti-m Filter F'η empfängt. Der Schalter 7 wird von ao
(j in Stimmhaft-stimmlos-Diskriminator 4 betätigt. I 'is Steuersignal dieses Diskriminator wird über die
I itungenS und 9 zu dem SchaHer 7 und über die
1 itung 10 zu dem Grundfrequenzdetektor S über-1 ,igen. Die vom Schalter 7 und von den Tiefpaßfil as
I πι F'l bis F'(n + 1) kommenden Signale werden Z.) einem Abtastschalter 11 und von dort zu einem
/'lalog-Digital-Wandler 12 übertragen. Die analogtiigital
gewandelten Ausgangssignale werden schließlich über die Leitung 14 zu einer elektronischen
Patenverarbeitungsanlage 13 übertragen. Ebenso wird auch das Stimmhaft-stimmlos-Unterscheidungst;ignal
des Diskriminator 4 über die Leitung 8 und das Signal der gemessenen Grundfrequenz des Grundfrequenzdetektors
5 über die Leitung 15 zu der elek-Ironischen Datenverarbeitungsanlage 13 übertragen.
F i g. 2 zeigt den Sprachsynthetisator gemäß der H. findung. Die für die Wiedergewinnung oder Synthese
des Sprachsignals notwendige Information wird aus der elektronischen Datenverarbeitungs.einheit
(EDV) 13 ausgelesen. Die sich auf die Spektrumsfunktion beziehende Information wird über das
Kabel 16, welches die Leitungen Ll bis Ln enthält, übertragen. Die sich auf die Anregungsfunktion beziehende
Information wird über die Leitung 17 übertragen. Die Information auf der Leitung 17 steuert
einerseits einen Oszillator 18 mit variabler Frequenz und andererseits den Schalter 19. Zu diesem Schalter
19 werden sowohl das Ausgangssignal des Oszillator 18 als auch das Ausgangssignal des Rauschgenerators
20 übertragen, der weißes Rauschen erzeugt.
Entsprechend der Schaltstellung des Schalters 19 wird, wenn sich dieser in der Position SH befindet,
das Ausgangssignal des Oszillator 18 oder wenn sich dieser in der Position SL befindet, das Ausgangssignal des Rauschgenerator 20 über die Leitung 21
zu dem Filiersatz/1 bis fn übertragen. Die Filter/1
bis fn in der Sprachsyntheseeinrichtung entsprechen den Filtern Fl bis Fn in der Sprachanalyseeinrichlung,
Nachdem das Signal die Filter /1 bis fn durchlaufen h«it, wird es zu den Modulatoren MODI bis
Mn übertragen, die ferner über die Leitungen L1 bis
Ln die Information über das Sprachspektruni empfangen. Die Ausgangssignale dieser Modulatoren gelangen
dann zu einem weiteren Filtersatz /' 1 bis t'n, deren Aufbau identisch mit dem Aufbau der Filter /1
bis fn ist. Die Summe der Ausgangssignale dieser Filter/Ί bis i'n wird über einen Verstärker 22, du
diese Signale verstärkt, zu einem Lautsprecher 23 übertragen.
Im folgenden wird die Wirkungsweise des crlindungsgemaßen
Systems erläutert, indem zwei charakteristische Fälle, die beim praktischen Betrieb vorkommen,
betrachtet werden. Der erste Fall betrilft die stimmhaften Sprachabschnitte und der zweite
Fall die stimmlosen. Der Arbeitsweise des Anregungskanals werden keine weiteren Betruchtungen
gewidmet, da sowohl sein Aufbau als auch seine Arbeitsweise bekannt sind. Es wird daher lediglich
seine Korrelation zu den Kanälen der Spektrumfunktion berücksichtigt. In den folgenden Beispielen
wird angenommen, daß der Filtersatz für die Kanäle der Spektrumfunktion sowohl im Analysator als auch
im Synthetisator aus 10 Filtern besteht, wobei lediglich im Analysator noch ein 16. Filter vorgesehen ist.
Die ersten 15 Filter überdecken den Frequenzbereich
von 250 bis 3700 H; wobei das 15. Filter allein den Frequenzbereich von jlc0 bis 3700 Hz bedeckt. Das
16. Filter ist für den Bereich von 3150 bis 7000 Hz
ausgelegt. Aus dieser Frequenzverteilung ist zu sehen, daß eine Anzahl von Frequenzen für das 15. und 16.
Filter gemeinsam sind.
Wenn dem Mikrofon 3 ein stimmhafter Laut zugeführt wird, dann liefern die Ausgänge der Tiefpaßfilter
F'l bis F'(n+1) des Filtersatzes in dem Sprachanalysator die mittlere Energie in jedem Frequenzband,
welches durch das entsprechende Bandfilter Fl bis F(n+1) bestimmt ist. Jedes Ausgangssignal
entspricht dann einem Punkt der Kurve, die die Energieverteilung als Funktion der Frequenz
darstellt. Diese 15 bis 16 Punkte reichen aus, um die Kurve und ihre zeitlichen Änderungen zu definieren.
Der Sprachanalysator liefert auch die Stimmhaft-stimmlos-Information,
die von dem Stimmhaftstimmlos-Diskriminator 4 erzeugt wird, der den Grundfrequenzdetektor 5 anläßt, wenn der vorliegende
Sprachabschniti ein stimmhafter ist. Diese beiden zuletzt genannten Teile der Gesamtinformation
werden über die Leitungen 8 und 15 zu der elektronischen Datenverarbeitungsanlage (EDV) 13
übertragen. Diese Übertragung erfolgt nur einmal je Abtastzyklus des Abtasters 11, der die Ausgänge der
Tiefpaßfilter F'l bis F'(n+1) abtastet. Bevor die Funktion des Schalters 7 erläutert wird, wird im
folgenden die Struktur eines stimmhaften und eines stimmlosen Sprachabschnittes in Erinnerung gebracht.
F i g. 3 zeigt das Linienspektrum eines stimmhaften Sprachabschnittes, der im Frequenzbereich
von 0 bis 5000 Hz liegt, und das Spektrum eines
stimmlosen SprachabschniUes, der die Frequenzen von 4000 bis 9000 Hz überdeckt. Es ist aus diesem
Diagramm zu erkennen, daß im Falle eines stimmhaften
Sprachabschnittes die Energie innerhalb des Frequenzbandes abgegriffen wird, das von den Filtern
Fl bis Fn bestimmt ist, d. h. in dem gewählten Beispiel von den Filtern \ bis 15. Das Filter F (n +1)
(16. Filter), das den Frequenzbereich bis 7000 Hz überdeckt, liefert dann jedoch keine zusätzliche Information.
Daher schaltet der Stirnmhaft-stimmlos-Diskriminator 4 den Schalter 7 so, daß er die von
dem Filter F'n (15. Filter) gelieferte Energie im Falle eines stimmhaften Sprachabschnittes für die
Abtastung auswählt. Im Falle eines stimmlosen SprachabschniUes wählt der Schalter 7 das Ausgangssignal
des Filters F'(n + 1) (16. Filter) für die Ab-
1
2162
—«—
tastung aus. Dieser Vorhang wird noch auslührlich
erläutert werden. Die Information der ersten 14 Spektrunikaniik:
und des 15. bzw. 16. Spektrunkanals wird in dem Analog-Digital-Wandler 12 ir einen
digitalen Code umgewandelt und zu der elektronischen Dalcnvcriirbeitungscinhcit 13 übertragen.
Auf eine Erläuterung der Arbeitsweise des Sprachsynthetisators für die Wiedergewinnung stimmhafter
Spraehabscliniltc kann verzichtet werden, da sie durch das Vocodersystem von H Dudley bekannt
ist.
Wenn das Mikrofon 3 mit einem stimmlosen Spraehabsdinitt beaufschlagt wird, dann erhalt man
am Ausgang der Speklrumkanäle ebenfalls eine Information,
die der Energieverteilung als Funktion der Frequenz entspricht. Dieses Mal jedoch erzeugt der
Stimmhai t-stimmlos-Diskriminator 4 das »Stiinrnlos«-
Signal und überträgt es über die Leitungen B, 9 und 10. DaIiCi überträgt der Sprachgrundfrequcrzdetektor
5 kein: Information. Der Schalter 7 wird so eingestellt, daß er den Ausgang des Filters F'(ft 4-1)
(Hi. Filter) für die Abtastung durch den Abtaster 11 auswählt. In den Kanal 16 wurde noch ein Dämpfungsglied
(/)) 6 zwischen den Ausgang de;; Filters /■"(;; I) und den Schalter 7 eingefügt, um den
Energie/1,!wachs, der sich aus der BandbreilendifTerenz
/wischen diesem Kanal und dem vorhergehenden Kanal (15. Kanal) ergibt, auszugleichen. Daher
liefert da Abtaster 11 Informationen, die der Energie in ilen durch die ersten Filter Fl bis F In — 1)
(die ersten 14 Filter) und durch das Filter F [n-\ 1) (16. Filter) bestimmten Kanälen entsprechen. Diese
information wird in dem Analog-Digital-Wandler 12 binär codiert und zu der elektronischen Datenverarbeitungsanlage
(EDV) 121 übertragen. Der T\:il 1 des
Analysalors arbeitet in diesem Falle in der üblichen
Weise.
Wie vorher gezeigt wurde, arbeitet der Sprachsynthetisator bei der Wiedergewinnung von stimmhaften
Sprachabschnitten in der üblichen Weise. Das heißt, daß das Signal der Anregungsfunktion über
die Leitung 17 (vgl. Fi g. 2) zu dem Schalter 19 übertragen
wird, wodurch dieser in die Position SH eingestellt wird. Ferner stimmt dieses über ;lie Leitung
17 übertragene Signal des Anregungskanals den Oszillator 18 auf die während der Analyseoperation
ermittelte Sprachgrundfrequenz ab. Daher wird diese Frequenz zu den Modulatoren Modi bis Wn übertragen,
wo sie als Trägerfrequenz für die langsam veränderlichen Spannungen dienen, die auf der Synthc-eseite
über die Leitungen/. 1 bis Ln. also von
den Spektrumkanälcn. zu den Modulatoren übertragen werden. Im gewählten Beispiel liefert der Ausgang
jedes der 15 Modulatoren ein Signal. d;is einem bestimmten Frequenzband des Originalsnrachsignals
entspricht und ims Sprachgrundfrequcnz und Amplitude
(diskrete Harmonische) zusammengesetzt ist. Die kombinicrien Ausgangssignale aller Kanäle
stellen das Spr.icliMp.nal dar. Dieses wird zu dem
Verstärker 22 und von dort zu dem Lautsprecher 23
übertragen.
Im Falle eines stimmlosen Sprachabschrittes arbeitet
die Einrichtung fast in der gleichen Weise. Das Signal der Anrcgungsfunktion wird wieder über die
Leitung 17 zu dem Schalter 19 übertragen und stellt diesen auf die Schaltstellung SL ein. In dieser Schaltslellung
überträft der Rauschgenerator 20 seine Ausüler
die Leitung 21 zu den Modulatoren M hI 1 bis Mn. Für die Erfindung ist der nun
im folgenden erläuterte Punkt wesentlich. Wie bereits bei der Beschreibung des 5>yst:ms erwähnt wurde,
entsprechen die Filter/1 bis jn im Sprachsynlhetisator dei Filtern /·" 1 bis Fn im Spraehanalysator. Daher
besitzt das Filter /·'(>■? I 1) im Spraehanalysator kein einsprechendes Filter in dem Sprachsynthetisator.
Die während der Sprachanalyse am Ausgang der ersten Filter/·"! bis F'l/i 1) (erste 14 Kanäle)
erhaltenen Signale werden z-i den ersten 14 Modulatoren
Modi bis M (n- 1) im Sprachsynthetisator über die Leitungen Li bis L{n -1) in der üblichen
Weise übertragen. Die information am Ausgang des Filters F' (/H 1) (16. Kanal) wird über die Leitung Ln
zu dem Modulator Mn des 15. Kanals im Sprachsynthetisator übertragen, obwohl dieser Kanal, der
diesem Modulator entsprichi. durch das Filter//) bestimmt st, das nur einen Teil des Frequenzbandes
abdeckt welches von dem Bandfilter F (/H 1) im
»0 Spraehanalysator umfaßt wird. Der übrige Teil der Operation des Sprachanalysntors ist dann wieder bekannt.
Bezugnehmend auf Fig. 3 kann gezeigt werden,
daß ein stimmloser Sprachiibschnitt durch die TaI-
!•.5 sache gekennzeichnet ist, dalJ sein Frequenzspektrum
das Frequenzband von etwa 4000 bis K)OOOHz
umfaßt. Dies heißt mit anderen Worten, daß in dem Frequerzbcreicli unterhalb von 4000 Hz dabei praktisch
keine Energie vorhanden ist. Daher merkt sich das Ohr diese frequenzabhingge Energieverteilung
bei stimmlosen Spraehabschnitt;n. Wird ein bekannter
Sprachanalysator vom Vocodertyp betrachtet, dann '<iinn unter Zugrundelegung des oben erwähnten
Beispieles gezeigt werden, ilaß der Filtersatz Fl bis Fn nur den Frequenzbereich zwischen 250 bis
3700 H:: erfaßt. Daher wirci ai.ch mit einer derartigen
Einrichtung nur ein geringer Energieanteil in den Kanälen des Analysator* gewonnen. Während
der Synthcscoperation wird dann einerseits das
(o Rauschiignal des Generator; 2( zu den Modulatoren
übertragen, und andererseits gelangt über jeden Kanal nur eine niedrige mittlere Energie zu der
Sprachsyntheseeinrichtung. Es kann daher beobachtet 'verden, daß eine der wesentlichsten Eigenschäften
des stimmlosen Sprachsignals nicht während der Syiitheseopcration in Erscheinung trat, nämlich
die Energieverteilung im Frequenzbereich, da bei den konventionellen Einrichtungen die Energie in jedem
Synthesekanal im wesentlichen jleich groß ist. Dieses
erklärt die geringe Qualität der stimmlosen Spraehabschniltc. die auf diese Weist: in der Synthesccinlichlunir
wicgergewonnen werd:n.
Bei dem Sprachanalysator gemäß der Erfindung definiert das 16. Filter F (n 4-1) einen besonderen
Kanal, der den Frequenzbereich von 3150 bis
''000H? erfaßt, wobei die vntere Grenze dieses Frequenzbereiches
auch gleichzeitig die untere Grenzfrequenz des Filters Fn darstellt. Daher ist das Ergebnis
der Analyseoperation nicht mehr ein Spektrum mit einer gleichmäßigen Energieverteilung, sondern
ein Spektrum mit einen sehr geringen Energieanteil
in den Kanälen unterhalb 315OHz und mit einem hohen Energieanteil in den Kanälen von 3150
bis 7000 Hz. Damit wird die Energie in die Kanäle des Sprachsynthetisators injiziert, die den Kanälen
unterhalb von 3150Hz des Anälysators entsprechen.
Die während der Sprachanalyse im Frcquenzkanal 3150 bis 7000 Hz gewonnene Enereic wird über den
Claims (3)
- Kanal übertragen, der diiieh eins l'illci In definiert ist. Dieses Filier erfaßt nur das l;re(|iieii/.hand von 31.M) his 3700 Hz. Mil Hilfe dieses Verfahrens ist es möglich, tue wirkliche Struktur des Spektrums stimmloser Spraehahselinilic. das eine Hnergickonzentralion im Frequenzbereich über ΊΟΟΟΠ/. besitzt, in dem S /raclisynlhetisalnr wiederzugewinnen. Deshalb ergibt sieh auch die verbesserte Klaugqual'läl bei tier Wiedergabe stimmloser SprachabseiiniHe.Fig. 4 zeigt tlas in der Sprachsyntlicsecinrichtung wiedergewonnene Sprachsignal für einen stimmlosen Sprachabschnilt. Diese Figur läßt erkennen, daß die charekleristisehe Hncrgieverleilung eines stimmlosen Sprachabschniltcs wiedergewonnen wird. ti. It. daß sich eine Konzentration tier Fnergie A bei den höheren Frequenzen ties Spektrums ergibt.Patentansprüche:I. Hinrichtung zur Sprachanalyse und -synthese nach dem Vocoderprinzip, nach dem Sprachsignale durch eine das Spektrum, durch eine die Sprachanregung und durch eine die Stimmhaftstimmlos-Untcrscheidimg darstellende Funktion definiert sind und bei der die Spektrumkanäle nur auf die Frequenzen der stimmhaften Sprachsignalc bezogen sind, dadurch gekennzeichnet, daß im Sprachanalysator (1, 2 in Fig. 1) ein von einem Slimmhaft-stimmlos-Diskiiininalor (4) gesteuerter Umschalter (7) vorgesehen ist. der hei der Analyse stimmloser Spraehabschnilte \on dem höchsten, sonst üblichen Spcktrumkanal (/·'/() auf einen besonderen Spektriimkaiial |(/ (;i ' l)| innsehallet, der eine höheie (iicnzfiequcn/ als dieser und eine größere Hantlbi.'ite als die übrigen Spcktmmkaniilc besitzt, und daß im Spiaehsynthclisalor (I- ig. 2) dei höchste übliche Spcktnimkanal (//1) bei der Synthese stimmloser Sprachsignale die Signale dieses Sonderkanals |(/·' (;i I I) in Fig. 1)| empfängt.
- 2. F.inrichtung zur Sprachanalyse und -synthese nach Anspruch I, dadurch gekennzeichnet, daß der .Speklrumanalysalor (2 in Fig. 1) aus insgesamt /H I Spektrumkanälen und der Synthetisator (Fig. 2) aus insgesamt /; Spektrumkanälen besieht.
- 3. Hinrichtung zur Sprachanalyse nach Anspruch I oder 2. dadurch gekennzeichnet, daß der Sonderkanal (/1 ! 1 in Fig. 1) den Frequenzbereich von 3150 bis 7000 Hz umfaßt.•4. Hinrichtung zur Sprachanalyse nacli Anspruch 1,2 oder 3, dadurch gekennzeichnet, daß zur Anpassung der nnergicunlerschiede in den Spektrumkanälen (I bis /1 in Fig. 1) einerseits und im Sonderkanal (/i+l) andererseits zwischen den Ausgang dieses Kanals und den Hingang des Schalters (7) ein Dämpfungsglied (6) eingeschaltet ist.Hierzu 1 Blatt Zeichnungen 809608/247
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2233872C2 (de) | Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals | |
DE60202881T2 (de) | Wiederherstellung von hochfrequenzkomponenten | |
DE2626793C3 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE60103086T2 (de) | Verbesserung von quellcodierungssystemen durch adaptive transposition | |
EP1386307B2 (de) | Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals | |
DE3645118C2 (de) | ||
DE1261169B (de) | Hoerhilfe | |
DE3506912A1 (de) | Verfahren zur uebertragung eines audiosignals | |
EP0251028B1 (de) | Verfahren zur Übertragung eines Audiosignales | |
DE2919085A1 (de) | Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung | |
EP0414838A1 (de) | Verfahren zur übertragung eines signals. | |
DE1114851B (de) | Einrichtung zur UEbertragung von Sprache unter Frequenzbandpressung nach Art eines Vocoders | |
DE2622423A1 (de) | Vocodersystem | |
DE2840596A1 (de) | Sprachsynthesizer | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
EP0464534A2 (de) | Transformationskodierer mit adaptiver Fensterfunktion | |
DE69828849T2 (de) | Signalverarbeitungsgerät und -verfahren sowie Informationsaufzeichnungsgerät | |
DE1926362C (de) | Einrichtung zur Sprachanalyse und synthe se nach dem Vocoderpnnzip | |
EP1020737B1 (de) | Verfahren und Vorrichtung zur elektromagnetischen Detektion von Objekten | |
DE2904426A1 (de) | Analog-sprach-codierer und decodierer | |
DE2659674C3 (de) | Verfahren und Anordnung zum Synchronisieren eines Semi-Formantvocoders | |
DE1926362A1 (de) | Einrichtung zur Sprachanalyse und -synthese | |
DE1079118B (de) | Verfahren zur elektrischen Nachrichtenuebertragung unter Frequenzbandpressung | |
DE3630518C2 (de) | Einrichtung zum lautweisen Identifizieren eines Sprechmusters | |
DE2062589B2 (de) | Verfahren zur Ermittlung der Grundfrequenz eines wenigstens zeitweise periodischen signals |