DE1926362A1 - Einrichtung zur Sprachanalyse und -synthese - Google Patents

Einrichtung zur Sprachanalyse und -synthese

Info

Publication number
DE1926362A1
DE1926362A1 DE19691926362 DE1926362A DE1926362A1 DE 1926362 A1 DE1926362 A1 DE 1926362A1 DE 19691926362 DE19691926362 DE 19691926362 DE 1926362 A DE1926362 A DE 1926362A DE 1926362 A1 DE1926362 A1 DE 1926362A1
Authority
DE
Germany
Prior art keywords
speech
frequency
voiced
channel
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19691926362
Other languages
English (en)
Other versions
DE1926362B2 (de
Inventor
Levilion Marc Etienne
Buron Rene Henri
Augustin Nemeth
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE1926362A1 publication Critical patent/DE1926362A1/de
Publication of DE1926362B2 publication Critical patent/DE1926362B2/de
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Telephonic Communication Services (AREA)

Description

Böblingen, den|-i3. Mai I969 jo~sk *
Anmeldarin: International Business Machines
·· _ rf ^ Corporation, Armonk, N.Y. 10504
■ **«■*■■**«
Amtliches Aktenzeichen: . ' ' Neuanmeldung
Akteng.der Anmelderin: Docket PR 968 007
zur Sprachanalyse und -* Bynthese '
Die Erfindung betrifft eine Ein'FiOtoMng zur Sprachanalyse ^ und - synthese nach dem-Vocoderprinzip,; nachdem Sprachsignale durch eine das- Sp'ik'ch'äpekti'umA'äu'rc'h'eine diea0prachunregungf und.durch eine die stimmhaft/stimmlos-Unterscheidung darstallende Funktion definiert sind und bei der die Frequenz- λ Kanäle nur auf die Frequenzen der stimmhaften Sprachsignale '' bezogen sind.
Der Meohanismus für die Spracherzeugung besteht bekanntlich aus gweiP Gruppen? (a) den^S-tiiiimbandQrn und (b) dem Mund,
·■■■ .----'■> Ί1 1 ; v!>·""· 'H
"der 2unge und "d.en'Lippeni die das Signal der Stimmbänder --modulieren* Die Laute werden durch einen' Luftstrom erzeugt, der dureh den Kahlkopf fließt. Der Kehlkopf enthält die Stimmbänder, die im Frequenzberaieh von 6Q-4QQ Un schwingen Wonnen, Die üntorschiede in dir männlichen und weibliohen Stimme be« stehen darin* dai die vom. mtnnliohen.Kahlkopf ej^eugten Schwingungen ο in© n^edPigere Gpuiiäieliwingmng besitzen* als die vqrn vdbliQhQR Kehlkopf epgeugten. B@hwiRgungeR-" φ.§|* £uft«
SAD ORiGtMAl.
Bei bestimmten Lauten schwingen die Stimmbänder njcht, Das Spektrum ist dann nicht/diskret, sondern kontinuierlich.
Diejenigen Laute, die ihren Ursprung in den Stimmbändern^
haben, sind die sogenannten stimmhaften Laute. Die anderen Laute, wie beispielsweise "s" und "cn", die ihren Ursprung im Luftstrom haben, sind die sogenannten stimrnlp,sen vLaute .
Wann diese Laute den Muncl passieren, v/erclen die Eigenschaften der Sprache mit Hilfe zweier diskreter Modu^tionsyerfahren geformt. Das erste Verfahren, das als eine Anwendung dar"
Energieverteilung als Funktion der Frequenz, betrachtet . .... werden kann, wird dadurch angewendet, daß der Laut yerr
schiedene Resonanzhöhlon^die von Zunge^ und Mund gebildet,, werden, passiert, Die .kontinuierlichen. Laute,,dier in.
kontinuierlicher Waise reproduziert werden können, ent^ .___ · spreQhenE diesem i'.-lodulationstyp., Die . Kons.pnant.en. werden^.^Je,-,. doch .mit Hilfe de.s zweiten. Modulationsye rf ahrens erzeugt-^,·. Sie. besitzen, ein Kinschwingyerhalten und werde.p.. p|it. HilfÄ .r der-Zunge ,...der. Lippen,,, usw. gebildet, in 4em fde.r. LauJ;^für„^ eine kurze Zeitdauer , zurückgehalten und dann.,plptz;lich. ;r,,s abgegeben-wird. . Y ,:, ■ ^^zz:;v:i'o-' .- ■. ■-· : — w ^*,-: s .^.?
-Xa -j-th al ~h>.~.. H-
.Bei. normaler, Sprache ..änder-tf^si^h/.ilie. Frequanz. der K^
seiiwingung ejitsprechend dem-rlpr^ajy^ider^^.praQ^
ßÄD ORIGINAL
968 007 90$ft5- 1/12SO1
gleichsweise klein. Daher hat sieh die Information, die übertragen werden soll, die für die Wiedergewinnungsoperation notwendig ist, mit den drei folgenden Betrachtungen zu beschäftigen, die als Funktion der Zeit definiert sindt
(a) die Energie/Frequenzverteilung
(b) der Energietyp, der durch diese Verteilung rtgeformt" werden muß und
(c) die Sprachgrundfrequenz. .
Die sich auf (a) beziehende Information ist wesentlich und repräsentiert den größten Teil der Übertragung» Diese Information wird bei den bekannten Vocoder-Systemen mit Hilfe einer Anzahl vbn Kanälen," den sogenannten Spektrumkanälen gewonnen. Diese Kanäle geben die Beschreibung des Energiespektrums eines Sprächsignales als Funktion der Zeit an. Während der Wiedergewinnungsoperation in der Syntheseeinrichtung dienen diese Kanäle dazu, das Sprachspektrum aus der übertragenen Beschreibung wiederzugewinnen.Im allgemeinen machen die bekannten Sprachanalysesysteme von einem Filter-
satz Gebrauch, der den Frequenzbereich von 250-4000 Hz umfaßt, um das Sprachspektrum in die Spektrumkanäle zu zerlegen. Auch die Systeme zur Sprachsynthese verwenden einen Filtersatz, der den* gleichen Frequönzberöich umfaßt. Eine Untersuchung; des" Frequenzspektrüms^ "der stimmhaften und stliimlooen-'SppacH- · abschnitte zeigt, daß unterschiedliche Energieverteilungen
-ei. **
" ■ . ASri·· :"Upuü r BAD ORIGINAL
1 3 Λ S 1 Ht 1 I
• vorliegen. Bei den stinmhaften Sprachabschnitten befindet sich die maximale Energie in den Frequenzbändern unterhalb
; 4000 Hz, während bei den stimmlosen Sprachabschnitten, besonders bei den Zischlauten die maximale Energie - in den Frequenzbändern oberhalb 4000 Hz zu finden ist.- Daher können die bekannten Systeme für die Sprachanalyse und - synthese, P j bei denen das Bandfilter auf den Frequenzumfang des Telefonkanals besdhränkt ist, stimmlose Sprachabschnitte nicht
ι ■■ ■■
korrekt reproduzieren. Der Filtersatz, welcher zur Definition
der Spektrumkanäle verwendet wird, umfaßt das Frequenzspektrum • nur bis etwa 4000 Hz.
' - ■ ■ Ein Weg zur Lösung dieses Problems besteht darin, neue Filter zu verwenden, die auch den höheren Frequenzbereich umfassen, die aber zu einem System führen, welches sehr schwierig zu handhaben ist'. Daher wird diese nachteilige Lösung bei der vorliegenden Erfindung nicht verwendet.
Die Aufgabe der Erfindung ist es daher, eine praktikable Lösung aufzuzeigen, wie stimmlose Sprachabschnitte mit Hilfedes Vocoderprinzips wesentlich besser analysiert und auch wieder zurückgewonnen werden können.
Für eine Einrichtung zur Sprachanalyse und - synthese nach dem Vocoderprinzip , nach dem Sprachsignale durch eine das Sprachspektrum, durch eine die Sprachanregung und durch d.ne
■ro ' 909851/1550 ' " ORIGINAL IN-SPECTED
FR 968 00? 3U300I/ IZOU
' " t - ^t It
s. - ν .tu ν « I * * *
t ^ t, »ti tttt
t. k ι - - * t ι
' ti i> t ι u t;
die Stirnmhaft/stimmlos-Unterscheidung darstellende Punktion definiert sind und bei der die Frequenzkanäle nur auf die Frequenzen der stimmhaften Sprachsignale bezogen sind, besteht die Erfindung darin, daß im Sprachanalysator ein von einem stimmhaft-/stimmlos-Diskriminator gesteuerter Umschalter vorgesehen ist, der bei der Analyse stimmloser Sprachabschnitte von dem höchsten üblichen Prequenzkanal auf einen Frequenzkanal umschaltet, der eine höhere Srenzfrequenz als dieser und eine größerqBandbreite als die üblichen Kanäle besitzt und daß im Sprachsynthetisator der höchste übliche Frequenzkanal bei der Synthese stimmloser Sprachsignale die Signale dieses Sonderkanals empfängt.
Der Vorteil des Vocoders gemäß der Erfindung besteht in einer wesentlich verbesserten Analyse und Synthese stimmloser Sprachabschnitte, insbesondere von Zischlauten.
Im folgenden wird .die Erfindung anhand eines durch Zeichnungen erläuterten Ausführungsbeispieles näher beschrieben. Es zeigen:
Fig.1 das Blockschaltbild des Sprachanalysators gemäß der Erfindung,
Fig.2 das Blockschaltbild des Sprachsynthetisators gemäß der Erfindung,
fr 968 007 90985 1 /1250
Fig.3 eine Darstellung der Sprachspektren für einen
stimmhaften und'stimmlosen Sprachabschnitt und
Fig.4 eine Darstellung des Spektrums eines mit Hilfe des Sprachsynthetisators gemäß der Erfindung wiedergewonnenen stimmlosen Sprachabschnittes.
Fig.1 zeigt das Blockschaltbild des Sprachanalysators gemäß der Erfindung. Dieser Analysator besteht aus einem Kanal 1 für die Anregungsfunktion und aus einem Kanal 2 für die Spektrum/funktion. Das zu analysierende Sprachsignal wird als Schallereignis zu dem Mikrophon 5 und von dort zu dem Spektrum-und Anregungskanal übertragen. Der Anregungskanal 1 enthält einen stimmhaft-/stimmlos-Diskriminator 4 und eine Messchaltung 5 für die Ermittlung der Sprachgrundfrequenz. Der Kanal 2 für die Spektrum/funktlon ist in einer Reihe " Frequenzkanäle, die sog. Spektrumkanäle mit Hilfe der Bandfilter F1 - F (n+1) unterteilt. Der Ausgang jedes Filters ist an einen Gleichrichter R1 - R (n+1) angeschaltet. Diesen Gleichrichtern folgen je Kanal für die Signalglättung Tiefpassfilter F'1 - F1 (n+1). Das von dem Filter F1 (n+1) kommende Signal wird zu einem Dämpfungsglied D und von dort
zu einem Schalter 7 übertragen, der außerdem ein Steuerf ■ . ■
signal von dem Filter Fr η empfängt. Der Schalter 7 wird von dem stimmhaft-Zstimmlos-Diskriminator 4 betätigt. Das Steuersignal dieses Diskriminator wird über die
fr 968 007 909851/1250
Leitungen 8 und 9 zu dem Schalter 7 und Über die Leitung zu dem Ginindfrequenzdetektor 5 Übertragen· Die vom Schalter 7 und von den Tiefpassfiltern F1I - P1 (n+1) kommenden Signale werden* zu einem Abtastschalter 11 und von dort zu einem Analog-Digital-Wandler 12 übertragen. Die analogdigital !gewandelten Ausgangs signale werden schließlich über die Leitung'14- zu einer elektronischen. Datenverarbeitungsanlage 15 übertragen· Ebenso wird auch das stimmhaft-/stimmlos Unterscheidungssignal des Diökrlminators 4 Über die Leitung 8 und das Signal der gemessenen Qrundfrequenz des Grundfrequenzdetektors 5 über die Leitung I5 zu der elekfcronisohen Datenverarbeitungsanlage 15 übertragen,
} ' Fig.2 zeigt den Sprachsynthetisator gemäß der Erfindung. Die für die Wiedergewinnung oder Synthese des Sprachsignals notwendige Information wird aus der elektronischen Datenverarbeitungseinheit (EDV) 15 ausgelesen· Die sich auf die Spektrumsfunktion beziehende Information wird Über das Kabel 16, welches die Leitungen Lt-Ln enthält, übertragen. Die sich auf die Anregungsfunktion beziehende Information wird über die Leitung 17 übertragen.· Die Information auf der Leitung I7 steuert einerseits einen Oszillator 18 mit variabler Frequenz und andererseits den Schalter I9· Zu diesem Schalter 19 werden sowohl das Ausgangssignal des Oszillators 18, als auch das Ausgangssignal des Rausch-" generators 20 übertragen, der weißes Rauschen erzeugt.
fr 968 cot 90 9851/1250
• ' Entsprechend der SchaItεtellung des Schalters 19 wird, wenn
sich diese in der Position SH befindet, das Ausgangssignal j des Oszillators 18 oder wenn sich diese in der Position SL befindet, das Ausgangssignal des Rauschgenerators 20 über die Leitung 21 zu dem Filtersätz £1 - fn übertragen. Die Filter f1 - fn in der Sprachsyntheseeinrichtung entsprechen ψ den Filtern F1 - Fn in der Sprachanalyseeinrichtung. Nachdem das Signal die Filter f1 - fn durchlaufen hat, wird es zu den Modulatoren MOD 1 - Mn übertragen, die ferner über die Leitungen LI-Ln die Information über das Sprachspektrum empfangen. Die Aus gangs signale dieser Modulatoren gelangen dann zu einem weiteren Filtersatz fΊ - ffn, deren Aufbau identisch mit dem Aufbau der Filter f1 - fn ist. Die Summe der Ausgangssignale dieser Filter f'1 - f'n wird über einen Verstärker 22, der diese Signale verstärkt, zu einem Lautsprecher 23 übertragen. - ,
Im folgenden wird die Wirkungsweise des erfindungsgemäßen Systems erläutert, indem zwei charakteristische Fälle, die beim praktischen Betrieb vorkommen, betrachtet werden. Der er.ste Fall betrifft die stimmhaften Sprachabschnitte und der zweite Fall die stimmlosen. Der Arbeitsweise des Änregungskanals werden keine weiteren Betrachtungen gewidmet, da sowohl sein Aufbau, als auch seine Arbeitsweise bekannt sind. Es wird daher lediglich seine Korrelation zu den Kanälen der Spektrumfunktion berücksichtigt. In den folgenden Beispielen wird angenommen, daß der Filter satz für die Kanäle der Spektrum-
-fr 968 007 909851/ 1250
I - Lit
L . ι 6- K t
Λ (. - t It. K *" fc ι. C
funktion sowohl im Analysator als auch im Synthetisator aus 15 Filtern besteht, wobei lediglich im Analysator noch ein 16. Filter vorgesehen ist. Die ersten 15 Filter überdecken den Frequenzbereich von 250-5^00 Hz, wobei das 15. Filter allein den Frequenzbereich von 5150-3700 Hz bedeckt. Das 16. Filter ist für den Bereich von 315O-7OOO Hz ausgelegt. Aus dieser Frequenzverteilung ist zu sehen, daß eine Anzahl von Frequenzen für das 1*5, und 16. Filter gemeinsam sind.
Wenn dem Mikrofon 3 ein stimmhafter Laut zugeführt wird,, dann liefern die Ausgänge der Tiefpassfilter F1I - F* (n+1) des Filtersatzes in dem Sprachahalysator die mittlere Energie in jedem Frequenzband, welches durch das entsprechende Bandfilter F1 - F (n+1) bestimmt ist« Jedes Ausgangssignal entspricht dann einem Punkt auf der Kurve, die die Energieverteilung als Funktion der Frequenz darstellt. Diese 15-16 Punkte reichen aus, um die Kurv© und ihre zeitliehen Änderungen zu definieren. Der Spraehanalysator liefert auch die stimmhaft-/stimmlos-Information, die von dem stimmhaft-Zstimmlos-Diskriminator 4 erzeugt wird, der den Grundfrequenzdetektor 5 steuert, wenn der vorliegende Sprachabsehnitt ein stimmhafter ist. Diese beiden zuletzt genannten Teile der Gesamtinformation werden über die Leitungen 8 und I5 zu der elektronischen Datenverarbeitungsanlage (EDV) 13 übertragen. Diese Übertragung erfolgt nur einmal je Äbtastzyklus des Abtasters 11, der die Ausgänge der Tiefpassfilter F'1 - F' (n+1) abtastet♦ Bevor
fr 968 007 909851/1250
1928362 - 10 -
die Funktion des Schalters 7 erläutert wird, wird Im folgenden die Struktur eines stimmhaften und eines stimmlosen Sprachabsehnittes in Erinnerung gebracht. Fig.3 zeigt das Linienspektrum eines stimmhaften Sprachabschnittes, der im Frequenzbereich von G - 5000 Hz liegt und das Spektrum eines stimmlosen Sprachabsehnittes, der die Frequenz von 4000-9000 Hz. überdeckt. Es ist aus diesem Diagramm zu erkennen, daß im Falle eines stimmhaften Sprachabsehnittes die Energie innerhalb des Frequenzbandes abgegriffen wird, das von den Filtern F1 - Fn bestimmt ist, d.h. in dem gewählten Beispiel von den Filtern 1-15· Das Filter F (n+1) (16.Filter), das den Frequenzbereich bis 7000 Hz überdeckt, liefert jedoch keine zusätzliche Information. Daher schaltet der stimmhaf^-/stimmlos-Diskriminator 4 den Schalter 7 so, daß er die von dem Filter F'n (15. Filter) gelieferte Energie im Falle eines stimmhafter^ Spraehafrschnittes für die Abtastung auswählt. Im Falle eines stimmlosen Sprachabschnittes wählt der Schalter 7 das Ausgangssignal des Filters F1 (n+1) (16. Filter) für die Abtastung aus. Dieser Vorgang wird noch ausführlich erläutert werden. Diese Information der ersten 14 Spektrumkanäle und des 15. Spektrumkanals wird in dem Analog-DigAtal-Wandler 12 in einen digitalen Code umgewandelt und zu der elektronischen Datenverarbeitungseinheit 13 übertragen.
Auf eine Erläuterung der Arbeitsweise des Sprachsynthetisators für die Wiedergewinnung stimmhafter Sprachabschnitte kann ver-
fr 968 007 909851/1250· ■ original inspec?tbd
• »ftf t ff
• f r ft*· rr»f *
' t r t t «tr t r r t<
if r'r f r r r
- 11 -
ziehtet werden, da sie durch das Vocoder-System von H.Dudley bekannt
Wenn nun aber das Mikrofon 3 mit einem stimmlosen Sprachabschnitt beaufschlagt wird, dann erhält man am Ausgang der Spektrumkanäle wieder1 eine Information, die der Energieverteilung als Punktion der Frequenz entspricht. Dieses Mal jedoch erzeugt der stimmhaft-Zstimmlos-Diskrirninator 4 das "stimmlos"-Signal und überträgt es über die Leitungen 8,9 und 10. Daher überträgt der Sprachgrundfrequenzdetektor 5 keine Information. Der Schalter 7 wird ^o eingestellt, daß er den Ausgang des Filters F9 (n+1) (16. Filter) für die Abtastung durch den Abtaster 11 auswählt. In den Kanal 16 wurde nochli ein Dämpfungsglied (D) 6 zwischen den Ausgang des Filters F' (n+1) und den Schalter 7 eingefügt, um. den Energie Zuwachs, der sich aus der Bandbreitendifferenz zwisohen diesem Kanal und dem vorhergehenden Kanal (15.Kanal) ergibt, auszugleichen. Daher liefert der Abtaster 11 In-
»» " - -informationen, die der Energie in den durch die ersten Filter F1 « F (n-1)(die ersten 14 Filter) und durch das Filter F (n+1) (16. Filter) bestimmten Kanälen entspricht. Diese Information wird in dem Analog-/Digital-Wandler 12 binär codla*t und zu der elektronischen Datenverarbeitungsanlage (EDV) 15 übertragen. Der Kanal 1 der Anregungsfunktion arbeitet in diesem Falle in der üblichen Weise.
fr 968 007 909851/1250
Wie vorher gezeigt wurde, arbeitet der Sprachsynthetisator bei der Wiedergewinnung von stimmhaften Sprachabschnitten in der üblichen Wdse. D.h., dass das Signal der Anregungsfunktion über die Leitung 17 (vgl. Fig.2) über die Leitung 17 zu dem Schalter I9 übertragen wird, wodurch dfeerin die Position SH eingestellt wird. Ferner stimmt dieses über die Leitung I7 übertragene Signal, des Anregungskanals den Oszillator 18 auf die während der Analyseoperation ermittelte Sprachgrundfrequenz ab.Daher wird diese Frequenz zu defä Modulatoren Mi-Mn übertragen* wo sie als Trägerfrequenz für die langsam veränderlichen Spannungen dienen, die auf der Syntheseseite über die Leitungen LI-Ln, also den Spektrumkanälen, zu den Modulatoren übertragen werden. Im gewählten Beispiel liefert der Ausgang jedes der I5 Modulatoren ein Signal, das einem bestimmten Frequenzband des Originalsprachsignals entspricht, wobei es aus Spraoh-™ grundfrequenz und Amplitude (diskrete Harmonische) zusammengesetzt ist. Die kombinierten ÄusgangsSignale aller Kanäle : stellen das Sprachsignal dar. Dieses wird zu dem Verstärker und von dort zu dem Lautsprecher 25 übertragen.
Im Falle eines stimmlosen Sprachabschnittes arbeitet die Einrichtung fast in der gleichen Weise. Das Signal der Anegungsfunktion wird wieder über die Leitung I7 zu dem Schalter I9 übertragen, welches diesen in die Schaltεtellung SL einstellt. In dieser Schaltstellung überträgt der Rauschgenerator 20
fr 968 00t 9 0 9 8 51/12 5 0 0RIGinal inspected
Il till Lt
t * r k
t * · · t IiI L
it» tit ti
t* til
seine Ausgangssignale über die Leitung 21 zu den Modulatoren MI-Mn. Für die Erfindung ist der nun im folgenden erläuterte, Punkt wesentlich. Wie bereits bei der Beschreibung des Systems erwähnt wurde, entsprechen die Filter f1 - fn im Sprachsynthetisator den Filtern F1 - Fn im Sprachanalysator. Daher besitzt das Filter F (n+1) im Sprachanalysator kein entsprechendes Filter in dem Sprachsynthetisator. Die während der Sprachanalyse am Ausgang der ersten Filter F'1 - F' (n-1) (erste 14 Kanäle) erhaltenen Signale werden zu den ersten 14 Modulatoren MI - M (n-1) im Sprachsynthetisator über die Leitungen L1 - L (n-1) in der üblichen Weise übertragen. Die Information, die am Ausgang des Filters F' (n+1) (16. Kanal) wird über die Leitung Ln zu dem Modulator Mn des 15· Kanals im Sprachsynthetisator übertragen, obwohl dieser Kanal, der diesem Modulator entspricht, durch das Filter fn bestimmt ist, das nur einen Teil des Frequenzbandes abdeckt, welches von dem Bandfilter F (n+1) im Sprachanalysator umfaßt wird. Der übrige Teil der Operation des Sprachanalysators ist dann wieder bekannt.
Bezugnehmend auf Fig.3 kann gezeigt werden, daß ein stimmloser Sprachabschnitt durch die Tatsache gekennzeichnet ist, daß sein FrequenzSpektrum das Frequenzband von etwa 4000 - 10000 Hz umfaßt. Dieses heißt mit anderen Worten, daß in dem Frequenzbereich unterhalb von 4000 Hz praktisch keine Energie vorhanden ist. Daher merkt sich das Ohr diese Frequenzabhängige
fr 968 007 909851/1250
ι jjj ι $ j ι jjji
Energieverteilung bei stimmlosen Sprachabschnitten. Wird ein Sprachanalysator vom Vocoder-Typ betrachtet, dann kann unter Zugrundelegung des oben erwähnten Beispieles gezeigt werden, daß der Filtersatz P1 - Fn nur den Frequenzbereich zwischen 250-5700 Hz erfaßt. Daher wird auch mit einer derartigen Einrichtung nur ein geringer Energieanteil in den Kanälen des Analysators gewonnen. Während der Syntheseoperation, wird dann einerseits das Rauschsignal des Generators 20 zu den Modulatoren übertragen·und andererseits gelangt über jeden Kanal nur eine niedrige mittlere Energie zu der Sprachsyntheseeinrichtung. Es kann daher beobachtet werden, daß eine der wesentlichsten Eigenschaften des stimmlosen Sprachsignales nicht während der Syntheseoperation in Erscheinung trat, nämlich die Energieverteilung im Frequenzbereich, da bei den konventionellen Einrichtungen die Energie in jeddm Synthesekanal im wesentlichen gleich groß ist. Dieses erklärt die geringe Qualität der stimmlosen Sprachabschnitte, die auf diese Weise in der Syntheseeinrichtung wiedergewonnen werden.
Bei dem Sprachanalysator gemäß der Erfindung definiert da? 16. Filter F (n+1) einen neuen Kanal, der den Frequenzbereich von 3I5O-7OOO Hz erfaßt, wobei die untere Grenze dieses Frequenzbereiches auch gleichzeitig die untere Grenzfrequenz des Filters Fn darstellt. Daher ist das Ergebnis der Analyseoperation nicht mehr ein Spektrum mit einer gleichmäßigen
fr 968 007 . 9 0 98 51/12 5 0' original inspected
* * r » f t # ir
Y * > * · f r f r f t f
r r - r f * rer r r f-f
t r · r * γ r
Energieverteilung, sondern ein Spektrum mit einem sehr geringen Energieanteil in den Kanälen unterhalb 3150 Hz und mit einem hohen Energieanteil in den Kanälen von 3I50-7000 Hz. Dann wird die Energie in die Kanäle des Sprachsynthetisators injiziert, die den Kanälen unterhalb von 3150 Hz des Analysators entsprechen· Die während der Sprachanalyse im Frequenzkanal j5i5O -7000 Hz gewonnene Energie wird über den Kanal übertragen, der dureii das Filter Pn definiert ist. Dieses Filter erfaßt nur das Frequenzband von 3I5O-37ÖO Hz, Mit Hilfe dieses Verfahrens ist es möglieh, die wirkliche Struktur des Spektrums stimmloser Sprachäbschnltte, Ä.as eine Energiekonzentration im Frequenzbereich über 4000 Hz besitzt, in dem Sprachsynthetisator wiederzugewinnen· Deshalb ergibt sich auch die verbesserte Klangqualität bei der Wiedergabe stimmloser Sprachabschnitte·
Fig.4 zeigt das In der Sprachsyntheseelnriehtung wiedergewonnene Sprachsignal für einen stimmlosen Sprachabschnitt· Diese Figur läßt erkennen, daß die charakteristische Verteilung eines stimmlosen Sprachabschnittes wieder-gewonnen wird, d.h. daß sich eine Konzentration der Energie A bei den höheren Frequenzen des Spektrums ergibt.
909851/1250
FR 968 007
inspected *

Claims (4)

  1. Böblingen, den 16. Mai I969 jo-sk
    Patentansprüche
    m J Einrichtung zur Sprachanalyse und -synthese nach dem Vocoderprinzip, nach dem Sprachsignale durch eine das Spektrum, durch eine die Sprachanregung und durch eine die stimmhaft-/stimmlos-Unterscheidung darstellende Funktion definiert sind und bei der die Frequenzkanäle nur auf die Frequenzen der stimmhaften Sprachsignale bezogen sind, dadurch gekennzeichnet, daß im Analysator
    (1,2; Fig.T) ein von einem stimmhaft-/stimmlos-Diskriminator (4) gesteuerter Umschalter (7) vorgesehen ist, der bei der Analyse stimmloser Sprachabschnitte von dem höchsten,sonst üblichen Frequenzkanal (Fn) .auf einen ψ Frequenzkanal (F (n+1) ) umschaltet, der eine höhere
    Grenzfrequenz als dieser und eine größere Bandbreite als die üblichen Kanäle besitzt, und daß im Synthetisator (Fig.2) der höchste übliche Frequenzkanal (fn) bei der o^nthese stimmloser Sprachsignale die Signale dieses Sonderkanals (F (n+1); Fig.1) empfängt.
  2. 2. Einrichtung zur Sprachanalyse und· - synthese nach
    Anspruch 1, dadurch gekennzeichnet, daß der Spektrum- »nalysator (2; Fig.1) insgesamt aui n+1-F!recpeKkanälen und der ,"ynthetisator (Fig.2) insgesamt aus n-Frequenz-
    -' - :" 909851/1250 "bad original
    - 17 kanälen besteht. ·
  3. 3. Einrichtung zur Sprachanalyse nach Anspruch 1 und/oder 2, dadurch gekennzeichnet, daß der Sonderkanal (n+1 ; Pig.1) vorzugsweise den Frequenzbereich von 31t)0-7000 Hz umfaßt. '
  4. 4. Sprachsynthetisator nach den Ansprüchen 1, 2 und/oder 3* dadurch gekennzeichnet, daß zur Anpassung der Energie unterschiede in den Kanälen (nj Fig.1 ) und (n+1) zwischen den Ausgang dieses Kanals und den Eingang zum Schalter 7 ein Dämpfungsglied (6) eingeschaltet ist.
    BAD FR 968 007 9 0 9 8 5 1/12 5 0
DE19691926362 1968-05-27 1969-05-23 Einrichtung zur sprachanalyse und synthese nach dem vocoderprinzip Withdrawn DE1926362B2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR6009157 1968-05-27

Publications (2)

Publication Number Publication Date
DE1926362A1 true DE1926362A1 (de) 1969-12-18
DE1926362B2 DE1926362B2 (de) 1971-07-22

Family

ID=8970758

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19691926362 Withdrawn DE1926362B2 (de) 1968-05-27 1969-05-23 Einrichtung zur sprachanalyse und synthese nach dem vocoderprinzip

Country Status (4)

Country Link
JP (1) JPS4912243B1 (de)
DE (1) DE1926362B2 (de)
FR (1) FR1583983A (de)
GB (1) GB1222043A (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2334459C3 (de) * 1973-07-06 1982-03-25 Siemens AG, 1000 Berlin und 8000 München Unterscheidung zwischen stimmhaften und stimmlosen Lauten bei der Sprachsignalauswertung

Also Published As

Publication number Publication date
FR1583983A (de) 1969-12-12
DE1926362B2 (de) 1971-07-22
GB1222043A (en) 1971-02-10
JPS4912243B1 (de) 1974-03-23

Similar Documents

Publication Publication Date Title
DE2840243C2 (de)
DE2553121A1 (de) Verfahren und vorrichtung zur verringerung von fehlern in uebertragungssystemen fuer digitale information
DE2949817T5 (de) Color television receiver
DE2543921A1 (de) Verfahren und vorrichtung zur tonfrequenz-uebermittlung
DE2609297C3 (de) Übertragungssystem für Gesprächssignale
DE2850555C2 (de)
DE1762492C3 (de) Verfahren und Schaltung zur Hör barmachung der menschlichen Stimme den hochgradig Schwerhörigen
DE2811293A1 (de) Verfahren und anordnung zur sprachuebertragung
DE1926362A1 (de) Einrichtung zur Sprachanalyse und -synthese
DE2051589C3 (de) Elektrischer Synthesator
DE1928986A1 (de) UEbertragungssystem mit einer Sende- und einer Empfangsvorrichtung zur UEbertragung von Informationen in einem vorgeschriebenen Frequenzband und dafuer geeignete Sende- und Empfangsvorrichtungen
DE1926362C (de) Einrichtung zur Sprachanalyse und synthe se nach dem Vocoderpnnzip
DE2305094C2 (de) Verfahren und System zur breitbandigen Nachrichtenübertragung
DE2229610B2 (de) Frequenzanalysator
DE2539769A1 (de) Pulskodemodulation mit dynamikbegrenzung
DE2210147C3 (de) Verfahren zur gleichzeitigen Übertragung einer Hauptinformation und von Zusatzinformationen im Hörfrequenzbereich
EP0319851A1 (de) Digitale Phaseneinstellung für digital generierte Signale
DE2346980C2 (de) Wiedergabeseite eines Systems zum Übertragen von breitbandigen Musik- und/oder Sprachsignalen
DE1036337B (de) Zeitmultiplexsystem
DE2309987C2 (de) System für die Übertragung breitbandiger Signale
DE2812548C2 (de) Schaltungsanordnung zur Regenerierung zeitweilig gestörter Signale
DE1762445C (de) Verfahren und Schaltungsanordnung zum gleichzeitigen Übertragen von mehreren Sprachsignalen über eine gemeinsame Nachrichtenübertragungsleitung
DE2416086C2 (de) Verfahren zum Senden und Empfangen von verschlüsselten Fernsehsignalen
EP0545030A1 (de) Verfahren zur Aufbereitung von Bildquellsignalen mit oder ohne Tonsignalen sowie Anwendung
DE1762336C (de) Schaltungsanordnung zur Sprachanalyse und Sprachsynthese nach Art eines Vocoders

Legal Events

Date Code Title Description
E77 Valid patent as to the heymanns-index 1977
8339 Ceased/non-payment of the annual fee