DE1940384B2 - Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese und Schaltungsanordnung - Google Patents
Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese und SchaltungsanordnungInfo
- Publication number
- DE1940384B2 DE1940384B2 DE19691940384 DE1940384A DE1940384B2 DE 1940384 B2 DE1940384 B2 DE 1940384B2 DE 19691940384 DE19691940384 DE 19691940384 DE 1940384 A DE1940384 A DE 1940384A DE 1940384 B2 DE1940384 B2 DE 1940384B2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- filter
- fundamental
- speed
- circuit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 7
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 7
- 238000010291 electrical method Methods 0.000 title description 2
- 239000003990 capacitor Substances 0.000 claims abstract description 18
- 230000002238 attenuated effect Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 10
- 210000003205 muscle Anatomy 0.000 description 9
- 210000005036 nerve Anatomy 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001850 reproductive effect Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Description
Die Erfindung betrifft ein elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese
nach dem Oberbegriff des Anspruchs 1, sowie eine Schaltungsanordnung.
Techniken zur Speicherung von Sprachsignalen sind bereits bekannt. Außer der weitverbreiteten Analogtechnik,
die z, B, bei der Aufnahme und kontinuierlichen Wiedergabe von Sprache und Musik angewendet wird,
ist eine digitale Technik entwickelt worden, bei der die verschiedenen Eigenschaften der natürlichen Sprache
benutzt werden, um verschiedene, diese Eigenschaften beschreibende Signale zu erzeugen. Diese Signale
werden dann ihrerseits kodiert und die Kode werden
ίο gespeichert Für die Zwecke der Sprachausgabe-Einrichtungen
einer digitalen Datenverarbeitungsanlage ist die digitale Speicherung der Sprache von besonderem
Interesse.
Damit die Maschine in die Lage versetzt wird, an sie gestellte Fragen sinnvoll zu beantworten, muß in ihrem Speicher ein geeigneter Vorrat von Sprachsegmenten vorhanden sein. Derartige Segmente können aus einzelnen Silben, vollständigen Wörtern oder ganzen Sätzen bestehen. Der Vorteil, der sich bei der Speicherung einzelner Silben ergibt, ist daß vermutlich nur eine relativ kleine Anzahl von Sprachsignalen gespeichert werden müßte. Wenn jedoch die reproduzierte Sprache nur entfernt natürlich klingen soll, muß eine große Anzahl komplexer Zeitbedingungen beachtet werden, da nominell ähnlich klingende Silben in verschiedenen Wörtern mit unterschiedlicher Dauer und Betonung auftreten können.
Damit die Maschine in die Lage versetzt wird, an sie gestellte Fragen sinnvoll zu beantworten, muß in ihrem Speicher ein geeigneter Vorrat von Sprachsegmenten vorhanden sein. Derartige Segmente können aus einzelnen Silben, vollständigen Wörtern oder ganzen Sätzen bestehen. Der Vorteil, der sich bei der Speicherung einzelner Silben ergibt, ist daß vermutlich nur eine relativ kleine Anzahl von Sprachsignalen gespeichert werden müßte. Wenn jedoch die reproduzierte Sprache nur entfernt natürlich klingen soll, muß eine große Anzahl komplexer Zeitbedingungen beachtet werden, da nominell ähnlich klingende Silben in verschiedenen Wörtern mit unterschiedlicher Dauer und Betonung auftreten können.
Die Speicherung vollständiger Wörter ist dagegen sehr praktisch, besonders, wenn nur ein begrenztes
« Vokabular für die von der Maschine zu erzeugenden Nachrichten erforderlich ist. Nichtsdestoweniger können
die Reproduktion von Wörtern aus einem Speicher und ihre Zusammenstellung zu einer vollständigen
Nachricht Unregelmäßigkeiten an den Stoßstellen der
J5 Wörter hervorrufen, die dazu führen, daß synthetische
Sprache für das menschliche Ohr unnatürlich klingt, und die ihre Verständlichkeit beeinträchtigen.
Unter der Annahme einer verhältnismäßig beschränkten Speicherkapazität >st die Anwendbarkeit
eines Systems, bei dem ganre Sätie gespeichert sind
wegen der stark reduzierten Anpassungsfähigkeit der Sprachausgabe-Einrichtungen sehr begrenzt.
Daher erscheint die Speicherung von vollständigen Wörtern dem heutigen Stand der Technik angemessen,
und es wird die Verminderung der Unregelmäßigkeiten, die bei der Zusammenstellung von Wörtern entstehen,
die ursprünglich in einem völlig anderen Zusammenhanggesprochen worden waren, angestrebt.
Man ging daran den Grundtonverlauf reproduzierter Wörter mit einer Korrekturfunktion zu überlagern, um die genannten Unregelmäßigkeiten zu kompensieren. Dieses Vorgehen hat sich jedoch als unbefriedigend und unbeweglich erwiesen.
Man ging daran den Grundtonverlauf reproduzierter Wörter mit einer Korrekturfunktion zu überlagern, um die genannten Unregelmäßigkeiten zu kompensieren. Dieses Vorgehen hat sich jedoch als unbefriedigend und unbeweglich erwiesen.
In der DE-AS Il 91 124 sowie der FR-PS 14 47 760
">">
sind Lösungen zur Anpassung der Sprachgrundfrequenz an variable Sprechgeschwindigkeiten angegeben. Diese
Lösungen sind jedoch mit Nachteilen behaftet, die im Falle der erstgenannten Druckschrift darin liegen, daß
eine kontinuierliche Anpassung und damit eine perfekte
wi klangliche Verbesserung nicht möglich ist, da Expansion
und Kompression durch Einfügen bzw. Weglassen von Sprachsegmenten erreicht werden.
Beiden Druckschriften ist ein weiterer Nachteil gemeinsam, nämlich der, daß schnelle Änderungen des
μ Grundtonverlaufs gar nicht oder höchst unvollkommen
nach diesen bekannten Lösungen kompensiert werden können.
Der Erfindung liegt daher die Aufgabe zugrunde, ein
elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthe«e aus gespeicherten
Sprachsegmenten anzugeben, das einfach ist, sicher und zuverlässig arbeitet sowie zur Verbesserung des
natürlichen Klangs der Sprache bei Änderung der Sprechgeschwindigkeit auch die Sprachfrequenz diesen
Änderungen sauber anpaßt.
Gelöst wird diese Aufgabe der Erfindung für das Verfahren durch die im Anspruch 1 und für die
Schaltung durch die im Anspruch 5 angegebenen Merkmale.
Weitere vorteilhafte Ausgestaltungen und Weiterbildungen des Gegenstandes der Erfindung sind den
Unteransprüchen zu entnehmen.
Die Erfindung wird hiernach im Zusammenhang mit einem bevorzugten Ausführungsbeispiel anhand der
Zeichnungen näher erläutert
Fig. la bis Id: zeigen Details des selben Grundtonverlaufs
unter verschiedenen Bedingungen;
Fig.2: zeigt schematisch eine Einrichtung zur Sprachsynthese;
F i g. 3: ist ein vereinfachtes Schaltbild eines Filters.
Bei der reproduktiven Sprachsynthese ist --s nötig,
Maßnahmen zu ergreifen, um die Charakteristika der einzelnen, gespeicherten Wörter an den betreffenden
Kontext anzupassen, in dem sie vorkommen sollen.
Beispielsweise kann ein Wont mit einer ersten Geschwindigkeit gesprochen und dann gespeichert
worden sein. Die Anpassung des Wortes an einen Zusammenhang, der von demjenigen zur Zeit der jo
Aufnahme verschieden ist, kann seine Wiedergabe mit einer zweiten, z. B. erhöhten Geschwindigkeit erfordern.
Mit anderen V/orten, das aus dem Speicher entnommene Sprachsignal muß komprimiert werden,
um die erforderliche Wiedergabegeschwindigkeit zu erreichen.
Es erscheint angebracht, kurz aiuf die Unterschiede
zwischen natürlicher Sprache und Vocoder-Sprache einzugehen, wenn die Wiedergabegeschwindigkeit
geändert wird. Bei natürlicher Sprache wird angenommen, daß das Gehirn an das Nervensystem beispielsweise
eine Sprungfunktion liefert, um die Muskeln zur Produktion des gewünschten Allophons anzuregen
(Fig. la). Die Muskeln sind nicht in der Lage, der Sprungfunktion augenblicklich zu folgen; sie verhalten 4s
sich vielmehr wie ein Tiefpaßfilter, so daß die ursprüngliche Sprungfunktion verändert wird, wie das in
der Fig Ibdargestellt ist.
Es ist bekannt, daß es mit Hilfe eines Vocoder-Synthesators möglich ist, die Geschwindigkeit der Sprache v>
zu ändern, ohne daß gleichzeitig der Grundton oder die Tonqualiiät geändert werden (was nicht möglich ist,
wenn man eine Aufzeichnung einfach schneller oder langsamer abspielt).
Wenn das Sprachsignal von Fig. Ib aufgenommen v>
und dann mit erhöhter Geschwindigkeit wiedergegeben wird, ist der Anstieg der Grundtonkurve viel kürzer,
während die Amplitude der Kurve konstant bleibt (Fig. Ic). Mit anderen Worten, wenn die Geschwindigkeit
erhöht wird, werden die Änderungen des w) Grundtons proportional schneller. Es sei beispielsweise
angenommen, daß ein Wort ursprünglich 0,5 see. dauert
die Frequenz des Grundtons zu Beginn des Wortes 100 Hz und an seinem Ende Ii)OHz betrage. Die
Frequenz des Grundtones steigt demnach mit einer f» Geschwindigkeit vcn 100 Hz/scc. an. Falls dieses Wort
über einen Vocoder mit der fünffachen Originalgeschwindigkeit wiedergegeben wird, ist die Frequenz des
Grundtones am Beginn des Wortes nach wie vor 100 Hz und 150 Hz wenn das Wort endet, die Änderungsgeschwindigkeit
ist jedoch mit dem Faktor fünf auj 500 hz/sec. angestiegen, da die Änderung nun innerhalb
von 0,1 see. erfolgt, weil die gesamte Dauer des Wortes
auf 0,1 see. komprimiert worden ist. Änderungen des Grundtones von dieser Größenordnung klingen unnatürlich;
in natürlicher Sprache kommen sie nicht vor.
Wenn das gleiche Wort in natürlicher Sprache so gesprochen wird, daß es nur 0,1 see. dauert, beginnt der
Grundton wiederum bei 100 Hz, aber die Änderung, die durch die erhöhte Geschwindigkeit verursacht wird,
beträgt nur zwischen 10 und 20 Hz, was einer Änderungsgeschwindigkeit von zwischen 100 bis
200 Hz/sec. entspricht. Demnach erreicht die Amplitude des Grundtonverlaufs des schnell gesprochenen Wortes
bei natürlicher Sprache nicht den gleichen Wert wie die des langsam gesprochenen Wortes (Fi g. Id).
Bis zu einem gewissen Grade treffen die gleichen Überlegungen auch für den Fall der Sprachwiedergabe
mit geringerer Geschwindigkeit zu. D'e herabgesetzte Änderungsgeschwindigkeit des Griii.dtones erzeugt
jedoch nicht den gleichen Typ von Unnaturlichkeit, wie
das bei der Geschwindigkeitserhöhung der Fall ist, doch ist das Ergebnis gleichermaßen unerwünscht.
Nunmehr wird der Grundtonverlauf immer dann geändert, wenn ein Wort mit einer Geschwindigkeit
wiedergegeben wird, die von der Geschwindigkeit, mit der es ursprünglich gesprochen worden war, abweicht,
so daß übertrieben schnelle oder langsame Änderungsgeschwindigkeiten, die durch die Veränderung der
Wiedergabegeschwindigkeit hervorgerufen wurden, eliminiert werden.
Anders ausgedrückt besteht das Verfahren darin, die schnellen Änderungen des Grundtones zu beeinflussen,
während die langsamen Änderungen unbeeinflußt bleiben. Die Durchführung dieses Verfahrens verlangt
ein Netzwerk, dessen Übertragungsfunktion frequenzabhängig ist, und das durch Signale gesteuert wird, die
die ursprüngliche Geschwindigkeit des gespeicherten Wortes und die gewünschte Wiedergabegeschwindigkeit
beschreiben. Dieses Verfahren wird nun ausführlicher mit Bezug auf F i g. 2 beschrieben.
Ein Speicher 1 enthält Sprachsegmente, die in dem hier beschriebenen bevorzugten Ausführungsbeispiel
aus vollständigen Wörtern besiehen. Zu- Zusammenstellung
von Nachrichten sendet der Speicher entsprechende Sprachsignale über Übertragungskanäle 2 an
einem Synthesator 3. Der Speicher 1 kann irgendeins der vielen, bereits vorgeschlagenen Speichergeräte sein,
die zufallsverteilten Zugriff gestatten, und die (iange) Magnetbänder oder -scheiben, eine geeignet große
Anzahl von kurzen Bandsegmenten mit eigenem Abtastmechanismus, sowie auf dem Schirm einer
Kathodenstrahlröhre angeordneten photographischen Film umfassen können. Der Synthesator 3 kann ein
konventioneller Kanal- oder Formant-Synthesalor sein.
Die über die Kanäle 2 übertragenen Sprachsignale beschreiben das Spektrum der Sprachlaute. Diese
Signale können im calle eines Kanal-Synthesators die
Amplituden für einen Salz von Bandpaßfiltern darstellen. Im Falle eines Fonnant-Synthesators können sie die
Frequenzen der Formanten und Spektral Nullen darstellen. Zusätzlich zu diesen Signalen liefert der
Speicher 1 auch eine zum Grundton des gespeicherten Sprachsegmentes proportionale Spannung auf einer
Ausgangsleitung 4. Dieses Signal wird nun nicht unmittelbar dem Synthesator 3 zugeführt, es wird
vielmehr in einem Filter 5 unter der Steuerung eines weiteren, über eine .Steuerleitung 6 vom Speicher I
empfangenen Signals modifiziert. Dieses Signal charakterisiert die Geschwindigkeit, mit der das betreffende
.Sprachsegment wiedergegeben werden soll. Unter der Annahme, daß das Filter 5 ein Analog-Filter ist, wird
ein Analog-Signal von beispielsweise + 1 Volt auf die Leilung 6 gegeben, in dem Fall, daß das Sprachsegment
mit seiner ursprünglichen Geschwindigkeit wiedergegeben werden soll; während das Steuersignal nur 0,5 Volt
beträgt, im Falle daß die Wiedergabe mit der zweifachen Originalgeschwindigkeit erfolgen soll. Das
Steuersignal würde +2VoIt betragen, wenn die Wiedergabegeschwindigkeit nur der halben Originalgeschwindigkeit
entsprechen soll.
Bei der Festlegung der Eigenschaften, die das Filter haben muß. um wie beschrieben funktionieren zu
können, muß man sich daran erinnern, daß das
eine mehr oder weniger scharfen Sprungfunktion hat, die durch das physiologische Tiefpaßfilter des Stimmtrakts
hindurchgegangen ist. Wie bereits erwähnt, ändern sich die Charakteristika dieses Filters nicht
wesentlich mit der Änderung der Sprechgeschwindigkeit. Im Gegensatz dazu scheinen die durch die
technische Sprachkompression (oder -expansion) dem Sprachsignal mitgeteilten Verzerrungen durch ein
Tiefpaßfilter hervorgerufen, dessen Übertragungsfunktion von der Übertragungsfunktion für unkomprimierte
(unexpandierte) Sprache verschieden ist. Das Grundprinzip für die Auslegung des Filters 5 ist deshalb die
elektrische Nachbildung des Effekts, als wenn das gleiche Originalsteuersignal vor dem Durchgang durch
das Tiefpaßfilter komprimiert (oder expandiert) worden wäre, anstatt daß das Signal zuerst gefiltert und dann
komprimiert (oder expandiert) worden wäre.
Ein Filter, das den genannten Anforderungen genügt,
ist in F ι g. 3 dargestellt. Ein Operationsverstärker 51 ist
mit mit einem Eingangsnetzwerk verbunden, das aus einem Widerstand 52 und einem mit diesem parallel
geschalteten Kondensator 53 besteht. In erster Annäherung wird angenommen, daß der Operationsverstärker
51 eine unendlich große Verstärkung hat. so daß für eine endliche Ausgangsspannung die Eingangsspannung Null
sein müßte. Ferner wird der Eingangsstrom zu Null angenommen, da im allgemeinen die Verstärker-Eingangsimpedanz
groß ist. (Auch wenn die Eingangsimpedanz niedrig wäre, wäre der Strom sehr klein, da die
Spannung so niedrig ist).
Ferner ist in dem Eingangsnetzwerk ein Widerstand 54 vorgesehen, der mit dem Kondensator 53 in Reihe
geschaltet ist. Es dient dazu, zu vermeiden, daß der
Strom für die Hochirequenzanteile (z. B. Rauschen) gegen unendlich geht.
An den Ausgang des Operationsverstärkers 51 ist ein Rückkopplungsnetzwerk angeschlossen, das ein aus
einem Kondensator 55 und einem mit diesen parallel geschalteten Widerstand 56 bestehendes Tiefpaßfilter
enthält. Um wenigstens teilweise die durch den Widerstand 56 im Eingangskreis hervorgerufene Wirkung
auszugleichen ist ein zusätzlicher Widerstand 57 mit dem Kondensator 55 in Reihe geschaltet.
Um das Filter 5 einstellbar zu gestalten in Abhängigkeit von den Geschwindigkeitsänderungen,
denen die Sprachsegmente unterworfen werden, nachdem sie dem Speicher 1 entnommen worden sind, wird
der Kondensator 53 veränderbar ausgelegt. Seine Steuerung erfolgt durch das vom Speicher 1 über die
Leitung 6 gegebene Signal, das der Erhöhung oder Erniedrigung der Geschwindigkeit entspricht, der das
reproduzierte Sprachsegment ausgesetzt werden soll. Es sei angenommen, daß die Kapazität des Kondensa-
s tors 53 dem Steuersignal proportional ist, und daß ein Signal mit einer Spannung von I Volt der Wiedergabe
irgendeines Sprachsegmentes mit seiner ursprünglichen Geschwindigkeit entsprechen soll, während ein Steuersignal
von 0,5 Volt der doppelten Geschwindigkeit und ein solches von 2 Volt demnach der halben Geschwindigkeit
entsprechen soll.
Es wird vorausgesetzt, daß die Widerstände 52 und 56
gleich sind, und daß ferner die Widerstände 54 und 57 gleich sind. Des weiteren wird vorausgesetzt, daß wenn
Γ) das Steuersignal an einem Steuereingang 58 des
Kondensators 53, 1 Volt beträgt, der Kondensator 53 gleich groß ist wie der Kondensator 55. Bei diesen
Bedingungen ist das Ausgangssignal an der Ausgangs-
n(T?.ntTssian
Eingangsklemme 59a.
Da, wie bereits erwähnt, die Kapazität des Kondensators 53 zum Steuersignal am Eingang 58 proportional
ist, bewirkt ein Steuersignal unter 1 Volt, daß der Kondensator 53 kleiner ist als der Kondensator 55.
2ϊ Demgemäß dämpft der Eingangskreis die hohen
Frequenzen, obwohl die Gleichstromverstärkung ungeändert gleich 1 ist. Da das Signal an der Eingangsklemme
59a eine zum Grundton des reproduzierten Sprachsegmentes proportionale Spannung ist, stellen
so die hochfrequenten Anteile dieses Signals schnelle Änderungen des Grundtones dar und diese werden
gedämpft, wenn das Steuersignal angibt, daß die Wiedergabe des Sprachsegmentes mit einer Geschwindigkeit
erfolgt, die größer ist als die Geschwindigkeit bei
Ji der Aufnahme.
Entsprechendes gilt, wenn die Wiedergabe mit kleinerer Geschwindigkeit erfolgen soll. Dann wird der
Kondensator 53 größer als der Kondensator 55, und die hohen Frequenzen werden demgemäß durch die
•»η Schaltung angehoben. Demnach werden die schnellen
Änderungen des Grundtons, die in der ursprünglichen Sprache eine kleine Amplitude aufwiesen, bei verlangsamter
Wiedergabe langsamer und ihre Amplitude wird vergrößert.
■s-3 Es ist noch von Wichtigkeit, die Filtereigenschaften
der Eingangs- und Ausgangsnetzwerke des Filters näher zu betrachten. Wie bereits weiter oben angedeutet, wird
angenommen, daß die vom Gehirn gelieferten Wort-Intonationssignale die Form von Nervenimpulsen haben,
v< die an diejenigen Muskeln übertragen werden, die den
Grundton steuern. Diese Impulse werden infolge Jes relativ langsamen Ansprechens der Muskeln einer
Tiefpaßfilterung unterworfen. Es scheint, daß wenn eine
Person schneller oder langsamer spricht, die Nervenim pulse zwar beschleunigt oder verlangsamt werden,
während die Ansprechgeschwindigkeit der Muskeln fast unverändert bleibt Um das Tiefpaßverhalten dei
Muskeln auszugleichen, muß der Eingangskreis des Filters 5 so ausgelegt werden, daß seine Eingangsimpe danz etwa umgekehrt proportional zur Übertragungs
funktion des Muskelfilters ist Dementsprechend ist dei Strom durch diesen Schaltkreis dann proportional zum
ursprünglichen Nervensteuersignal. Wenn das Sprach segment nun schneller wiedergegeben wird als es
aufgezeichnet worden war, verhält sich der unveränderte Grundtonveriauf so, ais wenn sowohl die Nervenimpulse als auch die Ansprechgeschwindigkeit der
Muskeln beschleunigt worden wären. Aus diesem
Grund muß der Kondensator 53 unter den genannten Bedingungen kleiner gemischt werden, um die Kingangsimpedanz
des Kreises umgekehrt proportional zu den Ncrvcnstcucrsignalen zu erhalten.
Tatsächlich ist die Auslegung eines Filters mit einer
einem Hochpaßfilter ähnlichen Charakteristik aber mit konstanter Gleichstrom- und Niederfrequenzverstärkung
ein sehr komplizierter Vorgang. Aus diesem Gruriu kann die tatsächliche Filtercharakteristik eine
Annäherung sein, mit der eine unzulässige Verstärkung des Rauschens vermieden werden kann. Das Ausgangssignal
entspricht deshalb auch nicht genau dem Nervensignal, es ist jedoch hier akkurat genuj». Die
Eingangsimpedanz des Filters ist so eingestellt, daß, wenn sie von einem Strom durchflossen wird, das Filter
sich wie ein Tiefpaß verhalt. Falls an den Fingangskreis jedoch eine Spannung angelegt wird, verhält sich das
Filter umgekehrt.
Die Impedanz des die Widerslände 56 und 57 und den
Kondensator 55 umfassenden Rückkopplungskreises wird proportional zum normalen Tiefpaßverhalten der
Muskeln eingestellt, so daß das Ausgangssignal an der Klemme 59i>
genau den Grundton reproduziert, der sich ergeben hätte, wenn das Sprachsegment mit der durch
das Steuersignal auf der Leitung 58 angegebenen Geschwindigkeit gesprochen worden wäre.
F.s ist für den Fachmann selbstverständlich, daß das Filter gemäß F i g. 3 auch durch eine einsprechende
digitale Schaltung ersetzt werden kann.
Hierzu 1 Blatt Zeichnungen
Claims (8)
1. Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese aus
gespeicherten Sprachsegmenten mit einem die Spektrumkanainiter enthaltenen Sprachsynthetisator,
bei dem der Grundtonverlauf an die Wiedergabegeschwindigkeit angepaßt wird, gekennzeichnet
durch folgende Schritte: Das den Grundton repräsentierende Signal wird einem Filter
(5) zugeführt; die Übertragungsfunktion dieses Filters wird gesteuert; das Riter steuernde Signale
werden als Differenzsignale zwischen der Aufzeichnungs- und Wiedergabegeschwindigkeit der Sprachsignal
abgeleitet
2. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, daß wenigstens der die ursprüngliche
Aufzeichnungsgeschwindigkeit der Sprachsegmente beschreibende Anteil der zur Steuerung der
Übertragungsfunktion des Filters erforderlichen Steuersignale bei der Speicherung mitgespeichert
wird.
3. Verfahren nach den Patentansprüchen 1 und 2, dadurch gekennzeichnet, daß die Übertragungsfunktion
des Filters so gesteuert wird, daß die schnellen Änderungen des Grundtonverlaufs der wiedergegebenen
Sprachsegmente stärke·· beeinflußt werden als die langsamen.
4. Verfahren nach den Patentansprüchen 1, 2 oder 3, dadurch gekennzeichnet, daß wenn die Wiedergabe
der Sprachsegmente schneller erfolgt als die Aufzeichnung. 1Ue Amplitude der Signale mit hohen
Frequenzen gedämpft wird, während bei langsamerer Wiedergabe einer Anhebung der Amplitude der
Signale mit hohen Frequenzen erfolgt.
5. Schaltungsanordnung zur Durchführung des Verfahrens nach den Patentansprüchen 1, 2, 3,4 und
5, dadurch gekennzeichnet, daß das Filter (5, F i g. 2) aus einem Eingangskreis (52,53,54 in F i g. 3), einem
von diesem gespeisten Operationsverstärker (51) und einem Ausgangskreis (55,56,57) besteht, wobei
der Ausgangskreis an den Eingang des Verstärkers (51) rückgekoppelt ist.
6. Schaltungsanordnung nach Patentanspruch 5, dadurch gekennzeichnet, daß der Eingangskreis (52,
53, 54 in F i g. 3) des Filters (5 in Fig. 2) eine Hochpaß-Charakteristik aufweist.
7. Schaltungsanordnung nach den Patentansprüchen 5 oder 6, dadurch gekennzeichnet, daß der
Ausgangskreis (55, 56, 57 in F i g. 3) des Filters (5 in Fig. 2) wenigstens angenähert die Tiefpaß-Charakteristik
des physiologischen Sprachsystems aufweist.
8. Schaltungsanordnung nach den Patentansprüchen 5, 6 oder 7, dadurch gekennzeichnet, daß der
Eingangskreis (52, 53, 54 in F i g. 3) des Filters (5 in Fig.2) einen Kondensator (33 in Fig.3) aufweist,
dessen Kapazität proportional zur Differenz zwischen Aufzcichnungs- und Wiedergabegeschwindigkeit
der Sprachsegmente steuerbar ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CH1278468A CH474805A (de) | 1968-08-27 | 1968-08-27 | Verfahren und Schaltungsanordnung zur Verbesserung des Grundtonverlaufs bei der Sprachsynthese |
Publications (3)
Publication Number | Publication Date |
---|---|
DE1940384A1 DE1940384A1 (de) | 1970-03-05 |
DE1940384B2 true DE1940384B2 (de) | 1979-02-22 |
DE1940384C3 DE1940384C3 (de) | 1979-10-18 |
Family
ID=4386360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19691940384 Expired DE1940384C3 (de) | 1968-08-27 | 1969-08-08 | Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese und Schaltungsanordnung |
Country Status (5)
Country | Link |
---|---|
JP (1) | JPS4912481B1 (de) |
CH (1) | CH474805A (de) |
DE (1) | DE1940384C3 (de) |
FR (1) | FR2016422A1 (de) |
GB (1) | GB1264688A (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2238136A1 (de) * | 1971-08-13 | 1973-03-01 | Cambridge Res & Dev Group | Gesteuerter signalprozessor mit verzoegerungsleitung fuer die klangreproduktion |
-
1968
- 1968-08-27 CH CH1278468A patent/CH474805A/de not_active IP Right Cessation
-
1969
- 1969-07-31 FR FR6925658A patent/FR2016422A1/fr not_active Withdrawn
- 1969-08-08 DE DE19691940384 patent/DE1940384C3/de not_active Expired
- 1969-08-13 GB GB1264688D patent/GB1264688A/en not_active Expired
- 1969-08-13 JP JP44063609A patent/JPS4912481B1/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2238136A1 (de) * | 1971-08-13 | 1973-03-01 | Cambridge Res & Dev Group | Gesteuerter signalprozessor mit verzoegerungsleitung fuer die klangreproduktion |
Also Published As
Publication number | Publication date |
---|---|
GB1264688A (de) | 1972-02-23 |
CH474805A (de) | 1969-06-30 |
JPS4912481B1 (de) | 1974-03-25 |
DE1940384C3 (de) | 1979-10-18 |
DE1940384A1 (de) | 1970-03-05 |
FR2016422A1 (de) | 1970-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69916756T2 (de) | Tonverarbeitungverfahren und Vorrichtung zur Anpassung eines Hörgerätes für Hörbehinderte | |
DE2908999C2 (de) | Verfahren zur Erzeugung von akustischen Sprachsignalen, die für äußerst Schwerhörige verständlich sind und Gerät zur Durchführung dieses Verfahrens | |
DE3100135C2 (de) | ||
DE3321225A1 (de) | Schaltanordnung zur automatisch wirksamen, dynamischen entzerrung | |
DE2259178A1 (de) | Schaltungsanordnung fuer das aufzeichnen und selektive unterdruecken von normalem sprachklang | |
DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
DE2104622C3 (de) | Verfahren und Schaltungsanordnung zur Synchronisation von Signalen | |
DE1945782A1 (de) | Geraet zur Umsetzung eines frequenzverschobenen Sprachsignals | |
DE1940384C3 (de) | Elektrisches Verfahren zum Harmonisieren des Grundtonverlaufs bei der Sprachsynthese und Schaltungsanordnung | |
DE2826818C2 (de) | Verfahren und Vorrichtung zum Erzeugen eines künstlichen Durchschnitts-Sprechsignals | |
DE1903623C3 (de) | Elektrischer Sprach-Synthetisator | |
DE4203436A1 (de) | Datenreduzierte sprachkommunikation | |
DE2316939A1 (de) | Elektrische hoerhilfeschaltung | |
DE69015753T2 (de) | Tonsyntheseanordnung. | |
DE2854601A1 (de) | Ton-synthesizer und verfahren zur ton-aufbereitung | |
DE2304070C3 (de) | Sprachübungsgerät für Taube oder Schwerhörige | |
EP0157903B1 (de) | Verfahren und Anordnung für die Sprachsynthese | |
DE2602307C2 (de) | Schaltungsanordnung zum Erfassen und Darstellen des vom Kehlkopf abgegebenen Sprechmusters (Laryngograph) | |
DE2209548C3 (de) | Elektrische Sprachsynthetisatorschaltung | |
DE935914C (de) | Verfahren zur UEbertragung von Schallereignissen ueber einen Kanal verhaeltnismaessig geringer Bandbreite | |
DE1079118B (de) | Verfahren zur elektrischen Nachrichtenuebertragung unter Frequenzbandpressung | |
DE3016128C2 (de) | Verfahren zur Erzeugung von akustischen Sprachsignalen, die für äußerst Schwerhörige verständlich sind (optimale Sprachverständlichkeit liefern) und Gerät zur Durchführung dieses Verfahrens | |
DE599478C (de) | Verfahren zur Verbesserung der Klangfarbe von Sprache | |
DE2659674C3 (de) | Verfahren und Anordnung zum Synchronisieren eines Semi-Formantvocoders | |
DE4425767C2 (de) | Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
EHJ | Ceased/non-payment of the annual fee |