DE2524497B2 - Verfahren und Schaltungsanordnung zur Sprachsynthese - Google Patents

Verfahren und Schaltungsanordnung zur Sprachsynthese

Info

Publication number
DE2524497B2
DE2524497B2 DE2524497A DE2524497A DE2524497B2 DE 2524497 B2 DE2524497 B2 DE 2524497B2 DE 2524497 A DE2524497 A DE 2524497A DE 2524497 A DE2524497 A DE 2524497A DE 2524497 B2 DE2524497 B2 DE 2524497B2
Authority
DE
Germany
Prior art keywords
signals
pitch
signal
memory
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2524497A
Other languages
English (en)
Other versions
DE2524497A1 (de
DE2524497C3 (de
Inventor
James Loton Warren N.J. Flanagan (V.St.A.)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Publication of DE2524497A1 publication Critical patent/DE2524497A1/de
Publication of DE2524497B2 publication Critical patent/DE2524497B2/de
Application granted granted Critical
Publication of DE2524497C3 publication Critical patent/DE2524497C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Description

Die Frlindung betrifft ein Verfahren zum Synthetisieren einer natürlich klingenden Sprachnachricht gemäß Oberbegriff des Patentanspruchs I.
In tier WS-Patentschrift 33 60 610 wirtl die Verwendung von Ph-tsenvocoder-Verfahren auf dem Gebiet der Sprachübertragung und Bandbreitenverringerung offenbart. Ks wird eine tibertragungsanordnung beschrieben, bei der zu übertragende Sprachsignale /u einer Vielzahl von schmalbandigen Komponenten codiert werden, tieren kombinierte Bandbreite kleiner als die der nichlcotlierten Sprache ist. Kurz zusammengefaßt wirtl eine Phasenvoeoder-Codicrung durchgerührt, in dem für jede von einer Gruppe von vorbestimmten Frequenzen '■>,. die ilen Frei)ti· nzbereich eines ankommenden Sprachsiunals erfassen, ein Paar von Signalen errechnet wird, die den Realteil bzw. den Imngiiiäricil tier Kurzzeil-Fourier-Transformation des ursprünglichen Sprachsignals darstellen. Aus jedem solchen Signalpaar wirtl ein Paar von Schmalbantlsignalen erzeugt. Das eine Signal |.S", I slellt tlie (iröße tier Kurzzeit-Fourier-Transformation tlar. iiiul das andere Signal '/', tlie zeitliche Ableitung des Phaseinvinkds di-r Kiiiv/eit-Fourier-Transformalion. Bei tier oben erläuterten Anordnung werden diese Schmalbandsignale zu einem Hmpfänger übertragen, in welchem ein Abbild ties ursprünglichen Signals wiederhergestellt wird, indem eine Vielzahl von Kosinus-Signalen erzeugt wird, die die gleichen vorbestimmten Frequenzen besitzen, bei denen die Kurzzeil-Foiirier- Transformation ausgewertet worden isl. Jedes Kosinus-Signal wirtl dann bezüglich seiner Amplitude und seines Phasenwinkels durch die Schmalband-Signalpaare moduliert, und tlie modulierten Signale werden zur Hrzeugung ties gewünschten Abbildes summiert.
In einem Aufsatz »Digilalizcd Phase Vocoder«, veröffenlliehl in Proceedings öl the 1967 Conference on Speech Communication and Processing. Seilen 292 bis 296. beschreib! J. I'. C a rl s ο ii die Digilalisierung tier Schmalhandsignale |.V, | und '/>, vor tier nberlragung und gibl an. daß bei einer tiherlragungsgeschwiiuligkeit von beispielsweise 9600 BiiSekuinle tlie Verschlechterung auf Grund tier Digilalisieruiig der Parameter in dem wieder hergestellten Sprachsignal unmerkbar ist.
\uf einem getrennten Gebiet tier'Technik sind viele
Versuche gemacht wurden, natürlich klingende Sprache aus gespeicherten .Sprachsignalen unter Verwendung einer Formanl-Codieriing von Lauten (oder Wörtern) zu gespeicherten Signalen zu synthetisieren. Linie solche Vorrichtung ist in der deutschen Patent- -, schrift 2II5 25K beschrieben. Solche Systeme befriedigen im allgemeinen. Wenn er aber eine Beeinnussungsmöglichkeil fur die Tonhöhe und Tondauer erforderlich ist, so für den Fall, daß die durch den Zusammenhang gegehenen Bedingungen für die n> synthetisierte Sprache vorherrschend sind, werden diese Systeme kompliziert und erfordern umfangreiche Berechnungen.
Die Erfindung hat sich daher als Aufgabe gestellt, ein Verfahren zur Synthetisierimg natürlich klingender ι -, Sprache zu schaffen, bei dem die Sprache aus gespeicherten Wörtern eines Vokabulars synthetisiert wird, die nach Phasenvocoder-Verfahren codiert worden sind, sowie eine Vorrichtung zur Durchführung des Verfahrens. jii
Zur I ösuiig der Aufgahe geht die Hrlindung aus von einem Verfahren der eingangs genannten Art und ist im kennzeichnenden Teil des Patentanspruchs I angegeben. Weitere Ausgestaltungen sind in den Unteransprüchen 2 und 3 gekennzeichnet. _>-,
Fine elektrische Schaltungsanordnung /um Durchführen dieses Verfahrens ist durch den Patentanspruch 4 gekennzeichnet. Weitere Ausgestaltungen sind in den llnteraiisprüchen 5 his S bezeichnet. Dabei hai das Speichern von Signalen, welche die m Kurzzeit-Fourier- Transformationsparameter und Phasenableitparameler sind, die sich aus einer Phasenvocoder-C'odierung des Vokabulars von Wörtern ergehen, als an sich bekannt /u gelten.
Fs werden demgemäß Wörter eines Vokabulars zu η einer Vielzahl von Kurzzeit-Sprachamplitudcnsignaleu und Kurzzeil-Phasenableitsignalen codiert, die codierten Signale in digitales Format umgewandelt und die digital codierten Signale in einem Speicher gespeichert. Natürlich klagende Sprache wird dadurch gebildet m und synthetisiert, daß aus dem Speicher ilen gew mischten Wörtern entsprechende Signale gewonnen, diese Signale verknüpft Lind die Dauer und Tonhöhe der verknüpften Signale modifiziert wird. Fine Beeinflussung tier Dauer wird durch Finfüg ;; einer vor- ι, bestimmter Anzahl \on lahulierten Signalen /wischen aufeinanderfolgend aus dem Speicher gewonnene unterschiedliche Signale erreicht. Dadurch erzielt man eine wirksame Verlangsannmg der Sprache in Abhängigkeil \on der .\<i/ahl der eingefügten inter- ,u polierten Signale. Fine Beeinlliissung der Tonhöhe wird erziel1, indem die Phasenableitsignale mit einem gewählten Faktor mullipli/icri weiden. Die Sprachsynthese wird vervollständigt durch eine l'niwandlung tier modili/icrlcn Signale aus dem digitalen v. Format in analoges Formal und durch Decodieren der Signale entsprechend bekannten Phasenvocoder-Verfahren.
In ilen Zeichnungen /eigl
F i g. 1 das Blockschaltbild eines erliniltingsgeniält i.n gestalteten Spraclisy nlhcsesyslems.
F i g. 2 das Kiiiy/eil-Amplitudenspektrum des /-ten Speklrumsignals Lv, i am Ausgang des Speichers 30 in I- i g. I.
Fig. 3 das ge* ami e Sprachspeklruni /u einem ι-·, beslinimlen Zeitpunkt und den Finlluß von Tonhöhcnändenmgen auf lic Speklralampliluden des F i g. -t ein Blockschaltbild der Interpolariorschaltung nach Fig. I,
F i g. 5 ein Ausführungsbeispiel der Steuerschaltung 40 in Fig. I.
Fig. 1 zeigt ein Blockschallbild eines Sprachsynlhesesyslems, bei dem gesprochene Wörter /u Phasenvocoder-Sieuersignalen codiert und hei dem eine Sprachsynthese erreicht wird, in dem geeignete Beschreihungssignale aus dem Speicher gelesen, die Beschreibungssignaie verknüpft und modifiziert und die modifizierten Signale zu synthetisierten Sprachsignalen decodiert und kombiniert werden.
Im einzelnen wird das Vokabular von Wörtern, das für eine betrachtete Sprachsynthese für erforderlich erachtet wird, einem Phasenvocoder-Aiialysator 10 in Fig. I zur Codierung zugeführt. Der Analysator 10 codiert die Wörter zu einer Vielzahl von Signalpaarcn \S, j. '/>,; S2. 'i>2: . . . JS1 \. '/>,.. . \SS |. '/'.%·. die einen I.V(-Vektor und einen '/'-Vektor darstellen, wobei jeder Wert |.V, S. Φ, das Kurz 'eil-Amplitudenspektrum bzw. this K ur//eil-Pha»_nahleitspeklnim des Sprachsignals bei einer Spektralfrequen/ »-., darstellen. Die Analvsierfrequen/ ··,, sind in Abhängigkeit von den Aiislegimgsbedingungen mit gleichmäßigem oder ungleichmäßigem Abstand über das interessierende Frequenzband verteilt. Die zur tiberiragimgderSignale |.V, [und '/',erforderliche Bandbreite isi klein im Vergleich zur Sprachbandbreite. Der Phasenvocoder-Aiialysator IO läßt r.ich entsprechend der Beschreibung in der oben erwähnten I S-Patentschrift 33 WKiK) verwirklichen.
Nach der Codierung durch den Analysator 10 werden die Analogvektoren \S \ und Φ abgelastet und im Analog-Digitalwandler 20 in digitales Formal umgewandelt. Der Wandler 20 kann entsprechend tier Beschreibung in dem oben genannten Aufsatz von Carlson aufgebaut werden, tier IdO Bits mit einer Ahiasifrequenz von (SO M/ erzeugt und damit /u einer (jesamt-Bitfrequen/ von ')600 Bits s iührl. Die umgewandelten Signale weiden im Speicher 30 gespeichert und stehen dann für die Synthese /ur Verfugung. Jedes vom Analysator 10 verarbeitete Wort wird mit einer Frequenz von fi() II/ abgelastei. und da die Dauer jedes Wortes länger als !Ci ins ist. wird jedes verarbeitete Wort durch eini· Vielzahl von LS' '-Vektoren und zugeordnete '/'-Vektoren dargestellt. Diese Vektoren können in den Speicher 30 sequentiell in einen zugeordneten Speicherhlock eingegeben werden. Innerhalb ties Speichelblocks wird jede·- Paar von Vektoren i.S'! und </> in einer Speicherzelle gespeichert, und jede Spcicherslelle ist so unterteilt, daß sie die Komponenten LS': und '/>, leiles Vektor· enthält.
Zur Sprachsynthese wird eine Kelle von Befehlen formuliert und über die Leitung 41 der Steuereinrichtung 40 in F" i g. I zugeführt. Die Bcfehlskelle gibt tier Anlage die Folge von Wörtern an. die aus dem Speicher 30 gewählt und /ur Bildung eines Sprachsignals verknüpft werden sollen. Demgemäß erfolgt ein sequentieller Zugril'fzu gewählten Speicherblöeken tiikl innerhalb jedes Speieherblocks geht der Zugriff /Ii allen Speicherstellen sequentiell vor sich. Jede Speicherslelle liefert am Ausgang ties Speichers 30 ein Veklorpaar |.S'i und Φ . Die Sleuereiiii ichlung 40 decodierl die Fünga igsbefchlsfolge unler F.rzeugung von Ailressen Pur ilen Speicher 30 und gibl diese Adressen und einsprechende Lesebefehle an ilen Speicher. Außerdeir, analvsier! die Sieuereinrichluiti;
40 auf der (irundlagc ilcr angegebenen I -olge \ou Wörtern die Slniklur der Woi lkelle und ordnet leder /iiiiL-iitiffcncn Spcicherslcllc Dauer- unil lonhölienwcrlc K,, (intern in der Steuereinrichtung 40i h/\\. K1. zu. um eine natürlich klingende Sprache /u erzeugen, deren I oiiliöhc und -dauer abhängig \on der Sirukliir der Woilkcttc ist. I.ine genaue Beschreibung der Sicuereim iclilting 40 wird im folgenden gegeben.
/eildaiier-Slcucrung
I ine Zeitdauer-Steuerung lälll sich durch einen wiederholten Zugriff zu leder gewählten Speichcrslelle mit einer festen lichen I akllrei|iienz und durch eine Sleuening der Anzahl solcher wiederholter ZiignhV \oigiinge erreichen. Auf iliese Weise kann die Sprachdaucr wirksam erhöhl werden, indem die \n/ahl der ZiigrilTs\organge Ru teile Speicherslelle \crgröHcH wird. Wenn beispielsweise die I ingangsspraclic. wie oiien erwäiini. niii einei i leipieu/ \ou öOiiz abgetastet wird, kann der Zugriff zum Speicher /wcckmällig mit einer I icquen/ imid k 11/ Iw as der N \i|uisilrei|uen/ des synthetisierten Signals entsprechen kannl erfolgen, und die Regelzahl um Zugrilfsxorgängen über teile Speicheradresse kann aiii M)O leslgelegt werden. Diese Arbeitsweise führt zu einer getreuen Reproduktion der Sprachiiaiier des an den Eingang an der Anlage angelegten Signals. Is ergibt sich selbstverständlich, dall ein wiederholter Zugrifl zu jeder Speicherslelle mehr als lOOmal eine Verlangsamiing der synthetisierten Sprache oiler eine Dehnung des ZeitniaHslahes bewirkt. Weniger als KMI ZugriffsMirgänge führen /ti einer Beschleunigung der synthetisierten Sprache oder einem Zusammendrücken des Zeitmallstahes. Die genaue Anzahl \on ZugriffsMirgangen zu jeder Speicheradresse langegeben durch das Signal auf der Leitung 421 wird durch die Steuereinrichtung 40 mit Hilfe wiederholter Lesebefehle auf der Leitung 43 angegeben. Das ohenerläuterte Verfahren zur Becinllussung der Spraclidauer ist in L i g. 2 angegeben, in der die Amplitude einer bestimmten Komponente 'S1 bezüglich ihrer zeitabhängigen Änderung gezeigt ist. Die .Angabe LS stellt den Vektor S am .Ausgang des Speichers 30 dar. In Ii g. 2 gibt das !-.lernen! 201 den Wer! \on i.S", zu einem bestimmten Zeitpunkt an. wie er am Ausgang des Speichers 30 beim Zugriff zu einer bestimmten Speieherstelle r auftritt. Das Llement 201 entspricht dem ersten Zugriff zu der r-tcn Speicherstelle. Das Llement 202 gibt ebenfalls den Wert \on '.V1 an der Speicherstelle r wieder, wobei es sich Irir aber um den dritten Zugriff zur Speicherstelle r handelt. Das Llement 206 entspricht dem Wert von \S, lan der nächsten Speicherstelle r + I. und zwar beim ersten Zugriff zu dieser Speicherstelle. Wenn beispielsweise die Speicherslelle V + I die letzte Speicherstelle eines Speicherblocks ist. dann gibt das Element 203 den Wert von \S, j beim ersten Zugriff zu einer ersten Spcichcrstelle u eines neuen Spcichcrblocks (Anfang eines neuen Wortes) an. Die .Speicherstellen r und u können natürlich wesentlich verschieden sein. Das Element 205 entspricht ebenfalls dem Wert von \S-, | an der Speicherstelle ;/ bei einem nachfolgenden Zugriff und das Element 204 entspricht dem Ictzlen Zugriff z.ur Speicherstelle u. Die Anzahl der Zugriffsvorgänge bei einer Speicherstelle wird bestimmt durch das Zeitdauer-Steuersignal Kj (innerhalb der Steuereinrichtung 40 vergleiche L" ig. ?). das über das Signal K1. einen Spektralamplituden-Interpolator 90 in I ι g. I stellen. In L ig. ' lsi nur du- /-te Komponente des Vektors S am Aus gang des Speiehers 30 dargestellt, \ndeic Κοιυρο nenlen dieses Vektors \n\{\ die Komponenten de Vektors '/' haben natürlich unterschiedliche Werte aber die ( Iren/stellen auf ( iruiid von Änderungen de Speicherstelle innerhalb eines Speicherhlocks (bei spielsweise das Zeileleinent 2061 oder auf ( inind voi Andeningen der Speicherslelle \on einem Speicher block /Ii einem anderen (beispielswei Zeilpunk des Elements 205) treten zum gleichen / itpiiukl aiii Das lallt sich leicht erkennen, wenn r, einem drei ilimensionalen Raum, der aiii übliche Weise tlurcl \-. Γ- und r-Kooi dinaten deliniert Ist. der Vektor .S nut allen seinen Komponenten betrachte! wird .ledi zeitliche Anileriing einer Komponente lälll sieh Ii einer durch die Koordinaten ν und ι delinierlei I bene zeichnen, wobei die \- \chse die Zeil angib iwie in i ι g 2 gezeigt ι m\t.\ für jeden gewählten Wer der v- \chse kann die durch die koordinaten ν iiiitl definierte Ebene die verschiedenen Komponentei des Vektors .S sowie die allgemeine form des Spek hums !entsprechend der noch zu erläuternden Dar stellung in I i g. 3l in dem jeweiligen Aiigenhliel angeben. Bei einer solchen dreidimensionalen Dar stellung sind die plötzlichen Änderungen des Vektor S (die /u einem bestimmten Zeitpunkt auftreten alle in . aier ein/igen r-r-E.hetie enthalten.
i onhöhen-Sleiierung
In einem Aufsatz »I'ha.e Vocoder·· \oi J. I. I lanagan et al. in »Bell Svslem lechnica Journal". Band 45. Nr. 1J. Seite I4'J3. November I1JM ist gezeigt, dall der '/'-Vektor in enger Beziehung ziu Tonhöhe eines analysierten Sprachsignals steht, wein die Analvsier-Bandbreile des l'haseiivocoders schina im Vergleich zur gesamten Sprachhandbreite ist Im Hinblick darauf wird eine Änderung der Ton höht, durch Bildung und Modifizieren eines Vektorsignal· (··. · <!') erreicht, das die L.lemenle l·-., · '/',). (<·. • '/«:|.. . . ir·., ' '/',I . . |.-.s ' 'Kl enthält. Die Modifizierung kann aus einer Multiplikation des Vektor I··. < '/Ί mit einem Tonliöhciivariationsparameler Av' bestehen. Wenn also K1. gröl.ler als I ist. so wird du Tonhöhe der synthetisierten Sprache erhöht, und wem /\,, kleiner als I ist. so wird die Tonhöhe tier synthetisierten Sprache erniedrigt.
Die Tonhölienänderung wird in der Einrichtung 6f in L i g. I vorgenommen. Die Einrichtung 60 weist eine Addierschalüing 61-/ fur jeden Wert '/', auf. um ein entsprechendes /.,-Signal zu jedem '/',-Signal zu addieren, und eine Multiplizierschaltung 62-/ für jeden Wert '/',. um das Ausgangssignal jedes Addieren mit dem Tonhöhcn-Variationsstcuersignal K1, zi multiplizieren. Das Signal Kn liegt an der Leitung M und wird den Miiltiplizierern 62 über einen Schalter & zugeführt. Die digitalen Addierer 61 und die digi talen Multiplizierer 62 sind einfache Digilalschaltun gen bekannter Art.
Bei einem Alternativ-Verfahren zur Tonhöhen Steuerung nach der Erfindung kann der von dci Steuereinrichtung 40 in F i g. I gelieferte Kr-Fakloi die tatsächliche, zu synthetisierende Tonhöhe slat der Tonhöhenänderung angeben. In diesem FaI muß die Tonhöhe des aus dem Speicher 30 abgeleite ten synthetisierten Sprachsignals festgestellt und cir interner Tonhöhen-Multiplikationsfaktor errechne werden. Demgemäß weist die Einrichtung 60 zu
sälzlich einen aiii den Vektor l· > · '/-I ansprechenden Tonhöheudclekloi 63 aiii, del die tatsächliche Tonhöhe errechnet, die den aus dem Speicher 3(1 abgeleiteten SiunaK'ii zugeordnet werden kann. Ί'οη-höhendelektoien sind hekannl. I in \usfiilu iingshcispicl isl im der I S-I'alentsclii ill 2ί> 27 54 I beschrieben. Die I endschaltung 67 in der 1 ι nnch Iu ng 60 berei1 .''.«.·( den internen Mulliplikalionsläklor. in dem die gewünschte I onhölic K1, durch das berechnele Ionhöliensignal dividiert wird. Der berechnete Vttiltiplikaliiinsrakliir wird über einen an die I ellung 66 angeschalteten ScliaMei 64 .in die Miillipli/ierer 62 gegeben. Der Teiler 67 ist ein einfacher Digital-1eiler, der beispielsweise einen auf das Aiisgangssignal des I iinhöhenilelekliM s 63 ansprecheiuleii Festwertspeicher (UOMl aufweist, der ilen Kehrwert des Tonhöheiisignals liefei I. <>w ie einen Mullipli/ierer ähnlich ileni Miiltipli/ierer 62 um das Ausgangssignal des ! lsi\\ci isj'tOk lic! s iifii liciu gcu iiiiscuieu iouuöhcusignal K1, zu mtillipli/iereu und da mi I ilen gewünschten Miilliplikationsfaktor /u erzeugen.
Das Ausgangssigual der P.inriehtung 60 ist ein Signalvektoi (»-. > <!>)*. der ein bezüglich der Zeildaiier und Tonhöhe im>diIi/ierles Abbild eiues (,·, f '/>)-Signalvektois ist diine Zeiulauer-Modilizicrung liegl vor. weil beide Vektoren .S" und '/' am Ausgang des Speichers 30 hinsichtlich der Dauer modifiziert sind.) Diesei Vektor wird zusammen mit einem interpolierten und bezüglich der Zeitdauer modifizierten Vektor i.S'l*. der nachfolgend beschrieben wird, an einen Digit; :Analogvvaiuller 70 gegeben, der jedes der Digilal-Signalc in den beiden Signalvekloren in analoge I (um umwandelt. Die Analogsignale werden dann an einen I'hasenvocodcr-Svnlhetisierei 80 angelegt, um ein Signal /u erzeugen, das die gewünschte synthetisierte Sprache darstellt. Der I'hasenvoeoder-Svnthetisierer SO kann im wesentlichen auf die gleiche Weise wie in der oben angegebenen I 'S-I'alciitsclirifl "U 60 610 beschrieben, aufgebaut werden.
Interpolation der Form des Spektrums
I i g. 3 zeigt die Amplituden der Komponenten des Vektors j.S" i zu einem bestmimten Zeitpunkt. Das Element KMI entspricht dem Signal '.S',!. das Nemenl 101 dem Signal i.V. i. das Nemenl 103 dem Signal |.S", |. das lilemenl 104 dein Signal V,., usw. Das I lenient 106 kann beispielsweise das Signal LS\ angeben. Die I requenzen. mit denen diese Signale auftreten, sind
ti und
Hetrachlcl in dem oben beschriebenen dreidimensionalen Kaum wäre die Darstelluni! des Vektors I.V gcmän !ig. 3 dei zweiciimensionaie Querschnitt ties dreidimensionalen Raums parallel zu der durch die Achsen \ und ζ definierten libelle.
Wenn der Vektor !-■> \ Ί>\ in iler Iiinrichlung 60 zur Uildung des Signalvektors Ι-·, ί '/-)* abgeändert wird. so wird die I-rec|uenz jedes (iliedes des Signalvektors i.S'l gleichmäßig verschoben, wie in l· i g. 3 beispielsweise durch die verschobenen (Elemente 107 und 108 dargestellt. I ig 3 zeigt, daß. wenn das Nemenl 108 so beeinfhiHt wird, dal! es (wie dargestellt) der Iliillkurve 109 in F-" i g. 3 entspricht, die Amplitude des Nenients 103. aus dem das Iilemenl 108 abgeleitet ist. verändert werden muß. Demgemäß muß (.lic Amplitude des Eilements 103 mil einer Konstanten multipliziert werden, die aus dem Verhältnis der Amplituden der lilemente 104 und 103 abgeleitet wird, ils läßt sich zeigen, daß diese Konstante Kx wie folgt berechnet werden kann:
Außerdem besieh! auf (iruiul einer Prüfung der 1 i g. 2 die Möglichkeit, daß die stufenförmige seitliche llüllkurve 210 des svntheiisicrten Spektrums geglättet werden kann. Intuitiv erkennt man. daß eine solche (Haltung der llüllkurve des Spektrums zu einer angenehmer und natürlicher klingenden Sprache führt. Diese (ilältung der llüllkurve läßt sieh durch »Anpassen" einer Polviioin-Kurvc für jede "in Komponente \S,\ über die Anfangswerte IS/1 durchfuhren, wenn ein Zugriff zu einer neuen Speicheradresse erfolgt, beispielsweise eine Kurvenanpassung über die Elemente 201. 206 und 203 und durch Änderung der wiederholten Signale |S,! derart, daß sie in diese Kurve passen. Hierbei handelt es sich jedoch um eine komplizierte mathematische Aufgabe, die die Unterstützung eines Sonderzweck- oder Allzweckrcchners erfordert. Aus Gründen einer klareren Darstellung wird das einfachere geradlinige Interpolations- bO verfahren beschrieben. Diese Interpolationskurve wird durch die Kurve 220 in F i g. 2 wiedergegeben. Demgemäß kann der Vektor \S\. dessen T^requenzkomponenten in einer Ebene und dessen Zeitänderungen in einer zweiten Ebene gesehen werden können, so interpoiien werden, daß er gleichzeitig auf Änderungen sowohl der Zeit als auch der Frequenz (Tonhöhe) anspricht.
Demgemäß wird, wenn das Element 203 mit .ST'1 bezeichnet wird und das Signal \S,-j zum Zeitpunkt »ι, definiert, das Element 204 mil ST- und das Element 205 mit STX bezeichnet. F7.s läßt sich zeigen, daß die interpolierte Amplitude des Elements 205. das an die Kurve 220 angepaßt ist. wie folgl berechnet werden kann:
Sm-, c^t
i - — *J|
Hl2 — »1,
+ ST
Nach Berücksichtigung des Faktors Kx gemäß Gleichung (1) läßt sich die endgültige Amplitude des Elements 205 wie folgt ermitteln
[ST2 - ST]
m2 - m,
Durch Auswerten der Gleichung (3) kann also jedes Element |S, | am Ausgang des Speichers 30 und zu einem bestimmten Zeitpunkt so abgeändert werden, daß es Änderungen der Tonhöhe und der Zeitdauer berücksichtigt, um ein Spektrum zu erzeugen, das zu einer natürlich klingenden Sprache führt.
Mim heuchle, daß die Hinrichtung 40 /iir Steuerung der /eildaiier in F-" i ti. I eine Anzahl von Steuersignalen erzeugt, von denen eines dem Signal
m, /»,
/lli - »I,
entspricht. Dieses Signal ist mit K1 bezeichnet.
I'm die oben beschriebene (ilältiing der lliillkimc des synthetisierten Spektrums hinsichtlich /eil und frequenz zu erzielen, weist die Schaltungsanordnung gemäß I i g. 1 einen Spektrum-Aniplituileninterpoiator 90 auf, der zwischen dem Speicher 30 und dem Digiial-Analogwandler 70 eingefügt ist. Der Interpolator 90 kann einfach aus einer KurzschlulUeibiiulung /wischen jedem Hingang LS, i und ilem entsprechenden interpolierten Ausgang !.V1I*. Dies entspricht einer einfachen konstanten Interpolation in vier /eitebene. die zu einer liüllkurve entsprechend der Kurve ZiO in F i g. 2 führt, wobei keinerlei interpolation in der Frequenzebene stattfindet. Andererseils kann tier Interpolator 90 eine Vielzahl von lnterpolalorschaltimgen 91 umfassen, die in Form hochkomplizierter Sonderzweck- oiler Allzweckrechner verwirklicht sind und eine komplizierte Kurvciianpassimg ermöglichen. I' i g. 4 zeigt ein Ausführungsbeispiel einer liiterpolalorschalluiig 91 für das Verfahren der gradlinigen Interpolation gemäß Gleichung I. M.
Die Interpolatorsclialtung 91 in Fig. 4 ist die /-te Interpoliirschalluiig in tier Hinrichtung 90. Sie spricht auf/wei Spektrum-Signale beim ersten Speicherzugriff an der augenblicklichen Speicheradresse, nämlich die Signale S'',"' und !.V1 11J1 |an sowieaufilasSpektruiri-Signal .S'',"- ! tier nächsten Speicheradresse und die uineiänilerten und veränderten i-ten Frei|iienzen (<■>, f <1>,) bzw. IfI1- t '?',)* sowie die unveränderte I/ ' I)-Ie Frequenz Ic1 ., f')',.,). Wenn also ein Zugriff zu einer neuen Adresse des Speichers 30 erfolgt und die Signale I.S'"'1 i und |.S"'r, ! gewonnen werden, adressiert die Steuereinrichtung 40 außerdem die nächste Speicherstelle und liefert einen Gatterinipulslauf der Leitung 2V|. um das nächste Signal .S'"'-in (.las Register 910 in F i g. 4 zu leiten. Demgemäß spricht die Subtrahierschaltung 911 auf das Simial 1S]": !aus dem Register 910 und auf das Signal LS'"'1 lauf der Leitung 23 an. Das dazwisehengelegene Signal, tlas durch die Gleichung (2) definiert ist. wird durch den Multiplizierer 912 berechnet, der auf die Subtrahierschaltung 911 und den obenerwähnten Faktor K, auf der Leitung 22 anspricht, sowie durch den Summierer 913. der auf das Ausgangssignal des Multiplizierers 912 und auf das Signal | .ST"' | auf der Leitung 23 anspricht. Der Multiplikationsfaktor Kx wird durch die Bauteile 914. 915. 916. 917. 918. 919 und 920 berechnet. Der Teiler 914 spricht auf die Signale 'ST' ! und JS;"J, ! an und erzeugt das Signal
gemäß Gleichung (1). Die Subtrahierschaltungen 915. 916, 917 erzeugen die Signale
Der Mulliplizicer 918. der auf die Schaltungen 914 und 915 anspricht, erzeugt tlas l'roiluklsignal
r '
Der Summierer 919 wird von den Schaltungen 916. 918 beaufschlagt, und tier feiler 920 teilt tlas Ausgangssignal iles Summierers 919 durch das Ausgangssignal tier Siibliahieischallung 919 und erzeugt ein Signal, tlas tue Konstante K ( entsprechend Gleichung III darstellt. Der Multiplizierer 921. tier von dem Summierer 913 und dem feiler 920 beaufschlagt wird, erzeugt das interpolierte Signal '.S, *.
Steuereinrichtung 40
F i g. 5 zeigt lias Blockschaltbild der Sleucreini iciiiimg 4ϊϊ gem.ill ί ig. i. i)iu NiLuCiLinikniiiMg 40 spricht auf eine Ketle von Befehlswörtern auf tier Leitung 41 an. die die zu synthetisierende Nachricht angibt. Die ankommende Belchlskelle wird im Speicher 401 aufgenommen und danach an einen Festwertspeicher IR OM)402 gegeben in welchem die Kette \on Befehlen in die richtige Adressenfolgc für den Speicher 30 in Fig. I decodiert wird. Die Decodierung im Festwertspeicher erfolgt entsprechend der gespeicheilen Kenntnis der Speicherstellen für bestimmte Wörter im Speicher 30. Die gewünschte Wortfolge, die durch die Befehlskette am Hingang bestimmt wird, kann analysiert werden, um die erwünschte 'fonhöhe und -dauer zu bestimmen, initl zwar auf tier Grundlage von Regeln bezüglich der Wortstellung, der S\nta\ und anderer, von tier Nachricht abhängigen Regeln. Nur zur Hrläuleruiig enthält die Schaltungsanordnung gemäß Fig. 5 Hinrichtungen zur \nal\sc und Formulierung tier gewünschten lonliöhe und Wortdauer für die svnihelisierte Sprache auf tier Grundlage tier Svnta\ dieser Sprache. DieAnalvsiereinrichlung. nämlich die Steuerschaltung 403 für die Tonhöhe und die -dan r spricht gemäß Fig. 5 auf den Festwertspeicher 402 und ein Fortschaltesigna! auf tier Leitung 414 an. Fine Hinrichtung zur Analvse der Sprache auf der Grundlage der Svnla\ und zur Zuordnung von fonhöhe- und Zeitdauerwerten ist in der I'S-Patentschrift 37 04 345 offenbart. In tier genannten Patentschrift ist ein 'fonhöhen- und Intensilätsgenerator. ein Vokalilaucr-Generalor und ein Konsonanleiulaucr-Generaior gezeigt, die alle im Prinzip von einem SvnlavAnalvsator abhängen.
Die Generatoren erzeugen Signale, welche die gewünschte Tonhöhe. Intensität und Dauer beschreiben, die den in jeder zu lesenden Speicheradresse angegebenen Lauten zugeordnet sind. Es kann an Stelle eines Laut-Wörterbuches nach der vorgenannten US-Patentschrift 37 04 345 ein Wort-Wörterbuch benutzt werden, und die Vokal- oder Konsonanten-Generatoren nach der vorgenannten Patentschrift können zu einem einheitlichen Tonhöhen- und Dauer-Generator kombiniert werden. Demgemäß ist in F i g. 5 eine Steuerschaltung 403 für die Tonhöhe und -dauer angegeben der Ausgangssignal ein Speicheradressenfeld, ein Tonhöhensteuerfeld K1, und ein Zeitiiuer-Steuerfeld Kj enthält. Das Ausgangssignal der Steuerschaltung 403 wird im Register 406 gespeichert. Dessen Ausgangssignal gelangt in ein Register 407. Wenn demgemäß das Realster 407 eine bestimmte
Il
Speicheradresse enthält, sagt man. dall das Register 40ft die näehsle Speicheradresse enthält. Heide Register sind an eine Wählerschaltung 408 angeschlossen, die ilii: Aiisgangssignale einer tier beiden Register wählt und an den Wähleratisgang weitergibt. ,
Die An/iihl der Befehle zum lesen jeder Speichcrslelle wird durch hingäbe des Wertes K1, am Ausgang des Wühlers 408 auf der I eilung 409 in einen Riickwärtszähler 405 gesteuert. Der Ciriindlakl /, fiir ilen Speieher/ngriff. der in der Schaltung 412 erzeugt in wird, liefert Impulse, die den Zähler 405 rückwärts laufen lassen, während der Speicher über das ODhR-(iatler4l3 und die leitung 43 gelesen wird. Wenn der Zähler 105 Null erreicht, er/eugl er einen Tortschalteimpuls auf der leitung 414. Dieser Impuls ι, schallet die Steuerschaltung 403 auf den nächsten Speicher/usland weiter, bewirkt, dall das Register 406 den nächslen Speicher/ustand speichert und liil.lt cias Regisier 4Ö7 den neuen Zustand aufnehmen, (ileich/eilig liefert der Wähler 408 unter Steuerung n des Torlschaiieimpiilses auf ilen I.eilungen 44 und 42 den Inhalt des Registers 406 und der Impulsgenerator 410 liefert unter Ansprechen auf den lOrtschallcimpuls einen weiteren Lesebefehl für den Speicher 30 über das ()DLR-(ialter 413 Der Ausgangsimpuls .·, iles Generators 410 wird aiil.lcrdcm beniil/l. um über die (iatterleiliinj! 41 das Aiisgangssi»nal des Speichers 30 in das Regisier 910 der I inrichlimg 91 /ti führen, wodurch im Register 90 die .'ben beschriebenen Signale .S',"- gespeichert werden. Wenn das I-Ort- ;.> schaltesignal auf der Leitung 414 \erschwiiulet. schallet der Wähler 408 das Aiisgangssignal des Registeis 407 /um Wählerausgang durch und heim nächsten Impuls \om Taktgeber 412 wird ein neuer Werl K1, in den Zähler 405 gegeben.
Der Sland des Zählers 405 wird /u jedem Zeilpiink I durch das Signal auf del I ellung 415 angegeben.
Dieses Signal stellt den Wert m, -m, dar. Die Konstante K,,, die als Eingangssignal für den Zähler 405auftritt (Leitung 409), stellt den Werl m,-in, dar. IXmgcmäl.l wiril die Konstante K. durch den Teiler 411 berechnet, die das Signal auf der I.eilung ·Ι5 durch das Signal auf der Leitung 409 teilt.
Unter gewissen Umständen isi eine praktische Verwirklichung der Lrlindung unter Verwendung eines Rechnerprogramms möglich und kann in gewissen Punkten vorteilhaft sein. Wenn beispielsweise ein Henut/er es für zweckmäßig hält, ein Verfahren mit einer sehr komplizierten Spektrum-Interpolation /ii verwenden, kann es einfacher sein, für den Interpolator 90 in L i g. I eine Ausführung mit einem Rechner slall einer speziell ausgebildeten Schaltungsanordnung zu verwenden. Wenn jedoch ein Rechner in der Anlage benutzt wird, können zusätzliche Merkmale vom Rechner verwirklieht werden, wodurch der I 'mlaiig der erforderlichen Schaitungsanoriinungen kleiner wird. Beispielsweise sind die arithmetischen Operationen, die in der Einrichtung zur Tonhöhenanzeige und zur Tonhöhenänderung benutzt werden, -,ehr einfach, und Rechnelprogramme, die zur Verwirklichung der Tonhöhensleuerung benut/l werden, sind einfach und dem l'achmann bekannt. Auf einsprechende Weise kann der Speicher 30 in den Rechner übernommen werden. (iieichesgill für den Phasen- \ocoder-Anal\salor und den grollten Teil des Phasen- \ocoder-S\nlhetisierers. Talsächlich wiril entsprechend dem eingangs erwähnten Aufsatz von Ca r I-s ο η ein Rechner zur Verwirklichung des Phasenvocoder-Analysierers und -synthetisierers benutzt. Ts wird dazu auch auf die Rechner-Simulation eines Phasenvocoders Bezug genommen, die in dem oben beschriebenen Aufsatz »Phase Vocoder» auf Seile I4')6 beschrieben ist.
Hierzu 3 IiI.ill Ze luinuen

Claims (8)

  1. Patentansprüche:
    I. Verfahren /um Synthetisieren einer natürlich klingenden Sprachnachrichl aus gespeicherten, ein Vokabular von Wörtern darstellenden elekirischen Signalen mit den Verrahrcnsschritten: Gewinnen und Verknüpfen gewühlter Teile der Signale, Ahändern der verknüpften Signale hinsichtlich ihrer Zeitdauer und bezüglich der Tonhöhe und Umwandeln der abgeänderten Signale in hörbare Sprache, gekennzeichnet durch die Verfahrensschrilte Speichern von Signalen, welche die Kurzzeit-Fourier-Transformationsparameter und Phasenableilparameter sind, die sich aus einer Phasenvocoder-Codierung des Vokabuiars von Wörtern ergeben, Gewinnen aus den gespeicherten Signalen von zeitdauerveränderten Signalen, welche die Sprachnachricht darstellen. Verändern der Phasenableitparametcr der verknüpften .S'anale zur Beeinflussung der Tonhöhe der hörh.irvn Sprache.
  2. 2. Verfahren nach Anspruch !,dadurch gekennzeichnet, daß die Signale /ur Beeinflussung der Dauer der Sprache mehrfach gewonnen werden.
  3. 3. Verfahren nach Anspruch I oder 2. gekennzeichnet durch Interpolieren der Kurzzeil-Foiiricr-Transformationsparamclcr entsprechend vorgegebenen Regeln unter Ansprechen auf zugefiihrte Zeitdauer-Steuersignale und die veränderten Phasenableilparameter, um eine glatte Spektrum-Hiillkurvc /v erreichen.
  4. 4. Elektrische Schaltungsanordnung /um Synthetisieren einer nuüirlich Klingenden Sprachnachricht entsprechend ctem Verfahren nach Anspruch I mit einem Speicher, er ein Vokabular von Wörtern darstellende Signale speichert, einer Gewinn- und Vcrknüpfungseinrichtung für gewählte Teile der Signale, einer Abänderungseinrichtimg für die verknüpften Signale hinsichtlich ihrer Zeitdauer und bezüglich der Tonhöhe und einer Umwandltingscinrichtung, die die abgeänderten Signale in hörbare Sprache umwandeil, dadurch gekennzeichnet, daß eine Signalspeicheriiiul Ziigriffscinrichtung (30) vorhanden ist. die Signale (,SV',) für die Kurz/eii-Fourier-Transformalionsparameter und Phascnablcitparameter /11 speichern, die sich aus einer Phascnvocoder-C'odierimg des Vokabulars von Wörtern ergeben, daß eine Steuerschaltung (40) vorhanden isl. die einen Interpolator (90) veranlaßt. Signale /u gewinnen und die Dauer der gewählten Signale /11 ändern, und daß eine Tonhöhenveründcrungseinrichtung (60) vorhanden ist. die die gewonnenen Signale durch Ändern der Phasenableitparameler abwandelt, um die Tonhöhe tier Sprache /11 becinllussen.
  5. 5. Schaltungsanordnung nach Anspruch 4. dadurch gekennzeichnet, daß die Steuerschaltung (40) Schaltungen (403 412) enthält, um ein gewühltes Signal mehrere Male /11 gewinnen.
  6. (1. Schaltungsanordnung nach Anspruch 4 oder 5. dadurch gekennzeichnet, daß die TonliöliciiäiHlerungseinrichliing (60) Aililicrschaltiingen (611 aufweist, die zu jedem Phasenableitsignal ein geeignet zugeordnetes Trei|uen/signalf<0addieren. und Mullipli/ierschallungen (62). die jedes der addierten Signale mit einem zugeführlen I iMihöhen-Sleuersiunal [K..) multiplizieren.
  7. 7. Schaltungsanordnung nach Anspruch fi, dadurch gekennzeichnet, daß Touhöhen-Mulliplikalionsschaltungen (63, 67) vorhanden sind, die unter Ansprechen auf ein zugcführtes Tonhöhen-Steuersignal [K1,) und auf die Multiplizierschaltungen (62) einen Miiltiplikalii.nsfaktor zur Tonhöhenveränderung errechnen, und daß Multiplizierer (62) vorhanden sind, um jedes der addierten Signale mit dem MulliplikationsfaJaor zu multiplizieren.
  8. 8. Schaltungsanordnung nach einem der Ansprüche 4 bis 7, dadurch gekennzeichnet, daß der Interpolator (90) sekundäre Inierpolatoren (91) zur Abänderung jeder Komponente der Kurzzeil-Fourier-Transformalionsparameter aufweist, um den Tonhöhen- und Zeitdaueränderungcn in benachbarten Komponenten der Kurzzeit-Fourier-Transformationsparameler Rechnung zu 'ragen.
DE2524497A 1974-06-05 1975-06-03 Verfahren und Schaltungsanordnung zur Sprachsynthese Expired DE2524497C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US05/476,577 US3982070A (en) 1974-06-05 1974-06-05 Phase vocoder speech synthesis system

Publications (3)

Publication Number Publication Date
DE2524497A1 DE2524497A1 (de) 1975-12-18
DE2524497B2 true DE2524497B2 (de) 1978-12-14
DE2524497C3 DE2524497C3 (de) 1979-08-09

Family

ID=23892415

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2524497A Expired DE2524497C3 (de) 1974-06-05 1975-06-03 Verfahren und Schaltungsanordnung zur Sprachsynthese

Country Status (4)

Country Link
US (1) US3982070A (de)
JP (1) JPS516407A (de)
CA (1) CA1046642A (de)
DE (1) DE2524497C3 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2854601A1 (de) * 1977-12-16 1979-06-21 Sanyo Electric Co Ton-synthesizer und verfahren zur ton-aufbereitung

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3995116A (en) * 1974-11-18 1976-11-30 Bell Telephone Laboratories, Incorporated Emphasis controlled speech synthesizer
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
US4189779A (en) * 1978-04-28 1980-02-19 Texas Instruments Incorporated Parameter interpolator for speech synthesis circuit
JPS5570783A (en) * 1978-11-22 1980-05-28 Sharp Corp Sound information clock
JPS55111995A (en) * 1979-02-20 1980-08-29 Sharp Kk Method and device for voice synthesis
US4281994A (en) * 1979-12-26 1981-08-04 The Singer Company Aircraft simulator digital audio system
US4441201A (en) * 1980-02-04 1984-04-03 Texas Instruments Incorporated Speech synthesis system utilizing variable frame rate
JPS56119909A (en) * 1980-02-22 1981-09-19 Victor Co Of Japan Ltd Reproducing device for speed variable digital signal
JPS5863327A (ja) * 1981-10-12 1983-04-15 三菱農機株式会社 コンバインにおける脱穀部扱胴の変速表示装置
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
US4624012A (en) 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
US4815135A (en) * 1984-07-10 1989-03-21 Nec Corporation Speech signal processor
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
USRE34247E (en) * 1985-12-26 1993-05-11 At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
JPH0754440B2 (ja) * 1986-06-09 1995-06-07 日本電気株式会社 音声分析合成装置
US5009143A (en) * 1987-04-22 1991-04-23 Knopp John V Eigenvector synthesizer
US5179626A (en) * 1988-04-08 1993-01-12 At&T Bell Laboratories Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis
US5081681B1 (en) * 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
US5425130A (en) * 1990-07-11 1995-06-13 Lockheed Sanders, Inc. Apparatus for transforming voice using neural networks
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5664051A (en) * 1990-09-24 1997-09-02 Digital Voice Systems, Inc. Method and apparatus for phase synthesis for speech processing
US5630011A (en) * 1990-12-05 1997-05-13 Digital Voice Systems, Inc. Quantization of harmonic amplitudes representing speech
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US6246774B1 (en) 1994-11-02 2001-06-12 Advanced Micro Devices, Inc. Wavetable audio synthesizer with multiple volume components and two modes of stereo positioning
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
DE69612958T2 (de) * 1995-11-22 2001-11-29 Koninkl Philips Electronics Nv Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
US5839099A (en) * 1996-06-11 1998-11-17 Guvolt, Inc. Signal conditioning apparatus
US5928311A (en) * 1996-09-13 1999-07-27 Intel Corporation Method and apparatus for constructing a digital filter
US5870704A (en) * 1996-11-07 1999-02-09 Creative Technology Ltd. Frequency-domain spectral envelope estimation for monophonic and polyphonic signals
US5915237A (en) * 1996-12-13 1999-06-22 Intel Corporation Representing speech using MIDI
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6199037B1 (en) 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
US6182042B1 (en) 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6324501B1 (en) * 1999-08-18 2001-11-27 At&T Corp. Signal dependent speech modifications
US6526325B1 (en) * 1999-10-15 2003-02-25 Creative Technology Ltd. Pitch-Preserved digital audio playback synchronized to asynchronous clock
US6377916B1 (en) 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
EP1160764A1 (de) 2000-06-02 2001-12-05 Sony France S.A. Morphologische Kategorien für Sprachsynthese
HUE062540T2 (hu) * 2011-02-18 2023-11-28 Ntt Docomo Inc Beszédkódoló és beszédkódolási eljárás
US9865247B2 (en) 2014-07-03 2018-01-09 Google Inc. Devices and methods for use of phase information in speech synthesis systems
EP2988300A1 (de) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Schalten von Abtastraten bei Audioverarbeitungsvorrichtungen

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3360610A (en) * 1964-05-07 1967-12-26 Bell Telephone Labor Inc Bandwidth compression utilizing magnitude and phase coded signals representative of the input signal
US3369077A (en) * 1964-06-09 1968-02-13 Ibm Pitch modification of audio waveforms
AT258366B (de) * 1964-10-16 1967-11-27 Ibm Oesterreich Internationale Anordnung zur Umformung der Kanalwerte eines impulserregten Kanalvocoders
US3828132A (en) * 1970-10-30 1974-08-06 Bell Telephone Labor Inc Speech synthesis by concatenation of formant encoded words

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2854601A1 (de) * 1977-12-16 1979-06-21 Sanyo Electric Co Ton-synthesizer und verfahren zur ton-aufbereitung

Also Published As

Publication number Publication date
US3982070A (en) 1976-09-21
CA1046642A (en) 1979-01-16
USB476577I5 (de) 1976-01-20
DE2524497A1 (de) 1975-12-18
DE2524497C3 (de) 1979-08-09
JPS5533079B2 (de) 1980-08-28
JPS516407A (en) 1976-01-20

Similar Documents

Publication Publication Date Title
DE2524497B2 (de) Verfahren und Schaltungsanordnung zur Sprachsynthese
DE2934489C2 (de)
DE602005002833T2 (de) Kompensation von multikanal-audio energieverlusten
DE69910239T2 (de) Verfahren und vorrichtung zur adaptiven bandbreitenabhängigen grundfrequenzsuche für die kodierung breitbandiger signale
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE3115859C2 (de)
DE2919085C2 (de) Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung
DE2229149A1 (de) Verfahren zur Übertragung von Sprache
EP1016319B1 (de) Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals
DE2404431B2 (de) Elektronisches Musikinstrument
DE2622423C3 (de) Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form
DE69033510T3 (de) Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE1965480B2 (de) Geraet zur umwandlung eines in graphischen zeichen gedruckten textes in gesprochene worte
DE3019823C2 (de)
DE60016305T2 (de) Verfahren zum Betrieb eines Sprachkodierers
DE3929481A1 (de) Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen
DE3226619A1 (de) Modulationseffektvorrichtung
DE2826570C2 (de)
EP0340301B1 (de) Digitales adaptives transformationscodierverfahren
DE3037276C2 (de) Tonsynthesizer
DE3115884C2 (de)
DE2649540A1 (de) Verfahren und anordnung zur sprachsynthese
DE2435654C2 (de) Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache
EP0075311B1 (de) Anordnung zur Übertragung von Sprache nach dem Kanalvocoderprinzip

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8339 Ceased/non-payment of the annual fee