DE2524497B2 - Verfahren und Schaltungsanordnung zur Sprachsynthese - Google Patents
Verfahren und Schaltungsanordnung zur SprachsyntheseInfo
- Publication number
- DE2524497B2 DE2524497B2 DE2524497A DE2524497A DE2524497B2 DE 2524497 B2 DE2524497 B2 DE 2524497B2 DE 2524497 A DE2524497 A DE 2524497A DE 2524497 A DE2524497 A DE 2524497A DE 2524497 B2 DE2524497 B2 DE 2524497B2
- Authority
- DE
- Germany
- Prior art keywords
- signals
- pitch
- signal
- memory
- duration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Description
Die Frlindung betrifft ein Verfahren zum Synthetisieren
einer natürlich klingenden Sprachnachricht gemäß Oberbegriff des Patentanspruchs I.
In tier WS-Patentschrift 33 60 610 wirtl die Verwendung
von Ph-tsenvocoder-Verfahren auf dem
Gebiet der Sprachübertragung und Bandbreitenverringerung offenbart. Ks wird eine tibertragungsanordnung
beschrieben, bei der zu übertragende Sprachsignale /u einer Vielzahl von schmalbandigen
Komponenten codiert werden, tieren kombinierte Bandbreite kleiner als die der nichlcotlierten Sprache
ist. Kurz zusammengefaßt wirtl eine Phasenvoeoder-Codicrung durchgerührt, in dem für jede von einer
Gruppe von vorbestimmten Frequenzen '■>,. die ilen
Frei)ti· nzbereich eines ankommenden Sprachsiunals
erfassen, ein Paar von Signalen errechnet wird, die den Realteil bzw. den Imngiiiäricil tier Kurzzeil-Fourier-Transformation
des ursprünglichen Sprachsignals darstellen. Aus jedem solchen Signalpaar
wirtl ein Paar von Schmalbantlsignalen erzeugt. Das eine Signal |.S", I slellt tlie (iröße tier Kurzzeit-Fourier-Transformation
tlar. iiiul das andere Signal '/', tlie
zeitliche Ableitung des Phaseinvinkds di-r Kiiiv/eit-Fourier-Transformalion.
Bei tier oben erläuterten Anordnung werden diese Schmalbandsignale zu einem
Hmpfänger übertragen, in welchem ein Abbild ties
ursprünglichen Signals wiederhergestellt wird, indem eine Vielzahl von Kosinus-Signalen erzeugt wird, die
die gleichen vorbestimmten Frequenzen besitzen, bei denen die Kurzzeil-Foiirier- Transformation ausgewertet
worden isl. Jedes Kosinus-Signal wirtl dann bezüglich seiner Amplitude und seines Phasenwinkels
durch die Schmalband-Signalpaare moduliert, und tlie modulierten Signale werden zur Hrzeugung ties
gewünschten Abbildes summiert.
In einem Aufsatz »Digilalizcd Phase Vocoder«,
veröffenlliehl in Proceedings öl the 1967 Conference
on Speech Communication and Processing. Seilen 292 bis 296. beschreib! J. I'. C a rl s ο ii die Digilalisierung
tier Schmalhandsignale |.V, | und '/>, vor tier
nberlragung und gibl an. daß bei einer tiherlragungsgeschwiiuligkeit
von beispielsweise 9600 BiiSekuinle tlie Verschlechterung auf Grund tier Digilalisieruiig
der Parameter in dem wieder hergestellten Sprachsignal unmerkbar ist.
\uf einem getrennten Gebiet tier'Technik sind viele
Versuche gemacht wurden, natürlich klingende Sprache
aus gespeicherten .Sprachsignalen unter Verwendung einer Formanl-Codieriing von Lauten (oder
Wörtern) zu gespeicherten Signalen zu synthetisieren.
Linie solche Vorrichtung ist in der deutschen Patent- -, schrift 2II5 25K beschrieben. Solche Systeme befriedigen
im allgemeinen. Wenn er aber eine Beeinnussungsmöglichkeil fur die Tonhöhe und Tondauer
erforderlich ist, so für den Fall, daß die durch den Zusammenhang gegehenen Bedingungen für die n>
synthetisierte Sprache vorherrschend sind, werden diese Systeme kompliziert und erfordern umfangreiche
Berechnungen.
Die Erfindung hat sich daher als Aufgabe gestellt,
ein Verfahren zur Synthetisierimg natürlich klingender ι -, Sprache zu schaffen, bei dem die Sprache aus gespeicherten
Wörtern eines Vokabulars synthetisiert wird, die nach Phasenvocoder-Verfahren codiert worden
sind, sowie eine Vorrichtung zur Durchführung des Verfahrens. jii
Zur I ösuiig der Aufgahe geht die Hrlindung aus
von einem Verfahren der eingangs genannten Art und ist im kennzeichnenden Teil des Patentanspruchs I
angegeben. Weitere Ausgestaltungen sind in den Unteransprüchen 2 und 3 gekennzeichnet. _>-,
Fine elektrische Schaltungsanordnung /um Durchführen dieses Verfahrens ist durch den Patentanspruch
4 gekennzeichnet. Weitere Ausgestaltungen sind in den llnteraiisprüchen 5 his S bezeichnet.
Dabei hai das Speichern von Signalen, welche die m
Kurzzeit-Fourier- Transformationsparameter und Phasenableitparameler
sind, die sich aus einer Phasenvocoder-C'odierung des Vokabulars von Wörtern
ergehen, als an sich bekannt /u gelten.
Fs werden demgemäß Wörter eines Vokabulars zu η
einer Vielzahl von Kurzzeit-Sprachamplitudcnsignaleu
und Kurzzeil-Phasenableitsignalen codiert, die codierten
Signale in digitales Format umgewandelt und die digital codierten Signale in einem Speicher gespeichert.
Natürlich klagende Sprache wird dadurch gebildet m und synthetisiert, daß aus dem Speicher ilen gew mischten
Wörtern entsprechende Signale gewonnen, diese Signale verknüpft Lind die Dauer und Tonhöhe der
verknüpften Signale modifiziert wird. Fine Beeinflussung tier Dauer wird durch Finfüg ;; einer vor- ι,
bestimmter Anzahl \on lahulierten Signalen /wischen
aufeinanderfolgend aus dem Speicher gewonnene unterschiedliche Signale erreicht. Dadurch erzielt
man eine wirksame Verlangsannmg der Sprache in
Abhängigkeil \on der .\<i/ahl der eingefügten inter- ,u
polierten Signale. Fine Beeinlliissung der Tonhöhe
wird erziel1, indem die Phasenableitsignale mit einem
gewählten Faktor mullipli/icri weiden. Die Sprachsynthese
wird vervollständigt durch eine l'niwandlung
tier modili/icrlcn Signale aus dem digitalen v.
Format in analoges Formal und durch Decodieren der Signale entsprechend bekannten Phasenvocoder-Verfahren.
In ilen Zeichnungen /eigl
F i g. 1 das Blockschaltbild eines erliniltingsgeniält i.n
gestalteten Spraclisy nlhcsesyslems.
F i g. 2 das Kiiiy/eil-Amplitudenspektrum des /-ten
Speklrumsignals Lv, i am Ausgang des Speichers 30 in I- i g. I.
Fig. 3 das ge* ami e Sprachspeklruni /u einem ι-·,
beslinimlen Zeitpunkt und den Finlluß von Tonhöhcnändenmgen
auf lic Speklralampliluden des F i g. -t ein Blockschaltbild der Interpolariorschaltung
nach Fig. I,
F i g. 5 ein Ausführungsbeispiel der Steuerschaltung 40 in Fig. I.
Fig. 1 zeigt ein Blockschallbild eines Sprachsynlhesesyslems,
bei dem gesprochene Wörter /u Phasenvocoder-Sieuersignalen codiert und hei dem
eine Sprachsynthese erreicht wird, in dem geeignete Beschreihungssignale aus dem Speicher gelesen, die
Beschreibungssignaie verknüpft und modifiziert und die modifizierten Signale zu synthetisierten Sprachsignalen
decodiert und kombiniert werden.
Im einzelnen wird das Vokabular von Wörtern,
das für eine betrachtete Sprachsynthese für erforderlich
erachtet wird, einem Phasenvocoder-Aiialysator
10 in Fig. I zur Codierung zugeführt. Der Analysator 10 codiert die Wörter zu einer Vielzahl von
Signalpaarcn \S, j. '/>,; S2. 'i>2: . . . JS1 \. '/>,.. . \SS |. '/'.%·.
die einen I.V(-Vektor und einen '/'-Vektor darstellen,
wobei jeder Wert |.V, S. Φ, das Kurz 'eil-Amplitudenspektrum
bzw. this K ur//eil-Pha»_nahleitspeklnim
des Sprachsignals bei einer Spektralfrequen/ »-., darstellen.
Die Analvsierfrequen/ ··,, sind in Abhängigkeit
von den Aiislegimgsbedingungen mit gleichmäßigem
oder ungleichmäßigem Abstand über das interessierende Frequenzband verteilt. Die zur tiberiragimgderSignale
|.V, [und '/',erforderliche Bandbreite
isi klein im Vergleich zur Sprachbandbreite. Der Phasenvocoder-Aiialysator IO läßt r.ich entsprechend
der Beschreibung in der oben erwähnten I S-Patentschrift
33 WKiK) verwirklichen.
Nach der Codierung durch den Analysator 10 werden die Analogvektoren \S \ und Φ abgelastet
und im Analog-Digitalwandler 20 in digitales Formal umgewandelt. Der Wandler 20 kann entsprechend
tier Beschreibung in dem oben genannten Aufsatz von Carlson aufgebaut werden, tier IdO Bits
mit einer Ahiasifrequenz von (SO M/ erzeugt und damit
/u einer (jesamt-Bitfrequen/ von ')600 Bits s iührl.
Die umgewandelten Signale weiden im Speicher 30 gespeichert und stehen dann für die Synthese /ur
Verfugung. Jedes vom Analysator 10 verarbeitete Wort wird mit einer Frequenz von fi() II/ abgelastei.
und da die Dauer jedes Wortes länger als !Ci ins ist.
wird jedes verarbeitete Wort durch eini· Vielzahl von
LS' '-Vektoren und zugeordnete '/'-Vektoren dargestellt. Diese Vektoren können in den Speicher 30 sequentiell
in einen zugeordneten Speicherhlock eingegeben werden. Innerhalb ties Speichelblocks wird jede·- Paar
von Vektoren i.S'! und </> in einer Speicherzelle gespeichert,
und jede Spcicherslelle ist so unterteilt, daß sie die Komponenten LS': und '/>, leiles Vektor·
enthält.
Zur Sprachsynthese wird eine Kelle von Befehlen
formuliert und über die Leitung 41 der Steuereinrichtung
40 in F" i g. I zugeführt. Die Bcfehlskelle gibt tier Anlage die Folge von Wörtern an. die aus
dem Speicher 30 gewählt und /ur Bildung eines Sprachsignals verknüpft werden sollen. Demgemäß
erfolgt ein sequentieller Zugril'fzu gewählten Speicherblöeken
tiikl innerhalb jedes Speieherblocks geht der
Zugriff /Ii allen Speicherstellen sequentiell vor sich.
Jede Speicherslelle liefert am Ausgang ties Speichers 30
ein Veklorpaar |.S'i und Φ . Die Sleuereiiii ichlung 40
decodierl die Fünga igsbefchlsfolge unler F.rzeugung
von Ailressen Pur ilen Speicher 30 und gibl diese
Adressen und einsprechende Lesebefehle an ilen Speicher. Außerdeir, analvsier! die Sieuereinrichluiti;
40 auf der (irundlagc ilcr angegebenen I -olge \ou
Wörtern die Slniklur der Woi lkelle und ordnet leder
/iiiiL-iitiffcncn Spcicherslcllc Dauer- unil lonhölienwcrlc
K,, (intern in der Steuereinrichtung 40i h/\\. K1.
zu. um eine natürlich klingende Sprache /u erzeugen,
deren I oiiliöhc und -dauer abhängig \on der Sirukliir
der Woilkcttc ist. I.ine genaue Beschreibung der Sicuereim iclilting 40 wird im folgenden gegeben.
/eildaiier-Slcucrung
I ine Zeitdauer-Steuerung lälll sich durch einen
wiederholten Zugriff zu leder gewählten Speichcrslelle
mit einer festen lichen I akllrei|iienz und durch eine
Sleuening der Anzahl solcher wiederholter ZiignhV
\oigiinge erreichen. Auf iliese Weise kann die Sprachdaucr
wirksam erhöhl werden, indem die \n/ahl der
ZiigrilTs\organge Ru teile Speicherslelle \crgröHcH
wird. Wenn beispielsweise die I ingangsspraclic. wie
oiien erwäiini. niii einei i leipieu/ \ou öOiiz abgetastet
wird, kann der Zugriff zum Speicher /wcckmällig
mit einer I icquen/ imid k 11/ Iw as der N \i|uisilrei|uen/
des synthetisierten Signals entsprechen kannl erfolgen, und die Regelzahl um Zugrilfsxorgängen
über teile Speicheradresse kann aiii M)O leslgelegt
werden. Diese Arbeitsweise führt zu einer getreuen Reproduktion der Sprachiiaiier des an den
Eingang an der Anlage angelegten Signals. Is ergibt
sich selbstverständlich, dall ein wiederholter Zugrifl
zu jeder Speicherslelle mehr als lOOmal eine Verlangsamiing
der synthetisierten Sprache oiler eine Dehnung des ZeitniaHslahes bewirkt. Weniger als
KMI ZugriffsMirgänge führen /ti einer Beschleunigung
der synthetisierten Sprache oder einem Zusammendrücken
des Zeitmallstahes. Die genaue Anzahl \on ZugriffsMirgangen zu jeder Speicheradresse langegeben
durch das Signal auf der Leitung 421 wird durch die Steuereinrichtung 40 mit Hilfe wiederholter
Lesebefehle auf der Leitung 43 angegeben. Das ohenerläuterte
Verfahren zur Becinllussung der Spraclidauer ist in L i g. 2 angegeben, in der die Amplitude
einer bestimmten Komponente 'S1 bezüglich ihrer zeitabhängigen Änderung gezeigt ist.
Die .Angabe LS stellt den Vektor S am .Ausgang des
Speichers 30 dar. In Ii g. 2 gibt das !-.lernen! 201
den Wer! \on i.S", zu einem bestimmten Zeitpunkt
an. wie er am Ausgang des Speichers 30 beim Zugriff zu einer bestimmten Speieherstelle r auftritt. Das
Llement 201 entspricht dem ersten Zugriff zu der r-tcn Speicherstelle. Das Llement 202 gibt ebenfalls
den Wert \on '.V1 an der Speicherstelle r wieder,
wobei es sich Irir aber um den dritten Zugriff zur
Speicherstelle r handelt. Das Llement 206 entspricht dem Wert von \S, lan der nächsten Speicherstelle r + I.
und zwar beim ersten Zugriff zu dieser Speicherstelle. Wenn beispielsweise die Speicherslelle V + I die letzte
Speicherstelle eines Speicherblocks ist. dann gibt das Element 203 den Wert von \S, j beim ersten Zugriff
zu einer ersten Spcichcrstelle u eines neuen Spcichcrblocks (Anfang eines neuen Wortes) an.
Die .Speicherstellen r und u können natürlich wesentlich verschieden sein. Das Element 205 entspricht
ebenfalls dem Wert von \S-, | an der Speicherstelle ;/
bei einem nachfolgenden Zugriff und das Element 204 entspricht dem Ictzlen Zugriff z.ur Speicherstelle u.
Die Anzahl der Zugriffsvorgänge bei einer Speicherstelle wird bestimmt durch das Zeitdauer-Steuersignal
Kj (innerhalb der Steuereinrichtung 40 vergleiche
L" ig. ?). das über das Signal K1. einen Spektralamplituden-Interpolator
90 in I ι g. I stellen. In L ig. '
lsi nur du- /-te Komponente des Vektors S am Aus
gang des Speiehers 30 dargestellt, \ndeic Κοιυρο
nenlen dieses Vektors \n\{\ die Komponenten de
Vektors '/' haben natürlich unterschiedliche Werte aber die ( Iren/stellen auf ( iruiid von Änderungen de
Speicherstelle innerhalb eines Speicherhlocks (bei spielsweise das Zeileleinent 2061 oder auf ( inind voi
Andeningen der Speicherslelle \on einem Speicher block /Ii einem anderen (beispielswei Zeilpunk
des Elements 205) treten zum gleichen / itpiiukl aiii
Das lallt sich leicht erkennen, wenn r, einem drei
ilimensionalen Raum, der aiii übliche Weise tlurcl
\-. Γ- und r-Kooi dinaten deliniert Ist. der Vektor .S
nut allen seinen Komponenten betrachte! wird .ledi
zeitliche Anileriing einer Komponente lälll sieh Ii
einer durch die Koordinaten ν und ι delinierlei
I bene zeichnen, wobei die \- \chse die Zeil angib
iwie in i ι g 2 gezeigt ι m\t.\ für jeden gewählten Wer
der v- \chse kann die durch die koordinaten ν iiiitl
definierte Ebene die verschiedenen Komponentei des Vektors .S sowie die allgemeine form des Spek
hums !entsprechend der noch zu erläuternden Dar
stellung in I i g. 3l in dem jeweiligen Aiigenhliel
angeben. Bei einer solchen dreidimensionalen Dar stellung sind die plötzlichen Änderungen des Vektor
S (die /u einem bestimmten Zeitpunkt auftreten alle in . aier ein/igen r-r-E.hetie enthalten.
i onhöhen-Sleiierung
In einem Aufsatz »I'ha.e Vocoder·· \oi
J. I. I lanagan et al. in »Bell Svslem lechnica
Journal". Band 45. Nr. 1J. Seite I4'J3. November I1JM
ist gezeigt, dall der '/'-Vektor in enger Beziehung ziu
Tonhöhe eines analysierten Sprachsignals steht, wein
die Analvsier-Bandbreile des l'haseiivocoders schina
im Vergleich zur gesamten Sprachhandbreite ist
Im Hinblick darauf wird eine Änderung der Ton höht,
durch Bildung und Modifizieren eines Vektorsignal· (··. ·
<!') erreicht, das die L.lemenle l·-., · '/',). (<·.
• '/«:|.. . . ir·., ' '/',I . . |.-.s ' 'Kl enthält. Die Modifizierung
kann aus einer Multiplikation des Vektor I··. < '/Ί mit einem Tonliöhciivariationsparameler Av'
bestehen. Wenn also K1. gröl.ler als I ist. so wird du
Tonhöhe der synthetisierten Sprache erhöht, und wem
/\,, kleiner als I ist. so wird die Tonhöhe tier synthetisierten
Sprache erniedrigt.
Die Tonhölienänderung wird in der Einrichtung 6f in L i g. I vorgenommen. Die Einrichtung 60 weist
eine Addierschalüing 61-/ fur jeden Wert '/', auf. um
ein entsprechendes /.,-Signal zu jedem '/',-Signal zu
addieren, und eine Multiplizierschaltung 62-/ für jeden Wert '/',. um das Ausgangssignal jedes Addieren
mit dem Tonhöhcn-Variationsstcuersignal K1, zi
multiplizieren. Das Signal Kn liegt an der Leitung M
und wird den Miiltiplizierern 62 über einen Schalter &
zugeführt. Die digitalen Addierer 61 und die digi talen Multiplizierer 62 sind einfache Digilalschaltun
gen bekannter Art.
Bei einem Alternativ-Verfahren zur Tonhöhen
Steuerung nach der Erfindung kann der von dci Steuereinrichtung 40 in F i g. I gelieferte Kr-Fakloi
die tatsächliche, zu synthetisierende Tonhöhe slat der Tonhöhenänderung angeben. In diesem FaI
muß die Tonhöhe des aus dem Speicher 30 abgeleite ten synthetisierten Sprachsignals festgestellt und cir
interner Tonhöhen-Multiplikationsfaktor errechne werden. Demgemäß weist die Einrichtung 60 zu
sälzlich einen aiii den Vektor l·
> · '/-I ansprechenden Tonhöheudclekloi 63 aiii, del die tatsächliche Tonhöhe
errechnet, die den aus dem Speicher 3(1 abgeleiteten
SiunaK'ii zugeordnet werden kann. Ί'οη-höhendelektoien
sind hekannl. I in \usfiilu iingshcispicl
isl im der I S-I'alentsclii ill 2ί>
27 54 I beschrieben. Die I endschaltung 67 in der 1 ι nnch Iu ng 60
berei1 .''.«.·( den internen Mulliplikalionsläklor. in dem
die gewünschte I onhölic K1, durch das berechnele
Ionhöliensignal dividiert wird. Der berechnete Vttiltiplikaliiinsrakliir
wird über einen an die I ellung 66
angeschalteten ScliaMei 64 .in die Miillipli/ierer 62
gegeben. Der Teiler 67 ist ein einfacher Digital-1eiler,
der beispielsweise einen auf das Aiisgangssignal des
I iinhöhenilelekliM s 63 ansprecheiuleii Festwertspeicher
(UOMl aufweist, der ilen Kehrwert des Tonhöheiisignals
liefei I. <>w ie einen Mullipli/ierer ähnlich
ileni Miiltipli/ierer 62 um das Ausgangssignal des
! lsi\\ci isj'tOk lic! s iifii liciu gcu iiiiscuieu iouuöhcusignal
K1, zu mtillipli/iereu und da mi I ilen gewünschten
Miilliplikationsfaktor /u erzeugen.
Das Ausgangssigual der P.inriehtung 60 ist ein Signalvektoi (»-. >
<!>)*. der ein bezüglich der Zeildaiier
und Tonhöhe im>diIi/ierles Abbild eiues (,·, f '/>)-Signalvektois
ist diine Zeiulauer-Modilizicrung liegl
vor. weil beide Vektoren .S" und '/' am Ausgang des Speichers 30 hinsichtlich der Dauer modifiziert sind.)
Diesei Vektor wird zusammen mit einem interpolierten
und bezüglich der Zeitdauer modifizierten Vektor i.S'l*. der nachfolgend beschrieben wird, an einen
Digit; :Analogvvaiuller 70 gegeben, der jedes der Digilal-Signalc
in den beiden Signalvekloren in analoge I (um umwandelt. Die Analogsignale werden dann an
einen I'hasenvocodcr-Svnlhetisierei 80 angelegt, um
ein Signal /u erzeugen, das die gewünschte synthetisierte
Sprache darstellt. Der I'hasenvoeoder-Svnthetisierer
SO kann im wesentlichen auf die gleiche Weise wie in der oben angegebenen I 'S-I'alciitsclirifl
"U 60 610 beschrieben, aufgebaut werden.
Interpolation der Form des Spektrums
I i g. 3 zeigt die Amplituden der Komponenten des Vektors j.S" i zu einem bestmimten Zeitpunkt.
Das Element KMI entspricht dem Signal '.S',!. das Nemenl
101 dem Signal i.V. i. das Nemenl 103 dem
Signal |.S", |. das lilemenl 104 dein Signal V,., usw.
Das I lenient 106 kann beispielsweise das Signal LS\
angeben. Die I requenzen. mit denen diese Signale auftreten, sind
ti und
Hetrachlcl in dem oben beschriebenen dreidimensionalen
Kaum wäre die Darstelluni! des Vektors I.V
gcmän !ig. 3 dei zweiciimensionaie Querschnitt ties
dreidimensionalen Raums parallel zu der durch die Achsen \ und ζ definierten libelle.
Wenn der Vektor !-■> \ Ί>\ in iler Iiinrichlung 60 zur
Uildung des Signalvektors Ι-·, ί '/-)* abgeändert wird.
so wird die I-rec|uenz jedes (iliedes des Signalvektors
i.S'l gleichmäßig verschoben, wie in l· i g. 3 beispielsweise durch die verschobenen (Elemente 107 und 108
dargestellt. I ig 3 zeigt, daß. wenn das Nemenl 108
so beeinfhiHt wird, dal! es (wie dargestellt) der Iliillkurve
109 in F-" i g. 3 entspricht, die Amplitude des
Nenients 103. aus dem das Iilemenl 108 abgeleitet
ist. verändert werden muß. Demgemäß muß (.lic Amplitude des Eilements 103 mil einer Konstanten
multipliziert werden, die aus dem Verhältnis der Amplituden der lilemente 104 und 103 abgeleitet
wird, ils läßt sich zeigen, daß diese Konstante Kx wie
folgt berechnet werden kann:
Außerdem besieh! auf (iruiul einer Prüfung der
1 i g. 2 die Möglichkeit, daß die stufenförmige seitliche
llüllkurve 210 des svntheiisicrten Spektrums
geglättet werden kann. Intuitiv erkennt man. daß eine solche (Haltung der llüllkurve des Spektrums
zu einer angenehmer und natürlicher klingenden Sprache führt. Diese (ilältung der llüllkurve läßt sieh
durch »Anpassen" einer Polviioin-Kurvc für jede "in
Komponente \S,\ über die Anfangswerte IS/1 durchfuhren,
wenn ein Zugriff zu einer neuen Speicheradresse erfolgt, beispielsweise eine Kurvenanpassung
über die Elemente 201. 206 und 203 und durch Änderung der wiederholten Signale |S,! derart, daß sie in
diese Kurve passen. Hierbei handelt es sich jedoch um eine komplizierte mathematische Aufgabe, die die
Unterstützung eines Sonderzweck- oder Allzweckrcchners
erfordert. Aus Gründen einer klareren Darstellung wird das einfachere geradlinige Interpolations- bO
verfahren beschrieben. Diese Interpolationskurve wird durch die Kurve 220 in F i g. 2 wiedergegeben. Demgemäß
kann der Vektor \S\. dessen T^requenzkomponenten in einer Ebene und dessen Zeitänderungen
in einer zweiten Ebene gesehen werden können, so interpoiien werden, daß er gleichzeitig auf Änderungen
sowohl der Zeit als auch der Frequenz (Tonhöhe) anspricht.
Demgemäß wird, wenn das Element 203 mit .ST'1 bezeichnet
wird und das Signal \S,-j zum Zeitpunkt »ι,
definiert, das Element 204 mil ST- und das Element 205 mit STX bezeichnet. F7.s läßt sich zeigen, daß die interpolierte
Amplitude des Elements 205. das an die Kurve 220 angepaßt ist. wie folgl berechnet werden
kann:
Sm-, c^t
i - — *J|
Hl2 — »1,
+ ST
Nach Berücksichtigung des Faktors Kx gemäß
Gleichung (1) läßt sich die endgültige Amplitude des Elements 205 wie folgt ermitteln
[ST2 - ST]
m2 - m,
Durch Auswerten der Gleichung (3) kann also jedes
Element |S, | am Ausgang des Speichers 30 und zu einem bestimmten Zeitpunkt so abgeändert werden,
daß es Änderungen der Tonhöhe und der Zeitdauer berücksichtigt, um ein Spektrum zu erzeugen, das
zu einer natürlich klingenden Sprache führt.
Mim heuchle, daß die Hinrichtung 40 /iir Steuerung
der /eildaiier in F-" i ti. I eine Anzahl von Steuersignalen
erzeugt, von denen eines dem Signal
m, /»,
m, /»,
/lli - »I,
entspricht. Dieses Signal ist mit K1 bezeichnet.
I'm die oben beschriebene (ilältiing der lliillkimc
des synthetisierten Spektrums hinsichtlich /eil und frequenz zu erzielen, weist die Schaltungsanordnung
gemäß I i g. 1 einen Spektrum-Aniplituileninterpoiator
90 auf, der zwischen dem Speicher 30 und dem Digiial-Analogwandler 70 eingefügt ist. Der Interpolator
90 kann einfach aus einer KurzschlulUeibiiulung
/wischen jedem Hingang LS, i und ilem entsprechenden
interpolierten Ausgang !.V1I*. Dies entspricht
einer einfachen konstanten Interpolation in vier /eitebene. die zu einer liüllkurve entsprechend der
Kurve ZiO in F i g. 2 führt, wobei keinerlei interpolation
in der Frequenzebene stattfindet. Andererseils
kann tier Interpolator 90 eine Vielzahl von lnterpolalorschaltimgen
91 umfassen, die in Form hochkomplizierter Sonderzweck- oiler Allzweckrechner
verwirklicht sind und eine komplizierte Kurvciianpassimg
ermöglichen. I' i g. 4 zeigt ein Ausführungsbeispiel
einer liiterpolalorschalluiig 91 für das Verfahren
der gradlinigen Interpolation gemäß Gleichung I. M.
Die Interpolatorsclialtung 91 in Fig. 4 ist die /-te
Interpoliirschalluiig in tier Hinrichtung 90. Sie spricht
auf/wei Spektrum-Signale beim ersten Speicherzugriff
an der augenblicklichen Speicheradresse, nämlich die Signale S'',"' und !.V1 11J1 |an sowieaufilasSpektruiri-Signal
.S'',"- ! tier nächsten Speicheradresse und die uineiänilerten und veränderten i-ten Frei|iienzen
(<■>, f <1>,) bzw. IfI1- t '?',)* sowie die unveränderte
I/ ' I)-Ie Frequenz Ic1 ., f')',.,). Wenn also ein
Zugriff zu einer neuen Adresse des Speichers 30 erfolgt und die Signale I.S'"'1 i und |.S"'r, ! gewonnen
werden, adressiert die Steuereinrichtung 40 außerdem die nächste Speicherstelle und liefert einen Gatterinipulslauf
der Leitung 2V|. um das nächste Signal .S'"'-in (.las Register 910 in F i g. 4 zu leiten. Demgemäß
spricht die Subtrahierschaltung 911 auf das Simial
1S]": !aus dem Register 910 und auf das Signal LS'"'1 lauf
der Leitung 23 an. Das dazwisehengelegene Signal,
tlas durch die Gleichung (2) definiert ist. wird durch den Multiplizierer 912 berechnet, der auf die Subtrahierschaltung
911 und den obenerwähnten Faktor K, auf der Leitung 22 anspricht, sowie durch den
Summierer 913. der auf das Ausgangssignal des Multiplizierers 912 und auf das Signal | .ST"' | auf der Leitung
23 anspricht. Der Multiplikationsfaktor Kx wird durch
die Bauteile 914. 915. 916. 917. 918. 919 und 920 berechnet. Der Teiler 914 spricht auf die Signale
'ST' ! und JS;"J, ! an und erzeugt das Signal
gemäß Gleichung (1). Die Subtrahierschaltungen 915.
916, 917 erzeugen die Signale
Der Mulliplizicer 918. der auf die Schaltungen 914
und 915 anspricht, erzeugt tlas l'roiluklsignal
r '
Der Summierer 919 wird von den Schaltungen 916.
918 beaufschlagt, und tier feiler 920 teilt tlas Ausgangssignal
iles Summierers 919 durch das Ausgangssignal
tier Siibliahieischallung 919 und erzeugt ein
Signal, tlas tue Konstante K ( entsprechend Gleichung
III darstellt. Der Multiplizierer 921. tier von
dem Summierer 913 und dem feiler 920 beaufschlagt
wird, erzeugt das interpolierte Signal '.S, *.
Steuereinrichtung 40
F i g. 5 zeigt lias Blockschaltbild der Sleucreini
iciiiimg 4ϊϊ gem.ill ί ig. i. i)iu NiLuCiLinikniiiMg 40
spricht auf eine Ketle von Befehlswörtern auf tier
Leitung 41 an. die die zu synthetisierende Nachricht
angibt. Die ankommende Belchlskelle wird im Speicher 401 aufgenommen und danach an einen Festwertspeicher
IR OM)402 gegeben in welchem die Kette
\on Befehlen in die richtige Adressenfolgc für den
Speicher 30 in Fig. I decodiert wird. Die Decodierung
im Festwertspeicher erfolgt entsprechend der gespeicheilen Kenntnis der Speicherstellen für bestimmte
Wörter im Speicher 30. Die gewünschte Wortfolge, die durch die Befehlskette am Hingang
bestimmt wird, kann analysiert werden, um die erwünschte
'fonhöhe und -dauer zu bestimmen, initl
zwar auf tier Grundlage von Regeln bezüglich der Wortstellung, der S\nta\ und anderer, von tier
Nachricht abhängigen Regeln. Nur zur Hrläuleruiig
enthält die Schaltungsanordnung gemäß Fig. 5 Hinrichtungen
zur \nal\sc und Formulierung tier gewünschten
lonliöhe und Wortdauer für die svnihelisierte
Sprache auf tier Grundlage tier Svnta\ dieser
Sprache. DieAnalvsiereinrichlung. nämlich die Steuerschaltung
403 für die Tonhöhe und die -dan r spricht gemäß Fig. 5 auf den Festwertspeicher 402 und ein
Fortschaltesigna! auf tier Leitung 414 an. Fine Hinrichtung
zur Analvse der Sprache auf der Grundlage der Svnla\ und zur Zuordnung von fonhöhe- und
Zeitdauerwerten ist in der I'S-Patentschrift 37 04 345
offenbart. In tier genannten Patentschrift ist ein 'fonhöhen- und Intensilätsgenerator. ein Vokalilaucr-Generalor
und ein Konsonanleiulaucr-Generaior gezeigt,
die alle im Prinzip von einem SvnlavAnalvsator
abhängen.
Die Generatoren erzeugen Signale, welche die gewünschte Tonhöhe. Intensität und Dauer beschreiben,
die den in jeder zu lesenden Speicheradresse angegebenen Lauten zugeordnet sind. Es kann an
Stelle eines Laut-Wörterbuches nach der vorgenannten US-Patentschrift 37 04 345 ein Wort-Wörterbuch benutzt
werden, und die Vokal- oder Konsonanten-Generatoren nach der vorgenannten Patentschrift
können zu einem einheitlichen Tonhöhen- und Dauer-Generator kombiniert werden. Demgemäß ist in
F i g. 5 eine Steuerschaltung 403 für die Tonhöhe und -dauer angegeben der Ausgangssignal ein Speicheradressenfeld,
ein Tonhöhensteuerfeld K1, und ein Zeitiiuer-Steuerfeld
Kj enthält. Das Ausgangssignal der Steuerschaltung 403 wird im Register 406 gespeichert.
Dessen Ausgangssignal gelangt in ein Register 407. Wenn demgemäß das Realster 407 eine bestimmte
Il
Speicheradresse enthält, sagt man. dall das Register 40ft
die näehsle Speicheradresse enthält. Heide Register sind an eine Wählerschaltung 408 angeschlossen,
die ilii: Aiisgangssignale einer tier beiden Register
wählt und an den Wähleratisgang weitergibt. ,
Die An/iihl der Befehle zum lesen jeder Speichcrslelle
wird durch hingäbe des Wertes K1, am Ausgang
des Wühlers 408 auf der I eilung 409 in einen Riickwärtszähler
405 gesteuert. Der Ciriindlakl /, fiir ilen
Speieher/ngriff. der in der Schaltung 412 erzeugt in
wird, liefert Impulse, die den Zähler 405 rückwärts laufen lassen, während der Speicher über das ODhR-(iatler4l3
und die leitung 43 gelesen wird. Wenn der Zähler 105 Null erreicht, er/eugl er einen Tortschalteimpuls
auf der leitung 414. Dieser Impuls ι, schallet die Steuerschaltung 403 auf den nächsten
Speicher/usland weiter, bewirkt, dall das Register 406
den nächslen Speicher/ustand speichert und liil.lt cias Regisier 4Ö7 den neuen Zustand aufnehmen,
(ileich/eilig liefert der Wähler 408 unter Steuerung n
des Torlschaiieimpiilses auf ilen I.eilungen 44 und 42
den Inhalt des Registers 406 und der Impulsgenerator
410 liefert unter Ansprechen auf den lOrtschallcimpuls
einen weiteren Lesebefehl für den Speicher 30 über das ()DLR-(ialter 413 Der Ausgangsimpuls .·,
iles Generators 410 wird aiil.lcrdcm beniil/l. um über
die (iatterleiliinj! 41 das Aiisgangssi»nal des Speichers
30 in das Regisier 910 der I inrichlimg 91 /ti führen,
wodurch im Register 90 die .'ben beschriebenen
Signale .S',"- gespeichert werden. Wenn das I-Ort- ;.>
schaltesignal auf der Leitung 414 \erschwiiulet. schallet
der Wähler 408 das Aiisgangssignal des Registeis
407 /um Wählerausgang durch und heim nächsten Impuls \om Taktgeber 412 wird ein neuer Werl K1,
in den Zähler 405 gegeben.
Der Sland des Zählers 405 wird /u jedem Zeilpiink
I durch das Signal auf del I ellung 415 angegeben.
Dieses Signal stellt den Wert m, -m, dar. Die Konstante
K,,, die als Eingangssignal für den Zähler 405auftritt
(Leitung 409), stellt den Werl m,-in, dar. IXmgcmäl.l
wiril die Konstante K. durch den Teiler 411
berechnet, die das Signal auf der I.eilung ·Ι5 durch
das Signal auf der Leitung 409 teilt.
Unter gewissen Umständen isi eine praktische Verwirklichung der Lrlindung unter Verwendung
eines Rechnerprogramms möglich und kann in gewissen Punkten vorteilhaft sein. Wenn beispielsweise
ein Henut/er es für zweckmäßig hält, ein Verfahren
mit einer sehr komplizierten Spektrum-Interpolation /ii verwenden, kann es einfacher sein, für den Interpolator
90 in L i g. I eine Ausführung mit einem Rechner slall einer speziell ausgebildeten Schaltungsanordnung
zu verwenden. Wenn jedoch ein Rechner in der Anlage benutzt wird, können zusätzliche Merkmale
vom Rechner verwirklieht werden, wodurch der I 'mlaiig der erforderlichen Schaitungsanoriinungen
kleiner wird. Beispielsweise sind die arithmetischen
Operationen, die in der Einrichtung zur Tonhöhenanzeige
und zur Tonhöhenänderung benutzt werden, -,ehr einfach, und Rechnelprogramme, die zur Verwirklichung
der Tonhöhensleuerung benut/l werden, sind einfach und dem l'achmann bekannt. Auf einsprechende
Weise kann der Speicher 30 in den Rechner übernommen werden. (iieichesgill für den Phasen-
\ocoder-Anal\salor und den grollten Teil des Phasen- \ocoder-S\nlhetisierers. Talsächlich wiril entsprechend
dem eingangs erwähnten Aufsatz von Ca r I-s
ο η ein Rechner zur Verwirklichung des Phasenvocoder-Analysierers und -synthetisierers benutzt. Ts wird
dazu auch auf die Rechner-Simulation eines Phasenvocoders Bezug genommen, die in dem oben beschriebenen
Aufsatz »Phase Vocoder» auf Seile I4')6 beschrieben ist.
Hierzu 3 IiI.ill Ze luinuen
Claims (8)
- Patentansprüche:I. Verfahren /um Synthetisieren einer natürlich klingenden Sprachnachrichl aus gespeicherten, ein Vokabular von Wörtern darstellenden elekirischen Signalen mit den Verrahrcnsschritten: Gewinnen und Verknüpfen gewühlter Teile der Signale, Ahändern der verknüpften Signale hinsichtlich ihrer Zeitdauer und bezüglich der Tonhöhe und Umwandeln der abgeänderten Signale in hörbare Sprache, gekennzeichnet durch die Verfahrensschrilte Speichern von Signalen, welche die Kurzzeit-Fourier-Transformationsparameter und Phasenableilparameter sind, die sich aus einer Phasenvocoder-Codierung des Vokabuiars von Wörtern ergeben, Gewinnen aus den gespeicherten Signalen von zeitdauerveränderten Signalen, welche die Sprachnachricht darstellen. Verändern der Phasenableitparametcr der verknüpften .S'anale zur Beeinflussung der Tonhöhe der hörh.irvn Sprache.
- 2. Verfahren nach Anspruch !,dadurch gekennzeichnet, daß die Signale /ur Beeinflussung der Dauer der Sprache mehrfach gewonnen werden.
- 3. Verfahren nach Anspruch I oder 2. gekennzeichnet durch Interpolieren der Kurzzeil-Foiiricr-Transformationsparamclcr entsprechend vorgegebenen Regeln unter Ansprechen auf zugefiihrte Zeitdauer-Steuersignale und die veränderten Phasenableilparameter, um eine glatte Spektrum-Hiillkurvc /v erreichen.
- 4. Elektrische Schaltungsanordnung /um Synthetisieren einer nuüirlich Klingenden Sprachnachricht entsprechend ctem Verfahren nach Anspruch I mit einem Speicher, er ein Vokabular von Wörtern darstellende Signale speichert, einer Gewinn- und Vcrknüpfungseinrichtung für gewählte Teile der Signale, einer Abänderungseinrichtimg für die verknüpften Signale hinsichtlich ihrer Zeitdauer und bezüglich der Tonhöhe und einer Umwandltingscinrichtung, die die abgeänderten Signale in hörbare Sprache umwandeil, dadurch gekennzeichnet, daß eine Signalspeicheriiiul Ziigriffscinrichtung (30) vorhanden ist. die Signale (,SV',) für die Kurz/eii-Fourier-Transformalionsparameter und Phascnablcitparameter /11 speichern, die sich aus einer Phascnvocoder-C'odierimg des Vokabulars von Wörtern ergeben, daß eine Steuerschaltung (40) vorhanden isl. die einen Interpolator (90) veranlaßt. Signale /u gewinnen und die Dauer der gewählten Signale /11 ändern, und daß eine Tonhöhenveründcrungseinrichtung (60) vorhanden ist. die die gewonnenen Signale durch Ändern der Phasenableitparameler abwandelt, um die Tonhöhe tier Sprache /11 becinllussen.
- 5. Schaltungsanordnung nach Anspruch 4. dadurch gekennzeichnet, daß die Steuerschaltung (40) Schaltungen (403 412) enthält, um ein gewühltes Signal mehrere Male /11 gewinnen.
- (1. Schaltungsanordnung nach Anspruch 4 oder 5. dadurch gekennzeichnet, daß die TonliöliciiäiHlerungseinrichliing (60) Aililicrschaltiingen (611 aufweist, die zu jedem Phasenableitsignal ein geeignet zugeordnetes Trei|uen/signalf<0addieren. und Mullipli/ierschallungen (62). die jedes der addierten Signale mit einem zugeführlen I iMihöhen-Sleuersiunal [K..) multiplizieren.
- 7. Schaltungsanordnung nach Anspruch fi, dadurch gekennzeichnet, daß Touhöhen-Mulliplikalionsschaltungen (63, 67) vorhanden sind, die unter Ansprechen auf ein zugcführtes Tonhöhen-Steuersignal [K1,) und auf die Multiplizierschaltungen (62) einen Miiltiplikalii.nsfaktor zur Tonhöhenveränderung errechnen, und daß Multiplizierer (62) vorhanden sind, um jedes der addierten Signale mit dem MulliplikationsfaJaor zu multiplizieren.
- 8. Schaltungsanordnung nach einem der Ansprüche 4 bis 7, dadurch gekennzeichnet, daß der Interpolator (90) sekundäre Inierpolatoren (91) zur Abänderung jeder Komponente der Kurzzeil-Fourier-Transformalionsparameter aufweist, um den Tonhöhen- und Zeitdaueränderungcn in benachbarten Komponenten der Kurzzeit-Fourier-Transformationsparameler Rechnung zu 'ragen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/476,577 US3982070A (en) | 1974-06-05 | 1974-06-05 | Phase vocoder speech synthesis system |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2524497A1 DE2524497A1 (de) | 1975-12-18 |
DE2524497B2 true DE2524497B2 (de) | 1978-12-14 |
DE2524497C3 DE2524497C3 (de) | 1979-08-09 |
Family
ID=23892415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2524497A Expired DE2524497C3 (de) | 1974-06-05 | 1975-06-03 | Verfahren und Schaltungsanordnung zur Sprachsynthese |
Country Status (4)
Country | Link |
---|---|
US (1) | US3982070A (de) |
JP (1) | JPS516407A (de) |
CA (1) | CA1046642A (de) |
DE (1) | DE2524497C3 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2854601A1 (de) * | 1977-12-16 | 1979-06-21 | Sanyo Electric Co | Ton-synthesizer und verfahren zur ton-aufbereitung |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3995116A (en) * | 1974-11-18 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Emphasis controlled speech synthesizer |
US4076958A (en) * | 1976-09-13 | 1978-02-28 | E-Systems, Inc. | Signal synthesizer spectrum contour scaler |
US4189779A (en) * | 1978-04-28 | 1980-02-19 | Texas Instruments Incorporated | Parameter interpolator for speech synthesis circuit |
JPS5570783A (en) * | 1978-11-22 | 1980-05-28 | Sharp Corp | Sound information clock |
JPS55111995A (en) * | 1979-02-20 | 1980-08-29 | Sharp Kk | Method and device for voice synthesis |
US4281994A (en) * | 1979-12-26 | 1981-08-04 | The Singer Company | Aircraft simulator digital audio system |
US4441201A (en) * | 1980-02-04 | 1984-04-03 | Texas Instruments Incorporated | Speech synthesis system utilizing variable frame rate |
JPS56119909A (en) * | 1980-02-22 | 1981-09-19 | Victor Co Of Japan Ltd | Reproducing device for speed variable digital signal |
JPS5863327A (ja) * | 1981-10-12 | 1983-04-15 | 三菱農機株式会社 | コンバインにおける脱穀部扱胴の変速表示装置 |
US4415767A (en) * | 1981-10-19 | 1983-11-15 | Votan | Method and apparatus for speech recognition and reproduction |
US4624012A (en) | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
US4815135A (en) * | 1984-07-10 | 1989-03-21 | Nec Corporation | Speech signal processor |
US4937873A (en) * | 1985-03-18 | 1990-06-26 | Massachusetts Institute Of Technology | Computationally efficient sine wave synthesis for acoustic waveform processing |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
USRE34247E (en) * | 1985-12-26 | 1993-05-11 | At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
JPH0754440B2 (ja) * | 1986-06-09 | 1995-06-07 | 日本電気株式会社 | 音声分析合成装置 |
US5009143A (en) * | 1987-04-22 | 1991-04-23 | Knopp John V | Eigenvector synthesizer |
US5179626A (en) * | 1988-04-08 | 1993-01-12 | At&T Bell Laboratories | Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis |
US5081681B1 (en) * | 1989-11-30 | 1995-08-15 | Digital Voice Systems Inc | Method and apparatus for phase synthesis for speech processing |
US5388181A (en) * | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
US5425130A (en) * | 1990-07-11 | 1995-06-13 | Lockheed Sanders, Inc. | Apparatus for transforming voice using neural networks |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5664051A (en) * | 1990-09-24 | 1997-09-02 | Digital Voice Systems, Inc. | Method and apparatus for phase synthesis for speech processing |
US5630011A (en) * | 1990-12-05 | 1997-05-13 | Digital Voice Systems, Inc. | Quantization of harmonic amplitudes representing speech |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
US5247579A (en) * | 1990-12-05 | 1993-09-21 | Digital Voice Systems, Inc. | Methods for speech transmission |
US5517511A (en) * | 1992-11-30 | 1996-05-14 | Digital Voice Systems, Inc. | Digital transmission of acoustic signals over a noisy communication channel |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US6246774B1 (en) | 1994-11-02 | 2001-06-12 | Advanced Micro Devices, Inc. | Wavetable audio synthesizer with multiple volume components and two modes of stereo positioning |
AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US5754974A (en) * | 1995-02-22 | 1998-05-19 | Digital Voice Systems, Inc | Spectral magnitude representation for multi-band excitation speech coders |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
DE69612958T2 (de) * | 1995-11-22 | 2001-11-29 | Koninkl Philips Electronics Nv | Verfahren und vorrichtung zur resynthetisierung eines sprachsignals |
US5839099A (en) * | 1996-06-11 | 1998-11-17 | Guvolt, Inc. | Signal conditioning apparatus |
US5928311A (en) * | 1996-09-13 | 1999-07-27 | Intel Corporation | Method and apparatus for constructing a digital filter |
US5870704A (en) * | 1996-11-07 | 1999-02-09 | Creative Technology Ltd. | Frequency-domain spectral envelope estimation for monophonic and polyphonic signals |
US5915237A (en) * | 1996-12-13 | 1999-06-22 | Intel Corporation | Representing speech using MIDI |
US6161089A (en) * | 1997-03-14 | 2000-12-12 | Digital Voice Systems, Inc. | Multi-subframe quantization of spectral parameters |
US6131084A (en) * | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6199037B1 (en) | 1997-12-04 | 2001-03-06 | Digital Voice Systems, Inc. | Joint quantization of speech subframe voicing metrics and fundamental frequencies |
US6182042B1 (en) | 1998-07-07 | 2001-01-30 | Creative Technology Ltd. | Sound modification employing spectral warping techniques |
US6324501B1 (en) * | 1999-08-18 | 2001-11-27 | At&T Corp. | Signal dependent speech modifications |
US6526325B1 (en) * | 1999-10-15 | 2003-02-25 | Creative Technology Ltd. | Pitch-Preserved digital audio playback synchronized to asynchronous clock |
US6377916B1 (en) | 1999-11-29 | 2002-04-23 | Digital Voice Systems, Inc. | Multiband harmonic transform coder |
EP1160764A1 (de) | 2000-06-02 | 2001-12-05 | Sony France S.A. | Morphologische Kategorien für Sprachsynthese |
HUE062540T2 (hu) * | 2011-02-18 | 2023-11-28 | Ntt Docomo Inc | Beszédkódoló és beszédkódolási eljárás |
US9865247B2 (en) | 2014-07-03 | 2018-01-09 | Google Inc. | Devices and methods for use of phase information in speech synthesis systems |
EP2988300A1 (de) | 2014-08-18 | 2016-02-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Schalten von Abtastraten bei Audioverarbeitungsvorrichtungen |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3360610A (en) * | 1964-05-07 | 1967-12-26 | Bell Telephone Labor Inc | Bandwidth compression utilizing magnitude and phase coded signals representative of the input signal |
US3369077A (en) * | 1964-06-09 | 1968-02-13 | Ibm | Pitch modification of audio waveforms |
AT258366B (de) * | 1964-10-16 | 1967-11-27 | Ibm Oesterreich Internationale | Anordnung zur Umformung der Kanalwerte eines impulserregten Kanalvocoders |
US3828132A (en) * | 1970-10-30 | 1974-08-06 | Bell Telephone Labor Inc | Speech synthesis by concatenation of formant encoded words |
-
1974
- 1974-06-05 US US05/476,577 patent/US3982070A/en not_active Expired - Lifetime
-
1975
- 1975-06-03 DE DE2524497A patent/DE2524497C3/de not_active Expired
- 1975-06-04 CA CA228,526A patent/CA1046642A/en not_active Expired
- 1975-06-05 JP JP50067135A patent/JPS516407A/ja active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2854601A1 (de) * | 1977-12-16 | 1979-06-21 | Sanyo Electric Co | Ton-synthesizer und verfahren zur ton-aufbereitung |
Also Published As
Publication number | Publication date |
---|---|
US3982070A (en) | 1976-09-21 |
CA1046642A (en) | 1979-01-16 |
USB476577I5 (de) | 1976-01-20 |
DE2524497A1 (de) | 1975-12-18 |
DE2524497C3 (de) | 1979-08-09 |
JPS5533079B2 (de) | 1980-08-28 |
JPS516407A (en) | 1976-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2524497B2 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
DE2934489C2 (de) | ||
DE602005002833T2 (de) | Kompensation von multikanal-audio energieverlusten | |
DE69910239T2 (de) | Verfahren und vorrichtung zur adaptiven bandbreitenabhängigen grundfrequenzsuche für die kodierung breitbandiger signale | |
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DE3115859C2 (de) | ||
DE2919085C2 (de) | Vorverarbeitungsverfahren und -vorrichtung für eine Spracherkennungsvorrichtung | |
DE2229149A1 (de) | Verfahren zur Übertragung von Sprache | |
EP1016319B1 (de) | Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals | |
DE2404431B2 (de) | Elektronisches Musikinstrument | |
DE2622423C3 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
DE69033510T3 (de) | Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
DE1965480B2 (de) | Geraet zur umwandlung eines in graphischen zeichen gedruckten textes in gesprochene worte | |
DE3019823C2 (de) | ||
DE60016305T2 (de) | Verfahren zum Betrieb eines Sprachkodierers | |
DE3929481A1 (de) | Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen | |
DE3226619A1 (de) | Modulationseffektvorrichtung | |
DE2826570C2 (de) | ||
EP0340301B1 (de) | Digitales adaptives transformationscodierverfahren | |
DE3037276C2 (de) | Tonsynthesizer | |
DE3115884C2 (de) | ||
DE2649540A1 (de) | Verfahren und anordnung zur sprachsynthese | |
DE2435654C2 (de) | Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache | |
EP0075311B1 (de) | Anordnung zur Übertragung von Sprache nach dem Kanalvocoderprinzip |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |