DE4033350A1 - Verfahren und vorrichtung fuer die sprachverarbeitung - Google Patents
Verfahren und vorrichtung fuer die sprachverarbeitungInfo
- Publication number
- DE4033350A1 DE4033350A1 DE4033350A DE4033350A DE4033350A1 DE 4033350 A1 DE4033350 A1 DE 4033350A1 DE 4033350 A DE4033350 A DE 4033350A DE 4033350 A DE4033350 A DE 4033350A DE 4033350 A1 DE4033350 A1 DE 4033350A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- compressibility
- transfer function
- synthesis
- linear transfer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Description
Die Erfindung bezieht sich auf ein Verfahren und eine
Vorrichtung für die Sprachverarbeitung und insbesondere auf
ein Sprachverarbeitungsverfahren und eine Vorrichtung,
womit Sprache in hoher Qualität und Sprache durch Verändern
der Sprachqualität synthetisierbar ist.
Fig. 2 zeigt den prinzipiellen Aufbau einer Sprachsynthese-
Vorrichtung. Im allgemeinen umfaßt eine Spracherzeugungs-
Vorrichtung einen Tonquellen-Abschnitt, der durch einen Im
pulsgenerator 2 und einen Rauschgenerator 3 gebildet wird,
und einen Synthese-Filter 4, der die Resonanz-Eigenschaften
eines Stimmverlaufs zum Ausdruck bringt, dem eine Eigen
schaft eines Phonems zugrundeliegt. Der Aufbau eines Syn
theseparameterspeichers 1 zur Übermittlung von Parametern
zum Tonquellen-Abschnitt und zum Synthese-Filter ist in
Fig. 3 gezeigt. Sprache wird auf der Basis einer Analyse
fensterlänge von wenigen Millisekunden bis zu einigen
zehn Millisekunden analysiert. Das erhaltene Ergebnis der
Analyse für ein Zeitintervall vom Beginn der Analyse eines
bestimmten Analyse-Fensters bis zum Beginn der Analyse des
nächsten Analyse-Fensters wird im Syntheseparameterspeicher
1 als Daten eines Abschnitts bzw. Blocks gespeichert. Die
Syntheseparameter umfassen Tonquellenparameter, die eine
Tonhöhe und einen stimmhaften bzw. stimmlosen Zustand ange
ben, und Synthese-Filterkoeffizienten. Bei der Synthese
werden die vorstehend erwähnten Synthese-Parameter eines
Blocks in einem beliebigen Zeitintervall ausgegeben
(normalerweise in einem vorbestimmten Zeitintervall, und
nur dann ein einem beliebigen Zeitintervall, wenn das Inter
vall zwischen den Analyse-Fenstern geändert wird), wobei
eine synthetisierte Sprache erhalten wird. Bekannte Sprach
analyse-Verfahren sind beispielsweise PARCOR, LPC, LSP,
Formant, Cepstrum und dergleichen.
Heutzutage herrscht die Meinung, daß von den vorstehend er
wähnten Analyse/Synthese-Verfahren das LSP- und das Cep
strum-Verfahren die höchsten Synthese-Qualitäten aufweisen.
Obwohl beim LSP-Verfahren die entsprechende Beziehung zwi
schen der Spektrum-Hüllkurve und den Artikulations-Parame
tern gut ist, basieren die Parameter in ähnlicher Weise wie
beim PARCOR-Verfahren auf dem Allpol-Modell. Daher wird be
obachtet, daß ein kleines Problem auftritt, wenn das LSP-
Verfahren für eine Regel-Synthese oder dergleichen verwen
det wird. Andererseits wird beim Cepstrum-Verfahren ein
Cepstrum, das durch die Fourier-Koeffizienten eines log
arithmischen Spektrums definiert ist, als Synthese-Filter
koeffizient verwendet. Wenn beim Cepstrum-Verfahren ein
Cepstrum unter Verwendung einer Hüllkurven-Information ei
nes logarithmischen Spektrums erhalten wird, ist die Quali
tät der synthetisierten Sprache sehr hoch. Da das Cepstrum-
Verfahren obendrein - anders als bei einem linearen Prädik
tor-Verfahren - vom Pol-Nullstellen-Typ ist, bei dem der
Grad von Zähler und Nenner einer Übertragungsfunktion
gleich sind, sind die Interpolationseigenschaften gut, und
somit ist ein Cepstrum auch als Synthese-Parameter für eine
Regel-Synthesevorrichtung geeignet.
Bei einem normalen Cepstrum ist es jedoch notwendig, den
Analyse-Grad auf einen hohen Wert zu setzen, um eine syn
thetisierte Sprache von hoher Qualität auszugeben. Wenn je
doch der Analyse-Grad erhöht wird, steigt die Kapazität des
Parameter-Speichers, so daß dies unerwünscht ist. Wenn des
halb die Parameter bei einer hohen Frequenz in Übereinstim
mung mit der Frequenzauflösung des menschlichen Gehörsinns
ausgedünnt (die Auflösung ist hoch bei niedrigen Frequenzen
und niedrig bei hohen Frequenzen) und die extrahierten Pa
rameter verwendet werden, kann der Speicher effizient ge
nutzt werden. Der Ausdünnungsprozeß der Parameter in Über
einstimmung mit der Frequenzauflösung des menschlichen Ge
hörsinns wird durch Frequenzumsetzung in das normale Cep
strum unter Verwendung einer Mel-Skala durchgeführt. Der
durch Frequenzumsetzung des Cepstrum-Koeffizienten unter
Verwendung der Mel-Skala erhaltene Mel-Cepstrum-Koeffizient
ist durch den Fourier-Koeffizienten des logarithmischen
Spektrums in einem nicht-linearen Frequenz-Speicher defi
niert.
Die Mel-Skala ist eine nicht-lineare Frequenz-Skala, der
die Frequenzauflösung des menschlichen Gehörsinns nach Ste
vens zugrundeliegt. Im allgemeinen wird die Skala benutzt,
die näherungsweise durch die Phasen-Eigenschaften eines
Allpaß-Filters ausgedrückt wird.
Eine Übertragungsfunktion des Allpaß-Filters wird durch
-1 = (Z-1 - α) / (1 - αZ-1), | α | <1 (1)
ausgedrückt, und seine Phasen-Eigenschaften sind folgende:
= Ω + 2 tan-1 {α* sin Ω/ (1 - α* cos Ω)} (2)
= e Ω, Z = ej Ω
= 2 π T, Ω = 2 πf T
Mit Ω, f und T sind dabei eine normierte Winkelfrequenz,
eine Frequenz bzw. eine Abtastperiode bezeichnet. Wenn die
Abtastfrequenz auf 10 kHz gesetzt wird, ist durch Setzen
von α = 0,35 die Umsetzung in eine Frequenz möglich, die
der Mel-Skala sehr nahe kommt.
Fig. 4 zeigt ein Ablaufdiagramm für die Extrahierung eines
Mel-Cepstrum-Parameters. Fig. 5 zeigt den Zustand, in dem
das Spektrum Mel-konvertiert ist. Fig. 5A zeigt ein log
arithmisches Spektrum nach der Beendigung der Fourier-
Transformation. Fig. 5B zeigt eine Spektrum-Hüllkurve, die
durch die Spitzenwerte eines geglätteten Spektrums und ei
nes logarithmischen Spektrums verläuft. Fig. 5C zeigt ein
Diagramm, in dem der Fall dargestellt ist, in dem die Spek
trum-Hüllkurve aus Fig. 5B einer nicht-linearen Frequenzum
setzung unter Verwendung der Gleichung (1) unterzogen wor
den ist, wobei α = 0,35 gewählt und die Frequenzauflösung
für tiefe Töne erhöht wurde. Da die Ω-Skala in den Fig. 5B
und 5C in gleichmäßige Intervalle unterteilt ist, ist die
Spektrum-Hüllkurve bei niedrigen Frequenzen erhöht und bei
hohen Frequenzen komprimiert. Bisher wurde der Wert für α
in der Synthesevorrichtung festgelegt, und die Tonquellen-
Parameter und die Synthese-Filterkoeffizienten, die in Fig. 3
gezeigt sind, wurden vom Syntheseparameter-Speicher 1
übertragen.
Obwohl gemäß dem Verfahren, bei dem die Mel-Frequenz an
genähert wird, die Parameter infolge der Komprimierung des
hohen Frequenzbereichs effizient komprimiert werden können,
wird ein solches Verfahren als ungeeignet und für die Synthese
einer weiblichen Stimme mit einer Eigenschaft in einem ho
hen Frequenzbereich angesehen. Sogar für eine tiefe Stimme
wie eine männliche Stimme existiert für den Fall, daß ein
Sprachelement wie beispielsweise "cha", "chu", "cho",
"hya", "hyu" oder "hyo" mit Spracheigenschaften in einem
relativ hohen Frequenzbereich synthetisiert wird oder der
gleichen, eine Tendenz dahingehend, daß die Klarheit eines
Konsonantenabschnitts verschlechtert ist.
Der Erfindung liegt die Aufgabe zugrunde, eine Sprachverar
beitungsvorrichtung zu schaffen, die in der Lage sind, die
Klarheit eines Konsonantenabschnitts zu erhöhen und Sprache
in hoher Qualität zu synthetisieren.
Außerdem soll eine Sprachverarbeitungsvorrichtung geschaf
fen werden, die allein durch Umsetzung der Komprimierbar
keit den Sprachton verändern kann.
Um jedes der Phoneme, aus denen eine Sprache aufgebaut ist,
um einen optimalen Wert zu komprimieren, ist erfindungsge
mäß eine Vorrichtung zum Extrahieren eines Wertes vorgese
hen, in der, wenn eine Sprachinformation komprimiert wird,
eine einem jeden Phonem entsprechende Komprimierbarkeit als
ein Koeffizient einer nicht-linearen Übertragungsfunktion
festgelegt wird.
Um jedes der Phoneme, aus denen eine Sprache aufgebaut ist,
um einen optimalen Wert zu komprimieren, wird erfindungsge
mäß ein Verfahren zum Extrahieren eines Wertes angewandt,
bei dem, wenn eine Sprachinformation komprimiert wird, eine
einem jeden Phonem entsprechende Komprimierbarkeit als ein
Koeffizient einer nicht-linearen Übertragungsfunktion fest
gelegt wird.
Zur Veränderung des Sprachtons ist erfindungsgemäß eine
Vorrichtung zum Umsetzen der Komprimierbarkeit bei der Ana
lyse und zum Synthetisieren der Sprache mit der Komprimier
barkeit nach der Umsetzung vorgesehen.
Zur Veränderung des Sprachtons wird erfindungsgemäß ein
Verfahren zum Umsetzen der Komprimierbarkeit bei der Ana
lyse und zum Synthetisieren der Sprache mit der Komprimier
barkeit nach der Umsetzung angewandt.
Die Erfindung wird im folgenden anhand von Ausführungsbei
spielen unter Bezugnahme auf die Zeichnung näher erläutert. Es zeigt
Fig. 1A den Aufbau einer Sprachsynthesevorrichtung gemäß
einem prinzipiellen Ausführungsbeispiel,
Fig. 1B den Aufbau von Daten in einem in Fig. 1A gezeigten
Syntheseparameterspeicher,
Fig. 1C den Systemaufbau gemäß einem prinzipiellen Ausfü
rungsbeispiel,
Fig. 1D den Aufbau einer Tabelle zum Auffinden des Grades
eines Cepstrum-Koeffizienten anhand des Wertes von αi,
Fig. 1E die Darstellung des Falls, daß beim Interpolieren
des Bereichs zwischen den in Fig. 1B gezeigten Blöcken mit
unterschiedlichem Grad Nullen in die Daten eingefügt wer
den,
Fig. 1F die Darstellung des Spektrums eines Original-Klangs
und einer synthetisierten Sprache für den Fall, daß der
Wert von α bei Analyse und Synthese verschieden ist,
Fig. 2 den Aufbau einer herkömmlichen Sprachsynthesevor
richtung,
Fig. 3 den Aufbau von Daten in einem herkömmlichen Synthese
parameterspeicher,
Fig. 4 ein Ablaufdiagramm der Extrahierung und Analyse ei
nes Syntheseparameters für die Ausführung einer nicht-li
nearen Frequenzumsetzung,
Fig. 5A die Darstellung eines in Fig. 4 erwähnten logarith
mischen Spektrums,
Fig. 5B die Darstellung einer Spektrum-Hüllkurve, die durch
ein in Fig. 4 erwähntes verbessertes Cepstrum-Verfahren er
halten wird,
Fig. 5C die Darstellung des Ergebnisses für den Fall, daß
die in Fig. 5B gezeigte Spektrum-Hüllkurve einer nicht-li
nearen Frequenzumsetzung unterzogen wurde,
Fig. 6 die Darstellung eines Beispiels, bei dem der Grad
eines Syntheseparameters für ein Phonem und der Wert von α
einander entsprechend festgesetzt wurden, um die Klarheit
eines Konsonantenabschnitts zu verbessern,
Fig. 7A eine Tabelle zur Umsetzung des Wertes von α in Ab
hängigkeit von einer Tonhöhe,
Fig. 7B eine Tabelle zur Umsetzung des Wertes von α in Ab
hängigkeit von einem Energie-Term,
Fig. 8 eine Gleichung für die α-Modulation zur Veränderung
der Stimmqualität von Sprache,
Fig. 9 die Darstellung der Wellenform von α zum Aufzeigen
des Modulationszustandes,
Fig. 10A ein Haupt-Ablaufdiagramm, das den Ablauf der
Sprachanalyse zeigt,
Fig. 10B ein Ablaufdiagramm, das die Analyse von Sprache
und die in Fig. 10A erwähnte Extrahierung von Synthese-Fil
terkoeffizienten zeigt,
Fig. 10C ein Ablaufdiagramm, das die in Fig. 10B erwähnte
Extrahierung einer Spektrum-Hüllkurve einer eingegebenen
Sprach-Hüllkurve zeigt,
Fig. 10D ein Ablaufdiagramm, das die Extrahierung von den
in Fig. 10B erwähnten Synthese-Filterkoeffizienten von
Sprache zeigt,
Fig. 11A ein Ablaufdiagramm, das die Sprachsynthese für den
Fall zeigt, daß eine Grad-Umsetzungstabelle existiert,
Fig. 11B ein Ablaufdiagramm für eine Syntheseparameter-
Übertragungssteuervorrichtung,
Fig. 11C ein Ablaufdiagramm, das den Betriebsablauf der
Sprachsynthesevorrichtung zeigt, und
Fig. 12 die Darstellung eines Aufbaus eines logarithmischen
Mel-Spektrum-Approximationsfilters.
Fig. 1 zeigt den Aufbau eines Ausführungsbeispiels. Fig. 1A
zeigt den Aufbau einer Sprachsynthesevorrichtung, Fig. 1B
zeigt den Aufbau von Daten in einem Syntheseparameterspei
cher und Fig. 1C zeigt den Systemaufbau der gesamten
Sprachsynthesevorrichtung. Der Betriebsablauf wird im De
tail unter Bezugnahme auf die in Fig. 10 und 11 gezeigten
Ablaufdiagramme beschrieben. Bei dem in Fig. 1C gezeigten
Systemaufbau wird über ein Mikrofon 200 eine Sprachsignal-
Kurvenform eingegeben. Nur die niedrigen Frequenzanteile
können einen Tiefpaßfilter 201 passieren. Ein analoges Ein
gangssignal wird durch einen Analog/Digital-Umsetzer 202 in
ein digitales System umgesetzt. Das digitale Signal wird
folgendermaßen übertragen: über eine Schnittstelle 203 zur
Durchführung der Übertragung und des Empfangs zu bzw. von
einer zentralen Recheneinheit (CPU) 205 für die Steuerung
des Betriebs der gesamten Vorrichtung gemäß einem Spei
cher 204 gespeicherten Programmen; über eine Schnittstelle
206 zur Durchführung der Übertragung und des Empfangs zu
bzw. von einer Anzeigevorrichtung 207, einer Tastatur 208
und der zentralen Recheneinheit 205; über einen Digi
tal/Analog-Umsetzer 209 zur Umwandlung der digitalen Si
gnale von der zentralen Recheneinheit 205 in ein analoges
Signal; über einen Tiefpaßfilter 210, um nur die niedrigen
Frequenzanteile passieren zu lassen; und über einen Ver
stärker 211. Auf diese Weise wird durch einen Lautsprecher
212 ein Sprachsignal ausgegeben.
Ähnlich wie die in Fig. 2 gezeigte herkömmliche Sprachsyn
thesevorrichtung ist die in Fig. 1A gezeigte Sprachsynthe
sevorrichtung so aufgebaut, daß das über das Mikrofon 200
eingegebene Sprachsignal von der zentralen Recheneinheit
205 analysiert wird, und die Daten als Ergebnis der Analyse
Abschnitt für Abschnitt bzw. Block für Block durch eine
Syntheseparameterübertragungs-Steuervorrichtung 101 in vor
bestimmten Blockzeitdauer-Intervallen von einem Synthesepa
rameterspeicher 100 zu einer Sprachsynthesevorrichtung 105
übertragen werden. Der Betriebsablauf der Sprachanalyse ist
in dem in Fig. 10 gezeigten Ablaufdiagramm dargestellt und
wird nun detailliert erläutert. In Fig. 10A ist ein Haupt
ablaufdiagramm dargestellt, das den Ablauf der Sprachana
lyse zeigt. In Fig. 10B ist ein Ablaufdiagramm dargestellt,
das den Ablauf der Sprachanalyse und den Ablauf der Extra
hierung von Synthese-Filterkoeffizienten zeigt. In Fig. 10C
ist ein Ablaufdiagramm dargestellt, das den Ablauf der Ex
trahierung einer Spektrum-Hüllkurve einer eingegebenen
Sprachsignal-Kurvenform zeigt. In Fig. 10D ist ein Ablauf
diagramm dargestellt, das den Ablauf der Extrahierung von
Sprachsynthese-Filterkoeffizienten zeigt. Von der eingege
benen Sprachsignal-Kurvenform wird die in einem Zeitinter
vall von einem Zeitpunkt, zu dem die Analyse eines bestimm
ten Analyse-Fensters gestartet wurde bis zu einem Zeit
punkt, zu dem die Analyse des nächsten Analyse-Fensters ge
startet wird, erhaltene Kurvenform als ein Abschnitt bzw.
Block festgelegt. Das eingegebene Sprachsignal wird danach
auf der Basis einer Blockeinheit analysiert und syntheti
siert. In dem in Fig. 10 gezeigten Ablaufdiagramm wird als
erstes eine Blocknummer i auf 0 gesetzt (Schritt S1). Dann
wird die Blocknummer aktualisiert (S2). Die Daten eines
Blocks werden in die zentrale Recheneinheit 205 eingegeben
(S3), durch die das eingegebene Sprachsignal analysiert
wird und die Synthese-Filterkoeffizienten extrahiert werden
(S4). Um die Sprache zu analysieren und die Synthese-Fil
terkoeffizienten zu extrahieren, wird aus der eingegebenen
Sprachsignal-Kurvenform eine Spektrum-Hüllkurve (S8) und
die Synthese-Filterkoeffizienten (S9) extrahiert. In dem in
Fig. 10C dargestellten Ablaufdiagramm ist ein Programm zur
Extrahierung der Spektrum-Hüllkurve gezeigt. Zuerst wird
ein bestimmtes spezielles Fenster für die eingegebene
Sprachsignal-Kurvenform gebildet, um die Daten der Länge
eines Blocks als ein Signal von finiter Länge zu betrach
ten (S10). Dann wird das eingegebene Sprachsignal einer
Fourier-Transformation unterworfen (S11), eine Logarithmus-
Berechnung durchgeführt (S12) und der logarithmische Wert
als logarithmisches Spektrum X(Ω) in einem Pufferspeicher
im Speicher 204 gespeichert (S13). Dann wird eine inverse
Fourier-Transformation ausgeführt (S14) und der resultie
rende Wert wird als ein Cepstrum-Koeffizient C(n) festge
setzt. Um den Cepstrum-Koeffizient C(n) zu glätten, wird
er an einem bestimmten speziellen Fenster herausgeschnitten
(Liftering) (S15). Die Blocknummer i in Fig. 10C wird auf 0
gesetzt (S16). Das durch die Ausführung der Fourier-Trans
formation erhaltene Ergebnis wird als geglättetes Spektrum
Si(Ω) festgesetzt (S17). Das geglättete Spektrum Si(Ω) wird
von dem im Pufferspeicher gespeicherten X(Ω) subtrahiert
und der negative Wert wird gelöscht. Das Ergebnis wird als
Restspektrum Ei(Ω) festgesetzt (S18). Ei(Ω) = (1 + b)*Ei(Ω)
wird bezüglich eines geeigneten Beschleunigungskoeffizien
ten b berechnet (S19). Um aus Ei(Ω) ein geglättetes Spek
trum (Ω) zu erhalten, werden die inverse Fourier-Trans
formation (S20), das Liftering (S21) und die Fourier-Trans
formation (S22) ausgeführt. Si(Ω) + (Ω) werden zu (Ω)
gesetzt (S23). i wird durch i+1 ersetzt (S24). Die Verar
beitung in den Schritten S18 bis S24 wird wiederholt bis i
gleich 4 ist (S25). Wenn i gleich 4 ist (S24), wird der
Wert von (Ω) als Spektrum (Ω) festgesetzt. Es ist gün
stig, i auf einen Wert zwischen 3 und 5 zu setzen. Das Pro
gramm zur Extrahierung Synthese-Filterkoeffizienten ist in
dem in Fig. 10D dargestellten Ablaufdiagramm gezeigt. Das
gemäß dem in Fig. 10C gezeigten Ablaufdiagrmm erhaltene
Spektrum (Ω) wird entsprechend den Frequenzeigenschaften
des Gehörsinns in eine Mel-Frequenz umgesetzt. Die Phasen
Charakteristik des Allpaßfilters, der näherungsweise die
Mel-Frequenz hervorbringt, wurde in der Gleichung (2) ge
zeigt. Eine inverse Funktion der Phasen-Charakteristik ist
in der folgenden Gleichung (3) gezeigt. Durch Gleichung (3)
wird eine nicht-lineare Frequenz-Umsetzung durchgeführt
(S27).
Ω = - 2tan-1 {α - sin / (1 + α* cos )} (3)
Label-Information (der Hüllkurve entsprechendes Phonem-Sym
bol) wird vorher zu den Kurvenform-Daten addiert, und der
Wert α wird auf der Basis der Label-Information bestimmt.
Nach der nicht-linearen Frequenz-Umsetzung wird die Spek
trum-Hüllkurve erhalten und einer inversiven Fourier-Trans
formation unterzogen (S28), wobei man einen Cepstrum-Koef
fizienten Ca(m) erhält. Filterkoeffizienten bi(m) (i:
Blocknummer, m: Grad) werden durch folgende Gleichung (4)
erhalten (S29).
bi(m) = Ca(m) + b(Ca(m-1) - b(m+1)) (4)
Die erhaltenen Filter-Koeffizienten bi(m) werden in den
Syntheseparameter-Speicher 100 im Speicher 204 eingespei
chert (S5). Fig. 1B zeigt den Aufbau des Syntheseparameter-
Speichers 100. Als Syntheseparameter eines Blocks der
Blocknummer i gibt es neben U/Vi (stimmhaft/stimmlos)-
Unterscheidungsdaten, Information über einen Rhythmus wie
beispielsweise eine Tonhöhe und dergleichen und Phonemen
eigenen Filterkoeffizienten bi(m) den Wert eines Frequenz-
Umsetzungsverhältnisses αi. Der Wert des Frequenz-Umset
zungsverhältnisses αi ist der Optimalwert, der durch die
zentrale Recheneinheit 205 aufgrund der Analyse der einge
gebenen Sprachsignal-Kurvenform entsprechend jedem Phonem
festgelegt wird. αi ist als ein α-Koeffizient der Übertra
gungsfunktion des in Gleichung (1) gezeigten Allpaßfilters
definiert (i ist eine Blocknummer). Wenn der Wert von α
klein ist, ist auch die Komprimierbarkeit klein. Wenn α
groß ist, ist auch die Komprimierbarkeit groß. Zum Beispiel
ist α ≃ 0,35, wenn eine männliche Stimme bei einer Abtast
frequenz von 10 kHz analysiert wird. Wenn bei der gleichen
Abtastperiode der Wert von α auf einen geringfügig kleine
ren Wert gesetzt wird und der Grad des Cepstrum-Koeffizienten
erhöht wird, wird insbesondere bei der Sprache einer weib
lichen Stimme ein Stimmton mit hoher Klarheit erhalten. Der
Grad des dem Wert von α entsprechenden Cepstrum-Koeffizien
ten wird durch die in Fig. 1D gezeigte Tabelle, die vorher
gebildet wurde, vorherbestimmt. Unter Bezugnahme auf die in
Fig. 1D gezeigte Tabelle überträgt die Syntheseparameter
Übertragungssteuervorrichtung 101 die Daten nur bis zu die
sem Grad vom Syntheseparameterspeicher 100 zur Sprachsyn
thesevorrichtung 105. Wenn die Interpolationsdaten gesendet
werden, bei denen der momentane und der nächste Block auf
der Basis einer Abtastwert-Einheit interpoliert wurden,
kann weiterhin eine gute Sprache erhalten werden. In Fig. 11
ist ein Ablaufdiagramm dargestellt, das den Betrieb der
Sprachsynthese zeigt. Es gibt einen Fall, bei dem der Spei
cher 204 eine Umsetzungstabelle 106 enthält, um bei der
Sprachsynthese die Frequenz-Komprimierbarkeit αi entspre
chend dem Grad des Cepstrum-Koeffizienten festzusetzen, und
einen anderen Fall, bei dem der Speicher 204 keine solche
Umsetzungstabelle enthält. In Fig. 11A ist ein Ablaufdia
gramm dargestellt, das den Sprachsynthese-Ablauf für den
Fall zeigt, wo der Speicher 204 eine Umsetzungstabelle 106
enthält. Zuerst wird durch die zentrale Recheneinheit 205
der Wert der Frequenz-Komprimierbarkeit α der Daten eines
Blocks aus dem Syntheseparameterspeicher 100 im Speicher
204 ausgelesen (S31). Durch die zentrale Recheneinheit 205
wird ein α entsprechender Grad P des Cepstrum-Koeffizienten
aus der Grad-Referenztabelle 106 gelesen (S32). Durch die
zentrale Recheneinheit 205 werden Filterkoeffizienten-Daten
bi(P) lediglich vom Grad P aus dem Syntheseparameterspei
cher 100 gelesen und 0 wird in die verbleibenden Ab
schnitte der Blockdaten Q. Grades eingefügt (30. Grad - P.
Grad = Q. Grad) (S33). Die gebildeten Blockdaten werden in
einem Puffer (neu) im Speicher 204 gespeichert (S34).
In Fig. 11B ist ein Ablaufdiagramm dargestellt, das den Ab
lauf der Sprachsynthese für den Fall zeigt, bei dem der
Speicher 204 keine Grad-Referenztabelle 106 enthält.
Fig. 11B bezieht sich auf den Ablauf, bei dem die Synthese
parameter Übertragungssteuervorrichtung 101 die Daten unter
gleichzeitiger Interpolation zur Sprachsynthesevorrichtung
105 überträgt. Zuerst werden die Daten des Startblocks als
momentane Blockdaten in einen Puffer (alt) des Synthesepa
rameterspeichers 100 im Speicher 204 eingegeben (S35). Dann
werden die Blockdaten des nächsten Blocks in den Puffer
(neu) des Syntheseparameter-Speichers 100 eingespeichert
(S36). Der durch Division der Differenz zwischen dem Puffer
(neu) und dem Puffer (alt) durch die Anzahl n der zu inter
polierenden Abtastwerte erhaltene Wert wird in einen Puffer
(Unterschied) eingespeichert (S37). Der durch Addition des
Puffers (Unterschied) zum momentanen Blockdaten-Puffer
(alt) erhaltene Wert wird in den momentanen Blockdaten-Puf
fer (alt) eingespeichert (S38). In diesem Zustand wartet
die Vorrichtung (S40) bis von der Sprachsynthesevorrichtung
105 eine Übertragungsanforderung ausgegeben wird (S39).
Wenn die Übertragungsanforderung erzeugt worden ist, wird
der momentane Blockdaten-Puffer (alt) zum Synthese-Filter
104 übertragen (S41). Es wird überprüft, ob der momentane
Blockdaten-Puffer (alt) gleich dem nächsten Blockdaten-Puf
fer (neu) ist oder nicht (S42). Wenn sie sich unterschei
den, springt der Programmablauf zurück, und die Vorgänge
gemäß den Schritten S38 bis S42 werden wiederholt bis Puf
fer (alt) = Puffer (neu). Wenn in Schritt S42 entschieden
wird, daß Puffer (alt) = Puffer (neu), tritt der Puffer
(neu) an die Stelle des momentanen Blockdaten-Puffers (alt)
(S43). Es wird überprüft, ob die Übertragung aller Blockda
ten im Syntheseparameterspeicher 100 komplett ist oder
nicht (S44). Wenn nicht, dann springt das Verarbeitungspro
gramm zurück, und die Verarbeitung gemäß den Schritten
S36 bis S44 werden solange wiederholt, bis die Datenüber
tragung abgeschlossen ist. In Fig. 11C ist ein Ablaufdia
gramm dargestellt, das den Betrieb der Sprachsynthesevor
richtung 105 zeigt.
Wenn von der Syntheseparameter-Übertragungsvorrich
tung 101 ein Parameter in die Sprachsynthesevorrichtung 105
eingegeben wurde (S45), werden die U/V-Daten zum Impulsge
nerator 102 gesendet (S46). Die Tonhöhendaten werden zu ei
nem U/V-Schalter 107 geleitet (S47). Die Filter-Koeffizien
ten und der Wert von α werden zu einem Synthese-Filter 104
geleitet (S48). Im Synthese-Filter 104 wird die Synthese-
Filter-Berechnung durchgeführt (S49). Nach der Berechnung
des Synthese-Filters wartet die Vorrichtung bis von einem
Zeitgeber 108 ein Abtastwertausgabe-Zeitgeberimpuls ausge
geben wird (S51). Wenn der Abtastwertausgabe-Zeitgeberim
puls erzeugt wurde (S51), wird das Ergebnis der Berechnung
des Synthese-Filters zum Digital/Analog-Umsetzer 209 ausge
geben (S52). Zur Syntheseparameter-Übertragungssteuervor
richtung 101 wird eine Übertragungsanforderung gesandt
(S53).
Fig. 12 zeigt den Aufbau eines MLSA-Filters. Eine Übertra
gungsfunktion H() des Synthese-Filters 104 hat folgendes
Aussehen:
H() = exp (b(0)/2)*R4(F()) (3)
F() = Z-1 (b(1)+b(2)-1+b(3)-2+ . . . +b(30)-29) (4)
wobei R4 eine Exponentialfunktion bezeichnet, die durch
eine Pad´-Approximation vierten Grades dargestellt wird.
Das heißt, der Synthese-Filter ist von einem Typ, bei dem
die Gleichung (4) durch Gleichung (1) ersetzt wird, und
Gleichung (3) durch Gleichung (4). Durch Verändern des Fre
quenzumsetzungs-Verhältnisses α und des Grades P der Koef
fizienten, die an den in den Gleichungen (1), (3) und (4)
gezeigten Filter gegeben werden, wird die eingegebene Sprache
um die optimale Frequenz-Komprimierbarkeit komprimiert.
Sprache kann durch die erzeugten Filter-Koeffizienten mit
einem jedem Block entsprechenden Frequenzumsetzungsverhält
nis erzeugt werden.
Bei diesem Ausführungsbeispiel wurde die Frequenzumsetzung
durch Verwendung eines primären Allpaß-Filters gemäß Glei
chung (1) durchgeführt. Wenn jedoch ein Synthese-Filter mit
einem Allpaß-Filter höherer Ordnung verwendet wird, kann
die Frequenz bezüglich eines beliebigen Abschnitts der er
haltenen Spektrum-Hüllkurve komprimiert oder expandiert werden.
Im ersten Ausführungsbeispiel wurde Sprache hoher Qualität
erzeugt, indem die Frequenz-Komprimierbarkeit α bei der
Analyse und der Grad P der Filterkoeffizienten den Werten α
und P bei der Synthese entsprechen.
Nachdem bei dem Ausführungsbeispiel die Syntheseparameter,
die analysiert worden waren, indem der Wert der Frequenz
komprimierbarkeit α auf einen konstanten Wert gesetzt
wurde, durch die Syntheseparameter-Übertragungssteuervor
richtung 101 umgesetzt wurden, werden die umgesetzten Syn
theseparameter zur Sprachsynthesevorrichtung 105 übertra
gen, so daß die Tonqualität (Stimmton) verändert wird und
Sprache synthetisiert werden kann. In Fig. 1F ist ein Zu
stand eines Spektrums (enthalten in einem Block) für den
Fall dargestellt, daß der Wert von α geändert wurde. Der
Wert von α wurde bei der Analyse auf αa = 0.35 ge
setzt, und der Wert α für die Synthese wurde auf αs = 0,15,
0,35 und 0,45 verändert. Wenn Sprache unter Durchführung
einer Umsetzung mit αs < αa erzeugt wird, erhält man eine
tiefe Stimme mit Gewichtung der niedrigen Frequenzkomponen
ten. Wenn αs < αa ist, erhält man eine dünne Stimme mit Ge
wichtung der hohen Frequenzkomponenten.
Es gibt folgende Verfahren zur Umsetzung des Wertes von α:
- 1. Ein Verfahren, bei dem eine Umsetzungstabelle zum Verän dern des Wertes von α vorher gebildet wird und nach Beendi gung der Umsetzung der Wert von α, der unter Bezugnahme auf die Umsetzungstabelle erhalten wird, bei der Synthese ver wendet wird.
- 2. Ein Verfahren, bei dem ein veränderter Wert von α ver wendet wird, nachdem der Wert von α durch eine lineare oder nicht-lineare Funktionsgleichung verändert wurde.
Der Wert von α bei der Analyse und der Wert von α bei der
Synthese werden auf den gleichen Wert gesetzt und zur Über
einstimmung gebracht, oder der Wert wird zur Entsprechung
gebracht, nachdem er auf einen anderen Wert umgesetzt wor
den ist. Es gibt verschiedene Entsprechungs-Verfahren. Bei
diesem Ausführungsbeispiel wurden diese Werte auf der Basis
einer Blockeinheit zur Entsprechung gebracht. Jedoch können
sie auch auf der Basis einer Phonemeinheit, einer Silben
einheit oder eines Sprechers zur Entsprechung gebracht wer
den.
Um die Klarheit bei der Synthese zu verbessern, beispiels
weise im Fall /k/j/a/, ist es höchst wünschenswert, die
Klarheit des Konsonantenteils /k/ von "kja" zu verbessern.
Um bei der Analyse die Klarheit des /k/-Abschnitts zu ver
bessern, wird α verkleinert und P erhöht. Die Analyse wird
beispielsweise mit α = 0,21 und P = 30. Grad durchgeführt,
und der Parameter wird im Syntheseparameterspeicher 100 ge
speichert. Wenn der Wert von α allmählich für den /j/-Ab
schnitt erhöht wird, und α = 0,35 und P = 16. Grad für den
/a/-Abschnitt ist, wird eine weiche Blockinterpolation
durchgeführt. Fig. 6 zeigt Veränderungen im Wert des Fre
quenzumsetzungs-Verhältnisses α jedes Blocks und den Grad
der Koeffizienten, die an den Synthese-Filter gegeben wer
den.
Wenn das erste Verfahren zum Verändern des Wertes von α un
ter Verwendung der Umsetzungstabelle angewandt wird, erhält
man, wenn, wie in Fig. 7A gezeigt ist, α bei der Analyse
und α bei der Synthese durch Bestimmung des Wertes α ent
sprechend dem zur Synthesevorrichtung geleiteten Tonhöhen
wert verändert werden, einen Klang, bei dem die niedrigen
Frequenzanteile bei hohen Frequenzen betont werden und
einen Klang, bei dem hohe Frequenzanteile bei niedrigen
Frequenzen betont werden. Wie in Fig. 7B gezeigt ist, kann
entsprechend b(0) für den Fall einer kräftigen Stimme ein
Klang, bei dem die niedrigen Frequenzanteile angehoben
sind, und im Fall einer schwachen Stimme ein Klang, bei dem
die hohen Frequenzanteile angehoben sind, erzeugt und aus
gegeben werden.
Andererseits kann im Fall der Veränderung des Wertes von α
gemäß dem vorstehend erwähnten zweiten Verfahren der Wert
von α bei der Analyse (zur einfacheren Erläuterung: α =
0,35 und P = 16. Grad in allen Blöcken) beispielsweise auf
den Wert gesetzt werden, der bei einer vorbestimmten Periode
bei der Synthese moduliert wird. Durch Vorsehen einer
Einrichtung zur Eingabe einer Modulationsperiode und einer
Modulationsfrequenz (z. B. 0,35 ± 0,1) an die in Fig. 1A
Syntheseparameter-Übertragungssteuervorrichtung 101 wird
die Spektrum-Verteilung der eingegebenen Stimme moduliert
und es kann zeitabhängig eine Sprache ausgegeben werden,
die verschieden von der eingegebenen Sprache ist. Fig. 8
zeigt die Gleichung für die α-Modulation und Fig. 9 zeigt
einen Zustand der α-Modulation.
Es kann ein beliebiges, auf der Amplitude, der Frequenz
oder der Phase basierende α-Modulationsverfahren verwendet
werden. Bezüglich des Modulationsverfahrens kann der Wert
der Amplitudeninformation von Sprache (b(0) in diesem Aus
führungsbeispiel: Filter-Koeffizient des Terms 0. Ordnung)
auch entsprechend dem Wert von α gemacht werden. Beispiels
weise kann der Wert von b(0) des Synthese-Filters auch da
hingehend geändert werden, daß bn(0) = (α - 0,35 + 1) *
bo(0) (wobei bo(0): altes b(0) und bn(0): neues b(0)) unter
Verwendung des in Fig. 9 gezeigten Wertes von α gesetzt
wird.
Auch die Tonhöhe kann so verändert werden, daß Tonhöhen =
(α - 0,35 + 1) * Tonhöheo (wobei Tonhöheo: alt und Tonhöhen:
neu). Der Wert von α kann auch entsprechend dem Ener
gie- bzw. Leistungsterm und dem Wert der Tonhöhe verändert
werden.
Durch den vorstehend beschriebenen Aufbau werden folgende
technische Vorteile erzielt:
Durch Vorsehen einer Vorrichtung zum Einstellen der Kompri
mierbarkeit als ein Koeffizient einer nicht-linearen Über
tragungsfunktion werden die Phoneme um einen jeweiligen Op
timalwert komprimiert, wenn die Sprachinformation auf einem
jedem Phonem einer Sprache entsprechenden Wert komprimiert
wird. Somit kann die Klarheit eines Konsonantenabschnitts
verbessert werden und es kann Sprache hoher Qualität er
zeugt werden.
Durch Anwendung des Verfahrens, bei dem, wenn Sprachinfor
mation komprimiert wird, die Komprimierbarkeit als ein Ko
effizient der nicht-linearen Übertragungsfunktion auf den
Wert gesetzt wird, der jedem der Phoneme einer Sprache ent
spricht, werden die Phoneme um den jeweiligen Optimalwert
komprimiert. Somit ist die Klarheit des Konsonantenab
schnitts verbessert und es kann Sprache von hoher Qualität
erzeugt werden.
Durch Vorsehen einer Vorrichtung zum Umsetzen der Kompri
mierbarkeit bei der Sprachanalyse und einer Vorrichtung zum
Erzeugen von Sprache unter Verwendung der umgesetzten Kom
primierbarkeit kann ein Sprach-Stimmton durch alleiniges
Umsetzen der Komprimierbarkeit verändert werden.
Durch Anwendung des Verfahrens der Umsetzung der Kompri
mierbarkeit bei der Sprachanalyse und des Verfahrens der
Synthese von Sprache unter Verwendung der umgesetzten Kom
primierbarkeit kann der Sprach-Stimmton allein durch Umset
zen der Komprimierbarkeit verändert werden.
Es wurde also eine Sprachverarbeitungsvorrichtung geschaf
fen, die eine Analysevorrichtung zum Analysieren einer ein
gegebenen Sprache, eine Komprimierschaltung zum Komprimie
ren von Sprachinformation, die durch die Analyse der Sprache
gemäß einer nicht-linearen Übertragungsfunktion erhal
ten wird, eine Schaltung, um die Komprimierbarkeit als
Übertragungsfunktions-Koeffizient der Komprimierschaltung
entsprechend jedem der Phoneme oder Blöcke, aus denen sich
Sprache zusammensetzt, festzulegen, und einen Speicher zum
Speichern der Sprachinformation aufweist. Mit der Vorrich
tung wird die Klarheit von Konsonantenabschnitten der ein
gegebenen Sprache verbessert und es kann Sprache von hoher
Qualität erzeugt werden. Der Stimmton von Sprache kann al
lein durch Umsetzen der Komprimierbarkeit verändert werden.
Claims (17)
1. Sprachverarbeitungsvorrichtung, gekennzeichnet durch
eine Analysevorrichtung (204, 205) zum Analysieren von eingegebener Sprache,
eine Komprimierungsvorrichtung (205) zum Komprimieren von Sprachinformation, die durch Analyse der Sprache gemäß einer nicht-linearen Übertragungsfunktion erhalten wurde,
eine Vorrichtung (205), um eine Komprimierbarkeit (α) als Koeffizient der Übertragungsfunktion der Komprimiervor richtung entsprechend jedem der Phoneme oder Blöcke, aus denen eine Sprache zusammengesetzt ist, festzusetzen, und
eine Speichervorrichtung (100; 204) zum Speichern der Sprachinformation.
eine Analysevorrichtung (204, 205) zum Analysieren von eingegebener Sprache,
eine Komprimierungsvorrichtung (205) zum Komprimieren von Sprachinformation, die durch Analyse der Sprache gemäß einer nicht-linearen Übertragungsfunktion erhalten wurde,
eine Vorrichtung (205), um eine Komprimierbarkeit (α) als Koeffizient der Übertragungsfunktion der Komprimiervor richtung entsprechend jedem der Phoneme oder Blöcke, aus denen eine Sprache zusammengesetzt ist, festzusetzen, und
eine Speichervorrichtung (100; 204) zum Speichern der Sprachinformation.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß
-1 = (Z-1 - α) / (1 - αZ-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom
primierbarkeit zu α gesetzt ist.
3. Vorrichtung nach einem der vorhergehenden Ansprüche, da
durch gekennzeichnet, daß die nicht-lineare Übertragungs
funktion eine Frequenzachse erhalten kann, die durch Ein
stellung der Komprimierbarkeit der Frequenzauflösung des
menschlichen Gehörsinns nahekommt.
4. Sprachverarbeitungsverfahren, dadurch gekennzeichnet,
daß eine eingegebene Sprache analysiert wird, um Sprach information zu erhalten und
daß, wenn die Sprachinformation komprimiert wird, eine Komprimierbarkeit als ein Koeffizient einer nicht-li nearen Übertragungsfunktion entsprechend jedem von Phonemen oder Blöcken, aus denen sich eine Sprache zusammensetzt, festgesetzt wird, wobei die Sprachinformation komprimiert und gespeichert wird.
daß eine eingegebene Sprache analysiert wird, um Sprach information zu erhalten und
daß, wenn die Sprachinformation komprimiert wird, eine Komprimierbarkeit als ein Koeffizient einer nicht-li nearen Übertragungsfunktion entsprechend jedem von Phonemen oder Blöcken, aus denen sich eine Sprache zusammensetzt, festgesetzt wird, wobei die Sprachinformation komprimiert und gespeichert wird.
5. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß
Z-1 = (Z-1 - α) / (1 - αZ-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom
primierbarkeit zu α gesetzt ist.
6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet,
daß die nicht-lineare Übertragungsfunktion eine Frequenzachse
erhalten kann, die durch Einstellung der Komprimierbarkeit
der Frequenzauflösung des menschlichen Gehörsinns
nahekommt.
7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch ge
kennzeichnet, daß eine Synthesevorrichtung (105) ein log
arithmisches Spektrum-Approximationsfilter verwendet, bei
dem ein primärer Allpaß-Filter als Verzögerungselement an
gewandt wird.
8. Sprachverarbeitungsvorrichtung, gekennzeichnet durch
eine Vorrichtung (200) zum Lesen von Sprachinforma tion,
eine Umsetzungsvorrichtung (205) zum Umsetzen einer Komprimierbarkeit in der Sprachinformation, und
eine Synthesevorrichtung (105) zum Erzeugen von Sprache gemäß einer nicht-linearen Übertragungsfunktion mit der Komprimierbarkeit.
eine Vorrichtung (200) zum Lesen von Sprachinforma tion,
eine Umsetzungsvorrichtung (205) zum Umsetzen einer Komprimierbarkeit in der Sprachinformation, und
eine Synthesevorrichtung (105) zum Erzeugen von Sprache gemäß einer nicht-linearen Übertragungsfunktion mit der Komprimierbarkeit.
9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet,
daß
-1 = (Z-1 - α) / (1 - αZ-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom
primierbarkeit zu α gesetzt ist.
10. Vorrichtung nach Anspruch 8 oder 9, dadurch gekenn
zeichnet, daß die nicht-lineare Übertragungsfunktion eine
Frequenzachse erhalten kann, die durch Einstellung der Kom
primierbarkeit der Frequenzauflösung des menschlichen Ge
hörsinns nahekommt.
11. Vorrichtung nach einem der Ansprüche 8 bis 10, dadurch
gekennzeichnet, daß auch eine Tabelle oder eine Funktions
gleichung zur Umsetzung der Komprimierbarkeit verwendet
werden können.
12. Vorrichtung nach einem der Ansprüche 8 bis 11, dadurch
gekennzeichnet, daß die Synthesevorrichtung (105) ein log
arithmisches Spektrum-Approximationsfilter verwendet, bei
dem ein primärer Allpaß-Filter als Verzögerungselement an
gewandt wird.
13. Sprachverarbeitungsverfahren, dadurch gekennzeichnet,
daß eine Sprachinformation gelesen wird, eine Komprimier
barkeit in der Sprachinformation umgesetzt wird und eine
Sprache gemäß einer nicht-linearen Übertragungsfunktion mit
dieser Komprimierbarkeit erzeugt wird.
14. Verfahren nach Anspruch 13, dadurch gekennzeichnet,
daß
-1 = (Z-1 - α) / (1 - αZ-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom
primierbarkeit zu α gesetzt ist.
15. Verfahren nach Anspruch 13 oder 14, dadurch gekenn
zeichnet, daß die nicht-lineare Übertragungsfunktion eine
Frequenzachse erhalten kann, die durch Einstellung der Kom
primierbarkeit der Frequenzauflösung des menschlichen Ge
hörsinns nahekommt.
16. Verfahren nach einem der Ansprüche 13 bis 15, dadurch
gekennzeichnet, daß auch eine Tabelle oder eine Funktions
gleichung zur Umsetzung der Komprimierbarkeit verwendet
werden können.
17. Verfahren nach einem der Ansprüche 13 bis 16, dadurch
gekennzeichnet, daß eine Synthesevorrichtung (105) ein log
arithmisches Spektrum-Approximationsfilter verwendet, bei
dem ein primärer Allpaß-Filter als Verzögerungselement an
gewandt wird.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JPP1-274638 | 1989-10-20 | ||
JP1274638A JPH03136100A (ja) | 1989-10-20 | 1989-10-20 | 音声処理方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4033350A1 true DE4033350A1 (de) | 1991-04-25 |
DE4033350B4 DE4033350B4 (de) | 2004-04-08 |
Family
ID=17544493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4033350A Expired - Fee Related DE4033350B4 (de) | 1989-10-20 | 1990-10-19 | Verfahren und Vorrichtung für die Sprachverarbeitung |
Country Status (5)
Country | Link |
---|---|
US (1) | US5715363A (de) |
JP (1) | JPH03136100A (de) |
DE (1) | DE4033350B4 (de) |
FR (1) | FR2653557B1 (de) |
GB (1) | GB2237485B (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19860133A1 (de) * | 1998-12-17 | 2001-07-12 | Cortologic Ag | Verfahren und Vorrichtung zur Sprachkompression |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19616103A1 (de) * | 1996-04-23 | 1997-10-30 | Philips Patentverwaltung | Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal |
US5998725A (en) * | 1996-07-23 | 1999-12-07 | Yamaha Corporation | Musical sound synthesizer and storage medium therefor |
FR2796193B1 (fr) * | 1999-07-05 | 2001-10-05 | Matra Nortel Communications | Procede et dispositif de codage audio |
GB2373005B (en) * | 2001-03-10 | 2005-01-12 | Roger Wilde Ltd | Fire rated glass flooring |
JP4603727B2 (ja) * | 2001-06-15 | 2010-12-22 | セコム株式会社 | 音響信号分析方法及び装置 |
JP4256189B2 (ja) * | 2003-03-28 | 2009-04-22 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
JP4110573B2 (ja) * | 2003-09-16 | 2008-07-02 | 横河電機株式会社 | パルスパターン発生装置 |
US7860256B1 (en) * | 2004-04-09 | 2010-12-28 | Apple Inc. | Artificial-reverberation generating device |
US8249861B2 (en) * | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
US8086451B2 (en) | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
JP4699117B2 (ja) * | 2005-07-11 | 2011-06-08 | 株式会社エヌ・ティ・ティ・ドコモ | 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。 |
JP4380669B2 (ja) * | 2006-08-07 | 2009-12-09 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3681530A (en) * | 1970-06-15 | 1972-08-01 | Gte Sylvania Inc | Method and apparatus for signal bandwidth compression utilizing the fourier transform of the logarithm of the frequency spectrum magnitude |
US4260229A (en) * | 1978-01-23 | 1981-04-07 | Bloomstein Richard W | Creating visual images of lip movements |
US4304965A (en) * | 1979-05-29 | 1981-12-08 | Texas Instruments Incorporated | Data converter for a speech synthesizer |
DE3266042D1 (en) * | 1981-09-24 | 1985-10-10 | Gretag Ag | Method and apparatus for reduced redundancy digital speech processing |
CA1243779A (en) * | 1985-03-20 | 1988-10-25 | Tetsu Taguchi | Speech processing system |
US4922539A (en) * | 1985-06-10 | 1990-05-01 | Texas Instruments Incorporated | Method of encoding speech signals involving the extraction of speech formant candidates in real time |
GB2207027B (en) * | 1987-07-15 | 1992-01-08 | Matsushita Electric Works Ltd | Voice encoding and composing system |
US4882754A (en) * | 1987-08-25 | 1989-11-21 | Digideck, Inc. | Data compression system and method with buffer control |
JP2763322B2 (ja) * | 1989-03-13 | 1998-06-11 | キヤノン株式会社 | 音声処理方法 |
-
1989
- 1989-10-20 JP JP1274638A patent/JPH03136100A/ja active Pending
-
1990
- 1990-10-18 GB GB9022674A patent/GB2237485B/en not_active Expired - Fee Related
- 1990-10-19 FR FR909012962A patent/FR2653557B1/fr not_active Expired - Fee Related
- 1990-10-19 DE DE4033350A patent/DE4033350B4/de not_active Expired - Fee Related
-
1995
- 1995-05-18 US US08/443,791 patent/US5715363A/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19860133A1 (de) * | 1998-12-17 | 2001-07-12 | Cortologic Ag | Verfahren und Vorrichtung zur Sprachkompression |
DE19860133C2 (de) * | 1998-12-17 | 2001-11-22 | Cortologic Ag | Verfahren und Vorrichtung zur Sprachkompression |
Also Published As
Publication number | Publication date |
---|---|
GB9022674D0 (en) | 1990-11-28 |
FR2653557B1 (fr) | 1993-04-23 |
GB2237485A (en) | 1991-05-01 |
GB2237485B (en) | 1994-07-06 |
DE4033350B4 (de) | 2004-04-08 |
US5715363A (en) | 1998-02-03 |
JPH03136100A (ja) | 1991-06-10 |
FR2653557A1 (fr) | 1991-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE69816810T2 (de) | Systeme und verfahren zur audio-kodierung | |
DE60101148T2 (de) | Vorrichtung und verfahren zur sprachsignalmodifizierung | |
US5485543A (en) | Method and apparatus for speech analysis and synthesis by sampling a power spectrum of input speech | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE69628103T2 (de) | Verfahren und Filter zur Hervorbebung von Formanten | |
DE102005032724B4 (de) | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen | |
DE69910058T2 (de) | Verbesserung der periodizität eines breitbandsignals | |
DE69932786T2 (de) | Tonhöhenerkennung | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE60126149T2 (de) | Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen | |
DE4033350A1 (de) | Verfahren und vorrichtung fuer die sprachverarbeitung | |
EP1979899B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DE3036680A1 (de) | Sprachsynthesizer mit dehnbarer und komprimierbarer sprachzeit | |
DE602005003358T2 (de) | Audiokodierung | |
DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
DE60031812T2 (de) | Vorrichtung und Verfahren zur Klangsynthesierung | |
DE3019823C2 (de) | ||
DE2622423A1 (de) | Vocodersystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |