DE4033350A1

DE4033350A1 - Verfahren und vorrichtung fuer die sprachverarbeitung

Info

Publication number: DE4033350A1
Application number: DE4033350A
Authority: DE
Inventors: Junichi Tamura; Atsushi Sakurai; Tetsuo Kosaka
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1989-10-20
Filing date: 1990-10-19
Publication date: 1991-04-25
Anticipated expiration: 2010-10-20
Also published as: GB9022674D0; FR2653557B1; GB2237485A; GB2237485B; DE4033350B4; US5715363A; JPH03136100A; FR2653557A1

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung für die Sprachverarbeitung und insbesondere auf ein Sprachverarbeitungsverfahren und eine Vorrichtung, womit Sprache in hoher Qualität und Sprache durch Verändern der Sprachqualität synthetisierbar ist.

Fig. 2 zeigt den prinzipiellen Aufbau einer Sprachsynthese- Vorrichtung. Im allgemeinen umfaßt eine Spracherzeugungs- Vorrichtung einen Tonquellen-Abschnitt, der durch einen Im pulsgenerator 2 und einen Rauschgenerator 3 gebildet wird, und einen Synthese-Filter 4, der die Resonanz-Eigenschaften eines Stimmverlaufs zum Ausdruck bringt, dem eine Eigen schaft eines Phonems zugrundeliegt. Der Aufbau eines Syn theseparameterspeichers 1 zur Übermittlung von Parametern zum Tonquellen-Abschnitt und zum Synthese-Filter ist in Fig. 3 gezeigt. Sprache wird auf der Basis einer Analyse fensterlänge von wenigen Millisekunden bis zu einigen zehn Millisekunden analysiert. Das erhaltene Ergebnis der Analyse für ein Zeitintervall vom Beginn der Analyse eines bestimmten Analyse-Fensters bis zum Beginn der Analyse des nächsten Analyse-Fensters wird im Syntheseparameterspeicher 1 als Daten eines Abschnitts bzw. Blocks gespeichert. Die Syntheseparameter umfassen Tonquellenparameter, die eine Tonhöhe und einen stimmhaften bzw. stimmlosen Zustand ange ben, und Synthese-Filterkoeffizienten. Bei der Synthese werden die vorstehend erwähnten Synthese-Parameter eines Blocks in einem beliebigen Zeitintervall ausgegeben (normalerweise in einem vorbestimmten Zeitintervall, und nur dann ein einem beliebigen Zeitintervall, wenn das Inter vall zwischen den Analyse-Fenstern geändert wird), wobei eine synthetisierte Sprache erhalten wird. Bekannte Sprach analyse-Verfahren sind beispielsweise PARCOR, LPC, LSP, Formant, Cepstrum und dergleichen.

Heutzutage herrscht die Meinung, daß von den vorstehend er wähnten Analyse/Synthese-Verfahren das LSP- und das Cep strum-Verfahren die höchsten Synthese-Qualitäten aufweisen. Obwohl beim LSP-Verfahren die entsprechende Beziehung zwi schen der Spektrum-Hüllkurve und den Artikulations-Parame tern gut ist, basieren die Parameter in ähnlicher Weise wie beim PARCOR-Verfahren auf dem Allpol-Modell. Daher wird be obachtet, daß ein kleines Problem auftritt, wenn das LSP- Verfahren für eine Regel-Synthese oder dergleichen verwen det wird. Andererseits wird beim Cepstrum-Verfahren ein Cepstrum, das durch die Fourier-Koeffizienten eines log arithmischen Spektrums definiert ist, als Synthese-Filter koeffizient verwendet. Wenn beim Cepstrum-Verfahren ein Cepstrum unter Verwendung einer Hüllkurven-Information ei nes logarithmischen Spektrums erhalten wird, ist die Quali tät der synthetisierten Sprache sehr hoch. Da das Cepstrum- Verfahren obendrein - anders als bei einem linearen Prädik tor-Verfahren - vom Pol-Nullstellen-Typ ist, bei dem der Grad von Zähler und Nenner einer Übertragungsfunktion gleich sind, sind die Interpolationseigenschaften gut, und somit ist ein Cepstrum auch als Synthese-Parameter für eine Regel-Synthesevorrichtung geeignet.

Bei einem normalen Cepstrum ist es jedoch notwendig, den Analyse-Grad auf einen hohen Wert zu setzen, um eine syn thetisierte Sprache von hoher Qualität auszugeben. Wenn je doch der Analyse-Grad erhöht wird, steigt die Kapazität des Parameter-Speichers, so daß dies unerwünscht ist. Wenn des halb die Parameter bei einer hohen Frequenz in Übereinstim mung mit der Frequenzauflösung des menschlichen Gehörsinns ausgedünnt (die Auflösung ist hoch bei niedrigen Frequenzen und niedrig bei hohen Frequenzen) und die extrahierten Pa rameter verwendet werden, kann der Speicher effizient ge nutzt werden. Der Ausdünnungsprozeß der Parameter in Über einstimmung mit der Frequenzauflösung des menschlichen Ge hörsinns wird durch Frequenzumsetzung in das normale Cep strum unter Verwendung einer Mel-Skala durchgeführt. Der durch Frequenzumsetzung des Cepstrum-Koeffizienten unter Verwendung der Mel-Skala erhaltene Mel-Cepstrum-Koeffizient ist durch den Fourier-Koeffizienten des logarithmischen Spektrums in einem nicht-linearen Frequenz-Speicher defi niert.

Die Mel-Skala ist eine nicht-lineare Frequenz-Skala, der die Frequenzauflösung des menschlichen Gehörsinns nach Ste vens zugrundeliegt. Im allgemeinen wird die Skala benutzt, die näherungsweise durch die Phasen-Eigenschaften eines Allpaß-Filters ausgedrückt wird.

Eine Übertragungsfunktion des Allpaß-Filters wird durch

^-1 = (Z^-1 - α) / (1 - αZ^-1), | α | <1 (1)

ausgedrückt, und seine Phasen-Eigenschaften sind folgende:

= Ω + 2 tan^-1 {α* sin Ω/ (1 - α* cos Ω)} (2)

= e ^Ω, Z = e^j ^Ω

= 2 π T, Ω = 2 πf T

Mit Ω, f und T sind dabei eine normierte Winkelfrequenz, eine Frequenz bzw. eine Abtastperiode bezeichnet. Wenn die Abtastfrequenz auf 10 kHz gesetzt wird, ist durch Setzen von α = 0,35 die Umsetzung in eine Frequenz möglich, die der Mel-Skala sehr nahe kommt.

Fig. 4 zeigt ein Ablaufdiagramm für die Extrahierung eines Mel-Cepstrum-Parameters. Fig. 5 zeigt den Zustand, in dem das Spektrum Mel-konvertiert ist. Fig. 5A zeigt ein log arithmisches Spektrum nach der Beendigung der Fourier- Transformation. Fig. 5B zeigt eine Spektrum-Hüllkurve, die durch die Spitzenwerte eines geglätteten Spektrums und ei nes logarithmischen Spektrums verläuft. Fig. 5C zeigt ein Diagramm, in dem der Fall dargestellt ist, in dem die Spek trum-Hüllkurve aus Fig. 5B einer nicht-linearen Frequenzum setzung unter Verwendung der Gleichung (1) unterzogen wor den ist, wobei α = 0,35 gewählt und die Frequenzauflösung für tiefe Töne erhöht wurde. Da die Ω-Skala in den Fig. 5B und 5C in gleichmäßige Intervalle unterteilt ist, ist die Spektrum-Hüllkurve bei niedrigen Frequenzen erhöht und bei hohen Frequenzen komprimiert. Bisher wurde der Wert für α in der Synthesevorrichtung festgelegt, und die Tonquellen- Parameter und die Synthese-Filterkoeffizienten, die in Fig. 3 gezeigt sind, wurden vom Syntheseparameter-Speicher 1 übertragen.

Obwohl gemäß dem Verfahren, bei dem die Mel-Frequenz an genähert wird, die Parameter infolge der Komprimierung des hohen Frequenzbereichs effizient komprimiert werden können, wird ein solches Verfahren als ungeeignet und für die Synthese einer weiblichen Stimme mit einer Eigenschaft in einem ho hen Frequenzbereich angesehen. Sogar für eine tiefe Stimme wie eine männliche Stimme existiert für den Fall, daß ein Sprachelement wie beispielsweise "cha", "chu", "cho", "hya", "hyu" oder "hyo" mit Spracheigenschaften in einem relativ hohen Frequenzbereich synthetisiert wird oder der gleichen, eine Tendenz dahingehend, daß die Klarheit eines Konsonantenabschnitts verschlechtert ist.

Der Erfindung liegt die Aufgabe zugrunde, eine Sprachverar beitungsvorrichtung zu schaffen, die in der Lage sind, die Klarheit eines Konsonantenabschnitts zu erhöhen und Sprache in hoher Qualität zu synthetisieren.

Außerdem soll eine Sprachverarbeitungsvorrichtung geschaf fen werden, die allein durch Umsetzung der Komprimierbar keit den Sprachton verändern kann.

Um jedes der Phoneme, aus denen eine Sprache aufgebaut ist, um einen optimalen Wert zu komprimieren, ist erfindungsge mäß eine Vorrichtung zum Extrahieren eines Wertes vorgese hen, in der, wenn eine Sprachinformation komprimiert wird, eine einem jeden Phonem entsprechende Komprimierbarkeit als ein Koeffizient einer nicht-linearen Übertragungsfunktion festgelegt wird.

Um jedes der Phoneme, aus denen eine Sprache aufgebaut ist, um einen optimalen Wert zu komprimieren, wird erfindungsge mäß ein Verfahren zum Extrahieren eines Wertes angewandt, bei dem, wenn eine Sprachinformation komprimiert wird, eine einem jeden Phonem entsprechende Komprimierbarkeit als ein Koeffizient einer nicht-linearen Übertragungsfunktion fest gelegt wird.

Zur Veränderung des Sprachtons ist erfindungsgemäß eine Vorrichtung zum Umsetzen der Komprimierbarkeit bei der Ana lyse und zum Synthetisieren der Sprache mit der Komprimier barkeit nach der Umsetzung vorgesehen.

Zur Veränderung des Sprachtons wird erfindungsgemäß ein Verfahren zum Umsetzen der Komprimierbarkeit bei der Ana lyse und zum Synthetisieren der Sprache mit der Komprimier barkeit nach der Umsetzung angewandt.

Die Erfindung wird im folgenden anhand von Ausführungsbei spielen unter Bezugnahme auf die Zeichnung näher erläutert. Es zeigt

Fig. 1A den Aufbau einer Sprachsynthesevorrichtung gemäß einem prinzipiellen Ausführungsbeispiel,

Fig. 1B den Aufbau von Daten in einem in Fig. 1A gezeigten Syntheseparameterspeicher,

Fig. 1C den Systemaufbau gemäß einem prinzipiellen Ausfü rungsbeispiel,

Fig. 1D den Aufbau einer Tabelle zum Auffinden des Grades eines Cepstrum-Koeffizienten anhand des Wertes von α_i,

Fig. 1E die Darstellung des Falls, daß beim Interpolieren des Bereichs zwischen den in Fig. 1B gezeigten Blöcken mit unterschiedlichem Grad Nullen in die Daten eingefügt wer den,

Fig. 1F die Darstellung des Spektrums eines Original-Klangs und einer synthetisierten Sprache für den Fall, daß der Wert von α bei Analyse und Synthese verschieden ist,

Fig. 2 den Aufbau einer herkömmlichen Sprachsynthesevor richtung,

Fig. 3 den Aufbau von Daten in einem herkömmlichen Synthese parameterspeicher,

Fig. 4 ein Ablaufdiagramm der Extrahierung und Analyse ei nes Syntheseparameters für die Ausführung einer nicht-li nearen Frequenzumsetzung,

Fig. 5A die Darstellung eines in Fig. 4 erwähnten logarith mischen Spektrums,

Fig. 5B die Darstellung einer Spektrum-Hüllkurve, die durch ein in Fig. 4 erwähntes verbessertes Cepstrum-Verfahren er halten wird,

Fig. 5C die Darstellung des Ergebnisses für den Fall, daß die in Fig. 5B gezeigte Spektrum-Hüllkurve einer nicht-li nearen Frequenzumsetzung unterzogen wurde,

Fig. 6 die Darstellung eines Beispiels, bei dem der Grad eines Syntheseparameters für ein Phonem und der Wert von α einander entsprechend festgesetzt wurden, um die Klarheit eines Konsonantenabschnitts zu verbessern,

Fig. 7A eine Tabelle zur Umsetzung des Wertes von α in Ab hängigkeit von einer Tonhöhe,

Fig. 7B eine Tabelle zur Umsetzung des Wertes von α in Ab hängigkeit von einem Energie-Term,

Fig. 8 eine Gleichung für die α-Modulation zur Veränderung der Stimmqualität von Sprache,

Fig. 9 die Darstellung der Wellenform von α zum Aufzeigen des Modulationszustandes,

Fig. 10A ein Haupt-Ablaufdiagramm, das den Ablauf der Sprachanalyse zeigt,

Fig. 10B ein Ablaufdiagramm, das die Analyse von Sprache und die in Fig. 10A erwähnte Extrahierung von Synthese-Fil terkoeffizienten zeigt,

Fig. 10C ein Ablaufdiagramm, das die in Fig. 10B erwähnte Extrahierung einer Spektrum-Hüllkurve einer eingegebenen Sprach-Hüllkurve zeigt,

Fig. 10D ein Ablaufdiagramm, das die Extrahierung von den in Fig. 10B erwähnten Synthese-Filterkoeffizienten von Sprache zeigt,

Fig. 11A ein Ablaufdiagramm, das die Sprachsynthese für den Fall zeigt, daß eine Grad-Umsetzungstabelle existiert,

Fig. 11B ein Ablaufdiagramm für eine Syntheseparameter- Übertragungssteuervorrichtung,

Fig. 11C ein Ablaufdiagramm, das den Betriebsablauf der Sprachsynthesevorrichtung zeigt, und

Fig. 12 die Darstellung eines Aufbaus eines logarithmischen Mel-Spektrum-Approximationsfilters.

Erstes Ausführungsbeispiel

Fig. 1 zeigt den Aufbau eines Ausführungsbeispiels. Fig. 1A zeigt den Aufbau einer Sprachsynthesevorrichtung, Fig. 1B zeigt den Aufbau von Daten in einem Syntheseparameterspei cher und Fig. 1C zeigt den Systemaufbau der gesamten Sprachsynthesevorrichtung. Der Betriebsablauf wird im De tail unter Bezugnahme auf die in Fig. 10 und 11 gezeigten Ablaufdiagramme beschrieben. Bei dem in Fig. 1C gezeigten Systemaufbau wird über ein Mikrofon 200 eine Sprachsignal- Kurvenform eingegeben. Nur die niedrigen Frequenzanteile können einen Tiefpaßfilter 201 passieren. Ein analoges Ein gangssignal wird durch einen Analog/Digital-Umsetzer 202 in ein digitales System umgesetzt. Das digitale Signal wird folgendermaßen übertragen: über eine Schnittstelle 203 zur Durchführung der Übertragung und des Empfangs zu bzw. von einer zentralen Recheneinheit (CPU) 205 für die Steuerung des Betriebs der gesamten Vorrichtung gemäß einem Spei cher 204 gespeicherten Programmen; über eine Schnittstelle 206 zur Durchführung der Übertragung und des Empfangs zu bzw. von einer Anzeigevorrichtung 207, einer Tastatur 208 und der zentralen Recheneinheit 205; über einen Digi tal/Analog-Umsetzer 209 zur Umwandlung der digitalen Si gnale von der zentralen Recheneinheit 205 in ein analoges Signal; über einen Tiefpaßfilter 210, um nur die niedrigen Frequenzanteile passieren zu lassen; und über einen Ver stärker 211. Auf diese Weise wird durch einen Lautsprecher 212 ein Sprachsignal ausgegeben.

Ähnlich wie die in Fig. 2 gezeigte herkömmliche Sprachsyn thesevorrichtung ist die in Fig. 1A gezeigte Sprachsynthe sevorrichtung so aufgebaut, daß das über das Mikrofon 200 eingegebene Sprachsignal von der zentralen Recheneinheit 205 analysiert wird, und die Daten als Ergebnis der Analyse Abschnitt für Abschnitt bzw. Block für Block durch eine Syntheseparameterübertragungs-Steuervorrichtung 101 in vor bestimmten Blockzeitdauer-Intervallen von einem Synthesepa rameterspeicher 100 zu einer Sprachsynthesevorrichtung 105 übertragen werden. Der Betriebsablauf der Sprachanalyse ist in dem in Fig. 10 gezeigten Ablaufdiagramm dargestellt und wird nun detailliert erläutert. In Fig. 10A ist ein Haupt ablaufdiagramm dargestellt, das den Ablauf der Sprachana lyse zeigt. In Fig. 10B ist ein Ablaufdiagramm dargestellt, das den Ablauf der Sprachanalyse und den Ablauf der Extra hierung von Synthese-Filterkoeffizienten zeigt. In Fig. 10C ist ein Ablaufdiagramm dargestellt, das den Ablauf der Ex trahierung einer Spektrum-Hüllkurve einer eingegebenen Sprachsignal-Kurvenform zeigt. In Fig. 10D ist ein Ablauf diagramm dargestellt, das den Ablauf der Extrahierung von Sprachsynthese-Filterkoeffizienten zeigt. Von der eingege benen Sprachsignal-Kurvenform wird die in einem Zeitinter vall von einem Zeitpunkt, zu dem die Analyse eines bestimm ten Analyse-Fensters gestartet wurde bis zu einem Zeit punkt, zu dem die Analyse des nächsten Analyse-Fensters ge startet wird, erhaltene Kurvenform als ein Abschnitt bzw. Block festgelegt. Das eingegebene Sprachsignal wird danach auf der Basis einer Blockeinheit analysiert und syntheti siert. In dem in Fig. 10 gezeigten Ablaufdiagramm wird als erstes eine Blocknummer i auf 0 gesetzt (Schritt S1). Dann wird die Blocknummer aktualisiert (S2). Die Daten eines Blocks werden in die zentrale Recheneinheit 205 eingegeben (S3), durch die das eingegebene Sprachsignal analysiert wird und die Synthese-Filterkoeffizienten extrahiert werden (S4). Um die Sprache zu analysieren und die Synthese-Fil terkoeffizienten zu extrahieren, wird aus der eingegebenen Sprachsignal-Kurvenform eine Spektrum-Hüllkurve (S8) und die Synthese-Filterkoeffizienten (S9) extrahiert. In dem in Fig. 10C dargestellten Ablaufdiagramm ist ein Programm zur Extrahierung der Spektrum-Hüllkurve gezeigt. Zuerst wird ein bestimmtes spezielles Fenster für die eingegebene Sprachsignal-Kurvenform gebildet, um die Daten der Länge eines Blocks als ein Signal von finiter Länge zu betrach ten (S10). Dann wird das eingegebene Sprachsignal einer Fourier-Transformation unterworfen (S11), eine Logarithmus- Berechnung durchgeführt (S12) und der logarithmische Wert als logarithmisches Spektrum X(Ω) in einem Pufferspeicher im Speicher 204 gespeichert (S13). Dann wird eine inverse Fourier-Transformation ausgeführt (S14) und der resultie rende Wert wird als ein Cepstrum-Koeffizient C(n) festge setzt. Um den Cepstrum-Koeffizient C(n) zu glätten, wird er an einem bestimmten speziellen Fenster herausgeschnitten (Liftering) (S15). Die Blocknummer i in Fig. 10C wird auf 0 gesetzt (S16). Das durch die Ausführung der Fourier-Trans formation erhaltene Ergebnis wird als geglättetes Spektrum Sⁱ(Ω) festgesetzt (S17). Das geglättete Spektrum Sⁱ(Ω) wird von dem im Pufferspeicher gespeicherten X(Ω) subtrahiert und der negative Wert wird gelöscht. Das Ergebnis wird als Restspektrum Eⁱ(Ω) festgesetzt (S18). Eⁱ(Ω) = (1 + b)*Eⁱ(Ω) wird bezüglich eines geeigneten Beschleunigungskoeffizien ten b berechnet (S19). Um aus Eⁱ(Ω) ein geglättetes Spek trum (Ω) zu erhalten, werden die inverse Fourier-Trans formation (S20), das Liftering (S21) und die Fourier-Trans formation (S22) ausgeführt. Sⁱ(Ω) + (Ω) werden zu (Ω) gesetzt (S23). i wird durch i+1 ersetzt (S24). Die Verar beitung in den Schritten S18 bis S24 wird wiederholt bis i gleich 4 ist (S25). Wenn i gleich 4 ist (S24), wird der Wert von (Ω) als Spektrum (Ω) festgesetzt. Es ist gün stig, i auf einen Wert zwischen 3 und 5 zu setzen. Das Pro gramm zur Extrahierung Synthese-Filterkoeffizienten ist in dem in Fig. 10D dargestellten Ablaufdiagramm gezeigt. Das gemäß dem in Fig. 10C gezeigten Ablaufdiagrmm erhaltene Spektrum (Ω) wird entsprechend den Frequenzeigenschaften des Gehörsinns in eine Mel-Frequenz umgesetzt. Die Phasen Charakteristik des Allpaßfilters, der näherungsweise die Mel-Frequenz hervorbringt, wurde in der Gleichung (2) ge zeigt. Eine inverse Funktion der Phasen-Charakteristik ist in der folgenden Gleichung (3) gezeigt. Durch Gleichung (3) wird eine nicht-lineare Frequenz-Umsetzung durchgeführt (S27).

Ω = - 2tan^-1 {α - sin / (1 + α* cos )} (3)

Label-Information (der Hüllkurve entsprechendes Phonem-Sym bol) wird vorher zu den Kurvenform-Daten addiert, und der Wert α wird auf der Basis der Label-Information bestimmt. Nach der nicht-linearen Frequenz-Umsetzung wird die Spek trum-Hüllkurve erhalten und einer inversiven Fourier-Trans formation unterzogen (S28), wobei man einen Cepstrum-Koef fizienten Ca(m) erhält. Filterkoeffizienten bⁱ(m) (i: Blocknummer, m: Grad) werden durch folgende Gleichung (4) erhalten (S29).

bⁱ(m) = Ca(m) + b(Ca(m-1) - b(m+1)) (4)

Die erhaltenen Filter-Koeffizienten bⁱ(m) werden in den Syntheseparameter-Speicher 100 im Speicher 204 eingespei chert (S5). Fig. 1B zeigt den Aufbau des Syntheseparameter- Speichers 100. Als Syntheseparameter eines Blocks der Blocknummer i gibt es neben U/V_i (stimmhaft/stimmlos)- Unterscheidungsdaten, Information über einen Rhythmus wie beispielsweise eine Tonhöhe und dergleichen und Phonemen eigenen Filterkoeffizienten bⁱ(m) den Wert eines Frequenz- Umsetzungsverhältnisses α_i. Der Wert des Frequenz-Umset zungsverhältnisses α_i ist der Optimalwert, der durch die zentrale Recheneinheit 205 aufgrund der Analyse der einge gebenen Sprachsignal-Kurvenform entsprechend jedem Phonem festgelegt wird. α_i ist als ein α-Koeffizient der Übertra gungsfunktion des in Gleichung (1) gezeigten Allpaßfilters definiert (i ist eine Blocknummer). Wenn der Wert von α klein ist, ist auch die Komprimierbarkeit klein. Wenn α groß ist, ist auch die Komprimierbarkeit groß. Zum Beispiel ist α ≃ 0,35, wenn eine männliche Stimme bei einer Abtast frequenz von 10 kHz analysiert wird. Wenn bei der gleichen Abtastperiode der Wert von α auf einen geringfügig kleine ren Wert gesetzt wird und der Grad des Cepstrum-Koeffizienten erhöht wird, wird insbesondere bei der Sprache einer weib lichen Stimme ein Stimmton mit hoher Klarheit erhalten. Der Grad des dem Wert von α entsprechenden Cepstrum-Koeffizien ten wird durch die in Fig. 1D gezeigte Tabelle, die vorher gebildet wurde, vorherbestimmt. Unter Bezugnahme auf die in Fig. 1D gezeigte Tabelle überträgt die Syntheseparameter Übertragungssteuervorrichtung 101 die Daten nur bis zu die sem Grad vom Syntheseparameterspeicher 100 zur Sprachsyn thesevorrichtung 105. Wenn die Interpolationsdaten gesendet werden, bei denen der momentane und der nächste Block auf der Basis einer Abtastwert-Einheit interpoliert wurden, kann weiterhin eine gute Sprache erhalten werden. In Fig. 11 ist ein Ablaufdiagramm dargestellt, das den Betrieb der Sprachsynthese zeigt. Es gibt einen Fall, bei dem der Spei cher 204 eine Umsetzungstabelle 106 enthält, um bei der Sprachsynthese die Frequenz-Komprimierbarkeit α_i entspre chend dem Grad des Cepstrum-Koeffizienten festzusetzen, und einen anderen Fall, bei dem der Speicher 204 keine solche Umsetzungstabelle enthält. In Fig. 11A ist ein Ablaufdia gramm dargestellt, das den Sprachsynthese-Ablauf für den Fall zeigt, wo der Speicher 204 eine Umsetzungstabelle 106 enthält. Zuerst wird durch die zentrale Recheneinheit 205 der Wert der Frequenz-Komprimierbarkeit α der Daten eines Blocks aus dem Syntheseparameterspeicher 100 im Speicher 204 ausgelesen (S31). Durch die zentrale Recheneinheit 205 wird ein α entsprechender Grad P des Cepstrum-Koeffizienten aus der Grad-Referenztabelle 106 gelesen (S32). Durch die zentrale Recheneinheit 205 werden Filterkoeffizienten-Daten bⁱ(P) lediglich vom Grad P aus dem Syntheseparameterspei cher 100 gelesen und 0 wird in die verbleibenden Ab schnitte der Blockdaten Q. Grades eingefügt (30. Grad - P. Grad = Q. Grad) (S33). Die gebildeten Blockdaten werden in einem Puffer (neu) im Speicher 204 gespeichert (S34).

In Fig. 11B ist ein Ablaufdiagramm dargestellt, das den Ab lauf der Sprachsynthese für den Fall zeigt, bei dem der Speicher 204 keine Grad-Referenztabelle 106 enthält.

Fig. 11B bezieht sich auf den Ablauf, bei dem die Synthese parameter Übertragungssteuervorrichtung 101 die Daten unter gleichzeitiger Interpolation zur Sprachsynthesevorrichtung 105 überträgt. Zuerst werden die Daten des Startblocks als momentane Blockdaten in einen Puffer (alt) des Synthesepa rameterspeichers 100 im Speicher 204 eingegeben (S35). Dann werden die Blockdaten des nächsten Blocks in den Puffer (neu) des Syntheseparameter-Speichers 100 eingespeichert (S36). Der durch Division der Differenz zwischen dem Puffer (neu) und dem Puffer (alt) durch die Anzahl n der zu inter polierenden Abtastwerte erhaltene Wert wird in einen Puffer (Unterschied) eingespeichert (S37). Der durch Addition des Puffers (Unterschied) zum momentanen Blockdaten-Puffer (alt) erhaltene Wert wird in den momentanen Blockdaten-Puf fer (alt) eingespeichert (S38). In diesem Zustand wartet die Vorrichtung (S40) bis von der Sprachsynthesevorrichtung 105 eine Übertragungsanforderung ausgegeben wird (S39). Wenn die Übertragungsanforderung erzeugt worden ist, wird der momentane Blockdaten-Puffer (alt) zum Synthese-Filter 104 übertragen (S41). Es wird überprüft, ob der momentane Blockdaten-Puffer (alt) gleich dem nächsten Blockdaten-Puf fer (neu) ist oder nicht (S42). Wenn sie sich unterschei den, springt der Programmablauf zurück, und die Vorgänge gemäß den Schritten S38 bis S42 werden wiederholt bis Puf fer (alt) = Puffer (neu). Wenn in Schritt S42 entschieden wird, daß Puffer (alt) = Puffer (neu), tritt der Puffer (neu) an die Stelle des momentanen Blockdaten-Puffers (alt) (S43). Es wird überprüft, ob die Übertragung aller Blockda ten im Syntheseparameterspeicher 100 komplett ist oder nicht (S44). Wenn nicht, dann springt das Verarbeitungspro gramm zurück, und die Verarbeitung gemäß den Schritten S36 bis S44 werden solange wiederholt, bis die Datenüber tragung abgeschlossen ist. In Fig. 11C ist ein Ablaufdia gramm dargestellt, das den Betrieb der Sprachsynthesevor richtung 105 zeigt.

Wenn von der Syntheseparameter-Übertragungsvorrich tung 101 ein Parameter in die Sprachsynthesevorrichtung 105 eingegeben wurde (S45), werden die U/V-Daten zum Impulsge nerator 102 gesendet (S46). Die Tonhöhendaten werden zu ei nem U/V-Schalter 107 geleitet (S47). Die Filter-Koeffizien ten und der Wert von α werden zu einem Synthese-Filter 104 geleitet (S48). Im Synthese-Filter 104 wird die Synthese- Filter-Berechnung durchgeführt (S49). Nach der Berechnung des Synthese-Filters wartet die Vorrichtung bis von einem Zeitgeber 108 ein Abtastwertausgabe-Zeitgeberimpuls ausge geben wird (S51). Wenn der Abtastwertausgabe-Zeitgeberim puls erzeugt wurde (S51), wird das Ergebnis der Berechnung des Synthese-Filters zum Digital/Analog-Umsetzer 209 ausge geben (S52). Zur Syntheseparameter-Übertragungssteuervor richtung 101 wird eine Übertragungsanforderung gesandt (S53).

Fig. 12 zeigt den Aufbau eines MLSA-Filters. Eine Übertra gungsfunktion H() des Synthese-Filters 104 hat folgendes Aussehen:

H() = exp (b(0)/2)*R4(F()) (3)

F() = Z^-1 (b(1)+b(2)^-1+b(3)^-2+ . . . +b(30)^-29) (4)

wobei R4 eine Exponentialfunktion bezeichnet, die durch eine Pad´-Approximation vierten Grades dargestellt wird. Das heißt, der Synthese-Filter ist von einem Typ, bei dem die Gleichung (4) durch Gleichung (1) ersetzt wird, und Gleichung (3) durch Gleichung (4). Durch Verändern des Fre quenzumsetzungs-Verhältnisses α und des Grades P der Koef fizienten, die an den in den Gleichungen (1), (3) und (4) gezeigten Filter gegeben werden, wird die eingegebene Sprache um die optimale Frequenz-Komprimierbarkeit komprimiert. Sprache kann durch die erzeugten Filter-Koeffizienten mit einem jedem Block entsprechenden Frequenzumsetzungsverhält nis erzeugt werden.

Bei diesem Ausführungsbeispiel wurde die Frequenzumsetzung durch Verwendung eines primären Allpaß-Filters gemäß Glei chung (1) durchgeführt. Wenn jedoch ein Synthese-Filter mit einem Allpaß-Filter höherer Ordnung verwendet wird, kann die Frequenz bezüglich eines beliebigen Abschnitts der er haltenen Spektrum-Hüllkurve komprimiert oder expandiert werden.

Zweites Ausführungsbeispiel

Im ersten Ausführungsbeispiel wurde Sprache hoher Qualität erzeugt, indem die Frequenz-Komprimierbarkeit α bei der Analyse und der Grad P der Filterkoeffizienten den Werten α und P bei der Synthese entsprechen.

Nachdem bei dem Ausführungsbeispiel die Syntheseparameter, die analysiert worden waren, indem der Wert der Frequenz komprimierbarkeit α auf einen konstanten Wert gesetzt wurde, durch die Syntheseparameter-Übertragungssteuervor richtung 101 umgesetzt wurden, werden die umgesetzten Syn theseparameter zur Sprachsynthesevorrichtung 105 übertra gen, so daß die Tonqualität (Stimmton) verändert wird und Sprache synthetisiert werden kann. In Fig. 1F ist ein Zu stand eines Spektrums (enthalten in einem Block) für den Fall dargestellt, daß der Wert von α geändert wurde. Der Wert von α wurde bei der Analyse auf α_a = 0.35 ge setzt, und der Wert α für die Synthese wurde auf α_s = 0,15, 0,35 und 0,45 verändert. Wenn Sprache unter Durchführung einer Umsetzung mit α_s < α_a erzeugt wird, erhält man eine tiefe Stimme mit Gewichtung der niedrigen Frequenzkomponen ten. Wenn α_s < α_a ist, erhält man eine dünne Stimme mit Ge wichtung der hohen Frequenzkomponenten.

Es gibt folgende Verfahren zur Umsetzung des Wertes von α:

1. Ein Verfahren, bei dem eine Umsetzungstabelle zum Verän dern des Wertes von α vorher gebildet wird und nach Beendi gung der Umsetzung der Wert von α, der unter Bezugnahme auf die Umsetzungstabelle erhalten wird, bei der Synthese ver wendet wird.
2. Ein Verfahren, bei dem ein veränderter Wert von α ver wendet wird, nachdem der Wert von α durch eine lineare oder nicht-lineare Funktionsgleichung verändert wurde.

Der Wert von α bei der Analyse und der Wert von α bei der Synthese werden auf den gleichen Wert gesetzt und zur Über einstimmung gebracht, oder der Wert wird zur Entsprechung gebracht, nachdem er auf einen anderen Wert umgesetzt wor den ist. Es gibt verschiedene Entsprechungs-Verfahren. Bei diesem Ausführungsbeispiel wurden diese Werte auf der Basis einer Blockeinheit zur Entsprechung gebracht. Jedoch können sie auch auf der Basis einer Phonemeinheit, einer Silben einheit oder eines Sprechers zur Entsprechung gebracht wer den.

Um die Klarheit bei der Synthese zu verbessern, beispiels weise im Fall /k/j/a/, ist es höchst wünschenswert, die Klarheit des Konsonantenteils /k/ von "kja" zu verbessern. Um bei der Analyse die Klarheit des /k/-Abschnitts zu ver bessern, wird α verkleinert und P erhöht. Die Analyse wird beispielsweise mit α = 0,21 und P = 30. Grad durchgeführt, und der Parameter wird im Syntheseparameterspeicher 100 ge speichert. Wenn der Wert von α allmählich für den /j/-Ab schnitt erhöht wird, und α = 0,35 und P = 16. Grad für den /a/-Abschnitt ist, wird eine weiche Blockinterpolation durchgeführt. Fig. 6 zeigt Veränderungen im Wert des Fre quenzumsetzungs-Verhältnisses α jedes Blocks und den Grad der Koeffizienten, die an den Synthese-Filter gegeben wer den.

Wenn das erste Verfahren zum Verändern des Wertes von α un ter Verwendung der Umsetzungstabelle angewandt wird, erhält man, wenn, wie in Fig. 7A gezeigt ist, α bei der Analyse und α bei der Synthese durch Bestimmung des Wertes α ent sprechend dem zur Synthesevorrichtung geleiteten Tonhöhen wert verändert werden, einen Klang, bei dem die niedrigen Frequenzanteile bei hohen Frequenzen betont werden und einen Klang, bei dem hohe Frequenzanteile bei niedrigen Frequenzen betont werden. Wie in Fig. 7B gezeigt ist, kann entsprechend b(0) für den Fall einer kräftigen Stimme ein Klang, bei dem die niedrigen Frequenzanteile angehoben sind, und im Fall einer schwachen Stimme ein Klang, bei dem die hohen Frequenzanteile angehoben sind, erzeugt und aus gegeben werden.

Andererseits kann im Fall der Veränderung des Wertes von α gemäß dem vorstehend erwähnten zweiten Verfahren der Wert von α bei der Analyse (zur einfacheren Erläuterung: α = 0,35 und P = 16. Grad in allen Blöcken) beispielsweise auf den Wert gesetzt werden, der bei einer vorbestimmten Periode bei der Synthese moduliert wird. Durch Vorsehen einer Einrichtung zur Eingabe einer Modulationsperiode und einer Modulationsfrequenz (z. B. 0,35 ± 0,1) an die in Fig. 1A Syntheseparameter-Übertragungssteuervorrichtung 101 wird die Spektrum-Verteilung der eingegebenen Stimme moduliert und es kann zeitabhängig eine Sprache ausgegeben werden, die verschieden von der eingegebenen Sprache ist. Fig. 8 zeigt die Gleichung für die α-Modulation und Fig. 9 zeigt einen Zustand der α-Modulation.

Es kann ein beliebiges, auf der Amplitude, der Frequenz oder der Phase basierende α-Modulationsverfahren verwendet werden. Bezüglich des Modulationsverfahrens kann der Wert der Amplitudeninformation von Sprache (b(0) in diesem Aus führungsbeispiel: Filter-Koeffizient des Terms 0. Ordnung) auch entsprechend dem Wert von α gemacht werden. Beispiels weise kann der Wert von b(0) des Synthese-Filters auch da hingehend geändert werden, daß bⁿ(0) = (α - 0,35 + 1) * b^o(0) (wobei b^o(0): altes b(0) und bⁿ(0): neues b(0)) unter Verwendung des in Fig. 9 gezeigten Wertes von α gesetzt wird.

Auch die Tonhöhe kann so verändert werden, daß Tonhöheⁿ = (α - 0,35 + 1) * Tonhöhe^o (wobei Tonhöhe^o: alt und Tonhöheⁿ: neu). Der Wert von α kann auch entsprechend dem Ener gie- bzw. Leistungsterm und dem Wert der Tonhöhe verändert werden.

Durch den vorstehend beschriebenen Aufbau werden folgende technische Vorteile erzielt:

Durch Vorsehen einer Vorrichtung zum Einstellen der Kompri mierbarkeit als ein Koeffizient einer nicht-linearen Über tragungsfunktion werden die Phoneme um einen jeweiligen Op timalwert komprimiert, wenn die Sprachinformation auf einem jedem Phonem einer Sprache entsprechenden Wert komprimiert wird. Somit kann die Klarheit eines Konsonantenabschnitts verbessert werden und es kann Sprache hoher Qualität er zeugt werden.

Durch Anwendung des Verfahrens, bei dem, wenn Sprachinfor mation komprimiert wird, die Komprimierbarkeit als ein Ko effizient der nicht-linearen Übertragungsfunktion auf den Wert gesetzt wird, der jedem der Phoneme einer Sprache ent spricht, werden die Phoneme um den jeweiligen Optimalwert komprimiert. Somit ist die Klarheit des Konsonantenab schnitts verbessert und es kann Sprache von hoher Qualität erzeugt werden.

Durch Vorsehen einer Vorrichtung zum Umsetzen der Kompri mierbarkeit bei der Sprachanalyse und einer Vorrichtung zum Erzeugen von Sprache unter Verwendung der umgesetzten Kom primierbarkeit kann ein Sprach-Stimmton durch alleiniges Umsetzen der Komprimierbarkeit verändert werden.

Durch Anwendung des Verfahrens der Umsetzung der Kompri mierbarkeit bei der Sprachanalyse und des Verfahrens der Synthese von Sprache unter Verwendung der umgesetzten Kom primierbarkeit kann der Sprach-Stimmton allein durch Umset zen der Komprimierbarkeit verändert werden.

Es wurde also eine Sprachverarbeitungsvorrichtung geschaf fen, die eine Analysevorrichtung zum Analysieren einer ein gegebenen Sprache, eine Komprimierschaltung zum Komprimie ren von Sprachinformation, die durch die Analyse der Sprache gemäß einer nicht-linearen Übertragungsfunktion erhal ten wird, eine Schaltung, um die Komprimierbarkeit als Übertragungsfunktions-Koeffizient der Komprimierschaltung entsprechend jedem der Phoneme oder Blöcke, aus denen sich Sprache zusammensetzt, festzulegen, und einen Speicher zum Speichern der Sprachinformation aufweist. Mit der Vorrich tung wird die Klarheit von Konsonantenabschnitten der ein gegebenen Sprache verbessert und es kann Sprache von hoher Qualität erzeugt werden. Der Stimmton von Sprache kann al lein durch Umsetzen der Komprimierbarkeit verändert werden.

Claims

1. Sprachverarbeitungsvorrichtung, gekennzeichnet durch
eine Analysevorrichtung (204, 205) zum Analysieren von eingegebener Sprache,
eine Komprimierungsvorrichtung (205) zum Komprimieren von Sprachinformation, die durch Analyse der Sprache gemäß einer nicht-linearen Übertragungsfunktion erhalten wurde,
eine Vorrichtung (205), um eine Komprimierbarkeit (α) als Koeffizient der Übertragungsfunktion der Komprimiervor richtung entsprechend jedem der Phoneme oder Blöcke, aus denen eine Sprache zusammengesetzt ist, festzusetzen, und
eine Speichervorrichtung (100; 204) zum Speichern der Sprachinformation.

2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß ^-1 = (Z^-1 - α) / (1 - αZ^-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom primierbarkeit zu α gesetzt ist.

3. Vorrichtung nach einem der vorhergehenden Ansprüche, da durch gekennzeichnet, daß die nicht-lineare Übertragungs funktion eine Frequenzachse erhalten kann, die durch Ein stellung der Komprimierbarkeit der Frequenzauflösung des menschlichen Gehörsinns nahekommt.

4. Sprachverarbeitungsverfahren, dadurch gekennzeichnet,
daß eine eingegebene Sprache analysiert wird, um Sprach information zu erhalten und
daß, wenn die Sprachinformation komprimiert wird, eine Komprimierbarkeit als ein Koeffizient einer nicht-li nearen Übertragungsfunktion entsprechend jedem von Phonemen oder Blöcken, aus denen sich eine Sprache zusammensetzt, festgesetzt wird, wobei die Sprachinformation komprimiert und gespeichert wird.

5. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß Z^-1 = (Z^-1 - α) / (1 - αZ^-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom primierbarkeit zu α gesetzt ist.

6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß die nicht-lineare Übertragungsfunktion eine Frequenzachse erhalten kann, die durch Einstellung der Komprimierbarkeit der Frequenzauflösung des menschlichen Gehörsinns nahekommt.

7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch ge kennzeichnet, daß eine Synthesevorrichtung (105) ein log arithmisches Spektrum-Approximationsfilter verwendet, bei dem ein primärer Allpaß-Filter als Verzögerungselement an gewandt wird.

8. Sprachverarbeitungsvorrichtung, gekennzeichnet durch
eine Vorrichtung (200) zum Lesen von Sprachinforma tion,
eine Umsetzungsvorrichtung (205) zum Umsetzen einer Komprimierbarkeit in der Sprachinformation, und
eine Synthesevorrichtung (105) zum Erzeugen von Sprache gemäß einer nicht-linearen Übertragungsfunktion mit der Komprimierbarkeit.

9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß ^-1 = (Z^-1 - α) / (1 - αZ^-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom primierbarkeit zu α gesetzt ist.

10. Vorrichtung nach Anspruch 8 oder 9, dadurch gekenn zeichnet, daß die nicht-lineare Übertragungsfunktion eine Frequenzachse erhalten kann, die durch Einstellung der Kom primierbarkeit der Frequenzauflösung des menschlichen Ge hörsinns nahekommt.

11. Vorrichtung nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, daß auch eine Tabelle oder eine Funktions gleichung zur Umsetzung der Komprimierbarkeit verwendet werden können.

12. Vorrichtung nach einem der Ansprüche 8 bis 11, dadurch gekennzeichnet, daß die Synthesevorrichtung (105) ein log arithmisches Spektrum-Approximationsfilter verwendet, bei dem ein primärer Allpaß-Filter als Verzögerungselement an gewandt wird.

13. Sprachverarbeitungsverfahren, dadurch gekennzeichnet, daß eine Sprachinformation gelesen wird, eine Komprimier barkeit in der Sprachinformation umgesetzt wird und eine Sprache gemäß einer nicht-linearen Übertragungsfunktion mit dieser Komprimierbarkeit erzeugt wird.

14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, daß ^-1 = (Z^-1 - α) / (1 - αZ^-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom primierbarkeit zu α gesetzt ist.

15. Verfahren nach Anspruch 13 oder 14, dadurch gekenn zeichnet, daß die nicht-lineare Übertragungsfunktion eine Frequenzachse erhalten kann, die durch Einstellung der Kom primierbarkeit der Frequenzauflösung des menschlichen Ge hörsinns nahekommt.

16. Verfahren nach einem der Ansprüche 13 bis 15, dadurch gekennzeichnet, daß auch eine Tabelle oder eine Funktions gleichung zur Umsetzung der Komprimierbarkeit verwendet werden können.

17. Verfahren nach einem der Ansprüche 13 bis 16, dadurch gekennzeichnet, daß eine Synthesevorrichtung (105) ein log arithmisches Spektrum-Approximationsfilter verwendet, bei dem ein primärer Allpaß-Filter als Verzögerungselement an gewandt wird.