DE4033350B4

DE4033350B4 - Verfahren und Vorrichtung für die Sprachverarbeitung

Info

Publication number: DE4033350B4
Application number: DE4033350A
Authority: DE
Inventors: Junichi Tamura; Atsushi Sakurai; Tetsuo Kosaka
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1989-10-20
Filing date: 1990-10-19
Publication date: 2004-04-08
Anticipated expiration: 2010-10-20
Also published as: US5715363A; FR2653557A1; JPH03136100A; DE4033350A1; FR2653557B1; GB2237485A; GB9022674D0; GB2237485B

Abstract

Sprachverarbeitungsvorrichtung mit
einer Eingabevorrichtung (200–202) zur Eingabe von Sprache und zur Erzeugung entsprechender Sprachdaten,
einer Analysevorrichtung (204, 205) zur Analyse der Sprachdaten und zum Erhalt entsprechender Sprachinformation, und
einer Speichervorrichtung (100; 204) zum Speichern der Sprachinformation,
dadurch gekennzeichnet, dass
die Eingabevorrichtung (200–202) die Sprache und die Analysevorrichtung (204, 205) die Sprachdaten blockweise verarbeiten, wobei ein Block jeweils einem Sprachsignal finiter Länge entspricht,
eine Komprimierungsvorrichtung (205) zum Komprimieren der Sprachdaten-Blöcke mittels einer nicht-linearen Übertragungsfunktion vorgesehen ist, und
die Komprimierbarkeit als Koeffizient (α) der Übertragungsfunktion der Komprimierungsvorrichtung (205) für jeden Sprachdaten-Block einstellbar ist.

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung für die Sprachverarbeitung und insbesondere auf ein Sprachverarbeitungsverfahren und eine Vorrichtung, womit Sprache in hoher Qualität und Sprache durch Verändern der Sprachqualität synthetisierbar ist.

2 zeigt den prinzipiellen Aufbau einer Sprachsynthese-Vorrichtung. Im allgemeinen umfaßt eine Spracherzeugungs-Vorrichtung einen Tonquellen-Abschnitt, der durcch einen Impulsgenerator 2 und einen Rauschgenerator 3 gebildet wird, und einen Synthese-Filter 4, der die Resonanz-Eigenschaften eines Stimmverlaufs zum Ausdruck bringt, dem eine Eigenschaft eines Phonems zugrundeliegt. Der Aufbau eines Syntheseparameterspeichers 1 zur Übermittlung von Parametern zum Tonquellen-Abschnitt und zum Synthese-Filter ist in 3 gezeigt. Sprache wird auf der Basis einer Analysefensterlänge von wenigen Millisekunden bis zu einigen zehn Millisekunden analysiert. Das erhaltene Ergebnis der Analyse für ein Zeitintervall vom Beginn der Analyse eines bestimmten Analyse-Fensters bis zum Beginn der Analyse des nächsten Analyse-Fensters wird im Syntheseparameterspeicher 1 als Daten eines Abschnitts bzw. Blocks gespeichert. Die Syntheseparameter umfassen Tonquellenparameter, die eine Tonhöhe und einen stimmhaften bzw. stimmlosen Zustand angeben, und Synthese-Filterkoeffizienten. Bei der Synthese werden die vorstehend erwähnten Synthese-Parameter eines Blocks in einem beliebigen Zeitintervall ausgegeben (normalerweise in einem vorbestimmten Zeitintervall, und nur dann in einem beliebigen Zeitintervall, wenn das Intervall zwischen den Analyse-Fenstern geändert wird), wobei eine synthetisierte Sprache erhalten wird. Bekannte Sprachanalyse-Verfahren sind beispielsweise PARCOR, LPC, LSP, Formant, Cepstrum und dergleichen.

Heutzutage herrscht die Meinung, daß von den vorstehend erwähnten Analyse/Synthese-Verfahren das LSP- und das Cepstrum-Verfahren die höchsten Synthese-Qualitäten aufweisen. Obwohl beim LSP-Verfahren die entsprechende Beziehung zwischen der Spektrum-Hüllkurve und den Artikulations-Parametern gut ist, basieren die Parameter in ähnlicher Weise wie beim PARCOR-Verfahren auf dem Allpol-Modell. Daher wird beobachtet, daß ein kleines Problem auftritt, wenn das LSP-Verfahren für eine Regel-Synthese oder dergleichen verwendet wird. Andererseits wird beim Cepstrum-Verfahren ein Cepstrum, das durch die Fourier-Koeffizienten eines logarithmischen Spektrums definiert ist, als Synthese-Filterkoeffizient verwendet. Wenn beim Cepstrum-Verfahren ein Cepstrum unter Verwendung einer Hüllkurven-Information eines logarithmischen Spektrums erhalten wird, ist die Qualität der synthetisierten Sprache sehr hoch. Da das Cepstrum-Verfahren obendrein – anders als bei einem lineaaren Prädiktor-Verfahren – vom Pol-Nullstellen-Typ ist, bei dem der Grad von Zähler und Nenner einer Übertragungsfunktion gleich sind, sind die Interpolationseigenschaften gut, und somit ist ein Cepstrum auch als Synthese-Parameter für eine Regel-Synthesevorrichtung geeignet.

Bei einem normalen Cepstrum ist es jedoch nutwendig, den Analyse-Grad auf einen hohen Wert zu setzen, um eine synthetisierte Sprache von hoher Qualität auszugeben. Wenn jedoch der Analyse-Grad erhöht wird, steigt die Kapazität des Parameter-Speichers, so daß dies unerwünscht ist. Wenn deshalb die Parameter bei einer hohen Frequenz in Übereinstimmung mit der Frequenzauflösung des menschlichen Gehörsinns ausgedünnt (die Auflösung ist hoch bei niedrigen Frequenzen und niedrig bei hohen Frequenzen) und die extrahierten Parameter verwendet werden, kann der Speicher effizient genutzt werden. Der Ausdünnungsprozeß der Parameter in Übereinstimmung mit der Frequenzauflösung des menschlichen Gehörsinns wird durch Frequenzumsetzung in das normale Cepstrum unter Verwendung einer Mel-Skala durchgeführt. Der durch Frequenzumsetzung des Cepstrum-Koeffizienten unter Verwendung der Mel-Skala erhaltene Mel-Cepstrum-Koeffizient ist durch den Fourier-Koeffizienten des logarithmischen Spektrums in einem nicht-linearen Frequenz-Speicher definiert.

Die Mel-Skala ist eine nicht-lineare Frequenz-Skala, der die Frequenzauflösung des menschlichen Gehörsinns nach Stevens zugrundeliegt. Im allgemeinen wird die Skala benutzt, die näherungsweise durch die Phasen-Eigenschaften eines Allpaß-Filters ausgedrückt wird.

Eine Übertragungsfunktion des Allpaß-Filters wird durch Z ~–1 = (z–1 – a)/(1 – αZ–1), |a| < 1 (1) ausgedrückt, und seine Pasen-Eigenschaften sind folgende:

Mit Ω, f und T sind dabei eine normierte Winkelfrequenz, eine Frequenz bzw. eine Abtastperiode bezeichnet. Wenn die Abtastfrequenz auf 10 kHz gesetzt wird, ist durch Setzen von α = 0,35 die Umsetzung in eine Frequenz möglich, die der Mel-Skala sehr nahe kommt.

4 zeigt ein Ablaufdiagramm für die Extrahierung eines Mel-Cepstrum-Parameters. 5 zeigt den Zustand, in dem das Spektrum Mel-konvertiert ist. 5A zeigt ein logarithmisches Spektrum nach der Beendigung der Fourier-Transformation. 5B zeigt eine Spektrum-Hüllkurve, die durch die Spitzenwerte eines geglätteten Spektrums und eines logarithmischen Spektrums verläuft. 5C zeigt ein Diagramm, in dem der Fall dargestellt ist, in dem die Spektrum-Hüllkurve aus 5B einer nicht-linearen Frequenzumsetzung unter Verwendung der Gleichung (1) unterzogen worden ist, wobei α = 0,35 gewählt und die Frequenzauflösung für tiefe Töne erhöht wurde. Da die Ω-Skala in den 5B und 5C in gleichmäßige Intervalle unterteilt ist, ist die Spektrum-Hüllkurve bei niedrigen Frequenzen erhöht und bei hohen Frequenzen komprimiert. Bisher wurde der Wert für α in der Synthesevorrichtung festgelegt, und die Tonquellen-Parameter und die Synthese-Filterkoeffizienten, die in 3 gezeigt sind, wurden vom Syntheseparameter-Speicher 1 übertragen.

Obwohl gemäß dem Verfahren, bei dem die Mel-Frequenz angenähert wird, die Parameter infolge der Komprimierung des hohen Frequenzbereichs effizient komprimiert werden können, wird ein solches Verfahren als ungeeignet für die Synthese einer weiblichen Stimme mit einer Eigenschaft in einem hohen Frequenzbereich angesehen. Sogar für eine tiefe Stimme wie eine männliche Stimme existiert für den Fall, daß ein Sprachelement wie beispielsweise "cha", "chu", "cho", "hya", "hyu" oder "hyo" mit Spracheigenschaften in einem relativ hohen Frequenzbereich synthetisiert wird oder dergleichen, eine Tendenz dahingehend, daß die Klarheit eines Konsonantenabschnitts verschlechtert ist.

Ferner beschreibt die DE 30 19 823 C2 einen Datenumsetzer für eine Sprachsyntheseanordnung, die ein von Sprachinformationskoeffizienten gesteuertes Digitalfilter enthält, mit einer Eingangsvorrichtung, die durch Analyse der menschlichen Sprache erhaltene Formantfrequenzdaten empfängt, einer an die Eingangsvorrichtung angeschlossenen digitalen Umsetzerschaltung zum Verarbeiten der Formantfrequenzdaten in eine für die Verwendung in der Sprachsyntheseanordnung geeignete Form, und einer an die digitale Umsetzerschaltung angeschlossene Ausgangsvorrichtung, die die verarbeitete Form der Formantfrequenzdaten an das Digitalfilter abgibt. Der Daterumsetzer ist dabei dadurch gekennzeichnet, dass die digitale Umsetzerschaltung die Formantfrequenzdaten durch Anwendung einer Taylor-Reihenentwicklung in Sprachinformationskoeffizienten in Echtzeit umsetzt und diese an das Digitalfilter abgibt.

Die DE 34 90 580 T1 zeigt dagegen eine Datenverdichtungseinrichtung mit einem Analog-Digital-Umsetzer für die Umsetzung eines Analogsignals in digitale Sample-Signalform, einem digitalen Komprimierungsfilter für die Verdichtungsfilterung der digitalen Sample-Signale, und einem Codierer für eine gekürzte bzw. abgeschnittene Huffman-Codierung des Komprimierungsfilter-Ausgangs. Ein Decodieren für die Decodierung des codierten Signals, ein digitales Rekonstruktionsfilter für die Entkomprimierungs-Filterung und ein Digital-Analog-Umsetzer sind vorgesehen, um das Analogsignal zu rekonstruieren. Das digitale Komprimierungsfilter hat eine Übertragungsfunktion, die Nullen auf dem Einheitskreis in der Z-Ebene bei im wesentlichen 0° vom Ursprung hat, während das digitale Rekonstruktionsfilter Pole auf oder in dem Einheitskreis in der Z-Ebene bei wenigstens einem der folgenden Winkelpaare (±41,41°, ±60°, ±90°, ±120° und ±180° hat, in welchem Fall die Übertragungsfunktion des digitalen Rekonstruktionsfilters Pole auf oder in dem Einheitskreis in entsprechenden Winkelstellungen hat. Die Pole des Rekonstruktionsfilters können aufgrund eines erfassten Fehlersignals momentan einwärts ins Innere des Einheitskreises verschoben werden, um die Erholung von solchen Fehlersignalen zu beschleunigen. Codieren und Decodierer sind entweder über Modems durch eine Übertragungsleitung oder über eine Aufzeichnungseinheit und eine Wiedergabeeinheit miteinander verbunden.

Die EP 0 076 234 A1 offenbart ein Verfahren und eine Vorrichtung zur redundanzvermindernden Sprachverarbeitung. Dort wird das Sprachsignal nach Digitalisierung in Abschnitte eingeteilt und jeder Abschnitt wird nach den Methoden der linearen Prädiktion analysiert, wobei die Koeffizienten eines Klangbildungsmodellfilters, ein Lautstärkeparameter, eine Information über die stimmhafte oder stimmlose Anregung und im ersteren Falle die Periode der Stimmbandgrundfrequenz ermittelt werden. Zur Verbesserung der Sprachqualität ohne Datenratenerhöhung wird die Anzahl der Sprachabschnitte pro Sekunde erhöht, dafür aber gleichzeitig eine besondere, redundanzvermindernde Codierung der Sprachparameter vorgenommen. Die Codierung der Sprachparameter erfolgt blockweise für jeweils zwei oder drei benachbarte Sprachabschnitte, und zwar in unterschiedlicher Weise je nach dem, ob der betreffende Sprachabschnittsblock mit einem stimmhaften oder einem stimmlosen Abschnitt beginnt. Die Parameter der jeweils ersten Sprachabschnitte werden in vollständiger Form codiert, die der übrigen Sprechabschnitte in differentieller Form oder teilweise überhaupt nicht. Der auf diese Weise verminderte mittlere Bitbedarf pro Sprachabschnitt kompensiert die erhöhte Abschnittsrate, sodass insgesamt die Datenrate nicht erhöht wird.

Letztendlich zeigt die gattungsbildende DE 38 23 724 A1 ein Sprachcodierungs- und Sprachsynthesesystem. Dieses enthält eine Sprachcodiereinheit mit einem Sprachdaten-Eingabemittel, ein Zusammensetzungsanalysemittel und ein Speichermittel für analysierte Sprachinformationen. Die Sprachcodiereinheit ist unabhängig von einer Sprachantworteinheit mit einem Steuerinformations-Erzeugungsmittel und einem Sprachsynthesemittel ausgeführt. Die analysierten Informationen werden über ein Schreibmittel in das Informationsspeichermittel in die Sprachcodiereinheit eingegeben, wodurch die Größe des gesamten Systems auf ein Minimum verringert werden kann und das Speichermittel beträchtlich vereinfacht werden kann, wenn gleichzeitig eine sehr einfache Handhabung erhalten wird.

Demgegenüber liegt der Erfindung die Aufgabe zugrunde, eine Sprachverarbeitungsvorrichtung zu schaffen, die in der Lage ist, die Klarheit eines Konsonantenabschnitts zu erhöhen und Sprache in hoher Qualität zu synthetisieren, und die allein durch Umsetzung der Komprimierbarkeit den Sprachton verändern kann.

Dieses wird durch eine Sprachverarbeitungsvorrichtung gemäß den Patentansprüchen gelöst.

Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die Zeichnung näher beschrieben. Es zeigen:
1A den Aufbaus einer Sprachsynthesevorrichtung gemäß einem prinzipiellen Ausführungsbeispiel,
1B den Aufbau von Daten in einem in 1A gezeigten Syntheseparameterspeicher,
1C den Systemaufbau gemäß einem prinzipiellen Ausführungsbeispiel,
1D den Aufbau einer Tabelle zum Auffinden des Grades eines Cepstrum-Koeffizienten anhand des Wertes von α_i,
1E die Darstellung des Falls, daß beim Interpolieren des Bereichs zwischen den in 1B gezeigten Blöcken mit unterschiedlichem Grad Nullen in die Daten eingefügt werden,
1F die Darstellung des Spektrums eines Original-Klangs und einer synthetisierten Sprache für den Fall, daß der Wert von α bei Analyse und Synthese verschieden ist,
2 den Aufbau einer herkömmlichen Sprachsynthesevorrichtung,
3 den Aufbau von Daten in einem herkömmlichen Syntheseparameterspeicher,
4 ein Ablaufdiagramm der Extrahierung und Analyse eines Syntheseparameters für die Ausführung einer nichtlinearen Frequenzumsetzung,
5A die Darstellung eines in 4 erwähnten logarithmischen Spektrums,
5B die Darstellung einer Spektrum-Hüllkurve, die durch ein in 4 erwähntes verbessertes Cepstrum-Verfahren erhalten wird,
5C die Darstellung des Ergebnisses für den Fall, daß die in 5B gezeigte Spektrum-Hüllkurve einer nichtlinearen Frequenzumsetzung unterzogen wurde,
6 die Darstellung eines Beispiels, bei dem der Grad eines Syntheseparameters für ein Phonem und der Wert von α einander entsprechend festgesetzt wurden, um die Klarheit eines Konsonantenabschnitts zu verbessern,
7A eine Tabelle zur Umsetzung des Wertes von α in Abhängigkeit von einer Tonhöhe,
7B eine Tabelle zur Umsetzung des Wertes von α in Abhängigkeit von einem Energie-Term,
8 eine Gleichung für die α-Modulation zur Veränderung der Stimmqualität von Sprache,
9 die Darstellung der Wellenform von α zum Aufzeigen des Modulationszustandes,
10A ein Haupt-Ablaufdiagramm, das den Ablauf der Sprachanalyse zeigt,
10B ein Ablaufdiagramm, das die Analyse von Sprache und die in 10A erwähnte Extrahierung von Synthese-Filterkoeffizienten zeigt,
10C ein Ablaufdiagramm, das die in 10B erwähnte Extrahierung einer Spektrum-Hüllkurve einer eingegebenen Sprach-Hüllkurve zeigt,
10D ein Ablaufdiagramm, das die Extrahierung von den in 10B erwähnten Synthese-Filterkoeffizienten von Sprache zeigt,
11A ein Ablaufdiagramm, das die Sprachsynthese für den Fall zeigt, daß eine Grad-Umsetzungstabelle existiert,
11B ein Ablaufdiagramm für eine Syntheseparameter-Übertragungssteuervorrichtung,
11C ein Ablaufdiagramm, das den Betriebsablauf der Sprachsynthesevorrichtung zeigt, und
12 die Darstellung eines Aufbaus eines logarithmischen Mel-Spektrum-Approximationsfilters.
ERSTES AUSFÜHRUNGSBEISPIEL
1 zeigt den Aufbau eines Ausführungsbeispiels. 1A zeigt den Aufbau einer Sprachsynthesevorrichtung, 1B zeigt den Aufbau von Daten in einem Syntheseparameterspeicher und 1C zeigt den Systemaufbau der gesamten Sprachsynthesevorrichtung. Der Betriebsablauf wird im Detail unter Bezugnahme auf die in 10 und 11 gezeigten Ablaufdiagramme beschrieben. Bei dem in 1C gezeigten Systemaufbau wird über ein Mikrofon 200 eine Sprachsignal-Kurvenform eingegeben. Nur die niedrigen Frequenzanteile können einen Tiefpaßfilter 201 passieren. Ein analoges Eingangssignal wird durch einen Analog/Digital-Umsetzer 202 in ein digitales Signal umgesetzt. Das digitale Signal wird folgendermaßen übertragen: über eine Schnittstelle 203 zur Durchführung der Übertragung und des Empfangs zu bzw. von einer zentralen Recheneinheit (CPU) 205 für die Steuerung des Betriebs der gesamten Vorrichtung gemäß in einem Speicher 204 gespeicherten Programmen; über eine Schnittstelle 206 zur Durchführung der Übertragung und des Empfangs zu bzw. von einer Anzeigevorrichtung 207, einer Tastatur 208 und der zentralen Recheneinheit 205; über einen Digital/Analog-Umsetzer 209 zur Umwandlung der digitalen Signale von der zentralen Recheneinheit 205 in ein analoges Signal; über einen Tiefpaßfilter 210, um nur die niedrigen Freguenzanteile passieren zu lassen; und über einen Verstärker 211. Auf diese Weise wird durch einen Lautsprecher 212 ein Sprachsignal ausgegeben.
Ähnlich wie die in 2 gezeigte herkömmliche Sprachsynthesevorrichtung ist die in 1A gezeigte Sprachsynthesevorrichtung so aufgebaut, daß das über das Mikrofon 200 eingegebene Sprachsignal von der zentralen Recheneinheit 205 analysiert wird, und die Daten als Ergebnis der Analyse Abschnitt für Abschnitt bzw. Block für Block durch eine Syntheseparameterübertragungs-Steuervorrichtung 101 in vorbestimmten Blockzeitdauer-Intervallen von einem Syntheseparameterspeicher 100 zu einer Sprachsynthesevorrichtung 105 übertragen werden. Der Betriebsablauf der Sprachanalyse ist in dem in 10 gezeigten Ablaufdiagramm dargestellt und wird nun detailliert erläutert. In 10A ist ein Hauptablaufdiagramm dargestellt, das den Ablauf der Sprachanalyse zeigt. In 10B ist ein Ablaufdiagramm dargestellt, das den Ablauf der Sprachanalyse und den Ablauf der Extrahierung von Synthese-Filterkoeffizienten zeigt. In 10C ist ein Ablaufdiagramm dargestellt, das den Abruf der Extrahierung einer Spektrum-Hüllkurve einer eingegebenen Sprachsignal-Kurvenform zeigt. In 10D ist ein Ablaufdiagramm dargestellt, das den Ablauf der Extrahierung von Sprachsynthese-Filterkoeffizienten zeigt. Von der eingegebenen Sprachsignal-Kurvenform wird die in einem Zeitintervall von einem Zeitpunkt, zu dem die Analyse eines bestimmten Analyse-Fensters gestartet wurde bis zu einem Zeitpunkt, zu dem die Analyse des nächsten Analyse-Fensters gestartet wird, erhaltene Kurvenform als ein Abschnitt bzw. Block festgelegt. Das eingegebene Sprachsignal wird danach auf der Basis einer Blockeinheit analysiert und synthetisiert. In dem in 10 gezeigten Ablaufdiagramm wird als erstes eine Blocknummer i auf 0 gesetzt (Schritt S1). Dann wird die Blocknummer aktualisiert (S2). Die Daten eines Blocks werden in die zentrale Recheneinheit 205 eingegeben (S3), durch die das eingegebene Sprachsignal analysiert wird und die Synthese-Filterkoeffizienten extrahiert werden (S4). Um die Sprache zu analysieren und die Synthese-Filterkoeffizienten zu extrahieren wird aus der eingegebenen Sprachsignal-Kurvenform eine Spektrum-Hüllkurve (S8) und die Synthese-Filterkoeffizienten (S9) extrahiert. In dem in 10C dargestellten Ablaufdiagramm ist ein Programm zur Extrahierung der Spektrum-Hüllkurve gezeigt. Zuerst wird ein bestimmtes spezielles Fenster für die eingegebene Sprachsignal-Kurvenform gebildet, um die Daten der Länge eines Blocks als ein Signal von finiter Länge zu betrachten (S10). Dann wird das eingegebene Sprachsignal einer Fourier-Transformation unterworfen (S11), eine Logarithmus- Berechnung durchgeführt (S12) und der logarithmische Wert als logarithmisches Spektrum X(Ω) in einem Pufferspeicher im Speicher 204 gespeichert (S13). Dann wird eine inverse Fourier-Transformation ausgeführt (S14) und der resultierende Wert wird als ein Cepstrum-Koffizient C(n) festgesetzt. Um den Cepstrum-Koeffizienten C(n) zu glätten, wird er an einem bestimmten speziellen Fenster herausgeschnitten (Liftering) (S15). Die Blocknummer i in 10C wird auf 0 gesetzt (S16). Das durch die Ausführung der Fourier-Transformation erhaltene Ergebnis wird als geglättetes Spektrum Sⁱ(Ω) festgesetzt (S17). Das geglättete Spektrum Sⁱ(Ω) wird von dem im Pufferspeicher gespeicherten X(Ω) subtrahiert und der negative Wert wird gelöscht. Das Ergebnis wird als Restspektrum E¹(Ω) festgesetzt (S18). E¹(Ω) = (1 + b)·E1(Ω) wird bezüglich eines geeigneten Beschleunigungskoeffizienten b berechnet (S19). Um aus E¹(Ω) ein geglättetes Spektrum S ⁱ(Ω) zu erhalten, werden die inverse Fourier-Transformation (S20), das Liftering (S21) und die Fourier-Transformation (S22) ausgeführt. S¹(Ω) + S ¹(Ω) werden zu S ⁱ⁺¹(Ω) gesetzt (S23). i wird durch i + 1 ersetzt (S24). Die Verarbeitung in den Schritten S18 bis S24 wird wiederholt bis i gleich 4 ist (S25). Wenn i gleich 4 ist (S24), wird der Wert von S ⁱ⁺¹(Ω) als Spektrum S ^(Ω) festgesetzt. Es ist günstig, i auf einen Wert zwischen 3 und 5 zu setzen. Das Programm zur Extrahierung Synthese-Filterkoeffizienten ist in dem in 10D dargestellten Ablaufdiagramm gezeigt. Das gemäß dem in 10C gezeigten Ablaufdiagramm erhaltene Spektrum S ^(Ω) wird entsprechend den Frequenzeigenschaften des Gehörsinns in eine Mel-Frequenz umgesetzt. Die Phasen-Charakteristik des Allpaßfilters, der näherungsweise die Mel-Frequenz hervorbringt, wurde in der G1eichung (2) gezeigt. Eine inverse Funktion der Phasen-Charakteristik ist in der folgenden Gleichung (3) gezeigt. Durch Gleichung (3) wird eine nicht-lineare Frequenz-Umsetzung durchgeführt (S27). Ω = ~ – 2tan–1 {α – sin ~/(1 + α·cos ~)} (3)
Label-Information (der Hüllkurve entsprechendes Phonem-Symbol) wird vorher zu den Kurvenform-Daten addiert, und der Wert α wird auf der Basis der Label-Information bestimmt. Nach der nicht-linearen Frequenz-Umsetzung wird die Spektrum-Hüllkurve erhalten und einer inversen Fourier-Transformation unterzogen (S28), wobei man einen Cepstrum-Koeffizienten Ca(m) erhält. Filterkoeffizienten bⁱ(m) (i: Blocknummer, m: Grad) werden durch folgende Gleichung (4) erhalten (S29). bi(m) = Ca(m) + b(Ca(m – 1) – b(m + 1)) (4)
Die erhaltenen Filter-Koeffizienten bⁱ(m) werden in den Syntheseparameter-Speicher 100 im Speicher 204 eingespeichert (S5). 1B zeigt den Aufbau des Syntheseparameter-Speichers 100. Als Syntheseparameter eines Blocks der Blocknummer i gibt es neben U/V_i (stimmhaft/stimmlos) – Unterscheidungsdaten, Information über einen Rhythmus wie beispielsweise eine Tonhöhe und dergleichen und Phonemen eigenen Filterkoeffizienten bⁱ(m) den Wert einer Frequenz-Umsetzungsverhältnisses α_i. Der Wert des Frequenz-Umsetzungsverhältnisses α_i ist der Optimalwert, der durch die zentrale Recheneinheit 205 aufgrund der Analyse der eingebenen Sprachsignal-Kurvenform entsprechend jedem Phonem festgelegt wird. α_i ist als ein α-Koeffizient der Übertragungsfunktion des in Gleichung (1) gezeigten Allpaßfilters definiert (i ist eine Blocknummer). Wenn der Wert von α klein ist, ist auch die Komprimierbarkeit klein. Wenn α groß ist, ist auch die Komprimierbarkeit groß. Zum Beispiel ist α ≃ 0, 35, wenn eine männliche Stimme bei einer Abtastfrequenz von 10 kHz analysiert wird. Wenn bei der gleichen Abtastperiode der Wert von α auf einen geringfügig kleineren Wert gesetzt und der Grad des Cepstrum-Koeffizienten erhöht wird, wird insbesondere bei der Sprache einer weiblichen Stimme ein Stimmton mit hoher Klarheit erhalten. Der Grad des dem Wert von α entsprechenden Cepstrum-Koeffizienten wird durch die in 1D gezeigte Tabelle, die vorher gebildet wurde, vorherbestimmt. Unter Bezugnahme auf die in 1D gezeigte Tabelle überträgt die Syntheseparameter- Übertragungssteuervorrichtung 101 die Daten nur bis zu diesem Grad vom Syntheseparameterspeicher 100 zur Sprachsynthesevorrichtung 105. Wenn die Interpolationsdaten gesendet werden, bei denen der momentane und der nächste Block auf der Basis einer Abtastwert-Einheit interpoliert wurden, kann weiterhin eine gute Sprache erhalten werden. In 11 ist ein Ablaufdiagramm dargestellt, das den Betrieb der Sprachsynthese zeigt. Es gibt einen Fall, bei dem der Speicher 204 eine Umsetzungstabelle 106 enthält, um bei der Sprachsynthese die Frequenz-Komprimierbarkeit α_i entsprechend dem Grad des Cepstrum-Koeffizienten festzusetzen, und einen anderen Fall, bei dem der Speicher 204 keine solche Umsetzungstabelle enthält. In 11A ist ein Ablaufdiagramm dargestellt, das den Sprachsynthese-Ablauf für den Fall zeigt, wo der Speicher 204 eine Umsetzungstabelle 106 enthält. Zuerst wird durch die zentrale Recheneinheit 205 der Wert der Frequenz-Komprimierbarkeit α der Daten eines Blocks aus dem Syntheseparameterspeicher 100 im Speicher 204 ausgelesen (S31). Durch die zentrale Recheneinheit 205 wird ein α entsprechender Grad P des Cepstrum-Koeffizienten aus der Grad-Referenztabelle 106 gelesen (S32). Durch die zentrale Recheneinheit 205 werden Filterkoeffizienten-Daten bⁱ(P) lediglich vom Grad P aus dem Syntheseparameterspeicher 100 gelesen, und 0 wird in die verbleibenden Abschnitte der Blockdaten Q. Grades eingefügt (30. Grad – P. Grad = Q. Grad) (S33). Die gebildeten Blockdaten werden in einem Puffer (neu) im Speicher 204 gespeichert (S34).
In 11B ist ein Ablaufdiagramm dargestellt, das den Ablauf der Sprachsynthese für den Fall zeigt, bei dem der Speicher 204 keine Grad-Referenztabelle 106 enthält.
11B bezieht sich auf den Ablauf, bei dem die Syntheseparameter Übertragungssteuervorrichtung 101 die Daten unter gleichzeitiger Interpolation zur Sprachsynthesevorrichtung 105 überträgt. Zuerst werden die Daten des Startblocks als momentane Blockdaten in einen Puffer (alt) des Syntheseparameterspeichers 100 im Speicher 204 eingegeben (S35). Dann werden die Blockdaten des nächsten Blocks in den Puffer (neu) des Syntheseparameter-Speichers 100 eingespeichert (536). Der durch Division der Differenz zwischen dem Puffer (neu) und dem Puffer (alt) durch die Anzahl n der zu interpolierenden Abtastwerte erhaltene Wert wird in einen Puffer (Unterschied) eingespeichert (S37). Der durch Addition des Puffers (Unterschied) zum momentanen Blockdaten-Puffer (alt) erhaltene Wert wird in den momentanen Blockdaten-Puffer (alt) eingespeichert (S38). In diesem Zustand wartet die Vorrichtung (S40) bis von der Sprachsynthesevorrichtung 105 eine Übertragungsanforderung ausgegeben wird (S39). Wenn die Übertragungsanforderung erzeugt worden ist, wird der momentane Blockdaten-Puffer (alt) zum Synthese-Filter 104 übertragen (541). Es wird überprüft, ob der momentane Blockdaten-Puffer (alt) gleich dem nächsten Blockdaten-Puffer (neu) ist oder nicht (S42). Wenn sie sich unterscheiden, springt der Programmablauf zurück, und die Vorgänge gemäß den Schritten S38 bis S42 werden wiederholt bis Puffer (alt) = Puffer (neu). Wenn in Schritt S42 entschieden wird , daß Puffer (alt) = Puffer (neu) , tritt der Puffer (neu) an die Stelle des momentanen Blockdaten-Puffers (alt) (S43). Es wird überprüft, ob die Übertragung aller Blockdaten im Syntheseparameterspeicher 100 komplett ist oder nicht (S44). Wenn nicht, dann springt das Verarbeitungsprogramm zurück, und die Verarbeitungen gemäß den Schritten S36 bis S44 werden solange wiederholt, bis die Datenübertragung abgeschlossen ist. In 11C ist ein Ablaufdiagramm dargestellt, das den Betrieb der Sprachsynthesevorrichting 105 zeigt.
Wenn von der Syntheseparameter-Übertragungssteuervorrichtung 101 ein Parameter in die Sprachsynthesevorrichtung 105 eingegeben wurde (S45), werden die U/V-Daten zum Impulsgenerator 102 gesendet (S46). Die Tonhöhendaten werden zu einem U/V-Schalter 107 geleitet (S47). Die Filter-Koeffizienten und der Wert von α werden zu einem Synthese-Filter 104 geleitet (S48). Im Synthese-Filter 104 wird die Synthese-Filter-Berechnung durchgeführt (S49). Nach der Berechnung des Synthese-Filters wartet die Vorrichtung bis von einem Zeitgeber 108 ein Abtastwertausgabe-Zeitgeberimpuls ausge geben wird (S51). Wenn der Abtastwertausgabe-Zeitgeberimpuls erzeugt wurde (S51), wird das Ergebnis der Berechnung des Synthese-Filters zum Digital/Analog-Umsetzer 209 ausgegeben (S52). Zur Syntheseparameter-Übertragungssteuervorrichtung 101 wird eine Übertragungsanforderung gesandt (553).
12 zeigt den Aufbau eines MLSA-Filters. Eine Übertra-gungsfunktion H(Z) des Synthese-Filters 104 hat folgendes Aussehen: H(Z ~) = exp (b(0)/2)·R4(F(Z ~)) (3) F(Z ~) = Z–1(b(1) + b(2)Z ~ –1 + b(3)Z ~ –2 + ..... + b(30)Z ~ –29)H(Z ~) = exp (b(0)/2)·R4(F(Z ~)) (3) F(Z ~) = Z–1(b(1) + b(2)Z ~ –1 + b(3)Z ~ –2 + ..... + b(30)Z ~ –29) (4)(4) wobei R4 eine Exponentialfunktion bezeichnet, die durch eine Padé-Approximation vierten Grades dargestellt wird. Das heißt, der Synthese-Filter ist von einem Typ, bei dem die Gleichung (4) durch Gleichung (1) ersetzt wird, und Gleichung (3) durch Gleichung (4). Durch Verändern des Frequenzumsetzungs-Verhältnisses α und des Grades P der Koeffizienten, die an den in den Gleichungen (1), (3) und (4) gezeigten Filter gegeben werden, wird die eingegebene Sprache um die optimale Frequenz-Komprimierbarkeit komprimiert. Sprache kann durch die erzeugten Filter-Koeffizienten mit einem jedem Block entsprechenden Frequenzumsetzungsverhältnis erzeugt werden.
Bei diesem Ausführungsbeispiel wurde die Frequenzumsetzung durch Verwendung eines primären Allpaß-Filters gemäß Gleichung (1) durchgeführt. Wenn jedoch ein Synthese-Filter mit einem Allpaß-Filter höherer Ordnung verwendet wird, kann die Frequenz bezüglich eines beliebigen Abschnitts der erhaltenen Spektrum-Hüllkurve komprimiert oder expandiert werden.
ZWEITES AUSFÜHRUNGSBEISPIEL
Im ersten Ausführungsbeispiel wurde Sprache hoher Qualität erzeugt, indem die Frequenz-Komprimierbarkeit α bei der Analyse und der Grad P der Filterkoeffizienten den Werten α und P bei der Synthese entsprechen.
Nachdem bei dem Ausführungsbeispiel die Syntheseparameter, die analysiert worden waren, indem der Wert der Frequenzkomprimierbarkeit α auf einen konstanten Wert gesetzt wurde, durch die Syntheseparameter-Übertragungssteuervorrichtung 101 umgesetzt wurden, werden die umgesetzten Syntheseparameter zur Sprachsynthesevorrichtung 105 übertragen, so daß die Tonqualität (Stimmton) verändert wird und Sprache synthetisiert werden kann. In 1F ist ein Zustand eines Spektrums (enthalten in einem Block) für den Fall dargestellt, daß der Wert von α geändert wurde. Der Wert von α wurde bei der Analyse wurde auf α_a = 0,35 gesetzt, und der Wert α für die Synthese wurde auf α_s = 0,15, 0,35 und 0, 45 verändert. Wenn Sprache unter Durchführung einer Umsetzung mit α_s < α_a erzeugt wird, erhält man eine tiefe Stimme mit Gewichtung der niedrigen Frequenzkomponenten. Wenn α_s > α_a ist, erhält man eine dünne Stimme mit Gewichtung der hohen Frequenzkomponenten.
Es gibt folgende Verfahren zur Umsetzung des Wertes von α:

1. Ein Verfahren, bei dem eine Umsetzungstabelle zum Verändern des Wertes von α vorher gebildet wird und nach Beendigung der Umsetzung der Wert von α, der unter Bezugnahme auf die Umsetzungstabelle erhalten wird, bei der Synthese verwendet wird.
2. Ein Verfahren, bei dem ein veränderter Wert von α verwendet wird, nachdem der Wert von α durch eine lineare oder nicht-lineare Funktiosgleichung verändert wurde.

Der Wert von α bei der Analyse und der Wert von cr bei der Synthese werden auf den gleichen Wert gesetzt und zur Übereinstimmung gebracht, oder der Wert wird zur Entsprechung gebracht, nachdem er auf einen anderen Wert umgesetzt wor den ist. Es gibt verschiedene Entsprechungs-Verfahren. Bei diesem Ausführungsbeispiel wurden diese Werte auf der Basis einer Blockeinheit zur Entsprechung gebracht. Jedoch können sie auch auf der Basis einer Phonemeinheit, einer Silbeneinheit oder eines Sprechers zur Entsprechung gebracht werden.
Um die Klarheit bei der Synthese zu verbessern, beispielsweise im Fall /k/j/a/, ist es höchst wünschenswert, die Klarheit des Konsonantenteils /k/ von "kja" zu verbessern. Um bei der Analyse die Klarheit des /k/-Abschnitas zu verbessern, wird α verkleinert und P erhöht. Die Analyse wird beispielsweise mit α = 0,21 und P _ 30. Grad durchgeführt, und der Parameter wird im Syntheseparameterspeicher 100 gespeichert. Wenn der Wert von α allmählich für den /j/-Abschnitt erhöht wird, und α = 0,35 und P = 16. Grad für den /a/-Abschnitt ist, wird eine weiche Blockinterpolation durchgeführt. 6 zeigt Veränderungen im Wert des Frequenzumsetzungs-Verhältnisses α jedes Blocks und den Grad der Koeffizienten, die an den Synthese-Filter gegeben werden.
Wenn das erste Verfahren zum Verändern des Wertes von α unter Verwendung der Umsetzungstabelle angewandt wird, erhält man, wenn, wie in 7A gezeigt ist, α bei der Analyse und α bei der Synthese durch Bestimmung des Wertes α entsprechend dem zur Synthesevorrichtung geleiteten Tonhöhenwert verändert werden, einen Klang, bei dem die niedrigen Frequenzanteile bei hohen Frequenzen betont werden und einen Klang, bei dem hohe Frequenzanteile bei niedrigen Frequenzen betont werden. Wie in 7B gezeigt ist, kann entsprechend b(0) für den Fall einer kräftigen Stimme ein Klang, bei dem die niedrigen Frequenzanteile angehoben sind, und im Fall einer schwachen Stimme ein Klang, bei dem die hohen Frequenzanteile angehoben sind, erzeugt und ausgegeben werden.
Andererseits kann im Fall der Veränderung des Wertes von α gemäß dem vorstehend erwähnten zweiten Verfahren der Wert von α bei der Analyse (zur einfacheren Erläuterung: α = 0,35 und P = 16. Grad in allen Blöcken) beispielsweise auf den Wert gesetzt werden, der bei einer vorbestimmten Periode bei der Synthese moduliert wird. Durch Vorsehen einer Einrichtung zur Eingabe einer Modulationsperiode und einer Modulationsfrequenz (z.B. 0,35 ± 0,1) an die in 1A Syntheseparameter-Übertragungssteuervorrichtung 101 wird die Spektrum-Verteilung der eingegebenen Stimme moduliert und es kann zeitabhängig eine Sprache ausgegeben werden, die verschieden von der eingegebenen Sprache ist. 8 zeigt die Gleichung für die α-Modulation und 9 zeigt einen Zustand der α-Modulation.
Es kann ein beliebiges, auf der Amplitude, der Frequenz oder der Phase basierende α-Modulationsverfahren verwendet werden. Bezüglich des Modulationsverfahrens kann der Wert der Amplitudeninformation von Sprache (b(0) in diesem Ausführungsbeispiel: Filter-Koeffizient des Terms 0. Ordnung) auch entsprechend dem Wert von α gemacht werden. Beispielsweise kann der Wert von b(0) des Synthese-Filters auch dahingehend geändert werden, daß bⁿ(0) = (α – 0,35 + 1)· b^o(0) (wobei b^o(0): altes b(0) und bⁿ(0): neues b(0)) unter Verwendung des in 9 gezeigten Wertes von α gesetzt wird.
Auch die Tonhöhe kann so verändert werden, daß Tonhöhen = (α – 0,35 + 1)·Tonhöhe^o (wobei Tonhöhe^o: alt und Tonhöheⁿ: neu). Der Wert von α kann auch entsprechend dem Energie- bzw. Leistungsterm und dem Wert der Tonhöhe verändert werden.
Durch den vorstehend beschriebenen Aufbau werden folgende technische Vorteile erzielt:
Durch Vorsehen einer Vorrichtung zum Einstellen der Komprimierbarkeit als ein Koeffizient einer nicht-linearen Übertragungsfunktion werden die Phoneme um einen jeweiligen Optimalwert komprimiert, wenn die Sprachinformation auf einem jedem Phonem einer Sprache entsprechenden Wert komprimiert wird. Somit kann die Klarheit eines Konsonantenabschnitts verbessert werden und es kann Sprache hoher Qualität erzeugt werden.
Durch Anwendung des Verfahrens, bei dem, wenn Sprachinformation komprimiert wird, die Komprimierbarkeit als ein Koeffizient der nicht-linearen Übertragungsfunktion auf den Wert gesetzt wird, der jedem der Phoneme einer Sprache entspricht, werden die Phoneme um den jeweiligen Optimalwert komprimiert. Somit ist die Klarheit des Konsonantenabschnitts verbessert und es kann Sprache von hoher Qualität erzeugt werden.
Durch Vorsehen einer Vorrichtung zum Umsetzen der Komprimierbarkeit bei der Sprachanalyse und einer Vorrichtung zum Erzeugen von Sprache unter Verwendung der umgesetzten Komprimierbarkeit kann ein Sprach-Stimmton durch alleiniges Umsetzen der Komprimierbarkeit verändert werden.
Durch Anwendung des Verfahrens der Umsetzung der Komprimierbarkeit bei der Sprachanalyse und des Verfahrens der Synthese von Sprache unter Verwendung der umgesetzten Komprimierbarkeit kann der Sprach-Stimmton allein durch Umsetzen der Komprimierbarkeit verändert werden.
Es wurde also eine Sprachverarbeitungsvorrichtung geschaffen, die eine Analysevorrichtung zum Analysieren einer eingegebenen Sprache, eine Komprimierschaltung zum Komprimieren von Sprachinformation, die durch die Analyse der Sprache gemäß einer nicht-linearen Übertragungsfunktion erhalten wird, eine Schaltung, um die Komprimierbarkeit als Übertragungsfunktions-Koeffizient der Komprimierschaltung entsprechend jedem der Phoneme oder Blöcke, aus denen sich Sprache zusammensetzt, festzulegen, und einen Streicher zum Speichern der Sprachinformation aufweist. Mit der Vorrichtung wird die Klarheit von Konsonantenabschnitten der eingegbenen Sprache verbessert und es kann Sprache von hoher Qualität erzeugt werden. Der Stimmton von Sprache kann allein durch Umsetzen der Komprimierbarkeit verändert werden.

Claims

Sprachverarbeitungsvorrichtung mit einer Eingabevorrichtung (200–202) zur Eingabe von Sprache und zur Erzeugung entsprechender Sprachdaten, einer Analysevorrichtung (204, 205) zur Analyse der Sprachdaten und zum Erhalt entsprechender Sprachinformation, und einer Speichervorrichtung (100; 204) zum Speichern der Sprachinformation, dadurch gekennzeichnet, dass die Eingabevorrichtung (200–202) die Sprache und die Analysevorrichtung (204, 205) die Sprachdaten blockweise verarbeiten, wobei ein Block jeweils einem Sprachsignal finiter Länge entspricht, eine Komprimierungsvorrichtung (205) zum Komprimieren der Sprachdaten-Blöcke mittels einer nicht-linearen Übertragungsfunktion vorgesehen ist, und die Komprimierbarkeit als Koeffizient (α) der Übertragungsfunktion der Komprimierungsvorrichtung (205) für jeden Sprachdaten-Block einstellbar ist.
Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die nicht-lineare Übertragungsfunktion durch Z–1 – (Z–1 – α)/(1 – αZ–1) ausgedrückt ist.
Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass durch Verändern des Koeffizienten (α) die nicht-lineare Übertragungsfunktion eine Frequenzachse bereitstellen kann, die der Frequenzauflösung des menschlichen Gehörsinns nahe kommt.
Verfahren zur Sprachverarbeitung mit den Schritten Eingeben von Sprache und Erzeugen entsprechender Sprachdaten, Analysieren der Sprachdaten und Erhalten entsprechender Sprachinformation, und Speichern der Sprachinformation, dadurch gekennzeichnet, dass in den Schritten des Eingebens der Sprache und des Analysierens der Sprachdaten diese blockweise verarbeitet werden, wobei ein Block jeweils einem Sprachsignal finiter Länge entspricht, dass ein Schritt des Komprimieren der Sprachdaten-Blöcke mittels einer nicht-linearen Übertragungsfunktion vorgesehen ist, und dass die Komprimierbarkeit als Koeffizient (α) der Übertragungsfunktion für jeden Sprachdaten-Block einstellbar ist.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die nicht-lineare Übertragungsfunktion durch Z–1 – (Z–1 – α)/(1 – αZ–1) ausgedrückt ist.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass durch Verändern des Koeffizienten (α) die nicht-lineare Übertragungsfunktion eine Frequenzachse bereitstellen kann, die der Frequenzauflösung des menschlichen Gehörsinns nahe kommt.