DE4033350A1 - Verfahren und vorrichtung fuer die sprachverarbeitung - Google Patents

Verfahren und vorrichtung fuer die sprachverarbeitung

Info

Publication number
DE4033350A1
DE4033350A1 DE4033350A DE4033350A DE4033350A1 DE 4033350 A1 DE4033350 A1 DE 4033350A1 DE 4033350 A DE4033350 A DE 4033350A DE 4033350 A DE4033350 A DE 4033350A DE 4033350 A1 DE4033350 A1 DE 4033350A1
Authority
DE
Germany
Prior art keywords
speech
compressibility
transfer function
synthesis
linear transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE4033350A
Other languages
English (en)
Other versions
DE4033350B4 (de
Inventor
Junichi Tamura
Atsushi Sakurai
Tetsuo Kosaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of DE4033350A1 publication Critical patent/DE4033350A1/de
Application granted granted Critical
Publication of DE4033350B4 publication Critical patent/DE4033350B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung für die Sprachverarbeitung und insbesondere auf ein Sprachverarbeitungsverfahren und eine Vorrichtung, womit Sprache in hoher Qualität und Sprache durch Verändern der Sprachqualität synthetisierbar ist.
Fig. 2 zeigt den prinzipiellen Aufbau einer Sprachsynthese- Vorrichtung. Im allgemeinen umfaßt eine Spracherzeugungs- Vorrichtung einen Tonquellen-Abschnitt, der durch einen Im­ pulsgenerator 2 und einen Rauschgenerator 3 gebildet wird, und einen Synthese-Filter 4, der die Resonanz-Eigenschaften eines Stimmverlaufs zum Ausdruck bringt, dem eine Eigen­ schaft eines Phonems zugrundeliegt. Der Aufbau eines Syn­ theseparameterspeichers 1 zur Übermittlung von Parametern zum Tonquellen-Abschnitt und zum Synthese-Filter ist in Fig. 3 gezeigt. Sprache wird auf der Basis einer Analyse­ fensterlänge von wenigen Millisekunden bis zu einigen zehn Millisekunden analysiert. Das erhaltene Ergebnis der Analyse für ein Zeitintervall vom Beginn der Analyse eines bestimmten Analyse-Fensters bis zum Beginn der Analyse des nächsten Analyse-Fensters wird im Syntheseparameterspeicher 1 als Daten eines Abschnitts bzw. Blocks gespeichert. Die Syntheseparameter umfassen Tonquellenparameter, die eine Tonhöhe und einen stimmhaften bzw. stimmlosen Zustand ange­ ben, und Synthese-Filterkoeffizienten. Bei der Synthese werden die vorstehend erwähnten Synthese-Parameter eines Blocks in einem beliebigen Zeitintervall ausgegeben (normalerweise in einem vorbestimmten Zeitintervall, und nur dann ein einem beliebigen Zeitintervall, wenn das Inter­ vall zwischen den Analyse-Fenstern geändert wird), wobei eine synthetisierte Sprache erhalten wird. Bekannte Sprach­ analyse-Verfahren sind beispielsweise PARCOR, LPC, LSP, Formant, Cepstrum und dergleichen.
Heutzutage herrscht die Meinung, daß von den vorstehend er­ wähnten Analyse/Synthese-Verfahren das LSP- und das Cep­ strum-Verfahren die höchsten Synthese-Qualitäten aufweisen. Obwohl beim LSP-Verfahren die entsprechende Beziehung zwi­ schen der Spektrum-Hüllkurve und den Artikulations-Parame­ tern gut ist, basieren die Parameter in ähnlicher Weise wie beim PARCOR-Verfahren auf dem Allpol-Modell. Daher wird be­ obachtet, daß ein kleines Problem auftritt, wenn das LSP- Verfahren für eine Regel-Synthese oder dergleichen verwen­ det wird. Andererseits wird beim Cepstrum-Verfahren ein Cepstrum, das durch die Fourier-Koeffizienten eines log­ arithmischen Spektrums definiert ist, als Synthese-Filter­ koeffizient verwendet. Wenn beim Cepstrum-Verfahren ein Cepstrum unter Verwendung einer Hüllkurven-Information ei­ nes logarithmischen Spektrums erhalten wird, ist die Quali­ tät der synthetisierten Sprache sehr hoch. Da das Cepstrum- Verfahren obendrein - anders als bei einem linearen Prädik­ tor-Verfahren - vom Pol-Nullstellen-Typ ist, bei dem der Grad von Zähler und Nenner einer Übertragungsfunktion gleich sind, sind die Interpolationseigenschaften gut, und somit ist ein Cepstrum auch als Synthese-Parameter für eine Regel-Synthesevorrichtung geeignet.
Bei einem normalen Cepstrum ist es jedoch notwendig, den Analyse-Grad auf einen hohen Wert zu setzen, um eine syn­ thetisierte Sprache von hoher Qualität auszugeben. Wenn je­ doch der Analyse-Grad erhöht wird, steigt die Kapazität des Parameter-Speichers, so daß dies unerwünscht ist. Wenn des­ halb die Parameter bei einer hohen Frequenz in Übereinstim­ mung mit der Frequenzauflösung des menschlichen Gehörsinns ausgedünnt (die Auflösung ist hoch bei niedrigen Frequenzen und niedrig bei hohen Frequenzen) und die extrahierten Pa­ rameter verwendet werden, kann der Speicher effizient ge­ nutzt werden. Der Ausdünnungsprozeß der Parameter in Über­ einstimmung mit der Frequenzauflösung des menschlichen Ge­ hörsinns wird durch Frequenzumsetzung in das normale Cep­ strum unter Verwendung einer Mel-Skala durchgeführt. Der durch Frequenzumsetzung des Cepstrum-Koeffizienten unter Verwendung der Mel-Skala erhaltene Mel-Cepstrum-Koeffizient ist durch den Fourier-Koeffizienten des logarithmischen Spektrums in einem nicht-linearen Frequenz-Speicher defi­ niert.
Die Mel-Skala ist eine nicht-lineare Frequenz-Skala, der die Frequenzauflösung des menschlichen Gehörsinns nach Ste­ vens zugrundeliegt. Im allgemeinen wird die Skala benutzt, die näherungsweise durch die Phasen-Eigenschaften eines Allpaß-Filters ausgedrückt wird.
Eine Übertragungsfunktion des Allpaß-Filters wird durch
-1 = (Z-1 - α) / (1 - αZ-1),  | α | <1 (1)
ausgedrückt, und seine Phasen-Eigenschaften sind folgende:
= Ω + 2 tan-1 {α* sin Ω/ (1 - α* cos Ω)} (2)
= e Ω, Z = ej Ω
= 2 π T, Ω = 2 πf T
Mit Ω, f und T sind dabei eine normierte Winkelfrequenz, eine Frequenz bzw. eine Abtastperiode bezeichnet. Wenn die Abtastfrequenz auf 10 kHz gesetzt wird, ist durch Setzen von α = 0,35 die Umsetzung in eine Frequenz möglich, die der Mel-Skala sehr nahe kommt.
Fig. 4 zeigt ein Ablaufdiagramm für die Extrahierung eines Mel-Cepstrum-Parameters. Fig. 5 zeigt den Zustand, in dem das Spektrum Mel-konvertiert ist. Fig. 5A zeigt ein log­ arithmisches Spektrum nach der Beendigung der Fourier- Transformation. Fig. 5B zeigt eine Spektrum-Hüllkurve, die durch die Spitzenwerte eines geglätteten Spektrums und ei­ nes logarithmischen Spektrums verläuft. Fig. 5C zeigt ein Diagramm, in dem der Fall dargestellt ist, in dem die Spek­ trum-Hüllkurve aus Fig. 5B einer nicht-linearen Frequenzum­ setzung unter Verwendung der Gleichung (1) unterzogen wor­ den ist, wobei α = 0,35 gewählt und die Frequenzauflösung für tiefe Töne erhöht wurde. Da die Ω-Skala in den Fig. 5B und 5C in gleichmäßige Intervalle unterteilt ist, ist die Spektrum-Hüllkurve bei niedrigen Frequenzen erhöht und bei hohen Frequenzen komprimiert. Bisher wurde der Wert für α in der Synthesevorrichtung festgelegt, und die Tonquellen- Parameter und die Synthese-Filterkoeffizienten, die in Fig. 3 gezeigt sind, wurden vom Syntheseparameter-Speicher 1 übertragen.
Obwohl gemäß dem Verfahren, bei dem die Mel-Frequenz an­ genähert wird, die Parameter infolge der Komprimierung des hohen Frequenzbereichs effizient komprimiert werden können, wird ein solches Verfahren als ungeeignet und für die Synthese einer weiblichen Stimme mit einer Eigenschaft in einem ho­ hen Frequenzbereich angesehen. Sogar für eine tiefe Stimme wie eine männliche Stimme existiert für den Fall, daß ein Sprachelement wie beispielsweise "cha", "chu", "cho", "hya", "hyu" oder "hyo" mit Spracheigenschaften in einem relativ hohen Frequenzbereich synthetisiert wird oder der­ gleichen, eine Tendenz dahingehend, daß die Klarheit eines Konsonantenabschnitts verschlechtert ist.
Der Erfindung liegt die Aufgabe zugrunde, eine Sprachverar­ beitungsvorrichtung zu schaffen, die in der Lage sind, die Klarheit eines Konsonantenabschnitts zu erhöhen und Sprache in hoher Qualität zu synthetisieren.
Außerdem soll eine Sprachverarbeitungsvorrichtung geschaf­ fen werden, die allein durch Umsetzung der Komprimierbar­ keit den Sprachton verändern kann.
Um jedes der Phoneme, aus denen eine Sprache aufgebaut ist, um einen optimalen Wert zu komprimieren, ist erfindungsge­ mäß eine Vorrichtung zum Extrahieren eines Wertes vorgese­ hen, in der, wenn eine Sprachinformation komprimiert wird, eine einem jeden Phonem entsprechende Komprimierbarkeit als ein Koeffizient einer nicht-linearen Übertragungsfunktion festgelegt wird.
Um jedes der Phoneme, aus denen eine Sprache aufgebaut ist, um einen optimalen Wert zu komprimieren, wird erfindungsge­ mäß ein Verfahren zum Extrahieren eines Wertes angewandt, bei dem, wenn eine Sprachinformation komprimiert wird, eine einem jeden Phonem entsprechende Komprimierbarkeit als ein Koeffizient einer nicht-linearen Übertragungsfunktion fest­ gelegt wird.
Zur Veränderung des Sprachtons ist erfindungsgemäß eine Vorrichtung zum Umsetzen der Komprimierbarkeit bei der Ana­ lyse und zum Synthetisieren der Sprache mit der Komprimier­ barkeit nach der Umsetzung vorgesehen.
Zur Veränderung des Sprachtons wird erfindungsgemäß ein Verfahren zum Umsetzen der Komprimierbarkeit bei der Ana­ lyse und zum Synthetisieren der Sprache mit der Komprimier­ barkeit nach der Umsetzung angewandt.
Die Erfindung wird im folgenden anhand von Ausführungsbei­ spielen unter Bezugnahme auf die Zeichnung näher erläutert. Es zeigt
Fig. 1A den Aufbau einer Sprachsynthesevorrichtung gemäß einem prinzipiellen Ausführungsbeispiel,
Fig. 1B den Aufbau von Daten in einem in Fig. 1A gezeigten Syntheseparameterspeicher,
Fig. 1C den Systemaufbau gemäß einem prinzipiellen Ausfü­ rungsbeispiel,
Fig. 1D den Aufbau einer Tabelle zum Auffinden des Grades eines Cepstrum-Koeffizienten anhand des Wertes von αi,
Fig. 1E die Darstellung des Falls, daß beim Interpolieren des Bereichs zwischen den in Fig. 1B gezeigten Blöcken mit unterschiedlichem Grad Nullen in die Daten eingefügt wer­ den,
Fig. 1F die Darstellung des Spektrums eines Original-Klangs und einer synthetisierten Sprache für den Fall, daß der Wert von α bei Analyse und Synthese verschieden ist,
Fig. 2 den Aufbau einer herkömmlichen Sprachsynthesevor­ richtung,
Fig. 3 den Aufbau von Daten in einem herkömmlichen Synthese­ parameterspeicher,
Fig. 4 ein Ablaufdiagramm der Extrahierung und Analyse ei­ nes Syntheseparameters für die Ausführung einer nicht-li­ nearen Frequenzumsetzung,
Fig. 5A die Darstellung eines in Fig. 4 erwähnten logarith­ mischen Spektrums,
Fig. 5B die Darstellung einer Spektrum-Hüllkurve, die durch ein in Fig. 4 erwähntes verbessertes Cepstrum-Verfahren er­ halten wird,
Fig. 5C die Darstellung des Ergebnisses für den Fall, daß die in Fig. 5B gezeigte Spektrum-Hüllkurve einer nicht-li­ nearen Frequenzumsetzung unterzogen wurde,
Fig. 6 die Darstellung eines Beispiels, bei dem der Grad eines Syntheseparameters für ein Phonem und der Wert von α einander entsprechend festgesetzt wurden, um die Klarheit eines Konsonantenabschnitts zu verbessern,
Fig. 7A eine Tabelle zur Umsetzung des Wertes von α in Ab­ hängigkeit von einer Tonhöhe,
Fig. 7B eine Tabelle zur Umsetzung des Wertes von α in Ab­ hängigkeit von einem Energie-Term,
Fig. 8 eine Gleichung für die α-Modulation zur Veränderung der Stimmqualität von Sprache,
Fig. 9 die Darstellung der Wellenform von α zum Aufzeigen des Modulationszustandes,
Fig. 10A ein Haupt-Ablaufdiagramm, das den Ablauf der Sprachanalyse zeigt,
Fig. 10B ein Ablaufdiagramm, das die Analyse von Sprache und die in Fig. 10A erwähnte Extrahierung von Synthese-Fil­ terkoeffizienten zeigt,
Fig. 10C ein Ablaufdiagramm, das die in Fig. 10B erwähnte Extrahierung einer Spektrum-Hüllkurve einer eingegebenen Sprach-Hüllkurve zeigt,
Fig. 10D ein Ablaufdiagramm, das die Extrahierung von den in Fig. 10B erwähnten Synthese-Filterkoeffizienten von Sprache zeigt,
Fig. 11A ein Ablaufdiagramm, das die Sprachsynthese für den Fall zeigt, daß eine Grad-Umsetzungstabelle existiert,
Fig. 11B ein Ablaufdiagramm für eine Syntheseparameter- Übertragungssteuervorrichtung,
Fig. 11C ein Ablaufdiagramm, das den Betriebsablauf der Sprachsynthesevorrichtung zeigt, und
Fig. 12 die Darstellung eines Aufbaus eines logarithmischen Mel-Spektrum-Approximationsfilters.
Erstes Ausführungsbeispiel
Fig. 1 zeigt den Aufbau eines Ausführungsbeispiels. Fig. 1A zeigt den Aufbau einer Sprachsynthesevorrichtung, Fig. 1B zeigt den Aufbau von Daten in einem Syntheseparameterspei­ cher und Fig. 1C zeigt den Systemaufbau der gesamten Sprachsynthesevorrichtung. Der Betriebsablauf wird im De­ tail unter Bezugnahme auf die in Fig. 10 und 11 gezeigten Ablaufdiagramme beschrieben. Bei dem in Fig. 1C gezeigten Systemaufbau wird über ein Mikrofon 200 eine Sprachsignal- Kurvenform eingegeben. Nur die niedrigen Frequenzanteile können einen Tiefpaßfilter 201 passieren. Ein analoges Ein­ gangssignal wird durch einen Analog/Digital-Umsetzer 202 in ein digitales System umgesetzt. Das digitale Signal wird folgendermaßen übertragen: über eine Schnittstelle 203 zur Durchführung der Übertragung und des Empfangs zu bzw. von einer zentralen Recheneinheit (CPU) 205 für die Steuerung des Betriebs der gesamten Vorrichtung gemäß einem Spei­ cher 204 gespeicherten Programmen; über eine Schnittstelle 206 zur Durchführung der Übertragung und des Empfangs zu bzw. von einer Anzeigevorrichtung 207, einer Tastatur 208 und der zentralen Recheneinheit 205; über einen Digi­ tal/Analog-Umsetzer 209 zur Umwandlung der digitalen Si­ gnale von der zentralen Recheneinheit 205 in ein analoges Signal; über einen Tiefpaßfilter 210, um nur die niedrigen Frequenzanteile passieren zu lassen; und über einen Ver­ stärker 211. Auf diese Weise wird durch einen Lautsprecher 212 ein Sprachsignal ausgegeben.
Ähnlich wie die in Fig. 2 gezeigte herkömmliche Sprachsyn­ thesevorrichtung ist die in Fig. 1A gezeigte Sprachsynthe­ sevorrichtung so aufgebaut, daß das über das Mikrofon 200 eingegebene Sprachsignal von der zentralen Recheneinheit 205 analysiert wird, und die Daten als Ergebnis der Analyse Abschnitt für Abschnitt bzw. Block für Block durch eine Syntheseparameterübertragungs-Steuervorrichtung 101 in vor­ bestimmten Blockzeitdauer-Intervallen von einem Synthesepa­ rameterspeicher 100 zu einer Sprachsynthesevorrichtung 105 übertragen werden. Der Betriebsablauf der Sprachanalyse ist in dem in Fig. 10 gezeigten Ablaufdiagramm dargestellt und wird nun detailliert erläutert. In Fig. 10A ist ein Haupt­ ablaufdiagramm dargestellt, das den Ablauf der Sprachana­ lyse zeigt. In Fig. 10B ist ein Ablaufdiagramm dargestellt, das den Ablauf der Sprachanalyse und den Ablauf der Extra­ hierung von Synthese-Filterkoeffizienten zeigt. In Fig. 10C ist ein Ablaufdiagramm dargestellt, das den Ablauf der Ex­ trahierung einer Spektrum-Hüllkurve einer eingegebenen Sprachsignal-Kurvenform zeigt. In Fig. 10D ist ein Ablauf­ diagramm dargestellt, das den Ablauf der Extrahierung von Sprachsynthese-Filterkoeffizienten zeigt. Von der eingege­ benen Sprachsignal-Kurvenform wird die in einem Zeitinter­ vall von einem Zeitpunkt, zu dem die Analyse eines bestimm­ ten Analyse-Fensters gestartet wurde bis zu einem Zeit­ punkt, zu dem die Analyse des nächsten Analyse-Fensters ge­ startet wird, erhaltene Kurvenform als ein Abschnitt bzw. Block festgelegt. Das eingegebene Sprachsignal wird danach auf der Basis einer Blockeinheit analysiert und syntheti­ siert. In dem in Fig. 10 gezeigten Ablaufdiagramm wird als erstes eine Blocknummer i auf 0 gesetzt (Schritt S1). Dann wird die Blocknummer aktualisiert (S2). Die Daten eines Blocks werden in die zentrale Recheneinheit 205 eingegeben (S3), durch die das eingegebene Sprachsignal analysiert wird und die Synthese-Filterkoeffizienten extrahiert werden (S4). Um die Sprache zu analysieren und die Synthese-Fil­ terkoeffizienten zu extrahieren, wird aus der eingegebenen Sprachsignal-Kurvenform eine Spektrum-Hüllkurve (S8) und die Synthese-Filterkoeffizienten (S9) extrahiert. In dem in Fig. 10C dargestellten Ablaufdiagramm ist ein Programm zur Extrahierung der Spektrum-Hüllkurve gezeigt. Zuerst wird ein bestimmtes spezielles Fenster für die eingegebene Sprachsignal-Kurvenform gebildet, um die Daten der Länge eines Blocks als ein Signal von finiter Länge zu betrach­ ten (S10). Dann wird das eingegebene Sprachsignal einer Fourier-Transformation unterworfen (S11), eine Logarithmus- Berechnung durchgeführt (S12) und der logarithmische Wert als logarithmisches Spektrum X(Ω) in einem Pufferspeicher im Speicher 204 gespeichert (S13). Dann wird eine inverse Fourier-Transformation ausgeführt (S14) und der resultie­ rende Wert wird als ein Cepstrum-Koeffizient C(n) festge­ setzt. Um den Cepstrum-Koeffizient C(n) zu glätten, wird er an einem bestimmten speziellen Fenster herausgeschnitten (Liftering) (S15). Die Blocknummer i in Fig. 10C wird auf 0 gesetzt (S16). Das durch die Ausführung der Fourier-Trans­ formation erhaltene Ergebnis wird als geglättetes Spektrum Si(Ω) festgesetzt (S17). Das geglättete Spektrum Si(Ω) wird von dem im Pufferspeicher gespeicherten X(Ω) subtrahiert und der negative Wert wird gelöscht. Das Ergebnis wird als Restspektrum Ei(Ω) festgesetzt (S18). Ei(Ω) = (1 + b)*Ei(Ω) wird bezüglich eines geeigneten Beschleunigungskoeffizien­ ten b berechnet (S19). Um aus Ei(Ω) ein geglättetes Spek­ trum (Ω) zu erhalten, werden die inverse Fourier-Trans­ formation (S20), das Liftering (S21) und die Fourier-Trans­ formation (S22) ausgeführt. Si(Ω) + (Ω) werden zu (Ω) gesetzt (S23). i wird durch i+1 ersetzt (S24). Die Verar­ beitung in den Schritten S18 bis S24 wird wiederholt bis i gleich 4 ist (S25). Wenn i gleich 4 ist (S24), wird der Wert von (Ω) als Spektrum (Ω) festgesetzt. Es ist gün­ stig, i auf einen Wert zwischen 3 und 5 zu setzen. Das Pro­ gramm zur Extrahierung Synthese-Filterkoeffizienten ist in dem in Fig. 10D dargestellten Ablaufdiagramm gezeigt. Das gemäß dem in Fig. 10C gezeigten Ablaufdiagrmm erhaltene Spektrum (Ω) wird entsprechend den Frequenzeigenschaften des Gehörsinns in eine Mel-Frequenz umgesetzt. Die Phasen­ Charakteristik des Allpaßfilters, der näherungsweise die Mel-Frequenz hervorbringt, wurde in der Gleichung (2) ge­ zeigt. Eine inverse Funktion der Phasen-Charakteristik ist in der folgenden Gleichung (3) gezeigt. Durch Gleichung (3) wird eine nicht-lineare Frequenz-Umsetzung durchgeführt (S27).
Ω = - 2tan-1 {α - sin / (1 + α* cos )} (3)
Label-Information (der Hüllkurve entsprechendes Phonem-Sym­ bol) wird vorher zu den Kurvenform-Daten addiert, und der Wert α wird auf der Basis der Label-Information bestimmt. Nach der nicht-linearen Frequenz-Umsetzung wird die Spek­ trum-Hüllkurve erhalten und einer inversiven Fourier-Trans­ formation unterzogen (S28), wobei man einen Cepstrum-Koef­ fizienten Ca(m) erhält. Filterkoeffizienten bi(m) (i: Blocknummer, m: Grad) werden durch folgende Gleichung (4) erhalten (S29).
bi(m) = Ca(m) + b(Ca(m-1) - b(m+1)) (4)
Die erhaltenen Filter-Koeffizienten bi(m) werden in den Syntheseparameter-Speicher 100 im Speicher 204 eingespei­ chert (S5). Fig. 1B zeigt den Aufbau des Syntheseparameter- Speichers 100. Als Syntheseparameter eines Blocks der Blocknummer i gibt es neben U/Vi (stimmhaft/stimmlos)- Unterscheidungsdaten, Information über einen Rhythmus wie beispielsweise eine Tonhöhe und dergleichen und Phonemen eigenen Filterkoeffizienten bi(m) den Wert eines Frequenz- Umsetzungsverhältnisses αi. Der Wert des Frequenz-Umset­ zungsverhältnisses αi ist der Optimalwert, der durch die zentrale Recheneinheit 205 aufgrund der Analyse der einge­ gebenen Sprachsignal-Kurvenform entsprechend jedem Phonem festgelegt wird. αi ist als ein α-Koeffizient der Übertra­ gungsfunktion des in Gleichung (1) gezeigten Allpaßfilters definiert (i ist eine Blocknummer). Wenn der Wert von α klein ist, ist auch die Komprimierbarkeit klein. Wenn α groß ist, ist auch die Komprimierbarkeit groß. Zum Beispiel ist α ≃ 0,35, wenn eine männliche Stimme bei einer Abtast­ frequenz von 10 kHz analysiert wird. Wenn bei der gleichen Abtastperiode der Wert von α auf einen geringfügig kleine­ ren Wert gesetzt wird und der Grad des Cepstrum-Koeffizienten erhöht wird, wird insbesondere bei der Sprache einer weib­ lichen Stimme ein Stimmton mit hoher Klarheit erhalten. Der Grad des dem Wert von α entsprechenden Cepstrum-Koeffizien­ ten wird durch die in Fig. 1D gezeigte Tabelle, die vorher gebildet wurde, vorherbestimmt. Unter Bezugnahme auf die in Fig. 1D gezeigte Tabelle überträgt die Syntheseparameter­ Übertragungssteuervorrichtung 101 die Daten nur bis zu die­ sem Grad vom Syntheseparameterspeicher 100 zur Sprachsyn­ thesevorrichtung 105. Wenn die Interpolationsdaten gesendet werden, bei denen der momentane und der nächste Block auf der Basis einer Abtastwert-Einheit interpoliert wurden, kann weiterhin eine gute Sprache erhalten werden. In Fig. 11 ist ein Ablaufdiagramm dargestellt, das den Betrieb der Sprachsynthese zeigt. Es gibt einen Fall, bei dem der Spei­ cher 204 eine Umsetzungstabelle 106 enthält, um bei der Sprachsynthese die Frequenz-Komprimierbarkeit αi entspre­ chend dem Grad des Cepstrum-Koeffizienten festzusetzen, und einen anderen Fall, bei dem der Speicher 204 keine solche Umsetzungstabelle enthält. In Fig. 11A ist ein Ablaufdia­ gramm dargestellt, das den Sprachsynthese-Ablauf für den Fall zeigt, wo der Speicher 204 eine Umsetzungstabelle 106 enthält. Zuerst wird durch die zentrale Recheneinheit 205 der Wert der Frequenz-Komprimierbarkeit α der Daten eines Blocks aus dem Syntheseparameterspeicher 100 im Speicher 204 ausgelesen (S31). Durch die zentrale Recheneinheit 205 wird ein α entsprechender Grad P des Cepstrum-Koeffizienten aus der Grad-Referenztabelle 106 gelesen (S32). Durch die zentrale Recheneinheit 205 werden Filterkoeffizienten-Daten bi(P) lediglich vom Grad P aus dem Syntheseparameterspei­ cher 100 gelesen und 0 wird in die verbleibenden Ab­ schnitte der Blockdaten Q. Grades eingefügt (30. Grad - P. Grad = Q. Grad) (S33). Die gebildeten Blockdaten werden in einem Puffer (neu) im Speicher 204 gespeichert (S34).
In Fig. 11B ist ein Ablaufdiagramm dargestellt, das den Ab­ lauf der Sprachsynthese für den Fall zeigt, bei dem der Speicher 204 keine Grad-Referenztabelle 106 enthält.
Fig. 11B bezieht sich auf den Ablauf, bei dem die Synthese­ parameter Übertragungssteuervorrichtung 101 die Daten unter gleichzeitiger Interpolation zur Sprachsynthesevorrichtung 105 überträgt. Zuerst werden die Daten des Startblocks als momentane Blockdaten in einen Puffer (alt) des Synthesepa­ rameterspeichers 100 im Speicher 204 eingegeben (S35). Dann werden die Blockdaten des nächsten Blocks in den Puffer (neu) des Syntheseparameter-Speichers 100 eingespeichert (S36). Der durch Division der Differenz zwischen dem Puffer (neu) und dem Puffer (alt) durch die Anzahl n der zu inter­ polierenden Abtastwerte erhaltene Wert wird in einen Puffer (Unterschied) eingespeichert (S37). Der durch Addition des Puffers (Unterschied) zum momentanen Blockdaten-Puffer (alt) erhaltene Wert wird in den momentanen Blockdaten-Puf­ fer (alt) eingespeichert (S38). In diesem Zustand wartet die Vorrichtung (S40) bis von der Sprachsynthesevorrichtung 105 eine Übertragungsanforderung ausgegeben wird (S39). Wenn die Übertragungsanforderung erzeugt worden ist, wird der momentane Blockdaten-Puffer (alt) zum Synthese-Filter 104 übertragen (S41). Es wird überprüft, ob der momentane Blockdaten-Puffer (alt) gleich dem nächsten Blockdaten-Puf­ fer (neu) ist oder nicht (S42). Wenn sie sich unterschei­ den, springt der Programmablauf zurück, und die Vorgänge gemäß den Schritten S38 bis S42 werden wiederholt bis Puf­ fer (alt) = Puffer (neu). Wenn in Schritt S42 entschieden wird, daß Puffer (alt) = Puffer (neu), tritt der Puffer (neu) an die Stelle des momentanen Blockdaten-Puffers (alt) (S43). Es wird überprüft, ob die Übertragung aller Blockda­ ten im Syntheseparameterspeicher 100 komplett ist oder nicht (S44). Wenn nicht, dann springt das Verarbeitungspro­ gramm zurück, und die Verarbeitung gemäß den Schritten S36 bis S44 werden solange wiederholt, bis die Datenüber­ tragung abgeschlossen ist. In Fig. 11C ist ein Ablaufdia­ gramm dargestellt, das den Betrieb der Sprachsynthesevor­ richtung 105 zeigt.
Wenn von der Syntheseparameter-Übertragungsvorrich­ tung 101 ein Parameter in die Sprachsynthesevorrichtung 105 eingegeben wurde (S45), werden die U/V-Daten zum Impulsge­ nerator 102 gesendet (S46). Die Tonhöhendaten werden zu ei­ nem U/V-Schalter 107 geleitet (S47). Die Filter-Koeffizien­ ten und der Wert von α werden zu einem Synthese-Filter 104 geleitet (S48). Im Synthese-Filter 104 wird die Synthese- Filter-Berechnung durchgeführt (S49). Nach der Berechnung des Synthese-Filters wartet die Vorrichtung bis von einem Zeitgeber 108 ein Abtastwertausgabe-Zeitgeberimpuls ausge­ geben wird (S51). Wenn der Abtastwertausgabe-Zeitgeberim­ puls erzeugt wurde (S51), wird das Ergebnis der Berechnung des Synthese-Filters zum Digital/Analog-Umsetzer 209 ausge­ geben (S52). Zur Syntheseparameter-Übertragungssteuervor­ richtung 101 wird eine Übertragungsanforderung gesandt (S53).
Fig. 12 zeigt den Aufbau eines MLSA-Filters. Eine Übertra­ gungsfunktion H() des Synthese-Filters 104 hat folgendes Aussehen:
H() = exp (b(0)/2)*R4(F()) (3)
F() = Z-1 (b(1)+b(2)-1+b(3)-2+ . . . +b(30)-29) (4)
wobei R4 eine Exponentialfunktion bezeichnet, die durch eine Pad´-Approximation vierten Grades dargestellt wird. Das heißt, der Synthese-Filter ist von einem Typ, bei dem die Gleichung (4) durch Gleichung (1) ersetzt wird, und Gleichung (3) durch Gleichung (4). Durch Verändern des Fre­ quenzumsetzungs-Verhältnisses α und des Grades P der Koef­ fizienten, die an den in den Gleichungen (1), (3) und (4) gezeigten Filter gegeben werden, wird die eingegebene Sprache um die optimale Frequenz-Komprimierbarkeit komprimiert. Sprache kann durch die erzeugten Filter-Koeffizienten mit einem jedem Block entsprechenden Frequenzumsetzungsverhält­ nis erzeugt werden.
Bei diesem Ausführungsbeispiel wurde die Frequenzumsetzung durch Verwendung eines primären Allpaß-Filters gemäß Glei­ chung (1) durchgeführt. Wenn jedoch ein Synthese-Filter mit einem Allpaß-Filter höherer Ordnung verwendet wird, kann die Frequenz bezüglich eines beliebigen Abschnitts der er­ haltenen Spektrum-Hüllkurve komprimiert oder expandiert werden.
Zweites Ausführungsbeispiel
Im ersten Ausführungsbeispiel wurde Sprache hoher Qualität erzeugt, indem die Frequenz-Komprimierbarkeit α bei der Analyse und der Grad P der Filterkoeffizienten den Werten α und P bei der Synthese entsprechen.
Nachdem bei dem Ausführungsbeispiel die Syntheseparameter, die analysiert worden waren, indem der Wert der Frequenz­ komprimierbarkeit α auf einen konstanten Wert gesetzt wurde, durch die Syntheseparameter-Übertragungssteuervor­ richtung 101 umgesetzt wurden, werden die umgesetzten Syn­ theseparameter zur Sprachsynthesevorrichtung 105 übertra­ gen, so daß die Tonqualität (Stimmton) verändert wird und Sprache synthetisiert werden kann. In Fig. 1F ist ein Zu­ stand eines Spektrums (enthalten in einem Block) für den Fall dargestellt, daß der Wert von α geändert wurde. Der Wert von α wurde bei der Analyse auf αa = 0.35 ge­ setzt, und der Wert α für die Synthese wurde auf αs = 0,15, 0,35 und 0,45 verändert. Wenn Sprache unter Durchführung einer Umsetzung mit αs < αa erzeugt wird, erhält man eine tiefe Stimme mit Gewichtung der niedrigen Frequenzkomponen­ ten. Wenn αs < αa ist, erhält man eine dünne Stimme mit Ge­ wichtung der hohen Frequenzkomponenten.
Es gibt folgende Verfahren zur Umsetzung des Wertes von α:
  • 1. Ein Verfahren, bei dem eine Umsetzungstabelle zum Verän­ dern des Wertes von α vorher gebildet wird und nach Beendi­ gung der Umsetzung der Wert von α, der unter Bezugnahme auf die Umsetzungstabelle erhalten wird, bei der Synthese ver­ wendet wird.
  • 2. Ein Verfahren, bei dem ein veränderter Wert von α ver­ wendet wird, nachdem der Wert von α durch eine lineare oder nicht-lineare Funktionsgleichung verändert wurde.
Der Wert von α bei der Analyse und der Wert von α bei der Synthese werden auf den gleichen Wert gesetzt und zur Über­ einstimmung gebracht, oder der Wert wird zur Entsprechung gebracht, nachdem er auf einen anderen Wert umgesetzt wor­ den ist. Es gibt verschiedene Entsprechungs-Verfahren. Bei diesem Ausführungsbeispiel wurden diese Werte auf der Basis einer Blockeinheit zur Entsprechung gebracht. Jedoch können sie auch auf der Basis einer Phonemeinheit, einer Silben­ einheit oder eines Sprechers zur Entsprechung gebracht wer­ den.
Um die Klarheit bei der Synthese zu verbessern, beispiels­ weise im Fall /k/j/a/, ist es höchst wünschenswert, die Klarheit des Konsonantenteils /k/ von "kja" zu verbessern. Um bei der Analyse die Klarheit des /k/-Abschnitts zu ver­ bessern, wird α verkleinert und P erhöht. Die Analyse wird beispielsweise mit α = 0,21 und P = 30. Grad durchgeführt, und der Parameter wird im Syntheseparameterspeicher 100 ge­ speichert. Wenn der Wert von α allmählich für den /j/-Ab­ schnitt erhöht wird, und α = 0,35 und P = 16. Grad für den /a/-Abschnitt ist, wird eine weiche Blockinterpolation durchgeführt. Fig. 6 zeigt Veränderungen im Wert des Fre­ quenzumsetzungs-Verhältnisses α jedes Blocks und den Grad der Koeffizienten, die an den Synthese-Filter gegeben wer­ den.
Wenn das erste Verfahren zum Verändern des Wertes von α un­ ter Verwendung der Umsetzungstabelle angewandt wird, erhält man, wenn, wie in Fig. 7A gezeigt ist, α bei der Analyse und α bei der Synthese durch Bestimmung des Wertes α ent­ sprechend dem zur Synthesevorrichtung geleiteten Tonhöhen­ wert verändert werden, einen Klang, bei dem die niedrigen Frequenzanteile bei hohen Frequenzen betont werden und einen Klang, bei dem hohe Frequenzanteile bei niedrigen Frequenzen betont werden. Wie in Fig. 7B gezeigt ist, kann entsprechend b(0) für den Fall einer kräftigen Stimme ein Klang, bei dem die niedrigen Frequenzanteile angehoben sind, und im Fall einer schwachen Stimme ein Klang, bei dem die hohen Frequenzanteile angehoben sind, erzeugt und aus­ gegeben werden.
Andererseits kann im Fall der Veränderung des Wertes von α gemäß dem vorstehend erwähnten zweiten Verfahren der Wert von α bei der Analyse (zur einfacheren Erläuterung: α = 0,35 und P = 16. Grad in allen Blöcken) beispielsweise auf den Wert gesetzt werden, der bei einer vorbestimmten Periode bei der Synthese moduliert wird. Durch Vorsehen einer Einrichtung zur Eingabe einer Modulationsperiode und einer Modulationsfrequenz (z. B. 0,35 ± 0,1) an die in Fig. 1A Syntheseparameter-Übertragungssteuervorrichtung 101 wird die Spektrum-Verteilung der eingegebenen Stimme moduliert und es kann zeitabhängig eine Sprache ausgegeben werden, die verschieden von der eingegebenen Sprache ist. Fig. 8 zeigt die Gleichung für die α-Modulation und Fig. 9 zeigt einen Zustand der α-Modulation.
Es kann ein beliebiges, auf der Amplitude, der Frequenz oder der Phase basierende α-Modulationsverfahren verwendet werden. Bezüglich des Modulationsverfahrens kann der Wert der Amplitudeninformation von Sprache (b(0) in diesem Aus­ führungsbeispiel: Filter-Koeffizient des Terms 0. Ordnung) auch entsprechend dem Wert von α gemacht werden. Beispiels­ weise kann der Wert von b(0) des Synthese-Filters auch da­ hingehend geändert werden, daß bn(0) = (α - 0,35 + 1) * bo(0) (wobei bo(0): altes b(0) und bn(0): neues b(0)) unter Verwendung des in Fig. 9 gezeigten Wertes von α gesetzt wird.
Auch die Tonhöhe kann so verändert werden, daß Tonhöhen = (α - 0,35 + 1) * Tonhöheo (wobei Tonhöheo: alt und Tonhöhen: neu). Der Wert von α kann auch entsprechend dem Ener­ gie- bzw. Leistungsterm und dem Wert der Tonhöhe verändert werden.
Durch den vorstehend beschriebenen Aufbau werden folgende technische Vorteile erzielt:
Durch Vorsehen einer Vorrichtung zum Einstellen der Kompri­ mierbarkeit als ein Koeffizient einer nicht-linearen Über­ tragungsfunktion werden die Phoneme um einen jeweiligen Op­ timalwert komprimiert, wenn die Sprachinformation auf einem jedem Phonem einer Sprache entsprechenden Wert komprimiert wird. Somit kann die Klarheit eines Konsonantenabschnitts verbessert werden und es kann Sprache hoher Qualität er­ zeugt werden.
Durch Anwendung des Verfahrens, bei dem, wenn Sprachinfor­ mation komprimiert wird, die Komprimierbarkeit als ein Ko­ effizient der nicht-linearen Übertragungsfunktion auf den Wert gesetzt wird, der jedem der Phoneme einer Sprache ent­ spricht, werden die Phoneme um den jeweiligen Optimalwert komprimiert. Somit ist die Klarheit des Konsonantenab­ schnitts verbessert und es kann Sprache von hoher Qualität erzeugt werden.
Durch Vorsehen einer Vorrichtung zum Umsetzen der Kompri­ mierbarkeit bei der Sprachanalyse und einer Vorrichtung zum Erzeugen von Sprache unter Verwendung der umgesetzten Kom­ primierbarkeit kann ein Sprach-Stimmton durch alleiniges Umsetzen der Komprimierbarkeit verändert werden.
Durch Anwendung des Verfahrens der Umsetzung der Kompri­ mierbarkeit bei der Sprachanalyse und des Verfahrens der Synthese von Sprache unter Verwendung der umgesetzten Kom­ primierbarkeit kann der Sprach-Stimmton allein durch Umset­ zen der Komprimierbarkeit verändert werden.
Es wurde also eine Sprachverarbeitungsvorrichtung geschaf­ fen, die eine Analysevorrichtung zum Analysieren einer ein­ gegebenen Sprache, eine Komprimierschaltung zum Komprimie­ ren von Sprachinformation, die durch die Analyse der Sprache gemäß einer nicht-linearen Übertragungsfunktion erhal­ ten wird, eine Schaltung, um die Komprimierbarkeit als Übertragungsfunktions-Koeffizient der Komprimierschaltung entsprechend jedem der Phoneme oder Blöcke, aus denen sich Sprache zusammensetzt, festzulegen, und einen Speicher zum Speichern der Sprachinformation aufweist. Mit der Vorrich­ tung wird die Klarheit von Konsonantenabschnitten der ein­ gegebenen Sprache verbessert und es kann Sprache von hoher Qualität erzeugt werden. Der Stimmton von Sprache kann al­ lein durch Umsetzen der Komprimierbarkeit verändert werden.

Claims (17)

1. Sprachverarbeitungsvorrichtung, gekennzeichnet durch
eine Analysevorrichtung (204, 205) zum Analysieren von eingegebener Sprache,
eine Komprimierungsvorrichtung (205) zum Komprimieren von Sprachinformation, die durch Analyse der Sprache gemäß einer nicht-linearen Übertragungsfunktion erhalten wurde,
eine Vorrichtung (205), um eine Komprimierbarkeit (α) als Koeffizient der Übertragungsfunktion der Komprimiervor­ richtung entsprechend jedem der Phoneme oder Blöcke, aus denen eine Sprache zusammengesetzt ist, festzusetzen, und
eine Speichervorrichtung (100; 204) zum Speichern der Sprachinformation.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß -1 = (Z-1 - α) / (1 - αZ-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom­ primierbarkeit zu α gesetzt ist.
3. Vorrichtung nach einem der vorhergehenden Ansprüche, da­ durch gekennzeichnet, daß die nicht-lineare Übertragungs­ funktion eine Frequenzachse erhalten kann, die durch Ein­ stellung der Komprimierbarkeit der Frequenzauflösung des menschlichen Gehörsinns nahekommt.
4. Sprachverarbeitungsverfahren, dadurch gekennzeichnet,
daß eine eingegebene Sprache analysiert wird, um Sprach­ information zu erhalten und
daß, wenn die Sprachinformation komprimiert wird, eine Komprimierbarkeit als ein Koeffizient einer nicht-li­ nearen Übertragungsfunktion entsprechend jedem von Phonemen oder Blöcken, aus denen sich eine Sprache zusammensetzt, festgesetzt wird, wobei die Sprachinformation komprimiert und gespeichert wird.
5. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß Z-1 = (Z-1 - α) / (1 - αZ-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom­ primierbarkeit zu α gesetzt ist.
6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß die nicht-lineare Übertragungsfunktion eine Frequenzachse erhalten kann, die durch Einstellung der Komprimierbarkeit der Frequenzauflösung des menschlichen Gehörsinns nahekommt.
7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch ge­ kennzeichnet, daß eine Synthesevorrichtung (105) ein log­ arithmisches Spektrum-Approximationsfilter verwendet, bei dem ein primärer Allpaß-Filter als Verzögerungselement an­ gewandt wird.
8. Sprachverarbeitungsvorrichtung, gekennzeichnet durch
eine Vorrichtung (200) zum Lesen von Sprachinforma­ tion,
eine Umsetzungsvorrichtung (205) zum Umsetzen einer Komprimierbarkeit in der Sprachinformation, und
eine Synthesevorrichtung (105) zum Erzeugen von Sprache gemäß einer nicht-linearen Übertragungsfunktion mit der Komprimierbarkeit.
9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß -1 = (Z-1 - α) / (1 - αZ-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom­ primierbarkeit zu α gesetzt ist.
10. Vorrichtung nach Anspruch 8 oder 9, dadurch gekenn­ zeichnet, daß die nicht-lineare Übertragungsfunktion eine Frequenzachse erhalten kann, die durch Einstellung der Kom­ primierbarkeit der Frequenzauflösung des menschlichen Ge­ hörsinns nahekommt.
11. Vorrichtung nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, daß auch eine Tabelle oder eine Funktions­ gleichung zur Umsetzung der Komprimierbarkeit verwendet werden können.
12. Vorrichtung nach einem der Ansprüche 8 bis 11, dadurch gekennzeichnet, daß die Synthesevorrichtung (105) ein log­ arithmisches Spektrum-Approximationsfilter verwendet, bei dem ein primärer Allpaß-Filter als Verzögerungselement an­ gewandt wird.
13. Sprachverarbeitungsverfahren, dadurch gekennzeichnet, daß eine Sprachinformation gelesen wird, eine Komprimier­ barkeit in der Sprachinformation umgesetzt wird und eine Sprache gemäß einer nicht-linearen Übertragungsfunktion mit dieser Komprimierbarkeit erzeugt wird.
14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, daß -1 = (Z-1 - α) / (1 - αZ-1)die nicht-lineare Übertragungsfunktion ist, wenn die Kom­ primierbarkeit zu α gesetzt ist.
15. Verfahren nach Anspruch 13 oder 14, dadurch gekenn­ zeichnet, daß die nicht-lineare Übertragungsfunktion eine Frequenzachse erhalten kann, die durch Einstellung der Kom­ primierbarkeit der Frequenzauflösung des menschlichen Ge­ hörsinns nahekommt.
16. Verfahren nach einem der Ansprüche 13 bis 15, dadurch gekennzeichnet, daß auch eine Tabelle oder eine Funktions­ gleichung zur Umsetzung der Komprimierbarkeit verwendet werden können.
17. Verfahren nach einem der Ansprüche 13 bis 16, dadurch gekennzeichnet, daß eine Synthesevorrichtung (105) ein log­ arithmisches Spektrum-Approximationsfilter verwendet, bei dem ein primärer Allpaß-Filter als Verzögerungselement an­ gewandt wird.
DE4033350A 1989-10-20 1990-10-19 Verfahren und Vorrichtung für die Sprachverarbeitung Expired - Fee Related DE4033350B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPP1-274638 1989-10-20
JP1274638A JPH03136100A (ja) 1989-10-20 1989-10-20 音声処理方法及び装置

Publications (2)

Publication Number Publication Date
DE4033350A1 true DE4033350A1 (de) 1991-04-25
DE4033350B4 DE4033350B4 (de) 2004-04-08

Family

ID=17544493

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4033350A Expired - Fee Related DE4033350B4 (de) 1989-10-20 1990-10-19 Verfahren und Vorrichtung für die Sprachverarbeitung

Country Status (5)

Country Link
US (1) US5715363A (de)
JP (1) JPH03136100A (de)
DE (1) DE4033350B4 (de)
FR (1) FR2653557B1 (de)
GB (1) GB2237485B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19860133A1 (de) * 1998-12-17 2001-07-12 Cortologic Ag Verfahren und Vorrichtung zur Sprachkompression

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19616103A1 (de) * 1996-04-23 1997-10-30 Philips Patentverwaltung Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal
US5998725A (en) * 1996-07-23 1999-12-07 Yamaha Corporation Musical sound synthesizer and storage medium therefor
FR2796193B1 (fr) * 1999-07-05 2001-10-05 Matra Nortel Communications Procede et dispositif de codage audio
GB2373005B (en) * 2001-03-10 2005-01-12 Roger Wilde Ltd Fire rated glass flooring
JP4603727B2 (ja) * 2001-06-15 2010-12-22 セコム株式会社 音響信号分析方法及び装置
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
JP4110573B2 (ja) * 2003-09-16 2008-07-02 横河電機株式会社 パルスパターン発生装置
US7860256B1 (en) * 2004-04-09 2010-12-28 Apple Inc. Artificial-reverberation generating device
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8086451B2 (en) 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
JP4699117B2 (ja) * 2005-07-11 2011-06-08 株式会社エヌ・ティ・ティ・ドコモ 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。
JP4380669B2 (ja) * 2006-08-07 2009-12-09 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3681530A (en) * 1970-06-15 1972-08-01 Gte Sylvania Inc Method and apparatus for signal bandwidth compression utilizing the fourier transform of the logarithm of the frequency spectrum magnitude
US4260229A (en) * 1978-01-23 1981-04-07 Bloomstein Richard W Creating visual images of lip movements
US4304965A (en) * 1979-05-29 1981-12-08 Texas Instruments Incorporated Data converter for a speech synthesizer
DE3266042D1 (en) * 1981-09-24 1985-10-10 Gretag Ag Method and apparatus for reduced redundancy digital speech processing
CA1243779A (en) * 1985-03-20 1988-10-25 Tetsu Taguchi Speech processing system
US4922539A (en) * 1985-06-10 1990-05-01 Texas Instruments Incorporated Method of encoding speech signals involving the extraction of speech formant candidates in real time
GB2207027B (en) * 1987-07-15 1992-01-08 Matsushita Electric Works Ltd Voice encoding and composing system
US4882754A (en) * 1987-08-25 1989-11-21 Digideck, Inc. Data compression system and method with buffer control
JP2763322B2 (ja) * 1989-03-13 1998-06-11 キヤノン株式会社 音声処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19860133A1 (de) * 1998-12-17 2001-07-12 Cortologic Ag Verfahren und Vorrichtung zur Sprachkompression
DE19860133C2 (de) * 1998-12-17 2001-11-22 Cortologic Ag Verfahren und Vorrichtung zur Sprachkompression

Also Published As

Publication number Publication date
GB9022674D0 (en) 1990-11-28
FR2653557B1 (fr) 1993-04-23
GB2237485A (en) 1991-05-01
GB2237485B (en) 1994-07-06
DE4033350B4 (de) 2004-04-08
US5715363A (en) 1998-02-03
JPH03136100A (ja) 1991-06-10
FR2653557A1 (fr) 1991-04-26

Similar Documents

Publication Publication Date Title
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE2945413C1 (de) Verfahren und Vorrichtung zur Synthetisierung von Sprache
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
US5485543A (en) Method and apparatus for speech analysis and synthesis by sampling a power spectrum of input speech
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69628103T2 (de) Verfahren und Filter zur Hervorbebung von Formanten
DE102005032724B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE69932786T2 (de) Tonhöhenerkennung
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
DE4033350A1 (de) Verfahren und vorrichtung fuer die sprachverarbeitung
EP1979899B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE3036680A1 (de) Sprachsynthesizer mit dehnbarer und komprimierbarer sprachzeit
DE602005003358T2 (de) Audiokodierung
DE2736082A1 (de) Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE3019823C2 (de)
DE2622423A1 (de) Vocodersystem

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee