DE60222627T2

DE60222627T2 - Datenverarbeitungsgerät

Info

Publication number: DE60222627T2
Application number: DE60222627T
Authority: DE
Inventors: Tetsujiro Shinagawa-ku Kondo; Hiroto Shinagawa-ku KIMURA; Tsutomu Shinagawa-ku Watanabe; Masaaki Shinagawa-ku HATTORI
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-01-25
Filing date: 2002-01-24
Publication date: 2008-07-17
Anticipated expiration: 2022-01-25
Also published as: CN1216367C; EP1355297B1; CN1459093A; KR20020088088A; US20030163317A1; US7269559B2; DE60222627D1; EP1355297A4; KR100875784B1; JP4857468B2; JP2002222000A; WO2002059877A1; EP1355297A1

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung betrifft ein Datenverarbeitungsgerät. Die Erfindung bezieht sich insbesondere auf ein Datenverarbeitungsgerät, das in der Lage ist, Sprache zu dekodieren, die z. B. durch ein CELP-(Code Excited Linear coding)-Verfahren in Sprache hoher Qualität kodiert ist.
STAND DER TECHNIK
1 und 2 zeigen ein Beispiel für die Konfiguration eines herkömmlichen Mobiltelefons.
In diesem Mobiltelefon werden ein Sendeprozeß, bei dem Sprache nach einem CELP-Verfahren in einem vorbestimmten Code kodiert und die Codes gesendet werden, und ein Empfangsprozeß ausgeführt, bei dem von anderen Mobiltelefonen gesendete Codes empfangen und die Codes in Sprache dekodiert werden. 1 zeigt eine Sendestufe zur Durchführung des Sendeprozesses, und 2 zeigt eine Empfangsstufe zur Durchführung des Empfangsprozesses.
In der in 1 dargestellten Sendestufe wird die von einem Benutzer erzeugte Sprache in ein Mikrofon eingegeben, so daß die Sprache in ein Sprachsignal in Form eines elektrischen Signals umgewandelt wird. Dieses Signal wird einer A/D-(Analog-/Digital)-Wandlerstufe 2 zugeführt. Die A/D-Wandlerstufe 2 tastet das analoge Sprachsignal aus dem Mikrofon 1 mit einer Abtastfrequenz von beispielsweise 8 kHz usw. ab, so daß das analoge Sprachsignal einer A/D-Wandlung aus einem analogen Signal in ein digitales Sprachsignal unterzogen wird. Außerdem quantisiert die A/D-Wandlerstufe 2 das Signal mit einer vorbestimmten Bitzahl und liefert es an eine Recheneinheit 3 und eine Analysierstufe für lineare Prädiktionskoeffizienten (LPC-Analysierstufe) 4.
Die LPC-Analysierstufe 4 setzt eine Länge von beispielsweise 160 Abtastproben eines Sprachsignals aus der A/D-Wandlerstufe 2 als einen Rahmen, teilt diesen Rahmen in Unterrahmen mit jeweils 40 Abtastproben und führt für jeden Unterrahmen eine LPC-Analyse durch, um lineare Prädiktionskoeffizienten α₁, α₂, ..., α_p der Ordnung P zu bestimmen. Dann setzt die LPC-Analysierstufe 4 einen Vektor, in dem diese linearen Prädiktionskoeffizienten α_p (p = 1, 2, ..., P) der Ordnung P Elemente sind, als Sprachmerkmalsvektor und liefert diesen an eine Vektorquantisierstufe 5.
Die Vektorquantisierstufe 5 speichert ein Codebuch, in welchem ein Codevektor, der lineare Prädiktionskoeffizienten als Elemente hat, Codes entspricht, führt eine Vektorquantisierung an einem Merkmalvektor α aus der LPC-Analysierstufe 4 auf der Basis des Codebuchs durch und liefert die als Ergebnis der Vektorquantisierung gewonnenen (im folgenden gegebenenfalls als "A_code" bezeichneten) Codes an eine Code-Ermittlungsstufe 15.
Die Vektorquantisierstufe 5 liefert außerdem lineare Prädiktionskoeffizienten α₁', α₂', ..., α_p', als Elemente eines dem A_code entsprechenden Codevektors α' an ein Sprachsynthesefilter 6.
Das Sprachsynthesefilter 6 ist z. B. ein digitales Filter mit infiniter Impulsantwort (IIR-Filter), das einen linearen Prädiktionskoeffizienten α_p' (p = 1, 2, ..., P) aus der Vektorquantisierungsstufe 5 als Abgriffkoeffizienten des IIR-Filters und ein aus einer Rechenschaltung 14 zugeführtes Restsignal als Eingangssignal zur Durchführung der Sprachanalyse benutzt.
Die von der LPC-Analysierstufe 4 durchgeführte LPC-Analyse ist so beschaffen, daß für den (Abtastwert) s_n des Sprachsignals in der laufenden Zeit n und für die vergangenen P Abtastwerte s_n-1, s_n-2, ..., s_n-p, die dem obigen Abtastwert benachbart sind, die durch die folgende Gleichung gegebene lineare Kombination gilt: Sn + α1sn-1 + α2sn-2 + ... + αpsn-p = en (1)
Wenn eine lineare Prädiktion eines Prädiktionswerts (eines linearen Prädiktionswerts) s_n' des Abtastwerts s_n in der laufenden Zeit n unter Verwendung der vergangenen P Abtastwerte s_n-1, s_n-2, ..., s_n-p auf der Basis der folgenden Gleichung sn' = –(α1sn-1 + α2sn-2 + ... + αpsn-p) (2)durchgeführt wird, wird ein linearer Prädiktionskoeffizient α_p ermittelt, der den quadratischen Fehler zwischen dem tatsächlichen Abtastwert s_n und dem linearen Prädiktionswert s_n' minimiert.
In der Gleichung (1) bezeichnet {e_n} (..., e_n-1, e_n, e_n+1, ...) Wahrscheinlichkeitsvariable, die nicht miteinander korreliert sind, deren Mittelwert gleich 0 ist und deren Varianz einen vorbestimmten Wert σ² hat.
Auf der Basis der Gleichung (1) kann der Abtastwert s_n durch die folgende Gleichung ausgedrückt werden: sn = en – (α1sn-1 + α2sn-2 + ... + αpsn-p) (3)
Wenn diese Gleichung einer Z-Transformation unterzogen wird, erhält man die folgende Gleichung: S = E/(1 + α1z–1 + α2z–2 + ... + αpz–p) (4)wobei in der Gleichung (4) S und E die Z-Transformierten von sn bzw. en in der Gleichung (3) repräsentieren.
Auf der Basis der Gleichungen (1) und (2) kann en durch die folgende Gleichung ausgedrückt werden: en = sn – sn' (5)und wird als "Restsignal" zwischen dem tatsächlichen Abtastwert sn und dem linearen Prädiktionswert sn' bezeichnet.
Auf der Basis der Gleichung (4) kann das Sprachsignal sn gewonnen werden, indem der lineare Prädiktionskoeffizient ap als Abtastkoeffizient des IIR-Filters und das Restsignal en als Eingangssignal des IIR-Filters benutzt werden.
Deshalb benutzt das Sprachsynthesefilter 6, wie oben beschrieben, den linearen Prädiktionskoeffizienten ap' aus der Vektorquantisierungsstufe 5 als Abgriffkoeffizienten, es setzt das Restsignal e aus der Recheneinheit 14 als Eingangssignal und berechnet die Gleichung (4), um ein Sprachsignal (synthetisierte Sprachdaten) ss zu gewinnen.
In dem Sprachsynthesefilter 6 wird anstelle des linearen Prädiktionskoeffizienten ap, der als Ergebnis der LPC-Analyse in der LPC-Analysierstufe 4 gewonnen wird, ein linearer Prädiktionskoeffizient ap' als Codevektor benutzt, der dem Code entspricht, der als Ergebnis der Vektorquantisierung gewonnen wird. Deshalb ist das synthetisierte Sprachsignal, das für das Sprachsynthesefilter 6 ausgegeben wird, grundsätzlich nicht das gleiche wie das von der A/D-Wandlerstufe 2 ausgegebene Sprachsignal.
Die von dem Sprachsynthesefilter 6 ausgegebenen synthetisierten Sprachdaten werden der Recheneinheit 3 zugeführt. Die Recheneinheit 3 subtrahiert das von der A/D-Wandlerstufe 2 ausgegebene Sprachsignal von den synthetisierten Sprachdaten ss aus dem Sprachsynthesefilter 6 (subtrahiert von jeder Abtastprobe des synthetisierten Sprachsignals ss die Abtastprobe der Sprachdaten s, die dieser Abtastprobe entsprechen) und liefert das Subtraktionsergebnis an eine Stufe 7 zur Berechnung des quadratischen Fehlers. Die A/D-Wandlerstufe 7 berechnet die Summe der Quadrate (die Summe von Quadraten des subtrahierten Werts jeder Abtastprobe des k-ten Unterrahmens) des subtrahierten Werts aus der Recheneinheit 3 und liefert den resultierenden quadratischen Fehler an eine Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers.
Die Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers speichert einen L-Code (L_code) als Code zur Bezeichnung einer Langzeit-Prädiktionslücke, einen G-Code (G_code) als Code zur Bezeichnung einer Verstärkung und einen I-Code (I_code) als Code zur Bezeichnung eines Codewort (Erregungs-Codebuch) in einer solchen Weise, daß sie dem von der Stufe 7 zur Berechnung quadratischen Fehlers ausgegebenen quadratischen Fehler entsprechen, und gibt den L-Code, den G-Code und den L-Code aus, die dem von der Stufe 7 zur Berechnung quadratischen Fehlers ausgegebenen quadratischen Fehler entsprechen. Der L-Code wird einer Speicherstufe 9 zur Speicherung eines adaptiven Codebuchs zugeführt. Der G-Code wird einem Verstärkungsdekodierer 10 zugeführt. Der I-Code wird einer Speicherstufe 11 zur Speicherung eines Erregungs-Codebuchs zugeführt. Der L-Code, der G-Code und der I-Code werden außerdem der Code-Ermittlungsstufe 15 zugeführt.
Der Speicherstufe 9 zur Speicherung eines adaptiven Codebuchs speichert ein adaptives Codebuch, in dem z. B. ein 7-Bit-L-Code einer vorgegebenen Verzögerungszeit (Lücke) entspricht. Die Speicherstufe 9 zur Speicherung des adaptiven Codebuchs verzögert das Restsignal e aus der Recheneinheit 14 um eine Verzögerungszeit (eine Langzeit-Prädiktionslücke), die dem aus der Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers gelieferten L-Code entspricht, und gibt das Signal an eine Recheneinheit 12 aus.
Da die Speicherstufe 9 für das adaptive Codebuch das Restsignal e um eine dem L-Code entsprechende Zeit verzögert und das Signal ausgibt, wird das Ausgangssignal zu einem periodischen Signal mit der Verzögerungszeit als Periode. Dieses Signal dient hauptsächlich als Treibersignal zur Erzeugung eines stimmhaften synthetischen Lauts bei der Sprachsynthese mit linearen Prädiktionskoeffizienten. Deshalb repräsentiert der L-Code die Periode, d. h. die Tonhöhe der Sprache. Nach den CELP-Standards hat der L-Code einen ganzzahligen Wert im Bereich von 20 bis 146.
Der Verstärkungsdekodierer 10 speichert eine Tabelle, in der der G-Code mit vorbestimmten Verstärkungen β und γ verknüpft ist, und gibt Verstärkungen β und γ aus, die dem aus der Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers zugeführten G-Code entsprechen. Diese Verstärkungen β und γ werden den Recheneinheiten 12 bzw. 13 zugeführt. Die Verstärkung β wird üblicherweise als Langzeit-Filterstatus-Ausgangsverstärkung bezeichnet, und die Verstärkung γ wird üblicherweise als Erregungs-Codebuch-Verstärkung bezeichnet.
Die Speicherstufe 11 für das Erregungs-Codebuch speichert ein Erregungs-Codebuch, in dem z. B. ein 9-Bit-I-Code einem vorbestimmten Erregungssignal entspricht, und gibt an die Recheneinheit 13 das Erregungssignal aus, das dem aus der Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers gelieferten I-Code entspricht.
Das in dem Erregungs-Codebuch gespeicherte Erregungssignal ist hier z. B. ein Signal in der Nähe von weißem Rauschen und dient bei der Sprachsynthese, die mit linearen Prädiktionskoeffizienten arbeitet, hauptsächlich als Treibersignal zur Erzeugung von synthetisierter Sprache mit stimmlosen Lauten.
Die Recheneinheit 12 multipliziert das Ausgangssignal der Stufe 9 zur Speicherung des adaptiven Codebuchs mit der von dem Verstärkungsdekodierer 10 ausgegebenen Verstärkung β und liefert das Produkt 1 an die Recheneinheit 14. Die Recheneinheit 13 multipliziert das Ausgangssignal der Speicherstufe 11 für das Erregungs-Codebuch mit der von dem Verstärkungsdekodierer 10 ausgegebenen Verstärkung γ und liefert das Produkt n an die Recheneinheit 14. Die Recheneinheit 14 addiert das Produkt 1 aus der Recheneinheit 12 zu dem Produkt n aus der Recheneinheit 13 und liefert die Summe als Restsignal e an das Sprachsynthesefilter 6 und an die Stufe 9 zur Speicherung des adaptiven Codebuchs.
In dem Sprachsynthesefilter 6 wird das von der Recheneinheit 14 gelieferte Restsignal e in der oben beschriebenen Weise von dem IIR-Filter gefiltert, in dem der von der Vektorquantisierstufe 5 gelieferte lineare Prädiktionskoeffizient ap' als Abgriffkoeffizient dient. Die resultierenden synthetisierten Sprachdaten werden der Recheneinheit 3 zugeführt. In der Recheneinheit 3 und in der Stufe 7 zur Berechnung des quadratischen Fehlers werden dann ähnliche Prozesse wie die oben beschriebenen durchgeführt, und der resultierende quadratische Fehler wird der Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers zugeführt.
Die Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers prüft, ob der quadratische Fehler aus der Stufe 7 zur Berechnung quadratischen Fehlers zu einem Minimum (einem lokalen Minimum) geworden ist. Wenn die Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers feststellt, daß der quadratische Fehler noch nicht zu einem Minimum geworden ist, gibt die Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers den L-Code, den G-Code und den I-Code aus, die in der oben beschriebenen Weise dem quadratischen Fehler entsprechen. Anschließend werden die gleichen Prozesse wiederholt.
Wenn die Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers hingegen feststellt, daß der quadratische Fehler zu einem Minimum geworden ist, gibt die Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers das Ermittlungssignal an die Code-Ermittlungsstufe 15 aus. Die Code-Ermittlungsstufe 15 verriegelt den aus der Vektorquantisierstufe 5 zugeführten A-Code und verriegelt anschließend den L-Code, den G-Code und den I-Code, die aus der Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers zugeführt werden. Wenn die Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers das Ermittlungssignal empfängt, liefert die Code-Ermittlungsstufe 15 den A-Code, den L-Code, den G-Code und den I-Code, die zu dieser Zeit verriegelt sind, an den Kanalkodierer 16. Der Kanalkodierer 16 multiplext den A-Code, den L-Code, den G-Code und den I-Code aus der Code-Ermittlungsstufe 15 und gibt sie als Codedaten aus. Diese Codedaten werden über einen Übertragungspfad übertragen.
Auf dieser Basis stellen die Codedaten kodierte Daten dar, die den A-Code, den L-Code, den G-Code und den I-Code umfassen, bei denen es sich um Informationen handelt, die benutzt werden, um in Einheiten von Unterrahmen zu dekodieren.
Der A-Code, der L-Code, der G-Code und der I-Code werden hier für jeden Unterrahmen bestimmt. Es gibt jedoch z. B. auch den Fall, daß der A-Code für jeden Rahmen bestimmt wird. In diesem Fall wird für die Dekodierung aller vier Unterrahmen, die diesen Rahmen bilden, der gleiche A-Code benutzt. Jedoch kann auch in diesem Fall jeder der vier Unterrahmen, die diesen einen Rahmen bilden, so betrachtet werden, als ob er den gleichen A-Code besäße. Auf diese Weise können die Codedaten so betrachtet werden, als ob sie als kodierte Daten ausgebildet wären, die den A-Code, den L-Code, den G-Code und den I-Code aufweisen, bei denen es sich um Informationen handelt, die benutzt werden, um in Einheiten von Unterrahmen zu dekodieren.
In 1 (das gleiche gilt für die weiter unten beschriebenen 2, 5, 9, 11, 16, 18 und 21) ist [k] jeder Variablen zugeordnet, so daß die Variable eine Array-Variable darstellt. Dieses k repräsentiert die Zahl von Unterrahmen, in der vorliegenden Beschreibung wird auf ihre nähere Erläuterung jedoch verzichtet, wenn dies zweckdienlich ist.
Codedaten, die von der Sendestufe eines anderen Mobiltelefons in der oben beschriebenen Weise gesendet werden, werden von einem Kanaldekodierer der in 2 dargestellten Empfangsstufe empfangen. Der Kanaldekodierer 21 trennt den L-Code, den G-Code, den I-Code und den A-Code aus den Codedaten und liefert sie an eine Stufe 22 zur Speicherung eines adaptiven Codebuchs, einen Verstärkungsdekodierer 23, eine Stufe 24 zur Speicherung eines Erregungscodebuchs bzw. an einen Filterkoeffizienten-Dekodierer 25.
Die Speicherstufe 22 für das adaptive Codebuch, der Verstärkungsdekodierer 23, die Speicherstufe 24 für das Erregungscodebuch und die Recheneinheiten 26 bis 28 sind ähnlich ausgebildet wie die Stufe 9 zur Speicherung des adaptiven Codebuchs, der Verstärkungsdekodierer 10, die Speicherstufe 11 für das Erregungs-Codebuch bzw. die Recheneinheiten 11 bis 14 von 1. Es werden die gleichen Verarbeitungen durchgeführt, wie sie anhand von 1 beschrieben wurden, so daß der L-Code, der G-Code und der I-Code zu dem Restsignal e dekodiert werden. Dieses Restsignal e wird einem Sprachsynthesefilter 29 als Eingangssignal zugeführt.
In dem Filterkoeffizienten-Dekodierer ist das gleiche Codebuch gespeichert, das auch in der Vektorquantisierstufe 5 von 1 gespeichert ist, so daß der A-Code in einen linearen Prädiktionskoeffizienten ap' dekodiert wird. Dieser wird dem Sprachsynthesefilter 29 zugeführt.
Das Sprachsynthesefilter 29 ist ähnlich aufgebaut wie das Sprachsynthesefilter 6 von 1. Das Sprachsynthesefilter 29 setzt den linearen Prädiktionskoeffizienten ap' aus dem Filterkoeffizienten-Dekodierer 25 als Abgriffkoeffizienten, setzt das aus einer Recheneinheit 28 zugeführte Restsignal e als Eingangssignal und berechnet die Gleichung (4) und erzeugt dadurch synthetisierte Sprachdaten, wenn in der Stufe 8 zur Ermittlung des kleinsten quadratischen Fehlers in 1 festgestellt wird, daß der quadratische Fehler ein Minimum ist. Diese synthetisierten Sprachdaten werden einer D/A-(Digital-/Analog)-Wandlerstufe 30 zugeführt. Die D/A-Wandlerstufe 30 unterzieht die synthetisierten Sprachdaten aus dem Sprachsynthesefilter 29 einer D/A-Wandlung aus einem digitalen Signal in ein analoges Signal und liefert das analoge Signal an einen Lautsprecher 31, der das analoge Signal ausgibt.
Wenn die A-Codes in den Codedaten nicht in Einheiten von Unterrahmen, sondern in Rahmeneinheiten angeordnet sind, können die linearen Prädiktionskoeffizienten benutzt werden, die den in diesem Rahmen angeordneten A-Codes entsprechen, um alle vier Unterrahmen zu dekodieren, aus denen dieser Rahmen besteht. Darüber hinaus wird in jedem Unterrahmen eine Interpolation durchgeführt, wobei die linearen Prädiktionskoeffizienten, die dem A-Code des benachbarten Rahmens entsprechen, und die linearen Prädiktionskoeffizienten, die als Ergebnis der Interpolation gewonnen werden, zur Dekodierung der einzelnen Unterrahmen benutzt werden können.
Da in der Sendestufe des Mobiltelefons das Restsignal und lineare Prädiktionskoeffizienten, als Eingangssignal für das Sprachsynthesefilter 29 der Empfangsstufe kodiert und dann gesendet werden, werden die Codes in der Empfangsstufe in ein Restsignal und in lineare Prädiktionskoeffizienten dekodiert, wie dies oben beschrieben wurde. Da das dekodierte Restsignal und die linearen Prädiktionskoeffizienten (im folgenden als "dekodiertes Restsignal bzw. dekodierte lineare Prädiktionskoeffizienten" bezeichnet, wenn dies zweckdienlich ist) jedoch Fehler, z. B. Quantisierungsfehler enthalten, stimmen sie nicht mit dem Restsignal und den linearen Prädiktionskoeffizienten überein, die durch die LPC-Analyse der Sprache gewonnen werden.
Aus diesem Grund führen die synthetisierten Sprachdaten, die von dem Sprachsynthesefilter 29 der Empfangsstufe ausgegeben werden, zu einer Verschlechterung der Tonqualität, die Verzerrungen usw. enthält.
JP-A-4-30200 offenbart einen bekannten CELP-Sprachdekodierer.
EP-A-1 308 927 (die nach den Prioritäts- und Einreichungsdaten der vorliegenden Anmeldung publiziert wurde und somit nur bezüglich der Neuheit relevant ist) offenbart eine Sprachverarbeitungsvorrichtung, in der Prädiktionsabgriffe zur Ermittlung von Prädiktionswerten von Sprache mit hoher Tonqualität aus dem synthetisierten Ton extrahiert werden, die gewonnen werden, indem lineare Prädiktionskoeffizienten und Restsignale für ein Sprachsynthesefilter aufgewendet werden, die aus einem vorgegebenen Code erzeugt werden, wobei die Prädiktionsabgriffe zusammen mit den laufenden Abgriffkoeffizienten benutzt werden, um vorgegebene Prädiktionsberechnungen durchzuführen, um die Prädiktionswerte der Sprache mit hoher Tonqualität zu ermitteln. Die Sprache hat eine höhere Tonqualität als der synthetisierte Ton. Die Vorrichtung umfaßt eine Prädiktionsabgriff-Extrahiereinheit, um aus dem synthetisierten Ton diejenigen Prädiktionsabgriffe zu extrahieren, die zum Prädizieren der Sprache mit hoher Tonqualität als Zielsprache benutzt werden, deren Prädiktionswerte ermittelt werden wollen. Die Vorrichtung umfaßt ferner eine Klassenabgriff-Extrahiereinheit, um aus dem obigen Code Klassenabgriffe zu extrahieren, die benutzt werden, um die Zielsprache in eine von mehreren Klassen zu klassifizieren. Die Vorrichtung umfaßt ferner eine Klassifizierungseinheit zur Ermittlung der Klasse der Zielsprache auf der Basis der Klassenabgriffe, eine Akquirierungseinheit zum Akquirieren der der Klasse der Zielsprache zugeordneten Abgriffkoeffizienten aus den Abgriffkoeffizienten, die von Klasse zu Klasse durch Lernen ermittelt werden, sowie eine Prädiktionseinheit zum Ermitteln der Prädiktionswerte der Zielsprache unter Verwendung der Prädiktionsabgriffe und der Abgriffkoeffizienten, die der Klasse der Zielsprache zugeordnet sind.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung, wie sie in den anliegenden Ansprüchen beansprucht wird, entstand im Hinblick auf diese Umstände. Ihr Ziel ist die Gewinnung von synthetisierter Sprache hoher Qualität usw..
Verschiedene Aspekte der Erfindung sind in den anliegenden Ansprüchen angegeben.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 zeigt ein Blockdiagramm der Konfiguration eines Beispiels für die Sendestufe eines herkömmlichen Mobiltelefons,
2 zeigt ein Blockdiagramm der Konfiguration eines Beispiels für die Empfangsstufe eines herkömmlichen Mobiltelefons,
3 zeigt ein Beispiel für die Konfiguration eines Ausführungsbeispiels eines Sendesystems gemäß der Erfindung,
4 zeigt ein Blockdiagramm eines Beispiels der Konfiguration von Mobiltelefonen 101₁ und 101₂ ,
5 zeigt ein Blockdiagramm eines Beispiels einer ersten Konfiguration einer Empfangsstufe 114,
6 zeigt ein Flußdiagramm der Prozesse in der Empfangsstufe 114 von 5,
7 zeigt ein Verfahren zur Erzeugung eines Prädiktionsabgriffs und eines Klassenabgriffs,
8 zeigt ein Verfahren zur Erzeugung eines Prädiktionsabgriffs und eines Klassenabgriffs,
9 zeigt ein Blockdiagramm eines Beispiels für die Konfiguration eines ersten Ausführungsbeispiels einer Lernvorrichtung gemäß der Erfindung,
10 zeigt ein Flußdiagramm der Prozesse in der Lernvorrichtung von 9,
11 zeigt ein Blockdiagramm eines Beispiels für eine zweite Konfiguration der Empfangsstufe 114 gemäß der Erfindung,
12A bis 12C zeigen das Fortschreiten einer Wellenform von synthetisierten Sprachdaten,
13 zeigt ein Blockdiagramm eines Beispiels für die Konfiguration der Abgriff-Generierungsstufen 301 und 302,
14 zeigt ein Flußdiagramm der Prozesse in den Abgriff-Generierungsstufen 301 und 302,
15 zeigt ein Blockdiagramm eines anderen Beispiels für die Konfiguration der Abgriff-Generierungsstufen 301 und 302,
16 zeigt ein Blockdiagramm eines Beispiels für die Konfiguration eines zweiten Ausführungsbeispiels einer Lernvorrichtung gemäß der Erfindung,
17 zeigt ein Blockdiagramm eines Beispiels für die Konfiguration der Abgriff-Generierungsstufen 321 und 322,
18 zeigt ein Blockdiagramm eines Beispiels für eine dritte Konfiguration der Empfangsstufe 114,
19 zeigt ein Flußdiagramm der Prozesse in der Empfangsstufe 114 von 18,
20 zeigt ein Blockdiagramm eines Beispiels für die Konfiguration der Abgriff-Generierungsstufen 341 und 342,
21 zeigt ein Blockdiagramm eines Beispiels für die Konfiguration eines dritten Ausführungsbeispiels der Lernvorrichtung gemäß der Erfindung,
22 zeigt ein Flußdiagramm der Prozesse in der Lernvorrichtung von 21,
23 zeigt ein Blockdiagramm eines Beispiels für die Konfiguration eines Ausführungsbeispiels eines Computers gemäß der Erfindung.
BESTE AUSFÜHRUNGSFORM DER ERFINDUNG
3 zeigt die Konfiguration eines Ausführungsbeispiels eines Sendesystems, auf das die vorliegende Erfindung angewendet wird ("System" bezeichnet eine logische Zusammenstellung mehrerer Geräte, wobei es unerheblich ist, ob das Gerät jeder Konfiguration sich in dem gleichen Gehäuse befindet oder nicht).
In diesem Sendesystem führen Mobiltelefone 101₁ und 101₂ drahtlose Sende- und Empfangsvorgänge mit Basisstationen 102₁ bzw. 102₂ durch, und jede der Basisstationen 102₁ und 102₂ führt Sende- und Empfangsvorgänge mit einer Vermittlungsstation 103 durch, so daß schließlich das Senden und Empfangen von Sprache zwischen den Mobiltelefonen 101₁ und 101₂ über die Basisstationen 102₁ und 102₂ und die Vermittlungsstation 103 durchgeführt werden kann. Die Basisstationen 102₁ und 102₂ können gleiche oder unterschiedliche Basisstationen sein.
Im folgenden werden die Mobiltelefone 101₁ und 101₂ als "Mobiltelefon 101" bezeichnet, falls sie nicht speziell identifiziert werden müssen.
4 zeigt ein Beispiel für die Konfiguration des Mobiltelefons 101 von 3.
In diesem Mobiltelefon 101 erfolgt das Senden und Empfangen von Sprache nach einem CELP-Verfahren.
Eine Antenne 111 empfängt Funkwellen aus der Basisstation 102₁ oder 102₂ , liefert das empfangene Signal an eine Modemstufe 112. Sie sendet das Signal von der Modemstufe 112 in Form von Funkwellen an die Basisstation 102₁ oder 102₂ . Die Modemstufe 112 demoduliert das von der Antenne 111 kommende Signal und liefert die resultierenden Codedaten, wie dies anhand von 1 beschrieben wurde, an die Empfangsstufe 114. Außerdem moduliert die Modemstufe 112 Codedaten, wie dies anhand von 1 beschrieben wurde, die von der Sendestufe 113 zugeführt werden, und liefert das resultierende Modulationssignal an die Antenne 111. Die Sendestufe 113 ist ähnlich ausgebildet wie die in 1 dargestellte Sendestufe, sie kodiert die ihr zugeführte Sprache des Benutzers nach einem CELP-Verfahren in Codedaten und liefert die Daten an die Modemstufe 112. Die Empfangsstufe 114 empfängt die Codedaten aus der Modemstufe 112, dekodiert die Codedaten nach dem CELP-Verfahren und dekodiert Ton hoher Qualität und gibt diesen aus.
In der Empfangsstufe 114 wird die nach dem CELP-Verfahren dekodierte synthetisierte Sprache z. B. durch einen Klassifizierungs- und Adaptierungsprozeß weiter in (den Prädiktionswert von) Schall mit hoher Tontreue dekodiert.
Der Klassifizierungs- und Adaptierungsprozeß ist hier ein Klassifizierungsprozeß bzw. ein Adaptierungsprozeß, bei dem die Daten durch den Klassifizierungsprozeß ihren Eigenschaften entsprechend klassifiziert werden und dann für jede Klasse ein Adaptierungsprozeß durchgeführt wird. Der Adaptierungsprozeß entspricht dem oben beschriebenen.
Das heißt, in dem Adaptierungsprozeß wird z. B. durch lineare Kombination von synthetisierter Sprache und eines vorbestimmten Abgriffkoeffizienten ein Prädiktionswert von Schall mit hoher Qualität ermittelt.
Man kann z. B. (den Abtastwert von) Schall mit hoher Tonqualität als Lehrerdaten setzen, und die synthetisierte Sprache als Schülerdaten setzen, die gewonnen wird, indem Schall mit hoher Tonqualität nach dem CELP-Verfahren in einen L-Code, einen G-Code, einen I-Code und einen A-Code kodiert wird und diese Codes in der Empfangsstufe von 2 dekodiert werden, wobei ein Prädiktionswert E[y] von Schall y mit hoher Tonqualität, der die Lehrerdaten bildet, durch ein lineares Kombinationsmodell erster Ordnung ermittelt wird, das durch lineare Kombination eines Satzes von mehreren (Abtastwerten von) synthetisierten Sprachwerten x₁, x₂, ... und vorbestimmten Abgriffkoeffizienten w₁, w₂, ... definiert ist. In diesem Fall kann der Prädiktionswert E[y] durch die folgende Gleichung ausgedrückt werden: E[y] = w1x1 + w2x2 + ...
Wenn zur Verallgemeinerung der Gleichung (1) eine Matrix W, die aus einem Satz von Abgriffkoeffizienten w_j zusammengesetzt ist, eine Matrix x, die aus einem Satz von Schülerdaten x_ij zusammengesetzt ist, und eine Matrix Y', die aus Prädiktionswerten E[y_i] zusammengesetzt ist, durch die folgenden Formeln definiert werden: [Gleichung 1]
gilt die folgende Beobachtungsgleichung XW = Y', (7)in der die Komponente x_ij der Matrix X die j-ten Schülerdaten innerhalb des Satzes der i-ten Schülerdaten (des Satzes von Schülerdaten, die zur Prädizierung der i-ten Lehrerdaten y_i benutzt werden), und die Komponente w_j der Matrix W einen Abgriffkoeffizienten bezeichnet, mit dem das Produkt mit dem j-ten Schülerdaten innerhalb des Satzes von Schülerdaten berechnet wird. Weiterhin bezeichnet y_i die i-ten Lehrerdaten, und deshalb bezeichnet E[y_i] den Prädiktionswert der i-ten Lehrerdaten. In dem Wert y auf der linken Seite von Gleichung (6) ist das Suffix i der Komponente y_i der Matrix Y weggelassen. In den Werten x₁, x₂, ... auf der rechten Seite der Gleichung (6) ist das Suffix i der Komponente x_ij der Matrix X weggelassen.
Es sei dann angenommen, daß auf diese Beobachtungsgleichung ein Verfahren der kleinsten Quadrate angewendet wird, um einen Prädiktionswert E[y] zu bestimmen, der nahe bei dem Schall y mit hoher Tontreue liegt. Wenn in diesem Fall die aus einem Satz von Tönen y mit hoher Tontreue zusammengesetzte Matrix Y, die zu Lehrerdaten wird, und eine aus einem Satz von Resten e des Prädiktionswerts E[y] relativ zu dem Schall y hoher Tonqualität zusammengesetzte Matrix E durch die folgende [Gleichung 2]
definiert sind, gilt auf der Basis von Gleichung (7) die folgende Gleichung für den Restwert XW = Y + E (8)
Der Abgriffkoeffizient w_j zur Bestimmung des Prädiktionswerts E[y], der nahe bei dem ursprünglichen Sprachwert y mit hoher Tonqualität liegt, kann in diesem Fall durch Minimierung des quadratischen Fehlers bestimmt werden. [Gleichung 3]
Wenn der oben beschriebene quadratische Fehler nach dem Abgriffkoeffizienten w_j differenziert wird und zu Null wird, folgt daraus, daß der Abgriffkoeffizienten w_j, der die folgende Gleichung befriedigt, der optimale Wert zur Bestimmung des Prädiktionswerts E[y] ist, der nahe bei der originalen Sprache y mit hoher Tonqualität liegt.
[Gleichung 4]
Durch Differenzieren von Gleichung (8) nach dem Abgriffkoeffizienten w_j erhält man die folgenden Gleichungen: [Gleichung 5]
Auf der Basis der Gleichungen (9) und (10) erhält man die Gleichungen (11): [Gleichung 6]
Wenn man die Beziehungen zwischen den Schülerdaten x_ij, dem Abgriffkoeffizienten w_j, den Lehrerdaten y_i und dem Fehler e_i in der Restwertgleichung von Gleichung (8) berücksichtigt, erhält man auf der Basis der Gleichungen (11) die folgenden Normalgleichungen: [Gleichung 7]
Wenn auf der Basis von [Gleichung 8]
die Matrix (Kovarianzmatrix) A und ein Vektor v definiert werden und wenn ein Vektor w definiert wird, wie dies in Gleichung 1 dargestellt ist, kann die in den Gleichungen (12) dargestellte Normalgleichung durch die folgende Gleichung ausgedrückt werden: AW = v (13)
Die einzelnen Normalgleichungen in der Gleichung (12) können in einer Anzahl aufgestellt werden, die der Zahl J der zu bestimmenden Abgriffkoeffizienten w_j entspricht, indem eine bestimmte Anzahl von Schülerdatensätzen x_ij und Lehrerdatensätzen y_i vorbereitet werden. Das Lösen der Gleichung (13) bezüglich des Vektors W (zum Lösen der Gleichung (13) ist es jedoch erforderlich, daß die Matrix A in der Gleichung (13) regulär ist) ermöglicht es deshalb, den optimalen Abgriffkoeffizienten w_j (hier einen Abgriffkoeffizienten, der den quadratischen Fehler minimiert) zu ermitteln. Zur Lösung der Gleichung (13) kann man z. B. ein Ausräumverfahren (Gauß-Jordan-Eliminationsverfahren) usw. benutzen.
Der Adaptierungsprozeß bestimmt in der oben beschriebenen Weise den optimalen Abgriffkoeffizienten w_j im voraus, und der Abgriffkoeffizient w_j wird benutzt, um auf der Basis der Gleichung (6) den Prädiktionswert E[y] zu bestimmen, der nahe bei dem Schall y mit hoher Tontreue liegt.
Wenn als Lehrerdaten beispielsweise ein mit einer hohen Abtastfrequenz abgetastetes Sprachsignal oder ein Sprachsignal benutzt wird, dem viele Bits zugeteilt sind, und als Schülerdaten synthetisierte Sprache, die dadurch gewonnen wird, daß das Sprachsignal, wie die Lehrerdaten, dezimiert, oder ein mit geringer Bitzahl requantisiertes Sprachsignal nach dem CELP-Verfahren kodiert und das Kodierungsergebnis dekodiert wird, erhält man bezüglich des Abgriffkoeffizienten Schall mit hoher Tontreue, in dem der Prädiktionsfehler statistisch zu einem Minimum wird, wenn ein mit hoher Abtastfrequenz abgetastetes Sprachsignal oder ein Sprachsignal, dem viele Bits zugeteilt sind, erzeugt werden soll. Deshalb läßt sich in diesem Fall synthetisierte Sprache mit höherer Qualität erzielen.
In der Empfangsstufe 114 von 4 wird die durch das Dekodieren von kodierten Daten gewonnene synthetisierte Sprache durch den oben beschriebenen Klassifizierungs- und Adaptierungsprozeß in Ton mit höherer Qualität dekodiert.
5 zeigt ein Beispiel einer ersten Konfiguration der Empfangsstufe 114. Komponenten in 5, die denen von 2 entsprechen, sind mit den gleichen Bezugszeichen versehen wie dort. Im folgenden wird auf ihre Beschreibung verzichtet, wenn dies zweckdienlich erscheint.
Für jeden von dem Sprachsynthesefilter 29 ausgegebenen Unterrahmen werden den Abgriff-Generierungsstufen 121 und 122 synthetisierte Sprachdaten und von dem L-Code, G-Code, I-Code und A-Code, die der Kanaldekodierer 21 für jeden Unterrahmen ausgibt, der L-Code zugeführt. Die Abgriff-Generierungsstufen 121 und 122 extrahieren aus den synthetisierten Sprachdaten, die den Abgriff-Generierungsstufen 121 bzw. 122 zugeführt werden, auf der Basis des L-Codes Daten, die als Prädiktionsabgriff zum Prädizieren des Prädiktionswerts des Tons mit hoher Qualität benutzt werden, sowie Daten, die als Klassenabgriff für die Klassifizierung benutzt werden. Der Prädiktionsabgriff wird einer Prädiktionsstufe 125 zugeführt, und der Klassenabgriff wird einer Klassifizierungsstufe 123 zugeführt.
Die Klassifizierungsstufe 123 führt auf der Basis des von der Abgriff-Generierungsstufe 122 gelieferten Klassenabgriffs eine Klassifizierung durch und liefert den Klassencode als Klassifikationsergebnis an einen Koeffizientenspeicher 124.
Als Klassifizierungsmethode in der Klassifizierungsstufe 123 wird z. B. ein Verfahren benutzt, das von einem K-Bit-ADRC-Prozeß (ADRC = Kodierung mit adaptivem Dynamikbereich) Gebrauch macht.
In dem K-Bit-ADRC-Prozeß werden z. B. ein Maximalwert MAX und ein Minimalwert MIN der den Klassenabgriff bildenden Daten ermittelt. Die Differenz DR = MAX – MIN wird als lokaler Dynamikbereich eines Satzes gesetzt. Auf der Basis dieses Dynamikbereichs DR wird jedes Datenstück, das den Klassenabgriff bildet, mit K Bits requantisiert. Das heißt, der Minimalwert MIN wird von jedem Datenstück, das den Klassenabgriff bildet, subtrahiert, und der subtrahierte Wert wird durch DR/2^K geteilt (quantisiert). Dann wird als ADRC-Code eine Bitfolge ausgegeben, in der die Werte der K Bits jedes Datenstücks, das den Klassenabgriff bildet, in einer vorbestimmten Reihenfolge angeordnet sind.
Wenn z. B. ein solcher K-Bit-ADRC-Prozeß für die Klassifizierung benutzt wird, kann der als Ergebnis des K-Bit-ADRC-Prozesses gewonnene ADRC-Code als Klassencode benutzt werden.
Die Klassifizierung kann z. B. auch durchgeführt werden, indem man einen Klassenabgriff als Vektor betrachtet, in welchem jedes den Klassenabgriff bildende Datenstück ein Element darstellt, und indem man eine Vektorquantisierung an dem Klassenabgriff als dem Vektor vornimmt.
Der Koeffizientenspeicher 124 speichert für jede Klasse Abgriffkoeffizienten, die als Ergebnis eines Lernprozesses gewonnen werden, der in der weiter unten beschriebenen Lernvorrichtung von 9 durchgeführt wird, und liefert an die Prädiktionsstufe 125 einen Abgriffkoeffizienten, der an der Adresse gespeichert ist, die dem von der Klassifizierungsstufe 123 ausgegebenen Klassencode entspricht.
Die Prädiktionsstufe 125 erhält den von der Abgriff-Generierungsstufe 121 ausgegebenen Prädiktionsabgriff und den von dem Koeffizientenspeicher 124 ausgegebenen Abgriffkoeffizienten und führt mit Hilfe des Prädiktionsabgriffs und des Abgriffkoeffizienten die in der Gleichung (6) dargestellte lineare Prädiktionsberechnung durch. Als Ergebnis bestimmt die Prädiktionsstufe den Schall (den Prädiktionswert des Schalls) mit hoher Tonqualität bezüglich des interessierenden Unterrahmens und liefert den Wert an die D/A-Wandlerstufe 30.
Als Nächstes wird anhand des Flußdiagramms von 6 ein Prozeß in der Empfangsstufe 114 von 5 beschrieben.
Der Kanaldekodierer 21 trennt aus den ihm zugeführten Codedaten einen L-Code, einen G-Code, einen I-Code und einen A-Code und liefert diese Codes an die Speicherstufe 22 für das adaptive Codebuch, den Verstärkungsdekodierer 23, die Speicherstufe 24 für das Erregungscodebuch bzw. den Filterkoeffizienten-Dekodierer 25. Der L-Code wird außerdem den Abgriff-Generierungsstufen 121 und 122 zugeführt.
Die Speicherstufe 22 für das adaptive Codebuch, der Verstärkungsdekodierer 23, die Speicherstufe 24 für das Erregungscodebuch und die Recheneinheiten 26 bis 28 führen dann die gleichen Prozesse aus wie in dem Fall von 2, und als Ergebnis werden der L-Code, der G-Code und der I-Code in ein Restsignal e dekodiert. Dieses Restsignal wird dem Sprachsynthesefilter 29 zugeführt.
Außerdem dekodiert der Filterkoeffizienten-Dekodierer, wie anhand von 2 beschrieben, den ihm zugeführten A-Code in einen linearen Prädiktionskoeffizienten und liefert diesen an das Sprachsynthesefilter 29. Das Sprachsynthesefilter 29 führt eine Sprachsynthese durch, wobei es das Restsignal aus der Recheneinheit 28 und den linearen Prädiktionskoeffizienten aus dem Filterkoeffizienten-Dekodierer 25 benutzt, und liefert die resultierende synthetisierte Sprache an die Abgriff-Generierungsstufen 121 und 122.
Die Abgriff-Generierungsstufe 121 setzt den Unterrahmen der synthetisierten Sprache, die von dem Sprachsynthesefilter 29 sequentiell ausgegeben wird, sequentiell als Subjekt-Unterrahmen. In dem Schritt S1 extrahiert die Abgriff-Generierungsstufe 121 die synthetisierten Sprachdaten des Subjekt-Unterrahmens und extrahiert die gegenüber dem Subjekt-Unterrahmen vergangenen oder zukünftigen synthetisierten Sprachdaten auf der Basis des ihr zugeführten L-Codes, so daß ein Prädiktionsabgriff generiert wird, und liefert diesen Prädiktionsabgriff an die Prädiktionsstufe 125. Darüber hinaus extrahiert in dem Schritt S1 z. B. auch die Abgriff-Generierungsstufe 122 die synthetisierten Sprachdaten des Subjekt-Unterrahmens und extrahiert die gegenüber dem Subjekt-Unterrahmen vergangenen oder zukünftigen synthetisierten Sprachdaten auf der Basis des ihr zugeführten L-Codes, so daß ein Klassenabgriff generiert wird, und liefert den Klassenabgriff an die Klassifizierungsstufe 123.
Der Prozeß geht dann weiter zu dem Schritt S2, in welchem die Klassifizierungsstufe 123 eine Klassifizierung auf der Basis des von der Abgriff-Generierungsstufe 122 gelieferten Klassenabgriffs vornimmt und den resultierenden Klassencode an den Koeffizientenspeicher 124 liefert. Der Prozeß geht dann weiter zu dem Schritt S3.
In dem Schritt S3 liest der Koeffizientenspeicher 124 einen Abgriffkoeffizienten an der Adresse aus, die dem von der Klassifizierungsstufe 123 gelieferten Klassencode entspricht, und liefert diesen Klassenkoeffizienten an die Prädiktionsstufe 125.
Der Prozeß geht dann weiter zu dem Schritt S4, in welchem die Prädiktionsstufe 125 den von dem Koeffizientenspeicher 124 ausgegebenen Abgriffkoeffizienten aufnimmt und die in der Gleichung (6) dargestellte Produkt-Summen-Berechnung vornimmt, wobei sie den Abgriffkoeffizienten und den Prädiktionsabgriff aus der Abgriff-Generierungsstufe 121 benutzt, so daß (der Prädiktionswert von) Tondaten hoher Qualität des Subjekt-Unterrahmens gewonnen werden.
Die Verarbeitungsschritte S1 bis S4 werden mit jedem der Abtastwerte der synthetisierten Sprachdaten des Subjekt-Unterrahmens als Subjekt-Daten durchgeführt. Das heißt, da die synthetisierten Sprachdaten des Unterrahmens aus 40 Abtastproben bestehen, wie dies oben beschrieben wurde, werden die Verarbeitungsschritte S1 bis S4 für jede der synthetisierten Sprachdaten der 40 Abtastproben durchgeführt.
Die in der oben beschriebenen Weise gewonnenen Tondaten hoher Qualität werden von der Prädiktionsstufe 125 über die D/A-Wandlerstufe 30 einem Lautsprecher 31 zugeführt, so daß der Lautsprecher 31 Schall mit hoher Tonqualität ausgibt.
Nach dem Verarbeitungsschritt S4 geht der Prozeß weiter zu dem Schritt S5, in dem geprüft wird, ob es weitere Unterrahmen gibt, die als Subjekt-Unterrahmen verarbeitet werden sollen. Wenn festgestellt wird, daß es einen zu verarbeitenden Unterrahmen gibt, kehrt der Prozeß zu dem Schritt S1 zurück, in dem ein Unterrahmen, der als nächster Subjekt-Unterrahmen benutzt werden soll, neuerlich als Subjekt-Unterrahmen benutzt wird. Anschließend werden gleichen Prozesse wiederholt. Wenn in dem Schritt S5 festgestellt wird, daß es keinen Unterrahmen mehr gibt, der als Subjekt-Unterrahmen verarbeitet werden soll, wird die Verarbeitung abgeschlossen.
Als Nächstes wird anhand von 7 und 8 ein Verfahren zur Generierung eines Prädiktionsabgriffs in der Abgriff-Generierungsstufe 121 von 5 beschrieben.
Die Abgriff-Generierungsstufe 121 extrahiert, wie z. B. in 7 dargestellt, synthetisierte Sprachdaten für 40 Abtastproben des Subjekt-Unterrahmens und extrahiert synthetisierte Sprachdaten für 40 Abtastproben (im folgenden als "lückenkompensierende vergangene Daten" bezeichnet, wenn dies zweckdienlich ist) aus dem Unterrahmen, in dem die Position einen Startpunkt bildet, die um die Größe der durch den in diesem Subjekt-Unterrahmen angeordneten L-Code gekennzeichneten Lücke vergangen ist, wobei die Daten als Prädiktionsabgriff für die Subjekt-Daten gesetzt werden.
Alternativ extrahiert die Abgriff-Generierungsstufe 121, wie in 8 dargestellt, z. B. synthetisierte Sprachdaten für 40 Abtastproben des Subjekt-Unterrahmens und extrahiert synthetisierte Sprachdaten für von dem Subjekt-Unterrahmen aus gesehen zukünftige 40 Abtastproben (im folgenden als "lückenkompensierende zukünftige Daten" bezeichnet, wenn dies zweckdienlich ist), in denen ein L-Code angeordnet ist, der eine Position bestimmt, die um die durch den L-Code gekennzeichneten Lücke vergangen ist, eine Position von synthetisierten Sprachdaten innerhalb des Subjekt-Unterrahmens (z. B. die Subjekt-Daten usw.) darstellt, wobei die Daten als Prädiktionsabgriff für die Subjekt-Daten benutzt werden.
Die Abgriff-Generierungsstufe 121 extrahiert außerdem z. B. die synthetisierten Sprachdaten des Subjekt-Unterrahmens, ferner die lückenkompensierenden vergangenen Daten und die lückenkompensierenden zukünftigen Daten, so daß diese als Prädiktionsabgriff für die Subjekt-Daten benutzt werden.
Wenn die Subjekt-Daten durch einen Klassifizierungs- und Adaptierungsprozeß prädiziert werden sollen, indem zusätzlich zu den synthetisierten Sprachdaten des Subjekt-Unterrahmens auch synthetisierte Sprachdaten eines anderen Unterrahmens als des Subjekt-Unterrahmens als Prädiktionsabgriff benutzt werden, läßt sich eine höhere Tonqualität erzielen. In diesem Fall wird der Prädiktionsabgriff einfach aus den synthetisierten Sprachdaten des Subjekt-Unterrahmens und weiterhin aus den synthetisierten Sprachdaten der Unterrahmen unmittelbar vor und nach dem Subjekt-Unterrahmen gebildet.
Wenn der Prädiktionsabgriff jedoch in dieser Weise einfach aus den synthetisierten Sprachdaten des Subjekt-Unterrahmens und den synthetisierten Sprachdaten der Unterrahmen unmittelbar vor und nach dem Subjekt-Unterrahmen besteht, ist zu erwarten, daß die höhere Tonqualität beeinflußt wird, da die Wellenformeigenschaften der synthetisierten Sprachdaten bei der Art und Weise, in der der Prädiktionsabgriff erzeugt wird, kaum berücksichtigt werden.
Deshalb extrahiert die Abgriff-Generierungsstufe 121, wie oben beschrieben, die synthetisierten Sprachdaten, die als Prädiktionsabgriff benutzt werden sollen, auf der Basis des L-Codes.
Das heißt, da die durch den in dem Unterrahmen angeordneten L-Code dargestellte Lücke (die Langzeit-Prädiktionslücke) anzeigt, an welchem Zeitpunkt in der Vergangenheit die Wellenform der synthetisierten Sprache des Ziel-Datenstücks der Wellenform der synthetisierten Sprache ähnelt, sind die Wellenform des Subjekt-Datenstücks und die Wellenformen der lückenkompensierenden vergangenen Daten und der lückenkompensierenden zukünftigen Datenstücke miteinander stark korreliert.
Durch die Bildung des Prädiktionsabgriffs mit Hilfe der synthetisierten Sprachdaten des Subjekt-Unterrahmens oder eines oder beider der lückenkompensierenden vergangenen Daten und der lückenkompensierenden zukünftigen Daten, die eine starke Korrelation zu diesen synthetisierten Sprachdaten haben, kann eine höhere Tonqualität erreicht werden.
Die Konstruktion in dem Ausführungsbeispiel von 5 ist so ausgebildet, daß auch in der Abgriff-Generierungsstufe 122 von 5, ähnlich wie in der Abgriff-Generierungsstufe 121, ein Klassenabgriff aus den synthetisierten Sprachdaten des Zielrahmens und eines oder beider der lückenkompensierenden vergangenen Daten und der lückenkompensierenden zukünftigen Daten erzeugt werden kann.
Das Bildungsmuster des Prädiktionsabgriffs und des Klassenabgriffs ist nicht auf das oben beschriebene Muster beschränkt. Das heißt, statt aller synthetisierter Sprachdaten des Subjekt-Unterrahmens, die in dem Prädiktionsabgriff und dem Klassenabgriff enthalten sind, können auch nur die synthetisierten Sprachdaten jeder zweiten Abtastprobe enthalten sein, und es können synthetisierte Sprachdaten des Unterrahmens enthalten sein, der sich an einer Position befindet, die um die durch den L-Code in dem Subjekt-Unterrahmen gekennzeichnete Zeitverschiebung vergangen ist.
In dem oben beschriebenen Fall werden der Klassenabgriff und der Prädiktionsabgriff in der gleichen Weise gebildet. Der Klassenabgriff und der Prädiktionsabgriff können jedoch auch auf unterschiedliche Weisen gebildet werden.
Darüber hinaus sind in dem oben beschriebenen Fall die synthetisierten Sprachdaten für 40 Abtastproben als lückenkompensierende zukünftige Daten in dem Prädiktionsabgriff enthalten, die in einem gegenüber dem Subjekt-Unterrahmen zukünftigen Unterrahmen liegen, die mit einen solchen L-Code hat, daß eine Position, die entsprechend der durch den L-Code gekennzeichneten Lücke vergangen ist, eine Position der synthetisierten Sprachdaten innerhalb des Subjekt-Unterrahmens (z. B. der Ziel-Daten) bildet. Als lückenkompensierende zukünftige Daten können z. B. auch synthetisierte Sprachdaten genutzt werden, die weiter unten beschrieben werden.
Wie oben beschrieben wurde, kennzeichnet der L-Code in den nach dem CELP-Verfahren kodierten Daten die Position der vergangenen synthetisierten Sprachdaten, die der Wellenform der synthetisierten Sprachdaten des Unterrahmens gleichen, in welchem sich dieser L-Code befindet. Zusätzlich zu dem L-Code, der die Position einer solchen Wellenform angibt, kann in den kodierten Daten ein L-Code enthalten sein, der die Position einer zukünftigen ähnlichen Wellenform darstellt (im folgenden als "zukünftiger L-Code" bezeichnet, wenn dies zweckdienlich ist). In diesem Fall können für die gegenüber den Subjekt-Daten zukünftigen lückenkompensierenden Daten eine oder mehrere Abtastproben benutzt werden, in denen die synthetisierten Sprachdaten an einer Position, die um die durch den zukünftigen L-Code in dem Subjekt-Unterrahmen gekennzeichnete Lücke in die Zukunft verschoben ist, einen Startpunkt bilden.
9 zeigt ein Beispiel für die Konfiguration einer Lernvorrichtung zur Durchführung eines Prozesses zum Lernen von Abgriffkoeffizienten, die in dem Koeffizientenspeicher 124 von 5 gespeichert werden.
Die Reihe der Komponenten von dem Mikrofon 201 bis zu der Code-Ermittlungsstufe 215 ist ähnlich ausgebildet wie die der Komponenten von dem Mikrofon 1 bis zu der Code-Ermittlungsstufe 15 in 1. In das Mikrofon 1 wird Lernsprachsignal eingegeben. Deshalb werden in den Komponenten von dem Mikrofon 201 bis zu der Code-Ermittlungsstufe 215 an dem Lernsprachsignal die gleichen Prozesse ausgeführt wie in dem Fall von 1.
In diesem Ausführungsbeispiel gibt die Code-Ermittlungsstufe 215 jedoch von dem L-Code, dem G-Code, dem I-Code und dem A-Code den L-Code aus, der dazu benutzt wird, synthetisierte Sprachdaten zu extrahieren, die den Prädiktionsabgriff und den Klassenabgriff bilden.
Die synthetisierten Sprachdaten, die das Sprachsynthesefilter 206 ausgibt, wenn in der Stufe 208 zur Ermittlung des kleinsten quadratischen Fehlers festgestellt wird, daß der quadratische Fehler ein Minimum erreicht, werden Abgriff-Generierungsstufen 131 und 132 zugeführt. Ein L-Code, der von der Code-Ermittlungsstufe 215 ausgegeben wird, wenn die Code-Ermittlungsstufe 215 ein Ermittlungssignal aus der Stufe 208 zur Ermittlung des kleinsten quadratischen Fehlers empfängt, wird ebenfalls den Abgriff-Generierungsstufen 131 und 132 zugeführt. Sprachdaten, die von einer A/D-Wandlerstufe 202 ausgegeben werden, werden als Lehrerdaten einer Normalgleichungs-Addierschaltung 134 zugeführt.
Die Generierungsstufe 131 erzeugt aus den synthetisierten Sprachdaten, die von dem Sprachsynthesefilter 206 ausgegeben werden, den gleichen Prädiktionsabgriff wie im Fall der Abgriff-Generierungsstufe 121 von 5 auf der Basis des von der Code-Ermittlungsstufe 215 ausgegebenen L-Codes und liefert den Prädiktionsabgriff als Schülerdaten an die Normalgleichungs-Addierschaltung 134.
Auch die Abgriff-Generierungsstufe 132 erzeugt aus den von dem Sprachsynthesefilter 206 ausgegebenen synthetisierten Sprachdaten den gleichen Klassenabgriff wie in dem Fall der Abgriff-Generierungsstufe 122 von 5 auf der Basis des von der Code-Ermittlungsstufe 215 ausgegebenen L-Codes und liefert den Klassenabgriff an eine Klassifizierungsstufe 133.
Die Klassifizierungsstufe 133 führt die gleiche Klassifizierung durch wie die Klassifizierungsstufe 123 von 5 auf der Basis des Klassenabgriffs aus der Abgriff-Generierungsstufe 132 und liefert den resultierenden Klassencode an die Normalgleichungs-Addierschaltung 134.
Die Normalgleichungs-Addierschaltung 134 nimmt Sprachdaten aus der A/D-Wandlerstufe 202 als Lehrerdaten und den Prädiktionsabgriff aus der Generierungsstufe 131 als Schülerdaten auf und führt für jeden Klassencode aus der Klassifizierungsstufe 133 eine Addition durch, wobei sie die Lehrerdaten und die Schülerdaten als Objekte benutzt.
Und zwar führt die Normalgleichungs-Addierschaltung 134 für jede Klasse, die dem aus der Klassifizierungsstufe 133 gelieferten Klassencode entspricht, eine Multiplikation der Schülerdaten (x_inx_im), die die einzelnen Komponenten der Matrix A in der Gleichung (13) bilden und eine der Summierung (Σ) äquivalente Berechnung durch, wobei der Prädiktionsabgriff (Schülerdaten) benutzt wird.
Außerdem führt die Normalgleichungs-Addierschaltung 134 für jede Klasse, die dem von der Klassifizierungsstufe 133 gelieferten Klassencode entspricht, eine Multiplikation der Schülerdaten und der Lehrerdaten (x_iny_i), die die einzelnen Komponenten des Vektors v der Gleichung (13) bilden, und eine der Summierung (Σ) äquivalente Berechnung durch, wobei die Schülerdaten und die Lehrerdaten benutzt werden.
Die Normalgleichungs-Addierschaltung 134 führt die oben beschriebene Addition durch, indem sie alle Unterrahmen der Sprachdaten, die ihr als Subjekt-Unterrahmen zugeführt werden, für das Lernen benutzt und indem sie alle Sprachdaten dieses Subjekt-Unterrahmens als Subjekt-Daten benutzt. Als Ergebnis wird für jede Klasse eine Normalgleichung formuliert, wie sie in der Gleichung (13) dargestellt ist.
Eine Abgriffkoeffizienten-Ermittlungsschaltung 135 ermittelt den Abgriffkoeffizienten für jede Klasse, indem sie die Normalgleichung löst, die in der Normalgleichungs-Addierschaltung 134 für jede Klasse erzeugt wird, und liefert den Abgriffkoeffizienten an die der betreffenden Klasse entsprechende Adresse in dem Koeffizientenspeicher 136.
In Abhängigkeit von dem als Lernsprachsignal vorbereiteten Sprachsignal kann in der Normalgleichungs-Addierschaltung 134 eine Klasse auftreten, in der nicht die für die Bestimmung des Abgriffkoeffizienten erforderliche Anzahl von Normalgleichungen gewonnen wird. Für einen solche Klasse gibt die Abgriffkoeffizienten-Ermittlungsschaltung 135 z. B. einen Vorgabe-Abgriffkoeffizienten aus.
Der Koeffizientenspeicher 136 speichert den Abgriffkoeffizienten für jede Klasse, der von der Abgriffkoeffizienten-Ermittlungsschaltung 135 zugeführt wird, an einer dieser Klasse entsprechenden Adresse.
Als Nächstes wird anhand des Flußdiagramms von 10 ein Lernprozeß für das Ermitteln eines Abgriffkoeffizienten für die Dekodierung von Schall hoher Qualität beschrieben, der in der Lernvorrichtung von 9 durchgeführt wird.
Der Lernvorrichtung wird ein Lernsprachsignal zugeführt. Aus diesem Lernsprachsignal werden in dem Schritt S11 Lehrerdaten und Schülerdaten erzeugt.
Dazu wird das Lernsprachsignal in das Mikrofon 201 eingegeben, und die Komponenten von dem Mikrofon 201 bis zu der Code-Ermittlungsstufe 215 führen die gleichen Prozesse aus wie die betreffenden Komponenten von dem Mikrofon 1 bis zu der Code-Ermittlungsstufe 15 in 1.
Als Ergebnis werden die Sprachdaten des in der A/D-Wandlerstufe 202 gewonnenen digitalen Signals der Normalgleichungs-Addierschaltung 134 als Lehrerdaten zugeführt. Wenn in der Stufe 208 zur Ermittlung des kleinsten quadratischen Fehlers festgestellt wird, daß der quadratische Fehler ein Minimum erreicht, werden die von dem Sprachsynthesefilter 206 ausgegebenen synthetisierten Sprachdaten den Abgriff-Generierungsstufen 131 und 132 als Schülerdaten zugeführt. Außerdem wird der L-Code, der von der Code-Ermittlungsstufe 215 ausgegeben wird, wenn in der Stufe 208 zur Ermittlung des kleinsten quadratischen Fehlers festgestellt wird, daß der quadratische Fehler ein Minimum erreicht, den Abgriff-Generierungsstufen 131 und 132 als Schülerdaten zugeführt.
Danach geht der Prozeß weiter zu dem Schritt S12. In diesem setzt die Abgriff-Generierungsstufe 131 den Subjekt-Unterrahmen als Unterrahmen der synthetisierten Sprache, den das Sprachsynthesefilter 206 als Lehrerdaten zuführt, sie setzt die synthetisierten Sprachdaten dieses Subjekt-Unterrahmens sequentiell als Subjekt-Daten, sie benutzt die synthetisierten Sprachdaten aus dem Sprachsynthesefilter 206 für jedes Subjekt-Datenstücks, erzeugt ähnlich wie in der Abgriff-Generierungsstufe 121 von 5 auf der Basis des L-Codes aus der Code-Ermittlungsstufe 215 einen Prädiktionsabgriff und liefert diesen Prädiktionsabgriff an die Normalgleichungs-Addierschaltung 134. In dem Schritt S12 benutzt die Abgriff-Generierungsstufe 132 auch die synthetisierten Sprachdaten, um auf der Basis des L-Codes in der gleichen Weise wie in der Abgriff-Generierungsstufe 122 von 5 einen Klassenabgriff zu erzeugen, und liefert den Klassenabgriff an die Klassifizierungsstufe 133.
Nach dem Verarbeitungsschritt S12 geht der Prozeß weiter zu dem Schritt S13, in welchem die Klassifizierungsstufe 133 eine Klassifizierung auf der Basis des Klassenabgriffs aus der Abgriff-Generierungsstufe 132 vornimmt und den resultierenden Klassencode an die Normalgleichungs-Addierschaltung 134 liefert.
Der Prozeß geht dann weiter zu dem Schritt S14, in welchem die Normalgleichungs-Addierschaltung 134 für jeden Klassencode aus der Klassifizierungsstufe 133 bezüglich der Subjekt-Daten eine Addition der Matrix A und des Vektors v der Gleichung (13) durchführt, wie dies oben beschrieben wurde, wobei als Objekte die Lernsprachdaten als Lehrerdaten aus der A/D-Wandlerstufe 202, die Sprachdaten hoher Qualität darstellen und den Subjekt-Daten entsprechen, und der Prädiktionsabgriff aus der Abgriff-Generierungsstufe 132 als Schülerdaten benutzt werden. Der Prozeß geht dann weiter zu dem Schritt S15.
In dem Schritt S15 wird geprüft, ob weitere Unterrahmen als Subjekt-Unterrahmen zu verarbeiten sind. Wenn in dem Schritt S15 festgestellt wird, daß weitere Unterrahmen als Subjekt-Unterrahmen zu verarbeiten sind, kehrt der Prozeß zu dem Schritt S11 zurück, in welchem der nächste Unterrahmen als Subjekt-Unterrahmen gesetzt wird, und anschließend werden die gleichen Prozesse wiederholt.
Wenn in dem Schritt S15 festgestellt wird, daß es keine Unterrahmen mehr gibt, die als Subjekt-Unterahmen zu verarbeiten sind, geht der Prozeß weiter zu dem Schritt S16, in welchem die Abgriffkoeffizienten-Ermittlungsschaltung 135 die Normalgleichung löst, die in der Normalgleichungs-Addierschaltung 134 für jede Klasse erzeugt wird, um für jede Klasse den Abgriffkoeffizienten zu ermitteln, und liefert dann den Abgriffkoeffizienten an die der jeweiligen Klasse entsprechende Adresse in dem Koeffizientenspeicher 136, wodurch der Abgriffkoeffizient gespeichert wird. Die Verarbeitung ist dann beendet.
In der oben beschriebenen Weise wird der in dem Koeffizientenspeicher 136 für jede Klasse gespeicherte Abgriffkoeffizient in dem Koeffizientenspeicher 124 von 5 gespeichert.
Da der in dem Koeffizientenspeicher 124 von 5 gespeicherte Abgriffkoeffizient in der oben beschriebenen Weise ermittelt wird, indem ein Lernvorgang ausgeführt wird, so daß der Prädiktionsfehler (quadratische Fehler) eines Sprachprädiktionswerts hoher Qualität, der durch lineare Prädiktionsberechnung gewonnen wird, statistisch zu einem Minimum wird, hat die von der Prädiktionsstufe 125 von 5 ausgegebene Sprache hohe Tonqualität.
In dem Ausführungsbeispiel von 5 und 9 werden der Prädiktionsabgriff und der Klassenabgriff z. B. aus synthetisierten Sprachdaten gebildet, die von dem Sprachsynthesefilter 206 ausgegeben werden. Wie durch die gestrichelten Linien in 5 und 9 angedeutet ist, können der Prädiktionsabgriff und der Klassenabgriff jedoch auch so gebildet werden, daß sie den I-Code, den L-Code, den G-Code, den A-Code, einen aus dem A-Code gewonnenen linearen Prädiktionskoeffizienten α_p, eine aus dem G-Code gewonnene Verstärkung β oder γ und andere Informationen (z. B. ein Restsignal e, l oder n zur Gewinnung des Restsignals e und auch 1/β, n/γ usw.), die aus dem L-Code, dem G-Code, dem I-Code oder dem A-Code gewonnen werden, oder eines oder mehrere dieser Elemente enthalten. Bei dem CELP-Verfahren ist auch der Fall vorgesehen, daß in den Codedaten weiche Interpolationsbits, die Rahmenenergie usw. als kodierte Daten enthalten sind. In diesem Fall können der Prädiktionsabgriff und der Klassenabgriff auch so gebildet werden, daß sie weiche Interpolationsbits, die Rahmenenergie usw. enthalten.
11 zeigt ein zweites Beispiel für die Konfiguration der Empfangsstufe 114 von 4. Komponenten in 11, die denen von 5 entsprechen, sind mit den gleichen Bezugs zeichen versehen wie dort und im folgenden wird auf ihre Beschreibung verzichtet, wenn dies zweckdienlich erscheint. Die Empfangsstufe 114 von 11 ist ähnlich ausgebildet wie die Empfangsstufe von 5 mit der Ausnahme, daß anstelle der Abgriff-Generierungsstufen 121 bzw. 122 die Abgriff-Generierungsstufen 301 und 302 vorgesehen sind.
In dem Ausführungsbeispiel von 5 benutzen die Abgriff-Generierungsstufen 121 und 122 (das Gleiche gilt für die Abgriff-Generierungsstufen 131 und 132 von 9) zur Bildung des Prädiktionsabgriffs und des Klassenabgriffs zusätzlich zu den synthetisierten Sprachdaten für 40 Abtastproben in dem Subjekt-Unterrahmen eine oder beide der lückenkompensierenden vergangenen Daten und der lückenkompensierenden zukünftigen Daten. Es wird jedoch nicht speziell geprüft, ob nur die lückenkompensierenden vergangenen Daten, die lückenkompensierenden zukünftigen Daten oder eine von ihnen in dem Prädiktionsabgriff und dem Klassenabgriff enthalten sein sollen. Deshalb muß im voraus festgelegt werden, welche enthalten sein sollen, so daß diese fixiert werden.
Wenn jedoch ein Rahmen, der einen Subjekt-Unterrahmen enthält (im folgenden als "Subjekt-Rahmen" bezeichnet, wenn dies zweckmäßig ist), der Startzeit der Spracherzeugung entspricht, geht man davon aus, daß der gegenüber dem Subjekt-Rahmen vergangene Rahmen, wie in 12A dargestellt, sich in einem stillen Zustand befindet (einem Zustand, in dem nur Rauchen vorhanden ist). Ähnlich geht man in einem Fall, in welchem ein Subjekt-Unterrahmen dem Ende der Sprachproduktion entspricht, davon aus, daß der Rahmen, der relativ zu dem Subjekt-Rahmen der Zukunft liegt, sich in einem stillen Zustand befindet, wie dies in 12B dargestellt ist. Selbst wenn in dem Prädiktionsabgriff und dem Klassenabgriff ein solcher stiller Abschnitt enthalten ist, trägt dies kaum zu einer verbesserten Tonqualität bei, im schlimmsten Fall kann er sogar eine Verbesserung der Tonqualität verhindern.
Wenn hingegen der Subjekt-Rahmen einem Zustand entspricht, in dem, anders als beim Start oder am Ende der Sprachproduktion, eine stetige Sprachproduktion stattfindet, wie dies in 12C dargestellt ist, geht man davon aus, daß bezüglich des Subjekt-Rahmens sowohl in der Vergangenheit als auch in der Zukunft synthetisierte Sprachdaten existieren, die stetiger Sprache entsprechen. In einem solchen Fall geht man davon aus, daß die Tonqualität noch weiter verbessert werden kann, weil in dem Prädiktionsabgriff und in dem Klassenabgriff sowohl die lückenkompensierenden vergangenen Daten als auch die lückenkompensierenden zukünftigen Daten und nicht nur eine von diesen enthalten sind.
Die Abgriff-Generierungsstufen 301 und 302 von 11 ermitteln deshalb, welcher der Darstellungen von 12A bis 12C das Fortschreiten der Wellenformen der synthetisier ten Sprachdaten entspricht, und erzeugen auf der Basis des Ermittlungsergebnisses einen Prädiktionsabgriff bzw. einen Klassenabgriff.
13 zeigt ein Beispiel für die Konfiguration der Abgriff-Generierungsstufe 301 in 11.
Die von dem Sprachsynthesefilter 29 (11) ausgegebenen synthetisierten Sprachdaten werden sequentiell einem Speicher 311 für synthetisierte Sprache zugeführt. Der Speicher 311 für synthetisierte Sprache speichert die synthetisierten Sprachdaten sequentiell. Die Speicherkapazität des Speichers 311 für synthetisierte Sprache ist zumindest so groß, daß er innerhalb der synthetisierten Sprache die synthetisierten Sprachdaten von der am weitesten in der Vergangenheit liegenden Abtastprobe bis zu der am weitesten in der Zukunft liegenden Abtastprobe speichern kann, die als Prädiktionsabgriff für die als Subjekt-Daten gesetzten synthetisierten Sprachdaten gesetzt werden können. Wenn die dieser Speicherkapazität entsprechenden synthetisierten Sprachdaten gespeichert sind, speichert der Speicher 311 für synthetisierte Sprachdaten die als nächste zugeführten synthetisierten Sprachdaten in der Weise, daß der älteste gespeicherte Wert überschrieben wird.
Der von dem Kanaldekodierer 21 (11) in Einheiten von Unterrahmen ausgegebene L-Code wird sequentiell einem L-Code-Speicher 312 zugeführt. Der L-Code-Speicher 312 speichert den L-Code sequentiell. Die Speicherkapazität des L-Code-Speichers 312 ist zumindest so groß, daß er innerhalb der synthetisierten Sprachdaten die L-Codes von dem Subjekt-Rahmen, in dem sich die am weitesten in der Vergangenheit liegende Abtastprobe befindet, bis zu dem Subjekt-Rahmen, in dem sich die am weitesten in der Zukunft liegende Abtastprobe befindet, speichern kann, die als Prädiktionsabgriff für die als Subjekt-Daten gesetzten synthetisierten Sprachdaten gesetzt werden können. Wenn die dieser Speicherkapazität entsprechenden L-Codes gespeichert sind, speichert der L-Code-Speicher 312 den als nächsten zugeführten L-Code in der Weise, daß der älteste gespeicherte Wert überschrieben wird.
Eine Rahmenleistungs-Berechnungsstufe 313 ermittelt mit Hilfe der in dem Speicher 311 für synthetisierte Sprache gespeicherten Sprachdaten die Leistung der synthetisierten Sprachdaten in vorbestimmten Rahmeneinheiten und liefert die Leistung an einen Puffer 314. Der Rahmen, der die Einheit bildet, in der die Leistung von der Rahmenleistungs-Berechnungsstufe 313 ermittelt wird, kann mit dem Rahmen und dem Unterrahmen nach dem CELP-Verfahren übereinstimmen oder nicht. So kann der Rahmen, der die Einheit bildet, in der die Leistung von der Rahmenleistungs-Berechnungsstufe 313 ermittelt wird, von einem Wert, z. B. von anderen 128 Abtastproben gebildet werden als den 160 Abtastproben, die nach dem CELP-Verfahren den Rahmen bilden oder den 40 Abtastproben, die den Unterrahmen bilden. Zur Vereinfachung der Beschreibung wird in dem vorliegenden Ausführungsbeispiel jedoch angenommen, daß der Rahmen, der die Einheit bildet, in der die Leistung von der Rahmenleistungs-Berechnungsstufe 313 ermittelt wird, mit dem Rahmen nach dem CELP-Verfahren übereinstimmt.
Der Puffer 314 speichert die von der Rahmenleistungs-Berechnungsstufe 313 zugeführte Leistung der synthetisierten Sprachdaten sequentiell. Der Puffer 314 kann die Leistung von synthetisierten Sprachdaten für insgesamt wenigstens drei Rahmen speichern, nämlich den Subjekt-Rahmen und die Rahmen unmittelbar vor und hinter dem Subjekt-Rahmen. Wenn die dieser Speicherkapazität entsprechende Leistung gespeichert ist, speichert der Puffer 314 die die als nächste aus der Rahmenleistungs-Berechnungsstufe 313 zugeführte Leistung in der Weise, daß der älteste gespeicherte Wert überschrieben wird.
Eine Zustands-Ermittlungsstufe 315 ermittelt das Fortschreiten der Wellenform der synthetisierten Sprachdaten in der Nachbarschaft der Subjekt-Daten auf der Basis der in dem Puffer 314 gespeicherten Leistung. Das heißt, die Zustands-Ermittlungsstufe 315 stellt fest, welchen der folgenden Zustände die fortschreitende Wellenform der synthetisierten Sprachdaten in der Nachbarschaft der Subjekt-Daten angenommen hat: Einen Zustand, in dem, wie in 12A dargestellt, der Rahmen unmittelbar vor dem Subjekt-Rahmen sich in einem stillen Zustand befindet (im folgenden als "ansteigender Zustand" bezeichnet, wenn dies zweckdienlich ist), einen Zustand, in dem, wie in 12B dargestellt, der Rahmen unmittelbar hinter dem Subjekt-Rahmen sich in einem stillen Zustand befindet (im folgenden als "abfallender Zustand" bezeichnet, wenn dies zweckdienlich ist), oder einen Zustand, in dem, wie in 12C dargestellt, ein stetiger Zustand von unmittelbar vor dem Subjekt-Rahmen bis unmittelbar nach dem Subjekt-Rahmen erreicht ist (im folgenden als "stetiger Zustand" bezeichnet, wenn dies zweckdienlich ist). Die Zustands-Ermittlungsstufe 315 liefert das Ermittlungsergebnis an eine Daten-Extrahierstufe 316.
Die Daten-Extrahierstufe 316 liest die synthetisierten Sprachdaten des Subjekt-Unterrahmens aus dem Speicher 311 für synthetisierte Sprache aus, so daß diese extrahiert werden. Außerdem liest die Daten-Extrahierstufe 316 auf der Basis des von der Zustands-Ermittlungsstufe 315 gelieferten Ergebnisses zur Ermittlung des Fortschreitens der Wellenform die lückenkompensierenden vergangenen Daten und die lückenkompensierenden zukünftigen Daten oder eine von ihnen aus dem Speicher 311 für synthetisierte Sprache aus, um diese zu extrahieren, wobei sie auf den L-Code-Speicher 312 Bezug nimmt. Die Daten-Extrahierstufe 316 gibt dann als Prädiktionsabgriff die synthetisierten Sprachdaten des Subjekt-Unterrahmens, die aus dem Speicher 311 für synthetisierte Sprache ausgelesen werden, sowie eine oder beide der lückenkompensierenden vergangenen Daten und der lückenkompensierenden zukünftigen Daten aus, die aus dem Speicher 311 für synthetisierte Sprache ausgelesen werden.
Als Nächstes wird anhand des Flußdiagramms von 14 der Prozeß in der Abgriff-Generierungsstufe 301 von 13 beschrieben.
Die von dem Sprachsynthesefilter 29 (11) ausgegebenen synthetisierten Sprachdaten werden sequentiell dem Speicher 311 für synthetisierte Sprache zugeführt, und der Speicher 311 für synthetisierte Sprache speichert die synthetisierten Sprachdaten sequentiell. Außerdem werden die von dem Kanaldekodierer 21 (11) ausgegebenen L-Codes in Einheiten von Unterrahmen sequentiell dem L-Code-Speicher 312 zugeführt, und der L-Code-Speicher 312 speichert die L-Codes sequentiell.
Die Rahmenleitungs-Berechnungsstufe 313 liest die in dem Speicher 311 für synthetisierte Sprache gespeicherten synthetisierten Sprachdaten sequentiell in Rahmeneinheiten aus, ermittelt für jeden Rahmen die Leistung der synthetisierten Sprachdaten und speichert die Leistung in dem Puffer 314.
In dem Schritt S21 liest die Zustands-Ermittlungsstufe 315 dann aus dem Puffer 314 die Leistung P_n des Subjekt-Rahmens, die Leistung P_n-1 des Rahmens unmittelbar vor dem Subjekt-Unterrahmen und die Leistung P_n+1 des Rahmens unmittelbar nach dem Subjekt-Unterrahmen aus. Die Zustands-Ermittlungsstufe 315 berechnet die Differenz P_n – P_n-1 zwischen der Leistung P_n des Subjekt-Rahmens und der Leistung P_n-1 des Rahmens unmittelbar davor und die Differenz P_n+1 – P_n zwischen der Leistung P_n+1 des Rahmens unmittelbar nach dem Subjekt-Rahmen und der Leistung P_n des Subjekt-Rahmens. Der Prozeß geht dann weiter zu dem Schritt.
In dem Schritt S22 prüft die Zustands-Ermittlungsstufe 315, ob sowohl der Absolutwert der Differenz P_n – P_n-1 als auch der Absolutwert der Differenz P_n+1 – P_n größer (gleich oder größer) als ein vorbestimmter Schwellwert ε sind.
Wenn in dem Schritt S22 festgestellt wird, daß von dem Absolutwert der Differenz P_n – P_n-1 und dem Absolutwert der Differenz P_n+1 – P_n wenigstens einer nicht größer ist als der vorbestimmte Schwellwert ε, folgert die Zustands-Ermittlungsstufe 315, daß das Fortschreiten der Wellenform in der Nähe der Subjekt-Daten einen stetigen Zustand erreicht hat, in welchem, wie in 12C dargestellt, ein stetiger Zustand von unmittelbar vor dem Subjekt-Rahmen bis unmittelbar nach dem Subjekt-Rahmen herrscht, sie liefert eine Meldung "stetiger Zustand", die diese Tatsache anzeigt, an die Daten-Extrahierstufe 316, und der Prozeß geht weiter zu dem Schritt S23.
Wenn die Daten-Extrahierstufe 316 in dem Schritt S23 die Meldung "stetiger Zustand" aus der Zustands-Ermittlungsstufe 315 empfängt, liest die Daten-Extrahierstufe 316 die synthetisierten Sprachdaten des Subjekt-Unterrahmens aus dem Speicher 311 für synthetisierte Sprache aus. Unter Bezugnahme auf den L-Code-Speicher 312 liest sie außerdem die synthetisierten Sprachdaten als die lückenkompensierenden vergangenen Daten und die lückenkompensierenden zukünftigen Daten aus. Die Daten-Extrahierstufe 316 gibt die synthetisierten Sprachdaten dann als Prädiktionsberechnung aus. Die Verarbeitung ist dann beendet.
Wenn in dem Schritt 522 festgestellt wird, daß sowohl der Absolutwert der Differenz P_n – P_n-1 als auch der Absolutwert der Differenz P_n+1 – P_n größer sind als der vorbestimmte Schwellwert ε, geht der Prozeß weiter zu dem Schritt S24, in welchem die Zustands-Ermittlungsstufe 315 prüft, ob sowohl die Differenz P_n – P_n-1 als auch die Differenz P_n+1 – P_n positiv sind. Wenn in dem Schritt S24 festgestellt wird, daß sowohl die Differenz P_n – P_n-1 als auch die Differenz P_n+1 – P_n Positiv sind, folgert die Zustands-Ermittlungsstufe 315, daß das Fortschreiten der Wellenform der synthetisierten Sprachdaten in der Nähe der Subjekt-Daten, wie in 12A dargestellt, einen ansteigenden Zustand erreicht hat, in welchem der Rahmen unmittelbar vor dem Subjekt-Rahmen in einem stillen Zustand ist, liefert eine Meldung "ansteigender Zustand", die diese Tatsache anzeigt, an die Daten-Extrahierstufe 316, und der Prozeß geht weiter zu dem Schritt 525.
Wenn in dem Schritt S25 die Meldung "ansteigender Zustand" aus der Zustands-Ermittlungsstufe 315 empfangen wird, liest die Daten-Extrahierstufe 316 die synthetisierten Sprachdaten des Subjekt-Unterrahmens aus dem Speicher 311 für synthetisierte Sprache aus und liest ferner unter Bezugnahme auf den L-Code-Speicher 312 die synthetisierten Sprachdaten als lückenkompensierende zukünftige Daten aus. Die Daten-Extrahierstufe 316 gibt dann die synthetisierten Sprachdaten als Prädiktionsabgriff aus, und die Bearbeitung ist beendet.
Wenn in dem Schritt S24 hingegen festgestellt wird, daß wenigstens eine der Differenzen P_n – P_n-1 und P_n+1 – P_n nicht positiv ist, geht der Prozeß weiter zu dem Schritt S26, in dem die Zustands-Ermittlungsstufe 315 prüft, ob beide Differenzen P_n – P_n-1 und P_n+1 – P_n negativ sind. Wenn in dem Schritt S26 festgestellt wird, daß wenigstens eine der Differenzen P_n – P_n-1 und P_n+1 – P_n nicht negativ ist, folgert die Zustands-Ermittlungsstufe 315, daß das Fortschreiten der Wellenform der synthetisierten Sprachdaten in der Nachbarschaft der Subjekt-Daten einen stetigen Zustand erreicht hat und liefert eine Meldung "stetiger Zustand", die diese Tatsache anzeigt, an die Daten-Extrahierstufe 316. Der Prozeß geht dann weiter zu dem Schritt S23.
In dem Schritt S23 liest die Daten-Extrahierstufe 316 in der oben beschriebenen Weise aus dem Speicher 311 für die synthetisierte Sprache die synthetisierten Sprachdaten des Subjekt-Unterrahmens, die lückenkompensierenden vergangenen Daten und die lückenkompensierenden zukünftigen Daten aus, gibt diese als Prädiktionsabgriff aus. Die Verarbeitung ist dann beendet.
Wenn in dem Schritt S26 festgestellt wird, daß sowohl die Differenz P_n – P_n-1 als auch die Differenz P_n+1 – P_n negativ sind, folgert die Zustands-Ermittlungsstufe 315, daß das Fortschreiten der Wellenform der synthetisierten Sprachdaten in der Nähe der Subjekt-Daten einen "abfallenden Zustand" erreicht hat, in welchem, wie in 12B dargestellt, der Rahmen unmittelbar nach dem Subjekt-Rahmen sich in einem stillen Zustand befindet, liefert die Nachricht "abfallender Zustand", die diese Tatsache anzeigt, an die Datenextrahierschaltung 316, und der Prozeß geht dann weiter zu dem Schritt S27.
Wenn in dem Schritt S27 die Meldung "abfallender Zustand" aus der Zustands-Ermittlungsstufe 315 empfangen wird, liest die Daten-Extrahierstufe 316 die synthetisierten Sprachdaten des Subjekt-Unterrahmens aus dem Speicher 311 für synthetisierte Sprache aus und liest ferner unter Bezugnahme auf den L-Code-Speicher 312 die synthetisierten Sprachdaten als lückenkompensierende vergangene Daten aus. Die Daten-Extrahierstufe 316 gibt die synthetisierten Sprachdaten dann als Prädiktionsabgriff aus. Die Verarbeitung wird damit beendet.
Die Abgriff-Generierungsstufe 302 von 11 kann auch ähnlich ausgebildet sein wie die Abgriff-Generierungsstufe 301 von 13. In diesem Fall kann ein Klassenabgriff gebildet werden, wie dies anhand von 14 beschrieben wurde. In 13 können jedoch der Speicher 311 für synthetisierte Sprache, der L-Code-Speicher 312, die Rahmenleistungs-Rechenschaltung 313, der Puffer 314 und die Zustands-Ermittlungsstufe 315 von den Abgriff-Generierungsstufen 301 und 302 gemeinsam genutzt werden.
Die Leistung in dem Subjekt-Rahmen wird in den oben beschriebenen Fällen mit der Leistung in jedem der unmittelbar davor und dahinter liegenden Rahmen in dieser Reihenfolge verglichen, um das Fortschreiten der Wellenform der synthetisierten Sprachdaten in der Nähe der Subjekt-Daten zu ermitteln. Die Ermittlung des Fortschreitens der Wellenform der synthetisierten Sprachdaten in der Nähe der Subjekt-Daten kann auch dadurch erfolgen, daß die Leistung in dem Subjekt-Rahmen mit der Leistung in Rahmen verglichen wird, die weiter in der Vergangenheit und weiter in der Zukunft liegen.
In den oben beschriebenen Fällen wird das Fortschreiten der Wellenform der synthetisierten Sprachdaten in der Nähe der Subjekt-Daten außerdem als einer von drei Zuständen ermittelt, nämlich als "stetiger Zustand", als "abfallender Zustand" und als "ansteigender Zustand". Das Fortschreiten kann jedoch auch als einer von vier oder mehr Zuständen ermittelt werden. Das heißt, in dem Schritt S22 von 14 werden z. B. der Absolutwert der Differenz P_n – P_n-1 und der Absolutwert der Differenz P_n+1 – P_n mit einem Schwellwert ε verglichen, um das Größenverhältnis zu bestimmen. Durch Vergleichen des Absolutwerts der Differenz P_n – P_n-1 und des Absolutwerts der Differenz P_n+1 – P_n mit mehreren Schwellwerten kann das Fortschreiten der Wellenform der synthetisierten Sprachdaten in der Nähe der Subjekt-Daten als einer von vier oder mehr Zuständen bestimmt werden.
Wenn das Fortschreiten der Wellenform der synthetisierten Sprachdaten in der Nähe der Subjekt-Daten auf diese Weise als einer von vier oder mehr Zuständen bestimmt wird, kann der Prädiktionsabgriff so ausgebildet werden, daß er zusätzlich zu den synthetisierten Sprachdaten des Subjekt-Unterrahmens und den lückenkompensierenden vergangenen Daten und den lückenkompensierenden zukünftigen Daten z. B. die synthetisierten Sprachdaten enthält, die zu lückenkompensierenden vergangenen Daten oder zu lückenkompensierenden zukünftigen Daten werden, wenn die lückenkompensierenden vergangenen Daten oder die lückenkompensierenden zukünftigen Daten als Subjekt-Daten benutzt werden.
Wenn in der Abgriff-Generierungsstufe 301 der Prädiktionsabgriff in der oben beschriebenen Weise erzeugt werden soll, variiert die Zahl der Abtastproben der synthetisierten Sprachdaten, die den Prädiktionsabgriff bilden. Dies gilt auch für den Klassenabgriff, der in der Abgriff-Generierungsstufe 302 erzeugt wird.
Auch wenn die Zahl der Datenfelder (die Zahl der Abgriffe), die den Prädiktionsabgriff bilden, variiert, entsteht für den Prädiktionsabgriff kein Problem, weil in der weiter unten beschriebenen Lernvorrichtung von 16 lediglich eine Zahl von Abgriffkoeffizienten erlernt und in dem Koeffizientenspeicher 124 gespeichert werden muß, die gleich der Zahl von Prädiktionsabgriffen ist.
Wenn hingegen für den Klassenabgriff die Zahl der Abgriffen, die den Abgriff bilden, variiert, variiert die Zahl aller Klassen, die für jeden Klassenabgriff von jeder Zahl von Abgriffen gewonnen werden, so daß die Gefahr besteht, daß die Verarbeitung komplex wird. Deshalb sollte die Klassifizierung vorzugsweise so durchgeführt werden, daß die Zahl der durch den Klassenabgriff gewonnenen Klassen selbst dann nicht variiert, wenn die Zahl der Abgriffe des Klassenabgriffs variiert.
Als Verfahren zur Durchführung einer Klassifizierung, bei der die Zahl der durch jeden Klassenabgriff gewonnenen Klassen nicht variiert, selbst wenn die Zahl der Abgriffe des Klassenabgriffs variiert, steht ein Verfahren zur Verfügung, das bei der Klassifizierung z. B. die Struktur des Klassenabgriffs berücksichtigt.
Als Ergebnis der Tatsache, daß der Klassenabgriff so gebildet wird, daß er zusätzlich zu den synthetisierten Sprachdaten des Subjekt-Unterrahmens eine oder beide der lückenkompensierenden vergangenen Daten und der lückenkompensierenden zukünftigen Daten enthält, erhöht oder erniedrigt sich in dem vorliegenden Ausführungsbeispiel die Zahl der Abgriffe des Klassenabgriffs. Wenn der Klassenabgriff z. B. aus den synthetisierten Sprachdaten des Subjekt-Unterrahmens und einer der lückenkompensierenden vergangenen Daten oder lückenkompensierenden zukünftigen Daten gebildet wird, wird die Zahl der Abgriffe auf S gesetzt, und falls der Klassenabgriff aus den synthetisierten Sprachdaten des Subjekt-Unterrahmens und sowohl den lückenkompensierenden vergangenen Daten als auch den lückenkompensierenden zukünftigen Daten gebildet wird, wird die Zahl der Abgriffe auf L (> S) gesetzt. Wenn die Zahl der Abgriffe gleich S ist, erhält man einen Klassencode mit n Bits, und wenn die Zahl der Abgriffe gleich L ist, erhält man einen Klassencode mit n + m Bits.
In diesem Fall werden als Klassencode n + m + 2 Bits benutzt, und je nachdem, ob der Klassenabgriff lückenkompensierende vergangene Daten oder lückenkompensierende zukünftige Daten oder beide enthält, werden z. B. die beiden oberen Bits innerhalb der n + m + 2 Bits auf "00", "01" bzw. "10" gesetzt. Als Ergebnis wird eine Klassifizierung selbst dann möglich, bei der die Gesamtzahl der Klassen gleich 2ⁿ ^+m ⁺² ist, wenn die Zahl der Abgriffe entweder S oder L ist, .überarbeiten!!!
Wenn der Klassenabgriff sowohl die lückenkompensierenden vergangenen Daten als auch die lückenkompensierenden zukünftigen Daten enthält und die Zahl der Abgriffe gleich L ist, muß nur eine Klassifizierung durchgeführt werden, in der ein n + m-Bit-Klassencode gewonnen wird, sowie n+m+2 Bits, so daß der Wert "10", der anzeigt, daß der Klassenabgriff sowohl die lückenkompensierenden vergangenen Daten als auch die lückenkompensierenden zukünftigen Daten enthält, zu dem n + m-Bit-Klassencode als die beiden oberen Bits hinzugefügt wird, um als endgültiger Klassencode gesetzt zu werden.
Wenn der Klassenabgriff die lückenkompensierenden vergangenen Daten enthält und die Zahl der Abgriffe gleich S ist, muß nur eine Klassifizierung durchgeführt werden, in der ein n-Bit-Klassencode gewonnen wird, und es müssen lediglich "0" von m Bits als Bits höherer Ordnung des Klassencodes der n Bits addiert werden, so daß n + m Bits gebildet werden sowie n + m + 2 Bits, so daß der Wert "00", der anzeigt, daß der Klassenabgriff die lückenkompensierenden vergangenen Daten enthält, wird zu den n + m Bits als die Bits höherer Ordnung addiert, um als endgültiger Klassencode gesetzt zu werden.
Wenn der Klassenabgriff die lückenkompensierenden zukünftigen Daten enthält und die Zahl der Abgriffe gleich S ist, muß nur eine Klassifizierung durchgeführt werden, in der ein n-Bit-Klassencode gewonnen wird, und es müssen lediglich "0" von m Bits als Bits höherer Ordnung des Klassencodes der n Bits addiert werden, so daß n + m Bits gebildet werden sowie n + m + 2 Bits, so daß der Wert "01", der anzeigt, daß der Klassenabgriff die lückenkompensierenden vergangenen Daten enthält, wird zu den n + m Bits als die Bits höherer Ordnung addiert, um als endgültiger Klassencode gesetzt zu werden.
Die Rahmenleistungs-Berechnungsstufe 313 in der Abgriff-Generierungsstufe 301 von 13 berechnet die Leistung in Rahmeneinheiten aus den synthetisierten Sprachdaten. Es gibt jedoch einen Fall, in dem die Rahmenenergie, wie oben beschrieben, in den kodierten Daten (Codedaten) enthalten ist, in welche die Sprache nach dem CELP-Verfahren kodiert wird. In diesem Fall kann die Rahmenenergie als Leistung der synthetisierten Sprache in diesem Rahmen übernommen werden.
15 zeigt ein Beispiel für die Gestaltung der Abgriff-Generierungsstufe 301 von 11 für den Fall, daß die Rahmenenergie als Leistung der synthetisierten Sprache in diesem Rahmen übernommen wird. Diejenigen Komponenten in 15, die Komponenten von 13 entsprechen, sind mit den gleichen Bezugszeichen versehen wie dort. Das heißt, die Abgriff-Generierungsstufe 301 von 15 ist ähnlich ausgebildet wie die Anordnung von 13 mit der Ausnahme, daß keine Rahmenleistungs-Berechnungsstufe 313 vorgesehen ist.
Die Rahmenenergie für jeden Rahmen, die in den an die Empfangsstufe 114 (11) gelieferten kodierten Daten (Codedaten) enthalten ist, wird dem Puffer 314 zugeführt, und der Puffer 314 speichert diese Rahmenenergie. Die Zustands-Ermittlungsstufe 315 ermittelt dann das Fortschreiten der Wellenform der synthetisierten Sprachdaten in der Nähe der Subjekt-Daten, wobei sie, ähnlich wie die oben beschriebene Leistung, die Rahmenenergie in Rahmeneinheiten benutzt, die aus den synthetisierten Sprachdaten ermittelt werden.
In dem Kanalkodierer 21 wird die Rahmenenergie für jeden in den kodierten Daten enthaltenen Rahmen aus den kodierten Daten abgetrennt und der Abgriff-Generierungsstufe 301 zugeführt.
Die Abgriff-Generierungsstufe 302 kann ebenfalls so ausgebildet sein, wie dies in 15 dargestellt ist.
16 zeigt ein Beispiel für die Gestaltung eines Ausführungsbeispiels einer Lernvorrichtung zum Erlernen eines in dem Koeffizientenspeicher 124 der Empfangsstufe 114 gespeicherten Abgriffkoeffizienten, wenn die Empfangsstufe 114 so ausgebildet ist, wie dies in 11 dargestellt ist. Komponenten in 16, die denjenigen von 9 entsprechen, sind mit den gleichen Bezugszeichen versehen wie dort, und ihre Beschreibung wird weggelassen, wenn dies zweckdienlich ist. Das heißt, die Lernvorrichtung von 16 ist ähnlich ausgebildet wie die Anordnung von 9 mit der Ausnahme, daß anstelle der Abgriff-Generierungsstufen 131 und 132 Abgriff-Generierungsstufen 321 bzw. 322 vorgesehen sind.
Die Abgriff-Generierungsstufen 321 und 322 erzeugen in der gleichen Weise einen Prädiktionsabgriff und einen Klassenabgriff wie die Abgriff-Generierungsstufen 301 bzw. 302 von 11.
Deshalb kann in diesem Fall ein Abgriffkoeffizient gewonnen werden, mit dem ein qualitativ hochwertigerer Ton erzeugt werden kann.
Falls in der Lernvorrichtung ein Prädiktionsabgriff und ein Klassenabgriff erzeugt werden sollen, wenn das Fortschreiten der Wellenform der synthetisierten Sprachdaten in der Nähe der Subjekt-Daten unter Verwendung der Rahmenenergie für jeden Rahmen ermittelt wird, wie dies anhand von 15 beschrieben wurde, kann die Rahmenenergie berechnet werden, indem ein Autokorrelationskoeffizient benutzt wird, der bei der LPC-Analyse in der LPC-Analysierstufe 204 gewonnen wird.
17 zeigt ein Beispiel für die Gestaltung der Abgriff-Generierungsstufe 321 von 16 für den Fall, daß die Rahmenenergie aus einem Autokorrelationskoeffizienten bestimmt wird. Komponenten in 17, die denjenigen der Abgriff-Generierungsstufe 301 in 13 entsprechen, sind mit den gleichen Bezugszeichen versehen wie dort und werden nur dann beschrieben, wenn dies zweckdienlich ist. Die Abgriff-Generierungsstufe 321 von 17 ist ähnlich ausgebildet wie die Abgriff-Generierungsstufe 301 in 13 mit der Ausnahme, daß anstelle der Rahmenleistungs-Berechnungsstufe 313 eine Rahmenenergie-Berechnungsstufe 331 vorgesehen ist.
Ein Autokorrelationskoeffizient der Sprache, der in dem Prozeß ermittelt wird, in dem die LPC-Analysierstufe 204 von 16 die LPC-Analyse durchführt, wird der Rahmenenergie-Berechnungsstufe 331 zugeführt. Die Rahmenenergie-Berechnungsstufe 331 berechnet die in den kodierten Daten (Codedaten) enthaltene Rahmenenergie auf der Basis des Autokorrelationskoeffizienten und liefert die Rahmenenergie an den Puffer 314.
Deshalb ermittelt in dem Ausführungsbeispiel von 17 die Zustands-Ermittlungsstufe 315 das Fortschreiten der Wellenform der synthetisierten Sprachdaten in der Nähe der Subjekt-Daten, wobei die Rahmenenergie in der gleichen Weise benutzt wird wie in dem oben beschriebenen Fall die Leistung in Rahmeneinheiten, die aus den synthetisierten Sprachdaten bestimmt wird.
Die Abgriff-Generierungsstufe 322 von 16 zur Erzeugung eines Klassenabgriffs kann so ausgebildet sein, wie dies in 17 dargestellt ist.
18 zeigt ein drittes Beispiel für die Gestaltung der Empfangsstufe 114 von 4. Komponenten in 18, die denjenigen von 5 oder 11 entsprechen, sind mit den gleichen Bezugszeichen versehen wie dort und werden nur dann beschrieben, wenn dies zweckdienlich ist.
Die Empfangsstufe 114 von 5 oder 11 dekodiert Ton hoher Qualität, indem sie einen Klassifizierungs- und Adaptierungsprozeß an einem dem Sprachsynthesefilter 29 zugeführten Restsignal (dekodiertes Restsignal) und einem linearen Prädiktionskoeffizienten (dekodierter linearer Prädiktionskoeffizient) durchführt.
Ein dekodiertes Restsignal, das ein aus einem L-Code, einem G-Code und einem I-Code dekodiertes Restsignal ist, und ein dekodierter linearer Prädiktionskoeffizient, der ein in dem Filterkoeffizienten-Dekodierer 25 aus einem A-Code dekodierter linearer Prädiktionskoeffizient ist, weiden in der Speicherstufe 22 für das adaptive Codebuch, dem Verstärkungsdekodierer 23, der Speicherstufe 24 für das Erregungscodebuch und den Recheneinheiten 26 bis 28 einen Fehler auf, wie dies oben beschrieben wurde. Wenn sie dem Sprachsynthesefilter 29 direkt zugeführt werden, wird die Tonqualität der von dem Sprachsynthesefilter 29 ausgegebenen synthetisierten Sprachdaten beeinträchtigt.
Deshalb werden in der Empfangsstufe 114 von 18 die Prädiktionswerte des wahren Restsignals und des wahren linearen Prädiktionskoeffizienten durch eine Prädiktionsberechnung unter Verwendung des durch Lernen bestimmten Abgriffkoeffizienten ermittelt, und diese Werte werden dem Sprachsynthesefilter 29 zugeführt, um synthetisierte Sprache hoher Qualität zu erzeugen.
In der Empfangsstufe 114 von 18 wird das dekodierte Restsignal z. B. durch einen Klassifizierungs- und Adaptierungsprozeß in das wahre Restsignal (den Prädiktionswert des wahren Restsignals) dekodiert, der dekodierte lineare Prädiktionskoeffizient wird in den wahren linearen Prädiktionskoeffizienten (den Prädiktionswert des wahren linearen Prädiktionskoeffizienten) dekodiert und das Restsignal und der lineare Prädiktionskoeffizi ent werden dem Sprachsynthesefilter 29 zugeführt und ermöglichen die Gewinnung von synthetisierten Sprachdaten hoher Qualität.
Das von der Recheneinheit 28 ausgegebene dekodierte Restsignal wird den Abgriff-Generierungsstufen 341 und 342 zugeführt. Der von dem Kanaldekodierer 21 ausgegebene L-Code wird ebenfalls den Abgriff-Generierungsstufen 341 und 342 zugeführt.
Ähnlich wie die Abgriff-Generierungsstufe 121 von 5 und die Abgriff-Generierungsstufe 301 von 11 extrahiert auch die Abgriff-Generierungsstufe 341 aus dem ihr zugeführten dekodierten Restsignal auf der Basis des L-Codes eine Abtastprobe, die als Prädiktionsabgriff benutzt wird, und liefert diese Abtastprobe an eine Prädiktionsstufe 345.
Die Abgriff-Generierungsstufe 342 extrahiert ähnlich wie die Abgriff-Generierungsstufe 122 von 5 und die Abgriff-Generierungsstufe 302 von 11 auf der Basis des L-Codes aus dem ihr zugeführten dekodierten Restsignal eine Abtastprobe, die als Klassenabgriff benutzt wird, und liefert diese Abtastprobe an eine Klassifizierungsstufe 343.
Die Klassifizierungsstufe 343 führt auf der Basis des aus der Abgriff-Generierungsstufe 342 zugeführten Klassenabgriffs eine Klassifizierung durch und liefert als Klassifizierungsergebnis den Klassencode an einen Koeffizientenspeicher 344.
Der Koeffizientenspeicher 344 speichert für jede Klasse einen Abgriffkoeffizienten w_(e) für das Restsignal, der als Ergebnis eines Lernprozesses gewonnen wird, der in der (weiter unten zu beschreibenden) Lernvorrichtung von 21 durchgeführt wird, und liefert den Abgriffkoeffizienten, der an der Adresse gespeichert ist, die dem von der Klassifizierungsstufe 343 ausgegebenen Klassencode entspricht, an die Prädiktionsstufe 345.
Die Prädiktionsstufe 345 erhält den von der Abgriff-Generierungsstufe 341 ausgegebenen Prädiktionsabgriff und den von dem Koeffizientenspeicher 344 ausgegebenen Abgriffkoeffizienten für das Restsignal und führt die in der Gleichung (6) dargestellte lineare Prädiktionsberechnung durch, wobei sie den Prädiktionsabgriff und den Abgriffkoeffizienten benutzt. Als Ergebnis ermittelt die Prädiktionsstufe 345 das Restsignal (den Prädiktionswert des Restsignals) des Subjekt-Unterrahmens und führt dieses dem Sprachsynthesefilter 29 als Eingangssignal zu.
Ein von dem Filterkoeffizienten-Dekodierer 25 ausgegebener dekodierter linearer Prädiktionskoeffizient α_p' für jeden Unterrahmen wird den Abgriff-Generierungsstufen 351 und 352 zugeführt. Die Abgriff-Generierungsstufen 351 und 352 extrahieren aus den dekodierten linearen Prädiktionskoeffizienten diejenigen, die als Prädiktionsabgriff bzw. als Klas senabgriff benutzt werden. Die Abgriff-Generierungsstufen 351 und 352 setzen z. B. alle linearen Prädiktionskoeffizienten des Subjekt-Unterrahmens als Prädiktionsabgriffe bzw. als Klassenabgriffe. Der Prädiktionsabgriff wird von der Abgriff-Generierungsstufe 351 der Prädiktionsstufe 355 zugeführt, und der Klassenabgriff wird von der Abgriff-Generierungsstufe 352 der Klassifizierungsstufe 353 zugeführt.
Die Klassifizierungsstufe 353 führt eine Klassifizierung auf der Basis des aus der Abgriff-Generierungsstufe 352 zugeführten Klassenabgriffs durch und liefert als Klassifizierungsergebnis den Klassencode an einen Koeffizientenspeicher 354.
Der Koeffizientenspeicher 354 speichert für jede Klasse einen Abgriffkoeffizienten w_(a) für den linearen Prädiktionskoeffizienten, der als Ergebnis eines in der weiter unten beschriebenen Lernvorrichtung von 21 durchgeführten Lernprozesses gewonnen wird. Der Koeffizientenspeicher 354 liefert den Abgriffkoeffizienten, der an der Adresse gespeichert ist, die den von der Klassifizierungsstufe 353 ausgegebenen Klassencode entspricht, an eine Prädiktionsstufe 355.
Die Prädiktionsstufe 355 erhält den von der Abgriff-Generierungsstufe 351 ausgegebenen Prädiktionsabgriff und den von dem Koeffizientenspeicher 354 ausgegebenen Abgriffkoeffizienten für den linearen Prädiktionskoeffizienten und führt die in der Gleichung (6) dargestellte lineare Prädiktionsberechnung durch, wobei sie den Prädiktionsabgriff und den Abgriffkoeffizienten benutzt. Als Ergebnis ermittelt die Prädiktionsstufe 355 einen linearen Prädiktionskoeffizienten (den Prädiktionswert mα_p eines linearen Prädiktionskoeffizienten) des Subjekt-Unterrahmens und liefert ihn an das Sprachsynthesefilter 29.
Als Nächstes wird anhand des Flußdiagramms von 19 der Prozeß in der Empfangsstufe 114 von 18 beschrieben.
Der Kanaldekodierer 21 trennt aus den ihm zugeführten Codedaten einen L-Code, einen G-Code, einen I-Code und einen A-Code und liefert die Codes an die Speicherstufe 22 für das adaptive Codebuch, den Verstärkungsdekodierer 23, die Speicherstufe 24 für das Erregungscodebuch bzw. den Filterkoeffizienten-Dekodierer 25. Der L-Code wird außerdem den Abgriff-Generierungsstufen 341 und 342 zugeführt.
In der Speicherstufe 22 für das adaptive Codebuch, dem Verstärkungsdekodierer 23, der Speicherstufe 24 für das Erregungscodebuch und den Recheneinheiten 26 bis 28 werden die gleichen Prozesse durchgeführt wie in der Speicherstufe 9 für das adaptive Codebuch, dem Verstärkungsdekodierer 10, der Speicherstufe 11 für das Erregungscodebuch und den Recheneinheiten 12 bis 14, und als Ergebnis werden der L-Code, der G-Code und der I-Code in ein Restsignal e dekodiert. Dieses dekodierte Restsignal wird von der Recheneinheit 28 den Abgriff-Generierungsstufen 341 und 342 zugeführt.
Der Filterkoeffizienten-Dekodierer 25 dekodiert, wie anhand von 2 beschrieben wurde, den ihm zugeführten A-Code in einen dekodierten linearen Prädiktionskoeffizienten und liefert diesen an die Abgriff-Generierungsstufen 351 und 352.
In dem Schritt S21 werden dann der Prädiktionsabgriff und der Klassenabgriff erzeugt.
Die Abgriff-Generierungsstufe 341 setzt den Unterrahmen des ihr zugeführten dekodierten Restsignals wird, sequentiell als Subjekt-Unterrahmen und den Abtastwert des dekodierten Restsignals des Subjekt-Unterrahmens sequentiell als Subjekt-Daten, um das dekodierte Restsignal in dem Subjekt-Unterrahmen zu extrahieren. Sie extrahiert das dekodierte Restsignal anderer Unterrahmen als des Subjekt-Unterrahmens auf der Basis des in dem Subjekt-Unterrahmen angeordneten L-Codes, der von dem Kanaldekodierer 21 ausgegeben wird. Das heißt, die Abgriff-Generierungsstufe 341 extrahiert ein dekodiertes Restsignal für 40 Abtastproben, in welchem eine Position einen Startpunkt bildet, die entsprechend der Größe der durch den L-Code in dem Subjekt-Unterrahmen gekennzeichneten Lücke in der Vergangenheit liegt, die (im folgenden als "lückenkompensierende vergangene Daten" bezeichnet, wenn dies zweckdienlich ist), oder sie extrahiert ein dekodiertes Restsignal für 40 Abtastproben in einem Unterrahmen, der gegenüber dem Subjekt-Unterrahmen in der Zukunft liegt (im folgenden als "lückenkompensierende zukünftige Daten" bezeichnet, wenn dies zweckdienlich ist) und in dem sich ein solcher L-Code befindet, daß eine Position, die entsprechend der Größe der durch den L-Code gekennzeichneten Lücke in der Vergangenheit liegt, der Position der Subjekt-Daten entspricht, und erzeugt einen Klassenabgriff. In der gleichen Weise wie die Abgriff-Generierungsstufe 341 erzeugt auch die Abgriff-Generierungsstufe 342 einen Klassenabgriff.
In dem Schritt S31 extrahieren die Abgriff-Generierungsstufen 351 und 352 den dekodierten linearen Prädiktionskoeffizienten des Subjekt-Unterrahmens, der von einem Filterkoeffizienten-Dekodierer 35 als Prädiktionsabgriff bzw. Klassenabgriff ausgegeben wird.
Der von der Abgriff-Generierungsstufe 341 gewonnene Prädiktionsabgriff wird dann der Prädiktionsstufe 345 zugeführt. Der von der Abgriff-Generierungsstufe 342 gewonnene Klassenabgriff wird der Klassifizierungsstufe 343 zugeführt. Der von der Abgriff-Generierungsstufe 351 gewonnene Prädiktionsabgriff wird der Prädiktionsstufe 355 zugeführt, und der von der Abgriff-Generierungsstufe 352 gewonnene Klassenabgriff wird der Klassifizierungsstufe 353 zugeführt.
Der Prozeß geht dann weiter zu dem Schritt S32, in welchem die Klassifizierungsstufe 343 eine Klassifizierung auf der Basis des aus der Abgriff-Generierungsstufe 352 zugeführten Klassenabgriffs vornimmt und den resultierenden Klassencode an den Koeffizientenspeicher 344 liefert. Die Klassifizierungsstufe 353 führt eine Klassifizierung auf der Basis des aus der Abgriff-Generierungsstufe 352 zugeführten Klassenabgriffs durch und liefert den resultierenden Klassencode an den Koeffizientenspeicher 354. Der Prozeß geht dann weiter zu dem Schritt S33.
In dem Schritt S33 liest der Koeffizientenspeicher 344 den Abgriffkoeffizienten für das Restsignal an der Adresse aus, die dem von der Klassifizierungsstufe 343 gelieferten Klassencode entspricht, und liefert den Abgriffkoeffizienten an die Prädiktionsstufe 345. Außerdem liest der Koeffizientenspeicher 354 den Abgriffkoeffizienten für den linearen Prädiktionskoeffizienten von der Adresse aus, die dem von der Klassifizierungsstufe 343 gelieferten Klassencode entspricht, und liefert den Abgriffkoeffizienten an die Prädiktionsstufe 355.
Der Prozeß geht dann weiter zu dem Schritt S34, in welchem die Prädiktionsstufe 345 den von den Koeffizientenspeicher 344 ausgegebenen Abgriffkoeffizienten für das Restsignal gewinnt und die in der Gleichung (6) dargestellte Produkt-Summen-Berechnung durchführt, wobei der Abgriffkoeffizient und der Prädiktionsabgriff aus der Abgriff-Generierungsschaltung 341 benutzt werden, um das wahre Restsignal (den Prädiktionswert des wahren Restsignals) des Subjekt-Unterrahmens zu gewinnen. In dem Schritt S34 gewinnt die Prädiktionsstufe 355 den von dem Koeffizientenspeicher 344 ausgegebenen Abgriffkoeffizienten für den linearen Prädiktionskoeffizienten und führt die in der Gleichung (6) dargestellte Produkt-Summen-Berechnung durch, wobei sie den Abgriffkoeffizienten und den Prädiktionsabgriff aus der Abgriff-Generierungsstufe 351 benutzt, um den wahren linearen Prädiktionskoeffizienten (den Prädiktionswert des wahren linearen Prädiktionskoeffizienten) des Subjekt-Unterahmens zu gewinnen.
Das Restsignal und der lineare Prädiktionskoeffizient, die in der oben beschriebenen Weise gewonnen werden, werden dem Sprachsynthesefilter 29 zugeführt. Als Ergebnis der Berechnung nach der Gleichung (4), die unter Verwendung des Restsignals und des linearen Prädiktionskoeffizienten durchgeführt werden, werden in dem Sprachsynthesefilter 29 synthetisierte Sprachdaten erzeugt, die den Subjekt-Daten des Subjekt-Unterrahmens entsprechen. Das Sprachsynthesefilter 29 führt diese synthetisierten Sprachdaten über die D/A-Wandlerstufe 30 dem Lautsprecher 31 zu, so daß der Lautsprecher 31 synthetisierte Sprache ausgibt, die den synthetisierten Sprachdaten entspricht.
Nachdem in den Prädiktionsstufen 345 und 355 das Restsignal bzw. der lineare Prädiktionskoeffizient gewonnen sind, geht der Prozeß weiter zu dem Schritt S35, in welchem geprüft wird, ob es einen weiteren L-Code, G-Code, I-Code und A-Code des als Subjekt-Unterrahmen zu verarbeitenden Unterrahmens gibt. Wenn in dem Schritt S35 festgestellt wird, daß es noch einen L-Code, G-Code, I-Code und A-Code des als Subjekt-Unterrahmen zu verarbeitenden Unterrahmens gibt, kehrt der Prozeß zu dem Schritt S31 zurück, in welchem der als nächster zu benutzende Unterrahmens neu als Subjekt-Unterrahmen verwendet wird. Anschließend werden die gleichen Prozesse wiederholt. Wenn in dem Schritt S35 festgestellt wird, daß es keinen L-Code, G-Code, I-Code oder A-Code des als Subjekt-Unterrahmen zu verarbeitenden Unterrahmens gibt, wird die Verarbeitung abgeschlossen.
In der Abgriff-Generierungsstufe 341 von 18 (das Gleiche gilt für die Abgriff-Generierungsstufe 342 zur Erzeugung eines Klassenabgriffs) werden der Prädiktionsabgriff eines dekodierten Restsignals des Subjekt-Unterrahmens und eine oder beide der lückenkompensierenden vergangenen Daten und der lückenkompensierenden zukünftigen Daten erzeugt. Die Konstruktion kann fest sein, sie kann jedoch auch auf der Basis des Fortschreitens der Wellenform des Restsignals variabel sein.
20 zeigt ein Beispiel für die Gestaltung der Abgriff-Generierungsstufe 341 für den Fall, in welchem die Struktur des Prädiktionsabgriffs auf der Basis des Fortschreitens der Wellenform eines Restsignals variabel ist. Komponenten in 20, die solchen von 13 entsprechen, sind mit den gleichen Bezugszeichen versehen wie dort, und werden im folgenden nur dann erneut beschrieben, wenn dies zweckdienlich ist. Die Abgriff-Generierungsstufe 341 von 20 ist ähnlich ausgebildet wie die Abgriff-Generierungsstufe 301 von 13 mit der Ausnahme, daß anstatt des Speichers 311 für synthetisierte Sprache und der Rahmenleistungs-Berechnungsstufe 313 ein Restsignalspeicher 361 und eine Rahmenleistungs-Berechnungsstufe 363 vorgesehen sind.
Die Speicherkapazität des Speichers 311 für synthetisierte Sprache ist zumindest so groß, daß er innerhalb der synthetisierten Sprache die synthetisierten Sprachdaten von der am weitesten in der Vergangenheit liegenden Abtastprobe bis zu der am weitesten in der Zukunft liegenden Abtastprobe speichern kann, die als Prädiktionsabgriff für die als Subjekt-Daten gesetzten synthetisierten Sprachdaten gesetzt werden können. Wenn die dieser Speicherkapazität entsprechenden synthetisierten Sprachdaten gespeichert sind, speichert der Speicher 311 für synthetisierte Sprachdaten die synthetisierten Sprachdaten, die als nächste zugeführt werden, in der Weise, daß der älteste gespeicherte Wert überschrieben wird.
Das von der Recheneinheit 28 (18) ausgegebene dekodierte Restsignal wird sequentiell dem Restsignalspeicher 361 zugeführt, und der Restsignalspeicher 361 speichert das dekodierte Restsignal sequentiell. Die Speicherkapazität des Restsignalspeichers 361 ist zumindest so groß, daß er die möglicherweise als Prädiktionsabgriff für die Subjekt-Daten zu benutzenden dekodierten Restsignalen von dem dekodierten Restsignal aus der am weitesten in der Vergangenheit liegenden Abtastprobe bis zu der am weitesten in der Zukunft liegenden Abtastprobe speichern kann. Wenn die dekodierten Restsignale entsprechend der Speicherkapazität gespeichert sind, speichert der Restsignalspeicher 361 den Abtastwert des dekodierten Restsignals, das als Nächstes zuzuführen ist, indem der älteste gespeicherte Wert überschrieben wird.
Die Rahmenleistungs-Berechnungsstufe 363 ermittelt die Leistung des Restsignals in dem Rahmen in vorbestimmten Rahmeneinheiten, wobei sie das in dem Restsignalspeicher 361 gespeicherte Restsignal benutzt, und liefert die Leistung an den Puffer 314. Wie im Fall der Rahmenleistungs-Berechnungsstufe 313 von 13 kann der Rahmen, der die Einheit darstellt, in welcher die Leistung von der Rahmenleistungs-Berechnungsstufe 363 ermittelt wird, mit dem Rahmen oder dem Unterrahmen nach dem CELP-Verfahren entweder übereinstimmen oder nicht übereinstimmen.
In der Abgriff-Generierungsstufe 341 von 20 wird anstelle der Leistung der synthetisierten Sprachdaten die Leistung des dekodierten Restsignals bestimmt. Auf der Basis dieser Leistung wird ermittelt, ob sich das Fortschreiten der Wellenform des Restsignals in dem "ansteigenden Zustand", dem "abfallenden Zustand" oder in dem "stetigen Zustand" befindet, wie dies anhand von 12 beschrieben wurde. Auf der Basis des Ergebnisses dieser Ermittlung werden zusätzlich zu dem dekodierten Restsignal des Subjekt-Unterrahmens eine oder beide der lückenkompensierenden vergangenen Daten und der lückenkompensierenden zukünftigen Daten extrahiert, und es wird ein Prädiktionsabgriff erzeugt.
Die Abgriff-Generierungsstufe 342 von 18 kann ähnlich ausgebildet sein wie die in 20 dargestellte Abgriff-Generierungsstufe 341.
In dem Ausführungsbeispiel von 18 werden der Prädiktionsabgriff und der Klassenabgriff nur unter Berücksichtigung des dekodierten Restsignals auf der Basis des L-Codes erzeugt. Im Hinblick auf den dekodierten linearen Prädiktionskoeffizienten kann jedoch auch ein dekodierter linearer Prädiktionskoeffizient eines anderen als des Subjekt-Unterrahmens auf der Basis des L-Codes extrahiert werden, und es können der Prädiktionsabgriff und der Klassenabgriff erzeugt werden. In diesem Fall kann der von dem Kanaldekodierer 21 ausgegebene L-Code, wie in 18 durch die gestrichelte Linie angedeutet, den Abgriff-Generierungsstufen 351 und 352 zugeführt werden.
Wenn in dem oben beschriebenen Fall der Prädiktionsabgriff und der Klassenabgriff aus den synthetisierten Sprachdaten erzeugt werden sollen, wird die Leistung der synthetisierten Sprachdaten ermittelt und auf der Basis der Leistung das Fortschreiten der Wellenform der synthetisierten Sprachdaten bestimmt. Wenn der Prädiktionsabgriff und der Klassenabgriff aus dem dekodierten Restsignal erzeugt werden sollen, wird die Leistung des dekodierten Restsignals ermittelt und auf der Basis der Leistung wird das Fortschreiten der Wellenform der synthetisierten Sprachdaten bestimmt. Das Fortschreiten der Wellenform der synthetisierten Sprachdaten kann jedoch auch auf der Basis der Leistung des Restsignals ermittelt werden, und ähnlich kann das Fortschreiten der Wellenform des Restsignals auf der Basis der Leistung der synthetisierten Sprachdaten ermittelt werden.
21 zeigt ein Beispiel für den Aufbau eines Ausführungsbeispiels einer Lernvorrichtung zur Durchführung eines Lernprozesses für Abgriffkoeffizienten, die in den Koeffizientenspeichern 344 und 354 von 18 gespeichert werden sollen. Komponenten in 21, die denjenigen von 16 entsprechen, sind mit den gleichen Bezugszeichen versehen wie dort und werden im folgenden nur dann erneut beschrieben, wenn dies zweckdienlich ist.
Ein Lernsprachsignal, das von der A/D-Wandlerstufe 202 in ein digitales Signal umgewandelt und ausgegeben wird, und ein linearer Prädiktionskoeffizient, der von der LPC-Analysierstufe 204 ausgegeben wird, werden einem Prädiktionsfilter 370 zugeführt. Außerdem werden ein von der Recheneinheit 214 ausgegebenes dekodiertes Restsignal (das gleiche Restsignal, das dem Sprachsynthesefilter 206 zugeführt wird) und ein von der Code-Ermittlungsstufe 215 ausgegebener L-Code an Abgriff-Generierungsstufen 371 und 372 geliefert. Ein von der Vektorquantisierstufe 205 ausgegebener dekodierter linearer Prädiktionskoeffizient (ein linearer Prädiktionskoeffizient, der einen Codevektor (Schwerpunktvektor) eines für die Vektorquantisierung benutzten Codebuchs bildet) wird Abgriff-Generierungsstufen 381 und 382 zugeführt. Außerdem wird ein von der LPC-Analysierstufe 204 ausgegebener linearer Prädiktionskoeffizient einer Normalgleichungs-Addierschaltung 384 zugeführt.
Das Prädiktionsfilter 370 setzt sequentiell den Unterrahmen des von der A/D-Wandlerstufe 202 gelieferten Lernsprachsignals als Subjekt-Unterrahmen und führt z. B. auf der Basis der Gleichung (1) eine Berechnung durch, wobei sie das Sprachsignal dieses Subjekt-Unterrahmens und den von der LPC-Analysierstufe 204 gelieferten linearen Prädiktionskoeffizienten benutzt, und ermittelt dadurch das Restsignal des Subjekt-Unterrahmens. Dieses Restsignal wird einer Normalgleichungs-Addierschaltung 374 als Lehrerdaten zugeführt.
Die Abgriff-Generierungsstufe 371 erzeugt den gleichen Prädiktionsabgriff wie im Fall der Abgriff-Generierungsstufe 341 von 18 auf der Basis des von der Code-Ermittlungsstufe 215 ausgegebenen L-Codes, wobei sie das von der Recheneinheit 214 gelieferte dekodierte Restsignal benutzt, und liefert den Prädiktionsabgriff an die Normalgleichungs-Addierschaltung 374. Die Abgriff-Generierungsstufe 372 erzeugt auch den gleichen Klassenabgriff wie die Abgriff-Generierungsstufe 342 von 18 auf der Basis des von der Code-Ermittlungsstufe 215 gelieferten L-Codes unter Verwendung des von der Recheneinheit 214 gelieferten dekodierten Restsignals, und liefert den Klassenabgriff an die Klassifizierungsstufe 373.
Die Klassifizierungsstufe 373 führt auf der Basis des Klassenabgriffs aus der Abgriff-Generierungsstufe 371 die Klassifizierung in der gleichen Weise durch wie die Klassifizierungsstufe 343 von 18 und liefert den resultierenden Klassencode an die Normalgleichungs-Addierschaltung 374.
Die Normalgleichungs-Addierschaltung 374 empfängt als Lehrerdaten das Restsignal des Subjekt-Unterrahmens aus dem Prädiktionsfilter 370 und als Schülerdaten den Prädiktionsabgriff aus der Abgriff-Generierungsstufe 371. Unter Verwendung der Lehrerdaten und der Schülerdaten als Objekte führt die Normalgleichungs-Addierschaltung 374 für jeden Klassencode aus der Klassifizierungsstufe 373 die gleiche Addition durch wie in dem Fall der Normalgleichungs-Addierschaltung 134 von 9 oder 16 und stellt dadurch für jede Klasse die in der Gleichung (13) dargestellte Normalgleichung für das Restsignal auf.
Durch Lösen der Normalgleichung, die in der Normalgleichungs-Addierschaltung 374 für jede Klasse erzeugt wird, ermittelt die Abgriffkoeffizienten-Ermittlungsschaltung 375 den Abgriffkoeffizienten für das Restsignal jeder Klasse und liefert diesen Abgriffkoeffizienten an die der Klasse entsprechende Adresse des Koeffizientenspeichers 376.
Der Koeffizientenspeicher 376 speichert den von der Abgriffkoeffizienten-Ermittlungsschaltung 375 gelieferten Abgriffkoeffizienten für das Restsignal jeder Klasse.
Die Abgriff-Generierungsstufe 381 erzeugt den gleichen Prädiktionsabgriff wie im Fall der Abgriff-Generierungsstufe 351 von 18, wobei sie den linearen Prädiktionskoeffizienten verwendet, der ein Element des Codevektors ist, das heißt den von der Vektorquantisierstufe 205 gelieferten dekodierten linearen Prädiktionskoeffizienten und liefert den Prädiktionsabgriff an die Normalgleichungs-Addierschaltung 384. Die Abgriff-Generierungsstufe 382 erzeugt auch den gleichen Klassenabgriff wie die Abgriff-Generierungsstufe 352 von 18, wobei sie den von der Vektorquantisierstufe 205 gelieferten dekodierten linea ren Prädiktionskoeffizienten verwendet, und liefert den Klassenabgriff an die Klassifizierungsstufe 383.
Wenn in dem Ausführungsbeispiel von 18 bezüglich des dekodierten linearen Prädiktionskoeffizienten der dekodierte lineare Prädiktionskoeffizient noch anderen Unterrahmen als dem Subjekt-Unterrahmen auf der Basis des L-Codes extrahiert werden, um den Prädiktionsabgriff und den Klassenabgriff zu generieren, ist es auch in den Abgriff-Generierungsstufen 381 und 382 von 21 notwendig, den Prädiktionsabgriff und den Klassenabgriff zu erzeugen. In diesem Fall wird der von der Code-Ermittlungsstufe 215 ausgegebene L-Code, wie in 21 durch gestrichelte Linien dargestellt, den Abgriff-Generierungsstufen 381 und 382 zugeführt.
Die Klassifizierungsstufe 383 führt auf der Basis des Klassenabgriffs aus der Abgriff-Generierungsstufe 382 die Klassifizierung in der gleichen Weise durch, wie die Klassifizierungsstufe 353 in 18, und liefert den resultierenden Klassencode an die Normalgleichungs-Addierschaltung 384.
Die Normalgleichungs-Addierschaltung 384 nimmt als Lehrerdaten den linearen Prädiktionskoeffizienten des Subjekt-Unterrahmens aus der LPC-Analysierstufe 204 und als Schülerdaten den Prädiktionsabgriff aus der Abgriff-Generierungsstufe 381 auf und führt für jeden Klassencode aus der Klassifizierungsstufe 383 die gleiche Addition durch wie die Normalgleichungs-Addierschaltung 134 von 9 oder 16, wobei sie die Lehrer- und Schülerdaten als Objekte benutzt und dadurch die in der Gleichung (13) dargestellte Normalgleichung an einem linearen Prädiktionskoeffizienten aufstellt.
Die Abgriffkoeffizienten-Ermittlungsschaltung 385 ermittelt jeden Abgriffkoeffizienten für den linearen Prädiktionskoeffizienten jeder Klasse, indem sie die Normalgleichung löst, die in der Normalgleichungs-Addierschaltung 383 für jede Klasse formuliert wird, und liefert den Abgriffkoeffizienten an die Adresse des Koeffizientenspeichers 386, der der jeweiligen Klasse entspricht.
Der Koeffizientenspeicher 386 speichert den Abgriffkoeffizienten für den linearen Prädiktionskoeffizienten für jede Klasse, der von der Abgriffkoeffizienten-Ermittlungsschaltung 385 zugeführt wird.
In Abhängigkeit von dem als Lernsprachsignal vorbereiteten Sprachsignal kann in den Normalgleichungs-Addierschaltungen 374 und 384 eine Klasse auftreten, in der nicht die für die Bestimmung des Abgriffkoeffizienten erforderliche Anzahl von Normalgleichungen gewonnen wird. Für eine solche Klasse geben die Abgriffkoeffizienten-Ermittlungsschaltungen 375 und 385 z. B. einen Vorgabe-Abgriffkoeffizienten aus.
Als Nächstes wird anhand des Flußdiagramms in 22 ein in der Lernvorrichtung von 21 durchgeführter Lernprozeß zur Ermittlung eines Abgriffkoeffizienten sowohl für ein Restsignal als auch für einen linearen Prädiktionskoeffizienten beschrieben.
Der Lernvorrichtung wird ein Lernsprachsignal zugeführt. In dem Schritt S41 werden aus dem Lernsprachsignal Lehrerdaten und Schülerdaten erzeugt.
Das Lernsprachsignal wird in das Mikrofon 201 eingegeben. Die Komponenten von dem Mikrofon 201 bis zu der Code-Ermittlungsstufe 215 (ihren die gleichen Verarbeitungen durch wie die Reihe der Komponenten von dem Mikrofon 1 bis zu der Code-Ermittlungsstufe 15 in 1.
Der durch die LPC-Analysierstufe 204 gewonnene lineare Prädiktionskoeffizient wird der Normalgleichungs-Addierschaltung 384 als Lehrerdaten zugeführt. Außerdem wird der lineare Prädiktionskoeffizient einem Prädiktionsfilter 370 zugeführt. Darüber hinaus wird das von einer Recheneinheit 214 gewonnene dekodierte Restsignal als Schülerdaten den Abgriff-Generierungsstufen 371 und 372 zugeführt.
Das von der A/D-Wandlerstufe 201 ausgegebene digitale Sprachsignal wird dem Prädiktionsfilter 370 zugeführt, und der von der Vektorquantisierstufe 205 ausgegebene dekodierte lineare Prädiktionskoeffizient wird den Abgriff-Generierungsstufen 381 und 382 als Schülerdaten zugeführt. Außerdem liefert die Code-Ermittlungsstufe 215 den L-Code aus der Stufe 208 zur Ermittlung des kleinsten quadratischen Fehlers an die Abgriff-Generierungsstufe 371 und 372‚ wenn das Ermittlungssignal aus der Stufe 208 zur Ermittlung des kleinsten quadratischen Fehlers empfangen wird.
Das Prädiktionsfilter 370 ermittelt dann das Restsignal des Subjekt-Unterrahmens, indem es eine Berechnung nach Gleichung (1) durchführt, wobei der Unterrahmen des von der A/D-Wandlerstufe 202 gelieferten Lernsprachsignals sequentiell als Subjekt-Unterrahmen gesetzt wird und das Sprachsignal dieses Subjekt-Unterrahmens und der von der LPC-Analysierstufe 204 gelieferte lineare Prädiktionskoeffizient (der aus dem Sprachsignal des Subjekt-Unterrahmens ermittelte lineare Prädiktionskoeffizient) benutzt werden. Das von dem Prädiktionsfilter 307 gewonnene Restsignal wird der Normalgleichungs-Addierschaltung 374 als Lehrerdaten zugeführt.
Nachdem die Lehrerdaten und die Schülerdaten in der oben beschriebenen Weise gewonnen sind, geht der Prozeß weiter zu dem Schritt S42, in welchem die Abgriff-Generierungsstufen 371 und 372 einen Prädiktionsabgriff und einen Klassenabgriff für das Restsignal auf der Basis des L-Codes aus der Code-Ermittlungsstufe 215 erzeugen, wobei sie das aus der Recheneinheit 314 gelieferte dekodierte Restsignal benutzen. Das heißt, die Abgriff-Generierungsstufen 371 und 372 erzeugen aus dem dekodierten Restsignal des Subjekt-Unterrahmens aus der Recheneinheit 214, den lückenkompensierenden vergangenen Daten und den lückenkompensierenden zukünftigen Daten einen Prädiktionsabgriff und einen Klassenabgriff für das Restsignal.
In dem Schritt S42 erzeugen die Abgriff-Generierungsstufen 381 und 382 aus dem linearen Prädiktionskoeffizienten des von der Vektorquantisierungsstufe 205 gelieferten Subjekt-Unterrahmens einen Prädiktionsabgriff und einen Klassenabgriff für den linearen Prädiktionskoeffizienten.
Die Abgriff-Generierungsstufe 371 liefert den Prädiktionsabgriff für das Restsignal dann an die Normalgleichungs-Addierschaltung 374, und die Abgriff-Generierungsstufe 372 liefert den Klassenabgriff des Restsignals an die Klassifizierungsstufe 373. Außerdem liefert die Abgriff-Generierungsstufe 381 den Prädiktionsabgriff für den linearen Prädiktionskoeffizienten an die Normalgleichungs-Addierschaltung 384, und die Abgriff-Generierungsstufe 382 liefert den Klassenabgriff für den linearen Prädiktionskoeffizienten an die Normalgleichungs-Addierschaltung 383.
Anschließend führen die Klassifizierungsstufen 373 und 383 in dem Schritt S43 die Klassifizierung auf der Basis des ihnen zugeführten Klassenabgriffs durch und liefern den resultierenden Klassencode an die Normalgleichungs-Addierschaltungen 384 bzw. 374.
Der Prozeß geht dann weiter zu dem Schritt S44, in welchem die Normalgleichungs-Addierschaltung 374 die oben beschriebene Addition der Matrix A und des Vektors v nach der Gleichung (13) für jede Klasse aus der Klassifizierungsstufe 373 ausführen, wobei sie als Objekte das Restsignal des Subjekt-Unterrahmens aus dem Prädiktionsfilter 370 als Lehrerdaten und den Prädiktionsabgriff aus der Abgriff-Generierungsstufe 371 als Schülerdaten benutzt. In dem Schritt S44 führt die Normalgleichungs-Addierschaltung 384 die oben beschriebene Addition der Matrix A und des Vektors v gemäß der Gleichung (13) für jeden Klassencode aus der Klassifizierungsstufe 383 durch, wobei sie als Objekte den linearen Prädiktionskoeffizienten des Subjekt-Unterrahmens aus der LPC-Analysierstufe 204 als Lehrerdaten und den Prädiktionsabgriff aus der Abgriff-Generierungsstufe 381 als Schülerdaten benutzt. Der Prozeß geht dann weiter zu dem Schritt S45.
In dem Schritt S45 wird geprüft, ob es ein weiteres Lernsprachsignal eines Rahmens gibt, der als Subjekt-Unterrahmen verarbeitet werden soll. Wenn in dem Schritt S45 festgestellt wird, daß es noch ein Lernsprachsignal eines als Subjekt-Unterrahmen zu verarbeitenden Rahmens gibt, kehrt der Prozeß zu dem Schritt S41 zurück, in welchem der nächste Unterrahmen als Subjekt-Unterrahmen gesetzt wird. Anschließend werden die gleichen Prozesse wiederholt.
Wenn in dem Schritt S45 festgestellt wird, daß es kein Lernsprachsignal eines als Subjekt-Unterrahmen zu verarbeitenden Rahmens mehr gibt, geht der Prozeß weiter zu dem Schritt S46, in welchem die Abgriffkoeffizienten-Ermittlungsschaltung 375 den Abgriffkoeffizienten für das Restsignal für jede Klasse durch das Lösen der für jede Klasse aufgestellten Normalgleichung ermittelt und diesen Abgriffkoeffizienten an die der jeweiligen Klasse entsprechenden Adresse des Koeffizientenspeichers 376 liefert, so daß der Abgriffkoeffizient gespeichert wird. Außerdem ermittelt die Abgriffkoeffizienten-Ermittlungsschaltung 385 auch den Abgriffkoeffizienten für den linearen Prädiktionskoeffizienten für jede Klasse durch Lösen der für jede Klasse aufgestellten Normalgleichung und liefert den Abgriffkoeffizienten an die Adresse des Koeffizientenspeichers 386, die der jeweiligen Klasse entspricht, so daß der Abgriffkoeffizient gespeichert wird. Die Verarbeitung wird dann beendet.
Der in dem Koeffizientenspeicher 376 gespeicherte Abgriffkoeffizient für das Restsignal jeder Klasse wird in der oben beschriebenen Weise in dem Koeffizientenspeicher 344 von 18 gespeichert, und der Abgriffkoeffizient für den linearen Prädiktionskoeffizienten für jede Klasse, der in dem Koeffizientenspeicher 386 gespeichert ist, wird in dem Koeffizientenspeicher 354 von 18 gespeichert.
Deshalb werden die in den Koeffizientenspeichern 344 und 354 von 18 gespeicherten Abgriffkoeffizienten so bestimmt, daß der Prädiktionsfehler (der quadratische Fehler) der Prädiktionswerte des wahren Restsignals und des wahren linearen Prädiktionskoeffizienten, die durch eine lineare Prädiktionsberechnung gewonnen werden, statistisch zu einem Minimum werden. Infolgedessen stimmen die Restsignale und die linearen Prädiktionskoeffizienten, die von den Prädiktionsstufen 345 und 355 in 18 ausgegeben werden, mit dem wahren Restsignal bzw. dem wahren linearen Prädiktionskoeffizienten annähernd überein. Dies hat zur Folge, daß die auf der Basis des Restsignals und des linearen Prädiktionskoeffizienten erzeugte synthetisierte Sprache zu einer Sprache mit hoher Tonqualität und geringer Verzerrung wird.
Die oben beschriebenen Reihe von Prozessen kann mit Hardware oder auch mit Software durchgeführt werden. Falls die Reihe von Prozessen mit Software durchgeführt werden soll, werden Programme, die die Software bilden, in einem Universalcomputer usw. installiert.
23 zeigt ein Beispiel für die Gestaltung eines Ausführungsbeispiels eines Computers, in dem Programme zur Durchführung der oben beschriebenen Serie von Prozessen installiert sind.
Die Programme können auf einer Festplatte 405 und einem ROM 403 als einem in den Computer eingebauten Aufzeichnungsmedium voraufgezeichnet sein.
Alternativ kann das Programm temporär oder permanent in einem entfernbaren Aufzeichnungsmedium 411, z. B. einer Diskette, einer CD-ROM (Compaktdisk-Nurlesespeicher), einer magneto-optischen (MO)-Platte, einer DVD (Digital Versatile Disc), einer magnetischen Platte oder einem Halbleiterspeicher, gespeichert (aufgezeichnet) sein. Ein solches entfernbares Aufzeichnungsmedium 411 kann als sogenannte Package-Software zur Verfügung gestellt werden.
Zusätzlich zu der Möglichkeit, Programme von dem entfernbaren Aufzeichnungsmedium 411 in einem Computer zu installieren, wie dies oben beschrieben wurde, können Programme auch drahtlos von einer Download-Stelle über einen künstlichen Satelliten für digitalen Satellitenrundfunk heruntergeladen werden, oder sie können mittels Leitung über ein Netz, z. B. ein LAN (lokales Netz) oder das Internet, zu einem Computer übertragen werden. Der Computer empfängt mittels einer Kommunikationsstufe 408 die in dieser Weise übertragenen Programme und kann sie auf der Festplatte 405 installieren.
Der Computer besitzt eine CPU (zentrale Verarbeitungseinheit) 402. Die CPU 402 ist über einen Bus 401 mit einem Eingabe-/Ausgabe-Interface 410 verbunden. Wenn der Benutzer eine aus einer Tastatur, einer Maus, einem Mikrofon usw. bestehende Eingabestufe 407 betätigt und dadurch über das Eingabe-/Ausgabe-Interface 410 ein Befehl eingibt, führt die CPU 402 entsprechenddes Befehls ein in dem ROM (Nurlesespeicher) 403 gespeichertes Programm aus. Alternativ lädt die CPU 402 ein auf der Festplatte 405 gespeichertes Programm, ein Programm, das über einen Satelliten oder ein Netzwerk übertragen wird, von der Kommunikationsstufe 408 empfangen und auf der Festplatte 405 installiert wird, oder ein Programm, das von dem in ein Laufwerk 409 geladenes entfernbares Aufzeichnungsmedium 111 ausgelesen und auf der Festplatte 405 installiert wird, in ein RAM (Speicher mit wahlfreiem Zugriff) 404 und führt das Programm aus. Daraufhin führt die CPU 402 die Verarbeitung entsprechend den oben beschriebenen Flußdiagrammen aus oder eine Verarbeitung, die entsprechend den Konstruktionen in den oben beschriebenen Blockdiagrammen abläuft. Die CPU 402 gibt das Verarbeitungsergebnis über das Eingabe-/Ausgabe- Interface 410 z. B. über eine Ausgabestufe 406 bedarfsweise aus, die aus einer LCD (Flüssigkristallanzeige), einem Lautsprecher usw. besteht, oder sie sendet das Verarbeitungsergebnis über die Kommunikationsstufe 408 aus oder zeichnet das Verarbeitungsergebnis auf der Festplatte 405 auf.
In der vorliegenden Beschreibung werden die Arbeitsschritte, die ein Programm beschreiben, mit dem ein Computer zur Durchführung verschiedener Verarbeitungsarten veranlaßt wird, nicht notwendigerweise zeitlich in der Reihenfolge abgearbeitet, in der sie in den Flußdiagrammen dargestellt sind, vielmehr ist auch eine Verarbeitung umfaßt, die parallel oder individuell ausgeführt wird (z. B. eine parallele oder eine objektorientierte Verarbeitung).
Weiterhin kann ein Programm so beschaffen sein, daß es von einem einzelnen Computer verarbeitet wird, oder so, daß es verteilt von mehreren Computer verarbeitet wird. Darüber hinaus kann ein Programm so beschaffen sein, daß es zu einem entfernt angeordneten Computer übertragen und von diesem ausgeführt wird.
Obwohl im vorliegenden Ausführungsbeispiel nicht speziell erwähnt ist, welche Arten von Lernsprachsignalen als Lernsprachsignale benutzt werden, kann außer von einem Menschen erzeugter Sprache z. B. auch ein Musikstück (Musik) usw., als Lernsprachsignal benutzt werden. Wenn bei einer Lernvorrichtung, wie sie oben beschrieben wurde, reproduzierte menschliche Sprache als Lernsprachsignal benutzt wird, gewinnt man einen Abgriffkoeffizienten, der die Tonqualität von menschlicher Sprache verbessert. Wenn ein Musikstück benutzt wird, gewinnt man einen Abgriffkoeffizienten, der die Tonqualität des Musikstücks verbessert.
In dem Koeffizientenspeicher 124 usw. werden Abgriffkoeffizienten im voraus gespeichert, stattdessen können die in dem Koeffizientenspeicher 124 usw. zu speichernden Abgriffkoeffizienten auch von der Basisstation 102 (oder der Vermittlungsstelle 103) von 3, einem (nicht dargestellten) WWW-(World Wide Web)-Server in das Mobiltelefon 101 heruntergeladen werden. Das heißt, Abgriffkoeffizienten, die für bestimmte Arten von Sprachsignalen, z. B. für die Erzeugung menschlicher Sprache oder für ein Musikstück, geeignet sind, können in der oben beschriebenen Weise durch Lernen gewonnen werden. Darüber hinaus können in Abhängigkeit von den für das Lernen benutzte Lehrerdaten und Schülerdaten Abgriffkoeffizienten gewonnen werden, die einen Unterschied in der Tonqualität von synthetischer Sprache bewirken. Deshalb können solche unterschiedlichen Arten von Abgriffkoeffizienten in der Basisstation 102 usw. gespeichert sein, so daß ein Benutzer die von ihm gewünschten Abgriffkoeffizienten herunterladen kann. Ein solcher Service zum Herunterladen von Abgriffkoeffizienten kann frei oder gegen Gebühr erfol gen. Wenn der Service zum Herunterladen von Abgriffkoeffizienten gegen Gebühr erfolgt, können die Kosten für das Herunterladen der Abgriffkoeffizienten z. B. zusammen mit der Telefongebühr des Mobiltelefons 101 belastet werden.
Der Koeffizientenspeicher 124 usw. kann aus einer entfernbaren Speicherkarte bestehen, die in das Mobiltelefon 101 usw. geladen und aus ihm entfernt werden kann. Wenn in diesem Fall unterschiedliche Karten vorgesehen sind, in denen verschiedene Arten von Abgriffkoeffizienten wie die oben beschriebenen gespeichert sind, kann der Benutzer eine Speicherkarte, auf der die gewünschten Abgriffkoeffizienten gespeichert sind, in das Mobiltelefon 101 laden und situationsabhängig benutzen.
Die vorliegende Erfindung kann darüber hinaus in weitem Umfang angewendet werden, wenn z. B. synthetisierte Sprache aus Codes erzeugt wird, die als Ergebnis einer Kodierung nach einem CELP-Verfahren gewonnen werden, wie z. B. VSELP (Vector Sum Excited Linear Prediction), PSI-CELP (Pitch Synchronous Innovation CELP) oder CS-ACELP (Conjugate Structure Algebraic CELP).
Die vorliegende Erfindung ist nicht auf den Fall beschränkt, in welchem synthetisierte Sprache aus Codes erzeugt wird, die als Ergebnis einer Kodierung nach einem CELP-Verfahren gewonnen werden, sie kann vielmehr auch in weitem Umfang angewendet werden, wenn ein Restsignal und ein linearer Prädiktionskoeffizient aus bestimmten Codes gewonnen werden, um synthetisierte Sprache zu erzeugen.
Die Erfindung ist nicht auf Ton beschränkt, sondern kann auch z. B. auf Bilder usw. angewendet werden. Das heißt, die Erfindung kann in weitem Umfang auf Daten angewendet werden, die unter Verwendung einer Periodeninformation, z. B. eines L-Codes, verarbeitet werden, die eine Periode kennzeichnet.
Obwohl in dem vorliegenden Ausführungsbeispiel Prädiktionswerte von Ton mit hoher Qualität, ein Restsignal und ein linearer Prädiktionskoeffizient durch eine lineare Prädiktionsberechnung erster Ordnung unter Verwendung von Abgriffkoeffizienten ermittelt werden, können diese Prädiktionswerte auch durch eine Prädiktionsberechnung höherer Ordnung, z. B. zweiter oder höherer Ordnung bestimmt werden.
Obwohl in dem Ausführungsbeispiel die Abgriffkoeffizienten selbst in dem Koeffizientenspeicher 124 usw. gespeichert werden, können als Information in dem Koeffizientenspeicher 124 usw. zusätzlich z. B. Koeffizientenkeime gespeichert werden, die als Abgriffkoeffizientenquellen (Keime) dienen, mittels derer stufenlose Einstellungen (Variationen in analoger Manier) möglich sind, so daß aus den Koeffizientenkeimen Abgriffkoeffizienten erzeugt werden können, aus denen Ton mit der von dem Benutzer gewünschten Qualität gewonnen wird.
INDUSTRIELLE ANWENDBARKEIT
Gemäß dem ersten Datenverarbeitungsgerät, dem ersten Datenverarbeitungsverfahren, dem ersten Programm und dem ersten Aufzeichnungsmedium nach der Erfindung wird im Hinblick auf interessierende Subjekt-Daten innerhalb vorbestimmter Daten durch Extrahieren vorbestimmter Daten entsprechendeiner Periodeninformation ein Abgriff erzeugt, der für einen vorbestimmten Prozeß benutzt wird, und an den Subjekt-Daten wird ein vorbestimmter Prozeß durchgeführt, wobei der Abgriff benutzt wird. Deshalb wird z. B. ein hochwertiges Dekodieren von Daten möglich.
Gemäß dem zweiten Datenverarbeitungsgerät, dem zweiten Datenverarbeitungsverfahren, dem zweiten Programm und dem zweiten Aufzeichnungsmedium nach der Erfindung werden aus Lehrerdaten, die als Lehrer zum Lernen benutzt werden, vorbestimmte Daten und eine Periodeninformation als Schülerdaten erzeugt, die einen Schüler für das Erlernen bilden. Im Hinblick auf die interessierenden Subjekt-Daten innerhalb vorbestimmter Daten als Schülerdaten wird durch Extrahieren der vorbestimmten Daten entsprechend der Periodeninformation ein Prädiktionsabgriff erzeugt, der zum Prädizieren von Lehrerdaten benutzt wird, es wird ein Lernvorgang durchgeführt, so daß der Prädiktionsfehler des Prädiktionswerts der Lehrerdaten, die gewonnen werden, indem eine vorbestimmte Prädiktionsberechnung unter Verwendung des Prädiktionsabgriffs und des Abgriffkoeffizienten durchgeführt wird, statistisch zu einem Minimum wird, und es wird ein Abgriffkoeffizient ermittelt. Deshalb wird es z. B. möglich, einen Abgriffkoeffizienten zur Gewinnung von Daten hoher Qualität zu erzeugen.

Claims

Datenverarbeitungsgerät zum Verarbeiten von synthetisierten Sprachdaten als Subjektdaten innerhalb vorbestimmter Daten, die eine eine Periode kennzeichnende Periodeninformation enthalten, wobei das Datenverarbeitungsgerät aufweist: eine Abgriff-Generierungseinrichtung (121) zum Generieren eines für eine vorbestimmte Prädiktionsberechnung benutzten Abgriffs durch Extrahieren des Abgriffs aus den Subjektdaten nach Maßgabe der genannten Periodeninformation, und eine Verarbeitungseinrichtung (125) zur Durchführung der vorbestimmten Prädiktionsberechnung an dem Abgriff unter Verwendung eines Abgriffkoeffizienten.
Datenverarbeitungsgerät nach Anspruch 1, ferner mit einer Abgriffkoeffizienten-Gewinnungseinrichtung zum Gewinnen des genannten Abgriffkoeffizienten, der als Ergebnis der Durchführung eines Lernvorgangs bestimmt wird, wobei die Abgriff-Generierungseinrichtung einen Prädiktionsabgriff generiert, um mit dem Abgriffkoeffizienten eine vorbestimmte Prädiktionsberechnung durchzuführen, und wobei die Verarbeitungseinrichtung die vorbestimmte Prädiktionsberechnung unter Verwendung des Prädiktionsabgriffs und des Abgriffkoeffizienten durchführt, um einen Prädiktionswert zu bestimmen, der Lehrerdaten entspricht, die bei dem genannten Lernvorgang als Lehrer benutzt werden.
Datenverarbeitungsgerät nach Anspruch 1, bei dem die Verarbeitungseinrichtung eine lineare Prädiktionsberechnung erster Ordnung unter Verwendung des Prädiktionsabgriffs und des Abgriffkoeffizienten durchführt, um den Prädiktionswert zu bestimmen.
Datenverarbeitungsgerät nach Anspruch 1, bei dem die Abgriff-Generierungseinrichtung einen Klassenabgriff generiert, der für die Durchführung einer Klassifikation benutzt wird, um die Sprachdaten zu klassifizieren, und die Verarbeitungseinrichtung auf der Basis des Klassenabgriffs eine Klassifikation der Sprachdaten durchführt.
Datenverarbeitungsgerät nach Anspruch 1, bei dem die Abgriff-Generierungseinrichtung einen Prädiktionsabgriff generiert, um die vorbestimmte Prädiktionsberechnung mit den Abgriffkoeffizienten durchzuführen, der als Ergebnis der Durchführung eines Lernvorgangs bestimmt wird, der gerade ausgeführt wird, und einen Klassenabgriff generiert, der zur Durchführung einer Klassifikation benutzt wird, um die Subjektdaten zu klassifizieren, und die Verarbeitungseinrichtung eine Klassifikation der Subjektdaten auf der Basis des Klassenabgriffs durchführt und eine vorbestimmte Prädiktionsberechnung ausführt, indem sie den Abgriffkoeffizienten, der der als Ergebnis der Klassifikation gewonnenen Klasse entspricht, und den genannten Prädiktionsabgriff benutzt, um einen Prädiktionswert zu bestimmen, der Lehrerdaten entspricht, die bei dem genannten Lernvorgang als Lehrer benutzt werden.
Datenverarbeitungsgerät nach Anspruch 1, bei dem die vorbestimmten Daten und die Periodeninformation aus kodierten Daten gewonnen werden, so daß Sprache kodiert wird.
Datenverarbeitungsgerät nach Anspruch 6, bei dem die kodierten Daten so beschaffen sind, daß die Sprache durch ein CELP-(Code Excited Linear Coding)-Verfahren kodiert wird.
Datenverarbeitungsgerät nach Anspruch 7, bei dem die Periodeninformation eine Langzeit-Prädiktionsverschiebung ist, die durch ein CELP-Verfahren definiert ist.
Datenverarbeitungsgerät nach Anspruch 6, bei dem die vorbestimmten Daten dekodierte Sprachdaten sind, so daß die kodierten Daten dekodiert werden.
Datenverarbeitungsgerät nach Anspruch 6, bei dem die vorbestimmten Daten ein Restsignal darstellen, das zum Dekodieren der kodierten Daten in Sprachdaten benutzt wird.
Datenverarbeitungsgerät nach Anspruch 1, bei dem die vorbestimmten Daten zeitserielle Daten sind und die Abgriff-Generierungseinrichtung den Abgriff generiert, indem sie aus den Subjektdaten die vorbestimmten Daten an einer Position extrahiert, die um eine der Periodeninformation entsprechende Zeitspanne entfernt ist.
Datenverarbeitungsgerät nach Anspruch 11, bei dem die Abgriff-Generierungseinrichtung den Abgriff generiert, indem die aus den Subjektdaten eine oder beide der vorbestimmten Daten an einer Position extrahiert, die in Richtung Vergangenheit oder in Richtung Zukunft um eine der Periodeninformation entsprechende Zeitspanne entfernt ist.
Datenverarbeitungsgerät nach Anspruch 12, ferner mit einer Bestimmungseinrichtung zum Bestimmen des Fortschreitens der Wellenform der genannten vorbestimmten Daten, wobei die Abgriff-Generierungseinrichtung auf der Basis des von der Bestimmungseinrichtung bestimmten Ergebnisses eine oder beide der vorbestimmten Daten an einer Position extrahiert, die in Richtung Vergangenheit oder in Richtung Zukunft um eine der Periodeninformation entsprechende Zeitspanne entfernt ist.
Datenverarbeitungsgerät nach Anspruch 13, bei dem die Bestimmungseinrichtung das Fortschreiten der Wellenform auf der Basis der Leistung der vorbestimmten Daten bestimmt.
Datenverarbeitungsverfahren zum Verarbeiten von vorbestimmten Daten und einer eine Periode kennzeichnenden Periodeninformation, wobei das Datenverarbeitungsverfahren umfaßt: einen Abgriff-Generierungsschritt zum Generieren eines für eine vorbestimmte Prädiktionsberechnung benutzten Abgriffs durch Extrahieren des Abgriffs aus synthetisierten Sprachdaten als Subjektdaten nach Maßgabe der Periodeninformation, und einen Verarbeitungsschritt zur Durchführung der vorbestimmten Prädiktionsberechnung an dem Abgriff unter Verwendung eines Abgriffkoeffizienten.
Programm, um einen Computer zu veranlassen, synthetisierte Sprachdaten als Subjektdaten innerhalb vorbestimmter Daten zu verarbeiten, die eine eine Periode kennzeichnende Periodeninformation enthalten, wenn das Programm auf dem Computer abläuft, wobei das Programm umfaßt: einen Abgriff-Generierungsschritt zum Generieren eines für eine vorbestimmte Prädiktionsberechnung benutzten Abgriffs durch Extrahieren des Abgriffs aus den Subjektdaten nach Maßgabe der Periodeninformation, und einen Verarbeitungsschritt zur Durchführung der vorbestimmten Prädiktionsberechnung an dem Abgriff unter Verwendung eines Abgriffkoeffizienten.
Aufzeichnungsmedium, auf dem ein Programm gespeichert ist, um einen Computer zu veranlassen, synthetisierte Sprachdaten als Subjektdaten innerhalb vorbestimmter Daten zu verarbeiten, die eine eine Periode kennzeichnende Periodeninformation enthalten, wenn das Programm auf dem Computer abläuft, wobei das Programm umfaßt: einen Abgriff-Generierungsschritt zum Generieren eines für eine vorbestimmte Prädiktionsberechnung benutzten Abgriffs durch Extrahieren des Abgriffs aus den Subjektdaten nach Maßgabe der Periodeninformation, und einen Verarbeitungsschritt zur Durchführung der vorbestimmten Prädiktionsberechnung an dem Abgriff unter Verwendung eines Abgriffkoeffizienten.
Datenverarbeitungsgerät zum Erlernen von Abgriffkoeffizientendaten, die zur Verarbeitung von synthetisierten Sprachdaten als Subjektdaten innerhalb vorbestimmter Daten benutzt werden, die eine eine Periode kennzeichnende Periodeninformation enthalten, wobei das Datenverarbeitungsgerät aufweist: eine Schülerdaten-Generierungseinrichtung, um aus als Lehrer für das Lernen dienenden Lehrerdaten die genannten vorbestimmten Daten, die die Periodeninformation enthalten, als Schülerdaten zu generieren, die als Schüler für das Lernen dienen, eine Prädiktionsabgriff-Generierungseinrichtung zum Generieren eines Prädiktionsabgriffs, der benutzt wird, um die Lehrerdaten zu prädizieren, indem die Abgriffkoeffizientendaten nach Maßgabe der Periodeninformation innerhalb der vorbestimmten Daten extrahiert werden, die die Subjektdaten als die genannten Schülerdaten enthalten, und eine Lerneinrichtung zur Durchführung des Lernvorgangs in der Weise, dass ein Prädiktionsfehler eines Prädiktionswerts der Lehrerdaten, der durch die Ausführung einer vorbestimmten Prädiktionsberechnung unter Verwendung des Prädiktionsabgriffs und der Abgriffkoeffzientendaten gewonnen wird, statistisch ein Minimum wird, und zum Bestimmen der Abgriffkoeffizientendaten.
Datenverarbeitungsgerät nach Anspruch 18, bei dem die Lerneinrichtung den Lernvorgang in der Weise durchführt, dass der Prädiktionsfehler eines Prädiktionswerts der Lehrerdaten, der durch die Durchführung einer linearen Prädiktionsberechnung erster Ordnung unter Verwendung des Prädiktionsabgriffs und der Abgriffkoeffizientendaten gewonnen wird, statistisch ein Minimum wird.
Datenverarbeitungsgerät nach Anspruch 18, ferner mit einer Klassenabgriff-Generierungseinrichtung, um aus den vorbestimmten Daten als den genannten Schülerdaten einen Klassenabgriff zu generieren, der für die Durchführung einer Klassifikation zum Klassifizieren der Subjektdaten benutzt wird, und einer Klassifikationseinrichtung zur Durchführung einer Klassifikation der Subjektdaten auf der Basis des Klassenabgriffs, wobei die Lerneinrichtung die Abgriffkoeffizienten für jede Klasse bestimmt, die als Ergebnis der Klassifikation durch die Klassifikationseinrichtung gewonnen wird.
Datenverarbeitungsgerät nach Anspruch 20, bei dem die Klassenabgriff-Generierungseinrichtung den Klassenabgriff generiert, indem sie die vorbestimmten Daten nach Maßgabe der Periodeninformation aus den Subjektdaten extrahiert.
Datenverarbeitungsgerät nach Anspruch 18, bei dem die Lehrerdaten Sprachdaten sind und die vorbestimmten Daten und die Periodeninformation aus kodierten Daten gewonnen werden, so dass Sprachdaten als die genannten Lehrerdaten kodiert werden.
Datenverarbeitungsgerät nach Anspruch 22, bei dem die kodierten Daten so beschaffen sind, dass Sprachdaten durch ein CELP-(Code Excited Linear Coding)-Verfahren kodiert werden.
Datenverarbeitungsgerät nach Anspruch 23, bei dem die Periodeninformation eine Langzeit-Prädiktionsverschiebung ist, die durch ein CELP-Verfahren definiert ist.
Datenverarbeitungsgerät nach Anspruch 22, bei dem die vorbestimmten Daten dekodierte Sprachdaten sind, so daß die genannten kodierten Daten dekodiert werden.
Datenverarbeitungsgerät nach Anspruch 22, bei dem die vorbestimmten Daten ein Restsignal darstellen, das zum Dekodieren der kodierten Daten in Sprachdaten benutzt wird.
Datenverarbeitungsgerät nach Anspruch 18, bei dem die vorbestimmten Daten zeitserielle Daten sind und die Prädiktionsabgriff-Generierungseinrichtung den Abgriff aus den Subjektdaten generiert, indem sie die vorbestimmten Daten an einer Position extrahiert, die um eine der Periodeninformation entsprechende Zeitspanne entfernt ist.
Datenverarbeitungsgerät nach Anspruch 27, bei dem die Prädiktionsabgriff-Generierungseinrichtung den Abgriff aus den Subjektdaten generiert, indem sie eine oder beide der vorbestimmten Daten an einer Position extrahiert, die in Richtung Vergangenheit oder in Richtung Zukunft um eine der Perioden information entsprechende Zeitspanne entfernt ist.
Datenverarbeitungsgerät nach Anspruch 28, ferner mit einer Bestimmungseinrichtung zum Bestimmen des Fortschreitens der Wellenform der genannten vorbestimmten Daten, wobei die Prädiktionsabgriff-Generierungseinrichtung auf der Basis des von der Bestimmungseinrichtung bestimmten Ergebnisses eine oder beide der vorbestimmten Daten an einer Position extrahiert, die in Richtung Vergangenheit oder in Richtung Zukunft um eine der Periodeninformation entsprechende Zeitspanne entfernt ist.
Datenverarbeitungsgerät nach Anspruch 29, bei dem die Bestimmungseinrichtung das Fortschreiten der Wellenform auf der Basis der Leistung der vorbestimmten Daten bestimmt.
Datenverarbeitungsverfahren zum Erlernen von Abgriffkoeffizientendaten, die zur Verarbeitung von synthetisierten Sprachdaten als Subjektdaten innerhalb vorbestimmter Daten benutzt werden, die eine Periode kennzeichnende Periodeninformation enthalten, wobei das Datenverarbeitungsverfahren umfaßt: einen Schülerdaten-Generierungsschritt, um aus als Lehrer für das Lernen dienenden Lehrerdaten die genannten vorbestimmten Daten, die die Periodeninformation enthalten, als Schülerdaten zu generieren, die als Schüler für das Lernen dienen, einen Prädiktionsabgriff-Generierungsschritt zum Generieren eines Prädiktionsabgriffs, der benutzt wird, um die Lehrerdaten zu prädizieren, indem die Abgriffkoeffizientendaten nach Maßgabe der Periodeninformation innerhalb der vorbestimmten Daten extrahiert werden, die die Subjektdaten enthalten, und einen Lernschritt zur Durchführung des Lernvorgangs in der Weise, daß ein Prädiktionsfehler eines Prädiktionswerts der Lehrerdaten, der durch die Ausführung einer vorbestimmten Prädiktionsberechnung unter Verwendung des Prädiktionsabgriffs und der Abgriffkoeffizientendaten gewonnen wird, statistisch ein Minimum wird, und zum Bestimmen der Abgriffkoeffizientendaten.
Programm, um einen Computer zu veranlassen, eine Datenverarbeitung zum Erlernen von Abgriffkoeffizientendaten durchzuführen, die zur Verarbeitung von synthetisierten Sprachdaten als Subjektdaten innerhalb vorbestimmter Daten benutzt werden, die eine eine Periode kennzeichnende Periodeninformation enthalten, wenn das Programm auf dem Computer abläuft, wobei das Programm umfaßt: einen Schülerdaten-Generierungsschritt, um aus als Lehrer für das Lernen dienenden Lehrerdaten die genannten vorbestimmten Daten, die die Periodeninformation enthalten, als Schülerdaten zu generieren, die als Schüler für das Lernen dienen, einen Prädiktionsabgriff-Generierungsschritt zum Generieren eines Prädiktionsabgriffs, der benutzt wird, um die Lehrerdaten zu prädizieren, indem die Abgriffkoeffizientendaten nach Maßgabe der Periodeninformation innerhalb der vorbestimmten Daten extrahiert werden, die die Subjektdaten als die Schülerdaten enthalten, und einen Lernschritt zur Durchführung des Lernvorgangs in der Weise, daß ein Prädiktionsfehler eines Prädiktionswerts der Lehrerdaten, der durch die Ausführung einer vorbestimmten Prädiktionsberechnung unter Verwendung des Prädiktionsabgriffs und der Abgriffkoeffizientendaten gewonnen wird, statistisch ein Minimum wird, und zum Bestimmen der Abgriffkoeffizientendaten.
Au zeichnungsmedium, auf dem ein Programm gespeichert ist, um einen Computer zu veranlassen, synthetisierte Sprachdaten als Subjektdaten innerhalb vorbestimmter Daten zu verarbeiten, die eine eine Periode kennzeichnende Periodeninformation enthalten, wenn das Programm auf dem Computer abläuft, wobei das Programm umfaßt: einen Schülerdaten-Generierungsschritt, um aus als Lehrer für das Lernen dienenden Lehrerdaten die genannten vorbestimmten Daten, die die Periodeninformation enthalten, als Schülerdaten zu generieren, die als Schüler für das Lernen dienen, einen Prädiktionsabgriff-Generierungsschritt zum Generieren eines Prädiktionsabgriffs, der benutzt wird, um die Lehrerdaten zu prädizieren, indem die Abgriffkoeffizientendaten nach Maßgabe der Periodeninformation innerhalb der vorbestimmten Daten extrahiert werden, die die Subjektdaten als die Schülerdaten enthalten, und einen Lernschritt zur Durchführung des Lernvorgangs in der Weise, daß ein Prädiktionsfehler eines Prädiktionswerts der Lehrerdaten, der durch die Ausführung einer vorbestimmten Prädiktionsberechnung unter Verwendung des Prädiktionsabgriffs und der Abgriffkoeffizientendaten gewonnen wird, statistisch ein Minimum wird, und zum Bestimmen der Abgriffkoeffizientendaten.