DE69129131T2 - Einrichtung zur Sprachcodierung und Verwandte Decodierungseinrichtung - Google Patents

Einrichtung zur Sprachcodierung und Verwandte Decodierungseinrichtung

Info

Publication number
DE69129131T2
DE69129131T2 DE69129131T DE69129131T DE69129131T2 DE 69129131 T2 DE69129131 T2 DE 69129131T2 DE 69129131 T DE69129131 T DE 69129131T DE 69129131 T DE69129131 T DE 69129131T DE 69129131 T2 DE69129131 T2 DE 69129131T2
Authority
DE
Germany
Prior art keywords
inter
waveform
framework
waveforms
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69129131T
Other languages
English (en)
Other versions
DE69129131D1 (de
Inventor
Toshiyuki Morii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2129607A external-priority patent/JP2853266B2/ja
Priority claimed from JP24944190A external-priority patent/JP3227608B2/ja
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE69129131D1 publication Critical patent/DE69129131D1/de
Publication of DE69129131T2 publication Critical patent/DE69129131T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

    HINTERGRUND DER ERFINDUNG
  • Diese Erfindung betrifft eine Sprachcodiervorrichtung. Die Erfindung betrifft auch eine Decodiervorrichtung, die zu der Codiervorrichtung paßt.
  • Es gibt zwei Typen des Codierens eines Sprachsignals mit einer niedrigen Bit-Rate von ungefähr 4,8 kbps, das heißt einen Sprachanalyse- und -synthesecodiertyp und einen Sprachwellenformcodiertyp. Beim ersten Typ werden Frequenzcharakteristiken einer Sprache durch eine Spektrumanalyse, wie eine lineare Prädiktionsanalyse, extrahiert, und die extrahierten Frequenzcharakteristiken und die Sprachquelleninformation werden codiert. Beim zweiten Typ wird eine Redundanz einer Sprache verwendet, und es wird eine Wellenform der Sprache codiert.
  • Ein Codieren nach dem Stand der Technik des ersten Typs ist für die Verwirklichung einer niedrigen Bit-Rate geeignet, jedoch für das Codieren einer Steuersprachquelle zum Synthetisieren von Sprache guter Qualität ungeeignet. Andererseits ist ein Codieren nach dem Stand der Technik des zweiten Typs für das Wiedergewinnen von Sprache guter Qualität geeignet, jedoch für die Verwirklichung einer niedrigen Bit-Rate ungeeignet. Somit erfordert entweder das Codieren nach dem Stand der Technik des ersten Typs oder das Codieren nach dem Stand der Technik des zweiten Typs einen Kompromiß zwischen einer guten Sprachqualität und einer niedrigen Bit-Rate.
  • Ferner gestalten entweder das Codieren nach dem Stand der Technik des ersten Typs oder das Codieren nach dem Stand der Technik des zweiten typs die Verarbeitung leicht kompliziert und erhöhen somit leicht die Berechnungsschritte.
  • Die DE-A- 1 296 212 offenbart ein Sprachcodierverfahren zur Vektorcodierung von Pitch-Perioden. Insbesondere werden Pitch-Werte bestimmt und Pitch-Perioden digitalisiert Schließlich wird die Wellenform jeder digitahsierten Pitch-Periode mit den Mustern eines Wellenformwörterbuches verglichen, und die engste Übereinstimmung liefert einen Code.
  • Die US-A-4 680 797 offenbart ein Wellenformcodierverfahren. Bei diesem bekannten Verfahren werden nur diejenigen Punkte in einer Wellenform übertragen, die zum Festlegen ihrer Gesamtstruktur bedeutend sind. Der Empfänger rekonstruiert die fehlenden Punkte in der Wellenform unter Verwendung irgendeines Typs von sich annähernder Interpolation. Die anfängliche Wellenformcodierung umfaßt die Schritte eines Bestimmens und Codierens der Gesamtstruktur der Wellenform.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist eine Aufgabe dieser Erfindung, eine verbesserte Sprachcodiervorrichtung zu schaffen.
  • Es ist eine andere Aufgabe dieser Erfindung, eine verbesserte Decodiervorrichtung zu schaffen.
  • Diese Aufgaben werden mit der Vorrichtung erfüllt, wie sie in den Ansprüchen 1, 6, 8 und 10 beansprucht ist. Die verbleibenden Ansprüche definieren besondere Ausführungsformen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Fig. 1 ist ein Blockdiagramm eines Codierers und eines Decodierers gemäß einer ersten Ausführungsform dieser Erfindung.
  • Fig. 2-4 sind Zeit-Bereich-Diagramme, die Beispiele von Grundwellenformen und Gerüsten bei der ersten Ausführungsform dieser Erfindung zeigen.
  • Fig. 5 ist ein Zeit-Bereich-Diagramm, das ein Beispiel einer Grundwellenform und eines Gerüstes bei der ersten Ausführungsform dieser Erfindung zeigt.
  • Fig. 6 ist ein Diagramm, das Beispiele von Prozessen zeigt, die in dem Codierer von Fig. 1 ausgeführt werden.
  • Fig. 7 ist ein Diagramm, das Beispiele von Prozessen zeigt, die in dem Decodierer von Fig. 1 ausgeführt werden.
  • Fig. 8 ist ein Diagramm, das Details eines Beispiels einer Bit-Zuordnung bei der ersten Ausführungsform dieser Erfindung zeigt.
  • Fig. 9 ist ein Blockdiagramm eines Codierers und eines Decodierers gemäß einer zweiten Ausführungsform dieser Erfindung.
  • Fig. 10 ist ein Diagramm, das Beispiele von Prozessen zeigt, die in dem Decodierer von Fig. 9 ausgeführt werden.
  • Fig. 11 ist ein Diagramm, das Details eines Beispiels einer Bit-Zuordnung bei der zweiten Ausführungsform dieser Erfindung zeigt.
  • BESCHREIBUNG DER ERSTEN BEVORZUGTEN AUSFÜHRUNGSFORM
  • Gemäß einer ersten Ausführungsform dieser Erfindung wird eine Detektion oder Berechnung hinsichtlich eines Durchschnitts von Wellenformen innerhalb jeweiliger Pitches eines Eingangssprachsignals vorgenommen, das während eines vorbestimmten Intervalls auftritt, und dann wird eine Bestimmung hinsichtlich eines Gerüstes (Skelett) der Durchschnitts-Ein- Pitch-Wellenform vorgenommen. Das Gerüst ist aus Elementen (Knochen) zusammengesetzt, die jeweils Impulsen entsprechen, die zu Zeitpunkten auftreten, die gleich Zeitpunkten eines Auftretens von minimalen und maximalen Pegeln der Durchschnitts-Ein-Pitch-Wellenform sind, und die Pegel aufweisen, die gleich den minimalen und maximalen Pegeln der Durchschnitts-Ein-Pitch-Wellenform sind. Das Gerüst wird codiert. Es werden in Ansprechen auf das Gerüst Zwischenelementwellenformen entschieden. Die Zwischenelementwellenformen erstrecken sich zwischen den Elementen des Gerüstes. Die Zwischenelementwellenformen werden codiert.
  • Nun wird die erste Ausführungsform dieser Erfindung weiter beschrieben. Wie es in Fig. 1 gezeigt ist, empfängt ein Codierer 1 ein digitales Sprachsignal 3 von einem Analog/Digital-Wandler (nicht gezeigt), der ein analoges Sprachsignal abtastet und der Abtastungen des analogen Sprachsignals in entsprechende digitale Daten umwandelt. Das digitale Sprachsignal 3 umfaßt eine Abfolge von getrennten Rahmen, die jeweils eine vorbestimmte Zeitlänge aufweisen.
  • Der Codierer 1 umfaßt einen Pitch-Analysator 4, der den Pitch innerhalb jedes Rahmens des digitalen Sprachsignals 3 detektiert. Der Pitch-Analysator 4 erzeugt Pitch-Information, die den detektierten Pitch innerhalb jedes Rahmens darstellt. Der Pitch-Analysator 4 leitet aus der Wellenform jedes Rahmens eine Durchschnittswellenform von einem Pitch ab. Der Pitch-Analysator 4 speist die abgeleitete Durchschnittswellenform in einen Gerüstsuchabschnitt 5 innerhalb des Codierers 1 als eine Grundwellenform ein.
  • Der Gerüstsuchabschnitt 5 analysiert die Gestalt der Grundwellenform und entscheidet, welchen Grad ein aufzubauendes Gerüst (Skelett) hat. Der Grad eines Gerüstes ist so definiert, daß er gleich einer Hälfte der Gesamtzahl von Elementen (Knochen) des Gerüstes ist. Es ist anzumerken, daß die Elemente des Gerüstes Paare bilden, wie es später deutlich gemacht wird. Der Gerüstsuchabschnitt 5 sucht in Abhängigkeit von dem Grad des Gerüstes Signalzeitpunkte, bei denen der Absolutwert von positiven Signaldaten und der Absolutwert von negativen Signaldaten maximiert ist. Der Gerüstsuchabschnitt 5 legt die gesuchten Signalpunkte und die in Beziehung stehenden Signalwerte als Gerüstinformation (Skelettinformation) fest. Die gesuchten Signalpunkte in der Gerüstinformation stimmen mit den Zeitpunkten der Elemente des Gerüstes überein, und die in Beziehung stehenden Signalwerte in der Gerüstinformation stimmen mit den Höhen der Elemente des Gerüstes überein. Die Elemente des Gerustes stimmen mit Impulsen überein, die Spitzen und Tälern der Grundwellenform entsprechen. Zusammengefaßt wird die Grundwellenform zu einem Gerüst transformiert, und das Gerüst wird zu Gerüstinformation codiert.
  • Es wird nun ferner eine Beschreibung des Gerüstsuchabschnitts 5 angegeben. Die Grundwellenformen von einem Pitch sind den Signalgestalten ähnlich, die mit einer Impulsantwort in Beziehung stehen. Die Grundwellenform von einem Pitch hängt von dem Sprecher und den Sprechbedingungen ab. Somit ist es notwendig, um eine Grundwellenform von einem Pitch durch das Gerüst darzustellen, vorher den Grad des Gerüstes, das heißt die Zahl von Elementen des Gerüstes, in Abhängigkeit von den Charakteristiken der Grundwellenform zu entscheiden. Beispielsweise wird der Grad des Gerüstes oder die Zahl der Elemente des Gerüstes für eine Grundwellenform, die einem sanft ansteigenden Hügel ähnlich ist, klein festgelegt. Der Grad des Gerüstes oder die Zahl der Elemente des Gerüstes wird für eine Grundwellenform, bei der sich ein Signalwert häufig nach oben und nach unten bewegt, groß festgelegt.
  • Der Gerüstsuchabschnitt 5 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Gerüstsuchabschnitt 5 arbeitet gemäß einem in dem ROM gespeicherten Programm. Dieses Programm weist ein Segment für die Suche eines Gerüstes auf. Durch Bezugnahme auf das Gerüstsuchsegment des Programms führt der Gerüstsuchabschnitt 5 Schritte (1) - (8) aus, die später gezeigt werden. Bei der Beschreibung des Gerüstsuchsegments des Programms bezeichnet Xi (i= 1, L) Signalwerte von unterschiedlichen Signalpositionen, die eine Grundwellenform von einem Pitch bilden, wobei i eine Signalposition darstellt, die sich von 1 bis L verändert, und L die Zeitlänge der Grundwellenform darstellt; D bezeichnet einen maximalen Grad eines Gerüstes; K bezeichnet einen Satz Bereiche der Unterdrückung einer Suche, wobei Elemente des Satzes durch die Positionen 1 bis L dargestellt sind; M bezeichnet die Anzahl der Male der Ausführung eines gegebenen Teils der Suche; und Hi bezeichnet Gerüstinformation, die als "Hi = (Ax, An, Ix, In)" definiert ist, wobei Ax einen maximalen Signalwert darstellt, An einen minimalen Signalwert darstellt, Ix eine Signalposition darstellt, bei welcher der maximale Signalwert Ax auftritt, und In eine Signalposition darstellt, bei welcher der minimale Signalwert An auftritt.
  • (1) Es wird eine Initialisierung vorgenommen, und es werden Anfangswerte festgelegt. Genauer wird der Satz K als "K=Ko" initialisiert, wobei Ko einen Null-Satz bezeichnet. Die Suchausführungszahl M wird mit Null initialisiert. Dem Schritt (1) folgt der Schritt (2).
  • (2) Die Suchausführungszahl M wird mit "M=M+1" aktualisiert. Dem Schritt (2) folgt der Schritt (3).
  • (3) Ein maximaler Signalwert Xmax und ein minimaler Signalwert Xmin werden wie folgt entschieden.
  • Xmax = max{Xi: i=1, LiK} = Xi1
  • Xmin = min{Xi: i=1, LiK} = Xi2
  • Zusätzlich wird Gerüstinformation HM wie folgt entschieden.
  • HM = (Xmax, Xmin, i1, i2)
  • Dem Schritt (3) folgt der Schritt (4).
  • (4) Es wird eine Detektion hinsichtlich der Positionen von Intervallen vorgenommen, die bei den Positionen i1 und i2 zentriert sind, und bei denen sich die Vorzeichen der Signalwerte Xi nicht ändern. Die detektierten Positionen werden zu dem Satz K als Satzelemente addiert, die Unterdrükkungsbereiche darstellen. Dem Schritt (4) folgt der Schritt (5).
  • (5) Es wird eine Entscheidung getroffen, ob die Suchausführungszahl M gleich dem maximalen Gerüstgrad ist oder nicht. Zusätzlich wird eine Entscheidung getroffen, ob der Satz K alle Positionen 1 bis L enthält oder nicht. Wenn die Suchausführungszahl M gleich dem maximalen Gerüstgrad ist, oder wenn der Satz K alle Positionen 1 bis L enthält, folgt dem Schritt (5) der Schritt (6). Sonst wird ein Rücksprung zu Schritt (2) vorgenommen.
  • (6) Die Positionsinformation wird aus der Gerüstinformation Hj(j=1, M) extrahiert, und die extrahierten Positionen werden gemäß der Größe angeordnet, das heißt gemäß der Zeitbasisrichtung. Dem Schritt (6) folgt der Schritt (7).
  • (7) Die bei dem Schritt (6) extrahierten Positionen werden nacheinander in der Reihenfolge von der Kleinsten zur Größten geprüft. Genauer wird eine Prüfung vorgenommen, ob jede extrahierte Position mit einer Position übereinstimmt, bei welcher der maximale Signalwert oder der minimale Signalwert auftritt, das heißt, ob jede extrahierte Position dem maximalen Signalwert oder dem minimalen Signalwert entspricht oder nicht. Wenn zwei aufeinanderfolgende Positionen den maximalen Signalwerten entsprechen oder wenn zwei aufeinanderfolgende Positionen den minimalen Signalwerten entsprechen, wird die Suchausführungszahl M als "M=M-1" dekrementiert, und dann wird ein Rücksprung zu dem Schritt (6) vorgenommen. Wenn die extrahierten Positionen, die den maximalen Signalwerten entsprechen, sich mit den extrahierten Positionen abwechseln, die den minimalen Signalwerten entsprechen, folgt dem Schritt (7) der Schritt (8). Wenn die extrahierte Position, die dem maximalen Signalwert entspricht, sich mit der extrahierten Position abwechselt, die dem minimalen Signalwert entspricht, folgt auch dem Schritt (7) der Schritt (8).
  • (8) Die Suchausführungszahl M ist als ein Endgerüstgrad definiert. Die Gerüstinformation Hj(j=1, M) ist als Endgerüstinformation definiert. Die Suche wird beendet.
  • Die Fig. 2-4 zeigen Beispiele von Grundwellenformen von einem Pitch und Gerüstinformation, die durch den Gerüstsuchabschnitt 5 erhalten wird. In den Fig. 2-4 bezeichnen durchgezogene Kurven Grundwellenformen von einem Pitch, während vertikal gestrichelte Linien Gerüstinformationen bezeichnen, die maximale und minimale Signalwerte und Signalpunkte umfassen, bei denen die maximalen und minimalen Signalwerte auftreten. Bei dem Beispiel von Fig. 2 ist der Gerüstgrad gleich 1. Bei dem Beispiel von Fig. 3 ist der Gerüstgrad gleich 2. Bei dem Beispiel von Fig. 4 ist der Gerüstgrad gleich 3.
  • Fig. 5 zeigt genauer ein Beispiel einer Grundwellenform und von Gerüstinformation, die durch den Gerüstsuchabschnitt 5 erhalten werden. In Fig. 5 bezeichnen die Zeichen A11, A12, A21 und A22 die Gerüstpositionsinformation, und die Zeichen B11, B12, B21 und B22 bezeichnen die Gerüstsignalwertinformation.
  • Der Codierer 1 umfaßt eine Zwischenelementwellenform-Auswahleinrichtung 6, welche die Gerüstinformation von dem Gerüstsuchabschnitt 5 empfängt. Die Zwischenelementwellenform-Auswahleinrichtung 6 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Die Zwischenelementwellenform-Auswahleinrichtung 6 führt die nachstehend beschriebenen Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Es wird nun eine detaillierte Beschreibung der Zwischenelementwellenform-Auswahleinrichtung 6 unter Bezugnahme auf Fig. 6 angegeben, die ein Beispiel mit einem Gerüstgrad gleich 1 zeigt. Zuerst entscheidet die Zwischenelementwellenform-Auswahleinrichtung 6 Grundzwischenelementwellenformen D1 und D2 innerhalb eines Pitches auf der Grundlage der Gerüstinformation, die von dem Gerüstsuchabschnitt 5 eingespeist wird. Die Grundzwischenelementwellenform D1 stimmt mit einem Wellenformsegment überein, das sich zwischen den Punkten eines Maximalwertsignals C1 und eines anschließenden Minimalwertsignals C2 erstreckt. Die Grundzwischenelementwellenform D2 stimmt mit einem Wellenformsegment überein, das sich zwischen den Punkten des Minimalwertsignals C2 und eines anschließenden Maximalwertsignals C1 erstreckt. Als zweites werden die Grundzwischenelementwellenformen D1 und D2 jeweils in der Zeitbasis und Potenz zu Wellenformen E1 bzw. E2 normiert. Während der Normierung sind die Enden der Wellenformen D1 und D2 fixiert.
  • Die Zwischenelementwellenform-Auswahleinrichtung 6 vergleicht die normierte Wellenform E1 mit vorbestimmten Zwischenelementwellenformabtastungen, die jeweils durch unterschiedliche Zahlen (Codes) gekennzeichnet sind. Durch Bezugnahme auf die Ergebnisse des Vergleichs wählt die Zwischenelementwellenform-Auswahleinrichtung 6 eine der Zwischenelementwellenformabtastungen aus, die am nächsten bei der normierten Wellenform E1 liegt. Die Zwischenelementwellenform-Auswahleinrichtung 6 gibt die Identifikationszahl (Code) N der ausgewählten Zwischenelementwellenformabtastung als Zwischenelementwellenforminformation aus. Ähnlich vergleicht die Zwischenelementwellenform-Auswahleinrichtung 6 die normierte Wellenform E2 mit den vorbestimmten Zwischenelementwellenformabtastungen. Durch Nachschlagen der Ergebnisse des Vergleichs wählt die Zwischenelementwellenform-Auswahleinrichtung 6 eine der Zwischenelementwellenformabtastungen aus, die am nächsten bei der normierten Wellenform E2 liegt. Die Zwischenelementwellenform-Auswahleinrichtung 6 gibt die Identifikationszahl (Code) M der ausgewählten Zwischenelementwellenformabtastung als Zwischenelementwellenforminformation aus.
  • Die Zwischenelementwellenformabtastungen werden in einem Zwischenelementwellenform-Codebuch 7 innerhalb des Codierers 1 gespeichert und von der Zwischenelementwellenform-Auswahleinrichtung 6 ausgelesen. Das Zwischenelementwellenform-Codebuch 7 ist in einer Speichereinrichtung, wie einem ROM gebildet. Die Zwischenelementwellenformabtastungen werden wie folgt vorbestimmt. Es werden verschiedene Sprachtypen analysiert und es werden Grundzwischenelementwellenformen von vielen Sorten erhalten. Die Grundzwischenelementwellenformen werden in der Zeitbasis und Potenzen zu Zwischenelementwellenformabtastungen normiert, die jeweils durch unterschiedliche Zahlen (Codes) identifiziert sind.
  • Ferner wird das Zwischenelementwellenform-Codebuch 7 beschrieben. Wenn die Größe des Zwischenelementwellenform-Codebuches 7 zunimmt, nimmt die Codiersignalverzerrung ab. Um eine hohe Sprachqualität zu erlangen, ist es erwünscht, daß die Größe des Zwischenelementwellenform-Codebuches 7 groß ist. Um eine niedrige Bit-Rate zu erlangen, ist es andererseits erwünscht, daß die Bit-Zahl der Zwischenelementwellenforminformation klein ist. Um eine Echtzeit-Arbeitsweise des Codierers 1 zu erlangen, ist es ferner erwünscht, daß die Zahl von Berechnungsschritten für die Anpassung an das Zwischenelementwellenform-Codebuch 7 klein ist. Deshalb weist ein gewünschtes Zwischenelementwellenform-Codebuch 7 eine kleine Größe auf und verursacht nur eine kleine Codiersignalverzerrung.
  • Das Zwischenelementwellenform-Codebuch 7 wird unter Verwendung eines Computers hergestellt, der gemäß einem Programm arbeitet. Der Computer führt durch Bezugnahme auf das Programm die folgenden Prozesse aus. Ein ausreichend großer Satz an Zwischenelementwellenformabtastungen wird einem Gruppierungsprozeß unterzogen, so daß die euklidischen Entfernungen zwischen dem Zentroid (dem Schwerpunkt) und den Abtastungen minimiert wird. Infolge des Gruppierungsprozesses wird der Satz in Gruppen getrennt, deren Zahl von der Größe des zu bildenden Zwischenelementwellenform-Codebuches 7 abhängt. Das abschließende Zwischenelementwellenform-Codebuch 7 wird durch die Zentroide (die Schwerpunkte) der Gruppen gebildet. Der Gruppierungsprozeß ist vom Zellteilungstyp. Der Gruppierungsprozeß weist die folgenden Schritte (1) - (8) auf.
  • (1) Die Gruppenzahl K wird mit 1 als "K=1" initialisiert. Dem Schritt (1) folgt der Schritt (2).
  • (2) Der Zentroid oder die Zentroide der K Gruppe oder Gruppen werden durch einen einfachen Mittelungsprozeß berechnet. Für jede der Gruppen werden die euklidischen Entfernungen zwischen dem Zentroid und allen Abtastungen in der Gruppe berechnet, und das Maximum der berechneten euklidischen Entfernungen wird als eine Verzerrung der Gruppe festgelegt. Dem Schritt (2) folgt der Schritt (3).
  • (3) Es werden zwei neue Zentroide um den Zentroid der Gruppe herum gebildet, der aus der/den K Gruppe oder Gruppen ausgewählt wird und der die größte Verzerrung aufweist. Die neuen Zentroide werden die Kerne der Zellteilung bilden. Dem Schritt (3) folgt der Schritt (4).
  • (4) Es wird ein Gruppierungsprozeß auf der Grundlage der K+1 Zentroide vorgenommen, und die Zentroide werden neu berechnet. Dem Schritt (4) folgt der Schritt (5).
  • (5) Wenn eine Null-Gruppe oder Null-Gruppen vorhanden sind, werden der Zentroid oder die Zentroide der Null-Gruppe oder Null-Gruppen gelöscht, und es wird ein Rücksprung zu dem Schritt (3) vorgenommen. Bei der Abwesenheit einer Null-Gruppe folgt dem Schritt (5) der Schritt (6).
  • (6) Die Verzerrungen der K+1 Gruppen werden ähnlich dem Schritt (2) berechnet. Eine Schwankung der Summe der berechneten Verzerrungen wird mit einem vorbestimmten kleinen Schwellenwert verglichen. Wenn die Schwankung gleich oder kleiner als der Schwellenwert ist, folgt dem Schritt (6) der Schritt (7). Wenn die Schwankung größer als die Schwelle ist, wird ein Rücksprung zu dem Schritt (4) vorgenommen.
  • (7) Wenn die Zahl K+1 keine Zielgruppenzahl erreicht, wird die Zahl K als "K=K+1" inkrementiert, und es wird ein Rücksprung zu dem Schritt (2) vorgenommen. Wenn die Zahl K+1 die Zielgruppengröße erreicht, folgt dem Schritt (7) der Schritt (8).
  • (8) Die Zentroide aller Gruppen werden berechnet, und es wird ein abschließendes Zwischenelementwellenform-Codebuch 7 gebildet.
  • Ein Decodierer 2 umfaßt einen Gerüstbildungsabschnitt 8, einen Wellenformsynthetisierer 9, und ein Zwischenelementwellenform-Codebuch 10. Der Decodierer 2 wird ferner unter Bezugnahme auf Fig. 7 beschrieben, die ein Beispiel mit einem Rahmengrad gleich 1 zeigt.
  • Der Gerüstbildungsabschnitt 8 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Gerüstbildungsabschnitt 8 führt die nachstehend beschriebenen Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Der Gerüstbildungsabschnitt 8 empfängt die Pitch-Information von dem Pitch-Analysator 4 innerhalb des Codierers 1 und empfängt auch die Gerüstinformation von dem Gerüstsuchabschnitt 5 innerhalb des Codierers 1. Der Gerüstbildungsabschnitt 8 bildet Elemente C1 und C2 eines Gerüstes auf der Grundlage der empfangenen Pitch-Information und der empfangenen Gerüstinformation. Die gebildeten Elemente C1 und C2 des Gerüstes sind im Teil (a) von Fig. 7 gezeigt.
  • Der Wellenformsynthetisierer 9 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Wellenformsynthetisierer 9 führt die nachstehend beschriebenen Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Der Wellenformsynthetisierer 9 empfängt die Zwischenelementwellenforminformation N und M von der Zwischenelementwellenform-Auswahleinrichtung 6 innerhalb des Codierers 1. Der Wellenformsynthetisierer 9 wählt in Ansprechen auf die Zwischenelementwellenforminformation N und M Grundzwischenelementwellenformen E1 und E2 aus Wellenformabtastungen in dem Zwischenelementwellenform-Codebuch 10 aus, wie es im Teil (b) von Fig. 7 gezeigt ist. Das Zwischenelementwellenform-Codebuch 10 weist die gleiche Konstruktion und Struktur wie das Zwischenelementwellenform-Codebuch 7 innerhalb des Codierers 1 auf. Der Wellenformsynthetisierer 9 empfängt die Gerüstelemente C1 und C2 von dem Gerüstbildungsabschnitt 8. Der Wellenformsynthetisierer 9 wandelt die ausgewählten Grundzwischenelementwellenformen E1 und E2 in der Zeitbasis und Potenz in Abhängigkeit von den Gerüstelementen C1 und C2 um, so daß die resultierenden Zwischenelementwellenformen zwischen den Gerüstelementen C1 und C2 ausgedehnt sein werden, um eine Endwellenform F zu synthetisieren und wiederzugewinnen, wie es in den Teilen (c) und (d) von Fig. 7 gezeigt ist. Die synthetisierte Wellenform F wird als ein Ausgangssprachsignal 11 verwendet.
  • Es wurden Simulationsexperimente wie folgt durchgeführt. Zu codierende Sprachdaten gingen von der Wettervorhersage einer weiblichen Ansagerin japanischer Sprache aus, die in japanischen Romaji-Zeichen ausgedrückt waren als: "Tenkiyohou. Kishouchou yohoubu gogo 1 ji 30 pun happyo no tenkiyohou o oshirase shimasu. Nihon no nangan niwa, touzai ni nobiru zensen ga teitaishi, zensenjou no Hachijojima no higashi ya, Kitakyushuu no Gotou Rettou fukin niwa teikiatsu ga atte, touhokutou ni susunde imasu". Genauer wurde die ursprünglich japanische Sprache in ein elektrisches Analogsignal umgewandelt, und das analoge Signal wurde mit einer Frequenz von 8 kHz abgetastet, und die resultierenden Abtastungen wurden in entsprechende digitale Sprachdaten umgewandelt. Die Dauer des ursprünglichen japanischen Vortrags betrug ungefähr 20 Sekunden. Die Sprachdaten wurden für jeden Rahmen analysiert, der eine Periode von 20 Millisekunden aufwies. Ein Satz Zwischenelementwellenformabtastungen wurde durch Analysieren von Sprachdaten erhalten, die von einem 10-sekündigen Vortrag ausgingen, der von 50 Männern und Frauen gesprochen wurde, die sich von der zuvor erwähnten weiblichen Ansagerin unterschieden. Die Zwischenelementwellenform-Codebücher 7 und 10 wurden auf der Grundlage des Satzes Zwischenelementwellenformabtastungen gemäß einem Gruppierungsprozeß gebildet. Die Gesamtzahl der Zwischenelementabtastungen betrug gleich ungefähr 20 000.
  • Die Obergrenze des Gerüstgrades war auf 3 festgelegt. Um die Bit-Rate weiter zu verkleinern, wurde die Bit-Zuordnung adaptiv in Abhängigkeit von dem Gerüstgrad vorgenommen. Die 2-Grad-Gerüstpositionsinformation, die 3-Grad-Gerüstpositionsinformation, und die 3-Grad-Gerüstverstärkungsinformation wurden durch Nachschlagen in dem Zwischenelementwellenform-Codebuch 7 und unter Verwendung mehrerer Informationsstücke als Vektoren codiert. Dieses Codieren der Information war dem Codieren der Zwischenelementwellenformen ähnlich. Dieses Codieren der Information diente dazu, sparsam mit der Bit-Rate umzugehen. Die Größe des Zwischenelementwellenform-Codebuches 7, um die Zwischenelementwellenforminformation zu erhalten, wurde adaptiv in Abhängigkeit von dem Gerüstgrad und der Länge der Wellenform verändert, so daß eine kurze Wellenform durch Nachschlagen in einem kleinen Zwischenelementwellenform-Codebuch 7 codiert wurde, und eine lange Wellenform durch Nachschlagen in einem großen Zwischenelementwellenform-Codebuch 7 codiert wurde. Die Bit-Zuordnung pro Sprachdateneinheit (20 Millisekunden) war konstruiert, wie es in Fig. 8 gezeigt ist.
  • Aus den Ergebnissen der Experimente der Codierung, die unter den vorstehend erwähnten Bedingungen durchgeführt wurden, wurde herausgefunden, daß trotz einer niedrigen Bit-Rate eine glatte und natürliche Sprache synthetisiert wurde. Es wurde ein S/N-Verhältnis von ungefähr 10 dB erhalten. Es wurden ähnliche Experimente bezüglich anderer Sprachen als die vorstehend erwähnte japanische Sprache vorgenommen. Aus den Ergebnissen dieser Experimente wurde auch bestätigt, daß S/N-Verhältnisse von 7-11 dB erhalten wurden und daß die Sprachqualitäten gut waren.
  • BESCHREIBUNG DER ZWEITEN BEVORZUGTEN AUSFÜHRUNGSFORM
  • Wie es in Fig. 9 gezeigt ist, empfängt ein Codierer 101 ein digitales Sprachsignal 103 von einem Analog/Digital-Wandler (nicht gezeigt), der ein analoges Sprachsignal abtastet, und der Abtastungen des analogen Sprachsignals in entsprechende digitale Daten umwandelt. Das digitale Sprachsignal 103 umfaßt eine Reihenfolge von getrennten Rahmen, die jeweils eine vorbestimmte Zeitlänge aufweisen.
  • Der Codierer 101 umfaßt ein LSP-Parametercodebuch 104, einen Parametercodierabschnitt 105, und einen Linearprädiktionsanalysator 106. Der Linearprädiktionsanalysator 106 unterzieht das digitale Sprachsignal 103 einer linearen Prädiktionsanalyse und berechnet dadurch Koeffizienten einer linearen Prädiktion für jeden Rahmen. Der Parametercodierabschnitt 105 wandelt die berechneten Koeffizienten einer linearen Prädiktion in LSP-Parameter um, die gute Eigenschaften zur Komprimierung und Interpolation aufweisen. Ferner quantisiert der Parametercodierabschnitt 105 die LSP-Parameter durch Nachschlagen in dem Parametercodebuch 104 vektoriell und überträgt die resultierenden Daten als Parameterinformation an einen Decodierer 102.
  • Das Parametercodebuch 104 enthält vorbestimmte LSP-Parameterreferenzen. Das Parametercodebuch 104 ist in einer Speichereinrichtung, wie einem ROM, vorgesehen. Das Parametercodebuch 104 wird unter Verwendung eines Computers hergestellt, der gemäß einem Programm arbeitet. Der Computer führt die folgenden Prozesse durch Bezugnahme auf das Programm aus. Verschiedene Sprachtypen werden einer linearen Prädiktionsanalyse unterzogen, und dadurch wird eine Population von LSP-Parametern gebildet. Die Population der LSP-Parameter wird einem Gruppierungsprozeß unterzogen, so daß die euklidischen Entfernungen zwischen dem Zentroid (dem Schwerpunkt) und den Abtastungen minimiert wird. Infolge des Gruppierungsprozesses wird die Population in Gruppen getrennt, deren Zahl von der Größe eines zu bildenden Parametercodebuches 104 abhängt. Durch die Zentroide (die Schwerpunkte) der Gruppen wird ein Endparametercodebuch 104 gebildet. Dieser Gruppierungsprozeß ist dem Gruppierungsprozeß ähnlich, der beim Bilden des Zwischenelementwellenform-Codebuches 7 bei der Ausführungsform der Fig. 1-8 verwendet wurde.
  • Der Codierer 101 umfaßt einen Pitch-Analysator 107, einen Gerüstsuchabschnitt 108, einen Zwischenelementwellenform-Codierabschnitt 109 und ein Zwischenelementwellenform-Codebuch 110. Der Pitch-Analysator 107 detektiert den Pitch innerhalb jedes Rahmens des digitalen Sprachsignals 103. Der Pitch-Analysator 107 erzeugt Pitch-Information, die den detektierten Pitch innerhalb jedes Rahmens darstellt. Der Pitch-Analysator 107 überträgt die Pitch-Information an den Decodierer 102. Der Pitch- Analysator 107 leitet aus der Wellenform jedes Rahmens eine Durchschnittswellenform von einem Pitch ab. Die Durchschnittswellenform wird als eine Grundwellenform bezeichnet. Der Pitch-Analysator 107 unterzieht die Grundwellenform einem Filterungsprozeß unter Verwendung der Koeffizienten einer linearen Prädiktion, die von dem Linearprädiktionsanalysator 106 eingespeist werden, so daß der Pitch-Analysator 107 eine Grundrestwellenform von einem Pitch ableitet. Der Pitch-Analysator 107 speist die Grundrestwellenform in den Gerüstsuchabschnitt 108 ein.
  • Der Gerüstsuchabschnitt 108 analysiert die Gestalt der Grundrestwellenform und entscheidet, welchen Grad ein aufzubauendes Gerüst (Skelett) aufweist. Der Grad eines Gerüstes ist so definiert, daß er gleich einer Hälfte der Gesamtzahl der Elemente des Gerüstes ist. Es ist anzumerken, daß die Elemente des Gerüstes Paare bilden, wie es später deutlich gemacht wird. Der Gerüstsuchabschnitt 108 sucht in Abhängigkeit von dem Grad des Gerüstes Signalzeitpunkte, bei denen der Absolutwert von positiven Signaldaten und der Absolutwert von negativen Signaldaten maximiert sind. Der Gerüstsuchabschnitt 108 definiert die gesuchten Signalpunkte und in Beziehung stehenden Signalwerte als Gerüstinformation (Skelettinformation). Der Gerüstsuchabschnitt 108 speist die Gerüstinformation in den Zwischenelementwellenform-Codierabschnitt 109 und den Decodierer 102 ein. Der Gerüstsuchabschnitt 108 ist im Grunde dem Gerüstsuchabschnitt 5 bei der Ausführungsform der Fig. 1-8 ähnlich.
  • Der Zwischenelementwellenform-Codierabschnitt 109 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Zwischenelementwellenform-Codierabschnitt 109 führt die folgenden Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Zuerst entscheidet der Zwischenelementwellenform-Codierabschnitt 109 Grundzwischenelementwellenformen innerhalb eines Pitches auf der Grundlage der Gerüstinformation, die von dem Gerüstsuchabschnitt 108 eingespeist wird. Die Grundzwischenelementwellenformen stimmen mit Wellenformsegmenten überein, die sich zwischen den Elementen der Grundrestwellenform erstrecken. Als zweites werden die Grundzwischenelementwellenformen in der Zeitbasis und Potenz normiert. Während der Normierung sind die Enden der Grundzwischenelementwellenformen fixiert. Der Zwischenelementwellenform-Codierabschnitt 109 vergleicht die normierten Wellenformen mit vorbestimmten Zwischenelementwellenformabtastungen, die jeweils durch unterschiedliche Zahlen identifiziert sind. Durch Nachschlagen der Ergebnisse des Vergleichs wählt der Zwischenelementwellenform-Codierabschnitt 109 mindestens zwei der Zwischenelementwellenformabtastungen aus, die am nächsten bei den normierten Wellenformen liegen. Der Zwischenelementwellenform-Codierabschnitt 109 gibt die Identifikationszahlen der ausgewählten Zwischenelementwellenformabtastungen als Zwischenelementwellenforminformation aus. Der Zwischenelementwellenform-Codierabschnitt 109 ist im Grunde der Zwischenelementwellenform-Auswahleinrichtung 6 bei der Ausführungsform der Fig. 1-8 ähnlich.
  • Die Zwischenelementwellenformabtastungen werden in dem Zwischenelementwellenform-Codebuch 110 gespeichert und von dem Zwischenelementwellenform-Codierabschnitt 109 ausgelesen. Das Zwischenelementwellenform-Codebuch 110 ist in einer Speichereinrichtung, wie einem ROM, vorgesehen. Die Zwischenelementwellenformabtastungen werden wie folgt vorbestimmt. Es werden verschiedene Sprachtypen analysiert und grundlegende Zwischenelementwellenformen vieler Sorten erhalten. Die Grundzwischenelementwellenformen werden in der Zeitbasis und Potenz zu Zwischenelementwellenformabtastungen normiert, die jeweils durch unterschiedliche Zahlen identifiziert sind. Das Zwischenelementwellenform-Codebuch 110 ist dem Zwischenelementwellenform-Codebuch 7 bei der Ausführungsform der Fig. 1-8 ähnlich.
  • Der Decodierer 102 umfaßt einen Gerüstbildungsabschnitt 111, einen Grundrestwellenformsynthetisierer 112 und ein Zwischenelementwellenform-Codebuch 113. Der Decodierer 102 wird ferner unter Bezugnahme auf die Fig. 9 und Fig. 10 beschrieben, die ein Beispiel mit einem Rahmengrad gleich 1 zeigt.
  • Der Gerüstbildungsabschnitt 111 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Gerüstbildungsabschnitt 111 führt die nachstehend beschriebenen Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Der Gerüstbildungsabschnitt 111 empfängt die Pitch-Information von dem Pitch-Analysator 107 innerhalb des Codierers 101, und empfängt auch die Gerüstinformation von dem Gerüstsuchabschnitt 108 innerhalb des Codierers 101. Der Gerüstbildungsabschnitt 111 bildet Elemente C1 und C2 eines Gerüstes auf der Grundlage der empfangenen Pitch-Information und der empfangenen Gerüstinformation. Die gebildeten Elemente C1 und C2 des Gerüstes sind im oberen Teil von Fig. 10 gezeigt.
  • Der Grundrestwellenformsynthetisierer 112 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Grundrestwellenfoymsynthetisierer 112 führt die nachstehend beschriebenen Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Der Grundrestwellenformsynthetisierer 112 empfängt die Zwischenelementwellenforminformation N und M von dem Zwischenelementwellenform-Codierabschnitt 109 innerhalb des Codierers 101. Der Grundrestwellenformsynthetisierer 112 wählt in Ansprechen auf die Zwischenrahmenwellenforminformation N und M Grundzwischenelementwellenformen E1 und E2 aus Wellenformabtastungen in dem Zwischenelementwellenform-Codebuch 113 aus, wie es in Fig. 10 gezeigt ist. Das Zwischenelementwellenform-Codebuch 113 weist die gleiche Konstruktion und Struktur wie das Zwischenelementwellenform-Codebuch 110 innerhalb des Codierers 101 auf. Der Grundrestwellenformsynthetisierer 112 empfängt die Gerüstelemente C1 und C2 von dem Gerüstbildungsabschnitt 111. Der Grundrestwellenformsynthetisierer 112 wandelt die ausgewählten Grundzwischenelementwellenformen E1 und E2 in der Zeitbasis und Potenz in Abhängigkeit von den Gerüstelementen C1 und C2 um, so daß die resultierenden Zwischenelementwellenformen zwischen den Gerüstelementen C1 und C2 ausgedehnt sein werden, um eine Grundrestwellenform F zu synthetisieren und wiederzugewinnen, wie es im Zwischenteil von Fig. 10 gezeigt ist.
  • Der Decodierer 102 umfaßt ein LSP-Parametercodebuch 114, einen Parameterdecodierabschnitt 115, einen Grundwellenformdecodierabschnitt 116 und einen Wellenformdecodierabschnitt 117. Der Parameterdecodierabschnitt 115 empfängt die Parameterinformation von dem Parametercodierabschnitt 105 innerhalb des Codierers 101. Der Parameterdecodierabschnitt 115 wählt in Ansprechen auf die Parameterinformation einen von Sätzen von LSP-Parametern in dem Parametercodebuch 114 aus. Der Parameterdecodierabschnitt 115 speist die ausgewählten LSP-Parameter in den Grundwellenformdecodierabschnitt 116 ein. Das Parametercodebuch 114 weist die gleiche Konstruktion und Struktur wie das Parametercodebuch 104 innerhalb des Codierers 101 auf.
  • Der Grundwellenformdecodierabschnitt 116 empfängt die Grundrestwellenform von dem Grundrestwellenformsynthetisierer 112. Der Grundwellenformdecodierab schnitt 116 unterzieht die Grundrestwellenform einem Filterungsprozeß unter Verwendung der LSP-Parameter, die von dem Parameterdecodierabschnitt 115 eingespeist werden. Dadurch wird die Grundrestwellenform F in eine entsprechende Grundwellenform G umgewandelt, wie es in Fig. 10 gezeigt ist. Der Grundwellenformdecodierabschnitt 116 gibt die Grundwellenform G an den Wellenformdecodierabschnitt 117 aus. Der Wellenformdecodierabschnitt 117 multipliziert die Grundwellenform G und ordnet die Grundwellenformen G in einer Reihenfolge an, die sich zwischen den Enden eines Rahmens erstreckt. Wie es in Fig. 10 gezeigt ist, bildet die Reihenfolge der Grundwellenformen G eine abschließend wiedergewonnene Sprachwellenform H. Die abschließend wiedergewonnene Sprachwellenform H wird als ein Ausgangssignal 118 verwendet.
  • Es wurden Simulationsexperimente wie folgt durchgeführt. Zu codierende Sprachdaten gingen von der Wettervorhersage einer weiblichen Ansagerin japanischer Sprache aus, die in japanischen Romaji-Zeichen ausgedrückt waren als: "Tenkiyohou. Kishouchou yohoubu gogo 1 ji 30 pun happyo no tenkiyohou o oshirase shimasu. Nihon no nangan niwa, touzai ni nobiru zensen ga teitaishi, zensenjou no Hachijojima no higashi ya, Kitakyushuu no Gotou Rettou fukin niwa teikiatsu ga atte, touhokutou ni susunde imasu". Genauer wurde der ursprünglich japanische Vortrag in ein elektrisches Analogsignal umgewandelt, und das analoge Signal wurde mit einer Frequenz von 8 kHz abgetastet, und die resultierenden Abtastungen wurden in entsprechende digitale Sprachdaten umgewandelt. Die Dauer des ursprünglichen japanischen Vortrags betrug ungefähr 20 Sekunden. Die Sprachdaten wurden für jeden Rahmen analysiert, der eine Periode von 20 Millisekunden aufwies. Das Fenster dieser Analyse war auf 40 Millisekunden festgelegt. Die Größenordnung der linearen Prädiktionsanalyse war auf 10 festgelegt. Die LSP-Parameter wurden unter Verwendung von 128 DFT gesucht. Die Größe der Parametercodebücher 104 und 114 war auf 4 096 festgelegt. Es wurde ein Satz Zwischenelementwellenformabtastungen erhalten, indem Sprachdaten analysiert wurden, die von einem 10-sekündigen Vortrag ausgingen, der von 50 Männern und Frauen gesprochen wurde, die sich von der vorstehend erwähnten weiblichen Ansagerin unterschieden. Die Zwischenelementwellenform-Codebücher 110 und 113 wurden auf der Grundlage des Satzes Zwischenelementwellenformabtastungen gemäß einem Gruppierungsprozeß gebildet. Die Gesamtzahl der Zwischenelementabtastungen betrug gleich ungefähr 20 000.
  • In dem Gerüstsuchabschnitt 108 war die Obergrenze des Gerüstgrades auf 3 festgelegt. Die 2-Grad-Gerüstpositionsinformation, die 3-Grad- Gerüstpositionsinformation und die 3-Grad-Gerüstverstärkungsinformation wurden durch Nachschlagen in dem Zwischenelementwellenform- Codebuch 110 und unter Verwendung mehrerer Informationsstücke als Vektoren codiert. Dieses Codieren der Information war dem Codieren der Zwischenelementwellenformen ähnlich. Dieses Codieren der Information diente dazu, sparsam mit der Bit-Rate umzugehen. Um die Bit-Rate weiter zu verkleinern, wurde adaptiv eine Bit-Zuordnung in Abhängigkeit von dem Gerüstgrad vorgenommen. Die Größe des Zwischenelementwellenform-Codebuches 110, um die Zwischenelementwellenforminformation zu erhalten, wurde adaptiv in Abhängigkeit von dem Gerüstgrad und der Länge der Wellenform verändert, so daß eine kurze Wellenform durch Nachschlagen in einem kleinen Zwischenelementwellenform-Codebuch 110 codiert wurde, und eine lange Wellenform durch Nachschlagen in einem großen Zwischenelementwellenform-Codebuch 110 codiert wurde.
  • In dem Wellenformdecodierabschnitt 117 innerhalb des Decodierers 102 wurden die Grundwellenformen unter Verwendung eines dreieckigen Fensters von 40 Millisekunden angeordnet, so daß sie glatt miteinander verbunden waren.
  • Die Bit-Zuordnung pro Sprachdateneinheit (20 Millisekunden) war konstruiert, wie es in Fig. 11 gezeigt ist.
  • Aus den Ergebnissen der Experimente der Codierung, die unter den vorstehend erwähnten Bedingungen durchgeführt wurden, wurde herausgefunden, daß trotz einer niedrigen Bit-Rate eine glatte und natürliche Sprache synthetisiert wurde. Es wurde ein S/N-Verhältnis von ungefähr 10 dB erhalten. Ähnliche Experimente wurden bezüglich anderer Sprachen als die vorstehend erwähnte japanische Sprache vorgenommen. Aus den Ergebnissen dieser Experimente wurde auch bestätigt, daß S/ N-Verhältnisse von 5-10 dB erhalten wurden und daß die Sprachqualitäten gut waren. Es wurden insbesondere gute Artikulationen erhalten.

Claims (11)

1. Sprachcodiervorrichtung, umfassend:
Mittel zum Analysieren eines Pitches eines Eingangssprachsignals und zum Ableiten einer Grundwellenform eines Pitches des Eingangssprachsignals,
Mittel zum Erzeugen eines Gerüstes, das eine Gestalt der Grundwellenform kennzeichnet, wobei das Gerüst aus Elementen zusammengesetzt ist, die aufeinanderfolgenden Impulsen unterschiedlicher Typen entsprechen,
Mittel zum Codieren des erzeugten, gewünschten Gerüstes, ein Zwischenelementwellenform-Codebuch, das vorbestimmte Zwischenelementwellenformabtastungen enthält, die durch unterschiedliche Identifikationszahlen identifiziert sind, und
Mittel zum Codieren von Zwischenelementwellenformen, die sich zwischen den Elementen des Gerüstes in der Grundwellenform erstrecken, unter Verwendung des Zwischenelementwellenform- Codebuches.
2. Sprachcodiervorrichtung nach Anspruch 1, wobei das Mittel zum Erzeugen eines Gerüstes auch vorgesehen ist, um eine Zahl von einem Paar oder von Paaren von Impulselementen des Gerüstes zu entscheiden.
3. Sprachcodiervorrichtung nach Anspruch 1, wobei das Zwischenelementwellenform-Codebuch gebildet wird, indem Sprachsignale unterschiedlicher Typen analysiert werden, wodurch ursprüngliche Zwischenelementwellenformen unterschiedlicher Typen erhalten werden, die ursprünglichen Zwischenelementwellenformen in der Zeitbasis und Potenz zu den Zwischenelementwellenformabtastungen normiert werden, während Enden der ursprünglichen Zwischenelementwellenformen fixiert werden, die Identifikation szahlen jeweils an die jeweiligen Zwischenelementwellenformabtastungen angebracht werden, und die Zwischenelementwellenformabtastungen mit den Identifikationszahlen gespeichert werden.
4. Sprachcodiervorrichtung nach Anspruch 1, wobei die Vorrichtung ferner umfaßt:
Mittel zum Ableiten eines Durchschnitts von Wellenformen innerhalb eines Pitches eines Eingangssprachsignals, das während eines vorbestimmten Intervalls auftritt,
Mittel zum Entscheiden eines Gerüstes der Durchschnitts-Ein- Pitch-Wellenform, wobei das Gerüst aus Elementen zusammengesetzt ist, die jeweils Impulsen entsprechen,
Mittel zum Codieren des Gerüstes,
Mittel zum Entscheiden von Zwischenelementwellenformen in Ansprechen auf das Gerüst, wobei die Zwischenelementwellenformen sich zwischen den Elementen des Gerüstes erstrecken, und
Mittel zum Codieren der Zwischenelementwellenformen.
5. Sprachcodiervorrichtung nach Anspruch 1, wobei die Vorrichtung ferner umfaßt:
Mittel zum Ableiten eines Durchschnitts von Wellenformen innerhalb eines Pitches eines Eingangssprachsignals, das während eines vorbestimmten Intervalls auftritt,
Mittel zum Entscheiden eines Gerüstes der Durchschnitts-Ein- Pitch-Wellenform, wobei das Gerüst aus Elementen zusammengesetzt ist, die jeweils Impulsen entsprechen, die bei Zeitpunkten auftreten, die gleich Zeitpunkten des Auftretens von minimalen und maximalen Pegeln der Durchschnitts-Ein-Pitch-Wellenform sind, und die Pegel aufweisen, die gleich den minimalen und maximalen Pegeln der Durchschnitts-Ein-Pitch-Wellenform sind,
Mittel zum Codieren des Gerüstes,
Mittel zum Entscheiden von Zwischenelementwellenformen in Ansprechen auf das Gerüst, wobei die Zwischenelementwellenformen sich zwischen den Elementen des Gerüstes erstrecken, und Mittel zum Codieren der Zwischenelementwellenformen.
6. Decodiervorrichtung, umfassend:
Mittel zum Decodieren von gerüstcodierter Information zu einem Gerüst, das aus Impulselementen zusammengesetzt ist,
ein Zwischenelementwellenform-Codebuch, das vorbestimmte Zwischenelementwellenformabtastungen enthält, die durch unterschiedliche Identifikationszahlen identifiziert sind, und
Mittel zum Decodieren von zwischenelementwellenformcodierter Information zu Zwischenelementwellenformen unter Verwendung des Zwischenelementwellenform-Codebuches, wobei die Zwischenelementwellenformen sich zwischen den Elementen des Gerüstes erstrecken.
7. Decodiervorrichtung nach Anspruch 6, wobei das Zwischenelementwellenform-Codebuch gebildet wird, indem Sprachsignale unterschiedlicher Typen analysiert werden, wodurch ursprüngliche Zwischenelementwellenformen unterschiedlicher Typen erhalten werden, die ursprünglichen Zwischenelementwellenformen in Zeitbasis und Potenz zu den Zwischenelementwellenformabtastungen normiert werden, während Enden der ursprünglichen Zwischenelementwellenformen fixiert werden, die Identifikationszahlen jeweils an die jeweiligen Zwischenelementwellenformabtastungen angebracht werden, und die Zwischenelementwellenformabtastungen mit den Identifikationszahlen gespeichert werden.
8. Sprachcodiervorrichtung, umfassend:
Mittel zum Trennen eines Eingangssprachsignals in vorbestimmte Intervalle gleicher Länge, zum Ausführen einer Pitch-Analyse des Eingangssprachsignals für jedes der Analyseintervalle, um Pitch- Information zu erhalten, und zum Ableiten einer Grundwellenform von einer Ein-Pitch-Länge, die die Analyseintervalle darstellt, unter Verwendung der Pitch-Information,
Mittel zum Ausführen einer lineare Prädiktionsanalyse des Eingangssprachsignals, und zum Herausziehen von linearen Prädiktionsparametern, die Frequenzeigenschaften des Eingangssprachsignals für jedes der Analyseintervalle kennzeichnen,
Mittel, um die Grundwellenform einem Filterungsprozeß in Ansprechen auf die linearen Prädiktionsparameter zu unterziehen) und um eine lineare Prädiktionsrestwellenform von einer Ein-Pitch-Länge abzuleiten,
Mittel zum Ableiten eines Gerüstes, das eine Gestalt der Vorhersagerestwellenform kennzeichnet, und zum Codieren des abgeleiteten Gerüstes, wobei das Gerüst aus Elementen zusammengesetzt ist, die aufeinanderfolgenden Impulsen unterschiedlicher Typen entsprechen,
ein Zwischenelementwellenform-Codebuch, das vorbestimmte Zwischenelementwellenformabtastungen enthält, die durch unterschiedliche Identifikationszahlen identifiziert sind, und Mittel zum Codieren von Zwischenelementwellenformen, die sich zwischen den Elementen des Gerüstes in der Restwellenform erstrecken, unter Verwendung des Zwischenelementwellenform- Codebuches.
9. Sprachcodiervorrichtung nach Anspruch 8, wobei das Zwischenelementwellenform-Codebuch gebildet wird, indem Sprachsignale unterschiedlicher Typen analysiert werden, wodurch ursprüngliche Zwischenelementwellenformen unterschiedlicher Typen erhalten werden, die ursprünglichen Zwischenelementwellenformen in der Zeitbasis und Potenz zu den Zwischenelementwellenformabtastungen normiert werden, während Enden der ursprünglichen Zwischenelementwellenformen fixiert werden, die Identifikationszahlen jeweils an die jeweiligen Zwischenelementwellenformabtastungen angebracht werden, und die Zwischenelementwellenformabtastungen mit den Identifikationszahlen gespeichert werden.
10. Decodiervorrichtung, umfassend:
Mittel zum Decodieren von gerüstcodierter Information zu einem Gerüst, das aus Elementen zusammengesetzt ist, die aufeinanderfolgenden Impulsen entsprechen,
ein Zwischenelementwellenform-Codebuch, das vorbestimmte Zwischenelementwellenformabtastungen enthält, die durch unterschiedliche Identifikationszahlen identifiziert sind,
Mittel zum Decodieren von zwischenelementwellenformcodierter Information zu Zwischenelementwellenformen unter Verwendung des Zwischenelementwellenform-Codebuches, und zum Bilden einer Grundvorhersagerestwellenform, wobei sich die Zwischenelementwellenformen zwischen den Elementen des Gerüstes erstrecken, Mittel, um die Grundvorhersagerestwellenform einem Filterungsprozeß in Ansprechen auf Eingangsparameter zu unterziehen, und um eine Grundwellenform von einer Ein-Pitch-Länge abzuleiten, und Mittel zum Wiederauffinden einer abschließenden Wellenform von einer Ein-Pitch-Länge auf der Basis der Grund-Ein-Pitch-Wellenform.
11. Decodiervorrichtung nach Anspruch 10, wobei das Zwischenelementwellenform-Codebuch gebildet wird, indem Sprachsignale unterschiedlicher Typen analysiert werden, wodurch ursprüngliche Zwischenelementwellenformen unterschiedlicher Typen erhalten werden, die ursprünglichen Zwischenelementwellenformen in Zeitbasis und Potenz zu den Zwischenelementwellenformabtastungen normiert werden, während Enden der ursprünglichen Zwischenelementwellenformen fixiert werden, die Identifikation szahlen jeweils an die jeweiligen Zwischenelementwellenformabtastungen angebracht werden, und die Zwischenelement wellenformabtastungen mit den Identifikationszahlen gespeichert werden.
DE69129131T 1990-05-18 1991-05-07 Einrichtung zur Sprachcodierung und Verwandte Decodierungseinrichtung Expired - Lifetime DE69129131T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2129607A JP2853266B2 (ja) 1990-05-18 1990-05-18 音声符号化装置および音声復号化装置
JP24944190A JP3227608B2 (ja) 1990-09-18 1990-09-18 音声符号化装置および音声復号化装置

Publications (2)

Publication Number Publication Date
DE69129131D1 DE69129131D1 (de) 1998-04-30
DE69129131T2 true DE69129131T2 (de) 1998-09-03

Family

ID=26464954

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69129131T Expired - Lifetime DE69129131T2 (de) 1990-05-18 1991-05-07 Einrichtung zur Sprachcodierung und Verwandte Decodierungseinrichtung

Country Status (3)

Country Link
US (1) US5228086A (de)
EP (1) EP0457161B1 (de)
DE (1) DE69129131T2 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2084323C (en) * 1991-12-03 1996-12-03 Tetsu Taguchi Speech signal encoding system capable of transmitting a speech signal at a low bit rate
JP2947012B2 (ja) * 1993-07-07 1999-09-13 日本電気株式会社 音声符号化装置並びにその分析器及び合成器
US5680512A (en) * 1994-12-21 1997-10-21 Hughes Aircraft Company Personalized low bit rate audio encoder and decoder using special libraries
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
JP3523827B2 (ja) * 2000-05-18 2004-04-26 沖電気工業株式会社 音声データ録音再生装置
EP1343143B1 (de) * 2000-12-14 2011-10-05 Sony Corporation Analyse und Synthese von Tonsignalen
JP3887598B2 (ja) * 2002-11-14 2007-02-28 松下電器産業株式会社 確率的符号帳の音源の符号化方法及び復号化方法
WO2007079574A1 (en) * 2006-01-09 2007-07-19 University Of Victoria Innovation And Development Corporation Ultra-wideband signal detection and pulse modulation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1296212B (de) * 1967-08-19 1969-05-29 Telefunken Patent Verfahren zur UEbertragung von Sprachsignalen mit verminderter Bandbreite
GB2020517B (en) * 1978-04-04 1982-10-06 King R A Methods and apparatus for encoding and constructing signal
US4680797A (en) * 1984-06-26 1987-07-14 The United States Of America As Represented By The Secretary Of The Air Force Secure digital speech communication
US4888806A (en) * 1987-05-29 1989-12-19 Animated Voice Corporation Computer speech system
US5077798A (en) * 1988-09-28 1991-12-31 Hitachi, Ltd. Method and system for voice coding based on vector quantization

Also Published As

Publication number Publication date
EP0457161A3 (en) 1992-12-09
EP0457161B1 (de) 1998-03-25
EP0457161A2 (de) 1991-11-21
DE69129131D1 (de) 1998-04-30
US5228086A (en) 1993-07-13

Similar Documents

Publication Publication Date Title
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69619284T2 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
DE69705830T2 (de) Sprachverarbeitung
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69029120T2 (de) Stimmenkodierer
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69329569T2 (de) Digitale Kodierung von Sprachsignalen
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE2753277A1 (de) Spracherkennungseinrichtung
EP0925461A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PANASONIC CORP., KADOMA, OSAKA, JP