DE69129131T2 - Einrichtung zur Sprachcodierung und Verwandte Decodierungseinrichtung - Google Patents
Einrichtung zur Sprachcodierung und Verwandte DecodierungseinrichtungInfo
- Publication number
- DE69129131T2 DE69129131T2 DE69129131T DE69129131T DE69129131T2 DE 69129131 T2 DE69129131 T2 DE 69129131T2 DE 69129131 T DE69129131 T DE 69129131T DE 69129131 T DE69129131 T DE 69129131T DE 69129131 T2 DE69129131 T2 DE 69129131T2
- Authority
- DE
- Germany
- Prior art keywords
- inter
- waveform
- framework
- waveforms
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 30
- 238000001914 filtration Methods 0.000 claims description 4
- 239000011295 pitch Substances 0.000 description 44
- 238000010586 diagram Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 230000005484 gravity Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000032823 cell division Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Diese Erfindung betrifft eine Sprachcodiervorrichtung. Die Erfindung betrifft auch eine Decodiervorrichtung, die zu der Codiervorrichtung paßt.
- Es gibt zwei Typen des Codierens eines Sprachsignals mit einer niedrigen Bit-Rate von ungefähr 4,8 kbps, das heißt einen Sprachanalyse- und -synthesecodiertyp und einen Sprachwellenformcodiertyp. Beim ersten Typ werden Frequenzcharakteristiken einer Sprache durch eine Spektrumanalyse, wie eine lineare Prädiktionsanalyse, extrahiert, und die extrahierten Frequenzcharakteristiken und die Sprachquelleninformation werden codiert. Beim zweiten Typ wird eine Redundanz einer Sprache verwendet, und es wird eine Wellenform der Sprache codiert.
- Ein Codieren nach dem Stand der Technik des ersten Typs ist für die Verwirklichung einer niedrigen Bit-Rate geeignet, jedoch für das Codieren einer Steuersprachquelle zum Synthetisieren von Sprache guter Qualität ungeeignet. Andererseits ist ein Codieren nach dem Stand der Technik des zweiten Typs für das Wiedergewinnen von Sprache guter Qualität geeignet, jedoch für die Verwirklichung einer niedrigen Bit-Rate ungeeignet. Somit erfordert entweder das Codieren nach dem Stand der Technik des ersten Typs oder das Codieren nach dem Stand der Technik des zweiten Typs einen Kompromiß zwischen einer guten Sprachqualität und einer niedrigen Bit-Rate.
- Ferner gestalten entweder das Codieren nach dem Stand der Technik des ersten Typs oder das Codieren nach dem Stand der Technik des zweiten typs die Verarbeitung leicht kompliziert und erhöhen somit leicht die Berechnungsschritte.
- Die DE-A- 1 296 212 offenbart ein Sprachcodierverfahren zur Vektorcodierung von Pitch-Perioden. Insbesondere werden Pitch-Werte bestimmt und Pitch-Perioden digitalisiert Schließlich wird die Wellenform jeder digitahsierten Pitch-Periode mit den Mustern eines Wellenformwörterbuches verglichen, und die engste Übereinstimmung liefert einen Code.
- Die US-A-4 680 797 offenbart ein Wellenformcodierverfahren. Bei diesem bekannten Verfahren werden nur diejenigen Punkte in einer Wellenform übertragen, die zum Festlegen ihrer Gesamtstruktur bedeutend sind. Der Empfänger rekonstruiert die fehlenden Punkte in der Wellenform unter Verwendung irgendeines Typs von sich annähernder Interpolation. Die anfängliche Wellenformcodierung umfaßt die Schritte eines Bestimmens und Codierens der Gesamtstruktur der Wellenform.
- Es ist eine Aufgabe dieser Erfindung, eine verbesserte Sprachcodiervorrichtung zu schaffen.
- Es ist eine andere Aufgabe dieser Erfindung, eine verbesserte Decodiervorrichtung zu schaffen.
- Diese Aufgaben werden mit der Vorrichtung erfüllt, wie sie in den Ansprüchen 1, 6, 8 und 10 beansprucht ist. Die verbleibenden Ansprüche definieren besondere Ausführungsformen.
- Fig. 1 ist ein Blockdiagramm eines Codierers und eines Decodierers gemäß einer ersten Ausführungsform dieser Erfindung.
- Fig. 2-4 sind Zeit-Bereich-Diagramme, die Beispiele von Grundwellenformen und Gerüsten bei der ersten Ausführungsform dieser Erfindung zeigen.
- Fig. 5 ist ein Zeit-Bereich-Diagramm, das ein Beispiel einer Grundwellenform und eines Gerüstes bei der ersten Ausführungsform dieser Erfindung zeigt.
- Fig. 6 ist ein Diagramm, das Beispiele von Prozessen zeigt, die in dem Codierer von Fig. 1 ausgeführt werden.
- Fig. 7 ist ein Diagramm, das Beispiele von Prozessen zeigt, die in dem Decodierer von Fig. 1 ausgeführt werden.
- Fig. 8 ist ein Diagramm, das Details eines Beispiels einer Bit-Zuordnung bei der ersten Ausführungsform dieser Erfindung zeigt.
- Fig. 9 ist ein Blockdiagramm eines Codierers und eines Decodierers gemäß einer zweiten Ausführungsform dieser Erfindung.
- Fig. 10 ist ein Diagramm, das Beispiele von Prozessen zeigt, die in dem Decodierer von Fig. 9 ausgeführt werden.
- Fig. 11 ist ein Diagramm, das Details eines Beispiels einer Bit-Zuordnung bei der zweiten Ausführungsform dieser Erfindung zeigt.
- Gemäß einer ersten Ausführungsform dieser Erfindung wird eine Detektion oder Berechnung hinsichtlich eines Durchschnitts von Wellenformen innerhalb jeweiliger Pitches eines Eingangssprachsignals vorgenommen, das während eines vorbestimmten Intervalls auftritt, und dann wird eine Bestimmung hinsichtlich eines Gerüstes (Skelett) der Durchschnitts-Ein- Pitch-Wellenform vorgenommen. Das Gerüst ist aus Elementen (Knochen) zusammengesetzt, die jeweils Impulsen entsprechen, die zu Zeitpunkten auftreten, die gleich Zeitpunkten eines Auftretens von minimalen und maximalen Pegeln der Durchschnitts-Ein-Pitch-Wellenform sind, und die Pegel aufweisen, die gleich den minimalen und maximalen Pegeln der Durchschnitts-Ein-Pitch-Wellenform sind. Das Gerüst wird codiert. Es werden in Ansprechen auf das Gerüst Zwischenelementwellenformen entschieden. Die Zwischenelementwellenformen erstrecken sich zwischen den Elementen des Gerüstes. Die Zwischenelementwellenformen werden codiert.
- Nun wird die erste Ausführungsform dieser Erfindung weiter beschrieben. Wie es in Fig. 1 gezeigt ist, empfängt ein Codierer 1 ein digitales Sprachsignal 3 von einem Analog/Digital-Wandler (nicht gezeigt), der ein analoges Sprachsignal abtastet und der Abtastungen des analogen Sprachsignals in entsprechende digitale Daten umwandelt. Das digitale Sprachsignal 3 umfaßt eine Abfolge von getrennten Rahmen, die jeweils eine vorbestimmte Zeitlänge aufweisen.
- Der Codierer 1 umfaßt einen Pitch-Analysator 4, der den Pitch innerhalb jedes Rahmens des digitalen Sprachsignals 3 detektiert. Der Pitch-Analysator 4 erzeugt Pitch-Information, die den detektierten Pitch innerhalb jedes Rahmens darstellt. Der Pitch-Analysator 4 leitet aus der Wellenform jedes Rahmens eine Durchschnittswellenform von einem Pitch ab. Der Pitch-Analysator 4 speist die abgeleitete Durchschnittswellenform in einen Gerüstsuchabschnitt 5 innerhalb des Codierers 1 als eine Grundwellenform ein.
- Der Gerüstsuchabschnitt 5 analysiert die Gestalt der Grundwellenform und entscheidet, welchen Grad ein aufzubauendes Gerüst (Skelett) hat. Der Grad eines Gerüstes ist so definiert, daß er gleich einer Hälfte der Gesamtzahl von Elementen (Knochen) des Gerüstes ist. Es ist anzumerken, daß die Elemente des Gerüstes Paare bilden, wie es später deutlich gemacht wird. Der Gerüstsuchabschnitt 5 sucht in Abhängigkeit von dem Grad des Gerüstes Signalzeitpunkte, bei denen der Absolutwert von positiven Signaldaten und der Absolutwert von negativen Signaldaten maximiert ist. Der Gerüstsuchabschnitt 5 legt die gesuchten Signalpunkte und die in Beziehung stehenden Signalwerte als Gerüstinformation (Skelettinformation) fest. Die gesuchten Signalpunkte in der Gerüstinformation stimmen mit den Zeitpunkten der Elemente des Gerüstes überein, und die in Beziehung stehenden Signalwerte in der Gerüstinformation stimmen mit den Höhen der Elemente des Gerüstes überein. Die Elemente des Gerustes stimmen mit Impulsen überein, die Spitzen und Tälern der Grundwellenform entsprechen. Zusammengefaßt wird die Grundwellenform zu einem Gerüst transformiert, und das Gerüst wird zu Gerüstinformation codiert.
- Es wird nun ferner eine Beschreibung des Gerüstsuchabschnitts 5 angegeben. Die Grundwellenformen von einem Pitch sind den Signalgestalten ähnlich, die mit einer Impulsantwort in Beziehung stehen. Die Grundwellenform von einem Pitch hängt von dem Sprecher und den Sprechbedingungen ab. Somit ist es notwendig, um eine Grundwellenform von einem Pitch durch das Gerüst darzustellen, vorher den Grad des Gerüstes, das heißt die Zahl von Elementen des Gerüstes, in Abhängigkeit von den Charakteristiken der Grundwellenform zu entscheiden. Beispielsweise wird der Grad des Gerüstes oder die Zahl der Elemente des Gerüstes für eine Grundwellenform, die einem sanft ansteigenden Hügel ähnlich ist, klein festgelegt. Der Grad des Gerüstes oder die Zahl der Elemente des Gerüstes wird für eine Grundwellenform, bei der sich ein Signalwert häufig nach oben und nach unten bewegt, groß festgelegt.
- Der Gerüstsuchabschnitt 5 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Gerüstsuchabschnitt 5 arbeitet gemäß einem in dem ROM gespeicherten Programm. Dieses Programm weist ein Segment für die Suche eines Gerüstes auf. Durch Bezugnahme auf das Gerüstsuchsegment des Programms führt der Gerüstsuchabschnitt 5 Schritte (1) - (8) aus, die später gezeigt werden. Bei der Beschreibung des Gerüstsuchsegments des Programms bezeichnet Xi (i= 1, L) Signalwerte von unterschiedlichen Signalpositionen, die eine Grundwellenform von einem Pitch bilden, wobei i eine Signalposition darstellt, die sich von 1 bis L verändert, und L die Zeitlänge der Grundwellenform darstellt; D bezeichnet einen maximalen Grad eines Gerüstes; K bezeichnet einen Satz Bereiche der Unterdrückung einer Suche, wobei Elemente des Satzes durch die Positionen 1 bis L dargestellt sind; M bezeichnet die Anzahl der Male der Ausführung eines gegebenen Teils der Suche; und Hi bezeichnet Gerüstinformation, die als "Hi = (Ax, An, Ix, In)" definiert ist, wobei Ax einen maximalen Signalwert darstellt, An einen minimalen Signalwert darstellt, Ix eine Signalposition darstellt, bei welcher der maximale Signalwert Ax auftritt, und In eine Signalposition darstellt, bei welcher der minimale Signalwert An auftritt.
- (1) Es wird eine Initialisierung vorgenommen, und es werden Anfangswerte festgelegt. Genauer wird der Satz K als "K=Ko" initialisiert, wobei Ko einen Null-Satz bezeichnet. Die Suchausführungszahl M wird mit Null initialisiert. Dem Schritt (1) folgt der Schritt (2).
- (2) Die Suchausführungszahl M wird mit "M=M+1" aktualisiert. Dem Schritt (2) folgt der Schritt (3).
- (3) Ein maximaler Signalwert Xmax und ein minimaler Signalwert Xmin werden wie folgt entschieden.
- Xmax = max{Xi: i=1, LiK} = Xi1
- Xmin = min{Xi: i=1, LiK} = Xi2
- Zusätzlich wird Gerüstinformation HM wie folgt entschieden.
- HM = (Xmax, Xmin, i1, i2)
- Dem Schritt (3) folgt der Schritt (4).
- (4) Es wird eine Detektion hinsichtlich der Positionen von Intervallen vorgenommen, die bei den Positionen i1 und i2 zentriert sind, und bei denen sich die Vorzeichen der Signalwerte Xi nicht ändern. Die detektierten Positionen werden zu dem Satz K als Satzelemente addiert, die Unterdrükkungsbereiche darstellen. Dem Schritt (4) folgt der Schritt (5).
- (5) Es wird eine Entscheidung getroffen, ob die Suchausführungszahl M gleich dem maximalen Gerüstgrad ist oder nicht. Zusätzlich wird eine Entscheidung getroffen, ob der Satz K alle Positionen 1 bis L enthält oder nicht. Wenn die Suchausführungszahl M gleich dem maximalen Gerüstgrad ist, oder wenn der Satz K alle Positionen 1 bis L enthält, folgt dem Schritt (5) der Schritt (6). Sonst wird ein Rücksprung zu Schritt (2) vorgenommen.
- (6) Die Positionsinformation wird aus der Gerüstinformation Hj(j=1, M) extrahiert, und die extrahierten Positionen werden gemäß der Größe angeordnet, das heißt gemäß der Zeitbasisrichtung. Dem Schritt (6) folgt der Schritt (7).
- (7) Die bei dem Schritt (6) extrahierten Positionen werden nacheinander in der Reihenfolge von der Kleinsten zur Größten geprüft. Genauer wird eine Prüfung vorgenommen, ob jede extrahierte Position mit einer Position übereinstimmt, bei welcher der maximale Signalwert oder der minimale Signalwert auftritt, das heißt, ob jede extrahierte Position dem maximalen Signalwert oder dem minimalen Signalwert entspricht oder nicht. Wenn zwei aufeinanderfolgende Positionen den maximalen Signalwerten entsprechen oder wenn zwei aufeinanderfolgende Positionen den minimalen Signalwerten entsprechen, wird die Suchausführungszahl M als "M=M-1" dekrementiert, und dann wird ein Rücksprung zu dem Schritt (6) vorgenommen. Wenn die extrahierten Positionen, die den maximalen Signalwerten entsprechen, sich mit den extrahierten Positionen abwechseln, die den minimalen Signalwerten entsprechen, folgt dem Schritt (7) der Schritt (8). Wenn die extrahierte Position, die dem maximalen Signalwert entspricht, sich mit der extrahierten Position abwechselt, die dem minimalen Signalwert entspricht, folgt auch dem Schritt (7) der Schritt (8).
- (8) Die Suchausführungszahl M ist als ein Endgerüstgrad definiert. Die Gerüstinformation Hj(j=1, M) ist als Endgerüstinformation definiert. Die Suche wird beendet.
- Die Fig. 2-4 zeigen Beispiele von Grundwellenformen von einem Pitch und Gerüstinformation, die durch den Gerüstsuchabschnitt 5 erhalten wird. In den Fig. 2-4 bezeichnen durchgezogene Kurven Grundwellenformen von einem Pitch, während vertikal gestrichelte Linien Gerüstinformationen bezeichnen, die maximale und minimale Signalwerte und Signalpunkte umfassen, bei denen die maximalen und minimalen Signalwerte auftreten. Bei dem Beispiel von Fig. 2 ist der Gerüstgrad gleich 1. Bei dem Beispiel von Fig. 3 ist der Gerüstgrad gleich 2. Bei dem Beispiel von Fig. 4 ist der Gerüstgrad gleich 3.
- Fig. 5 zeigt genauer ein Beispiel einer Grundwellenform und von Gerüstinformation, die durch den Gerüstsuchabschnitt 5 erhalten werden. In Fig. 5 bezeichnen die Zeichen A11, A12, A21 und A22 die Gerüstpositionsinformation, und die Zeichen B11, B12, B21 und B22 bezeichnen die Gerüstsignalwertinformation.
- Der Codierer 1 umfaßt eine Zwischenelementwellenform-Auswahleinrichtung 6, welche die Gerüstinformation von dem Gerüstsuchabschnitt 5 empfängt. Die Zwischenelementwellenform-Auswahleinrichtung 6 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Die Zwischenelementwellenform-Auswahleinrichtung 6 führt die nachstehend beschriebenen Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Es wird nun eine detaillierte Beschreibung der Zwischenelementwellenform-Auswahleinrichtung 6 unter Bezugnahme auf Fig. 6 angegeben, die ein Beispiel mit einem Gerüstgrad gleich 1 zeigt. Zuerst entscheidet die Zwischenelementwellenform-Auswahleinrichtung 6 Grundzwischenelementwellenformen D1 und D2 innerhalb eines Pitches auf der Grundlage der Gerüstinformation, die von dem Gerüstsuchabschnitt 5 eingespeist wird. Die Grundzwischenelementwellenform D1 stimmt mit einem Wellenformsegment überein, das sich zwischen den Punkten eines Maximalwertsignals C1 und eines anschließenden Minimalwertsignals C2 erstreckt. Die Grundzwischenelementwellenform D2 stimmt mit einem Wellenformsegment überein, das sich zwischen den Punkten des Minimalwertsignals C2 und eines anschließenden Maximalwertsignals C1 erstreckt. Als zweites werden die Grundzwischenelementwellenformen D1 und D2 jeweils in der Zeitbasis und Potenz zu Wellenformen E1 bzw. E2 normiert. Während der Normierung sind die Enden der Wellenformen D1 und D2 fixiert.
- Die Zwischenelementwellenform-Auswahleinrichtung 6 vergleicht die normierte Wellenform E1 mit vorbestimmten Zwischenelementwellenformabtastungen, die jeweils durch unterschiedliche Zahlen (Codes) gekennzeichnet sind. Durch Bezugnahme auf die Ergebnisse des Vergleichs wählt die Zwischenelementwellenform-Auswahleinrichtung 6 eine der Zwischenelementwellenformabtastungen aus, die am nächsten bei der normierten Wellenform E1 liegt. Die Zwischenelementwellenform-Auswahleinrichtung 6 gibt die Identifikationszahl (Code) N der ausgewählten Zwischenelementwellenformabtastung als Zwischenelementwellenforminformation aus. Ähnlich vergleicht die Zwischenelementwellenform-Auswahleinrichtung 6 die normierte Wellenform E2 mit den vorbestimmten Zwischenelementwellenformabtastungen. Durch Nachschlagen der Ergebnisse des Vergleichs wählt die Zwischenelementwellenform-Auswahleinrichtung 6 eine der Zwischenelementwellenformabtastungen aus, die am nächsten bei der normierten Wellenform E2 liegt. Die Zwischenelementwellenform-Auswahleinrichtung 6 gibt die Identifikationszahl (Code) M der ausgewählten Zwischenelementwellenformabtastung als Zwischenelementwellenforminformation aus.
- Die Zwischenelementwellenformabtastungen werden in einem Zwischenelementwellenform-Codebuch 7 innerhalb des Codierers 1 gespeichert und von der Zwischenelementwellenform-Auswahleinrichtung 6 ausgelesen. Das Zwischenelementwellenform-Codebuch 7 ist in einer Speichereinrichtung, wie einem ROM gebildet. Die Zwischenelementwellenformabtastungen werden wie folgt vorbestimmt. Es werden verschiedene Sprachtypen analysiert und es werden Grundzwischenelementwellenformen von vielen Sorten erhalten. Die Grundzwischenelementwellenformen werden in der Zeitbasis und Potenzen zu Zwischenelementwellenformabtastungen normiert, die jeweils durch unterschiedliche Zahlen (Codes) identifiziert sind.
- Ferner wird das Zwischenelementwellenform-Codebuch 7 beschrieben. Wenn die Größe des Zwischenelementwellenform-Codebuches 7 zunimmt, nimmt die Codiersignalverzerrung ab. Um eine hohe Sprachqualität zu erlangen, ist es erwünscht, daß die Größe des Zwischenelementwellenform-Codebuches 7 groß ist. Um eine niedrige Bit-Rate zu erlangen, ist es andererseits erwünscht, daß die Bit-Zahl der Zwischenelementwellenforminformation klein ist. Um eine Echtzeit-Arbeitsweise des Codierers 1 zu erlangen, ist es ferner erwünscht, daß die Zahl von Berechnungsschritten für die Anpassung an das Zwischenelementwellenform-Codebuch 7 klein ist. Deshalb weist ein gewünschtes Zwischenelementwellenform-Codebuch 7 eine kleine Größe auf und verursacht nur eine kleine Codiersignalverzerrung.
- Das Zwischenelementwellenform-Codebuch 7 wird unter Verwendung eines Computers hergestellt, der gemäß einem Programm arbeitet. Der Computer führt durch Bezugnahme auf das Programm die folgenden Prozesse aus. Ein ausreichend großer Satz an Zwischenelementwellenformabtastungen wird einem Gruppierungsprozeß unterzogen, so daß die euklidischen Entfernungen zwischen dem Zentroid (dem Schwerpunkt) und den Abtastungen minimiert wird. Infolge des Gruppierungsprozesses wird der Satz in Gruppen getrennt, deren Zahl von der Größe des zu bildenden Zwischenelementwellenform-Codebuches 7 abhängt. Das abschließende Zwischenelementwellenform-Codebuch 7 wird durch die Zentroide (die Schwerpunkte) der Gruppen gebildet. Der Gruppierungsprozeß ist vom Zellteilungstyp. Der Gruppierungsprozeß weist die folgenden Schritte (1) - (8) auf.
- (1) Die Gruppenzahl K wird mit 1 als "K=1" initialisiert. Dem Schritt (1) folgt der Schritt (2).
- (2) Der Zentroid oder die Zentroide der K Gruppe oder Gruppen werden durch einen einfachen Mittelungsprozeß berechnet. Für jede der Gruppen werden die euklidischen Entfernungen zwischen dem Zentroid und allen Abtastungen in der Gruppe berechnet, und das Maximum der berechneten euklidischen Entfernungen wird als eine Verzerrung der Gruppe festgelegt. Dem Schritt (2) folgt der Schritt (3).
- (3) Es werden zwei neue Zentroide um den Zentroid der Gruppe herum gebildet, der aus der/den K Gruppe oder Gruppen ausgewählt wird und der die größte Verzerrung aufweist. Die neuen Zentroide werden die Kerne der Zellteilung bilden. Dem Schritt (3) folgt der Schritt (4).
- (4) Es wird ein Gruppierungsprozeß auf der Grundlage der K+1 Zentroide vorgenommen, und die Zentroide werden neu berechnet. Dem Schritt (4) folgt der Schritt (5).
- (5) Wenn eine Null-Gruppe oder Null-Gruppen vorhanden sind, werden der Zentroid oder die Zentroide der Null-Gruppe oder Null-Gruppen gelöscht, und es wird ein Rücksprung zu dem Schritt (3) vorgenommen. Bei der Abwesenheit einer Null-Gruppe folgt dem Schritt (5) der Schritt (6).
- (6) Die Verzerrungen der K+1 Gruppen werden ähnlich dem Schritt (2) berechnet. Eine Schwankung der Summe der berechneten Verzerrungen wird mit einem vorbestimmten kleinen Schwellenwert verglichen. Wenn die Schwankung gleich oder kleiner als der Schwellenwert ist, folgt dem Schritt (6) der Schritt (7). Wenn die Schwankung größer als die Schwelle ist, wird ein Rücksprung zu dem Schritt (4) vorgenommen.
- (7) Wenn die Zahl K+1 keine Zielgruppenzahl erreicht, wird die Zahl K als "K=K+1" inkrementiert, und es wird ein Rücksprung zu dem Schritt (2) vorgenommen. Wenn die Zahl K+1 die Zielgruppengröße erreicht, folgt dem Schritt (7) der Schritt (8).
- (8) Die Zentroide aller Gruppen werden berechnet, und es wird ein abschließendes Zwischenelementwellenform-Codebuch 7 gebildet.
- Ein Decodierer 2 umfaßt einen Gerüstbildungsabschnitt 8, einen Wellenformsynthetisierer 9, und ein Zwischenelementwellenform-Codebuch 10. Der Decodierer 2 wird ferner unter Bezugnahme auf Fig. 7 beschrieben, die ein Beispiel mit einem Rahmengrad gleich 1 zeigt.
- Der Gerüstbildungsabschnitt 8 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Gerüstbildungsabschnitt 8 führt die nachstehend beschriebenen Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Der Gerüstbildungsabschnitt 8 empfängt die Pitch-Information von dem Pitch-Analysator 4 innerhalb des Codierers 1 und empfängt auch die Gerüstinformation von dem Gerüstsuchabschnitt 5 innerhalb des Codierers 1. Der Gerüstbildungsabschnitt 8 bildet Elemente C1 und C2 eines Gerüstes auf der Grundlage der empfangenen Pitch-Information und der empfangenen Gerüstinformation. Die gebildeten Elemente C1 und C2 des Gerüstes sind im Teil (a) von Fig. 7 gezeigt.
- Der Wellenformsynthetisierer 9 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Wellenformsynthetisierer 9 führt die nachstehend beschriebenen Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Der Wellenformsynthetisierer 9 empfängt die Zwischenelementwellenforminformation N und M von der Zwischenelementwellenform-Auswahleinrichtung 6 innerhalb des Codierers 1. Der Wellenformsynthetisierer 9 wählt in Ansprechen auf die Zwischenelementwellenforminformation N und M Grundzwischenelementwellenformen E1 und E2 aus Wellenformabtastungen in dem Zwischenelementwellenform-Codebuch 10 aus, wie es im Teil (b) von Fig. 7 gezeigt ist. Das Zwischenelementwellenform-Codebuch 10 weist die gleiche Konstruktion und Struktur wie das Zwischenelementwellenform-Codebuch 7 innerhalb des Codierers 1 auf. Der Wellenformsynthetisierer 9 empfängt die Gerüstelemente C1 und C2 von dem Gerüstbildungsabschnitt 8. Der Wellenformsynthetisierer 9 wandelt die ausgewählten Grundzwischenelementwellenformen E1 und E2 in der Zeitbasis und Potenz in Abhängigkeit von den Gerüstelementen C1 und C2 um, so daß die resultierenden Zwischenelementwellenformen zwischen den Gerüstelementen C1 und C2 ausgedehnt sein werden, um eine Endwellenform F zu synthetisieren und wiederzugewinnen, wie es in den Teilen (c) und (d) von Fig. 7 gezeigt ist. Die synthetisierte Wellenform F wird als ein Ausgangssprachsignal 11 verwendet.
- Es wurden Simulationsexperimente wie folgt durchgeführt. Zu codierende Sprachdaten gingen von der Wettervorhersage einer weiblichen Ansagerin japanischer Sprache aus, die in japanischen Romaji-Zeichen ausgedrückt waren als: "Tenkiyohou. Kishouchou yohoubu gogo 1 ji 30 pun happyo no tenkiyohou o oshirase shimasu. Nihon no nangan niwa, touzai ni nobiru zensen ga teitaishi, zensenjou no Hachijojima no higashi ya, Kitakyushuu no Gotou Rettou fukin niwa teikiatsu ga atte, touhokutou ni susunde imasu". Genauer wurde die ursprünglich japanische Sprache in ein elektrisches Analogsignal umgewandelt, und das analoge Signal wurde mit einer Frequenz von 8 kHz abgetastet, und die resultierenden Abtastungen wurden in entsprechende digitale Sprachdaten umgewandelt. Die Dauer des ursprünglichen japanischen Vortrags betrug ungefähr 20 Sekunden. Die Sprachdaten wurden für jeden Rahmen analysiert, der eine Periode von 20 Millisekunden aufwies. Ein Satz Zwischenelementwellenformabtastungen wurde durch Analysieren von Sprachdaten erhalten, die von einem 10-sekündigen Vortrag ausgingen, der von 50 Männern und Frauen gesprochen wurde, die sich von der zuvor erwähnten weiblichen Ansagerin unterschieden. Die Zwischenelementwellenform-Codebücher 7 und 10 wurden auf der Grundlage des Satzes Zwischenelementwellenformabtastungen gemäß einem Gruppierungsprozeß gebildet. Die Gesamtzahl der Zwischenelementabtastungen betrug gleich ungefähr 20 000.
- Die Obergrenze des Gerüstgrades war auf 3 festgelegt. Um die Bit-Rate weiter zu verkleinern, wurde die Bit-Zuordnung adaptiv in Abhängigkeit von dem Gerüstgrad vorgenommen. Die 2-Grad-Gerüstpositionsinformation, die 3-Grad-Gerüstpositionsinformation, und die 3-Grad-Gerüstverstärkungsinformation wurden durch Nachschlagen in dem Zwischenelementwellenform-Codebuch 7 und unter Verwendung mehrerer Informationsstücke als Vektoren codiert. Dieses Codieren der Information war dem Codieren der Zwischenelementwellenformen ähnlich. Dieses Codieren der Information diente dazu, sparsam mit der Bit-Rate umzugehen. Die Größe des Zwischenelementwellenform-Codebuches 7, um die Zwischenelementwellenforminformation zu erhalten, wurde adaptiv in Abhängigkeit von dem Gerüstgrad und der Länge der Wellenform verändert, so daß eine kurze Wellenform durch Nachschlagen in einem kleinen Zwischenelementwellenform-Codebuch 7 codiert wurde, und eine lange Wellenform durch Nachschlagen in einem großen Zwischenelementwellenform-Codebuch 7 codiert wurde. Die Bit-Zuordnung pro Sprachdateneinheit (20 Millisekunden) war konstruiert, wie es in Fig. 8 gezeigt ist.
- Aus den Ergebnissen der Experimente der Codierung, die unter den vorstehend erwähnten Bedingungen durchgeführt wurden, wurde herausgefunden, daß trotz einer niedrigen Bit-Rate eine glatte und natürliche Sprache synthetisiert wurde. Es wurde ein S/N-Verhältnis von ungefähr 10 dB erhalten. Es wurden ähnliche Experimente bezüglich anderer Sprachen als die vorstehend erwähnte japanische Sprache vorgenommen. Aus den Ergebnissen dieser Experimente wurde auch bestätigt, daß S/N-Verhältnisse von 7-11 dB erhalten wurden und daß die Sprachqualitäten gut waren.
- Wie es in Fig. 9 gezeigt ist, empfängt ein Codierer 101 ein digitales Sprachsignal 103 von einem Analog/Digital-Wandler (nicht gezeigt), der ein analoges Sprachsignal abtastet, und der Abtastungen des analogen Sprachsignals in entsprechende digitale Daten umwandelt. Das digitale Sprachsignal 103 umfaßt eine Reihenfolge von getrennten Rahmen, die jeweils eine vorbestimmte Zeitlänge aufweisen.
- Der Codierer 101 umfaßt ein LSP-Parametercodebuch 104, einen Parametercodierabschnitt 105, und einen Linearprädiktionsanalysator 106. Der Linearprädiktionsanalysator 106 unterzieht das digitale Sprachsignal 103 einer linearen Prädiktionsanalyse und berechnet dadurch Koeffizienten einer linearen Prädiktion für jeden Rahmen. Der Parametercodierabschnitt 105 wandelt die berechneten Koeffizienten einer linearen Prädiktion in LSP-Parameter um, die gute Eigenschaften zur Komprimierung und Interpolation aufweisen. Ferner quantisiert der Parametercodierabschnitt 105 die LSP-Parameter durch Nachschlagen in dem Parametercodebuch 104 vektoriell und überträgt die resultierenden Daten als Parameterinformation an einen Decodierer 102.
- Das Parametercodebuch 104 enthält vorbestimmte LSP-Parameterreferenzen. Das Parametercodebuch 104 ist in einer Speichereinrichtung, wie einem ROM, vorgesehen. Das Parametercodebuch 104 wird unter Verwendung eines Computers hergestellt, der gemäß einem Programm arbeitet. Der Computer führt die folgenden Prozesse durch Bezugnahme auf das Programm aus. Verschiedene Sprachtypen werden einer linearen Prädiktionsanalyse unterzogen, und dadurch wird eine Population von LSP-Parametern gebildet. Die Population der LSP-Parameter wird einem Gruppierungsprozeß unterzogen, so daß die euklidischen Entfernungen zwischen dem Zentroid (dem Schwerpunkt) und den Abtastungen minimiert wird. Infolge des Gruppierungsprozesses wird die Population in Gruppen getrennt, deren Zahl von der Größe eines zu bildenden Parametercodebuches 104 abhängt. Durch die Zentroide (die Schwerpunkte) der Gruppen wird ein Endparametercodebuch 104 gebildet. Dieser Gruppierungsprozeß ist dem Gruppierungsprozeß ähnlich, der beim Bilden des Zwischenelementwellenform-Codebuches 7 bei der Ausführungsform der Fig. 1-8 verwendet wurde.
- Der Codierer 101 umfaßt einen Pitch-Analysator 107, einen Gerüstsuchabschnitt 108, einen Zwischenelementwellenform-Codierabschnitt 109 und ein Zwischenelementwellenform-Codebuch 110. Der Pitch-Analysator 107 detektiert den Pitch innerhalb jedes Rahmens des digitalen Sprachsignals 103. Der Pitch-Analysator 107 erzeugt Pitch-Information, die den detektierten Pitch innerhalb jedes Rahmens darstellt. Der Pitch-Analysator 107 überträgt die Pitch-Information an den Decodierer 102. Der Pitch- Analysator 107 leitet aus der Wellenform jedes Rahmens eine Durchschnittswellenform von einem Pitch ab. Die Durchschnittswellenform wird als eine Grundwellenform bezeichnet. Der Pitch-Analysator 107 unterzieht die Grundwellenform einem Filterungsprozeß unter Verwendung der Koeffizienten einer linearen Prädiktion, die von dem Linearprädiktionsanalysator 106 eingespeist werden, so daß der Pitch-Analysator 107 eine Grundrestwellenform von einem Pitch ableitet. Der Pitch-Analysator 107 speist die Grundrestwellenform in den Gerüstsuchabschnitt 108 ein.
- Der Gerüstsuchabschnitt 108 analysiert die Gestalt der Grundrestwellenform und entscheidet, welchen Grad ein aufzubauendes Gerüst (Skelett) aufweist. Der Grad eines Gerüstes ist so definiert, daß er gleich einer Hälfte der Gesamtzahl der Elemente des Gerüstes ist. Es ist anzumerken, daß die Elemente des Gerüstes Paare bilden, wie es später deutlich gemacht wird. Der Gerüstsuchabschnitt 108 sucht in Abhängigkeit von dem Grad des Gerüstes Signalzeitpunkte, bei denen der Absolutwert von positiven Signaldaten und der Absolutwert von negativen Signaldaten maximiert sind. Der Gerüstsuchabschnitt 108 definiert die gesuchten Signalpunkte und in Beziehung stehenden Signalwerte als Gerüstinformation (Skelettinformation). Der Gerüstsuchabschnitt 108 speist die Gerüstinformation in den Zwischenelementwellenform-Codierabschnitt 109 und den Decodierer 102 ein. Der Gerüstsuchabschnitt 108 ist im Grunde dem Gerüstsuchabschnitt 5 bei der Ausführungsform der Fig. 1-8 ähnlich.
- Der Zwischenelementwellenform-Codierabschnitt 109 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Zwischenelementwellenform-Codierabschnitt 109 führt die folgenden Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Zuerst entscheidet der Zwischenelementwellenform-Codierabschnitt 109 Grundzwischenelementwellenformen innerhalb eines Pitches auf der Grundlage der Gerüstinformation, die von dem Gerüstsuchabschnitt 108 eingespeist wird. Die Grundzwischenelementwellenformen stimmen mit Wellenformsegmenten überein, die sich zwischen den Elementen der Grundrestwellenform erstrecken. Als zweites werden die Grundzwischenelementwellenformen in der Zeitbasis und Potenz normiert. Während der Normierung sind die Enden der Grundzwischenelementwellenformen fixiert. Der Zwischenelementwellenform-Codierabschnitt 109 vergleicht die normierten Wellenformen mit vorbestimmten Zwischenelementwellenformabtastungen, die jeweils durch unterschiedliche Zahlen identifiziert sind. Durch Nachschlagen der Ergebnisse des Vergleichs wählt der Zwischenelementwellenform-Codierabschnitt 109 mindestens zwei der Zwischenelementwellenformabtastungen aus, die am nächsten bei den normierten Wellenformen liegen. Der Zwischenelementwellenform-Codierabschnitt 109 gibt die Identifikationszahlen der ausgewählten Zwischenelementwellenformabtastungen als Zwischenelementwellenforminformation aus. Der Zwischenelementwellenform-Codierabschnitt 109 ist im Grunde der Zwischenelementwellenform-Auswahleinrichtung 6 bei der Ausführungsform der Fig. 1-8 ähnlich.
- Die Zwischenelementwellenformabtastungen werden in dem Zwischenelementwellenform-Codebuch 110 gespeichert und von dem Zwischenelementwellenform-Codierabschnitt 109 ausgelesen. Das Zwischenelementwellenform-Codebuch 110 ist in einer Speichereinrichtung, wie einem ROM, vorgesehen. Die Zwischenelementwellenformabtastungen werden wie folgt vorbestimmt. Es werden verschiedene Sprachtypen analysiert und grundlegende Zwischenelementwellenformen vieler Sorten erhalten. Die Grundzwischenelementwellenformen werden in der Zeitbasis und Potenz zu Zwischenelementwellenformabtastungen normiert, die jeweils durch unterschiedliche Zahlen identifiziert sind. Das Zwischenelementwellenform-Codebuch 110 ist dem Zwischenelementwellenform-Codebuch 7 bei der Ausführungsform der Fig. 1-8 ähnlich.
- Der Decodierer 102 umfaßt einen Gerüstbildungsabschnitt 111, einen Grundrestwellenformsynthetisierer 112 und ein Zwischenelementwellenform-Codebuch 113. Der Decodierer 102 wird ferner unter Bezugnahme auf die Fig. 9 und Fig. 10 beschrieben, die ein Beispiel mit einem Rahmengrad gleich 1 zeigt.
- Der Gerüstbildungsabschnitt 111 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Gerüstbildungsabschnitt 111 führt die nachstehend beschriebenen Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Der Gerüstbildungsabschnitt 111 empfängt die Pitch-Information von dem Pitch-Analysator 107 innerhalb des Codierers 101, und empfängt auch die Gerüstinformation von dem Gerüstsuchabschnitt 108 innerhalb des Codierers 101. Der Gerüstbildungsabschnitt 111 bildet Elemente C1 und C2 eines Gerüstes auf der Grundlage der empfangenen Pitch-Information und der empfangenen Gerüstinformation. Die gebildeten Elemente C1 und C2 des Gerüstes sind im oberen Teil von Fig. 10 gezeigt.
- Der Grundrestwellenformsynthetisierer 112 umfaßt einen digitalen Signalprozessor mit einem Verarbeitungsabschnitt, einem ROM und einem RAM. Der Grundrestwellenfoymsynthetisierer 112 führt die nachstehend beschriebenen Prozesse gemäß einem in dem ROM gespeicherten Programm aus. Der Grundrestwellenformsynthetisierer 112 empfängt die Zwischenelementwellenforminformation N und M von dem Zwischenelementwellenform-Codierabschnitt 109 innerhalb des Codierers 101. Der Grundrestwellenformsynthetisierer 112 wählt in Ansprechen auf die Zwischenrahmenwellenforminformation N und M Grundzwischenelementwellenformen E1 und E2 aus Wellenformabtastungen in dem Zwischenelementwellenform-Codebuch 113 aus, wie es in Fig. 10 gezeigt ist. Das Zwischenelementwellenform-Codebuch 113 weist die gleiche Konstruktion und Struktur wie das Zwischenelementwellenform-Codebuch 110 innerhalb des Codierers 101 auf. Der Grundrestwellenformsynthetisierer 112 empfängt die Gerüstelemente C1 und C2 von dem Gerüstbildungsabschnitt 111. Der Grundrestwellenformsynthetisierer 112 wandelt die ausgewählten Grundzwischenelementwellenformen E1 und E2 in der Zeitbasis und Potenz in Abhängigkeit von den Gerüstelementen C1 und C2 um, so daß die resultierenden Zwischenelementwellenformen zwischen den Gerüstelementen C1 und C2 ausgedehnt sein werden, um eine Grundrestwellenform F zu synthetisieren und wiederzugewinnen, wie es im Zwischenteil von Fig. 10 gezeigt ist.
- Der Decodierer 102 umfaßt ein LSP-Parametercodebuch 114, einen Parameterdecodierabschnitt 115, einen Grundwellenformdecodierabschnitt 116 und einen Wellenformdecodierabschnitt 117. Der Parameterdecodierabschnitt 115 empfängt die Parameterinformation von dem Parametercodierabschnitt 105 innerhalb des Codierers 101. Der Parameterdecodierabschnitt 115 wählt in Ansprechen auf die Parameterinformation einen von Sätzen von LSP-Parametern in dem Parametercodebuch 114 aus. Der Parameterdecodierabschnitt 115 speist die ausgewählten LSP-Parameter in den Grundwellenformdecodierabschnitt 116 ein. Das Parametercodebuch 114 weist die gleiche Konstruktion und Struktur wie das Parametercodebuch 104 innerhalb des Codierers 101 auf.
- Der Grundwellenformdecodierabschnitt 116 empfängt die Grundrestwellenform von dem Grundrestwellenformsynthetisierer 112. Der Grundwellenformdecodierab schnitt 116 unterzieht die Grundrestwellenform einem Filterungsprozeß unter Verwendung der LSP-Parameter, die von dem Parameterdecodierabschnitt 115 eingespeist werden. Dadurch wird die Grundrestwellenform F in eine entsprechende Grundwellenform G umgewandelt, wie es in Fig. 10 gezeigt ist. Der Grundwellenformdecodierabschnitt 116 gibt die Grundwellenform G an den Wellenformdecodierabschnitt 117 aus. Der Wellenformdecodierabschnitt 117 multipliziert die Grundwellenform G und ordnet die Grundwellenformen G in einer Reihenfolge an, die sich zwischen den Enden eines Rahmens erstreckt. Wie es in Fig. 10 gezeigt ist, bildet die Reihenfolge der Grundwellenformen G eine abschließend wiedergewonnene Sprachwellenform H. Die abschließend wiedergewonnene Sprachwellenform H wird als ein Ausgangssignal 118 verwendet.
- Es wurden Simulationsexperimente wie folgt durchgeführt. Zu codierende Sprachdaten gingen von der Wettervorhersage einer weiblichen Ansagerin japanischer Sprache aus, die in japanischen Romaji-Zeichen ausgedrückt waren als: "Tenkiyohou. Kishouchou yohoubu gogo 1 ji 30 pun happyo no tenkiyohou o oshirase shimasu. Nihon no nangan niwa, touzai ni nobiru zensen ga teitaishi, zensenjou no Hachijojima no higashi ya, Kitakyushuu no Gotou Rettou fukin niwa teikiatsu ga atte, touhokutou ni susunde imasu". Genauer wurde der ursprünglich japanische Vortrag in ein elektrisches Analogsignal umgewandelt, und das analoge Signal wurde mit einer Frequenz von 8 kHz abgetastet, und die resultierenden Abtastungen wurden in entsprechende digitale Sprachdaten umgewandelt. Die Dauer des ursprünglichen japanischen Vortrags betrug ungefähr 20 Sekunden. Die Sprachdaten wurden für jeden Rahmen analysiert, der eine Periode von 20 Millisekunden aufwies. Das Fenster dieser Analyse war auf 40 Millisekunden festgelegt. Die Größenordnung der linearen Prädiktionsanalyse war auf 10 festgelegt. Die LSP-Parameter wurden unter Verwendung von 128 DFT gesucht. Die Größe der Parametercodebücher 104 und 114 war auf 4 096 festgelegt. Es wurde ein Satz Zwischenelementwellenformabtastungen erhalten, indem Sprachdaten analysiert wurden, die von einem 10-sekündigen Vortrag ausgingen, der von 50 Männern und Frauen gesprochen wurde, die sich von der vorstehend erwähnten weiblichen Ansagerin unterschieden. Die Zwischenelementwellenform-Codebücher 110 und 113 wurden auf der Grundlage des Satzes Zwischenelementwellenformabtastungen gemäß einem Gruppierungsprozeß gebildet. Die Gesamtzahl der Zwischenelementabtastungen betrug gleich ungefähr 20 000.
- In dem Gerüstsuchabschnitt 108 war die Obergrenze des Gerüstgrades auf 3 festgelegt. Die 2-Grad-Gerüstpositionsinformation, die 3-Grad- Gerüstpositionsinformation und die 3-Grad-Gerüstverstärkungsinformation wurden durch Nachschlagen in dem Zwischenelementwellenform- Codebuch 110 und unter Verwendung mehrerer Informationsstücke als Vektoren codiert. Dieses Codieren der Information war dem Codieren der Zwischenelementwellenformen ähnlich. Dieses Codieren der Information diente dazu, sparsam mit der Bit-Rate umzugehen. Um die Bit-Rate weiter zu verkleinern, wurde adaptiv eine Bit-Zuordnung in Abhängigkeit von dem Gerüstgrad vorgenommen. Die Größe des Zwischenelementwellenform-Codebuches 110, um die Zwischenelementwellenforminformation zu erhalten, wurde adaptiv in Abhängigkeit von dem Gerüstgrad und der Länge der Wellenform verändert, so daß eine kurze Wellenform durch Nachschlagen in einem kleinen Zwischenelementwellenform-Codebuch 110 codiert wurde, und eine lange Wellenform durch Nachschlagen in einem großen Zwischenelementwellenform-Codebuch 110 codiert wurde.
- In dem Wellenformdecodierabschnitt 117 innerhalb des Decodierers 102 wurden die Grundwellenformen unter Verwendung eines dreieckigen Fensters von 40 Millisekunden angeordnet, so daß sie glatt miteinander verbunden waren.
- Die Bit-Zuordnung pro Sprachdateneinheit (20 Millisekunden) war konstruiert, wie es in Fig. 11 gezeigt ist.
- Aus den Ergebnissen der Experimente der Codierung, die unter den vorstehend erwähnten Bedingungen durchgeführt wurden, wurde herausgefunden, daß trotz einer niedrigen Bit-Rate eine glatte und natürliche Sprache synthetisiert wurde. Es wurde ein S/N-Verhältnis von ungefähr 10 dB erhalten. Ähnliche Experimente wurden bezüglich anderer Sprachen als die vorstehend erwähnte japanische Sprache vorgenommen. Aus den Ergebnissen dieser Experimente wurde auch bestätigt, daß S/ N-Verhältnisse von 5-10 dB erhalten wurden und daß die Sprachqualitäten gut waren. Es wurden insbesondere gute Artikulationen erhalten.
Claims (11)
1. Sprachcodiervorrichtung, umfassend:
Mittel zum Analysieren eines Pitches eines Eingangssprachsignals
und zum Ableiten einer Grundwellenform eines Pitches des
Eingangssprachsignals,
Mittel zum Erzeugen eines Gerüstes, das eine Gestalt der
Grundwellenform kennzeichnet, wobei das Gerüst aus Elementen
zusammengesetzt ist, die aufeinanderfolgenden Impulsen
unterschiedlicher Typen entsprechen,
Mittel zum Codieren des erzeugten, gewünschten Gerüstes,
ein Zwischenelementwellenform-Codebuch, das vorbestimmte
Zwischenelementwellenformabtastungen enthält, die durch
unterschiedliche Identifikationszahlen identifiziert sind, und
Mittel zum Codieren von Zwischenelementwellenformen, die sich
zwischen den Elementen des Gerüstes in der Grundwellenform
erstrecken, unter Verwendung des Zwischenelementwellenform-
Codebuches.
2. Sprachcodiervorrichtung nach Anspruch 1,
wobei das Mittel zum Erzeugen eines Gerüstes auch vorgesehen ist,
um eine Zahl von einem Paar oder von Paaren von Impulselementen
des Gerüstes zu entscheiden.
3. Sprachcodiervorrichtung nach Anspruch 1,
wobei das Zwischenelementwellenform-Codebuch gebildet wird,
indem Sprachsignale unterschiedlicher Typen analysiert werden,
wodurch ursprüngliche Zwischenelementwellenformen
unterschiedlicher Typen erhalten werden, die ursprünglichen
Zwischenelementwellenformen in der Zeitbasis und Potenz zu den
Zwischenelementwellenformabtastungen normiert werden, während Enden der
ursprünglichen Zwischenelementwellenformen fixiert werden, die
Identifikation szahlen jeweils an die jeweiligen
Zwischenelementwellenformabtastungen angebracht werden, und die
Zwischenelementwellenformabtastungen mit den Identifikationszahlen gespeichert
werden.
4. Sprachcodiervorrichtung nach Anspruch 1,
wobei die Vorrichtung ferner umfaßt:
Mittel zum Ableiten eines Durchschnitts von Wellenformen
innerhalb eines Pitches eines Eingangssprachsignals, das während eines
vorbestimmten Intervalls auftritt,
Mittel zum Entscheiden eines Gerüstes der Durchschnitts-Ein-
Pitch-Wellenform, wobei das Gerüst aus Elementen
zusammengesetzt ist, die jeweils Impulsen entsprechen,
Mittel zum Codieren des Gerüstes,
Mittel zum Entscheiden von Zwischenelementwellenformen in
Ansprechen auf das Gerüst, wobei die Zwischenelementwellenformen
sich zwischen den Elementen des Gerüstes erstrecken, und
Mittel zum Codieren der Zwischenelementwellenformen.
5. Sprachcodiervorrichtung nach Anspruch 1,
wobei die Vorrichtung ferner umfaßt:
Mittel zum Ableiten eines Durchschnitts von Wellenformen
innerhalb eines Pitches eines Eingangssprachsignals, das während eines
vorbestimmten Intervalls auftritt,
Mittel zum Entscheiden eines Gerüstes der Durchschnitts-Ein-
Pitch-Wellenform, wobei das Gerüst aus Elementen
zusammengesetzt ist, die jeweils Impulsen entsprechen, die bei Zeitpunkten
auftreten, die gleich Zeitpunkten des Auftretens von minimalen und
maximalen Pegeln der Durchschnitts-Ein-Pitch-Wellenform sind,
und die Pegel aufweisen, die gleich den minimalen und maximalen
Pegeln der Durchschnitts-Ein-Pitch-Wellenform sind,
Mittel zum Codieren des Gerüstes,
Mittel zum Entscheiden von Zwischenelementwellenformen in
Ansprechen auf das Gerüst, wobei die Zwischenelementwellenformen
sich zwischen den Elementen des Gerüstes erstrecken, und
Mittel zum Codieren der Zwischenelementwellenformen.
6. Decodiervorrichtung, umfassend:
Mittel zum Decodieren von gerüstcodierter Information zu einem
Gerüst, das aus Impulselementen zusammengesetzt ist,
ein Zwischenelementwellenform-Codebuch, das vorbestimmte
Zwischenelementwellenformabtastungen enthält, die durch
unterschiedliche Identifikationszahlen identifiziert sind, und
Mittel zum Decodieren von zwischenelementwellenformcodierter
Information zu Zwischenelementwellenformen unter Verwendung des
Zwischenelementwellenform-Codebuches, wobei die
Zwischenelementwellenformen sich zwischen den Elementen des Gerüstes
erstrecken.
7. Decodiervorrichtung nach Anspruch 6, wobei das
Zwischenelementwellenform-Codebuch gebildet wird, indem Sprachsignale
unterschiedlicher Typen analysiert werden, wodurch ursprüngliche
Zwischenelementwellenformen unterschiedlicher Typen erhalten
werden, die ursprünglichen Zwischenelementwellenformen in
Zeitbasis und Potenz zu den Zwischenelementwellenformabtastungen
normiert werden, während Enden der ursprünglichen
Zwischenelementwellenformen fixiert werden, die Identifikationszahlen jeweils
an die jeweiligen Zwischenelementwellenformabtastungen
angebracht werden, und die Zwischenelementwellenformabtastungen mit
den Identifikationszahlen gespeichert werden.
8. Sprachcodiervorrichtung, umfassend:
Mittel zum Trennen eines Eingangssprachsignals in vorbestimmte
Intervalle gleicher Länge, zum Ausführen einer Pitch-Analyse des
Eingangssprachsignals für jedes der Analyseintervalle, um Pitch-
Information zu erhalten, und zum Ableiten einer Grundwellenform
von einer Ein-Pitch-Länge, die die Analyseintervalle darstellt, unter
Verwendung der Pitch-Information,
Mittel zum Ausführen einer lineare Prädiktionsanalyse des
Eingangssprachsignals, und zum Herausziehen von linearen
Prädiktionsparametern, die Frequenzeigenschaften des
Eingangssprachsignals für jedes der Analyseintervalle kennzeichnen,
Mittel, um die Grundwellenform einem Filterungsprozeß in
Ansprechen auf die linearen Prädiktionsparameter zu unterziehen) und um
eine lineare Prädiktionsrestwellenform von einer Ein-Pitch-Länge
abzuleiten,
Mittel zum Ableiten eines Gerüstes, das eine Gestalt der
Vorhersagerestwellenform kennzeichnet, und zum Codieren des abgeleiteten
Gerüstes, wobei das Gerüst aus Elementen zusammengesetzt ist,
die aufeinanderfolgenden Impulsen unterschiedlicher Typen
entsprechen,
ein Zwischenelementwellenform-Codebuch, das vorbestimmte
Zwischenelementwellenformabtastungen enthält, die durch
unterschiedliche Identifikationszahlen identifiziert sind, und
Mittel zum Codieren von Zwischenelementwellenformen, die sich
zwischen den Elementen des Gerüstes in der Restwellenform
erstrecken, unter Verwendung des Zwischenelementwellenform-
Codebuches.
9. Sprachcodiervorrichtung nach Anspruch 8,
wobei das Zwischenelementwellenform-Codebuch gebildet wird,
indem Sprachsignale unterschiedlicher Typen analysiert werden,
wodurch ursprüngliche Zwischenelementwellenformen
unterschiedlicher Typen erhalten werden, die ursprünglichen
Zwischenelementwellenformen in der Zeitbasis und Potenz zu den
Zwischenelementwellenformabtastungen normiert werden, während Enden der
ursprünglichen Zwischenelementwellenformen fixiert werden, die
Identifikationszahlen jeweils an die jeweiligen
Zwischenelementwellenformabtastungen angebracht werden, und die
Zwischenelementwellenformabtastungen mit den Identifikationszahlen gespeichert
werden.
10. Decodiervorrichtung, umfassend:
Mittel zum Decodieren von gerüstcodierter Information zu einem
Gerüst, das aus Elementen zusammengesetzt ist, die
aufeinanderfolgenden Impulsen entsprechen,
ein Zwischenelementwellenform-Codebuch, das vorbestimmte
Zwischenelementwellenformabtastungen enthält, die durch
unterschiedliche Identifikationszahlen identifiziert sind,
Mittel zum Decodieren von zwischenelementwellenformcodierter
Information zu Zwischenelementwellenformen unter Verwendung des
Zwischenelementwellenform-Codebuches, und zum Bilden einer
Grundvorhersagerestwellenform, wobei sich die
Zwischenelementwellenformen zwischen den Elementen des Gerüstes erstrecken,
Mittel, um die Grundvorhersagerestwellenform einem
Filterungsprozeß in Ansprechen auf Eingangsparameter zu unterziehen, und um
eine Grundwellenform von einer Ein-Pitch-Länge abzuleiten, und
Mittel zum Wiederauffinden einer abschließenden Wellenform von
einer Ein-Pitch-Länge auf der Basis der
Grund-Ein-Pitch-Wellenform.
11. Decodiervorrichtung nach Anspruch 10,
wobei das Zwischenelementwellenform-Codebuch gebildet wird,
indem Sprachsignale unterschiedlicher Typen analysiert werden,
wodurch ursprüngliche Zwischenelementwellenformen
unterschiedlicher Typen erhalten werden, die ursprünglichen
Zwischenelementwellenformen in Zeitbasis und Potenz zu den
Zwischenelementwellenformabtastungen normiert werden, während Enden der
ursprünglichen Zwischenelementwellenformen fixiert werden, die
Identifikation szahlen jeweils an die jeweiligen
Zwischenelementwellenformabtastungen angebracht werden, und die Zwischenelement
wellenformabtastungen mit den Identifikationszahlen gespeichert
werden.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2129607A JP2853266B2 (ja) | 1990-05-18 | 1990-05-18 | 音声符号化装置および音声復号化装置 |
JP24944190A JP3227608B2 (ja) | 1990-09-18 | 1990-09-18 | 音声符号化装置および音声復号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69129131D1 DE69129131D1 (de) | 1998-04-30 |
DE69129131T2 true DE69129131T2 (de) | 1998-09-03 |
Family
ID=26464954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69129131T Expired - Lifetime DE69129131T2 (de) | 1990-05-18 | 1991-05-07 | Einrichtung zur Sprachcodierung und Verwandte Decodierungseinrichtung |
Country Status (3)
Country | Link |
---|---|
US (1) | US5228086A (de) |
EP (1) | EP0457161B1 (de) |
DE (1) | DE69129131T2 (de) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2084323C (en) * | 1991-12-03 | 1996-12-03 | Tetsu Taguchi | Speech signal encoding system capable of transmitting a speech signal at a low bit rate |
JP2947012B2 (ja) * | 1993-07-07 | 1999-09-13 | 日本電気株式会社 | 音声符号化装置並びにその分析器及び合成器 |
US5680512A (en) * | 1994-12-21 | 1997-10-21 | Hughes Aircraft Company | Personalized low bit rate audio encoder and decoder using special libraries |
JP3707116B2 (ja) * | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
JP3523827B2 (ja) * | 2000-05-18 | 2004-04-26 | 沖電気工業株式会社 | 音声データ録音再生装置 |
EP1343143B1 (de) * | 2000-12-14 | 2011-10-05 | Sony Corporation | Analyse und Synthese von Tonsignalen |
JP3887598B2 (ja) * | 2002-11-14 | 2007-02-28 | 松下電器産業株式会社 | 確率的符号帳の音源の符号化方法及び復号化方法 |
WO2007079574A1 (en) * | 2006-01-09 | 2007-07-19 | University Of Victoria Innovation And Development Corporation | Ultra-wideband signal detection and pulse modulation |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1296212B (de) * | 1967-08-19 | 1969-05-29 | Telefunken Patent | Verfahren zur UEbertragung von Sprachsignalen mit verminderter Bandbreite |
GB2020517B (en) * | 1978-04-04 | 1982-10-06 | King R A | Methods and apparatus for encoding and constructing signal |
US4680797A (en) * | 1984-06-26 | 1987-07-14 | The United States Of America As Represented By The Secretary Of The Air Force | Secure digital speech communication |
US4888806A (en) * | 1987-05-29 | 1989-12-19 | Animated Voice Corporation | Computer speech system |
US5077798A (en) * | 1988-09-28 | 1991-12-31 | Hitachi, Ltd. | Method and system for voice coding based on vector quantization |
-
1991
- 1991-05-06 US US07/696,410 patent/US5228086A/en not_active Expired - Lifetime
- 1991-05-07 DE DE69129131T patent/DE69129131T2/de not_active Expired - Lifetime
- 1991-05-07 EP EP91107414A patent/EP0457161B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0457161A3 (en) | 1992-12-09 |
EP0457161B1 (de) | 1998-03-25 |
EP0457161A2 (de) | 1991-11-21 |
DE69129131D1 (de) | 1998-04-30 |
US5228086A (en) | 1993-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE69619284T2 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE69529356T2 (de) | Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile | |
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE69226594T2 (de) | Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt. | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69029120T2 (de) | Stimmenkodierer | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE69432943T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69029001T2 (de) | Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen | |
DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
DE69121145T2 (de) | Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE69329569T2 (de) | Digitale Kodierung von Sprachsignalen | |
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE69729527T2 (de) | Verfahren und Vorrichtung zur Kodierung von Sprachsignalen | |
DE2659096A1 (de) | Verfahren und vorrichtung zur spracherkennung | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE69930961T2 (de) | Vorrichtung und verfahren zur sprachsegmentierung | |
DE2753277A1 (de) | Spracherkennungseinrichtung | |
EP0925461A2 (de) | Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: PANASONIC CORP., KADOMA, OSAKA, JP |