DE69023604T2

DE69023604T2 - Digitalsignalkodiergerät.

Info

Publication number: DE69023604T2
Application number: DE69023604T
Authority: DE
Inventors: Kenzo Akagiri; Makoto Akune; Yoshihito Fujiwara; Naoto Iwahashi; Masayuki Nishiguchi; Tomoko Umezawa
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1989-09-26
Filing date: 1990-09-25
Publication date: 1996-04-18
Anticipated expiration: 2010-09-26
Also published as: USRE36559E; EP0420745B1; KR100242864B1; US5115240A; EP0420745A3; KR910007293A; EP0420745A2; DE69023604D1

Description

Die vorliegende Erfindung bezieht sich auf eine digitale Signalcodiervorrichtung zur Codierung von digitalen Eingangssignalen.
Als Verfahren zur hochwirksamen Codierung von Eingangssignalen sind Codierverfahren, die als sogenannte Bitzuteilung bezeichnet werden, bekannt, nach denen Eingangssignale in mehrere Kanäle auf der Zeit- oder Frequenzachse aufgeteilt werden und bestimmte Anzahlen von Bits adaptiv den entsprechenden Kanälen (Bitzuteilung) zugeteilt werden. Unter den oben erwähnten Codierverfahren mittels Bitzuteilung sind zu erwähnen ein sogenanntes Subband-Codierverfahren (SBC), bei denen Sprachsignale auf der Zeitachse in Signale mehrere Frequenzbänder aufgeteilt werden, um sie mittels einer sogenannten adaptiven Transformationscodierung (ATC) zu codieren, bei der Sprachsignale auf der Zeitachse in Signale auf der Frequenzachse durch orthogonale Transformation transformiert werden und die sich ergebenden Signale in Signale mehrerer Frequenzbänder für eine adaptive Codierung für jedes Frequenzband geteilt werden, und eine sogenannte adaptive Bitzuteilung (APC-AB), die eine Kombination des oben erwähnten SBC-Verfahrens und einer sogenannten adaptiven Vorhersagecodierung APC ist, bei der die Sprachsignale auf der Zeitachse in Signale mehrerer Frequenzbänder aufgeteilt werden und die Signale der entsprechenden Bänder in Basisband- oder Niedrigbereichsignale konvertiert werden, wonach lineare Vorhersageanalysen einer höheren Ordnung für das Vorhersagecodieren durchgeführt werden.
Das Subband-Codieren wird beispielsweise durch eine in Fig. 1 gezeigte Schaltung durchgeführt. In dieser Figur werden digitale Sprachsignale, die zu einem Eingangsanschluß 110 eines Codierers 130 geliefert werden, zu Frequenzteilungsfiltern 131&sub1; bis 131n geliefert, die beispielsweise Spiegelfilter sein können, beispielsweise Quadratur-Spiegelfilter (QMFs), so daß diese Signale im Frequenzbereich begrenzt und auf niedrigere Frequenzseiten verschoben werden. Das heißt, daß die eingegebenen digitalen Sprachsignale in diesen Frequenzteilungsfiltern 131&sub1; bis 131n in separate Frequenzbänder durch Bandpaßfilter oder BPFs geteilt werden und nachfolgend durch Tiefpaßfilter laufen, damit sie auf die Niederfrequenzseiten um Beträge verschoben zu werden, die den Mittenfrequenzen der Bandpäße der Tiefpaßfilter entsprechen. Die Signale von den Filtern werden dann zu Quantisierern (A/D-Umsetzer) 134&sub1; bis 134n geliefert, wo sie einer Herunter-Abtastung mit einer geeigneten Abtastfrequenz unterzogen werden. Es sei angemerkt, daß eine höhere Abtastfrequenz für ein breiteres Frequenzband verwendet werden sollte. Die Signale, in denen die Daten durch Requantisierung in dieser Weise komprimiert wurden, werden am Anschluß 138 über einen Multiplexer 136 ausgegeben. Die Ausgangssignale werden dann über einen Übertragungskanal zu einem Anschluß 148 eines Decodierers 140 und dann zu Dequantisierern 144&sub1; bis 144n über einen Demultiplexer 149 zwecks Decodierung übertragen. Die decodierten Signale werden durch die Frequenzkonverter 142&sub1; bis 142n in Signale der Frequenzbänder auf der Zeitachse konvertiert, wonach sie am Anschluß 150 als decodierte Sprachsignale ausgegeben werden.
Bei der Signaldatenkompression durch den Codierer 130 werden die Quantisierungsbits adaptiv den entsprechen Frequenzbändern zugeteilt, um Rauscheffekte minimal zu halten, die bei der Datenkomprimierung bei den Sprachsignalen erzeugt werden, um die Qualität zu verbessern. Der Decodierer 140 erhält außerdem die Bitzuteilungsinformation über eine oder eine zweite Einrichtung, um die Decodierung durchzuführen.
Die konventionelle Praxis zum Erhalt der Bitzuteilungsinformation bestand darin, die Energiewertinformation jedes Frequenzbandes als Seiteninformation zusätzlich zu den Signalen der entsprechenden Bänder zu übertragen. Dabei werden die Energiewerte der Signale der entsprechenden Bänder in Energieermittlungseinrichtungen 133&sub1; bis 133n aus den Signalen berechnet, die auf die Frequenzbänder durch die Frequenzteilungsfilter 131&sub1; bis 131n des Codierers 130 aufgeteilt sind, und auf der Basis der berechneten Werte werden die optimalen Anzahlen der Bitzuteilung und die Quantisierungsschritte im Zeitpunkt der Quantisierung der Signale der entsprechenden Bänder in einer Zuteilungsschritt-Berechnungseinheit 135 gefunden. Die in der Berechnungseinheit 135 erhaltenen Ergebnisse werden zur Requantisierung der Signale der entsprechenden Bänder in Quantisierern 134&sub1; bis 134n verwendet. Die Ausgangssignale, das heißt, die Hilfs- oder Seiteninformation von der Zuteilungsschritt-Berechnungseinheit 135 werden zu einer Zuteilungsschritt-Berechnungseinheit 145 des Decodierers 140 übertragen, und die Daten von der Einheit 145 werden zu Dequantisierern 144&sub1; bis 144n übertragen, wo ein inverser Betrieb gegenüber dem, der in den Quantisierern 134&sub1; bis 134n durchgeführt wurde, durchgeführt wird, um eine Signaldecodierung durchzuführen.
Bei der oben beschriebenen Frequenzteilung und Codierung kann eine Formung des Rauschens oder dergleichen in Betracht gezogen werden, die der menschlichen Hörkennlinie folgt, und es kann mehr Information diesen Frequenzbändern zugeteilt werden, in denen die Sprachenergien konzentriert sind oder die mehr zur subjektiven Sprachqualität beispielsweise zur Deutlichkeit beitragen. Die Signalquantisierung und die Dequantisierung für die entsprechenden Frequenzbänder wird mit der zugeteilten Anzahl von Bits durchgeführt, um das Ausmaß einer Hörstörung durch das Quantisierungsrauschen zu reduzieren, um damit die Anzahl der Bits insgesamt zu reduzieren. Die oben erwähnte Frequenzteilung und Codierung hat eine Erzeugung von Quantisierungsrauschen nur in dem betroffenen Frequenzband zur Folge, ohne die verbleibenden Bänder zu beeinträchtigen. Wenn die Energiewertinformation als Hilfsdaten übertragen wird, wie oben beschrieben wurde, können die Energiewerte der Signale der entsprechenden Bänder zweckmäßigerweise wie Quantisierungsschrittbreiten oder Normierungsfaktoren der entsprechenden Frequenzbandsignale verwendet werden.
Sollte die Frequenzteilung und Codierung für Musik- oder Sprachsignale verwendet werden, wird die Frequenzbandteilung üblicherweise in einer Weise durchgeführt, daß, um die Frequenzanalysefähigkeit an den menschlichen Hörsinn anzupassen, eine engere Bandbreite bzw. eine breitere Bandbreite für den unteren Frequenzbereich bzw. hohen Frequenzbereich ausgewählt wird.
Bei einer derartigen Frequenzbandaufteilung, die zur Frequenzanalysefähigkeit des menschlichen Hörsinns paßt, wird, wenn die Definition der zeitlichen Analysen für die entsprechenden Frequenzbänder, das heißt die Zeitbreite als Einheit der Analysen entlang der Zeitachse die gleiche sein sollte, die Größe eines analytischen Blocks für jeden Frequenzbereich, das heißt die Anzahl der Abtastungen oder Daten von einem Frequenzbereich zum anderen unterschiedlich sein, und zwar wegen des Unterschiedes in den Bandbreiten der Frequenzbänder, mit dem Ergebnis, daß die Effektivität der analytischen Verarbeitung und daher die Effektivität der Codierung schlechter wird. Andererseits stellt man sich vor, daß die konstante Amplitudenperiode für das untere bzw. das obere Frequenzsignal länger bzw. kürzer ist, so daß eine wirksame Codierung, die sich mit der konstanten Amplitudenperiode verträgt, nicht durchgeführt werden kann.
Ein Artikel "On the Design of Sub-band Coders for Low-Bit Rate Speech Communication" von R.E. Crochiere, der im Bell System Technical Journal, Vol. 56, Nr. 5, Seite 747 bis 769 erschienen ist, beschreibt Subband-Codierer, bei denen ein Eingangssprachsignal in Subbänder unterteilt wird, wobei Bandpaßfilter verwendet werden. Dabei vergrößert sich die Bandbreite der Subbänder, wenn die Subbandfrequenz ansteigt. Jedes Subband wird tiefpaß-übersetzt, wird mit seiner Nyquistrate abgetastet und digital codiert. Das Codierungssignal, das für jedes Subband angelegt wird ist, ist an die Erfordernisse des Subbandes angepaßt, um ein subjektiv verbessertes Codieren zu erzielen (das heißt ein reproduziertes Signal mit einer guten Qualität nach Beurteilung durch einen Hörer).
Die EP-A 0 084 125 beschreibt eine Vorrichtung zum Multiplexen einer Vielzahl von Sprach- oder Datensignalen. Die zu multiplexenden Signale sind in Subbänder mittels einer Filterbank aufgeteilt, und der Leistungspegel jedes Subbandes wird gemessen. Die erhältliche Bitrate des Multiplexers wird adaptiv an eine Vielzahl von Quantisierern aufgeteilt, die auf den verschiedenen Subbändern arbeiten, wobei die Verteilung der Bits an die Quantisierer abhängig ist von den relativen Leistungspegeln, die in den Subbändern ermittelt werden.
Es ist daher eine Aufgabe der vorliegenden Erfindung, eine digitale Signalcodiervorrichtung bereitzustellen, bei der beim Codieren von Sprachsignalen, die in mehrere Frequenzbänder unterteilt sind, um die Frequenzanalysefähigkeit des menschlichen Hörsinnes anzupassen, eine wirksamere Codierung, die sich mit den Eigenschaften der Sprachsignale verträgt, erzielt werden kann.
Eine andere Aufgabe der vorliegenden Erfindung besteht darin, eine digitale Signalcodiervorrichtung bereitzustellen, bei der eine höhere Leistung einer Frequenzauflösung für einen niedrigen Frequenzbereich und eine höhere Leistung einer zeitlichen Auflösung für den höheren Frequenzbereich erzielt wird, wo die Dauer des konstanten Amplitudenzustands kürzer ist.
Gemäß der vorliegenden Erfindung ist eine digitale Signalcodiervorrichtung vorgesehen, die aufweist:
eine Einrichtung zum Aufteilen von digitalen Eingangssignalen auf mehrere Frequenzbänder, die so eingestellt sind, daß die Bänder mit höheren Frequenzen breitere Bandbreiten haben werden, und
eine Einrichtung zur künstlichen Erzeugung und Ausgabe von codierten Signalen an jedes der Frequenzbänder,
die dadurch gekennzeichnet ist, daß vorgesehen ist
eine Einrichtung zur Ermittlung - durch Spektralanalyse - von Eigenschaften der Frequenzkomponenten der Frequenzbänder, wobei die Periode der Spektralanalysen, welche die Zeitbreite als eine Einheit der Analysen entlang der Zeitachse ist, so ausgewählt wird, daß sie länger für niedrigere Frequenzen ist, und zur Ausgabe eines entsprechenden Ausgangssignals; und
eine Einrichtung zum Steuern des künstlichen Erzeugens und der Codierung als eine Funktion des Ermittlungsausgangssignals.
Folglich wird erfindungsgemäß die Genauigkeit der Analysen entlang der Zeitachse als Funktion der Bandbreiten der entsprechenden Frequenzbänder geändert, um ein optimales Zeitintervall für Analysen für jedes Frequenzband zu realisieren.
Fig. 1 ist ein Blockdiagramm, das ein Beispiel der konventionellen Frequenzteilung und Codierung zeigt;
Fig. 2 ist ein Blockdiagramm, das eine erste Ausführungsform der vorliegenden Erfindung zeigt;
Fig. 3 ist eine schematische Ansicht, die den Betrieb der Ausführungsform von Fig. 2 zeigt;
Fig. 4 ist ein Blockdiagramm, das eine zweite Ausführungsform der vorliegenden Erfindung zeigt;
Fig. 5 ist eine schematische Ansicht, die den Betrieb der zweiten in Fig. 4 gezeigten Ausführungsform zeigt;
Fig. 6 ist ein Blockdiagramm, das die Filterbank von Fig. 4 ausführlich zeigt;
Fig. 7 ist ein Blockdiagramm, das einen Decodierer nach der Ausführungsform von Fig. 4 zeigt;
Fig. 8 und 9 sind Diagramme, die den Betrieb der in Fig. 4 gezeigten Ausführungsform zeigen.
Mit Hilfe der Zeichnungen werden nun bestimmte bevorzugte Ausführungsformen der vorliegenden Erfindung ausführlich erklärt.
Fig. 2 zeigt schematisch den Aufbau einer digitalen Signalcodiervorrichtung entsprechend der ersten Ausführungsform der vorliegenden Erfindung, wo der Frequenzbereich in vier Bänder unterteilt ist, wie in Fig. 3 gezeigt ist.
In Fig. 2 werden Sprachsignale beispielsweise als digitale Eingangssignale an einen Eingangsanschluß 1 der digitalen Signalcodiervorrichtung geliefert. Diese Sprachsignale werden zuerst zu Bandpaßfiltern (BPF) 11 bis 14 geliefert. Diese Bandpaßfilter teilen den Frequenzbereich der Sprachsignale in mehrere Frequenzbänder so auf, daß die Bandbreite für die höheren Frequenzbänder breiter wird, um damit die Frequenzunterscheidungsfähigkeit des menschlichen Hörsinnes anzupassen. In den Bandpaßfiltern 11 bis 14 sind Tiefpaßfilter gebildet, so daß die Signale in Richtung auf die tiefen Frequenzseiten um Beträge verschoben werden, die den Mittenfrequenzen der Durchlaßbänder der Bandpaßfilter 11 bis 14 entsprechen.
Die Sprachsignale, die folglich in mehrere Frequenzbänder aufgeteilt und zu den unteren Frequenzseiten der Bandpaßfilter 11 bis 14 verschoben sind, werden in Frequenzbänder B1, B2, B3 und B4 durch die Bandpaßfilter 1, 12, 13 und 14, wie in Fig. 3 gezeigt ist, aufgeteilt. Diese Frequenzbänder B1 bis B4 werden so ausgewählt, daß die Bandbreiten breiter werden, die höher die Frequenzen werden, wie vorher erwähnt wurde.
Die Signale der entsprechenden Frequenzbänder werden durch die Quantisierer 41 bis 44 quantisiert. Während einer solchen Quantisierung wird die Frequenzkennlinie der Frequenzkomponenten der entsprechenden Bänder ermittelt, und die Quantisierung wird als Funktion des ermittelten Ausgangssignals gesteuert. Das heißt, daß mit der vorliegenden Codiervorrichtung die Anzahlen der zugeteilten Bits im Zeitpunkt der Quantisierung auf der Basis der Ergebnisse der Signalspektralanalysen für die entsprechenden Frequenzbänder bestimmt werden, und daß die Quantisierung in den Quantisierern 41 bis 44 auf der Basis der so bestimmten Anzahlen der Bitzuteilung bestimmt wird.
Folglich werden die Signale der entsprechenden Frequenzbänder von den Bandpaßfiltern 11 bis 14 jeweils zu den Spektralanalyseschaltungen 21 bis 24 übertragen, wo Spektralanalysen für die entsprechenden Frequenzbänder durchgeführt werden. Die Ergebnisse der Analysen werden zu Bitzuteilungsanzahlentscheidungsschaltungen 31 bis 34 übertragen, die die Anzahl der Bits im Zeitpunkt der Quantisierung zuteilen, so daß die Bitzuteilungsanzahlen in den Schaltungen 31 bis 34 auf der Basis der Ergebnisse der Analysen bestimmt werden. Quantisierungen werden in den Quantisierern 41 bis 44 auf der Basis der so bestimmten Bitzuteilungsanzahlen durchgeführt. Die Quantisierungsausgangssignale der Quantisierer 41 bis 44 werden durch einen Multiplexer 6 künstlich hergestellt, und sie werden an einem Ausgangsanschluß 7 der digitalen Signalcodiervorrichtung der vorliegenden Erfindung ausgegeben.
Es sei angemerkt, daß beim Quantisieren der Sprachsignale, die vorher in mehrere Frequenzbänder aufgeteilt wurden, die an die Frequenzanalysefähigkeit des menschlichen Hörsinnes angepaßt sind, die Blockgrößen, da die Bandbreiten der entsprechenden Frequenzbänder von einem Frequenzband sich zum anderen unterscheiden, der Spektralanalysen, das heißt die Breiten entlang der Zeitachse der analytischen Blöcke von einem Frequenzband zum anderen um die gleiche angenommene Genauigkeit der Analysen entlang der Zeitachse der Frequenzbänder sich unterscheiden werden, mit dem Ergebnis, daß die Wirksamkeit der Spektralanalysen und daher die Quantisierungswirksamkeit vermindert werden. Da man im allgemeinen annimmt, daß der konstante Amplitudenbereich des unteren Frequenzbereichssignals länger und der hohe Frequenzsignalbereich kürzer ist, kann eine wirksame Codierung, die eine solche Differenz bezüglich der Länge des konstanten Amplitudenbereichs heranzieht, nicht realisiert werden.
Aus dieser Sicht gesehen wird die zeitliche analytische Genauigkeit, das heißt die analytische Genauigkeit entlang der Zeitachse, so ausgewählt, daß sie höher bzw. niedriger für den hohen bzw. niedrigen Frequenzbereich ist, um eine wirksamere Quantisierung zu realisieren. In anderen Worten ausgedrückt werden die Zeitdauern der Spektralanalysen so ausgewählt, daß sie kürzer bzw. länger für die hohen bzw. niedrigen Frequenzbereiche sind.
Das heißt, daß für Spektralanalysen durch die Spektralanalyseschaltungen 21 bis 24 die Zeitdauer der Analysen, die das Ermittlungszeitintervall oder die Zeitbreite als Einheit der Analysen entlang der Zeitachse ist, so gewählt, daß sie länger ist, je niedriger die Frequenz ist. Die Auswahl der Ermittlungszeitintervalle für Spektralanalysen als Funktion der Frequenzen kann auf der Basis jedes der Taktsignale gemacht werden, die beim Aufteilen der Taktfrequenz der Taktsignale, die in den Sprachsignalen enthalten sind, erzielt wird.
Folglich werden bei der vorliegenden Ausführungsform die Taktsignalkomponenten in den Sprachsignalen, die zum Eingangsanschluß 1 geliefert werden, in einer Takttrennungsschaltung 2 getrennt. Die so getrennten Taktsignale CK werden nacheinander über 1/2-Frequenzteiler 3, 4 und 5 übertragen, um frequenzgeteilte Taktsignale (1/2) CK, die auf eine Hälfte der ursprünglichen Taktfrequenz CK aufgeteilt sind, um frequenzgeteilte Taktsignale (1/4) CK, die auf ein 1/4 der ursprünglichen Taktfrequenz CK aufgeteilt sind und freguenzgeteilte Taktsignale (1/8) CK, die auf ein 1/8 der ursprünglichen Taktfrequenz CK aufgeteilt sind, zu erzeugen. Von den so erzeugten Signalen werden die Taktsignale CK zur Spektralanalyseschaltung 24 und einer Bitzuteilungsanzahlentscheidungsschaltung 34 übertragen, die frequenzgeteilten Taktsignale (1/2) CK werden zu einer Spektralanalyseschaltung 23 und einer Bitzuteilungsanzahlentscheidungsschaltung 33 übertragen, die frequenzgeteilten Taktsignale (1/4) CK werden zu einer Spektralanalyseschaltung 22 und einer Bitzuteilungsanzahlentscheidungsschaltung 32 übertragen, und die frequenzgeteilten Taktsignale (1/8) CK werden zu einer Spektralanalyseschaltung 21 und einer Bitzuteilungsanzahlentscheidungsschaltung 31 übertragen.
Folglich wird die Ermittlungszeitdauer der Spektralanalysen, das heißt, die Einheitszeitbreite für die Analysen in der Spektralanalyseschaltung 21 maximal, während sie fortschreitend kürzer in der Spektralanalyseschaltung 22 und 23 und am kürzesten in der Spektralanalyseschaltung 24 wird.
Durch Ändern der Ermittlungszeitintervalle für die Spektralanalysen auf diese Weise wird es möglich, wirksame Spektralanalysen zu realisieren, und folglich eine wirksame Quantisierung im Zeitpunkt der Quantisierung der Sprachsignale, die in mehrere Frequenzbänder aufgeteilt sind, um die Frequenzanalysefähigkeit des menschlichen Hörsinnes anzupassen. Mit dem derart geänderten Ermittlungszeitintervall kann man sich das Spektrum für jedes Frequenzband so vorstellen, daß es in jedem Block des Bandes konstant ist, so daß die Werte der Spektralanalysen für den Langzeitblock im unteren Frequenzbereich als Ersatz für die Kurzzeitspektralschwingungsform verwendet werden können.
Das Teilungsverhältnis des Frequenzbandes braucht nicht notwendigerweise umgekehrt proportional zu den Zeitdauern für die Spektralanalysen sein, das heißt, den Zeitdauern mit den Verhältnissen von 8:4:2:1 zur Frequenz der Taktsignale CK. Die relative Größe der Teilungsrate wird jedoch vorzugsweise in der oben beschriebenen Weise ausgewählt. Eine solche relative Größe ist derart, daß sie der Richtung folgt, in welcher die Blockgröße der Spektralanalysen, das heißt die Breite des analytischen Blocks entlang der Zeitachse, gleich gemacht werden kann, so daß die Wirksamkeit nicht vermindert wird.
Das heißt, daß bei der oben beschriebenen ersten Ausführungsform der digitalen Signalcodiervorrichtung der vorliegenden Erfindung das Codieren in Abhängigkeit vom Ermittlungsausgangssignal der Kennlinien der Komponenten der Frequenzbänder gesteuert wird, während das Ermittlungszeitintervall so ausgewählt wird, daß es für die unteren Frequenzen länger wird, mit dem Ergebnis, daß die Ermittlungswirksamkeit nicht vermindert wird, und daher ein wirksames Codieren, das zur Art der digitalen Eingangssignale paßt, erzielt werden kann.
Eine zweite Ausführungsform der vorliegenden Erfindung wird nun mit Hilfe von Fig. 4 und den weiteren Figuren erklärt.
Fig. 4 zeigt schematisch einen typischen Aufbau einer hochwirksamen Codiervorrichtung für digitale Daten entsprechend der zweiten Ausführungsform.
Nach Fig. 4 besteht die hochwirksame Codiervorrichtung für digitale Daten nach der vorliegenden Ausführungsform aus einer Filterbank 104, die aus Spiegelfiltern besteht, beispielsweise Quadratur-Spiegelfilter, wie die Frequenzteilungsfilter, orthogonale Transformierungsschaltungen 105&sub1; bis 105&sub5;, um eine orthogonale Transformierung durchzuführen, das heißt, eine Transformierung der Zeitachse in die Frequenzachse, beispielsweise eine schnelle Fourier-Transformation, und eine Bitzuteilungsanzahlentscheidungsschaltung 106, um die Bitanzahlen zu bestimmen, die den entsprechenden Frequenzbändern zugeteilt werden.
An dem Eingangsanschluß 101 werden digitale Eingangsdaten von 0 bis 16 kHz geliefert, die beim Abtasten von Audiosignalen mit der Abtastfrequenz fs = 32 kHz erhalten werden. Diese Eingangsdaten werden zur Filterbank 104 übertragen, durch die die Eingangsdaten in n Frequenzbänder-hier 5- unterteilt werden, so daß die Bandbreite für die höheren Frequenzen breiter werden. Somit werden die digitalen Eingangsdaten grob in 5 Kanäle aufgeteilt, das heißt einen Kanal CH1 mit dem Frequenzband von 0 bis 1 kHz, einen Kanal CH2 mit dem Frequenzband 1 bis 2 kHz, einen Kanal CH3 mit dem Frequenzband von 2 bis 4 kHz, einen Kanal CH4 mit dem Frequenzband von 4 bis kHz und einen Kanal CH5 mit dem Frequenzband von 8 bis 16 kHz. Eine derartige Frequenzteilung, in welcher die Bandbreite für die höheren Frequenzen breiter wird, ist eine Frequenzteilungstechnik, die die menschliche Hörkennlinie berücksichtigt, ähnlich dem sogenannten kritischen Band. Das kritische Band, das die menschliche Hörkennlinie berücksichtigt, ist das Band, das durch ein schmalbandiges Rauschen belegt ist, das einen reinen Ton oder Klang verdeckt, wobei das Rauschen die gleiche Amplitude hat und den Pegel oder die Tonhöhe des reinen Tons oder Klangs umfaßt, wobei gilt, daß je höher die Frequenz wird, desto breiter die Bandbreite des kritischen Bandes wird. Für jeden dieser fünf Kanäle werden Blöcke, die jeweils aus mehreren Abtastungen bestehen, das heißt, ein Einheitszeitblock, durch die orthogonalen Transformationsschaltungen 105&sub1; bis 105&sub5; gebildet, und die orthogonale Transformation, beispielsweise eine schnelle Fourier-Transformation, wird für jeden Einheitsblock eines jeden Kanals durchgeführt, um Koeffizientendaten durch die orthogonale Transformierung zu erzeugen, beispielsweise die FFT-Koeffizientendaten für FFT. Die Koeffizientendaten der entsprechenden Kanäle werden zur Bitzuteilungsanzahlentscheidungsschaltung 106 übertragen, wo die Bitzuteilungsanzahldaten für die entsprechenden Kanäle gebildet werden, und die Koeffizientendaten für die entsprechenden Kanäle werden quantisiert. Das Codierausgangssignal wird an einem Ausgangsanschluß 102 ausgegeben, während die Bitzuteilungsanzahldaten an einem Ausgangsanschluß 103 ausgegeben werden.
Auf die gleiche Weise wird durch Ersetzen der Einheitszeitblöcke aus den Kanaldaten, die breitere Bandbreiten für höhere Frequenzen haben, die Anzahl der Abtastungen in dem Einheitszeitblock kleiner für die unteren Frequenzkanäle der engeren Bandbreiten, während sie größer für die hohen Frequenzkanäle der breiteren Bandbreiten wird. Anders ausgedrückt wird die Frequenzauflösung für den unteren bzw. höheren Frequenzbereich niedriger bzw. höher. Durch Durchführen der orthogonalen Transformierung von jedem der Zeitblöcke der entsprechenden Kanäle können die Koeffizientendaten durch die orthogonale Transformierung in jedem Kanal über den ganzen Frequenzbereich in einem gleichen Intervall auf der Frequenzachse erhalten werden, so daß die gleiche hohe Frequenzauflösung sowohl auf der hohen als auch auf der niederen Frequenzseite realisiert werden kann.
Wenn man die menschliche Hörkennlinie betrachtet, wo die Frequenzauflösungsleistung im unteren Frequenzbereich hoch sein soll, braucht sie im Hochfrequenzbereich nicht so hoch zu sein. Aus diesem Grund besteht bei den vorliegenden Ausführungsformen der Einheitszeitblock, in welchem die orthogonale Transformierung durchgeführt wird, aus der gleichen Anzahl von Abtastdaten für jedes Band oder jeden Kanal. In anderen Worten ausgedrückt hat der Einheitszeitblock verschiedene Blocklängen von einem Kanal zum anderen in einer Weise, daß der untere Bereich eine längere Blocklänge hat und der hohe Bereich eine kürzere Blocklänge. Das heißt, daß die Leistung der Frequenzauflösung auf einem hohen Wert für den unteren Frequenzbereich gehalten wird, während sie so eingestellt wird, daß sie nicht höher als notwendig für den höheren Frequenzbereich ist, und die Leistung der zeitlichen Auflösung wird so eingestellt, daß sie für den höheren Frequenzbereich hoch ist.
Es sei angemerkt, daß bei der vorliegenden Ausführungsform die Blöcke mit der gleichen Anzahl von Abtastungen der orthogonalen Transformierung für die Kanäle CH1 bis CH5 unterworfen werden, so daß die gleiche Anzahl der Koeffizientendaten, beispielsweise 64-Punkt (pt)- Koeffizientendaten in den entsprechenden Kanälen erhalten werden können. In diesem Fall beträgt die Kanalblocklänge 32 ms für den Kanal CH1, 32 ms für den CH2, 16 ms für den Kanal CH3, 8 ms für den Kanal CH4 und 4 ms für den Kanal CH5. Wenn die schnelle Fourier- Transformation durch die oben erwähnte orthogonale Transformierung durchgeführt wird, ist nach dem Beispiel von Fig. 5 die Menge der Verarbeitung gleich 64 log&sub2; 64 für die Kanäle CH1 und CH2, 64 log&sub2; 64x2 für den Kanal CH3, 64 log&sub2; 64x4 für den Kanal CH4 und 64 log&sub2; 64x8 für den Kanal CH5. Bei der schnellen Fourier-Transformation für den ganzen Frequenzbereich ist die Menge der Verarbeitung gleich 1024 log&sub2; 1024=1024x10 für die Abtastfrequenz fs = 32 kHz und die Koeffizientendaten sind 1024 pt für die Blocklänge gleich 32 ms.
Mit dem oben beschriebenen Aufbau der vorliegenden Ausführungsform kann eine höhere Leistung der Frequenzauflösung im unteren Frequenzbereich erhalten werden, der für den menschlichen Hörsinn kritisch ist, während das Erfordernis für eine höhere vorübergehende Auflösung, die notwendig bei transienten Signalen ist, die reich an hohen Frequenzkomponenten sind, wie in Fig. 8 gezeigt ist, ebenfalls erfüllt werden kann. Die Filterbank, die orthogonalen Transformationsschaltungen oder dergleichen können derart sein, wie sie üblicherweise verwendet werden, so daß der Aufbau einfach und preiswert sein kann, und die Verzögerungszeit in jeder Schaltung der Vorrichtung vermindert werden kann.
Fig. 6 zeigt einen konkreten Aufbau der Filterbank 104. In dieser Figur werden die 0 bis 16 kHz - Eingangsdigitaldaten mit der Abtastfrequenz fs = 32 kHz zu einem Eingangsanschluß 140 der Filterbank 104 geliefert. Diese digitalen Eingangsdaten werden zuerst zu einem Filter QMF 141 geliefert, wo die 0 bis 16 kHz - Eingangsdigitaldaten in 0 bis 8 kHz - Ausgangsdaten und 8 bis 16 kHz - Ausgangsdaten geteilt werden, wobei die 8 bis 16 kHz - Ausgangsdaten zu einer Niederbereichsumwandlungsschaltung 145&sub5; geliefert werden. Die 8 bis 16 kHz - Daten werden einer Abwärts-Abtastung in der Niederbereichsumwandlungsschaltung 145&sub5; unterzogen, um 0 bis 8 kHz - Daten zu erzeugen, die am Ausgangsanschluß 149&sub5; ausgegeben werden. Die 0 bis 8 kHz - Ausgangsdaten vom QMF 141 werden zu einem Filter QMF 142 übertragen, wo sie in ähnlicher Weise in ein 4 bis 8 kHz - Ausgangssignal geteilt werden, das zu einer Niederbereichsumwandlungsschaltung 145&sub4; übertragen wird, und ein 0 bis 4 kHz Ausgangssignal, das zu einem QMF 143 übertragen wird. Die 0 bis 4 kHz Daten, die in die Basisbanddaten konvertiert wurden, werden in der Niederbereichsumwandlungsschaltung 145&sub4; erhalten, so daß sie am Ausgangsanschluß 149&sub4; ausgegeben werden. Auf ähnliche Weise wird ein 0 bis 2 kHz - Ausgangssignal und 2 bis 4 kHz Ausgangssignal im Filter QMF 143 erzeugt, während ein 0 bis 1 kHz - Ausgangssignal und 1 bis 2 kHz - Ausgangssignal im Filter QMF 144 erzeugt wird, um dann in Niederbereichssignale in Niederbereichsumwandlungsschaltungen 145&sub3; bis 145&sub1; konvertiert werden, bevor sie an den Ausgangsanschlüssen 149&sub3; bis 149&sub1; ausgegeben werden. Diese Ausgangssignale werden über Kanäle CH1 bis CH5 zu den orthogonalen Transformationsschaltungen 105&sub1; bis 105&sub5; übertragen, wobei die Niederfrequenzumwandlungsschaltung 145&sub1; weggelassen werden kann, wenn dies gewünscht wird.
Fig. 7 zeigt den Aufbau eines Decodierers. In dieser Figur wird das oben erwähnte Codierausgangssignal zu einem Eingangsanschluß 122 geliefert, während die oben erwähnte Bitzuteilungszahlinformation zu einem Eingangsanschluß 123 geliefert wird. Diese Daten werden zu einem Kanalinformationsgenerator 127 geliefert, wo die Daten des Codierausgangssignals in Koeffizientendaten der entsprechenden Kanäle auf der Basis der Bitzuteilungsanzahlinformation wiederhergestellt werden. Diese wiederhergestellten Koeffizientendaten werden zu Umkehrorthogonalumwandlungsschaltungen 125&sub1; bis 125&sub5; übertragen, wo ein Umkehrbetrieb gegenüber dem in den orthogonalen Umwandlungsschaltungen 105&sub1; bis 105&sub5; durchgeführt wird, um Daten zu erzeugen, bei denen die Frequenzachse in die Zeitachse konvertiert ist. Die Daten der entsprechenden Kanäle auf der Zeitachse werden durch ein Synthesefilter 124 decodiert, bevor sie als Codierausgangsdaten am Ausgangsanschluß 121 ausgegeben werden.
Bei der Bildung der Bitzuteilungsinformation für jeden Kanal in der Bitzuteilungsanzahlentscheidungsschaltung 106 von Fig. 4 wird der zulässige Signalrauschpegel eingestellt und der Verdeckungseffekt wird in diesem Zeitpunkt in Betracht gezogen, so daß der zulässige Geräuschpegel für die höhere Bandfrequenz für den gleichen Energiewert höher sein wird, um die Bitanzahl für jedes Band zu bestimmen. Die Verdeckung bedeutet Maßnahmen sowohl für die Verdeckungsmaßnahmen für Signale auf der Zeitachse als auch für Signale auf der Frequenzachse. Damit kann durch den Verdeckungseffekt ein Rauschen in den verdeckten Signalen, wenn solches vorhanden sind, nicht gehört werden. Folglich ist bei den tatsächlichen Audiosignalen jegliches Rauschen in den verdeckten Signalen auf der Frequenzachse zulässiges Rauschen, so daß während der Quantisierung der Audiodaten es möglich wird, die Anzahl der zugeteilten Bits entsprechend dem zulässigen Rauschpegel zu vermindern.
Bei der oben beschriebenen zweiten Ausführungsform der hochwirksamen Codierung für digitale Daten werden die digitalen Eingangsdaten in mehrere Bänder aufgeteilt, so daß die Bandbreite für den höheren Frequenzbereich höher wird, wobei Blöcke, die jeweils aus mehreren Abtastungen bestehen, für jedes Band gebildet werden, und die orthogonale Transformation für jeden der Blöcke wird durchgeführt, um die Koeffizientendaten zu erzeugen, um ein Codieren mit einer höheren Frequenzauflösungsleistung zu realisieren. Der orthogonale Transformationsblock besteht aus der gleichen Anzahl von Abtastdaten für jedes Band, so daß eine höhere Leistung der Frequenzauflösung, die für den unteren Frequenzbereich erforderlich ist, realisiert werden kann, während das Erfordernis nach einer hohen Leistung einer zeitweiligen Auflösung für transiente Signale, die viele hohe Frequenzkomponenten enthalten, ebenfalls erfüllt werden kann.
Auf diese Weise kann eine hochwirksame Codierung, die zur menschlichen Hörkennlinie paßt, erzielt werden. Der Aufbau des Codierers der vorliegenden Ausführungsform kann einfach und kostengünstig sein, da die verwendeten Komponenten herkömmlicher Art sein können.

Claims

1. Digitale Signalcodiervorrichtung, die aufweist:

eine Einrichtung zum Aufteilen von digitalen Eingangssignalen auf mehrere Frequenzbänder (B1 bis B4), die so eingestellt sind, daß die Bänder mit höheren Frequenzen (B3, B4) breitere Bandbreiten haben werden, und

eine Einrichtung (6) zur künstlichen Erzeugung und Ausgabe von codierten Signalen an jedes der Frequenzbänder,

dadurch gekennzeichnet, daß vorgesehen ist

eine Einrichtung (21-24/105) zur Ermittlung - durch Spektralanalyse - von Eigenschaften der Frequenzkomponenten der Frequenzbänder, wobei die Periode der Spektralanalysen, welche die Zeitbreite als eine Einheit der Analysen entlang der Zeitachse ist, so ausgewählt wird, daß sie länger für niedrigere Frequenzen ist, und zur Ausgabe eines entsprechenden Ausgangssignals; und

eine Einrichtung (31-34/106) zum Steuern des künstlichen Erzeugens und der Codierung als eine Funktion des Ermittlungsausgangssignals.

2. Digitale Signalcodiervorrichtung nach Anspruch 1, bei der die eingegebenen digitalen Signale eine bestimmte Abtastrate haben, die durch ein Taktsignal bestimmt wird, und bei der die Ermittlungseinrichtung eine Einrichtung (3 - 5) aufweist, um Taktsignale aus dem Abtastratentaktsignal herzuleiten, wobei die entsprechenden Frequenzen dieser Taktsignale bei der Spektralanalyse verwendet werden, die so ausgewählt werden, daß sie für die unteren Frequenzbänder niedriger sind.