DE69219943T2 - Signalkompression unter Verwendung eines Empfindungsmodells - Google Patents

Signalkompression unter Verwendung eines Empfindungsmodells

Info

Publication number
DE69219943T2
DE69219943T2 DE69219943T DE69219943T DE69219943T2 DE 69219943 T2 DE69219943 T2 DE 69219943T2 DE 69219943 T DE69219943 T DE 69219943T DE 69219943 T DE69219943 T DE 69219943T DE 69219943 T2 DE69219943 T2 DE 69219943T2
Authority
DE
Germany
Prior art keywords
signal
band
signals
bands
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69219943T
Other languages
English (en)
Other versions
DE69219943D1 (de
Inventor
Nuggehally Sampath Jayant
Robert James Safranek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of DE69219943D1 publication Critical patent/DE69219943D1/de
Application granted granted Critical
Publication of DE69219943T2 publication Critical patent/DE69219943T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/12Systems in which the television signal is transmitted via one channel or a plurality of parallel channels, the bandwidth of each channel being less than the bandwidth of the television signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/667Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a division in frequency subbands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Processing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Analogue/Digital Conversion (AREA)

Description

  • Die Erfindung bezieht sich auf Verfahren zur Codierung eines Signals.
  • Die Verarbeitung von Signalen zur übertragung umfasssen häufig die Abtastungen des Eingangssignals, Quantisierung der Probe und Erzeugung eines Satzes von Codes, die die quantisierten Abtastungen darstellen. Die meisten Signale von Interesse (z.B. Sprache oder Videosignale) sind hoch korreliert, was bedeutet, daß das Signal als eine vorhersehbare Komponente und eine unvorhersehbare Komponente gedacht werden kann. Eine Kompression der Codierung wird dadurch erzielt, daß im wesentlichen nur die unvorhersehbare Komponente codiert wird. Da darüberhinaus diese Signale oft dazu bestimmt sind, von Menschen empfangen und wahrgenommen zu werden, sind Konzepte benutzt worden, die sich auf das menschliche wahmehmungsvermögen von empfangener Information beziehen, um die Codierung solcher Signale weiter zu komprimieren und infolgedessen die Rate der übertragenen Signale.
  • In Verbindung mit sowohl Sprache als auch Videosignale sind vorbekannte Codierlösungen, die zu dieser Erfindung am engsten in Beziehung stehen, die Transformcodierung und die lineare Vorhersagecodierung.
  • In einem Kommunikationssystem unter Anwendung der Transformcodierung wird das Signal in Segmente geteilt. Die Segmente werden abgetastet und die Abtastwerte eines Segments in einen Satz von Frequenzdomaintransformkoeffizienten übertragen. Die Koeffizientensignale werden dann quantiziert und an einen Sendekanal angelegt. In Systemen, die für Rauscherkennungscharakteristiken verantwortlich sind, wird die Quantisierungsmode, die an die Koeffizienten angelegt wird, von den Signalcharakteristiken und von der Empfindlichkeit des Empfangenden hinsichtlich des erhaltenen Quantisierungsrauschens abhängig gemacht, wobei ein höherer Codierwirkungsgrad erzielt wird. Diesen Überlegungen überlagert ist die begrenzte verfügbare Bandbreite. Die zuordnung ist eine Lösung zur Handhabung der verfügbaren Bandbreite. Bei diesem Lösungsansatz werden Bits der Codierung des Transformkoeffizienten in einer Weise zugeordnet, welche die Erzielung einer konstanten Bandbreite versucht. Beispiele der Transformcodierung werden unter anderem im US-Patent 4,949,383, dem US-Patent 4,184,049, einem Artikel von J.D. Johnston mit dem Titel "Transform Coding of Audio Signals Using Perceptual Noise Criteria", in IEEE Journal on Selected Areas in Communications, Band 6, Nr, 2 vom Februar 1988 usw. angetroffen.
  • Lineare Vorhersagecodierung in Sprachumgebung gehen bis zur Mitte der sechziger Jahre zurück. Der Artikel von B.S. Atal und M.R. Schroeder mit dem Titel Predictive Coding of Speech Signals", in Proceedings of the 1967 Conference on Communications and Processing, Cambridge, MA, Seiten 360 - 361 ist ein frühes Beispiel davon. Später wurde erkannt, daß Vorhersagecodierung dadurch verbessert werden kann, daß die nicht unbegrenzte Fähigkeit zur Wahrnehmung von Rauschen in Betracht gezogen wird. Beispielsweise beschreibt der Artikel von M.R. Schreeder, B.S. Atal und J.L. Hall mit dem Titel "Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear", in Journal of the Acoustical Society of America, vom Dezember 1979, Seiten 1647 1652, die Vorteile, die von der Betrachtung der Aufnahmecharakteristiken des menschlichen Ohrs erwachsen können.
  • Bei der linearen Vorhersagecodierung (Linear Predictive Coding = LPC), welche die Wahrnehmung von Geräusch in Betracht zieht, wird ein Signalsegment von historischer Information vorhergesagt und ein Fehlersignal wird durch Subtraktion des vorhergesagten Signals von dem tatsächlichen Signal abgeleitet. Das Fehlersignal wird typischerweise transformiert und durch eine Rauschenwahrnehmungsfrequenz-empfindliche Funktion gewichtet, um zu einer modifizierten Transform-Form zu gelangen. Die modifizierte Transformform wird codiert und dem Empfänger übermittelt.
  • Im Bereich von Videosignalen ist die Situation nicht unähnlich. Beispielsweise wurde die Subband-Codierung auf Bildsignale von J. Woods und S.D. O'Neil in "Sub-Band Coding of Images", in IEEE ASSP, Band 34, Nr. 5, vom Oktober 1986, Seiten 1278 - 1288 angewendet. Die von Woods et al. vorgeschlagene Anordnung teilt das Bild in zweidimensionale Frequenzbänder und das Signal jeden Bandes wird über DPCM komprimiert. Die zweidimensionalen Frequenzbänder messen tatsächlich die Signalvariabilität in den beiden Dimensionen, welche das Bild bilden. Vektorquantisierung von Videosignalen wird beispielsweise in "Sub-Band Coding of Images using Vector Quantization" von P.H. Westerink et al., in Proc. of Seventh Benelux Information Theory Symposium, Seiten 143 - 150, 1986 und im US-Patent 4,811,112 von C.W. Rutledge vom 7. März 1989 beschrieben. Die Charakteristiken des "menschlichen visualen Systems (HVS)" wurden von K.N. Ngan, et al. in einem Artikel mit dem Titel "Cosine Transform Coding Incorporating Human Visual System Model", SPIE Band 707, Visual Communications and Image Processing (1986) Seiten 165 - 171 incorporiert. Das von Ngan et al. beschriebene System führt grundlegend ein zweidimensionale Cosinustransformierung auf die Quelleninformation aus und gewichtet die abgeleiteten Koeffizienten in Übereinstimmung mit einer HVS-Funktion. Die gewichteten Koeffizienten werden dann quantisiert, codiert und einem Pufferspeicher zugesandt, bevor sie an das Übertragungsmedium angelegt werden. Um eine gewünschte globale Bitrate sicherzustellen, wird eine Anzeige für Pufferspeicher voll an den Quantisierer zurückgesendet, um die Anzahl der Bits zu steuern, die von dem Quantisierer erzeugt werden. Eine eingereichte Anmeldung vom 4. Mai 1989 Serial No. 07/350435, Veröffentlichungsnummer US-A-5 309 526, vom 3. Mai 1994 von J.D. Johnston und R.J. Safranek offenbaren eine Unterbandanalysemethode, bei der das Quantisierungsschema für jeden Pixel so angepaßt ist, daß der Betrag des Quantisierungsrauschens, welches erzeugt wird, nahe, jedoch unterhalb der Grenze der Wahrnehmbarkeit ist. Indem das Quantisierungsrauschen angehoben werden kann, während es noch unterhalb der Wahrnehmbarkeit gehalten wird, wird eine größere Signalkompression erzielt.
  • Die oben beschriebenen Codierungsansätze arbeiten mit abgetasteten und quantisierten Signalen. Um einen stärker komprimierten Code zu erhalten, transformieren die vorbekannten Lösungsansätze typischerweise das Signal auf einen Frequenzbereich und arbeiten danach in diesem Bereich. Bei einem gegebenen Frequenzband teilen sie die verfügbaren Bits zwischen den verschiedenen Frequenzkomponenten auf, um eine möglichst gute Arbeit auf alle Frquenzkomponenten oder eine vorbestimmte Anzahl von diesen zu leisten. Mit anderen Worten wird die Entscheidung dahingehend gemacht, wie gut die Frequenzkoeffizienten zu codieren sind, jedoch nicht, ob sie in erster Instanz zu codieren sind. Das Ergebnis ist ein Codierungsschema, das komplexer als notwendig ist und wenn die Gesamtbitrate beschränkt ist, ist sie wahrnehmungsmäßig unteroptimal.
  • EP-A-0 193 143 offenbart ein Codierungsschema, bei welchem das Signal zunächst in Signalbänder unterteilt wird. Danach wird das absolute Maximum des gesamten Frequenzspektrums codiert, dann wird das Maximum jedes Bandes relativ zu dem ersten Maximum codiert. Danach wird jedes Band in Subbänder aufgeteilt. Bei der Codierung der Amplitudenwerte der Subbänder wird die Amplitude in Pegel quantisiert bis herunter zum Maximum des Bandes, zu welchen die Subbänder gehören. Schließlich wird ein zwei Bit Code übertragen um den Bereich zu bestimmen, in welchem die Amplitude des Subbandes verbleibt. Die Amplituden, die in dem niedrigsten Amplitudenbereich liegen, erhalten den Code 00, entsprechend einem Festsetzen auf Null, und werden deshalb effektiv außer Betracht gelassen.
  • WO-A-89/10661 offenbart ein Codierungsschema, welches für die Codierung und Übertragung vier Frequenzbänder aus einer Mehrzahl von Bändern auswählt, wobei die vier ausgewählten Bänder den höchsten absoluten Wert für Energie aufweisen.
  • Gemäß einem Aspekt der Erfindung ist ein Verfahren vorgesehen, wie in Anspruch 1 enthalten.
  • Nach einem anderen Aspekt der Erfindung ist ein Verfahren vorgesehen, wie in Anspruch 10 enthalten.
  • Das der Erfindung zugrunde liegende Prinzip basiert darauf, daß ein gutes Verhalten durch eine einfache Entscheidung erzielt wird, ob gewisse Frequenzbänder zu codieren sind oder nicht und nicht, wie gut alle oder eine vorgeschriebene Anzahl von Frequenzbänder zu codieren sind. In der Einsicht, daß ein Analogsignal ein Grundbandfrequenzspektrum aufweist und daß entsprechend dem Frequenzspektrum des Signals ein Rauschspektrum mit gerade feststellbarer Differenz (just noticeable difference = jnd) existiert, ist klar, daß weil Signalfrequenzbänder, die unter das jnd-Spektrum tauchen, jedenfalls nicht wahrgenommen werden können und es deshalb keine Notwendigkeit gibt, diese Frequenzbänder zu übertragen. Wenn ferner die verfügbare Bandbreite begrenzt ist, macht es keinen Sinn, die Übertragung nur auf die Signalfrequenzbänder zu konzentrieren, die am meisten das jnd-Spektrum übersteigen.
  • Das jnd-Spektrum wird an eine Entscheidungsschaltung angelegt, welche eine Anzahl von Frequenzbänder des zu codierenden Siganis auswählt. Jeder der ausgewählten Signalbänder wird codiert und an den Empfänger übertragen.
  • Beispielsweise in einer Ausführungsform wird das analoge Einganssignal in Bänder durch eine Transformationsschaltung getrennt, die tatsächlich eine Bank von Bandpaßfiltern darstellt. Der jnd-Pegel innerhalb jedes Bandes wird abgeschätzt und ein Quotientensignal für jedes Band entwickelt, welches dem Einganssignal in dem Band entspricht, geteilt durch das jnd-Signal in dem Band. Eine Auswahlschaltung identifiziert die n Bänder mit dem höchsten Quotienten und wenn eine Analogsignalübertragung gewünscht ist, entwickelt eine inverse Transformation n analoge Signale, die moduliert werden, um ein Basisband mit einem kontinuierlichen Spektrum zu bilden. Das Basisbandsignal wird dann direkt auf einen Träger moduliert. Wenn digitale Übertragung bevorzugt wird, werden die Ausgangssignale der Auswahl formatiert und an das Übertragungsmedium angelegt.
  • Kurze Beschreibung der Zeichnungen
  • Fig. 1 illustriert das Spektrum eines Signals und das Spektrum des Rauschens, das in der Anwesenheit des Signals unverhüllt wahrgenommen werden kann;
  • Fig. 2 stellt die Architektur eines Codierers/Senders dar;
  • Fig. 3 gibt die Einzelheiten der Struktur der Wahlschaltung 120 der Fig. 2 wieder;
  • Fig. 4 stellt das schematische Blockschaltbild eines in der Wahlschaltung 120 verwendeten Schalters dar;
  • Fig. 5 stellt die Struktur eines Decodierers/Empfängers dar, der an die von dem Codierer/Sender der Fig. 2 entwickelten Signale angepaßt ist; und
  • Fig. 6 stellt eine Ausführungsform zum Entwickeln der jnd- Werte in der Umgebung eines Videosignals dar.
  • Detaillierte Beschreibung
  • Ein zeitveränderliches bandbegrenztes Signal kann durch ein endliches Frequenzspektrum dargestellt werden. Typischerweise ist das Spektrum innerhalb des Bandes sehr rauh-gezahnt, weil informationsbeladene Signale generell nicht das gesamte Spektrum der Frequenzen enthalten. Wenn Signalbänder betrachtet werden, findet eine Art von Mittelwertbildung statt und das Spektrum eines derartigen Signals ist weniger rauh-gezahnt, so daß es ein Umriß haben kann, wie der durch die Kurve 10 in Fig. 1 gezeichnet (und durch den Buchstaben 5 bezeichnet). Die Kurve 10 kann beispielsweise ein Sprachsignal darstellen. Ein Rauschensignal (eines das wie Geräusch klingt, wenn es ein Audiosignal ist, oder aussieht wie eine Mischung von Salz und Pfeffer, wenn es ein Videosignal ist) enthält typischerweise alle möglichen Frequenzkomponenten und weist ein Frequenzspektrum auf, das sich nur langsam mit der Frequenz ändert. Ein flacher spektraler Umriß wird typischerweise als "weißes Rauschen" bezeichnet.
  • Durch Untersuchungen ist festgestellt worden, daß es einen Schwellwert gibt, unterhalb dem ein Rauschensignal von den meisten Leuten nicht wahrgenommen werden kann. Dieser Schwellwert ändert sich mit der Frequenz. Wegen seiner Maskiereigenschaften ändert sich der Schwellwert auch mit dem Spektrum des Informationssignals, das in Anwesenheit des Rauschensignals zugegen ist. Dieses Maskierphänomen ist selbst Laien bekannt. Rauschenartige Artifakte in einem Bild einer blanken Wand werden leicht entdeckt, während die gleichen Artifakte in einem Bild eines Dschungels nicht entdeckt werden.
  • Das genaue Verhältnis des feststellbaren Rauschens zu dem Informationssignal ist für die Prinzipien der Erfindung nicht bedeutsam, so daß nur ein beispielhaftes Verhältnis in Fig. 1 dargestellt ist. Die Kurve 20 in Fig. 1, die auch als jnd bezeichnet ist, stellt die Änderung in der Rauschenschwelle als Funktion der Frequenz (das jnd-Spektrum für das in der Kurve 10 dargestellte Sprachsignal dar). D in Fig. 1 bezeichnet die Energiedifferenz zwischen dem Sprachsignal und dem Schwellwert des wahrnehmbaren Rauschens. Tatsächlich weist die Ordinate des Diagramms der Fig. 1 eine logarithmische Skala auf, so daß das gezeichnete Differenzsignal D in Wirklichkeit ein Logarithmus des Quotienten S/jnd darstellt.
  • Wie zuvor angedeutet, wird das jnd-Spektrum beim Stand der Technik lediglich als ein Mittel zur Modifizierung oder Gewichtung der Frequenzkoeffizienten von S verwendet, und zwar vor der Codierung des modifizierten Spektrums. Durch Bitzuordnung und/oder durch Quantisierungsmodesteuerung (Steuerung der Anzahl der Bits, die zur Quantisierung des Signals verwendet werden) haben Fachleute versucht, die bestmögliche Arbeit beim Codieren der modifizierten Frequenzkoeffizienten zu leisten.
  • Im Gegensatz dazu gelangt das jnd-Spektrum in die Entscheidung ob oder ob nicht die Frequenzbänder zu codieren sind, nicht jedoch wie sie zu codieren sind. Zusätzlich wird die Codierung der Erfindung daran angepaßt, daß ein Codierungsprozeß mit konstanter Wahrnehmungsqualität erzielt wird.
  • Das Spektrum des zu codierenden Signals wird in N Frequenzbänder aufgeteilt und ein jnd-Spektrum wird errechnet und an eine Entscheidungseinrichtung angelegt, die n Bänder aus N Bänder auswählt. Sowohl N als auch n stellen Parameter dar, die unter der Kontrolle des Entwerfers sind. Das erhaltene Kompressionsverhältnis ist N/n, was bedeutet, daß für ein gegebenes N ein kleinerer Wert von n einen größeren Betrag an Kompression erzielt. Natürlich führt ein größerer Betrag von Kompression auch zu einer niedrigeren Wiedergabetreue an einen Empfänger, der mit dem Übertragungsmedium verbunden ist. Es kann gezeigt werden, daß für ein gegebenes Verhältnis n/N der Anteil der aufrechterhaltenen Energie für größere Werte von N größer ist (eine feinere und daher bessere Auswahl wird in den Spitzen des Signalspektrums ausgeführt). Andererseits kann der Wert von N durch das Ausmaß der Hardware begrenzt werden, das der Entwerfer Willens ist, zu spezifizieren.
  • Während die Prinzipien der Erfindung mit Analogschaltungen ausgeführt werden können (oder mindestens Analogschaltungen und einige Schalter oder Abtastungen) stellt in Anbetracht der Tatsache, daß digitale Implementierungen die heutigen Entwürfe beherrschen, die folgende Diskussion eine digitale Ausführungsform vor.
  • Zu Fig. 2 sei angenommen, daß das Eingangssignal einen Zug von Abtastwerten darstellt. Das Eingangssignal wird an eine Analysefilterbank 100 über ein Serien/Parallelregister 105 angelegt. Die Filterbank 100 empfängt einen Satz von Eingangssignalabtastungen mit der Ankunkft von jeden N Abtastungen am Register 105 und entwickelt hieraus N Frequenzkoeffizienten. Die Filterbank 100 kann in einer Anzahl von Arten realisiert werden, beispielsweise mit einer Cosinustransformschaltung oder mit verallgemeinerten Quadraturspiegelfilter (GQMF). Siehe beispielsweise J. Makhoul "A Fast Cosine Transform in One and Two Dimensions", in IEEE Trans. Acoustics, Speech and Signal Processing, C. ASSP - 28 Nr. 1, Februar 1980, Seiten 27 - 34 und R.V. Cox "The Disign of Uniformly and Nonuniformly Spaced Pseudo Quadrature Mirror Filters", in IEEE Trans. ASSP, Band ASSP - 34, Nr. 5, vom Oktober 1986, Seiten 1090 - 1096.
  • Das Ausgangssignal der Filterbank 100 wird an einem Wahrnehmungsmodellblock 110 angelegt. Die Funktion des Blockes 110 besteht darin, die jnd-Bandsignale der Fig. 1 zu entwickeln. Die Art und Weise, mit welcher diese Signale erzeugt werden, ist streng eine Funktion des gewählten Wahrnehmungsmodells und tatsächlich versteht es sich, daß während Fig. 2 den Block 110 als ansprechend auf das Ausgangssignal der Filterbank 100 zeigt, einige Wahrnehmungsmodelle eine Verbindung zwischen dem Eingang zur Bank 100 und dem Eingang zum Block 110 verlangen, und zwar zusätzlich oder anstelle der Verbindung des Ausgangs der Bank 100 zum Block 110.
  • Das Konzept der Wahrnehmungssensitivität zum Rauschen ist in einer Anzahl von Untersuchungen studiert worden. Siehe beispielsweise R.P. Hellmans, "Asymmetry of masking between noise and tone", in Percept. and Psychophys., Band 11, Seiten 241 - 246, 1972. Ein anderer sehr informativer Artikel ist "Transform Coding of Audio signals Using Perceptual Noise Criteria", von J.D. Johnston, in IEEE Journal on Selected Areas in Communications, Band 6, Nr. 2, vom Februar 1988, Seiten 314 - 323. Aufbauend auf diese Information wird in einer parallelen Anmeldung mit dem Titel Perceptual Coding of Audio Signals, Serial No. 07/423,088 vom 18 Oktober 1989, Publikationsnummer US-A-5 040 217, vom 13. August 1991, eine tatsächliche Codiererkonstruktion offenbart, die eine Einrichtung zur Entwicklung der Schwellenwerte umfaßt, d.h. ein Wahrnehmungsmodell 110. Die Lehren dieser Anmeldung werden hier durch Bezugnahme identifiziert. Zu Zwecken der Vollständigkeit wird jedoch ein FORTRAN-Programm hier eingeschlossen und weiter unten summarisch behandelt, welches die Ausgangssignale des Wahrnehmungscodierers 110 entwickelt, wie in der in Bezug genommenen Anmeldung gelehrt. Ein nützlicher Hinweis zum Verständnis des FORTRAN-Programms stellt FX/FORTRAN Programmer's Handbook, Alliant Computer Systems Corp., July 1988 dar. Die Tabellen 1 und 2 stellen eine Liste von Konstanten dar, die in Verbindung mit dem beispielhaften Programm der Liste 1 verwendet werden, wie die absoluten verwendeten Schwellwerte und die Banddefinitionen.
  • Das Programm umfaßt in erster Linie die "strt" Routine und die "calcthri" Routine. Die strt-Routine wird zur angänglichen Berechnung verschiedener Parameter benotigt. Die calcthri-Routine wird danach aufgerufen, und zwar mit jedem neuen Block abgetasteter Daten und gibt den Ausgangssatz mit dem Etikett "ratio" ab. Dieser Ausgangssatz ist tatsächlich repräsentativ für das Verhältnis S/jnd für die unterschiedlich definierten Frequenzbänder und beseitigt die Notwendigkeit für getrennte Dividierer, die in Fig. 2 gezeigt sind. Da der letzte Schritt der Liste bei der Entwicklung der "ratio" eine Teilung (wie erwartet) darstellt und weil Teilungen zeitaufwändig sind, werden in einer besseren Verwirklichung Hardware-Dividierer angewendet, wie in Fig. 2 gezeigt.
  • Wie zuvor angedeutet, errechnet das hier eingeschlossene FORTRAN-Programm das Maß S/jnd der Sensitivität zur Wahrnehmung des Rauschens. Andere Maßnahmen können auch benutzt werden, beispielsweise (S-jnd)²/jnd, S- jnd /jnd, oder der Logarithmus einiger der oberen Werte.
  • Fig. 2 zeigt eine Ausführungsform bei der, wie zuvor vorgeschlagen, das Verhältnis S/jnd mit Hardware-Dividierer realisiert wird. Daher wird in Fig. 2 das Signal des Koeffizienten i, wobei i = 1, 2, ... N ist, am Ausgang der Filterbank 100 (d.h. Signal Si) in der Schaltung 111-i durch den jnd-Ausgang des Blocks 110 dividiert, der dem Koeffizienten i entspricht (d.h. Signal jndi), um dabei ein Quotientensignal qi zu entwickeln. Die Schaltungen 111-i stellen identische Nur-Auslesenachschlagtabellen dar, die das Quotientensignal entwickeln. Mit einem 8 bit-Signal Si und einem 8 bit-Signal jndi stellt jede Nachschlagetabelle nur ein Speicher von 2¹&sup6; dar. (Wenn es die Zeit erlaubt, kann ein einzelner Speicher von allen geteilt werden.) Und das Ausgangssignal jeder der Dividiererschaltungen und das ihr zugeordnete Si-Signal wird an die Wahl- oder Selektorschaltung 120 angelegt. Die Identität i jedes Signals wird auch an die Schaltung 120 angelegt. Die Schaltung 120 empfängt daher N Triplets von Signalen und ihre Funktion ist, die n Signale Si (und ihre Identitäten) auszuwählen, die den N größten Quotientensignalen qi zugeordnet sind. Die Identitätsinformation wird so typischerweise als "Seiteninformation" bezeichnet. Wie später klar wird, muß diese Information dem Empfänger gesendet werden.
  • In einer digitalen Umgebung werden die von dem Selektor 120 ausgewählten Signale und ihre Identitäten in Formatierer 125 formatiert (und vielleicht weiter codiert) und an einen entfernten Empfänger gesendet. Dies ist in Fig. 2 durch die Leitung "DIGITAL" gezeichnet. Die Formatierung kann in einer Anzahl von Arten durchgeführt werden. Eine Art besteht darin, die Information in Form von Paketen zu senden. Dies bedeutet, daß jede Signalidentität in einem Kopffeld plaziert wird und daß das entsprechende Koeffizientensignal in dem unmittelbar folgenden Datenfeld plaziert wird.
  • Es gibt jedoch Situationen, in denen es wünschenswert ist, ein analoges Übertragungsmedium zu verwenden. In einem solchen Fall ist es nützlich, die vom Selektor 120 ausgewählten Koeffizienten in ein niederbandiges Analogsignal mit einer Bandbreite umzuwandeln, das die mit dem System erzielbare Kompression wiederspiegelt.
  • Dieses wird in der Schaltung nach Fig. 2 mit der inversen Transformschaltung 130, einem parallel Serienregisterpaar 140 und 141, einem Tiefpaßfilter 150 und einem Formatierer 126 erzielt. Vorteilhafterweise wird die inverse Transformschaltung 130 dieser Art dazu verwendet, die Übertragungsschaltung der Bank 100 zu realisieren mit Ausnahme, daß diese nur auf Sätze von n Eingangssignalen ansprechen muß und nicht auf Sätze von N Eingangssignalen Die Schaltung entwickelt n Signale, welche Zeitabtastsignalen entsprechen. Diese Zeitabtastsignale werden seriell durch das Register 140 herausgeschoben und gefiltert, um die Hochfrequenzkomponenten mit dem Tiefpaßfilter 150 herauszuschneiden. Natürlich ist der Takt des Registers 140 N/n langsamer als der Takt des Registers 105. Das entwickelte Grundbandanalogsignal wird dem Formatierer 126 zugeführt, wo es einem Träger in Vorbereitung der Übertragung aufmoduliert wird. Gleichzeitig wird die Seiteninformation dem Formatierer 126 über das Register 141 zugeschoben, wo sie beispielsweise mittels Impulsamplitudenmodulation codiert wird, um ein zweites Analogsignal zu entwickeln, das auf den Träger in Vorbereitung der Übertragung aufmoduliert wird. Die analoge Transmission ist in Fig. 2 durch die Leitung mit der Markierung "ANALOG" gezeichnet. Es wird natürlich angenommen, daß nur eine der beiden Moden (analoge oder digitale Übertragung) verwendet wird. Beide Arten sind in Fig. 2 lediglich zu Darstellungszwecken gezeigt.
  • Fig. 3 zeigt eine Implementierung in der Selektorschaltung 120. Dies basiert auf dem Batcher Netzwerk. Siehe beispielsweise das US-Patent 3,428,946 vom 18. Februar 1969. In diesem Patent lehrt Batcher ausdrücklich, wie willkürlich angeordnete Sätze von vier Eingängen und acht Ausgängen zu sortieren sind. Batcher lehrt auch, wie zwei bitonische Sequenzen in eine einzelne sortierte Sequenz zu vereinigen ist. Unter direkter Anwendung dieser Lehren umfaßt Fig. 3 vier 4-eingängige Sortierungsnetzwerke 127 und zwei bitonische Vereinigungsnetzwerke 128. Diese sind zur Bildung einer bitonischen Folge der Länge 16 angeordnet, wobei die oberen acht Eingänge um den Sortierungsschlüssel (die qi Werte) um herabsteigende Folge und die unteren acht Eingänge in dem Sortierungsschlüssel in ansteigender Reihenfolge angeordnet sind. Diese Netzwerke sind nach den Lehren von Batcher strukturiert und verwenden Schalter oder Vermittler 125, wie unten beschrieben. Die von den Netzwerken 128 entwickelte bitonische Sequenz wird an ein modifiziertes bitonisches Vereinigungsnetzwerk 129 angelegt. Ungleich des bitonischen Vereinigungsnetzwerkes 128, das eine Anzahl log&sub2; M von Stufen enthält, wobei M die Anzahl der Eingänge des Netzwerkes darstellen, ist die Anzahl der Stufen in dem Vereinigungsnetzwerk 129 gleich log&sub2; (M/n). Wenn gemäß Fig. 3 n gleich 4 und M = N = 16 ist, beträgt die Anzahl der Stufen log&sub2; (16/4) oder 2. Auch weil viele der Ausgänge nicht benutzt werden, können die jeweiligen Schalter 125 innerhalb des Vereinigungsnetzwerkes 129 vereinfacht werden, verglichen mit dem kanonischen Aufbau der Schalter 125 innerhalb der Netzwerke 127 und 128.
  • Die Struktur des Schalters 125 ist in Fig. 4 dargestellt. Jeder Schaltungsblock 125 empfängt zwei Eingangskoeffizientensignale Sm und Sn, die entsprechenden beiden Quotientensignale qm und qn und die Signalidentitätswerte n und m. Die Funktion des jeweiligen Schaltungsblocks 125 besteht darin, festzustellen, welches Quotientensignal größer ist und dieses Quotientensignal, das entsprechende Koeffizientensignal und den Identitätswert auf einen ausgewählten Ausgang von zwei Ausgängen von drei jeweiligen Schaltungselementen durchzuschleifen. Dies wird mit einem Subtrahierer oder Subtraktor 121 durchgeführt, der auf die Quotientensignale anspricht, und mit drei doppelpoligen Doppelwegschaltelementen 122, 123 und 124 ausgeführt, die auf den Ausgang des Subtraktors 121 ansprechen. Der Schalter 122 schleift die Quotientensignale, der Schalter 123 die Koeffizientensignale und der Schalter 124 die Identitätswertesignale durch. Es sei bemerkt, daß bei der letzten Stufe des Selektors 120 die Quotientensignale nicht hindurchgeschleift werden brauchen, da keine weitere Entscheidung gefällt werden muß. Wenn ferner log&sub2; N/n Stufen im Netzwerk 129 benutzt werden, werden die n Ausgänge des Netzwerks nicht geordnet; sie garantieren nur diejenigen zu sein, welche den Signalen mit den größten Quotientensignalen entsprechen.
  • Die Zeitsteuerung des Auswahlprozesses der Schaltung 120 muß gesteuert werden. Dies ist beispielsweise nicht nützlich, es der Schaltung 120 zu ermöglichen, eine unterschiedliche Auswahl zu häufig zu bewirken. Jede Auswahl sorgt für einen neuen Satz von Seiteninformation, die den Empfänger zugesandt werden muß und dies sollte auf einem Minimum gehalten werden. Sinngemäß umfaßt die Selektorschaltung 120 ein Register 126 am Ausgang des Netzwerkes 129, das zur Erfassung und Speicherung jeder Auswahl benutzt wird. Die Frage ist, welches Schema an den Takt des Registers 126 angelegt wird. Die einfachste Lösung ist die Verwendung eines konstanten Takts. Dies sorgt für eine konstante Bandbreite für die Seiteninformation. Der Takt kann ein N-tes Untervielfaches des Abtasttaktes des Eingangssignals darstellen oder vielleicht ein KN-tes Untervielfaches des Abtasttaktes des Eingangssignals, wobei K eine ganze Zahl ist. Eine dritte Alternative verwendet einen kleinen Wert von K (vielleicht selbst K = 1) und bei jedem Erscheinen des Taktes wird eine Entscheidung gemacht, ob oder ob nicht ein genügender Nutzen aus dem Wechsel der Selektion folgt. Dies kann mit konventioneller Schaltung (nicht in Fig. 3 gezeigt) durchgeführt werden, welche das Verhältnis der selektierten Quotientensignale zu den unselektierten Quotientensignalen mißt. Durch Vergleichen der Verhältnisse der Selektionen am Ausgang des Selektors 120 mit dem Verhältnis der Selektionen am Eingang des Selektors 120 kann eine Entscheidung darüber getroffen werden, ob oder ob nicht ein Wechsel in der Selektion erlaubt wird, basierend auf der beobachteten Differenz der Verhältnisse.
  • Fig. 5 zeigt einen Empfänger in Übereinstimmung mit der digitalen Übertragungslösung des Senders nach Fig. 2. Da er Sätze von n Paketen empfängt, die nicht notwendigerweise nach Frequenz sortiert sind, werden die Eingangssignale an einem Serienparallelwandler 200 angelegt, der jedes Paket in serieller Form hält, jedoch die n Pakete parallel dem Sortierer 210 zuführt. Der Sortierer 210 kann ein Batcher Netzwerk darstellen, wie zuvor beschrieben, mit Ausnahme, daß die Sortierung nach dem Identifizierer i verschlüsselt wird und nicht nach dem Quotientensignalen qi. Das Expandernetzwerk 220 kann ein Umordnungs-austauschnetzwerk darstellen, wie es beispielsweise im US-Patent 4,516,238 von A. Huang und S.C. Knauer vom 7. Mai 1985 beschrieben worden ist.
  • Es kann im vorbeigehen notiert werden, daß der von der Selektorschaltung 120 ausgeführte Selektionsprozeß gleichbedeutend mit einer Auswahl der Frequenzbänder und ein Nach-unten-Verschieben zum Basisband der ausgewählten Frequenzbänder bedeutet. Der Betrieb des Sortierers 210 ist eine Sortierung der ausgewählten Bänder und der Betrieb des Expanders 220 ist gleichbedeutend mit einer Nach-oben- Verschiebung der sortierten Frequenzbänder an ihre geeignete Stelle.
  • Die Ausgangssignale des Expanders 220 werden der inversen Transformschaltung 230 zugeführt. Die Schaltung 230 ist ähnlich zur Schaltung 130, außer daß sie für N Eingänge (obzwar nur n von diesen nicht null sind) und nicht auf n Eingänge anspricht. Die Ausgangssignale der inversen Transformschaltung 230 werden über das Parallelserienregister 240 nach außen geschoben und über das Tiefpaßfilter 250 gefiltert, um das endgültige rekonstruierte Signal zu erhalten.
  • Aus Gründen der Vereinfachung hat sich die obige Beschreibung auf eindimensionale Signale, wie Sprache konzentriert. Es versteht sich jedoch, daß die Prinzipien der Erfindung ebenso auf höherdimensionale Signale anwendbar sind. Beispielsweise mit Videosignale (die als zweidimensional gedacht werden können) ist die einzig notwendige Änderung in der Filterbank 100, in den inversen Transformschaltungen 130 und 230 und in der Wahrnehmungsmodellschaltung 110 zu suchen. Die Modifikation, die sich auf die zweidimensionalen Aspekte der Videosignale beziehen, sind in der vorerwähnten Anmeldung 07/350435 beschrieben. Sowohl das Wahrnehmungsmodell als auch der zweidimensionale Transformierungsprozeß werden beschrieben.
  • Zu Zwecken der Vervollständigung wird im nachfolgenden in summarischer Form eine Ausführungsform des Wahrnehmungsmodells 100 in einer Videoumgebung beschrieben. In Fig. 6 werden N Eingänge von der Filterbank 100 empfangen. Ein Eingangssignal stellt das Band dar, worin der (zweidimensionale) "Gleichstromwert" des Rahmens angetroffen wird. Alle Bänder, außer dem Band mit dem Gleichstromwert, werden an Nachschlagetabellen 201 angelegt. Jedes der Nachschlagetabellen entwickelt ein gewichtetes Maß der Leistung in dem Band. D. h. jede Nachschlagetabelle entwickelt einen Wert von kiS2i, wobei ki unterschiedliche Werte von i sein kann. Die Maßnahmen der errechneten gewichteten Leistungen stellen eine Abschätzung der visuellen "Textur" des Bildes an diesem Frequenzband dar. Der Addierer 302 summiert die Textur-Ausgangssignale der N-1 Tabellen 301 auf, um einen Gesamttexturschätzwert zu bilden. Dieser Schätzwert wird der Nachschlagetabelle 303 zugeführt, welche das Leistungsdomaine-Ausgangssignal des Addierers 302 zu einem Schwellwert der Amplitudendomaine Maskierung transformiert. Die Kartierungsfunktion innerhalb der Tabelle 303 ist eine log-artige Funktion, die den dynamischen Bereich am Ausgang der Tabelle 303 reduziert. Eine Helligkeitskorrektur wird in die Nachschlagetabelle 304 eingeführt, welche das Eingangssignal der Tabelle 303 mit dem Gleichstromwertband multipliziert. Schließlich multipliziert die Nachschlagetabelle 305 die mit der Tafel 304 entwickelte Maskierungsstelle mit einem Satz von Konstanten, wobei jede Konstante mit der Geräuschempfänglichkeit des menschlichen Sehsystems in jedem der Frequenzbänder in Beziehung steht. Die so entwickelten N Ausgangssignale bilden den Satz der Ausgangssignale, die den Teilerschaltungen oder Dividierern 111 nach Fig. 2 von dem Wahrnehmungsmodell 100 zugeführt werden.
  • Die Ausdehnung auf dreidemensionale Fälle, beispielsweise eine Zeitaufeinanderfolge von Videosignalrahmen oder eine dreidimensionale topographische Karte ist in Übereinstimmung mit gut bekannten Prinzipien ebenfalls möglich, durch die eine Ausdehnung von einer Dimension nach zwei Dimensionen ausgeführt wird. LISTE 1 TABELLE 1 Absolute Schwellenwert-Datei ("freqlist" für Start-Up-Routine) TABELLE 1 (Fortsetzung) Tabelle 2 Tabelle der kritischen Bänder und fmin Tabelle 2 (Fortsetzung)

Claims (16)

1. Verfahren zur Codierung eines Signals mit den Schritten:
Unterteilung des Signals in N Spektralbänder und Codierung gewählter Energiebänder, gekennzeichnet durch Auswählen von n aus N Bändern, die die höchste Energie mit Bezug auf ein gegebenes Rauschmaß für dieses Band besitzen, um die gewählten Energiebänder zu bilden.
2. Verfahren nach Anspruch 1, bei dem das gegebene Rauschmaß eines Bandes sich auf die Wahrnehmbarkeit von Rauschen in diesem Band bezieht.
3. Verfahren nach Anspruch 1, bei dem das gegebene Rauschmaß eines Bandes sich auf den Energiepegel eines gerade bemerkbaren Rauschens in diesem Band bezieht.
4. Verfahren nach Anspruch 1, bei dem das Signal ein Analogsignal ist und der Unterteilungsschritt zu Analogbandsignalen führt und bei dem die Codierung eine digitale Codierung ist.
5. Verfahren nach Anspruch 4, bei dem die digitale Codierung den Digitalcode jedes der Analogbandsignale zur Bildung eines Stroms von Digitalcodierungen miteinander verknüpft.
6. Verfahren nach Anspruch 1, bei dem das Signal ein Analogsignal ist und der Codierschritt ein Nach-Unten-Verschieben der gewählten n Bänder zur Bildung eines Grundbandsignals umfaßt.
7. Verfahren nach Anspruch 6, bei dem der Unterteilungsschritt zu Analogbandsignalen im wesentlichen gleicher Bandbreite W führt und der Codierschritt ein Nach-Unten-Schieben der gewählten n Bänder zur Bildung eines Grundbandsignals der Bandbreite nW umfaßt.
8. Verfahren nach Anspruch 6, bei dem der Codierschritt das Grundbandsignal codiert.
9. Verfahren nach Anspruch 6, bei dem der Codierschritt das Grundbandsignal in Digital form codiert.
10. Verfahren zum Codieren eines Analogsignals mit dem Schritt:
Unterteilen des Signals in Signale bestimmter N Frequenzbänder zur Bildung von Bandsignalen, gekennzeichnet durch
Auswählen von n der N Bandsignale, die durch einen Signalenergiepegel mit Bezug auf einen Schwellenwert gekennzeichnet sind, der nicht kleiner ist als der Signalenergiepegel mit Bezug auf einen Schwellenwert nicht gewählter Bandsignale, wobei n eine so gewählte Zahl ist, daß die Summe der Bandbreiten der gewählten Bandsignale eine vorbestimmte Bandbreite nicht übersteigt, und
Nach-Unten-Schieben der n gewählten Bandsignale zur Belegung eines besonderen Bandes innerhalb eines Grundbandes mit der vorgewählten Bandbreite.
11. Verfahren nach Anspruch 10, bei dem der Schwellenwert für jedes Bandsignal ein gegebener, jedem Band zugeordneter Schwellenwert ist.
12. Verfahren nach Anspruch 10, bei dem der Schwellenwert für jedes Bandsignal ein gegebener Energieschwellenwert für gerade wahrnehmbares Rauschen für das Bandsignal ist.
13. Verfahren nach Anspruch 10, bei dem der Auswählschritt die Auswahl eines Bandsignalls betrachtet und die gegebene, gerade wahrnehmbare Rauschenergie des Bandsignals von dem Signalenergiepegel des Bandsignals subtrahiert.
14. Verfahren nach Anspruch 1, bei dem das Signal ein Analogsignal ist, das ein Bild darstellt, und bei dem der Unterteilungsschritt das Signal in zweidimensionale Spektralbänder unterteilt.
15. Verfahren nach Anspruch 1, bei dem das Signal ein Analogsignal ist, das ein dreidimensionales Bild darstellt, und bei dem der Unterteilungsschritt das Signal in dreidimensionale Spektralbänder unterteilt.
16. Verfahren nach Anspruch 1, bei dem das Signal ein Analogsignal ist, das eine Folge von Bildern darstellt und dadurch eine dreidimensionale Oberfläche definiert, und bei dem der Unterteilungsschritt das Signal in dreidimensionale Spektralbänder unterteilt.
DE69219943T 1991-03-12 1992-03-02 Signalkompression unter Verwendung eines Empfindungsmodells Expired - Lifetime DE69219943T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/667,851 US5559900A (en) 1991-03-12 1991-03-12 Compression of signals for perceptual quality by selecting frequency bands having relatively high energy

Publications (2)

Publication Number Publication Date
DE69219943D1 DE69219943D1 (de) 1997-07-03
DE69219943T2 true DE69219943T2 (de) 1998-01-02

Family

ID=24679920

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69219943T Expired - Lifetime DE69219943T2 (de) 1991-03-12 1992-03-02 Signalkompression unter Verwendung eines Empfindungsmodells

Country Status (7)

Country Link
US (1) US5559900A (de)
EP (1) EP0508581B1 (de)
JP (1) JPH0779312B2 (de)
KR (1) KR100273071B1 (de)
CA (1) CA2061366C (de)
DE (1) DE69219943T2 (de)
TW (1) TW240354B (de)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995002240A1 (en) * 1993-07-07 1995-01-19 Picturetel Corporation A fixed bit rate speech encoder/decoder
EP0692880B1 (de) * 1993-11-04 2001-09-26 Sony Corporation Signalkodierer, signaldekodierer, aufzeichnungsträger und signalkodiererverfahren
KR100352351B1 (ko) * 1994-02-05 2003-01-06 소니 가부시끼 가이샤 정보부호화방법및장치와정보복호화방법및장치
US5734677A (en) * 1995-03-15 1998-03-31 The Chinese University Of Hong Kong Method for compression of loss-tolerant video image data from multiple sources
EP0735772A3 (de) * 1995-03-27 1998-04-01 Hewlett-Packard Company Verfahren zur Auswahl von JPEG-Quantisierungstabellen für Anwendungen mit niedriger Bandbreite
US6011864A (en) * 1996-07-03 2000-01-04 Apple Computer, Inc. Digital image coding system having self-adjusting selection criteria for selecting a transform function
JP3622365B2 (ja) * 1996-09-26 2005-02-23 ヤマハ株式会社 音声符号化伝送方式
US6175650B1 (en) 1998-01-26 2001-01-16 Xerox Corporation Adaptive quantization compatible with the JPEG baseline sequential mode
US6252994B1 (en) 1998-01-26 2001-06-26 Xerox Corporation Adaptive quantization compatible with the JPEG baseline sequential mode
JPH11215006A (ja) * 1998-01-29 1999-08-06 Olympus Optical Co Ltd ディジタル音声信号の送信装置及び受信装置
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
AU2003294685A1 (en) * 2002-12-13 2004-07-09 Gigasphere Technology Group, Inc. Method and apparatus for signal transcoding
EP1595246B1 (de) * 2003-02-07 2008-04-09 Koninklijke Philips Electronics N.V. Wasserzeichen von signalen
KR100547113B1 (ko) * 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7672531B2 (en) * 2007-04-26 2010-03-02 Geostudio Consultants Limited System and method for determining edges of objects in an image
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8521540B2 (en) * 2007-08-17 2013-08-27 Qualcomm Incorporated Encoding and/or decoding digital signals using a permutation value
US8249883B2 (en) 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
US8559511B2 (en) 2010-03-30 2013-10-15 Hong Kong Applied Science and Technology Research Institute Company Limited Method and apparatus for video coding by ABT-based just noticeable difference model
US8872504B2 (en) * 2011-04-29 2014-10-28 Tektronix, Inc. Method for automatically setting frequency span in a spectrum analyzer
CN104350391A (zh) * 2012-06-05 2015-02-11 松下知识产权经营株式会社 信号处理装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3875341A (en) * 1972-02-24 1975-04-01 Int Standard Electric Corp System for transferring wideband sound signals
US3894190A (en) * 1973-02-28 1975-07-08 Int Standard Electric Corp System for transferring wide-band sound signals
US4184049A (en) * 1978-08-25 1980-01-15 Bell Telephone Laboratories, Incorporated Transform speech signal coding with pitch controlled adaptive quantizing
US4817812A (en) * 1984-04-25 1989-04-04 Ensar Corporation Holding frame for an oven pan
GB8421498D0 (en) * 1984-08-24 1984-09-26 British Telecomm Frequency domain speech coding
DE3506912A1 (de) * 1985-02-27 1986-08-28 Telefunken Fernseh Und Rundfunk Gmbh, 3000 Hannover Verfahren zur uebertragung eines audiosignals
US4751742A (en) * 1985-05-07 1988-06-14 Avelex Priority coding of transform coefficients
US4797741A (en) * 1985-08-28 1989-01-10 Canon Kabushiki Kaisha Information signal transmission system
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
US4811112A (en) * 1987-07-24 1989-03-07 American Telephone And Telegraph Company, At&T Bell Laboratories Vector DPCM image coding method and apparatus
IL89672A (en) * 1988-04-29 1994-04-12 Motorola Inc Spectral efficient method of transmitting information signal
US5063608A (en) * 1989-11-03 1991-11-05 Datacube Inc. Adaptive zonal coder
US5113256A (en) * 1991-02-08 1992-05-12 Zenith Electronics Corporation Method of perceptually modeling a video image signal

Also Published As

Publication number Publication date
CA2061366C (en) 1997-06-17
EP0508581B1 (de) 1997-05-28
EP0508581A2 (de) 1992-10-14
KR920019190A (ko) 1992-10-22
JPH05122166A (ja) 1993-05-18
TW240354B (de) 1995-02-11
DE69219943D1 (de) 1997-07-03
JPH0779312B2 (ja) 1995-08-23
CA2061366A1 (en) 1992-09-13
EP0508581A3 (en) 1993-04-28
US5559900A (en) 1996-09-24
KR100273071B1 (ko) 2000-12-01

Similar Documents

Publication Publication Date Title
DE69219943T2 (de) Signalkompression unter Verwendung eines Empfindungsmodells
DE68925552T2 (de) Kodierer mit veränderlicher Datenrate
DE68927960T2 (de) Bildsignal-, Kodier- und Dekodiervorrichtung
DE69633129T2 (de) Waveletbaum-bildcoder mit überlappenden bildblöcken
DE69031517T2 (de) Variable Blocklängenkodierung für unterschiedliche Charakteristiken der Eingangsabtastwerte
DE69015695T2 (de) Einrichtung zur Transformationskodierung.
DE69424591T2 (de) Verfahren zur Kontrolle der Datenmenge und Kodierer zur Durchführung desselben.
DE69132017T2 (de) Kodierungsvorrichtung
DE69131259T2 (de) Bildkodierungsmethode und -gerät
DE69326484T2 (de) Vorrichtung und Verfahren zur Datenkompression
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE69705642T2 (de) Audio-kodierverfahren mit veränderlicher kodelänge unter verwendung einer mehrzahl von teilband-bitverteilungsmoden
DE19861377B4 (de) Ein verbessertes Kompressions- und Dekompressionssystem mit reversiblen Wavelets und verlustbehafteter Rekonstruktion
DE69425047T2 (de) Adaptives variables längenkodierungs- und -dekodierungsverfahren für bilddaten
DE69628935T2 (de) Vorrichtung und verfahren zur optimierung der bitratensteuerung in einem codierungssystem
DE69734961T2 (de) Verfahren zur Video- und Audiokodierung sowie Vorrichtung zur Kodierung
DE69322531T2 (de) Dynamische Bitverteilung für dreidimensionale Teilbandbildkodierung
DE69521238T2 (de) Bilddatenquantisierung in Bildkomprimierung
DE69022623T2 (de) Gegenständlich adaptiertes Bildkodiersystem.
DE69032177T2 (de) Kodierungsgerät
DE19758761B4 (de) Verfahren zum Intrakodieren eines von einer Pixelmatrix gebildeten Bildes
DE69523439T2 (de) Verfahren und Vorrichtung zur Bildsignalkodierung mit einer Klassifizieranlage
DE69425179T2 (de) Kodierungsvorrichtung und -verfahren
EP0201679A1 (de) Verfahren zur Bilddatenreduktion für digitale Fernsehsignale
DE4241131B4 (de) Einrichtung zum Kodieren und Dekodieren von Übertragungssignalen mittels Transformationen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition