DE69028675T2 - Wahrnehmungsgebundene Kodierung von Audiosignalen - Google Patents

Wahrnehmungsgebundene Kodierung von Audiosignalen

Info

Publication number
DE69028675T2
DE69028675T2 DE69028675T DE69028675T DE69028675T2 DE 69028675 T2 DE69028675 T2 DE 69028675T2 DE 69028675 T DE69028675 T DE 69028675T DE 69028675 T DE69028675 T DE 69028675T DE 69028675 T2 DE69028675 T2 DE 69028675T2
Authority
DE
Germany
Prior art keywords
frequency
signals
signal
metric
tonality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69028675T
Other languages
English (en)
Other versions
DE69028675D1 (de
Inventor
Karlheinz Brandenburg
James David Johnston
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69028675D1 publication Critical patent/DE69028675D1/de
Publication of DE69028675T2 publication Critical patent/DE69028675T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • Die vorliegende Erfindung betrifft Verfahren zur Verarbeitung einer geordneten zeitlichen Aufeinanderfolge von Audiosignalen.
  • Es besteht ein großer Bedarf an Verbraucher-, Industrie-, Studio- und Laborprodukten zum Speichern, Verarbeiten und Übermitteln von Audiosignalen hoher Güte. So zum Beispiel haben sogenannte Compact-Disc-(CD-)Digitalaufzeichnungen für Musik die lange populären Schallplatten ersetzt. In jüngster Zeit versprechen Digitaltonband-(DAT-)Einrichtungen weitere Verbesserungen und Bequemlichkeit bei Audioanwendungen hoher Güte. Siehe zum Beispiel Tan und Vermeulen, "Digital audio tape for data storage", IEEE Spectrum, Oktober 1989, S. 34-38. Das neue Interesse an Hochzeilenfernsehen (HDTV) hat die Betrachtungen auch dahingehend vorangetrieben, wie bei derartigen Systemen ein hochwertiger Audioteil effizient bereitgestellt werden kann.
  • Im Handel erhältliche CD- und DAT-Systeme verwenden zwar ausgeklügelte Paritäts- und Fehlerkorrekturcodes, doch existiert für hochwertige Audiosignale bei diesen Einrichtungen gegenwärtig keine Norm zum effizienten Codieren von Ursprungsinformationen. Tan und Vermeulen (siehe oben) merken an, daß zum Steigern der Kapazität und der Übertragungsrate bei DAT-Einrichtungen um einen Faktor von 10 über Zeit unter anderem (unspezifizierte) Datenkompression verwendet werden kann.
  • Es ist seit langer Zeit bekannt, daß menschliche Gehörempfindlichkeit durch Niederfrequenzrauschen oder weniger wünschenswerte Niederfrequenz-Tonsignale maskiert werden kann. Siehe B. Scharf, "Critical Bands", Kapitel 5 in J.V. Tobias, Foundations of Modern Auditory Theory [Grundlagen der modernen Theorie des Hörens], Academic Press, New York, 1970. Diese Effekte sind bei der Konstruktion von Codierern für Audiosignale ausgenutzt worden. Siehe zum Beispiel M.R. Schroeder et al., "Optimizing Digital Speech Coders By Exploiting Masking Properties of the Human Ear", Journal of the Acoustical Society of America, Band 66, S. 1647-1652, Dezember 1979.
  • "'MSC':Stereo Audio Coding with CD-Quality and 256 IT/SEC", IEEE Trans. on Consumer Electronics, Band CE-33, Nr. 4, November 1987, von E.F. Schroeder und H.J. Platte beschreibt eine perzeptorische Codierprozedur mit möglicher Anwendung auf CD.
  • In J.D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE Trans. on Selected Areas in Communications, Februar 1988, S. 314- 434 werden verbesserte, perzeptorische Codiertechniken für Audiosignale offenbart. Besonders verwenden die in diesem Referat beschriebenen Systeme ein menschliches Gehörmodell, um eine kurzzeitige spektrale Maskierungsfunktion abzuleiten, die in einem Transformationscodierer realisiert wird. Die Bitraten werden reduziert, indem auf der Basis der Signalfrequenzanalyse und der Maskier funktion die Redundanz herausgezogen wird. Die Techniken verwenden ein sogenanntes "Tonalitäts-"Maß, das die Form des Spektrums über den sogenannten kritischen Bändern des zu kodierenden Signals anzeigt, um die Effekte des Quantisierungsrauschens besser zu steuern.
  • Gemäß der vorliegenden Erfindung wird ein Verfahren nach Anspruch 1 bereitgestellt.
  • Die vorliegende Erfindung verbessert die in dem angeführten Referat von Johnston beschriebenen, auf der Tonalität basierenden perzeptorischen Codiertechniken. Zu diesen Verbesserungen zählt die Verwendung einer frequenzzeilenweisen Analyse anstatt einer Analyse über die Breite des Spektrums beim Berechnen der Tonalitätsmetrikwerte. Diese zeilenweise Berechnung basiert vorteilhafterweise auf einer Vorgeschichte aufeinanderfolgender Rahmen des Eingangsleistungsspektrums anstatt lediglich auf dem aktuellen Rahmen. Die vorliegende Erfindung bestimmt dann vorteilhafterweise verbesserte Abschätzungen von perzeptorischen Schwellwerten auf einer zeilenweisen Basis anstatt auf einer Basis einzelner kritischer Bänder. In Fällen, wo dies angebracht ist, kann der Maskierungsschwellwert des kritischen Bandes verwendet werden.
  • Insbesondere verwendet der Tonalitätsschätzwert der vorliegenden Erfindung vorteilhafterweise eine Meßzahl aus mehreren der zurückliegenden Zeitrahmen, in der Regel zwei, um im aktuellen Zeitrahmen den Wert einer gegebenen Leistungsspektrumsfrequenzzeile vorauszusagen. Das Merkmal dieses Prozesses ist die Verwendung einer Euklidischen Entfernung zwischen der vorausgesagten Zeile und der tatsächlichen Zeile in einem gegenwärtigen Rahmen, um die Tonalität (beziehungsweise die Verrauschtheit) jeder Spektralzeile abzuschätzen. Bei diesen Berechnungen stellt es sich als zweckmäßig heraus, unter Verwendung der vorausgesagten Werte und der Istwerte eine Normierung der Schätzwerte durchzuführen. Diese Tonalitätsschätzwerte können dann zum Beispiel auf der Basis eines kritischen Bandes kombiniert werden, um einen Schätzwert der Ist-Tonalität zu erhalten. Dies wird für jede Frequenz durchgeführt, um die rauschmaskierenden Schwellwerte zu bestimmen, die beim Quantisieren der schließlich für Aufnahme, Sendung oder sonstige Verwendung zu codierenden Frequenzinformationen verwendet werden sollen. Verfügbare Bit werden zugeordnet, um die Werte für jede Frequenz auf der Basis des berechneten Schwellwerts zu quantisieren; wenn der Schwellwert hoch liegt, werden weniger Bit benötigt, wohingegen bei niedrigem Schwellwert eine feinere Quantisierung (niedrigeres Quantisierrauschen) erforderlich ist.
  • Bei einer alternativen Umsetzung gewisser Aspekte des verbesserten Maskierungsschwellwertbestimmungsprozesses der vorliegenden Erfindung wird eine in der Technik bekannte Streuoperation, zum Beispiel die in dem oben zitierten Referat von Schroeder et al. allgemein beschriebene, verwendet.
  • Die das Signal charakterisierenden Schwellwertinformationen und Spektralinformationen können dann zu einem Übertragungskanal oder einem Aufzeichnungsmedium gesendet werden, von dem es zur Decodierung und Verwendung gewonnen werden kann.
  • Weitere Merkmale und Verbesserungen der vorliegenden Erfindung ergeben sich aus der folgenden, ausführlichen beispielhaften Beschreibung.
  • Kurze Beschreibung der Zeichnung
  • Figur 1 ist ein Blockdiagramm eines auf der vorliegenden Erfindung basierenden Gesamtsystems;
  • Figur 2 ist ein Flußdiagramm, das die bei einem Ausführungsbeispiel eines Codierers verwendete Maskierungsschwellwertverarbeitung illustriert; und
  • Figuren 3A-D zeigen die Effekte des Verarbeitens in verschiedenen Stadien der Codierung bei einem Ausführungsbeispiel.
  • Ausführliche Beschreibung
  • Um die vorliegende Offenbarung zu vereinfachen, wird auf J.D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE Journal on Selected Areas in Communications, Band 6, Nr. 2, Februar 1988 und auf die von K. Brandenburg am 10. März 1988 eingereichte internationale Patentanmeldung (PCT) WO 88/01811 Bezug genommen.
  • Der allgemeine Zusammenhang des vorliegenden erfinderischen Beitrags wird am ehesten im Zusammenhang eines Transformationscodierers des Typs, wie er in der Technik gut bekannt ist und zum Beispiel in den oben angegebenen Referaten von Johnston und Schroeder et al. beschrieben ist, eine Anwendung finden.
  • Siehe auch zum Beispiel N.S. Jayant und P. Noll, Digital Codina of Waveforms - Principles and Applications to Speech and Video [Digitale Codierung von Wellenformen - Grundlagen und Anwendungen auf Sprache und Bild], insbesondere Kapitel 12, "Transform Coding" [Transformationscodierung].
  • Die Anmeldung WO 88/01811 beschreibt den sogenannten OCF-Codierer, der als eine Alternative zum Transformationscodierer verwendet werden kann.
  • Figur 1 offenbart die Gesamtorganisation eines auf der vorliegenden Erfindung basierenden Systems. In dieser Figur wird ein analoges Signal an Eingang 100 an einen Vorprozessor 105 angelegt, wo es (in der Regel mit 32 kHz) abgetastet wird, und jeder Abtastwert wird auf normale Weise in eine digitale Folge (von in der Regel 16 Bit) umgewandelt. Der Vorprozessor 105 gruppiert dann diese digitalen Werte zu Rahmen (beziehungsweise Blöcken oder Mengen) aus zum Beispiel 512 digitalen Werten, die zum Beispiel 16 ms an Audio-Eingangssignal entsprechen.
  • Es stellt sich auch als vorteilhaft heraus, zusammenhängende Rahmen zu überlappen, in der Regel in einem Umfang von 50%. Das heißt, daß obwohl jeder Rahmen 512 geordnete digitale Werte enthält, 256 dieser Werte vom vorausgehenden 512-Werte-Rahmen wiederholt werden. Somit erscheint jeder eingegebene digitale Wert in zwei aufeinanderfolgenden Rahmen, zuerst als Teil der zweiten Hälfte des Rahmens und dann als Teil der ersten Hälfte des Rahmens.
  • Diese Rahmen werden dann auf übliche Weise zum Beispiel unter Verwendung der modifizierten diskreten Cosinus-Transformation (MDCT), die in Princen, J., et al., "Sub-band Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation", IEEE ICASSP, 1987, S. 2161-2164 beschrieben wird, transformiert. Die gutbekannte kurzfristige Fast Fourier-Transformation (FFT) kann in einer ihrer Standardformen für eine derartige Verwendung angepaßt werden, wie dem Fachmann klar sein wird. Die Menge von 257 komplexen Koeffizienten (Nullfrequenz, Nyquist-Frequenz und alle dazwischenliegenden Frequenzen), die sich aus der MDCT ergeben, stellt das kurzfristige Frequenzspektrum des Eingangssignals dar.
  • Die komplexen Koeffizienten werden zweckmäßigerweise in Polarkoordinaten beziehungsweise in Amplituden- und Phasenkomponenten, die im Folgenden als "r" und "phi" gekennzeichnet sind, dargestellt.
  • Es ist zwar in Figur 1 nicht ausführlich gezeigt, doch kann die vorliegende Erfindung vorteilhafterweise bekannte "Vorecho-" und dynamische Fenstertechniken verwenden. Diese sind zwar wahlweise, doch wird die folgende Erörterung zeigen, wie derartige Techniken in ein auf der vorliegenden Erfindung basierendes System eingebaut werden können.
  • Der in Figur 1 gezeigte perzeptorische Codierblock 110 enthält die perzeptorischen Maskierungsabschätzungsverbesserungen der vorliegenden Erfindung und wird unten ausführlich beschrieben. Der Quantisierer- Codierer-Block 115 in Figur 1 enthält den oben erwähnten Transformationscodierer oder OCF-odierer. Ebenfalls enthalten sind die Bitzuweisungstechniken und Mittel zum Erzeugen codierter Darstellungen der entsprechenden, bei der Decodierung zu verwendenden Nebeninformationen.
  • Block 120 in Figur 1 stellt das Aufzeichnungs- oder Übertragungsmedium dar, an das die codierten Ausgangssignale des Quantisierers/Codierers 115 angelegt werden. Eine geeignete Formatierung und Modulation der Ausgangssignale vom Quantisierer/Codierer 115 ist im Mediumblock 120 enthalten. Derartige Techniken sind der Technik gut bekannt und werden von dem jeweiligen Medium, den Übertragungs- oder Aufzeichnungsraten und weiteren Systemparametern vorgeschrieben.
  • Außerdem kann es notwendig sein, falls das Medium 120 Rauschen oder andere verfälschende Einflüsse enthält, zusätzliche Fehlerkontrolleinrichtungen oder -verfahren mitaufzunehmen, wie dies in der Technik gut bekannt ist. Falls es sich bei dem Medium um ein den standardmäßigen CD-Einrichtungen ähnelndes optisches Aufzeichnungsmedium handelt, kann somit eine Redundanzcodierung der bei diesem Medium gebräuchlichen Art mit der vorliegenden Erfindung verwendet werden.
  • Falls es sich bei dem Medium um eines handelt, das zur Übertragung verwendet wird, z.B. ein Rundsende-, Fernsprech- oder Satellitenmedium, so werden vorteilhafterweise andere angemessene Fehlerkontrollmechanismen angewendet. Natürlich wird bei Übergabe vom Kanal oder einem anderen Medium an den Decodierer jede Modulation, Redundanz oder andere Codierung, um dem Medium Rechnung zu tragen (oder seinen Effekten entgegenzuwirken), umgekehrt. Somit werden die von dem Quantisierer/Codierer 115 gelieferten ursprünglich codierten Informationen an eine Wiedergabeeinrichtung angelegt.
  • Insbesondere werdefl diese codierten Signale an den in Figur 1 gezeigten Decodierer 130 und an den perzeptorischen Decodierer 140 angelegt. Wie allgemein in der Technik bekannt und in dem oben angeführten Referat von Johnston beschrieben wird, sind einige der von dem perzeptorischen Codierer 110 abgeleiteten und über Quantisierer/Codierer 115 und Medium 120 an den perzeptorischen Decodierer 140 übergebenen Informationen dem Wesen nach "Nebeninformationen". Derartige Nebeninformationen werden unten und in den Johnston-Referaten ausführlicher beschrieben. Weitere Informationen, die von dem Quantisierer/Codierer 115 über Medium 120 geliefert werden und die Spektralkoeffizienten der eingegebenen Informationen betreffen, werden beispielhaft direkt an den Decodierer 130 geliefert.
  • Nach der Verarbeitung der Nebeninformationen liefert der perzeptorische Decodierer 140 zusätzliche Informationen an den Decodierer 130, so daß er die im Vorprozessor 105 entwickelten ursprünglichen spektralen Signale mit nur wenig oder keiner perzeptorischen Verzerrung wiederherstellen kann. Diese wiederhergestellten Signale werden dann an den Nachprozessor 150 angelegt, wo, wie in der Technik bekannt, die inverse MDCT oder aquivalente Operationen und D/A-Funktionen bewerkstelligt werden, um an Ausgang 160 das ursprüngliche analoge Signal wiederherzustellen. Das Ausgangssignal an 160 liegt in einer derartigen Form vor, daß es von einem Zuhörer als mit dem am Eingang 100 gelieferten im wesentlichen identisch wahrgenommen wird.
  • Perzeptorische Schwellwerte
  • Auf dem Hintergrund der oben beschriebenen Organisation des Gesamtsystems und mit der Struktur des angeführten Referats von Johnston als Grundlinie oder Bezug, wird der verbesserte Prozeß des Berechnens der Schwellwertschätzwerte beschrieben.
  • Figur 2 ist eine Darstellung des Flußdiagramms der im perzeptorischen Codierer 110 bewerkstelligten Verarbeitung. Die beigefügte Auflistung 1 bildet Teil dieser Anmeldung. Diese Auflistung ist eine beispielhafte, mit Kommentaren versehene FORTRAN-Programmauflistung in bezug auf die Entwicklung eines rauschmaskierenden Schwellwerts. Ein nützlicher Verweis zum Verständnis der FORTRAN-Verarbeitung, wie sie hier beschrieben ist, ist das FX/FORTRAN Programmer's Handbook, Alliant Computer Systems Corp., Juli 1988. In gleicher Weise können Universalrechner, wie die der Firma Alliant Computer Systems Corp., zur Ausführung des Programms der Auflistung 1 verwendet werden. Tabelle 1 ist eine Liste der im Zusammenhang mit dem beispielhaften Programm der Auflistung 1 verwendeten Konstanten.
  • In der Auflistung 1 wird zwar eine bestimmte, in der Technik gut bekannte Programmiersprache verwendet, doch wird der Fachmann erkennen, daß auch andere Sprachen für bestimmte Anwendungen der vorliegenden Erfindung angemessen sind. Es versteht sich auch, daß Konstanten, Abtastraten und andere bestimmte Werte lediglich beispielhaft sind und keineswegs als eine Einschränkung des Schutzbereichs der vorliegenden Erfindung ausgelegt werden sollten.
  • Figur 2 und Auflistung 1 werden nun ausführlich beschrieben, um ein besseres Verständnis von der vorliegenden Erfindung zu vermitteln.
  • Funktion 200 in Figur 2 deutet den Beginn der Verarbeitung an, die zum Bestimmen der verbesserten Schätzwerte der Maskierschwellwerte durchgeführt wird.
  • Block 210 stellt die Initialisierungsfunktionen dar, die die absoluten Schwellwerte aus der durch Block 220 in Figur 2 dargestellten Tabelle 1 verwenden. Diese Initialisierungs- oder Inbetriebnahmeoperationen werden in der Auflistung 1 durch die Subroutine strt() deutlich gezeigt. In dieser beispielhaften Subroutine werden zuerst die Schwellwerterzeugungstabellen ithr und bval erstellt. Es sei darauf hingewiesen, daß "i" zum Beispiel als Index für die in der Technik gut bekannten und in dem Referat von Johnston beschriebenen kritischen Bänder verwendet wird. Im Zusammenhang mit den kritischen Bändern hat "i" Werte von 0 bis 25. Für eine andere Verarbeitung bei anderen Fällen, die in der Auflistung 1 erscheinen, kann der Index i mit hiervon abweichenden Bereichen verwendet werden.
  • Bei strt() ist abslow eine Konstante, der der angezeigte Wert zugeordnet ist, um den absoluten Schwellwert des Gehörs einzustellen. rzotz ist die Abtastsollrate. rnorm ist eine im Zusammenhang mit der Streufunktion verwendete Normierungsvariable. openas ist lediglich ein zum äffnen einer ascii-Datei verwendeter Operator. db ist eine Scheinvariable, die zum Berechnen der Tabelleneinträge verwendet wird.
  • Die Berechnung des eigentlichen Schwellwerts beginnt mit der Subroutine thrgen. Bei ihren Variablen r und phi handelt es sich natürlich um die spektralen Koeffizienten, die vom Vorprozessor 105 in Figur 1 geliefert werden. Sie sind Vektoren mit 257 Werten (Nullfrequenz, die Nyquist-Frequenz und alle dazwischenliegenden Komponenten).
  • Der nächste Schritt bei der Berechnung des perzeptorischen Schwellwerts ist die Berechnung der Tonalität t(j) der Signalenergie innerhalb jedes kritischen Bandes j. Diese Operation wird durch Block 230 in Figur 2 angedeutet. Die Tonalitätsmetrik wird gemäß dem Programm der Auflistung 1 durch Bildung von
  • dr(ω)=rt-1(ω)-r-2(ω) und
  • d (ω)= t-1(ω)- t-2(ω) bestimmt.
  • dr und d sind die Unterschiede zwischen dem Radius (r(ω)) und der Phase ( (ω)) des vorausgehenden Berechnungsblocks und des einen zwei vorausgehenden. Die Berechnung wird auf der Basis jeder Frequenzzeile (ω) durchgeführt. Es sei darauf hingewiesen, daß, falls die Blöcke durch die dynamische Fenstertechnik, die verwendet werden kann, verkürzt werden, die Frequenzzeilen entsprechend dupliziert werden, so daß die Zahl der Frequenzzeilen gleich bleibt. Außerdem wird der Unterschied im Zusammenhang mit einer dynamischen Fenstertechnik entsprechend vergrößert, so daß er den (geschätzten) Unterschied über einen Block unterschiedlicher Größe darstellt.
  • Aus den Werten für dr und d und den vorhergehenden r und werden für den aktuellen Block der "erwartete" Radius und die "erwartete" Phase berechnet:
  • (ω)=rt-1(ω)+dr (ω) und
  • (ω)= t-1(ω)+d (ω),
  • wobei das ω und die Unterschiedssignale wiederum für die dynamische Fenstertechnik, falls vorhanden, entsprechend nachgestellt werden.
  • Aus diesen Werten und den Istwerten für das aktuelle Spektrum wird eine Zufälligkeitsmetrik (c(ω)) berechnet:
  • c(ω)=euklidische Entfernung((r(ω), (ω)),( (ω), (ω)))/rt(ω)+abs( (ω))
  • Durch die Berechnung von t(j) werden die c-Werte werden später zum Berechnen des entsprechenden Schwellwerts in jedem kritischen Band verwendet.
  • Als nächstes wird die Berechnung der Energie des kritischen Bandes durchgeführt, wie durch Block 240 in Figur 2 angedeutet.
  • In jedem kritischen Band beträgt die Energie im kritischen Band
  • und die summierte Zufälligkeitsmetrik C(j) beträgt im kritischen Band
  • Die C(j) werden dann in den Tonalitätsindex t(j) umgewandelt, und zwar in zwei Schritten
  • tmp(j)=max(,05,min(.5,C(j))), dann
  • t(j)=0,43*ln tmp(j)-0,299
  • Es ist nun möglich, die ungestreuten Schwellwerte abzuleiten.
  • Aus den Leistungs- und den Tonalitätswerten wird der ungestreute Schwellwert uthr(j) berechnet. Als erstes wird der eigentliche Wert für die Maskierung SNR (snrdb(j)), der der Frequenz und Tonalität entspricht, in Dezibel berechnet:
  • snrdb(j)=max(max(24,5, 15,5+j)*t(j)+5,5*(1,0-t(j)),fmin(j))
  • wobei fmin in TABELLE 2 zweckmäßigerweise als ein Energieverhältnis anstatt in db angegeben ist. Danach wird das Verhältnis der maskierten Rauschenergie zur Signalenergie berechnet: -snrdb(j)/10
  • snr (j) =10
  • und der ungestreute Schwellwert wird berechnet:
  • uthr(j)=P(j)*snr(j).
  • Der gestreute Schwellwert (sthr) wird aus dem ungestreuten Schwellwert, aus snr(j) und aus den Energien (P(j) des kritischen Bandes gemäß
  • sthr(j)=max(uthr(j),snr(j)*P(i)*mask(i-j)[i> j])
  • berechnet, wobei es sich bei mask(i-j) zweckmäßigerweise um eine Funktion auf Tabellenbasis des Typs handelt, wie er in der Literatur bekannt ist, oder wie er in der Subroutine am Ende der Auflistung 1 berechnet wird. Um die durch die Streuoperation beigetragenen Niveauveranderungen zu kompensieren, wird in der Auflistung 1 ein Normierungsfaktor rnorm eingeführt.
  • Nach der Streuung und Normierung wird der gestreute, normierte Schwellwert mit dem absoluten Schwellwert verglichen und das Maximum im begrenzten Schwellwert lthr(j) ersetzt.
  • lthr(j)=max(thr(j),absthr(j)), wobei absthr(j) in Tabelle 1 tabellarisiert ist. Es sei darauf hingewiesen, daß der absolute Schwellwert für die tatsächliche Blocklänge nachgestellt wird.
  • Schließlich wird, gegebenenfalls nach Nachstellungen für Blocklängenfaktoren, der Schwellwert vorteilhafterweise auf Schmalband-Vorecho-Probleme hin untersucht. Der Endschwellwert thr(j) wird dann berechnet:
  • thr(j)=min(lthr(j),2*othr(j)) und othr wird dann aktualisiert:
  • othr(j)=lthr(j).
  • Der Schwellwert lthr(j) wird zweckmäßigerweise auf eine Variable mit dem Namen lxmin(j) übertragen, um in den im Quantisierer/Codierer 115 in Figur 1 durchgeführten Operationen verwendet zu werden.
  • Bei einem letzten Schritt bei der Schwellwertberechnungsprozedur wird ein Entropiemeßwert berechnet, der zum Abschätzen der Zahl von für den aktuellen Signalblock benötigten Bit verwendet wird. In dem oben angeführten Referat von Johnston wird diese Technik ausführlich beschrieben. Folgende Gleichung definiert die perzeptorische Entropie
  • Dies beendet die perzeptorischen Schwellwertprozesse.
  • Eine Ausgabe der oben und in Auflistung 1 beschriebenen perzeptorischen Schwellwertverarbeitung ist eine Menge von Schwellwerten, die der Quantisieren Codierer 115 Figur 1 zum effizienten Codieren der eingegebenen Signalinformationen für Übertragung oder Speicherung, wie oben beschrieben, verwendet. Weitere Informationen, die sich für die Quantisierung in Einheit 115 und die darauffolgende Decodierung als nützlich erweisen, sind die Spektralspitzeninformationen für jede Frequenz. Der vollständige Bereich der Spektralkoeffizienteninformationen steht natürlich der Einheit 115 zur Verfügung, um ihre Codierung zu gestatten. Die an die Einheit 115 gesendeten Schwellwert- und Spektralspitzeninformationen werden auch zum Erzeugen von Nebeninformationen verwendet, die zusammen mit dem codierten Spektrum gesendet werden, um eine nachfolgende Decodierung und die Verwendung zum Erzeugen einer qualitativ hochwertigen Wiedergabe (nach Nachverarbeitung im Nachprozessor und der D/A-Einheit 150) zu gestatten. Die genaue Form der Nebeninformationen wird von dem Quantisierer/Codierer 115 und dem Decodierer 130 abhängen, wird aber in der Regel Informationen über die Quantisiererschrittgröße enthalten.
  • Figuren 3A bis 3D illustrieren die Ergebnisse der Verarbeitung in angenäherter Form.
  • In Figur 3A wird das Eingangsleistungsspektrum 51 dem sogenannten "bark"-Spektrum 52 gegenübergestellt, das für das Spektrum in jedem kritischen Band einen konstanten Wert zeigt. In Wirklichkeit enthalten die Lehren der vorliegenden Erfindung der Bestimmungen von Spektralkomponenten bei einzelnen Frequenzen, so daß bei einer getreueren Darstellung die horizontalen "Stufen" im allgemeinen durch gekrümmte Linien ersetzt würden. Der Grund, weshalb Figuren 3A bis 3D (die auf Figur 4 des oben angeführten Referats von Johnston basieren) miteinbezogen sind, ist der, während den verschiedenen Stadien der Verarbeitung die relativen Veränderungen bei den Schwellwerten zu zeigen, anstatt Details über die eigentlichen Spektren zu liefern.
  • Figur 3B zeigt die Beziehung des Spektrums nach der Streuung im Vergleich mit dem Spektrum vor der Streuung. Figur 3C zeigt die Ergebnisse der Nachstellungen des Spektrums auf der Basis der oben beschriebenen psychoakustischen Schwellwertbildungs faktoren. Wenn die Normierung und die absoluten Schwellwerte berücksichtigt werden, gelangt man schließlich zu den Endschwellwerten auf der in Figur 3D erscheinenden Kurve 55.
  • Auf der Empfänger- beziehungsweise Decodiererseite des in Figur 1 gezeigten Mediumblocks 120 empfängt der Decodierer 130 die Spektralinformationen in quantisierter Form und schreitet zu dem Punkt vor, auf der Basis der von dem Aufzeichnungs- beziehungsweise Übertragungsmedium gelieferten Nebeninformationen eine perzeptorisch präzise Darstellung des Originalspektrums zu rekonstruieren. Diese Nebeninformationen sind zweckmäßigerweise von den Spektralinformationen getrennt und werden durch die perzeptorische Decodiereinheit 140 in Figur 1 verarbeitet. Die genaue Weise, wie das Originalspektrum rekonstruiert wird, hängt von der Wirkungsweise des Quantisierers/Codierers 115 ab. Falls zum Beispiel die Schrittgröße deutlich als Nebeninformation übermittelt wird, wird diese Information decodiert und zur Verwendung bei der Interpretation der Spektralinformationssignale dem Decodierer 130 zugeführt. Vorteilhafterweise werden auch die Informationen decodiert und bei der Interpretation von Spektralinformationen verwendet, die die Weise betreffen, wie Bit in dem empfangenen Bitstrom bestimmten Signaleigenschaften zugeordnet werden. Auf gleiche Weise werden alle Informationen, die auf der Decodiererseite des Mediums 120 ankommen und sich auf die dynamische Fenstertechnik, das Vorecho, das Skalieren und andere Parameter beziehen, decodiert und zum Interpretieren der codierten Spektralinformationen verwendet.
  • Die vorausgegangene Beschreibung hat sich zwar auf eine bestimmte Programmiersprache und einen bestimmten Prozessortyp bezogen, doch wird der Fachmann erkennen, daß in bestimmten Fällen andere Umsetzungen erwünscht sind. So zum Beispiel können bei Verbraucherprodukten die größenmäßigen Anforderungen festschreiben, daß Hochleistungs-Universal- beziehungsweise Spezialmikroprozessoren wie die der Firmen AT&T, Intel Corp. oder Motorola verwendet werden. So zum Beispiel hat sich herausgestellt, daß verschiedene der Digitalsignalverarbeitungschips DSP-32 von AT&T zur Durchführung der Verarbeitung der oben beschriebenen Art brauchbar sind. Bei anderen bestimmten Fällen werden vorzugsweise Spezialkonstruktionen, die auf gut bekannten Chipentwurfstechniken basieren, verwendet, um die oben beschriebene Verarbeitung durchzuführen.
  • Die Tonalitätsmetrik, die in obigem Ausführungsbeispiel unter Verwendung von Unterschieden zwischen den Werten von r(ω)) und (ω) vom gegenwärtigen Block und den entsprechenden Werten aus den beiden vorausgegangenen Blöcken bestimmt wurde. Bei entsprechenden Fällen kann es sich als vorteilhaft herausstellen, bei der Auswertung dieser Variablen eine derartige Differenz unter Verwendung lediglich eines vorangegangenen Wertes oder unter Verwendung einer Mehrheit, die größer ist als zwei derartige vorausgegangene Werte, als Basis für die Konstruktion der erwarteten aktuellen Werte zu bilden.
  • Obgleich Werte für gewisse der oben beschriebenen Variablen für jede Spektralfrequenzzeile berechnet werden, kann es sich gleichermaßen herausstellen, daß von den Verarbeitungsbetriebsmitteln wirtschaftlich Gebrauch gemacht wird, wenn derartige Werte für weniger als alle derartigen Zeilen berechnet werden.
  • AUFLISTUNG 1
  • c Erste Inbetriebnahmeroutine
  • subroutine strt()
  • c erstellt Schwellwerterzeugungstabellen, ithr und bval
  • real freg(0:25)/0.,100.,200.,300.,400.,510.,630.,
  • 1 770.,920.,1080.,1270.,1480.,1720.,2000.,2320.,
  • 1 2700.,3150.,3700.,4400.,5300.,6400.,7700.,9500.,
  • 1 2000.,15500.,
  • 1 25000./
  • common/thresh/ithr(26),bval(257),rnorm(257)
  • common/absthr/abslow(257)
  • commonl/sigs/ifirst
  • c ithr(i) ist das untere Ende des kritischen Bandes
  • i. bval ist der "bark"-Index
  • c jeder Zeile
  • write(*,*)'welches spl wird +-32000 sein T'
  • read(*,*) abslev
  • abslev=abslev-96.
  • abslow=5224245.*5224245./exp(9.6*alog(10.))
  • ifirst=0
  • write(*,*) 'welches ist die Abtastrate'
  • read(*,*) rzotz
  • fnyq=rzotz/2.
  • c betrachtete Nyquest-Frequenz.
  • ithr(1)=2.
  • i=2
  • ithr(i) =freq(i-1) /fnyg*256.+2.
  • i=i+1
  • if (freq(i-1) .lt. fnyg) goto 10
  • c setzt ithr auf unteres Ende von cb
  • ithr (i:26)=257
  • c nun Indizierungsanordnung des kritischen Bandes erstellen
  • bval(1)=0
  • c zuerst Frequenz herausfinden, dann ...
  • do i=2,257,1
  • fre (i-1)/256.*fnyq
  • c write(*,*) i,fre
  • c fre ist nun die Frequenz der Zeile. Sie wird
  • c in die Nummer des kritischen Bandes umgewandelt..
  • do j=0,25,1
  • if ( fre .gt. freq(j)) k=j
  • end do
  • c nun ist k = letztes CB kleiner als fre
  • rpart=fre-freq(k)
  • range=freq(k+1)-freq(k)
  • bval (i)=k+rpart/range
  • end do
  • rnorm=1
  • do i=2,257,1
  • tmp=0
  • do j=2,257,1
  • tmp=tmp+sprdngf(bval(j),bval(i))
  • end dc
  • rnorm(i)=tmp
  • end do
  • rnorm=1./rnorm
  • c do i=1,257,1
  • c write(*,*) i, bval(i), 10.*alog10(rnorm(i))
  • c end do
  • call openas(0,'/usr/jj/nsrc/thrtry/freqlist',0)
  • do i=2,257,1
  • read(0,*) ii,db
  • if ( ii .ne. i ) then
  • write(*,*) 'freglist ist schlecht.'
  • stop
  • end if
  • db=exp((db-abslev)/10.*alog(10.))
  • write(*,*) i,db
  • abslow(i)=abslow(i) *db
  • end do
  • abslow(1) =1.
  • write(*,*) 'niedrigstes Niveau ist', sqrt(abslow(45))
  • return
  • end
  • c Schwellwertberechnungsprogramm
  • subroutine thrgen(rt,phi,thr)
  • real r(257),phi(257)
  • real rt(257)
  • real thr(257)
  • common/blnk/ or(257),ophi(257),dr(257),dphi(257)
  • common/blkl/othr(257)
  • real alpha(257),tr(257),tphi(257)
  • real beta(257),bcalc(257)
  • common/absthr/abslow (257)
  • common/thresh/ithr(26),bval(257),rnorm(257)
  • common/sigs/ifirst
  • r=max(rt, .0005)
  • bcalc=1.
  • if (ifirst .eq. 0) then
  • or=0
  • othr=1e20
  • ophi=0
  • dr=0
  • dphi=0
  • ifirst=1
  • end if
  • c diese Subroutine findet unter Verwendung zeilenweiser Messung
  • c die neuen Schwellwerte heraus.
  • tr=or+dr
  • tphi=ophi+dphi
  • dr=r-or
  • dphi=phi-ophi
  • or=r
  • ophi=phi
  • alpha=sqrt ( (r*cos(phi)-tr*cos(tphi))
  • 1*(r*cos(phi)-tr*cos(tphi))
  • 2+(r*sin(phi)-tr*sin(tphi))
  • 3*(r*sin(phi)-tr*sin(tphi)))
  • 4 /(r + abs(tr) +1.)
  • beta=alpha
  • c jetzt ist Beta der ungewichtete Tonalitätsfaktor
  • alpha=r*r
  • c nun ist die Energie in jeder
  • c Zeile. Muß streuenn (ecch)
  • c write(*,*) 'vor dem Streuen'
  • thr=0.
  • bcalc=0.
  • cvd$1 cncall
  • do i=2,257,1
  • cvd$1 cncall
  • do j=2,257,1
  • glorch=sprdngf(bval(j),bval(i))
  • thr(i)=alpha(j)*glorch+thr(i)
  • bcalc(i)=alpha(j)*glorch*beta(j)+bcalc(i)
  • c thr ist die gestreute Energie, bcalc ist das gewichtete Chaos
  • end do
  • c if (thr(i) .eq. 0) then
  • c write(*,*) 'Schwellwert Null, Du hast Mist gemacht'
  • c stop
  • c end if
  • bcalc(i)=bcalc(i)/thr(i)
  • if (bcalc(i) .gt. .5) bcalc(i)=1.-bcalc(i)
  • c das normiert bcalc auf 0- .5
  • end do
  • c write(*,*) 'nach Streuung'
  • bcalc=max(bcalc, .05)
  • bcalc=min(bcalc, .5)
  • c bcalc ist nun die Chaosmetrik, in die
  • c Tonalitätsmetrik umwandeln
  • bcalc=-.43*alog(bcalc)-.299
  • c nun DB berechnen
  • bcalc=max(24.5, (15.5+bval))*bcalc+5.5*(1.-bcalc)
  • bcalc=exp( (-bcalc/10.) * alog (10.))
  • c nun ist bcalc der eigentliche Tonalitätsfaktor
  • c für den Leistungsraum
  • thr=thr*rnorm*bcalc
  • c Schwellwert ist Tonalitätsfaktor mal Energie (mit Normierung)
  • thr=max (thr,abslow)
  • alpha=thr
  • thr=min(thr,othr*2.)
  • othr=alpha
  • c write(*,*) 'thrgen verlassen'
  • return
  • end
  • c Und die Streufunktion
  • function sprdngf(j,i)
  • real i,j
  • real sprdngf
  • c dies berechnet den Wert der Streufunktion für
  • c das i-te bark mit der Mitte beim j-ten
  • c bark
  • temp1=i-j
  • temp2=15.811389 +7.5*(temp1+.474)
  • temp2=temp2- 17.5*sqrt(1.+(temp1+.4741*(temp1+. 474))
  • if ( temp2 .le. -100. ) then
  • temp3=0.
  • else
  • temp2=temp2/10.*alog (10.)
  • temp3=exp(temp2)
  • end if
  • sprdngf=temp3
  • return
  • end TABELLE I Datei der absoluten Schwellwerte ("freqlist" für Inbetriebnahmeroutine) TABELLE II Tabelle der kritischen Bänder und fmin (für eine Abtastfrequenz von 48 kHz)
  • Der obere Rand des Bandes wird auf 20 kHz eingestellt (Zeile 214 bei Blocklänge 256, Zeile 428 bei Blocklänge 512).
  • Die folgende Tabelle wird bei Blocklänge 512 verwendet. Die Tabelle für Blocklänge 256 kann ohne weiteres aus der Tabelle für die Blocklänge 512 berechnet werden. Die Tabellen für weitere Abtastraten können ebenfalls aus dieser Liste berechnet werden.

Claims (9)

1. Verfahren zur Verarbeitung einer geordneten zeitlichen Aufeinanderfolge von Audiosignalen, die in eine Menge von geordneten Blöcken zerlegt worden sind, wobei die Blöcke jeweils ein diskretes Frequenzspektrum mit einer ersten Menge von Frequenzkoeffizienten aufweisen, dadurch gekennzeichnet, daß
das Verfahren für jeden der Blöcke folgende Schritte umfaßt:
a) Bestimmen, für jeden von mehreren der Frequenzkoeffizienten in der ersten Menge, einer entsprechenden Zufälligkeitsmetrik, wobei jede der Zufälligkeitsmetriken auf einem Unterschied zwischen dem entsprechenden Frequenzkoeffizienten in der ersten Menge und einem entsprechenden vorausgesagten Frequenzkoeffizienten basiert, wobei der entsprechende vorausgesagte Frequenzkoeffizient auf mindestens einem Frequenzkoeffizienten in einer zweiten Vormenge von Frequenzkoeffizienten basiert;
b) für jede der Zufälligkeitsmetriken Bestimmen einer entsprechenden Tonalitätsmetrik auf der Basis der entsprechenden Zufälligkeitsmetrik, wobei jede Tonalitätsmetrik ein Maß des Tongehalts des Audiosignals bei einer Frequenz, die dem der Zufälligkeitsmetrik entsprechenden Frequenzkoeffizienten entspricht, widerspiegelt; und
c) Erzeugen einer Menge von entsprechenden rauschmaskierenden Schwellwerten jeweils auf der Basis einer entsprechenden der Tonalitätsmetriken.
2. Verfahren nach Anspruch 1, das das Quantisieren jedes der Frequenzkoeffizienten in der ersten Menge auf der Basis eines entsprechenden der rauschmaskierenden Schwellwerte umfaßt.
3. Verfahren zur Herstellung eines Speichermediums, wobei das Verfahren folgendes umfaßt:
a) ein Verfahren zur Verarbeitung einer geordneten zeitlichen Aufeinanderfolge von Audiosignalen gemäß Anspruch 2,
b) Anlegen eines Aufzeichnungssignals an das Speichermedium, wobei das Aufzeichnungssignal Signale umfaßt, die die quantisierten Frequenzkoeffizienten darstellen, und
c) Aufzeichnen des Signals auf dem Speichermedium.
4. Verfahren nach Anspruch 3, wobei es sich bei dem Speichermedium um eine Compact-Disc handelt.
5. Verfahren nach Anspruch 3, wobei es sich bei dem Speichermedium um ein Digitaltonband handelt.
6. Verfahren zur Übertragung von Audiosignalen, wobei das Verfahren folgendes umfaßt:
a) ein Verfahren gemäß Anspruch 2; und
b) Anlegen eines Übertragungssignals an ein Übertragungsmedium, wobei das Übertragungssignal Signale umfaßt, die die quantisierten Frequenzkoeffizienten darstellen.
7. Verfahren nach Anspruch 6, wobei es sich bei dem Übertragungsmedium um ein Rundsendeübertragungsmedium handelt.
8. Verfahren nach Anspruch 1, 3 oder 6, wobei die Verarbeitung das Erzeugen von Signalen mit einem diskreten Frequenzspektrum umfaßt.
9. Verfahren nach Anspruch 8, wobei das Erzeugen von Signalen mit einem diskreten Frequenzspektrum das Erzeugen von Signalen mit einem diskreten Fourierkoeffizienten umfaßt.
DE69028675T 1989-10-18 1990-10-10 Wahrnehmungsgebundene Kodierung von Audiosignalen Expired - Lifetime DE69028675T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/423,088 US5040217A (en) 1989-10-18 1989-10-18 Perceptual coding of audio signals

Publications (2)

Publication Number Publication Date
DE69028675D1 DE69028675D1 (de) 1996-10-31
DE69028675T2 true DE69028675T2 (de) 1997-02-13

Family

ID=23677639

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69028675T Expired - Lifetime DE69028675T2 (de) 1989-10-18 1990-10-10 Wahrnehmungsgebundene Kodierung von Audiosignalen

Country Status (7)

Country Link
US (2) US5040217A (de)
EP (1) EP0424016B1 (de)
JP (1) JP2756515B2 (de)
KR (1) KR100209870B1 (de)
CA (1) CA2027136C (de)
DE (1) DE69028675T2 (de)
HK (1) HK220296A (de)

Families Citing this family (149)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
USRE40280E1 (en) 1988-12-30 2008-04-29 Lucent Technologies Inc. Rate loop processor for perceptual encoder/decoder
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
US5115240A (en) * 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
JP2969862B2 (ja) * 1989-10-04 1999-11-02 松下電器産業株式会社 音声認識装置
JPH03139700A (ja) * 1989-10-25 1991-06-13 Sony Corp オーディオ信号再生装置
US6695477B1 (en) * 1989-10-25 2004-02-24 Sony Corporation Audio signal reproducing apparatus
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
DE4020656A1 (de) * 1990-06-29 1992-01-02 Thomson Brandt Gmbh Verfahren zur uebertragung eines signals
US5317672A (en) * 1991-03-05 1994-05-31 Picturetel Corporation Variable bit rate speech encoder
WO1992015986A1 (en) * 1991-03-05 1992-09-17 Picturetel Corporation Variable bit rate speech encoder
GB2257606B (en) * 1991-06-28 1995-01-18 Sony Corp Recording and/or reproducing apparatuses and signal processing methods for compressed data
GB2258372B (en) * 1991-08-02 1995-05-31 Sony Corp Apparatus for and methods of recording and/or reproducing digital data
DE4212339A1 (de) * 1991-08-12 1993-02-18 Standard Elektrik Lorenz Ag Codierverfahren fuer audiosignale mit 32 kbit/s
EP0535889B1 (de) * 1991-09-30 1998-11-11 Sony Corporation Verfahren und Anordnung zur Audiodatenkompression
JP3310682B2 (ja) * 1992-01-21 2002-08-05 日本ビクター株式会社 音響信号の符号化方法及び再生方法
EP0559348A3 (de) 1992-03-02 1993-11-03 AT&T Corp. Rateurregelschleifenprozessor für einen wahrnehmungsgebundenen Koder/Dekoder
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JP3446216B2 (ja) * 1992-03-06 2003-09-16 ソニー株式会社 音声信号処理方法
US5495552A (en) * 1992-04-20 1996-02-27 Mitsubishi Denki Kabushiki Kaisha Methods of efficiently recording an audio signal in semiconductor memory
JP3278900B2 (ja) * 1992-05-07 2002-04-30 ソニー株式会社 データ符号化装置及び方法
JP3153933B2 (ja) * 1992-06-16 2001-04-09 ソニー株式会社 データ符号化装置及び方法並びにデータ復号化装置及び方法
JP3508146B2 (ja) * 1992-09-11 2004-03-22 ソニー株式会社 ディジタル信号符号化復号化装置、ディジタル信号符号化装置及びディジタル信号復号化装置
JP3185413B2 (ja) * 1992-11-25 2001-07-09 ソニー株式会社 直交変換演算並びに逆直交変換演算方法及びその装置、ディジタル信号符号化及び/又は復号化装置
JP3123286B2 (ja) * 1993-02-18 2001-01-09 ソニー株式会社 ディジタル信号処理装置又は方法、及び記録媒体
JP3186292B2 (ja) * 1993-02-02 2001-07-11 ソニー株式会社 高能率符号化方法及び装置
US5579404A (en) * 1993-02-16 1996-11-26 Dolby Laboratories Licensing Corporation Digital audio limiter
JP3186307B2 (ja) * 1993-03-09 2001-07-11 ソニー株式会社 圧縮データ記録装置及び方法
JP3123290B2 (ja) * 1993-03-09 2001-01-09 ソニー株式会社 圧縮データ記録装置及び方法、圧縮データ再生方法、記録媒体
JP3173218B2 (ja) * 1993-05-10 2001-06-04 ソニー株式会社 圧縮データ記録方法及び装置、圧縮データ再生方法、並びに記録媒体
US5581654A (en) * 1993-05-25 1996-12-03 Sony Corporation Method and apparatus for information encoding and decoding
ATE211326T1 (de) * 1993-05-31 2002-01-15 Sony Corp Verfahren und vorrichtung zum kodieren oder dekodieren von signalen und aufzeichnungsmedium
BR9405445A (pt) * 1993-06-30 1999-09-08 Sony Corp Aparelho codificador e decodificador de sinal apropriado para codificar um sinal de entrada e decodificar um sinal codificado, suporte de gravação onde sinais codificados são gravados, e processo de codificação e de decodificação de sinal para codificar um sinal de entrada e decodificar um sinal codificado.
US5664057A (en) * 1993-07-07 1997-09-02 Picturetel Corporation Fixed bit rate speech encoder/decoder
TW272341B (de) * 1993-07-16 1996-03-11 Sony Co Ltd
TW327223B (en) * 1993-09-28 1998-02-21 Sony Co Ltd Methods and apparatus for encoding an input signal broken into frequency components, methods and apparatus for decoding such encoded signal
KR100330290B1 (ko) * 1993-11-04 2002-08-27 소니 가부시끼 가이샤 신호부호화장치,신호복호화장치,및신호부호화방법
WO1995013660A1 (fr) * 1993-11-09 1995-05-18 Sony Corporation Appareil de quantification, procede de quantification, codeur a haute efficacite, procede de codage a haute efficacite, decodeur, supports d'enregistrement et de codage a haute efficacite
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
US5608713A (en) * 1994-02-09 1997-03-04 Sony Corporation Bit allocation of digital audio signal blocks by non-linear processing
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
JP3277677B2 (ja) * 1994-04-01 2002-04-22 ソニー株式会社 信号符号化方法及び装置、信号記録媒体、信号伝送方法、並びに信号復号化方法及び装置
CA2163371C (en) * 1994-04-01 2005-09-20 Kyoya Tsutsui Information encoding method and apparatus, information decoding method and apparatus, information transmission method, and information recording medium
JP3186412B2 (ja) * 1994-04-01 2001-07-11 ソニー株式会社 情報符号化方法、情報復号化方法、及び情報伝送方法
JPH07322252A (ja) * 1994-05-23 1995-12-08 Canon Inc 画像符号化装置
JP3250376B2 (ja) * 1994-06-13 2002-01-28 ソニー株式会社 情報符号化方法及び装置並びに情報復号化方法及び装置
JP3277699B2 (ja) * 1994-06-13 2002-04-22 ソニー株式会社 信号符号化方法及び装置並びに信号復号化方法及び装置
JP3277705B2 (ja) 1994-07-27 2002-04-22 ソニー株式会社 情報符号化装置及び方法、並びに情報復号化装置及び方法
JP3341474B2 (ja) * 1994-07-28 2002-11-05 ソニー株式会社 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体
US5625743A (en) * 1994-10-07 1997-04-29 Motorola, Inc. Determining a masking level for a subband in a subband audio encoder
US5654952A (en) * 1994-10-28 1997-08-05 Sony Corporation Digital signal encoding method and apparatus and recording medium
ATE211869T1 (de) * 1994-10-28 2002-01-15 Rai Radiotelevisione Italiana Teilbandkodierung mit auf tonhöhen basierter prädiktionskodierung in jedem einzelnen teilband
KR970011727B1 (en) * 1994-11-09 1997-07-14 Daewoo Electronics Co Ltd Apparatus for encoding of the audio signal
JP3557674B2 (ja) * 1994-12-15 2004-08-25 ソニー株式会社 高能率符号化方法及び装置
JP3371590B2 (ja) * 1994-12-28 2003-01-27 ソニー株式会社 高能率符号化方法及び高能率復号化方法
KR970003559Y1 (ko) * 1994-12-30 1997-04-18 기아자동차 주식회사 차량의 열변형 방지가 가능한 인스트루먼트 코어
US5537510A (en) * 1994-12-30 1996-07-16 Daewoo Electronics Co., Ltd. Adaptive digital audio encoding apparatus and a bit allocation method thereof
US5646961A (en) * 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
FR2730594B1 (fr) * 1995-02-09 1997-03-21 France Telecom Procede de quantification vectorielle sur reseau contrainte en debit
KR100346734B1 (ko) * 1995-09-22 2002-11-23 삼성전자 주식회사 고속분석필터및합성필터를구비한오디오부호화기및복호화기
JPH1084284A (ja) * 1996-09-06 1998-03-31 Sony Corp 信号再生方法および装置
JP3496411B2 (ja) * 1996-10-30 2004-02-09 ソニー株式会社 情報符号化方法及び復号化装置
US6147010A (en) * 1996-11-14 2000-11-14 Micron Technology, Inc. Solvent prewet and method to dispense the solvent prewet
US6516299B1 (en) 1996-12-20 2003-02-04 Qwest Communication International, Inc. Method, system and product for modifying the dynamic range of encoded audio signals
US5864820A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
US6782365B1 (en) 1996-12-20 2004-08-24 Qwest Communications International Inc. Graphic interface system and product for editing encoded audio data
US5845251A (en) * 1996-12-20 1998-12-01 U S West, Inc. Method, system and product for modifying the bandwidth of subband encoded audio data
US6477496B1 (en) 1996-12-20 2002-11-05 Eliot M. Case Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one
US6463405B1 (en) 1996-12-20 2002-10-08 Eliot M. Case Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
US5864813A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for harmonic enhancement of encoded audio signals
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6111844A (en) * 1997-07-03 2000-08-29 At&T Corp. Quality degradation through compression/decompression
US6266419B1 (en) * 1997-07-03 2001-07-24 At&T Corp. Custom character-coding compression for encoding and watermarking media content
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
DE19730129C2 (de) * 1997-07-14 2002-03-07 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
DE19840853B4 (de) * 1997-10-24 2004-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtungen zum Codieren eines Audiosignals
US6091773A (en) * 1997-11-12 2000-07-18 Sydorenko; Mark R. Data compression method and apparatus
US6243424B1 (en) 1998-03-27 2001-06-05 Ibiguity Digital Corporation Method and apparatus for AM digital broadcasting
US20060265091A1 (en) * 1998-08-14 2006-11-23 Bruce Mihura Audio entertainment system for storing and playing audio information
US6704705B1 (en) 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
JP2000165251A (ja) * 1998-11-27 2000-06-16 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置及びそれを実現したマイクロホン
US6418404B1 (en) 1998-12-28 2002-07-09 Sony Corporation System and method for effectively implementing fixed masking thresholds in an audio encoder device
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6480820B1 (en) 1999-09-20 2002-11-12 Advanced Cochlear Systems, Inc. Method of processing auditory data
DE19947877C2 (de) * 1999-10-05 2001-09-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
US7286670B2 (en) * 1999-11-09 2007-10-23 Chaoticom, Inc. Method and apparatus for chaotic opportunistic lossless compression of data
US7215776B1 (en) 1999-11-09 2007-05-08 University Of New Hampshire Method and apparatus for the compression and decompression of audio files using a chaotic system
US7215772B2 (en) 1999-11-09 2007-05-08 Chaoticom, Inc. Method and apparatus for remote digital key generation
US6549544B1 (en) * 1999-11-10 2003-04-15 Ibiquity Digital Corporation Method and apparatus for transmission and reception of FM in-band on-channel digital audio broadcasting
US6523147B1 (en) 1999-11-11 2003-02-18 Ibiquity Digital Corporation Method and apparatus for forward error correction coding for an AM in-band on-channel digital audio broadcasting system
US6499010B1 (en) 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
WO2001099315A2 (en) * 2000-06-20 2001-12-27 University Of New Hampshire Method and apparatus for the compression and decompression of audio files using a chaotic system
US7110547B2 (en) * 2000-06-20 2006-09-19 University Of New Hampshire Method and apparatus for the compression and decompression of image files using a chaotic system
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US6963975B1 (en) * 2000-08-11 2005-11-08 Microsoft Corporation System and method for audio fingerprinting
US6732180B1 (en) 2000-08-08 2004-05-04 The University Of Tulsa Method to inhibit the identification and retrieval of proprietary media via automated search engines utilized in association with computer compatible communications network
EP1199711A1 (de) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Kodierung von Audiosignalen unter Verwendung von Vergrösserung der Bandbreite
US7447639B2 (en) 2001-01-24 2008-11-04 Nokia Corporation System and method for error concealment in digital audio transmission
US7069208B2 (en) * 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
US6915264B2 (en) 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
US7177803B2 (en) * 2001-10-22 2007-02-13 Motorola, Inc. Method and apparatus for enhancing loudness of an audio signal
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20100042406A1 (en) * 2002-03-04 2010-02-18 James David Johnston Audio signal processing using improved perceptual model
GB2388502A (en) * 2002-05-10 2003-11-12 Chris Dunn Compression of frequency domain audio signals
US7333930B2 (en) 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US20040165734A1 (en) * 2003-03-20 2004-08-26 Bing Li Audio system for a vehicle
US6813661B2 (en) 2003-03-20 2004-11-02 Bing Li Portable audio system
US7724827B2 (en) * 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
CA2554757A1 (en) * 2004-01-29 2005-08-11 Chaoticom, Inc. Systems and methods for providing digital content and caller alerts to wireless network-enabled devices
US7539870B2 (en) * 2004-02-10 2009-05-26 Microsoft Corporation Media watermarking by biasing randomized statistics
EP1914722B1 (de) 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Mehrkanalige Audiodekodierung
US7505902B2 (en) * 2004-07-28 2009-03-17 University Of Maryland Discrimination of components of audio signals based on multiscale spectro-temporal modulations
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
JP4639966B2 (ja) * 2005-05-31 2011-02-23 ヤマハ株式会社 オーディオデータ圧縮方法およびオーディオデータ圧縮回路並びにオーディオデータ伸張回路
KR100718132B1 (ko) * 2005-06-24 2007-05-14 삼성전자주식회사 오디오 신호의 비트스트림 생성 방법 및 장치, 그를 이용한부호화/복호화 방법 및 장치
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US8599925B2 (en) * 2005-08-12 2013-12-03 Microsoft Corporation Efficient coding and decoding of transform blocks
CN101427307B (zh) * 2005-09-27 2012-03-07 Lg电子株式会社 编码/解码多声道音频信号的方法和装置
EP1943642A4 (de) * 2005-09-27 2009-07-01 Lg Electronics Inc Verfahren und vorrichtung zum codieren/decodieren eines mehrkanaligen audiosignals
ES2296489B1 (es) * 2005-12-02 2009-04-01 Cesar Alonso Abad Metodo escalable de compresion de audio e imagenes.
KR101355376B1 (ko) * 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
JP5395066B2 (ja) * 2007-06-22 2014-01-22 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8412340B2 (en) * 2007-07-13 2013-04-02 Advanced Bionics, Llc Tonality-based optimization of sound sensation for a cochlear implant patient
US8249883B2 (en) 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
KR101454867B1 (ko) 2008-03-24 2014-10-28 삼성전자주식회사 오디오 신호 압축 방법 및 장치
KR101619972B1 (ko) 2008-10-02 2016-05-11 한국전자통신연구원 이산 여현 변환/이산 정현 변환을 선택적으로 이용하는 부호화/복호화 장치 및 방법
US8223985B2 (en) * 2009-04-22 2012-07-17 General Electric Company Masking of pure tones within sound from a noise generating source
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
US20110257978A1 (en) * 2009-10-23 2011-10-20 Brainlike, Inc. Time Series Filtering, Data Reduction and Voice Recognition in Communication Device
US8925024B2 (en) 2009-12-31 2014-12-30 The Nielsen Company (Us), Llc Methods and apparatus to detect commercial advertisements associated with media presentations
JP5732994B2 (ja) * 2011-04-19 2015-06-10 ソニー株式会社 楽曲検索装置および方法、プログラム、並びに記録媒体
EP2717263B1 (de) * 2012-10-05 2016-11-02 Nokia Technologies Oy Verfahren, Vorrichtung und Computerprogrammprodukt zur kategorischen räumlichen Analyse-Synthese des Spektrums eines Mehrkanal-Audiosignals
RU2660605C2 (ru) 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Концепция заполнения шумом
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover
US10043527B1 (en) 2015-07-17 2018-08-07 Digimarc Corporation Human auditory system modeling with masking energy adaptation

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US28276A (en) * 1860-05-15 Bedstead-fastening
US28488A (en) * 1860-05-29 Eataet-machiite
USRE28276E (en) 1963-06-06 1974-12-17 Milk fermenting product and method of making same
US3420742A (en) * 1964-10-16 1969-01-07 Dairy Technics Inc Milk fermenting product and method of making same
USRE28488E (en) 1973-11-19 1975-07-22 Milk fermenting product
JPS59129900A (ja) * 1983-01-18 1984-07-26 日本電信電話株式会社 帯域分割符号化方式
JPS6027459A (ja) * 1983-07-22 1985-02-12 Sumitomo Metal Ind Ltd 通電ロ−ル及び鋳片の溶損防止装置
JPS60159800A (ja) * 1984-01-30 1985-08-21 日本電気株式会社 適応予測変換符号化方式
CA1229681A (en) * 1984-03-06 1987-11-24 Kazunori Ozawa Method and apparatus for speech-band signal coding
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
JPH0833746B2 (ja) * 1987-02-17 1996-03-29 シャープ株式会社 音声・楽音の帯域分割符号化装置
JPH032559Y2 (de) * 1987-03-11 1991-01-23
JPS63237100A (ja) * 1987-03-26 1988-10-03 沖電気工業株式会社 音声検出器
JPS63281200A (ja) * 1987-05-14 1988-11-17 沖電気工業株式会社 音声区間検出方式
JP2586043B2 (ja) * 1987-05-14 1997-02-26 日本電気株式会社 マルチパルス符号化装置
JPS6446880A (en) * 1987-08-17 1989-02-21 Fuji Xerox Co Ltd Image processor
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model

Also Published As

Publication number Publication date
EP0424016A2 (de) 1991-04-24
EP0424016B1 (de) 1996-09-25
CA2027136A1 (en) 1991-04-19
JPH03144700A (ja) 1991-06-20
KR100209870B1 (ko) 1999-07-15
USRE36714E (en) 2000-05-23
KR910008975A (ko) 1991-05-31
US5040217A (en) 1991-08-13
CA2027136C (en) 2001-01-16
DE69028675D1 (de) 1996-10-31
EP0424016A3 (en) 1992-09-02
JP2756515B2 (ja) 1998-05-25
HK220296A (en) 1997-01-03

Similar Documents

Publication Publication Date Title
DE69028675T2 (de) Wahrnehmungsgebundene Kodierung von Audiosignalen
DE69401514T2 (de) Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung
DE69333786T2 (de) Verfahren zum Kodieren und Dekodieren von Audiodaten
DE69116476T2 (de) Digitaler Signalverschlüssler
DE69933119T2 (de) Verfahren und vorrichtung zur maskierung des quantisierungsrauschens von audiosignalen
DE69401512T2 (de) Hybride adaptive bitzuteilung für audiokoder und -dekoder
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE60004814T2 (de) Quantisierung in perzeptuellen audiokodierern mit kompensation des durch den synthesefilter verschmierten rauschens
DE69210064T2 (de) Teilbandkodierer und Sender unter Verwendung dieses Kodierers
DE69122306T2 (de) Digitales Teilbandsignalkodiergerät
DE69127842T2 (de) Hybride wahrnehmungsgebundene Kodierung von Audiosignalen
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE60110679T3 (de) Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz
DE69015613T2 (de) Transformationscodierer, -decodierer und -codierer/decodierer mit kurzer zeitverzögerung für audio-anwendungen hoher qualität.
DE69107841T2 (de) Transformationskodierer und -dekodierer mit adaptiver blocklänge, adaptiver transformation und adaptivem fenster für hochwertige tonsignale.
DE69432538T2 (de) Digitales Signalkodierungsgerät, dazugehöriges Dekodiergerät und Aufzeichnungsträger
DE69122648T2 (de) Digitale Teilbandkodierungsvorrichtung
DE2818052C2 (de) Quantisierung eines Signals mit einem sich über ein gegebenes Frequenzband erstreckendem Spetkrum
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE4320990B4 (de) Verfahren zur Redundanzreduktion
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
EP0954909A1 (de) Verfahren zum codieren eines audiosignals
DE69534140T2 (de) Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren
WO1999004505A1 (de) Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals
DE19811039A1 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition