DE69737302T2 - Verfahren zum Codieren von digitalen Audiosignalen - Google Patents

Verfahren zum Codieren von digitalen Audiosignalen Download PDF

Info

Publication number
DE69737302T2
DE69737302T2 DE69737302T DE69737302T DE69737302T2 DE 69737302 T2 DE69737302 T2 DE 69737302T2 DE 69737302 T DE69737302 T DE 69737302T DE 69737302 T DE69737302 T DE 69737302T DE 69737302 T2 DE69737302 T2 DE 69737302T2
Authority
DE
Germany
Prior art keywords
assignment
frequency band
power
percentage
bits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69737302T
Other languages
English (en)
Other versions
DE69737302D1 (de
Inventor
Osamu Higashihiroshima-shi Fujii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of DE69737302D1 publication Critical patent/DE69737302D1/de
Application granted granted Critical
Publication of DE69737302T2 publication Critical patent/DE69737302T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Die Erfindung bezieht sich auf ein Verfahren zum Codieren digitaler Daten, bei dem beim Aufzeichnen musikalischer Töne, Klänge usw. in Aufzeichnungsmedien wie etwa Minidiscs zu dem Spektrum jedes Frequenzbandes in Reaktion auf die musikalischen Töne, Klänge usw. Bits zugewiesen werden, um das Datenvolumen zu komprimieren.
  • HINTERGRUND DER ERFINDUNG
  • Das in Minidiscs verwendete ATRAC (Adaptive Transform Acoustic Coding) ist ein Verfahren zur sehr effizienten komprimierten Codierung digitaler Daten wie etwa musikalischer Töne und Klänge. Da die digitalen Daten im ATRAC mit hoher Effizienz komprimiert werden, werden sie zuerst in mehrere Frequenzbänder zerlegt, daraufhin in Übereinstimmung mit Zeiteinheiten veränderlicher Länge in Blöcke unterteilt und durch eine MDCT-Verarbeitung (Verarbeitung durch modifizierte diskrete Kosinustransformation) in Spektralsignale transformiert, woraufhin jedes Spektralsignal unter Berücksichtigung gehörpsychologischer Eigenschaften durch die Anzahl quantisierter Bits, die ihm zugewiesen worden sind, codiert wird.
  • Unter den gehörpsychologischen Eigenschaften, die auf die komprimierte Codierung angewendet werden können, sind die Lautstärkepegeleigenschaften und die Maskierungswirkung. Die Lautstärkepegeleigenschaften zeigen, dass sich die von einer Person gefühlte Lautstärke eines Klangs selbst bei dem gleichen Klangdruckpegel gemäß der Frequenz des Klangs ändert. Dementsprechend zeigt dies, dass sich die untere Hörgrenze, die die kleinste Lautstärke zeigt, die von einer Person gehört werden kann, gemäß der Frequenz ändert. Bezüglich der Maskierungswirkung gibt es zwei Arten: gleichzeitige Maskierungswirkung und verstrichene Maskierungswirkung. Die gleichzeitige Maskierungswirkung ist eine Erscheinung, in der es ein Klang erschwert, einen anderen zu hören, wenn mehrere Klänge mit verschiedener Frequenzzusammenset zung gleichzeitig auftreten. Die verstrichene Maskierungswirkung ist eine Erscheinung, in der die Maskierung vor und nach einem lauten Klang entlang der Zeitachse des lauten Klangs auftritt.
  • Ein Beispiel des Standes der Technik, das die verstrichene Maskierungswirkung nutzt, ist die japanische ungeprüfte Patentveröffentlichung Nr. 5-91061/1993. Wenn in diesem Stand der Technik in einer der Frequenzumsetzungs-Zeiteinheiten ein Übergangssignal enthalten ist, werden in Übereinstimmung mit einer Wortlange, die sich je nach der Energie vorangehender Zeiteinheiten und der Größe der Maskierung ändert, Bits zugewiesen, wodurch eine "Vor-Echo" genannte Klangqualitätsverschlechterung verhindert wird. Die japanische ungeprüfte Patentveröffentlichung Nr. 5-248972/1993 schlägt wieder eine Technik zur Verbesserung der Effizienz der Codierung unter Verwendung der verstrichenen Maskierung in Bezug auf die spektrale Verteilung vorangegangener Zeiteinheiten vor.
  • Ein weiteres Beispiel der Bitzuweisung unter Verwendung der gehörpsychologischen Eigenschaften ist ein so genanntes Wiederholungsverfahren, in dem die tatsächliche zur Eingabe digitaler Daten geeignete Bitzuweisung wie folgt ausgeführt wird. Zunächst werden die Leistung S jedes Frequenzbandes und die Maskierungsschwelle M dieser Leistung S in den anderen Frequenzbändern ermittelt. Nachfolgend wird aus der Maskierungsschwelle M und aus der Leistung des quantisierten Rauschens N(n) (wobei jedes Frequenzband in n Bits quantisiert wird) das Maskierungsschwellen/Rausch-Verhältnis berechnet, das MNR(n) = M/N(n) ist. Daraufhin wird dieses Maskierungsschwellen/Rausch-Verhältnis MNR(n) nach der Bitzuweisung für das Frequenzband mit dem kleinsten Maskierungsschwellen/Rausch-Verhältnis MNR(n) erneut berechnet, wobei dem Frequenzband mit dem kleinsten Verhältnis Bits zugewiesen werden.
  • Es wird angemerkt, dass das Modell für die untere Hörgrenze, für die Maskierungsschwelle usw., die oben erwähnt worden sind, die Gehöreigenschaften von Personen mit typischen Gehöreigenschaften sind. Dementsprechend gibt es Fälle, in denen die Hörer wegen Unterschieden im Hören oder Vorlieben ein Gefühl von Missklang fühlen.
  • Zum Beispiel wird die Bitzuweisung in Fällen, in denen die spektrale Zusam mensetzung der digitalen Eingangsdaten wie weißes Rauschen verhältnismäßig flach ist, mit der Maskierungsschwelle bei der unteren Hörgrenze vorgenommen, so dass die meisten quantisierten Bits dem mittleren bis unteren Bereich zugewiesen werden. Je nach der Größe der spektralen Zusammensetzung können dem ultratiefen und dem ultrahohen Bereich dementsprechend möglicherweise keine quantisierten Bits zugewiesen werden, was den Hörern ein Gefühl des Missklangs gibt.
  • Wenn das digitale Eingangssignal eine zusammengesetzte Schwingung ist, die aus einem Signal mit einem schmalen Spektralband (wie etwa aus einem Sinusschwingungssignal) und weißem Rauschen zusammengesetzt ist, enthalten die Frequenzbänder f1, die das Sinusschwingungssignal enthalten, wieder mehr Leistung, während der Leistungsabfall bezüglich der Frequenzbänder f2, die weit von den Frequenzbändern f1 entfernt sind, umso größer ist, je weiter sie von den Frequenzbändern f1 entfernt sind. Deswegen gibt es von dem Sinusschwingungssignal mit einem Frequenzband f2 fast keine Maskierung, wobei der Einfluss der Maskierung von der Leistung des Frequenzbandes f2 selbst erhöht ist. Dementsprechend gibt es bei den Frequenzbändern f1 keinen großen Unterschied zwischen dem Signal/Maskierungsschwellen-Verhältnis (SMR: das Verhältnis der eigenen Leistung S eines Frequenzbandes zur Maskierungsschwelle M) und demselben Verhältnis SMR bei den Frequenzbändern f2.
  • Mit anderen Worten, falls die Leistung eines Signals S und die Leistung des quantisierten Rauschens N(n) ist, hat das Maskierungsschwellen/Rausch-Verhältnis MNR(n) = M/N(n) = (S/N(n))/(S/M(n)) anhand der relativen Beziehung zwischen den beiden bei den Frequenzbändern f1 und f2 etwa den gleichen Wert, wenn jedes Frequenzband in n Bits quantisiert ist. Da die herkömmlichen adaptiven Bitzuweisungsverfahren die Bitzuweisung lediglich anhand des Maskierungsschwellen/Rausch-Verhältnisses MNR(n) ausführen, ist dementsprechend ihr Nachteil, dass den Frequenzbändern f1 und f2 etwa die gleiche Anzahl von Bits zugewiesen wird.
  • Im Ergebnis wird die Anzahl der Bits, die den Frequenzbändern f1 zugewiesen werden, die das Sinusschwingungssignal enthalten, verhältnismäßig kleiner, wird der Quantisierungsfehler des Sinusschwingungssignals größer und verschlechtert sich die Klangqualität, falls es viele Frequenzbänder f2 gibt, die durch die Maskierung von dem Sinusschwingungssignal nicht beeinflusst wer den.
  • In Bezug auf diesen Punkt hat der Anmelder in der japanischen ungeprüften Patentveröffentlichung 7-202823/1995 eine Konstruktion vorgeschlagen, die die Anzahl der Bits, die den Frequenzbändern mit niedriger Leistung S zugewiesen werden können, automatisch begrenzt. Allerdings ist ein Nachteil dieses Standes der Technik, dass es dann, wenn die Leistung des weißen Rauschens groß ist, Fälle gibt, in denen keine Begrenzung der Bitzuweisung zu dem Frequenzband erfolgt, da die Maximalzahl von Bits, die jedem Frequenzband zugewiesen werden können, auf der Grundlage dieser Leistung bestimmt wird.
  • EP-A-0 525 809 bezieht sich auf einen digitalen Codierer mit Bitzuweisung durch dynamische Quantisierung zum Komprimieren eines digitalen Signals, um die Anzahl der Bits zu verringern, die bei niedrig quantisierendem Rauschen erforderlich sind. Ein digitales Signal wird in drei Frequenzbereiche unterteilt und die Gesamtzahl der zum Quantisieren der Spektralkoeffizienten verfügbaren Bits z. B. gemäß vorgegebenen Bitzuweisungsmustern, der Energie in den Bändern, der Glattheit des Spektrums des Signals und einem Rauschformungsfaktor, der von der Glattheit des Spektrums abhängt, zwischen den Bändern zugewiesen.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Eine Aufgabe der vorliegenden Erfindung ist die Schaffung eines Verfahrens zum Codieren digitaler Daten, das eine Klangqualität erreichen kann, die dem Hören des Hörers entspricht.
  • Eine weitere Aufgabe der vorliegenden Erfindung ist die Schaffung eines Verfahrens zum Codieren digitaler Daten, das eine Verschlechterung der Klangqualität selbst von Signalen mit schmalen Spektralbändern verhindern kann.
  • Danach ist das Verfahren zum Codieren digitaler Daten der vorliegenden Erfindung zur Lösung der oben erwähnten ersten Aufgabe wie in Anspruch 1 dargelegt. In einer Ausführungsform codiert das Verfahren digitale Daten wie etwa musikalische Töne und Klänge dadurch, dass es sie in Frequenzbereiche umsetzt, die umgesetzten Spektren in mehrere Frequenzbänder unterteilt und zwischen (i) einer Bitzuweisung in Übereinstimmung mit Verhältnissen einer Maskierungsschwelle zu Rauschen, die für jedes Frequenzband ermittelt werden, gemäß der Leistung oder Energie jedes Frequenzbandes unter Berücksichtigung von gehörpsychologischen Eigenschaften, (ii) einer Bitzuweisung in Übereinstimmung mit einem repräsentativen Wert der Leistung oder der Energie jedes Frequenzbandes, und (iii) einer Bitzuweisung, die jedem der vorstehenden Bitzuweisungsverfahren ein Gewicht verleiht, umschaltet.
  • In Bezug auf die Daten wie etwa weißes Rauschen mit einer spektralen Zusammensetzung, die vollständig flach ist, ermöglicht die obige Struktur eine Bitzuweisung, die entlang der Frequenzachse flach ist. In Bezug auf die Daten wie etwa Sinusschwingungssignale mit schmaler Bandbreite ermöglicht die obige Struktur wieder eine Bitzuweisung, die das Signal mit schmaler Bandbreite anhebt. Dementsprechend wird die Auswahl einer Klangqualität ermöglicht, die für die Quelle des musikalischen Tons geeignet ist.
  • Um die die oben erwähnte zweite Aufgabe zu lösen, schaltet schließlich das zweite Verfahren zum Codieren digitaler Daten der vorliegenden Erfindung zwischen den in dem obigen Verfahren zum Codieren digitaler Daten beschriebenen Bitzuweisungsverfahren (i), (ii) und (iii) in Übereinstimmung mit einer Beziehung zwischen der Maskierungsschwelle und Spitzen und lokalen Spitzen, die aufgrund der Differenzen der Leistung oder Energie zwischen angrenzenden Spektren innerhalb jedes Frequenzbands gefunden wird, um.
  • Die obige Struktur ermöglicht das automatische Zuweisen von Bits gemäß dem für die digitalen Daten am besten geeigneten Verfahren, gleich, ob sie weißes Rauschen oder andere Daten mit breiter Bandbreite oder Sinusschwingungssignale oder andere Daten mit schmaler Bandbreite sind, was somit die Verschlechterung der Klangqualität selbst bei musikalischen Tönen, die für die Bitzuweisung unter Verwendung gleichzeitiger Maskierung wie etwa des Maskierungsschwellen/Rausch-Verhältnisses nicht geeignet sind, verhindert.
  • Die weiteren Aufgaben, Merkmale und ausgezeichneten Punkte der Erfindung werden durch die folgende Beschreibung klargestellt. Weiter werden die Vorteile dieser Erfindung aus der folgenden Erläuterung in Bezug auf die Figuren offensichtlich.
  • KURZBESCHREIBUNG DER ZEICHNUNG
  • 1 ist ein Frequenzspektrumdiagramm zur Erläuterung des Verfahrens zum Codieren gemäß der ersten Ausführungsform der Erfindung.
  • 2 ist ein Blockschaltplan, der die elektrische Konstruktion einer Minidisk-Aufzeichnungsvorrichtung und -Wiedergabevorrichtung zeigt, die ein Beispiel der Anwendung der Erfindung ist.
  • 3 ist ein Ablaufplan zur Erläuterung des Bitzuweisungsverfahrens gemäß der ersten Ausführungsform der Erfindung.
  • 4 ist ein Ablaufplan zur Erläuterung des Bitzuweisungsverfahrens gemäß der zweiten Ausführungsform der vorliegenden Erfindung.
  • 5 ist ein Ablaufplan zur Erläuterung des Bitzuweisungsverfahrens gemäß der dritten Ausführungsform der vorliegenden Erfindung.
  • 6 ist ein Frequenzspektrumdiagramm zur Erläuterung von Operationen zur Erfassung der Spitzen und lokalen Spitzen in dem in 5 gezeigten Bitzuweisungsverfahren.
  • BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Im Folgenden wird anhand der 1 bis 3 die erste Ausführungsform der Erfindung erläutert.
  • 1 ist ein Frequenzspektrumdiagramm zur Erläuterung des Verfahrens zum Codieren digitaler Daten gemäß der ersten Ausführungsform der Erfindung, während 2 ein Blockschaltplan ist, der die elektrische Konstruktion einer Minidisk-Aufzeichnungsvorrichtung und -Wiedergabevorrichtung 1 zeigt, die ein Beispiel der Anwendung der Erfindung ist. Zunächst wird anhand von 2 die Minidisk-Aufzeichnungsvorrichtung und -Wiedergabevorrichtung 1 erläutert. Zunächst werden die digitalen Daten z. B. in Form von Lichtsignalen von einer (nicht gezeigten) digitalen Audiosignalquelle wie etwa einer Kompakt-Disk-Wiedergabevorrichtung oder einem Satellitenrundfunkempfänger seriell in einen Eingangsanschluss 2 eingegeben. Nachdem die Lichtsignale durch ein Photoelement 3 in elektrische Signale umgesetzt worden sind, werden sie an eine digitale PLL-Schaltung 4 gesendet. Die digitale PLL-Schaltung 4 entnimmt aus den digitalen Daten den Takt und stellt Mehrbitdaten, die der Abtastfrequenz und der Anzahl quantisierter Bits entsprechen, wieder her. Nachfolgend erfahren die Mehrbitdaten in einer Frequenzumsetzungsschaltung 5 eine Abtastratenumsetzung z. B. von der Abtastfrequenz von 44,1 kHz der Kompakt-Disks, von der Abtastfrequenz von 48 kHz digitaler Tonbandmaschinen oder von der Abtastfrequenz von 32 kHz von Satellitensendungen (A-Betriebsart) auf die 44,1 kHz, die dem Minidisk-Standard entsprechen, und werden daraufhin an eine Audiokompressionsschaltung 6 gesendet.
  • Die Audiokompressionsschaltung 6 führt gemäß dem vorangehenden ATRAC-Verfahren die komprimierte Codierung der Eingangsdaten aus. Die codierten Audiodaten werden über einen Controller 7 des stoßfesten Speichers an eine Signalverarbeitungsschaltung 8 gesendet. In Verbindung mit dem Controller 7 des stoßfesten Speichers ist ein stoßfester Speicher 9 vorgesehen. Außer zum Dämpfen des Unterschieds der Übertragungsraten zwischen den von der Audiokompressionsschaltung 6 ausgegebenen Audiodaten und den in die Signalverarbeitungsschaltung 8 eingegebenen Audiodaten dient der stoßfeste Speicher 7 auch zum Schutz der Audiodaten durch Interpolation irgendwelcher Unterbrechungen, die wegen einer im Folgenden diskutierten Störung wie etwa einer Schwingung während der Wiedergabeoperation in dem Wiedergabesignal auftreten.
  • Die Signalverarbeitungsschaltung 8 arbeitet als ein Codierer und Decodierer und codiert die Audiodaten als magnetische Modulationssignale, bevor sie sie an eine Kopfansteuerschaltung 11 sendet. Die Kopfansteuerschaltung 11 bewegt einen Aufzeichnungskopf 12 auf einer magnetooptischen Platte 13 an den gewünschten Aufzeichnungsort und veranlasst, dass der Aufzeichnungskopf 12 ein Magnetfeld aussendet, das den magnetischen Modulationssignalen entspricht. Gleichzeitig wird von einem optischen Lesekopf 21 Laserlicht auf den gewünschten Aufzeichnungsort auf der magnetooptischen Platte 13 projiziert und auf der magnetooptischen Platte 13 ein magnetisiertes Muster erzeugt, das dem von dem Aufzeichnungskopf 12 ausgesendeten Magnetfeld entspricht.
  • Andererseits werden während der Wiedergabeoperation durch den optischen Lesekopf 21 serielle Signale wiedergegeben, die dem magnetisierten Muster auf der magnetooptischen Platte 13 entsprechen, wobei die somit wiedergegebenen seriellen Signale, nachdem sie durch einen Hochfrequenzverstärker (HF-Verstärker) 22 verstärkt worden sind, an die Signalverarbeitungsschaltung 8 gesendet und in Audiodaten decodiert werden. Nachdem der Controller 7 des stoßfesten Speichers und der stoßfeste Speicher 9 den Einfluss irgendeiner Störung auf die decodierten Audiodaten beseitigt haben, werden sie an die Audioexpansionsschaltung 23 gesendet. Die Audioexpansionsschaltung 23 führt einen Umsetzungsprozess aus, der die Umkehrung der komprimierten Codierung gemäß dem ATRAC-Verfahren ist, und demoduliert die Audiodaten zu digitalen Vollbit-Audiosignalen. Die demodulierten digitalen Audiosignale werden durch eine Digital/Analog-Umsetzungsschaltung (D/A-Umsetzungsschaltung) 24 in analoge Audiosignale umgesetzt und daraufhin von einem Ausgangsanschluss 25 ausgegeben.
  • Die durch den Hochfrequenzverstärker 22 verstärkten seriellen Signale werden außerdem an eine Servoschaltung 31 gesendet. Die Servoschaltung 31 führt in Reaktion auf die seriellen Signale, die wiedergegeben worden sind, über eine Treiberschaltung 32 eine Rückkopplungssteuerung der Drehzahl eines Rotationsmotors 33 durch und ermöglicht somit die Wiedergabe mit der gewünschten Lineargeschwindigkeit. Außerdem übt die Servoschaltung 31 eine Rückkopplungssteuerung der Drehzahl eines Vorschubmotors 34 aus und ermöglicht somit die Steuerung der Stelle des optischen Lesekopfs 21 in radialer Richtung der magnetooptischen Platte 13, d. h. die Steuerung der Nachführung. Schließlich übt die Servoschaltung 31 außerdem eine Rückkopplungssteuerung der Fokussierung des optischen Lesekopfs 21 aus.
  • Die Servoschaltung 31, der optische Lesekopf 21, der Hochfrequenzverstärker 22, die Signalverarbeitungsschaltung 8 und die Treiberschaltung 32 werden durch eine Leistungs-EIN/AUS-Schaltung 35 mit Strom versorgt. Das Management der Leistungs-EIN/AUS-Operationen der Leistungs-EIN/AUS-Schaltung 35 und der Signalverarbeitungsoperationen der Signalverarbeitungsschaltung, die im Folgenden beschrieben werden, wird zentral durch einen Systemsteuerungs-Mikrocomputer 36 ausgeführt. Im Zusammenhang mit dem Systemsteuerungs-Mikrocomputer 36 sind Eingabebetriebsmittel vorgesehen, die die im Folgenden beschriebenen Schallqualitäts-Auswahloperationen sowie die Liedtiteleingabe, Liedauswahloperationen usw. ermöglichen.
  • Nachfolgend wird anhand der 1 und 3 das Bitzuweisungsverfahren in der ersten Ausführungsform der Erfindung erläutert, das gemäß dem ATRAC-Verfahren durch die Audiokompressionsschaltung 6 der wie oben konstruierten Minidisk-Aufzeichnungsvorrichtung und -Wiedergabevorrichtung 1 ausgeführt wird.
  • In dem ATRAC-Verfahren werden die mit 44,1 kHz abgetasteten Audiodaten wie oben erwähnt in bestimmte Frequenzbänder, genauer in ein Niederfrequenzband von 0 kHz bis 5,5 kHz, in ein Mittelfrequenzband von 5,5 kHz bis 11 kHz und in ein Hochfrequenzband von 11 kHz bis 22 kHz, unterteilt, wobei die Audiodaten, die für jedes unterteilte Frequenzband bestimmte Zeitrahmen überbrücken, mittels der MDCT-Verarbeitung in einen MDCT-Koeffizienten, d. h in die Daten eines Frequenzbereichs, umgesetzt werden. Die auf diese Weise umgesetzten MDCT-Koeffizienten werden daraufhin für die Nummer i der Frequenzbänder (i = 1, 2,..., I, mit I z. B. gleich 25) in die Spektralleistungen Si umgesetzt. Daraufhin wird eine Verarbeitung wie die in 3 gezeigte ausgeführt, um in Übereinstimmung mit jeder somit erhaltenen Spektralleistung Si quantisierte Bits zuzuweisen.
  • Die Audiokompressionsschaltung 6 enthält einen Tabellen-ROM 6a, wobei in dem Tabellen-ROM 6a Eigenschaften der Maskierung und/oder der unteren Hörgrenze gemäß dem ATRAC-Verfahren gespeichert sind. Diese Eigenschaften der unteren Hörgrenze erscheinen als eine Kurve, die in 1 durch die Bezugszeichen α1, α2, α3 und α4 gezeigt ist. Die in Übereinstimmung mit den Spektralleistungen Si, einer kritischen Bandbreite jedes Frequenzbandes usw. berechneten Eigenschaften der Maskierung erscheinen für eine Leistungsverteilung wie die in 1 gezeigte z. B. als eine Kurve, die durch die Bezugszeichen α11, α12 und α13 gezeigt ist. Die durch die Bezugszeichen α1 bis α4 gezeigten Eigenschaften der unteren Hörgrenze und die durch die Bezugszeichen α11 bis α13 gezeigten Eigenschaften der Maskierung werden in Übereinstimmung mit den gehörpsychologischen Eigenschaften von Personen mit typischen Höreigenschaften vorbereitet und sind feste Eigenschaften.
  • Allerdings können die Eigenschaften der unteren Hörgrenze und/oder der Maskierung in der ersten Ausführungsform der Erfindung geändert werden. Konkret ist z. B. im Fall der Eigenschaften der Maskierung der Maskierungsbereich der anderen Frequenzbänder umso größer, je größer die Spektralleistung ist und je höher die Frequenz ist. In dem Beispiel in 1 ist die Maximalgrenze Smax des durch die Spektralleistung S5 beeinflussten Bereichs, d. h. eine Spitzenleistung, durch α13·(1 ± Σk) gezeigt. Σk ist hier ein Gewichtungskoeffizient. Falls im Voraus mehrere Variablen k in dem Tabellen-ROM 6a gespeichert werden und die Variablen k mittels eines Registers 36a in dem Systemsteuerungs-Mikrocomputer 36 geschaltet werden, kann die Kurve α13 der Eigenschaft der Maskierung innerhalb des Bereichs von α14 bis α15 geändert werden. Die Variable k kann durch den Hörer über die Eingabebetriebsmittel 37 eingestellt werden.
  • Zum Beispiel wird durch Ändern der Kurve der Eigenschaft der Maskierung von α13 auf α14 das maskierte Band verbreitert, der Maskierungspegel erhöht und die Anzahl der Bits, die Signalen mit niedriger Leistung zugewiesen werden, verringert oder sogar beseitigt. Dementsprechend wird die Bitzuweisung zu Signalen mit verhältnismäßig höherer Leistung erhöht und der Dynamikbereich der Signale mit hoher Leistung erhöht. Falls andererseits die Kurve der Eigenschaft der Maskierung von α13 auf α15 geändert wird, wird die Bitzuweisung zu Signalen mit niedriger Leistung erhöht und die Bitzuweisung zu Signalen mit verhältnismäßig höherer Leistung verringert. Dementsprechend kann der Frequenzbereich vergrößert werden. Die gleiche Wirkung kann ebenfalls dadurch erhalten werden, dass der Kurve α13 der Eigenschaft der Maskierung an Stelle der Wichtung ein Versatz verliehen wird.
  • Auf die gleiche Weise kann hinsichtlich der Eigenschaften der unteren Hörgrenze die Kurve α1 bis α4 der Eigenschaft der unteren Hörgrenze, die auf den gehörpsychologischen Eigenschaften von Personen mit typischen Höreigenschaften beruht, gewichtet oder ihr ein Versatz gegeben werden, wodurch der Abschnitt α4 der Kurve wie z. B. mit dem Bezugszeichen α5 gezeigt geändert wird. Auf diese Weise werden den Hochfrequenzbändern verhältnismäßig mehr Bits zugewiesen.
  • Anhand von 3 wird nachfolgend die Verarbeitung zur Zuweisung quantisierter Bits erläutert. Zunächst wird in Schritt p1 aus der Summe der Quadrate der MDCT-Koeffizienten für jedes Frequenzband (die mittels der MDCT-Verarbeitung erhalten werden) die Spektralleistung Si jedes Frequenzbandes berechnet. In Schritt p2 wählt die Audiokompressionsschaltung 6 über das Register 36a des Systemsteuerungs-Mikrocomputers 36 Parameter zum Ändern der Eigenschaften der Maskierung wie etwa die in dem Tabellen-ROM 6a gespei cherten Variablen k. In Schritt p3 werden auf die gleiche Weise wie in Schritt p2 Parameter zum Ändern der Eigenschaften der unteren Hörgrenze gewählt.
  • In Schritt p4 werden die im Voraus berechneten und in dem Tabellen-ROM 6a gespeicherten Referenzeigenschaften der Maskierung und der unteren Hörgrenze in Übereinstimmung mit den in den Schritten p2 und p3 gewählten Parametern geändert und diese zwei Eigenschaften synthetisiert, um eine Endmaskierungsschwelle zu bestimmen. Mit anderen Worten, falls die somit geänderte Kurve der Eigenschaft der unteren Hörgrenze wie durch die Bezugszeichen α1, α2, α3, α5 gezeigt ist und die somit geänderte Kurve der Eigenschaft der Maskierung wie durch die Bezugszeichen α11, α12, α14 gezeigt ist, ist die durch Synthese erhaltene Kurve der Endmaskierungsschwelle wie durch die Bezugszeichen α1, α12, α14, α3, α5 gezeigt.
  • In Schritt p5 wird für alle Frequenzbänder das Verhältnis der (in Schritt p1 berechneten) Spektralleistung Si des Frequenzbandes zu seiner (in Schritt p4 berechneten) Maskierungsschwelle Mi, SMRi = Si/Mi, berechnet, wenn der Index jedes Frequenzbandes i ist. In einer logarithmischen graphischen Darstellung entspricht das Verhältnis SMRi für jedes Frequenzband jenem Teil der Lange der Spektralleistung Si, der die Maskierungsschwelle Mi überschreitet.
  • Nachfolgend wird in Schritt p6 das Verhältnis der Spektralleistung Si zur Leistung des quantisierten Rauschens Ni(n) berechnet, wenn die Spektralleistung Si jedes Frequenzbandes in n Bits quantisiert ist: SNR(n) = Si/Ni(n). Statistisch ist das Verhältnis SNR(n) in Übereinstimmung mit den Eigenschaften des Signals eine Konstante, so dass es durch statistische Verarbeitung im Voraus berechnet werden kann. Aus dem Verhältnis des Verhältnisses SNR(n) zu dem Verhältnis SMRi kann das Verhältnis der Maskierungsschwelle zur Leistung des quantisierten Rauschens berechnet werden, das MNRi(n) = SNRi(n)/SMRi ist.
  • In Schritt p7 werden jedem Frequenzband wie folgt die quantisierten Bits zugewiesen. Die Anzahl der Bits n wird bei 0 beginnend erhöht, wobei bei jeder Erhöhung für jedes Frequenzband das Verhältnis der Maskierungsschwelle zur Leistung des quantisierten Rauschens MNRi(n) berechnet wird und dem Frequenzband ein Bit zugewiesen wird, bei dem das Verhältnis MNRi(n) am kleinsten ist. Auf diese Weise wird jedes Mal, wenn die Anzahl der quantisierten Bits n erhöht wird, dem Frequenzband mit dem kleinsten Verhältnis MNRi(n) ein Bit zugewiesen und, falls dies wiederholt wird, bis die Zuweisung aller verfügbaren Bits abgeschlossen ist, die Wortlänge jedes Frequenzbandes bestimmt und ausgegeben. Mit anderen Worten, die Bits werden beginnend mit dem Frequenzband zugewiesen, in dem die Länge dieses Teils der Spektralleistung Si, der die Schwelle Mi überschreitet, am längsten ist.
  • Somit werden die Bits in der Weise zugewiesen, dass die wie in 1 gezeigte Maskierungsschwelle gemäß den Vorlieben des Hörers geändert wird.
  • Im Vorstehenden wurde der Fall der Änderung sowohl der Eigenschaften der Maskierung als auch der Eigenschaften der unteren Hörgrenze beschrieben, wobei die Erfindung aber nicht auf diesen Fall beschränkt ist; es können entweder die Eigenschaften der Maskierung oder die Eigenschaften der unteren Hörbarkeit allein geändert werden.
  • Kurz gesagt, ermöglicht die Änderung der Eigenschaften der unteren Hörgrenze allein z. B. zu wählen, ob kleinen Spektren in dem unhörbaren Bereich oder Spektren in dem ultratiefen oder in dem ultrahohen Bereich Bits zuzuweisen sind. Wieder ermöglicht lediglich die Änderung der Eigenschaften der Maskierung, da sie eine Änderung der Eigenschaften der Maskierung verursacht, die in Übereinstimmung mit der Leistung und der Frequenz jedes Frequenzbandes durch die kritischen Bänder bestimmt sind, zu wählen, ob Spektren, die durch Spektren mit verhältnismäßig hoher Leistung maskiert sind, Bits zuzuweisen sind. Auf diese Weise kann eine Klangqualität erhalten werden, die mit dem Hören jedes Hörers übereinstimmt.
  • Anhand von 4 wird im Folgenden die zweite Ausführungsform der vorliegenden Erfindung erläutert.
  • 4 ist ein Ablaufplan zur Erläuterung des Bitzuweisungsverfahrens in der zweiten Ausführungsform der vorliegenden Erfindung. Das auffallende Merkmal dieses Bitzuweisungsverfahrens ist, dass es möglich ist, einen gewünschten Prozentsatz x zwischen (a) der Bitzuweisung gemäß dem Verhältnis der Maskierungsschwelle zum quantisierten Rauschen MNRi(n) und (b) der Bitzuweisung gemäß der Leistung des quantisierten Rauschens SNi(n) zuzuweisen, wenn die Spektralleistung Si, die ein repräsentativer Wert für die Leistung oder Energie jedes Frequenzbandes ist, in n Bits quantisiert ist. In dem Tabellen-ROM 6a der Audiokompressionsschaltung 6 werden im Voraus mehrere Prozentsätze x von (a) bis (b) gespeichert, wobei die Auswahl unter den verschiedenen Prozentsätzen x in Reaktion auf die Operationen von den Eingabebetriebsmitteln 37 über das Register 36a des Systemsteuerungs-Mikrocomputers 36 ausgeführt werden kann.
  • Konkret wird zuerst in Schritt p11 auf die gleiche Weise wie in Schritt p1 in der ersten Ausführungsform aus der Summe der Quadrate der jeweiligen MDCT-Koeffizienten die Spektralleistung Si jedes Frequenzbandes berechnet. In Schritt p12 wird der Wert in dem Register 36a des Systemsteuerungs-Mikrocomputers 36 gelesen und aus dem Tabellen-ROM 6a der entsprechende Prozentsatz x % gewählt.
  • Falls der auf diese Weise bestimmte Prozentsatz x 0 ist, d. h., wenn die Anzahl der für die erste Zuweisung verfügbaren Bits B1 0 ist, wird die Bitzuweisung gemäß dem Verhältnis der Maskierungsschwelle zum quantisierten Rauschen nicht ausgeführt, wobei die Verarbeitung direkt zu dem unten diskutierten Schritt p18 übergeht. Im Gegensatz dazu wird daraufhin der Schritt p13 ausgeführt, falls die Anzahl der für die erste Zuweisung verfügbaren Bits B1 nicht 0 ist.
  • In Schritt p13 wird ausgehend von einer Gesamtzahl der Minidisk-Audiospektraldatenbits B0 (1144 bis 1464 Bits) die Anzahl der Bits B1 berechnet, die in Übereinstimmung mit dem Verhältnis MNRi(n) für die erste Zuweisung verfügbar sind: B1 = B0·(x/100).
  • In Schritt p14 wird in Übereinstimmung mit den im Voraus berechneten Eigenschaften der Maskierung und der unteren Hörgrenze, die den gehörpsychologischen Eigenschaften von Personen mit typischem Hören entsprechen, eine Maskierungsschwelle, d. h. die Kurve α1, α12, α13, α3, α4, berechnet. Daraufhin wird in den Schritten p15 und p16 wie in den obigen Schritten p5 und p6 für jedes Frequenzband aus dem Verhältnis SMRi der Spektralleistung Si des Frequenzbandes zu seiner Maskierungsschwelle Mi das Verhältnis der Maskierungsschwelle zur Leistung des quantisierten Rauschens MNRi(n) berechnet. In Schritt p17 wird auf die gleiche Weise wie im obigen Schritt p7 die Bitzuweisung ausgeführt, wobei aber die Gesamtzahl der in Schritt p17 zugewiesenen Bits die wie im obigen Schritt p12 berechnete Anzahl der für die erste Zuweisung B1 verfügbaren Bits ist.
  • In Schritt p18 wird die Leistung des quantisierten Rauschens SNi(n) berechnet und in Schritt p19 werden dem Frequenzband mit der höchsten Leistung des quantisierten Rauschens SNi(n) Bits zugewiesen. Anschließend wird die Leistung des quantisierten Rauschens SNi(n) erneut berechnet, werden dem Band, bei dem dieser Wert am höchsten ist, Bits zugewiesen und wird dies wiederholt, bis alle für die zweite Zuweisung B2 = B0(1 – (x/100)) verfügbaren Bits zugewiesen worden sind. Die Schritte p18 und p19 werden ausgeführt, wenn die Anzahl der für die erste Zuweisung verfügbaren Bits 0 ist und die Verarbeitung direkt von Schritt p12 zu Schritt p18 gegangen ist oder wenn x nicht gleich 100 ist, während dann, wenn x gleich 100 ist, d. h. wenn B2 = 0 ist, direkt nach Schritt p17 die Wortlänge ausgegeben wird.
  • Falls das Eingangssignal eine zusammengesetzte Schwingung aus einem Sinusschwingungssignal und weißem Rauschen ist sowie in anderen Fällen, wo es z. B. bei einem Soloklavierstück einer einzelnen Sinusschwingung ähnelt, werden den Rauschelementen mit niedriger Leistung viele Bits zugewiesen, falls die Bitzuweisung lediglich gemäß dem Verhältnis der Maskierungsschwelle zum quantisierten Rauschen MNRi(n) ausgeführt wird, wobei der Fehler bei der Quantisierung des Klaviers verhältnismäßig groß wird. Falls aber der Bitzuweisungsprozentsatz x wie oben dargestellt geändert werden kann, wird zusätzlich zu der Bitzuweisung gemäß dem Verhältnis der Maskierungsschwelle zum quantisierten Rauschen MNRi(n) die Bitzuweisung gemäß der Leistung des quantisierten Rauschens SNi(n) ausgeführt, wobei sichergestellt ist, dass die Anzahl der dem Klavier zugewiesenen Bits erhöht werden kann und der Fehler bei der Quantisierung des Klaviers verringert ist.
  • Falls das Eingangssignal aus einem Klang mit vielen lokalen Spitzen und Rauschen, z. B. aus einem Orchesterstück, zusammengesetzt ist, kann die Bitzuweisung wieder in Übereinstimmung mit dem Verhältnis der Maskierungsschwelle zum quantisierten Rauschen MNRi(n) ausgeführt werden, in dem das Rauschen und die musikalischen Töne, die kleine lokale Spitzen in Bändern in der Nähe großer Signale bilden, maskiert werden können, so dass ihnen keine Bits zugewiesen werden, während großen Signalen, die nicht maskiert werden, mehr Bits zugewiesen werden können. Dies ermöglicht die Aufzeichnung mit hoher Wiedergabetreue.
  • Ferner kann bei Eingangssignalen, die zwischen den vorstehenden zwei Beispielen liegen und aus einem musikalischen Ton mit drei oder vier lokalen Spitzen und Rauschen zusammengesetzt sind, z. B. bei einem Soloklarinettenstück, die Wiedergabetreue der Klarinette dadurch verbessert werden, dass sowohl der Bitzuweisung gemäß dem Verhältnis der Maskierungsschwelle zum quantisierten Rauschen MNRi(n) als auch der Bitzuweisung gemäß der Leistung des quantisierten Rauschens SNi(n) Gewicht gegeben wird.
  • Auf diese Weise kann das Bitzuweisungsverfahren gewählt werden, das für irgendeine musikalische Tonquelle am besten geeignet ist.
  • Anhand der 5 und 6 wird nachfolgend die dritte Ausführungsform der vorliegenden Erfindung erläutert.
  • 5 ist ein Ablaufplan zur Erläuterung des Bitzuweisungsverfahrens in der dritten Ausführungsform der vorliegenden Erfindung. Das auffallende Merkmal dieses Bitzuweisungsverfahrens ist, dass der Prozentsatz x von (a) der Bitzuweisung gemäß dem Verhältnis der Maskierungsschwelle zum quantisierten Rauschen MNRi(n) zu (b) der Bitzuweisung gemäß der Leistung des quantisierten Rauschens SNi(n) auf der Grundlage der Beziehung zwischen (1) Spitzen und lokalen Spitzen in den Spektralleistungen Si und (2) Maskierungsschwellen automatisch bestimmt wird.
  • Zunächst wird der Spitzenwert unter den Spektralleistungen aller Frequenzbänder von S1 bis SI wie etwa der in 6 mit dem Bezugszeichen S5 gezeigte ermittelt. Daraufhin wird eine Maskierungsschwelle wie etwa die in 6 gezeigte, die die Eigenschaft der Maskierung wegen dieses Spitzenpegels enthält, ermittelt. Nachfolgend werden für jedes Frequenzband lokale Spitzen wie etwa die in 6 mit dem Bezugszeichen S8 gezeigten ermittelt. Es werden jeweils die Anzahl dieser lokalen Spitzen, die durch die Maskierungsschwelle maskiert sind, und die Anzahl dieser lokalen Spitzen, die nicht in der Weise maskiert sind, ermittelt, wobei das Verhältnis zwischen maskierten lokalen Spitzen und nicht maskierten lokalen Spitzen den Prozentsatz x bestimmt.
  • Mit anderen Worten, falls die Gesamtzahl lokaler Spitzen NM ist und die Anzahl maskierter lokaler Spitzen M ist, gilt: M/(NM + 1) = 0. (1)
  • Dementsprechend ist der Prozentsatz x 0 % und, wobei die Anzahl der für die erste Zuweisung B1 verfügbaren Bits auf 0 eingestellt wird, falls es keine maskierten lokalen Spitzen gibt. Falls andererseits 0 < M/(NM + 1) ≤ 0,5 (2)ist, liegt x von 50 % bis 90 %, wobei dann, wenn 0,5 < M/(NM + 1) (3)ist, x gleich 100 % ist, wobei die Anzahl der für die erste Zuweisung B1 verfügbaren Bits die Gesamtheit der insgesamt verfügbaren Bits B0 ist.
  • Es werden hier die Erfassung lokaler Spitzen und die Wahl des Prozentsatzes x diskutiert. Nachdem die Spitzenspektralleistung (S5 in 6) ermittelt worden ist, werden die lokalen Spitzen für alle Frequenzbänder ermittelt. In dem Beispiel in 6 werden ausgehend vom Spitzenwert S5 die Differenzen D34, D45, ..., D89 und ihre Polaritäten zwischen jeder Spektralleistung S3 bis S9 innerhalb einer bestimmten Anzahl von Frequenzbändern (in dem Beispiel aus 6 zwei Frequenzbänder auf der niederfrequenten Seite und vier auf der hochfrequenten Seite) ermittelt und auf der Grundlage der Änderung der Polarität und des Absolutwerts dieser Differenzen die lokalen Spitzen ermittelt. Auf diese Weise werden die lokalen Spitzen über alle Frequenzbänder ermittelt. Konkret gibt es im Fall von 6 lediglich eine lokale Spitze (S8), wobei diese lokale Spitze durch die Maskierungsschwelle maskiert ist; somit ist M/(NM + 1) = 1/(1 + 1) = 0,5. Dementsprechend wird die obige Gleichung (2) angewendet und ein Prozentsatz x = 50 % bis 90 % gewählt.
  • Nachfolgend wird anhand von 5 das Bitzuweisungsverfahren der dritten Ausführungsform erläutert.
  • Nachdem in diesem Bitzuweisungsverfahren in Schritt p21 wie in den obigen Schritten p11 und p1 die Spektralleistung Si jedes Frequenzbandes berechnet worden ist, wird in Schritt p22 der Spitzenwert ermittelt und in Schritt p23 die Maskierungsschwelle ermittelt, die die Eigenschaften der Maskierung dieses Spitzenwerts enthält. In Schritt p24 wird mittels der obigen Gleichungen (1) bis (3) der Prozentsatz x berechnet und die Anzahl der für die erste Zuweisung B1 verfügbaren Bits berechnet. Daraufhin wird in den Schritten p25 bis p27 wie in den obigen Schritten p15 bis p17 gemäß dem Verhältnis der Maskierungsschwelle zum quantisierten Rauschen MNRi(n) die erste Bitzuweisung ausgeführt und daraufhin in den Schritten p28 und p29 wie in den obigen Schritten p18 und p19 gemäß der Leistung des quantisierten Rauschens SNi(n) die zweite Bitzuweisung ausgeführt.
  • Auf diese Weise kann eine Bitzuweisung mit hoher Klangqualität, die für die musikalischen Töne wie die in 4 gezeigten geeignet ist, automatisch ausgeführt werden, wobei die Verschlechterung der Klangqualität selbst in Bezug auf musikalische Töne, die für die Bitzuweisung gemäß dem Verhältnis der Maskierungsschwelle zum quantisierten Rauschen MNRi(n) nicht geeignet sind, verhindert werden kann.
  • Im Vorstehenden wurde der Fall erläutert, in dem der Prozentsatz x mittels der obigen Gleichungen (1) bis (3) berechnet wird (der bevorzugte Fall), wobei die Erfindung aber nicht auf diesen Fall beschränkt zu sein braucht. Durch Berechnung des Prozentsatzes x mittels der Gleichungen (1) und (3) kann eine ähnliche Wirkung erhalten werden.
  • Die in den obigen 1 und 3 gezeigte Änderung der Eigenschaften der unteren Hörgrenze und/oder der Maskierung kann ebenfalls auf die in den 4 und 5 gezeigten Bitzuweisungen angewendet werden.

Claims (5)

  1. Verfahren zum Codieren digitaler Daten, bei dem die digitalen Daten in ein Frequenzspektrum umgesetzt werden, wobei das Frequenzspektrum in Frequenzbänder unterteilt ist, und jedem Frequenzband quantisierte Bits zugewiesen werden, wobei das Verfahren die folgenden Schritte enthält: Festlegen eines Prozentsatzes für die Zuweisung der quantisierten Bits, wobei der Prozentsatz veränderlich ist; gekennzeichnet durch: Ausführen einer Zuweisung der quantisierten Bits in Übereinstimmung mit einer ersten Zuweisung, einer zweiten Zuweisung oder einer dritten Zuweisung und dadurch, dass die erste Zuweisung der quantisierten Bits in Übereinstimmung mit Verhältnissen einer Maskierungsschwelle zu der Leistung von quantisiertem Rauschen, die für jedes Frequenzband ermittelt werden, gemäß der Leistung oder Energie jedes Frequenzbandes unter Berücksichtigung von gehörpsychologischen Eigenschaften ausgeführt wird; die zweite Zuweisung der quantisierten Bits in Übereinstimmung mit einem repräsentativen Wert der Leistung oder Energie jedes Frequenzbandes ausgeführt wird; die dritte Zuweisung der quantisierten Bits teilweise in Übereinstimmung mit Verhältnissen der Maskierungsschwelle zu der Leistung des quantisierten Rauschens und teilweise Übereinstimmung mit einem repräsentativen Wert der Leistung oder der Energie von jedem Frequenzband anhand des festgelegten Prozentsatzes ausgeführt wird; und die Zuweisung quantisierter Bits zwischen der ersten Zuweisung, der zweiten Zuweisung und der dritten Zuweisung auf der Grundlage des gesetzten Prozentsatzes umschaltbar ist.
  2. Verfahren zum Codieren digitaler Daten nach Anspruch 1, bei dem: der Prozentsatz in Übereinstimmung mit einer Beziehung zwischen der Maskierungsschwelle und Spitzen und lokalen Spitzen, die anhand von Differenzen der Leistung oder der Energie zwischen benachbarten Spektren in jedem Frequenzband ermittelt werden, bestimmt wird.
  3. Verfahren zum Codieren digitaler Daten nach Anspruch 2, bei dem: der Prozentsatz dann, wenn NM die Gesamtzahl der lokalen Spitzen ist, einem Verhältnis der Zahl M der lokalen Spitzen, die durch die Maskierungs schwelle maskiert sind, zu der Zahl N der lokalen Spitzen, die durch die Maskierungsschwelle nicht maskiert sind, entspricht.
  4. Verfahren zum Codieren digitaler Daten nach Anspruch 3, bei dem: der Prozentsatz auf 0 % gesetzt wird, wenn M/(NM + 1) = 0 erfüllt ist; und der Prozentsatz auf 100 % gesetzt wird, wenn 0,5 < M/(NM + 1) erfüllt ist.
  5. Verfahren zum Codieren digitaler Daten nach Anspruch 1, bei dem: die erste, die zweite und die dritte Zuweisung in Übereinstimmung mit einer Beziehung zwischen der Maskierungsschwelle, den Spitzen und den lokalen Spitzen, die anhand von Differenzen der Leistung oder der Energie zwischen benachbarten Spektren in jedem Frequenzband ermittelt werden, umgeschaltet werden.
DE69737302T 1997-01-22 1997-12-15 Verfahren zum Codieren von digitalen Audiosignalen Expired - Lifetime DE69737302T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP960597 1997-01-22
JP00960597A JP3328532B2 (ja) 1997-01-22 1997-01-22 デジタルデータの符号化方法

Publications (2)

Publication Number Publication Date
DE69737302D1 DE69737302D1 (de) 2007-03-15
DE69737302T2 true DE69737302T2 (de) 2007-11-08

Family

ID=11724947

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69737302T Expired - Lifetime DE69737302T2 (de) 1997-01-22 1997-12-15 Verfahren zum Codieren von digitalen Audiosignalen
DE69732619T Expired - Lifetime DE69732619T2 (de) 1997-01-22 1997-12-15 Verfahren zum Codieren von digitalen Audiosignalen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69732619T Expired - Lifetime DE69732619T2 (de) 1997-01-22 1997-12-15 Verfahren zum Codieren von digitalen Audiosignalen

Country Status (4)

Country Link
US (2) US6138101A (de)
EP (2) EP1198072B1 (de)
JP (1) JP3328532B2 (de)
DE (2) DE69737302T2 (de)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3328532B2 (ja) * 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法
DE69924922T2 (de) * 1998-06-15 2006-12-21 Matsushita Electric Industrial Co., Ltd., Kadoma Audiokodierungsmethode und Audiokodierungsvorrichtung
US6418404B1 (en) * 1998-12-28 2002-07-09 Sony Corporation System and method for effectively implementing fixed masking thresholds in an audio encoder device
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
BR0107191A (pt) * 2000-09-08 2002-07-16 Koninkl Philips Electronics Nv Métodos para estimar um ganho de compressão obtenìvel na compressão de um dado sinal de áudio, para gravar um sinal de áudio em um meio de gravação, e para transmitir um sinal de áudio, dispositivo para estimar um ganho de compressão obtenìvel na compressão de um dado sinal de áudio, aparelho de gravação para gravar um sinal de áudio em um meio de gravação, e, transmissor para transmitir um sinal de áudio
US8095370B2 (en) * 2001-02-16 2012-01-10 Agiletv Corporation Dual compression voice recordation non-repudiation system
US7602847B1 (en) 2001-03-27 2009-10-13 Vixs Systems, Inc. Device and method for compression of a video stream
US8107524B2 (en) 2001-03-30 2012-01-31 Vixs Systems, Inc. Adaptive bandwidth footprint matching for multiple compressed video streams in a fixed bandwidth network
US6959348B1 (en) 2001-07-30 2005-10-25 Vixs Systems, Inc. Method and system for accessing data
US7675972B1 (en) 2001-07-30 2010-03-09 Vixs Systems, Inc. System and method for multiple channel video transcoding
US7139330B1 (en) 2001-10-31 2006-11-21 Vixs Systems, Inc. System for signal mixing and method thereof
US7596127B1 (en) 2001-10-31 2009-09-29 Vixs Systems, Inc. System for allocating data in a communications system and method thereof
US7106715B1 (en) 2001-11-16 2006-09-12 Vixs Systems, Inc. System for providing data to multiple devices and method thereof
US7356079B2 (en) 2001-11-21 2008-04-08 Vixs Systems Inc. Method and system for rate control during video transcoding
US7403564B2 (en) 2001-11-21 2008-07-22 Vixs Systems, Inc. System and method for multiple channel video transcoding
US7165180B1 (en) 2001-11-27 2007-01-16 Vixs Systems, Inc. Monolithic semiconductor device for preventing external access to an encryption key
US7310679B1 (en) 2002-04-29 2007-12-18 Vixs Systems Inc. Method and system for transmitting video content while preventing other transmissions in a contention-based network
US7120253B2 (en) 2002-05-02 2006-10-10 Vixs Systems, Inc. Method and system for protecting video data
US20040002859A1 (en) * 2002-06-26 2004-01-01 Chi-Min Liu Method and architecture of digital conding for transmitting and packing audio signals
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
US7408989B2 (en) 2003-01-16 2008-08-05 Vix5 Systems Inc Method of video encoding using windows and system thereof
US7606305B1 (en) 2003-02-24 2009-10-20 Vixs Systems, Inc. Method and system for transcoding video data
US7133452B1 (en) 2003-02-24 2006-11-07 Vixs Systems, Inc. Method and system for transcoding video data
US7327784B2 (en) 2003-02-24 2008-02-05 Vixs Systems, Inc. Method and system for transcoding video data
US7130350B1 (en) 2003-02-28 2006-10-31 Vixs Systems, Inc. Method and system for encoding and decoding data in a video stream
US7739105B2 (en) * 2003-06-13 2010-06-15 Vixs Systems, Inc. System and method for processing audio frames
KR20050028193A (ko) * 2003-09-17 2005-03-22 삼성전자주식회사 오디오 신호에 적응적으로 부가 정보를 삽입하기 위한방법, 오디오 신호에 삽입된 부가 정보의 재생 방법, 및그 장치와 이를 구현하기 위한 프로그램이 기록된 기록 매체
US7277101B2 (en) 2003-09-29 2007-10-02 Vixs Systems Inc Method and system for scaling images
US7668396B2 (en) 2003-09-29 2010-02-23 Vixs Systems, Inc. Method and system for noise reduction in an image
US7406598B2 (en) 2004-02-17 2008-07-29 Vixs Systems Inc. Method and system for secure content distribution
US7725313B2 (en) * 2004-09-13 2010-05-25 Ittiam Systems (P) Ltd. Method, system and apparatus for allocating bits in perceptual audio coders
US7421048B2 (en) 2005-01-20 2008-09-02 Vixs Systems, Inc. System and method for multimedia delivery in a wireless environment
US7609766B2 (en) 2005-02-08 2009-10-27 Vixs Systems, Inc. System of intra-picture complexity preprocessing
US8949920B2 (en) 2005-03-17 2015-02-03 Vixs Systems Inc. System and method for storage device emulation in a multimedia processing system
US7400869B2 (en) 2005-03-22 2008-07-15 Vixs Systems Inc. System and method for adaptive DC offset compensation in wireless transmissions
CN101176147B (zh) * 2005-05-13 2011-05-18 松下电器产业株式会社 语音编码装置以及频谱变形方法
US7707485B2 (en) 2005-09-28 2010-04-27 Vixs Systems, Inc. System and method for dynamic transrating based on content
US8131995B2 (en) 2006-01-24 2012-03-06 Vixs Systems, Inc. Processing feature revocation and reinvocation
JP2007264154A (ja) * 2006-03-28 2007-10-11 Sony Corp オーディオ信号符号化方法、オーディオ信号符号化方法のプログラム、オーディオ信号符号化方法のプログラムを記録した記録媒体及びオーディオ信号符号化装置
JP5185254B2 (ja) * 2006-04-04 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション Mdct領域におけるオーディオ信号音量測定と改良
JP5071479B2 (ja) * 2007-07-04 2012-11-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
CA2704807A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation Audio coding apparatus and method thereof
CA2704812C (en) * 2007-11-06 2016-05-17 Nokia Corporation An encoder for encoding an audio signal
JP5262171B2 (ja) * 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
JP5446258B2 (ja) * 2008-12-26 2014-03-19 富士通株式会社 オーディオ符号化装置
WO2011021238A1 (ja) * 2009-08-20 2011-02-24 トムソン ライセンシング レート制御装置、レート制御方法及びレート制御プログラム
JP5754899B2 (ja) * 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
WO2011080916A1 (ja) * 2009-12-28 2011-07-07 パナソニック株式会社 音声符号化装置および音声符号化方法
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8606571B1 (en) * 2010-04-19 2013-12-10 Audience, Inc. Spatial selectivity noise reduction tradeoff for multi-microphone systems
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
WO2012157931A2 (en) 2011-05-13 2012-11-22 Samsung Electronics Co., Ltd. Noise filling and audio decoding
JP6179087B2 (ja) * 2012-10-24 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
EP3011556B1 (de) * 2013-06-21 2017-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und vorrichtung zur gewinnung von spektrumskoeffizienten für einen austauschrahmen eines audiosignals, audiodecodierer, audioempfänger und system zur übertragung von tonsignalen
JP6318904B2 (ja) * 2014-06-23 2018-05-09 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
WO2016112113A1 (en) 2015-01-07 2016-07-14 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
US9712348B1 (en) * 2016-01-15 2017-07-18 Avago Technologies General Ip (Singapore) Pte. Ltd. System, device, and method for shaping transmit noise
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
CN110536215B (zh) * 2019-09-09 2021-06-29 普联技术有限公司 音频信号处理的方法、装置、计算设置及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2861238B2 (ja) * 1990-04-20 1999-02-24 ソニー株式会社 ディジタル信号符号化方法
CA2075156A1 (en) * 1991-08-02 1993-02-03 Kenzo Akagiri Digital encoder with dynamic quantization bit allocation
JP3141450B2 (ja) * 1991-09-30 2001-03-05 ソニー株式会社 オーディオ信号処理方法
JP3446216B2 (ja) * 1992-03-06 2003-09-16 ソニー株式会社 音声信号処理方法
JP3278900B2 (ja) * 1992-05-07 2002-04-30 ソニー株式会社 データ符号化装置及び方法
JP3188013B2 (ja) * 1993-02-19 2001-07-16 松下電器産業株式会社 変換符号化装置のビット配分方法
JP3131542B2 (ja) * 1993-11-25 2001-02-05 シャープ株式会社 符号化復号化装置
BR9609799A (pt) * 1995-04-10 1999-03-23 Corporate Computer System Inc Sistema para compressão e descompressão de sinais de áudio para transmissão digital
JP3328532B2 (ja) * 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法

Also Published As

Publication number Publication date
EP0855805A2 (de) 1998-07-29
US6138101A (en) 2000-10-24
EP0855805A3 (de) 2000-04-19
JPH10207489A (ja) 1998-08-07
JP3328532B2 (ja) 2002-09-24
US6370499B1 (en) 2002-04-09
DE69732619D1 (de) 2005-04-07
DE69732619T2 (de) 2006-04-06
EP1198072B1 (de) 2007-01-24
EP0855805B1 (de) 2005-03-02
EP1198072A3 (de) 2004-03-31
DE69737302D1 (de) 2007-03-15
EP1198072A2 (de) 2002-04-17

Similar Documents

Publication Publication Date Title
DE69737302T2 (de) Verfahren zum Codieren von digitalen Audiosignalen
DE60015030T2 (de) Auf Block Umschaltung basierender Teilband-Audiokodierer
DE69233094T2 (de) Verfahren und Anordnung zur Datenkompression bei welchem Quantisierungsbits einem Block in einem gegenwärtigen Rahmen in Abhängigkeit eines Blocks in einem vergangenen Rahmen zugeteilt werden
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
JP3277692B2 (ja) 情報符号化方法、情報復号化方法及び情報記録媒体
DE69434225T2 (de) Verfahren und Vorrichtung zur Aufzeichnung, Wiedergabe, Übertragung und/oder zum Empfang von komprimierten Daten und geeigneter Aufzeichnungsträger
DE4221321B4 (de) Schaltungsanordnung zur Aufzeichnung und/oder Wiedergabe von komprimierten Daten sowie Signalverarbeitungsverfahren
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE69533500T2 (de) Verfahren und vorrichtung zum kodieren und dekodieren von nachrichten
DE69432538T2 (de) Digitales Signalkodierungsgerät, dazugehöriges Dekodiergerät und Aufzeichnungsträger
DE69923555T2 (de) Verfahren und vorrichtung zur entropie-kodierung von quantisierten transformationskoeffizienten eines signals
WO1988004117A1 (en) Process for transmitting digital audio-signals
DE69829242T2 (de) Tonsignalkodierverfahren und -gerät
JP4056466B2 (ja) ビット率を調節できるオーディオ符号化方法、復号方法、符号化装置及び復号装置
CA2075156A1 (en) Digital encoder with dynamic quantization bit allocation
DE19638997B4 (de) Digitales Toncodierungsverfahren und digitale Toncodierungsvorrichtung
DE69932861T2 (de) Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
DE60020663T2 (de) Verfahren zur Formatierung eines Audiodatenstroms
DE4447257A1 (de) Verfahren und Vorrichtung zum Codieren eines digitalen Tonsignals
DE102007029381A1 (de) Digitalsignal-Verarbeitungsvorrichtung, Digitalsignal-Verarbeitungsverfahren, Digitalsignal-Verarbeitungsprogramm, Digitalsignal-Wiedergabevorrichtung und Digitalsignal-Wiedergabeverfahren
JPH0846518A (ja) 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体
DE4343366C2 (de) Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen
US6034315A (en) Signal processing apparatus and method and information recording apparatus
JPH07168593A (ja) 信号符号化方法及び装置、信号復号化方法及び装置、並びに信号記録媒体
US6765930B1 (en) Decoding apparatus and method, and providing medium

Legal Events

Date Code Title Description
8364 No opposition during term of opposition