DE60126811T2 - Kodierung von audiosignalen - Google Patents

Kodierung von audiosignalen Download PDF

Info

Publication number
DE60126811T2
DE60126811T2 DE60126811T DE60126811T DE60126811T2 DE 60126811 T2 DE60126811 T2 DE 60126811T2 DE 60126811 T DE60126811 T DE 60126811T DE 60126811 T DE60126811 T DE 60126811T DE 60126811 T2 DE60126811 T2 DE 60126811T2
Authority
DE
Germany
Prior art keywords
signal
function
input signal
frame
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60126811T
Other languages
English (en)
Other versions
DE60126811D1 (de
Inventor
Richard Heusdens
Renat Vafin
Willem B. Kleijn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE60126811D1 publication Critical patent/DE60126811D1/de
Application granted granted Critical
Publication of DE60126811T2 publication Critical patent/DE60126811T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • G10L2019/0014Selection criteria for distances

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf eine Anordnung und ein Verfahren zur Signalcodierung, insbesondere aber nicht ausschließlich, auf ein Verfahren und eine Anordnung zur Codierung von Audiosignalen.
  • Sinusförmige Modellierung ist ein durchaus bekanntes Verfahren der Signalcodierung. Ein zu codierendes Eingangssignal wird in eine Anzahl Frames aufgeteilt, wobei die sinusförmige Modellierungstechnik auf jedes Frame angewandt wird. Sinusförmige Modellierung jedes Frames erfordert das Finden eines Satzes sinusförmiger Signale, die durch Amplitude, Frequenz, Phase und Dämpfungskoeffizienten parameterisiert sind um Denjenigen Teil des Eingangssignals darzustellen, der in diesem Frame enthalten ist.
  • Sinusförmige Modellierung kann das Herausgreifen spektraler Spitzen in dem Eingangssignal betreffen. Auf alternative Weise können Analyse-durch-Synthese-Techniken angewandt werden. Typischerweise umfassen Analyse-durch-Synthese-Techniken iterativ das Identifizieren und Entfernen des sinusförmigen Signals mit der größten Energie in dem Eingangsframe. Algorithmen zum Durchführen von Analyse-durch-Synthese können eine genaue Wiedergabe des Eingangssignals schaffen, wenn genügend sinusförmige Bestandteile identifiziert werden.
  • Eine Begrenzung der Analyse-durch-Synthese, wie oben beschrieben, ist, dass es sein kann, dass der sinusförmige Anteil mit der größten Energie nicht der perzeptuell Signifikanteste ist. In Situationen, in denen die Absicht der Durchführung sinusförmiger Modellierung das Reduzieren des Betrags an Information ist, erforderlich zum Darstellen eines Eingangssignals, kann das Modellieren des Eingangssignals entsprechend der Energie spektraler Bestandteile weniger effizient sein als das Modellieren des Eingangssignals entsprechend der perzeptuellen Signifikanz der spektralen Bestandteile. Eine bekannte Technik, welche die Psychoakustik des menschlichen Hörsystems berücksichtigt, ist gewichtete Anpassungsvorgehen. Im Allgemeinen nähern anpassende Vorgangsalgorithmen einem Eingangssignal um eine endliche Expansion von Elementen an, ausgewählt aus einem redundanten Verzeichnis. Unter Anwendung des gewichteten Anpassungsvorgangsverfahrens werden die Verzeichniselemente entsprechend einer perzeptuellen Gewichtung skaliert.
  • Zum besseren Erläutern des gewichteten Anpassungsvorgangsverfahrens wird ein allgemeiner Anpassungsvorgangsalgorithmus beschrieben. Der allgemeine Anpassungsvorgangsalgorithmus wählt Verzeichnisinhaltselemente gγ und wird gegeben durch D = (gγ)γ∊Γ denn H ist der geschlossene Bereich der Verzeichniselemente. Ein Eingangssignal von x ∊ H wird auf die Verzeichniselemente gγ projiziert und das Element, das am besten zu dem Eingangssignal x passt, wird von dem Eingangssignal x subtrahiert, um ein Restsignal zu bilden. Dieser Prozess wiederholt sich, wobei der Rest von dem vorhergehenden Schritt als das neue Eingangssignal genommen wird. Wenn der Rest nach m-1 Wiederholungen als Rm-1x bezeichnet wird und das Verzeichniselement, das am besten zu Rm-1x passt, als gγm bezeichnet wird, wird der Rest bei der Wiederholung m nach der unten stehenden Gleichung zerlegt: Rm-1x = 〈Rm-1x, gγm〉gγm + Rmx (1)wobei gγm ∊ D derart ist, dass
  • Figure 00020001
  • Die Orthogonalität von Rmx und gγm bedeutet ∥Rm-1x∥2 = |〈Rm-1x, gγm〉|2 + ∥Rmx∥2
  • Dieser Algorithmus wird das gewichtete Anpassungsverhalten, wenn die Verzeichniselemente gγ skaliert werden um menschliche Hörperzeption nachzuweisen.
  • Wegen der durch die Gewichtung der Verzeichniselemente eingeführte Vorspannung kann der gewichtete Anpassungsverhaltensalgorithmus nicht das richtige Verzeichniselement wählen, wenn das zu modellierende Signal aus einem der Verzeichniselemente besteht. Außerdem kann der gewichtete Anpassungsverhaltensalgorithmus nur schwer unterscheiden zwischen Seitenkeulenspitzen, die durch Fensterung eines Eingangssignals eingeführt wurden um diese in eine Anzahl Frames zu verteilen, und den wirklichen Anteilen des zu modellierenden Signals.
  • Beispiele von Verfahren zur sinusförmigen Modellierung für Audiocodierung lassen sich finden in: "Sinusoidal Modeling Using Frame-Based Perceptually Weigh ted Matchin Pursuits", von Verma u. a., "IEEE International Conference on Acoustics, Speech and Signal Processing (ACASSP)", New York, NY: IEEE, US, Heft 2, den 15. März 1999, Seiten 981–984, XP000900287 ISBN 0-7803-5042-1; und "A New Phhae Model for Sinusoidal Transform Coding of Speech" von Ahmadi u. a., "IEEE Transactions on Speech and Audio Processing", Heft 6, Nr. 5, September 1998, XP000773074.
  • Es ist ein Ziel der bevorzugten Ausführungsformen der vorliegenden Erfindung, ein Verfahren beispielsweise zur sinusförmiger Modellierung zu schaffen, und zwar auf Basis von Analyse-durch-Synthese, das Verbesserungen in der Selektion von Verzeichniselementen schafft, wenn Teilen eines Signals in einem Frame begrenzter Länge angenähert werden. Dazu schafft die vorliegende Erfindung ein Verfahren zur Signalcodierung, eine Codieranordnung und eine Übertragungsanordnung, wie in den Hauptansprüchen definiert.
  • Vorteilhafte Ausführungsformen sind in den Unteransprüchen definiert.
  • Ein erster Aspekt der vorliegenden Erfindung schafft ein Verfahren nach Anspruch 1.
  • Die Norm kann wie folgt definiert werden:
    Figure 00030001
    wobei Rx einen Teil des zu modellierenden Eingangssignals darstellt, wobei ā(f) die Fouriertransformation einer gewichteten Funktion darstellt, ausgedrückt als eine Funktion der Frequenz, und wobei (wRx)(f) die Fouriertransformation des Produktes aus einer Fensterfunktion, die jedes Frame der vielen Frames definiert, w, und Rx, ausgedrückt als eine Funktion der Frequenz, darstellt.
  • Die Norm umfasst Kenntnisse der Psychoakustik des menschlichen Hörens als Hilfe bei dem Selektionsprozess des Schrittes (c).
  • Vorzugsweise werden Kenntnisse der Psychoakustik des menschlichen Hörens in die Norm einverleibt durch die Funktion ā(f). Vorzugsweise basiert ā(f) auf der Maskierungsschwelle des menschlichen Hörsystems. Vorzugsweise ist ā(f) der invertierte Wert der Maskierungsschwelle.
  • Der Selektionsprozess des Schrittes (c) wird in einer Anzahl Subschritte durchgeführt, wobei in jedem Subschritt eine einzige Funktion aus einem Funktionsverzeichnis identifiziert wird.
  • Die identifizierte Funktion in dem ersten Subschritt wird von dem Eingangssignal in dem Frame subtrahiert um ein Restsignal zu bilden und in jedem nachfolgenden Subschritt wird eine Funktion identifiziert und von dem Restsignal subtrahiert um ein weiteres Restsignal zu bilden.
  • Vorzugsweise bildet die Summe der in jedem Subschritt identifizierten Funktionen eine Annäherung des Signals in jedem Frame.
  • Vorzugsweise passt die Norm sich in jedem Subschritt des Selektionsprozesses des Schrittes (c) an.
  • Vorzugsweise wird in jedem Subschritt des Selektionsprozesses des Schrittes (c) auf Basis eines aktuellen Restsignals eine neue Norm eingeführt. Vorzugsweise wird, wenn das Restsignal sich in jedem Subschritt ändert, ā(f) aktualisiert um die Maskierungscharakteristiken des Restsignals zu berücksichtigen. Vorzugsweise wird ā(f) durch Berechnung nach bekannten Modellen der Maskierungsschwelle aktualisiert, beispielsweise den Modellen, die in der MPEG-Schicht 3 Norm definiert sind. Bei alternativen Ausführungsformen kann die Funktion ā(f) konstant gehalten werden um die rechnerische Belastung, auferlegt durch Neubewertung der Maskierungscharakteristiken des Restsignals bei jeder Wiederholung zu entfernen. Auf geeignete Art und Weise kann die Funktion ā(f) konstant gehalten werden, und zwar auf Basis der Maskierungsschwelle des Eingangssignals um Konvergenz zu gewährleisten. Die Maskierungsschwelle des Eingangssignals wird vorzugsweise auch entsprechend einem bekannten Modell, wie den Modellen, die in der MPEG-Schicht 3 Norm definiert sind, berechnet.
  • Vorzugsweise basiert die Funktion ā(f) auf der Maskierungsschwelle des menschlichen Hörsystems und ist der invertierte Wert der Maskierungsschwelle für den Teil eines Eingangssignals in einem Frame, das unter Verwendung eines bekannten Modells der Maskierungsschwelle codiert und berechnet wird.
  • Vorzugsweise wird die Norm entsprechend dem inneren Produkt induziert: 〈x, y〉 = ∫10 ā(f)(wx)(f)(wy)*(f)df (4)
  • Vorzugsweise minimiert durch Bezeichnung des Restsignals bei Wiederho lung m als Rmx und der Gewichtungsfunktion aus der vorhergehenden Wiederholung ām-1 die aus dem Funktionsverzeichnis identifizierte Funktion
    Figure 00050001
    wobei
    Figure 00050002
    die unter Verwendung von ām-1 berechnete Norm darstellt.
  • Vorzugsweise wird die Annäherung des Verfahrens zur Audiocodierung durch die Gültigkeit des Theorems gewährleistet, dass es für alle m > 0 eine λ > 0 gibt, so dass
    Figure 00050003
    ist, wobei x einen Anfangsteil des zu modellierenden Eingangssignals darstellt.
  • Vorzugsweise wird die Annäherung des Verfahrens zur Audiocodierung durch die Steigerung oder die Invarianz in jedem Frame der Maskierungsschwelle in jedem Subschritt gewährleistet, so dass ām(f) ≤ ām-1(f) über den ganzen Bereich f ∊ [0,1).
  • Die Fensterfunktion kann ein Hanning-Fenster sein. Die Fensterfunktion kann ein Hamming-Fenster sein. Die Fensterfunktion kann ein rechteckiges Fenster sein. Die Fensterfunktion kann jedes beliebige geeignete Fenster sein.
  • Die vorliegende Erfindung umfasst eine Codieranordnung, die nach dem vorliegenden Verfahren funktioniert.
  • Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 eine Ausführungsform einer Codieranordnung, die nach der Lehre der vorliegenden Erfindung funktioniert,
  • 2 eine Übertragungsanordnung nach einer Ausführungsform der vorliegenden Erfindung.
  • In jeder der nachfolgenden Ausführungsformen wird ein betreffender Schritt in einem Audio-Codierungsprozess beschrieben, und zwar der Schritt der Selektion von Funktionen aus einem Funktionsverzeichnis zum Bilden einer Annäherung des Signals in jedem Frame. Dieser Selektionsschritt ist der kritische dritte Schritt (c) in den beschriebenen Audio-Codierungsverfahren, die auch die Anfangsschritte bestehend aus: (a) Empfang eines Eingangssignals, und (b) Verteilung des Eingangssignals in der Zeit zum Erzeugen einer Anzahl Frames, die je einen Teil des Eingangssignals enthalten.
  • Die Schritte (a) und (b), die sich auf das Obenstehende beziehen, sind vielen Signalcodierungsverfahren gemein und werden dem Fachmann ohne weitere Information klar sein.
  • In jeder der nachstehend beschriebenen Ausführungsformen der vorliegenden Erfindung umfasst der Selektionsschritt (c) Selektionsfunktionen aus einem Funktionsverzeichnis zum Bilden einer Annäherung des Signals in jedem Frame, wobei der Selektionsprozess auf Basis einer Norm durchgeführt wird, die wie folgt definiert wird:
    Figure 00060001
    wobei Rx einen Teil des zu modellierenden Eingangssignals darstellt, wobei ā(f) die Fouriertransformation einer Gewichtungsfunktion, ausgedrückt als eine Funktion der Frequenz, darstellt, und wobei (wRx)(f) die Fouriertransformation des Produktes aus einer Fensterfunktion, die jedes Frame in den vielen Frames, w, definiert, und Rx, ausgedrückt als eine Funktion der Frequenz, darstellt.
  • Es wird nun eine erste Ausführungsform der vorliegenden Erfindung beschrieben. In dieser Ausführungsform umfassen die Verzeichniselemente komplexe Exponenten, so dass D = (gγ)γ∊Γ
    Figure 00060002
    für γ ∊ [0,1).
  • Zum Finden des am besten passenden Verzeichniselementes bei Wiederholung in, wird das innere Produkt aus Rm-1x und jedem der Verzeichniselemente bewertet. In dieser Ausführungsform wird die Bewertung der inneren Produkte 〈Rm-1x, gγ〉 gegeben durch:
    Figure 00060003
  • Die Funktion ā(f) umfasst Kenntnisse über die Psychoakustik des menschlichen Hörens, indem sie den invertierten Wert der Maskierungsschwelle des menschlichen Hörsystems enthält, wie dies unter Verwendung eines bekannten Modells auf Basis des Restsignals aus der vorhergehenden Wiederholung bekannt ist. Bei der ersten Wiederholung wird die Maskierungsschwelle auf Basis des Eingangssignals modelliert.
  • Das am besten passende Verzeichniselement wird danach entsprechend der durchaus bekannten und oben beschriebenen Gleichung (2) bewertet und der Rest wird entsprechend der Gleichung (1) bewertet.
  • Die Verwendung eines strukturierten Verzeichnisses, wie des Verzeichnisses, das für diese Ausführungsform der vorliegenden Erfindung beschrieben worden ist, kann die rechnerische Komplexität der Bewertung der inneren Produkte 〈Rm-1x, gγ〉 wesentlich reduzieren. In dem Fall des Verzeichnisses komplexer Exponenten, wie in dieser Ausführungsform der vorliegenden Erfindung beschrieben, kann die Gleichung (5) unter Verwendung der Fouriertransformation berechnet werden:
    Figure 00070001
  • Folglich wird zum Berechnen von 〈Rm-1x, gγ〉 für alle γ die Fouriertransformation von wRm-1x berechnet und das Ergebnis wird mit ā multipliziert. Die invertierte Fouriertransformation dieses Produktes wird danach berechnet, das Ergebnis mit w* multipliziert und danach Fourier transformiert. Auf diese Weise kann das Ergebnis der Gleichung (6) unter Verwendung von drei Fouriertransformationsvorgängen berechnet werden.
  • Wenn das am besten passende Verzeichniselement bei dieser Wiederholung einmal gewählt worden ist, wird es von dem Restsignal subtrahiert, wobei das Ergebnis der Subtraktion das bei der nächsten Wiederholung zu modellierende Signal bildet. Auf diese Weise kann eine Annäherung mit der Summe der Verzeichniselemente, identifiziert bei jeder Wiederholung, aufgebaut werden.
  • Dadurch, dass die Summe jeder komplexen Exponentenfunktion mit der komplexen Verbindung gebildet wird, kann eine richtig bewertete Sinusform gebildet werden. Auf diese Weise kann das echte Eingangssignal geschätzt werden. Diese Technik erfordert, dass bei jeder Wiederholung ein Paar Verzeichniselemente (g*γ , gγ) gefunden werden. Um das echte sinusförmige Signal zu rekonstruieren muss das innere Produkt 〈g*γ , gγ auch gefunden werden. Diese inneren Produkte haben keine effiziente Implementierung in Termen von Fouriertransformationen, aber weil der Wert 〈g*γ , gγ〉 ≈ 0 für γ weg on 0 oder ½ ist es möglich, die Berechnung der inneren Produkte für den größten Teil des Bereichs von γ Werten zu vermeiden. Aus diesem Grund ist die Komplexität der Schätzung des am besten passenden Satzes 〈g*γ , gγ von der gleichen Größenordnung wie zum Finden der am Besten passenden exponentiellen Funktion gr.
  • Eine zweite Ausführungsform basiert auf der oben beschriebenen ersten Ausführungsform, weicht aber davon darin ab, dass N sehr groß ist. In diesem Fall neigt w(f) zu einer Dirac Deltafunktion und die Gleichung
    Figure 00080001
    reduziert zu
  • Figure 00080002
  • Folglich wählt der passende Verhaltensalgorithmus gγ ∊ D, so dass
  • Figure 00080003
  • Bei dieser Ausführungsform ergibt das bei jeder Wiederholung erhaltene Ergebnis die maximale absolute Differenz zwischen dem logarithmischen Spektrum des Restsignals und der logarithmischen Maskierungsschwelle.
  • Wenn ām-1 der Reziprokwert der Maskierungsschwelle bei Wiederholung m ist, selektiert diese Prozedur den komplexen Exponenten an der Stelle, wo die absolute Differenz zwischen dem Restsignalspektrum und der Maskierungsschwelle am größten ist. Eine Bewertung der inneren Produkte, erforderlich zum Identifizieren des gewünschten Verzeichniselementes bei jeder Wiederholung nach der Gleichung (2), kann für die erste und die zweite Ausführungsform rechnerisch intensiv werden, wenn es eine Vielzahl von Verzeichniselementen gibt.
  • Eine dritte Ausführungsform der vorliegenden Erfindung benutzt Schritte der Verfahren der ersten und der zweiten Ausführungsform der vorliegenden Erfindung gemeinsam in Bezug auf den Empfang und der Verteilung eines Eingangssignals. Auf gleiche Weise wird eine Funktion, identifiziert aus dem Funktionsverzeichnis verwendet zum Erzeugen eines bei der nächsten Wiederholung zu modellierenden Restsignals, aber bei einer dritten Ausführungsform passt die Funktion ā(f) sich nicht entsprechend der Maskierungscharakteristik des Restsignals bei jeder Wiederholung an, sondern wird unabhängig von der Wiederholungsanzahl gehalten. Für jedes allgemeine innere Produkt ist es bekannt, dass die Gleichung (1) wie folgt reduziert werden kann: 〈Rmx, gγ〉 = 〈Rm-1x, gγ〉 – 〈Rm-1x, gγm〉〈gγm, gγ〉 (9).
  • Auf diese Weise dienen, wenn ā(f) konstant gehalten wird, und zwar unabhängig von der Anzahl Wiederholungen, unter Anwendung der Definition der Norm der vorliegenden Erfindung, wie durch das innere Produkt der Gleichung (4) induziert, die einzigen zusätzlichen Berechnungen, erforderlich bei jeder Wiederholung, zum Bewerten der inneren Produkte 〈gγm, gγ〉. Der Wert dieser inneren Produkte, und zwar der inneren Produkte jedes Verzeichniselementes mit allen Verzeichniselementen, kann im Voraus berechnet und in dem Speicher gespeichert werden. Wenn die Funktion ā(f) über alle Frequenzen gleich Eins gehalten wird, reduziert das Verfahren auf den bekannten Anpassungsverhaltensalgorithmus. Aber ā(f) kann jede allgemeine Form annehmen. Eine besonders vorteilhafte Anordnung ist, dass ā(f) dem invertierten Wert der Maskierungsschwelle des kompletten Eingangssignals entsprechend gehalten wird. Diese Anordnung gleicht sich entsprechend der oben genannten Ungleichheit an und hat Vorteile in Termen einer einfachen Berechnung.
  • In 1 ist schematisch eine Ausführungsform einer Codieranordnung dargestellt, die entsprechend der vorliegenden Erfindung funktioniert.
  • In 1 ist ein Signalcodierer 10 dargestellt, der ein Audiosignal Ain en dem Eingang empfängt und dieses Signal entsprechend einem der hier beschriebenen Verfahren verarbeitet, bevor der Code C ausgeliefert wird. Der Codierer 10 schätzt sinusförmige Parameter durch Verwendung eines Anpassungsverhaltensalgorithmus, wobei psychoakustische Eigenschaften von beispielsweise einem menschlichen Hörsystem durch Definition einer psychoakustischen adaptiven Norm in einem Signalraum berücksichtigt werden.
  • Die oben beschriebenen Ausführungsformen schaffen Verfahren zur Signalcodierung, besonders geeignet zur Verwendung in Bezug auf Sprache oder andere Audiosignale. Die Verfahren nach den Ausführungsformen der vorliegenden Erfindung verkörpern Kenntnisse der Psychoakustik des menschlichen Hörsystems (so dass die Funktion ā(f) der invertierte Wert der Maskierungsschwelle des menschlichen Hörsystems ist) und schaffen Vorteile gegenüber anderen Verfahren, wenn das zu codierende Signal von einer begrenzten Dauer ist ohne eine wesentliche Steigerung der rechnerischen Komplexität.
  • 2 zeigt eine Übertragungsanordnung 1 nach einer Ausführungsform der vorliegenden Erfindung, wobei diese Übertragungsanordnung eine Codieranordnung 10, wie in 1 dargestellt, enthält. Die Übertragungsanordnung 1 umfasst weiterhin eine Quelle 11 zum Erhalten des Eingangssignals Ain, das beispielsweise ein Audiosignal ist. Die Quelle 11 kann beispielsweise ein Mikrophon oder eine Empfangseinheit/Antenne sein. Das Eingangssignal Ain wird der Codieranordnung 10 zugeführt, die das Eingangssignal codiert zum Erhalten des codierten Signals C. Der Code C wird einer Ausgangseinheit 12 zugeführt, die den Code C nötigenfalls zur Übertragung anpasst. Die Ausgangseinheit 12 kann ein Multiplexer, ein Modulator usw. sein. Ein Ausgangssignal [C] auf Basis des Codes C wird Übertragen. Das Ausgangssignal [C] kann zu einem Fernempfänger übertragen werden, aber auch zu einem örtlichen Empfänger oder zu einem Speichermedium.
  • Obschon die Ausführungsformen der vorliegenden Erfindung in Bezug auf Audiocodierung beschrieben worden sind, dürfte es dem Fachmann einleuchten, dass das Verfahren nach der vorliegenden Erfindung völlig oder teilweise bei anderen Signalcodierungsapplikationen angewandt werden kann.
  • Es sei bemerkt, dass die oben genannten Ausführungsformen die vorliegende Erfindung illustrieren statt begrenzen und dass der Fachmann imstande sein wird, im Rahmen der beiliegenden Patentansprüche viele alternative Ausführungsformen zu entwerfen. In den Patentansprüchen sollen eingeklammerte Bezugszeichen nicht als den Anspruch begrenzend betrachtet werden. Das Wort "enthalten" schließt das Vorhandensein anderer Elemente oder Schritte als diejenigen, die in einem Anspruch genannt werden, nicht aus. Die vorliegende Erfindung kann mit Hilfe von Hardware mit verschiedenen einzelnen Elementen, sowie mit Hilfe eines auf geeignete Art und Weise programmierten Computers implementiert werden. In einem Anordnungsanspruch, in dem verschiedene Mittel nummeriert sind, können verschiedene dieser Mittel von ein und demselben Hardware-Item verkörpert sein. Die Tatsache, dass bestimmte Maßnahmen in untereinander verschiedenen Unteransprüchen genannt werden, gibt nicht an, dass eine Kombination dieser Maßnahmen nicht mit Vorteil angewandt werden könnte.

Claims (16)

  1. Verfahren zur Signalcodierung, wobei das Verfahren die nachfolgenden Verfahrensschritte umfasst: (a) das Empfangen eines Eingangssignals, (b) das Aufteilen des Eingangssignals in Zeit zum Erzeugen einer Anzahl Frames, die je einen Teil des Eingangssignals enthalten; und (c) das Selektieren von Funktionen aus einem Funktionsverzeichnis zum Bilden einer Annäherung des Signals in jedem Frame, wobei der Selektionsprozess des Schrittes (c) in einer Anzahl Unterschritte durchgeführt wird, wobei jeder Unterschritt eine einzelne Funktion aus einem Funktionsverzeichnis identifiziert wird, und die in dem ersten Unterschritt identifizierte Funktion von dem Eingangssignal in dem Frame subtrahiert wird, und zwar zum Bilden eines Restsignals und wobei in jedem nachfolgenden Unterschritt eine Funktion identifiziert und von dem Restsignal subtrahiert wird, und zwar zum Bilden eines weiteren Restsignals, wobei die Summe der in jedem Unterschritt identifizierten Funktionen eine Annäherung des Signals in jedem Frame bildet; und dadurch gekennzeichnet, dass der Selektionsprozess des Schrittes (c) auf Basis einer Norm durchgeführt wird, die auf einer Kombination einer als eine Funktion der Frequenz ausgedrückten Gewichtungsfunktion, die Kenntnisse der Psychoakustik des menschlichen Hörsystems verkörpert, und eines Produktes einer Fensterfunktion, die jedes Frame in der Anzahl Frames und den Teil des zu modellierenden Eingangssignals definiert, wobei das Produkt aus der Fensterfunktion und dem Teil des zu modellierenden Eingangssignals als eine Funktion der Frequenz ausgedrückt wird.
  2. Verfahren zur Signalcodierung nach Anspruch 1, wobei die Norm durch die nachfolgende Gleichung definiert wird
    Figure 00110001
    wobei Rx einen Teil des zu modellierenden Eingangssignals darstellt, wobei ā(f) die als eine Funktion der Frequenz ausgedrückte Gewichtungsfunktion darstellt, und wobei (wRx)(f) die Transformation, wie eine Fouriertransformation, des Produktes aus der Fensterfunktion, die jedes Frame in den vielen Frames definiert, w, und Rx darstellt.
  3. Verfahren zur Signalcodierung nach Anspruch 1, wobei die Kenntnisse der Psychoakustik des menschlichen Hörsystems durch die Funktion ā(f) in die Norm einverleibt ist.
  4. Verfahren zur Signalcodierung nach Anspruch 3, wobei ā(f) auf der Maskierungsschwelle des menschlichen Hörsystems basiert ist und das umgekehrte der Maskierungsschwelle ist.
  5. Verfahren zur Signalcodierung nach Anspruch 4, wobei ā(f) unter Anwendung eines bekannten Modells der Maskierungsschwelle berechnet wird.
  6. Verfahren zur Signalcodierung nach einem der vorstehenden Ansprüche, wobei die Norm sich in jedem Unterschritt des Selektionsprozesses des Schrittes (c) anpasst.
  7. Verfahren zur Signalcodierung nach Anspruch 6, wobei eine neue Norm in jeden Unterschritt des Selektionsprozesses des Schrittes (c) eingeführt wird, und zwar auf Basis eines aktuellen Restsignals, wobei ā(f) auch aktualisiert wird zur Berücksichtigung der Maskierungscharakteristiken des Restsignals.
  8. Verfahren zur Signalcodierung nach Anspruch 1 oder 2, wobei die Gewichtungsfunktion unabhängig von der Wiederholungszahl beibehalten wird.
  9. Verfahren zu Signalcodierung nach Anspruch 8, wobei die Funktion ā(f) auf der Maskierungsschwelle des menschlichen Hörsystems basiert ist, das Umgekehrte der Maskierungsschwelle für den Teil eines Eingangssignals in einem Frame ist, das codiert werden muss und unter Anwendung eines bekannten Modells der Maskierungsschwelle berechnet wird.
  10. Verfahren nach einem der vorstehenden Ansprüche, wobei die Norm entsprechend dem inneren Produkt 〈x, y〉 = ∫10 ā(f)(wx)(f)(wy)*(f)df (4)eingeführt wird.
  11. Verfahren zur Audiocodierung nach Anspruch 10, wobei das Restsignal bei Wiederholung m als Rmx bezeichnet wird und wobei die Gewichtungsfunktion aus der vorhergehenden Wiederholung ām-1 die Funktion, identifiziert aus dem Funktionsverzeichnis,
    Figure 00130001
    minimiert, wobei
    Figure 00130002
    die unter Anwendung von ām-1 berechnete Norm darstellt.
  12. Verfahren zur Signalcodierung nach Anspruch 11, wobei die Konvergenz des Verfahrens der Audiocodierung durch die Gültigkeit des Theorems gewährleistet wird, dass es für alle m > 0 eine λ > 0 gibt, so dass
    Figure 00130003
    ist, wobei x einen Anfangsteil des zu modellierenden Eingangssignals darstellt.
  13. Verfahren zur Signalcodierung nach Anspruch 12, wobei die Konvergenz des Verfahrens zur Audiocodierung durch die Zunahme oder Invarianz in jedem Frame der Maskierungsschwelle in jedem Unterschritt gewährleistet wird, so dass ām(f) ≤ ām-1(f) über den ganzen Frequenzbereich f ∊ [0,1) ist.
  14. Verfahren zur Signalcodierung nach einem der vorstehenden Ansprüche, wobei die Fensterfunktion ein Hanning-Fenster, ein Hamming-Fenster, ein rechteckiges Fenster oder ein anderes geeignetes Fenster ist.
  15. Codierungsanordnung (10) mit Mitteln zum Durchführen jedes der Schritte eines Verfahrens nach einem der vorstehenden Ansprüche.
  16. Übertragungsanordnung (1), welche die nachfolgenden Elemente aufweist: – eine Quelle (11) zum Schaffen eines Eingangssignals, – eine Codierungsanordnung (10) nach Anspruch 15 zum Codieren des Eingangssignals zum Erhalten eines codierten Signals, und – eine Ausgangseinheit zum Ausliefern des codierten Signals.
DE60126811T 2000-11-03 2001-10-31 Kodierung von audiosignalen Expired - Fee Related DE60126811T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP00203856 2000-11-03
EP00203856 2000-11-03
EP01201685 2001-05-08
EP01201685 2001-05-08
PCT/EP2001/012721 WO2002037476A1 (en) 2000-11-03 2001-10-31 Sinusoidal model based coding of audio signals

Publications (2)

Publication Number Publication Date
DE60126811D1 DE60126811D1 (de) 2007-04-05
DE60126811T2 true DE60126811T2 (de) 2007-12-06

Family

ID=26072835

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60126811T Expired - Fee Related DE60126811T2 (de) 2000-11-03 2001-10-31 Kodierung von audiosignalen

Country Status (8)

Country Link
US (1) US7120587B2 (de)
EP (1) EP1338001B1 (de)
JP (1) JP2004513392A (de)
KR (1) KR20020070373A (de)
CN (1) CN1216366C (de)
AT (1) ATE354850T1 (de)
DE (1) DE60126811T2 (de)
WO (1) WO2002037476A1 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8478539B2 (en) 2003-12-31 2013-07-02 Jeffrey M. Sieracki System and method for neurological activity signature determination, discrimination, and detection
US7079986B2 (en) * 2003-12-31 2006-07-18 Sieracki Jeffrey M Greedy adaptive signature discrimination system and method
US8271200B2 (en) * 2003-12-31 2012-09-18 Sieracki Jeffrey M System and method for acoustic signature extraction, detection, discrimination, and localization
WO2005091275A1 (en) * 2004-03-17 2005-09-29 Koninklijke Philips Electronics N.V. Audio coding
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
KR101299155B1 (ko) * 2006-12-29 2013-08-22 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
KR101149448B1 (ko) * 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
KR101346771B1 (ko) * 2007-08-16 2013-12-31 삼성전자주식회사 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치
KR101441898B1 (ko) * 2008-02-01 2014-09-23 삼성전자주식회사 주파수 부호화 방법 및 장치와 주파수 복호화 방법 및 장치
US8805083B1 (en) 2010-03-21 2014-08-12 Jeffrey M. Sieracki System and method for discriminating constituents of image by complex spectral signature extraction
US9886945B1 (en) 2011-07-03 2018-02-06 Reality Analytics, Inc. System and method for taxonomically distinguishing sample data captured from biota sources
US9558762B1 (en) 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
US9691395B1 (en) 2011-12-31 2017-06-27 Reality Analytics, Inc. System and method for taxonomically distinguishing unconstrained signal data segments
JP5799707B2 (ja) * 2011-09-26 2015-10-28 ソニー株式会社 オーディオ符号化装置およびオーディオ符号化方法、オーディオ復号装置およびオーディオ復号方法、並びにプログラム
WO2018198454A1 (ja) * 2017-04-28 2018-11-01 ソニー株式会社 情報処理装置、および情報処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP3446216B2 (ja) * 1992-03-06 2003-09-16 ソニー株式会社 音声信号処理方法
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
FI973873A (fi) * 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus

Also Published As

Publication number Publication date
JP2004513392A (ja) 2004-04-30
DE60126811D1 (de) 2007-04-05
US20030009332A1 (en) 2003-01-09
US7120587B2 (en) 2006-10-10
EP1338001A1 (de) 2003-08-27
CN1216366C (zh) 2005-08-24
EP1338001B1 (de) 2007-02-21
ATE354850T1 (de) 2007-03-15
WO2002037476A1 (en) 2002-05-10
CN1408110A (zh) 2003-04-02
KR20020070373A (ko) 2002-09-06

Similar Documents

Publication Publication Date Title
DE60126811T2 (de) Kodierung von audiosignalen
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE60018886T2 (de) Adaptive Wavelet-Extraktion für die Spracherkennung
DE60303214T2 (de) Verfahren zur reduzierung von aliasing-störungen, die durch die anpassung der spektralen hüllkurve in realwertfilterbanken verursacht werden
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69925905T2 (de) Blinde trennung von quellen durch faltung mit hilfe eines vielfachdekorrelationsverfahrens
DE60313332T2 (de) Audiocodierung mit niedriger bitrate
DE60226308T2 (de) Quantisierung der Anregung in einem Geräuschrückkopplungskodierungssytem mit allgemeiner Rauschformung
DE69531642T2 (de) Synthese eines Anregungssignals bei Ausfall von Datenrahmen oder Verlust von Datenpaketen
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE102004009955B3 (de) Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
WO2002017303A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
WO2007131564A1 (de) Informationssignalcodierung
DE102006051673A1 (de) Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
DE60310449T2 (de) Audiosignalkodierung
EP1525576B1 (de) Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals
EP0611516B1 (de) Verfahren zur reduzierung von daten bei der übertragung und/oder speicherung digitaler signale mehrerer abhängiger kanäle
DE112013005085T5 (de) Verfahren zum Umwandeln eines Eingangssignals
EP1016319B1 (de) Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals
DE19947877C2 (de) Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
EP1609084A2 (de) Vorrichtung und verfahren zum umsetzen in eine transformierte darstellung oder zum inversen umsetzen der transformierten darstellung
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder
EP0962015A1 (de) Verfahren und vorrichtungen zum codieren von diskreten signalen bzw. zum decodieren von codierten diskreten signalen
DE102017204244A1 (de) Codiervorrichtung zum Verarbeiten eines Eingangssignals und Decodiervorrichtung zum Verarbeiten eines codierten Signals
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee