DE60131009T2 - Mehrkanal-signalcodierung - Google Patents

Mehrkanal-signalcodierung Download PDF

Info

Publication number
DE60131009T2
DE60131009T2 DE60131009T DE60131009T DE60131009T2 DE 60131009 T2 DE60131009 T2 DE 60131009T2 DE 60131009 T DE60131009 T DE 60131009T DE 60131009 T DE60131009 T DE 60131009T DE 60131009 T2 DE60131009 T2 DE 60131009T2
Authority
DE
Germany
Prior art keywords
channel
individual
codebook
channels
shared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60131009T
Other languages
English (en)
Other versions
DE60131009D1 (de
Inventor
Tor Björn Minde
Arne Steinarson
Anders Uvliden
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=20281031&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60131009(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of DE60131009D1 publication Critical patent/DE60131009D1/de
Application granted granted Critical
Publication of DE60131009T2 publication Critical patent/DE60131009T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft das Codieren und Decodieren von Mehrkanalsignalen, wie Stereoaudiosignalen.
  • HINTERGRUND DER ERFINDUNG
  • Herkömmliche Sprachcodierungsverfahren basieren gewöhnlich auf Einkanalsprachsignalen. Ein Beispiel ist die Sprachcodierung, die in einer Verbindung zwischen normalem Telefon und zellularem Telefon verwendet wird. Sprachcodierung wird bei der Funkverbindung verwendet, um die Bandbreitennutzung auf der frequenzlimitierten Funkschnittstelle zu reduzieren. Wohl bekannte Beispiele der Sprachcodierung sind PCM (Pulse Code Modulation), ADMPCM (Adaptive Differential Pulse Code Modulation), Subbandcodierung, Umformcodierung, LPC-(Linear Predictive Coding-Linearvoraussagecodierung) Sprachcodierung, und Hybridcodierung, wie CELP-(Code-Exited Linear Predictive – Codeerregte Linearvoraussagende) Codierung [1–2].
  • In einer Umgebung, in der die Audio/Sprachkommunikation mehr als ein Eingabesignal verwendet, z. B., ein Computerarbeitsplatz mit Stereolautsprechern und zwei Mikrofonen (Stereomikrofonen), sind zwei Audio/Sprachkanäle erforderlich, um die Stereosignale zu übertragen. Ein weiteres Beispiel einer Mehrkanalumgebung wäre ein Konferenzraum mit Zwei-, Drei- oder Vierkanal-Eingang/Ausgang. Es wird von diesem Typ von Anwendungen angenommen, dass er im Internet und in zellularen Systemen der dritten Generation verwendet wird.
  • Allgemeine Prinzipien für linear voraussagende Analyse-durch-Synthese (LPAS) Mehrkanal-Signal-Codierung/Decodierung werden in [3] beschrieben. Jedoch sind die beschriebenen Prinzipien nicht immer in Situationen optimal, in denen eine starke Zwischenkanalkorrelation oder eine sich ändernde Zwischenkanalkorrelation besteht.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist eine Aufgabe der Erfindung Zwischenkanalkorrelation in linear voraussagender Analyse-durch-Synthese (LPAS) Mehrkanal-Signal-Codierung/Decodierung besser auszuwerten und bevorzugt eine Anpassung der Codierung/Decodierung an sich ändernde Zwischenkanalkorrelation zu unterstützen.
  • Diese Aufgabe wird im Einklang mit den beigefügten Ansprüchen gelöst.
  • Kurz gesagt, umfasst die vorliegende Erfindung ein mehrteiliges fixiertes Codebuch, das ein individuelles fixiertes Codebuch für jeden Kanal umfasst und ein gemeinsam benutztes fixiertes Codebuch, das allen Kanälen gemeinsam ist. Diese Strategie ermöglicht, die Anzahl der Bits zu variieren, die den individuellen Codebüchern und den gemeinsam benutzten Codebüchern zugeordnet ist, entweder auf einer Basis Rahmen um Rahmen, abhängig von ihrer Zwischenkanalkorrelation, oder auf einer Basis Anruf um Anruf, abhängig von der gewünschten Gesamtbitrate. Daher ist in einem Fall, in dem die Zwischenkanalkorrelation hoch ist, hauptsächlich nur das gemeinsam benutzte Codebuch erforderlich, während in einem Fall, in dem die Zwischenkanalkorrelation niedrig ist, sind hauptsächlich nur die individuellen Codebücher erforderlich. Wenn die Zwischenkanalkorrelation bekannt ist, oder als hoch vermutet wird, könnte ein gemeinsam benutztes Codebuch, das allen Kanälen gemeinsam ist, genügen. In ähnlicher Weise wird, wenn die gewünschte Gesamtbitrate niedrig ist, hautsächlich nur das gemeinsam benutzte Codebuch verwendet, während in dem Fall, in dem die gewünschte Gesamtbitrate hoch ist, die individuellen Codebücher verwendet werden könnten.
  • KURZBESCHREIBUNG DER ABBILDUNGEN
  • Die Erfindung, zusammen mit ihren weiteren Aufgaben und Vorteilen, könnte am besten durch Bezug auf die folgende Beschreibung zusammen mit den beiliegenden Abbildungen verstanden werden, in denen:
  • 1 ein Blockdiagramm einer herkömmlichen Einkanal-LPAS Sprachcodiereinrichtung ist;
  • 2 ein Blockdiagramm einer Ausführungsform des Analyseteils einer Mehrkanal-LPAS Sprachcodiereinrichtung des Standes der Technik ist;
  • 3 ein Blockdiagramm einer Ausführungsform des Syntheseteils einer Mehrkanal-LPAS Sprachcodiereinrichtung des Standes der Technik ist;
  • 4 ein Blockdiagramm einer exemplarischen Ausführungsform des Syntheseteils einer Mehrkanal-LPAS Sprachcodiereinrichtung im Einklang mit der vorliegenden Erfindung ist;
  • 5 ein Flussdiagramm einer exemplarischen Ausführungsform eines mehrteiligen fixierten Codebuchsuchverfahren im Einklang mit der vorliegenden Erfindung ist;
  • 6 ein Flussdiagramm einer weiteren exemplarischen Ausführungsform eines mehrteiligen fixierten Codebuchsuchverfahren im Einklang mit der vorliegenden Erfindung ist;
  • 7 ein Blockdiagramm einer exemplarischen Ausführungsform des Analyseteils einer Mehrkanal-LPAS Sprachcodiereinrichtung im Einklang mit der vorliegenden Erfindung ist.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • In der folgenden Beschreibung werden dieselben Referenzbezeichnungen für äquivalente oder ähnliche Elemente verwendet.
  • Die vorliegende Erfindung wird nun durch das Einführen einer herkömmlichen linear voraussagenden Analyse-durch-Synthese (LPAS) Einkanalsprachcodiereinrichtung beschrieben, und einer allgemeinen linear voraussagenden Analyse-durch-Synthese Mehrkanalsprachcodiereinrichtung, beschrieben in [3].
  • 1 ist ein Blockdiagramm einer herkömmlichen Einkanal-LPAS Sprachcodiereinrichtung. Die Codiereinrichtung umfasst zwei Teile, nämlich einen Syntheseteil und einen Analyseteil (eine entsprechende Decodiereinrichtung wird nur einen Syntheseteil umfassen).
  • Der Syntheseteil umfasst einen LPC Synthesefilter 12, der ein Anregungssignal i(n) empfängt und ein synthetisches Sprachsignal s ^(n) ausgibt. Das Anregungssignal i(n) wird durch das Addieren zweier Signale u(n) und v(n) in einem Addierer gebildet. Das Signal u(n) wird durch das Skalieren eines Signals f(n) aus einem fixierten Codebuch 16 um eine Verstärkung gF in einem Verstärkerelement 20 gebildet. Das Signal v(n) wird durch das Skalieren einer verzögerten (um die Verzögerung "lag") Version des Anregungssignals i(n) aus einem adaptiven Codebuch 14 um eine Verstärkung gA in einem Verstärkerelement 18 gebildet. Das adaptive Codebuch wird durch eine Rückkopplungsschleife gebildet, die ein Verzögerungselement 24 umfasst, das das Anregungssignal i(n) um eine Unterrahmenlänge N verzögert. Daher wird das adaptive Codebuch vergangene Anregungen i(n) enthalten, die in das Codebuch verschoben wurden (die ältesten Anregungen werden aus dem Codebuch heraus geschoben und gelöscht). Die LPC-Synthesefilterparameter werden typischer Weise jede 20–40 ms-Rahmen aktualisiert, während das adaptive Codebuch jede 5–10 ms-Unterrahmen aktualisiert wird.
  • Der Analyseteil der LPAS-Codiereinrichtung führt eine LPC-Analyse des hereinkommenden Sprachsignals s(n) durch und führt eine Anregungsanalyse durch.
  • Die LPC-Analyse wird von einem LPC-Analysefilter 10 durchgeführt. Der Filter empfängt das Sprachsignal s(n) und formt ein parametrisches Modell des Signals auf einer Basis Rahmen um Rahmen. Die Modellparameter werden ausgewählt, um die Energie eines verbleibenden Vektors zu minimieren, der durch die Differenz zwischen einem aktuellen Sprachrahmenvektor und dem entsprechenden Signalvektor, der durch das Modell erzeugt wird, gebildet wird. Die Modellparameter werden durch die Filterkoeffizienten des Analysefilters 10 repräsentiert. Diese Filterkoeffizienten definieren die Transferfunktion A(z) des Filters. Da der Synthesefilter 12 eine Transferfunktion besitzt, die zumindest etwa gleich zu 1/A(z) ist, werden diese Filterkoeffizienten auch den Synthesefilter 12 regeln, wie durch die gestrichelte Regelungslinie angezeigt.
  • Die Anregungsanalyse wird durchgeführt, um die beste Kombination von fixiertem Codebuchvektor (Codebuchindex), Verstärkung gF, des adaptiven Codebuchvektors (lag) und der Verstärkung gA zu bestimmen, die im synthetischen Signalvektor {s ^(n)} enden, der dem Sprachsignalvektor {s(n)} (hier bezeichnet {} eine Sammlung von Beispielen, die einen Vektor oder Rahmen bilden) am besten gleichkommt. Dies wird in einer gründlichen Suche gemacht, die alle möglichen Kombinationen dieser Parameter testet (suboptimale Suchschemata, in denen einige Parameter unabhängig von den anderen Parametern bestimmt werden und während der Suche der übrigen Parameter fest gehalten werden, sind auch möglich). Um zu testen, wie nah ein synthetischer Vektor {s ^(n)} zum entsprechenden Sprachvektor {s(n)} ist, könnte die Energie des Differenzvektors {e(n)} (gebildet in einem Addierer 26) in einem Energierechner 30 berechnet werden. Es ist jedoch effizienter die Energie eines gewichteten Fehlersignalvektors {ew(n)} zu betrachten, in dem die Fehler in einer solchen Weise neu verteilt wurden, dass große Fehler durch große Amplitudenfrequenzbänder ausgeblendet werden. Dies wird im Gewichtungsfilter 28 durchgeführt.
  • Die Modifikation der Einkanal- LPAS Codiereinrichtung der 1 in eine Mehrkanal-LPAS Codiereinrichtung im Einklang mit [3] wird nun mit Bezug auf die Abbildungen 23 beschrieben. Ein Zweikanal-(Stereo) Sprachsignal wird angenommen, jedoch könnten dieselben Prinzipien auch für mehr als zwei Kanäle angewendet werden.
  • 2 ist ein Blockdiagramm einer Ausführungsform des Analyseteils der in [3] beschriebenen Mehrkanal-LPAS Codiereinrichtung. In der 2 ist das Eingangsignal nun ein Mehrkanalsignal, wie durch die Signalkomponenten s1(n), s2(n) angezeigt. Der LPC-Analysefilter 10 in 1 wurde durch einen LPC-Analysefilterblock 10M ersetzt, der eine matrixbewertete Transferfunktion A(z) besitzt. In ähnlicher Weise werden Addierer 26, Gewichtungsfilter 28 und Energierechner 30 durch entsprechende Mehrkanalblöcke 26M, 28M und 30M ersetzt.
  • 3 ist ein Blockdiagramm einer Ausführungsform des Syntheseteils der in [3] beschriebenen Mehrkanal-LPAS Sprachcodiereinrichtung. Eine Mehrkanaldecodiereinrichtung könnte auch von einem solchen Syntheseteil gebildet werden. Hier wurden die LPC-Synthesefilter 12 in 1 durch einen LPC-Synthesefilterblock 12M ersetzt, der eine matrixbewertete Transferfunktion A–1(z) besitzt, die (angezeigt durch die Notation) zumindest annähernd gleich der Umkehrfunktion von A(z) ist. In ähnlicher Weise werden Addierer 22, fixiertes Codebuch 16, Verstärkerelement 20, Verzögerungselement 24, adaptives Codebuch 14 und Verstärkerelement 18 durch entsprechende Mehrkanalblöcke 22M, 16M, 24M, 14M und 18M ersetzt.
  • Ein Problem bei der Mehrkanalcodiereinrichtung nach dem Stand der Technik ist, das sie bezüglich sich verändernder Zwischenkanalkorrelation auf Grund von sich ändernden Mikrofonumgebungen nicht sehr flexibel ist. Z. B., könnten in einigen Situationen mehrere Mikrofone Sprache eines einzigen Sprechers aufnehmen. In einem solchen Fall sind die Signale aus den verschiedenen Mikrofonen wesentlich verzögert und skalierte Versionen (unter der Annahme, dass Echos vernachlässigt werden können) desselben Signals, d. h. Kanäle, sind stark korreliert. In anderen Situationen könnten verschiedene gleichzeitige Sprecher an den individuellen Mikrofonen existieren. In diesem Fall gibt es fast keine Zwischenkanalkorrelation.
  • 4 ist ein Blockdiagramm einer exemplarischen Ausführungsform des Syntheseteils einer Mehrkanal-LPAS Sprachcodiereinrichtung im Einklang mit der vorliegenden Erfindung. Eine wesentliche Eigenschaft der vorliegenden Erfindung ist die Struktur des mehrteiligen fixierten Codebuches. Gemäß der Erfindung umfasst es beide individuellen fixierten Codebücher FC1, FC2 für jeden Kanal und ein gemeinsam benutztes, fixiertes Codebuch FCS. Obwohl das gemeinsam benutzte, fixierte Codebuch FCS, allen Kanälen gemeinsam ist (was bedeutet, dass derselbe Codebuchindex von allen Kanälen benutzt wird), sind die Kanäle mit individuellen Verzögerungen D1, D2 assoziiert, wie in 4 dargestellt. Darüber hinaus sind die individuellen Codebücher FC1, FC2 mit individuellen Verstärkungen gF1, gF2 assoziiert, während die individuellen Verzögerungen D1, D2 (die entweder ganzzahlig oder gebrochen sein können) mit individuellen Verstärkungen gF1, gF2 assoziiert sind. Die Anregung aus jedem individuellen fixierten Codebuch FS1, FS2 wird zu den entsprechenden Anregungen (ein gemeinsamer Codebuchvektor, jedoch individuelle Verzögerungen und Verstärkungen für jeden Kanal) aus dem gemeinsam benutzten, fixierten FCS in einem Addierer AF1, AF2 addiert. Typischer Weise umfassen die fixierten Codebücher algebraische Codebücher, in denen die Anregungsvektoren durch Einheitspulse bebildet werden, die über jeden Vektor im Einklang mit bestimmten Regeln verteilt werden (dies ist nach dem Stand der Technik wohl bekannt, und wird hier nicht mit tieferem Detail beschrieben).
  • Diese mehrteilige fixierte Codebuchstruktur ist sehr flexibel. Z. B., könnten einige Codiereinrichtungen mehr Bits im individuellen fixierten Codebuch verwenden, während andere Codiereinrichtungen mehr Bits im gemeinsam benutzten, fixierten Codebuch verwenden könnten. Darüber hinaus könnte eine Codiereinrichtung die Verteilung von Bits zwischen individuellen und gemeinsam benutzten Codebüchern dynamisch ändern, abhängig von der Zwischenkanalkorrelation. Für einige Signale könnte es sogar zweckmäßig sein, mehr Bits zu einem individuellen Kanal zuzuordnen, als zu den anderen Kanälen (asymmetrische Verteilung von Bits).
  • Obwohl die 4 eine fixierte zweikanalige fixierte Codebuchstruktur darstellt, wird es geschätzt, dass die Konzepte durch Erhöhen der Anzahl von individuellen Codebüchern und der Anzahl von Verzögerungen und Zwischenkanalverstärkungen leicht auf mehr Kanäle verallgemeinert werden.
  • Die gemeinsam benutzten und individuellen Codebücher werden typischer Weise in serieller Reihenfolge durchsucht. Die bevorzugte Reihenfolge ist, zuerst den Anregungsvektor, Verzögerungen und Verstärkungen des gemeinsam benutzten, fixierten Codebuches zu bestimmen. Danach werden die Vektoren und Verstärkungen des individuellen fixierten Codebuches bestimmt.
  • Zwei mehrteilige fixierte Codebuchsuchverfahren werden nun mit Bezug auf die Abbildungen 5 und 6 beschrieben.
  • 5 ist ein Flussdiagramm einer Ausführungsform eines mehrteiligen fixierten Codebuchsuchverfahren im Einklang mit der vorliegenden Erfindung. Schritt S1 bestimmt einen primären oder führenden Kanal, typischer Weise den stärksten Kanal (der Kanal, der die größte Rahmenenergie besitzt). Schritt S2 bestimmt die Querkorrelation zwischen jedem sekundären oder nacheilenden Kanal und dem primären Kanal für ein vorbestimmtes Intervall, z. B. ein Teil eines Rahmens oder einen vollständigen Rahmen. Schritt S3 speichert Verzögerungskandidaten für jeden sekundären Kanal. Diese Verzögerungskandidaten werden durch die Positionen einer Anzahl der höchsten Querkorrelationsspitzen und den nächsten Positionen um jede Spitze herum für jeden sekundären Kanal definiert. Man sollte z. B. die 3 höchsten Spitzen auswählen und dann die nächste Position auf beiden Seiten jeder Spitze addieren, was insgesamt 9 Verzögerungskandidaten ergibt. Wenn Hochauflösungs-(gebrochene) Verzögerungen verwendet werden, könnte die Anzahl von Kandidaten um jede Spitze herum auf z. B. 5 oder 7 erhöht werden. Die höhere Auflösung könnte durch Abtasten des Eingangssignals erreicht werden. Die Verzögerung des primären Kanals könnte in einer einfachen Ausführungsform als Null betrachtet werden. Jedoch könnte, da die Pulse im Codebuch typischer Weise keine willkürliche Positionen haben können, eine bestimmte Codierungsverstärkung durch Zuordnen einer Verzögerung auch für den primären Kanal erzielt werden. Dies ist speziell der Fall, wenn Hochauflösungsverzögerungen verwendet werden. Im Schritt S4 wir ein temporär gemeinsam benutzter, fixierter Codebuchvektor für jede gespeicherte Verzögerungskandidatenkombination gebildet. Schritt S5 wählt die Verzögerungskombination aus, die dem besten temporären Codebuchvektor entspricht. Schritt S6 bestimmt die optimalen Zwischenkanalverstärkungen. Schließlich bestimmt Schritt S7 die kanalspezifischen (nicht gemeinsam benutzten) Anregungen und Verstärkungen.
  • In einer Variation dieses Algorithmus werden alle oder die besten temporären Codebuchvektoren und entsprechenden Verzögerungen und Zwischenkanalverstärkungen festgehalten. Für jede festgehaltene Kombination wird eine kanalspezifische Suche im Einklang mit Schritt S7 durchgeführt. Schließlich wird die beste Kombination der Anregung des gemeinsam benutzten und individuellen fixierten Codebuchs ausgewählt.
  • Um die Komplexität dieses Verfahrens zu reduzieren, ist es möglich den Anregungsvektor des temporären Codebuches auf nur wenige Pulse zu beschränken. Z. B., umfasst das vollständige fixierte Codebuch eines verbesserten Kanals mit voller Übertragungsrate im GSM-System 10 Pulse. In diesem Fall sind 3–5 temporäre Codebuchpulse sinnvoll. Im Allgemeinen wäre 25–50% der Gesamtzahl der Pulse eine sinnvolle Zahl. Wenn die beste Verzögerungskombination ausgewählt wurde, wird das vollständige Codebuch nur auf diese Kombination hin durchsucht (typischer Weise werden die schon positionierten Pulse nicht geändert, nur die übrigen Pulse eines vollständigen Codebuches müssen positioniert werden).
  • 6 ist ein Flussdiagramm einer weiteren Ausführungsform eines mehrteiligen fixierten Codebuchsuchverfahren im Einklang mit der vorliegenden Erfindung. In dieser Ausführungsform sind die Schritte S1, S6 und S7 dieselben wie in der Ausführungsform der 5. Schritt 10 positioniert einen neuen Anregungsvektorpuls in eine optimale Position für jede erlaubte Verzögerungskombination (dieser Schritt wird zum ersten Mal ausgeführt, wenn alle Verzögerungskombinationen erlaubt sind). Schritt S11 testet, ob alle Pulse verbraucht wurden. Wenn nicht, beschränkt Schritt 12 die erlaubten Verzögerungskombinationen auf die besten verbliebenen Kombinationen. Schließlich wählt Schritt 13, wenn alle Pulse verbraucht wurden, die beste verbliebene Verzögerungskombination und ihren entsprechenden, gemeinsam benutzten, fixierten Codebuchvektor aus.
  • Es existieren mehrere Möglichkeiten mit Bezug auf Schritt S12. Eine Möglichkeit ist, nur einen bestimmten Prozentsatz, z. B. 25%, der besten Verzögerungskombinationen in jeder Iteration festzuhalten. Jedoch ist es möglich, um zu vermeiden, dass dabei nur eine Kombination übrig bleibt, bevor alle Pulse verbraucht wurden, abzusichern, dass zumindest eine bestimmte Anzahl von Kombinationen nach jeder Iteration übrig bleibt. Eine Möglichkeit ist, sicherzustellen, dass zumindest immer so viele Kombinationen übrig bleiben, wie Pulse übrig sind, plus eine. Auf diese Weise gibt es immer mehrere Kandidatenkombinationen zur Auswahl in jeder Iteration.
  • Für die fixierten Codebuchverstärkungen fordert jeder Kanal eine Verstärkung für das gemeinsam benutzte, fixierte Codebuch und eine für das individuelle Codebuch an. Diese Verstärkungen werden typischer Weise signifikante Korrelationen zwischen den Kanälen besitzen. Sie werden auch mit den Verstärkungen des adaptiven Codebuches korreliert sein. Daher werden Zwischenkanalvoraussagen dieser Verstärkungen möglich sein, und Vektorquantelung könnte verwendet werden, um diese zu codieren.
  • Rückkehrend zur 4, umfasst das adaptive Codebuch ein adaptives Codebuch AC1, AC2 für jeden Kanal. Ein adaptives Codebuch kann auf verschieden Weise in einer Mehrkanalcodiereinrichtung konfiguriert werden.
  • Eine Möglichkeit ist, allen Kanälen zu erlauben, eine gemeinsame Abstandsverzögerung gemeinsam zu benutzen. Die ist durchführbar, wenn es eine starke Zwischenkanalkorrelation gibt. Sogar wenn die Abstandsverzögerung gemeinsam benutzt wird, könnten die Kanäle immer noch getrennte Abstandsverstärkungen gA11–gA22 besitzen. Die gemeinsam benutzte Abstandsverzögerung wird in Form eines geschlossenen Kreislaufs gleichzeitig in allen Kanälen gesucht.
  • Eine weitere Möglichkeit ist, jedem Kanal zu erlauben, eine individuelle Abstandsverzögerung zu haben. Dies ist durchführbar, wenn es eine schwache Zwischenkanalkorrelation gibt (die Kanäle sind unabhängig). Die Abstandsverzögerungen könnten differentiell oder absolut codiert werden.
  • Eine weitere Möglichkeit ist, die Anregungshistorie in einer Querkanalweise zu verwenden. Z. B., könnte der Kanal 2 aus der Anregungshistorie des Kanals 1 bei der Zwischenkanalverzögerung P12 vorausgesagt werden. Dies ist durchführbar, wenn eine starke Zwischenkanalkorrelation existiert.
  • Wie im Falle mit dem fixierten Codebuch, ist die beschriebene adaptive Codebuchstruktur sehr flexibel und zur Mehrfachmodusarbeitsweise geeignet. Die Auswahl, gemeinsam zu benutzende oder individuelle Abstandsverzögerungen zu verwenden, könnte auf der Restsignalenergie basiert werden. In einem ersten Schritt wird die Restenergie der optimalen, gemeinsam benutzten Abstandsverzögerung bestimmt. In einem zweiten Schritt wird die Restenergie der optimalen individuellen Abstandsverzögerungen bestimmt. Wenn die Restenergie des gemeinsam benutzten Abstandsverzögerungsfalles die Restenergie des individuellen Abstandsverzögerungsfalles um eine vorbestimmte Menge übertrifft, werden individuelle Abstandsverzögerungen verwendet. Andererseits wird eine gemeinsam benutzte Abstandsverzögerung verwendet. Falls gewünscht, könnte ein gleitender Durchschnitt der Energiedifferenz verwendet werden, um die Entscheidung zu schlichten.
  • Diese Strategie könnte als eine "geschlossene Kreislauf"-Strategie betrachtet werden, um zwischen gemeinsam benutzten und individuellen Abstandsverzögerungen zu entscheiden. Eine weitere Möglichkeit ist eine "offene Kreislauf"-Strategie, die z. B. auf der Zwischenkanalkorrelation basiert. In diesem Fall wird eine gemeinsam benutzte Abstandsverzögerung verwendet, wenn die Zwischenkanalkorrelation einen vorbestimmten Grenzwert überschreitet. Andererseits werden individuelle Abstandsverzögerungen verwendet.
  • Ähnliche Strategien könnten verwendet werden, um zu entscheiden, Zwischenkanalabstandsverzögerungen zu verwenden oder nicht zu verwenden.
  • Darüber hinaus muss eine signifikante Korrelation zwischen den adaptiven Codebuchverstärkungen der verschiedenen Kanäle erwartet werden. Diese Verstärkungen könnten aus der internen Verstärkungshistorie des Kanals, aus Verstärkungen im selben Rahmen, jedoch anderen Kanälen gehörenden, und auch aus fixierten Codebuchverstärkungen vorausgesagt werden. Wie im Falle des fixierten Codebuches ist auch Vektorquantelung möglich.
  • Im LPC-Synthesefilterblock 12M in der 4 verwendet jeder Kanal einen individuellen LPC-(linear voraussagende Codiereinrichtung) Filter. Die Filter könnten unabhängig auf dieselbe Weise wie im Einkanalfall abgeleitet werden. Jedoch könnten einige oder alle Kanäle auch denselben LPC-Filter verwenden. Dies erlaubt z. B. spektrale Abstände zwischen LPC-Spektren zum Umschalten zwischen mehrfachen und einfachen Filtermodi, abhängig von Signaleigenschaften.
  • 7 ist ein Blockdiagramm einer exemplarischen Ausführungsform des Analyseteils einer Mehrkanal-LPAS Sprachcodiereinrichtung im Einklang mit der vorliegenden Erfindung. Zusätzlich zu den schon mit Bezug auf die Abbildungen 1 und 2 beschriebenen Blöcken, enthält der Analyseteil in 7 einen Mehrfachmodusanalyseblock 40. Der Block 40 bestimmt die Zwischenkanalkorrelation, um festzulegen, ob genügend Korrelation zwischen den Kanälen existiert, um das Codieren unter Verwendung nur des gemeinsam benutzten, fixierten Codebuches FCS, der Verzögerungen D1, D2 und der Verstärkungen gFS1, gFS2. Falls nicht, wird es notwendig, die individuellen fixierten Codebücher FC1, FC2 und Verstärkungen gF1, gF2 zu verwenden. Die Korrelation könnte durch die gewöhnliche Korrelation in der Zeitdomäne bestimmt werden, d. h., durch Verschieben der sekundären Kanalsignale mit Bezug auf das primäre Signal, bis eine beste Übereinstimmung erreicht wird. Falls es mehr als zwei Kanäle gibt, wird ein gemeinsam benutztes, fixiertes Codebuch verwendet, wenn der kleinste Korrelationswert einen vorbestimmten Grenzwert überschreitet. Eine weitere Möglichkeit ist es, ein gemeinsam benutztes, fixiertes Codebuch für die Kanäle zu verwenden, die eine Korrelation zum primären Kanal besitzen, die einen vorbestimmten Grenzwert überschreitet, und individuelle fixierte Codebücher für die übrigen Kanäle. Der exakte Grenzwert könnte durch Hörtests bestimmt werden.
  • In einer Codiereinrichtung mit niedriger Bitrate könnte das fixierte Codebuch nur ein gemeinsam benutztes Codebuch FCS und entsprechende Verzögerungselemente D1, D2 und Zwischenkanalverstärkungen gFS1, gFS2 umfassen. Diese Ausführungsform ist äquivalent zu einem Zwischenkanalkorrelationsgrenzwert gleich Null.
  • Der Analyseteil könnte auch einen relativen Energierechner 42 umfassen, der Skalenfaktoren e1, e2 für jeden Kanal bestimmt. Diese Skalenfaktoren könnten bestimmt werden, gemäß:
    Figure 00140001
    wobei Ei die Energie des Rahmens i ist. Unter Verwendung dieser Skalenfaktoren könnte die gewichtete Restenergie R1, R2 für jeden Kanal im Einklang mit der relativen Stärke des Kanals neu skaliert werden, wie in 7 gezeigt. Das Neuskalieren der Restenergie für jeden Kanal besitzt den Effekt des Optimierens für den relativen Fehler in jedem Kanal, anstelle des Optimierens für den absoluten Fehler in jedem Kanal. Das Neuskalieren von Mehrkanalfehlern könnte in allen Schritten verwendet werden (Ableiten von LPC-Filtern, adaptiven und fixierten Codebüchern).
  • Die Skalenfaktoren könnten auch gewöhnlichere Funktionen der relativen Kanalstärke ei sein, z. B.
    Figure 00150001
    wobei α eine Konstante im he Intervall 4–7 ist, z. B., α ≈ 5. Die exakte Form der Skalierfunktion könnte durch subjektive Hörtests ermittelt werden.
  • Die Funktionalität der verschiedenen Elemente der beschriebenen Ausführungsformen der vorliegenden Erfindung wird typischer Weise mit einem oder mehreren Mikroprozessoren oder Mikro/Signalprozessorkombinationen und entsprechender Software implementiert.
  • Die obige Beschreibung wurde primär auf eine Codiereinrichtung gerichtet. Die entsprechende Decodiereinrichtung würde nur den Syntheseteil einer solchen Codiereinrichtung umfassen. Typischer Weise wird eine Codier/Decodiereinrichtung in einem Anschluss verwendet, der codierte Signale über einen bandbreitenlimitierten Kommunikationskanal sendet/empfängt. Der Anschluss könnte ein Funkgerät in einem zellularen Telefon oder in einer Basisstation sein. Solch ein Anschluss würde auch verschiedene andere Elemente umfassen, wie eine Antenne, einen Verstärker, eine Entzerrungseinrichtung, Kanalcodier/Decodiereinrichtung, etc. Jedoch sind diese Elemente nicht für die Beschreibung der vorliegenden Erfindung wesentlich und wurden daher weggelassen.
  • Es wird für die Fachleute klar sein, dass verschiedene Variationen und Änderungen der vorliegenden Erfindung gemacht werden könnten, ohne von ihrem Geltungsbereich abzuweichen, der durch die beigefügten Ansprüche definiert wird.
  • REFERENZEN
    • [1] A. Gersho, "Advances in Speech and Audio Compression – Fortschritte in der Sprach- und Audiokompression", Proc. of the IEEE, Vol. 82, No. 6, pp 900–918, June 1994.
    • [2] A. S. Spanias, "Speech Coding: A Tutorial Rewiew – Sprachcodierung ein Anleitungsrückblick", Proc. of the IEEE, Vol 82, No. 10, pp 1541–1582, Oct. 1994.
    • [3] WO 00/19413 (Telefonaktiebolaget LM Ericsson).

Claims (18)

  1. Eine linear voraussagende Analyse-durch-Synthese Mehrkanal-Signalcodiereinrichtung, einschließlich eines mehrteiligen fixierten Codebuches, enthaltend ein individuelles fixiertes Codebuch (FC1, FC2) für jeden Kanal; ein gemeinsam benutztes fixiertes Codebuch (FCS), Codebuchvektoren enthaltend, die allen Kanälen gemeinsam sind; und Mittel (40) zum Analysieren von Zwischenkanalkorrelation und zum dynamischen Ändern, abhängig von der aktuellen Zwischenkanalkorrelation, des Codierens der Bitzuordnung zwischen den individuellen fixierten Codebüchern und dem geteilten fixierten Codebuch.
  2. Die Codiereinrichtung des Anspruchs 1, darin gekennzeichnet, dass das gemeinsam benutzte fixierte Codebuch mit einem individuellen Verzögerungselement (D1, D2) für jeden Kanal verbunden ist.
  3. Die Codiereinrichtung des Anspruchs 2, darin gekennzeichnet, dass die individuellen Verzögerungselemente (D1, D2) Hochauflösungselemente sind.
  4. Die Codiereinrichtung der Ansprüche 2 oder 3, darin gekennzeichnet, dass jedes Verzögerungselement (D1, D2) mit einem entsprechenden Verstärkungselement (gFS1, gFS2) verbunden ist.
  5. Die Codiereinrichtung des Anspruchs 1, gekennzeichnet durch ein mehrteiliges Codebuch, ein individuelles adaptives Codebuch (AC1, AC2) und eine individuelle Abstandsverzögerung (P11, P22) für jeden Kanal besitzend.
  6. Die Codiereinrichtung des Anspruchs 5, gekennzeichnet durch Mittel zum Feststellen, ob eine gemeinsame Abstandsverzögerung von allen Kanälen gemeinsam benutzt werden kann.
  7. Die Codiereinrichtung des Anspruchs 5, gekennzeichnet durch Zwischenkanalabstandsverzögerungen (P12, P21) zwischen jedem Kanal und den anderen Kanälen.
  8. Die Codiereinrichtung des Anspruchs 1, gekennzeichnet durch Mittel (42), um die Restenergie jedes Kanals im Einklang mit der relativen Kanalstärke maßstäblich zu ändern.
  9. Ein Anschluss, eine linear voraussagende Analyse-durch-Synthese Sprachcodiereinrichtung gemäß Anspruch 1 enthaltend.
  10. Der Anschluss des Anspruchs 9, darin gekennzeichnet, dass das gemeinsam benutzte fixierte Codebuch für jeden Kanal mit einem individuellen Verzögerungselement (D1, D2) verbunden ist.
  11. Der Anschluss des Anspruchs 10, darin gekennzeichnet, dass die individuellen Verzögerungselemente (D1, D2) Hochauflösungselemente sind.
  12. Der Anschluss der Ansprüche 10 oder 11, darin gekennzeichnet, dass jedes Verzögerungselement (D1, D2) mit einem entsprechenden Verstärkungselement (gFS1, gFS2) verbunden ist.
  13. Der Anschluss des Anspruchs 9, gekennzeichnet durch ein mehrteiliges adaptives Codebuch, ein individuelles adaptives Codebuch (AC1, AC2) und eine individuelle Abstandsverzögerung (P11, P22) für jeden Kanal enthaltend.
  14. Der Anschluss des Anspruchs 13, gekennzeichnet durch Mittel zum Feststellen, ob eine gemeinsame Abstandsverzögerung von allen Kanälen gemeinsam benutzt werden kann.
  15. Der Anschluss des Anspruchs 13, gekennzeichnet durch Zwischenkanalabstandsverzögerungen (P12, P21) zwischen jedem Kanal und den anderen Kanälen.
  16. Der Anschluss jedes der vorhergehenden Ansprüche 9–15, darin gekennzeichnet, dass der Anschluss ein Funkanschluss ist.
  17. Ein linear voraussagendes Analyse-durch-Synthese Mehrkanal-Signalcodiereinrichtungsverfahren, die Schritte enthaltend: das Analysieren von Zwischenkanalkorrelation; und das dynamische Ändern, abhängig von der aktuellen Zwischenkanalkorrelation, des Codierens der Bitzuordnung zwischen fixierten Codebüchern, die individuellen Kanälen zugeordnet sind und einem gemeinsam benutzten fixierten Codebuch, Codebuchvektoren enthaltend, die allen Kanälen gemeinsam sind.
  18. Ein linear voraussagendes Analyse-durch-Synthese Mehrkanal-Signalcodiereinrichtungsverfahren, gekennzeichnet durch: das Festlegen einer gewünschten Gesamtbitrate; das Analysieren von Zwischenkanalkorrelation; und das dynamische Ändern, abhängig von der aktuellen Zwischenkanalkorrelation und der gewünschten Gesamtbitrate, des Codierens der Bitzuordnung zwischen fixierten Codebüchern, die individuellen Kanälen zugeordnet sind und einem gemeinsam benutzten fixierten Codebuch, Codebuchvektoren enthaltend, die allen Kanälen gemeinsam sind.
DE60131009T 2000-09-15 2001-08-29 Mehrkanal-signalcodierung Expired - Lifetime DE60131009T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE0003284A SE519976C2 (sv) 2000-09-15 2000-09-15 Kodning och avkodning av signaler från flera kanaler
SE0003284 2000-09-15
PCT/SE2001/001828 WO2002023527A1 (en) 2000-09-15 2001-08-29 Multi-channel signal encoding and decoding

Publications (2)

Publication Number Publication Date
DE60131009D1 DE60131009D1 (de) 2007-11-29
DE60131009T2 true DE60131009T2 (de) 2008-07-17

Family

ID=20281031

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60131009T Expired - Lifetime DE60131009T2 (de) 2000-09-15 2001-08-29 Mehrkanal-signalcodierung

Country Status (10)

Country Link
US (1) US7346110B2 (de)
EP (1) EP1327240B1 (de)
JP (1) JP4812230B2 (de)
CN (1) CN1216365C (de)
AT (1) ATE376239T1 (de)
AU (2) AU2001282801B2 (de)
DE (1) DE60131009T2 (de)
ES (1) ES2291340T3 (de)
SE (1) SE519976C2 (de)
WO (1) WO2002023527A1 (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2368761B (en) * 2000-10-30 2003-07-16 Motorola Inc Speech codec and methods for generating a vector codebook and encoding/decoding speech signals
KR100651712B1 (ko) * 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
CN101027718A (zh) * 2004-09-28 2007-08-29 松下电器产业株式会社 可扩展性编码装置以及可扩展性编码方法
JP4887282B2 (ja) * 2005-02-10 2012-02-29 パナソニック株式会社 音声符号化におけるパルス割当方法
US8000967B2 (en) * 2005-03-09 2011-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Low-complexity code excited linear prediction encoding
ES2623551T3 (es) * 2005-03-25 2017-07-11 Iii Holdings 12, Llc Dispositivo de codificación de sonido y procedimiento de codificación de sonido
WO2006129615A1 (ja) 2005-05-31 2006-12-07 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
KR101398836B1 (ko) * 2007-08-02 2014-05-26 삼성전자주식회사 스피치 코덱들의 고정 코드북들을 공통 모듈로 구현하는방법 및 장치
EP2396637A1 (de) * 2009-02-13 2011-12-21 Nokia Corp. Umgebungscodierung und decodierung für audioanwendungen
EP2375409A1 (de) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierer, Audiodecodierer und zugehörige Verfahren zur Verarbeitung von Mehrkanal-Audiosignalen mithilfe einer komplexen Vorhersage
US9978379B2 (en) * 2011-01-05 2018-05-22 Nokia Technologies Oy Multi-channel encoding and/or decoding using non-negative tensor factorization
US9449607B2 (en) * 2012-01-06 2016-09-20 Qualcomm Incorporated Systems and methods for detecting overflow
PL3011555T3 (pl) 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
SG11201510463WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
US20150025894A1 (en) * 2013-07-16 2015-01-22 Electronics And Telecommunications Research Institute Method for encoding and decoding of multi channel audio signal, encoder and decoder
KR102636396B1 (ko) * 2015-09-25 2024-02-15 보이세지 코포레이션 스테레오 사운드 신호를 1차 및 2차 채널로 시간 영역 다운 믹싱하기 위해 좌측 및 우측 채널들간의 장기 상관 차이를 이용하는 방법 및 시스템
US20210027794A1 (en) * 2015-09-25 2021-01-28 Voiceage Corporation Method and system for decoding left and right channels of a stereo sound signal
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8913758D0 (en) * 1989-06-15 1989-08-02 British Telecomm Polyphonic coding
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JP3435674B2 (ja) * 1994-05-06 2003-08-11 日本電信電話株式会社 信号の符号化方法と復号方法及びそれを使った符号器及び復号器
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
SE506379C3 (sv) * 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US6081781A (en) * 1996-09-11 2000-06-27 Nippon Telegragh And Telephone Corporation Method and apparatus for speech synthesis and program recorded medium
GB2326572A (en) * 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
WO1999016036A1 (en) * 1997-09-24 1999-04-01 Eldridge Martin E Position-responsive, hierarchically-selectable information presentation system and control program
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler

Also Published As

Publication number Publication date
CN1216365C (zh) 2005-08-24
JP2004509365A (ja) 2004-03-25
SE519976C2 (sv) 2003-05-06
DE60131009D1 (de) 2007-11-29
EP1327240B1 (de) 2007-10-17
WO2002023527A1 (en) 2002-03-21
SE0003284L (sv) 2002-03-16
AU8280101A (en) 2002-03-26
ATE376239T1 (de) 2007-11-15
JP4812230B2 (ja) 2011-11-09
EP1327240A1 (de) 2003-07-16
SE0003284D0 (sv) 2000-09-15
US20040044524A1 (en) 2004-03-04
CN1455917A (zh) 2003-11-12
US7346110B2 (en) 2008-03-18
AU2001282801B2 (en) 2007-06-07
ES2291340T3 (es) 2008-03-01

Similar Documents

Publication Publication Date Title
DE60131009T2 (de) Mehrkanal-signalcodierung
DE60128711T2 (de) Mehrkanal-signalcodierung und -decodierung
DE60127566T2 (de) Mehrkanal-signalcodierung und -decodierung
DE60024123T2 (de) Lpc-harmonischer sprachkodierer mit überrahmenformat
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE19604273C5 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE69814517T2 (de) Sprachkodierung
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE60206390T2 (de) Effiziente und skalierbare parametrische stereocodierung für anwendungen mit niedriger bitrate
DE69633633T2 (de) Mehrkanaliger prädiktiver subband-kodierer mit adaptiver, psychoakustischer bitzuweisung
DE69932460T2 (de) Sprachkodierer/dekodierer
DE60120766T2 (de) Indizieren von impulspositionen und vorzeichen in algebraischen codebüchern zur codierung von breitbandsignalen
DE60012860T2 (de) Verfahren zur Verarbeitung mehrerer digitaler Audiodatenströme
DE69531464T2 (de) Kodiergerät
DE60029147T2 (de) Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk
DE602004004219T2 (de) Multiratenkodierung
DE69911723T2 (de) Automatische Sprach/Sprecher-Erkennung über digitale drahtlose Kanäle
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE69932861T2 (de) Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
DE19811039A1 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
AU2001282801A1 (en) Multi-channel signal encoding and decoding
DE4217276C1 (de)
DE60101827T2 (de) Relative Pulsposition für einen CELP-Sprachkodierer
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder

Legal Events

Date Code Title Description
8364 No opposition during term of opposition