DE60118627T2 - Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen - Google Patents

Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen Download PDF

Info

Publication number
DE60118627T2
DE60118627T2 DE60118627T DE60118627T DE60118627T2 DE 60118627 T2 DE60118627 T2 DE 60118627T2 DE 60118627 T DE60118627 T DE 60118627T DE 60118627 T DE60118627 T DE 60118627T DE 60118627 T2 DE60118627 T2 DE 60118627T2
Authority
DE
Germany
Prior art keywords
band
speech
khz
die
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60118627T
Other languages
English (en)
Other versions
DE60118627D1 (de
Inventor
Alan V 75248 McCree
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Application granted granted Critical
Publication of DE60118627D1 publication Critical patent/DE60118627D1/de
Publication of DE60118627T2 publication Critical patent/DE60118627T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Description

  • TECHNISCHES GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf elektronische Vorrichtungen und insbesondere auf Sprachcodierungsverfahren, Sprachübertragungsverfahren, Sprachspeicherungsverfahren und Sprachdecodierungs-/Sprachsyntheseverfahren und -systeme.
  • HINTERGRUND DER ERFINDUNG
  • Die Leistung digitaler Sprachsysteme, die niedrige Bitraten verwenden, wird bei der momentanen und absehbaren digitalen Kommunikation zunehmend wichtig. Sowohl die Übertragung mit dediziertem Kanal als auch die Paket-über-Netz-Übertragung (VoIP-Übertragung) nutzen die Komprimierung von Sprachsignalen. Das umfassend verwendete digitale Sprachcodierungs-Komprimierungsverfahren der linearen Prädiktion (LP) modelliert das Stimmsystem als ein zeitlich veränderliches Filter und als eine zeitlich veränderliche Erregung des Filters, um die menschliche Sprache nachzuahmen. Die lineare Prädiktionsanalyse bestimmt die LP-Koeffizienten a(j), j = 1, 2, ..., M, für einen Eingangsrahmen digitaler Sprachabtastwerte {s(n)} durch die Einstellung r(n) = s(n) – ΣM≥j≥1a(j)s(n – j) (1)und durch die Minimierung von Σr(n)2. M, die Ordnung des linearen Prädiktionsfilters, wird typisch als etwa 10-12 gewählt; die Abtastrate zum Bilden der Abtastwerte s(n) wird typisch als etwa 8 kHz (die gleiche wie die Abtastung des öffentlichen Fernsprechwählnetzes (PSTN) für digitale Übertragung) gewählt; und die Anzahl der Abtastwerte {s(n)} in einem Rahmen ist häufig 80 oder 160 (10- oder 20-ms-Rahmen). Auf die Abtastwerte des Eingangssprachrahmens können verschiedene Fensteroperationen angewendet werden. Der Name "lineare Prädiktion" entsteht aus der Interpretation von r(n) = s(n) – ΣM≥j≥1a(j)s(n – j) als den Fehler bei der Prädiktion von s(n) durch die lineare Kombination der vorangegangenen Sprachabtastwerte ΣM≥j≥1a(j)s(n – j). Somit liefert Minimieren von Σr(n)2 diejenigen {a(j)}, die die beste lineare Prädiktion liefern. Die Koeffizienten {a(j)} können zur Quantisierung und Übertragung oder Speicherung in lineare Spektralfrequenzen (LFS) umgesetzt werden.
  • Die {r(n)} bilden das LP-Residuum für den Rahmen, wobei das LP-Residuum ideal die Erregung für das Synthesefilter 1/A(z) wäre, wobei A(z) die Übertragungsfunktion von Gleichung (1) ist. Natürlich ist das LP-Residuum in dem Decodierer nicht verfügbar; somit ist es die Aufgabe des Codierers, den LP-Rest so darzustellen, dass der Decodierer aus den codierten Parametern eine LP-Erregung erzeugen kann. Physiologisch hat die Erregung für stimmhafte Rahmen annähernd die Form einer Reihe von Impulsen mit der Tonhöhenfrequenz, während die Erregung für stimmlose Rahmen annähernd die Form von weißem Rauschen hat.
  • Grundsätzlich sendet/speichert der LP-Komprimierungszugang lediglich Aktualisierungen für die (quantisierten) Filterkoeffizienten, das (quantisierte) Residuum (die Signalform oder Parameter wie etwa die Tonhöhe) und den (quantisierten) Gewinn. Ein Empfänger regeneriert die Sprache mit den gleichen Wahrnehmungscharakteristiken wie die Eingangssprache. 9 zeigt die Blöcke in einem LP-System. Die periodische Aktualisierung der quantisierten Elemente erfordert weniger Bits als die direkte Darstellung des Sprachsignals, so dass ein sinnvoller LP-Codierer mit Bitraten so niedrig wie 2-3 kB/s (Kilobits pro Sekunde) arbeiten kann.
  • Tatsächlich verwendet die ITU-Norm G.729, Anhang E, mit einer Bitrate von 11,8 kB/s eine LP-Analyse mit Codebuch-Erregung (CELP) zur Komprimierung von Sprachbandsprache, wobei sie eine Leistung besitzt, die mit den für die digitale PSTN-Übertragung verwendeten 64 kB/s PCM vergleichbar ist.
  • Allerdings erfüllt selbst die Qualität der Norm der G.729, Anhang E, nicht die Anforderung für hochwertige Sprachsysteme, wobei verschiedene Vorschläge die Codierung ohne zu große Zunahme der Übertragungsbitrate auf Breitbandsprache (z. B. 0-7 kHz) erweitern.
  • Der direkte Zugang der Anwendung der LP-Codierung auf das volle 0-8-kHz-Breitband erhöht die Bitrate zu sehr oder verschlechtert die Qualität. Ein alternativer Zugang extrapoliert einfach von dem (codierten) 0-4-kHz-Tiefband, um ein 4-8-kHz-Hochbandsignal zu erzeugen; siehe Chan u. a., Quality Enhancment of Narrowband CELP-Coded Speech via Wideband Harmonic Re-Synthesis, IEEE ICASSP 1997, S. 1187-1190. Ein weiterer Zugang verwendet durch getrennte Codierung eines 4-8-kHz-Hochbandes von dem 0-4-kHz-Tiefband und mit weniger dem Hochband zugeordneten Bits Splitband-CELP oder -MPLPC; siehe Drogo de Jacovo u. a., Some Experiments of 7 kHz Audio Coding at 16 kBit/s, IEEE ICASSP 1989, S. 192-195. Ähnlich schafft Tucker, Low Bit-Rate Frequency Extension Coding, IEE Colloquium on Audio and Music Technology 1998, S. 3/1-3/5, eine Standardcodierung der 0-4 kHz des Tiefbands, während er die 4-8 kHz-Hochbandsprache nur für stimmlose Rahmen (wie es in dem Tiefband bestimmt wird) codiert und ein LP-Filter der Ordnung 2-4 mit Rauscherregung verwendet. Das Dokument "Low Delay Subband CELP Coding for Wideband Speech", Tian u. a., 1996 IEEE TENCON, S. 189-194, offenbart die Verwendung eines einzigen Index für den gewählten Quantisierungscodevektor. Allerdings werden die Codevektoren für den Tiefbandabschnitt und für den Hochbandabschnitt durch getrennte Teile in dem Codevektor dargestellt.
  • Allerdings leiden diese Lösungsansätze entweder an einer zu hohen Bitrate oder an einer zu niedrigen Qualität.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung schafft ein Verfahren zum Codieren von Breitbandsprache, das umfasst: (a) Partitionieren eines Rahmens digitaler Sprache in ein Tiefband und ein Hochband; (b) Verringern der Abtastrate sowohl des Tiefbandes als auch des Hochbandes; (c) Codieren des verringerten Tiefbandes des Schrittes (b) unter Einschluss eines ersten Quantisierungsverfahrens; (d) Umkehren des Spektrums eines Grundbandbildes des verringerten Hochbandes des Schrittes (b); und (e) Codieren der Ergebnisse des Schrittes (d) unter Einschluss des ersten Quantisierungsverfahrens.
  • Gemäß dem zweiten Aspekt wird ein Verfahren zum Decodieren von Breitbandsprache geschaffen, das umfasst: (a) Decodieren eines ersten Abschnitts eines Eingangssignals als ein Sprachsignal des Tiefbandes einschließlich der Verwendung eines ersten Codebuchs; (b) Decodieren eines zweiten Abschnitts eines Eingangssignals als ein Sprachsignal des Hochbandes einschließlich der Verwendung des ersten Codebuchs; und (c) Kombinieren der Ergebnisse der vorangehenden Schritte (a) und (b), um ein decodiertes Breitbandsprachsignal zu bilden.
  • Gemäß dem dritten Aspekt wird ein Codierer für Breitbandsprache geschaffen, mit: (a) einem Tiefbandfilter und einem Hochbandfilter für digitale Sprache; (b) einem ersten Codierer mit einem Eingang von dem Tiefbandfilter, wobei der erste Codierer einen ersten Quantisierer verwendet; (c) einem zweiten Codierer mit einem Eingang von dem Hochbandfilter, wobei der zweite Codierer den ersten Quantisierer verwendet; und (d) einem Kombinierer für den ersten Codierer und den zweiten Codierer, um codierte Breitbandsprache auszugeben.
  • Gemäß dem vierten Aspekt wird ein Decodierer für Breitbandsprache geschaffen, mit: (a) einem ersten Sprachdecodierer mit einem Eingang für codierte Schmalbandsprache und einem LP-Codebuch; (b) einem zweiten Sprachdecodierer mit einem Eingang für codierte Hochbandsprache, wobei der zweite Decodierer das LP-Codebuch verwendet.
  • Dies besitzt Vorteile einschließlich der Erfassung der Qualität der Breitbandsprache bei niedrigen Bitraten und der Einbettung der Sprachbandcodierung in die Breitbandcodierung, um eine Decodierungsbitratenwahl zu ermöglichen.
  • KURZBESCHREIBUNG DER ZEICHNUNG
  • Es werden nun bevorzugte und beispielhafte Ausführungsformen der vorliegenden Erfindung ausführlicher lediglich beispielhaft mit Bezug auf die Figuren der beigefügten Zeichnung beschrieben, in der:
  • 1a-1c erste bevorzugte Ausführungsformen zeigen.
  • 2a-2b Frequenzbereichsrahmen veranschaulichen.
  • 3a-3b eine Filterung zeigen.
  • 4a-4b Blockschaltbilder des G.729-Codierers und -Decodierers sind.
  • 5 die Spektralumkehrung zeigt.
  • 6-7 der hohe Abschnitt eines Tiefbandes für einen stimmhaften Rahmen und die Einhüllende sind.
  • 8-9 Blockschaltbilder der Systeme sind.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • 1. Übersicht
  • Die Systeme der bevorzugten Ausführungsform enthalten Codierer und Decodierer der bevorzugten Ausführungsform, die einen Breitbandsprachrahmen als die Summe eines Tiefbandsignals und eines Hochbandsignals verarbeiten, in denen das Tiefbandsignal eine selbstständige Sprachcodierung/-decodierung besitzt, während das Hochbandsignal eine Codierung/Decodierung besitzt, die Informationen von dem Tiefbandsignal enthält, um eine Rauscherregung zu modulieren. Dies ermöglicht eine minimale Anzahl von Bits zum ausreichenden Codieren des Hochbandes und liefert einen eingebetteten Codierer.
  • 2. Systeme der ersten bevorzugten Ausführungsform
  • 1a zeigt im Funktionsblockformat ein System der ersten bevorzugten Ausführungsform zur Breitbandsprachcodierung, -übertragung (-speicherung) und -decodierung, das Codierer und Decodierer der ersten bevorzugten Ausführungsform enthält. Die Codierer und Decodierer verwenden eine CELP-Tiefbandcodierung und -decodierung sowie eine Hochbandcodierung und -decodierung, die Informationen von dem (decodierten) Tiefband zur Modulation einer Rauscherregung mit LP-Codierung enthält.
  • Wie in 1b veranschaulicht ist, gehen die Codierer der ersten bevorzugten Ausführungsform wie folgt vor. Das Halbbandfilter filtert die 0-8 kHz-Breitbandsprache (16 kHz Abtastrate) in ein 0-4-kHz-Tiefbandsignal und in ein 4-8-kHz-Hochbandsignal und verringert die ursprüngliche Abtastrate von 16 kHz sowohl für das Tiefband als auch für das Hochband um einen Faktor 2, um zwei Grundbandsignale jeweils mit einer Abtastrate von 8 kHz zu erzeugen. (Es wird angemerkt, dass das Grundband des verringerten Hochbandes ein umgekehrtes Spektrum hat, da das Grundband ein rückgefaltetes Bild ist; siehe 3b.) Nachfolgend wird das erste Grundbandsignal (verringerte Grundbandsignal) mit einem (Standard-)Schmalband-Sprachcodierer codiert. Zum Beispiel verwendet die 8 kB/s-ITU-Norm G.729 18 Bits für quantisierte LP-Koeffizienten (drei Codebücher) pro 10-ms-Rahmen (80-Abtastwerte-Rahmen), 14 Bits für die Tonhöhenverzögerung (adaptives Codebuch), 34 Bits für die verzögerte Erregungsdifferenz (festes Codebuch) und 14 Bits für Gewinne. Die 4a-4b zeigen Blockschaltpläne des Codierers und des Decodierers. G.729, Anhang E, liefert bei einer höheren Bitrate (11,8 kB/s) eine höhere Qualität.
  • Daraufhin wird das Spektrum des zweiten Grundbandes (verringertes Hochbandbild) wie in 5 umgekehrt und das Signal mit LP-Filterkoeffizienten und Rauscherregungsgewinn für eine (modulierte) Rauscherregung codiert. Einige der ersten bevorzugten Ausführungsformen verwenden eine tonhöhenmodulierte Rauscherregung, die aus dem Tiefband durch Multiplizieren des Rauschens mit dem 2,8-3,8-kHz-Teilband (der Einhüllenden des 2,8-3,8-kHz-Teilbands) des ersten Grundbandsignals abgeleitet wird. In diesem Fall ersetzt der Gewinn mit normierter (durch die 2,8-3,8-kHz-Teilbandenergie dividierter) Erregung den Erregungsgewinn in dem Code.
  • Schließlich werden die Tiefband- und Hochbandcodes zu einem einzigen Bitstrom kombiniert, der den Tiefbandcode als einen eingebetteten Teilstrom besitzt. Die folgenden Abschnitte geben ausführlichere Beschreibungen.
  • Die Decodierung kehrt unter Verwendung von Informationen von dem decodierten Tiefband den Codierungsprozess durch Trennen des Hochband- und des Tiefbandcodes, um das Hochband decodieren zu helfen, und durch Addieren der decodierten Hochbandsprache zu der decodierten Tiefbandsprache zum Synthetisieren der Breitbandsprache um. Siehe 1c. Dieser Splitbandzugang ermöglicht, dass die meisten Codebits dem Tiefband zugewiesen werden; z. B. kann das Tiefband 11,8 kB/s verbrauchen, während das Hochband für insgesamt 14 kB/s 2,2 kB/s addieren kann.
  • Die Unabhängigkeit des Tiefbandcodes von irgendwelchen Hochbandinformationen ermöglicht, dass die Schmalbandcodiererbits in den Gesamtcodiererbitstrom eingebettet werden und durch einen Decodierer mit niedrigerer Bitrate zur getrennten Decodierung entnommen werden können. Außerdem stellt dieser Splitbandzugang sicher, dass ein schmalbandiges analoges Eingangssignal wie etwa von einer herkömmlichen Telephonleitung (bandbreitenbegrenzt auf 3,4 kHz) mit der Breitbandcodierung der bevorzugten Ausführungsform weiter gut codiert werden kann.
  • 3. Codierereinzelheiten
  • Die 2a-2b veranschaulichen die typischen Größen von stimmhafter bzw. stimmloser Sprache in Abhängigkeit von der Frequenz über den Bereich von 0-8 kHz. Wie 2a zeigt, liegt die Masse der Energie in der stimmhaften Sprache in dem 0-3-kHz-Band. Ferner erscheint die Tonhöhenstruktur (die Grundfrequenz ist in 2a etwa 125 Hz) deutlich in dem Bereich von 0-3,5 kHz und bleibt bei höheren Frequenzen (wenn auch verwürfelt) bestehen. Allerdings ist die kritische Wahrnehmungsbandbreite bei höheren Frequenzen etwa 10 % einer Bandmittenfrequenz, so dass die einzelnen Tonhöhenharmonischen ununterscheidbar werden und zur Aufnahme in einen Hochbandcode weniger Bits erfordern sollten.
  • Im Gegensatz dazu zeigt 2b Energiespitzen sprachloser Sprache im 3,5-6,5-kHz-Band. Allerdings enthält das genaue Wesen dieses Hochbandsignals wenig Wahrnehmungsinformationen.
  • Folglich sollte das höhere Band (über 4 kHz) weniger Bits als das tiefere Band (0-4 kHz) zur Codierung erfordern. Wie in den folgenden Abschnitten beschrieben wird, liegt dies den Verfahren der bevorzugten Ausführungsform zum Partitionieren von Breitbandsprache (0-8 kHz-Sprache) in ein Tiefband (0-4 kHz) und in ein Hochband (4-8 kHz) zugrunde, die erkennen, dass das Tiefband durch irgendeinen zweckmäßigen Schmalbandcodierer codiert werden kann, während das Hochband mit einer verhältnismäßig kleinen Anzahl von Bits getrennt codiert werden kann.
  • 1b veranschaulicht den Ablauf eines Sprachcodierers der ersten bevorzugten Ausführugsform, der mit 14 kB/s mit den folgenden Schritten codiert.
    • (1) Taste ein Eingangs-Breitbandsprachsignal (das auf 8 kHz bandbreitenbegrenzt ist) mit 16 kHz ab, um eine Folge von Breitbandabtastwerten wb(n) zu erhalten. Partitioniere den digitalen Strom in 160-Abtastwert-Rahmen (10-ms-Rahmen).
    • (2) Tiefpassfiltere wb(n) mit einem Durchlassbereich von 0-4 kHz, um ein Tiefbandsignal lb(n) zu liefern, und hochpassfiltere (später) außerdem wb(n) mit einem Durchlassbereich von 4-8 kHz, um ein Hochbandsignal hb(n) zu liefern; dies ist gerade die Halbbandfilterung. Da sowohl lb(n) als auch hb(n) Bandbreiten von 4 kHz haben, kann die Abtastrate von 16 kHz sowohl von lb(n) als auch von hb(n) ohne Informationsverlust um einen Faktor 2 auf eine Abtastrate von 8 kHz verringert werden. Somit bezeichne lbd(m) die Grundbandversion (0-4-kHz-Ver sion) von lb(n) nach Verringerung der Abtastrate um einen Faktor 2 und bezeichne ähnlich hbdr(m) die Grundbandversion (0-4-kHz-Version) von hb(n) nach Verringerung der Abtastrate um einen Faktor 2. Die 3a-3b veranschaulichen die Bildung von lbd(m) bzw. hbdr(m) in dem Frequenzbereich für einen stimmhaften Rahmen; es wird angemerkt, dass π auf der Frequenzskale einer Hälfte der Abtastrate entspricht. Die Verringerung um 2 erzeugt spektral umgekehrte Bilder, wobei das Grundband hbdr(m) im Vergleich zu hb(n) umgekehrt ist. Natürlich entspricht lbd(m) der herkömmlichen 8-kHz-Abtastung von Sprache zur Digitalisierung analoger Sprachband-(0,3-3,4-kHz-)Telephonsignale.
    • (3) Codiere lbd(m) mit einem Schmalbandcodierer, z. B. mit dem 11,8-kB/s-Codierer der ITU-Norm G.729, Anhang E, der sehr hohe Sprachqualität sowie verhältnismäßig gute Leistung für Musiksignale liefert. Dieser Codierer kann 80-Abtastwert-Rahmen (10-ms-Rahmen mit einer Abtastrate von 8 kHz) verwenden, die 160-Abtastwert-Rahmen (10-ms-Rahmen mit einer Abtastrate von 16 kHz) von wb(n) entsprechen. Dieser Codierer verwendet die lineare Prädiktionscodierung (LP-Codierung) sowohl mit Vorwärts- als auch mit Rückwärtsbetriebsart und codiert einen Vorwärtsbetriebsartrahmen mit 18 Bits für Codebuch-quantisierte LP-Koeffizienten, mit 14 Bits für Codebuch-quantisierten Gewinn (7 Bits in jedem der zwei Teilrahmen), mit 70 Bits für Codebuch-quantisierte Erregung mit Differenz zwischen maximaler und minimaler Frequenzlaufzeit (35 Bits in jedem Teilrahmen) und mit 16 Bits für Codebuch-quantisierte Tonhöhenverzögerung und Betriebsartangabe für insgesamt 118 Bits für einen 10-ms-Rahmen. Abgesehen davon, dass stattdessen die 18 LP-Koeffizientenbits verwendet werden, um die Erregungscodebuchbits auf 88 zu erhöhen, ist ein Rückwärtsbetriebsartrahmen ähnlich.
    • (4) Bereite unter Verwendung von lbd(m) wie folgt eine Tonhöhenmodulationssignalform vor, die ähnlich der ist, die von dem Hochbanddecodierer verwendet wird. Wende zunächst ein 2,8-3,8-kHz-Bandfilter auf das Grundbandsignal lbd(m) an, um seinen hohen Abschnitt lbdh(m) zu liefern. Bilde daraufhin den Absolutwert |lbdh(m)|; ein ähnliches Signal wie dieses wird von dem Decodierer als ein Multiplizierer eines Signals des weißen Rauschens als die Erregung für das Hochband verwendet. Der Decodiererschritt (5) in dem folgenden Abschnitt liefert weitere Einzelheiten.
    • (5) Hochpassfiltere wb(n) mit einem Durchlassbereich von 4-8 kHz, um ein Hochbandsignal hb(n) zu liefern, wenn das nicht zuvor in Schritt (2) ausgeführt worden ist, und verringere daraufhin die Abtastrate um 2, um hbdr(m) zu liefern. Diese Hochbandverarbeitung kann auf die Tiefbandverarbeitung (die vorstehenden Schritte (2)-(4)) folgen, um die Speicheranforderungen eines digitalen Signalverarbeitungssystems zu verringern.
    • (6) Wende eine LP-Analyse auf hbdr(m) an und bestimme für ein Filter der Ordnung M = 10 die (Hochband)-LP-Koeffizienten aHB(j) und schätze die Energie des Residuums rHB(m). Die Energie von rHB skaliert die tonhöhenmodulierte Erregung des weißen Rauschens des Filters für die Synthese.
    • (7) Kehre die Vorzeichen abwechselnder Hochband-LP-Koeffzienten um: Dies ist gleichwertig dem Umkehren des Spektrums von hbdr(m) in hbd(m) und dadurch dem Verlagern des Abschnitts höherer Energie stimmhafter Rahmen in die niedrigeren Frequenzen, wie es in 5 veranschaulicht ist. Die Energie in den niedrigeren Frequenzen ermöglicht die effektive Verwendung der gleichen LP-Codebuchquantisierung, die von dem Schmalbandcodierer für lbd(m) verwendet wird. Insbesondere stimmhafte Rahmen haben eine Tiefpasscharakteristik, wobei sich die Codebuch-Quantisierungseffizienz für LSFs auf diese Charakteristik stützt: G.729 verwendet die Splitvektorquantisierung von LSFs mit mehr Bits für die unteren Koeffizienten. Bestimme somit die LSFs aus den (umgekehrten) LP-Koeffizienten ±aHB(j) und quantisiere mit dem Quantisierungsverfahren des Schmalbandcodierers für lbd(m) in Schritt (4). Kehre alternativ zuerst durch Modulieren mit einer 4-kHz-Rechteckschwingung das Spektrum von hbdr(m) um, um hbd(m) zu liefern, und führe daraufhin die LP-Analyse und die LSF-Quantisierung aus. Beide Zugänge liefern die gleichen Ergebnisse.
    • (8) Die Erregung für die Hochbandsynthese wird durch einen Schätzwert von |lbdh(m)| skaliert rauschmoduliert (multipliziert), wobei die Skalierung so eingestellt wird, dass die Erregungsenergie gleich der Energie des Hochbandresiduums rHB(m) ist. Normiere somit das Residuumsenergieniveau durch Division der Energie des Hochbandresiduums durch die Energie von |lbdh(m)|, die in Schritt (4) bestimmt worden ist. Quantisiere schließlich diese normierte Energie des Hochbandresiduums anstelle der (nicht normierten) Energie des Hochbandresiduums, die für die Erregung verwendet würde, wenn die Tonhöhenmodulation weggelassen wird. Das heißt, die Verwendung der Tonhöhenmodulation für die Hochbanderregung erfordert keine Zunahme der Codierungsbits, da der Decodierer die Tonhöhenmodulation aus dem decodierten Tiefbandsignal ableitet, wobei die Energie des Hochbandresiduums unabhängig davon, ob die Normierung angewendet worden ist, die gleiche Anzahl von Codierungsbits annimmt.
    • (9) Kombiniere die Ausgangsbits der Grundband-lbd(m)-Codierung aus Schritt (4) und die Ausgangsbits der hbd(m)-Codierung aus den Schritten (7-8) zu einem einzigen Bitstrom.
  • Es wird angemerkt, dass alle quantisierten Elemente typisch Differenzwerte sind, da die Werte des vorausgehenden Rahmens typisch als Prädiktoren verwendet werden und nur die Differenzen zwischen den tatsächlichen und den vorausgesagten Werten codiert werden.
  • 4. Decodierereinzelheiten
  • Ein Decodierungsverfahren der ersten bevorzugten Ausführungsform kehrt im Wesentlichen die Codierungsschritte für einen durch das Verfahren der ersten bevorzugten Ausführungsform codierten Bitstrom um. Insbesondere gilt für einen codierten Rahmen in dem Bitstrom:
    • (1) Entnimm die Tiefbandcodebits aus dem Bitstrom und decodiere (unter Verwendung des G.729-Decodierers) zum Synthetisieren von Tiefbandsprache lbd'(m) einen Schätzwert von lbd(m).
    • (2) Bandfiltere (2,8-3,8-kHz-Band) lbd'(m), um lbdh';(m) zu liefern, und berechne wie bei der Codierung den Absolutwert |lbdh'(m)|.
    • (3) Entnimm die Hochbandcodebits, decodiere die (aus hbd(m) abgeleiteten) quantisierten Hochband-LP-Koeffizienten und das quantisierte normierte Erregungsenergieniveau (Skalenfaktor). Kehre die Frequenz der LP-Koeffizienten um (abwechselnde Vorzeichenumkehrungen), um die Filterkoeffizienten für einen Schätzwert von hbdr(m) zu haben.
    • (4) Erzeuge weißes Rauschen und skaliere durch den Skalenfaktor. Der Skalenfaktor kann (unter Verwendung des Skalenfaktors des angrenzenden Rahmens) jeden 20-Abtastwert-Teilrahmen interpoliert werden, um einen glatteren Skalenfaktor zu liefern.
    • (5) Moduliere (multipliziere) das skalierte weiße Rauschen aus (4) durch die (mit der) Signalform |lbdh'(m)| aus (2), um die Hochbanderregung zu bilden. 6 veranschaulicht ein beispielhaftes lbdh'(m) für einen stimmhaften Rahmen. Im Fall stimmloser Sprache würde die Periodizität allgemein fehlen und lbdh'(m) gleichförmiger sein und die Erregung des weißen Rauschens nicht wesentlich modulieren.
  • Die Periodizität von lbdh'(m) widerspiegelt annähernd die spurenhafte Periodizität, die in dem Hochbandabschnitt aus 2a sichtbar ist und in 2b fehlt. Diese Tonhöhenmodulation kompensiert eine wahrgenommene Verrauschtheit von Sprache, die aus einer reinen Rauscherregung für hbd(m) in stark stimmhaften Rahmen synthetisiert worden ist. Der Schätzwert verwendet die Periodizität in dem 2,8-3,8-kHz-Band von lbd'(m), da stark stimmhafte Rahmen mit einer gewissen Periodizität in dem Hochband dazu neigen, eine Periodizität in den oberen Frequenzen des Tiefbandes zu haben.
    • (6) Synthetisiere unter Verwendung der frequenzumgekehrten Hochband-LP-Koeffizienten aus (3) zusammen mit dem modulierten skalierten Rauschen aus (5) als die Erregung das Hochbandsignal hbdr'(m). Um Schaltartefakte zu verringern, können die LP-Koeffizienten alle 20 Abtastwerte in dem LSP-Bereich interpoliert werden.
    • (7) Aufwärtsabtaste (Interpolation um 2) das synthetisierte (decodierte) Tiefbandsignal lbd'(m) auf eine Abtastrate von 16 kHz und tiefpassfiltere (0-4 kHz-Band), um lb'(n) zu bilden. Es wird angemerkt, dass die Interpolation um 2 ein spektral umgekehrtes Bild von lbd'(m) in dem 4-8-kHz-Band bildet und dass die Tiefpassfilterung dieses Bild entfernt.
    • (8) Aufwärtsabtaste (Interpolation um 2) das synthetisierte (decodierte) Hochbandsignal hbdr'(m) auf eine Abtastrate von 16 kHz und hochpassfiltere (4-8-kHz-Band), um hb'(n) zu bilden, was das Spektrum zurück zu dem Original umkehrt. Das Hochpassfilter entfernt das 0-4-kHz-Bild.
    • (9) Addiere die zwei aufwärts abgetasteten Signale, um das synthetisierte (decodierte) Breitbandsprachsignal zu bilden: wb'(n) = lb'(n) + hb'(n).
  • 5. Bevorzugte Ausführungsformen des Systems
  • Die 8-9 zeigen in Funktionsblockform Systeme der bevorzugten Ausführungsform, die die Codierung und Decodierung der bevorzugten Ausführungsform verwenden. Die Codierung und Decodierung können mit digitalen Signalprozessoren (DSPs) oder mit programmierbaren Universalprozessoren oder mit einer anwendungsspezifischen Schaltungsanordnung oder anwendungsspezifischen Systemen auf einem Chip wie etwa sowohl mit einem DSP- als auch mit einem RISC-Prozessor auf dem gleichen Chip, wobei der RISC-Prozessor steuert, ausgeführt werden. Die Codebücher werden sowohl im Codierer als auch im Decodierer im Speicher gespeichert und ein im chipintegrierten ROM oder im externen Flash-EEPROM für einen DSP oder programmierbaren Prozessor gespeichertes Programm könnte die Signalverarbeitung ausführen. Analog/Digital-Umsetzer und Digital/Analog-Umsetzer liefern eine Kopplung zur echten Welt und Modulatoren und Demodulatoren (sowie Antennen für Luftschnittstellen) liefern eine Kopplung für Übertragungssignalformen. Die codierte Sprache kann paketiert und über Netze wie etwa das Internet übertragen werden.
  • 6. Zweite bevorzugte Ausführungsformen
  • Die Codierer und Decodierer der zweiten bevorzugten Ausführungsform folgen den Codierern und Decodierern der ersten bevorzugten Ausführungsform und partitionieren die abgetastete Eingabe in ein Tiefband und in ein Hochband, abwärtsabtasten und wenden auf das Tiefband einen Schmalbandcodierer an. Allerdings ändern die zweiten bevorzugten Ausführungsformen die Decodierung des Hochbandes mit moduliertem rauscherregtem LP, indem sie die Modulation eher von der Einhüllenden von lbdh(m) als von ihrem Absolutwert ableiten. Insbesondere ist die Einhüllende en(m) von lbdh(m) durch Tiefpassfilterung (0-1-kHz-Filterung) des Absolutwerts |lbdh(m)| sowie Sperrfilterung zum Entfernen von Gleichspannung zu ermitteln. 7 veranschaulicht en(m) für die stimmhafte Sprache aus 6 im Zeitbereich.
  • 7. Abwandlungen
  • Die bevorzugten Ausführungsformen können auf verschiedene Weise abgewandelt werden, während die Merkmale der getrennten Codierung eines Tiefbandes von einem Breitbandsignal und die Verwendung von Informationen von dem Tiefband, um das Hochband (den Rest des Breitbands) codieren zu helfen, und/oder der Verwendung der Spektrumumkehr zur verringerten Hochband-LP-Koeffizientenquantisierung, um eine Effizienz zu erhalten, die der für die Tiefband-LP-Koeffizientenquantisierung vergleichbar ist, erhalten bleiben.
  • Zum Beispiel könnte der obere Abschnitt (2,8-3,8-kHz-Abschnitt) des Tiefbandes (0-4 kHz) durch einen anderen Abschnitt bzw. durch andere Abschnitte des Tiefbandes zur Verwendung als eine Modulation für die Hochbanderregung ersetzt werden.
  • Ferner kann das Breitband in ein Tiefband und in zwei oder mehr Hochbänder partitioniert werden; könnte der Tiefbandcodierer ein parametrischer oder sogar ein Nicht-LP-Codierer sein und könnte ein Hochbandcodierer ein Signalformcodierer sein; usw. Der Umfang der Erfindung ist hierbei lediglich durch die beigefügten Ansprüche beschränkt.

Claims (4)

  1. Verfahren zum Codieren von Breitbandsprache, das umfasst: (a) Partitionieren eines Rahmens digitaler Sprache in ein Tiefband und ein Hochband; (b) Verringern der Abtastrate sowohl des Tiefbandes als auch des Hochbandes; (c) Codieren des verringerten Tiefbandes des Schrittes (b) unter Einschluss eines ersten Quantisierungsverfahrens; (d) Umkehren des Spektrums eines Grundbandbildes des verringerten Hochbandes des Schrittes (b); und (e) Codieren der Ergebnisse des Schrittes (d) unter Einschluss des ersten Quantisierungsverfahrens.
  2. Verfahren zum Decodieren von Breitbandsprache, das umfasst: (a) Decodieren eines ersten Abschnitts eines Eingangssignals als ein Sprachsignal des Tiefbandes einschließlich der Verwendung eines ersten Codebuchs; (b) Decodieren eines zweiten Abschnitts eines Eingangssignals als ein Sprachsignal des Hochbandes einschließlich der Verwendung des ersten Codebuchs; und (c) Kombinieren der Ergebnisse der vorangehenden Schritte (a) und (b), um ein decodiertes Breitbandsprachsignal zu bilden.
  3. Codierer für Breitbandsprache, mit: (a) einem Tiefbandfilter und einem Hochbandfilter für digitale Sprache; (b) einem ersten Codierer mit einem Eingang von dem Tiefbandfilter, wobei der erste Codierer einen ersten Quantisierer verwendet; (c) einem zweiten Codierer mit einem Eingang von dem Hochbandfilter, wobei der zweite Codierer den ersten Quantisierer verwendet; und (d) einem Kombinierer für den ersten Codierer und den zweiten Codierer, um codierte Breitbandsprache auszugeben.
  4. Decodierer für Breitbandsprache, mit: (a) einem ersten Sprachdecodierer mit einem Eingang für codierte Schmalbandsprache und einem LP-Codebuch; (b) einem zweiten Sprachdecodierer mit einem Eingang für codierte Hochbandsprache, wobei der zweite Decodierer das LP-Codebuch verwendet.
DE60118627T 2000-05-22 2001-05-22 Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen Expired - Lifetime DE60118627T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US20615600P 2000-05-22 2000-05-22
US206156P 2000-05-22

Publications (2)

Publication Number Publication Date
DE60118627D1 DE60118627D1 (de) 2006-05-18
DE60118627T2 true DE60118627T2 (de) 2007-01-11

Family

ID=22765216

Family Applications (2)

Application Number Title Priority Date Filing Date
DE60118627T Expired - Lifetime DE60118627T2 (de) 2000-05-22 2001-05-22 Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen
DE60102975T Expired - Lifetime DE60102975T2 (de) 2000-05-22 2001-05-22 Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE60102975T Expired - Lifetime DE60102975T2 (de) 2000-05-22 2001-05-22 Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen

Country Status (4)

Country Link
EP (1) EP1158495B1 (de)
JP (1) JP2001337700A (de)
AT (1) ATE265732T1 (de)
DE (2) DE60118627T2 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004085604A (ja) * 2002-08-22 2004-03-18 Alpine Electronics Inc デジタルオーディオ信号伝送方法及びオーディオシステム
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
EP1785984A4 (de) * 2004-08-31 2008-08-06 Matsushita Electric Ind Co Ltd Audiocodierungsvorrichtung, audiodecodierungsvorrichtung, kommunikationsvorrichtung und audiocodierungsverfahren
BRPI0515453A (pt) 2004-09-17 2008-07-22 Matsushita Electric Ind Co Ltd aparelho de codificação escalável, aparelho de decodificação escalável, método de codificação escalável método de decodificação escalável, aparelho de terminal de comunicação, e aparelho de estação de base
KR20070061818A (ko) 2004-09-17 2007-06-14 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치, 음성 복호 장치, 통신 장치 및 음성부호화 방법
KR100721537B1 (ko) 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
KR100707174B1 (ko) 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
SG161223A1 (en) 2005-04-01 2010-05-27 Qualcomm Inc Method and apparatus for vector quantizing of a spectral envelope representation
ES2705589T3 (es) 2005-04-22 2019-03-26 Qualcomm Inc Sistemas, procedimientos y aparatos para el suavizado del factor de ganancia
BRPI0619258A2 (pt) * 2005-11-30 2011-09-27 Matsushita Electric Ind Co Ltd aparelho de codificação de sub-banda e método de codificação de sub-banda
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8301281B2 (en) 2006-12-25 2012-10-30 Kyushu Institute Of Technology High-frequency signal interpolation apparatus and high-frequency signal interpolation method
CA2815249C (en) * 2010-10-25 2018-04-24 Voiceage Corporation Coding generic audio signals at low bitrates and low delay

Also Published As

Publication number Publication date
ATE265732T1 (de) 2004-05-15
DE60118627D1 (de) 2006-05-18
EP1158495A2 (de) 2001-11-28
EP1158495A3 (de) 2002-01-30
EP1158495B1 (de) 2004-04-28
DE60102975D1 (de) 2004-06-03
JP2001337700A (ja) 2001-12-07
DE60102975T2 (de) 2005-05-12

Similar Documents

Publication Publication Date Title
DE60011051T2 (de) Celp-transkodierung
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE69615839T2 (de) Sprachkodierer
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69132885T2 (de) CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal
DE60216214T2 (de) Verfahren zur Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE60110679T2 (de) Wahrnehmungs-Codierung von Audiosignalen unter Verwendung von getrennter Irrelevanzreduktion und Redundanzreduktion
DE69133458T2 (de) Verfahren zur Sprachquantisierung und Fehlerkorrektur
DE69618422T2 (de) Verfahren zur Sprachdekodierung und tragbares Endgerät
DE69529393T2 (de) Verfahren zur gewichteten Geräuschfilterung
DE69900786T2 (de) Sprachkodierung
DE60012760T2 (de) Multimodaler sprachkodierer
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
US7136810B2 (en) Wideband speech coding system and method
US20020007280A1 (en) Wideband speech coding system and method
DE60038279T2 (de) Beitband Sprachkodierung mit parametrischer Kodierung des Hochfrequenzanteils
DE69923079T2 (de) Kodierung von stimmlosen sprachsegmenten mit niedriger datenrate

Legal Events

Date Code Title Description
8364 No opposition during term of opposition