DE60038279T2

DE60038279T2 - Beitband Sprachkodierung mit parametrischer Kodierung des Hochfrequenzanteils

Info

Publication number: DE60038279T2
Application number: DE60038279T
Authority: DE
Inventors: Erdal Richardson Parsoy; V Alan Dallas McCree
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1999-12-21
Filing date: 2000-12-13
Publication date: 2009-03-12
Anticipated expiration: 2020-12-14
Also published as: US20020072899A1; EP1111589B1; ATE389227T1; DE60038279D1; US7260523B2; JP2001215999A; EP1111589A1

Description

Gebiet der Erfindung
Diese Erfindung bezieht sich auf einen Sprachcodierer, der auf einer Codierung mit code-erregter linearer Prädiktion (CELP) basiert, und insbesondere auf einen Unterband-Sprachcodierer.
Hintergrund der Erfindung
Die Kompression von Sprachsignalen ist ein grundlegender Teil digitaler Kommunikationssysteme. In einem herkömmlichen Telephonnetz ist das Sprachsignal ein Schmalbandsignal, das auf 4 kHz bandlimitiert ist. Viele der neu entstehenden Anwendungen erfordern keine Begrenzung der Sprachsignalbandbreite. Folglich werden Breitbandsignale mit einer Signalbandbreite von 50 bis 7000 Hz, die zu einer als höher wahrgenommenen Qualität führt, schnell für neue Anwendungen, wie etwa das Voice-over-Internet-Protokoll oder drahtlose Dienste der dritten Generation, interessanter. Folglich wird die digitale Codierung von Breitbandsprachsignalen zunehmend wichtig.
Die code-erregte lineare Prädiktion (CELP) ist eine allgemein bekannte Klasse von Sprachcodierungs-Algorithmen für Schmalbandsprachsignale mit guter Leistungsfähigkeit bei niedrigen bis mittleren Bitraten (4 bis 16 kb/s). Siehe den Artikel von B. S. Atal und M. Schroeder mit dem Titel "Stochastic Coding of Speech Signals at Very Low Bit Rates", IEEE International conference an Acoustics, Speech and Signal Processing, Mai 1984. Für Breitbandsprachsignale kann mit einem gewissen Erfolg der gleiche Algorithmus über die gesamte Eingangsbandbreite verwendet werden. Alternativ kann das Eingangssignal in zwei oder mehr Unterbänder unterteilt werden, die unabhängig codiert werden. Bei diesen Unterband-Codierern wird das Signal dezimiert, codiert und wieder einem Upsampling unterzogen. In herkömmlichen Unterband-Codierern wird das Signal einem kritischen Subsampling unterzogen. Einige Anti-Aliasing-Filter mit Bändern mit einem von null verschiedenen Übergang, die in praktischen Anwendungen verwendet werden, führen zwischen den Bändern einen gewissen Verlust ein, der zuweilen hörbare Aliasing-Verzerrungen hervorruft. Quadraturspiegel-Filter (QMF), bei denen das Aliasing während der Neusynthese beseitigt wird, können im Fall einer Unterteilung in gleichen Unterbänder verwendet werden. Im allge meinen Fall ungleicher Unterbänder führt ein kritisches Subsampling ein Aliasing ein.
In T. Nomura u. a., "A Bitrate and Bandwidth Scalable CELP Coder", IEEE ICASSP 1998, 12.-15. Mai 1998, ist ein CELP-Sprachcodierer mit Bitraten- und Bandbreiten-Skalierbarkeiten offenbart. Der Codierer beruht auf einer mehrfachimpuls-basierten CELP-Codierung und besteht aus einem bitraten-skalierbaren Basisband-Codierer und einem Hilfsmittel zur Bandbreitenerweiterung. Der Codierer verwendet eine einfache Abtastratenveränderung um einen Faktor 2, was Unterbändern mit gleicher Größe entspricht.
Zusammenfassung der Erfindung
Gemäß der vorliegenden Erfindung werden ein Breitband-Codierer, ein Codierungssystem und ein Codierungsverfahren nach den Ansprüchen 1, 10 und 23 geschaffen, wobei die Bandbreite in Unterbänder unterteilt ist, die ungleich sein können. Das niedrigere Unterband wird dezimiert und unter Verwendung eines CELP-Codierers codiert. Ein höheres Unterband wird nicht dezimiert, sondern wird über den gesamten Frequenzbereich berechnet und bandpassgefiltert, um das niedrigere Band zu komplementieren. Ferner werden ein Decodierersystem und ein Decodierungsverfahren nach den Ansprüchen 16 und 24 zum Verarbeiten der codierten Signale geschaffen.
Weitere Aspekte und Ausführungsformen der vorliegenden Erfindung sind in den beigefügten Ansprüchen dargelegt.
Beschreibung der Zeichnungen
Die vorliegende Erfindung wird nun beispielhaft mit Bezug auf die beispielhaften Ausführungsformen weiter beschrieben, die in den beigefügten Zeichnungen veranschaulicht sind, in der:
1 ein Blockschaltplan des Codierungssystems in Übereinstimmung mit einer beispielhaften Ausführungsform der vorliegenden Erfindung ist;
2 ein Blockschaltplan eines Zufallsrauschen-Generator-Decodierers ist;
3 ein Blockschaltplan eines mit dem Verstärkungsfaktor erregten LPC-Decodierers ist;
4 ein Blockschaltplan eines an den Verstärkungsfaktor angepassten Synthese-Decodierers ist; und
5 ein Blockschaltplan eines Impulserregungs-Decodierers ist.
Beschreibung der bevorzugten Ausführungsform der vorliegenden Erfindung
In 1 ist ein Unterband-Codierersystem in Übereinstimmung mit einer beispielhaften Ausführungsform der vorliegenden Erfindung veranschaulicht. CELP-Codierer arbeiten mit Segmenten mit unveränderter Länge der aufgerufenen Eingangsrahmen. Der Codierer umfasst ein Codierer/Decodierer-Paar. Der Decodierer verarbeitet jeden Rahmen von Sprachsignalen durch Berechnen eines Satzes von Parametern, die er codiert und zu einem Decodierer sendet. Der Decodierer empfängt diese Informationen und synthetisiert eine Approximation dieses Eingangssprachsignals, die als codiertes Sprachsignal bezeichnet wird.
Das Eingangssprachsignal wird in einem A/D-(Analog-zu-digital-)Umsetzer 11 mit einer Abtastfrequenz fs (beispielsweise 16 kHz) abgetastet und hat eine Signalbandbreite von fs/2 (8 kHz). Zu Zwecken der Codierung wird diese Bandbreite in zwei ggf. ungleiche Unterbänder unterteilt. Als Beispiel wird ein Breitband-Sprachcodierer betrachtet, der bei 16 kHz mit einer brauchbaren Signalbandbreite von 50 bis 7000 Hz arbeitet. Eine sinnvolle Niedrigband-Bandbreite kann 0 bis 5,33 kHz betragen (veranschaulicht in 2), die erhalten wird durch Upsampling mit 2 (nfs) im Upsampler 13 (32 kHz), Tiefpassfilterung mit einem Tiefpassfilter 15 mit einem Übergangsband zwischen beispielsweise 5 und 5,33 kHz sowie Dezimierung durch 3 (nfs/m) im Downsampler 17, was zu einem abgetasteten Niedrigbandsignal mit 10,67 kHz führt. Das dezimierte Signal (mit 10,67 kHz) im niedrigeren Band wird mit Hilfe eines CELP-Codierers 18 codiert. Die Niedrigband-Parameter aus dem LPC-Codierer umfassen Koeffizienten der linearen Prädiktion (LPC), die ein zeitlich veränderliches Gesamtpol-Filter (LPC-Filter) und Erregungsparameter spezifizieren. Die Erregungsparameter spezifizieren eine Zeitbereichssignalform, die als Erregungssignal bezeichnet wird und adaptive sowie unveränderte Erregungsbeiträge und entsprechende Verstär kungsfaktoren (Verstärkung, LPC, adaptiven Codebuch-Index und unveränderten Codebuch-Index) umfasst.
Das Hochbandsignal wird aus dem ursprünglichen Signal einfach durch dessen Bandpass- oder Hochpassfilterung erhalten, bevor es in einen Hochband-Codierer 20 eingegeben wird. Eine geeignete Bandbreite kann zwischen fs₁ und fs₂, wie etwa 5,33 kHz und 7 kHz, liegen. Der 16-kHz-Eingang wird beispielsweise zwischen 5,33 kHz und 7 kHz bandpassgefiltert, um das Hochbandsignal zu erhalten. Das Übergangsband dieses Filters muss zwischen 5 und 5,33 kHz liegen und so konzipiert sein, dass es das Niedrigband-Tiefpassfilter komplementieren kann. Der bandpassgefilterte Ausgang wird in einem Hochband-Codierer 20 codiert. Es gibt mehrere mögliche Arten, den Hochband-Erregungscodierer 20 zu erzeugen, wie etwa Zufallsrauschen, rausch-erregte LPC, an den Verstärkungsfaktor angepasste Analyse durch Synthese, Mehrfachimpulscodierung oder eine Kombination hiervon.
Das codierte Signal wird über ein Übertragungsmedium wie etwa ein Kabel- oder ein drahtloses Netz zum Decodierer gesendet. Im Decodierer wird das Niedrigband-Erregungssignal mit der Niedrigbandrate von 10,67 kHz (2fs/3) rekonstruiert und in den CELP-Decodierer (LPC-Synthesefilter) 21 eingegeben. Der Ausgang des CELP-Decodierer 21 wird im Upsampler 23 einem Upsampling (um 3) zu 2fs (32 kHz) unterzogen und im Filter 25 bei 5,33 kHz tiefpassgefiltert sowie durch den Downsampler 26 bei 16 kHz zu fs dezimiert (um 2 dezimiert), um das niedrigband-codierte Signal zu erzeugen. Das Hochbandsignal mit fs (16 kHz) wird im Hochbandpass-Decodierer 27 mit der ursprünglichen Abtastrate erzeugt und im Bandpassfilter 29 bandpassgefiltert, um das hochband-codierte Signal mit fs (16 kHz) zu erhalten. Das 16-kHz-Signal wird zwischen 5,33 kHz und 8 kHz bandpassgefiltert, um das Hochbandsignal zu erhalten. Der Übergang dieses Filters liegt zwischen 5 und 5,33 kHz und ist so konzipiert, dass er das Niedrigband-Tiefpassfilter komplementieren kann. Die Hochband- und die Niedrigbandbeiträge werden im Addierer 30 addiert, um das codierte Sprachsignal zu erhalten.
Wie oben besprochen, gibt es mehrere Verfahren für die Hochband-Erregungscodierung.
Das einfachste Modell ist ein mit dem Verstärkungsfaktor skalierter Zufallsrauschen-Generator, wie er in 2 veranschaulicht ist. In diesem Fall stellen die Bits einen quantifizierten Wert des Verstärkungsfaktors dar und werden für einen Skalierfaktor verwendet. Der Ausgang des Zufallsrauschen-Generators 31 wird im Multiplizierer 32 mit diesem Skalierfaktor multipliziert und im Filter 35 bandpassgefiltert, um das Hochbandsignal zu approximieren. Eine zweite Hochband-Decodierung ist in 3 veranschaulicht, wobei das resultierende Signal – nach dem Rauschen-Generator 37 und dem Verstärkungsfaktor-Multiplizierer 38, der durch den Verstärkungsfaktor-Wert aus einer von den Eingangsbits aufgerufenen Nachschlagetabelle gesteuert wird – durch ein LPC-Synthesefilter 39 geführt wird, das von den Eingangsbits gesteuert wird (und sich von dem unterscheidet, das im Niedrigband verwendet wird). Die Ordnung dieses Filters und die Größe des LPC-Synthesefilter-Codebuchs können gering sein. Der Zweck ist es, auf das Hochbandrauschen eine Frequenzformung anzuwenden. Der Ausgang wird durch das Bandpassfilter 40 gefiltert.
Bei der an den Verstärkungsfaktor angepassten Analyse durch Synthese wird der Zufallsrauschen-Generator durch ein Codebuch 41 ersetzt, das zulässige Erregungsvektoren enthält, auf die von den Eingangsbits zugriffen wird. Der Erregungsvektor, der den Fehler zwischen dem synthetischen Signal und dem Eingang minimiert, wird unter der Einschränkung ausgewählt, dass der Ausgangs-Verstärkungsfaktor mit dem Eingangs-Verstärkungsfaktor übereinstimmt. Die ausgewählten Vektoren werden im Multiplizierer 43 durch Eingangsbits skaliert oder mit dem Verstärkungsfaktor gesteuert, und der resultierende Ausgang wird durch ein LPC-Synthesefilter 45 geführt, das durch die Eingangsbits gesteuert wird. Der Ausgang des LPC-Synthesefilters 45 wird in ein Bandpassfilter 47 eingegeben. Dies wird ausführlicher erläutert von E. Paksoy, A. McCree und V. Viswanathan in "A Variable-Rate Multimodal Speech Coder With Gain-Matched Analysis by Synthesis", IEEE International Conference an Acoustics, Speech and Signal Processing, April 1997.
Eine weitere Möglichkeit besteht darin, einfach eine Codierung ternärer Impulse zu verwenden, wie es in 5 im Hochband veranschaulicht ist, wobei das Hochbandsignal durch eine (im Impulserregungs-Generator 51 erzeugte) Signalform approximiert wird, die größtenteils aus Null-Elementen besteht, abgesehen von einigen, die eine Amplitude von +1 oder –1 haben. Diese Erregungssig nalform wird im Multiplizierer 53 mit dem Verstärkungsfaktor skaliert und durch ein LPC-Synthesefilter 55 sowie das Hochband-Bandpassfilter 56 gefiltert, um das codierte Hochbandsignal zu erzeugen. Die Suche nach dem Erregungs- und dem Verstärkungsfaktor wird mittels eines Analyse-durch-Synthese-Mechanismus ausgeführt, der in CELP-Codierern üblich ist. Der Hochband-Codierer 20 führt das Komplement der Decodierung aus.
In einem derartigen Unterband-Codierer kann auch eine Kombination der oben erwähnten Verfahren angewendet werden. Zudem ist anzumerken, dass das Unterband-Codierungsschema auch auf mehr als zwei Unterbänder erweitert werden kann.
Es wurde ein Unterband-Codierer beschrieben, bei dem das Hochband keinem Subsampling unterzogen wird. Das Filterungs- und Abtastratenumwandlungs-Schema ist relativ einfach und hat die Vorteile verringerter Komplexität und verminderter Aliasing-Probleme im Falle ungleicher Unterbänder. Außerdem wurden mehrere Verfahren zur Hochband-Codierung vorgeschlagen, und es wurden eine Bandpass-Zufallsrauschen-Erzeugung, eine LPC-Spektralformung, eine an den Verstärkungsfaktor angepasste Analyse durch Synthese sowie eine Codierung ternärer Impulse besprochen.

Claims

Breitband-Sprachsignalcodierer, mit: Mitteln zum Unterteilen von Signalen auf einer Bandbreite in ein Signal in einem niedrigeren Unterband und in ein Signal in einem höheren Unterband; einem Downsampler (17) zum Dezimieren des Signals im niedrigeren Unterband, einem Niedrigband-Sprachcodierer, der mit dem Downsampler gekoppelt ist, um das dezimierte Signal im niedrigeren Unterband zu codieren, und einem Hochband-Codierer (20) zum Codieren des Signals im höheren Unterband ohne Dezimierung und einem Kombinierer zum Kombinieren des Signals im höheren Unterband und des Signals im niedrigeren Unterband.
Codierer nach Anspruch 1, wobei der Kombinierer umfasst: ein Bandpassfilter (19), das mit dem Hochband-Codierer gekoppelt ist, um auf das Signal im höheren Unterband eine Bandpassfilterung anzuwenden, um das niedrigere Unterband zu komplementieren.
Codierer nach Anspruch 1 oder Anspruch 2, der umfasst: Mittel (13) zum Upsampling der codierten Signale im niedrigeren Unterband.
Codierer nach einem der Ansprüche 1 bis 3, wobei der Niedrigband-Sprachcodierer einen CELP-Codierer (18) enthält.
Codierer nach einem der Ansprüche 1 bis 4, wobei der Hochband-Codierer einen LPC-Codierer (39) enthält.
Codierer nach einem der Ansprüche 1 bis 4, wobei der Hochband-Codierer einen Zufallsrauschen-Generator (31) enthält.
Codierer nach einem der Ansprüche 1 bis 5, wobei der Hochband-Codierer einen rauscherregten LPC (45) enthält.
Codierer nach einem der Ansprüche 1 bis 7, wobei der Hochband-Codierer so beschaffen ist, dass er eine an den Verstärkungsfaktor angepasste Analyse durch Synthese ausführt.
Codierer nach einem der Ansprüche 1 bis 8, wobei der Hochband-Codierer so beschaffen ist, dass er eine Mehrfachimpulscodierung ausführt.
Breitband-Sprachcodierungssystem, das umfasst: Mittel zum Unterteilen von Signalen auf einer Bandbreite in ein niedrigeres Unterband und ein höheres Unterband, einen Downsampler (17) zum Dezimieren der Signale im niedrigeren Unterband, einen Niedrigband-Sprachcodierer, der mit dem Downsampler gekoppelt ist, um die dezimierten Signale im niedrigeren Unterband zu codieren, einen Hochband-Codierer (20) zum Codieren des Signals im höheren Unterband ohne Dezimierung; ein Bandpassfilter (19), das mit dem Hochband-Codierer gekoppelt ist, um auf das Signal im höheren Unterband einer Bandpassfilterung anzuwenden, um das niedrigere Unterband zu komplementieren; einen ersten Decodierer (21) zum Decodieren der codierten Signale im niedrigeren Unterband; Mittel zum Upsampling und Tiefpassfiltern (23, 25) der Signale im niedrigeren Unterband auf die gleiche Rate wie die Signale im höheren Band; einen zweiten Decodierer zum Decodieren der Signale im höheren Unterband und zum Bandpassfiltern (27, 29) der Signale im höheren Unterband; und einen Addierer (30) zum Summieren der Signale im niedrigeren Unterband und der Signale im höheren Unterband.
System nach Anspruch 10, wobei der Niedrigband-Codierer einen CELP-Codierer (18) enthält.
System nach Anspruch 10 oder Anspruch 11, wobei der Hochband-Codierer ein Zufallsrauschen enthält und der Hochband-Decodierer einen mit dem Verstärkungsfaktor skalierten Zufallsrauschen-Generator (31, 32) enthält.
System nach einem der Ansprüche 10 bis 12, wobei der Hochband-Codierer ein rauscherregter LPC-Codierer ist und der Decodierer einen mit dem Verstärkungsfaktor skalierten Zufallsrauschen-Generator (37, 38) enthält und der Ausgang in ein LPC-Synthesefilter (39) eingegeben wird.
System nach einem der Ansprüche 10 bis 13, wobei der Hochband-Codierer einen durch Synthese an den Verstärkungsfaktor angepassten Codierer enthält und der Hochband-Decodierer ein Codebuch (41) mit zulässigen Erregungsvektoren, einen Multiplizierer (43) und ein LPC-Filter (45) enthält.
System nach einem der Ansprüche 10 bis 14, wobei der Codierer ein Mehrfachimpuls-Codierer ist und der Decodierer das Skalieren mit dem Verstärkungsfaktor einer Approximationssignalform, die mit dem Verstärkungsfaktor skaliert ist (53) und durch ein LPC-Synthesefilter (55) gefiltert ist, enthält.
Breitband-Sprachdecodierersystem, das umfasst: einen ersten Decodierer (21) zum Decodieren codierter Signale im niedrigeren Unterband, um Signale im niedrigeren Unterband mit einer Abtastrate f_lower auszugeben; einen zweiten Decodierer (27) zum Decodieren von Signalen im höheren Unterband, um Signale im höheren Unterband mit einer Abtastrate f_higher = (m/n) f_lower auszugeben, wobei m und n ganze Zahlen sind, wobei m größer als n ist und wobei n größer als 1 ist; einen Umsetzer zum Umsetzen der Signale im niedrigeren Unterband mit der Abtastrate f_lower auf die Abtastrate f_higher, wobei die Abtastratenumsetzung in dem Verhältnis m/n erfolgt; und einen Addierer (30) zum Summieren der umgesetzten Signale im niedrigeren Unterband und der Signale im höheren Unterband.
Decodierersystem nach Anspruch 16, wobei der zweite Decodierer einen mit dem Verstärkungsfaktor skalierten Zufallsrauschen-Generator (31, 32) enthält.
Decodierersystem nach Anspruch 17, wobei ein Ausgang des mit dem Verstärkungsfaktor skalierten Zufallsrauschen-Generator in ein LPC-Synthesefilter (39) eingegeben wird.
Decodierersystem nach einem der Ansprüche 16 bis 18, wobei der zweite Decodierer ein Codebuch (41) mit zulässigen Erregungsvektoren, einen Multiplizierer (43) und ein LPC-Filter (45) enthält.
Decodierersystem nach einem der Ansprüche 16 bis 19, wobei der zweite Decodierer eine Mehrfachimpuls-Signalform enthält, die mit dem Verstärkungsfaktor skaliert (53) und durch ein LPC-Synthesefilter (55) gefiltert ist.
Verfahren zur Breitband-Sprachsignalcodierung, das die folgenden Schritte umfasst: Unterteilen von Signalen auf einer Bandbreite in ein Signal im niedrigeren Unterband und ein Signal im höheren Unterband; Downsampling des Signals im niedrigeren Unterband; Codieren des dezimierten Signals im niedrigeren Unterband; Codieren des Signals im höheren Unterband ohne Dezimierung; und Kombinieren des Signals im höheren Unterband und des Signals im niedrigeren Unterband.
Verfahren nach Anspruch 21, das ferner den folgenden Schritt umfasst: Upsampling der codierten Signale im niedrigeren Unterband.
Verfahren zur Breitband-Sprachcodierung, das die folgenden Schritte umfasst: Unterteilen von Signalen auf einer Bandbreite in ein niedrigeres Unterband und ein höheres Unterband; Downsampling der Signale im niedrigeren Unterband; Codieren der dezimierten Signale im niedrigeren Unterband; Codieren des Signals im höheren Unterband ohne Dezimierung; Anwenden einer Bandpassfilterung auf das Signal im höheren Unterband, um das niedrigere Unterband zu komplementieren; Decodieren der codierten Signale im niedrigeren Unterband; Upsampling und Tiefpassfiltern der Signale im niedrigeren Unterband auf die gleiche Rate wie die Signale im höheren Band; Decodieren der Signale im höheren Unterband und Anwenden einer Bandpassfilterung auf die Signale im höheren Unterband; und Summieren der Signale im niedrigeren Unterband und der Signale im höheren Unterband.
Verfahren zur Breitband-Sprachdecodierung, das die folgenden Schritte umfasst: Decodieren codierter Signale im niedrigeren Unterband, um Signale im niedrigeren Unterband auszugeben, mit einer Abtastrate f_lower; Decodieren von Signalen im höheren Unterband, um Signale im höheren Unterband auszugeben, mit einer Abtastrate f_higher = (m/n)f_lower, wobei m und n ganze Zahlen sind, wobei m größer als n ist und wobei n größer als 1 ist; Umsetzen des Signals im niedrigeren Unterband mit der Abtastrate f_lower zu der Abtastrate f_higher wobei die Abtastraten-Umsetzung mit dem Verhältnis m/n erfolgt; und Summieren der umgesetzten Signale im niedrigeren Unterband und der Signale im höheren Unterband.