DE60021083T2

DE60021083T2 - Verfahren zur verbesserung der kodierungseffizienz eines audiosignals

Info

Publication number: DE60021083T2
Application number: DE60021083T
Authority: DE
Inventors: Juha OJANPERÄ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1999-07-05
Filing date: 2000-07-05
Publication date: 2006-05-18
Anticipated expiration: 2020-07-06
Also published as: FI991537A; KR100545774B1; ATE418779T1; EP1203370B1; US7289951B1; EP2037451A1; AU5832600A; KR20020019483A; FI116992B; JP4142292B2; JP2005189886A; KR20050085977A; CA2378435A1; EP1587062B1; CA2378435C; DE60041207D1; KR100593459B1; AU761771B2; CN1235190C; CN1372683A

Description

Im Allgemeinen erzeugen Tonkodierungssysteme kodierte Signale aus einem analogen Audiosignal, wie beispielsweise einem Sprachsignal. Die kodierten Signale werden in der Regel mittels Datenübertragungsverfahren, die für das Datenübertragungssystem spezifisch sind, an einen Empfänger übertragen. In dem Empfänger wird anhand der kodierten Signale ein Audiosignal erzeugt. Die Menge der zu übertragenden Informationen wird beispielsweise durch die Bandbreite, die für die kodierten Informationen in dem System verwendet wird, sowie durch die Effizienz, mit der das Kodieren erfolgen kann, beeinflusst.
Für den Zweck der Kodierung werden aus dem analogen Signal beispielsweise in regelmäßigen Zeitabständen von 0,125 ms digitale Abtastwerte erzeugt. Die Abtastwerte werden normalerweise in Gruppen einer festen Größe verarbeitet, beispielsweise in Gruppen mit einer Dauer von etwa 20 ms. Diese Gruppen von Abtastwerten werden auch "Datenblock" genannt. Ein Datenblock ist allgemein die Basiseinheit, in der Audiodaten verarbeitet werden.
Tonkodierungssysteme haben die Aufgabe, eine Tonqualität zu erzeugen, die im Rahmen der verfügbaren Bandbreite so gut wie möglich ist. Zu diesem Zweck kann die Periodizität, die in einem Audiosignal, insbesondere in einem Sprachsignal, vorhanden ist, genutzt werden. Die Periodizität in Sprache resultiert beispielsweise aus Schwingungen in den Stimmbändern. Der Schwingungszeitraum liegt in der Regel in der Größenordnung von 2 ms bis 20 ms. In zahlreichen Sprachkodierern nach dem Stand der Technik wird eine Technik angewendet, die man Langzeitprädiktion (LZP) nennt. Ihr Zweck besteht in der Auswertung und Nutzung dieser Periodizität, um die Effizienz des Kodierungsprozesses zu verbessern. Somit wird während des Kodierens der Anteil (Datenblock) des zu kodierenden Signals mit zuvor kodierten Anteilen des Signals verglichen. Wenn sich ein ähnliches Signal in dem zuvor kodierten Anteil befindet, so wird die (Zeit)verzögerung zwischen dem ähnlichen Signal und dem zu kodierenden Signal untersucht. Anhand des ähnlichen Signals wird ein vorhergesagtes Signal, welches das zu kodierende Signal darstellt, gebildet. Zusätzlich wird ein Fehlersignal erzeugt, das die Differenz zwischen dem vorhergesagten Signal und dem zu kodierenden Signal darstellt. Das Kodieren erfolgt daher vorteilhafterweise so, dass nur die Verzögerungsinformationen und das Fehlersignal übertragen werden. In dem Empfänger werden die die korrekten Abtastwerte aus dem Speicher abgerufen. Sie werden dazu verwendet, den Anteil des zu kodierenden Signals vorherzusagen, und werden auf der Basis der Verzögerung mit dem Fehlersignal kombiniert. Mathematisch kann man sich einen solchen Tonhöhenprädiktor (begrifflich entsprechend dem Tonstufenprädikator nach dem Wortlaut der Ansprüche) als einen Filterungsvorgang ausführend vorstellen, der durch eine Transferfunktion wie beispielsweise die folgende veranschaulicht werden kann: P(z) = βzα
Die obige Gleichung veranschaulicht die Transferfunktion des Tonhöhenprädiktors der ersten Ordnung. β ist der Koeffizient des Tonhöhenprädiktors, und α ist die Verzögerung, welche die Periodizität darstellt. Im Fall von Tonhöhenprädiktorfiltern höherer Ordnung ist es möglich, eine allgemeinere Transferfunktion zu verwenden:
Das Ziel besteht darin, Koeffizienten β_k für jeden Datenblock in einer solchen Weise auszuwählen, dass der Kodierungsfehler, d. h. die Differenz zwischen dem eigentlichen Signal und dem Signal, das unter Verwendung der vorhergehenden Abtastwerte gebildet wurde, so klein wie möglich ist. Vorteilhafterweise werden diese Koeffizienten zur Verwendung in der Kodierung ausgewählt, mit der unter Verwendung der Methode der kleinsten Quadrate der kleinste Fehler erreicht wird. Vorteilhafterweise werden die Koeffizienten Datenblock für Datenblock aktualisiert.
US-Patent Nr. 5,528,629 offenbart ein den Stand der Technik darstellendes Sprachkodierungssystem, das die Kurzzeitprädiktion (KZP) sowie eine Langzeitvorhersage erster Ordnung verwendet.
Kodierer nach dem Stand der Technik haben den Nachteil, dass die Beziehung zwischen der Frequenz des Audiosignals und seiner Periodizität unbeachtet bleibt. Dadurch kann die Periodizität des Signals nicht effektiv in allen Situationen genutzt werden, und die Menge der kodierten Informationen wird unnötig groß, oder die Tonqualität des in dem Empfänger rekonstruierten Audiosignals verschlechtert sich.
In einigen Situationen, beispielsweise wenn ein Audiosignal stark periodisch ist und sich im Lauf der Zeit nur wenig verändert, bilden Verzögerungsinformationen allein eine gute Basis zur Vorhersage des Signals. In dieser Situation ist es nicht notwendig, einen Tonhöhenprädiktor hoher Ordnung zu verwenden. In bestimmten anderen Situationen ist das Gegenteil der Fall. Die Verzögerung ist nicht unbedingt ein ganzzahliges Vielfaches des Abtastintervalls. Beispielsweise kann sie zwischen zwei aufeinanderfolgenden Abtastungen des Audiosignals liegen. In dieser Situation können Tonhöhenprädiktoren höherer Ordnung effektiv zwischen den diskreten Abtastzeiten interpolieren, um eine exaktere Darstellung des Signals zu erreichen. Überdies neigt der Frequenzgang von Tonhöhenprädiktoren höherer Ordnung dazu, sich in Abhängigkeit von der Frequenz zu verringern. Das bedeutet, dass Tonhöhenprädiktoren höherer Ordnung sich besser für eine Modellierung von Komponenten mit niedrigerer Frequenz im Audiosignal eignen. Bei der Sprachkodierung ist dies vorteilhaft, weil Komponenten mit niedrigerer Frequenz einen spürbareren Einfluss auf die empfundene Qualität des Sprachsignals haben als Komponenten mit höherer Frequenz. Es dürfte daher einleuchten, dass die Fähigkeit, die Ordnung des Tonhöhenprädiktors, der für die Vorhersage eines Audiosignals verwendet wird, entsprechend der Entwicklung des Signals variieren zu können, überaus wünschenswert ist. Ein Kodierer, der mit einem Tonhöhenprädiktor von unveränderlicher Ordnung arbeitet, kann in einigen Situationen übermäßig komplex sein, während er in anderen Situationen nicht in der Lage ist, das Audiosignal hinreichend zu modellieren.
Eine Aufgabe der vorliegenden Erfindung, wie sie in den angehängten unabhängigen Ansprüchen definiert ist, besteht in der Implementierung eines Verfahrens zum Verbessern der Kodierungsgenauigkeit und Übertragungseffizienz von Audiosignalen in einem Datenübertragungssystem, wobei die Audiodaten mit einer größeren Genauigkeit codiert werden und mit größerer Effizienz übertragen werden als bei Verfahren nach dem Stand der Technik. Bei einem erfindungsgemäßen Kodierer besteht die Aufgabe darin, das Audiosignal, das Datenblock für Datenblock zu kodieren ist, so genau wie möglich vorherzusagen, während gleichzeitig gewährleistet wird, dass die Menge der zu übertragenden Informationen gering bleibt.
Die vorliegende Erfindung realisiert beachtliche Vorteile im Vergleich zu Lösungen nach dem Stand der Technik. Das erfindungsgemäße Verfahren ermöglicht die genauere Kodierung eines Audiosignals im Vergleich zu Verfahren nach dem Stand der Technik, während gleichzeitig gewährleistet wird, dass die Menge an Informationen, die erforderlich sind, um das kodierte Signal darzustellen, gering bleibt. Die Erfindung gestattet überdies das Codieren eines Audiosignals auf flexiblere Weise als bei Verfahren nach dem Stand der Technik. Die Erfindung kann dergestalt implementiert werden, dass der Genauigkeit, mit der das Audiosignal vorhergesagt wird (qualitative Maximierung), der Vorzug gegeben wird, dass der Verringerung der Menge an Informationen, die erforderlich sind, um das kodierte Signal darzustellen (quantitative Minimierung), der Vorzug gegeben wird, oder dass ein Kompromiss zwischen beiden gefunden wird. Unter Verwendung des erfindungsgemäßen Verfahrens ist es des Weiteren möglich, die Periodizitäten verschiedener Frequenzen, die in einem Audiosignal vorhanden sind, zu berücksichtigen.
Im Folgenden wird die Erfindung eingehender unter Bezug auf die angehängten Zeichnungen beschrieben.
1 zeigt einen Kodierer gemäß einer bevorzugten Ausführungsform der Erfindung.
2 zeigt einen Dekodierer gemäß einer bevorzugten Ausführungsform der Erfindung.
3 ist ein verkürztes Blockschaubild eines Datenübertragungssystems gemäß einer bevorzugten Ausführungsform der Erfindung.
4 ist ein Flussdiagramm eines Verfahrens gemäß einer bevorzugten Ausführungsform der Erfindung.
5a und 5b sind Beispiele von Datenübertragungsblöcken, die durch den Kodierer gemäß einer bevorzugten Ausführungsform der Erfindung erzeugt wurden.
1 ist ein verkürztes Blockschaubild, das einen Kodierer 1 gemäß einer bevorzugten Ausführungsform der Erfindung zeigt. 4 ist ein Flussdiagramm 400, welches das erfindungsgemäße Verfahren veranschaulicht. Der Kodierer 1 ist beispielsweise ein Sprachkodierer eines Drahtloskommunikationsgerätes 2 (3) zum Umwandeln eines Audiosignals in ein kodiertes Signal, das in einem Datenübertragungssystem übertragen werden soll, wie beispielsweise einem Mobilkommunikationsnetz oder dem Internet. Darum befindet sich ein Dekodierer 33 vorteilhafterweise in einer Basisstation des Mobilkommunikationsnetzes. Entsprechend wird ein analoges Audiosignal – beispielsweise ein Signal, das durch ein Mikrofon 29 erzeugt und erforderlichenfalls in einem Audioblock 30 verstärkt wird – in einem Analog-Digital-Wandler 4 in ein digitales Signal umgewandelt. Die Genauigkeit der Umwandlung ist beispielsweise 8 oder 12 Bit, und das Intervall (die zeitliche Auflösung) zwischen aufeinanderfolgenden Abtastungen ist beispielsweise 0,125 ms. Es versteht sich, dass die in dieser Beschreibung angegebenen Zahlenwerte lediglich Beispiele sind, die die Erfindung erläutern und nicht einschränken.
Die aus dem Audiosignal gewonnenen Abtastwerte werden in einem (nicht gezeigten) Abtastpuffer gespeichert, der in einschlägig bekannter Weise implementiert werden kann, beispielsweise in dem Speichermittel 5 des Drahtloskommunikationsgerätes 2. Das Kodieren des Audiosignals erfolgt vorteilhafterweise Datenblock für Datenblock, dergestalt, dass eine zuvor festgelegte Anzahl von Abtastwerten zu dem Kodierer 1 zum Kodieren übertragen wird, beispielsweise die Abtastwerte, die innerhalb eines Zeitraums von 20 ms erzeugt wurden (= 160 Abtastwerte, unter der Annahme eines Zeitintervalls von 0,125 ms zwischen aufeinanderfolgenden Abtastwerten). Die Abtastwerte eines zu kodierenden Datenblocks werden vorteilhafterweise zu einem Transformationsblock 6 übertragen, wo das Audiosignal vom Zeitbereich zu einem Transformationsbereich (Frequenzbereich) transformiert wird, beispielsweise mittels einer modifizierten diskreten Cosinustransformation (MDCT). Das Ausgabesignal des Transformationsblocks 6 ist eine Gruppe von Werten, welche die Eigenschaften des transformierten Signals im Frequenzbereich darstellen. Diese Transformation wird durch Block 404 in dem Flussdiagramm von 4 dargestellt.
Eine alternative Implementierung zum Transformieren eines Zeitbereichssignals in den Frequenzbereich ist eine Filterbank, die aus verschiedenen Bandpassfiltern zusammengesetzt ist. Das Passband jedes Filters ist relativ schmal, wobei die Größenordnungen der Signale an den Filterausgängen das Frequenzspektrum des zu transformierenden Signals darstellen.
Ein Verzögerungsblock 7 bestimmt, welche vorhergehende Folge von Abtastwerten dem zu kodierenden Datenblock zu einem bestimmten Zeitpunkt am besten entspricht (Block 402). Diese Stufe des Bestimmens der Verzögerung erfolgt vorteilhafterweise dergestalt, dass der Verzögerungsblock 7 die in einem Bezugspuffer 8 gespeicherten Werte mit den Abtastwerten des zu kodierenden Datenblocks vergleicht und den Fehler zwischen den Abtastwerten des zu kodierenden Datenblocks und einer entsprechenden Folge von Abtastwerten, die in dem Bezugspuffer gespeichert sind, beispielsweise mittels einer Methode der kleinsten Quadrate berechnet. Vorzugsweise wird die Folge von Abtastwerten, die aus aufeinanderfolgenden Abtastwerten zusammengesetzt ist und den kleinsten Fehler aufweist, als eine Bezugsfolge von Abtastwerten ausgewählt.
Wenn die Bezugsfolge von Abtastwerten durch den Verzögerungsblock 7 aus den gespeicherten Abtastwerten ausgewählt wird (Block 403), so übermittelt der Verzögerungsblock 7 Informationen, die ihn betreffen, an einen Koeffizientenberechnungsblock 9, um eine Tonhöhenprädiktorkoeffizientenbeurteilung durchzuführen. Somit werden im Koeffizientenberechnungsblock 9 die Tonhöhenprädiktorkoeffizienten b(k) für verschiedene Tonhöhenprädiktorordnungen, wie beispielsweise 1, 3, 5 und 7, auf der Basis der Abtastwerte in der Bezugsfolge von Abtastwerten berechnet. Die berechneten Koeffizienten b(k) werden dann an den Tonhöhenprädiktorblock 10 übermittelt. In dem Flussdiagramm von 4 sind diese Stufen in den Blöcken 405–411 gezeigt. Es versteht sich, dass die hier genannten Ordnungen nur als Beispiele gedacht sind, die die Erfindung erläutern und nicht einschränken. Die Erfindung kann auch mit anderen Ordnungen realisiert werden, und die Anzahl der verfügbaren Ordnungen kann sich auch von den insgesamt vier Ordnungen, mit denen im vorliegenden Text gearbeitet wird, unterscheiden.
Nachdem die Tonhöhenprädiktorkoeffizienten berechnet wurden, werden sie quantisiert, wobei quantisierte Tonhöhenprädiktorkoeffizienten erhalten werden. Die Tonhöhenprädiktorkoeffizienten werden vorzugsweise dergestalt quantisiert, dass das rekonstruierte Signal, das in dem Dekodierer 33 des Empfängers erzeugt wird, unter fehlerfreien Datenübertragungsbedingungen dem Original so weit wie möglich entspricht. Beim Quantisieren der Tonhöhenprädiktorkoeffizienten ist es vorteilhaft, die größtmögliche Auflösung (die kleinstmöglichen Quantisierungsschritte) zu verwenden, um Fehler zu minimieren, die durch Runden verursacht werden.
Die gespeicherten Abtastwerte in der Bezugsfolge von Abtastwerten werden zum Tonhöhenprädiktorblock 10 übermittelt, wo für jede Tonhöhenprädiktorordnung ein vorhergesagtes Signal aus den Abtastwerten der Bezugsfolge unter Verwendung der berechneten und quantisierten Tonhöhenprädiktorkoeffizienten b(k) erzeugt wird. Jedes vorhergesagte Signal stellt die Vorhersage des zu kodierenden Signals dar, das unter Verwendung der betreffenden Tonhöhenprädiktorordnung beurteilt wurde. Bei der vorliegenden bevorzugten Ausführungsform der Erfindung werden die vorhergesagten Signale weiter zu einem zweiten Transformationsblock 11 übermittelt, wo sie in den Frequenzbereich transformiert werden. Der zweite Transformationsblock 11 führt die Transformation unter Verwendung von zwei oder mehr unterschiedlichen Ordnungen durch, wobei Gruppen von transformierten Werten erzeugt werden, die den Signalen entsprechen, die von verschiedenen Tonhöhenprädiktorordnungen vorhergesagt wurden. Der Tonhöhenprädiktorblock 10 und der zweite Transformationsblock 11 können dergestalt implementiert werden, dass sie die notwendigen Operationen für jede Tonhöhenprädiktorordnung ausführen, oder es können alternativ ein separater Tonhöhenprädiktorblock 10 und ein separater zweiter Transformationsblock 11 für jede Ordnung implementiert werden.
Im Berechnungsblock 12 werden die frequenzbereichstransformierten Werte des vorhergesagten Signals mit der frequenzbereichstransformierten Darstellung des zu kodierenden Audiosignals verglichen, das aus dem Transformationsblock 6 erhalten wurde. Anhand der Differenz zwischen dem Frequenzspektrum des zu kodierenden Audiosignals und dem Frequenzspektrum des unter Verwendung des Tonhöhenprädiktors vorhergesagten Signals wird ein Vorhersagefehlersignal errechnet. Das Vorhersagefehlersignal umfasst vorteilhafterweise eine Gruppe von Vorhersagefehlerwerten, die der Differenz zwischen den Frequenzkomponenten des zu kodierenden Signals und den Frequenzkomponenten des vorhergesagten Signals entsprechen. Ein Kodierungsfehler, der beispielsweise die durchschnittliche Differenz zwischen dem Frequenzspektrum des Audiosignals und des vorhergesagten Signals darstellt, wird ebenfalls berechnet. Der Kodierungsfehler wird vorzugsweise mittels einer Methode der kleinsten Quadrate berechnet. Es kann auch jedes andere geeignete Verfahren, einschließlich Methoden auf der Basis psychoakustischer Modellierung des Audiosignals, verwendet werden, um das vorhergesagte Signal zu bestimmen, welches das zu kodierende Audiosignal am besten darstellt.
Ein Kodierungseffizienzmaß (Vorhersageoptimierung) wird ebenfalls in Block 12 berechnet, um die Informationen festzulegen, die zu dem Übertragungskanal zu übertragen sind (Block 413). Das Ziel besteht darin, die Menge der Informationen (Bits) zu minimieren, die zu übertragen sind (quantitative Minimierung), und die Verzerrungen in dem Signal zu minimieren (qualitative Maximierung).
Um das Signal in dem Empfänger auf der Grundlage vorheriger Abtastwerte, die in der Empfangsvorrichtung gespeichert sind, zu rekonstruieren, ist es notwendig, beispielsweise die quantisierten Tonhöhenprädiktorkoeffizienten für die ausgewählte Ordnung, Informationen über die Ordnung, die Verzögerung und Informationen über den Vorhersagefehler an den Empfänger zu übertragen. Das Kodierungseffizienzmaß zeigt vorteilhafterweise an, ob es möglich ist, die Informationen, die nötig sind, um das in dem Tonhöhenprädiktorblock 10 kodierte Signal zu dekodieren, mit einer geringeren Anzahl von Bits zu übertragen, als nötig sind, um Informationen zu übertragen, die dem ursprünglichen Signal zugeordnet sind. Diese Feststellung kann beispielsweise so implementiert werden, dass ein erster Bezugswert, der die Menge an zu übertragenden Informationen darstellt, definiert wird, wenn die zum Dekodieren nötigen Informationen mittels eines bestimmten Tonhöhenprädiktors erzeugt werden. Zusätzlich wird ein zweiter Bezugswert, der die Menge an zu übertragenden Informationen darstellt, definiert, wenn die zum Dekodieren nötigen Informationen auf der Grundlage des ursprünglichen Audiosignals erzeugt werden. Das Kodierungseffizienzmaß ist vorteilhafterweise das Verhältnis vom zweiten Bezugswert zum ersten Bezugswert.
Die Anzahl der Bits, die nötig sind, um das vorhergesagte Signal darzustellen, richtet sich beispielsweise nach der Ordnung des Tonhöhenprädiktors (d. h. der Anzahl der zu übertragenden Koeffizienten), der Genauigkeit, mit der jeder Koeffizient dargestellt (quantisiert) wird, sowie der Menge und Genauigkeit der Fehlerinformationen, die dem vorhergesagten Signal zugeordnet sind. Andererseits richtet sich die Anzahl der Bits, die nötig sind, um Informationen, die dem ursprünglichen Signal zugeordnet sind, zu übertragen, beispielsweise nach der Genauigkeit der Frequenzbereichsdarstellung des Audiosignals.
Wenn die auf diese Weise ermittelte Kodierungseffizienz größer als Eins ist, so zeigt dies an, dass die Informationen, die nötig sind, um das vorhergesagte Signal zu dekodieren, mit einer geringeren Anzahl von Bits übertragen werden können als die Informationen, die dem ursprünglichen Signal zugeordnet sind. In dem Berechnungsblock 12 wird die Anzahl der Bits, die für die Übertragung dieser verschiedenen Alternativen nötig sind, ermittelt, und die Alternative, bei der die Anzahl der zu übertragenden Bits geringer ist, wird ausgewählt (Block 414.
Gemäß einer ersten Ausführungsform der Erfindung wird die Tonhöhenprädiktorordnung, mit der der kleinste Kodierungsfehler erhalten wird, ausgewählt, um das Audiosignal zu kodieren (Block 412). Wenn das Kodierungseffizienzmaß für den gewählten Tonhöhenprädiktor größer als 1 ist, so werden die Informationen, die dem vorhergesagten Signal zugeordnet sind, zur Übertragung ausgewählt. Wenn das Kodierungseffizienzmaß nicht größer als 1 ist, so werden die zu übertragenden Informationen auf der Grundlage des ursprünglichen Audiosignals erzeugt. Gemäß dieser Ausführungsform der Erfindung wird der Schwerpunkt auf die Minimierung des Vorhersagefehlers gelegt (qualitative Maximierung).
Gemäß einer zweiten vorteilhaften Ausführungsform der Erfindung wird für jede Tonhöhenprädiktorordnung ein Kodierungseffizienzmaß berechnet. Dann wird die unter den Ordnungen, für die das Kodierungseffizienzmaß größer als 1 ist, ausgewählte Tonhöhenprädiktorordnung, die zum kleinsten Kodierungsfehler führt, für die Kodierung des Audiosignals verwendet. Wenn keine der Tonhöhenprädiktorordnungen zu einer Vorhersageoptimierung führt (d. h. wenn kein Kodierungseffizienzmaß größer als 1 ist), dann werden die zu übertragenden Informationen vorteilhafterweise auf der Grundlage des ursprünglichen Audiosignals erzeugt. Diese Ausführungsform der Erfindung ermöglicht einen Kompromiss zwischen Vorhersagefehler und Kodierungseffizienz.
Gemäß einer dritten Ausführungsform der Erfindung wird für jede Tonhöhenprädiktorordnung ein Kodierungseffizienzmaß berechnet, und es wird die unter den Ordnungen, für die das Kodierungseffizienzmaß größer als 1 ist, ausgewählte Tonhöhenprädiktorordnung, die zur größten Kodierungseffizienz führt, für die Kodierung des Audiosignals ausgewählt. Wenn keine der Tonhöhenprädiktorordnungen zu einer Vorhersageoptimierung führt (d. h. wenn kein Kodierungseffizienzmaß größer als 1 ist), dann werden die zu übertragenden Informationen vorteilhafterweise auf der Grundlage des ursprünglichen Audiosignals erzeugt. Somit legt diese Ausführungsform der Erfindung den Schwerpunkt auf die Maximierung der Kodierungseffizienz (quantitative Minimierung).
Gemäß einer vierten Ausführungsform der Erfindung wird für jede Tonhöhenprädiktorordnung ein Kodierungseffizienzmaß berechnet, und es wird die Tonhöhenprädiktorordnung, die zur größten Kodierungseffizienz führt, für die Kodierung des Audiosignals ausgewählt, selbst wenn die Kodierungseffizienz nicht größer als 1 ist.
Die Berechnung des Kodierungsfehlers und die Auswahl der Tonhöhenprädiktorordnung erfolgt in Intervallen, vorzugsweise separat für jeden Datenblock, wobei es in verschiedenen Datenblöcken möglich ist, die Tonhöhenprädiktorordnung zu verwenden, die den Eigenschaften des Audiosignals zu einem bestimmten Zeitpunkt am besten entspricht.
Wenn die in Block 12 ermittelte Kodierungseffizienz nicht größer als Eins ist, so zeigt dies – wie oben erklärt – an, dass es von Vorteil ist, das Frequenzspektrum des ursprünglichen Signals zu übertragen, wobei eine Bit-Kette 501, die zum Datenübertragungskanal zu übertragen ist, vorteilhafterweise auf folgende Art gebildet wird (Block 415). Informationen vom Berechnungsblock 12, die der ausgewählten Übertragungsalternative zugeordnet sind, werden zum Auswahlblock 13 übertragen (Linien D1 und D4 in 1). Im Auswahlblock 13 werden die frequenzbereichstransformierten Werte, die das ursprüngliche Audiosignal darstellen, dafür ausgewählt, zu einem Quantisierungsblock 14 übertragen zu werden. Die Übertragung der frequenzbereichstransformierten Werte des ursprüngliches Audiosignals zum Quantisierungsblock 14 ist durch die Linie A1 im Blockschaubild von 1 veranschaulicht. Im Quantisierungsblock 14 werden die frequenzbereichstransformierten Signalwerte auf einschlägig bekannte Weise quantisiert. Die quantisierten Werte werden zu einem Multiplexerblock 15 übertragen, in dem die zu übertragende Bit-Kette gebildet wird. 5a und 5b zeigen ein Beispiel einer Bit-Ketten-Struktur, die vorteilhaft in Verbindung mit der vorliegenden Erfindung verwendet werden kann. Informationen, die das ausgewählte Kodierungsverfahren betreffen, werden vom Berechnungsblock 12 zum Multiplexerblock 15 übertragen (Linien D1 und D3), wo die Bit-Kette entsprechend der Übertragungsalternative gebildet wird. Ein erster logischer Wert, beispielsweise der logische 0-Zustand, dient als Kodierungsverfahrensinformation 502, um anzuzeigen, dass frequenzbereichstransformierte Werte, die das ursprüngliche Audiosignal darstellen, in der betreffenden Bit-Kette übertragen werden. Zusätzlich zu der Kodierungsverfahrensinformation 502 werden die Werte selbst – auf eine bestimmte Genauigkeit quantisiert – in der Bit-Kette übertragen. Das Feld, das zur Übertragung dieser Werte verwendet wird, ist in 5a mit der Bezugszahl 503 versehen. Die Anzahl der Werte, die in jeder Bit-Kette übertragen werden, richtet sich nach der Abtasthäufigkeit und nach der Länge des auf einmal untersuchten Datenblocks. In dieser Situation werden Tonhöhenprädiktorordnungsinformationen, Tonhöhenprädiktorkoeffizienten, Verzögerung und Fehlerinformationen nicht übertragen, weil das Signal im Empfänger auf der Grundlage der Frequenzbereichswerte des ursprünglichen Audiosignals, das in der Bit-Kette 501 übertragen wird, rekonstruiert wird.
Wenn die Kodierungseffizienz größer als Eins ist, so ist es von Vorteil, das Audiosignal mittels des ausgewählten Tonhöhenprädiktors zu kodieren, und die Bit-Kette 501 (5b), die zu dem Datenübertragungskanal zu übertragen ist, wird vorteilhafterweise auf folgende Art gebildet (Block 416). Informationen, die der ausgewählten Übertragungsalternative zugeordnet sind, werden vom Berechnungsblock 12 zum Auswahlblock 13 übertragen. Dies wird durch die Linien D1 und D4 im Blockschaubild von 1 veranschaulicht. Im Auswahlblock 13 werden die quantisierten Tonhöhenprädiktorkoeffizienten dafür ausgewählt, zu dem Multiplexerblock 15 übertragen zu werden. Dies wird durch die Linie B1 im Blockschaubild von 1 veranschaulicht. Es versteht sich, dass die Tonhöhenprädiktorkoeffizienten auch auf eine andere Weise als über den Auswahlblock 13 zu dem Multiplexerblock 15 übertragen werden können. Die zu übertragende Bit-Kette wird in dem Multiplexerblock 15 gebildet. Informationen, die das ausgewählte Kodierungsverfahren betreffen, werden vom Berechnungsblock 12 zum Multiplexerblock 15 übertragen (Linien D1 und D3), wo die Bit-Kette entsprechend der Übertragungsalternative gebildet wird. Ein zweiter logischer Wert, beispielsweise der logische 1-Zustand, dient als Kodierungsverfahrensinformation 502, um anzuzeigen, dass die quantisierten Tonhöhenprädiktorkoeffizienten in der betreffenden Bit-Kette übertragen werden. Die Bits eines Ordnungsfeldes 504 werden entsprechend der ausgewählten Tonhöhenprädiktorordnung gesetzt. Wenn beispielsweise vier verschiedene Ordnungen verfügbar sind, so reichen zwei Bits (00, 01, 10, 11) aus, um anzuzeigen, welche Ordnung zu einem bestimmten Zeitpunkt ausgewählt ist. Außerdem werden Informationen über die Verzögerung in der Bit-Kette in einem Verzögerungsfeld 505 übertragen. Bei diesem bevorzugten Beispiel ist die Verzögerung mit 11 Bits angezeigt, aber es versteht sich, dass innerhalb des Geltungsbereichs der Erfindung auch andere Längen verwendet werden können. Die quantisierten Tonhöhenprädiktorkoeffizienten werden der Bit-Kette im Koeffizientenfeld 506 hinzugefügt. Wenn die ausgewählte Tonhöhenprädiktorordnung Eins ist, so wird nur ein einziger Koeffizient übertragen; wenn die Ordnung Drei ist, so werden drei Koeffizienten übertragen, usw. Die Anzahl der Bits, die bei der Übertragung der Koeffizienten verwendet werden, können ebenfalls in verschiedenen Ausführungsformen variieren. Bei einer vorteilhaften Ausführungsform wird der Koeffizient erster Ordnung mit drei Bits dargestellt; die Koeffizienten dritter Ordnung mit insgesamt fünf Bits; die Koeffizienten fünfter Ordnung mit insgesamt neun Bits; und die Koeffizienten siebenter Ordnung mit zehn Bits. Allgemein kann man sagen: je höher die ausgewählte Ordnung, desto größer die Anzahl an Bits, die für die Übertragung der quantisierten Tonhöhenprädiktorkoeffizienten benötigt werden.
Wenn das Audiosignal auf der Grundlage des ausgewählten Tonhöhenprädiktors kodiert wird, so müssen zusätzlich zu den oben erwähnten Informationen noch Vorhersagefehlerinformationen in einem Fehlerfeld 507 übermittelt werden. Diese Vorhersagefehlerinformationen werden vorteilhafterweise im Berechnungsblock 12 als ein Differenzsignal erzeugt, das die Differenz darstellt zwischen dem Frequenzspektrum des zu kodierenden Audiosignals und dem Frequenzspektrum des Signals, das unter Verwendung der quantisierten Tonhöhenprädiktorkoeffizienten des ausgewählten Tonhöhenprädiktors in Verbindung mit der Bezugsfolge von Abtastwerten dekodiert (d. h. rekonstruiert) werden kann. Somit wird das Fehlersignal beispielsweise über den ersten Auswahlblock 13 zum Quantisierungsblock 14 zum Quantisieren übertragen. Das quantisierte Fehlersignal wird vom Quantisierungsblock 14 zum Multiplexerblock 15 übertragen, wo die quantisierten Vorhersagefehlerwerte zu dem Fehlerfeld 507 der Bit-Kette hinzugefügt werden.
Der erfindungsgemäße Kodierer 1 enthält des Weiteren eine lokale Dekodierfunktion. Das kodierte Audiosignal wird vom Quantisierungsblock 14 zum Quantisierungsblock 17 übertragen. In der Situation, wo die Kodierungseffizienz nicht größer als 1 ist, wird das Audiosignal – wie oben beschrieben – durch seine quantisierten Frequenzspektrumwerte dargestellt. In diesem Fall werden die quantisierten Frequenzspektrumwerte zum Umkehrquantisierungsblock 17 übertragen, wo sie auf einschlägig bekannte Weise umkehrquantisiert werden, um das ursprüngliche Frequenzspektrum des Audiosignals so genau wie möglich wiederherzustellen. Die umkehrquantisierten Werte, die das Frequenzspektrum des ursprünglichen Audiosignals darstellen, werden als Ausgabesignal vom Block 17 zum Summierungsblock 18 übermittelt.
Wenn die Kodierungseffizienz größer als 1 ist, so wird das Audiosignal durch Tonhöhenprädiktorinformationen dargestellt, beispielsweise Tonhöhenprädiktorordnungsinformationen, quantisierte Tonhöhenprädiktorkoeffizienten, ein Verzögerungswert und Vorhersagefehlerinformationen in der Form von quantisierten Frequenzbereichswerten. Wie oben beschrieben, stellen die Vorhersagefehlerinformationen die Differenz dar zwischen dem Frequenzspektrum des zu kodierenden Audiosignals und dem Frequenzspektrum des Audiosignals, das anhand des ausgewählten Tonhöhenprädiktors und der Bezugsfolge von Abtastwerten rekonstruiert werden kann. Darum werden in diesem Fall die quantisierten Frequenzbereichswerte, welche die Vorhersagefehlerinformationen umfassen, zum Umkehrquantisierungsblock 17 übertragen, wo sie so umkehrquantisiert werden, dass die Frequenzbereichswerte des Vorhersagefehlers so genau wie möglich wiederhergestellt werden. Somit umfasst das Ausgabesignal von Block 17 umkehrquantisierte Vorhersagefehlerwerte. Diese Werte werden als Eingangssignal zum Summierungsblock 18 weitergeleitet, wo sie mit den Frequenzbereichswerten des Signals summiert werden, das unter Verwendung des ausgewählten Tonhöhenprädiktors vorhergesagt wurde. Auf diese Weise wird eine rekonstruierte Frequenzbereichsdarstellung des ursprünglichen Audiosignals gebildet. Die Frequenzbereichswerte des vorhergesagten Signals werden vom Berechnungsblock 12 zugeleitet, wo sie in Verbindung mit der Bestimmung des Vorhersagefehlers berechnet werden, und werden zum Summierungsblock 18 übermittelt, wie durch Linie C1 in 1 angedeutet.
Der Betrieb des Summierungsblocks 18 wird entsprechend der Steuerungsinformationen vom Berechnungsblock 12 gesteuert (ein- und ausgeschaltet). Die Übertragung von Steuerungsinformationen, welche diesen Steuerungsbetrieb ermöglichen, wird durch die Verbindung zwischen dem Berechnungsblock 12 und dem Summierungsblock 18 angedeutet (Linien D1 und D2 in 1). Der Steuerungsbetrieb ist notwendig, um die verschiedenen Arten von umkehrquantisierten Frequenzbereichswerten zu berücksichtigen, die vom Umkehrquantisierungsblock 17 bereitgestellt werden. Wenn die Kodierungseffizienz nicht größer als 1 ist, so umfasst das Ausgabesignal von Block 17 – wie oben beschrieben – umkehrquantisierte Frequenzbereichswerte, die das ursprüngliche Audiosignal darstellen. In diesem Fall ist keine Summierungsoperation erforderlich, und es werden keine Informationen bezüglich der Frequenzbereichswerte eines vorhergesagten Audiosignals, das im Berechnungsblock 12 erzeugt wurde, benötigt. In dieser Situation wird der Betrieb des Summierungsblocks 18 durch die Steuerungsinformationen vom Berechnungsblock 12 unterbunden, und die umkehrquantisierten Frequenzbereichswerte, die das ursprüngliche Audiosignal darstellen, passieren den Summierungsblock 18. Wenn andererseits die Kodierungseffizienz größer als 1 ist, so umfasst das Ausgabesignal von Block 17 umkehrquantisierte Vorhersagefehlerwerte. In diesem Fall ist es notwendig, die umkehrquantisierten Vorhersagefehlerwerte mit dem Frequenzspektrum des vorhergesagten Signals zu summieren, um eine rekonstruierte Frequenzbereichsdarstellung des ursprünglichen Audiosignals zu bilden. Nun wird der Betrieb des Summierungsblocks 18 durch die vom Berechnungsblock 12 übertragenen Steuerungsinformationen ermöglicht, wodurch die umkehrquantisierten Vorhersagefehlerwerte mit dem Frequenzspektrum des vorhergesagten Signals summiert werden. Vorteilhafterweise werden die notwendigen Steuerungsinformationen durch die in Block 12 erzeugten Kodierungsverfahrensinformationen in Verbindung mit der Wahl der Kodierung, der das Audiosignal zu unterziehen ist, bereitgestellt.
Bei einer alternativen Ausführungsform kann die Quantisierung vor der Berechnung der Vorhersagefehler- und Kodierungseffizienzwerte erfolgen, wobei die Vorhersagefehler- und Kodierungseffizienzberechnungen anhand quantisierter Frequenzbereichswerte erfolgen, die das ursprüngliche Signal und die vorhergesagten Signale darstellen. Vorteilhafterweise erfolgt die Quantisierung in Quantisierungsblöcken, die zwischen den Blöcken 6 und 12 und den Blöcken 11 und 12 (nicht gezeigt) angeordnet sind. Bei dieser Ausführungsform ist der Quantisierungsblock 14 nicht erforderlich, aber in dem durch Linie C1 angedeuteten Pfad wird ein zusätzlicher Umkehrquantisierungsblock benötigt.
Das Ausgabesignal des Summierungsblocks 18 besteht aus abgetasteten Frequenzbereichsdaten, die der kodierten Folge von Abtastwerten (Audiosignal) entsprechen. Diese abgetasteten Frequenzbereichsdaten werden in einem umkehrmodifizierten DCT-Wandler 19 weiter in den Zeitbereich transformiert. Von diesem umkehrmodifizierten DCT-Wandler 19 wird die dekodierte Folge von Abtastwerten zum Bezugsspeicher 8 übertragen, um gespeichert und in Verbindung mit der Kodierung anschließender Datenblöcke verwendet zu werden. Die Speicherkapazität des Bezugsspeichers 8 wird entsprechend der Anzahl der Abtastwerte ausgewählt, die notwendig sind, um die Kodierungseffizienzanforderungen der betreffenden Anwendung zu erfüllen. In dem Bezugsspeicher 8 wird vorzugsweise eine neue Folge von Abtastwerten durch Überschreiben der ältesten Abtastwerte in dem Puffer gespeichert, d. h. der Puffer ist ein sogenannter Umlaufpuffer.
Die im Kodierer 1 gebildete Bit-Kette wird zum Sender 16 übertragen, wo die Modulierung auf einschlägig bekannte Weise vollzogen wird. Das modulierte Signal wird über den Datenübertragungskanal 3 beispielsweise in Form von Hochfrequenzsignalen zum Empfänger übertragen. Das kodierte Audiosignal wird vorteilhafterweise Datenblock für Datenblock übertragen, im Wesentlichen unmittelbar, nachdem die Kodierung für einen bestimmten Datenblock abgeschlossen ist. Alternativ kann das Audiosignal kodiert werden, kann in dem Speicher des Sendeterminals gespeichert werden und kann zu einem späteren Zeitpunkt übertragen werden.
In einem Empfangsgerät 31 wird das über den Datenübertragungskanal empfangene Signal in einschlägig bekannter Weise in einem Empfängerblock 20 demoduliert. Die in dem demodulierten Datenblock enthaltenen Informationen werden im Dekodierer 33 ermittelt. In einem Demultiplexerblock 21 des Dekodierers 33 wird zunächst anhand der Kodierungsverfahrensinformation 502 der Bit-Kette untersucht, ob die empfangenen Informationen auf der Grundlage des ursprünglichen Audiosignals gebildet wurden. Wenn der Dekodierer feststellt, dass die im Kodierer 1 gebildete Bit-Kette 501 nicht die frequenzbereichstransformierten Werte des ursprünglichen Signals enthält, so erfolgt das Dekodieren vorteilhafterweise auf folgende Art. Die Ordnung M, die in dem Tonhöhenprädiktorblock 24 verwendet werden soll, wird anhand des Ordnungsfeldes 504 ermittelt, und die Verzögerung wird anhand des Verzögerungsfeldes 505 ermittelt: Die quantisierten Tonhöhenprädiktorkoeffizienten, die in dem Koeffizientenfeld 506 der Bit-Kette 501 empfangen wurden, sowie Informationen, welche die Ordnung und die Verzögerung betreffen, werden zum Tonhöhenprädiktorblock 24 des Dekodierers übertragen. Dies wird durch die Linie B2 in 2 veranschaulicht. Die quantisierten Werte des Vorhersagefehlersignals, die im Feld 507 der Bit-Kette empfangen wurden, werden in einem Umkehrquantisierungsblock 22 umkehrquantisiert und zu einem Summierungsblock 23 des Dekodierers übermittelt. Anhand der Verzögerungsinformationen ruft der Tonhöhenprädiktorblock 24 des Dekodierers die Abtastwerte, die als Bezugsfolge verwendet werden sollen, aus einem Abtastpuffer 28 ab und führt entsprechend der gewählten Ordnung M eine Vorhersage durch, wobei der Tonhöhenprädiktorblock 24 die empfangenen Tonhöhenprädiktorkoeffizienten verwendet. Dadurch wird ein erstes rekonstruiertes Zeitbereichssignal erzeugt, das in einem Transformationsblock 25 in den Frequenzbereich transformiert wird. Dieses Frequenzbereichssignal wird zu dem Summierungsblock 23 übertragen, wobei ein Frequenzbereichssignal als eine Summe aus diesem Signal und dem umkehrquantisierten Vorhersagefehlersignal erzeugt wird. Damit entspricht unter fehlerfreien Datenübertragungsbedingungen das rekonstruierte Frequenzbereichssignal im Wesentlichen dem ursprünglichen kodierten Signal im Frequenzbereich. Dieses Frequenzbereichssignal wird mittels einer umkehrmodifizierten DCT-Transformation in einem Umkehrtransformationsblock 26 in den Zeitbereich transformiert, wobei am Ausgang des Umkehrtransformationsblocks 26 ein digitales Audiosignal anliegt. Dieses Signal wird auf einschlägig bekannte Weise in einem Digital-Analog-Wandler 27 zu einem analogen Signal umgewandelt, erforderlichenfalls verstärkt und zu anderen Weiterverarbeitungsstufen übertragen. In 3 ist dies durch den Audioblock 32 veranschaulicht.
Wenn die im Kodierer 1 gebildete Bit-Kette 501 die Werte des ursprünglichen Signals umfasst, das in den Frequenzbereich transformiert wurde, so erfolgt das Dekodieren vorteilhafterweise auf folgende Art. Die quantisierten frequenzbereichstransformierten Werte werden in dem Umkehrquantisierungsblock 22 umkehrquantisiert und über den Summierungsblock 23 zum Umkehrtransformationsblock 26 übermittelt. Im Umkehrtransformationsblock 26 wird das Frequenzbereichssignal mittels einer umkehrmodifizierten DCT-Transformation in den Zeitbereich transformiert, wobei ein Zeitbereichssignal, das dem ursprünglichen Audiosignal entspricht, in digitalem Format erzeugt wird. Dieses Signal wird erforderlichenfalls in dem Digital-Analog-Wandler 27 zu einem analogen Signal transformiert.
In 2 veranschaulicht das Bezugszeichen A2 die Übertragung von Steuerungsinformationen zum Summierungsblock 23. Diese Steuerungsinformationen werden in einer Weise verwendet, die derjenigen analog ist, die in Verbindung mit der lokalen Dekodierfunktion des Kodierers beschrieben wurde. Oder anders ausgedrückt:
Wenn die Kodierungsverfahrensinformationen, die sich im Feld 502 einer empfangenen Bit-Kette 501 befinden, anzeigen, dass die Bit-Kette quantisierte Frequenzbereichswerte enthält, die von dem Audiosignal selbst hergeleitet wurden, so wird der Betrieb des Summierungsblocks 23 unterbunden. Dadurch können die quantisierten Frequenzbereichswerte des Audiosignals den Summierungsblock 23 zum Umkehrtransformationsblock 26 passieren. Wenn andererseits die Kodierungsverfahrensinformationen, die aus dem Feld 502 einer empfangenen Bit-Kette abgerufen wurden, anzeigen, dass das Audiosignal unter Verwendung eines Tonhöhenprädiktors kodiert wurde, so wird der Betrieb des Summierungsblocks 23 ermöglicht, wodurch umkehrquantisierte Vorhersagefehlerdaten mit der Frequenzbereichsdarstellung des vorhergesagten Signals, das durch den Transformationsblock 25 erzeugt wurde, summiert werden können.
In dem Beispiel von 3 ist das Sendegerät ein Drahtloskommunikationsgerät 2, und das Empfangsgerät ist eine Basisstation 31, wobei das von dem Drahtloskommunikationsgerät 2 gesendete Signal im Dekodierer 33 der Basisstation 31 dekodiert wird, von der das analoge Audiosignal auf einschlägig bekannte Weise zu weiteren Verarbeitungsstufen übertragen wird.
Es versteht sich, dass im vorliegenden Beispiel nur die Merkmale vorgestellt werden, die für die Anwendung der Erfindung am wichtigsten sind, aber in praktischen Anwendungen umfasst das Datenübertragungssystem auch noch andere Funktionen als die hier vorgestellten. Es ist ebenfalls möglich, in Verbindung mit dem erfindungsgemäßen Kodieren andere Kodierungsverfahren zu verwenden, wie beispielsweise Kurzzeitprädiktion. Des Weiteren können beim Übertragen des erfindungsgemäß kodierten Signals auch andere Verarbeitungsschritte ausgeführt werden, wie beispielsweise Kanalkodierung.
Es ist ebenfalls möglich, die Entsprechung zwischen dem vorhergesagten Signal und dem tatsächlichen Signal im Zeitbereich zu bestimmen. Damit ist es – bei einer alternativen Ausführungsform der Erfindung – nicht nötig, die Signale in den Frequenzbereich zu transformieren, wobei die Transformationsblöcke 6, 11 nicht unbedingt erforderlich sind, wie auch der Umkehrtransformationsblock 19 des Kodierers und der Transformationsblock 25 und der Umkehrtransformationsblock 26 des Dekodierers. Die Kodierungseffizienz und der Vorhersagefehler werden somit auf der Grundlage von Zeitbereichssignalen ermittelt.
Die zuvor beschriebenen Audiosignalkodierungs- und -dekodierungsstufen können in unterschiedlichen Arten von Datenübertragungssystemen angewendet werden, wie beispielsweise in Mobilkommunikationssystemen, Satellitenfernsehsystemen, Video-auf-Abruf-Systemen usw. Beispielsweise erfordert ein Mobilkommunikationssystem, in dem Audiosignale in Vollduplex übertragen werden, ein Kodierer-Dekodierer-Paar sowohl in dem Drahtloskommunikationsgerät 2 als auch in der Basisstation 31 oder dergleichen. In dem Blockschaubild von 3 sind entsprechende Funktionsblöcke des Drahtloskommunikationsgerätes 2 und der Basisstation 31 überwiegend mit den gleichen Bezugszahlen gekennzeichnet.
Obgleich der Kodierer 1 und der Dekodierer 33 in 3 als separate Einheiten dargestellt sind, können sie in praktischen Anwendungen in einer einzigen Einheit – einem sogenannten Codec – implementiert werden, in der alle Funktionen, die für die Durchführung des Kodierens und Dekodierens erforderlich sind, implementiert sind. Wenn das Audiosignal in dem Mobilkommunikationssystem in digitalem Format übertragen wird, so sind eine Analog-Digital-Umwandlung bzw. eine Digital-Analog-Umwandlung in der Basisstation nicht notwendig. Somit erfolgen diese Transformationen in dem Drahtloskommunikationsgerät und in der Schnittstelle, über die das Mobilkommunikationsnetz mit einem anderen Telekommunikationsnetz, beispielsweise einem öffentlichen Telefonnetz, verbunden ist. Wenn es sich bei diesem Telefonnetz allerdings um ein digitales Telefonnetz handelt, so können diese Transformationen auch beispielsweise in einem (nicht gezeigten) digitalen Telefon, das an ein solches Telefonnetz angeschlossen ist, durchgeführt werden.
Die zuvor beschriebenen Kodierungsstufen werden nicht unbedingt in Verbindung mit der Übertragung ausgeführt, sondern die kodierten Informationen können für eine spätere Übertragung gespeichert werden. Des Weiteren braucht das dem Kodierer zugeführte Audiosignal nicht unbedingt ein Echtzeit-Audiosignal zu sein, sondern bei dem zu kodierenden Audiosignal kann es sich um Informationen handeln, die zu einem früheren Zeitpunkt aus dem Audiosignal gespeichert wurden.
Im Folgenden werden die verschiedenen Kodierungsstufen gemäß einer vorteilhaften Ausführungsform der Erfindung mathematisch beschrieben. Die Transferfunktion des Tonhöhenprädiktorblocks hat die Form:
wobei: a die Verzögerung ist, b(k) die Koeffizienten des Tonhöhenprädiktors sind und ml und m₂ von der Ordnung (M) abhängen, vorteilhafterweise auf folgende Art: m1 = (M – 1)/2 m2 = M – m1 – 1
Vorteilhafterweise wird die am besten entsprechende Folge von Abtastwerten (d. h. die Bezugsfolge) mittels der Methode der kleinsten Quadrate bestimmt. Dies kann ausgedrückt werden al:
wobei: E = Fehler, x() = das Eingangssignal im Zeitbereich, x() = das Signal, das aus der vorhergehenden Folge von Abtastwerten rekonstruiert wurde, und N = die Anzahl der Abtastwerte in dem untersuchten Datenblock. Die Verzögerung a kann durch Einstellen der Variable m₁ = 0 und m₂ = 0 und Lösen von b von Gleichung 2 berechnet werden. Eine weitere Alternative zum Lösen der Verzögerung a ist das Verwenden des Verfahrens der normalisierten Korrelation anhand der Formel:
Wenn die am besten entsprechende (Bezugs-) Folge von Abtastwerten gefunden wurde, so besitzt der Verzögerungsblock 7 Informationen über die Verzögerung, d. h. um wie viel früher die entsprechende Folge von Abtastwerten in dem Audiosignal erschien.
Die Tonhöhenprädiktorkoeffizienten b(k) können für jede Ordnung M aus der Gleichung (2) berechnet werden, was in folgender Form neu ausgedrückt werden kann:
Der optimale Wert für die Koeffizienten b(k) kann durch die Suche nach einem Koeffizienten b(k) bestimmt werden, bei dem die Änderung des Fehlers bezüglich b(k) so klein wie möglich ist. Dies kann durch Einstellen der partiellen Ableitung der Fehlerbeziehung bezüglich b auf Null (∂E/∂b = 0) berechnet werden, wobei die folgende Formel erhalten wird:
das heißt:
Diese Gleichung kann im Matrixformat geschrieben werden, wobei die Koeffizienten b(k) durch Lösen folgender Matrixgleichung bestimmt werden können: b = A –1·r wobei:
Bei dem erfindungsgemäßen Verfahren besteht die Aufgabe darin, die Periodizität des Audiosignals effektiver zu nutzen, als Systeme nach dem Stand der Technik es tun. Dies wird durch Verbessern der Anpassbarkeit des Kodierers an Änderungen bei der Frequenz des Audiosignals erreicht, indem Tonhöhenprädiktorkoeffizienten für verschiedene Ordnungen berechnet werden. Die Tonhöhenprädiktorordnung, die zum Kodieren des Audiosignals verwendet wird, kann in einer solchen Weise ausgewählt werden, dass der Vorhersagefehler minimiert wird, dass die Kodierungseffizienz maximiert wird oder dass ein Kompromiss zwischen Vorhersagefehler und Kodierungseffizienz erreicht wird. Die Auswahl wird in bestimmten Zeitabständen durchgeführt, vorzugsweise unabhängig für jeden Datenblock. Die Ordnung und die Tonhöhenprädiktorkoeffizienten können daher von Datenblock zu Datenblock verschieden sein. Bei dem erfindungsgemäßen Verfahren ist es daher möglich, die Flexibilität des Kodierens im Vergleich zu Kodierungsverfahren nach dem Stand der Technik, bei denen eine feste Ordnung verwendet wird, zu steigern. Des Weiteren kann bei dem erfindungsgemäßen Verfahren – wenn die Menge an Informationen (die Anzahl der Bits), die für einen bestimmten Datenblock zu übertragen ist, nicht durch Kodieren verringert werden kann – das in den Frequenzbereich transformierte ursprüngliche Signal anstelle der Tonhöhenprädiktorkoeffizienten und des Fehlersignals übertragen werden.
Die oben vorgestellten Berechnungsweisen, die in dem erfindungsgemäßen Verfahren verwendet werden, können vorteilhaft in Form eines Programms, als Programmcodes der Steuerung 34 in einer digitalen Signalverarbeitungseinheit oder dergleichen und/oder als Hardware-Implementierung realisiert werden. Anhand der obigen Beschreibung der Erfindung kann ein Fachmann den erfindungsgemäßen Kodierer 1 implementieren, so dass es nicht erforderlich ist, in diesem Kontext näher auf die verschiedenen Funktionsblöcke des Kodierers 1 einzugehen.
Um die Tonhöhenprädiktorkoeffizienten zum Empfänger zu übertragen, ist es möglich, sogenannte Nachschlagetabellen zu verwenden. In einer solchen Nachschlagetabelle werden verschiedene Koeffizientenwerte gespeichert, wobei anstelle des Koeffizienten der Index dieses Koeffizienten in der Nachschlagetabelle übertragen wird. Die Nachschlagetabelle ist sowohl dem Kodierer 1 als auch dem Dekodierer 33 bekannt. Auf der Empfangsstufe ist es möglich, den betreffenden Tonhöhenprädiktorkoeffizienten anhand des übertragenen Index' durch Verwenden der Nachschlagetabelle zu bestimmen. In einigen Fällen kann das Verwenden der Nachschlagetabelle die Anzahl der zu übertragenden Bits – im Vergleich zum Übertragen von Tonhöhenprädiktorkoeffizienten – verringern.
Die vorliegende Erfindung ist weder auf die oben vorgestellten Ausführungsformen beschränkt, noch ist sie in anderen Aspekten eingeschränkt; sie kann vielmehr innerhalb des Geltungsbereichs der angehängten Ansprüche modifiziert werden.

Claims

Verfahren für das Kodieren eines Audiosignals, die folgenden Schritte umfassend: – Untersuchen eines Anteils des Audiosignals, das zu kodieren ist, um einen anderen Anteil des Audiosignals zu finden, der dem Anteil des Audiosignals, das zu kodieren ist, am besten entspricht, welcher als eine Bezugsfolge von Abtastwerten ausgewählt wird; – Herstellen einer Gruppe von vorhergesagten Signalen auf Basis der Bezugsfolge von Abtastwerten unter Verwendung einer Gruppe von Tonstufenprädiktoranweisungen; – Ermitteln einer Kodierungseffizienz für mindestens eines der vorhergesagten Signale; und – Verwenden der ermittelten Kodierungseffizienz zum Auswählen eines Kodierungsverfahrens für den Anteil des Audiosignals, das zu kodieren ist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die auswählbaren Kodierungsverfahren ein Verfahren umfassen, in welchem das Audiosignal, das zu kodieren ist, auf der Basis eines vorhergesagten Signals kodiert wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die auswählbaren Kodierungsverfahren ein Verfahren umfassen, in welchem das Audiosignal, das zu kodieren ist, auf der Basis des Audiosignals selbst kodiert wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für jedes der vorhergesagten Signale ein Kodierungsfehler ermittelt wird.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Kodierungseffizienz für das vorhergesagte Signal ermittelt wird, das den kleinsten Kodierungsfehler aufweist, und dass das Kodieren auf Basis des vorhergesagten Signals ausgeführt wird, das den kleinsten Kodierungsfehler aufweist, wenn die ermittelten Kodierungseffizienzinformationen anzeigen, dass die Menge der kodierten Informationen kleiner ist als dann, wenn das Kodieren auf der Basis des Anteils des Audiosignals ausgeführt wird, das zu kodieren ist.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass der Anteil des Audiosignals, das zu kodieren ist, in den Frequenzbereich transformiert wird, um das Frequenzspektrum des Audiosignals zu ermitteln, und jedes vorhergesagte Signal in den Frequenzbereich transformiert wird, um das Frequenzspektrum eines jeden vorhergesagten Signals zu ermitteln, und dass die Kodierungseffizienz für das vorhergesagte Signal ermittelt wird, das den kleinsten Kodierungsfehler auf der Basis des Frequenzspektrums des Audiosignals und des Frequenzspektrums des vorhergesagten Signals aufweist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für jedes der vorhergesagten Signale eine Kodierungseffizienz ermittelt wird und für jene vorhergesagten Signale ein Kodierungsfehler ermittelt wird, für welche die ermittelten Kodierungseffizienzinformationen anzeigen, dass die Menge der kodierten Informationen kleiner ist als dann, wenn das Kodieren auf Basis des Anteils des Audiosignals, das zu kodieren ist, ausgeführt wird, und das Kodieren auf der Basis des vorhergesagten Signals ausgeführt wird, das den kleinsten Kodierungsfehler liefert.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für jedes der vorhergesagten Signale eine Kodierungseffizienz ermittelt wird und das Kodieren auf Basis des vorhergesagten Signals ausgeführt wird, das die höchste Kodierungseffizienz aufweist, wenn die ermittelten Kodierungseffizienzinformationen anzeigen, dass die Menge der kodierten Informationen kleiner ist als dann, wenn das Kodieren auf der Basis des Anteils des Audiosignals, das zu kodieren ist, ausgeführt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine Kodierungseffizienz für jedes der vorhergesagten Signale ermittelt wird und die Kodierung auf Basis des vorhergesagten Signals ausgeführt wird, das die höchste Kodierungseffizienz liefert.
Verfahren nach Anspruch 7, 8 oder 9, dadurch gekennzeichnet, dass der Anteil des Audiosignals, das zu kodieren ist, in den Frequenzbereich transformiert wird, um das Frequenzspektrum des Audiosignals zu ermitteln, und jedes vorhergesagte Signal in den Frequenzbereich transformiert wird, um das Frequenzspektrum eines jeden vorhergesagten Signals zu ermitteln, und dass die Kodierungseffizienz für jedes vorhergesagte Signal auf der Basis des Frequenzspektrums des Audiosignals und des Frequenzspektrums des vorhergesagten Signals ermittelt wird.
Verfahren nach Anspruch 5, 6, 7, 8 oder 9, dadurch gekennzeichnet, dass für jedes der vorhergesagten Signale Vorhersagefehlerinformationen ermittelt werden.
Verfahren nach Anspruch 5, 6, 7, 8 oder 9, dadurch gekennzeichnet, dass die vorhergesagten Signale unter Verwendung einer für jedes der vorhergesagten Signale unterschiedlichen Vorhersageanweisung gebildet werden.
Verfahren nach Anspruch 6 oder 10, dadurch gekennzeichnet, dass die Vorhersagefehlerinformationen, die für jedes der vorhergesagten Signale ermittelt werden, als ein Differenzspektrum berechnet werden, das die Verwendung des Frequenzspektrums des Audiosignals und des Frequenzspektrums des vorhergesagten Signals repräsentiert.
Verfahren nach Anspruch 10 oder 13, dadurch gekennzeichnet, dass die Transformation in den Frequenzbereich unter Verwendung einer modifizierten DCT-Transformation ausgeführt wird.
Verfahren nach einem der Ansprüche 1 bis 14, dadurch gekennzeichnet, dass die kodierten Informationen (501) des vorhergesagten Signals zumindest Daten, die das Kodierungsverfahren (502) betreffen, Daten, welche die ausgewählte Anweisung (504) betreffen, eine Verzögerung (505), Tonstufenprädiktorkoeffizienten (506) und Daten, die sich auf den Vorhersagefehler (507) beziehen, umfassen.
Verfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, dass das Audiosignal in Rahmen unterteilt wird, wobei das Kodieren für jeden Rahmen, der aus dem Audiosignal gebildet wird, getrennt ausgeführt wird.
Verfahren nach einem der Ansprüche 1 bis 16, dadurch gekennzeichnet, dass das Audiosignal ein Sprachsignal ist.
Verfahren nach einem der Ansprüche 4 bis 7, dadurch gekennzeichnet, dass der Kodierungsfehler unter Verwendung eines der folgenden Verfahren ermittelt wird: – eine Methode der kleinsten Quadrate; – ein Verfahren, das auf dem psychoakustischen Modellieren des Audiosignals beruht, das zu kodieren ist.
Verfahren nach Anspruch 18, dadurch gekennzeichnet, dass dann, wenn der Kodierungsfehler unter Verwendung der Methode der kleinsten Quadrate ermittelt wird, der Kodierungsfehler aus dem Vorhersagefehler berechnet wird.
Verfahren nach einem der Ansprüche 1 bis 19, dadurch gekennzeichnet, dass das kodierte Audiosignal einem Empfangsgerät übermittelt wird.
Kodierer (1), der Hilfsmittel (16, 20) für das Kodieren eines Audiosignals aufweist, wobei die Hilfsmittel für das Kodieren umfassen: – Hilfsmittel (7) zum Untersuchen eines Anteils des Audiosignals, das zu kodieren ist, um einen anderen Anteil des Audiosignals zu finden, welcher am besten dem Anteil des Audiosignals, das zu kodieren ist, entspricht, welcher als eine Bezugsfolge von Abtastwerten ausgewählt wird; – Hilfsmittel (9, 10) zum Verwenden einer Gruppe von Tonstufenprädiktoranweisungen für das Herstellen einer Gruppe vorhergesagter Signale auf Basis der Bezugsfolge von Abtastwerten; – Hilfsmittel (12) zum Ermitteln einer Kodierungseffizienz für mindestens eines der vorhergesagten Signale; und – Hilfsmittel (12, 13, 14) zum Verwenden der ermittelten Kodierungseffizienz für das Auswählen eines Kodierungsverfahrens für den Anteil des Audiosignals, das zu kodieren ist.
Kodierer (1) nach Anspruch 21, dadurch gekennzeichnet, dass er Hilfsmittel (4, 6–14) aufweist, um das Audiosignal auf Basis eines vorhergesagten Signals zu kodieren.
Kodierer (1) nach Anspruch 22, dadurch gekennzeichnet, dass er Hilfsmittel (4, 6, 14) aufweist, das Audiosignal selbst zu kodieren.
Datenübertragungssystem, das einen Dekodierer gemäß Anspruch 21 und Hilfsmittel (16) zum Übertragen des kodierten Audiosignals umfasst.
Datenübertragungssystem nach Anspruch 24, dadurch gekennzeichnet, dass es Hilfsmittel zum Ermitteln eines Kodierungsfehlers für mindestens eines der vorhergesagten Signale umfasst.
Datenübertragungssystem nach Anspruch 24, dadurch gekennzeichnet, dass es Hilfsmittel zum Transformieren des Anteils des Audiosignals, das zu kodieren ist, in den Frequenzbereich und Hilfsmittel zum Transformieren eines jeden vorhergesagten Signals in den Frequenzbereich umfasst.
Datenübertragungssystem nach Anspruch 24, dadurch gekennzeichnet, dass es Hilfsmittel zum Bilden einer Bitfolge (15) für die Übertragung an ein Empfangsgerät umfasst, wobei die Bitfolge zumindest Informationen bezüglich des ausgewählten Kodierungsverfahrens aufweist.
Datenübertragungssystem nach einem der Ansprüche 24 bis 27, dadurch gekennzeichnet, dass es Hilfsmittel zum Unterteilen des Audiosignals in Rahmen umfasst.
Datenübertragungssystem nach einem der Ansprüche 24 bis 28, dadurch gekennzeichnet, dass es ein mobiles Endgerät aufweist.
Dekodierer (33) zum Dekodieren eines Audiosignals, das in einem Kodierer gemäß Anspruch 21 kodiert wurde, dadurch gekennzeichnet, dass der Dekodierer umfasst – Hilfsmittel zum Ermitteln des Kodierungsverfahrens des zu dekodierenden Audiosignals, welche Hilfsmittel umfassen, um auf der Basis der Kodierungsverfahrensinformationen (502) zu untersuchen, ob die empfangenen Informationen auf Basis des ursprünglichen Audiosignals formiert wurden, und Hilfsmittel zum Untersuchen der Tonstufenprädiktoranweisung (M), die in der Kodierungsphase verwendet wurde, und – Hilfsmittel zum Dekodieren des Audiosignals entsprechend dem ermittelten Kodierungsverfahren, die Hilfsmittel (21) für den Empfang der sich auf ein vorhergesagtes Signal beziehenden Informationen, Hilfsmittel für das Dekodieren des Signals unter Verwendung der kodierten Informationen, die auf Basis des Audiosignals selbst formiert wurden, Hilfsmittel für die Auswahl der Tonstufenprädiktoranweisung für das Dekodieren des Signals und Hilfsmittel für das Dekodieren des Signals durch Ausführen einer Vorhersage gemäß der ausgewählten Tonstufenprädiktoranweisung (M) umfassen.
Dekodierer nach Anspruch 30, dadurch gekennzeichnet, dass der Dekodierer Hilfsmittel (21) umfasst, um aus den empfangenen Informationen zumindest Daten, welche die ausgewählte Anweisung (504) betreffen, eine Verzögerung (505), mindestens einen Tonstufenprädiktorkoeffizienten (506) und Vorhersagefehlerdaten (507) zu ermitteln.
Dekodierer nach Anspruch 31, dadurch gekennzeichnet, dass er Hilfsmittel (24, 28) zum Herstellen eines vorhergesagten Signals umfasst, wobei Daten, welche die ausgewählte Anweisung (504) betreffen, eine Verzögerung (505) und mindestens ein Tonstufenprädiktorkoeffizient (506) verwendet werden.
Dekodierer nach Anspruch 31 oder 32, dadurch gekennzeichnet, dass er Hilfsmittel (23, 24, 28) für das Herstellen eines rekonstruierten Audiosignals umfasst, wobei das vorhergesagte Signal und die vorhergesagten Vorhersagefehlerdaten verwendet werden.
Dekodierer nach Anspruch 30, dadurch gekennzeichnet, dass er Hilfsmittel (21) für den Empfang von Informationen umfasst, die sich auf das Audiosignal selbst beziehen.
Dekodierer nach Anspruch 34, dadurch gekennzeichnet, dass er Hilfsmittel (22, 23, 26) zum Herstellen eines rekonstruierten Audiosignals umfasst, wobei die empfangenen Informationen verwendet werden, die sich auf das Audiosignal selbst beziehen.
Verfahren zum Dekodieren eines Audiosignals, welches entsprechend dem Verfahren von Anspruch 1 kodiert wurde, dadurch gekennzeichnet, dass das Verfahren den Schritt umfasst, auf Basis der Kodierungsverfahrensinformationen (502) zu untersuchen, ob die empfangenen Informationen auf Basis des ursprünglichen Audiosignals formiert wurden, wobei das Signal unter Verwendung der kodierten Informationen dekodiert wird, welche auf der Basis des Audiosignals selbst formiert wurden, anderenfalls wird die in der Kodierungsphase verwendete Tonstufenprädiktoranweisung (M) untersucht und eine Vorhersage entsprechend der Tonstufenprädiktoranweisung (M) getroffen, um das Audiosignal zurückzuerhalten.