DE102019204527A1

DE102019204527A1 - Kodierungs-/dekodierungsvorrichtungen und verfahren zur kodierung/dekodierung von vibrotaktilen signalen

Info

Publication number: DE102019204527A1
Application number: DE102019204527.8A
Authority: DE
Inventors: Andreas Noll; Basak Gülecyüz; Eckehard Steinbach
Original assignee: Technische Universitaet Muenchen
Current assignee: Technische Universitaet Muenchen
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2020-10-01
Anticipated expiration: 2039-03-30
Also published as: CN111757127B; US20200312103A1; DE102019204527B4; US11113934B2; CN111757127A

Abstract

Die Erfindung bezieht sich auf eine Kodierung und Dekodierung von vibrotaktilen Signalen. Eine Kodierungsvorrichtung zum Kodieren eines solchen vibrotaktilen Signals umfasst eine erste Transformationseinheit, die so konfiguriert ist, dass sie eine diskrete Wavelet-Transformation des Signals durchführt, eine zweite Transformationseinheit, die so konfiguriert ist, dass sie eine Frequenzbereichsdarstellung des Signals erzeugt, eine psychohaptische Modelleinheit, die so konfiguriert ist, dass sie mindestens ein Quantisierungssteuersignal basierend auf der erzeugten Frequenzbereichsdarstellung des abgetasteten Signals und auf einem vorbestimmten Wahrnehmungsmodell auf der Grundlage der menschlichen haptischen Wahrnehmung erzeugt, eine Quantisierungseinheit, die so konfiguriert ist, dass sie Wavelet-Koeffizienten, die aus der durchgeführten diskreten Wavelet-Transformation resultieren und durch das Quantisierungssteuersignal angepasst sind, quantisiert, eine Kompressionseinheit, die so konfiguriert ist, dass sie die quantisierten Wavelet-Koeffizienten komprimiert, und eine Bitstrom-Erzeugungseinheit, die so konfiguriert ist, dass sie einen Bitstrom, der dem kodierten Signal entspricht, auf der Grundlage der komprimierten quantisierten Wavelet-Koeffizienten erzeugt. Die Erfindung umfasst auch eine entsprechende Dekodierungseinheit, ein entsprechendes Kodierungsverfahren und ein entsprechendes Dekodierungsverfahren.

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft eine Kodierungsvorrichtung und eine Dekodierungsvorrichtung zum Kodieren oder Dekodieren eines vibrotaktilen Signals. Ferner bezieht sich die vorliegende Erfindung auf ein Verfahren zur Kodierung und Dekodierung eines vibrotaktilen Signals. Darüber hinaus bezieht sich die vorliegende Erfindung auf einen Sender und einen Empfänger in einem Kommunikationssystem, das eine Kodierungs- oder Dekodierungsvorrichtung umfasst. Außerdem bezieht sich die vorliegende Erfindung auf ein Computerprogramm mit Befehlen, die bei der Ausführung des Programms durch einen Computer bewirken, dass der Computer das Kodierungs- oder Dekodierungsverfahren ausführt. Die Erfindung findet insbesondere im Internet der Dinge (Internet of Things; loT) Anwendung. Die Kodierungs-/Dekodierungsvorrichtungen und -verfahren der Erfindung sind jedoch auch in anderen Bereichen anwendbar, in denen Signale, die von einem Tastsensor d.h. einem taktilen Sensor erzeugt werden, zwischen einem Sender, der die Kodierungsvorrichtung umfasst, und einem Empfänger, der die Dekodierungsvorrichtung umfasst, übertragen werden müssen.
HINTERGRUND DER ERFINDUNG
Das taktile Internet (Tactile Internet) wird die nächste Revolution des Internet der Dinge (loT) sein, die Mensch-Maschine- und Maschine-Maschine-Interaktionen umfasst. Es wird interaktive Systeme in Echtzeit mit einer großen Vielfalt von industriellen, gesellschaftlichen und geschäftlichen Anwendungsfällen ermöglichen. Insbesondere das taktile Internet hat sich als ein vielversprechendes Feld für zukünftige Anwendungen des Internets herauskristallisiert. Eine der Visionen in diesem Zusammenhang ist es, den Tastsinn d.h. Berührungsempfindungen übertragbar zu machen.
Das taktile Internet ist definiert (ITU) als ein Internet-Netzwerk, das extrem niedrige Latenzzeiten mit extrem hoher Verfügbarkeit, Zuverlässigkeit und Sicherheit kombiniert. Während das mobile Internet der aktuellen 5G-Technologie bereits den Austausch von Daten und Multimedia-Inhalten unterwegs ermöglicht, ermöglicht das loT die Vernetzung von intelligenten Geräten. Eine Forderung an das taktile Internet ist, dass es die Steuerung der loT-Geräte in Echtzeit ermöglicht. Dies fügt der Mensch-Maschine-Interaktion eine neue Dimension hinzu, indem es taktile und haptische Empfindungen ermöglicht und gleichzeitig die Interaktion von Maschinen ermöglicht.
Das taktile Internet wird es somit Menschen und Maschinen ermöglichen, mit ihrer Umwelt in Echtzeit in Wechselwirkung zu treten, während sie unterwegs sind und sich innerhalb eines bestimmten räumlichen Kommunikationsbereichs bewegen. Das taktile Internet wird auch haptische Interaktion mit visuellem Feedback ermöglichen. Der Begriff der Haptik bezieht sich hier auf die Tastsinneswahrnehmung, insbesondere auf die Wahrnehmung und Manipulation von Objekten durch Berührung und Propriozeption. Unter Propriozeption versteht man das Gefühl der relativen Positionierung der Körperteile und der Kraftanstrengung bei einer Bewegung.
Da das taktile Internet, wie das Wort „taktil“ beinhaltet, auf einer „Berührung“ oder „Berührungswahrnehmung“ durch den Menschen basiert, müssen nicht nur visuelle und/oder akustische Daten (visuelles Feedback) zwischen einem Sender und einem Empfänger übertragen werden, sondern auch die Berührungs- oder Empfindungssignale selbst, die typischerweise von einem taktilen Sensor erzeugt werden (nachstehend als „vibrotaktile Signale“ bezeichnet). Wenn eine Berührungsempfindung zwischen einem Sender und einem Empfänger übertragen werden soll, kann die Berührungsempfindung, wenn ein Benutzer einen Finger über eine raue Oberfläche bewegt, z.B. von einem Beschleunigungsmesser oder anderen Messeinheiten erfasst werden, die das vibrotaktile d.h. berühungsbezogene Signal erzeugen. Das Signal ist „vibro“ (also „vibrationsbezogen“), weil die Berührungsempfindung typischerweise ein Signal erzeugt, das aus Vibrationen während einer Bewegung oder einer Berührungsaktion besteht. Dieses Signal oder diese Signale werden A/D-gewandelt, kodiert und zur Empfängerseite übertragen, wo z.B. ein entsprechender Aktor bzw. Betätigungselement auf der Empfängerseite eine Empfindung für den Benutzer regenerieren soll. Die Empfindung des Benutzers auf der Empfängerseite soll genau die Empfindung des Benutzers auf der Senderseite imitieren. Auf diese Weise soll die Empfindung auf der Senderseite und auf der Empfängerseite die gleiche sein.
In anderen Fällen soll im loT ein Benutzer auf der Senderseite des Netzwerks eine Maschine auf der Empfängerseite steuern (Mensch-Maschine-Interaktion), und in diesem Fall sollte die Genauigkeit der erzeugten Empfindung auf der Empfängerseite auch genau die Empfindung auf der erzeugten Senderseite imitieren. Neue Anwendungsfälle sind z.B. innerhalb der virtuellen Realität (Virtual Reality) und der erweiterten Realität (Augmented Reality) sowie in anderen Bereichen.
Daher sind auch unter Berücksichtigung des Echtzeitaspekts des loT zwei Aspekte bei der Übertragung vibrotaktiler Signale zwischen Sender und Empfänger wichtig. Der eine Aspekt ist die in Echtzeit zu übertragende Datenmenge, und der zweite Aspekt ist, wie Störungen auf dem Übertragungsweg oder Störungen (Rauschen), die bei der Erzeugung der Signale entstehen, die Übertragung und Genauigkeit beeinflussen können und möglicherweise dazu führen, dass die Empfangsempfindung nicht mit der Sendeempfindung übereinstimmt.
Daher müssen sowohl auf der Sendeseite als auch auf der Empfangsseite hochentwickelte Encoder (Kodierer) und Decoder eingesetzt werden.
BESCHREIBUNG DES STANDES DER TECHNIK
Die Kodierung und Dekodierung von Signalen, um visuelle und akustische Effekte auf der Empfängerseite an die entsprechenden auf der Senderseite anzupassen, ist z.B. aus früheren Standards in MP3 (akustisch/audio) oder JPEG (visuell) bekannt. Das Grundkonzept von MP3 und JPEG besteht darin, nicht das gesamte Frequenzspektrum zu übertragen und zu kodieren/dekodieren, sondern das Frequenzspektrum in mehrere Bänder zu unterteilen, die einzeln kodiert und übertragen werden. Der MP3-Standard ist insbesondere auf die Verarbeitung akustischer Signale mit deren spezifischen Eigenschaften ausgerichtet, um redundante Informationen zu beseitigen und nur nützliche Informationen zu übertragen, um die zu übertragende Datenmenge zu reduzieren. Ein ähnliches Konzept wird mit einer anderen Art von Kodierer in JPEG verwendet, wie nachstehend erläutert wird.
Ähnlich wie bei der Audio- und Videoübertragung zielt die vorliegende Erfindung darauf ab, die Aufnahme und Wiedergabe von Flächen oder Gegenständen über eine Entfernung hinweg zu ermöglichen. Eine effiziente Kodierungs-/Dekodierungsvorrichtung ist für die Erreichung dieses Ziels von entscheidender Bedeutung, da die zu übertragende Datenmenge reduziert werden muss. MPEG und JPEG sind jedoch speziell auf die Audio- und Videoübertragung ausgerichtet und eignen sich nicht für die Verwendung mit taktilen oder vibrotaktilen Signalen.
MPEG Layer-3 und AAC verwenden ausgeklügelte Audiocodecs. Im Prinzip wenden solche Codierer eine Filterbank auf Eingangssignalblöcke an, wobei das Filter diese in z.B. 32 Frequenzbänder aufteilt. Diese Subbandsignale werden dann durch eine MDCT (Modified Discrete Cosine Transformation) transformiert. Parallel dazu zielt ein psychoakustisches Modell darauf ab, Informationen aus dem Eingangssignal zu extrahieren und steuert die MDCT sowie den nachfolgenden Quantisierer, der die Ausgangskoeffizienten der MDCT verarbeitet. Nach dem Quantisierer folgt eine Huffman-Kodierungsstufe, die die Redundanz weiter reduziert. AAC hat das Prinzip von MPEG Layer-3 erweitert, um mehr Flexibilität und eine noch bessere Kompressionsleistung zu ermöglichen. Weitere Einzelheiten über das Funktionsprinzip dieser Codecs finden sich in der nachstehenden Literaturfundstelle PA1.
Die Anwendung dieser Audio-Codecs auf vibrotaktile Eingangssignale ist jedoch nicht auf einfache Weise möglich. Selbst mit leichten Modifikationen, die den Codec in die Lage versetzen, mit vibrotaktilen Signalen zu arbeiten, liefert er keine ausreichenden Ergebnisse. Dies ist darauf zurückzuführen, dass viele Elemente des Codecs auf Audiosignale, aber nicht auf vibrotaktile Signale zugeschnitten sind. Beispielsweise berücksichtigt die 32 Subband-Filterbank mit gleich großen Frequenzbereichen nicht die allgemeine Struktur von vibrotaktilen Signalen. Die Encoder-Parameter, die für Audiosignale mit einer Abtastfrequenz von etwa 44,8 kHz gewählt wurden, erzeugen auch eine lange Verzögerung und hohe Ungenauigkeit für vibrotaktile Signale, da diese eine Abtastfrequenz typischerweise im Bereich von 2-4 kHz aufweisen.
Hinsichtlich der Bildkomprimierung (visuell) gehören JPEG und JPEG2000 zu den am weitesten verbreiteten und ausgeklügelten Komprimierungsverfahren. JPEG2000 arbeitet mit Bildblöcken, indem es zunächst die DWT (Discrete Wavelet Transform) von ihnen erzeugt. Dann werden die Blöcke mit einem festen skalaren Quantisierer quantisiert. Die Wavelet-Koeffizienten in jedem Band werden durch empirisch bestimmte Skalierungsfaktoren skaliert. Diese Skalierungsfaktoren sind unabhängig vom Eingangssignal und werden aus der menschlichen visuellen Wahrnehmung abgeleitet. Nach der Quantisierung entfernt ein Algorithmus namens EBCOT die Redundanz weiter und komprimiert noch weiter. Weitere Einzelheiten zum Funktionsprinzip von JPEG2000 finden sich auch in der nachstehenden Literaturfundstelle PA2.
Eine Anpassung oder Verwendung von JPEG2000 für vibrotaktile Signale würde jedoch zu einer schlechten Komprimierungsleistung führen. Das liegt daran, dass sich Bilder und vibrotaktile Signale in ihrer allgemeinen Struktur und der Art und Weise, wie sie von Menschen wahrgenommen werden, stark unterscheiden. Eine signalunabhängige Quantisierung ist für letztere Art von Signalen nicht geeignet, da sie Phänomene wie Maskierung nicht berücksichtigen kann. Darüber hinaus ist JPEG2000 für Bilder konzipiert, bei denen das gesamte Signal auf einmal zur Verfügung steht. Vibrotaktile Signale hingegen sind Signale über die Zeit, was bedeutet, dass alle Operationen in-situ erfolgen müssen.
LITERATURVERZEICHNIS ZUM STAND DER TECHNIK

[PA1] K. Brandenburg, „MP3 and AAC explained.“ Audio Engineering Society Conference: 17th International Conference: High-Quality Audio Coding. Audio Engineering Society, 1999.
[PA2] D. S. Taubman und M. W. Marcellin, „JPEG2000: Image compression fundamentals, standards, and practice“, Kluwer Academic, 2002.

AUFGABE DER VORLIEGENDEN ERFINDUNG
Wie voranstehend erläutert, gibt es keine einfache Lösung für die Komprimierung von vibrotaktilen Signalen mit akzeptabler Leistung wegen der spezifischen Eigenschaften der vibrotaktilen Signale, die im Wesentlichen Signale sind, die aus den bei einer Bewegung verursachten Vibrationen resultieren. Außerdem besteht der spezifische Nachteil bei der Verwendung von MP3- und JPEG-Codierern darin, dass sie hohe Verzerrungen verursachen und eine große Datenmenge übertragen. Die Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren und eine Vorrichtung zur Kodierung/Dekodierung von vibrotaktilen Signalen bereitzustellen, die diese Nachteile überwinden. Insbesondere ist es die Aufgabe der vorliegenden Erfindung, eine Kodierungsvorrichtung/ein Kodierungsverfahren und eine Dekodierungsvorrichtung/ein Dekodierungsverfahrens bereitzustellen, die eine effiziente und qualitativ hochwertige Kompression von vibrotaktilen Signalen ermöglichen.
ZUSAMMENFASSUNG DER ERFINDUNG
Diese Aufgabe wird durch eine Kodierungsvorrichtung nach Anspruch 1 gelöst. Diese Kodierungsvorrichtung zum Codieren eines vibrotaktilen Signals umfasst eine erste Transformationseinheit, die so konfiguriert ist, dass sie eine diskrete Wavelet-Transformation des Signals durchführt, eine zweite Transformationseinheit, die so konfiguriert ist, dass sie eine Frequenzbereichsdarstellung des Signals erzeugt, eine psychohaptische Modelleinheit, die so konfiguriert ist, dass sie mindestens ein Quantisierungssteuersignal auf der Grundlage der erzeugten Frequenzbereichsdarstellung des abgetasteten Signals und eines vorbestimmten Wahrnehmungsmodells auf der Grundlage der menschlichen haptischen Wahrnehmung erzeugt, eine Quantisierungseinheit, die so konfiguriert ist, dass sie Wavelet-Koeffizienten, die aus der durchgeführten diskreten Wavelet-Transformation resultieren und durch das Quantisierungssteuersignal angepasst werden, quantisiert, eine Kompressionseinheit, die so konfiguriert ist, dass sie die quantisierten Wavelet-Koeffizienten komprimiert, und eine Bitstrom-Erzeugungseinheit, die so konfiguriert ist, dass sie einen Bitstrom, der dem kodierten Signal entspricht, auf der Grundlage der komprimierten quantisierten Wavelet-Koeffizienten erzeugt.
Darüber hinaus wird diese Aufgabe durch eine Dekodierungsvorrichtung nach Anspruch 14 gelöst. Diese Dekodierungsvorrichtung zum Dekodieren eines vibrotaktilen Signals aus einem Bitstrom umfasst eine Dekompressionseinheit, die so konfiguriert ist, dass sie den Bitstrom dekomprimiert, wobei insbesondere ein Algorithmus, der auf einer inversen Mengenaufteilung in hierarchischen Bäumen (Inverse Set Partitioning in Hierachical Trees) basiert, für die Dekomprimierung vorgesehen ist, eine Dequantisierungseinheit, die so konfiguriert ist, dass sie den dekomprimierten Bitstrom dequantisiert, und eine dritte Transformationseinheit, die so konfiguriert ist, dass sie eine inverse diskrete Wavelet-Transformation des dequantisierten Bitstroms durchführt.
Darüber hinaus wird diese Aufgabe durch ein Kodierungsverfahren nach Anspruch 15 gelöst. Dieses Kodierungsverfahren zur Kodierung eines vibrotaktilen Signals umfasst die folgenden Schritte: Durchführen einer diskreten Wavelet-Transformation des Signals; Erzeugen einer Frequenzbereichsdarstellung des Signals; Erzeugen mindestens eines Quantisierungssteuersignals auf der Grundlage der erzeugten Frequenzbereichsdarstellung des Signals und eines vorbestimmten Wahrnehmungsmodells, das auf menschlicher haptischer Wahrnehmung basiert; Quantisieren von Wavelet-Koeffizienten, die aus der durchgeführten diskreten Wavelet-Transformation resultieren und durch das Quantisierungssteuersignal angepasst sind, Komprimieren der quantisierten Wavelet-Koeffizienten und Erzeugen eines Bitstroms, der dem kodierten Signal entspricht, auf der Grundlage der komprimierten quantisierten Wavelet-Koeffizienten.
Darüber hinaus wird diese Aufgabe durch ein Dekodierungsverfahren nach Anspruch 16 gelöst. Dieses Dekodierungsverfahren zum Dekodieren eines vibrotaktilen Signals aus einem Bitstrom umfasst die folgenden Schritte: Dekomprimieren des Bitstroms, wobei insbesondere ein auf inverser Mengenaufteilung in hierarchischen Bäumen (Inverse Set Partitioning in Hierarchical Trees) basierender Algorithmus für die Dekomprimierung vorgesehen ist, Dequantisieren des dekomprimierten Bitstroms, und Durchführen einer inversen diskreten Wavelet-Transformation des dequantisierten Bitstroms.
Darüber hinaus wird diese Aufgabe durch einen Sender in einem Kommunikationssystem, das die Kodierungsvorrichtung nach Anspruch 1 umfasst, gelöst.
Darüber hinaus wird diese Aufgabe durch einen Empfänger in einem Kommunikationssystem, das die Dekodierungsvorrichtung nach Anspruch 14 umfasst, gelöst.
Darüber hinaus wird diese Aufgabe durch ein Computerprogramm, das Befehle enthält, die bei der Ausführung des Programms durch einen Computer den Computer veranlassen, die Verfahren des Anspruchs 15 oder 16 auszuführen, gelöst.
Weitere vorteilhafte Ausführungsformen und Verbesserungen der Erfindung sind in den abhängigen Ansprüchen angegeben.
Besonders vorteilhaft ist zum Beispiel, dass die Kodierungsvorrichtung der vorliegenden Erfindung weiterhin eine Blockeinheit umfasst, die so konfiguriert ist, dass sie das gesammelte Signal in eine Vielzahl von aufeinanderfolgende Blöcke aufteilt.
In einer bevorzugten Ausführungsform der Kodierungsvorrichtung der vorliegenden Erfindung ist die erste Transformationseinheit ausgelegt, die diskrete Wavelet-Transformation durch Verwendung eines biorthogonalen Wavelets, insbesondere eines Cohen-Daubechies-Feauveau-Wavelets, insbesondere bevorzugt eines 9/7-Cohen-Daubechies-Feauveau-Wavelets, durchzuführen.
In einer weiteren bevorzugten Ausführungsform der Kodierungsvorrichtung der vorliegenden Erfindung ist die zweite Transformationseinheit so konfiguriert, dass sie die Frequenzbereichsdarstellung durch Verwendung einer diskreten Fouriertransformation, einer schnellen Fouriertransformation, einer diskreten Kosinustransformation oder einer diskreten Sinustransformation des abgetasteten Signals erzeugt.
In einer weiteren bevorzugten Ausführungsform der Kodierungsvorrichtung der vorliegenden Erfindung ist die psychohaptische Modelleinheit so konfiguriert, dass sie Spitzen im Signalspektrum identifiziert, wobei jede Spitze einer Frequenz und einer Größe entspricht und wobei die psychohaptische Modelleinheit einen Speicher umfasst, der so ausgelegt ist, dass er die Frequenz und die Größe jeder identifizierten Spitze speichert.
In einer weiteren bevorzugten Ausführungsform der Kodierungsvorrichtung der vorliegenden Erfindung ist die psychohaptische Modelleinheit so konfiguriert, dass sie eine Maskierungsschwelle für die Spitzen bei verschiedenen Frequenzen auf der Grundlage der Frequenz und der Größe jeder Spitze berechnet.
In einer weiteren bevorzugten Ausführungsform der Kodierungsvorrichtung der vorliegenden Erfindung ist die psychohaptische Modelleinheit ferner so konfiguriert, dass sie eine absolute Wahrnehmungsschwelle bei verschiedenen Frequenzen berechnet, die einer Signalgröße, insbesondere einer mittleren Signalgröße, entspricht, die der Mensch bei einer bestimmten Frequenz benötigt, um ein Signal wahrnehmen zu können.
In einer weiteren bevorzugten Ausführungsform der Kodierungsvorrichtung der vorliegenden Erfindung ist die psychohaptische Modelleinheit weiter konfiguriert, um eine globale Maskierungsschwelle auf der Basis der Maskierungsschwelle und der absoluten Schwelle zu berechnen.
In einer weiteren bevorzugten Ausführungsform der Kodierungsvorrichtung der vorliegenden Erfindung ist die psychohaptische Modelleinheit so konfiguriert, dass sie ein Signal-zu-Maskierungs-Verhältnis auf der Grundlage der Summe der Energie der globalen Maskierungsschwelle bei verschiedenen Frequenzen und der Energie des Signals berechnet, insbesondere um das Signal-zu-Maskierungs-Verhältnis für jedes Frequenzband der Wavelet-Koeffizienten der diskreten Wavelet-Transformation zu berechnen.
In einer weiteren bevorzugten Ausführungsform der Kodierungsvorrichtung der vorliegenden Erfindung ist die Quantisierungseinheit so konfiguriert, dass sie Wavelet-Koeffizienten durch Zuweisung von Bits für jedes Frequenzband der Wavelet-Koeffizienten auf der Grundlage eines Maskierungs-Rausch-Verhältnisses quantisiert, wobei das Maskierungs-Rausch-Verhältnis auf der Grundlage des Signal-Maskierungs-Verhältnisses und eines Signal-Rausch-Verhältnisses berechnet wird, das auf der Grundlage der Energie des Signals und der Energie eines durch die Quantisierung eingeführten Rauschens berechnet wird.
In einer weiteren bevorzugten Ausführungsform der Kodierungsvorrichtung der vorliegenden Erfindung ist die Kompressionseinheit so ausgelegt, dass sie einen auf einer Mengenaufteilung in hierarchischen Bäumen (Set Partitioning in Hierarchical Trees) basierenden Algorithmus zur Kompression von Wavelet-Koeffizienten verwendet.
In einer weiteren bevorzugten Ausführungsform der Kodierungsvorrichtung der vorliegenden Erfindung ist die Quantisierungseinheit (10) so konfiguriert, dass sie durch das Quantisierungssteuersignal so angepasst wird, dass die während der Quantisierung in verschiedenen Frequenzbereichen in das abgetastete Signal eingeführte Verzerrung relativ zu einer Wahrnehmungsmaskierungsschwelle des Wahrnehmungsmodells für einen Menschen nicht wahrnehmbar ist.
In einer weiteren bevorzugten Ausführungsform der Kodierungsvorrichtung der vorliegenden Erfindung besteht die Quantisierungseinheit aus einem eingebetteten Totzonen-Quantisierer (Deadzone Quantizer).
Wie voranstehend erläutert, wird bei der vorliegenden Erfindung bei den Kodierungs- und Dekodierungsverfahren und -vorrichtungen auf der Senderseite (Kodiererseite) und auf der Empfängerseite (Dekodiererseite) ein spezielles psychohaptisches Modell verwendet, um die Einstellung von Bits in dem Quantisierer so zu beeinflussen, dass die dekodierten vibrotaktilen Signale besser an die Berührungs- oder Tastempfindung auf der Senderseite angepasst werden und die zu übertragende Datenmenge reduziert wird.
Figurenliste
Nachstehend wird die Erfindung mit Bezug auf ihre vorteilhaften Ausführungsformen mit Bezug auf die Zeichnungen beschrieben. Diese Zeichnungen, in denen gleiche Bezugszeichen identische oder funktionell ähnliche Elemente in den einzelnen Ansichten bezeichnen, sind zusammen mit der nachstehenden detaillierten Beschreibung in die Offenbarung aufgenommen und bilden einen Teil davon. Sie dienen dazu, Ausführungsformen von Konzepten, die die beanspruchte Erfindung beinhalten, weiter zu veranschaulichen und verschiedene Prinzipien und Vorteile dieser Ausführungsformen zu erläutern.

1 zeigt eine Kodierungsvorrichtung nach einer Ausführungsform der Erfindung;
2 zeigt die internen Elemente der psychohaptischen Modelleinheit 8 der Ausführungsform der in 1 gezeigten vorliegenden Kodierungsvorrichtung 100;
3 zeigt ein schematisches Diagramm, das das Größenspektrum eines Beispielblocks, die berechneten Maskierungsschwellen, die berechnete absolute Wahrnehmungsschwelle und die daraus resultierende globale Maskierungsschwelle darstellt;
4 zeigt ein Beispiel für die 1 D-Wavelet-Koeffizienten der 1D-Version des SPIHT-Algorithmus;
5 zeigt die Baumstruktur der 1 D-Version des SPIHT-Algorithmus;
6 zeigt eine Dekodierungsvorrichtung 200 zur Dekodierung mindestens eines von einem Tastsensor d.h. taktilem Sensor gesammelten Signals aus einem Bitstrom nach einer Ausführungsform der Erfindung;
7 zeigt ein Flussdiagramm eines Kodierungsverfahrens zur Kodierung eines vibrotaktilen Signals gemäß einer Ausführungsform der Erfindung;
8 zeigt ein Flussdiagramm eines Dekodierungsverfahrens zur Dekodierung eines vibrotaktilen Signals aus einem Bitstrom entsprechend einer Ausführungsform der Erfindung;
9 zeigt das berechnete Signal-Rausch-Verhältnis (SNR) von 280 Testsignalen für verschiedene Kompressionsverhältnisse (CR);
10 zeigt das berechnete Spitzen-Signal-Rausch-Verhältnis (PSNR) der 280 Testsignale für verschiedene Kompressionsverhältnisse (CR);
11 zeigt ein Diagramm, das das Verhalten der erfindungsgemäßen Kodierungs-/Dekodierungsvorrichtung/-verfahrens gegenüber der Signalform schematisch darstellt; und
12 zeigt ein Blockdiagramm eines Quantisierers nach einer Ausführungsform der Erfindung.

PRINZIP DER VORLIEGENDEN ERFINDUNG
Die vorliegende Erfindung schlägt einen taktilen Codec vor. Im Wesentlichen verwendet der vorgeschlagene Codec einen wahrnehmbaren Ansatz mit einer DWT und anschließender Quantisierung. Der Quantisierer ist so konzipiert, dass er unter Berücksichtigung eines psychohaptischen Modells adaptiv ist. Nach der Quantisierung wird ein SPIHT-Algorithmus verwendet, um den zu übertragenden Bitstrom zu erzeugen. Der gesamte Prozess ist modular, und daher kann der Kodierer mit jedem psychohaptischen Modell arbeiten (obwohl nachstehend in einer Ausführungsform auch ein bestimmtes Modell beschrieben wird). Dies ermöglicht zukünftige Erweiterungen.
BESCHREIBUNG DER AUSFÜHRUNGSFORMEN DER ERFINDUNG
1 zeigt eine Kodierungsvorrichtung nach einer Ausführungsform der Erfindung. Wie in 1 gezeigt, umfasst die Kodierungsvorrichtung 100 eine Blockeinheit 2, die so konfiguriert ist, dass sie ein von einem Tastsensor gesammeltes Abtastsignal, d.h. ein vibrotaktiles Signal, in eine Vielzahl aufeinanderfolgende Blöcke aufteilt, eine erste Transformationseinheit 4, die so konfiguriert ist, dass sie eine diskrete Wavelet-Transformation (DWT) des Abtastsignals durchführt, und eine zweite Transformationseinheit 6, die so konfiguriert ist, dass sie eine diskrete Fourier-Transformation (DFT) durchführt, um eine Frequenzbereichsdarstellung des Abtastsignals zu erzeugen.
Die Kodierungsvorrichtung 100 umfasst ferner eine psychohaptische Modelleinheit 8, die so konfiguriert ist, dass sie mindestens ein Quantisierungssteuersignal auf der Grundlage der erzeugten Frequenzbereichsdarstellung des abgetasteten Signals und eines vorbestimmten Wahrnehmungsmodells auf der Grundlage menschlicher haptischer Wahrnehmung erzeugt, eine Quantisierungseinheit 10, die so konfiguriert ist, dass sie Wavelet-Koeffizienten, die aus der durchgeführten diskreten Wavelet-Transformation resultieren und durch das Quantisierungssteuersignal angepasst sind, quantisiert, und eine Kompressionseinheit 12, die so konfiguriert ist, dass sie die quantisierten Wavelet-Koeffizienten komprimiert.
Das psychohaptische Modell der menschlichen haptischen Wahrnehmung beschreibt im Wesentlichen, wie ein Mensch Berührung oder Schwingungen wahrnimmt. Es wurde für verschiedene Modellannahmen erforscht und untersucht, dass die von einem Menschen wahrgenommene (haptische) Berührungsempfindung (Haptik) frequenz- und amplitudenabhängig ist. Das heißt, das eigentümliche Modell der menschlichen haptischen Wahrnehmung basiert zunächst auf einer (gemessenen) Schwellenamplitude, die notwendig ist, um eine frequenzabhängige Empfindung zu verursachen. Es hat sich jedoch auch herausgestellt, dass diese frequenzabhängige Empfindungsschwelle nicht unabhängig vom tatsächlichen Frequenzspektrum des erfassten (vibrotaktilen) Signals (eines Signals, das, wie voranstehend erläutert, als Folge von Vibrationen erzeugt wird) ist. Dies liegt an Maskierungseffekten (wie nachstehend noch erläutert) aufgrund der unterschiedlichen Eingangsfrequenzen und der (gemessenen) Schwelle. Daher beschreibt das psychohaptische Modell, wie der theoretische frequenzabhängige Empfindungsamplitudenschwellenwert in Abhängigkeit vom Eingangsfrequenzspektrum in einen modifizierten frequenzabhängigen Amplitudenschwellenwert modifiziert wird, der die Amplitudengröße bei einer bestimmten Frequenz darstellt, die wirklich benötigt wird, um bei jeder Frequenz für das jeweilige betrachtete Eingangssignal eine Empfindung zu verursachen.
Es ist ein Aspekt der vorliegenden Erfindung, dass eine solche modifizierte Schwelle (nachfolgend als „Maskierungsschwelle“ bezeichnet), die das Eingangssignal (Frequenzspektrum) durch ein besonders ausgewähltes psychohaptisches Modell (das beschreibt, wie die theoretische Schwelle in die reale Maskierungsschwelle modifiziert wird) bereits berücksichtigt (modifiziert wird), für die Zuweisung von Bits im Quantisierer durch ein Quantisierungssteuersignal verwendet wird. Das Quantisierungssteuersignal basiert auf dem frequenzabhängigen (durch das verwendete psychohaptische Modell modifizierten) Maskierungsschwellenwert, und da der Quantisierer in verschiedenen Frequenzbändern arbeitet/quantisiert, kann er diese Information über den Schwellenwert (die Amplitude) in jedem Frequenzbereich verwenden, um die Zuordnung der Anzahl der zugeordneten Bits zu den verschiedenen Frequenzbändern in Abhängigkeit von dem Empfindungsmaskierungsschwellenwert anpassbar zu machen. Da die modifizierte (Maskierungs-)Schwelle (d.h. der Schwellwert) die tatsächliche Empfindung/Wahrnehmung des Menschen für dieses bestimmte vibrotaktile Eingangssignal frequenzabhängig darstellt, wird die Zuordnung der Bits in jedem Frequenzband wahrnehmungsabhängig. Dies gilt auch in dynamischer Weise, d.h. wenn sich das Signal im Laufe der Zeit ändert, ändert sich das Spektrum, die Schwelle ändert sich in Abhängigkeit vom Modell, das beschreibt, wie die Schwelle in Abhängigkeit von Frequenz und Amplitude modifiziert wird, und folglich kann sich auch die Zuweisung von Bits in jedem Frequenzband dynamisch ändern.
Da nun im Wesentlichen die Amplitudenwahrnehmungsschwelle in jedem Frequenzband bekannt ist, verteilt das Quantisierungssteuersignal die verfügbaren Bits so auf die verschiedenen Frequenzbänder, dass das Rauschen/die Verzerrung (die bei der Quantisierung in jedem Frequenzband unweigerlich durch den Quantisierer eingeführt wird) so weit wie möglich nicht wahrnehmbar ist (abhängig von der verfügbaren Anzahl von Bits). Das heißt, das Quantisierungssteuersignal liefert die Schwelle für das betreffende Frequenzband, und der Quantisierer betrachtet dann den Quantisierungsrauschpegel (d.h. die Verzerrung) in diesem Frequenzbereich und weist so viele Bits wie möglich zu, um den Rauschpegel unter oder zumindest so nahe wie möglich an die Schwelle in eben diesem Frequenzbereich zu bringen. Dies ist möglich, weil mehr Bits (von der verfügbaren Anzahl von Bits) in einem bestimmten Frequenzbereich weniger Rauschen verursachen und weniger mehr Rauschen verursachen.
Es ist ein zweiter Aspekt der vorliegenden Erfindung, dass die modifizierte Maskierungsschwelle (modifiziert durch ein (beliebiges) psychohaptisches Modell, das auf der Modifikation der theoretischen Schwelle durch das Eingangsspektrum basiert) die Bitzuordnung in den Frequenzbändern so variabel macht, dass die bei der Quantisierung in das abgetastete Signal eingeführte Verzerrung im Verhältnis zur Wahrnehmungsmaskierungsschwelle in diesem Frequenzbereich für einen Menschen nicht wahrnehmbar ist. Dadurch wird die zu übertragende Datenmenge reduziert oder, anders ausgedrückt, es werden nur die nutzbaren Daten des an die menschliche Wahrnehmung angepassten Signals rauscharm übertragen/kodiert.
Nachstehend wird eine besondere Ausführungsform der Erstellung und Verwendung eines psychohaptischen Modells für eine schwellenwertabhängige Rauschanpassung und Bitzuordnung beschrieben.
Die Kompressionseinheit 12 kann jede verlustfreie Kompression anwenden, die eine perfekte Rekonstruktion der Originaldaten aus den komprimierten Daten ermöglicht. Insbesondere wird für den Kompressionsprozess ein Algorithmus bereitgestellt, der auf Mengenaufteilung in hierarchischen Bäumen (Set Partitioning in Hierarchical Trees) basiert.
Die Kodierungsvorrichtung 100 umfasst ferner eine Header-Kodierungseinheit 14, die so konfiguriert ist, dass sie an der Vorderseite jedes komprimierten Blocks einen Header (d.h. Anfangsblock) hinzufügt, um einige Zusatzinformationen in einen dem kodierten Signal entsprechenden Bitstrom aufzunehmen, so dass ein entsprechender Dekodierer in der Lage ist, das Signal korrekt zu dekomprimieren. Zusätzlich umfasst die Kodierungsvorrichtung 100 eine Bitstrom-Erzeugungseinheit 16, die so konfiguriert ist, dass sie den Bitstrom auf der Grundlage der komprimierten, quantisierten Wavelet-Koeffizienten und des Headers mit Zusatzinformationen erzeugt.
Der von der in 1 gezeigten Header-Kodierungseinheit 14 hinzugefügte Header besteht bei einem 512 Abtastwerte langen Block aus 32 Bit und codiert die folgenden Informationen:

- 14 Bits: Länge des folgenden zu einem Block gehörenden Bitstromsegments,
- 2 Bits: Codierung der Blocklänge, die aus 64, 128, 256 und 512 gewählt wird,
- 6 Bits: Ganze Zahl, die die maximale Anzahl der den DWT-Bändern zugeordneten Bits kodiert,
- 3 Bits: Ganze Zahl, die den Grad der DWT kodiert,
- 7 Bits: Festkommazahl mit 3 ganzzahligen und 4 Bruchbits, die den maximalen Wavelet-Koeffizientenwert des aktuellen Blocks codieren.

In einer weiteren nicht gezeigten bevorzugten Ausführungsform wird das Signal durch die Blockeinheit 2 in kleinere Blöcke mit geringerer Blocklänge aufgeteilt. Entsprechend wird die Länge des Headers reduziert.
Die erste in 1 gezeigte Transformationseinheit 4 ist so konfiguriert, dass sie eine DWT auf den Blöcken durch Anwendung von Filtern auf der Basis von eines 9/7-Cohen-Daubechies-Feauveau-Wavelets (9/7-CDF-Wavelets) durchführt. Diese Filter werden gewählt, da sie eine symmetrische Impulsantwort aufweisen, was eine lineare Phase impliziert. Daher wird bei der Eingabe von Signalwerten die gleiche Anzahl von Wavelet-Koeffizienten in jedem Block erreicht. Darüber hinaus sind die 9/7-CDF-Wavelet-Filter nahezu orthogonal, was zu einer akzeptablen Genauigkeit bei der Berechnung von Signalenergiewerten im Wavelet-Bereich führt.
2 zeigt die internen Elemente der Einheit 8 für das psychohaptische Modell der in 1 gezeigten Ausführungsform des vorliegenden Kodierungsvorrichtung 100. Diese psychohaptische Modelleinheit 8 zielt darauf ab, die Quantisierungseinheit 10 so anzupassen, dass Verzerrungen dort eingeführt werden, wo sie am wenigsten wahrnehmbar sind, und umfasst eine Modellbereitstellungseinheit 20, eine Modellanwendungseinheit 30 und eine Größenextraktionseinheit 22, die so konfiguriert ist, dass sie die Größe des Signals nach Durchführung der DFT davon extrahiert und das Ergebnis in dB darstellt.
Die Modellbereitstellungseinheit 20 umfasst eine Spitzen(Peak)-Extraktions-Untereinheit 24, eine Maskierungsschwellenberechnungs-Untereinheit 26, eine Wahrnehmungsschwellen-Untereinheit 25 und eine leistungsadditive Kombinations-Untereinheit 28. Die Modellanwendungseinheit 30 umfasst eine Bandenergie-Berechnungsuntereinheit 32 und eine SMR-Berechnungsuntereinheit 34.
Die Peak-Extraktions-Untereinheit 24 ist so konfiguriert, dass Peaks d.h. Spitzen auf der Grundlage der extrahierten Größe des Signals identifiziert werden, indem Peaks identifiziert werden, die eine bestimmte Protuberanz und Höhe haben. Jeder Peak entspricht einer Frequenz f_p und eine Größenordnung a_p. Die psychohaptische Modelleinheit besteht aus einem Speicher (nicht abgebildet), der die Frequenz f_p und Größen a_p jedes identifizierten Peaks speichert.
Die Maskierungsschwellenberechnungs-Untereinheit 26 ist so konfiguriert, dass sie eine Maskierungsschwelle für die Spitzen bei verschiedenen Frequenzen f basierend auf der Frequenz f_p und der Größen a_p jedes Peaks sowie auf einer Abtastfrequenz f_s des Signals einer Abtasteinheit, die zur Abtastung des Signals ausgelegt ist, berechnet. Die Maskierungsschwellen m_p(f) bei verschiedenen Frequenzen f für jeden Peak werden mit der folgenden Formel berechnet: $m_{p} (f) = a_{p} - 5 dB - 15 dB \frac{2 f_{p}}{f_{s}} - \frac{30 dB}{f_{p}^{2}} {(f - f_{p})}^{2} .$
Die Wahrnehmungsschwellen-Untereinheit 25 ist so konfiguriert, dass sie eine absolute Wahrnehmungsschwelle bei verschiedenen Frequenzen berechnet (aufgrund der Tatsache, dass Menschen Signale bei verschiedenen Frequenzen auf unterschiedliche Weise wahrnehmen), die einer Signalgröße, insbesondere einer durchschnittlichen Signalgröße, entspricht, die der Mensch bei einer bestimmten Frequenz benötigt, um ein Signal wahrnehmen zu können. Die absoluten Wahrnehmungsschwellen t(f) bei verschiedenen Frequenzen f werden mit der folgenden Formel berechnet: $t (f) = | \frac{60}{{({log}_{10} (3 / 7))}^{3}} {({log}_{10} (\frac{3}{2100} f + \frac{3}{7}))}^{3} | dB - 80 dB .$
Die leistungsadditive Kombinations-Untereinheit 28 ist so konfiguriert, dass sie einen globalen Maskierungsschwellenwert berechnet, indem sie eine leistungsadditive Kombination verwendet, um den absoluten Wahrnehmungsschwellenwert t(f) mit der Maskierungsschwelle m_p(f) zu addieren.
Die Bandenergie-Berechnungsuntereinheit 32 ist so konfiguriert, dass sie die Energie des Signals in jedem DWT-Band E_S,b berechnet. Die SMR-Berechnungsuntereinheit 34 ist so konfiguriert, dass sie ein Signal-Maskierungs-Verhältnis (SMR) für jedes DWT-Band basierend auf der Summe der Energie der globalen Maskierungsschwelle in jedem Band E_M,b und auf der berechneten Energie des Signals in jedem Band E_S,b berechnet. Das SMR für jedes Band wird durch Division von E_S,b durch E_M,b und die Darstellung des Ergebnisses in dB erhalten. Die SMR-Werte für alle Bänder werden zusammen mit den Werten von E_S,b. an die Quantisierungseinheit übergeben.
3 zeigt ein schematisches Diagramm, das das Größenspektrum eines Beispielblocks (dargestellt mit der durchgezogenen Linie 36), die berechneten Maskierungsschwellen (dargestellt mit der gestrichelten Linie 38), die berechnete absolute Wahrnehmungsschwelle (dargestellt mit der gestrichelten Linie 40) und die daraus resultierende globale Maskierungsschwelle (dargestellt mit der gestrichelten Linie 42) darstellt. Gemäß 3 bezeichnet die horizontale Koordinatenachse die Frequenz in Hz und die vertikale Koordinatenachse bezeichnet die Größe in dB. Die Ausgänge der Modellbereitstellungseinheit 20, der Modellanwendungseinheit 30 sowie einiger ihrer Untereinheiten sind dort schematisch dargestellt.
In einer anderen bevorzugten Ausführungsform wird die Kodierung der quantisierten Wavelet-Koeffizienten jedes Blocks über eine 1 D-Version des für eine Mengenaufteilung in hierarchischen Bäumen (Set Partitioning in Hierarchical Trees; SPIHT) vorgesehenen Algorithmus durchgeführt. Die vorliegende Erfindung ist jedoch nicht auf die Verwendung eines SPIHT-Algorithmus beschränkt, sondern kann jeden verlustfreien Kompressionsalgorithmus verwenden, der die Redundanzen des Signals entfernt und für die DWT geeignet ist.
Da der Eingang der 1D-Version des SPIHT-Algorithmus ein 1D-Signal ist, ist der SPIHT so angepasst, dass er 1 D-quantisierte Wavelet-Koeffizienten kodiert. SPIHT ist ein auf einem Nullbaum basierendes Kodierungsverfahren, das zwei Arten von Nullbäumen verwendet und die signifikanten Koeffizienten und Nullbäume durch aufeinanderfolgende Sortier- und Verfeinerungsdurchläufe kodiert. In SPIHT wird jeder quantisierte Wavelet-Koeffizient mit Amplituden-Bitebenen und einer entsprechenden Vorzeichenebene dargestellt. Die Eltern-Kind-Beziehung zwischen diesen Koeffizienten wird auf der Grundlage der angewandten DWT-Ebenen definiert und bei der Kodierung der Bitebenen durch die Iterationen der Sortier- und Verfeinerungsdurchläufe verwendet.
Ein Beispiel für die resultierenden 1D-Wavelet-Koeffizienten und die Baumstruktur ist in 4 und 5 dargestellt. Für einen 1D-Block mit 16 quantisierten Wavelet-Koeffizienten und 3 DWT-Ebenen sind die resultierenden Frequenzbänder und die entsprechenden Koeffizienten in 4 dargestellt, wobei C_i (i = 1, 2,..., oder 15) den Koeffizienten bezeichnet, und L und H die niedrigen bzw. hohen Frequenzbänder bezeichnen. Die entsprechende Baumstruktur der Eltern-Kind-Beziehung zwischen diesen Koeffizienten ist in 5 dargestellt.
SPIHT definiert drei Listen, nämlich die Liste der signifikanten Pixel (List of Significant Pixels; LSP), die Liste der nicht signifikanten Pixel (List of Insignificant Pixels; LIP) und die Liste der nicht signifikanten Mengen bzw. Sätze (List of Insignificant Sets; LIS). Beim Sortierdurchlauf wird die Position eines Koeffizienten in LSP eingefügt, wenn der Koeffizient signifikant ist, in LIP, wenn er nicht signifikant ist, oder in LIS, wenn die Koeffizienten des entsprechenden Baumes nicht signifikant sind. Außerdem werden die Bits von Koeffizienten in der Größen-Bitebene in den kodierten Bitstrom eingefügt, wenn der Koeffizient LIP oder LIS ist. Im Verfeinerungsdurchlauf werden die Bits in der Größen-Bitebene für die Koeffizienten, die vor dem letzten Sortierdurchlauf zu LSP gehören, in den kodierten Bitstrom eingefügt. Diese Durchläufe werden für jede Größen-Bitebene wiederholt. Die endgültige Ausgabe des SPIHT-Moduls ist der Bitstrom der verlustfreien Kompression von quantisierten 1D-DWT-Koeffizienten.
6 zeigt eine Dekodierungsvorrichtung 200 zur Dekodierung eines von einem Tastsensor aus einem Bitstrom gesammelten vibrotaktilen Signals entsprechend einer Ausführungsform der Erfindung. Die Dekodierungsvorrichtung 200 umfasst eine Bitstrom-Demultiplexierungseinheit 44, die so konfiguriert ist, dass sie den komprimierten Block aus dem Bitstrom mit Zusatzinformationen demultiplexiert, eine inverse SPIHT (ISPIHT)-Einheit 46 als Dekompressionseinheit, die so konfiguriert ist, dass sie den komprimierten Block dekomprimiert, eine Dequantisierungseinheit 48, die so konfiguriert ist, dass sie den dekomprimierten Block dequantisiert, und eine inverse DWT (IDWT)-Einheit 50 als dritte Transformationseinheit, die so konfiguriert ist, dass sie eine inverse DWT des dequantisierten Signals durchführt.
7 zeigt ein Flussdiagramm eines Kodierungsverfahrens zur Kodierung eines vibrotaktilen Signals gemäß einer Ausführungsform der Erfindung.
Im Schritt S1 wird ein vibrotaktiles Signal empfangen. Im Schritt S2 wird das empfangene Signal in Blöcke aufgeteilt. Im Schritt S3 wird das Spektrum der Signalblöcke durch Anwendung der DFT erhalten. Im Schritt S4 wird eine globale Maskierungsschwelle gemäß dem erfinderischen psychohaptischen Modell berechnet. Parallel zu Schritt S3 werden die Signalblöcke durch Anwendung von DWT (S5) zerlegt.
Die Quantisierungseinheit 10 weist den verschiedenen DWT-Bändern nach dem erfindungsgemäßen psychohaptischen Modell ein bestimmtes Bit-Budget zu, um die Rate erheblich zu reduzieren, ohne dass es zu einer wahrnehmbaren Verzerrung kommt. Um diese Aufgabe zu erfüllen, berücksichtigt die Quantisierungseinheit 10 die SMR Werte aus dem psychohaptischen Modell (resultierend aus Schritt S4). In einer in 7 dargestellten Schleife werden jedem Band insgesamt n Bits zugewiesen.
Nach Schritt S5 wird begonnen, jedem DWT-Band 0 Bits aus dem Gesamtbit-Budget von n Bits (S6) zuzuweisen. In jeder Iteration (S7, S9, S10) wird das SNR in dB unter Verwendung der Signalenergiewerte in jedem vom psychohaptischen Modell übergebenen Band und der durch die Quantisierung eingeführten Rauschenergie berechnet. Dann wird das Maskierungs-zu-Rausch-Verhältnis (MNR) mit der Formel „MNR = SNR - SMR“ berechnet (S9). Dann wird ein Bit dem Band mit dem niedrigsten MNR Wert zugeordnet und wiederholt, bis alle n Bits zugewiesen sind.
Eine Ausführungsform einer erfindungsgemäßen Quantisierungseinheit 10, nämlich ein eingebetteter Totzonenquantisierer (Embedded Dead Zone Quantizer), ist in 12 dargestellt. Die Quantisierungseinheit erhält, wie oben allgemein erläutert, die DWT-Transformationskoeffizienten in den verschiedenen Frequenzbändern und das von der psychohaptischen Modelleinheit ausgegebene Quantisierungssteuersignal, das die frequenzabhängige Maskierungsschwelle darstellt. In 12 stellen die horizontalen durchgehenden dicken Linien 60 die Grenzen jedes Quantisierungsintervalls 62 dar. Die runden Punkte 64 stellen die Werte dar, auf die das entsprechende Intervall nach dem folgenden Verfahren quantisiert wird. Dieses Prinzip wird für vier verschiedene Anzahlen von Quantisiererbits gezeigt.
Die Struktur in 12 ist vorteilhaft, da die Bänder im Allgemeinen eine unterschiedliche Anzahl von Quantisierungsbits aufweisen. Der maximale Wavelet-Koeffizient für den aktuellen Block w_max wird berechnet. Dieser Wert wird durch eine Deckenoperation (Ceiling Operation) auf eine Festkommazahl mit 3 ganzzahligen Bits und 4 Bruchbits quantisiert, um Folgendes zu empfangen ŵ_max. Die 7 Bits, die diesen Maximalwert darstellen, werden als Zusatzinformation an die Bitstrom-Kodierung übergeben. Die Quantisierungseinheit 10 nimmt dann die jedem Band zugeordneten Bits und diesen Maximalwert, um das Quantisierungsintervall als $Δ = \frac{{\hat{w}}_{m a x}}{2^{b}},$
zu bestimmen, wobei b die Anzahl der Bits, die einem bestimmten Band zugeordnet werden, ist. Die Wavelet-Koeffizienten werden dann gemäß der folgenden Formel quantisiert $w_{q} = s g n (w) ⌊ \frac{w}{Δ} ⌋ Δ .$
Die Wavelet-Koeffizienten werden also auf den ursprünglichen Bereich quantisiert. Diese Formel impliziert auch die Hinzufügung eines Vorzeichenbits. Nachdem alle Bits zugewiesen worden sind (S7) und somit alle Wavelet-Koeffizienten quantisiert worden sind (S8), werden alle quantisierten Wavelet-Koeffizienten auf ganze Zahlen skaliert durch $w_{q, i n t} = w_{q} \frac{2^{b_{m a x}}}{{\hat{w}}_{m a x}} .$
Diese quantisierten ganzzahligen Wavelet-Koeffizienten werden an den SPIHT-Algorithmus weitergegeben, um das Signal zu komprimieren (S11).
Danach werden die Zusatzinformationen gesammelt und mit dem kodierten Signal (S12) gemultiplext, um einen Bitstrom (S13) zu erzeugen.
8 zeigt ein Flussdiagramm eines Dekodierungsverfahrens zur Dekodierung eines vibrotaktilen Signals aus einem Bitstrom entsprechend einer Ausführungsform der Erfindung.
Im Schritt S21 wird ein Bitstrom empfangen. Im Schritt S22 wird der empfangene Bitstrom in Zusatzinformationen und ein kodiertes Signal demultiplexiert. Im Schritt S23 werden Signalblöcke aus dem kodierten Signal extrahiert. Im Schritt S24 wird ein ISPHIT auf die empfangenen kodierten Blöcke durchgeführt, um die kodierten Blöcke zu dekomprimieren. Im Schritt S25 werden die dekomprimierten Blöcke dequantisiert. Im Schritt S26 wird eine IDWT auf die dequantisierten Signalblöcke angewendet. Danach werden die dekodierten Blöcke zusammengeführt (S27), um das rekonstruierte Signal zu erzeugen (S28).
9 und 10 zeigen das berechnete Signal-Rausch-Verhältnis (SNR) und das Spitzen(Peak)-Signal-Rausch-Verhältnis (PSNR) von 280 Testsignalen für verschiedene Kompressionsverhältnisse (CR), um die Leistung der/des erfindungsgemäßen Kodierungs-/Dekodierungsvorrichtung/-verfahrens zu zeigen.
Um das Ratenverzerrungsverhalten zu untersuchen, wird ein Testdatensatz bestehend aus 280 vibrotaktilen Signalen, die mit einem Beschleunigungsmesser aufgezeichnet wurden, kodiert. Der Testdatensatz enthält Signale verschiedener Materialien für unterschiedliche Explorationsgeschwindigkeiten. Die Signale werden mit einer Blocklänge von 512 Samples (Abtastwerten) und einer DWT der Stufe 7 komprimiert.
Alle Signale werden kodiert, dekodiert und die resultierende Ausgabe wird dann mit dem Original verglichen. Die Bit-Budgets der Quantisierungseinheit 10 werden zwischen 8 und 128 Bit variiert, um unterschiedliche Raten und damit Qualitätsstufen zu erreichen. Das Kompressionsverhältnis (CR) ist definiert als das Verhältnis zwischen der Originalrate und der komprimierten Rate. Anschließend werden das SNR und PSNR für alle 280 Testsignale für verschiedene CR-Werte berechnet. Die jeweiligen Streudiagramme für alle drei Metriken mit Mittelwerten sind in 9 und 10 dargestellt. Wie in 9 und 10 dargestellt, sind die durchgezogenen Punkte 50 die Streudiagramme für alle Testsignale bei unterschiedlichen Geschwindigkeiten, und die durchgezogene Linie 55 stellt den Mittelwert über alle Testsignale dar. Aus 9 und 10 ist deutlich zu erkennen, dass die Qualität mit zunehmender Kompression abnimmt. Bei einer CR von 10 liegt ein SNR bei etwa 10 dB und ein PSNR liegt bei etwa 46 dB.

Zusätzlich sind die Ergebnisse für verschiedene Bit-Budgets n sind in der folgenden Tabelle aufgeführt.

n	CR	MSE	SNR (dB)	PSNR (dB)	Laufzeit pro Block (ms)
8	65.46	1.46 × 10^-2	2.89	39.43	4.1
10	50.51	1.35 × 10^-2	3.60	40.14	4.1
12	39.63	1.24 × 10^-2	4.25	40.79	4.5
14	31.42	1.10 × 10^-2	4.85	41.39	5.0
16	25.92	9.50 × 10^-3	5.43	41.97	5.5
20	18.15	6.64 × 10^-3	6.60	43.14	6.7
24	12.83	4.26 × 10^-3	7.94	44.47	8.0
28	9.37	2.71 × 10^-3	9.56	46.10	9.2
32	7.29	1.55 × 10^-3	11.29	47.82	10.4
40	5.22	4.83 × 10^-4	14.10	50.64	12.4
48	4.14	1.55 × 10^-4	16.14	52.68	14.2
56	3.45	5.85 × 10^-5	17.88	54.42	15.7
64	2.89	2.52 × 10^-5	20.23	56.77	17.8
80	1.82	2.38 × 10^-6	30.44	66.97	20.7
96	1.45	2.07 × 10^-7	42.31	78.84	24.7
112	1.23	6.83 × 10^-8	54.28	90.82	25.5
128	1.08	6.05 × 10^-8	66.15	102.68	29.0

Nach dieser Tabelle wird auch die erforderliche Laufzeit pro Block berechnet. Insbesondere bei niedrigen Raten ist diese Zeit ausreichend gering, um ein Echtzeit-Szenario zu ermöglichen. In diesem Fall kann eine deutlich geringere Blocklänge gewählt werden, da 512 Samples bereits eine Verzögerung von etwa 180 ms ausmachen würden. Eine Blocklänge von 64 Samples würde 23 ms Verzögerung auf Kosten einer etwas schlechteren Kompressionsleistung liefern.
11 zeigt ein Diagramm, das das Verhalten der/des erfindungsgemäßen Kodierungs-/Dekodierungsvorrichtung/-verfahrens gegenüber der Signalform schematisch darstellt. Dies kann helfen, eine weitere Intuition darüber zu gewinnen, wie wahrnehmbar die eingeführten Verzerrungen sind.
Wie in 11 dargestellt, wird ein Originalsignal (os) mit seinen ersten 200 Abtastwerten zusammen mit rekonstruierten Signalen für n=8 (11), 16 (12), 32 (13) aufgetragen. Aus 11 ist ersichtlich, dass die allgemeine Struktur des Signals auch bei sehr hoher Kompression (n=8 ist hier äquivalent zu CR≈62) erhalten bleibt.
Bei n=32 liegen die beiden Signale (os und 13) so nahe beieinander, dass davon ausgegangen werden kann, dass keine Verzerrungen wahrnehmbar sein sollten.
GEWERBLICHE ANWENDBARKEIT
Zusammenfassend lässt sich sagen, dass die beschriebene Erfindung die Kodierung und Dekodierung von vibrotaktilen Signalen mit geringem Rauschen und einer geringen zu übertragenden Datenmenge ermöglicht. Während die Erfindung mit besonderem Schwerpunkt auf vibrotaktile loT-Signale beschrieben wurde, ist sie natürlich allgemein auf die effiziente Übertragung von taktilen Signalen in anderen technischen Bereichen anwendbar.
In der vorstehenden Offenbarung wurden spezifische Ausführungsformen beschrieben. Ein Durchschnittsfachmann in dem technischen Gebiet wird jedoch erkennen, dass verschiedene Modifikationen und Änderungen vorgenommen werden können, ohne dass der Umfang der Erfindung, wie in den nachfolgenden Ansprüchen dargelegt, verlassen wird. Dementsprechend sind die Beschreibung und die Zeichnungen eher in einem veranschaulichenden als in einem einschränkenden Sinne zu betrachten, und alle derartigen Modifikationen sollen in den Anwendungsbereich der vorliegenden Lehren einbezogen werden.
Der Nutzen, die Vorteile, die Problemlösungen und alle Elemente, die dazu führen können, dass ein Nutzen, ein Vorteil oder eine Lösung auftritt oder ausgeprägter wird, sind nicht als kritische, erforderliche oder wesentliche Merkmale oder Elemente eines oder aller Ansprüche zu verstehen. Die Erfindung wird ausschließlich durch die beigefügten Ansprüche definiert, einschließlich aller Änderungen, die während der Anhängigkeit dieser Anmeldung vorgenommen wurden, und aller Äquivalente dieser Ansprüche, wie sie ausgegeben wurden.
Darüber hinaus dürfen in diesem Dokument relationale Begriffe wie erste und zweite, obere und untere und ähnliche nur zur Unterscheidung einer Einheit oder Handlung von einer anderen Einheit oder Handlung verwendet werden, ohne dass dies notwendigerweise eine tatsächliche solche Beziehung oder Ordnung zwischen solchen Einheiten oder Handlungen erfordert oder impliziert. Die Begriffe „umfasst“, „umfassend“, „weist auf“, „aufweisend“, „enthält“, „mit“ „beinhaltet“, „beinhaltend“, oder jede andere Variation davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Prozess, ein Verfahren, ein Artikel oder eine Vorrichtung, der bzw. die eine Liste von Elementen umfasst, aufweist, beinhaltet, nicht nur diese Elemente beinhaltet, sondern auch andere Elemente beinhalten kann, die nicht ausdrücklich aufgeführt sind oder einem solchen Prozess, einem solchen Verfahren, einem solchen Artikel oder einer solchen Vorrichtung inhärent sind. Ein Element, dem „umfasst ... einen“, „weist...einen auf“, „enthält...einen“, oder „beinhaltet...einen“ vorausgeht, schließt nicht ohne weitere Einschränkungen die Existenz zusätzlicher identischer Elemente in dem Prozess, dem Verfahren, dem Artikel oder der Vorrichtung, die das Element umfasst, aufweist, enthält oder beinhaltet, aus. Die Begriffe „einer/eine“ und „eines“ werden als ein oder mehrere definiert, sofern hier nicht ausdrücklich etwas anderes angegeben ist. Die Begriffe „im Wesentlichen“, „grundlegend“, „ungefähr“, „etwas“ oder jede andere Version davon sind so definiert, dass sie dem Verständnis eines Durchschnittsfachmanns nach nahe kommen, und in einer nicht einschränkenden Ausführungsform ist der Begriff so definiert, dass er innerhalb von 10%, in einer anderen Ausführungsform innerhalb von 5%, in einer anderen Ausführungsform innerhalb von 1% und in einer anderen Ausführungsform innerhalb von 0,5% liegt. Der Begriff „gekoppelt“, wie er hier verwendet wird, wird als verbunden definiert, wenn auch nicht unbedingt direkt und nicht unbedingt mechanisch. Ein Einrichtung oder eine Struktur, die auf eine bestimmte Weise „konfiguriert“ ist, ist zumindest auf diese Weise konfiguriert, kann aber auch auf nicht aufgeführte Weise konfiguriert sein.
Es sei darauf hingewiesen, dass einige Ausführungsformen aus einem oder mehreren allgemeinen oder spezialisierten Prozessoren (oder „Verarbeitungseirichtungen“) wie Mikroprozessoren, digitalen Signalprozessoren, kundenspezifischen Prozessoren und Field Programmable Gate Arrays (FPGAs) und einzigartigen gespeicherten Programmanweisungen (einschließlich Software und Firmware) bestehen können, die den einen oder die mehreren Prozessoren steuern, um in Verbindung mit bestimmten prozessorlosen Schaltungen einige, die meisten oder alle Funktionen des hier beschriebenen Verfahrens und/oder der hier beschriebenen Vorrichtung zu implementieren. Alternativ könnten einige oder alle Funktionen durch einen Zustandsautomaten ohne gespeicherte Programmbefehle oder in einer oder mehreren anwendungsspezifischen integrierten Schaltungen (ASICs) implementiert werden, in denen jede Funktion oder einige Kombinationen bestimmter Funktionen als kundenspezifische Logik implementiert sind. Natürlich könnte eine Kombination der beiden Ansätze verwendet werden.
Es können Softwareprogramme verwendet werden, die Softwareanweisungen zur Durchführung der Funktionalitäten und Verfahrensschritte in den beschriebenen Einheiten enthalten. Daher können eine oder mehrere Ausführungsformen als computerlesbares Speichermedium implementiert werden, auf dem ein computerlesbarer Code zur Programmierung eines Computers (z.B. mit einem Prozessor) zur Durchführung eines Verfahrens, wie hier beschrieben und beansprucht, gespeichert ist. Beispiele für solche computerlesbaren Speichermedien sind unter anderem eine Festplatte, eine CD-ROM, ein optisches Speichergerät, ein magnetisches Speichergerät, ein ROM (Read Only Memory), ein PROM (Programmable Read Only Memory), ein EPROM (Erasable Programmable Read Only Memory), ein EEPROM (Electrically Erasable Programmable Read Only Memory) und ein Flash-Speicher. Ferner wird davon ausgegangen, dass ein Durchschnittsfachmann trotz möglicherweise erheblicher Anstrengungen und vieler Designentscheidungen, die beispielsweise durch die verfügbare Zeit, die aktuelle Technologie und wirtschaftliche Erwägungen motiviert sind, wenn er sich an den hier offengelegten Konzepten und Prinzipien orientiert, leicht in der Lage sein wird, solche Software-Anweisungen und Programme und ICs mit minimalen Experimenten zu erzeugen.
Die Zusammenfassung der Offenlegung wird bereitgestellt, damit der Leser die Art der technischen Offenlegung schnell erfassen kann. Sie wird mit der Maßgabe vorgelegt, dass sie nicht zur Auslegung oder Einschränkung des Umfangs oder der Bedeutung der Ansprüche verwendet wird.
Darüber hinaus ist in der vorstehenden ausführlichen Beschreibung zu erkennen, dass verschiedene Merkmale zum Zweck der Rationalisierung der Offenlegung in verschiedenen Ausführungsformen zusammengefasst sind. Diese Art der Offenlegung ist nicht so auszulegen, dass sie die Absicht widerspiegelt, dass die beanspruchten Ausführungsformen mehr Merkmale erfordern, als in jedem Anspruch ausdrücklich genannt werden. Vielmehr liegt, wie die folgenden Ansprüche widerspiegeln, der erfindungsgemäße Gegenstand in weniger als allen Merkmalen einer einzigen offengelegten Ausführungsform. Daher werden hiermit die folgenden Ansprüche in die Ausführliche Beschreibung aufgenommen, wobei jeder Anspruch für sich allein als gesondert beanspruchter Gegenstand steht.

Claims

Kodierungsvorrichtung (100) zum Kodieren eines vibrotaktilen Signals (os), umfassend: a) eine erste Transformationseinheit (4), die so konfiguriert ist, dass sie eine diskrete Wavelet-Transformation des Signals ausführt, b) eine zweite Transformationseinheit (6), die so konfiguriert ist, dass sie eine Frequenzbereichsdarstellung des Signals erzeugt, c) eine psychohaptische Modelleinheit (8), die so konfiguriert ist, dass sie mindestens ein Quantisierungssteuersignal basierend auf der erzeugten Frequenzbereichsdarstellung des abgetasteten Signals und auf einem vorbestimmten Wahrnehmungsmodell basierend auf der menschlichen haptischen Wahrnehmung erzeugt, d) eine Quantisierungseinheit (10), die so konfiguriert ist, dass sie Wavelet-Koeffizienten, die sich aus der durchgeführten diskreten Wavelet-Transformation ergeben und durch das Quantisierungssteuersignal angepasst sind, quantisiert, e) eine Kompressionseinheit (12), die so konfiguriert ist, dass sie die quantisierten Wavelet-Koeffizienten komprimiert, und f) eine Bitstrom-Erzeugungseinheit (16), die so konfiguriert ist, dass sie einen Bitstrom entsprechend zu dem kodierten Signal auf der Grundlage der komprimierten, quantisierten Wavelet-Koeffizienten erzeugt.
Kodierungsvorrichtung nach Anspruch 1, ferner umfassend eine Blockeinheit (2), die so konfiguriert ist, dass sie das vibrotaktile Signal in eine Vielzahl von aufeinander folgende Blöcke aufteilt.
Kodierungsvorrichtung nach Anspruch 1 oder 2, wobei die erste Transformationseinheit (4) dazu ausgelegt ist, die diskrete Wavelet-Transformation unter Verwendung eines biorthogonalen Wavelets, insbesondere eines Cohen-Daubechies-Feauveau-Wavelets, insbesondere bevorzugt eines 9/7-Cohen-Daubechies-Feauveau-Wavelets, durchzuführen.
Kodierungsvorrichtung nach einem der vorstehenden Ansprüche, wobei die zweite Transformationseinheit (6) so konfiguriert ist, dass sie die Frequenzbereichsdarstellung durch Verwendung einer diskreten Fourier-Transformation, einer schnellen Fourier-Transformation, einer diskreten CosinusTransformation oder einer diskreten Sinus-Transformation des abgetasteten Signals erzeugt.
Kodierungsvorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die psychohaptische Modelleinheit (8) so konfiguriert ist, dass sie Spitzen im Signalspektrum identifiziert, wobei jede Spitze einer Frequenz und einer Größe entspricht und wobei die psychohaptische Modelleinheit (8) einen Speicher umfasst, der so ausgelegt ist, dass er die Frequenz und die Größe jeder identifizierten Spitze speichert.
Kodierungsvorrichtung nach Anspruch 5, wobei die psychohaptische Modelleinheit (8) so konfiguriert ist, dass sie eine Maskierungsschwelle für die Spitzen bei verschiedenen Frequenzen auf der Grundlage der Frequenz und der Größe jeder Spitze berechnet.
Kodierungsvorrichtung nach Anspruch 5 oder 6, wobei die psychohaptische Modelleinheit (8) ferner so konfiguriert ist, dass sie eine absolute Wahrnehmungsschwelle bei verschiedenen Frequenzen berechnet, die einer Signalgröße, insbesondere einer durchschnittlichen Signalgröße, entspricht, die für den Menschen bei einer bestimmten Frequenz erforderlich ist, um ein Signal wahrnehmen zu können.
Kodierungsvorrichtung nach Anspruch 7, wobei die psychohaptische Modelleinheit (8) ferner so konfiguriert ist, dass sie einen globalen Maskierungsschwellenwert auf der Grundlage der Maskierungsschwelle und des absoluten Schwellenwertes berechnet.
Kodierungsvorrichtung nach Anspruch 8, wobei die psychohaptische Modelleinheit (8) so konfiguriert ist, dass sie ein Signal-zu-Maskierungs-Verhältnis auf der Grundlage der Summe der Energie der globalen Maskierungsschwelle bei verschiedenen Frequenzen und der Energie des Signals berechnet, insbesondere um das Signal-zu-Maskierungs-Verhältnis für jedes Frequenzband der Wavelet-Koeffizienten der diskreten Wavelet-Transformation zu berechnen.
Kodierungsvorrichtung nach Anspruch 9, wobei die Quantisierungseinheit (8) so konfiguriert ist, dass sie Wavelet-Koeffizienten durch Zuweisung von Bits für jedes Frequenzband der Wavelet-Koeffizienten auf der Grundlage eines Maskierungs-Rausch-Verhältnisses quantisiert, wobei das Maskierungs-Rausch-Verhältnis auf der Grundlage des Signal-Maskierungs-Verhältnisses und eines Signal-Rausch-Verhältnisses berechnet wird, das auf der Grundlage der Energie des Signals und der Energie eines durch die Quantisierung eingeführten Rauschens berechnet wird.
Kodierungsvorrichtung gemäß einem der vorhergehenden Ansprüche, wobei die Kompressionseinheit (12) so ausgelegt ist, dass sie für die Kompression von Wavelet-Koeffizienten einen Algorithmus verwendet, der auf Mengenaufteilung in hierarchischen Bäumen (Set Partitioning in Hierachical Trees) basiert.
Kodierungsvorrichtung nach einem der vorstehenden Ansprüche, wobei die Quantisierungseinheit (10) so konfiguriert ist, dass sie durch das Quantisierungssteuersignal so angepasst wird, dass die während der Quantisierung des abgetasteten Signals in verschiedenen Frequenzbereichen eingeführte Verzerrung relativ zu einer Wahrnehmungsmaskierungsschwelle des Wahrnehmungsmodells von einem Menschen nicht wahrnehmbar ist.
Kodierungsvorrichtung gemäß einem der vorstehenden Ansprüche, wobei die Quantisierungseinheit (10) einen eingebetteten Totzonen-Quantisierer umfasst.
Dekodierungsvorrichtung (200) zum Dekodieren eines vibrotaktilen Signals (os) aus einem Bitstrom, umfassend a) eine Dekompressionseinheit (46), die so konfiguriert ist, dass sie den Bitstrom dekomprimiert, wobei für die Dekomprimierung insbesondere ein Algorithmus vorgesehen ist, der auf einer inversen Mengenaufteilung in hierarchischen Bäumen (Inverse Set Partitioning in Hierachical Trees) basiert, b) eine Dequantisierungseinheit (48), die zur Dequantisierung des dekomprimierten Bitstroms konfiguriert ist, und c) eine dritte Transformationseinheit (50), die so konfiguriert ist, dass sie eine inverse diskrete Wavelet-Transformation des dequantisierten Bitstroms durchführt.
Kodierungsverfahren zum Kodieren eines vibrotaktilen Signals (os), umfassend die folgenden Schritte: a) Durchführen (S5) einer diskreten Wavelet-Transformation des Signals; b) Erzeugen (S3) einer Frequenzbereichsdarstellung des Signals; c) Erzeugen (S4) mindestens eines Quantisierungssteuersignals auf der Grundlage der erzeugten Frequenzbereichsdarstellung des Signals und eines vorbestimmten Wahrnehmungsmodells, das auf der menschlichen haptischen Wahrnehmung basiert; d) Quantisieren (S8) von Wavelet-Koeffizienten, die sich aus der durchgeführten diskreten Wavelet-Transformation ergeben und durch das Quantisierungssteuersignal angepasst sind, e) Komprimieren (S11) der quantisierten Wavelet-Koeffizienten und f) Erzeugen (S12, S13) eines Bitstroms, der dem kodierten Signal entspricht, auf der Grundlage der komprimierten, quantisierten Wavelet-Koeffizienten.
Dekodierungsverfahren zum Dekodieren eines vibrotaktilen Signals aus einem Bitstrom, umfassend die folgenden Schritte: a) Dekomprimieren (S24) des Bitstroms, wobei insbesondere ein auf inverser Mengenaufteilung in hierarchischen Bäumen (Inverse Set Partitioning in Hierachical Trees) basierender Algorithmus für die Dekomprimierung vorgesehen ist, b) Dequantisieren (S25) des dekomprimierten Bitstroms und c) Durchführen (S26) einer inversen diskreten Wavelet-Transformation des dequantisierten Bitstroms.
Sender in einem Kommunikationssystem, umfassend die Kodierungsvorrichtung gemäß einem der Ansprüche 1-13.
Empfänger in einem Kommunikationssystem, umfassend die Dekodierungsvorrichtung nach Anspruch 14.
Computerprogramm mit Befehlen, die bei der Ausführung des Programms durch einen Computer bewirken, dass der Computer das Verfahren nach Anspruch 15 oder 16 ausführt.