DE69822085T2

DE69822085T2 - Änderung der Sprachabspielgeschwindigkeit mittels Wavelet-Kodierung

Info

Publication number: DE69822085T2
Application number: DE69822085T
Authority: DE
Inventors: Brian Oakville Ontario Cruikshank; Lin Toronto Ontario Lin
Original assignee: Nortel Networks Ltd
Current assignee: Nortel Networks Ltd
Priority date: 1997-11-28
Filing date: 1998-11-12
Publication date: 2004-07-22
Anticipated expiration: 2018-11-13
Also published as: US6009386A; EP0919988A3; EP0919988B1; CA2248514A1; DE69822085D1; EP0919988A2

Description

Hintergrund der Erfindung
Diese Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Änderung der Wiedergabegeschwindigkeit eines digitalisierten Audio- oder Tonfrequenzsignals.
Sprache fällt in einen Frequenzbereich zwischen 20 Hz und 4 kHz. Entsprechend dem Nyquist-Theorem muss ein Analogsignal mit einer Rate abgetastet werden, die zumindest gleich dem Doppelten der höchsten Frequenzkomponente des Signals ist, um die Information in dem Signal beizubehalten. Entsprechend wird zur Digitalisierung von Sprache das Analogsignal zweckmäßigerweise mit einer Rate von 8 kHz abgetastet. Die Analog-Abstastproben werden typischerweise digital unter Verwendung der Impulscodemodulation (PCM) codiert.
Weil Menschen in vielen Fällen in der Lage sind, mit einer Geschwindigkeit zu verstehen, die schneller als die normale menschliche Sprache ist, kann es erwünscht sein, die aufgezeichnete Sprache bei der Wiedergabe schneller abzuspielen. Dies könnte dadurch erreicht werden, dass einfach die Wiedergabegeschwindigkeit der PCM-Abtastproben vergrößert wird, dies würde jedoch die Tonhöhe der wiedergegebenen Sprache erhöhen. Um die Vergrößerung der Tonhöhe zu vermeiden, ist es bekannt, Gruppen von PCM-Abtastproben aus dem Abtastprobenstrom zu entfernen und die verbleibenden Abtastproben mit der normalen Rate von 8 kHz wiederzugeben. Dies führt jedoch zu Klickgeräuschen in der Wiedergabe aufgrund von Diskontinuitäten zwischen Sprach-Abtastproben, die den entfernten Sprach-Abtastproben vorhergehen und nachfolgen.
In dem US-Patent 5 386 493 vom 31. Januar 1995 auf den Namen von Degen werden periodische Gruppen von Abtastproben aus dem digitalen Abtastprobenstrom entfernt und die resultierenden Lücken werden beseitigt. Diskontinuitäten an den Schnittpunkten werden dadurch vermieden, dass der digitale Abtastprobenstrom mit einem eine gleiche Leistung aufweisenden Überblend-Verstärker-/Filter gefiltert wird. Dieses Filter blendet das alte Segment von Abtastproben unter Verwendung einer parabolischen Funktion aus, während es das neue Segment einblendet. Bei einer Überblendung überkreuzen sich die parabolischen Funktionen für jedes Paar von benachbarten Segmenten an der Segment-Schnittstelle (was zu einem Überblendbereich führt). Diese Lösung erfordert zusätzliche Verarbeitungsleistung zur Beschleunigung der Sprachwiedergabe gegenüber der, die zur Wiedergabe des Signals mit seiner normalen (nicht beschleunigten) Rate erforderlich ist. Die Größe der zusätzlichen Verarbeitungsleistung, die erforderlich ist, wird von Bedeutung, wenn die Wiedergabe-Beschleunigung als Teil eines Systems durchgeführt wird, das Sprache wiedergibt, die vorher komprimiert wurde (das heißt mit einer niedrigeren Bitrate, als das ursprüngliche Signal gespeichert wurde). Bei dieser Art von System kann die Notwendigkeit, nicht nur die Sprach-Abtastproben in den wiedergegebenen Segmenten zu expandieren, sondern auch die Abtastproben in dem Überblendbereich und bei manchen Arten von Codierern, die adaptiv und/oder differenziell sind, auch die Abtastproben in den Segmenten, die unterdrückt wurden, zu mehr als der doppelten Verarbeitungsleistung gegenüber der mit normaler Geschwindigkeit erfolgenden Wiedergabe führen, um die Wiedergabegeschwindigkeit zu verdoppeln.
Diese Erfindung ist auf die Überwindung der Nachteile bekannter Systeme zur Änderung der Geschwindigkeit der Audio-Wiedergabe gerichtet, insbesondere wenn eine Notwendigkeit besteht, die wiederzugebenden Audiosignale in einem komprimierten Format zu speichern.
Zusammenfassung der Erfindung
Gemäß der vorliegenden Erfindung wird ein Verfahren zur Änderung der Wiedergabegeschwindigkeit eines Wavelet-codierten Audiosignals gemäß Anspruch 1 geschaffen.
Gemäß einem weiteren Gesichtspunkt der Erfindung wird eine Vorrichtung zum Ändern der Wiedergabegeschwindigkeit eines digitalisierten Audiosignals geschaffen, wie sie in Anspruch 5 beansprucht ist.
Kurze Beschreibung der Zeichnungen
In den Figuren, die bevorzugte Ausführungsformen der Erfindung erläutern, ist:
Figur eine schematische Darstellung eines Kommunikationssystems, das gemäß dieser Erfindung ausgebildet ist,
2 eine grafische Darstellung der Zeit gegenüber der Amplitude von Sprache,
3 eine schematische Einzelheit eines Teils der 1,
4 eine schematische Einzelheit eines weiteren Teils der 1, und
5 eine schematische Darstellung eines weiteren Kommunikationssystems gemäß dieser Erfindung.
Ausführliche Beschreibung der bevorzugten Ausführungsform
1 zeigt ein Kommunikationssystem 10. Eine sendende Telefonstation 12 des Systems umfasst eine Serienanordnung aus einem Mikrofon 14, einem Sprache-PCM-Digitalisierer 16, einem Teilband-Codierer 18 und einem Sender 20. Eine empfangende Sprachpost-Station 30 umfasst eine Serienanordnung aus einem Empfänger 32, einem Datenspeicher 34, einem Wähler 36, einem Teilband-Decodierer, einem PCM-/Analog-Wandler 40 und einem Lautsprecher 42. Der Datenspeicher 34 und der Wähler 36 sind mit einem Prozessor 46 verbunden, und der Prozessor erhält Eingaben von einer Benutzerschnittstelle 48. Die sendende Station und die empfangende Sprachpost-Station sind über einen Kommunikationspfad 22 miteinander verbunden.
Der Teilband-Codierer 18 und der Teilband-Decodierer 38 verwenden die Teilband-Codierung (SBC). Die SBC ist ein bekanntes Verfahren zur Erleichterung der Kompression von PCM-Sprachabtastproben zur Vergrößerung des Informationsdurchsatzes über irgendeinen vorgegebenen Kommunikationsweg und/oder zur Verringerung des Speicherbedarfs zum Speichern der Sprach-Abtastproben in einem Computerspeicher oder auf einer Festplatte. Die SBC beruht auf der Tatsache, dass das menschliche Ohr für niedrigere Frequenzen empfindlicher und für höhere Frequenzen weniger empfindlich ist, so dass, wenn irgendwelche höherfrequenten Komponenten eines Sprachesignals mit weniger Klanggetreue wiedergegeben werden, das Signal immer noch verständlich ist. Im Überblick wird die SBC mit Kompression wie folgt ausgeführt. Ein PCM-Sprachesignal wird in aufeinanderfolgenden Blöcken von Abtastproben organisiert. Jeder Block wird dann gefiltert, um Teilblöcke von gefilterten Abtastproben zu gewinnen, wobei jeder Teilblock Frequenzkomponenten des ursprünglichen Signals umfasst, die in ein bestimmtes Frequenzband fallen. Die Teilblöcke werden dann unter Verwendung von weniger Bits erneut codiert oder vollständig unterdrückt, um das Signal zu komprimieren. In dieser Hinsicht sind die Teilbänder, die höhere Frequenzbänder darstellen, diejenigen, die unterdrückt werden können, und weiterhin kann, wenn sie beibehalten werden, die auf die Abtastproben dieser höheren Frequenzbänder angewandte erneute Codierung zu einer größeren Bit-Reduzierung als für Abtastproben in den niedrigeren Frequenzbändern führen. Es ist eine Anzahl von unterschiedlichen Techniken zur Durchführung dieser Bit-Reduzierung bekannt. Die verbleibenden Teilblöcke werden dann in einem Rahmen organisiert, der an den Empfänger gesandt wird. An dem Empfänger wird jeder Datenrahmen dekomprimiert und gefiltert, um eine Näherung des ursprünglichen Blockes zu rekonstruieren, von dem der Rahmen abgeleitet wurde.
Die Teilband-Codierung ist ausführlich in einer großen Anzahl von Quellen beschrieben, beispielsweise in einer Veröffentlichung von R. E. Crochiere mit dem Titel „Sub-Band Coding", veröffentlicht in dem Bell System Technical Journal, Band 60, Nr. 7, September 1981, Seiten 1633–1651.
Im Betrieb des Systems nach 1 kann ein Anrufer an der sendenden Telefonstation 12 eine Nachricht auf der empfangenden Sprachpost-Station 30 dadurch zurücklassen, dass er in das Mikrofon 14 spricht. Der Sprach-Digitalisierer 16 tastet die Sprache am Ausgang des Mikrofons mit einer Rate von 8 kHz ab und konstruiert einen Strom von PCM-Abtastproben. Gemäß 2 organisiert der Teilband-Codierer 18 den PCM-Strom in 16-Millisekunden-Blöcken 52 von Abtastproben des PCM-Sprachsignals 50. Im Hinblick darauf, dass die Abtastrate 8 kHz ist, umfasst jeder Block 128 Abtastproben. Wenn nunmehr 3 betrachtet wird, so wird jeder Block 52 dann in einem Tiefpassfilter (LPF), LPF1, mit einer Grenzfrequenz von 2 kHz gefiltert. Die 128 Abtastproben, die von dem LPF abgegeben werden, bilden ein Signal mit Frequenzkomponenten bis zu 2 kHz; somit beträgt die höchste Frequenzkomponente in den Tiefpass-Abtastproben höchstens die halbe Frequenz der Abtastproben, die als Eingang an das Filter geliefert werden. Entsprechend ist nach dem Nyquist-Theorem nur eine Hälfte der 128 Abtastproben erforderlich, um die Information in dem Tiefpass-Signal beizubehalten. Jede zweite Tiefpasssignal-Abtastprobe wird daher in einem Probenwähler 56a unterdrückt, so dass es 64 Tiefpass-Abtastproben am Ausgang des Probenwählers gibt. In ähnlicher Weise wird jeder Block weiterhin durch ein Hochpassfilter (HPF), HPF1, gefiltert, das ebenfalls eine Grenzfrequenz von 2 kHz hat. Das Hochpass-Signal, das von dem HPF1 abgegeben wird, wird dann zu einem Wähler 56b geleitet, der jede zweite Abtastprobe abgibt, um 64 Hochpass-Abtastproben abzuleiten. Die ausgewählten Hochpass-Abtastproben haben Frequenzkomponenten zwischen 2 und 4 kHz.
Aus dem Vorstehenden ist zu erkennen, dass obwohl jede der ausgewählten Tiefpasssignal-Abtastproben und jede der ausgewählten Hochpasssignal-Abtastproben eine Hälfte des Frequenzgehaltes des ursprünglichen Signalblockes haben, sie zusammen den gesamten Frequenzgehalt des ursprünglichen Signalblockes enthalten und daher eine ausreichende Information liefern, um den Signalblock zu rekonstruieren.
Die 64 ausgewählten Tiefpass-Abtastproben werden zu jedem eines zweiten LPF, LPF21 und eines zweiten HPF, HPF21 weitergeleitet, die beide eine Grenzfrequenz von 1 kHz haben. Jede zweite Abtastprobe, die von LPF21 und von HPF21 abgegeben wird, wird ausgewählt, was zu 32 ausgewählten LPF21-Abtastproben und 32 ausgewählten HPF21-Abtastproben führt. In ähnlicher Weise werden die 64 ausgewählten Hochpass-Abtastproben jeweils zu einem weiteren LPF, LPF2h, und einem weiteren HPF, HPF2h zugeführt, jeweils mit einer Grenzfrequenz von 3 kHz, und 32 Abtastproben werden von dem Ausgang jedes Filters ausgewählt. Das Ergebnis besteht in 4 Teilblöcken von Abtastproben, jeweils mit Frequenzkomponenten, die 1 kHz überspannen.
Der gleiche Prozess wird erneut für jeden der vier Teilblöcke von 32 Abtastproben wiederholt, was zu acht Teilblöcken mit 16 Abtastproben führt, wobei jeder Teilblock Frequenzkomponenten hat, die 500 Hz überspannen. Und der Prozess wird ein weiteres Mal wiederholt, um 16 Teilblöcke jeweils mit 8 Abtastproben zu gewinnen, die jeweils Frequenzkomponenten haben, die 250 Hz überspannen.
Im Hinblick auf die Tatsache, dass Telefon-Codecs einen Bandpassbereich von 0 bis 3,4 kHz haben, und Frequenzen oberhalb von 3,4 kHz ausfiltern, ist der Teilband-Codierer 18 so programmiert, dass er das dekomprimierte Signal dadurch komprimiert, dass er die acht Abtastproben-Teilblöcke mit Frequenzkomponenten von 3500 Hz bis 3750 Hz und die acht Proben-Teilblöcke mit Frequenzkomponenten von 3750 bis 4000 Hz unterdrückt. Weiterhin werden im Hinblick auf die relative Unempfindlichkeit des menschlichen Ohres gegenüber höheren Frequenzen die acht Abtastproben-Teilblöcke in den 1000 bis 3500 Hz-Bändern mit einer geringeren Anzahl von Bits neu codiert, als in den Teilblöcken der 0 bis 1000 Hz-Bänder nach der Neucodierung verbleiben. Die verbleibenden Teilblöcke werden in einem Rahmen von Daten organisiert, und dieser Rahmen von Daten wird von dem Sender 20 über dem Kommunikationspfad 22 ausgesandt. Der gleiche Prozess wird dann für jeden aufeinanderfolgenden Block von Daten wiederholt, wobei erneut die Teilblöcke mit den Frequenzkomponenten von 3,5 bis 4 kHz unterdrückt und die anderen Teilblöcke hinsichtlich ihrer Bitzahl reduziert werden.
Jedes der Filter des Teilband-Codierers 18 ist ein FIR-Filter (Filter mit endlichem Impuls-Ansprechverhalten). Wie dies für den Fachmann verständlich ist, ist ein derartiges Filter ein gewertetes laufendes Mittelwert-Filter. Somit hat dieses Filter einen Puffer, bei dem die ersten Daten als erste ausgelesen werden (FIFO-Puffer), der eine Anzahl von Abtastproben speichert, die gleich der Anzahl in dem Teilblock (oder Block) ist, die er verarbeitet. Beispielsweise haben jeweils die HPF's und LPF's, die die vier 32 Abtastproben-Teilblöcke verarbeiten, Puffer, die 32 Abtastproben speichern. Zu Beginn der Verarbeitung ist der FIFO-Puffer eines Filters mit Abtastproben von dem Teilblock gefüllt, die von dem Filter während der Verarbeitung des vorhergehenden Blockes von Daten verarbeitet wurden. Wenn die Verarbeitung des derzeitigen Teilblockes weiterläuft, werden Abtastproben von dem vorhergehenden Rahmen unterdrückt und Abtastproben von dem laufenden Rahmen werden in dem Filter-Puffer gespeichert, so dass am Ende der Verarbeitung des laufenden Teilblockes das Filter mit den Abtastproben des laufenden oder aktuellen Teilblockes gefüllt ist.
Wenn die SBC-Rahmen den Empfänger 32 der empfangenden Sprachpost-Station 30 erreichen, werden die Rahmen in dem Datenspeicher 34 unter der Steuerung des Prozessors 46 gespeichert. Wenn ein Benutzer eine gespeicherte Nachricht hören möchte, kann er dies dem Prozessor 46 über die Benutzerschnittstelle 48 mitteilen. Dies fordert den Prozessor auf, den Datenspeicher zu adressieren, um die SBC-Rahmen zurückzugewinnen, die dann durch den Wähler 46 und den Teilband-Decodierer 38 hindurchlaufen; die decodierten Blöcke laufen dann an den Digital-/Analog-Wandler 40, und Analog-Sprache wird über den Lautsprecher 42 gehört.
Wenn der Benutzer nicht über die Benutzerschnittstelle anzeigt, dass er die Wiedergabe beschleunigen will, so aktiviert der Prozessor 46 nicht den Wähler 36, und der ungeänderte SBC-Rahmenstrom tritt in den Teilband-Decodierer 38 ein. Gemäß 4 rekonstruiert der Teilband-Decodierer eine Näherung jedes ursprünglichen Blockes der PCM-Abtastproben in der folgenden Weise. Für jeden der Teilblöcke in einem Datenrahmen werden die acht Abtastpnoben zurück auf ihre ursprüngliche Anzahl von Bits entcodiert (dekomprimiert). Die Entcodierung der Bitreduzierten Abtastproben führt einen gewissen Fehler oder Rauschen in das Signal ein, der für stärker Bit-reduzierte Abtastproben in den höherfrequenten Teilblöcken größer ist. Dieser Verlust an Wiedergabetreue bei den höheren Frequenzen wird jedoch durch das weiter oben erwähnte psycho-akustische Phänomen maskiert. Null-Werte aufweisende Abtastproben werden mit den acht Abtastproben des Teilblockes in dem Verschachteler 60 verschachtelt, was zu Teilblöcken mit 16 Abtastproben führt. Dann wird der Fnequenzkomponenten des ursprünglichen Signals von 0 bis 250 Hz enthaltende Teilblock durch ein FIR LPF 62 mit einer Grenzfrequenz von 250 Hz geleitet, und der Frequenzkomponenten des ursprünglichen Signals von 250 bis 500 Hz enthaltende Teilblock wird über ein FIR HPF 64 mit einer Grenzfrequenz von 250 Hz weitergeleitet. Der Ausgang dieser beiden Filter wird dann in einem Summierer 66 summiert, was zu einem 16 Abtastproben umfassenden Teilblock mit Frequenzkomponenten von 0 bis 500 Hz führt. Der gleiche Prozess wird für die anderen Paare von Teilblöcken wiederholt, um Teilblöcke mit Frequenzkomponenten von 500 bis 1000 Hz, von 1000 bis 1500 Hz usw. bis 3500 Hz zu gewinnen. Als nächstes werden für jeden der resultierenden Teilblöcke Null-Werte aufweisende Abtastproben eingeschachtelt, um Teilblöcke mit 32 Abtastpnoben zu erzeugen. Dann werden Paare der Teilblöcke durch die FIR-Filter gefiltert und summiert, was zu Teilblöcken führt, die jeweils Fnequenzkomponenten haben, die 1000 Hz überspannen. Der Prozess wird zweimal mehr wiederholt, um einen einzigen Block mit Frequenzkomponenten von 0 bis 3500 Hz zu konstruieren. Dieser einzige Block ist eine Näherung des ursprünglichen Blockes.
Wenn alternativ der Benutzer wünschte, die Wiedergabe um 50% zu beschleunigen, so kann er eine passende Eingabe in dieser Hinsicht an den Prozessor über die Benutzerschnittstelle 48 senden. Dies bewirkt, dass der Prozessor den Wähler so steuert, dass dieser jedes dritte benachbarte Paar von Rahmen unterdrückt. Somit würden, wenn die SBC-Rahmen der gespeicherten Mitteilung als #1, #2, #3, #4, #5, #6, #7, #8, #9, #10, #11, #12, #13, #14, #15, #16, #17 und #18 nummeriert sein würden, die den Wähler verlassenden Rahmen die Rahmen sein, die mit #1, #2, #3, #4, #7, #8, #9, #10, #13, #14, #15 und #16 nummeriert sind.
Wenn der Teilband-Decodierer 38 mit der Verarbeitung des Rahmens #7 beginnt, so sind die Puffer jedes seiner FIR-Filter mit Abtastproben von dem vorhergehenden Rahmen gefüllt, die er verarbeitete, nämlich des Rahmens #4. Als Folge hiervon bewirken die FIR-Filter eine Glättung der Diskontinuitäten zwischen dem Rahmen #4 und dem Rahmen #7, die sich aus der Unterdrückung der Rahmen #5 und #6 ergaben. Im Einzelnen lokalisiert die Filterwirkung jedes der Teilbandfilter die Diskontinuitäten zwischen Rahmen auf lediglich diejenigen Frequenzbänder, die aktive Frequenzkomponenten enthalten. Somit wird für Sprache anstelle der Diskontinuität, die sich wie ein „Klicken" anhört und einen weiten Bereich von Frequenzen aufweist, die Diskontinuität auf einen Satz von Frequenzkomponenten beschränkt, die um diejenigen Frequenzen herum liegen, die sich in der Sprach-Schwingungsform befinden, und dies wird daher als Teil der Sprach-Schwingungsform als solche wahrgenommen. Zusätzlich sind die Phasen jedes der Frequenz-Teilbänder unabhängig voneinander, so dass sie keine konstruktive Interferenz an der Diskontinuität aufweisen, wie dies für ein Klicken der Fall ist. Entsprechend unterdrückt der rekonstruierte PCM-Abtastprobenstrom die „Klickgeräusche", während die Sprache um 50% schneller wiedergegeben wird, als das ursprüngliche Sprachsignal.
Eine Benutzer kann weiterhin über die Benutzerschnittstelle seinen Wunsch anzeigen, die Wiedergabegeschwindigkeit um 100% zu vergrößern; in diesem Fall steuert der Prozessor den Wähler derart, dass er jedes zweite Paar von Rahmen unterdrückt. Wenn die Sprache bis 100% beschleunigt wird, könnte der Benutzer über die Benutzerschnittstelle seinen Wunsch anzeigen, die Geschwindigkeit um 50% zu verringern oder auf die normale Geschwindigkeit zurückzukehren. Selbstverständlich kann die Empfangsstation 30 so angeordnet sein, dass sie andere Grade der Wiedergabe-Beschleunigung auf der Grundlage der Unterdrückung unterschiedlicher Folgen der Rahmenpaare unterdrückt.
Es wird bevorzugt, periodische Paare von benachbarten Rahmen in dem Wähler 36 zu unterdrücken, statt periodischer einzelner Rahmen, weil festgestellt wurde, dass die letztere Lösung zu Frequenzverwerfungen in dem rekonstruierten Sprachsignal führt. Das Unterdrücken von mehr als zwei aufeinanderfolgenden Rahmen wird ebenfalls nicht bevorzugt, weil dies zu dem Verlust von zuviel Sprachinformation führt, was dazu führt, dass ganze Silben aus der Sprache verlorengehen.
Es sei bemerkt, dass die Sprache um so sanfter und glatter beschleunigt werden kann, je größer die Anzahl von Teilbändern ist. So würde ein Teilband-Codierer, der bis zu 125 Hz-Bändern herunter codieren würde, ein verbessertes Betriebsverhalten bei Diskontinuitäten als der beschriebene Teilband-Codierer haben, der bis herunter zu 250 Hz codiert. Weiterhin kann bei Anwendungen, bei denen ein schlechteres Betriebsverhalten bei Diskontinuitäten annehmbar ist, der Teilband-Codierer bis zu Frequenzbändern herunter codieren, die größer als 250 Hz sind.
Die vorliegende Erfindung hat Anwendungen in Kommunikationssystemen, bei denen die sendende Telefonstation nicht SPC verwendet. Beispielsweise umfasst gemäß 5 ein Kommunikationssystem 100 eine Anzahl von Analog-Telefonen 112, die ebenfalls mit dem öffentlichen Fernsprechwählnetz (PSTN) 122 verbunden sind. Eine empfangende Sprachpost-Station 130, die gemäß dieser Erfindung ausgebildet ist, ist ebenfalls mit dem PSTN verbunden. Die empfangende Sprachpost-Station umfasst eine Serienanordnung eines Analogempfängers 132, eines Sprache-PCM-Digitalisierers 116, eines Teilband-Codierers 118, eines Datenspeichers 134, eines Wählers 136, eines Teilband-Decodierers 138, eines PCM-/Analog-Wandlers 140 und eines Lautsprechers 142. Der Datenspeicher 134 und der Wähler 136 sind mit einem Prozessor 146 verbunden, und der Prozessor erhält einen Eingaben von einer Benutzerschnittstelle 148.
Im Betrieb des Kommunikationssystems 100 wird ein Anrufer von einer Analog-Telefonstation 112a zu der empfangenden Sprachpost-Station 130 durchverbunden. Die Sprache des Anrufers wird von dem Empfänger 132 empfangen, in dem Digitalisierer 116 in PCM-Abtastproben digitalisiert, in Rahmen von SBC-Daten durch den Teilband-Codierer 118 (der eine Bit-reduzierende Recodierung einschließt) Teilband-codiert und in dem Datenspeicher 134 gespeichert. Wenn ein Benutzer die gespeicherte Nachricht hören möchte, kann er dies über die Benutzerschnittstelle 148 anzeigen und weiterhin eine Wiedergabegeschwindigkeit auswählen. Auf dieser Grundlage steuert der Prozessor 146 den Datenspeicher, um die SBC-Rahmen auszulesen, und den Wähler 136, um passende Paare von Rahmen zu unterdrücken. Die verbleibenden Rahmen treten dann in den Teilband-Decodierer 138 ein, an dem eine Näherung des PCM-Stromes rekonstruiert wird, der an dem Sprache-PCM-Digitalisierer 116 abgeleitet wurde. Diese Rekonstruktion durchläuft dann den PCM-/Analog-Wandler 140 und gelangt zum Lautsprecher 142, der das Sprachsignal wiedergibt.
Es ist zu erkennen, dass das System nach 5 die SBC nicht nur zur Vermeidung von „Klickgeräuschen" in der Wiedergabe von beschleunigter Sprache verwendet, sondern auch um die Kompression der Sprachesignale zu erleichtern, bevor sie in dem Datenspeicher 134 gespeichert werden, wodurch der Speicher- und Festplattenbedarf verringert wird.
Eine Verallgemeinerung der Teilband-Codierung, die bei der vorliegenden Erfindung anstelle von SBC verwendet wird, ist die Wavelet-Codierung. Die Wavelet-Codierung wird in einer identischen Weise zur Standard-SBC erreicht, jedoch mit der Ausnahme, dass während die Standard-SBC FIR-Filter verwendet, die das Sprachesignal in einen Satz von gleichen Frequenzbändern aufteilen, die Wavelet-Sprachecodierung FIR-Filter verwendet, die das Sprachesignal in einem Satz von exponentiell größeren Frequenzbändern aufteilen können, beispielsweise: 0 bis 50 Hz, 50 bis 100 Hz, 100 bis 200 Hz, 200 bis 400 Hz, usw. Breitere Frequenzbänder sind durch mehr Abtastproben als schmalere Frequenzbänder dargestellt. Die Wavelet-Decodierung wird in einer identischen Weise zu der SBC-Decodierung durchgeführt, jedoch mit der Ausnahme, dass ein Satz von FIR-Filtern verwendet wird, die das Signal von einem Satz von exponentiell größeren Frequenzbändern neu kombinieren. Wavelets bieten somit eine feinere zeitliche Lokalisierung der Frequenzcharakteristiken, als dies bei der üblichen SBC der Fall ist. Dies ist vorteilhaft, wenn das Sprachesignal komprimiert wird.
Obwohl die Ausführungsformen nach den 1 und 5 der vorliegenden Erfindung dafür geeignet sind, die Sprachwiedergabe in einem Sprachpost-System zu beschleunigen, ist es zu erkennen, dass die Erfindung in gleicher Weise zur Beschleunigung anderer Audiosignale verwendet werden könnte. In einem derartigen Fall kann es erwünscht sein, die Abtastrate und die Wavelet-Kompression einzustellen, wenn der Frequenzbereich, der in dem System beibehalten werden soll, von dem für Sprache abweichen würde. Ein Beispiel für eine alternative Anwendung ist das Gebiet von Videosignalen. SBC wird für den Audio-Teil einiger Videosignale, wie z. B. MPEG-Video verwendet. Es gibt eine Anzahl von Techniken zur Beschleunigung von Video-Bildern. Die Empfangsstation 30 nach 2 könnte direkt bei der selektiven Beschleunigung des Audio-Teils eines derartigen Signals verwendet werden, so dass in Verbindung mit den Techniken zur Videobild-Beschleunigung das gesamte Videosignal beschleunigt werden könnte.
Die vorstehend beschriebenen Systeme nach den 1 und 5 können auch zur Verlangsamung der Sprache anstelle der Beschleunigung der Sprache verwendet werden. Dies wird dadurch erreicht, dass dem Wähler 36, 136 der Befehl gegeben wird, Rahmen einzufügen anstatt Rahmen zu unterdrücken. Insbesondere könnte ein Benutzer über die Schnittstelle 48, 148 anzeigen, dass er es wünscht, die Sprache um 50% zu verlangsamen. Der Prozessor 46, 146 würde durch Steuern des Wählers 36, 136 derart ansprechen, dass jedes dritte benachbarte Paar von Rahmen wiederholt wird, so dass diese wiederholten Rahmen den ursprünglichen Rahmen in dem Rahmenstrom folgen würden. Somit würden, wenn die Rahmen der gespeicherten Nachricht als #1, #2, #3, #4, #5, #6, #7, #8, #9, #10, #11, #12, #13, #14, #15, #16, #17 und #18 nummeriert sein würden, die den Wähler verlassenden Rahmen die Rahmen sein, die mit #1, #2, #3, #4, #5, #6, #5, #6, #7, #8, #9, #10, #11, #12, #11, #12, #13, #14, #15, #16, #17, #18, #17, #18 nummeriert sind. Um das Rahmeneinfügen zu erleichtern, kann der Wähler einen Puffer zur vorübergehenden Speicherung und damit Wiederholung von ausgewählten Rahmen einschließen.
Zusammenfassend ist festzustellen, dass die vorliegende Erfindung ein Verfahren zur Beschleunigung der Wiedergabe eines digitalisierten Audiosignals ohne Vergrößern der Tonhöhe und ohne die Einführung von Diskontinuitäten in dem Sprachesignal ergibt. Sie umfasst die Teilband-Codierung (SBC) aufeinanderfolgender Blöcke des Audiosignals mit Wavelet-Kompression zur Ableitung von Rahmen von Daten. Als nächstes werden periodisch benachbarte Paare der Rahmen unterdrückt, um einen Strom der verbleibenden Rahmen übrigzulassen. Eine beschleunigte Näherung des digitalisierten Audiosignals wird dann durch die Teilband-Decodierung aufeinanderfolgender verbleibender Rahmen rekonstruiert. Das Verfahren kann außerdem zur Verlangsamung der Sprache-Wiedergabe durch Wiederholen anstelle einer Unterdrückung benachbarter Paare von Rahmen verwendet werden.
Obwohl das digitalisierte Audiosignal als ein PCM-Signal beschrieben wurde, würde die Erfindung auch mit anderen Digitalisierungsschemas arbeiten.
Weitere Modifikationen sind für den Fachmann ersichtlich, so dass die Erfindung in den Ansprüchen definiert ist.

Claims

Verfahren zur Änderung der Wiedergabegeschwindigkeit eines Waveletcodierten Audiosignals mit den folgenden Schritten: Auswahl periodischer der Rahmen des Wavelet-codierten Audiosignals; Bilden, auf der Grundlage des Auswahlschrittes, eines Stromes von Rahmen durch Unterdrücken der ausgewählten Rahmen des Wavelet-codierten Audiosignals, so dass ein Strom von Rahmen verbleibt, oder durch Wiederholen der ausgewählten Rahmen in dem Wavelet-codierten Audiosignals zur Bildung eines Stromes von Rahmen; und Rekonstruieren einer Näherung eines digitalisierten Audiosignals, von dem das Wavelet-codierte Audiosignal abgeleitet wurde, durch Wavelet-Decodierung aufeinanderfolgender Rahmen des Stromes von Rahmen.
Verfahren nach Anspruch 1, bei dem das Wavelet-codierte Audiosignal durch die folgenden Schritte gebildet wird: progressives Filtern jedes von aufeinanderfolgenden Blöcken eines Audiosignals mit einem eine endliche Impulsantwort liefernden (FIR-) Tiefpassfilter (LPF's) und mit FIR-Hochpassfiltern (HPF's) zur Gewinnung einer Anzahl von Teilblöcken für jeden Block, wobei jeder Teilblock der Anzahl von Teilblöcken Audiosignal-Abtastproben aufweist, die ein Frequenzband überspannen; und Bilden einer Anzahl von Datenrahmen, wobei jeder Datenrahmen aus einer Anzahl der Teilblöcke aufgebaut ist, die von einem vorgegebenen Block abgeleitet wurden.
Verfahren nach Anspruch 2, bei dem der Schritt des progressiven Filterns Folgendes umfasst: Filtern aufeinanderfolgender Blöcke des Audiosignals mit einem ersten eine endliche Impulsantwort aufweisenden (FIR-) Tiefpassfilter (LPF) zur Gewinnung aufeinanderfolgender einmal gefilterter LPF-Teilblöcke; Filtern aufeinanderfolgender Blöcke des Audiosignals mit einem ersten FIR-Hochpassfilter (HPF) zur Gewinnung aufeinanderfolgender einmal gefilterter HPF-Teilblöcke; Filtern einmal gefilterter LPF-Blöcke mit einem zweiten FIR LPF zur Gewinnung aufeinandertolgender zweimal gefilterter LPF-Teilblöcke; und Filtern aufeinanderfolgender einmal gefilterter LPF-Blöcke mit einem zweiten FIR HPF zur Gewinnung aufeinanderfolgender zweimal gefilterter HPF-Teilblöcke.
Verfahren nach einem der Ansprüche 1 bis 3, bei dem der Schritt der Auswahl periodischer der Rahmen die Auswahl periodischer Paare von benachbarten Rahmen umfasst.
Vorrichtung zum Ändern der Wiedergabegeschwindigkeit eines digitalisierten Audiosignals, mit: Einrichtungen zur Wavelet-Codierung aufeinanderfolgender Blöcke des Audiosignals zur Ableitung von Rahmen von Daten; Einrichtungen zur Auswahl periodischer der Rahmen und Bilden eines Stromes von Rahmen auf der Grundlage des Auswahlschrittes durch Unterdrücken ausgewählter Rahmen wobei ein Strom von Rahmen verbleibt, oder durch Wiederholen der ausgewählten Rahmen; und Einrichtungen zur Rekonstruktion einer Näherung des digitalisierten Audiosignals das die Wavelet-Decodierung aufeinanderfolgender Rahmen des Stromes von Rahmen umfasst.