-
Hintergrund
der Erfindung
-
Diese Erfindung bezieht sich auf
ein Verfahren und eine Vorrichtung zur Änderung der Wiedergabegeschwindigkeit
eines digitalisierten Audio- oder Tonfrequenzsignals.
-
Sprache fällt in einen Frequenzbereich
zwischen 20 Hz und 4 kHz. Entsprechend dem Nyquist-Theorem muss
ein Analogsignal mit einer Rate abgetastet werden, die zumindest
gleich dem Doppelten der höchsten
Frequenzkomponente des Signals ist, um die Information in dem Signal
beizubehalten. Entsprechend wird zur Digitalisierung von Sprache
das Analogsignal zweckmäßigerweise
mit einer Rate von 8 kHz abgetastet. Die Analog-Abstastproben werden
typischerweise digital unter Verwendung der Impulscodemodulation
(PCM) codiert.
-
Weil Menschen in vielen Fällen in
der Lage sind, mit einer Geschwindigkeit zu verstehen, die schneller
als die normale menschliche Sprache ist, kann es erwünscht sein,
die aufgezeichnete Sprache bei der Wiedergabe schneller abzuspielen.
Dies könnte
dadurch erreicht werden, dass einfach die Wiedergabegeschwindigkeit
der PCM-Abtastproben vergrößert wird,
dies würde
jedoch die Tonhöhe
der wiedergegebenen Sprache erhöhen.
Um die Vergrößerung der
Tonhöhe
zu vermeiden, ist es bekannt, Gruppen von PCM-Abtastproben aus dem
Abtastprobenstrom zu entfernen und die verbleibenden Abtastproben
mit der normalen Rate von 8 kHz wiederzugeben. Dies führt jedoch
zu Klickgeräuschen
in der Wiedergabe aufgrund von Diskontinuitäten zwischen Sprach-Abtastproben,
die den entfernten Sprach-Abtastproben vorhergehen und nachfolgen.
-
In dem US-Patent 5 386 493 vom 31.
Januar 1995 auf den Namen von Degen werden periodische Gruppen von
Abtastproben aus dem digitalen Abtastprobenstrom entfernt und die
resultierenden Lücken werden
beseitigt. Diskontinuitäten
an den Schnittpunkten werden dadurch vermieden, dass der digitale
Abtastprobenstrom mit einem eine gleiche Leistung aufweisenden Überblend-Verstärker-/Filter
gefiltert wird. Dieses Filter blendet das alte Segment von Abtastproben
unter Verwendung einer parabolischen Funktion aus, während es
das neue Segment einblendet. Bei einer Überblendung überkreuzen
sich die parabolischen Funktionen für jedes Paar von benachbarten
Segmenten an der Segment-Schnittstelle (was zu einem Überblendbereich
führt).
Diese Lösung
erfordert zusätzliche
Verarbeitungsleistung zur Beschleunigung der Sprachwiedergabe gegenüber der,
die zur Wiedergabe des Signals mit seiner normalen (nicht beschleunigten)
Rate erforderlich ist. Die Größe der zusätzlichen
Verarbeitungsleistung, die erforderlich ist, wird von Bedeutung,
wenn die Wiedergabe-Beschleunigung als Teil eines Systems durchgeführt wird,
das Sprache wiedergibt, die vorher komprimiert wurde (das heißt mit einer
niedrigeren Bitrate, als das ursprüngliche Signal gespeichert wurde).
Bei dieser Art von System kann die Notwendigkeit, nicht nur die
Sprach-Abtastproben in den wiedergegebenen Segmenten zu expandieren,
sondern auch die Abtastproben in dem Überblendbereich und bei manchen
Arten von Codierern, die adaptiv und/oder differenziell sind, auch
die Abtastproben in den Segmenten, die unterdrückt wurden, zu mehr als der
doppelten Verarbeitungsleistung gegenüber der mit normaler Geschwindigkeit
erfolgenden Wiedergabe führen,
um die Wiedergabegeschwindigkeit zu verdoppeln.
-
Diese Erfindung ist auf die Überwindung
der Nachteile bekannter Systeme zur Änderung der Geschwindigkeit
der Audio-Wiedergabe gerichtet, insbesondere wenn eine Notwendigkeit
besteht, die wiederzugebenden Audiosignale in einem komprimierten
Format zu speichern.
-
Zusammenfassung
der Erfindung
-
Gemäß der vorliegenden Erfindung
wird ein Verfahren zur Änderung
der Wiedergabegeschwindigkeit eines Wavelet-codierten Audiosignals
gemäß Anspruch
1 geschaffen.
-
Gemäß einem weiteren Gesichtspunkt
der Erfindung wird eine Vorrichtung zum Ändern der Wiedergabegeschwindigkeit
eines digitalisierten Audiosignals geschaffen, wie sie in Anspruch
5 beansprucht ist.
-
Kurze Beschreibung
der Zeichnungen
-
In den Figuren, die bevorzugte Ausführungsformen
der Erfindung erläutern,
ist:
-
Figur eine schematische Darstellung
eines Kommunikationssystems, das gemäß dieser Erfindung ausgebildet
ist,
-
2 eine
grafische Darstellung der Zeit gegenüber der Amplitude von Sprache,
-
3 eine
schematische Einzelheit eines Teils der 1,
-
4 eine
schematische Einzelheit eines weiteren Teils der 1, und
-
5 eine
schematische Darstellung eines weiteren Kommunikationssystems gemäß dieser
Erfindung.
-
Ausführliche
Beschreibung der bevorzugten Ausführungsform
-
1 zeigt
ein Kommunikationssystem 10. Eine sendende Telefonstation 12 des
Systems umfasst eine Serienanordnung aus einem Mikrofon 14, einem
Sprache-PCM-Digitalisierer 16,
einem Teilband-Codierer 18 und einem Sender 20.
Eine empfangende Sprachpost-Station 30 umfasst eine Serienanordnung
aus einem Empfänger 32,
einem Datenspeicher 34, einem Wähler 36, einem Teilband-Decodierer, einem
PCM-/Analog-Wandler 40 und einem Lautsprecher 42.
Der Datenspeicher 34 und der Wähler 36 sind mit einem
Prozessor 46 verbunden, und der Prozessor erhält Eingaben
von einer Benutzerschnittstelle 48. Die sendende Station
und die empfangende Sprachpost-Station sind über einen Kommunikationspfad 22 miteinander
verbunden.
-
Der Teilband-Codierer 18 und
der Teilband-Decodierer 38 verwenden die Teilband-Codierung (SBC).
Die SBC ist ein bekanntes Verfahren zur Erleichterung der Kompression
von PCM-Sprachabtastproben zur Vergrößerung des Informationsdurchsatzes über irgendeinen
vorgegebenen Kommunikationsweg und/oder zur Verringerung des Speicherbedarfs
zum Speichern der Sprach-Abtastproben in einem Computerspeicher
oder auf einer Festplatte. Die SBC beruht auf der Tatsache, dass
das menschliche Ohr für
niedrigere Frequenzen empfindlicher und für höhere Frequenzen weniger empfindlich
ist, so dass, wenn irgendwelche höherfrequenten Komponenten eines
Sprachesignals mit weniger Klanggetreue wiedergegeben werden, das
Signal immer noch verständlich
ist. Im Überblick
wird die SBC mit Kompression wie folgt ausgeführt. Ein PCM-Sprachesignal wird
in aufeinanderfolgenden Blöcken
von Abtastproben organisiert. Jeder Block wird dann gefiltert, um Teilblöcke von
gefilterten Abtastproben zu gewinnen, wobei jeder Teilblock Frequenzkomponenten
des ursprünglichen
Signals umfasst, die in ein bestimmtes Frequenzband fallen. Die
Teilblöcke
werden dann unter Verwendung von weniger Bits erneut codiert oder vollständig unterdrückt, um
das Signal zu komprimieren. In dieser Hinsicht sind die Teilbänder, die
höhere Frequenzbänder darstellen,
diejenigen, die unterdrückt
werden können,
und weiterhin kann, wenn sie beibehalten werden, die auf die Abtastproben
dieser höheren
Frequenzbänder
angewandte erneute Codierung zu einer größeren Bit-Reduzierung als für Abtastproben
in den niedrigeren Frequenzbändern führen. Es
ist eine Anzahl von unterschiedlichen Techniken zur Durchführung dieser
Bit-Reduzierung bekannt. Die verbleibenden Teilblöcke werden
dann in einem Rahmen organisiert, der an den Empfänger gesandt
wird. An dem Empfänger
wird jeder Datenrahmen dekomprimiert und gefiltert, um eine Näherung des
ursprünglichen
Blockes zu rekonstruieren, von dem der Rahmen abgeleitet wurde.
-
Die Teilband-Codierung ist ausführlich in
einer großen
Anzahl von Quellen beschrieben, beispielsweise in einer Veröffentlichung
von R. E. Crochiere mit dem Titel „Sub-Band Coding", veröffentlicht
in dem Bell System Technical Journal, Band 60, Nr. 7, September
1981, Seiten 1633–1651.
-
Im Betrieb des Systems nach 1 kann ein Anrufer an der
sendenden Telefonstation 12 eine Nachricht auf der empfangenden
Sprachpost-Station 30 dadurch zurücklassen, dass er in das Mikrofon 14 spricht.
Der Sprach-Digitalisierer 16 tastet die Sprache am Ausgang
des Mikrofons mit einer Rate von 8 kHz ab und konstruiert einen
Strom von PCM-Abtastproben. Gemäß 2 organisiert der Teilband-Codierer 18 den
PCM-Strom in 16-Millisekunden-Blöcken 52 von
Abtastproben des PCM-Sprachsignals 50. Im Hinblick darauf,
dass die Abtastrate 8 kHz ist, umfasst jeder Block 128 Abtastproben.
Wenn nunmehr 3 betrachtet
wird, so wird jeder Block 52 dann in einem Tiefpassfilter
(LPF), LPF1, mit einer Grenzfrequenz von 2 kHz gefiltert. Die 128 Abtastproben,
die von dem LPF abgegeben werden, bilden ein Signal mit Frequenzkomponenten
bis zu 2 kHz; somit beträgt
die höchste
Frequenzkomponente in den Tiefpass-Abtastproben höchstens
die halbe Frequenz der Abtastproben, die als Eingang an das Filter
geliefert werden. Entsprechend ist nach dem Nyquist-Theorem nur
eine Hälfte
der 128 Abtastproben erforderlich, um die Information in
dem Tiefpass-Signal beizubehalten. Jede zweite Tiefpasssignal-Abtastprobe
wird daher in einem Probenwähler 56a unterdrückt, so
dass es 64 Tiefpass-Abtastproben am Ausgang des Probenwählers gibt.
In ähnlicher
Weise wird jeder Block weiterhin durch ein Hochpassfilter (HPF),
HPF1, gefiltert, das ebenfalls eine Grenzfrequenz von 2 kHz hat.
Das Hochpass-Signal,
das von dem HPF1 abgegeben wird, wird dann zu einem Wähler 56b geleitet,
der jede zweite Abtastprobe abgibt, um 64 Hochpass-Abtastproben
abzuleiten. Die ausgewählten
Hochpass-Abtastproben haben Frequenzkomponenten zwischen 2 und 4
kHz.
-
Aus dem Vorstehenden ist zu erkennen, dass
obwohl jede der ausgewählten
Tiefpasssignal-Abtastproben und jede der ausgewählten Hochpasssignal-Abtastproben eine
Hälfte
des Frequenzgehaltes des ursprünglichen
Signalblockes haben, sie zusammen den gesamten Frequenzgehalt des ursprünglichen
Signalblockes enthalten und daher eine ausreichende Information
liefern, um den Signalblock zu rekonstruieren.
-
Die 64 ausgewählten Tiefpass-Abtastproben werden
zu jedem eines zweiten LPF, LPF21 und eines zweiten HPF, HPF21 weitergeleitet,
die beide eine Grenzfrequenz von 1 kHz haben. Jede zweite Abtastprobe,
die von LPF21 und von HPF21 abgegeben wird, wird ausgewählt, was
zu 32 ausgewählten LPF21-Abtastproben
und 32 ausgewählten HPF21-Abtastproben
führt.
In ähnlicher
Weise werden die 64 ausgewählten Hochpass-Abtastproben
jeweils zu einem weiteren LPF, LPF2h, und einem weiteren HPF, HPF2h
zugeführt,
jeweils mit einer Grenzfrequenz von 3 kHz, und 32 Abtastproben
werden von dem Ausgang jedes Filters ausgewählt. Das Ergebnis besteht in
4 Teilblöcken
von Abtastproben, jeweils mit Frequenzkomponenten, die 1 kHz überspannen.
-
Der gleiche Prozess wird erneut für jeden
der vier Teilblöcke
von 32 Abtastproben wiederholt, was zu acht Teilblöcken mit
16 Abtastproben führt,
wobei jeder Teilblock Frequenzkomponenten hat, die 500 Hz überspannen.
Und der Prozess wird ein weiteres Mal wiederholt, um 16 Teilblöcke jeweils
mit 8 Abtastproben zu gewinnen, die jeweils Frequenzkomponenten
haben, die 250 Hz überspannen.
-
Im Hinblick auf die Tatsache, dass
Telefon-Codecs einen Bandpassbereich von 0 bis 3,4 kHz haben, und
Frequenzen oberhalb von 3,4 kHz ausfiltern, ist der Teilband-Codierer 18 so
programmiert, dass er das dekomprimierte Signal dadurch komprimiert,
dass er die acht Abtastproben-Teilblöcke mit Frequenzkomponenten
von 3500 Hz bis 3750 Hz und die acht Proben-Teilblöcke mit
Frequenzkomponenten von 3750 bis 4000 Hz unterdrückt. Weiterhin werden im Hinblick
auf die relative Unempfindlichkeit des menschlichen Ohres gegenüber höheren Frequenzen
die acht Abtastproben-Teilblöcke
in den 1000 bis 3500 Hz-Bändern mit
einer geringeren Anzahl von Bits neu codiert, als in den Teilblöcken der
0 bis 1000 Hz-Bänder
nach der Neucodierung verbleiben. Die verbleibenden Teilblöcke werden
in einem Rahmen von Daten organisiert, und dieser Rahmen von Daten
wird von dem Sender 20 über
dem Kommunikationspfad 22 ausgesandt. Der gleiche Prozess
wird dann für
jeden aufeinanderfolgenden Block von Daten wiederholt, wobei erneut
die Teilblöcke
mit den Frequenzkomponenten von 3,5 bis 4 kHz unterdrückt und
die anderen Teilblöcke
hinsichtlich ihrer Bitzahl reduziert werden.
-
Jedes der Filter des Teilband-Codierers 18 ist
ein FIR-Filter (Filter mit endlichem Impuls-Ansprechverhalten).
Wie dies für
den Fachmann verständlich
ist, ist ein derartiges Filter ein gewertetes laufendes Mittelwert-Filter.
Somit hat dieses Filter einen Puffer, bei dem die ersten Daten als
erste ausgelesen werden (FIFO-Puffer), der eine Anzahl von Abtastproben
speichert, die gleich der Anzahl in dem Teilblock (oder Block) ist,
die er verarbeitet. Beispielsweise haben jeweils die HPF's und LPF's, die die vier 32 Abtastproben-Teilblöcke verarbeiten,
Puffer, die 32 Abtastproben speichern. Zu Beginn der Verarbeitung
ist der FIFO-Puffer eines Filters mit Abtastproben von dem Teilblock
gefüllt,
die von dem Filter während
der Verarbeitung des vorhergehenden Blockes von Daten verarbeitet
wurden. Wenn die Verarbeitung des derzeitigen Teilblockes weiterläuft, werden Abtastproben
von dem vorhergehenden Rahmen unterdrückt und Abtastproben von dem
laufenden Rahmen werden in dem Filter-Puffer gespeichert, so dass am
Ende der Verarbeitung des laufenden Teilblockes das Filter mit den
Abtastproben des laufenden oder aktuellen Teilblockes gefüllt ist.
-
Wenn die SBC-Rahmen den Empfänger 32 der
empfangenden Sprachpost-Station 30 erreichen, werden die
Rahmen in dem Datenspeicher 34 unter der Steuerung des
Prozessors 46 gespeichert. Wenn ein Benutzer eine gespeicherte
Nachricht hören möchte, kann
er dies dem Prozessor 46 über die Benutzerschnittstelle 48 mitteilen.
Dies fordert den Prozessor auf, den Datenspeicher zu adressieren,
um die SBC-Rahmen zurückzugewinnen,
die dann durch den Wähler 46 und
den Teilband-Decodierer 38 hindurchlaufen;
die decodierten Blöcke
laufen dann an den Digital-/Analog-Wandler 40,
und Analog-Sprache wird über
den Lautsprecher 42 gehört.
-
Wenn der Benutzer nicht über die
Benutzerschnittstelle anzeigt, dass er die Wiedergabe beschleunigen
will, so aktiviert der Prozessor 46 nicht den Wähler 36,
und der ungeänderte
SBC-Rahmenstrom tritt in den Teilband-Decodierer 38 ein.
Gemäß 4 rekonstruiert der Teilband-Decodierer eine
Näherung
jedes ursprünglichen
Blockes der PCM-Abtastproben in der folgenden Weise. Für jeden
der Teilblöcke
in einem Datenrahmen werden die acht Abtastpnoben zurück auf ihre
ursprüngliche
Anzahl von Bits entcodiert (dekomprimiert). Die Entcodierung der
Bitreduzierten Abtastproben führt
einen gewissen Fehler oder Rauschen in das Signal ein, der für stärker Bit-reduzierte
Abtastproben in den höherfrequenten
Teilblöcken
größer ist.
Dieser Verlust an Wiedergabetreue bei den höheren Frequenzen wird jedoch
durch das weiter oben erwähnte
psycho-akustische Phänomen
maskiert. Null-Werte aufweisende Abtastproben werden mit den acht
Abtastproben des Teilblockes in dem Verschachteler 60 verschachtelt,
was zu Teilblöcken
mit 16 Abtastproben führt.
Dann wird der Fnequenzkomponenten des ursprünglichen Signals von 0 bis
250 Hz enthaltende Teilblock durch ein FIR LPF 62 mit einer
Grenzfrequenz von 250 Hz geleitet, und der Frequenzkomponenten des
ursprünglichen
Signals von 250 bis 500 Hz enthaltende Teilblock wird über ein
FIR HPF 64 mit einer Grenzfrequenz von 250 Hz weitergeleitet. Der
Ausgang dieser beiden Filter wird dann in einem Summierer 66 summiert,
was zu einem 16 Abtastproben umfassenden Teilblock mit Frequenzkomponenten
von 0 bis 500 Hz führt.
Der gleiche Prozess wird für
die anderen Paare von Teilblöcken
wiederholt, um Teilblöcke
mit Frequenzkomponenten von 500 bis 1000 Hz, von 1000 bis 1500 Hz
usw. bis 3500 Hz zu gewinnen. Als nächstes werden für jeden
der resultierenden Teilblöcke
Null-Werte aufweisende Abtastproben eingeschachtelt, um Teilblöcke mit
32 Abtastpnoben zu erzeugen. Dann werden Paare der Teilblöcke durch
die FIR-Filter gefiltert
und summiert, was zu Teilblöcken
führt,
die jeweils Fnequenzkomponenten haben, die 1000 Hz überspannen.
Der Prozess wird zweimal mehr wiederholt, um einen einzigen Block
mit Frequenzkomponenten von 0 bis 3500 Hz zu konstruieren. Dieser
einzige Block ist eine Näherung
des ursprünglichen
Blockes.
-
Wenn alternativ der Benutzer wünschte,
die Wiedergabe um 50% zu beschleunigen, so kann er eine passende
Eingabe in dieser Hinsicht an den Prozessor über die Benutzerschnittstelle 48 senden. Dies
bewirkt, dass der Prozessor den Wähler so steuert, dass dieser
jedes dritte benachbarte Paar von Rahmen unterdrückt. Somit würden, wenn
die SBC-Rahmen der gespeicherten Mitteilung als #1, #2, #3, #4,
#5, #6, #7, #8, #9, #10, #11, #12, #13, #14, #15, #16, #17 und #18
nummeriert sein würden, die
den Wähler
verlassenden Rahmen die Rahmen sein, die mit #1, #2, #3, #4, #7,
#8, #9, #10, #13, #14, #15 und #16 nummeriert sind.
-
Wenn der Teilband-Decodierer 38 mit
der Verarbeitung des Rahmens #7 beginnt, so sind die Puffer jedes
seiner FIR-Filter mit Abtastproben von dem vorhergehenden Rahmen
gefüllt,
die er verarbeitete, nämlich
des Rahmens #4. Als Folge hiervon bewirken die FIR-Filter eine Glättung der
Diskontinuitäten
zwischen dem Rahmen #4 und dem Rahmen #7, die sich aus der Unterdrückung der
Rahmen #5 und #6 ergaben. Im Einzelnen lokalisiert die Filterwirkung
jedes der Teilbandfilter die Diskontinuitäten zwischen Rahmen auf lediglich
diejenigen Frequenzbänder,
die aktive Frequenzkomponenten enthalten. Somit wird für Sprache
anstelle der Diskontinuität,
die sich wie ein „Klicken" anhört und einen
weiten Bereich von Frequenzen aufweist, die Diskontinuität auf einen
Satz von Frequenzkomponenten beschränkt, die um diejenigen Frequenzen
herum liegen, die sich in der Sprach-Schwingungsform befinden, und dies wird
daher als Teil der Sprach-Schwingungsform
als solche wahrgenommen. Zusätzlich
sind die Phasen jedes der Frequenz-Teilbänder unabhängig voneinander, so dass sie
keine konstruktive Interferenz an der Diskontinuität aufweisen,
wie dies für
ein Klicken der Fall ist. Entsprechend unterdrückt der rekonstruierte PCM-Abtastprobenstrom
die „Klickgeräusche", während die
Sprache um 50% schneller wiedergegeben wird, als das ursprüngliche
Sprachsignal.
-
Eine Benutzer kann weiterhin über die
Benutzerschnittstelle seinen Wunsch anzeigen, die Wiedergabegeschwindigkeit
um 100% zu vergrößern; in
diesem Fall steuert der Prozessor den Wähler derart, dass er jedes
zweite Paar von Rahmen unterdrückt.
Wenn die Sprache bis 100% beschleunigt wird, könnte der Benutzer über die
Benutzerschnittstelle seinen Wunsch anzeigen, die Geschwindigkeit um
50% zu verringern oder auf die normale Geschwindigkeit zurückzukehren.
Selbstverständlich kann
die Empfangsstation 30 so angeordnet sein, dass sie andere
Grade der Wiedergabe-Beschleunigung auf der Grundlage der Unterdrückung unterschiedlicher
Folgen der Rahmenpaare unterdrückt.
-
Es wird bevorzugt, periodische Paare
von benachbarten Rahmen in dem Wähler 36 zu
unterdrücken,
statt periodischer einzelner Rahmen, weil festgestellt wurde, dass
die letztere Lösung
zu Frequenzverwerfungen in dem rekonstruierten Sprachsignal führt. Das
Unterdrücken
von mehr als zwei aufeinanderfolgenden Rahmen wird ebenfalls nicht
bevorzugt, weil dies zu dem Verlust von zuviel Sprachinformation
führt,
was dazu führt,
dass ganze Silben aus der Sprache verlorengehen.
-
Es sei bemerkt, dass die Sprache
um so sanfter und glatter beschleunigt werden kann, je größer die
Anzahl von Teilbändern
ist. So würde
ein Teilband-Codierer, der bis zu 125 Hz-Bändern herunter codieren würde, ein
verbessertes Betriebsverhalten bei Diskontinuitäten als der beschriebene Teilband-Codierer
haben, der bis herunter zu 250 Hz codiert. Weiterhin kann bei Anwendungen,
bei denen ein schlechteres Betriebsverhalten bei Diskontinuitäten annehmbar
ist, der Teilband-Codierer bis zu Frequenzbändern herunter codieren, die
größer als
250 Hz sind.
-
Die vorliegende Erfindung hat Anwendungen in
Kommunikationssystemen, bei denen die sendende Telefonstation nicht
SPC verwendet. Beispielsweise umfasst gemäß 5 ein Kommunikationssystem 100 eine
Anzahl von Analog-Telefonen 112, die ebenfalls mit dem öffentlichen
Fernsprechwählnetz (PSTN) 122 verbunden
sind. Eine empfangende Sprachpost-Station 130, die gemäß dieser
Erfindung ausgebildet ist, ist ebenfalls mit dem PSTN verbunden.
Die empfangende Sprachpost-Station umfasst eine Serienanordnung
eines Analogempfängers 132, eines
Sprache-PCM-Digitalisierers 116, eines Teilband-Codierers 118,
eines Datenspeichers 134, eines Wählers 136, eines Teilband-Decodierers 138, eines
PCM-/Analog-Wandlers 140 und eines Lautsprechers 142.
Der Datenspeicher 134 und der Wähler 136 sind mit
einem Prozessor 146 verbunden, und der Prozessor erhält einen
Eingaben von einer Benutzerschnittstelle 148.
-
Im Betrieb des Kommunikationssystems 100 wird
ein Anrufer von einer Analog-Telefonstation 112a zu
der empfangenden Sprachpost-Station 130 durchverbunden.
Die Sprache des Anrufers wird von dem Empfänger 132 empfangen,
in dem Digitalisierer 116 in PCM-Abtastproben digitalisiert,
in Rahmen von SBC-Daten durch den Teilband-Codierer 118 (der
eine Bit-reduzierende Recodierung einschließt) Teilband-codiert und in
dem Datenspeicher 134 gespeichert. Wenn ein Benutzer die
gespeicherte Nachricht hören
möchte,
kann er dies über
die Benutzerschnittstelle 148 anzeigen und weiterhin eine
Wiedergabegeschwindigkeit auswählen.
Auf dieser Grundlage steuert der Prozessor 146 den Datenspeicher,
um die SBC-Rahmen auszulesen, und den Wähler 136, um passende
Paare von Rahmen zu unterdrücken.
Die verbleibenden Rahmen treten dann in den Teilband-Decodierer 138 ein,
an dem eine Näherung
des PCM-Stromes rekonstruiert wird, der an dem Sprache-PCM-Digitalisierer 116 abgeleitet
wurde. Diese Rekonstruktion durchläuft dann den PCM-/Analog-Wandler 140 und
gelangt zum Lautsprecher 142, der das Sprachsignal wiedergibt.
-
Es ist zu erkennen, dass das System
nach 5 die SBC nicht
nur zur Vermeidung von „Klickgeräuschen" in der Wiedergabe
von beschleunigter Sprache verwendet, sondern auch um die Kompression
der Sprachesignale zu erleichtern, bevor sie in dem Datenspeicher 134 gespeichert
werden, wodurch der Speicher- und
Festplattenbedarf verringert wird.
-
Eine Verallgemeinerung der Teilband-Codierung,
die bei der vorliegenden Erfindung anstelle von SBC verwendet wird,
ist die Wavelet-Codierung. Die Wavelet-Codierung wird in einer identischen
Weise zur Standard-SBC erreicht, jedoch mit der Ausnahme, dass während die
Standard-SBC FIR-Filter verwendet, die das Sprachesignal in einen
Satz von gleichen Frequenzbändern
aufteilen, die Wavelet-Sprachecodierung
FIR-Filter verwendet, die das Sprachesignal in einem Satz von exponentiell
größeren Frequenzbändern aufteilen
können,
beispielsweise: 0 bis 50 Hz, 50 bis 100 Hz, 100 bis 200 Hz, 200
bis 400 Hz, usw. Breitere Frequenzbänder sind durch mehr Abtastproben
als schmalere Frequenzbänder
dargestellt. Die Wavelet-Decodierung wird in einer identischen Weise
zu der SBC-Decodierung
durchgeführt, jedoch
mit der Ausnahme, dass ein Satz von FIR-Filtern verwendet wird,
die das Signal von einem Satz von exponentiell größeren Frequenzbändern neu kombinieren.
Wavelets bieten somit eine feinere zeitliche Lokalisierung der Frequenzcharakteristiken,
als dies bei der üblichen
SBC der Fall ist. Dies ist vorteilhaft, wenn das Sprachesignal komprimiert
wird.
-
Obwohl die Ausführungsformen nach den 1 und 5 der vorliegenden Erfindung dafür geeignet
sind, die Sprachwiedergabe in einem Sprachpost-System zu beschleunigen,
ist es zu erkennen, dass die Erfindung in gleicher Weise zur Beschleunigung
anderer Audiosignale verwendet werden könnte. In einem derartigen Fall
kann es erwünscht
sein, die Abtastrate und die Wavelet-Kompression einzustellen, wenn der Frequenzbereich,
der in dem System beibehalten werden soll, von dem für Sprache abweichen
würde.
Ein Beispiel für
eine alternative Anwendung ist das Gebiet von Videosignalen. SBC wird
für den
Audio-Teil einiger Videosignale, wie z. B. MPEG-Video verwendet.
Es gibt eine Anzahl von Techniken zur Beschleunigung von Video-Bildern. Die
Empfangsstation 30 nach 2 könnte direkt
bei der selektiven Beschleunigung des Audio-Teils eines derartigen
Signals verwendet werden, so dass in Verbindung mit den Techniken
zur Videobild-Beschleunigung das gesamte Videosignal beschleunigt
werden könnte.
-
Die vorstehend beschriebenen Systeme nach
den 1 und 5 können auch zur Verlangsamung
der Sprache anstelle der Beschleunigung der Sprache verwendet werden.
Dies wird dadurch erreicht, dass dem Wähler 36, 136 der
Befehl gegeben wird, Rahmen einzufügen anstatt Rahmen zu unterdrücken. Insbesondere
könnte
ein Benutzer über
die Schnittstelle 48, 148 anzeigen, dass er es
wünscht, die
Sprache um 50% zu verlangsamen. Der Prozessor 46, 146 würde durch
Steuern des Wählers 36, 136 derart
ansprechen, dass jedes dritte benachbarte Paar von Rahmen wiederholt
wird, so dass diese wiederholten Rahmen den ursprünglichen
Rahmen in dem Rahmenstrom folgen würden. Somit würden, wenn
die Rahmen der gespeicherten Nachricht als #1, #2, #3, #4, #5, #6,
#7, #8, #9, #10, #11, #12, #13, #14, #15, #16, #17 und #18 nummeriert
sein würden, die
den Wähler
verlassenden Rahmen die Rahmen sein, die mit #1, #2, #3, #4, #5,
#6, #5, #6, #7, #8, #9, #10, #11, #12, #11, #12, #13, #14, #15,
#16, #17, #18, #17, #18 nummeriert sind. Um das Rahmeneinfügen zu erleichtern,
kann der Wähler
einen Puffer zur vorübergehenden
Speicherung und damit Wiederholung von ausgewählten Rahmen einschließen.
-
Zusammenfassend ist festzustellen,
dass die vorliegende Erfindung ein Verfahren zur Beschleunigung
der Wiedergabe eines digitalisierten Audiosignals ohne Vergrößern der
Tonhöhe
und ohne die Einführung
von Diskontinuitäten
in dem Sprachesignal ergibt. Sie umfasst die Teilband-Codierung
(SBC) aufeinanderfolgender Blöcke
des Audiosignals mit Wavelet-Kompression zur Ableitung von Rahmen von
Daten. Als nächstes
werden periodisch benachbarte Paare der Rahmen unterdrückt, um
einen Strom der verbleibenden Rahmen übrigzulassen. Eine beschleunigte
Näherung
des digitalisierten Audiosignals wird dann durch die Teilband-Decodierung aufeinanderfolgender
verbleibender Rahmen rekonstruiert. Das Verfahren kann außerdem zur
Verlangsamung der Sprache-Wiedergabe
durch Wiederholen anstelle einer Unterdrückung benachbarter Paare von
Rahmen verwendet werden.
-
Obwohl das digitalisierte Audiosignal
als ein PCM-Signal beschrieben wurde, würde die Erfindung auch mit
anderen Digitalisierungsschemas arbeiten.
-
Weitere Modifikationen sind für den Fachmann
ersichtlich, so dass die Erfindung in den Ansprüchen definiert ist.