DE69822085T2 - Änderung der Sprachabspielgeschwindigkeit mittels Wavelet-Kodierung - Google Patents

Änderung der Sprachabspielgeschwindigkeit mittels Wavelet-Kodierung Download PDF

Info

Publication number
DE69822085T2
DE69822085T2 DE69822085T DE69822085T DE69822085T2 DE 69822085 T2 DE69822085 T2 DE 69822085T2 DE 69822085 T DE69822085 T DE 69822085T DE 69822085 T DE69822085 T DE 69822085T DE 69822085 T2 DE69822085 T2 DE 69822085T2
Authority
DE
Germany
Prior art keywords
blocks
audio signal
frames
sub
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69822085T
Other languages
English (en)
Other versions
DE69822085D1 (de
Inventor
Brian Oakville Ontario Cruikshank
Lin Toronto Ontario Lin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks Ltd
Original Assignee
Nortel Networks Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=25527561&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE69822085(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Nortel Networks Ltd filed Critical Nortel Networks Ltd
Application granted granted Critical
Publication of DE69822085D1 publication Critical patent/DE69822085D1/de
Publication of DE69822085T2 publication Critical patent/DE69822085T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • Hintergrund der Erfindung
  • Diese Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Änderung der Wiedergabegeschwindigkeit eines digitalisierten Audio- oder Tonfrequenzsignals.
  • Sprache fällt in einen Frequenzbereich zwischen 20 Hz und 4 kHz. Entsprechend dem Nyquist-Theorem muss ein Analogsignal mit einer Rate abgetastet werden, die zumindest gleich dem Doppelten der höchsten Frequenzkomponente des Signals ist, um die Information in dem Signal beizubehalten. Entsprechend wird zur Digitalisierung von Sprache das Analogsignal zweckmäßigerweise mit einer Rate von 8 kHz abgetastet. Die Analog-Abstastproben werden typischerweise digital unter Verwendung der Impulscodemodulation (PCM) codiert.
  • Weil Menschen in vielen Fällen in der Lage sind, mit einer Geschwindigkeit zu verstehen, die schneller als die normale menschliche Sprache ist, kann es erwünscht sein, die aufgezeichnete Sprache bei der Wiedergabe schneller abzuspielen. Dies könnte dadurch erreicht werden, dass einfach die Wiedergabegeschwindigkeit der PCM-Abtastproben vergrößert wird, dies würde jedoch die Tonhöhe der wiedergegebenen Sprache erhöhen. Um die Vergrößerung der Tonhöhe zu vermeiden, ist es bekannt, Gruppen von PCM-Abtastproben aus dem Abtastprobenstrom zu entfernen und die verbleibenden Abtastproben mit der normalen Rate von 8 kHz wiederzugeben. Dies führt jedoch zu Klickgeräuschen in der Wiedergabe aufgrund von Diskontinuitäten zwischen Sprach-Abtastproben, die den entfernten Sprach-Abtastproben vorhergehen und nachfolgen.
  • In dem US-Patent 5 386 493 vom 31. Januar 1995 auf den Namen von Degen werden periodische Gruppen von Abtastproben aus dem digitalen Abtastprobenstrom entfernt und die resultierenden Lücken werden beseitigt. Diskontinuitäten an den Schnittpunkten werden dadurch vermieden, dass der digitale Abtastprobenstrom mit einem eine gleiche Leistung aufweisenden Überblend-Verstärker-/Filter gefiltert wird. Dieses Filter blendet das alte Segment von Abtastproben unter Verwendung einer parabolischen Funktion aus, während es das neue Segment einblendet. Bei einer Überblendung überkreuzen sich die parabolischen Funktionen für jedes Paar von benachbarten Segmenten an der Segment-Schnittstelle (was zu einem Überblendbereich führt). Diese Lösung erfordert zusätzliche Verarbeitungsleistung zur Beschleunigung der Sprachwiedergabe gegenüber der, die zur Wiedergabe des Signals mit seiner normalen (nicht beschleunigten) Rate erforderlich ist. Die Größe der zusätzlichen Verarbeitungsleistung, die erforderlich ist, wird von Bedeutung, wenn die Wiedergabe-Beschleunigung als Teil eines Systems durchgeführt wird, das Sprache wiedergibt, die vorher komprimiert wurde (das heißt mit einer niedrigeren Bitrate, als das ursprüngliche Signal gespeichert wurde). Bei dieser Art von System kann die Notwendigkeit, nicht nur die Sprach-Abtastproben in den wiedergegebenen Segmenten zu expandieren, sondern auch die Abtastproben in dem Überblendbereich und bei manchen Arten von Codierern, die adaptiv und/oder differenziell sind, auch die Abtastproben in den Segmenten, die unterdrückt wurden, zu mehr als der doppelten Verarbeitungsleistung gegenüber der mit normaler Geschwindigkeit erfolgenden Wiedergabe führen, um die Wiedergabegeschwindigkeit zu verdoppeln.
  • Diese Erfindung ist auf die Überwindung der Nachteile bekannter Systeme zur Änderung der Geschwindigkeit der Audio-Wiedergabe gerichtet, insbesondere wenn eine Notwendigkeit besteht, die wiederzugebenden Audiosignale in einem komprimierten Format zu speichern.
  • Zusammenfassung der Erfindung
  • Gemäß der vorliegenden Erfindung wird ein Verfahren zur Änderung der Wiedergabegeschwindigkeit eines Wavelet-codierten Audiosignals gemäß Anspruch 1 geschaffen.
  • Gemäß einem weiteren Gesichtspunkt der Erfindung wird eine Vorrichtung zum Ändern der Wiedergabegeschwindigkeit eines digitalisierten Audiosignals geschaffen, wie sie in Anspruch 5 beansprucht ist.
  • Kurze Beschreibung der Zeichnungen
  • In den Figuren, die bevorzugte Ausführungsformen der Erfindung erläutern, ist:
  • Figur eine schematische Darstellung eines Kommunikationssystems, das gemäß dieser Erfindung ausgebildet ist,
  • 2 eine grafische Darstellung der Zeit gegenüber der Amplitude von Sprache,
  • 3 eine schematische Einzelheit eines Teils der 1,
  • 4 eine schematische Einzelheit eines weiteren Teils der 1, und
  • 5 eine schematische Darstellung eines weiteren Kommunikationssystems gemäß dieser Erfindung.
  • Ausführliche Beschreibung der bevorzugten Ausführungsform
  • 1 zeigt ein Kommunikationssystem 10. Eine sendende Telefonstation 12 des Systems umfasst eine Serienanordnung aus einem Mikrofon 14, einem Sprache-PCM-Digitalisierer 16, einem Teilband-Codierer 18 und einem Sender 20. Eine empfangende Sprachpost-Station 30 umfasst eine Serienanordnung aus einem Empfänger 32, einem Datenspeicher 34, einem Wähler 36, einem Teilband-Decodierer, einem PCM-/Analog-Wandler 40 und einem Lautsprecher 42. Der Datenspeicher 34 und der Wähler 36 sind mit einem Prozessor 46 verbunden, und der Prozessor erhält Eingaben von einer Benutzerschnittstelle 48. Die sendende Station und die empfangende Sprachpost-Station sind über einen Kommunikationspfad 22 miteinander verbunden.
  • Der Teilband-Codierer 18 und der Teilband-Decodierer 38 verwenden die Teilband-Codierung (SBC). Die SBC ist ein bekanntes Verfahren zur Erleichterung der Kompression von PCM-Sprachabtastproben zur Vergrößerung des Informationsdurchsatzes über irgendeinen vorgegebenen Kommunikationsweg und/oder zur Verringerung des Speicherbedarfs zum Speichern der Sprach-Abtastproben in einem Computerspeicher oder auf einer Festplatte. Die SBC beruht auf der Tatsache, dass das menschliche Ohr für niedrigere Frequenzen empfindlicher und für höhere Frequenzen weniger empfindlich ist, so dass, wenn irgendwelche höherfrequenten Komponenten eines Sprachesignals mit weniger Klanggetreue wiedergegeben werden, das Signal immer noch verständlich ist. Im Überblick wird die SBC mit Kompression wie folgt ausgeführt. Ein PCM-Sprachesignal wird in aufeinanderfolgenden Blöcken von Abtastproben organisiert. Jeder Block wird dann gefiltert, um Teilblöcke von gefilterten Abtastproben zu gewinnen, wobei jeder Teilblock Frequenzkomponenten des ursprünglichen Signals umfasst, die in ein bestimmtes Frequenzband fallen. Die Teilblöcke werden dann unter Verwendung von weniger Bits erneut codiert oder vollständig unterdrückt, um das Signal zu komprimieren. In dieser Hinsicht sind die Teilbänder, die höhere Frequenzbänder darstellen, diejenigen, die unterdrückt werden können, und weiterhin kann, wenn sie beibehalten werden, die auf die Abtastproben dieser höheren Frequenzbänder angewandte erneute Codierung zu einer größeren Bit-Reduzierung als für Abtastproben in den niedrigeren Frequenzbändern führen. Es ist eine Anzahl von unterschiedlichen Techniken zur Durchführung dieser Bit-Reduzierung bekannt. Die verbleibenden Teilblöcke werden dann in einem Rahmen organisiert, der an den Empfänger gesandt wird. An dem Empfänger wird jeder Datenrahmen dekomprimiert und gefiltert, um eine Näherung des ursprünglichen Blockes zu rekonstruieren, von dem der Rahmen abgeleitet wurde.
  • Die Teilband-Codierung ist ausführlich in einer großen Anzahl von Quellen beschrieben, beispielsweise in einer Veröffentlichung von R. E. Crochiere mit dem Titel „Sub-Band Coding", veröffentlicht in dem Bell System Technical Journal, Band 60, Nr. 7, September 1981, Seiten 1633–1651.
  • Im Betrieb des Systems nach 1 kann ein Anrufer an der sendenden Telefonstation 12 eine Nachricht auf der empfangenden Sprachpost-Station 30 dadurch zurücklassen, dass er in das Mikrofon 14 spricht. Der Sprach-Digitalisierer 16 tastet die Sprache am Ausgang des Mikrofons mit einer Rate von 8 kHz ab und konstruiert einen Strom von PCM-Abtastproben. Gemäß 2 organisiert der Teilband-Codierer 18 den PCM-Strom in 16-Millisekunden-Blöcken 52 von Abtastproben des PCM-Sprachsignals 50. Im Hinblick darauf, dass die Abtastrate 8 kHz ist, umfasst jeder Block 128 Abtastproben. Wenn nunmehr 3 betrachtet wird, so wird jeder Block 52 dann in einem Tiefpassfilter (LPF), LPF1, mit einer Grenzfrequenz von 2 kHz gefiltert. Die 128 Abtastproben, die von dem LPF abgegeben werden, bilden ein Signal mit Frequenzkomponenten bis zu 2 kHz; somit beträgt die höchste Frequenzkomponente in den Tiefpass-Abtastproben höchstens die halbe Frequenz der Abtastproben, die als Eingang an das Filter geliefert werden. Entsprechend ist nach dem Nyquist-Theorem nur eine Hälfte der 128 Abtastproben erforderlich, um die Information in dem Tiefpass-Signal beizubehalten. Jede zweite Tiefpasssignal-Abtastprobe wird daher in einem Probenwähler 56a unterdrückt, so dass es 64 Tiefpass-Abtastproben am Ausgang des Probenwählers gibt. In ähnlicher Weise wird jeder Block weiterhin durch ein Hochpassfilter (HPF), HPF1, gefiltert, das ebenfalls eine Grenzfrequenz von 2 kHz hat. Das Hochpass-Signal, das von dem HPF1 abgegeben wird, wird dann zu einem Wähler 56b geleitet, der jede zweite Abtastprobe abgibt, um 64 Hochpass-Abtastproben abzuleiten. Die ausgewählten Hochpass-Abtastproben haben Frequenzkomponenten zwischen 2 und 4 kHz.
  • Aus dem Vorstehenden ist zu erkennen, dass obwohl jede der ausgewählten Tiefpasssignal-Abtastproben und jede der ausgewählten Hochpasssignal-Abtastproben eine Hälfte des Frequenzgehaltes des ursprünglichen Signalblockes haben, sie zusammen den gesamten Frequenzgehalt des ursprünglichen Signalblockes enthalten und daher eine ausreichende Information liefern, um den Signalblock zu rekonstruieren.
  • Die 64 ausgewählten Tiefpass-Abtastproben werden zu jedem eines zweiten LPF, LPF21 und eines zweiten HPF, HPF21 weitergeleitet, die beide eine Grenzfrequenz von 1 kHz haben. Jede zweite Abtastprobe, die von LPF21 und von HPF21 abgegeben wird, wird ausgewählt, was zu 32 ausgewählten LPF21-Abtastproben und 32 ausgewählten HPF21-Abtastproben führt. In ähnlicher Weise werden die 64 ausgewählten Hochpass-Abtastproben jeweils zu einem weiteren LPF, LPF2h, und einem weiteren HPF, HPF2h zugeführt, jeweils mit einer Grenzfrequenz von 3 kHz, und 32 Abtastproben werden von dem Ausgang jedes Filters ausgewählt. Das Ergebnis besteht in 4 Teilblöcken von Abtastproben, jeweils mit Frequenzkomponenten, die 1 kHz überspannen.
  • Der gleiche Prozess wird erneut für jeden der vier Teilblöcke von 32 Abtastproben wiederholt, was zu acht Teilblöcken mit 16 Abtastproben führt, wobei jeder Teilblock Frequenzkomponenten hat, die 500 Hz überspannen. Und der Prozess wird ein weiteres Mal wiederholt, um 16 Teilblöcke jeweils mit 8 Abtastproben zu gewinnen, die jeweils Frequenzkomponenten haben, die 250 Hz überspannen.
  • Im Hinblick auf die Tatsache, dass Telefon-Codecs einen Bandpassbereich von 0 bis 3,4 kHz haben, und Frequenzen oberhalb von 3,4 kHz ausfiltern, ist der Teilband-Codierer 18 so programmiert, dass er das dekomprimierte Signal dadurch komprimiert, dass er die acht Abtastproben-Teilblöcke mit Frequenzkomponenten von 3500 Hz bis 3750 Hz und die acht Proben-Teilblöcke mit Frequenzkomponenten von 3750 bis 4000 Hz unterdrückt. Weiterhin werden im Hinblick auf die relative Unempfindlichkeit des menschlichen Ohres gegenüber höheren Frequenzen die acht Abtastproben-Teilblöcke in den 1000 bis 3500 Hz-Bändern mit einer geringeren Anzahl von Bits neu codiert, als in den Teilblöcken der 0 bis 1000 Hz-Bänder nach der Neucodierung verbleiben. Die verbleibenden Teilblöcke werden in einem Rahmen von Daten organisiert, und dieser Rahmen von Daten wird von dem Sender 20 über dem Kommunikationspfad 22 ausgesandt. Der gleiche Prozess wird dann für jeden aufeinanderfolgenden Block von Daten wiederholt, wobei erneut die Teilblöcke mit den Frequenzkomponenten von 3,5 bis 4 kHz unterdrückt und die anderen Teilblöcke hinsichtlich ihrer Bitzahl reduziert werden.
  • Jedes der Filter des Teilband-Codierers 18 ist ein FIR-Filter (Filter mit endlichem Impuls-Ansprechverhalten). Wie dies für den Fachmann verständlich ist, ist ein derartiges Filter ein gewertetes laufendes Mittelwert-Filter. Somit hat dieses Filter einen Puffer, bei dem die ersten Daten als erste ausgelesen werden (FIFO-Puffer), der eine Anzahl von Abtastproben speichert, die gleich der Anzahl in dem Teilblock (oder Block) ist, die er verarbeitet. Beispielsweise haben jeweils die HPF's und LPF's, die die vier 32 Abtastproben-Teilblöcke verarbeiten, Puffer, die 32 Abtastproben speichern. Zu Beginn der Verarbeitung ist der FIFO-Puffer eines Filters mit Abtastproben von dem Teilblock gefüllt, die von dem Filter während der Verarbeitung des vorhergehenden Blockes von Daten verarbeitet wurden. Wenn die Verarbeitung des derzeitigen Teilblockes weiterläuft, werden Abtastproben von dem vorhergehenden Rahmen unterdrückt und Abtastproben von dem laufenden Rahmen werden in dem Filter-Puffer gespeichert, so dass am Ende der Verarbeitung des laufenden Teilblockes das Filter mit den Abtastproben des laufenden oder aktuellen Teilblockes gefüllt ist.
  • Wenn die SBC-Rahmen den Empfänger 32 der empfangenden Sprachpost-Station 30 erreichen, werden die Rahmen in dem Datenspeicher 34 unter der Steuerung des Prozessors 46 gespeichert. Wenn ein Benutzer eine gespeicherte Nachricht hören möchte, kann er dies dem Prozessor 46 über die Benutzerschnittstelle 48 mitteilen. Dies fordert den Prozessor auf, den Datenspeicher zu adressieren, um die SBC-Rahmen zurückzugewinnen, die dann durch den Wähler 46 und den Teilband-Decodierer 38 hindurchlaufen; die decodierten Blöcke laufen dann an den Digital-/Analog-Wandler 40, und Analog-Sprache wird über den Lautsprecher 42 gehört.
  • Wenn der Benutzer nicht über die Benutzerschnittstelle anzeigt, dass er die Wiedergabe beschleunigen will, so aktiviert der Prozessor 46 nicht den Wähler 36, und der ungeänderte SBC-Rahmenstrom tritt in den Teilband-Decodierer 38 ein. Gemäß 4 rekonstruiert der Teilband-Decodierer eine Näherung jedes ursprünglichen Blockes der PCM-Abtastproben in der folgenden Weise. Für jeden der Teilblöcke in einem Datenrahmen werden die acht Abtastpnoben zurück auf ihre ursprüngliche Anzahl von Bits entcodiert (dekomprimiert). Die Entcodierung der Bitreduzierten Abtastproben führt einen gewissen Fehler oder Rauschen in das Signal ein, der für stärker Bit-reduzierte Abtastproben in den höherfrequenten Teilblöcken größer ist. Dieser Verlust an Wiedergabetreue bei den höheren Frequenzen wird jedoch durch das weiter oben erwähnte psycho-akustische Phänomen maskiert. Null-Werte aufweisende Abtastproben werden mit den acht Abtastproben des Teilblockes in dem Verschachteler 60 verschachtelt, was zu Teilblöcken mit 16 Abtastproben führt. Dann wird der Fnequenzkomponenten des ursprünglichen Signals von 0 bis 250 Hz enthaltende Teilblock durch ein FIR LPF 62 mit einer Grenzfrequenz von 250 Hz geleitet, und der Frequenzkomponenten des ursprünglichen Signals von 250 bis 500 Hz enthaltende Teilblock wird über ein FIR HPF 64 mit einer Grenzfrequenz von 250 Hz weitergeleitet. Der Ausgang dieser beiden Filter wird dann in einem Summierer 66 summiert, was zu einem 16 Abtastproben umfassenden Teilblock mit Frequenzkomponenten von 0 bis 500 Hz führt. Der gleiche Prozess wird für die anderen Paare von Teilblöcken wiederholt, um Teilblöcke mit Frequenzkomponenten von 500 bis 1000 Hz, von 1000 bis 1500 Hz usw. bis 3500 Hz zu gewinnen. Als nächstes werden für jeden der resultierenden Teilblöcke Null-Werte aufweisende Abtastproben eingeschachtelt, um Teilblöcke mit 32 Abtastpnoben zu erzeugen. Dann werden Paare der Teilblöcke durch die FIR-Filter gefiltert und summiert, was zu Teilblöcken führt, die jeweils Fnequenzkomponenten haben, die 1000 Hz überspannen. Der Prozess wird zweimal mehr wiederholt, um einen einzigen Block mit Frequenzkomponenten von 0 bis 3500 Hz zu konstruieren. Dieser einzige Block ist eine Näherung des ursprünglichen Blockes.
  • Wenn alternativ der Benutzer wünschte, die Wiedergabe um 50% zu beschleunigen, so kann er eine passende Eingabe in dieser Hinsicht an den Prozessor über die Benutzerschnittstelle 48 senden. Dies bewirkt, dass der Prozessor den Wähler so steuert, dass dieser jedes dritte benachbarte Paar von Rahmen unterdrückt. Somit würden, wenn die SBC-Rahmen der gespeicherten Mitteilung als #1, #2, #3, #4, #5, #6, #7, #8, #9, #10, #11, #12, #13, #14, #15, #16, #17 und #18 nummeriert sein würden, die den Wähler verlassenden Rahmen die Rahmen sein, die mit #1, #2, #3, #4, #7, #8, #9, #10, #13, #14, #15 und #16 nummeriert sind.
  • Wenn der Teilband-Decodierer 38 mit der Verarbeitung des Rahmens #7 beginnt, so sind die Puffer jedes seiner FIR-Filter mit Abtastproben von dem vorhergehenden Rahmen gefüllt, die er verarbeitete, nämlich des Rahmens #4. Als Folge hiervon bewirken die FIR-Filter eine Glättung der Diskontinuitäten zwischen dem Rahmen #4 und dem Rahmen #7, die sich aus der Unterdrückung der Rahmen #5 und #6 ergaben. Im Einzelnen lokalisiert die Filterwirkung jedes der Teilbandfilter die Diskontinuitäten zwischen Rahmen auf lediglich diejenigen Frequenzbänder, die aktive Frequenzkomponenten enthalten. Somit wird für Sprache anstelle der Diskontinuität, die sich wie ein „Klicken" anhört und einen weiten Bereich von Frequenzen aufweist, die Diskontinuität auf einen Satz von Frequenzkomponenten beschränkt, die um diejenigen Frequenzen herum liegen, die sich in der Sprach-Schwingungsform befinden, und dies wird daher als Teil der Sprach-Schwingungsform als solche wahrgenommen. Zusätzlich sind die Phasen jedes der Frequenz-Teilbänder unabhängig voneinander, so dass sie keine konstruktive Interferenz an der Diskontinuität aufweisen, wie dies für ein Klicken der Fall ist. Entsprechend unterdrückt der rekonstruierte PCM-Abtastprobenstrom die „Klickgeräusche", während die Sprache um 50% schneller wiedergegeben wird, als das ursprüngliche Sprachsignal.
  • Eine Benutzer kann weiterhin über die Benutzerschnittstelle seinen Wunsch anzeigen, die Wiedergabegeschwindigkeit um 100% zu vergrößern; in diesem Fall steuert der Prozessor den Wähler derart, dass er jedes zweite Paar von Rahmen unterdrückt. Wenn die Sprache bis 100% beschleunigt wird, könnte der Benutzer über die Benutzerschnittstelle seinen Wunsch anzeigen, die Geschwindigkeit um 50% zu verringern oder auf die normale Geschwindigkeit zurückzukehren. Selbstverständlich kann die Empfangsstation 30 so angeordnet sein, dass sie andere Grade der Wiedergabe-Beschleunigung auf der Grundlage der Unterdrückung unterschiedlicher Folgen der Rahmenpaare unterdrückt.
  • Es wird bevorzugt, periodische Paare von benachbarten Rahmen in dem Wähler 36 zu unterdrücken, statt periodischer einzelner Rahmen, weil festgestellt wurde, dass die letztere Lösung zu Frequenzverwerfungen in dem rekonstruierten Sprachsignal führt. Das Unterdrücken von mehr als zwei aufeinanderfolgenden Rahmen wird ebenfalls nicht bevorzugt, weil dies zu dem Verlust von zuviel Sprachinformation führt, was dazu führt, dass ganze Silben aus der Sprache verlorengehen.
  • Es sei bemerkt, dass die Sprache um so sanfter und glatter beschleunigt werden kann, je größer die Anzahl von Teilbändern ist. So würde ein Teilband-Codierer, der bis zu 125 Hz-Bändern herunter codieren würde, ein verbessertes Betriebsverhalten bei Diskontinuitäten als der beschriebene Teilband-Codierer haben, der bis herunter zu 250 Hz codiert. Weiterhin kann bei Anwendungen, bei denen ein schlechteres Betriebsverhalten bei Diskontinuitäten annehmbar ist, der Teilband-Codierer bis zu Frequenzbändern herunter codieren, die größer als 250 Hz sind.
  • Die vorliegende Erfindung hat Anwendungen in Kommunikationssystemen, bei denen die sendende Telefonstation nicht SPC verwendet. Beispielsweise umfasst gemäß 5 ein Kommunikationssystem 100 eine Anzahl von Analog-Telefonen 112, die ebenfalls mit dem öffentlichen Fernsprechwählnetz (PSTN) 122 verbunden sind. Eine empfangende Sprachpost-Station 130, die gemäß dieser Erfindung ausgebildet ist, ist ebenfalls mit dem PSTN verbunden. Die empfangende Sprachpost-Station umfasst eine Serienanordnung eines Analogempfängers 132, eines Sprache-PCM-Digitalisierers 116, eines Teilband-Codierers 118, eines Datenspeichers 134, eines Wählers 136, eines Teilband-Decodierers 138, eines PCM-/Analog-Wandlers 140 und eines Lautsprechers 142. Der Datenspeicher 134 und der Wähler 136 sind mit einem Prozessor 146 verbunden, und der Prozessor erhält einen Eingaben von einer Benutzerschnittstelle 148.
  • Im Betrieb des Kommunikationssystems 100 wird ein Anrufer von einer Analog-Telefonstation 112a zu der empfangenden Sprachpost-Station 130 durchverbunden. Die Sprache des Anrufers wird von dem Empfänger 132 empfangen, in dem Digitalisierer 116 in PCM-Abtastproben digitalisiert, in Rahmen von SBC-Daten durch den Teilband-Codierer 118 (der eine Bit-reduzierende Recodierung einschließt) Teilband-codiert und in dem Datenspeicher 134 gespeichert. Wenn ein Benutzer die gespeicherte Nachricht hören möchte, kann er dies über die Benutzerschnittstelle 148 anzeigen und weiterhin eine Wiedergabegeschwindigkeit auswählen. Auf dieser Grundlage steuert der Prozessor 146 den Datenspeicher, um die SBC-Rahmen auszulesen, und den Wähler 136, um passende Paare von Rahmen zu unterdrücken. Die verbleibenden Rahmen treten dann in den Teilband-Decodierer 138 ein, an dem eine Näherung des PCM-Stromes rekonstruiert wird, der an dem Sprache-PCM-Digitalisierer 116 abgeleitet wurde. Diese Rekonstruktion durchläuft dann den PCM-/Analog-Wandler 140 und gelangt zum Lautsprecher 142, der das Sprachsignal wiedergibt.
  • Es ist zu erkennen, dass das System nach 5 die SBC nicht nur zur Vermeidung von „Klickgeräuschen" in der Wiedergabe von beschleunigter Sprache verwendet, sondern auch um die Kompression der Sprachesignale zu erleichtern, bevor sie in dem Datenspeicher 134 gespeichert werden, wodurch der Speicher- und Festplattenbedarf verringert wird.
  • Eine Verallgemeinerung der Teilband-Codierung, die bei der vorliegenden Erfindung anstelle von SBC verwendet wird, ist die Wavelet-Codierung. Die Wavelet-Codierung wird in einer identischen Weise zur Standard-SBC erreicht, jedoch mit der Ausnahme, dass während die Standard-SBC FIR-Filter verwendet, die das Sprachesignal in einen Satz von gleichen Frequenzbändern aufteilen, die Wavelet-Sprachecodierung FIR-Filter verwendet, die das Sprachesignal in einem Satz von exponentiell größeren Frequenzbändern aufteilen können, beispielsweise: 0 bis 50 Hz, 50 bis 100 Hz, 100 bis 200 Hz, 200 bis 400 Hz, usw. Breitere Frequenzbänder sind durch mehr Abtastproben als schmalere Frequenzbänder dargestellt. Die Wavelet-Decodierung wird in einer identischen Weise zu der SBC-Decodierung durchgeführt, jedoch mit der Ausnahme, dass ein Satz von FIR-Filtern verwendet wird, die das Signal von einem Satz von exponentiell größeren Frequenzbändern neu kombinieren. Wavelets bieten somit eine feinere zeitliche Lokalisierung der Frequenzcharakteristiken, als dies bei der üblichen SBC der Fall ist. Dies ist vorteilhaft, wenn das Sprachesignal komprimiert wird.
  • Obwohl die Ausführungsformen nach den 1 und 5 der vorliegenden Erfindung dafür geeignet sind, die Sprachwiedergabe in einem Sprachpost-System zu beschleunigen, ist es zu erkennen, dass die Erfindung in gleicher Weise zur Beschleunigung anderer Audiosignale verwendet werden könnte. In einem derartigen Fall kann es erwünscht sein, die Abtastrate und die Wavelet-Kompression einzustellen, wenn der Frequenzbereich, der in dem System beibehalten werden soll, von dem für Sprache abweichen würde. Ein Beispiel für eine alternative Anwendung ist das Gebiet von Videosignalen. SBC wird für den Audio-Teil einiger Videosignale, wie z. B. MPEG-Video verwendet. Es gibt eine Anzahl von Techniken zur Beschleunigung von Video-Bildern. Die Empfangsstation 30 nach 2 könnte direkt bei der selektiven Beschleunigung des Audio-Teils eines derartigen Signals verwendet werden, so dass in Verbindung mit den Techniken zur Videobild-Beschleunigung das gesamte Videosignal beschleunigt werden könnte.
  • Die vorstehend beschriebenen Systeme nach den 1 und 5 können auch zur Verlangsamung der Sprache anstelle der Beschleunigung der Sprache verwendet werden. Dies wird dadurch erreicht, dass dem Wähler 36, 136 der Befehl gegeben wird, Rahmen einzufügen anstatt Rahmen zu unterdrücken. Insbesondere könnte ein Benutzer über die Schnittstelle 48, 148 anzeigen, dass er es wünscht, die Sprache um 50% zu verlangsamen. Der Prozessor 46, 146 würde durch Steuern des Wählers 36, 136 derart ansprechen, dass jedes dritte benachbarte Paar von Rahmen wiederholt wird, so dass diese wiederholten Rahmen den ursprünglichen Rahmen in dem Rahmenstrom folgen würden. Somit würden, wenn die Rahmen der gespeicherten Nachricht als #1, #2, #3, #4, #5, #6, #7, #8, #9, #10, #11, #12, #13, #14, #15, #16, #17 und #18 nummeriert sein würden, die den Wähler verlassenden Rahmen die Rahmen sein, die mit #1, #2, #3, #4, #5, #6, #5, #6, #7, #8, #9, #10, #11, #12, #11, #12, #13, #14, #15, #16, #17, #18, #17, #18 nummeriert sind. Um das Rahmeneinfügen zu erleichtern, kann der Wähler einen Puffer zur vorübergehenden Speicherung und damit Wiederholung von ausgewählten Rahmen einschließen.
  • Zusammenfassend ist festzustellen, dass die vorliegende Erfindung ein Verfahren zur Beschleunigung der Wiedergabe eines digitalisierten Audiosignals ohne Vergrößern der Tonhöhe und ohne die Einführung von Diskontinuitäten in dem Sprachesignal ergibt. Sie umfasst die Teilband-Codierung (SBC) aufeinanderfolgender Blöcke des Audiosignals mit Wavelet-Kompression zur Ableitung von Rahmen von Daten. Als nächstes werden periodisch benachbarte Paare der Rahmen unterdrückt, um einen Strom der verbleibenden Rahmen übrigzulassen. Eine beschleunigte Näherung des digitalisierten Audiosignals wird dann durch die Teilband-Decodierung aufeinanderfolgender verbleibender Rahmen rekonstruiert. Das Verfahren kann außerdem zur Verlangsamung der Sprache-Wiedergabe durch Wiederholen anstelle einer Unterdrückung benachbarter Paare von Rahmen verwendet werden.
  • Obwohl das digitalisierte Audiosignal als ein PCM-Signal beschrieben wurde, würde die Erfindung auch mit anderen Digitalisierungsschemas arbeiten.
  • Weitere Modifikationen sind für den Fachmann ersichtlich, so dass die Erfindung in den Ansprüchen definiert ist.

Claims (5)

  1. Verfahren zur Änderung der Wiedergabegeschwindigkeit eines Waveletcodierten Audiosignals mit den folgenden Schritten: Auswahl periodischer der Rahmen des Wavelet-codierten Audiosignals; Bilden, auf der Grundlage des Auswahlschrittes, eines Stromes von Rahmen durch Unterdrücken der ausgewählten Rahmen des Wavelet-codierten Audiosignals, so dass ein Strom von Rahmen verbleibt, oder durch Wiederholen der ausgewählten Rahmen in dem Wavelet-codierten Audiosignals zur Bildung eines Stromes von Rahmen; und Rekonstruieren einer Näherung eines digitalisierten Audiosignals, von dem das Wavelet-codierte Audiosignal abgeleitet wurde, durch Wavelet-Decodierung aufeinanderfolgender Rahmen des Stromes von Rahmen.
  2. Verfahren nach Anspruch 1, bei dem das Wavelet-codierte Audiosignal durch die folgenden Schritte gebildet wird: progressives Filtern jedes von aufeinanderfolgenden Blöcken eines Audiosignals mit einem eine endliche Impulsantwort liefernden (FIR-) Tiefpassfilter (LPF's) und mit FIR-Hochpassfiltern (HPF's) zur Gewinnung einer Anzahl von Teilblöcken für jeden Block, wobei jeder Teilblock der Anzahl von Teilblöcken Audiosignal-Abtastproben aufweist, die ein Frequenzband überspannen; und Bilden einer Anzahl von Datenrahmen, wobei jeder Datenrahmen aus einer Anzahl der Teilblöcke aufgebaut ist, die von einem vorgegebenen Block abgeleitet wurden.
  3. Verfahren nach Anspruch 2, bei dem der Schritt des progressiven Filterns Folgendes umfasst: Filtern aufeinanderfolgender Blöcke des Audiosignals mit einem ersten eine endliche Impulsantwort aufweisenden (FIR-) Tiefpassfilter (LPF) zur Gewinnung aufeinanderfolgender einmal gefilterter LPF-Teilblöcke; Filtern aufeinanderfolgender Blöcke des Audiosignals mit einem ersten FIR-Hochpassfilter (HPF) zur Gewinnung aufeinanderfolgender einmal gefilterter HPF-Teilblöcke; Filtern einmal gefilterter LPF-Blöcke mit einem zweiten FIR LPF zur Gewinnung aufeinandertolgender zweimal gefilterter LPF-Teilblöcke; und Filtern aufeinanderfolgender einmal gefilterter LPF-Blöcke mit einem zweiten FIR HPF zur Gewinnung aufeinanderfolgender zweimal gefilterter HPF-Teilblöcke.
  4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem der Schritt der Auswahl periodischer der Rahmen die Auswahl periodischer Paare von benachbarten Rahmen umfasst.
  5. Vorrichtung zum Ändern der Wiedergabegeschwindigkeit eines digitalisierten Audiosignals, mit: Einrichtungen zur Wavelet-Codierung aufeinanderfolgender Blöcke des Audiosignals zur Ableitung von Rahmen von Daten; Einrichtungen zur Auswahl periodischer der Rahmen und Bilden eines Stromes von Rahmen auf der Grundlage des Auswahlschrittes durch Unterdrücken ausgewählter Rahmen wobei ein Strom von Rahmen verbleibt, oder durch Wiederholen der ausgewählten Rahmen; und Einrichtungen zur Rekonstruktion einer Näherung des digitalisierten Audiosignals das die Wavelet-Decodierung aufeinanderfolgender Rahmen des Stromes von Rahmen umfasst.
DE69822085T 1997-11-28 1998-11-12 Änderung der Sprachabspielgeschwindigkeit mittels Wavelet-Kodierung Expired - Lifetime DE69822085T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/980,451 US6009386A (en) 1997-11-28 1997-11-28 Speech playback speed change using wavelet coding, preferably sub-band coding
US980451 1997-11-28

Publications (2)

Publication Number Publication Date
DE69822085D1 DE69822085D1 (de) 2004-04-08
DE69822085T2 true DE69822085T2 (de) 2004-07-22

Family

ID=25527561

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69822085T Expired - Lifetime DE69822085T2 (de) 1997-11-28 1998-11-12 Änderung der Sprachabspielgeschwindigkeit mittels Wavelet-Kodierung

Country Status (4)

Country Link
US (1) US6009386A (de)
EP (1) EP0919988B1 (de)
CA (1) CA2248514A1 (de)
DE (1) DE69822085T2 (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US10361802B1 (en) 1999-02-01 2019-07-23 Blanding Hovenweep, Llc Adaptive pattern recognition based control system and method
US6418424B1 (en) 1991-12-23 2002-07-09 Steven M. Hoffberg Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
JP2955247B2 (ja) * 1997-03-14 1999-10-04 日本放送協会 話速変換方法およびその装置
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
MXPA03001198A (es) * 2000-08-09 2003-06-30 Thomson Licensing Sa Metodo y sistema para habilitar la conversion de velocidad de audio.
CN1185628C (zh) * 2000-08-10 2005-01-19 汤姆森许可公司 用于实现音频速度转换的系统和方法
GB0228245D0 (en) * 2002-12-04 2003-01-08 Mitel Knowledge Corp Apparatus and method for changing the playback rate of recorded speech
US7203795B2 (en) * 2003-04-18 2007-04-10 D & M Holdings Inc. Digital recording, reproducing and recording/reproducing apparatus
US20060187770A1 (en) * 2005-02-23 2006-08-24 Broadcom Corporation Method and system for playing audio at a decelerated rate using multiresolution analysis technique keeping pitch constant
US20070250311A1 (en) * 2006-04-25 2007-10-25 Glen Shires Method and apparatus for automatic adjustment of play speed of audio data
US20100169105A1 (en) * 2008-12-29 2010-07-01 Youngtack Shim Discrete time expansion systems and methods
US9715540B2 (en) * 2010-06-24 2017-07-25 International Business Machines Corporation User driven audio content navigation
KR101418227B1 (ko) * 2010-11-24 2014-07-09 엘지전자 주식회사 스피치 시그널 부호화 방법 및 복호화 방법
US10726851B2 (en) * 2017-08-31 2020-07-28 Sony Interactive Entertainment Inc. Low latency audio stream acceleration by selectively dropping and blending audio blocks

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4586191A (en) * 1981-08-19 1986-04-29 Sanyo Electric Co., Ltd. Sound signal processing apparatus
US5386493A (en) * 1992-09-25 1995-01-31 Apple Computer, Inc. Apparatus and method for playing back audio at faster or slower rates without pitch distortion
US5495554A (en) * 1993-01-08 1996-02-27 Zilog, Inc. Analog wavelet transform circuitry
US5388182A (en) * 1993-02-16 1995-02-07 Prometheus, Inc. Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction
US5583652A (en) * 1994-04-28 1996-12-10 International Business Machines Corporation Synchronized, variable-speed playback of digitally recorded audio and video
JP3093113B2 (ja) * 1994-09-21 2000-10-03 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
US5659539A (en) * 1995-07-14 1997-08-19 Oracle Corporation Method and apparatus for frame accurate access of digital audio-visual information
US5819215A (en) * 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
US5781881A (en) * 1995-10-19 1998-07-14 Deutsche Telekom Ag Variable-subframe-length speech-coding classes derived from wavelet-transform parameters
US5630005A (en) * 1996-03-22 1997-05-13 Cirrus Logic, Inc Method for seeking to a requested location within variable data rate recorded information
US5822370A (en) * 1996-04-16 1998-10-13 Aura Systems, Inc. Compression/decompression for preservation of high fidelity speech quality at low bandwidth
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio

Also Published As

Publication number Publication date
US6009386A (en) 1999-12-28
EP0919988A3 (de) 2000-01-05
EP0919988B1 (de) 2004-03-03
CA2248514A1 (en) 1999-05-28
DE69822085D1 (de) 2004-04-08
EP0919988A2 (de) 1999-06-02

Similar Documents

Publication Publication Date Title
DE69822085T2 (de) Änderung der Sprachabspielgeschwindigkeit mittels Wavelet-Kodierung
DE60002483T2 (de) Skalierbares kodierungsverfahren für hochqualitätsaudio
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE69533500T2 (de) Verfahren und vorrichtung zum kodieren und dekodieren von nachrichten
DE60208426T2 (de) Vorrichtung zur signalkodierung, signaldekodierung und system zum verteilen von audiodaten
DE69738401T2 (de) Fehlerverdeckung in einem digitalen audioempfänger
DE60117471T2 (de) Breitband-signalübertragungssystem
DE60225130T2 (de) Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches
DE69533577T2 (de) Kodierungs- und/oder Dekodierungsverfahren eines digitalen Audiosignals
DE69833834T2 (de) Skalierbares Audiokodier-und Dekodierverfahren und Gerät
DE69232713T2 (de) Verbesserungen in Systemen zum Erreichen von grösserer Amplitudenauflösung
DE69014422T2 (de) Digitales Übertragungssystem, Sender und Empfänger zur Verwendung im Übertragungssystem und Aufzeichnungsträger, der aus dem Sender in Form einer Aufzeichnungseinrichtung erhalten wird.
DE19921122C1 (de) Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
DE69923555T2 (de) Verfahren und vorrichtung zur entropie-kodierung von quantisierten transformationskoeffizienten eines signals
DE602004005197T2 (de) Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals
DE69432538T2 (de) Digitales Signalkodierungsgerät, dazugehöriges Dekodiergerät und Aufzeichnungsträger
Ten Kate et al. Digital audio carrying extra information
DE69534140T2 (de) Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren
DE60220307T2 (de) Verfahren zur übertragung breitbandiger tonsignale über einen übertragungskanal mit verminderter bandbreite
DE69534561T2 (de) Sender-empfänger
DE3315519A1 (de) Analog/digitale signaluebertragung
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
DE19742655C2 (de) Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
DE9006717U1 (de) Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen
DE69029658T2 (de) Verfahren und Einrichtung zur Kompression eines Kommunikationssignals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition