DE60018246T2

DE60018246T2 - System zur übertragung eines audiosignals

Info

Publication number: DE60018246T2
Application number: DE60018246T
Authority: DE
Inventors: J. Robert SLUIJTER; J. Augustus JANSSEN
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-05-26
Filing date: 2000-05-08
Publication date: 2006-05-04
Anticipated expiration: 2020-05-09
Also published as: WO2000074039A1; US6978241B1; EP1099215B1; DE60018246D1; KR20010072035A; CN1227646C; JP2003500708A; CN1318188A; EP1099215A1

Description

Die vorliegende Erfindung bezieht sich auf ein Übertragungssystem mit einem Sender mit einem Codierer zum Codieren eines Audiosignals, wobei der Codierer Folgendes umfasst: Frequenzbestimmungsmittel zum Bestimmen einer Frequenz wenigstens einer periodischen Komponente des Audiosignals, wobei der Sender weiterhin Übertragungsmittel aufweist zum Übertragen eines Signals, das die genannte Frequenz wenigstens einer periodischen Komponente darstellt, zu einem Empfänger, wobei der genannte Empfänger Empfangsmittel aufweist zum Empfangen eines Signals, das die genannte Frequenz von dem Sender darstellt, und einen Decoder zum Herleiten eines rekonstruierten Audiosignals auf Basis der genannten Frequenz der wenigstens eine periodischen Komponente.
Die vorliegende Erfindung bezieht sich ebenfalls auf einem Sender, einen Empfänger, ein Codierungsverfahren und ein Decodierungsverfahren.
Huimin Yang u. a.: "Pitch Synchonous Modulated Lapped Transform of the Linear Predication Residual of Speech", "Proceedings of the International Conference on Signal Processing", 12. Oktober 1998, beschreibt ein verlustfreies Modell der Sprachcodierung. In dem beschriebenen Verfahren wird eine zeitunveränderliche Transformation an dem zeitverzerrten Sprachsignal durchgeführt.
Kleijn, W.B. u. a.: "Interpolation of Pitch-Predictor Parameters in Analysis-by-Synthesis Speech Coders", "IEEE Transaction on Speech and Audio Processing", US IEEE Inc. Heft 2, Nr. 1, Teil 1, Seiten 42–54 beschreibt einen Analyse-durch-Synthese Sprachcodierer. Die Effizienz des Codierers wird dadurch gesteigert, dass ein Pitch-Prädiktor vorgesehen wird, der das vergangene rekonstruierte Signal auf dem aktuellen Signal abbildet.
WO-A-95/10760 beschreibt einen 1200 Bit-per-Sekunde Vocoder, der Split-Vektorverarbeitung anwendet. US-A-5 884 253 beschreibt ein Sprachcodierungssystem, das eine rekonstruierte stimmhafte Sprache mit einer geschmeidig entfaltenden Pitchzykluswellenform schafft. EO-A-0 696 026 beschreibt eine weitere Sprachcodierungsanordnung und aus US-A-4 937 873 ist ein Übertragungssystem bekannt.
Derartige Übertragungssysteme und Audiocodierer werden in Applikationen verwendet, in denen Audiosignale über ein Übertragungsmedium mit einer begrenzten Übertragungskapazität übertragen werden sollen oder auf Speichermedien mit einer begrenz ten Speicherkapazität gespeichert werden sollen. Beispiele derartiger Applikationen sind die Übertragung von Audiosignalen übers Internet, die Übertragung von Audiosignalen von einem Mobiltelefon zu einer Basisstation und umgekehrt und die Speicherung von Audiosignalen auf einem CD-ROM, in einem Halbleiterspeicher oder auf einer Festplatte.
Es wurden bereits verschiedene Operationsgrundlagen von Audiocodierern versucht um eine gute Audioqualität mit einer bescheidenen Bitrate zu erhalten. Bei einem dieser Operationsmethoden wird ein zu übertragenes Audiosignal in eine Anzahl Segmente mit einer Länge von 10–20 ms aufgeteilt. In jedem der genannten Segmente wird das Audiosignal durch eine Anzahl Sinuskurven dargestellt, die durch ihre Amplitude und ihre Frequenz definiert werden. In dem Codierer werden die Amplituden und Frequenzen der Sinuskurven bestimmt.
Die Übertragungsmittel übertragen eine Darstellung der Amplituden und Frequenzen zu dem Empfänger. Die von dem Sender durchgeführten Vorgänge können Kanalcodierung, Verschachtelung und Modulation umfassen.
Die Empfangsmittel empfangen ein Signal, welches das Audiosignal von einem Übertragungskanal darstellt und führt Vorgänge wie Demodulation, Entschachtelung und Kanaldecodierung durch. Der Decoder erhält die Darstellung des Audiosignals von dem Empfänger und leitet ein rekonstruiertes Audiosignal davon dadurch ab, dass eine Anzahl Sinuskurven erzeugt werden, wie durch das codierte Signal beschrieben, und dass diese zu einem rekonstruierten Audiosignal kombiniert werden.
Obschon das bekannte System eine gute Codierungsqualität schafft, gibt es dennoch einen hörbaren Unterschied zwischen dem rekonstruierten Audiosignal und dem ursprünglichen Audiosignal.
Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung, ein Übertragungssystem der eingangs beschriebene Art zu schaffen, wobei die Qualität des rekonstruierten Audiosignal weiter verbessert ist.
Um diese Aufgabe zu erfüllen schafft die vorliegende Erfindung in einem ersten Aspekt einen Sender mit einem Codierer zum Codieren eines Audiosignals, wobei der Codierer einen Codierer zum Codieren eines Audiosignals aufweist, wobei der Codierer Folgendes umfasst: Frequenzbestimmungsmittel zum Bestimmen einer Frequenz wenigstens einer periodischen Komponente des Audiosignals; Frequenzänderungsbestimmungsmittel zum Bestimmen einer Frequenzänderung der genannten wenigstens einen periodi schen Komponente des Audiosignals über einen vorbestimmten Zeitbetrag, Zeittransformationsmittel zum Erhalten eines in der Zeit transformierten Eingangssignals; Übertragungsmittel zum Übertragen eines Signals, das die genannte Frequenz darstellt, zu einem Empfänger, wobei die Übertragungsmittel vorgesehen sind zum Übertragen eines weiteren Signals, das die genannte Frequenzänderung darstellt, zu dem Empfänger; dadurch gekennzeichnet, dass die Beziehung zwischen der Echtzeit t und der transformierten Zeit τ durch einen Parameter definiert wird, wobei dieser Parameter von den Übertragungsmitteln zu einem Empfangsmittel übertragen wird, wobei der Parameter durch ein Empfangsmittel interpretiert werden kann zum Effektuieren der umgekehrten Zeittransformation des Signals.
Ein anderer Aspekt der vorliegenden Erfindung schafft einen Empfänger mit Empfangsmitteln zum Empfangen eines codierten Audiosignals, das ein Audiosignal darstellt durch wenigstens eine Frequenz wenigstens einer periodischen Komponente des Audiosignals, und mit einem Decoder zum Herleiten eines rekonstruierten Audiosignals auf Basis der genannten Frequenz, wobei der Empfänger vorgesehen ist zum Empfangen eines weiteren Signals, das eine Frequenzänderung der genannten wenigstens einen periodischen Komponente des genannten Audiosignals über einen vorbestimmten Zeitbetrag darstellt, wobei der Decoder vorgesehen ist zum Herleiten des genannten rekonstruierten Audiosignals auch auf Basis der genannten Frequenzänderung, wobei der Decoder Zeittransformationsmittel aufweist zum Erhalten des rekonstruierten Audiosignals durch Zeittransformation eines decodierten Signals, wobei die Zeittransformationsmittel dadurch gekennzeichnet sind, dass die Beziehung zwischen der Echtzeit t und der transformierten Zeit τ des empfangenen Signals durch einen Parameter definiert wird, wobei dieser Parameter von den Empfangsmitteln empfangen wird, wobei der Parameter durch die Empfangsmittel interpretiert wird zum Effektuieren der umgekehrten Zeittransformation des Signals.
Ein weiterer Aspekt der vorliegenden Erfindung schafft ein Übertragungssystem mit einem Empfänger, wie oben beschrieben.
Ein Verfahrensaspekt der vorliegenden Erfindung schafft ein Verfahren zum Codieren eines Audiosignals, wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst: das Bestimmen einer Frequenz von wenigstens einer periodischen Komponente, und das Herleiten eines Signals, das die genannte Frequenz wenigstens einer periodischen Komponente des Audiosignals darstellt, wobei das Verfahren weiterhin die nachfolgenden Verfahrensschritte umfasst: das Bestimmen eines Signals, das eine Frequenzänderung der wenigstens einen periodischen Komponente des Audiosignals über einen vorbestimmten Zeitbetrag darstellt, das Herleiten eines zeittransformierten Audiosignals, dadurch gekennzeichnet, dass die Beziehung zwischen der Echtzeit t und der transformierten Zeit τ durch einen Parameter bestimmt wird, wobei dieser Parameter durch die Übertragungsmittel zu den Empfangsmitteln übertragen wird, wobei der Parameter durch die Empfangsmittel interpretiert wird zum Effektuieren einer umgekehrten Zeittransformation des Signals.
Nach noch einem anderen Aspekt schafft die vorliegende Erfindung ein verfahren zum Herleiten eines rekonstruierten Audiosignals von einem codierten Audiosignal, das das genannte Audiosignal darstellt, durch wenigstens eine Frequenz wenigstens einer periodischen Komponente des Audiosignals, und einen Decoder zum Herleiten eines rekonstruierten Audiosignals auf Basis der genannten Frequenz, wobei das Verfahren die nachfolgenden Verfahrensschritte umfasst: das Herleiten des genannten rekonstruierten Audiosignals, ebenfalls auf Basis eines weiteren Signals, das eine Frequenzänderung der genannten wenigstens einen periodischen Komponente des Audiosignals über einen vorbestimmten Zeitbetrag darstellt; das Herleiten des rekonstruierten Audiosignals durch eine Zeittransformation eines decodierten Signals, dadurch gekennzeichnet, dass die Beziehung zwischen der transformierten Zeit τ und der Echtzeit t durch einen Parameter bestimmt wird, wobei der Parameter von einem Übertragungsmittel her empfangen und interpretiert wird zum Effektuieren einer umgekehrten Zeittransformation des Signals.
Dadurch, dass auch eine Frequenzänderung der genannten wenigstens einen periodischen Komponente bestimmt wird, kann die Qualität des rekonstruierten Audiosignal auf zweierlei Weisen verbessert werden. Die erste Art und Weise ist, dass die Frequenzänderung dem Empfänger zugeführt wird, der die genannte Frequenzänderung zum Herleiten eines rekonstruierten Audiosignals benutzen kann. Die zweite Art und Weise ist, dass die Frequenzänderung benutzt wird zum Erhalten eines genaueren Wertes einer Frequenz des Audiosignals. Dies kann beispielsweise die Tonhöhe in einem Sprachsignal sein, oder eine beliebige periodische Komponente in einem Audiosignal. Dadurch, dass die Frequenzänderung über einen vorbestimmten Zeitbetrag verwendet wird, kann ein mittlerer Frequenzwert, welcher der genannten Grundfrequenz entspricht, genauer bestimmt werden.
Eine Ausführungsform der vorliegenden Erfindung weist das Kennzeichen auf, dass die Übertragungsmittel vorgesehen sind zum Übertragen eines weiteren Signals, das die genannte Frequenzänderung darstellt, zu dem Empfänger und dass der Decoder vorgesehen ist zum Herleiten des genannten rekonstruierten Audiosignals ebenfalls auf Basis der genannten Änderung der genannten Frequenz.
Dadurch, dass die Frequenzänderung durch ein zusätzliches Signal dargestellt wird, das dem Empfänger zugeführt wird, wird es möglich, dass Sinuskurven, die sich in einem einzigen Syntheseintervall (einigermaßen) in der Frequenz ändern, zur Erzeugung des rekonstruierten Audiosignals benutzt werden. Dies entspricht mehr den Eigenschaften des wirklichen Audiosignals, was zu einer besseren Qualität des rekonstruierten Audiosignals führt.
Eine weitere Ausführungsform der vorliegenden Erfindung weist das Kennzeichen auf, dass die Zeittransformationsmittel vorgesehen sind zur Zeitkompression des Eingangssignals während eines ersten Teils des vorbestimmten Zeitbetrags und zur Zeitexpansion des Eingangssignals während eines zweiten Teils des vorbestimmten Zeitbetrags, derart, dass das in der Zeit transformierte Eingangssignal eine geringere Frequenzänderung hat als das Eingangssignal.
Es hat sich herausgestellt, dass die Anwendung der Zeittransformation, auch als Zeitverzerrung bezeichnet, zum Erhalten eines in der Zeit transformierten Audiosignals, eine effektive Art und Weise ist für den Umgang mit Frequenzänderungen des zu codierenden Signals. Durch Anwendung einer geeigneten Zeittransformation wird es möglich, Ein Signal zu transformieren, das sich in der Frequenz zu einem zeittransformierten Signal ändert, das eine im Wesentlichen konstante Frequenz hat.
Ein Beispiel davon ist ein Audiosignal mit einem linearen Frequenzhub, startend bei einer niedrigen Frequenz am Anfang eines Segmentes und endend bei einer höheren Frequenz am Ende des Segmentes. Durch Zeitkompression des Eingangssignals in dem ersten Teil des Segmentes wird die Frequenz des zeittransformierten Signals höher als die Frequenz des ursprünglichen Eingangssignals.
Durch Zeitexpansion des Eingangssignals in dem zweiten Teil des Segmentes wird die Frequenz des zeittransformierten Eingangssignals niedriger sein als die Frequenz des ursprünglichen Eingangssignals.
Folglich wird ein zeittransformiertes Eingangssignal erhalten, dessen Frequenz am Anfang des Segmentes zugenommen hat und dessen Frequenz am Ende des Segmentes abgenommen hat. Wenn eine geeignete Wahl der Zeittransformation getroffen worden ist, wird es möglich, ein transformiertes Eingangssignal mit einer abgenommenen Frequenzänderung zu erhalten.
Noch eine andere Ausführungsform der vorliegenden Erfindung weist das Kennzeichen auf, dass die die Zeittransformation bestimmenden Mittel vorgesehen sind zum Herleiten einer Anzahl zeittransformierten Eingangssignale, die je einer anderen Zeittransformation entsprechen, und dass der Codierer Bestimmungsmittel aufweist zum Selektieren der Zeittransformation entsprechend dem zeittransformierten Eingangssignal mit der kleinsten Frequenzänderung über den genannten vorbestimmten Zeitbetrag.
Eine Art und Weise zur Bestimmung der geeignetesten Zeittransformation ist, eine Anzahl verschiedener Zeittransformationen zu versuchen und diejenige zu selektieren, die zu einem transformierten Audiosignal mit der kleinsten Frequenzänderung führt.
Noch eine andere Ausführungsform der vorliegenden Erfindung weist das Kennzeichen auf, dass die die Zeittransformation bestimmenden Mittel vorgesehen sind zum Selektieren des zeittransformierten Eingangssignals mit der kleinsten Frequenzänderung über den genannten vorbestimmten Zeitbetrag durch Selektion des zeittransformierten Eingangssignals mit der höchsten Spitze in der Autokorrelationsfunktion.
Eine nützliche Art und Weise der Bestimmung des transformierten Zeitsignals mit der kleinsten Frequenzänderung ist die Autokorrelationsfunktion der verschiedenen zeittransformierten Eingangssignale zu berechnen. Das zeittransformierte Audiosignal mit der höchsten Spitze in der Autokorrelationsfunktion hat die kleinste Frequenzänderung. Auf alternative Weise ist es möglich, die FFT des zeittransformierten Eingangssignals zu berechnen. Denn das zeittransformierte Audiosignal, das zu der höchsten Spitze in der FFT-Domäne führt, hat die meist konstante Frequenz.
Wieder eine andere Ausführungsform des Übertragungssystems nach der vorliegenden Erfindung weist das Kennzeichen auf, dass die Zeittransformation durch eine quadratische Beziehung zwischen der wirklichen Zeit und der transformierten Zeit definiert wird.
Eine quadratische Funktion zwischen der wirklichen Zeit und der transformierten Zeit kann auf einfache Art und Weise berechnet werden, und ist imstande, Zeitkompression in einem ersten Teil des Zeitsegmentes und Zeitexpansion in einem zweiten Teil des Zeitsegmentes zu erreichen.
Wieder eine andere Ausführungsform des Übertragungssystems nach der vorliegenden Erfindung weist das Kennzeichen auf, dass die Beziehung zwischen der wirklichen Zeit t und der transformierten Zeit T durch die nachfolgende Gleichung definiert wird:
wobei a der Parameter ist, der die Zeittransformation definiert, und wobei T die Dauer eines Signalsegmentes ist.
Die oben stehende quadratische Zeittransformation hat nur einen Parameter und ist dennoch imstande, Zeitkompression und Zeitexpansion während eines einzigen Signalsegmentes zu erhalten. Der Vorteil, dass es nur einen einzigen Parameter gibt, ist die reduzierte Anzahl Bits, die erforderlich sind zum Übertragen der optimalen Zeittransformation zu dem Sender. Weiterhin kann dargelegt werden, dass diese Zeittransformationsfunktion imstande ist, eine lineare Frequenzänderung des Eingangssignals völlig zu eliminieren.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im vorliegenden Fall näher beschrieben. Es zeigen:
1 ein Übertragungssystem nach der vorliegenden Erfindung zur Übertragung eines Audiosignals,
2 eine Graphik einer Zeittransformationsfunktion für verschiedene Werte des Parameters a,
3 eine Ausführungsform der die Transformation bestimmenden Mittel 8, die in dem Übertragungssystem nach 1 verwendet werden,
4 Graphiken diskreter Zeitsignale die mit der Zeittransformation durch die mit dem Zeitverzerrer 6 nach 1 zu tun haben,
5 Graphiken diskreter Zeitsignale, die mit der invertierten Zeittransformation durch den Zeitentzerrer 26 nach 1 zu tun haben.
In dem Übertragungssystem nach 1 wird ein zu übertragendes Signal einem Eingang eines Audio-Codierers 4 in einem Sender 2 zugeführt. In dem Audio-Codierer 4 wird das Eingangssignal einem Eingang von Frequenzänderungsbestimmungsmitteln 8 und einem Eingang des Zeittransformationsmittels, das hier ein Zeitverzerrer 6 ist, zugeführt.
Ein erster Ausgang der Frequenzänderungsbestimmungsmittel 8, der ein Ausgangssignal a trägt, ist mit einem Steuereingang des Zeitverzerrers 6 verbunden. Das Ausgangssignal a stellt eine Frequenzänderung einer periodischen Komponente des Ein gangssignals dar. Der Zeitverzerrer 6 führt eine Zeittransformation durch, definiert durch den Parameter a in dem Eingangssignal. Der Parameter a wird derart selektiert, dass die Frequenz einer periodischen Komponente in dem Ausgangssignal des Zeitverzerrers 6 minimiert wird.
An dem zweiten Ausgang der Frequenzänderungsbestimmungsmittel 8 wird ein Signal PITCH, das eine mittlere Frequenz der periodischen Komponente in dem Audiosignal darstellt, präsentiert. Bei der Sprachcodierung stellt das Signal PITCH die Tonhöhe des Sprachsignals dar.
Der Ausgang des Zeitverzerrers 6 ist mit einem Eingang eines Analysators 10 verbunden, der vorgesehen ist zum Bestimmen von Parametern, die das Ausgangssignal des Zeitverzerrers 6 darstellen. Eine erste Möglichkeit ist, dass der Analysator 10 ein linearer prädiktiver Analysator ist, der eine Anzahl LPC-Koeffizienten des Eingangssignals bestimmt. Auf alternative Weise ist es auch möglich, dass der Analysator 10 unmittelbar die Amplituden und Frequenz einer Anzahl sinusförmiges Komponenten bestimmt, die in dem Ausgangssignal des Zeitverzerrers 6 vorhanden sind.
Das Signal a, das Signal PITCH und das Ausgangssignal des Analysators 10, das zusätzliche Eigenschaften des Audiosignals (LPC Koeffizienten oder Amplitude und Frequenz von Sinuskurven) werden entsprechenden Eingängen eines Multiplexers 12 zugeführt. Ein Ausgang des Multiplexers 12 ist mit einem Eingang der Übertragungsmittel 14 verbunden, die das Ausgangssignal des Multiplexers 14 zu einem Empfänger 16 übertragen.
Die Übertragungsmittel 14 führen Vorgänge durch wie Kanalcodierung, Verschachtelung und Modulation des auf einem Träger zu übertragenden Signals durch. In dem Fall, dass die vorliegende Erfindung zum Aufzeichnen des codierten Audiosignals auf einem Aufzeichnungsmedium, wie einer Festplatte oder einer optischen Platte (CD, DVD) angewandt wird, kann auf den Modulationsschritt verzichtet werden. In derartigen Fällen wird der Modulationscode oft verwendet zum Formen des auf dem Aufzeichnungsmedium zu schreibenden Signals.
In dem Empfänger 16 wird das von dem Sender 2 empfangene Signal zunächst von den Empfangsmitteln 18 verarbeitet. Die Empfangsmittel 18 sind vorgesehen zum Durchführen der Demodulation, der Entschachtelung und der Kanaldecodierung. Das Ausgangssignal der Empfangsmittel 18 wird einem Eingang eines Decoders 20 zugeführt.
In dem Decoder 20 wird das Ausgangssignal der Empfangsmittel 18 einem Eingang eines Demultiplexers 22 zugeführt.
Der Demultiplexer liefert Ausgangssignale q, PITCH und LPC an den Ausgängen. Die Signale PITCH und LPC werden in dem Synthesizer 24 verwendet, der ein rekonstruiertes Audiosignal von diesem Parametern herleitet. Die Wirkungsweise eines derartigen Synthesizers, der ein rekonstruiertes Audiosignal auf Basis eines Tonhöhensignals und einer Anzahl LPC Parameter herleitet, ist in der internationalen Patentanmeldung WO99/03095-A1 detailliert beschrieben.
Der Ausgang des Synthesizers 24 ist mit einem Eingang der invertierten Zeittransformationsmittel verbunden, die hier ein Entzerrer 26 sind. Der Entzerrer 26 führt die Frequenzvariationen, die durch den Zeitverzerrer 6 aus dem Eingangssignal entfernt waren, wieder ein. An Entmagnetisierungsschaltung Ausgang des Entzerrers 26 ist das rekonstruierte Audiosignal verfügbar.
Eine in dem Zeitverzerrer 6 zu verwendende geeignete Zeittransformationsfunktion wird gegeben durch:
In (1) ist a ein Verzerrungsparameter, T ist die Dauer des Sprachsegmentes, t stellt die Echtzeit dar und τ ist die transformierte Zeit. Der Wert des Verzerrungsparameters a hat einen Bereich, der gewährleistet, dass die Verzerrungsfunktion immer mit der Zeit t zunimmt. Dies führt zu: |a| ≤ 1 (2)
Die Verzerrungsfunktion wird derart gewählt, dass die Gesamtdauer des verzerrten Audiosegmentes der Dauer des ursprünglichen Audiosegmentes entspricht. Der Start- und der Endwert des verzerrten Segmentes sind dem Start- und dem Endwert des ursprünglichen Audiosegmentes gleich.
Ob Zeitkompression oder Zeitexpansion stattfindet, kann durch Differenzierung (1) gegenüber t ermittelt werden. Dies führt zu:
Zeitkompression erfolgt, wenn dτ/dt kleiner ist als 1 und Zeitexpansion erfolgt, wenn dτ/dt größer ist als 1. Aus (3) folgt, dass Zeitkompression für t < T/2 auftritt und dass Zeitexpansion für t > T/2 auftritt, wenn a > 0 ist. Zeitkompression erfolgt für t > T/2 und Zeitexpansion erfolgt für t < T/2, wenn a < 0 ist.
Das Umgekehrte der Zeitverzerrungsfunktion nach (1) wird definiert entsprechend:
2 zeigt τ/T als eine Funktion von t/T für verschiedene Werte von a. Wenn a gleich 0 ist, ist τ gleich t und es findet keine Zeitverzerrung statt.
Nachstehend wird die Wirkungsweise des durch (1) definierten Zeitverzerrers analysiert. Wenn das Signal s(t) ein Signal mit einer zeitveränderlichen Periodizität ist, wie stimmhafte Sprache, kann dies wie folgt geschrieben werden:
In (5) ist k die harmonische Zahl, x_k und y_k sind Amplitudenfaktoren, und ϕ(t) ist ein Phasenwinkel. Für das zeittransformierte Signal s'(τ) kann Folgendes geschrieben werden:
Da (5) und (6) dieselben physikalischen Signale darstellen, ist ϕ(t) gleich ψ(τ). Die momentane Winkelfrequenz ω_κ(τ) der k. Harmonischen von s(t) wird gegeben durch:
Für die augenblickliche Winkelfrequenz Ω_κ(τ) der k. Harmonischen von s'(τ) kann Folgendes gefunden werden:
Weil ϕ(t) = ψ(τ) ist, sind ihre Zeitableitungen t auch gleich. Unter Verwendung der Kettenregel, lässt sich dies wie folgt schreiben:
Für die Beziehung zwischen Ω_κ(τ) und ω_κ(τ) kann unter Verwendung von (9) Folgendes gefunden werden:
Eine andere wichtige Eigenschaft des Zeitverzerrers ist, dass die mittlere Frequenz der k. Harmonischen der verzerrten Signale der mittleren Frequenz der k. Harmonischen des ursprünglichen Signals entspricht. Dies geht auf einfache Art und Weise aus dem Folgenden hervor:
Nachstehend wird dargelegt, dass die oben stehende Zeitverzerrungsfunktion imstande ist, linear Frequenzschwankungen aus dem Eingangssignal zu entfernen.
Substitution von (3) in (10) führt zu dem Folgenden:
Es wird nun ein Eingangssignal mit einem sinusförmigen Eingangssignal mit einer Winkelfrequenz ω(t), die sich in der Zeit linear ändert. Für die Winkelfrequenz dieses Signals kann Folgendes geschrieben werden:
Substitution von (13) in (12) ergibt:
Falls Ω(τ) konstant sein soll, soll Folgendes gelten:
Substitution von (15) in (14) führt zu:
Dies entspricht einem konstanten Wert, der dem Mittelwert der Winkelfrequenz ω(t) über das Segment mit einer Dauer T entspricht.
In den Frequenzänderungsbestimmungsmitteln 8 nach 3 wird das Audiosignal zunächst einem Gewichtungsfilter 30 zugeführt. Dieses Gewichtungsfilter 30 ist ein adaptives LPC Umkehrfilter. Das Ausgangssignal des Gewichtungsfilters 30 ist ein LPC Rest. Verwendung des Prädiktionsrestes statt des Eingangssignals hat den Vorteil, dass die Bildungsinteraktion mit der Bestimmung der Frequenz der Basisfrequenz (Tonhöhe) minimiert wird.
Der Ausgang des Gewichtungsfilters 30 ist mit einem Eingang eines Tiefpassfilters 32 verbunden. Dieses Tiefpassfilter hat eine Grenzfrequenz von etwa 1100 Hz. Der Ausgang des Tiefpassfilters 32 ist mit Eingängen einer Anzahl Zeitverzerrer 34, 42 und 50 verbunden. Die Zeitverzerrer 34, 42 und 50 sind vorgesehen zum Durchführen einer Zeittransformation entsprechend (1), aber je mit einem anderen Wert des Parameters a.
Der Ausgang der Zeitverzerrer 34, 42 und 50 ist mit einem Eingang des Korrelators 37, 41 bzw. 51 verbunden, die je ein Maß bestimmen, das eine Annäherung der Autokorrelationsfunktion des Ausgangssignals des entsprechenden Zeitverzerrers ist.
Die Korrelatoren 37, 41 und 51 benutzen die Eigenschaft, dass die Autokorrelationsfunktion durch Berechnung der inversen FFT aus dem Leistungsspektrum des in der Analyse begriffenen Signals bestimmt werden kann. Als eine Annäherung des Leistungsspektrums kann auch der absolute Wert der FFT benutzt werden. Das Analysenfenster hat eine relativ lange Dauer von 64 ms erhalten, damit sehr lange Tonhöhenperioden (bis zu 25 ms) gemeistert werden können, die in einigen männlichen Stimmen auftreten können. Die Wahl dieses langen Analysenfensters wird möglich durch den Zeitverzerrungsvorgang, was ein mehr stationäres zeittransformiertes Signal ergibt.
Das Eingangssignal der Korrelatoren 37, 41 und 51 wird einer Fourier-Transformation in den Fourier-Transformatoren 36, 44 und 52 ausgesetzt. Diese Fourier-Transformatoren bestimmen den Absolutwert der FFT deren Eingangssignale. Daraufhin wird eine sog. "Nullphasenfunktion" z_i(n) der Ausgangssignale der FFT 36, 44 und 52 durch Berechnung der inversen FFT des Amplitudenspektrums mit Hilfe von "Inverse Fast Fourier Tranformers" 38, 46 und 54.
Die Nullphasenfunktionen z_i(n) werden gegenüber deren Wert z_i(0) in den Normalisierern 40, 48 und 56 normalisiert. Die Ausgänge der Normalisierer 40, 48 und 56 sind mit den Eingängen der Selektionsmittel 58 verbunden, die den Zeitverzerrungsparameter a selektieren, der der Nullphasenfunktion mit der höchsten Spitze für einen Nicht-Nullwert von n als optimaler Wert entspricht. Diesem Zustand liegt die Erkenntnis zugrunde, dass ein optimal verzerrtes Signal die meist konstante Frequenz Ω_κ(τ) aufweist. Folglich hat dieses Signal die größte Spitze in der Autokorrelationsfunktion.
Die Zeitverzerrer und -entzerrer sind bisher als kontinuierliche Zeitvorgänge beschrieben worden. In einer echten Implementierung sollen diese Vorgänge in einem diskreten Zeitsystem implementiert werden. Wenn ein Segment des Eingangssignals mit einer Dauer T durch N Abtastwerte dargestellt wird, hat das verzerrte Segment ebenfalls eine Dauer T und sollte auch durch N Abtastwerte dargestellt werden. Die Abtastzeitpunkte des zeitverzerrten Signals entsprechen aber nicht den Abtastzeitpunkten des ursprünglichen Eingangssignals. Dies ist für einen Zeitverzerrer in 5 und für einen Zeitentzerrer in 6 dargestellt.
In 5 entspricht die Graphik 60 dem Eingangssignal und die Graphik 62 entspricht dem verzerrten Ausgangssignal. Wie durch den Pfeil 64 in 4 angegeben, entspricht der Abtastzeitpunkt j = 2 in der Graphik 62 einer Zeit zwischen den Abtastzeitpunkten i = 2 und i = 3 in der Graphik 60. Dies entspricht einer Zeitkompression. Wie durch den Pfeil 66 in 4 angegeben, entspricht der Abtastzeitpunkt j = N – 1 in der Graphik 62 einer Zeit zwischen den Abtastzeitpunkten N – 2 und N – 1 in der Graphik 60. Dies entspricht einer Zeitexpansion.
Um dieses Problem zu lösen sollen Abtastwerte für jeden der auftretenden Werte von τ_j berechnet werden, die gegeben werden durch:
Dies geschieht durch Berechnung eines entsprechenden Wertes von t aus τ_j unter Verwendung von (4). Aus diesem Wert von t werden die nächsten Werte in dem Abtastgitter ermittelt. Dies führt zu zwei Werten von i, entsprechend:
In (18) stellt ⌈ ⌉ die nächste ganze Zahl kleiner als das Argument dar und stellt die nächste ganze Zahl größer als das Argument dar. Zum Schluss wird ein linear interpolierter Abtastwert τ_j berechnet, und zwar entsprechend:
Es zeigt sich, dass neben der linearen Interpolation auch andere Interpolationstypen wie quadratische und kubische Interpolation angewandt werden können.
Die Graphik 68 in 5 zeigt den verzerrten Zeitplan und die Graphik 74 zeigt den entsprechenden entzerrten Zeitplan.
Die inverse Verzerrung kann auf dieselbe Art und Weise erfolgen wie in 5 dargestellt. Zunächst werden die Werte von t_i, für welche die entsprechenden Abtastwerte ermittelt werden sollen, durch die nachfolgende Gleichung gefunden:
Dann setzt sich die Berechnung dadurch fort, dass der Wert von τ entsprechend einem gegebenen t_i ermittelt wird, und zwar durch Verwendung des Ausdrucks (1). Aus diesem Wert von t werden die nächsten Werte auf dem Abtastgitter ermittelt. Dies führt zu zwei Werten von j, entsprechend:
Zum Schluss wird ein linear interpolierter Abtastwert für t_i berechnet, und zwar entsprechend:
Es dürfte einleuchten, dass die vorliegende Erfindung durch Verwendung spezieller Hardware oder durch Anwendung eines Programms implementiert werden kann, das in einem programmierbaren Prozessor läuft. Es ist ebenfalls vorstellbar, dass eine Kombination dieser Implementierungen angewandt wird.
Text in der Zeichnung
1

Zeitverzerrer
Frequenzänderungsbestimmungsmittel
Tonhöhe
Analysator
Multiplexer
Demultiplexer
Synthesizer
Entzerrer

3

Selektionsmittel

Claims

Sender mit einem Codierer zum Codieren eines Audiosignals, wobei der Codierer einen Codierer (4) zum Codieren eines Audiosignals aufweist, wobei der Codierer Folgendes umfasst: Frequenzbestimmungsmittel (8) zum Bestimmen einer Frequenz wenigstens einer periodischen Komponente des Audiosignals; Frequenzänderungsbestimmungsmittel (8) zum Bestimmen einer Frequenzänderung der genannten wenigstens einen periodischen Komponente des Audiosignals über einen vorbestimmten Zeitbetrag, Zeittransformationsmittel (6) zum Erhalten eines in der zeit transformierten Eingangssignals; Übertragungsmittel (14) zum Übertragen eines Signals, das die genannte Frequenz darstellt, zu einem Empfänger (16), wobei die Übertragungsmittel vorgesehen sind zum Übertragen eines weiteren Signals, das die genannte Frequenzänderung darstellt, zu dem Empfänger; dadurch gekennzeichnet, dass die Beziehung zwischen der Echtzeit t und der transformierten Zeit τ durch einen Parameter definiert wird, wobei dieser Parameter von den Übertragungsmitteln (14) zu einem Empfangsmittel (18) übertragen wird, wobei der Parameter durch ein Empfangsmittel interpretiert werden kann zum Effektuieren der umgekehrten Zeittransformation des Signals.
Sender nach Anspruch 1, dadurch gekennzeichnet, dass die Zeittransformationsmittel (6) das Signal derart transformieren, dass das in der Zeit transformierte Signal eine geringere Frequenzänderung aufweist als das Eingangssignal.
Sender nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Übertragungsmittel (6) zum Übertragen eines weiteren Signals vorgesehen sind, das die genannte Frequenzänderung darstellt.
Sender nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der Codierer (4) Mittel aufweist zum Bestimmen einer Grundfrequenz aus dem Audiosignal unter Verwendung der genannten Änderung der genannten Grundfrequenz über einen vorbestimmten Zeitbetrag.
Empfänger mit Empfangsmitteln zum Empfangen eines codierten Audiosignals, das ein Audiosignal darstellt durch wenigstens eine Frequenz wenigstens einer periodischen Komponente des Audiosignals, und mit einem Decoder zum Herleiten eines rekonstruierten Audiosignals auf Basis der genannten Frequenz, wobei der Empfänger vorgesehen ist zum Empfangen eines weiteren Signals, das eine Frequenzänderung der genannten wenigstens einen periodischen Komponente des genannten Audiosignals über einen vorbestimmten Zeitbetrag darstellt, wobei der Decoder vorgesehen ist zum Herleiten des genannten rekonstruierten Audiosignals auch auf Basis der genannten Frequenzänderung, wobei der Decoder Zeittransformationsmittel (26) aufweist zum Erhalten des rekonstruierten Audiosignals durch Zeittransformation eines decodierten Signals, wobei die Zeittransformationsmittel dadurch gekennzeichnet sind, dass die Beziehung zwischen der Echtzeit t und der transformierten Zeit τ des empfangenen Signals durch einen Parameter definiert wird, wobei dieser Parameter von den Empfangsmitteln (6) empfangen wird, wobei der Parameter durch die Empfangsmittel interpretiert wird zum Effektuieren der umgekehrten Zeittransformation des Signals.
Empfänger nach Anspruch 5, dadurch gekennzeichnet, dass die Zeittransformationsmittel (26) vorgesehen sind für den Fall dass die Frequenz über den vorbestimmten Zeitbetrag ansteigt zur Zeitexpandierung des decodierten Signals während eines ersten Teils des vorbestimmten Zeitbetrags und zur Zeitkomprimierung des decodierten Signals während eines zweiten Teils des vorbestimmten Zeitbetrags.
Empfänger nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass die Zeittransformationsmittel derart vorgesehen sind, dass das zeittransformierte decodierte Signal eine größere Frequenzänderung hat als das decodierte Signal.
Übertragungssystem mit einem Sender nach Anspruch 1 und einem Empfänger nach Anspruch 5.
Übertragungssystem nach Anspruch 8, dadurch gekennzeichnet, dass die Zeittransformationsmittel (6) das Signal derart transformieren, dass das zeittransformierte Signal eine kleinere Frequenzänderung hat als das Eingangssignal.
Übertragungssystem nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass der Codierer (4) Mittel aufweist zum Bestimmen einer Grundfrequenz aus dem Audiosignal unter Verwendung der genannten Frequenzänderung.
Übertragungssystem nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass die eine Frequenzänderung bestimmenden Mittel (8) Zeittransformationsbestimmungsmittel (34...56) aufweisen zum Herleiten einer Anzahl zeittransformierter Audiosignale, die je einer anderen Zeittransformation entsprechen, und dass die eine Zeittransformation bestimmenden Mittel Selektionsmittel (58) aufweisen zum Selektieren der Zeittransformation entsprechend dem zeittransformierten Audiosignal mit einer kleinsten Frequenzänderung über den genannten vorbestimmten Zeitbetrag.
Übertragungssystem nach Anspruch 11, dadurch gekennzeichnet, dass die eine Zeittransformation bestimmenden Mittel (34...56) vorgesehen sind zum Selektieren des zeittransformierten Audiosignals mit der kleinsten Frequenzänderung über den genannten vorbestimmten Zeitbetrag durch Selektion des zeittransformierten Audiosignals mit der höchsten Spitze in der Autokorrelationsfunktion.
Übertragungssystem nach Anspruch 11 oder Anspruch 12, dadurch gekennzeichnet, dass die Zeittransformation durch eine quadratische Beziehung zwischen der Echtzeit t und der transformierten Zeit τ definiert wird.
Übertragungssystem nach Anspruch 13, dadurch gekennzeichnet, dass die Beziehung zwischen der Echtzeit t und der transformierten Zeit τ definiert wird durch:
wobei a der Parameter ist, der die Zeittransformation definiert, und wobei T die Dauer eines Signalsegmentes ist.
Übertragungssystem nach einem der Ansprüche 8 bis 14, dadurch gekennzeichnet, dass für den Fall, dass die Frequenz über den vorbestimmten Zeitbetrag zunimmt, die Zeittransformationsmittel vorgesehen sind zur Zeitkomprimierung des Audiosignals während eines ersten Teils des vorbestimmten Zeitbetrags und zur Zeitexpandierung des Audiosignals während eines zweiten Teils des vorbestimmten Zeitbetrags.
Verfahren zum Codieren eines Audiosignals, wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfasst: das Bestimmen einer Frequenz von wenigstens einer periodischen Komponente, und das Herleiten eines Signals, das die genannte Frequenz wenigstens einer periodischen Komponente des Audiosignals darstellt, wobei das Verfahren weiterhin die nachfolgenden Verfahrensschritte umfasst: das Bestimmen eines Signals, das eine Frequenzänderung der wenigstens einen periodischen Komponente des Audiosignals über einen vorbestimmten Zeitbetrag darstellt, das Herleiten eines zeittransformierten Audiosignals, dadurch gekennzeichnet, dass die Beziehung zwischen der Echtzeit t und der transformierten Zeit τ durch einen Parameter bestimmt wird, wobei dieser Parameter durch die Übertragungsmittel (6) zu den Empfangsmitteln (18) übertragen wird, wobei der Parameter durch die Empfangsmittel interpretiert wird zum Effektuieren einer umgekehrten Zeittransformation des Signals.
Verfahren nach Anspruch 16, wobei dieses Verfahren weiterhin die nachfolgenden Verfahrensschritte aufweist: in dem Fall, dass die Frequenz über den vorbestimmten Zeitbetrag zunimmt, Zeitkomprimierung des Audiosignals während eines ersten Teils des vorbestimmten Zeitbetrags und Zeitexpandierung des Audiosignals während eines zweiten Teils des vorbestimmten Zeitbetrags.
Verfahren nach Anspruch 16 oder Anspruch 17, wobei das Signal derart zeittransformiert ist, dass das zeittransformierte Audiosignal eine geringere Frequenzänderung hat als das Audiosignal.
Verfahren zum Herleiten eines rekonstruierten Audiosignals von einem codierten Audiosignal, das das genannte Audiosignal darstellt, durch wenigstens eine Frequenz wenigstens einer periodischen Komponente des Audiosignals, und einen Decoder zum Herleiten eines rekonstruierten Audiosignals auf Basis der genannten Frequenz, wobei das Verfahren die nachfolgenden Verfahrensschritte umfasst: das Herleiten des genannten rekonstruierten Audiosignals, ebenfalls auf Basis eines weiteren Signals, das eine Frequenzänderung der genannten wenigstens einen periodischen Komponente des Audiosignals über einen vorbestimmten Zeitbetrag darstellt; das Herleiten des rekonstruierten Audiosignals durch eine Zeittransformation eines decodierten Signals, dadurch gekennzeichnet, dass die Beziehung zwischen der transformierten Zeit τ und der Echtzeit t durch einen Parameter bestimmt wird, wobei der Parameter von einem Übertragungsmittel her empfangen und interpretiert wird zum Effektuieren einer umgekehrten Zeittransformation des Signals.