DE4425767C2 - Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit - Google Patents

Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit

Info

Publication number
DE4425767C2
DE4425767C2 DE19944425767 DE4425767A DE4425767C2 DE 4425767 C2 DE4425767 C2 DE 4425767C2 DE 19944425767 DE19944425767 DE 19944425767 DE 4425767 A DE4425767 A DE 4425767A DE 4425767 C2 DE4425767 C2 DE 4425767C2
Authority
DE
Germany
Prior art keywords
block
signal
speed
blocks
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19944425767
Other languages
English (en)
Other versions
DE4425767A1 (de
Inventor
Rainer Dipl Ing Hettrich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE19944425767 priority Critical patent/DE4425767C2/de
Publication of DE4425767A1 publication Critical patent/DE4425767A1/de
Application granted granted Critical
Publication of DE4425767C2 publication Critical patent/DE4425767C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/02Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Anspruchs 1. Ein derartiges Verfahren ist aus der US-Patentschrift 3 803 363 bekannt.
Es ist bekannt, daß Signale, die mit veränderter Geschwindigkeit wiedergegeben werden, ihr Frequenzspektrum zum Teil bis zur Unkenntlichkeit ändern. Ein Beispiel hierfür ist die Wiedergabe einer Schallplatte mit falscher Drehzahl.
Das Spektrum wird bei schnellerer Wiedergabe um den Faktor k der Geschwindigkeits­ änderung gedehnt und bei langsamerer Wiedergabe entsprechend gestaucht.
Es sind, vorwiegend für die Klasse der Sprachsignale,Verfahren bekannt, die die genannte Verfälschung kompensieren. Diese Verfahren gliedern sich in Lösungen im Frequenzbereich mit Hilfe der Fouriertransformation
US 4246617, 20.01.1981; US 4417103, 22.11.1983;
WO 8605617 A1, 25.09.1986; US 4961130, 2.10.1990 und Lösungen im Zeitbereich
DE 30 36 680 A1, 16.04.1981; EP 127892 A1, 12.12.1984;
US 4864620, 5.09.1989; JP 1233835 A2, 19.09.1989;
IL 84903 A1, 15.12.1991; US 5163110, 10.11.1992;
US 5175769, 29.12.1992; US 5216744, 1.06.1993.
Dabei stellen die Lösungen im Frequenzbereich zum Teil theoretisch sehr gute Verfahren dar, die aber, wegen der großen Punktdichte bei höheren Qualitätsanforderungen trotz guter Transformations-Algorithmen, sehr rechenintensiv werden, so daß man in vielen Fällen einen Kompromiß zwischen Qualität und Aufwand machen muß, was die Anwendungsmöglichkeiten bzgl. der Bandbreite bei vorgegebener spektraler Auflösung und maximaler Anzahl der zu transformierenden Punkte bei der diskreten Fouriertransformation einschränkt. Deshalb sind diese Verfahren besonders für Signale mit geringerer Bandbreite, wie etwa Sprache, geeignet. Bei Signalen mit höheren Qualitätsanforderungen und größerer Bandbreite wird die Anwendung der Fouriertransformation immer aufwendiger, da die Rechenzeit mit steigender Punktzahl leicht überproportional wächst.
Die Lösungen im Zeitbereich verwenden alle eine Unterteilung des Signals in einzelne Blöcke, innerhalb derer das Signal mit verschiedenen Verfahren zeitlich so gedehnt oder gestaucht wird, daß sich beim schnelleren oder langsameren Abspielen innerhalb eines Blockes die Wiedergabegeschwindigkeit gegenüber der ursprünglichen nicht ändert.
Die Voraussetzung für das Funktionieren des Verfahrens ist dabei, daß die Signalblöcke einerseits so kurz sind, daß das Frequenzspektrum während der Blockdauer als quasistationär angenommen werden kann, andererseits lang genug sind, um die geforderte spektrale Auflösung zu gewährleisten. Am Beispiel von Audiosignalen bedeutet das, daß das menschliche Ohr innerhalb der Blockdauer zwei aufeinanderfolgende Geräusche zeitlich nicht mehr voneinander unterscheiden kann und somit als einen Klang wahrnimmt. Das mit den betrachteten Verfahren erzielte Ausgangssignal besteht, vereinfacht ausgedrückt, aus einer "Aneinanderreihung von Klängen". Die Verfahren besitzen alle ein Zeitdehnungs- oder Stauchungsverfahren, daß entweder mit einem Interpolationsverfahren oder mit einer Abtastwerteumordnung und verschiedenen Ein- und Auslesegeschwindigkeiten arbeitetet und meist mit vertretbarem Aufwand realisierbar ist.
Die Verfahren im Zeitbereich haben gegenüber denen im Frequenzbereich aber den Nachteil, daß die Phasenwinkel des Signals und damit die Augenblickswerte aufeinanderfolgender Signalblöcke im Moment des Blockwechsels, bedingt durch die Zeitdehnung oder Stauchung, an den Blockgrenzen nicht mehr übereinstimmen. Dadurch entstehen im Ausgangssignal Sprungstellen mit rechteckförmigen Flanken, die im Gegensatz zu einem natürlichen, bandbegrenzten Signal, wie etwa eine Schallwelle, unstetig und im mathematischen Sinne "nicht differenzierbar" sind. Ohne weitere Kompensation entsteht eine starke Störung, die die Qualität des Ausgangssignals erheblich vermindert, bei Audiosignalen vergleichbar mit dem Abspielen stark verkratzter Schallplatten.
Bei dem theoretisch optimalen Verfahren mit Hilfe der Fouriertransformation gemäß US 4417103 wird dieser Mangel durch Auswertung der Phasenwinkel aller Spektrallinien und entsprechende zeitliche Einpassung beseitigt, wofür allerdings ein aufwendiger, eigens in US 4961130 beschriebener, Kontrollbaustein erforderlich ist.
Bei den bisherigen Verfahren im Zeitbereich wird dieses Problem entweder durch geschickte Ausnutzung von Signalpausen während der Blockübergänge bei Sprachsignalen oder durch teilweises Ineinanderschieben und Überlagern aufeinanderfolgender Blöcke gelöst. Im ersten Fall hat man eine Einschränkung der Anwendung auf Signale mit Pausen, im zweiten Fall wird zwischen den benachbarten Blöcken eine Korrelation in den Überlappungsbereichen erzeugt. Diese Korrelation, die als Werkzeug im Bereich der Sprachverarbeitung eingesetzt wird, wirkt hier ähnlich wie ein digitales Filter und führt zu einem Verlust von Signalinformation. Der störende Signalsprung kann beim verfeinerten Verfahren mit gewichteter Überblendung von einem Block in den nächsten gemäß US 4864620 zwar wirkungsvoll unterdrückt werden, dafür geht aber Signalinformation verloren, die den Anwendungsbereich auf bestimmte Signalklassen, wie etwa die der Sprache einschränkt.
Aus der DE-OS 14 72 004 ist ein Verfahren zur Aufbereitung von Sprachsignalen, bei dem zur Erreichung eines kontinuierlichen Überganges zwischen aufeinanderfolgenden Signal-Blöcken und Signal-Blockabschnitten der Amplitudenverlauf mit Hilfe einer Anpassungsfunktion derart verändert wird, daß diese kontinuierlich ineinander übergehen und ein stetiger Signalverlauf erhalten wird, bekannt. Dabei erfolgt eine Addition der Anpassungsfunktion zum Signal im gesamten Blockbereich.
Die bisherigen Verfahren zur Wiedergabe von Sprach- und Audiosignalen haben den Nachteil, daß sie entweder Einschränkungen in der Qualität bzw. der Anwendungs­ möglichkeiten unterliegen oder aber zumindest so aufwendig werden, daß sie nicht mit relativ einfachen Mitteln beherrschbar sind.
Die Aufgabe der Erfindung ist es, beliebige Audiosignalaufnahmen, wie z. B. Musik­ stücke, Sprache und Geräusche mit vertretbarem Aufwand, in guter Qualität und un­ abhängig von deren Charakteristik mit veränderter Geschwindigkeit ohne Tonhöhen­ änderung, mit veränderten Tonhöhen ohne Änderung der Wiedergabegeschwindigkeit sowie mit veränderter Geschwindigkeit und einer bzgl. der natürlichen Tonhöhen­ verschiebung zusätzlichen, unabhängigen Tonhöhenvariation wiedergeben zu können. Diese Aufgabe wird mit den Merkmalen des Anspruchs 1 erreicht.
Die Lösung des Problems erfolgte mit Hilfe der digitalen Signalverarbeitung, die ein analoges Signal als Folge von Binärzahlen darstellt, modifiziert und schließlich wieder in ein analoges Signal überführt. Vorteilhaft ist hierbei, daß sich die Signalverarbeitung, wenn die entsprechende Folge von Binärzahlen einmal vorliegt, mit Digitalrechnern sehr präzise und anwenderspezifisch durchführen läßt.
Deshalb wurde zunächst ein System entsprechend Fig. 1, bestehend aus Signalquelle mit variabler Geschwindigkeit (1), Anti-Aliasing-Filtern (2), (3), Analog/Digital- und DigitaI/Analog-Wandlern (4), (5), zwei Arbeitsspeicherbereichen für die Ein- und Ausgabe (6), (7), einem Digitalrechner mit einem problemangepaßten Rechen- und Zuordnungsverfahren als Zentraleinheit (8), einer analogen Amplitudenskalier- und Verstärkungsmöglichkeit mit Impedanzanpassung (9), einem Lautsprecher (10) und einer Trennmöglichkeit des Rechners mit Arbeitsspeicher vom Restsystem (11), (12) entworfen.
Wegen der besseren Überschaubarkeit bei allgemeinen Untersuchungen wurde festgelegt, daß die Anzahl der eingelesenen Binärzahlen in dem einen Arbeitsspeicherbereich (6) in jedem Zeitintervall gleich der Anzahl der ausgelesenen Binärzahlen aus dem anderen Arbeitsspeicherbereich (7) sein soll.
Die Zahlenfolge eines Signals, wie etwa ein Musikstück, wird im Rahmen der hier durchgeführten Betrachtung als "quasi unendlich" lang angesehen. Der Erfindung wird hier das Modell der "Aneinanderreihung von Klängen bzw. Signalsequenzen" zugrundegelegt, indem der Zahlenstrom in Blöcke (13) mit fester und gleichbleibender Anzahl von Zahlen unterteilt wird, die dann sequentiell aus dem Eingangsarbeitsspeicherbereich (6) entnommen, entsprechend der gewünschten Geschwindigkeitsänderung umgeformt und im Ausgangsarbeitsspeicherbereich (7) abgelegt werden.
Die Parameter-Blockdauer und Anzahl der Punkte je Block stellen für die Funktionstüchtigkeit und Qualität entscheidende Größen dar. Um diese Größen optimieren zu können, sollte die Blocklänge zwar innerhalb eines Durchlaufes fest, aber bei jedem Versuch frei vorgebbar sein.
Mit dem beschriebenen System ist das Problem zunächst auf die Umformung von Blöcken endlicher Dauer und die Einstellung einer Blocklänge reduziert. Wichtig für die Einstellung der Blocklänge ist die Forderung, daß das Signal keine bzgl. der Anwendung relevanten Informationen enthält, die sich aus einer Änderung des Frequenzspektrums innerhalb der eingestellten Blockdauer ergeben, was bei Audiosignalen durch die begrenzte zeitliche Trennfähigkeit des menschlichen Hörvermögens bezüglich schnell aufeinanderfolgender Einzelgeräusche gegeben ist. Andererseits kann ein zusammenhängender Block als Signalausschnitt umso mehr Information enthalten, umso länger er ist. Es war deshalb zu erwarten, daß bei unabhängiger Umformung eines Blockes von seinen Nachbarblöcken die Qualität mit steigender Länge zunimmt.
Nachdem das Problem auf die Umformung von endlich langen Zahlenblöcken reduziert war, bot sich die Lösung mit Hilfe der diskreten Fourieranalyse an, die sich aber entsprechend ihrer Definition eigentlich nur auf die unendliche periodische Fortsetzung des gerade betrachteten Blockes anwenden läßt. Die Fouriertheorie besagt, daß im Falle der unendlichen Wiederholung eines Signalblockes ein zeitinvariantes, diskretes Frequenzspektrum der gesamten Blockfolge existiert und daß sich der Abstand der Spektrallinien bei schnellerer Blockabfolge entsprechend dem Faktor der Geschwindigkeitsänderung k linear dehnt bzw. staucht. Am Beispiel eines Audiosignals bedeutet das: Wird ein immer gleich klingender Orgelklang auf einem Tonband wiedergegeben, so klingt er höher, wenn das Tonband schneller abgespielt wird und sonst ändert sich nichts. Wird aber eine Melodie schneller abgespielt, so ist die Voraussetzung der unendlichen Periodizität des charakteristischen Signals für die Anwendung der Fouriertransformation nicht mehr gegeben und das Spektrum wird zeitvariant. Zusätzlich zur Frequenzskalierung des Spektrums ändert sich auch die Geschwindigkeit der Variation des Spektrums, was bei der Lösung des Problems gerade erwünscht ist. Die reine Anwendung der Fourieranalyse auf das bestehende Problem kann aber nur Hilfsmittel für die Approximation des gewünschten Verhaltens sein; das Problem läßt sich mit der Fourieranalyse alleine nicht lösen. Dennoch ist ihre Zeitskalierungs­ eigenschaft von fundamentaler Bedeutung. Diese besagt, daß sich die dem Problem zugrunde liegenden Frequenzverschiebungen, wie die spektrale Dehnung oder Stauchung durch zeitliche Dehnung oder Stauchung und weglassen oder periodisches Auffüllen von überflüssigen bzw. fehlenden Elementen kompensieren lassen.
Um nun ein System zu erhalten, bei dem möglichst viele charakteristische Größen einstellbar sind, wurde die Blockumformung zunächst, wie in Fig. 2 vereinfacht dargestellt, durch Fouriertransformation (1), Spektrale Dehnung oder Stauchung (2) und inverse Fouriertransformation (3) durchgeführt. Dabei erwies sich das Verfahren trotz schneller Transformations-Algorithmen bei größeren Blocklängen als so rechenintensiv, daß eine unmittelbare Anwendung als sehr unattraktiv erscheint. Außerdem konnte das Problem der unstetigen Blockübergänge nicht unmittelbar gelöst werden. Dennoch zeigten Versuche mit diesem und den daraus hervorgegangenen Verfahren, daß die Qualität des Höreindruckes von Audiosignalen bei gegebener Abtastrate von 198,4 kHz sich maßgeblich mit der Blocklänge und somit dem "spektralen Auflösungsvermögen" (4) des Systems verbessert. In den durchgeführten Versuchen war der Höreindruck - unabhängig von anderen Störungen - erst ab einer Blocklänge von über 2000 Signalpunkten brauchbar und ab 4000 Punkten gut. Das bedeutet, daß enorme Rechnerleistungen erforderlich sind, die dieses Verfahren unwirtschaftlich machen.
Aus den Nachteilen des Standes der Technik ergeben sich die folgenden Entwurfskriterien für das neue Verfahren:
  • a) Verfahren mit Zusammenfassung einer konstanten Zahl von äquidistanten Abtastwerten zu Signalblöcken
  • b) möglichst kurzer Blockdauer bzgl. der zeitlichen Trennfähigkeit des menschlichen Hörvermögens, wobei sichergestellt wird, daß trotzdem eine Stetigkeit im Abspielverhalten erreicht wird
  • c) ausreichend große Punktdichte der Abtastwerte, so daß die Klangtreue auch bei Wiedergabe mit stark veränderten Geschwindigkeiten erhalten bleibt
  • d) möglichst kleiner Übergangsbereich mit stetigem Übergang von einem Block zum nächsten.
Entsprechend wurde das neue Verfahren entwickelt, dessen Funktionsweise im folgenden erläutert wird.
Wie in Fig. 1 dargestellt, erzeugt eine Signalquelle (1), wie z. B. ein Tonband, durch Veränderung der Laufwerksdrehzahl ein mit einer um den Faktor k erhöhten oder verminderten Geschwindigkeit wiedergegebenes Signal. Dabei erfolgt die einem Ton zugrundegelegte Schwingung bei erhöhter Wiedergabegeschwindigkeit schneller und bei verminderter Geschwindigkeit langsamer. Da eine schnellere Schwingung eine höhere und eine langsamere Schwingung eine niedrigere Frequenz hat, verschieben sich mit der Veränderung der Wiedergabegeschwindigkeit auch die Tonhöhen entsprechend dem Faktor der Geschwindigkeitsänderung. Um die dadurch entstandene Verfälschung des Signals wieder rückgängig zu machen, folgt der Signalquelle die in Fig. 1 dargestellte Signalverarbeitung.
Das Signal durchläuft zunächst ein Filter (2), das eventuell vorhandenes Rauschen im hochfrequenten, nicht hörbaren Bereich unterdrückt. Danach wird es mit einem Analog- Digital-Wandler (4) in eine Zahlenfolge umgewandelt und im Arbeitsspeicherbereich (6) eines Computers abgelegt. Der Computer selbst (8) macht die Tonhöhenverschiebungen blockweise rückgängig und legt die umgeformten Blöcke in einem anderen Arbeitsspeicherbereich (7) ab. Die umgewandelte Zahlenfolge wird anschließend an einen Digital-Analog-Wandler (5) ausgegeben, der daraus eine zum Eingangssignal korrespondierende, bzgl. der Tonhöhen umgewandelte, treppenförmige Folge von Spannungswerten erzeugt. Ein nachfolgendes Filter (3) glättet die durch die Digital- Analog-Wandlung entstandenen Kanten der treppenförmigen Ausgangsspannung und erzeugt so wieder einen kontinuierlichen Signalverlauf. Das so erhaltene Signal kann danach mit einer Verstärker-Lautsprecheranordnung (9), (10) hörbar gemacht werden.
Die Rückgängigmachung der Tonhöhenverschiebungen beruht, wie in Fig. 3 dargestellt, auf einer zeitlich gestauchten oder gedehnten Anordnung der Amplitudenwerte auf der Zeitachse. Dabei ändern sich prinzipiell weder die Amplitudenwerte selbst, noch ihre Reihenfolge. Dadurch entfällt ein aufwendiges Rechenverfahren. Die gestauchte oder gedehnte Anordnung der Abtastwerte auf der Zeitachse erstreckt sich jeweils auf einen Block. Dabei erfolgt bei einer langsameren Wiedergabe die Erhöhung der Tonhöhen entsprechend Fig. 3a durch gestauchte Anordnung der Amplitudenwerte auf der Zeitachse. Durch die gestauchte Anordnung des Blockinhaltes verbleibt ein unbesetzter Zeitraum zwischen dem Ende des gestauchten und dem Ende des ursprünglichen Blockes.
Dieser Zeitraum wird mit einer Folge von Amplitudenwerten des bereits gestauchten Blockes aufgefüllt, die entweder aus dessen Anfang, aus dessen Mitte oder aus dessen Ende entnommen werden.
Bei einer schnelleren Wiedergabe erfolgt die Absenkung der Tonhöhen entsprechend Fig. 3b durch eine gedehnte Anordnung der Amplitudenwerte auf der Zeitachse, wobei der Anteil des Zahlenblockes, dessen gedehnte Anordnung einen über das ursprüngliche Blockende hinausragenden Signalverlauf verursachen würde, einfach weggelassen wird.
Die beim Übergang zwischen aufeinanderfolgenden Signalblöcken oder Blockabschnitten durch die zeitliche Stauchung oder Dehnung entstehenden Signalsprünge werden durch Konstruktion eines stetigen, möglichst glatten, d. h. im mathematischen Sinne differenzierbaren, Signalverlaufes beseitigt, wobei der zur Konstruktion benötigte Übergangsbereich möglichst klein sein sollte. Eine einfache Möglichkeit der Konstruktion eines stetigen Signalüberganges besteht in der Amplitudenmodulation bzw. Multiplikation des zeitlich gedehnten oder gestauchten Signals mit einer Hüllkurve, die an den Block- oder Blocksegmentgrenzen den Wert "Null", an den Block(segment)anfängen einen cosinusförmigen Anstieg, an den Block(segment)enden einen cosinusförmigen Abfall, und dazwischen einen konstanten, von Null verschiedenen Wert, vorzugsweise "1", hat. Eine solche Hüllkurve ist in Fig. 3 angegeben und kann, wie folgt, mathematisch explizit angegeben werden:
Bei der Multiplikation des modifizierten Signals mit dieser Hüllkurve erreicht man die Stetigkeit durch Erzwingen eines Nulldurchganges und die Differenzierbarkeit durch ein "weiches", cosinusförmiges Auf- und Abklingen des Signals an der Übergangsstelle. Bei Versuchen zeigte sich, daß man gute Ergebnisse bei Anstiegs- und Abfallzeiten im Bereich von 1% der Blockdauer erhält. Vorteil der Konstruktion eines stetigen Blocküberganges durch Multiplikation eines Signals mit einer Hüllkurve ist, daß die Multiplikation wegen der periodischen Wiederholung der Hüllkurve auch nach der Digital-Analog-Wandelung mit einem gegenüber einem Rechner erhöhter Leistung kostengünstigeren Analogmultiplizierer durchgeführt werden kann.
Die zeitlich gestauchte oder gedehnte Anordnung der Abtastwerte auf der Zeitachse erfolgt mit Hilfe eines Interpolationsverfahrens. Da sich die Anzahl der Amplitudenwerte eines Blockes bei der zeitlichen Stauchung oder Dehnung nicht ändern soll, werden im Fall der Dehnung die fehlenden Zwischenwerte durch Interpolation aus den benachbarten vorhandenen Abtastwerten berechnet und der gedehnte Block wird mit den interpolierten Zwischenwerten entsprechend ergänzt. Im Falle der zeitlichen gestauchten Anordnung können die gewünschten Zahlenwerte jeweils aus den beiden nächstliegenden Werten der dann dichter zusammengedrängten, gedachten Zahlenfolge durch Interpolation ermittelt werden. Würde man auf das Interpolationsverfahren verzichten, so müßten unbekannte Zwischenwerte entweder mit dem vorausgehenden oder folgenden Wert besetzt oder einfach weggelassen werden, was einer Reduktion der effektiven Punktdichte und damit bei gegebener Abtastrate einer Qualitätsverschlechterung entspricht.
Ein Ausführungsbeispiel der Erfindung ist anhand von Zeichnungen als Folge von Figuren dargestellt. Davon zeigt
Fig. 1 das Blockschaltbild der Signalverarbeitung zur Kompensation der Tonhöhenverschiebungen;
Fig. 2 die Anzahl der Zwischenergebnisse und der Rechenaufwand bei einer Signalverarbeitung im Frequenzbereich mit Hilfe der Fouriertransformation;
Fig. 3a-b die Kompensation der Tonhöhenverschiebungen im Zeitbereich und das Erzeugen von stetigen Signalübergängen zwischen Blöcken und Blocksegmenten;
Fig. 4 das Blockschaltbild eines Ausführungsbeispiels der Erfindung.
Die Anordnung der Komponenten eines Ausführungsbeispiels ist in Fig. 4 dargestellt. Als Signalquelle dient ein Cassettenrecorder (1) mit einem Laufwerk, dessen Drehzahl einstellbar ist. Diese Drehzahl wird über eine Einstellmöglichkeit (8) entsprechend der gewünschten, im Algorithmus (7) voreingestellten Geschwindigkeitsvariation geändert. Das so erzeugte Signal wird dann unmittelbar einer 12-Bit-Analog-Digital-Wandlerkarte (2) zugeführt, die eine Computerschnittstelle besitzt. Die A/D-Wandlerkarte ordnet das Signal innerhalb des Aussteuerbereiches proportional zum Spannungswert einer Zahl zwischen 0 und 4095 zu. Die vom A/D-Wandler erreichte Abtastpunktdichte liegt bei 198400 Abtastwerten pro Sekunde.
Die so erzeugten Zahlenwerte werden unmittelbar nach ihrer Entstehung über eine Schnittstelle an einen Computer (9) übergeben. Dieser legt die Werte zunächst in einem Speicherbereich (5) ab. Nach dem Ende des abgespielten Signalstückes entnimmt der Rechner (4) die abgespeicherten Zahlen blockweise aus dem Speicher, transformiert sie entsprechend dem eingegebenen Geschwindigkeitstransformationsalgorithmus (7) gemäß Anspruch 2 und legt sie wiederum in einem anderen Speicherbereich (5) ab. Die so gebildeten Blöcke bestehen jeweils aus 4096 Zahlenwerten. Vom Speicher (5) werden die Zahlenwerte jeweils über eine Schnittstelle an einen 12-Bit-Digital-Analog-Wandler (3) übergeben, der die Zahlen zwischen 0 und 4095 wieder in eine proportionale Spannung umwandelt. Diese wird dann unmittelbar entweder über eine Verstärker-Lautsprecher- Anordnung (10), (11) ausgegeben oder mit einem zweiten Cassettenrecorder (12) festgehalten.
Bei dem dargestellten Ausführungsbeispiel erreicht man eine Entkoppelung des Rechenverfahrens vom Einlese- und Wiedergabeprozeß. Vorteil dabei ist die hohe Flexibilität des Systems bzgl. Parametervorgaben, Nachteil ist die durch die Größe des Arbeitsspeichers begrenzte Dauer einer Wiedergabe und eine Wartezeit zwischen Einlesen und Wiedergabe.
Das Beispiel stellt demnach eine sog. "Off-Line"-Version dar, die ohne Echtzeitberechnung auskommt. Durch Optimieren der Algorithmen, Programme, und durch den Einsatz von schnellen Mikroprozessorsystemen, die nicht mehr mit der Betriebssystemsteuerung des gesamten Computers belastet werden, sind aber auch Echtzeit- bzw. "On-Line"-Verfahren denkbar, die dann Signalsequenzen unbegrenzter Länge ohne wahrnehmbare Verzögerungszeit wiedergeben können.
Mit diesem Verfahren wurde schließlich eine hinreichend gute, gegenüber allen hier vorher erprobten Ansätzen mit Hilfe von Fourieranalyse und Korrelation verbesserte, Qualität erreicht. Gegenüber einem entsprechenden, natürlich erzeugten Signal verbleibt lediglich im Hintergrund ein schwaches Auf- und Abklingen, ähnlich einer niederfrequenten Schwebung, das durch die Modulation verursacht wird. Dieser sehr schwache Effekt kann aber wegen der konstanten Modulationsfrequenz entweder durch Misch- und Filtertechniken oder durch Konstruktion von weiteren stetigen Übergängen minimiert werden.
Die hier dargelegte Lösung des Problems stellt ein relativ kostengünstiges Verfahren dar, das die Wiedergabe von Signalen, insbesondere von Audiosignalen, in hinreichend guter Qualität und variabler Geschwindigkeit erlaubt, ohne daß sich das Frequenzspektrum bzw. die Tonhöhen ändern. Dabei werden die Vorzüge einer einfachen Umordnung der Abtastwerte mit denen einer wirkungsvollen Sprungstellenunterdrückung kombiniert. Vorteil dabei ist, daß die ausgegebenen Zahlenwerte gegenüber den ursprünglichen, abgesehen von den Werten in der Umgebung der Blockübergänge, nicht mit maßgeblichen Rechenfehlern behaftet sind, wodurch sich bei Optimierung des Blockübergangsverhaltens eine hohe Klangtreue erzielen läßt. Ein weiterer Vorteil des Verfahrens besteht darin, daß sich der Aufwand bei der Anwendung durch Wahl geeigneter Abtastpunktdichten und Signalblocklängen sehr gut auf Signale unterschiedlicher Frequenzbereiche und Qualitätsanforderungen abstimmen läßt, wodurch unnötige Rechnerkapazitäten vermieden und vorhandene Rechnerleistungen voll ausgeschöpft werden können. Die hier aufgezeigten Optimierungsmöglichkeiten lassen eine weitere Verbesserung bis hin zur nicht mehr wahrnehmbaren Unterscheidbarkeit von entsprechend natürlich erzeugten Signalen vermuten.
Die Anwendungsmöglichkeiten des Verfahrens bestehen in folgenden:
  • - Bei Audio-, Video- und sonstigen Systemen besteht die Möglichkeit, die Audio-, Video- oder sonstigen Signale entweder langsamer oder schneller wiederzugeben, ohne daß sich das Frequenzspektrum staucht oder dehnt. Außerdem können die Signale bei gleicher Wiedergabegeschwindigkeit derart wiedergegeben werden, daß sich ihr Frequenzspektrum staucht oder dehnt, d. h. im Falle von Audiosignalen, daß sich die Tonhöhen entweder absenken oder anheben.
  • - Durch Variation der Abspielgeschwindigkeit läßt sich die Dauer eines ausgesprochenen Wortes oder Satzes exakt auf eine im Film aufgenommene Mundbewegung eines Schauspielers anpassen. Dadurch kann die Sprachsynchronisation von Tonfilmen erheblich verbessert werden.
  • - Durch Variation der Wiedergabegeschwindigkeit von komplett aufgenommenen Rundfunk- und Fernsehsendungen läßt sich eine bezüglich der Zeitvorgabe "überzogene" Sendung nachträglich in den vorgegebenen Zeitrahmen einpassen.
  • - Beliebige Musikstücke, Sprachsequenzen, und Geräusche können zum Zwecke der Melodie-, Rhythmus-, Sprach-, Geräusch- und Stimmerkennung für musikdidaktische, linguistische und und kriminalistische Zwecke extrem langsam wiedergegeben und somit nachvollziehbar gemacht werden.
  • - Musikstücke können sehr langsam und exakt gespielt aufgenommen und später in hoher musikalischer Qualität sehr schnell wiedergegeben werden.
  • - Musikstücke können, durch Tonhöhenverschiebung bei unveränderter Wiedergabegeschwindigkeit beispielsweise eine Oktave höher oder tiefer gespielt wiedergegeben und ggf. dem Originalsignal überlagert werden. Dadurch lassen sich Effektgeräte mit mehrstimmiger Wiedergabe eines Musikstückes konzipieren.
  • - Bei der Wiedergabe von Geräuschen in geschwindigkeitsabhängigen Simulatoren können Situationen mit veränderten Geschwindigkeiten durchlaufen werden, ohne daß die Geräuschquelle für jede Geschwindigkeit neu aufgenommen werden muß.
  • - Im Bereich der Nachrichtenübertragung kann ein Signal mit gleicher Geschwindigkeit, aber mit abgesenkten Tonhöhen übertragen werden, wobei die Tonhöhen nach der Übertragung wieder angehoben werden. Durch die Übertragung mit niedrigeren Tonhöhen bzw. mit gestauchtem Frequenzspektrum wird die benötigte Bandbreite im Übertragungskanal je nach Stauchungsfaktor u. U. erheblich reduziert.
Stellt man sich als Übertragungskanal ein Satellitenübertragungssystem zwischen zwei Kontinenten vor, so können, bei sonst gleichen Kosten des Satellitensystems gleichzeitig um den Faktor der Frequenzstauchung k mal mehr Telefongespräche übertragen und die entsprechenden Gebühren erwirtschaftet werden, wofür sonst die Einrichtung eines weiteren Satellitensystems erforderlich wäre. Man erzielt so eine Sprachdatenkompression, was bei der Ausnutzung von Fernsprecheinrichtungen enorme Verbesserungen der Wirtschaftlichkeit bedeuten kann.

Claims (5)

1. Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit ohne Dehnung oder Stauchung des Frequenzspektrums, zur Wiedergabe von Signalen mit unveränderter Geschwindigkeit und gedehntem oder gestauchtem Frequenzspektrum, d. h. mit höherer oder niedrigerer Frequenz oder einer Kombination aus beiden, wobei die Signale in Blöcke definierter Länge zerlegt werden und anschließend die Augenblickswerte in n äquidistanten Zeitabschnitten ermittelt und digitalisiert werden, anschließend zur Erhöhung der Geschwindigkeit die digitalisierten Blöcke um den Faktor der Geschwindigkeitsänderung gekürzt werden und jeder gekürzte Block proportional im Hinblick auf seine digitalisierten Werte auf seine ursprüngliche Länge gedehnt wird, so daß zur Verringerung der Geschwindigkeit die digitalisierten Blöcke um den Faktor der Geschwindigkeitsänderung gestaucht werden und die Differenz zur ursprünglichen Blocklänge durch Einfügung jeweils eines Blockabschnittes des gestauchten Blockes ergänzt wird, dadurch gekennzeichnet, daß zur Erreichung eines kontinuierlichen Übergangs zwischen aufeinanderfolgenden Blöcken und Blockabschnitten der Amplitudenverlauf im jeweiligen Übergangsbereich der Blöcke durch Multiplikation mit einer stetigen, differenzierbaren Hüllkurve, die an den Signalsegmentgrenzen den Wert "Null", an den Segmentanfangen einen cosinusförmigen oder sinusförmigen Anstieg, an den Segmentenden einen cosinusförmigen oder sinusförmigen Abfall und sonst einen konstanten, von "Null" verschiedenen Wert hat, derart gedämpft wird, daß diese kontinuierlich ineinander übergehen, so daß ein im mathematischen Sinne differenzierbarer Signalverlauf erhalten wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die zeitliche Dehnung oder Stauchung mit Hilfe eines Interpolations- oder Umordnungsverfahrens erfolgt, wobei eine zeitliche Verlängerung oder Verkürzung bezüglich des ursprünglichen Blockinhaltes aus einem diskreten Bruchteil aus Zahler durch Nenner der ursprünglichen Blocklänge besteht und ein Signalsegment dadurch in eine Anzahl aus der Summe von Zähler und Nenner gedehnte oder gestauchte Untersegmente unterteilt werden kann, wobei Zähler und Nenner jeweils ganze Zahlen sind.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei dem die durch die Zielpunktanzahl vorgegebene Menge der zu erzeugenden Zahlenwerte unter Auswertung aller Quellzahlenwerte ermittelt oder berechnet wird, wodurch die zur Beibehaltung der Signalqualität bzw. Signalinformation notwendige Abtastrate bezüglich der Geschwindigkeitsvariation minimal wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß bei einer Dehnung eines Blockabschnittes zusätzliche Werte durch Interpolation benachbarter Werte erhalten werden.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei einer Geschwindigkeitsverringerung der ergänzende Blockabschnitt aus dem Anfang, der Mitte oder dem Ende des gestauchten Blockes generiert wird.
DE19944425767 1994-07-21 1994-07-21 Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit Expired - Fee Related DE4425767C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19944425767 DE4425767C2 (de) 1994-07-21 1994-07-21 Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19944425767 DE4425767C2 (de) 1994-07-21 1994-07-21 Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit

Publications (2)

Publication Number Publication Date
DE4425767A1 DE4425767A1 (de) 1996-01-25
DE4425767C2 true DE4425767C2 (de) 1997-05-28

Family

ID=6523727

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19944425767 Expired - Fee Related DE4425767C2 (de) 1994-07-21 1994-07-21 Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit

Country Status (1)

Country Link
DE (1) DE4425767C2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005049485A1 (de) * 2005-10-13 2007-04-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Steuerung der Wiedergabe von Audioinformationen

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US417103A (en) * 1889-12-10 skinner
US3369077A (en) * 1964-06-09 1968-02-13 Ibm Pitch modification of audio waveforms
US3803363A (en) * 1972-01-17 1974-04-09 F Lee Apparatus for the modification of the time duration of waveforms
US4246617A (en) * 1979-07-30 1981-01-20 Massachusetts Institute Of Technology Digital system for changing the rate of recorded speech
JPS5650398A (en) * 1979-10-01 1981-05-07 Hitachi Ltd Sound synthesizer
JPS60501477A (ja) * 1983-06-03 1985-09-05 ザ・ヴアリアブル・スピ−チ・コントロ−ル・カンパニイ オーディオ信号のピッチを変化させる方法およびピッチ変換装置
WO1986005617A1 (en) * 1985-03-18 1986-09-25 Massachusetts Institute Of Technology Processing of acoustic waveforms
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
JPH01233835A (ja) * 1988-03-14 1989-09-19 Mitsubishi Electric Corp 音声時間軸圧縮符号化装置
US4961130A (en) * 1989-12-11 1990-10-02 Sundstrand Corporation Voltage inverter control applying real-time angle pattern determination
US5163110A (en) * 1990-08-13 1992-11-10 First Byte Pitch control in artificial speech
US5216744A (en) * 1991-03-21 1993-06-01 Dictaphone Corporation Time scale modification of speech signals
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005049485A1 (de) * 2005-10-13 2007-04-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Steuerung der Wiedergabe von Audioinformationen
DE102005049485B4 (de) * 2005-10-13 2007-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Steuerung der Wiedergabe von Audioinformationen

Also Published As

Publication number Publication date
DE4425767A1 (de) 1996-01-25

Similar Documents

Publication Publication Date Title
EP0624866B1 (de) Frequenzanalyseverfahren
DE60225400T2 (de) Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals
DE60225130T2 (de) Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches
DE69816221T2 (de) Sprachschnellheitsveränderungsverfahren und vorrichtung
DE4227826C2 (de) Digitales Verarbeitungsgerät für akustische Signale
DE102006047197B3 (de) Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
DE4225434A1 (de) Vorrichtung zur aufzeichnung und wiedergabe von komprimierten digitalen daten auf bzw. von einem aufzeichnungstraeger und dabei anwendbares verfahren zur bitentfernung
WO1988004117A1 (en) Process for transmitting digital audio-signals
EP0076234A1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE19720651C2 (de) Hörgerät mit verschiedenen Baugruppen zur Aufnahme, Weiterverarbeitung sowie Anpassung eines Schallsignals an das Hörvermögen eines Schwerhörigen
DE69836472T2 (de) Tonverarbeitungsverfahren, tonprozessor und aufzeichnungs-/wiedergabevorrichtung
DE69629934T2 (de) Umgekehrte transform-schmalband/breitband tonsynthese
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE19714688A1 (de) Verfahren zur Reproduzierung von Audiosignalen und Audioabspielgerät
DE69632351T2 (de) Verfahren und Vorrichtung zur Musiktonerzeugung
DE19861167A1 (de) Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten
DE69736279T2 (de) Tonwiedergabe-geschwindigkeitsumwandler
DE4190102B4 (de) Datenverdichtung von Tondaten
WO1990014719A1 (de) Verfahren zur übertragung eines signals
DE4425767C2 (de) Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit
DE69828849T2 (de) Signalverarbeitungsgerät und -verfahren sowie Informationsaufzeichnungsgerät
DE19643900C1 (de) Nachfiltern von Hörsignalen, speziell von Sprachsignalen
DE60120180T2 (de) Verfahren zur digitalsignalverarbeitung, lernverfahren, geräte dafür und programmspeichermedium
DE4190031B4 (de) Datenverdichtung von ausschwingenden Musikinstrumententönen für ein digitales Abtastungssystem
DE2854601A1 (de) Ton-synthesizer und verfahren zur ton-aufbereitung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee