DE3785189T2 - Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit. - Google Patents

Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit.

Info

Publication number
DE3785189T2
DE3785189T2 DE87430010T DE3785189T DE3785189T2 DE 3785189 T2 DE3785189 T2 DE 3785189T2 DE 87430010 T DE87430010 T DE 87430010T DE 3785189 T DE3785189 T DE 3785189T DE 3785189 T2 DE3785189 T2 DE 3785189T2
Authority
DE
Germany
Prior art keywords
subband
signal
sequence
phase
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE87430010T
Other languages
English (en)
Other versions
DE3785189D1 (de
Inventor
Claude Galand
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE3785189D1 publication Critical patent/DE3785189D1/de
Application granted granted Critical
Publication of DE3785189T2 publication Critical patent/DE3785189T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Description

    Bereich der Erfindung
  • Diese Erfindung beschäftigt sich mit der Verarbeitung der gesprochenen Sprache und insbesondere mit Verfahren zur Beschleunigung oder Verlangsamung von sprachlichen Nachrichten.
  • Hintergrund der Erfindung
  • Sprachbeschleunigung oder Sprache mit variabler Geschwindigkeit bezeichnet gewöhnlich ein Mittel, um aufgezeichnete sprachliche Nachrichten ohne Änderung ihrer Qualität entweder zu verlangsamen oder zu beschleunigen.
  • Solche Mittel sind von großem Interesse für Systeme zur Verarbeitung der gesprochenen Sprache wie etwa Sprachspeicher- und Übertragungssysteme, in denen akustische Signale gespeichert werden, damit sie später mit einer geänderten Geschwindigkeit wieder abgespielt werden können. Sie sind besonders für Bediener nützlich, die innerhalb einer aufgezeichneten Nachricht nach einem besonderen Sprachteil suchen, weil sie das Beschleunigen des Abspielens zum schnellen Finden des gesuchten Teils ermöglichen und dann den Prozeß verlangsamen, während sie den genannten Teil der Nachricht anhören. Es sollte beachtet werden, daß die variable Geschwindigkeit mit mechanischen Mitteln auf herkömmliche Weise erreicht werden kann, wenn die Sprache in ihrer analogen Form auf beweglichen Speichermedien gespeichert ist; dies würde aber das Signal verzerren (Tonhöhe), und außerdem wäre es nicht auf digitale Systeme anwendbar, in denen die Sprache digital verarbeitet wird.
  • Ein hochentwickeltes Verfahren zur Implementation der Sprachbeschleunigung wurde von M.R. Portnoff in den IEEE Trans. on Acoust., Speech and Signal Processing, Vol. ASSP Nr. 3, 5. 243-248, Juni 1976, vorgeschlagen (Implementation of the digital phase vocoder using the Fast Fourier Transform). Diese Methode beruht auf der adaptiven Messung der Tonhöhenperiode und der Einfügung oder Entfernung von Sprachabtastwerten auf der Grundlage der Tonhöhenperiode. Diese Methode erfordert die genaue Schätzung der Tonhöhenperiode, deren Ermittlung sowohl komplex als auch aufwendig ist, insbesondere bei Anwendungen mit Telefonsignalen, bei denen der untere Teil der Frequenzbandbreite (0 bis 300 Hz) einschließlich der Tonhöhe entfernt wurde.
  • Eine andere Vorgehensweise, die unabhängig von der Tonhöhe ist, wurde von Thomas F. Quatieri et al in den IEEE Transactions on ASSP, Vol. 34, Nr. 6, Dez. 1986, S. 1449-1463, dargestellt. Die Quatieri-Methode beruht auf einer sinusförmigen Darstellung der Sprache, die ein Modell der Spracherzeugung enthält. Die Rekonstruktion erfordert funktionale Schätzungen, die die zeitliche Entwicklung der Stimmbanderregung und der Stimmbereichsbeiträge der Amplitude und Phase jeder Sinuswellenkomponente beschreibt. Mit anderen Worten - obwohl diese Methode keine Tonhöhenberechnungen erfordert, so erfordert sie doch eine ziemlich komplexe Berechnung, die auch von der Bestimmung der Stimmbereichsimpulsantwort abhängt.
  • Zusammenfassung der Erfindung
  • Diese Erfindung schlägt ein feineres und einfaches Verfahren zur Realisierung der Sprachgeschwindigkeitsänderung vor, ohne daß Tonhöhen- oder Sprachbereichsmessungen notwendig sind, wobei ein Qualitätsniveau erreicht wird, das den Methoden mit Tonhöhenbetrachtung entspricht. Die vorgeschlagene Methode besitzt eine geringe Komplexität, die früher der Subband-Codierung zugeschrieben wurde, sie kann aber separat betrachtet werden. Sie kann auch auf Stimmerregte Vorhersagende Codierung (Voice-Excited Predictive Coding = VEPC) angewendet werden.
  • Ein Gegenstand dieser Erfindung ist also ein Verfahren zur digitalen Beschleunigung oder Verlangsamung einer Sprachnachricht; es besteht aus dem Aufteilen wenigstens eines Teils der betrachteten Sprachsignalbandbreite in mehrere schmale Subbänder, der Umwandlung jedes Subbandinhaltes in eine Phasen-Amplituden-Darstellung und dem Entfernen/Einfügen von Abtastwerten in allen Subbandphasen- und amplitudendaten, entsprechend der gewünschten Änderung der Sprachgeschwindigkeit, und der Rekombination der Subbandinhalte zur Sprache.
  • Dementsprechend ist ein digitales Verfahren zur Verlangsamung oder Beschleunigung eines Sprachsignals entsprechend der Erfindung in Anspruch 1 definiert. Eine Vorrichtung zur Verarbeitung einer Sprachnachricht entsprechend dieser Erfindung wird in Anspruch 5 beansprucht. Die vorhergehenden und weitere Ziele, Eigenschaften und Vorteile der Erfindung werden aus der nachfolgenden ausführlichen Beschreibung einer bevorzugten Ausführung der Erfindung ersichtlich, so wie sie in den beigefügten Zeichnungen dargestellt ist.
  • Kurs Beschreibung der Zeichnungen
  • Fig. 1 ist ein Blockdiagramm einer Ausführung dieser Erfindung.
  • Fig. 2. bis 4 sind Schaltungen, die in der Vorrichtung gemäß Fig. 1 zu verwenden sind.
  • Fig. 5 bis 7 sind Blockdiagramme, die die Anwendung dieser Erfindung in einem System zeigen, in dem das akustische Originalsignal mit Hilfe von Bandaufteilungsverfahren codiert wurde.
  • Diese Erfindung wird für ein digital codiertes akustisches Signal beschrieben, unter der Voraussetzung, daß die Codierung keine Bandaufteilung enthielt. Es wird dann angewendet, um Bandcodierer aufzuteilen.
  • Fig. 1 zeigt eine bevorzugte Ausführung dieser Erfindung. Das Sprachsignal s(n), das den Inhalt einer begrenzten Bandbreite des zu verarbeitenden akustischen Signals darstellt, das bei einer gegebenen Frequenz (zum Beispiel Nyquist) fs abgetastet und digital codiert wurde, wird zuerst durch einen Satz von Quadraturspiegelfiltern (QMF) 10 in N Subbänder aufgeteilt. Die QMF sind Filter, die in der akustischen Sprachverarbeitung bekannt sind und von A. Croisier, D. Esteban und C. Galand auf der International Conference on Information Sciences and Systems 1976 in Patras in einem Vortrag mit dem Titel "Perfect Chanel splitting by use of interpolation/decimation/tree decomposition techniques" vorgestellt wurden. Die Vorrichtung 10 liefert N Subbandsignale x(1,n), x(2,n), . . ., x(N,n). Die Subbandauflösung muß hoch genug sein, um die harmonische Struktur des Sprachsignals in allen Fällen einzufangen. Da die menschliche Stimmhöhenfrequenz bis auf 80 Hz heruntergehen kann, würde theoretisch ein Filtersatz mit N = 40 Subbändern notwendig sein, um die Telefonbandbreite (300 bis 3400 Hz) abzudecken.
  • Jedes Subbandsignal wird auf ein Verhältnis fs/N heruntergetastet, um eine konstante Gesamtabtastgeschwindigkeit im System einzuhalten. Die Subbandsignale x(i,n) mit i = 1, 2, . . ., N werden in komplexe QMF (CQMF) 12 übertragen und verarbeitet, um daraus das analytische Signal abzuleiten, das aus einer gleichphasigen Komponente u(i,n) und einer Quadraturkomponente v(i,n) besteht, die durch Weglassen jedes zweiten Abtastwertes auf die Hälfte heruntergetastet werden. Die komplexen QMF-Mittel werden weiter unter Bezugnahme auf Fig. 2 beschrieben.
  • Eine Ausführung der Phasen-Amplituden-Darstellung des aufgeteilten Subbandsignals ist in EP-A-070948 dargestellt.
  • In jedem Subband werden die gleichphasigen Komponenten u(n) und die Quadraturkomponenten v(n) des Signals dann als kartesische Koordinaten in einer Polarkoordinatenumwandlungsschaltung 14 verarbeitet, um daraus ein digitales Amplitudensingal M(i,n) und ein digitales Phasensignal P(i,n) abzuleiten:
  • M(i,n) = (u²(i,n) + v²(i,n))1/2 (1)
  • P(i,n) = Arctg v(i,n)/u(i,n) (2)
  • i = 1, 2, . . ., N bezeichnet das betrachtete Subband. Das Amplitudensignal M(i,n) und das Phasensignal P(i,n) jedes Subbandes (i = 1, 2, . . ., N) wird dann durch die später zu beschreibende aufwärts und abwärts beschleunigende Vorrichtung 16 verarbeitet. Die Vorrichtung 16 liefert geschwindigkeitsvariierte Paare von Ausgangssignalen M'(i,n) und P'(i,n), die dann in einer Vorrichtung 18 in kartesische Koordinaten rückverwandelt werden; dies ergibt ein Paar von gleichphasigen Komponenten und Quadraturkomponenten:
  • u'(i,n) = M'(i,n)·cos P'(i,n)
  • v'(i,n) = M'(i,n)·sin P'(i,n)
  • Dabei ist P'(i,n) die Phaseninformation des geschwindigkeitsvariierten Subbandsignals, die so, wie nachfolgend beschrieben, zu bestimmen ist (siehe Fig. 4).
  • In jedem Subband repräsentieren die u'- und v'-Komponenten das ursprüngliche Subbandsignal bei der neuen Geschwindigkeit und werden dann durch die (inversen) komplexen Quadraturspiegelfilter (CQMF) 20 rekombiniert. Die entstehenden Subbandsignale x'(i,n) werden durch einen Satz von inversen QMF 22 verarbeitet, um die geschwindigkeitsvariierten Sprachsignale s'(n) zu erzeugen.
  • In Fig. 2 ist eine Schaltung dargestellt, die die Operationen der direkten und inversen QMF ausführen, d. h. die Vorrichtungen 12 beziehungsweise 20. Mit anderen Worten - die Schaltung von Fig. 2 ermöglicht das Aufteilen eines Signals x(n), das bei einer Frequenz fs abgetastet wurde, in zwei Signale u(n) und v(n), die bei fs/2 abgetastet und die Rückwärtssynthese eines Sprachsignals x(n) aus u(n) und v(n).
  • Der komplexe QMF (CQMF) wurde von H.J. Nussbaumer und C. Galand auf der Konferenz EUSIPCO 83 in einem Vortrag "Parallel filter banks using complex quadraturee mirror filters" beschrieben. Unter Benutzung der CQMF-Verfahren werden die zwei Quadratursignale u(n) aus dem realen Subbandsignal x(n) abgeleitet durch
  • Dabei bezeichnet SUM die Addition.
  • X(Z), U(Z), V(Z) sind die Z-Transformierten von x(n), u(n) und v(n), und H(Z) ist die z-Transformierte eines Tiefpaß-CQMF mit M Abgriffen, wobei M gerade ist. Setzt man voraus, daß die lineare Verzerrung aufgrund des CQMF (Welligkeit) vernachlässigt wird, dann kann die Amplitude M(n) und die Phase P(n) von x(n) aus u(n) und v(n) entsprechend den Gleichungen (1) und (2) berechnet werden.
  • Um eine perfekte Rekonstruktion zu sichern, muß der Filter H(Z) bei der Frequenz fs/4N eine Dämpfung von 3 dB haben, und für die Amplitude H(w) der Fourier-Transformierten muß
  • H² (w + ws/4) + H² (w - ws/4) = 1 (7)
  • mit
  • ws = 2π·fs
  • w = 2π·f
  • gelten.
  • In der Praxis muß der Filter H(Z) genügend scharf sein, um die Kruezmodulationsterme zu entfernen, die bei der Berechnung von (1) und (2) auftreten.
  • Bezüglich weiterer Details zu den Entwurfsregeln für diese Filter sei hingewiesen auf den Artikel "Magnitude-Phase coding of base-band speech signals", der von C. Galand, H. Nussbaumer und J. Perrini auf der IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Tokio 1986, vorgestellt wurde. Setzt man nun voraus, daß das Eingangssprachsignal x(n) eine harmonische Struktur besitzt und die jeweiligen Subbänder ziemlich schmal sind, ohne Verfälschung, dann würde jedes Subband eine einzelne Harmonische enthalten. Wenn das Eingangssignal stationär ist, dann ist die Amplitude M(n) jedes Subbandsignals konstant, und seine Phase P(n) ändert sich linear.
  • Tatsächlich ist das Sprachsignal nicht stationär, aber die obigen Bedingungen werden sehr genau approximiert. Im Ergebnis dessen ändert sich die Amplitude M(n) des Signals in jedem Subband langsam (mit Silbengeschwindigkeit), und die Phase P(n) des gleichen Signals ändert sich nahezu linear.
  • Sind die Subbandsignale M(i,n) und P(i,n) einmal in Phasen-Amplituden-Daten umgewandelt, dann werden sie in einer Aufwärts- Abwärts-Vorrichtung 16 verarbeitet. Vor der Beschreibung dieser Vorrichtung sollen praktische Situationen für Aufwärts- und Abwärts-Beschleunigungsverhältnisse betrachtet werden. In akustischen Verteilungssystemen wird dieses Verhältnis im Bereich von 0,5 bis 2 gewählt. Mit anderen Worten - die Sprache kann wenigstens mit der Hälfte und höchstens mit der zweifachen Originalgeschwindigkeit abgespielt werden. Praktisch wird dieser Bereich nicht kontinuierlich überdeckt, sondern durch einige diskrete Werte im Intervall (0,5-2). Die Auswahl ist nicht wirklich kritisch, und die Verhältnisse zur Beschleunigung bzw. Verlangsamung der Sprache wurden zu K/K-1 bzw. K/K+1 gewählt, womit die Originalgeschwindigkeit auf 1 normalisiert wird.
  • Beschleunigung Verhältnis K/K-1
  • 2 2/1
  • 1,5 3/2
  • 1,25 5/4
  • Verlangsamung Verhältnis K/K+1
  • 0,75 3/4
  • 0,5 1/2
  • Fig. 3 zeigt eine schematische Darstellung der innerhalb jedes Subbandes über die Amplitudendaten M(n) auszuführenden Operationen. Zur Beschleunigung werden die Amplitudensignale einfach im entsprechenden Verhältnis vernichtet. Es sei beispielsweise vorausgesetzt, daß die gewünschte Sprachgeschwindigkeit verdoppelt werden soll (K/K-1 = 2/1). Dann wird einfach jeder zweite Abtastwert des Amplitudensignals weggelassen. Für ein Verhältnis von 1,5 wird jeder dritte Abtastwert des Amplitudensignals unterdrückt. Allgemein gesprochen wird für jedes Verhältnis K/K-1 jeder K-te Abtastwert des Amplitudensignals M(n) weggelassen. Die Operation über jedem Block von K Eingabewerten M(n), n = 1, ..., K wird durch die folgenden Beziehungen beschrieben:
  • M'(n) = M(n) n = 1, . . ., K-1 (8)
  • Dabei stellt M(n), n = 1, . . ., K-1 die Ausgangsfolge der Amplitudenwerte dar.
  • Zur Verlangsamung wird eine ähnliche Operation ausgeführt. Für ein Verhältnis von K/K+1 wird jeder K-te Abtastwert des Amplitudensignals verdoppelt. Die Operation über jedem Block von K Eingabeabtastwerten M(n), n = 1, . . ., K wird durch die folgenden Beziehungen beschrieben:
  • M'(n) = M(n) n=1, . . ., K (9)
  • M'(K+1) = M(K)
  • Dabei stellt M'(n), n = 1, . . ., K+1 die Ausgangsfolge der Amplitudenwerte dar.
  • Beispielsweise führt eine Verlangsamungsoperation von 2 zu 1 zu einer Wiederholung jedes Abtastwertes M(n), um M'(n) abzuleiten.
  • In Fig. 4 ist die in der Verlangsamungs-Beschleunigungs-Vorrichtung 16 zur Verarbeitung des Phasensignals P(n) innerhalb jedes Subbandes verwendete Schaltung dargestellt. Die Geschwindigkeitsänderung über dem Phasensignal wird wie folgt implementiert. Die Phasenabtastwerte P(n) werden zuerst vorverarbeitet, um ein Differenzsignal oder eine Phaseninkrementfolge D(n) abzuleiten, wobei eine Verzögerungszelle (T) 40 für einen Abtastwert und ein Subtrahierer (42) benutzt wird, an die jeweils die Folge P(n) angelegt wird.
  • D(n) = P(n)-P(n-1) (10)
  • Für eine Beschleunigung im Verhältnis K/K-1 wird jeder K-te Abtastwert des Differenzsignals D(n) weggelassen. Die Operation über jedem Block von K Eingangsabtastwerten D(n), n = 1, . . ., K wird in der Vorrichtung 44 durchgeführt:
  • D'(n) = D(n) n = 1,..., K-1 (11)
  • Dabei stellt D'(n), n = 1, . . ., K-1 die Differenzausgabefolge dar.
  • Für einen Verlangsamungsprozeß wird eine ähnliche Operation ausgeführt. Die Verlangsamung im Verhältnis K/K+1 wird erreicht, indem in der Vorrichtung 46 jeder K-te Abtastwert des Differenzsignals D(n) verdoppelt wird. Die Operation über jedem Block von K Eingangsabtastwerten D(n), n = 1, . . ., K wird durch die folgenden Beziehungen beschrieben:
  • D'(n) = D(n) n = 1,..., K
  • D'(K+1) = D(K)
  • Dabei stellt D'(n), n = 1, . . ., K+1 die Ausgabefolge der einmal verlangsamten Differenzabtastwerte dar.
  • In beiden Fällen, der Verlangsamung und der Beschleunigung, wird die Wiederherstellung der Phasenabtastwerte aus den Differenzabtastwerten realisiert, indem eine Verzögerungszelle (T) für eine Abtastperiode und ein Addierer (+) entsprechend der folgenden Beziehung benutzt wird:
  • P'(n) = P'(n-1) + D'(n).
  • In beiden Fällen, beim Verlangsamen und beim Beschleunigen, kann sich das Verhältnis von K/K+1 oder K/K-1 unterscheiden, indem mehr als ein Abtastwerte pro Block der Länge K entfernt oder eingefügt wird. Der oben beschriebene Prozeß ermöglicht die Implementation eines beschleunigten Sprachsystems unabhängig von irgendeiner Betrachtung der Herkunft des Sprachsignals. Es kann so in Verbindung mit einem digitalen Codierer verwendet werden. Offensichtlich ist er aber besonders gut geeignet für Subband- Codierer (SBC), in denen die harmonische Analyse durch QMF bereits verfügbar ist. Diese Codierer wurden in der Literatur umfangreich beschrieben, aber man kann sich auf die folgenden Publikationen oder Patente beziehen, die hier zum Nachschlagen aufgeführt wurden:
  • "Voice excited predictive coder (VEPC), implementation on high-perfomance signal processor" von C. Galand, C. Couturier, G. Platel und R. Vermot-Gauchy, IBM Journal of Research and Development, Volume 29, Nummer 2, März 1985.
  • Europäisches Patent 0 002 998 (USA-Patent 4,216,354) Französisches Patent 77 13225 (USA-Patent 4,142,071).
  • In dem oben dargestellten Subband-Decodierer wurde die Eingangssignalbandbreite in mehrere Subbänder aufgeteilt. Dann wurde der Inhalt jedes Subbandes mit Quantisiergeräten codiert, die dynamisch auf den jeweiligen Subbandinhalt eingestellt werden. Mit anderen Worten - die Bits (oder Pegel), die die Ressourcen für die gesamte ursprüngliche Bandbreite codieren, werden dynamisch unter den Subbändern aufgeteilt. Setzt man zusätzlich voraus, daß die Codierungsmethode die Verwendung der Blockkompandierungs-PCM-Techniken (BCPCM) umfaßt, dann wurde die Codierung auf Blockbasis ausgeführt. Mit anderen Worten - die Quantisierunsparameter des Codierers wurden auf aufeinanderfolgende Blöcke von Abtastwerten mit vorher festgelegter Länge eingestellt. Für jeden Block von Abtastwerten lieferte der Codierer mit Multiplexübertragung an seinem Ausgang: quantisierte Subband-Abtastwerte S(i,j), wobei i = 1, . . ., N der Subbandindex und j der Zeitindex innerhalb eines Blockes ist; einen Schritt Q des Quantisiergerätes und N Terme n'(i), von denen jeder die Zahl der Bits darstellt, die zur Quantisierung der betrachteten Subbandinhalte dynamisch zugeordnet wurden. In der Praxis sollte beachtet werden, daß andere Datenarten als Q und n'(i) benutzt werden können, so lange diese Daten für den Quantisierungsschritt die Wiederherstellung des Schrittes ermöglichen, der den inversen Quantisierungsoperationen zuzuordnen ist, die ausgeführt werden müssen, um die quantisierten Abtastwerte in digital codierte Abtastwerte umzuwandeln.
  • In Fig. 5 ist ein Blockdiagramm der Synthesevorrichtung dargestellt, die verwendet werden muß, um die S(i,j)-, Q- und n'(i)- Daten in das ursprüngliche Sprachsignal s(n) zurückzuverwandeln. Grundsätzlich wird das Eingangssignal der Synthesevorrichtung zuerst in 52 mit einem Demultiplexer in seine Komponenten zerlegt, bevor es in eine inversen Quantisiergerät 54 subband-decodiert wird. Zu diesem Zweck wird jedem Subband-Decodierer ein Block von quantisierten Abtastwerten S(i,j) zugeführt und durch Q und n'(i) gesteuert. Jeder Decodierer oder jede inverse Quantisiervorrichtung liefert eine Menge von digital codierten Abtastwerten x(i,j), die zu einem inversen QMF geführt werden und ein zurückverwandeltes Sprachsignal s(n) liefern.
  • Diese Art der Codierer-Decodierer-Struktur eignet sich besonders gut für diese Erfindung, wie in Fig. 6 gezeigt ist; dort ist ein Blockdiagramm der Sprachbeschleunigung dieser Erfindung dargestellt, angewendet auf den in Fig. 5 dargestellten Teilbanddecodierer. Die subband-decodierten Signale x(i,j), die bei fs/N abgetastet wurden, werden direkt in die komplexen QMF 64 geführt, die als die CQMF 12 von Fig. 1 arbeiten. Mit anderen Worten - der QMF-Satz von Fig. 1 ist nicht notwendig, da eine vollständige Bandaufteilung bereits im Codierungsprozeß ausgeführt und mit der Demultiplexeraufteilung in 60 und der Subband-Decodierung in 62 abgeschlossen wurde.
  • Die übrigen Teile (64, 66, 68, 70, 72 und 74) entsprechen jeweils den Schaltungen (12, 14, 16, 18, 20 und 22) von Fig. 1. Schließlich ist das Ausgangssignal s'(n), so wie gefordert, ein beschleunigtes oder verlangsamtes Sprachsignal. Grundsätzlich spart man also durch Anwendung dieser Erfindung auf das aufgeteilte bandcodierte Signal zwei Filterblöcke, nämlich die QMF 10 und die inversen QMF 22.
  • Das vorgeschlagene Verfahren für die beschleunigte Sprache kann auch mit dem Prozeß der stimmerregten vorhersagenden Codierung (VEPC) kombiniert werden, da dieser Codierertyp die Verwendung der Subband-Codierung auf der unteren Frequenzbandbreite (Basisband) des Sprachsignals umfaßt. Zusätzlich ist die Bandbreite jedes Subbandes schmal genug, um den korrekten Betrieb der Vorrichtung für die Sprachbeschleunigung zu sichern.
  • In Fig. 7 ist ein Blockdiagramm dargestellt, das die Einfügung der Vorrichtung dieser Erfindung in eine VEPC-Synthesevorrichtung zeigt, die entsprechend der Vorrichtung von Fig. 8 des oben zitierten Europa-Patentes 0 002 998 oder der Vorrichtung von Fig. 3 des zitierten IBM Journal of Research and Development beschaffen ist. Die von einem Eingangsdemultiplexer DMPX(71) gelieferten Basisband-Subband-Signale S(i,j) werden in eine Menge von Signalen x(i,n) decodiert, die zu einer Beschleunigungs- Verlangsamungs-Vorrichtung (70) geführt werden, die entsprechend dieser Erfindung beschaffen ist (siehe Fig. 1). Das beschleunigte/verlangsamte Basisbandsignal x'(n) wird dann benutzt, um die Hochfrequenzbandbreite (HB) zurückzugewinnen, die durch die decodierte (DECODEDI) Hochfrequenzenergie (ENERG) in 72 moduliert wurde, so wie in der zitierten Literatur dargestellt ist. Dann werden das hohe und das niedrige Bandsignal, die zur Kompensation der Übergangszeit in 72 verzögert wurden, in 74 addiert.
  • Der Addiererausgang treibt dann einen Filter des Stimmbereiches, dessen Koeffizienten mit den decodierten COEF-Daten eingestellt wurden und dessen Ausgang das rekonstruierte Sprachsignal s'(n) ist.
  • Die Sprachdeskriptoren, d. h. die Hochfrequenzenergie (ENERG) und die PARCOR-Koeffizienten (COEFF) werden auf Blockbasis erneuert und linear interpoliert. Die Operation der Sprachbeschleunigung, die diese Parameter betrifft, wird in einer Vorrichtung 78 erreicht, indem die Größe des linearen Interpolationsschrittes auf die neue Blocklänge eingestellt wird.
  • Obwohl die Erfindung unter Bezugnahme auf die bevorzugten Ausführungen dargestellt wurde, die zwei spezielle Bandaufteilungscodierungstechniken anwenden, wird es für Fachleute verständlich sein, daß sie auch auf andere Sprachcodierungs- und -decodierungsschemata anwendbar ist.

Claims (5)

1. Ein digitales Verfahren zur Verlangsamung oder Beschleunigung eines Sprachsignals, das die folgenden Schritte enthält:
- die Aufteilung wenigsten eines Teils der Sprachfrequenzbandbreite in N aufeinanderfolgende schmale Subbänder;
- die Verarbeitung des Inhaltes jedes Subbandes, um daraus Phasenabtastwerte P(i,n) und Amplitudenabtastwerte M(i,n) abzuleiten, die repräsentativ für den Subbandsignalinhalt sind, ausgedrückt in Polarkoordinaten, wobei i = 1, . . ., N der Index des Subbandes und n der Zeitindex ist;
- die Verlangsamung oder Beschleunigung des Subbandsignalinhaltes, wobei modifizierte Subbandphasendaten P(i,n) und Amplitudendaten M(i,n) erzeugt werden;
- die Rekombination aller modifizierten Phasen-/Amplituden-Subbanddaten zu einem Subbandsignal; und
- die Rekombination der Subbandsignale zu einer Sprache, wobei die rekombinierte Sprache eine verlangsamte/beschleunigte Version des verarbeiteten Sprachsignals ist;
dadurch gekennzeichnet, daß für ein beliebiges i-tes Subband die folgenden Operationen ausgeführt werden:
- es wird eine Phaseninkrementfolge D(n) gemäß D(n) = P(n)-P(n-1) erzeugt;
- das Sprachsignal wird entweder mit einer Rate von K/K-1 beschleunigt, wobei K ein vorher festgelegter ganzzahliger Wert ist und gleichzeitig für jedes Subband
- die Folge M(n) durch Löschung jedes K-ten Abtastwertes M(n) in eine beschleunigte Folge M'(n) umgewandelt wird;
- die Folge D(n) durch Löschung jedes K-ten Abtastwertes in D'(n) umgewandelt wird;
- oder das Sprachsignal wird um eine Rate K/K+1 verlangsamt, wobei für jedes Subband
- die Folge M(n) durch Wiederholung jedes K-ten Abtastwertes M(n) in eine verlangsamte Folge M'(n) umgewandelt wird;
- die Folge D(n) durch Verdoppelung jedes K-ten Abtastwertes in D'(n) umgewandelt wird;
- und für beide Alternativen wird eine beschleunigte oder verlangsamte Phasenfolge P'(n) mit P'(n) = P'(n-1) + D'(n) erzeugt.
2. Ein Verfahren gemäß Anspruch 1, in dem die Subband-Verarbeitung zur Ableitung von Phasen-/Amplituden-Abtastwerten folgende Schritte umfaßt:
- von jedem Subbandsignalinhalt wird durch Anwendung komplexer Quadraturspiegelfilter-Techniken ein analytisches Signal abgeleitet, das aus einer gleichphasigen Komponente und einer Quadraturkomponente besteht;
- das analytische Signal wird durch Weglassen jedes zweiten Abtastwertes in den gleichphasigen Komponenten und den Quadraturkomponenten heruntergetastet;
- das heruntergetastete analytische Signal wird in seine Phasen-/Amplituden-Komponenten umgewandelt.
3. Ein Verfahren gemäß Anspruch 1 oder gemäß Anspruch 2, dadurch gekennzeichnet, daß der Teil der Sprachfrequenzbandbreite auf das Sprachsignalbasisband begrenzt ist.
4. Ein Verfahren gemäß Anspruch 1, bei dem das Aufteilen in Subbänder einen ersten Schritt eines Bandaufteilungsverfahrens bildet; das Aufteilen beinhaltet die Quantisierung des Signalinhaltes von jedem Subband mit dynamischer Anpassung der Signalquantisierungsressourcen und anschließend die Decodierung und inverse Quantisierung der quantisierten Subbandsignalinhalte.
5. Ein Mittel zur Verarbeitung einer Sprachnachricht, die mit der Frequenz fs abgetastet wurde und die folgenden Komponenten hat:
- eine erste Gruppe von Quadraturspiegelfiltern (QMF) zur Aufteilung einer begrenzten Bandbreite des Sprachsignals in N schmale Subbänder;
- Mittel für das Heruntertasten, die mit der QMF-Gruppe verbunden sind, zur Heruntertastung jedes Subbandsignals mit einer Rate von fs/N;
- Mittel zur komplexen Quadraturspiegelfilterung (CQMF), die mit der ersten QMF-Gruppe verbunden sind, zur Umwandlung jedes Subbandinhaltes in ein analytisches Signal, das durch gleichphasige Komponenten und Quadraturkomponenten dargestellt wird;
- ein zweites Mittel für das Heruntertasten, das mit der CQMF-Gruppe verbunden ist, zum Heruntertasten der gleichphasigen Komponenten und der Quadraturkomponenten auf fs/2N;
- Koordinatenumwandlungsmittel, die mit dem zweiten Mittel für das Heruntertasten verbunden sind, zur Umwandlung des analytischen Signals in Amplitudenkomponenten M(i,n) und Phasenkomponenten P(i,n), wobei i = 1, . . .., N der Subbandindex und n der Zeitindex ist;
- Sprachenverarbeitungsmittel, die mit den Koordinatenumwandlungsmitteln verbunden sind, wobei die M'(i,n)- und die P'(i,n)-Daten erzeugt werden;
- Koordinatenumwandlungsmittel, die mit den Aufwärts/- Abwärts-Geschwindigkeiten verbunden sind, um die M'(i,n) und P'(i,n) in geschwindigkeitsverwandelte analytische Daten u'(i,n), v'(i,n) umzuwandeln;
- Mittel, um u'(i,n), v'(i,n) in fs/N umzuwandeln;
- inverse komplexe QMF-Filter, die mit den Abtastmitteln verbunden sind;
- Abtastmittel, um die CQMF-Filter auf eine Geschwindigkeit fs zu bringen;
- eine inverse QMF-Filtergruppe, die mit den Abtastmitteln verbunden ist und ein verlangsamtes oder beschleunigtes Sprachsignal s'(n) liefert;
dadurch gekennzeichnet, daß das Sprachverarbeitungsmittel die Sprachnachricht verlangsamt oder beschleunigt und für irgendein i-tes Subband die folgenden Mittel enthält:
- Mittel zur Erzeugung einer Phaseninkrementfolge D(n) gemäß D(n) = P(n)-P(n-1);
- Mittel zur Beschleunigung des Sprachsignals auf eine Geschwindigkeit K/K-1, wobei K eine vorher festgelegte ganze Zahl ist und für jedes Subband
- Mittel zur Umwandlung der Folge M(n) in eine beschleunigte Folge M'(n) durch Löschung jedes K-ten M(n)-Abtastwertes und
- Mittel zur Umwandlung der Folge D(n) in D'(n) durch Löschung jedes K-ten Abtastwertes von D(n) vorhanden sind;
- Mittel zur Verlangsamung des Sprachsignals auf eine Geschwindigkeit K/K+1, wobei für jedes Subband
- Mittel zur Umwandlung der Folge M(n) in eine verlangsamte Folge M'(n) durch Wiederholung jedes K-ten Abtastwertes M(n),
- Mittel zur Umwandlung der Folge D(n) in D'(n) durch Verdoppelung jedes K-ten Abtastwertes und
- Mittel zur Erzeugung einer beschleunigten oder verlangsamten Phasenfolge P'(n) mit = P'(n-1) + D'(n) vorhanden sind.
DE87430010T 1987-04-22 1987-04-22 Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit. Expired - Lifetime DE3785189T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP87430010A EP0287741B1 (de) 1987-04-22 1987-04-22 Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit

Publications (2)

Publication Number Publication Date
DE3785189D1 DE3785189D1 (de) 1993-05-06
DE3785189T2 true DE3785189T2 (de) 1993-10-07

Family

ID=8198300

Family Applications (1)

Application Number Title Priority Date Filing Date
DE87430010T Expired - Lifetime DE3785189T2 (de) 1987-04-22 1987-04-22 Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit.

Country Status (4)

Country Link
US (1) US5073938A (de)
EP (1) EP0287741B1 (de)
JP (1) JPS63273898A (de)
DE (1) DE3785189T2 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5392044A (en) * 1993-03-08 1995-02-21 Motorola, Inc. Method and apparatus for digitizing a wide frequency bandwidth signal
US5285499A (en) * 1993-04-27 1994-02-08 Signal Science, Inc. Ultrasonic frequency expansion processor
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
US5920842A (en) * 1994-10-12 1999-07-06 Pixel Instruments Signal synchronization
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
US5727119A (en) * 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US5839099A (en) * 1996-06-11 1998-11-17 Guvolt, Inc. Signal conditioning apparatus
JP2955247B2 (ja) * 1997-03-14 1999-10-04 日本放送協会 話速変換方法およびその装置
FR2768545B1 (fr) * 1997-09-18 2000-07-13 Matra Communication Procede de conditionnement d'un signal de parole numerique
US6266643B1 (en) 1999-03-03 2001-07-24 Kenneth Canfield Speeding up audio without changing pitch by comparing dominant frequencies
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US6868377B1 (en) * 1999-11-23 2005-03-15 Creative Technology Ltd. Multiband phase-vocoder for the modification of audio or speech signals
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
EP2469511B1 (de) 2006-07-04 2015-03-18 Electronics and Telecommunications Research Institute Vorrichtung zur Wiederherstellung eines mehrkanaligen Audiosignals mit HE-AAC-Dekodierer und MPEG-Surround-Dekodierer
US9026236B2 (en) 2009-10-21 2015-05-05 Panasonic Intellectual Property Corporation Of America Audio signal processing apparatus, audio coding apparatus, and audio decoding apparatus
SG178320A1 (en) 2010-06-09 2012-03-29 Panasonic Corp Bandwidth extension method, bandwidth extension apparatus, program, integrated circuit and audio decoding apparatus

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3462555A (en) * 1966-03-23 1969-08-19 Bell Telephone Labor Inc Reduction of distortion in speech signal time compression systems
US3816664A (en) * 1971-09-28 1974-06-11 R Koch Signal compression and expansion apparatus with means for preserving or varying pitch
JPS5146808A (de) * 1974-10-18 1976-04-21 Matsushita Electric Ind Co Ltd
FR2389277A1 (fr) * 1977-04-29 1978-11-24 Ibm France Procede de quantification a allocation dynamique du taux de bits disponible, et dispositif de mise en oeuvre dudit procede
FR2412987A1 (fr) * 1977-12-23 1979-07-20 Ibm France Procede de compression de donnees relatives au signal vocal et dispositif mettant en oeuvre ledit procede
JPS55147697A (en) * 1979-05-07 1980-11-17 Sharp Kk Sound synthesizer
US4464784A (en) * 1981-04-30 1984-08-07 Eventide Clockworks, Inc. Pitch changer with glitch minimizer
EP0070948B1 (de) * 1981-07-28 1985-07-10 International Business Machines Corporation Sprachkodierungsverfahren und Ausführungsanordnung für das genannte Verfahren
US4700391A (en) * 1983-06-03 1987-10-13 The Variable Speech Control Company ("Vsc") Method and apparatus for pitch controlled voice signal processing
JPS606998A (ja) * 1983-06-24 1985-01-14 ソニー株式会社 信号処理装置
US4709390A (en) * 1984-05-04 1987-11-24 American Telephone And Telegraph Company, At&T Bell Laboratories Speech message code modifying arrangement
US4852168A (en) * 1986-11-18 1989-07-25 Sprague Richard P Compression of stored waveforms for artificial speech

Also Published As

Publication number Publication date
JPS63273898A (ja) 1988-11-10
US5073938A (en) 1991-12-17
EP0287741B1 (de) 1993-03-31
DE3785189D1 (de) 1993-05-06
EP0287741A1 (de) 1988-10-26

Similar Documents

Publication Publication Date Title
DE3785189T2 (de) Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit.
DE68916944T2 (de) Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion.
DE69107841T2 (de) Transformationskodierer und -dekodierer mit adaptiver blocklänge, adaptiver transformation und adaptivem fenster für hochwertige tonsignale.
DE69028675T2 (de) Wahrnehmungsgebundene Kodierung von Audiosignalen
DE69323106T2 (de) Verfahren und Vorrichtung für perceptuelles Kodieren von Audio-Signalen
DE2934489C2 (de)
DE69804478T2 (de) Verfahren und vorrichtung zur codierung und decodierung mehrere tonkanäle mit geringer bitrate
DE69031517T2 (de) Variable Blocklängenkodierung für unterschiedliche Charakteristiken der Eingangsabtastwerte
DE69125909T2 (de) Verfahren und Einrichtung zur Transformationskodierung mit Teilbandanregung und dynamischer Bitzordnung
DE69230308T2 (de) Transformationsverarbeitungsgerät und -verfahren und Medium zum Speichern komprimierter Digitaldaten
DE69232251T2 (de) Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung
DE3688980T2 (de) Verfahren zur Multigeschwindigkeitskodierung von Signalen und Einrichtung zur Durchführung dieses Verfahrens.
DE69326492T2 (de) Verfahren zur Auswahl des Codier Modus für Stereo Audio-Signale unter Benutzung von Hörbarkeitsmodellen
DE69712230T2 (de) Verfahren und gerät zur frequenzdomäneabwärtsumsetzung mit zwangblockschaltung für audiodekoderfunktionen
DE69515907T2 (de) Verfahren und gerät zum anwenden von wellenformprädiktion auf teilbänder in einem perzeptiven kodiersystem
DE2229149A1 (de) Verfahren zur Übertragung von Sprache
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
DE3506912A1 (de) Verfahren zur uebertragung eines audiosignals
DE2551632A1 (de) Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden sprache
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE69206300T2 (de) Verfahren und Einrichtung zur Bearbeitung von Vorechos eines mittels einer Frequenztransformation kodierten digitalen Audiosignals.
DE3884839T2 (de) Codierung von akustischen Wellenformen.
DE69028434T2 (de) System zur Codierung von Breitbandaudiosignalen
DE69425768T2 (de) Kodierverfahren, Kodierer und Dekodierer für ein Digitalsignal
DE68927927T2 (de) Kodierung von Audiosignalen unter Berücksichtigung der Wahrnehmbarkeit