DE3785189T2

DE3785189T2 - Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit.

Info

Publication number: DE3785189T2
Application number: DE87430010T
Authority: DE
Inventors: Claude Galand
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1987-04-22
Filing date: 1987-04-22
Publication date: 1993-10-07
Anticipated expiration: 2007-04-23
Also published as: JPS63273898A; US5073938A; EP0287741B1; DE3785189D1; EP0287741A1

Description

Bereich der Erfindung

Diese Erfindung beschäftigt sich mit der Verarbeitung der gesprochenen Sprache und insbesondere mit Verfahren zur Beschleunigung oder Verlangsamung von sprachlichen Nachrichten.

Hintergrund der Erfindung

Sprachbeschleunigung oder Sprache mit variabler Geschwindigkeit bezeichnet gewöhnlich ein Mittel, um aufgezeichnete sprachliche Nachrichten ohne Änderung ihrer Qualität entweder zu verlangsamen oder zu beschleunigen.
Solche Mittel sind von großem Interesse für Systeme zur Verarbeitung der gesprochenen Sprache wie etwa Sprachspeicher- und Übertragungssysteme, in denen akustische Signale gespeichert werden, damit sie später mit einer geänderten Geschwindigkeit wieder abgespielt werden können. Sie sind besonders für Bediener nützlich, die innerhalb einer aufgezeichneten Nachricht nach einem besonderen Sprachteil suchen, weil sie das Beschleunigen des Abspielens zum schnellen Finden des gesuchten Teils ermöglichen und dann den Prozeß verlangsamen, während sie den genannten Teil der Nachricht anhören. Es sollte beachtet werden, daß die variable Geschwindigkeit mit mechanischen Mitteln auf herkömmliche Weise erreicht werden kann, wenn die Sprache in ihrer analogen Form auf beweglichen Speichermedien gespeichert ist; dies würde aber das Signal verzerren (Tonhöhe), und außerdem wäre es nicht auf digitale Systeme anwendbar, in denen die Sprache digital verarbeitet wird.
Ein hochentwickeltes Verfahren zur Implementation der Sprachbeschleunigung wurde von M.R. Portnoff in den IEEE Trans. on Acoust., Speech and Signal Processing, Vol. ASSP Nr. 3, 5. 243-248, Juni 1976, vorgeschlagen (Implementation of the digital phase vocoder using the Fast Fourier Transform). Diese Methode beruht auf der adaptiven Messung der Tonhöhenperiode und der Einfügung oder Entfernung von Sprachabtastwerten auf der Grundlage der Tonhöhenperiode. Diese Methode erfordert die genaue Schätzung der Tonhöhenperiode, deren Ermittlung sowohl komplex als auch aufwendig ist, insbesondere bei Anwendungen mit Telefonsignalen, bei denen der untere Teil der Frequenzbandbreite (0 bis 300 Hz) einschließlich der Tonhöhe entfernt wurde.
Eine andere Vorgehensweise, die unabhängig von der Tonhöhe ist, wurde von Thomas F. Quatieri et al in den IEEE Transactions on ASSP, Vol. 34, Nr. 6, Dez. 1986, S. 1449-1463, dargestellt. Die Quatieri-Methode beruht auf einer sinusförmigen Darstellung der Sprache, die ein Modell der Spracherzeugung enthält. Die Rekonstruktion erfordert funktionale Schätzungen, die die zeitliche Entwicklung der Stimmbanderregung und der Stimmbereichsbeiträge der Amplitude und Phase jeder Sinuswellenkomponente beschreibt. Mit anderen Worten - obwohl diese Methode keine Tonhöhenberechnungen erfordert, so erfordert sie doch eine ziemlich komplexe Berechnung, die auch von der Bestimmung der Stimmbereichsimpulsantwort abhängt.

Zusammenfassung der Erfindung

Diese Erfindung schlägt ein feineres und einfaches Verfahren zur Realisierung der Sprachgeschwindigkeitsänderung vor, ohne daß Tonhöhen- oder Sprachbereichsmessungen notwendig sind, wobei ein Qualitätsniveau erreicht wird, das den Methoden mit Tonhöhenbetrachtung entspricht. Die vorgeschlagene Methode besitzt eine geringe Komplexität, die früher der Subband-Codierung zugeschrieben wurde, sie kann aber separat betrachtet werden. Sie kann auch auf Stimmerregte Vorhersagende Codierung (Voice-Excited Predictive Coding = VEPC) angewendet werden.
Ein Gegenstand dieser Erfindung ist also ein Verfahren zur digitalen Beschleunigung oder Verlangsamung einer Sprachnachricht; es besteht aus dem Aufteilen wenigstens eines Teils der betrachteten Sprachsignalbandbreite in mehrere schmale Subbänder, der Umwandlung jedes Subbandinhaltes in eine Phasen-Amplituden-Darstellung und dem Entfernen/Einfügen von Abtastwerten in allen Subbandphasen- und amplitudendaten, entsprechend der gewünschten Änderung der Sprachgeschwindigkeit, und der Rekombination der Subbandinhalte zur Sprache.
Dementsprechend ist ein digitales Verfahren zur Verlangsamung oder Beschleunigung eines Sprachsignals entsprechend der Erfindung in Anspruch 1 definiert. Eine Vorrichtung zur Verarbeitung einer Sprachnachricht entsprechend dieser Erfindung wird in Anspruch 5 beansprucht. Die vorhergehenden und weitere Ziele, Eigenschaften und Vorteile der Erfindung werden aus der nachfolgenden ausführlichen Beschreibung einer bevorzugten Ausführung der Erfindung ersichtlich, so wie sie in den beigefügten Zeichnungen dargestellt ist.

Kurs Beschreibung der Zeichnungen

Fig. 1 ist ein Blockdiagramm einer Ausführung dieser Erfindung.
Fig. 2. bis 4 sind Schaltungen, die in der Vorrichtung gemäß Fig. 1 zu verwenden sind.
Fig. 5 bis 7 sind Blockdiagramme, die die Anwendung dieser Erfindung in einem System zeigen, in dem das akustische Originalsignal mit Hilfe von Bandaufteilungsverfahren codiert wurde.
Diese Erfindung wird für ein digital codiertes akustisches Signal beschrieben, unter der Voraussetzung, daß die Codierung keine Bandaufteilung enthielt. Es wird dann angewendet, um Bandcodierer aufzuteilen.
Fig. 1 zeigt eine bevorzugte Ausführung dieser Erfindung. Das Sprachsignal s(n), das den Inhalt einer begrenzten Bandbreite des zu verarbeitenden akustischen Signals darstellt, das bei einer gegebenen Frequenz (zum Beispiel Nyquist) fs abgetastet und digital codiert wurde, wird zuerst durch einen Satz von Quadraturspiegelfiltern (QMF) 10 in N Subbänder aufgeteilt. Die QMF sind Filter, die in der akustischen Sprachverarbeitung bekannt sind und von A. Croisier, D. Esteban und C. Galand auf der International Conference on Information Sciences and Systems 1976 in Patras in einem Vortrag mit dem Titel "Perfect Chanel splitting by use of interpolation/decimation/tree decomposition techniques" vorgestellt wurden. Die Vorrichtung 10 liefert N Subbandsignale x(1,n), x(2,n), . . ., x(N,n). Die Subbandauflösung muß hoch genug sein, um die harmonische Struktur des Sprachsignals in allen Fällen einzufangen. Da die menschliche Stimmhöhenfrequenz bis auf 80 Hz heruntergehen kann, würde theoretisch ein Filtersatz mit N = 40 Subbändern notwendig sein, um die Telefonbandbreite (300 bis 3400 Hz) abzudecken.
Jedes Subbandsignal wird auf ein Verhältnis fs/N heruntergetastet, um eine konstante Gesamtabtastgeschwindigkeit im System einzuhalten. Die Subbandsignale x(i,n) mit i = 1, 2, . . ., N werden in komplexe QMF (CQMF) 12 übertragen und verarbeitet, um daraus das analytische Signal abzuleiten, das aus einer gleichphasigen Komponente u(i,n) und einer Quadraturkomponente v(i,n) besteht, die durch Weglassen jedes zweiten Abtastwertes auf die Hälfte heruntergetastet werden. Die komplexen QMF-Mittel werden weiter unter Bezugnahme auf Fig. 2 beschrieben.
Eine Ausführung der Phasen-Amplituden-Darstellung des aufgeteilten Subbandsignals ist in EP-A-070948 dargestellt.
In jedem Subband werden die gleichphasigen Komponenten u(n) und die Quadraturkomponenten v(n) des Signals dann als kartesische Koordinaten in einer Polarkoordinatenumwandlungsschaltung 14 verarbeitet, um daraus ein digitales Amplitudensingal M(i,n) und ein digitales Phasensignal P(i,n) abzuleiten:
M(i,n) = (u²(i,n) + v²(i,n))1/2 (1)
P(i,n) = Arctg v(i,n)/u(i,n) (2)
i = 1, 2, . . ., N bezeichnet das betrachtete Subband. Das Amplitudensignal M(i,n) und das Phasensignal P(i,n) jedes Subbandes (i = 1, 2, . . ., N) wird dann durch die später zu beschreibende aufwärts und abwärts beschleunigende Vorrichtung 16 verarbeitet. Die Vorrichtung 16 liefert geschwindigkeitsvariierte Paare von Ausgangssignalen M'(i,n) und P'(i,n), die dann in einer Vorrichtung 18 in kartesische Koordinaten rückverwandelt werden; dies ergibt ein Paar von gleichphasigen Komponenten und Quadraturkomponenten:
u'(i,n) = M'(i,n)·cos P'(i,n)
v'(i,n) = M'(i,n)·sin P'(i,n)
Dabei ist P'(i,n) die Phaseninformation des geschwindigkeitsvariierten Subbandsignals, die so, wie nachfolgend beschrieben, zu bestimmen ist (siehe Fig. 4).
In jedem Subband repräsentieren die u'- und v'-Komponenten das ursprüngliche Subbandsignal bei der neuen Geschwindigkeit und werden dann durch die (inversen) komplexen Quadraturspiegelfilter (CQMF) 20 rekombiniert. Die entstehenden Subbandsignale x'(i,n) werden durch einen Satz von inversen QMF 22 verarbeitet, um die geschwindigkeitsvariierten Sprachsignale s'(n) zu erzeugen.
In Fig. 2 ist eine Schaltung dargestellt, die die Operationen der direkten und inversen QMF ausführen, d. h. die Vorrichtungen 12 beziehungsweise 20. Mit anderen Worten - die Schaltung von Fig. 2 ermöglicht das Aufteilen eines Signals x(n), das bei einer Frequenz fs abgetastet wurde, in zwei Signale u(n) und v(n), die bei fs/2 abgetastet und die Rückwärtssynthese eines Sprachsignals x(n) aus u(n) und v(n).
Der komplexe QMF (CQMF) wurde von H.J. Nussbaumer und C. Galand auf der Konferenz EUSIPCO 83 in einem Vortrag "Parallel filter banks using complex quadraturee mirror filters" beschrieben. Unter Benutzung der CQMF-Verfahren werden die zwei Quadratursignale u(n) aus dem realen Subbandsignal x(n) abgeleitet durch
Dabei bezeichnet SUM die Addition.
X(Z), U(Z), V(Z) sind die Z-Transformierten von x(n), u(n) und v(n), und H(Z) ist die z-Transformierte eines Tiefpaß-CQMF mit M Abgriffen, wobei M gerade ist. Setzt man voraus, daß die lineare Verzerrung aufgrund des CQMF (Welligkeit) vernachlässigt wird, dann kann die Amplitude M(n) und die Phase P(n) von x(n) aus u(n) und v(n) entsprechend den Gleichungen (1) und (2) berechnet werden.
Um eine perfekte Rekonstruktion zu sichern, muß der Filter H(Z) bei der Frequenz fs/4N eine Dämpfung von 3 dB haben, und für die Amplitude H(w) der Fourier-Transformierten muß
H² (w + ws/4) + H² (w - ws/4) = 1 (7)
mit
ws = 2π·fs
w = 2π·f
gelten.
In der Praxis muß der Filter H(Z) genügend scharf sein, um die Kruezmodulationsterme zu entfernen, die bei der Berechnung von (1) und (2) auftreten.
Bezüglich weiterer Details zu den Entwurfsregeln für diese Filter sei hingewiesen auf den Artikel "Magnitude-Phase coding of base-band speech signals", der von C. Galand, H. Nussbaumer und J. Perrini auf der IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Tokio 1986, vorgestellt wurde. Setzt man nun voraus, daß das Eingangssprachsignal x(n) eine harmonische Struktur besitzt und die jeweiligen Subbänder ziemlich schmal sind, ohne Verfälschung, dann würde jedes Subband eine einzelne Harmonische enthalten. Wenn das Eingangssignal stationär ist, dann ist die Amplitude M(n) jedes Subbandsignals konstant, und seine Phase P(n) ändert sich linear.
Tatsächlich ist das Sprachsignal nicht stationär, aber die obigen Bedingungen werden sehr genau approximiert. Im Ergebnis dessen ändert sich die Amplitude M(n) des Signals in jedem Subband langsam (mit Silbengeschwindigkeit), und die Phase P(n) des gleichen Signals ändert sich nahezu linear.
Sind die Subbandsignale M(i,n) und P(i,n) einmal in Phasen-Amplituden-Daten umgewandelt, dann werden sie in einer Aufwärts- Abwärts-Vorrichtung 16 verarbeitet. Vor der Beschreibung dieser Vorrichtung sollen praktische Situationen für Aufwärts- und Abwärts-Beschleunigungsverhältnisse betrachtet werden. In akustischen Verteilungssystemen wird dieses Verhältnis im Bereich von 0,5 bis 2 gewählt. Mit anderen Worten - die Sprache kann wenigstens mit der Hälfte und höchstens mit der zweifachen Originalgeschwindigkeit abgespielt werden. Praktisch wird dieser Bereich nicht kontinuierlich überdeckt, sondern durch einige diskrete Werte im Intervall (0,5-2). Die Auswahl ist nicht wirklich kritisch, und die Verhältnisse zur Beschleunigung bzw. Verlangsamung der Sprache wurden zu K/K-1 bzw. K/K+1 gewählt, womit die Originalgeschwindigkeit auf 1 normalisiert wird.
Beschleunigung Verhältnis K/K-1
2 2/1
1,5 3/2
1,25 5/4
Verlangsamung Verhältnis K/K+1
0,75 3/4
0,5 1/2
Fig. 3 zeigt eine schematische Darstellung der innerhalb jedes Subbandes über die Amplitudendaten M(n) auszuführenden Operationen. Zur Beschleunigung werden die Amplitudensignale einfach im entsprechenden Verhältnis vernichtet. Es sei beispielsweise vorausgesetzt, daß die gewünschte Sprachgeschwindigkeit verdoppelt werden soll (K/K-1 = 2/1). Dann wird einfach jeder zweite Abtastwert des Amplitudensignals weggelassen. Für ein Verhältnis von 1,5 wird jeder dritte Abtastwert des Amplitudensignals unterdrückt. Allgemein gesprochen wird für jedes Verhältnis K/K-1 jeder K-te Abtastwert des Amplitudensignals M(n) weggelassen. Die Operation über jedem Block von K Eingabewerten M(n), n = 1, ..., K wird durch die folgenden Beziehungen beschrieben:
M'(n) = M(n) n = 1, . . ., K-1 (8)
Dabei stellt M(n), n = 1, . . ., K-1 die Ausgangsfolge der Amplitudenwerte dar.
Zur Verlangsamung wird eine ähnliche Operation ausgeführt. Für ein Verhältnis von K/K+1 wird jeder K-te Abtastwert des Amplitudensignals verdoppelt. Die Operation über jedem Block von K Eingabeabtastwerten M(n), n = 1, . . ., K wird durch die folgenden Beziehungen beschrieben:
M'(n) = M(n) n=1, . . ., K (9)
M'(K+1) = M(K)
Dabei stellt M'(n), n = 1, . . ., K+1 die Ausgangsfolge der Amplitudenwerte dar.
Beispielsweise führt eine Verlangsamungsoperation von 2 zu 1 zu einer Wiederholung jedes Abtastwertes M(n), um M'(n) abzuleiten.
In Fig. 4 ist die in der Verlangsamungs-Beschleunigungs-Vorrichtung 16 zur Verarbeitung des Phasensignals P(n) innerhalb jedes Subbandes verwendete Schaltung dargestellt. Die Geschwindigkeitsänderung über dem Phasensignal wird wie folgt implementiert. Die Phasenabtastwerte P(n) werden zuerst vorverarbeitet, um ein Differenzsignal oder eine Phaseninkrementfolge D(n) abzuleiten, wobei eine Verzögerungszelle (T) 40 für einen Abtastwert und ein Subtrahierer (42) benutzt wird, an die jeweils die Folge P(n) angelegt wird.
D(n) = P(n)-P(n-1) (10)
Für eine Beschleunigung im Verhältnis K/K-1 wird jeder K-te Abtastwert des Differenzsignals D(n) weggelassen. Die Operation über jedem Block von K Eingangsabtastwerten D(n), n = 1, . . ., K wird in der Vorrichtung 44 durchgeführt:
D'(n) = D(n) n = 1,..., K-1 (11)
Dabei stellt D'(n), n = 1, . . ., K-1 die Differenzausgabefolge dar.
Für einen Verlangsamungsprozeß wird eine ähnliche Operation ausgeführt. Die Verlangsamung im Verhältnis K/K+1 wird erreicht, indem in der Vorrichtung 46 jeder K-te Abtastwert des Differenzsignals D(n) verdoppelt wird. Die Operation über jedem Block von K Eingangsabtastwerten D(n), n = 1, . . ., K wird durch die folgenden Beziehungen beschrieben:
D'(n) = D(n) n = 1,..., K
D'(K+1) = D(K)
Dabei stellt D'(n), n = 1, . . ., K+1 die Ausgabefolge der einmal verlangsamten Differenzabtastwerte dar.
In beiden Fällen, der Verlangsamung und der Beschleunigung, wird die Wiederherstellung der Phasenabtastwerte aus den Differenzabtastwerten realisiert, indem eine Verzögerungszelle (T) für eine Abtastperiode und ein Addierer (+) entsprechend der folgenden Beziehung benutzt wird:
P'(n) = P'(n-1) + D'(n).
In beiden Fällen, beim Verlangsamen und beim Beschleunigen, kann sich das Verhältnis von K/K+1 oder K/K-1 unterscheiden, indem mehr als ein Abtastwerte pro Block der Länge K entfernt oder eingefügt wird. Der oben beschriebene Prozeß ermöglicht die Implementation eines beschleunigten Sprachsystems unabhängig von irgendeiner Betrachtung der Herkunft des Sprachsignals. Es kann so in Verbindung mit einem digitalen Codierer verwendet werden. Offensichtlich ist er aber besonders gut geeignet für Subband- Codierer (SBC), in denen die harmonische Analyse durch QMF bereits verfügbar ist. Diese Codierer wurden in der Literatur umfangreich beschrieben, aber man kann sich auf die folgenden Publikationen oder Patente beziehen, die hier zum Nachschlagen aufgeführt wurden:
"Voice excited predictive coder (VEPC), implementation on high-perfomance signal processor" von C. Galand, C. Couturier, G. Platel und R. Vermot-Gauchy, IBM Journal of Research and Development, Volume 29, Nummer 2, März 1985.
Europäisches Patent 0 002 998 (USA-Patent 4,216,354) Französisches Patent 77 13225 (USA-Patent 4,142,071).
In dem oben dargestellten Subband-Decodierer wurde die Eingangssignalbandbreite in mehrere Subbänder aufgeteilt. Dann wurde der Inhalt jedes Subbandes mit Quantisiergeräten codiert, die dynamisch auf den jeweiligen Subbandinhalt eingestellt werden. Mit anderen Worten - die Bits (oder Pegel), die die Ressourcen für die gesamte ursprüngliche Bandbreite codieren, werden dynamisch unter den Subbändern aufgeteilt. Setzt man zusätzlich voraus, daß die Codierungsmethode die Verwendung der Blockkompandierungs-PCM-Techniken (BCPCM) umfaßt, dann wurde die Codierung auf Blockbasis ausgeführt. Mit anderen Worten - die Quantisierunsparameter des Codierers wurden auf aufeinanderfolgende Blöcke von Abtastwerten mit vorher festgelegter Länge eingestellt. Für jeden Block von Abtastwerten lieferte der Codierer mit Multiplexübertragung an seinem Ausgang: quantisierte Subband-Abtastwerte S(i,j), wobei i = 1, . . ., N der Subbandindex und j der Zeitindex innerhalb eines Blockes ist; einen Schritt Q des Quantisiergerätes und N Terme n'(i), von denen jeder die Zahl der Bits darstellt, die zur Quantisierung der betrachteten Subbandinhalte dynamisch zugeordnet wurden. In der Praxis sollte beachtet werden, daß andere Datenarten als Q und n'(i) benutzt werden können, so lange diese Daten für den Quantisierungsschritt die Wiederherstellung des Schrittes ermöglichen, der den inversen Quantisierungsoperationen zuzuordnen ist, die ausgeführt werden müssen, um die quantisierten Abtastwerte in digital codierte Abtastwerte umzuwandeln.
In Fig. 5 ist ein Blockdiagramm der Synthesevorrichtung dargestellt, die verwendet werden muß, um die S(i,j)-, Q- und n'(i)- Daten in das ursprüngliche Sprachsignal s(n) zurückzuverwandeln. Grundsätzlich wird das Eingangssignal der Synthesevorrichtung zuerst in 52 mit einem Demultiplexer in seine Komponenten zerlegt, bevor es in eine inversen Quantisiergerät 54 subband-decodiert wird. Zu diesem Zweck wird jedem Subband-Decodierer ein Block von quantisierten Abtastwerten S(i,j) zugeführt und durch Q und n'(i) gesteuert. Jeder Decodierer oder jede inverse Quantisiervorrichtung liefert eine Menge von digital codierten Abtastwerten x(i,j), die zu einem inversen QMF geführt werden und ein zurückverwandeltes Sprachsignal s(n) liefern.
Diese Art der Codierer-Decodierer-Struktur eignet sich besonders gut für diese Erfindung, wie in Fig. 6 gezeigt ist; dort ist ein Blockdiagramm der Sprachbeschleunigung dieser Erfindung dargestellt, angewendet auf den in Fig. 5 dargestellten Teilbanddecodierer. Die subband-decodierten Signale x(i,j), die bei fs/N abgetastet wurden, werden direkt in die komplexen QMF 64 geführt, die als die CQMF 12 von Fig. 1 arbeiten. Mit anderen Worten - der QMF-Satz von Fig. 1 ist nicht notwendig, da eine vollständige Bandaufteilung bereits im Codierungsprozeß ausgeführt und mit der Demultiplexeraufteilung in 60 und der Subband-Decodierung in 62 abgeschlossen wurde.
Die übrigen Teile (64, 66, 68, 70, 72 und 74) entsprechen jeweils den Schaltungen (12, 14, 16, 18, 20 und 22) von Fig. 1. Schließlich ist das Ausgangssignal s'(n), so wie gefordert, ein beschleunigtes oder verlangsamtes Sprachsignal. Grundsätzlich spart man also durch Anwendung dieser Erfindung auf das aufgeteilte bandcodierte Signal zwei Filterblöcke, nämlich die QMF 10 und die inversen QMF 22.
Das vorgeschlagene Verfahren für die beschleunigte Sprache kann auch mit dem Prozeß der stimmerregten vorhersagenden Codierung (VEPC) kombiniert werden, da dieser Codierertyp die Verwendung der Subband-Codierung auf der unteren Frequenzbandbreite (Basisband) des Sprachsignals umfaßt. Zusätzlich ist die Bandbreite jedes Subbandes schmal genug, um den korrekten Betrieb der Vorrichtung für die Sprachbeschleunigung zu sichern.
In Fig. 7 ist ein Blockdiagramm dargestellt, das die Einfügung der Vorrichtung dieser Erfindung in eine VEPC-Synthesevorrichtung zeigt, die entsprechend der Vorrichtung von Fig. 8 des oben zitierten Europa-Patentes 0 002 998 oder der Vorrichtung von Fig. 3 des zitierten IBM Journal of Research and Development beschaffen ist. Die von einem Eingangsdemultiplexer DMPX(71) gelieferten Basisband-Subband-Signale S(i,j) werden in eine Menge von Signalen x(i,n) decodiert, die zu einer Beschleunigungs- Verlangsamungs-Vorrichtung (70) geführt werden, die entsprechend dieser Erfindung beschaffen ist (siehe Fig. 1). Das beschleunigte/verlangsamte Basisbandsignal x'(n) wird dann benutzt, um die Hochfrequenzbandbreite (HB) zurückzugewinnen, die durch die decodierte (DECODEDI) Hochfrequenzenergie (ENERG) in 72 moduliert wurde, so wie in der zitierten Literatur dargestellt ist. Dann werden das hohe und das niedrige Bandsignal, die zur Kompensation der Übergangszeit in 72 verzögert wurden, in 74 addiert.
Der Addiererausgang treibt dann einen Filter des Stimmbereiches, dessen Koeffizienten mit den decodierten COEF-Daten eingestellt wurden und dessen Ausgang das rekonstruierte Sprachsignal s'(n) ist.
Die Sprachdeskriptoren, d. h. die Hochfrequenzenergie (ENERG) und die PARCOR-Koeffizienten (COEFF) werden auf Blockbasis erneuert und linear interpoliert. Die Operation der Sprachbeschleunigung, die diese Parameter betrifft, wird in einer Vorrichtung 78 erreicht, indem die Größe des linearen Interpolationsschrittes auf die neue Blocklänge eingestellt wird.
Obwohl die Erfindung unter Bezugnahme auf die bevorzugten Ausführungen dargestellt wurde, die zwei spezielle Bandaufteilungscodierungstechniken anwenden, wird es für Fachleute verständlich sein, daß sie auch auf andere Sprachcodierungs- und -decodierungsschemata anwendbar ist.

Claims

1. Ein digitales Verfahren zur Verlangsamung oder Beschleunigung eines Sprachsignals, das die folgenden Schritte enthält:

- die Aufteilung wenigsten eines Teils der Sprachfrequenzbandbreite in N aufeinanderfolgende schmale Subbänder;

- die Verarbeitung des Inhaltes jedes Subbandes, um daraus Phasenabtastwerte P(i,n) und Amplitudenabtastwerte M(i,n) abzuleiten, die repräsentativ für den Subbandsignalinhalt sind, ausgedrückt in Polarkoordinaten, wobei i = 1, . . ., N der Index des Subbandes und n der Zeitindex ist;

- die Verlangsamung oder Beschleunigung des Subbandsignalinhaltes, wobei modifizierte Subbandphasendaten P(i,n) und Amplitudendaten M(i,n) erzeugt werden;

- die Rekombination aller modifizierten Phasen-/Amplituden-Subbanddaten zu einem Subbandsignal; und

- die Rekombination der Subbandsignale zu einer Sprache, wobei die rekombinierte Sprache eine verlangsamte/beschleunigte Version des verarbeiteten Sprachsignals ist;

dadurch gekennzeichnet, daß für ein beliebiges i-tes Subband die folgenden Operationen ausgeführt werden:

- es wird eine Phaseninkrementfolge D(n) gemäß D(n) = P(n)-P(n-1) erzeugt;

- das Sprachsignal wird entweder mit einer Rate von K/K-1 beschleunigt, wobei K ein vorher festgelegter ganzzahliger Wert ist und gleichzeitig für jedes Subband

- die Folge M(n) durch Löschung jedes K-ten Abtastwertes M(n) in eine beschleunigte Folge M'(n) umgewandelt wird;

- die Folge D(n) durch Löschung jedes K-ten Abtastwertes in D'(n) umgewandelt wird;

- oder das Sprachsignal wird um eine Rate K/K+1 verlangsamt, wobei für jedes Subband

- die Folge M(n) durch Wiederholung jedes K-ten Abtastwertes M(n) in eine verlangsamte Folge M'(n) umgewandelt wird;

- die Folge D(n) durch Verdoppelung jedes K-ten Abtastwertes in D'(n) umgewandelt wird;

- und für beide Alternativen wird eine beschleunigte oder verlangsamte Phasenfolge P'(n) mit P'(n) = P'(n-1) + D'(n) erzeugt.

2. Ein Verfahren gemäß Anspruch 1, in dem die Subband-Verarbeitung zur Ableitung von Phasen-/Amplituden-Abtastwerten folgende Schritte umfaßt:

- von jedem Subbandsignalinhalt wird durch Anwendung komplexer Quadraturspiegelfilter-Techniken ein analytisches Signal abgeleitet, das aus einer gleichphasigen Komponente und einer Quadraturkomponente besteht;

- das analytische Signal wird durch Weglassen jedes zweiten Abtastwertes in den gleichphasigen Komponenten und den Quadraturkomponenten heruntergetastet;

- das heruntergetastete analytische Signal wird in seine Phasen-/Amplituden-Komponenten umgewandelt.

3. Ein Verfahren gemäß Anspruch 1 oder gemäß Anspruch 2, dadurch gekennzeichnet, daß der Teil der Sprachfrequenzbandbreite auf das Sprachsignalbasisband begrenzt ist.

4. Ein Verfahren gemäß Anspruch 1, bei dem das Aufteilen in Subbänder einen ersten Schritt eines Bandaufteilungsverfahrens bildet; das Aufteilen beinhaltet die Quantisierung des Signalinhaltes von jedem Subband mit dynamischer Anpassung der Signalquantisierungsressourcen und anschließend die Decodierung und inverse Quantisierung der quantisierten Subbandsignalinhalte.

5. Ein Mittel zur Verarbeitung einer Sprachnachricht, die mit der Frequenz fs abgetastet wurde und die folgenden Komponenten hat:

- eine erste Gruppe von Quadraturspiegelfiltern (QMF) zur Aufteilung einer begrenzten Bandbreite des Sprachsignals in N schmale Subbänder;

- Mittel für das Heruntertasten, die mit der QMF-Gruppe verbunden sind, zur Heruntertastung jedes Subbandsignals mit einer Rate von fs/N;

- Mittel zur komplexen Quadraturspiegelfilterung (CQMF), die mit der ersten QMF-Gruppe verbunden sind, zur Umwandlung jedes Subbandinhaltes in ein analytisches Signal, das durch gleichphasige Komponenten und Quadraturkomponenten dargestellt wird;

- ein zweites Mittel für das Heruntertasten, das mit der CQMF-Gruppe verbunden ist, zum Heruntertasten der gleichphasigen Komponenten und der Quadraturkomponenten auf fs/2N;

- Koordinatenumwandlungsmittel, die mit dem zweiten Mittel für das Heruntertasten verbunden sind, zur Umwandlung des analytischen Signals in Amplitudenkomponenten M(i,n) und Phasenkomponenten P(i,n), wobei i = 1, . . .., N der Subbandindex und n der Zeitindex ist;

- Sprachenverarbeitungsmittel, die mit den Koordinatenumwandlungsmitteln verbunden sind, wobei die M'(i,n)- und die P'(i,n)-Daten erzeugt werden;

- Koordinatenumwandlungsmittel, die mit den Aufwärts/- Abwärts-Geschwindigkeiten verbunden sind, um die M'(i,n) und P'(i,n) in geschwindigkeitsverwandelte analytische Daten u'(i,n), v'(i,n) umzuwandeln;

- Mittel, um u'(i,n), v'(i,n) in fs/N umzuwandeln;

- inverse komplexe QMF-Filter, die mit den Abtastmitteln verbunden sind;

- Abtastmittel, um die CQMF-Filter auf eine Geschwindigkeit fs zu bringen;

- eine inverse QMF-Filtergruppe, die mit den Abtastmitteln verbunden ist und ein verlangsamtes oder beschleunigtes Sprachsignal s'(n) liefert;

dadurch gekennzeichnet, daß das Sprachverarbeitungsmittel die Sprachnachricht verlangsamt oder beschleunigt und für irgendein i-tes Subband die folgenden Mittel enthält:

- Mittel zur Erzeugung einer Phaseninkrementfolge D(n) gemäß D(n) = P(n)-P(n-1);

- Mittel zur Beschleunigung des Sprachsignals auf eine Geschwindigkeit K/K-1, wobei K eine vorher festgelegte ganze Zahl ist und für jedes Subband

- Mittel zur Umwandlung der Folge M(n) in eine beschleunigte Folge M'(n) durch Löschung jedes K-ten M(n)-Abtastwertes und

- Mittel zur Umwandlung der Folge D(n) in D'(n) durch Löschung jedes K-ten Abtastwertes von D(n) vorhanden sind;

- Mittel zur Verlangsamung des Sprachsignals auf eine Geschwindigkeit K/K+1, wobei für jedes Subband

- Mittel zur Umwandlung der Folge M(n) in eine verlangsamte Folge M'(n) durch Wiederholung jedes K-ten Abtastwertes M(n),

- Mittel zur Umwandlung der Folge D(n) in D'(n) durch Verdoppelung jedes K-ten Abtastwertes und

- Mittel zur Erzeugung einer beschleunigten oder verlangsamten Phasenfolge P'(n) mit = P'(n-1) + D'(n) vorhanden sind.