DE3851887T2

DE3851887T2 - Verfahren und Einrichtung zur Sprachkodierung mit niedriger Bitrate.

Info

Publication number: DE3851887T2
Application number: DE3851887T
Authority: DE
Inventors: Claude Galand; Michele Rosso
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1988-07-18
Filing date: 1988-07-18
Publication date: 1995-04-20
Anticipated expiration: 2008-07-19
Also published as: EP0351479B1; DE3851887D1; JPH0761016B2; EP0351479A1; US5231669A; JPH0260231A

Description

Dies ist ein Verfahren und eine Vorrichtung zur Verbesserung der Codierung mit niedriger Bitrate von Signalen, die von Sprachanschlüssen stammen.

Grundlagen der Erfindung

Sprachcodierung mit niedriger Bitrate wurde durch den Einsatz von Signalbandbreitenbegrenzung realisiert, wobei das ursprüngliche Sprachsignal zuerst gefiltert wird, um davon ein Basisbandsignal abzuleiten, das gemäß der Theorie von Nyquist leistungsfähig bei einer Rate abgetastet werden könnte, die geringer als diejenige Rate ist, die für das ursprüngliche Vollbandsignal benutzt wird. Die begrenzte Bandbreite kann deshalb mit niedriger Bitrate codiert werden.
Die nachfolgende Decodierung und Rückumwandlung in das ursprüngliche Signal wird dadurch erreicht, daß das Basisband auf eine größere Bandbreite erweitert wird und die Abtastrate erhöht wird.
Bisher wird der oben erwähnte Filtervorgang mit einem Tiefpaßfilter mit einer Grenzfrequenz bei etwa 1300 Hertz erreicht, d. h. die groß genug ist, die Tonhöhenfrequenz jedes beliebigen Lautsprechers einzuschließen. Die Tiefpaßfilterung erfolgt entweder direkt über das vom Sprachanschluß zur Verfügung gestellte Signal oder wird über ein von dem Sprachanschlußsignal abgeleitetes nicht korrelierendes Restsignal vorgenommen. Beide Fälle können so definiert werden, daß sie sich mit Signalen befassen, die von Sprachanschlüssen abgeleitet werden.
Bei verschiedenen Anwendungen, die sich z. B. mit der Telefonie befassen, wird das Netz, über welches das codierte Sprachsignal übertagen werden soll, auch dazu benutzt, nicht sprachgebundene Signale, wie zum Beispiel Besetzttöne und andere Betriebstöne zu übertragen. Die Töne bestehen aus einer reinen Sinusschwingung, die sich bei einer Frequenz befinden könnte, die höher als die Grenzfrequenz des Tiefpaßfilters wäre.
Die üblichen Basisbandcodiervorgänge würden dann zum Verlust von Tönen führen oder, was noch schlimmer wäre, zu Tonverzerrungen großen Ausmaßes, die den gesamten Netzbetrieb beeinflussen könnten.
Ein verbessertes Verfahren für mittlere Bitraten ist schon in ICASSP 86 IEEE-IECEJ-ASJ INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Tokio, 7. bis 11. April 1986, Bd. 4, S. 3075 bis 3078, "Adaptive subbands excited transform (ASET) coding" (Anpassungsfähige durch Unterbänder erregte Transformations-Codierung (ASET)) von E. Mazor et al vorgeschlagen worden, wobei das Signal so aufgebaut ist, daß es einen Satz von anpassungsfähig ausgewählten Unterbändern anstelle eines einzigen niederfrequenten Unterbandes umfaßt.

Aufgabe der Erfindung

Eine Aufgabe der Erfindung besteht darin, ein verbessertes Verfahren zur mit niedriger Bitrate stattfindenden Codierung von Signalen zur Verfügung zu stellen, die von Sprachanschlüssen stammen, wobei das Verfahren eine wirkungsvolle Codierung von Tonen ermöglicht. Sie gilt insbesondere für Codierschemata, die eine Bandbegrenzung des ursprünglichen vom Sprachanschluß abgeleiteten Signals, eine Subabtastung und eine Codierung des in seiner Bandbreite begrenzten Signals zur nachfolgenden Rückerweiterung der eingegrenzten Bandbreite während der Sprachsynthesevorgänge auf das ursprüngliche Vollband umfassen.
Die Erfindung befaßt sich mit einem verbesserten Verfahren zur mit niedriger Bitrate erfolgenden Codierung eines abgetasteten von einem Sprachanschluß abgeleiteten Signals, wobei die Aufspaltung der Signalbandbreite in mindestens zwei benachbarte Unterbänder, die Subabtastung und Codierung der Inhalte jedes Unterbandes, dann die Aufwärtsabtastung der codierten Unterbandinhalte, die Ableitung von Fehlerdaten durch die Subtraktion jedes aufwärts abgetasteten Unterbandinhaltes vom ursprünglichen vom Sprachanschluß abgeleiteten Signal zur auf der Grundlage eines dafür repräsentativen Mittelwertkriteriums erfolgenden Auswahl desjenigen codierten Unterbandinhaltes, der dem Original am nächsten kommt, enthalten sind.
Insbesondere befaßt sich die Erfindung mit einem Codierverfahren mit niedriger Bitrate und einer Vorrichtung, wie sie in den Ansprüchen 1 und 3 belegt sind.
Diese und weitere Aufgaben, Vorzüge und Eigenschaften der vorliegenden Erfindung werden aus der folgenden Beschreibung unter Bezugnahme auf die Zeichnungen besser ersichtlich.

Kurze Beschreibung der Zeichnungen

Die Fig. 1 beziehungsweise 2 stellen Blockdiagramme einer Codier- und Decodiervorrichtung nach Stand der Technik dar, in welche die Erfindung eingefügt werden soll.
Die Fig. 3 bis 6 sind Flußdiagramme zur Realisierung von Blockfunktionen der Vorrichtungen der Fig. 1 und 2.
Die Fig. 7 und 8 dienen der Erläuterung des Problems, das mit dieser Erfindung gelöst werden soll.
Die Fig. 9, 10 und 14 sind Blockdiagramme zur Erläuterung der Erfindung.
Die Fig. 11 und 12 sind Flußdiagramme zur Ausführung der Erfindung.
Die Fig. 13 erläutert die durch die Erfindung erzielten Verbesserungen.
Fig. 14 ist ein Blockdiagramm einer weiteren Ausführungsform der Erfindung.

Beschreibung der bevorzugten Ausführungsform

Wie schon erwähnt gilt die Erfindung für verschiedene Basisband- Sprachcodierschemata.
Es ist eine Reihe von Basisbandcodierern bekannt, für welche die Erfindung gut passen würde, dazu gehören etwa der spracherregte Vorauscodierer (VEPC) und der richtimpulserregte (RPE) Codierer.
Hinsichtlich des VEPC wird verwiesen auf:
1. das IBM Journal of Research and Development, Bd. 29. Nr. 2 vom März 1985, S. 147 bis 157.
2. den Record of the 1978 IEEE International Conference on Acoustics, Speech and Signal Processing, S. 307 bis 311
3. die Europäische Patentschrift 0 002 998 des gleichen Anmelders.
Die VEPC-Codierung umfaßt eine Abtastung bei 8 kHz, wobei das ursprüngliche Sprachsignal auf die übliche Telefonbandbreite begrenzt ist, die PCM-Codierung des abgetasteten Signals und dann die Rückcodierung des Signals in Autokorrelationsparameter, Hochbandenergiedaten und ein Niedrigbandsignal, das rückcodiert/quantisiert werden soll. In einigen Fällen umfaßt das Verfahren die Dekorrelierung des PCM-codierten Signals in ein Restsignal, ehe die Begrenzungsvorgänge für das Niedrigband durchgeführt werden. Man kann aber für einen beliebigen Fall annehmen, daß die Rückcodierung/Quantisierung, d. h. die Codierung mit niedriger Rate, über ein von einem Sprachanschluß abgeleitetes Signal durchgeführt werden soll.
Hinsichtlich von RPE wird verwiesen auf:
1. den Artikel "Regular Pulse Excitation - A novel Approach to Effective and Efficient Multipulse Coding of Speech" (Richtimpulserregung - ein neuartiges Verfahren zur effektiven und wirksamen Multiimpuls-Sprachcodierung), veröffentlicht von Peter Kroon et al in IEEE Transactions on Acoustics, Speech and Signal Processing, Bd. ASSP-34, Nr. 5 vom Oktober 1986, S. 1054 ff.
2. ICASSP 88, wobei weitere Verbesserungen durch die Einbeziehung des RPE-Codierers in einen Regelkreis erzielt werden, der Langzeitvoraussagevorgänge (LTP) an dem Signal vornimmt, das dem RPE-Verfahren unterworfen werden soll.
3. "Speech Codec for the European Mobile Radiosystem" (Sprachcodierer/-decodierer für das europäische Mobilfunksystem) von P. Vary, K. Holling, R. Holmann, R. Sluyter, C. Galand und M. Rosso in Proceedings of ICASSP 1988, Bd. 1, S. 227 bis 230.
Da die Erfindung ebenso auch für beliebige basisbandorientierte Codierschemata anwendbar ist, erweist sie sich für die RPE/LTP- Codierung als gut geeignet, und nachstehend wird eine ausführliche Realisierungsform eines solchen Codierers beschrieben.
Es sollte aber in jedem Falle angemerkt werden, daß unabhängig davon, welche Art Codierer verwendet wird, die Synthese des ursprünglichen Signals aus einem basisbandcodierten Signal die Verarbeitung des Basisbandsignals und die Erweiterung seiner Bandbreite auf die ursprüngliche volle Bandbreite des Sprachanschlusses (z. B. die Telefonbandbreite) umfaßt. Wie schon erwähnt, würde ein Ton, der bei einer höheren als der Tiefpaßgrenzfrequenz in die ursprüngliche Bandbreite des Sprachanschlusses eingebettet ist, dann verloren sein.
In Fig. 1 ist ein Blockdiagramm des RPE/LTP-Codierers nach dem Stand der Technik dargestellt. Das ursprüngliche bei 8 kHz abgetastete und PCM-codierte Signal s(n) stammt von einem Sprachanschluß (z. B. einem Telefon, das nicht dargestellt ist), der die Bandbreite auf 300 bis 3300 Hz begrenzt. Das Signal s(n) wird in einer Vorrichtung (10) durch Kurzzeitvoraussage analysiert, wobei die sogenannten auf partielle Korrelation bezogenen (Parcor-) Koeffizienten errechnet werden. s(n) wird durch einen optimalen Voraussagefilter A(z) (11) gefiltert, dessen Koeffizienten durch die Rechenvorrichtung (10) zur Verfügung gestellt werden. Das resultierende Restsignal r(n) wird dann mit Langzeitvoraussage (LTP) in einer LTP-Filterschleife analysiert, die einen Filter (12) mit einer Übertragungsfunktion b.z-M in der z- Domäne und eine Addiervorrichtung (13) umfaßt. b beziehungsweise M stellen einen Verstärkungskoeffizienten und einen tonhöhenbezogenen Koeffizienten dar. Sowohl b wie M werden in einer Vorrichtung (14) errechnet, eine leistungsfähige Ausführungsform davon ist in der ebenfalls anhängigen Europäischen Patentanmeldung 87430006.4 beschrieben worden. Der Wert M ist eine Tonhöhenharmonische, die so ausgewählt wird, daß sie größer als 40 r(n) Abtastintervalle ist. Die LTP-Schleife wird dazu verwendet, ein geschätztes Restsignal x''(n) zu erzeugen, das in einer Vorrichtung (15) vom Eingangsrestsignal r(n) subtrahiert werden soll, damit ein Fehlerrestsignal x(n) zur Verfügung steht.
RPE-Codiervorgänge werden in einer Vorrichtung (16) über aufeinanderfolgende Abtastblöcke mit Festlänge (z. B. 40 ms oder 5 ms lang) des Signals x(n) durchgeführt. Üblicherweise umfaßt die RPE-Codierung die Umwandlung jeder Folge x(n) in eine Abtastfolge mit regelmäßigen Abständen und niedrigerer Rate. Das Signal x(n) wird zu diesem Zwecke zu einem Signal y(n) tiefpaßgefiltert und dann in mindestens zwei abwärts abgetastete Folgen x1(n) und x2(n) aufgeteilt. Die übliche RPE-Verfahrensweise mit Fernsprechqualität bei 12 bis 16 kbps zieht für jede tiefpaßgefilterte 40-ms-Folge der restlichen Abtastungen (x(n); n = 1, . . . , 19) die Auswahl einer von zwei Unterfolgen in Betracht:
x1(n) = y(2n) n = 0, . . . , 19
x2(n) = y(2n+1) n = 0, . . . , 19
Die Auswahl der Unterfolgen wird auf der Grundlage eines Energiekriteriums durchgeführt, dies entspricht:
j wird so ausgewählt, daß
Es wird angenommen, daß die Unterfolge xj(n) mit der höchsten Energie das Signal x(n) am besten darstellt. Die Abtastungen der ausgewählten Folge werden in (17) quantisiert, wobei blockkompandierte PCM-Verfahrensweisen (BCPCM) benutzt werden, bei denen jeder ausgewählte Abtastblock xj(n) in einen Kennwert cxj und eine Folge von quantisierten Werten xjc(n) quantisiert wird. Natürlich wird die Rasterbezugsgröße j auch zur Definition der ausgewählten RPE-Folge benutzt, indem ein Tabellenadressenbezug dargestellt wird.
In einer Vorrichtung Q (18) wird die ausgewählte Folge auch dequantisiert, ehe sie in die LTP-Filterschleife eingegeben wird, die eine generierte Folge x''(n) neu aufbaut, die dann in (15) von r(n) subtrahiert wird und das Signal x(n) erzeugt.
Folglich besteht die Codiererausgabe aus einem Satz Parcor-Koeffizienten K(i), die den Sprachduktus des Sprechers beschreiben, einem Satz von LTP-Koeffizienten (b, M) und der Rasteranzahl j, die mit der ausgewählten quantisierten Unterfolge xj'(n) verbunden ist, die mindestens einen Wert cxj und einen Satz von Binärwerten xjc(n) umfaßt.
In Fig. 2 ist ein vereinfachtes Blockdiagramm für Decodiervorgänge dargestellt. Zuerst werden xj'(n) und j in den Dequantisierer (20) eingegeben, der eine aufwärts abgetastete generierte Signalfolge des Restfehlers x'(n) zur Verfügung stellt. Das Fehlersignal x' (n) wird in eine LTP-Filterschleife eingegeben, die einen Filter mit einer durch die Koeffizienten (b, M) angepaßten Übertragungsfunktion b.z-M und eine Addiervorrichtung (24) umfaßt, und der ein langzeitgeneriertes Restsignal r'(n) zur Verfügung stellt, das in einen Kurzzeitfilter (26) mit einer Übertragungsfunktion 1/A(z) eingegeben wird. Schließlich steht am Ausgang des Filters (26) ein generiertes Sprachsignal s'(n) zur Verfügung.
In Fig. 3 ist ein vereinfachtes Flußdiagramm der Vorgänge zur Sprachsignalanalyse und -synthese dargestellt, wie sie in einem Sender/Empfänger (Codierer-Decodierer) ablaufen. Dieses Flußdiagramm erklärt sich selbst, wenn es im Zusammenhang mit den Figuren 1 und 2 und der folgenden zusätzlichen Information betrachtet wird:
- x''(n) = b·r'(n-M)
- Parcor-Koeffizienten K(i) werden, bevor sie zum Abstimmen der Filter A(z) und 1/A(z) benutzt werden, in a(i) umgewandelt.
- in die LTP-Filterschleife wird eine Verzögerungsleitung eingefügt.
Die vor der RPE-Codierung ablaufenden und in den beiden oberen Blöcken der Fig. 3 dargestellten Vorgänge werden im einzelnen im Flußdiagramm der Fig. 4 dargestellt. Wie in Fig. 4 erläutert, ermöglicht die Kurzzeitanalyse die Ableitung des Restsignals
Die Ableitung der parcorbezogenen Koeffizienten a(i) wird im Flußdiagramm der Fig. 5 weiter ausgeführt. Die a(i) werden durch Aufstufungsvorgänge von den sogenannten Parcor-Koeffizienten abgeleitet, wobei ein übliches Leroux-Guegen-Verfahren benutzt wird. Die Koeffizienten K(i) können mit 28 Bit codiert werden, indem man den Un/Yang-Algorithmus benutzt. Zu Einzelheiten über diese Verfahren und Algorithmen kann Bezug genommen werden auf:
- J. Leroux und C. Guegen: "A fixed point computation of partial correlation coefficients" IEEE Transactions on ASSP, S. 257 bis 259, Juni 1977.
- C. K. Un und S. C. Yang: "Piecewise linear quantization of LPC reflexion coefficients" Proc. Int. Conf. on ASSP, Hartford, Mai 1977.
- J. D. Markel und A. H. Gray: "Linear prediction of speech" Springer Verlag 1976, Aufstufungsverfahren, S. 94 und 95.
- Europäische Patentschrift 0,002,998 (Entsprechung dazu US-Patentschrift 4,216,354).
Der Kurzzeitfilter (13) leitet die kurzzeitigen Restsignalabtastungen ab:
Fig. 6 ist ein Flußdiagramm, das die Umwandlung von r(n) in x(n) zusammenfaßt. Es sollte angemerkt werden, daß diese Vorgänge über Folgen von 160 Abtastungen ablaufen, die vier Blöcke zu vierzig Abtastungen darstellen. Unter der Annahme, daß der aktuelle Abtastblock von n=0 bis n=39 zeitbezogen ist, dann erfolgen die Korrelationen von i=40 bis 120 über r(n) und r'(n-i), um abzuleiten:
für i = 40, 41, . . . , 120
Theoretisch kann man i bis auf 160 ausdehnen. Es hat sich herausgestellt, daß bei gegebenen üblichen Tonhöhenwerten eine Begrenzung auf die 120ste Abtastposition ausreichend war, wodurch nicht nur Rechenaufwand gespart, sondern auch die Bitanzahl eingeschränkt wird, die bei der Codierung des tonhöhenbezogenen Wertes M benutzt werden soll.
Der nächste Vorgang umfaßt die Auffindung derjenigen i-ten Abtastposition, die den höchsten Wert F(i) liefert, dessen Position den M tonhöhenbezogenen Daten entspricht, nach denen gesucht wird.
Die Autokorrelationsvorgänge werden dann über r' (n-M) für n durchgeführt, das zwischen 0 und 39 veränderlich ist, um davon einen Wert C(M) abzuleiten (siehe Fig. 6) und danach die Berechnung von
b = F(M)/C(M)
zu ermöglichen.
Sowohl die RPE- wie die RPE/LTP-Codierer eignen sich gut für die Codierung von Sprachsignalen, weil die RPE-Tiefpaßfilterung so durchgeführt werden kann, daß eine Grenzfrequenz bei fs/4 realisierbar ist (wobei fs die Abtastfrequenz darstellt). Die Aufwärtsabtastung zur Synthese, die durch die Einfügung von Null- Abtastungen erreicht wird, ist einer Aufwärtsabtastung des Signals und der Erzeugung einer Harmonischen durch Frequenzfaltung gleichwertig, die für typische Sprachsignale gut geeignet ist.
Wenn jedoch nicht sprachgebundene Signale betroffen sind, dann schließt die Harmonischenfaltung eine korrekte Rekonstruktion von Signalen aus, die eine wesentliche Spektrumsdichte außerhalb des Frequenzbereiches aufweisen, der vom Tiefpaßfilter abgedeckt wird.
Die Fig. 7 und 8 zeigen den zeitlichen Verlauf der Signalform und das Energiespektrum eines Tones bei 2,7 kHz, wie es vor seiner Codierung mit RPE/LTP und nach der Codierung erscheint, die für eine Arbeitsweise bei 16 kps mit einem Filterverhältnis von 1/2 ausgelegt ist. Die an dem codierten Ton auftretenden Verzerrungen sind wahrnehmbar, durch diese Verzerrungen kann der Ton aus dem codierten Signal nicht mehr eindeutig erkannt werden.
Zusammenfassend gestattet die Basisbandcodierung, daß durch Einschränkung der Bandbreite des ursprünglichen Sprachsignals auf eine niedrige Frequenzbandbreite, die Abwärtsabtastung des Inhaltes der eingeschränkten Bandbreite und die Codierung des abwärts abgetasteten Inhaltes, wobei vom ursprünglichen Signal auch vorbestimmte Parameter abgeleitet werden, eine Codierung mit niedriger Rate erreicht wird, wobei die Synthese dadurch realisiert würde, daß das eingeschränkte Band auf die ursprüngliche Bandbreite zurück erweitert wird.
Wie aus der obigen Beschreibung ersichtlich, kann die Verfahrensweise Töne beeinflussen und verzerren, die innerhalb der ursprünglichen Bandbreite eingebettet sind.
Diese Erfindung ermöglicht die Überwindung dieser Nachteile, indem die ursprüngliche Signalbandbreite in mindestens zwei Bandbreiten aufgeteilt wird, jeder Unterbandinhalt abwärts abgetastet wird und dann dasjenige abwärts abgetastete Unterbandsignal, das dem Original am nächsten kommt, als für das in seiner Bandbreite eingeschränkte Signal repräsentativ ausgewählt wird, dessen Abtastungen codiert werden sollen.
Die Verfahrensweise kann dadurch realisiert werden, daß der RPE- Codiervorgang der Vorrichtung (16) der Fig. 1 in einer verbesserten Vorrichtung vorgenommen wird, wie sie in Fig. 9 dargestellt ist. In diesem Falle wird das von einem Sprachanschluß abgeleitete Signal x(n) in eine niederfrequente Bandbreite (LPF) und eine hochfrequente Bandbreite (HPF) aufgeteilt, deren Inhalte auf 1/2 der ursprünglichen Abtastrate unterabgetastet werden. Dann werden für jeden 5-Millisekunden-Block die entsprechenden Unterbandenergien errechnet, und das Unterband mit der höchsten Energie wird als für x(n) repräsentativ codiert.
Das System wird weiterhin durch die Erkenntnis vervollkommnet, daß das System um so besser ist, je näher das abschließend generierte Signal s'(n) beim ursprünglichen Signal s(n) liegt. Mit anderen Worten:
ei(n) = s(n) - s'(n)
sollte so klein wie möglich sein.
Anders ausgedrückt sollten die Kriterien für die optimale RPE- Auswahl, wenn bei der RPE-Codierung eine Halbierung jedes Unterbandinhaltes angenommen wird, dann besser beruhen auf:
Wenn man alle zeitbezogenen Daten innerhalb der z-Domäne mit Großbuchstaben bezeichnet, z. B. dementsprechend S(z) und S'(z) für s(n) beziehungsweise s'(n), dann kann man erkennen, daß
Es sind daher optimale Auswahlkriterien zu erreichen, wenn eine Rasterauswahl auf der Grundlage einer Betrachtung der folgenden Codierfehlerdaten d(n) erfolgt
d(n) = x(n) - x'(n),
dies führt durch das Syntheseverfahren zu einer optimalen Analyse.
In Fig. 10 wird eine ausführliche Darstellung des RPE-Codierers gezeigt, der zum Ersatz der Vorrichtung (16) aus der Fig. 1 benutzt wird, damit eine korrekte RPE/LTP-Codierung stattfinden kann, bei der eine angemessene Erkennbarkeit von Tönen erreichbar ist.
Das von der Addiervorrichtung (15) gelieferte Signal x(n) wird sowohl in einen Tiefpaß (LPF) (90) wie in einen Hochpaß HPF (91) eingegeben, die ein tiefpaßgefiltertes Signal y1(n) beziehungsweise ein hochpaßgefiltertes Signal y2(n) liefern. In den Abwärtsabtastvorrichtungen 92 und 93 wird das y1(n) in zwei halb abgetastete Signale x1(n) und x2(n) aufgeteilt, während y2(n) gleicherweise in x3(n) und x4(n) aufgeteilt wird.
Die vier abwärts abgetasteten Signale werden durch Aufwärtsabtastvorgänge, die in den Vorrichtungen 94 und 95 erfolgen, zu ihrer ursprünglichen Abtastrate zurückgewandelt, diese liefern die Signale x1'(n), x2'(n), x3'(n) und x4'(n), die ihrerseits von x(n) subtrahiert werden, um die Fehler d1(n), d2(n) d3(n) und d4(n) davon abzuleiten.
Die Fehlersignale werden in inversen Kurzzeitfiltern 1/A(z) gefiltert, deren Ausgänge über eine Blockzeit quadriert und summiert werden, um die Energiedaten Ej für j = 1, 2, 3, 4 abzuleiten.
Schließlich ist die RPE-Folge xj(n), die in 100 ausgewählt werden soll, und quantisiert wird, diejenige mit der minimalen Ej.
In Fig. 11 ist ein Flußdiagramm dargestellt, in dem die oben erwähnten verbesserten RPE-Vorgänge zusammengefaßt werden. Jeder Block mit 40 Abtastungen der gefilterten Signale y1(n) und y2(n) wird nach unten abgetastet gemäß:
x1(n) = y1(2n)
x2(n) = y1(2n+1)
x3(n) = y2(2n)
x4(n) = y2(2n+1)
für n = 0, 1, . . . , 19.
Die Aufwärtsabtastung zurück zur ursprünglichen Abtastrate ergibt sich, indem Nullwertabtastungen eingefügt werden, und zwar zwischen jedes Paar aufeinanderfolgender Abtastungen der korrekt angeordneten Folgen x1(n), x2(n), x3(n) und x4(n), damit werden x1'(n) bis x4'(n) abgeleitet.
Die Fehlersignalfolgen di(n) werden dann abgeleitet gemäß:
di(n) = x(n) - xi'(n)
für i = 1, . . . , 4 und n = 0, . . . , 39.
Die Filtervorgänge der Vorrichtungen 96 bis 98 erfolgen, unter Benutzung der acht parcorbezogenen Koeffizienten a(1) für 1 = 1, 2, . . . , 8 gemäß:
für i = 1, . . . , 4
n = 0, . . . , 39
In den in Fig. 10 mit SUM2 bezeichneten Vorrichtungen werden Fehlerenergievorgänge durchgeführt, um abzuleiten:
für j = 1, . . . , 4.
Dann wird die Rasterauswahl durchgeführt, um die Folge xj(n) zu bestimmen, die als repräsentativ für die RPE-codierte Folge x(n) auf der Grundlage der Betrachtung der Minimalenergie E(i)ausgewählt werden soll.
Es ist ebenfalls anzumerken, daß die Abtastungen xj(n) an ein acht Abtastungen langes Schieberegister rückgekoppelt werden, das dazu benutzt wird, die Filtervorgänge 1/A(z) der Vorrichtungen 96 bis 99 durchzuführen.
Der Block aus vierzig xj(n) für n = 0, . . . , 39 wird in mindestens einen charakteristischen Ausdruck (z. B. größter Abtastwert) pro Block und vierzig Binärwerte xjc(n) für n = 0, . . . , 39 BCPCM-codiert, welche die vierzig Abtastwerte codieren, die zu dem Wert des charakteristischen Ausdrucks normiert sind. Weitere Einzelheiten zu BCPCM sind enthalten in A. Croisier, "Progress in PCM and Delta Modulation: Block companded coding of speech signals" 1974, International Zurich Seminar.
Die Vorgänge für die nachfolgende Decodierung zur optimalen Rückumwandlung des Signals in eine optimale Darstellung s'(n) von s(n) mit xjd(n), welche die decodierten Werte darstellen, werden in dem Flußdiagramm der Fig. 12 dargestellt. Die übliche BCPCM umfaßt bei jedem Abtastblock die Verwendung des charakteristischen Ausdrucks cxj zur Rückumwandlung der Abtastwerte xjc(n) in ihren ursprünglichen Wert. Die RPE-Decodierung umfaßt die Aufwärtsabtastung zurück zu der Abtastrate des Eingangssignals des RPE-Codierers.
Im Zusammenhang damit sollte auch die dynamische Auswahl einer der beiden niederfrequenten und hochfrequenten Bandbreiten in Betracht gezogen werden, die auf der Codierebene innerhalb der Vorrichtungen 90 und 91 erreicht werden.
Abschließend ergeben sich Folgen von vierzig dequantisierten Werten x' (n), die in ein Restsignal
r'(n) = x'(n) + br'(n-M)
umgewandelt werden sollen.
Das Restsignal wird dann rückwärts zum Sprachsignal gefiltert
Die Verbesserung hinsichtlich der Codierung des oben betrachteten Tones bei 2,7 kHz ist gemäß der Darstellung in Fig. 13 erkennbar. Nicht nur die zeitabhängige Darstellung des decodierten Signals sieht viel sauberer aus, sondern es sind unzweifelhaft die gleichen Schlußfolgerungen zu ziehen, wenn man die Darstellung des Energiespektrums im unteren Teil der Fig. 13 betrachtet.
Wie schon erwähnt, gilt die gleiche Verfahrensweise zur Verbesserung von Basisbandsprachcodierern hinsichtlich ihrer effektiven Codierung von Tönen auch für unterschiedliche Arten von Basisbandsprachcodierern, wie etwa beispielsweise VEPC-Codierern, wie sie in Fig. 14 dargestellt sind.
Das Restsignal r(n) wird unter Verwendung der Filter (130) beziehungsweise (131) in zwei Unterbänder aufgeteilt, d. h. eine niederfrequente Bandbreite und eine hochfrequente Bandbreite. Beide Unterbandinhalte werden abwärts abgetastet und dann abtastblockweise verarbeitet, um daraus Energiekennwerte abzuleiten.
Ein Kennwert für die Unterbandenergie kann beispielsweise gewonnen werden, indem man die Abtastungen innerhalb eines gleichen Blockes summiert, der auf die Energie zwei angehoben wird. Es wird angenommen, daß das Unterband mit der höchsten Energie mit Band1, das mit der niedrigsten Energie mit Band2 bezeichnet wird. Dann würde die Rückcodierung/Quantisierung in einer Vorrichtung (134) über Band1 erfolgen, während die Energiecodierung/Quantisierung über Band2 erfolgen würde.
Wie im oben zitierten IBM Journal dargelegt, umfaßt die Vorrichtung (134) Quadraturspiegelfilter (QMF), die das Band1 in mehrere Unterbänder aufteilen und dann die Codierung der Unterbandinhalte quantisieren, indem sie die Quantisierungsbits (DAB) dynamisch zuordnen.
Mit anderen Worten wird die Funktion der niederfrequenten (LPF) und hochfrequenten (HPF) Bandbreiten, wie sie im IBM Journal zitiert ist, hier dynamisch auf der Grundlage der oben erwähnten Energiekriterien umgelagert.
Abschließend wird bei beiden Arten von Codierern (VEPC oder RPE) die Codierung eines von einem Sprachanschluß abgeleiteten Signals mit niedriger Bitrate erreicht, indem das abgeleitete Signal in mindestens zwei Unterbänder aufgeteilt wird und dann die Abtastungen des Unterbandes zur weiteren Quantisierung/Codierung ausgewählt werden, die am besten zu dem ursprünglichen Signal des Sprachanschlusses passen.

Claims

1. Ein Verfahren zur Codierung mit niedriger Bitrate eines Basisbandsignals x(n), das von einem Signal s(n) abgeleitet ist, das von einem Sprachanschluß stammt und bei einer ersten Rate abgetastet wird, umfassend:

a) das Aufteilen der Frequenzbandbreite des Basisbandsignals in mindestens zwei Unterbandsignale y1(n) und y2(n);

das Abwärtsabtasten jedes Inhaltes des Unterbandsignals auf eine niedrigere Rate zum Subabtasten von y1(n) und y2(n) jeweils in mindestens zwei subabgetastete Folgen (x1(n); x2(n)) beziehungsweise (x3 (n) x4 (n))

c) das Aufwärtsabtasten jeder der subabgetasteten Folgen x1(n), x2(n), x3(n) und x4(n) in die Folgen x'1(n) bis x'4(n) zurück zur ersten Abtastrate;

d) das Berechnen der Codierfehlerdaten dj(n) mit:

dj(n) = x(n) - xj'(n) für j = 1, . . . , 4;

e) das Miteinandervergleichen der Daten dj(n) für j = 1, . . . , 4 auf der Grundlage eines quadratischen Mittelwertkriteriums und das Ableiten der Folge xj(n) davon, die zum Darstellen des codierten x(n) benutzt werden soll.

2. Ein Codierverfahren mit niedriger Rate gemäß Anspruch 1, in dem das Basisbandsignal ein Restfehlersignal x(n) ist, das von dem Sprachsignal s(n) dadurch abgeleitet wird, daß s(n) über einen Kurzzeitfiltervorgang dekorreliert wird, der ein Restsignal r(n) liefert, und daß dann von dem Restsignal r(n) ein Langzeitvoraussignal x''(n) subtrahiert wird.

3. Eine Sprachcodiervorrichtung mit niedriger Rate von der Art, daß darin ein Sprachsignal s(n) bei einer ersten Rate abgetastet wird, durch einen Kurzzeitfilter (11) in ein Restsignal r(n) dekorreliert wird, das dann zur Ableitung eines Restfehlersignals x(n) davon weiterverarbeitet wird, wobei das x(n) dann in niedriger abgetastete Folgen von Abtastvorgängen innerhalb eines richtpulserregten (RPE) Codierers blockcodiert wird, wobei die Verbesserung des RPE-Codierers umfaßt:

Filtermittel zum Filtern (90, 91) des Signals x(n) in mindestens ein Signal im niedrigen Frequenzband y1(n) und ein Signal im hohen Frequenzband y2(n);

Abwärtsabtastmittel (92, 93) zum Subabtasten jedes der y1(n) und y2(n) in mindestens zwei subabgetastete Folgen (x1(n); x2(n)) beziehungsweise (x3(n); x4(n));

Aufwärtsabtastmittel (94, 95) für das jeweilige Aufwärtsabtasten der subabgetasteten Folgen x1(n), x2(n), x3(n) und x4(n) in die Folgen x1'(n), x2'(n), x3'(n) und x4' (n), die zurück zur ersten Rate aufwärtsabgetastet werden;

Codierfehlermittel zum Berechnen der Codierfehlerdaten

dj(n) = x(n) - xj'(n) für j = 1, . . . , 4

Rasterauswahlmittel zum Miteinandervergleichen der dj(n) auf der Grundlage eines quadratischen Mittelwertkriteriums und zum Ableiten derjenigen Folge xj(n) davon, die das RPE-codierte x(n) repräsentiert.

4. Eine Sprachcodiervorrichtung mit niedriger Rate gemäß Anspruch 3, wobei die Rasterauswahlmittel umfassen:

inverse Kurzzeitfiltermittel (96, 97, 98, 99);

Mittel zum Eingeben aller einzelnen Daten dj(n) in das inverse Filtermittel;

Summiermittel (SUM2), denen die dj(n) übermittelt werden und die davon Energiefehlerdaten Ej(n) ableiten, wodurch die RPE-repräsentative Folge mit dem minimalen Ej(n) ausgewählt wird.