DE3851887T2 - Verfahren und Einrichtung zur Sprachkodierung mit niedriger Bitrate. - Google Patents
Verfahren und Einrichtung zur Sprachkodierung mit niedriger Bitrate.Info
- Publication number
- DE3851887T2 DE3851887T2 DE3851887T DE3851887T DE3851887T2 DE 3851887 T2 DE3851887 T2 DE 3851887T2 DE 3851887 T DE3851887 T DE 3851887T DE 3851887 T DE3851887 T DE 3851887T DE 3851887 T2 DE3851887 T2 DE 3851887T2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- coding
- rpe
- rate
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 28
- 238000005070 sampling Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 102000006463 Talin Human genes 0.000 description 2
- 108010083809 Talin Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 101100204393 Arabidopsis thaliana SUMO2 gene Proteins 0.000 description 1
- 101100311460 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sum2 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
Description
- Dies ist ein Verfahren und eine Vorrichtung zur Verbesserung der Codierung mit niedriger Bitrate von Signalen, die von Sprachanschlüssen stammen.
- Sprachcodierung mit niedriger Bitrate wurde durch den Einsatz von Signalbandbreitenbegrenzung realisiert, wobei das ursprüngliche Sprachsignal zuerst gefiltert wird, um davon ein Basisbandsignal abzuleiten, das gemäß der Theorie von Nyquist leistungsfähig bei einer Rate abgetastet werden könnte, die geringer als diejenige Rate ist, die für das ursprüngliche Vollbandsignal benutzt wird. Die begrenzte Bandbreite kann deshalb mit niedriger Bitrate codiert werden.
- Die nachfolgende Decodierung und Rückumwandlung in das ursprüngliche Signal wird dadurch erreicht, daß das Basisband auf eine größere Bandbreite erweitert wird und die Abtastrate erhöht wird.
- Bisher wird der oben erwähnte Filtervorgang mit einem Tiefpaßfilter mit einer Grenzfrequenz bei etwa 1300 Hertz erreicht, d. h. die groß genug ist, die Tonhöhenfrequenz jedes beliebigen Lautsprechers einzuschließen. Die Tiefpaßfilterung erfolgt entweder direkt über das vom Sprachanschluß zur Verfügung gestellte Signal oder wird über ein von dem Sprachanschlußsignal abgeleitetes nicht korrelierendes Restsignal vorgenommen. Beide Fälle können so definiert werden, daß sie sich mit Signalen befassen, die von Sprachanschlüssen abgeleitet werden.
- Bei verschiedenen Anwendungen, die sich z. B. mit der Telefonie befassen, wird das Netz, über welches das codierte Sprachsignal übertagen werden soll, auch dazu benutzt, nicht sprachgebundene Signale, wie zum Beispiel Besetzttöne und andere Betriebstöne zu übertragen. Die Töne bestehen aus einer reinen Sinusschwingung, die sich bei einer Frequenz befinden könnte, die höher als die Grenzfrequenz des Tiefpaßfilters wäre.
- Die üblichen Basisbandcodiervorgänge würden dann zum Verlust von Tönen führen oder, was noch schlimmer wäre, zu Tonverzerrungen großen Ausmaßes, die den gesamten Netzbetrieb beeinflussen könnten.
- Ein verbessertes Verfahren für mittlere Bitraten ist schon in ICASSP 86 IEEE-IECEJ-ASJ INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Tokio, 7. bis 11. April 1986, Bd. 4, S. 3075 bis 3078, "Adaptive subbands excited transform (ASET) coding" (Anpassungsfähige durch Unterbänder erregte Transformations-Codierung (ASET)) von E. Mazor et al vorgeschlagen worden, wobei das Signal so aufgebaut ist, daß es einen Satz von anpassungsfähig ausgewählten Unterbändern anstelle eines einzigen niederfrequenten Unterbandes umfaßt.
- Eine Aufgabe der Erfindung besteht darin, ein verbessertes Verfahren zur mit niedriger Bitrate stattfindenden Codierung von Signalen zur Verfügung zu stellen, die von Sprachanschlüssen stammen, wobei das Verfahren eine wirkungsvolle Codierung von Tonen ermöglicht. Sie gilt insbesondere für Codierschemata, die eine Bandbegrenzung des ursprünglichen vom Sprachanschluß abgeleiteten Signals, eine Subabtastung und eine Codierung des in seiner Bandbreite begrenzten Signals zur nachfolgenden Rückerweiterung der eingegrenzten Bandbreite während der Sprachsynthesevorgänge auf das ursprüngliche Vollband umfassen.
- Die Erfindung befaßt sich mit einem verbesserten Verfahren zur mit niedriger Bitrate erfolgenden Codierung eines abgetasteten von einem Sprachanschluß abgeleiteten Signals, wobei die Aufspaltung der Signalbandbreite in mindestens zwei benachbarte Unterbänder, die Subabtastung und Codierung der Inhalte jedes Unterbandes, dann die Aufwärtsabtastung der codierten Unterbandinhalte, die Ableitung von Fehlerdaten durch die Subtraktion jedes aufwärts abgetasteten Unterbandinhaltes vom ursprünglichen vom Sprachanschluß abgeleiteten Signal zur auf der Grundlage eines dafür repräsentativen Mittelwertkriteriums erfolgenden Auswahl desjenigen codierten Unterbandinhaltes, der dem Original am nächsten kommt, enthalten sind.
- Insbesondere befaßt sich die Erfindung mit einem Codierverfahren mit niedriger Bitrate und einer Vorrichtung, wie sie in den Ansprüchen 1 und 3 belegt sind.
- Diese und weitere Aufgaben, Vorzüge und Eigenschaften der vorliegenden Erfindung werden aus der folgenden Beschreibung unter Bezugnahme auf die Zeichnungen besser ersichtlich.
- Die Fig. 1 beziehungsweise 2 stellen Blockdiagramme einer Codier- und Decodiervorrichtung nach Stand der Technik dar, in welche die Erfindung eingefügt werden soll.
- Die Fig. 3 bis 6 sind Flußdiagramme zur Realisierung von Blockfunktionen der Vorrichtungen der Fig. 1 und 2.
- Die Fig. 7 und 8 dienen der Erläuterung des Problems, das mit dieser Erfindung gelöst werden soll.
- Die Fig. 9, 10 und 14 sind Blockdiagramme zur Erläuterung der Erfindung.
- Die Fig. 11 und 12 sind Flußdiagramme zur Ausführung der Erfindung.
- Die Fig. 13 erläutert die durch die Erfindung erzielten Verbesserungen.
- Fig. 14 ist ein Blockdiagramm einer weiteren Ausführungsform der Erfindung.
- Wie schon erwähnt gilt die Erfindung für verschiedene Basisband- Sprachcodierschemata.
- Es ist eine Reihe von Basisbandcodierern bekannt, für welche die Erfindung gut passen würde, dazu gehören etwa der spracherregte Vorauscodierer (VEPC) und der richtimpulserregte (RPE) Codierer.
- Hinsichtlich des VEPC wird verwiesen auf:
- 1. das IBM Journal of Research and Development, Bd. 29. Nr. 2 vom März 1985, S. 147 bis 157.
- 2. den Record of the 1978 IEEE International Conference on Acoustics, Speech and Signal Processing, S. 307 bis 311
- 3. die Europäische Patentschrift 0 002 998 des gleichen Anmelders.
- Die VEPC-Codierung umfaßt eine Abtastung bei 8 kHz, wobei das ursprüngliche Sprachsignal auf die übliche Telefonbandbreite begrenzt ist, die PCM-Codierung des abgetasteten Signals und dann die Rückcodierung des Signals in Autokorrelationsparameter, Hochbandenergiedaten und ein Niedrigbandsignal, das rückcodiert/quantisiert werden soll. In einigen Fällen umfaßt das Verfahren die Dekorrelierung des PCM-codierten Signals in ein Restsignal, ehe die Begrenzungsvorgänge für das Niedrigband durchgeführt werden. Man kann aber für einen beliebigen Fall annehmen, daß die Rückcodierung/Quantisierung, d. h. die Codierung mit niedriger Rate, über ein von einem Sprachanschluß abgeleitetes Signal durchgeführt werden soll.
- Hinsichtlich von RPE wird verwiesen auf:
- 1. den Artikel "Regular Pulse Excitation - A novel Approach to Effective and Efficient Multipulse Coding of Speech" (Richtimpulserregung - ein neuartiges Verfahren zur effektiven und wirksamen Multiimpuls-Sprachcodierung), veröffentlicht von Peter Kroon et al in IEEE Transactions on Acoustics, Speech and Signal Processing, Bd. ASSP-34, Nr. 5 vom Oktober 1986, S. 1054 ff.
- 2. ICASSP 88, wobei weitere Verbesserungen durch die Einbeziehung des RPE-Codierers in einen Regelkreis erzielt werden, der Langzeitvoraussagevorgänge (LTP) an dem Signal vornimmt, das dem RPE-Verfahren unterworfen werden soll.
- 3. "Speech Codec for the European Mobile Radiosystem" (Sprachcodierer/-decodierer für das europäische Mobilfunksystem) von P. Vary, K. Holling, R. Holmann, R. Sluyter, C. Galand und M. Rosso in Proceedings of ICASSP 1988, Bd. 1, S. 227 bis 230.
- Da die Erfindung ebenso auch für beliebige basisbandorientierte Codierschemata anwendbar ist, erweist sie sich für die RPE/LTP- Codierung als gut geeignet, und nachstehend wird eine ausführliche Realisierungsform eines solchen Codierers beschrieben.
- Es sollte aber in jedem Falle angemerkt werden, daß unabhängig davon, welche Art Codierer verwendet wird, die Synthese des ursprünglichen Signals aus einem basisbandcodierten Signal die Verarbeitung des Basisbandsignals und die Erweiterung seiner Bandbreite auf die ursprüngliche volle Bandbreite des Sprachanschlusses (z. B. die Telefonbandbreite) umfaßt. Wie schon erwähnt, würde ein Ton, der bei einer höheren als der Tiefpaßgrenzfrequenz in die ursprüngliche Bandbreite des Sprachanschlusses eingebettet ist, dann verloren sein.
- In Fig. 1 ist ein Blockdiagramm des RPE/LTP-Codierers nach dem Stand der Technik dargestellt. Das ursprüngliche bei 8 kHz abgetastete und PCM-codierte Signal s(n) stammt von einem Sprachanschluß (z. B. einem Telefon, das nicht dargestellt ist), der die Bandbreite auf 300 bis 3300 Hz begrenzt. Das Signal s(n) wird in einer Vorrichtung (10) durch Kurzzeitvoraussage analysiert, wobei die sogenannten auf partielle Korrelation bezogenen (Parcor-) Koeffizienten errechnet werden. s(n) wird durch einen optimalen Voraussagefilter A(z) (11) gefiltert, dessen Koeffizienten durch die Rechenvorrichtung (10) zur Verfügung gestellt werden. Das resultierende Restsignal r(n) wird dann mit Langzeitvoraussage (LTP) in einer LTP-Filterschleife analysiert, die einen Filter (12) mit einer Übertragungsfunktion b.z-M in der z- Domäne und eine Addiervorrichtung (13) umfaßt. b beziehungsweise M stellen einen Verstärkungskoeffizienten und einen tonhöhenbezogenen Koeffizienten dar. Sowohl b wie M werden in einer Vorrichtung (14) errechnet, eine leistungsfähige Ausführungsform davon ist in der ebenfalls anhängigen Europäischen Patentanmeldung 87430006.4 beschrieben worden. Der Wert M ist eine Tonhöhenharmonische, die so ausgewählt wird, daß sie größer als 40 r(n) Abtastintervalle ist. Die LTP-Schleife wird dazu verwendet, ein geschätztes Restsignal x''(n) zu erzeugen, das in einer Vorrichtung (15) vom Eingangsrestsignal r(n) subtrahiert werden soll, damit ein Fehlerrestsignal x(n) zur Verfügung steht.
- RPE-Codiervorgänge werden in einer Vorrichtung (16) über aufeinanderfolgende Abtastblöcke mit Festlänge (z. B. 40 ms oder 5 ms lang) des Signals x(n) durchgeführt. Üblicherweise umfaßt die RPE-Codierung die Umwandlung jeder Folge x(n) in eine Abtastfolge mit regelmäßigen Abständen und niedrigerer Rate. Das Signal x(n) wird zu diesem Zwecke zu einem Signal y(n) tiefpaßgefiltert und dann in mindestens zwei abwärts abgetastete Folgen x1(n) und x2(n) aufgeteilt. Die übliche RPE-Verfahrensweise mit Fernsprechqualität bei 12 bis 16 kbps zieht für jede tiefpaßgefilterte 40-ms-Folge der restlichen Abtastungen (x(n); n = 1, . . . , 19) die Auswahl einer von zwei Unterfolgen in Betracht:
- x1(n) = y(2n) n = 0, . . . , 19
- x2(n) = y(2n+1) n = 0, . . . , 19
- Die Auswahl der Unterfolgen wird auf der Grundlage eines Energiekriteriums durchgeführt, dies entspricht:
- j wird so ausgewählt, daß
- Es wird angenommen, daß die Unterfolge xj(n) mit der höchsten Energie das Signal x(n) am besten darstellt. Die Abtastungen der ausgewählten Folge werden in (17) quantisiert, wobei blockkompandierte PCM-Verfahrensweisen (BCPCM) benutzt werden, bei denen jeder ausgewählte Abtastblock xj(n) in einen Kennwert cxj und eine Folge von quantisierten Werten xjc(n) quantisiert wird. Natürlich wird die Rasterbezugsgröße j auch zur Definition der ausgewählten RPE-Folge benutzt, indem ein Tabellenadressenbezug dargestellt wird.
- In einer Vorrichtung Q (18) wird die ausgewählte Folge auch dequantisiert, ehe sie in die LTP-Filterschleife eingegeben wird, die eine generierte Folge x''(n) neu aufbaut, die dann in (15) von r(n) subtrahiert wird und das Signal x(n) erzeugt.
- Folglich besteht die Codiererausgabe aus einem Satz Parcor-Koeffizienten K(i), die den Sprachduktus des Sprechers beschreiben, einem Satz von LTP-Koeffizienten (b, M) und der Rasteranzahl j, die mit der ausgewählten quantisierten Unterfolge xj'(n) verbunden ist, die mindestens einen Wert cxj und einen Satz von Binärwerten xjc(n) umfaßt.
- In Fig. 2 ist ein vereinfachtes Blockdiagramm für Decodiervorgänge dargestellt. Zuerst werden xj'(n) und j in den Dequantisierer (20) eingegeben, der eine aufwärts abgetastete generierte Signalfolge des Restfehlers x'(n) zur Verfügung stellt. Das Fehlersignal x' (n) wird in eine LTP-Filterschleife eingegeben, die einen Filter mit einer durch die Koeffizienten (b, M) angepaßten Übertragungsfunktion b.z-M und eine Addiervorrichtung (24) umfaßt, und der ein langzeitgeneriertes Restsignal r'(n) zur Verfügung stellt, das in einen Kurzzeitfilter (26) mit einer Übertragungsfunktion 1/A(z) eingegeben wird. Schließlich steht am Ausgang des Filters (26) ein generiertes Sprachsignal s'(n) zur Verfügung.
- In Fig. 3 ist ein vereinfachtes Flußdiagramm der Vorgänge zur Sprachsignalanalyse und -synthese dargestellt, wie sie in einem Sender/Empfänger (Codierer-Decodierer) ablaufen. Dieses Flußdiagramm erklärt sich selbst, wenn es im Zusammenhang mit den Figuren 1 und 2 und der folgenden zusätzlichen Information betrachtet wird:
- - x''(n) = b·r'(n-M)
- - Parcor-Koeffizienten K(i) werden, bevor sie zum Abstimmen der Filter A(z) und 1/A(z) benutzt werden, in a(i) umgewandelt.
- - in die LTP-Filterschleife wird eine Verzögerungsleitung eingefügt.
- Die vor der RPE-Codierung ablaufenden und in den beiden oberen Blöcken der Fig. 3 dargestellten Vorgänge werden im einzelnen im Flußdiagramm der Fig. 4 dargestellt. Wie in Fig. 4 erläutert, ermöglicht die Kurzzeitanalyse die Ableitung des Restsignals
- Die Ableitung der parcorbezogenen Koeffizienten a(i) wird im Flußdiagramm der Fig. 5 weiter ausgeführt. Die a(i) werden durch Aufstufungsvorgänge von den sogenannten Parcor-Koeffizienten abgeleitet, wobei ein übliches Leroux-Guegen-Verfahren benutzt wird. Die Koeffizienten K(i) können mit 28 Bit codiert werden, indem man den Un/Yang-Algorithmus benutzt. Zu Einzelheiten über diese Verfahren und Algorithmen kann Bezug genommen werden auf:
- - J. Leroux und C. Guegen: "A fixed point computation of partial correlation coefficients" IEEE Transactions on ASSP, S. 257 bis 259, Juni 1977.
- - C. K. Un und S. C. Yang: "Piecewise linear quantization of LPC reflexion coefficients" Proc. Int. Conf. on ASSP, Hartford, Mai 1977.
- - J. D. Markel und A. H. Gray: "Linear prediction of speech" Springer Verlag 1976, Aufstufungsverfahren, S. 94 und 95.
- - Europäische Patentschrift 0,002,998 (Entsprechung dazu US-Patentschrift 4,216,354).
- Der Kurzzeitfilter (13) leitet die kurzzeitigen Restsignalabtastungen ab:
- Fig. 6 ist ein Flußdiagramm, das die Umwandlung von r(n) in x(n) zusammenfaßt. Es sollte angemerkt werden, daß diese Vorgänge über Folgen von 160 Abtastungen ablaufen, die vier Blöcke zu vierzig Abtastungen darstellen. Unter der Annahme, daß der aktuelle Abtastblock von n=0 bis n=39 zeitbezogen ist, dann erfolgen die Korrelationen von i=40 bis 120 über r(n) und r'(n-i), um abzuleiten:
- für i = 40, 41, . . . , 120
- Theoretisch kann man i bis auf 160 ausdehnen. Es hat sich herausgestellt, daß bei gegebenen üblichen Tonhöhenwerten eine Begrenzung auf die 120ste Abtastposition ausreichend war, wodurch nicht nur Rechenaufwand gespart, sondern auch die Bitanzahl eingeschränkt wird, die bei der Codierung des tonhöhenbezogenen Wertes M benutzt werden soll.
- Der nächste Vorgang umfaßt die Auffindung derjenigen i-ten Abtastposition, die den höchsten Wert F(i) liefert, dessen Position den M tonhöhenbezogenen Daten entspricht, nach denen gesucht wird.
- Die Autokorrelationsvorgänge werden dann über r' (n-M) für n durchgeführt, das zwischen 0 und 39 veränderlich ist, um davon einen Wert C(M) abzuleiten (siehe Fig. 6) und danach die Berechnung von
- b = F(M)/C(M)
- zu ermöglichen.
- Sowohl die RPE- wie die RPE/LTP-Codierer eignen sich gut für die Codierung von Sprachsignalen, weil die RPE-Tiefpaßfilterung so durchgeführt werden kann, daß eine Grenzfrequenz bei fs/4 realisierbar ist (wobei fs die Abtastfrequenz darstellt). Die Aufwärtsabtastung zur Synthese, die durch die Einfügung von Null- Abtastungen erreicht wird, ist einer Aufwärtsabtastung des Signals und der Erzeugung einer Harmonischen durch Frequenzfaltung gleichwertig, die für typische Sprachsignale gut geeignet ist.
- Wenn jedoch nicht sprachgebundene Signale betroffen sind, dann schließt die Harmonischenfaltung eine korrekte Rekonstruktion von Signalen aus, die eine wesentliche Spektrumsdichte außerhalb des Frequenzbereiches aufweisen, der vom Tiefpaßfilter abgedeckt wird.
- Die Fig. 7 und 8 zeigen den zeitlichen Verlauf der Signalform und das Energiespektrum eines Tones bei 2,7 kHz, wie es vor seiner Codierung mit RPE/LTP und nach der Codierung erscheint, die für eine Arbeitsweise bei 16 kps mit einem Filterverhältnis von 1/2 ausgelegt ist. Die an dem codierten Ton auftretenden Verzerrungen sind wahrnehmbar, durch diese Verzerrungen kann der Ton aus dem codierten Signal nicht mehr eindeutig erkannt werden.
- Zusammenfassend gestattet die Basisbandcodierung, daß durch Einschränkung der Bandbreite des ursprünglichen Sprachsignals auf eine niedrige Frequenzbandbreite, die Abwärtsabtastung des Inhaltes der eingeschränkten Bandbreite und die Codierung des abwärts abgetasteten Inhaltes, wobei vom ursprünglichen Signal auch vorbestimmte Parameter abgeleitet werden, eine Codierung mit niedriger Rate erreicht wird, wobei die Synthese dadurch realisiert würde, daß das eingeschränkte Band auf die ursprüngliche Bandbreite zurück erweitert wird.
- Wie aus der obigen Beschreibung ersichtlich, kann die Verfahrensweise Töne beeinflussen und verzerren, die innerhalb der ursprünglichen Bandbreite eingebettet sind.
- Diese Erfindung ermöglicht die Überwindung dieser Nachteile, indem die ursprüngliche Signalbandbreite in mindestens zwei Bandbreiten aufgeteilt wird, jeder Unterbandinhalt abwärts abgetastet wird und dann dasjenige abwärts abgetastete Unterbandsignal, das dem Original am nächsten kommt, als für das in seiner Bandbreite eingeschränkte Signal repräsentativ ausgewählt wird, dessen Abtastungen codiert werden sollen.
- Die Verfahrensweise kann dadurch realisiert werden, daß der RPE- Codiervorgang der Vorrichtung (16) der Fig. 1 in einer verbesserten Vorrichtung vorgenommen wird, wie sie in Fig. 9 dargestellt ist. In diesem Falle wird das von einem Sprachanschluß abgeleitete Signal x(n) in eine niederfrequente Bandbreite (LPF) und eine hochfrequente Bandbreite (HPF) aufgeteilt, deren Inhalte auf 1/2 der ursprünglichen Abtastrate unterabgetastet werden. Dann werden für jeden 5-Millisekunden-Block die entsprechenden Unterbandenergien errechnet, und das Unterband mit der höchsten Energie wird als für x(n) repräsentativ codiert.
- Das System wird weiterhin durch die Erkenntnis vervollkommnet, daß das System um so besser ist, je näher das abschließend generierte Signal s'(n) beim ursprünglichen Signal s(n) liegt. Mit anderen Worten:
- ei(n) = s(n) - s'(n)
- sollte so klein wie möglich sein.
- Anders ausgedrückt sollten die Kriterien für die optimale RPE- Auswahl, wenn bei der RPE-Codierung eine Halbierung jedes Unterbandinhaltes angenommen wird, dann besser beruhen auf:
- Wenn man alle zeitbezogenen Daten innerhalb der z-Domäne mit Großbuchstaben bezeichnet, z. B. dementsprechend S(z) und S'(z) für s(n) beziehungsweise s'(n), dann kann man erkennen, daß
- Es sind daher optimale Auswahlkriterien zu erreichen, wenn eine Rasterauswahl auf der Grundlage einer Betrachtung der folgenden Codierfehlerdaten d(n) erfolgt
- d(n) = x(n) - x'(n),
- dies führt durch das Syntheseverfahren zu einer optimalen Analyse.
- In Fig. 10 wird eine ausführliche Darstellung des RPE-Codierers gezeigt, der zum Ersatz der Vorrichtung (16) aus der Fig. 1 benutzt wird, damit eine korrekte RPE/LTP-Codierung stattfinden kann, bei der eine angemessene Erkennbarkeit von Tönen erreichbar ist.
- Das von der Addiervorrichtung (15) gelieferte Signal x(n) wird sowohl in einen Tiefpaß (LPF) (90) wie in einen Hochpaß HPF (91) eingegeben, die ein tiefpaßgefiltertes Signal y1(n) beziehungsweise ein hochpaßgefiltertes Signal y2(n) liefern. In den Abwärtsabtastvorrichtungen 92 und 93 wird das y1(n) in zwei halb abgetastete Signale x1(n) und x2(n) aufgeteilt, während y2(n) gleicherweise in x3(n) und x4(n) aufgeteilt wird.
- Die vier abwärts abgetasteten Signale werden durch Aufwärtsabtastvorgänge, die in den Vorrichtungen 94 und 95 erfolgen, zu ihrer ursprünglichen Abtastrate zurückgewandelt, diese liefern die Signale x1'(n), x2'(n), x3'(n) und x4'(n), die ihrerseits von x(n) subtrahiert werden, um die Fehler d1(n), d2(n) d3(n) und d4(n) davon abzuleiten.
- Die Fehlersignale werden in inversen Kurzzeitfiltern 1/A(z) gefiltert, deren Ausgänge über eine Blockzeit quadriert und summiert werden, um die Energiedaten Ej für j = 1, 2, 3, 4 abzuleiten.
- Schließlich ist die RPE-Folge xj(n), die in 100 ausgewählt werden soll, und quantisiert wird, diejenige mit der minimalen Ej.
- In Fig. 11 ist ein Flußdiagramm dargestellt, in dem die oben erwähnten verbesserten RPE-Vorgänge zusammengefaßt werden. Jeder Block mit 40 Abtastungen der gefilterten Signale y1(n) und y2(n) wird nach unten abgetastet gemäß:
- x1(n) = y1(2n)
- x2(n) = y1(2n+1)
- x3(n) = y2(2n)
- x4(n) = y2(2n+1)
- für n = 0, 1, . . . , 19.
- Die Aufwärtsabtastung zurück zur ursprünglichen Abtastrate ergibt sich, indem Nullwertabtastungen eingefügt werden, und zwar zwischen jedes Paar aufeinanderfolgender Abtastungen der korrekt angeordneten Folgen x1(n), x2(n), x3(n) und x4(n), damit werden x1'(n) bis x4'(n) abgeleitet.
- Die Fehlersignalfolgen di(n) werden dann abgeleitet gemäß:
- di(n) = x(n) - xi'(n)
- für i = 1, . . . , 4 und n = 0, . . . , 39.
- Die Filtervorgänge der Vorrichtungen 96 bis 98 erfolgen, unter Benutzung der acht parcorbezogenen Koeffizienten a(1) für 1 = 1, 2, . . . , 8 gemäß:
- für i = 1, . . . , 4
- n = 0, . . . , 39
- In den in Fig. 10 mit SUM2 bezeichneten Vorrichtungen werden Fehlerenergievorgänge durchgeführt, um abzuleiten:
- für j = 1, . . . , 4.
- Dann wird die Rasterauswahl durchgeführt, um die Folge xj(n) zu bestimmen, die als repräsentativ für die RPE-codierte Folge x(n) auf der Grundlage der Betrachtung der Minimalenergie E(i)ausgewählt werden soll.
- Es ist ebenfalls anzumerken, daß die Abtastungen xj(n) an ein acht Abtastungen langes Schieberegister rückgekoppelt werden, das dazu benutzt wird, die Filtervorgänge 1/A(z) der Vorrichtungen 96 bis 99 durchzuführen.
- Der Block aus vierzig xj(n) für n = 0, . . . , 39 wird in mindestens einen charakteristischen Ausdruck (z. B. größter Abtastwert) pro Block und vierzig Binärwerte xjc(n) für n = 0, . . . , 39 BCPCM-codiert, welche die vierzig Abtastwerte codieren, die zu dem Wert des charakteristischen Ausdrucks normiert sind. Weitere Einzelheiten zu BCPCM sind enthalten in A. Croisier, "Progress in PCM and Delta Modulation: Block companded coding of speech signals" 1974, International Zurich Seminar.
- Die Vorgänge für die nachfolgende Decodierung zur optimalen Rückumwandlung des Signals in eine optimale Darstellung s'(n) von s(n) mit xjd(n), welche die decodierten Werte darstellen, werden in dem Flußdiagramm der Fig. 12 dargestellt. Die übliche BCPCM umfaßt bei jedem Abtastblock die Verwendung des charakteristischen Ausdrucks cxj zur Rückumwandlung der Abtastwerte xjc(n) in ihren ursprünglichen Wert. Die RPE-Decodierung umfaßt die Aufwärtsabtastung zurück zu der Abtastrate des Eingangssignals des RPE-Codierers.
- Im Zusammenhang damit sollte auch die dynamische Auswahl einer der beiden niederfrequenten und hochfrequenten Bandbreiten in Betracht gezogen werden, die auf der Codierebene innerhalb der Vorrichtungen 90 und 91 erreicht werden.
- Abschließend ergeben sich Folgen von vierzig dequantisierten Werten x' (n), die in ein Restsignal
- r'(n) = x'(n) + br'(n-M)
- umgewandelt werden sollen.
- Das Restsignal wird dann rückwärts zum Sprachsignal gefiltert
- Die Verbesserung hinsichtlich der Codierung des oben betrachteten Tones bei 2,7 kHz ist gemäß der Darstellung in Fig. 13 erkennbar. Nicht nur die zeitabhängige Darstellung des decodierten Signals sieht viel sauberer aus, sondern es sind unzweifelhaft die gleichen Schlußfolgerungen zu ziehen, wenn man die Darstellung des Energiespektrums im unteren Teil der Fig. 13 betrachtet.
- Wie schon erwähnt, gilt die gleiche Verfahrensweise zur Verbesserung von Basisbandsprachcodierern hinsichtlich ihrer effektiven Codierung von Tönen auch für unterschiedliche Arten von Basisbandsprachcodierern, wie etwa beispielsweise VEPC-Codierern, wie sie in Fig. 14 dargestellt sind.
- Das Restsignal r(n) wird unter Verwendung der Filter (130) beziehungsweise (131) in zwei Unterbänder aufgeteilt, d. h. eine niederfrequente Bandbreite und eine hochfrequente Bandbreite. Beide Unterbandinhalte werden abwärts abgetastet und dann abtastblockweise verarbeitet, um daraus Energiekennwerte abzuleiten.
- Ein Kennwert für die Unterbandenergie kann beispielsweise gewonnen werden, indem man die Abtastungen innerhalb eines gleichen Blockes summiert, der auf die Energie zwei angehoben wird. Es wird angenommen, daß das Unterband mit der höchsten Energie mit Band1, das mit der niedrigsten Energie mit Band2 bezeichnet wird. Dann würde die Rückcodierung/Quantisierung in einer Vorrichtung (134) über Band1 erfolgen, während die Energiecodierung/Quantisierung über Band2 erfolgen würde.
- Wie im oben zitierten IBM Journal dargelegt, umfaßt die Vorrichtung (134) Quadraturspiegelfilter (QMF), die das Band1 in mehrere Unterbänder aufteilen und dann die Codierung der Unterbandinhalte quantisieren, indem sie die Quantisierungsbits (DAB) dynamisch zuordnen.
- Mit anderen Worten wird die Funktion der niederfrequenten (LPF) und hochfrequenten (HPF) Bandbreiten, wie sie im IBM Journal zitiert ist, hier dynamisch auf der Grundlage der oben erwähnten Energiekriterien umgelagert.
- Abschließend wird bei beiden Arten von Codierern (VEPC oder RPE) die Codierung eines von einem Sprachanschluß abgeleiteten Signals mit niedriger Bitrate erreicht, indem das abgeleitete Signal in mindestens zwei Unterbänder aufgeteilt wird und dann die Abtastungen des Unterbandes zur weiteren Quantisierung/Codierung ausgewählt werden, die am besten zu dem ursprünglichen Signal des Sprachanschlusses passen.
Claims (4)
1. Ein Verfahren zur Codierung mit niedriger Bitrate eines
Basisbandsignals x(n), das von einem Signal s(n)
abgeleitet ist, das von einem Sprachanschluß stammt und bei
einer ersten Rate abgetastet wird, umfassend:
a) das Aufteilen der Frequenzbandbreite des
Basisbandsignals in mindestens zwei Unterbandsignale y1(n)
und y2(n);
das Abwärtsabtasten jedes Inhaltes des
Unterbandsignals auf eine niedrigere Rate zum Subabtasten von
y1(n) und y2(n) jeweils in mindestens zwei
subabgetastete Folgen (x1(n); x2(n)) beziehungsweise
(x3 (n) x4 (n))
c) das Aufwärtsabtasten jeder der subabgetasteten
Folgen x1(n), x2(n), x3(n) und x4(n) in die Folgen
x'1(n) bis x'4(n) zurück zur ersten Abtastrate;
d) das Berechnen der Codierfehlerdaten dj(n) mit:
dj(n) = x(n) - xj'(n) für j = 1, . . . , 4;
e) das Miteinandervergleichen der Daten dj(n) für j =
1, . . . , 4 auf der Grundlage eines quadratischen
Mittelwertkriteriums und das Ableiten der Folge
xj(n) davon, die zum Darstellen des codierten x(n)
benutzt werden soll.
2. Ein Codierverfahren mit niedriger Rate gemäß Anspruch 1,
in dem das Basisbandsignal ein Restfehlersignal x(n)
ist, das von dem Sprachsignal s(n) dadurch abgeleitet
wird, daß s(n) über einen Kurzzeitfiltervorgang
dekorreliert wird, der ein Restsignal r(n) liefert, und daß
dann von dem Restsignal r(n) ein Langzeitvoraussignal
x''(n) subtrahiert wird.
3. Eine Sprachcodiervorrichtung mit niedriger Rate von der
Art, daß darin ein Sprachsignal s(n) bei einer ersten
Rate abgetastet wird, durch einen Kurzzeitfilter (11) in
ein Restsignal r(n) dekorreliert wird, das dann zur
Ableitung eines Restfehlersignals x(n) davon
weiterverarbeitet wird, wobei das x(n) dann in niedriger
abgetastete Folgen von Abtastvorgängen innerhalb eines
richtpulserregten (RPE) Codierers blockcodiert wird, wobei die
Verbesserung des RPE-Codierers umfaßt:
Filtermittel zum Filtern (90, 91) des Signals x(n) in
mindestens ein Signal im niedrigen Frequenzband y1(n)
und ein Signal im hohen Frequenzband y2(n);
Abwärtsabtastmittel (92, 93) zum Subabtasten jedes der
y1(n) und y2(n) in mindestens zwei subabgetastete Folgen
(x1(n); x2(n)) beziehungsweise (x3(n); x4(n));
Aufwärtsabtastmittel (94, 95) für das jeweilige
Aufwärtsabtasten der subabgetasteten Folgen x1(n), x2(n),
x3(n) und x4(n) in die Folgen x1'(n), x2'(n), x3'(n) und
x4' (n), die zurück zur ersten Rate aufwärtsabgetastet
werden;
Codierfehlermittel zum Berechnen der Codierfehlerdaten
dj(n) = x(n) - xj'(n) für j = 1, . . . , 4
Rasterauswahlmittel zum Miteinandervergleichen der dj(n)
auf der Grundlage eines quadratischen
Mittelwertkriteriums und zum Ableiten derjenigen Folge xj(n) davon, die
das RPE-codierte x(n) repräsentiert.
4. Eine Sprachcodiervorrichtung mit niedriger Rate gemäß
Anspruch 3, wobei die Rasterauswahlmittel umfassen:
inverse Kurzzeitfiltermittel (96, 97, 98, 99);
Mittel zum Eingeben aller einzelnen Daten dj(n) in das
inverse Filtermittel;
Summiermittel (SUM2), denen die dj(n) übermittelt werden
und die davon Energiefehlerdaten Ej(n) ableiten, wodurch
die RPE-repräsentative Folge mit dem minimalen Ej(n)
ausgewählt wird.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP88480017A EP0351479B1 (de) | 1988-07-18 | 1988-07-18 | Verfahren und Einrichtung zur Sprachkodierung mit niedriger Bitrate |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3851887D1 DE3851887D1 (de) | 1994-11-24 |
DE3851887T2 true DE3851887T2 (de) | 1995-04-20 |
Family
ID=8200497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3851887T Expired - Fee Related DE3851887T2 (de) | 1988-07-18 | 1988-07-18 | Verfahren und Einrichtung zur Sprachkodierung mit niedriger Bitrate. |
Country Status (4)
Country | Link |
---|---|
US (1) | US5231669A (de) |
EP (1) | EP0351479B1 (de) |
JP (1) | JPH0761016B2 (de) |
DE (1) | DE3851887T2 (de) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07199998A (ja) * | 1993-12-27 | 1995-08-04 | Rohm Co Ltd | 音声信号圧縮伸張装置 |
US5497337A (en) * | 1994-10-21 | 1996-03-05 | International Business Machines Corporation | Method for designing high-Q inductors in silicon technology without expensive metalization |
KR100437900B1 (ko) * | 1996-12-24 | 2004-09-04 | 엘지전자 주식회사 | 음성코덱의음성데이터복원방법 |
US7260523B2 (en) * | 1999-12-21 | 2007-08-21 | Texas Instruments Incorporated | Sub-band speech coding system |
US6836804B1 (en) * | 2000-10-30 | 2004-12-28 | Cisco Technology, Inc. | VoIP network |
US8041770B1 (en) * | 2006-07-13 | 2011-10-18 | Avaya Inc. | Method of providing instant messaging functionality within an email session |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AT264602B (de) * | 1966-08-16 | 1968-09-10 | Ibm Oesterreich Internationale | Schaltungsanordnung zur Verringerung des Informationsflusses in Kanalvocodersystemen |
JPS5840914A (ja) * | 1981-09-02 | 1983-03-10 | Nec Corp | 帯域分割・合成フイルタ |
JPS58193598A (ja) * | 1982-05-07 | 1983-11-11 | 日本電気株式会社 | 音声符号化方式とそれに供する装置 |
US4514760A (en) * | 1983-02-17 | 1985-04-30 | Rca Corporation | Digital television receiver with time-multiplexed analog-to-digital converter |
IT1184023B (it) * | 1985-12-17 | 1987-10-22 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante analisi a sottobande e quantizzazione vettorariale con allocazione dinamica dei bit di codifica |
JPS62145927A (ja) * | 1985-12-20 | 1987-06-30 | Hitachi Ltd | デ−タ変換装置 |
JPS62271000A (ja) * | 1986-05-20 | 1987-11-25 | 株式会社日立国際電気 | 音声の符号化方法 |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
-
1988
- 1988-07-18 DE DE3851887T patent/DE3851887T2/de not_active Expired - Fee Related
- 1988-07-18 EP EP88480017A patent/EP0351479B1/de not_active Expired - Lifetime
-
1989
- 1989-06-19 JP JP1154804A patent/JPH0761016B2/ja not_active Expired - Lifetime
- 1989-07-03 US US07/375,303 patent/US5231669A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE3851887D1 (de) | 1994-11-24 |
JPH0761016B2 (ja) | 1995-06-28 |
JPH0260231A (ja) | 1990-02-28 |
EP0351479A1 (de) | 1990-01-24 |
EP0351479B1 (de) | 1994-10-19 |
US5231669A (en) | 1993-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69125909T2 (de) | Verfahren und Einrichtung zur Transformationskodierung mit Teilbandanregung und dynamischer Bitzordnung | |
DE68916944T2 (de) | Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion. | |
DE3883519T2 (de) | Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten. | |
DE69634645T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE60225276T2 (de) | Codierungsvorrichtung und -verfahren, decodierungsvorrichtung und -verfahren und programm | |
DE60024123T2 (de) | Lpc-harmonischer sprachkodierer mit überrahmenformat | |
EP1025646B1 (de) | Verfahren und vorrichtung zum codieren von audiosignalen sowie verfahren und vorrichtungen zum decodieren eines bitstroms | |
DE69625874T2 (de) | Verfahren und Vorrichtung zur Wiedergabe von Sprachsignalen, zur Dekodierung, zur Sprachsynthese und tragbares Funkendgerät | |
DE69619054T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE69331079T2 (de) | CELP-Vocoder | |
DE69603743T2 (de) | Verfahren und gerät zum kodieren, behandeln und dekodieren von audiosignalen | |
DE19604273C2 (de) | Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit | |
DE69431025T2 (de) | Signalkodier- oder -dekodiergerät und Aufzeichnungsmedium | |
DE19647298C2 (de) | Kodiersystem | |
DE69326492T2 (de) | Verfahren zur Auswahl des Codier Modus für Stereo Audio-Signale unter Benutzung von Hörbarkeitsmodellen | |
DE69923555T2 (de) | Verfahren und vorrichtung zur entropie-kodierung von quantisierten transformationskoeffizienten eines signals | |
DE69428030T2 (de) | Digitales signalkodierungsgerät, dazugehöriges dekodiergerät und aufzeichnungsträger | |
DE69029232T2 (de) | System und Methode zur Sprachkodierung | |
DE60133757T2 (de) | Verfahren und vorrichtung zur kodierung von stimmloser sprache | |
DE69534140T2 (de) | Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren | |
DE60038279T2 (de) | Beitband Sprachkodierung mit parametrischer Kodierung des Hochfrequenzanteils | |
DE60319590T2 (de) | Verfahren zur codierung und decodierung von audio mit variabler rate | |
DE602004005784T2 (de) | Verbesserte Anregung für Höherband-Kodierung in einem Codec basierend auf Frequenzbandtrennungs-Kodierungsverfahren | |
DE69121411T2 (de) | Methode und gerät zur codierung von analogen signalen | |
JPH06237183A (ja) | 符号化信号を復号化する方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |