DE69425808T2

DE69425808T2 - Vorrichtung zur Kompression und Expansion der Bandbreite eines Sprachsignals, Verfahren zur Übertragung eines komprimierten Sprachsignals sowie Verfahren zu dessen Wiedergabe

Info

Publication number: DE69425808T2
Application number: DE69425808T
Authority: DE
Inventors: Yoshiro Kokuryo; Yasushi Kudo
Original assignee: Hitachi Denshi KK
Current assignee: Hitachi Denshi KK
Priority date: 1993-12-06
Filing date: 1994-12-02
Publication date: 2001-04-12
Anticipated expiration: 2014-12-03
Also published as: EP0657873B1; JPH07160299A; EP0657873A2; EP0657873A3; US5579434A; DE69425808D1

Description

Die vorliegende Erfindung betrifft ein Bandbreiten-Kompressionsgerät, welches eine Bandbreitenkompression von Sprachsignalen in den Zustand von Analogsignalen ermöglicht, und insbesondere ein Sprachsignal-Bandbreiten- Kompressions- und Expansionsgerät, welches zur Analogübertragung für Schmalband-Funk-Übertragungskanäle geeignet ist.
In den letzten Jahren ist fortgefahren worden, die Verwendung von Funk- Übertragungsleitungen zu erhöhen. Andererseits sind die Funkfrequenz-Bänder eine begrenzte Ressource. Daher wird die Kompression der belegten Bandbreite stark gefordert, nicht nur von dem Aspekt der Kostenreduzierung, aber auch von dem Aspekt der effektiven Benutzung von Ressourcen.
Um etwa das Beispiel der Sprachsignal-Übertragung zu nehmen, erstreckt sich das Frequenzband von menschlichen Sprachsignalen typischerweise über mehrere Kilohertz, obwohl es individuelle Unterschiede gibt. Zur Übertragung davon, wird ein Übertragungssystem, welches ein Frequenzband von mehreren Kilohertz aufweist, in der gleichen Weise benötigt. Falls die belegte Bandbreite ohne die Artikulation zu verschlechtern, welche zur Informationsübertragung unter Verwendung von Sprache benötigt wird, komprimiert werden kann, können die für das Übertragungssystem erforderlichen Kosten verringert werden.
Aus der Vergangenheit sind daher verschiedene Bandbreiten-Kompressions- Techniken für Sprachsignale vorgeschlagen worden. Bei einem Beispiel von bekannten Bandbreiten-Kompressions-Techniken für Sprachsignale, wird die Bandbreiten-Kompression von Sprachsignalen durch Erfassen des menschlichen Sprachorgans als eine Art eines Autoregressions-Σystems erreicht, wobei ein Sprachsignal als ein Signal simuliert wird, welches durch dieses Autoregressions- System erzeugt wurde, und wobei System-Parameter extrahiert werden durch Verwenden einer Vorhersage-Analyse. Beispiele sind in den folgenden Veröffentlichungen offenbart:
(1) "Residual-excited linear prediction vocoder with spectral flattener utilizing the learning identification method (LI-RELP)", The Transactions of the Institute of Electronics, Information and Communication Engineers, Vol. J68-A, Nr. 5, Seiten 489-495, Mai 1985.
(2) "The residual-excited linear prediction vocoder with transmission rate below 9.6 kbit/s", IEEE Transactions on Communications, Vol. COM-23, Nr. 12, Dezember 1975, Seiten 1466-1474.
Bei den Techniken, die in den vorher genannten Veröffentlichungen beschrieben sind, wird die Aufmerksamkeit nicht auf die Tatsache gerichtet, daß Systemparameter als digitale numerische Informationen erhalten werden, und es besteht ein Problem in der Anwendung auf ein analoges Signal-Übertragungssystem.
Gemäß der vorliegenden Erfindung werden Geräte bereitgestellt, wie sie in Anspruch 1 und 2 dargelegt sind. Ebenfalls gemäß der vorliegenden Erfindung, werden Verfahren bereitgestellt, wie sie in Anspruch 7 und 8 dargelegt sind.
Ein Aspekt der vorliegenden Erfindung kann ein Sprachsignal-Bandbreiten- Kompressions- und Expansionsgerät zu schaffen, welches in der Lage ist, ein Signal im Zustand der Analog-Wellenform zu verarbeiten, anstatt Systemparameter für eine Bandbreiten-Kompression zu verwenden und in der Lage ist, eine Bandbreiten-komprimierte Übertragung über einen Analogsignal-Übertragungskanal durch Verwenden einer A/D-Umwandlung und D/A-Umwandlung durchzuführen.
Ein weiterer Aspekt der vorliegenden Erfindung kann ein Bandbreitenkomprimiertes Übertragungs-Verfahren zur Kompression der belegten Bandbreite eines Signals und zur Übertragung des Signals durch Verwenden eines Analogsi gnal-Übertragungskanals, ohne die Artikulation des Sprachsignals zu verschlechtern, und ein Reproduktionsverfahren zum Reproduzieren eines Original-Sprachsignals von dem resultierenden Schmalband-Analogsignal bereitstellen.
Die oben beschriebenen Eigenschaften können durch Einbetten von Spektral- Information eines Sprachsignals in eine Schmalband-Analog-Wellenform in der Form von Autokorrelation, Übertragen des Signals von der Übertragungsseite mit einer reduzierten Abtastrate und Wiederherstellen der Abtastrate auf die Original- Abtastrate auf der empfangenden Seite erreicht werden.
Daher kann es möglich werden, Systemparameter in dem Zustand von einer Analog-Wellenform zu übertragen. Als Ergebnis kann ein Hauptteil eines Sprachsignals ausreichend zuverlässig übertragen werden. Eine Bandbreiten-Kompression mit sowohl einer hohen Qualität als auch einer hohen Effizienz kann somit erlangt werden.
Eine konkretere Beschreibung wird nun gegeben werden. Zuerst wird ein Hauptteil eines Sprachsignals, d. h. eine Niederfrequenz-Bandkomponente so wie sie ist in der Form einer Analog-Wellenform als ein Basisband-Signal übertragen. Dann wird eine Übertragung von System-Parametern durch Liefern des oben beschriebenen Basisband-Signals an ein Autoregressions-System durchgeführt, wobei System-Parameter verwendet werden, und wobei die System-Parameter in das Basisband-Signal von einer Analog-Wellenform in der Form von Autokorrelations-Informationen eingebettet werden.
Die oben beschriebenen Eigenschaften können durch Verwenden der Konfiguration, welche zuvor beschrieben wurde, erreicht werden. Um jedoch eine Sprach- Kommunikation von einer höheren Qualität zu realisieren, wird ein Niederfrequenz-Rauschsignal zu dem oben beschriebenen Basisband-Signal hinzugefügt. Das Niederfrequenz-Rauschsignal übernimmt eine Übertragung von Komponenten, welche leichte Änderungen, welche in der Autokorrelations-Information ent halten sind, aufweisen. Auf der empfangenden Seite wird das Niederfrequenz- Rauschsignal entfernt, nachdem die System-Parameter extrahiert worden sind.
Parallel dazu wird der Leistungspegel des Niederfrequenz-Rauschsignals mit dem Leistungspegel einer Hochfrequenz-Bandkomponente eines Sprachsignals verbunden. Dadurch wird der Leistungspegel der Hochfrequenz-Bandkomponente des Sprachsignals, welches nicht direkt übertragen wird, übermittelt.
Es wird nun angenommen, daß die untere Grenzfrequenz und die obere Grenzfrequenz des Frequenzbands eines zu übertragenden Sprachsignals y(nΔt) jeweilig fL und fm sind, xvobei Δt = ¹/&sub2; fm und y(nΔt) einen Wert des Sprachsignals zu dem Zeitpunkt nΔt darstellt (wobei n eine ganze Zahl ist).
Es wird nun eine Beschreibung als ein Beispiel gegeben, indem der Fall angenommen wird, bei welchem lineare Vorhersage-Koeffizienten als System- Parameter verwendet werden. Eine lineare Vorhersage-Analyse wird auf das Sprachsignal angewendet, um lineare Vorhersage-Koeffizienten ai (i = 1, 2, ..., N- 1) und ein Vorhersage-residuelles Signal x(nΔt) herzuleiten, wobei x(nΔt) der Wert des Vorhersage-Residuals zum Zeitpunkt nΔt ist.
Eine Hochfrequenz-Bandkomponente von fm/C (C > 1) oder oberhalb wird von dem Vorhersage-residuellen Signal x(nΔt) entfernt. Ein Niederfrequenz- Rauschsignal, welches eine Komponente von fL oder kleiner hat, wird dazu addiert, um ein Basisband-Signal x' (nΔt) herzuleiten. Dann wird dieses Basisband- Signal x'(nΔt) auf ein Autoregressions-System angewendet, welches ai als Regressions-Koeffizienten hat. Ein Ausgangs-Signal w(nΔT) wird somit erhalten.
Da das Autoregressions-System linear ist, enthält dieses Ausgangs-Signal w(nΔT) auch nicht die Hochfrequenz-Bandkomponente von fm/C oder höher. Und w(nΔT) ist der Wert des Ausgangs-Signals zum Zeitpunkt nΔT (wobei n eine ganze Zahl ist), und ΔT = C/2fm.
Sowohl das Sprachsignal y(nΔt) als auch das Ausgabe-Signal w(nΔT) weisen die gleichen linearen Vorhersage-Koeffizienten a; auf. Die obere Grenzfrequenz des Sprachsignals y(nΔt) ist jedoch fm und die obere Grenzfrequenz des Ausgangs- Signals w(nΔt) ist fm/C. Zwischen Vorhersage-Abtast-Intervallen besteht daher die Beziehung ΔT = CΔt.
Da sowohl das Sprachsignal y(nΔt) als auch das Ausgangs-Signal w(nΔT) somit die gleichen linearen Vorhersage-Koeffizienten ai haben, kann Spektral- Information, welche das Original-Sprachsignal y(nΔt) besitzt, zuverlässig durch einfaches Übertragen des Ausgangs-Signals w(nΔT), welches eine Schmalband- Analog-Wellenform hat, übertragen werden.
Die Spektral-Information, welche hier verwendet wird, ist jedoch Information in der Form von linearen Vorhersage-Koeffizienten (System-Parameter) und sie ist nicht das Frequenz-Spektrum selbst. Dieses Frequenz-Spektrum selbst wird auf der Empfangsseite durch ein Aufrufsignal und ein Autoregressions-System regeneriert.
In den Zeichnungen:
Fig. 1 ist ein Blockdiagramm, welches die Konfiguration einer übertragenden Seite in einer Ausführungsform eines Sprachsignal-Bandbreiten- Kompressions- und Expansionsgeräts gemäß der vorliegenden Erfindung zeigt.
Fig. 2 ist ein Blockdiagramm, welches die Konfiguration einer empfangenden Seite in einer Ausführungsform eines Sprachsignal-Bandbreiten- Kompressions- und Expansionsgeräts gemäß der vorliegenden Erfindung zeigt.
Fig. 3 ist ein Blockdiagramm, welches die Konfiguration einer übertragenden Seite in einer weiteren Ausführungsform eines Sprachsignal- Bandbreiten-Kompressions- und Expansionsgeräts gemäß der vorliegenden Erfindung zeigt.
Fig. 4 ist ein Blockdiagramm, welches die Konfiguration einer empfangenden Seite in einer weiteren Ausführungsform eines Sprachsignal- Bandbreiten-Kompressions- und Expansionsgeräts gemäß der vorliegenden Erfindung zeigt.
Fig. 5 ist ein Blockdiagramm, welches die Konfiguration einer übertragenden Seite in noch einer weiteren Ausführungsform eines Sprachsignal- Bandbreiten-Kompressions- und Expansionsgeräts gemäß der vorliegenden Erfindung zeigt.
Fig. 6 ist ein Blockdiagramm, welches die Konfiguration einer übertragenden Seite in noch einer weiteren Ausführungsform eines Sprachsignal- Bandbreiten-Kompressions- und Expansionsgeräts gemäß der vorliegenden Erfindung zeigt.
Fig. 7 ist ein Diagramm, welches ein Beispiel eines linearen Vorhersage- Analysators in einer Ausführungsform der vorliegenden Erfindung veranschaulicht; und
Fig. 8 ist ein Diagramm, welches ein Beispiel eines linearen Vorhersage- Synthetisieres in einer Ausführungsform der vorliegenden Erfindung veranschaulicht.
Im folgenden wird ein Sprachsignal-Bandbreiten-Kompressions- und Expansionsgerät gemäß der vorliegenden Erfindung im Detail durch Bezugnahme auf die dargestellten Ausführungsformen beschrieben werden.
Fig. 1, zuerst, ist ein Blockdiagramm, welches die Konfiguration der übertragenden Seite in einer Ausführungsform eines Sprachsignal-Bandbreiten- Kompressions- und Expansionsgeräts gemäß der vorliegenden Erfindung zeigt. Ein zu übertragendes Sprachsignal y(t) wird an einen Eingangsanschluß 101 geliefert. Das Sprachsignal y(t) wird zuerst durch einen A/D- (Analog-Digital)- Wandler 102 abgetastet, um ein digitales Signal y(nΔt) zu erzeugen. Ein Signal y(t) ist der Wert eines Sprachsignals zum Zeitpunkt t. Wie oben beschrieben, ist das Signal y(nΔt) der Wert eines Sprachsignals zum Zeitpunkt nΔt (wobei n eine ganze Zahl ist).
Es wird nun angenommen, daß einie untere Grenzfrequenz fL der Frequenz- Komponente des Original-Sprachsignals y(t) gleich fL = 300 Hz ist, eine obere Grenzfrequenz fm ist fm = 4000 Hz und ein Abtast-Zeitintervall Δt ist Δt = 1/(2fm) = 125 us (Abtastfrequenz ist 8 kHz).
Dann wird das digitale Sprachsignal y(nΔt) als ein Signal des Autoregressions- Typs erfaßt. Durch Verwenden von linearen Vorhersage-Koeffizienten ai als System-Parameter, wird die folgende Definition formuliert.
y(nΔt) = χ(nΔt) - ai y {(n - i)Δt} (1)
Der erste Term der rechten Seite stellt ein Tonquellen-Signal dar, welches durch Vibration der Stimmbänder oder Ausatmen in einem menschlichen Mechanismus von Spracherzeugung verursacht wird. Der zweite Term stellt die Filterfunktion, welche durch einen menschlichen Stimmtrakt durchgeführt wird, dar.
Das Sprachsignal y(nΔt), welches von dem A/D-Wandler 102 ausgegeben wurde, wird an einen linearen Vorhersage(LP)-Analysator 103 und einen Inversfilter 104 geliefert. In dem linearen Vorhersage-Analysator 103, werden geschätzte Werte von linearen Vorhersage-Koeffizienten ai (i = 1, 2, 3, ..., N - 1) hergeleitet. In dem Inversfilter 104, wird eine Berechnung gemäß der folgenden Gleichung (2) über das digitale Zeitserie-Σprachsignal y(nΔt) durch Verwenden der linearen Vorhersage-Koeffizienten ai durchgeführt. Ein Vorhersage-residuelles Signal x(nΔt) wird somit erhalten. Der lineare Vorhersage-Analysator 103 und der Inversfilter 104 bilden ein lineares Vorhersage-Σystem.
x(nΔt) = y(nΔt) - ai y {(n - i)Δt} (2)
Dieses Vorhersage-residuelle Signal x(nΔt), welches von dem Inversfilter 104 ausgegeben wurde, enthält Frequenz-Komponenten im Bereich von fL bis fm. Durch Verwenden eines Tiefpaß-Filters 105 und eines Hochpaß-Filters 106 mit fm/C als Grenzfrequenz, wird das Vorhersage-residuelle Signal x(nΔt) in eine Niederfrequenz-Komponente im Bereich von fL bis fm/C und eine Hochfrequenz- Komponente im Bereich von fm/C bis fm aufgespalten. Die Niederfrequenz- Komponente fL bis fm/C wird zu der Ausgabe eines Verstärkers mit variabler Verstärkung 107 addiert und die resultierende Summe wird an einen Abwärts- Abtaster 109 geliefert. Die Hochfrequenz-Komponente im Bereich von fm/C bis fm wird als ein Verstärkungs-Steuersignal des Verstärkers mit variabler Verstärkung 107 verwendet.
Ein Rauschsignal-Generator 108 erzeugt ein Niederfrequenz-Rauschsignal, welches einen Frequenzbereich von 0 Hz bis fL Hz aufweist. Das Rauschsignal wird an den Verstärker mit variabler Verstärkung 107 geliefert.
Von der Ausgabe des Verstärkers mit variabler Verstärkung 107 wird daher ein Niederfrequenz-Rauschsignal, welches einen Leistungspegel aufweist, welcher derartig gesteuert ist, um mit dem Leistungspegel der Hochfrequenz-Komponente im Bereich von fm/C bis fm des Residual-Signals x(nΔt) verknüpft zu werden, erhalten. Das Niederfrequenz-Rauschsignal und die Niederfrequenz-Komponente im Bereich von fL bis fm/C des Residual-Signals x(nΔt) werden zueinander ad diert. Eine resultierende Summe wird an den Abwärts-Abtaster 109 als ein Zeitserie-Signal x'(nΔt) eingegeben.
Dieses Zeitserie-Signal x'(nΔt) weist eine Frequenz-Komponente im Bereich von 0 bis fm/C auf. In dem Abwärts-Abtaster 109 wird das Zeitserie-Signal x'(nΔt) ausgedünnt, um die Abtastrate zu erniedrigen. Das Zeitserie-Signal x'(nΔt) wird somit in ein Basisband-Signal x'(nΔT) konvertiert.
Es gilt die folgende Beziehung.
ΔT = CΔt
Nehmen wir nun an, daß C = 5 ist, wird die Abtastrate auf 1/5 reduziert, und das Abtastzeitintervall wird ΔT = 625 us.
Dann wird dieses Basisband-Signal x'(nΔT) an einen linearen Vorhersage-(LP)- Synthetisierer bzw. Synthesizer 110 geliefert. Durch Verwenden linearer Vorhersage-Koeffizienten ai (i = 1, 2, 3, ..., N - 1), welche durch den linearen Vorhersage- Analysator 103 als Regressions-Koeffizienten hergeleitet wurden, wird eine Berechnung eines Autoregressions-Systems gemäß der folgenden Gleichung (3) auf dem Basisband-Signal x'(nΔT) durchgeführt, um ein Schmalband-Zeitserie-Signal w(nΔT) zu erhalten.
w(nΔT) = x'(nΔT) - ai w {(n - i)ΔT} (3)
Dann wird das Schmalband-Zeitserie-Signal w(nΔT), welches am Ausgang des linearen Vorhersage-Synthetisierers 110 erhalten wurde, an einen D/A-(Digital- Analog)-Wandler 111 geliefert und zu einem Signal einer analogen Wellenform wiederhergestellt. Ein Schmalband-Analogsignal w(t) wird somit an einem Ausgangsanschluß 112 erhalten.
Bezüglich dieses Schmalband-Analogsignals w(t), enthält es eine Frequenz- Komponente von 0 bis fm/C, d. h. 0 bis 800 Hz.
Andererseits weist die Frequenz-Komponente des Original-Sprachsignals y(t) eine untere Grenzfrequenz fL = 300 Hz und eine obere Grenzfrequenz fm = 4000 Hz wie oben beschrieben auf. In dieser Ausführungsform, C = 5. Daher wird der Frequenzbereich von 300 Hz bis 4000 Hz auf 1/C komprimiert. Es wird sozusagen eine Bandbreiten-Kompression durchgeführt, welche in einem Frequenzbereich von 0 Hz bis 800 Hz resultiert.
Das Schmalband-Analogsignal w(t), welches somit an dem Ausgangsanschluß 112 erhalten wurde, wird durch ein Analogsignal-Übertragungssystem getragen, wie beispielsweise ein Kommunikationsmedium wie ein Telefonkreis oder ein Funk-Kanal, und wird auf die empfangende Seite übertragen.
Fig. 2 ist ein Blockdiagramm, welches die Konfiguration der empfangenden Seite in einer Ausführungsform des Sprachsignal-Bandbreiten-Kompressions- und Expansionsgeräts gemäß der vorliegenden Erfindung zeigt. Das Schmalband- Analogsignal w(t), welches von der in Fig. 1 gezeigten übertragenden Seite übertragen wurde, wird an einen Eingabeanschluß 201 geliefert. Zuerst wird das Schmalband-Analogsignal w(t) durch einen A/D-(Analog-Digital)-Wandler 202 abgetastet. Eine Konvertierung zu einem digitalen Zeitserie-Signal w(nΔT) wird somit durchgeführt.
Dann wird dieses digitale Zeitserie-Signal w(nΔT) an einen linearen Vorhersage- Analysator 203 und einen Inversfilter 204 geliefert. In dem linearen Vorhersage- Analysator 203 werden Werte von linearen Vorhersage-Koeffizienten ai (i = 1, 2, 3, ..., N - 1) durch eine lineare Vorhersage-Analyse wiederhergestellt.
Andererseits wird in dem Inversfilter 204 eine Berechnung gemäß der folgenden Gleichung (4) auf dem digitalen Zeitserie-Sprachsignal w(nΔT) durch Verwenden der linearen Vorhersage-Koeffizienten ai durchgeführt. Ein reproduziertes Basisband-Signal x'(nΔT) wird somit als ein Vorhersage-residuelles Signal erhalten. Dadurch wird ein lineares Vorhersage-System gebildet.
x'(nΔT) = w(nΔT) - ai w {(n - i)ΔT} (4)
Dann wird das reproduzierte Basisband-Signal x' (nΔT) an einen Aufwärts- Abtaster 205 geliefert. Der Aufwärts-Abtaster 205 führt eine Verarbeitung des Einsetzens von 0 in Abtast-Positionen des Basisband-Signals x'(nΔT) durch, welches durch den Abwärts-Abtaster 109 der übertragenden Seite ausgedünnt wurde. Dadurch wird die Abtastrate erhöht und es wird ein reproduziertes Zeitserie- Signal x'(nΔt) erhalten, welches die Original-Abtast-Frequenz aufweist. Daher wird diese Abtastrate Δt gleich Δt = 125 us.
Darauffolgend wird dieses reproduzierte Zeitserie-Signal x'(nΔt) an einen Bandpaß-Filter 206 und einen Tiefpaß-Filter 207 geliefert.
Zuerst wird in dem Bandpaß-Filter 206 eine Niederfrequenz-Komponente im Bereich von fL bis fm/C von dem reproduzierten Zeitserie-Signal x' (nΔt) extrahiert. Diese Niederfrequenz-Komponente wird an einen linearen Vorhersage- Synthetisierer 210 zusammen mit der Ausgabe eines Verstärkers mit variabler Verstärkung 208 geliefert.
Diese Niederfrequenz-Komponente von fL bis fm/C, welche von dem Bandpaß- Filter 206 extrahiert wurde, wird auch an einen Hochfrequenzband-Signal- Generator 209 geliefert. Von diesem Hochfrequenzband-Signal-Generator 209 wird ein Hochfrequenz-Band-Signal erzeugt, welches ein Frequenzband von fm/C bis fm aufweist. Das Hochfrequenzband-Signal wird an den Eingang des Verstärkers mit variabler Verstärkung 208 geliefert.
Andererseits wird eine Niederfrequenz-Komponente im Bereich von 0 bis fL von dem reproduzierten Zeitserie-Signal x'(nΔt) in dem Tiefpaß-Filter 207 extrahiert. Entsprechend dem Leistungspegel der Niederfrequenz-Komponente, wird der Verstärker mit variabler Verstärkung 208 gesteuert.
Daher wird von dem Verstärker mit variabler Verstärkung 208 ein Hochfrequenz- Bandsignal ausgegeben, welches die gleiche Frequenz-Komponente von fm/C bis fm aufweist und einen Leistungspegel mit demjeniger der Niederfrequenz- Komponente von 0 bis fL von dem reproduzierten Zeitserie-Signal x'(nΔt) verbunden ist, aufweist, und folglich einen Leistungspegel gleich zu dem der Hochfrequenz-Band-Komponente von fm/C bis fm des Vorhersage-residuellen Signals x(nΔt) auf der übertragenden Seite aufweist. Das Hochfrequenzband-Signal und die Niederfrequenz-Komponente von fL bis fm/C, welche von dem Bandpaß-Filter 206 extrahiert wurde, werden zusammenaddiert. Ein Aufruf-Σignal x"(nΔt) wird somit erhalten. Das Aufruf-Signal x"(nΔt) wird an den linearen Vorhersage- Synthetisierer 210 geliefert.
Dieses Aufruf-Signal x"(nΔt) ist bereits in ein Signal wiederhergestellt worden, welches die Original-Abtast-Frequenz aufweist, weil sein reproduziertes Original- Abtast-Frequenz-Signal x'(nΔt) eine Abtastrate aufweist, welche durch den Aufwärts-Abtaster 205 erhöht worden ist.
Daher ist das Abtast-Zeitintervall des Aufruf-Signals x"(nΔt) 125 us. Zusätzlich ist seine Frequenz-Komponente bereits auf den Bereich von fL bis fm (300 bis 4000 Hz) wiederhergestellt worden.
In dem linearen Vorhersage-Synthetisierer 210 wird eine Berechnung des Autoregressions-Systems gemäß der vorliegenden Erfindung gemäß der folgenden Gleichung (5) auf dem Aufruf = Signal x"(nΔt) durchgeführt, durch Verwendung linearer Vorhersage-Koeffizienten ai (i = 1, 2, 3, ..., N - 1) als Autoregressions- Koeffizienten, welche durch den linearen Vorhersage-Analysator 203 hergeleitet wurden. Ein reproduziertes Sprachsignal y'(nΔt), welches ein Zeitserie-Signal enthält, wird somit erhalten.
y'(nΔt) = x"(nΔt) - ai y' {(n - i)Δt} (5)
Das reproduzierte Sprachsignal y' (nΔt), welches an dem Ausgang des linearen Vorhersage-Synthetisierers 210 erhalten wurde, wird darauffolgend an einen D/A- Wandler 211 geliefert und zu einem Signal, welches eine analoge Wellenform hat, wiederhergestellt. Ein analoges Sprachsignal y'(t) wird an einem Ausgabeanschluß 212 erhalten.
Gleichung (5), welche das reproduzierte Sprachsignal y'(nΔt) darstellt und Gleichung (1), welche das Original-Sprachsignal y(nΔt) von der übertragenden Seite darstellt, werden zum Vergleich unten gemeinsam aufgeschrieben.
y(nΔt) = x(nΔt) - ai y {(n - 1)Δt} (1)
y'(nΔt) = x"(nΔt) - ai y'{(n - i)Δt} (5)
Wie vom Vergleich dieser Gleichungen ersichtlich ist, unterscheiden sie sich nur dadurch, daß der erste Term der rechten Seite das Vorhersage-residuelle Signal x(nΔt) in dem Original-Sprachsignal y(nΔt) der Gleichung (1) ist, wohingegen es das Aufruf-Signal x"(nΔt) in dem reproduzierten Sprachsignal y'(nΔt) der Gleichung (5) ist.
Wie von der vorhergehenden Beschreibung offensichtlich, ist das Vorhersageresiduelle Signal x(nΔt) komplett das gleiche wie das Aufruf-Signal x"(nΔt) in dem Frequenzbereich von fL bis fm/C. In dem Frequenzbereich von fm/C bis fm ist die Hochfrequenzband-Komponente des Original-Sprachsignals y(nΔt) durch eine Hochfrequenzband-Generierungs-Komponente, welche den gleichen Leistungspegel hat, ersetzt worden.
In dieser Ausführungsform werden jedoch Spektral-Informationen von Sprache als lineare Vorhersage-Koeffizienten ai (i = 1, 2, 3, ..., N - 1) extrahiert und übertragen. Sogar, wenn ein Teil von Sprachinformationen durch diese Hochfrequenzband-Generierungs-Komponente ersetzt wird, kann daher ein Verlust von Sprachinformationen auf einen ganz geringen Teil unterdrückt werden und eine ausreichend klare Sprache kann reproduziert werden, während das Frequenzband auf dem Übertragungskanal ausreichend komprimiert wird.
In der Konfiguration der oben beschriebenen Ausführungsform sind der Hochpaß- Filter 106, der Verstärker mit variabler Verstärkung 107 und der Rauschsignal- Generator 108 der übertragenden Seite und der Bandpaß-Filter 206, der Tiefpaß- Filter 207 und der Verstärker mit variabler Verstärkung 208 auf der empfangenden Seite zusätzliche Mittel zur Sprachkommunikation. Sogar in der Konfiguration ohne diese Mittel, werden Spektral-Informationen von Sprache als lineare Vorhersage-Koeffizienten übertragen und daher kann eine Sprachkommunikation von einer vorbestimmten Qualität durchgeführt werden.
Selbstverständlich kann jedoch eine Sprachkommunikation von einer höheren Qualität durch Hinzufügen der oben beschriebenen zusätzlichen Mittel zu der Konfiguration gemäß der oben beschriebenen Ausführungsform durchgeführt werden.
In der Ausführungsform, welche in Fig. 1 und 2 gezeigt ist, ist der Grad (N - 1) der linearen Vorhersage-Koeffizienten ai des linearen Vorhersage-Analysators 103 typischerweise auf ungefähr 8 bis 12 vom Gesichtspunkt der praktischen Anwendung begrenzt. Wenn der Grad (N - 1) einen Wert von ungefähr 8 bis 12 hat, verbleibt ein Niederfrequenz-Spektrum, genannt Sprachteilung (speech pitch) in dem Vorhersage-residuellen Signal x(nΔt), welches von dem Inversfilter 104 ausgegeben wurde.
Als Ergebnis verbleiben die Teilungsinformationen jedoch auch im Schmalband- Analogsignal w(t). Da die verbleibenden Teilungsinformationen als Vorhersage- Koeffizienten in dem linearen Vorhersage-Analysator 203 der empfangenden Seite extrahiert werden, werden die Vorhersage-Koeffizienten ai der empfangenden Seite nicht wiederhergestellt, um so zuverlässig den Originalwert der übertragenden Seite widerzuspiegeln. Daher besteht eine Gefahr, daß Sprache etwas verschlechtert sein könnte.
Ein Erhöhen des oben beschriebenen Grades der Vorhersage-Koeffizienten um eine Stelle oder so, um die verbleibende Teilungsinformation zu unterdrücken ist nicht sehr praktisch, weil eine kompliziertere Konfiguration die Kosten und Verzögerungen der Signalverarbeitung erhöht.
Eine Ausführungsform der vorliegenden Erfindung mit entsprechendem Hinblick auf diesen Punkt wird im folgenden beschrieben werden.
Fig. 3 und 4 zeigen eine weitere Ausführungsform der vorliegenden Erfindung.
Fig. 3 zeigt die Konfiguration einer übertragenden Seite. Fig. 4 zeigt die Konfiguration einer empfangenden Seite. Komponenten, die identisch sind mit oder denjenigen der in Fig. 1 und 2 gezeigten entsprechen, sind mit gleichen Zeichen bezeichnet und eine detaillierte Beschreibung davon wird weggelassen.
Zuerst ist in der übertragenden Seite, welche in Fig. 3 gezeigt ist, eine Verarbeitung bezüglich des Abwärts-Abtasters 109 identisch mit der der Ausführungsform, welche in Fig. 1 gezeigt ist. Die Ausführungsform der Fig. 3 unterscheidet sich von der Ausführungsform der Fig. 1 darin, daß ein zweiter linearer Vorhersage-Analysator 301, ein zweiter Inversfilter 302, und ein zweiter linearer Vorhersage-Synthetisierer des Autoregressionssystem-Typs 303 zwischen dem Abwärts- Abtaster 109 und dem linearen Vorhersage-Synthetisierer 110 hinzugefügt wurden. Hier wird daher auf den linearen Vorhersage-Analysator 103 als erster linearer Vorhersage-Analysator Bezug genommen und auf den Inversfilter 104 und den linearen Vorhersage-Synthetisierer 110 wird jeweils auch als den ersten Inversfilter und ersten linearen Vorhersage-Synthetisierer Bezug genommen.
Die empfangende Seite, welche in Fig. 4 gezeigt ist, unterscheidet sich von der in Fig. 2 gezeigten Ausführungsform dadurch, daß ein Abwärts-Abtaster 401, ein vierter linearer Vorhersage-Analysator 402 und ein vierter linearer Vorhersage- Synthetisierer 403 des Autoregressionssystem-Typs zwischen den Inversfilter 204 und den Aufwärts-Abtaster 205 hinzugefügt sind und entsprechend Einsatzpositionen des Bandpaß-Filters 206 und des Tiefpaß-Filters 207 geändert sind. Daher wird hier auf den Inversfilter 204 als zweiter Inversfilter Bezug genommen und auf den linearen Vorhersage-Analysator 203 und den linearen Vorhersage- Synthetisierer 210 wird jeweils als dritter linearer Vorhersage-Analysator und dritter linearer Vorhersage-Synthetisierer Bezug genommen.
Eine Betriebsweise dieser Ausführungsform wird nun beschrieben werden.
Nebenbei ist in dieser Ausführungsform die untere Grenzfrequenz der Frequenzkomponente des Original-Sprachsignals y(t) fL = 300 Hz und die obere Grenzfrequenz davon ist fm = 3400 Hz. Andererseits ist die Abtastfrequenz gleich 8 kHz. Daher ist auch das Abtast-Zeitintervall Δt gleich 125 us.
Zuerst wird nun die übertragende Seite der Fig. 3 beschrieben werden. Wie oben beschrieben, erscheint ein Basisband-Signal x'(nΔT), welches in der Abtastrate auf 1/5 reduziert wurde, um so eine Abtastfrequenz von 1,6 kHz zu haben (Abtast-Zeitintervall ΔT = 625 us) an dem Ausgang des Abwärts-Abtasters 109.
Dieses Basisband-Signal x' (nΔT) wird wieder in den zweiten linearen Vorhersage-Analysator 301 eingegeben. In dem zweiten linearen Vorhersage-Analysator 301 werden lineare Vorhersage-Koeffizienten ai', welche mit den Teilungskomponenten verbunden sind, extrahiert.
Durch Verwenden der linearen Vorhersage-Koeffizienten ai', welche mit den Teilungskomponenten verbunden sind, wird die Teilungskomponente in dem zweiten Inversfilter 302 von dem Basisband-Signal x'(nΔT) entfernt. Ein Basisband-Signal x"(nΔT), welches keine Teilungskomponente enthält, wird am Ausgang dieses Inversfilters 302 erhalten.
Gleichzeitig führt der zweite lineare Vorhersage-Synthetisierer 303 auch eine lineare Vorhersage-Synthetisierungsverarbeitung auf dem niederfrequenten weißen Rauschsignal durch, welches von dem Rauschsignal-Generator 108 durch Verwenden der linearen Vorhersage-Koeffizienten ai', welche mit der Teilungskomponente verbunden sind, geliefert wurde. Die Ausgabe des zweiten linearen Vorhersage-Synthetisierers 303 wird dem Verstärker mit variabler Verstärkung 107 eingegeben, um ein Niederfrequenz-Rauschsignal xLN(nΔT) abzuleiten, welches einen Leistungspegel hat, der so gesteuert ist, um mit dem Leistungspegel der Hochfrequenz-Komponente fm/C bis fm des Residual-Signals x(nΔt) verknüpft zu sein.
Danach wird das Basisband-Signal x"(nΔT), welches von dem Inversfilter 302 ausgegeben wurde und dem Niederfrequenz-Rauschsignal xLN(nΔT), welches von dem Verstärker mit variabler Verstärkung 107 ausgegeben wurde, addiert. Eine resultierende Summe wird an den ersten linearen Vorhersage-Σynthetisierer 110 als ein Aufruf-Eingangssignal davon geliefert.
Nun unter der Annahme, daß das Schmalband-Zeitserie-Signal, welches von dem ersten linearen Vorhersage-Synthetisierer 110 ausgegeben wurde, ein digitales Zeitserie-Signal w'(nΔT) ist, wird es daher durch die folgende Gleichung (6) ausgedrückt.
w'(nΔT) = xLN(nΔT) + χ"(nΔT) - ai w'{(n - i)ΔT} (6)
Der Term xLN(nΔT) auf der rechten Seite dieser Gleichung ist eine Signalkomponente, welche eine Frequenzkomponente von 60 bis 300 Hz aufweist und Spektralparameter enthält, welche mit den Teilungsinformationen assoziiert sind. Es sei angemerkt, daß der Term x"(nΔT) eine Signalkomponente ist, welche eine Frequenzkomponente von 300 bis 750 Hz hat, und welche keine Spektralparameter beinhaltet, welche mit den Teilungsinformationen assoziiert sind.
In der gleichen Weise wie in der Ausführungsform der Fig. 1, wird das digitale Schmalband-Zeitserie-Signal w'(nΔT), welches am Ausgang des linearen Vorhersage-Synthetisierers 110 erhalten wurde, danach an den D/A-(Digital-Analog)- Wandler 111 geliefert und auf ein Signal, welches eine analoge Wellenform hat, wiederhergestellt. Ein analoges Schmalband-Signal w'(t) wird somit an dem Ausgabeanschluß 112 erhalten.
Dieses analoge Schmalband-Signal w'(t) wird durch ein analoges Signal- Übertragungssystem getragen, wie beispielsweise ein Telefonkreis oder ein Funkkanal und wird zu einer empfangenden Seite übertragen.
Auf der in Fig. 4 gezeigten empfangenden Seite, wird ein digitales Zeitserie- Signal w'(nΔT) an den dritten linearen Vorhersage-Analysator 203 geliefert und Werte der linearen Vorhersage-Koeffizienten ai werden wiederhergestellt.
Das digitale Schmalband-Zeitserie-Signal w'(nΔT) weist Komponenten auf, welche durch Gleichung (6) ausgedrückt werden.
w'(nΔT) = xLN(nΔT) + χ"(nΔT) - ai w'{(n - i)ΔT} (6)
Die Teilungskomponente ist nur in xLN(nΔT) enthalten und die Frequenzkomponente von xLN(nΔT) ist auf ein Niederfrequenzband von 300 Hz oder niedriger beschränkt. Daher erscheint der Einfluß der Teilungskomponente nicht in linearen Vorhersage-Koeffizienten niedrigen Grades wie beispielsweise achte bis zwölfte. Daher werden lineare Vorhersage-Koeffizienten ai, welche von dem dritten linearen Vorhersage-Analysator 203 ausgegeben wurden, nicht durch die Teilungsinformationen beeinflußt. Die gleichen Werte wie diejenigen der linearen Original- Vorhersage-Koeffizienten ai auf der übertragenden Seite werden zuverlässig zurückgespeichert.
Wenn eine Berechnung gemäß der folgenden Gleichung (7) auf dem digitalen Zeitserie-Signal w'(nΔT) in dem zweiten Inversfilter 204 durch Verwenden der linearen Vorhersage-Koeffizienten ai ausgeführt wird, wird xLN(nΔT) + x"(nΔT) als ein Vorhersage-residuelles Signal erhalten.
χLN(nΔT) + χ"(nΔT) =
w'(nΔT) + ai w'{(n - i)ΔT} (7)
Von diesem Vorhersage-residuellen Signal wird eine Niederfrequenz- Rauschsignal-Komponente entfernt und ein erstes reproduziertes Basisband- Signal x"(nΔT) wird durch den Bandpaß-Filter 206 herausgenommen. Das Niederfrequenz-Rauschsignal XLN(nAT) wird durch den Tiefpaß-Filter 207 extrahiert. Teilungsinformationen sind nicht in dem ersten reproduzierten Basisband-Signal x"(nΔT) enthalten, sind aber nur in dem Niederfrequenz-Rauschsignal xLN(nΔT) enthalten.
Dieses Niederfrequenz-Rauschsignal xLN(nΔT) wird an den Abwärts-Abtaster 401 eingegeben, um Daten mit einer niedrigeren Abtast-Frequenz als 320 Hz auszudünnen. Das ausgedünnte Signal wird an den vierten linearen Vorhersage- Analysator 402 geliefert. Spektralparameter, welche mit Teilungsinformationen assoziiert sind, werden somit erhalten. Durch Verwenden der Teilungs- Spektralparameter, führt der vierte lineare Vorhersage-Synthetisierer 403 eine Vorhersage-Synthetisiserungs-Verarbeitung auf dem ersten reproduzierten Basisband-Signal x"(nΔT) durch. Das reproduzierte Basisband-Signal x'(nΔT) wird somit wiederhergestellt.
Darauf folgende Verarbeitung zum Erhalten des reproduzierten Sprachsignals y'(nΔt) von dem reproduzierten Basisband-Signal x'(nΔT) und Erhalten des analogen Sprachsignals y'(t) am Ausgabeanschluß 212 ist die gleiche wie die der Ausführungsform, welche in Fig. 2 gezeigt ist.
In der in Fig. 3 und 4 gezeigten Ausführungsform, kann ein Rest von Teilungsinformation ausreichend unterdrückt werden ohne den Grad der Vorhersage- Koeffizienten zu erhöhen und die Erhöhung der Kosten und Verzögerung der Signalverarbeitung kann sicher unterdrückt werden ohne Sprachverschlechterung.
Jedes Element in der oben beschriebenen Ausführungsform wird nun beschrieben werden.
Zuerst haben die linearen Vorhersage-Analysatoren 103, 203, 301 und 402 eine Funktion von, zum Beispiel, dem Ausführen von Verarbeitung in Übereinstim mung mit einem in Fig. 7 gezeigten Algorithmus, dem Berechnen einer Autokorrelations-Funktion eines Sprachsignals Sn und dem Bestimmen von Koeffizienten ai(i = 1, 2,3, ..., N - 1).
Obwohl es nicht speziell erforderlich ist, um die vorliegende Erfindung zu verstehen, werden z. B. Einzelheiten dieses linearen Vorhersage-Analysators auf Seiten 43-50 von "Computer speech processing", Electronic science series, veröffentlicht durch Sanpo publishing Ltd. am 10. Juni 1980, beschrieben.
Inversfilter-Verarbeitung, welche durch die Inversfilter 104, 204 und 302 ausgeführt wird, ist eine Verarbeitung des Kennens der oben beschriebenen Koeffizienten ai(i = 1, 2, 3, ..., N - 1) im voraus und Berechnens eines residuellen Signals, wie beispielsweise das Signal x(nΔt) auf der Basis der Koeffizienten. Das heißt, eine Berechnung wird in Übereinstimmung mit der oben beschriebenen Gleichung (2) durchgeführt.
Die linearen Vorhersage-Synthetisierer 110, 210, 303 und 403 führen eine Berechnung in Übereinstimmung mit der oben beschriebenen Gleichung (3) aus. Die linearen Vorhersage-Synthetisierer 110, 210, 303 und 403 haben eine Funktion des Synthetisierens eines Sprachsignals durch Verwenden des residuellen Signals und einer in Fig. 8 gezeigten Verarbeitung.
Obwohl es nicht speziell erforderlich ist, um die vorliegende Erfindung zu verstehen, werden z. B. Einzelheiten dieses linearen Vorhersage-Synthetisierers auch auf Seiten 50-53 der zuvor genannten "Computer speech processing", Electronic science series, veröffentlicht durch Sanpo publishing Ltd. am 10. Juni 1980 beschrieben.
In den Ausführungsformen auf der empfangenden Seite, welche in Fig. 2 und 4 gezeigt ist, wird der Hochfrequenzband-Signal-Generator 209 verwendet. Anstelle von diesem, können ein Weißrausch-Signal-Generator oder ein Rauschsignal- Generator der M-Reihe verwendet werden.
Der Grund, warum der Hochfrequenz-Band-Signal-Generator 209 in den Ausführungsformen verwendet wird, um ein Rauschsignal von einer Niederfrequenz- Komponente fL bis fm/C von dem reproduzierten Zeitserie-Signal x'(nΔt) zu erhalten, ist, daß man sagt, dadurch eine bessere Sprachqualität zu erhalten.
Dieser Hochfrequenzband-Signal-Generator 209 ist derartig konfiguriert, um ein eingegebenes Signal vollwellig gleichzurichten, dann das Hochfrequenzband zu verstärken, und nur die Komponente einer vorbestimmten Frequenz, wie beispielsweise 750 Hz oder höher, herauszunehmen.
In der Konfiguration der oben beschriebenen Ausführungsformen, sind der Hochpaß-Filter 106 und der Verstärker mit variabler Verstärkung 107 auf der übertragenden Seite, und der Verstärker mit variabler Verstärkung 208 auf der empfangenden Seite zusätzliche Mittel zur Sprachkommunikation. Sogar in der Konfiguration ohne diese Mittel, werden Spektralinformationen der Sprache als lineare Vorhersage-Koeffizienten übertragen und daher kann eine Sprachkommunikation von einer vorbestimmten Qualität ausgeführt werden. Folglich kann jedoch Sprachkommunikation von einer höheren Qualität durch Hinzufügen der oben beschriebenen zusätzlichen Mittel zu der Konfiguration gemäß der oben beschriebenen Ausführungsformen durchgeführt werden.
In den in Fig. 3 gezeigten Ausführungsform ist der Rauschsignal-Generator 108 vorgesehen, um ein Niederfrequenz-Weißrausch-Signal zur Übertragung von Teilungsinformationen zu erhalten, und der Hochpaß-Filter 106 und der Verstärker mit variabler Verstärkung 107 sind vorgesehen, um den Ausgangspegel des Rauschsignal-Generators 108 mit dem Leistungspegel der Hochfrequenz- Komponente des residuellen Signals zu verbinden. Fig. 5 zeigt eine weitere Ausführungsform, welche die Stelle davon einnimmt, und welche ein erforderliches Niederfrequenz-Rauschsignal durch Verwenden einer einfacheren Schalutungskonfiguration erhält. In Fig. 5 sind Komponenten, welche identisch sind mit oder denjenigen der Ausführungsform in Fig. 3 entsprechen durch gleiche Zeichen bezeichnet und eine detaillierte Beschreibung davon wird weggelassen.
In der Ausführungsform der Fig. 5, sind der Hochpaß-Filter 106, der Verstärker mit variabler Verstärkung 107 und der Rauschsignal-Generator 108, welche in der Ausführungsform der Fig. 3 enthalten sind, entfernt und ein Abwärts-Abtaster 304 und ein Aufwärts-Abtaster 305 sind hinzugefügt. Ein Teil der Ausgabe des Inversfilters 302 ist in der Abtastrate auf ein Fünftel durch den Abwärts-Abtaster 302 reduziert. Ein resultierendes Signal, welches eine Abtast-Frequenz von 320 Hz aufweist, wird an den linearen Vorhersage-Synthetisierer 303 geliefert. Die Ausgabe des Inversfilters 302 ist äquivalent zu dem Original-Sprachsignal, wobei die Formant-Komponente und die Teilungs-Komponente entfernt sind. Daher kann die Ausgabe des Inversfilters 302 als ein nahezu perfektes weißes Rauschen angesehen werden. Durch Abwärts-Abtasten der Ausgabe des Inversfilters 302, wird sie zu einem Niederfrequenz-Weißrauschen konvertiert. Ihr Leistungspegel ist nahezu proportional zu dem Leistungspegel des Basisband-Signals x"(nΔT). Da der Leistungspegel des Basisband-Signals x"(nΔT) als nahezu auch verbunden mit dem Leistungspegel der Hochfrequenz-Komponente von fm/C bis fm des residuellen Signals x(nΔt) angesehen werden kann, kann das gewünschte Niederfrequenz-Signal xLN(nΔT) durch Aufwärts-Abtasten der Ausgabe des linearen Vorhersage-Synthetisierers 303 in dem Aufwärts-Abtaster 305 erhalten werden.
In der in Fig. 3 oder Fig. 5 gezeigten Ausführungsform sind lineare Vorhersage- Koeffizienten ai' mit den Teilungsinformationen assoziiert, d. h. die Teilungskomponente wird durch Vornehmen einer linearen Vorhersage-Analyse auf dem Niederfrequenzband-Residualsignal von 300 bis 750 Hz erhalten. Wird die Grundfrequenz der Teilungskomponente durch fp bezeichnet, erstreckt sich fp über einen weiten Bereich von 50 Hz (männliche Niederfrequenz-Sprache) bis 500 Hz (weibliche Hochfrequenz-Sprache).
Wenn fp 300 Hz oder darüber ist, ist fp in dem Bereich des oben beschriebenen Niederfrequenzband-Signals von 300 bis 750 Hz enthalten. Durch die oben beschriebene lineare Vorhersage-Analyse werden genaue Teilungsinformationen extrahiert.
Wenn fp 250 Hz oder darunter beträgt, ist fp nicht in dem Bereich des Niederfrequenzband-Signals von 300 bis 750 Hz enthalten, aber eine Vielzahl von höheren Oberwellen wie beispielsweise 2fp, 3fp, ... sind darin enthalten. Wenn ein Hochfrequenzband auf der empfangenden Seite von der Teilungsinformation zu erzeugen ist, welche auf der Basis der Oberwellen ermittelt wurde, kann die Teilungskomponente durch Verwenden eines Modulationsprodukts wie beispielsweise 3fp - 2fp = fp reproduziert werden.
Im Fall, daß fp über 250 Hz und unter 300 Hz ist, ist nur die zweite Oberwelle 2fp in dem Niederfrequenzband-Residualsignal enthalten. Wenn eine lineare Vorhersagse-Analyse auf der Basis der zweiten Oberwelle 2fp vorgenommen wird, wird ein fehlerhaftes Ergebnis erhalten, welches 2fp als die Teilungskomponente aufweist. Dies wird die Doppel-Teilungs-Extraktion genannt und ändert Sprache zu Falsetten. Falls dieses Phänomen regelmäßig auftritt, wird es zu einer Hauptursache von Sprachqualitätsverschlechterung werden.
Fig. 6 zeigt eine Ausführungsform, in welcher dieser Punkt verbessert worden ist. In Fig. 6 sind Komponenten, welche identisch sind mit oder denjenigen der in Fig. 3 oder S gezeigten Ausführungsform entsprechen, durch gleiche Zeichen gekennzeichnet und eine detaillierte Beschreibung davon wird weggelassen.
Im Vergleich mit der Ausführungsform von Fig. 5. ist in der Ausführungsform der Fig. 6 eine nichtlineare Schaltung 306 hinter dem Inversfilter 104 eingefügt, und außerdem sind Tiefpaß-Filter 307 und 309 und ein Hochpaß-Filter 308 hinzugefügt.
Als die nichtlineare Schaltung 306 kann jegliche Schaltung generell verwendet werden, solange eine nichtlineare Beziehung zwischen ihrer Eingabe und ihrer Ausgabe besteht. Als die einfachste Schaltung kann jedoch eine Absolutwert- Schaltung, welche den Absolutwert ihrer Eingabe ausgibt, d. h. eine Vollwellengleichrichter-Schaltung, verwendet werden.
Die Ausgabe des Invers-Filters 104 hat ein Frequenzband von 300 bis 3400 Hz. Auf ihr Unterziehen einer nichtlinearen Verarbeitung in der nichtlinearen Schaltung 306 hin, wird ein Frequenzband von 0 bis 3400 Hz oder oberhalb durch ein Modulationsprodukt verursacht. Sogar wenn fp 300 Hz oder darunter beträgt, werden Komponenten wie beispielsweise fp, 2fp, ... innerhalb des Bandes von 0 bis 300 Hz erzeugt.
Die Ausgabe der nichtlinearen Schaltung wird durch einen Bandpaß-Filter 105 geführt und dementsprechend in ein Signal konvertiert, welches ein Frequenzband von 0 bis 750 Hz hat. Das resultierende Signal wird einer Abwärts-Abtastung und einer linearen Vorhersage-Analyse in dem linearen Vorhersage-Analysator 301 unterzogen. Als Ergebnis können genaue Teilungsinformationen, immer unabhängig von fp, extrahiert werden.
In der Ausführungsform der Fig. 5 hat die Ausgabe der Inversfilter-Σchaltung 302 ein Frequenzband von 300 bis 750 Hz. In der Ausführungsform der Fig. 6 hat die Ausgabe der Inversfilter-Schaltung 302 ein Frequenzband von 0 bis 750 Hz. Daher wird die Ausgabe in eine Hochfrequenzband-Komponente von 160 Hz oder darüber und eine Niederfrequenzband-Komponente von 160 Hz oder darunter durch den Hochpaß-Filter 308 und den Tiefpaß-Filter 307 unterteilt. Die Niederfrequenzband-Komponente wird einer linearen Vorhersage-Synthese unterzogen, wobei Teilungsinformationen verwendet werden und durch den Tiefband-Filter 309 geführt. Die Ausgabe des Tiefpaß-Filters 309 wird mit der Ausgabe des oben beschriebenen Hochpaß-Filters 308 kombiniert, um ein Basisband-Signal zu erzeugen.
In den vorher beschriebenen Ausführungsformen, ist ein Sprachsignal y(nΔt) durch die oben beschriebene Gleichung (1) definiert worden und eine Vorhersage- Analyse ist angesehen worden, als daß sie Vorhersage-Koeffizienten ai(i = 1, 2, 3, ... , N - 1) herleitet. Die Durchführung ist jedoch nicht auf dies beschränkt. Eine Vorhersage-Analyse-Verarbeitung in der vorliegenden Erfindung ist nicht auf die oben beschriebenen Ausführungsformen beschränkt.
Typischerweise wird, durch Beschreiben eines Sprachsignals in einer Z- Transformations-Form und unter der Annahme daß die Beziehung
y(z) = x(z)/(1 + F(z&supmin;¹))
erfüllt ist, F(z&supmin;¹) identifiziert. Verschiedene Methoden dies zu tun sind bekannt. Die Vorhersage-Analyse in der vorliegenden Erfindung schließt sie alle ein.
Und das lineare Vorhersage-System in der vorliegenden Erfindung bedeutet jedes System zum Ermitteln von x(z) aus y(z) durch die folgende Beziehung.
x(z) = {1 + F(z&supmin;¹)} · y(z)
Das Autoregessions-System in der vorliegenden Erfindung bedeutet jedes System zum Ermitteln von y(z) aus x(z) durch die folgende Gleichung.
y(z) = x(z)/1 + F(z&supmin;¹)
Gemäß der vorliegenden Erfindung werden Systemparameter, welche zur Analyse und Synthese eines Sprachsignals verwendet werden, in einem Schmalband- Analogsignal eingebettet und übertragen. Daher wird es einfach, ein Sprachsignal- Bandbreiten-Kompressions- und Expansionsgerät zu erhalten, welches eine Übertragung über ein Schmalband-Analog-Übertragungssystem zusätzlich zu der Konvertierung von Abtastraten möglich macht.
Weiterhin wird, gemäß der vorliegenden Erfindung, die Niederfrequenz- Komponente, welche einen Hauptteil des Original-Sprachsignals bildet, so wie sie ist übertragen und die Niederfrequenz-Komponente wird als ein Teil des Aufrufsignals auf der empfangenden Seite verwendet. Daher wird es möglich, ein Sprachübertragungs-Verfahren und ein Reproduzierungs-Verfahren von hoher Qualität frei von Verschlechterung der Artikulation trotz einer Schmalbandübertragung leicht zu erhalten. Gemäß der vorliegenden Erfindung bedeutet das, ein Niederfrequenzband-Residual-Signal wird als das Aufrufsignal der empfangenden Seite verwendet. Daher werden Informationen in einem Teil, wo die Vorhersage nicht zugetroffen hat, interpoliert. Als Ergebnis ist die Verschlechterung der phonemischen Eigenschaften gering und somit kann eine hohe Artikulation aufrechterhalten werden.
Da eine Schmalbandübertragung mit einer hohen beibehaltenen Artikulation somit möglich wird, können die Kosten der Übertragungsschaltung reduziert werden und außerdem können limitierte Ressourcen, besonders das Funkfrequenzband, effizient genutzt werden.
Nebenbei werden in digitalen Übertragungsverfahren, Parameterwerte in jeder Rahmenperiode aktualisiert. Als Ergebnis besteht die Gefahr, daß ein diskontinuierlicher Teil der Sprache durch einen Sprung an dem Ende des Rahmens verursacht werden könnte. Da eine Übertragung in der Form einer analogen Wellenform gemäß der vorliegenden Erfindung möglich ist, antworten die linearen Vorhersage-Koeffizienten jedoch nahezu in Echtzeit. Daher besteht keine Gefahr, daß eine Diskontinuität in der Sprache auftreten könnte.

Claims

1. Sprachsignal-Bandbreiten-Kompressions- und Expansionsgerät mit einer Sendeseite und einer Empfangsseite, wobei die Sendeseite aufweist:

eine lineare Vorhersage-Analyseeinrichtung (103) zum Extrahieren von Systemparametern (ai) aus einem zu übertragenden Sprachsignal (y(nΔt));

ein lineares Vorhersagesystem zum Durchführen einer inversen Filterbearbeitung (104), um ein Vorhersage-residuelles Signal (x(nΔt)) aus dem Sprachsignal durch Verwenden der Systemparameter zu erhalten;

Filtereinrichtungen (105) zum Entfernen einer Hochfrequenz- Bandkomponente des Vorhersage-residuellen Signals;

Abwärts-Abtasteinrichtungen (109) zum Erniedrigen einer Abtastrate eines Ausgangssignals der Filtereinrichtungen um ein vorbestimmtes Verhältnis, um ein Basisbandsignal (x'(nΔT)) zu erhalten; und

lineare Vorhersage-Synthesizer-Einrichtungen (110), um ein Schmalband- Zeitseriensignal (w(nΔT)) aus dem Basisbandsignal (x'(nΔT)) durch Verwenden der Systemparameter zu erhalten;

einen Digital-zu-Analog-Konverter (111) zum Konvertieren des Schmalband-Zeitseriensignals in ein analoges Übertragungssignal; und

wobei die Empfangsseite aufweist:

einen Analog-zu-Digital-Konverter (202) zum Konvertieren des analogen Übertragungssignals in das Schmalband-Zeitseriensignal, lineare Vorhersage-Analyseeinrichtungen (203) zum Extrahieren von Systemparametern aus dem Schmalband-Zeitseriensignal,

ein lineares Vorhersagesystem zum Durchführen einer inversen Filterbearbeitung (204), um ein reproduziertes Basisbandsignal aus dem Schmalband-Zeitseriensignal zu erzeugen;

Aufwärts-Abtasteinrichtungen (205) zum Erhöhen einer Abtastrate des reproduzierten Basisbandsignals um ein vorbestimmtes Verhältnis, um ein reproduziertes Zeitseriensignal zu erhalten;

Einrichtungen (209) zum Erzeugen einer Hochfrequenz-Bandkomponente aus dem reproduzierten Zeitseriensignal;

Einrichtungen zum Hinzufügen der erzeugten Hochfrequenz- Bandkomponente zum reproduzierten Basisbandsignal, um ein Aufrufsignal zu erhalten; und

lineare Vorhersage-Synthesizer-Einrichtungen (210) zum Ableiten eines reproduzierten Sprachsignals aus dem Aufrufsignal durch Verwenden der Systemparameter.

2. Sprachsignal-Bandbreiten-Kompressions- und Expansionsgerät mit einer Sendeseite und einer Empfangsseite, wobei die Sendeseite aufweist:

erste lineare Vorhersage-Analyseeinrichtungen (103) zum Extrahieren erster Systemparameter (ai), die mit einem Formanten eines zu sendenden Sprachsignals verbunden sind;

ein erstes lineares Vorhersagesystem zum Erhalten eines ersten Vorhersage-residuellen Signals (x(nΔt)) aus dem Sprachsignal durch Verwenden der ersten Systemparameter;

zweite lineare Vorhersage-Analyseeinrichtungen (301) zum Extrahieren zweiter Systemparameter (ai'), die mit einer Teilung des Sprachsignals von einer Niederfrequenz-Bandkomponente des ersten Vorhersage-residuellen Signals (109) abwärts abgetastet verbunden sind;

ein zweites lineares Vorhersagesystem zum Erhalten eines zweiten Vorhersage-residuellen Signals aus der Niederfrequenz-Bandkomponente des ersten Vorhersage-residuellen Signals durch Verwenden der zweiten Systemparameter;

erste lineare Vorhersage-Synthesizer-Einrichtungen (303) zum Erhalten eines Niederfrequenz-Rauschsignals aus einem Weiß-Rausch-Signal durch Verwenden der zweiten Systemparameter;

Einrichtungen zum Hinzufügen eines Ausgabesignals der ersten linearen Vorhersage-Synthesizer-Einrichtungen zum Vorhersage-residuellen Signal, um ein Basisbandsignal zu erhalten; und

zweite lineare Vorhersage-Synthesizer-Einrichtungen (110), um ein Schmalband-Wellenform-Sprachsignal aus dem Basisbandsignal durch Verwenden erster Systemparameter zu erhalten,

einen Digital-zu-Analog-Konverter (111) zum Konvertieren des Schmalband-Wellenform-Σprachsignals in ein analoges Übertragungssignal, und wobei die Empfangsseite aufweist:

einen Analog-zu-Digital-Konverter (202) zum Konvertieren des analogen Übertragungssignals in ein empfangenes Schmalband-Wellenform- Sprachsignal,

dritte lineare Vorhersage-Analyseeinrichtungen (203) zum Extrahieren der ersten Systemparameter aus dem empfangenen Schmalband-Wellenform- Sprachsignal;

ein drittes lineares Vorhersagesystem (204), um ein reproduziertes lineares Vorhersage-residuelles Signal aus dem Schmalband-Wellenform- Sprachsignal durch Verwenden der ersten Systemparameter zu erhalten;

vierte lineare Vorhersage-Analyseeinrichtungen (402) zum Extrahieren der zweiten Systemparameter aus einer Niederfrequenz-Rauschkomponente des reproduzierten linearen Vorhersage-residuellen Signals, abwärts abgetastet;

Filtereinrichtungen (206) zum Entfernen einer Niederfrequenz- Rauschkomponente aus dem reproduzierten Vorhersage-residuellen Signal;

dritte lineare Vorhersage-Synthesizer-Einrichtungen (210) zum Erhalten eines ersten reproduzierten Basisbandsignals aus einem Ausgabesignal der Filtereinrichtungen durch Verwenden der zweiten Systemparameter;

Einrichtungen zum Aufwärts-Abtasten (205) des ersten reproduzierten Basisbandsignals und dann Erzeugen einer Hochfrequenz- Bandkomponente (209);

Einrichtungen zum Hinzufügen der erzeugten Hochfrequenz- Bandkomponente zum ersten reproduzierten Basisbandsignal, um ein Aufrufsignal zu erhalten;

vierte lineare Vorhersage-Synthesizer-Einrichtungen (403) zum Erzeugen eines reproduzierten Sprachsignals aus dem Aufrufsignal durch Verwenden der ersten Systemparameter.

3. Sprachsignal-Bandbreiten-Kompressions- und Expansionsgerät nach Anspruch 2, wobei die Sendeseite des weiteren Einrichtungen (304) zum Abwärts-Abtasten des zweiten Vorhersage-residuellen Signals und zum Erhalten eines Weiß-Rausch-Signals und Einrichtungen (305) aufweist, zum Aufwärts-Abtasten des Ausgangssignals von den ersten linearen Vorhersage-Synthesizer-Einrichtungen.

4. Sprachsignal-Bandbreiten-Kompressions- und Expansionsgerät nach Anspruch 2 oder 3, wobei die Sendeseite des weiteren Einrichtungen (306) aufweist zum Durchführen einer nichtlinearen Bearbeitung auf dem ersten Vorhersage-residuellen Signal, um eine fundamentale Frequenzkomponente einer Niederfrequenz-Teilungs-Komponente zu erzeugen.

5. Sprachsignal-Bandbreiten-Kompressions- und Expansionsgerät nach Anspruch 1, wobei die Sendeseite des weiteren Einrichtungen zum Hinzufügen eines Niederfrequenz-Rauschsignals mit einem Leistungspegel aufweist, der mit einem Leistungspegel einer Hochfrequenz-Bandkomponente des Vorhersage-residuellen Signals verbunden ist, zu einer Niederfrequenz-Bandkomponente des Vorhersage-residuellen Signals, um ein Zeitseriensignal zu erhalten, und wobei die Abwärts-Abtasteinrichtungen die Abtastrate des Zeitseriensignals um ein vorbestimmtes Verhältnis erniedrigen, um ein Basisbandsignal zu erhalten, und wobei die Empfangsseite des weiteren Einrichtungen aufweist zum Erzeugen eines Niederfrequenz-Rauschsignals durch Verbinden eines Leistungspegels einer Hochfrequenz-Bandkomponente des reproduzierten Zeitseriensignals zu einem Leistungspegel einer Niederfrequenz- Bandkomponente des reproduzierten Zeitseriensignals und wobei die Einrichtungen zum Hinzufügen an der Aufnahmeseite das Niederfrequenz- Rauschsignal zu einer Hochfrequenz-Bandkomponente des reproduzierten Basisbandsignals hinzufügen, um ein Aufrufsignal zu erhalten.

6. Sprachsignal-Bandbreiten-Kompressions- und Expansionsgerät nach Anspruch 2, wobei die Sendeseite des weiteren Einrichtungen zum Ausgeben des Niederfrequenz-Rauschsignals aufweist, um einen Pegel des Niederfrequenz-Rauschsignals mit einem Leistungspegel einer Hochfrequenz- Bandkomponente des ersten Vorhersage-residuellen Signals zu verbinden, und wobei die Einrichtungen zum Hinzufügen an der Sendeseite ein Ausgabesignal der Einrichtungen zum Ausgeben zum zweiten Vorhersagesignal hinzufügen, um ein Basisbandsignal zu erhalten und die Empfangsseite des weiteren Einrichtungen zum Ausgeben der Hochfrequenz- Komponente aufweist, um einen Pegel der Hochfrequenz-Komponente mit einem Leistungspegel einer Niederfrequenz-Komponente des Schmalband- Wellenform-Sprachsignals zu verbinden und wobei die Einrichtungen zum Hinzufügen an der Empfangsseite ein Ausgabesignal der Einrichtungen zum Ausgeben zum ersten reproduzierten Basisbandsignal hinzufügen, um ein Aufrufsignal zu erhalten.

7. Sprachsignal-Bandbreiten-Kompressions-Übertragungsverfahren, welches die Schritte aufweist:

Abtasten eines Sprachsignals, um ein abgetastetes Signal zu erhalten (102), Extrahieren (103) von Systemparametern, welche Charakteristiken des Sprachsignals aus dem abgetasteten Signal anzeigen, Erzeugen (104) eines Vorhersage-residuellen Signals aus dem abgetasteten Signal durch Verwenden der abgetasteten Systemparameter und Senden mindestens von einer erforderlichen Komponente des Vorhersage-residuellen Signals und von Information der Systemparameter, wobei das Sprachsignal- Bandbreiten-Kompressions-Übertragungsverfahren des weiteren die Schritte aufweist:

Entfernen (105) einer Hochfrequenz-Bandkomponente aus dem Vorhersage-residuellen Signal und Komprimieren einer Bandbreite des Vorhersageresiduellen Signals auf eine vorbestimmte Bandbreite;

Kombinieren (110) des Bandbreiten-komprimierten Signals mit den Systemparametern in einer Form von Autokorrelation; und

Konvertieren (111) des kombinierten Signals zu einer analogen Wellenform und Senden der analogen Wellenform.

8. Sprachsignal-Reproduzierverfahren, welches die Schritte aufweist:

Empfangen eines Signals, welches mindestens eine erforderliche Komponente eines Vorhersage-residuellen Signals eines Sprachsignals und Information von Systemparametern des Sprachsignals beinhaltet, und Reproduzieren des Sprachsignals aus dem empfangenen Signal, wobei das Sprachsignal-Reproduzierverfahren des weiteren die Schritte aufweist:

Abtasten des empfangenen Signals, das eine analoge Wellenform aufweist, und dann Extrahieren (203) der Systemparameter (ai);

Erzeugen eines Vorhersage-residuellen Signals (x'(nΔT)) aus dem Signal durch Verwenden der extrahierten Systemparameter;

Erzeugen einer Hochfrequenz-Bandkomponente aus dem Vorhersageresiduellen Signal, daraufhin Hinzufügen der erzeugten Hochfrequenz- Bandkomponente zum Vorhersage-residuellen Signal, um eine Expansion zu einer vorbestimmten Bandbreite durchzuführen; und

Kombinieren des expandierten Signals mit den Systemparametern in Form einer Autokorrelation, um ein reproduziertes Sprachsignal zu erhalten.

9. Sprachsignal-Bandbreiten-Kompressions-Übertragungsverfahren nach Anspruch 7, welches des weiteren die Schritte aufweist:

zusätzlich zum Entfernen einer Hochfrequenz-Bandkomponente aus dem Vorhersage-residuellen Signal, Addieren eines Niederfrequenz- Rauschsignals, welches einen Leistungspegel aufweist, der mit einem Leistungspegel der Hochfrequenz-Bandkomponente des Vorhersageresiduellen Signals verbunden ist;

Erniedrigen einer Abtastrate des hinzugefügten Signals auf eine vorbestimmte Rate und danach Verwenden des resultierenden Signals als Eingabe für die Form der Autokorrelation.

10. Sprachsignal-Reproduzierverfahren nach Anspruch 8, welches des weiteren die Schritte aufweist:

Erzeugen eines Zeitseriensignals, welches eine Abtastrate aufweist, die vom Vorhersage-residuellen Signal auf eine vorbestimmte Rate erhöht ist;

Erzeugen der Hochfrequenz-Bandkomponente aus dem Zeitseriensignal und Wahrnehmen einer Pegeländerung eines Niederfrequenz- Rauschsignals, welches in dem Zeitseriensignal enthalten ist;

Steuern eines Leistungspegels der erzeugten Hochfrequenz- Bandkomponente gemäß der wahrgenommenen Pegeländerung und dann Verwenden der Komponente und des Zeitseriensignals als Eingaben in dem Hinzufügen-Schritt, um eine Expansion zu einer vorbestimmten Bandbreite durchzuführen.