DE19715126C2

DE19715126C2 - Sprachsignal-Codiervorrichtung

Info

Publication number: DE19715126C2
Application number: DE19715126A
Authority: DE
Inventors: Hidetaka Takahashi
Original assignee: Olympus Optical Co Ltd
Current assignee: Olympus Corp
Priority date: 1996-04-12
Filing date: 1997-04-11
Publication date: 2001-02-08
Anticipated expiration: 2017-04-12
Also published as: GB2312360B; GB9707087D0; DE19715126A1; GB2312360A; US6272459B1

Abstract

Eine Sprachsignal-Codiervorrichtung umfaßt einen Sprachzustandsdetektor (2) zum Feststellen, ob ein Eingangssignal, das in vorbestimmte Rahmenintervalle unterteilt ist, ein Sprachsignal oder ein Signal ohne Sprache ist; eine Linearvoraussage-Analysiereinrichtung (5) zum Ausgeben eines dem Eingangssignal zugeordneten Linearvoraussage-Parameters; eine Voraussageschaltung (11, 12, 14) für eine Tonquelle mit Sprache; eine Voraussageschaltung (21) für eine Tonquelle ohne Sprache, die einen Zufallssignalgenerator einschließt; und eine Schalter-Steuereinrichtung (3) zum Auswählen der Voraussageschaltung für eine Tonquelle mit Sprache oder der Voraussageschaltung für eine Tonquelle ohne Sprache entsprechend dem Ermittlungsergebnis des Sprachzustandsdetektors (2), wobei die dem Zufallssignal zugeordnete Verstärkung in Übereinstimmung mit einem Wert eingestellt wird, der dadurch erhalten wird, daß die Verstärkung um einen vorbestimmten Faktor unterdrückt wird, der erhalten wird, wenn ein als Eingangssignal vorgegebenes Signal ohne Sprache mit Hilfe der Voraussageschaltung für eine Tonquelle mit Sprache codiert wird.

Description

Die Erfindung betrifft eine Sprachsignal- Codiervorrichtung, insbesondere eine Sprachsignal- Codiervorrichtung zum Umwandeln eines Sprachsignals in eine komprimierte Digitalinformation und zum Aufzeichnen oder Übertragen der resultierenden Information.

Eine weit verbreitete Technik zur Komprimierung eines Sprachsignals in hocheffizienter Art und Weise besteht darin, das Sprachsignal unter Verwendung eines linearen Prädiktions- bzw. Voraussageparameters, der eine spektrale Hüllkurve darstellt, und ebenso unter Verwendung eines Tonquellenparameters, der einem residualen, linearen Voraussagesignal entspricht, zu codieren. Falls eine derartige Sprachcodiertechnik auf der Grundlage der linearen Voraussage verwendet wird, kann eine synthetische Sprache mit relativ hoher Qualität auf einem Übertragungskanal mit einer ziemlich geringen Kapazität vorgesehen werden. Infolge der obigen Vorteile als auch der jüngsten Entwicklung in der Hardware- Technologie gibt es in weitem Umfang intensive Forschungs- und Entwicklungsaktivitäten auf verschiedenen Anwendungsgebieten.

Unter verschiedenen Techniken, die auf der linearen Voraussage beruhen, ist die lineare Prädiktionscodierung mit Code-Erregung, kurz mit CELP bezeichnet, eine weit verbreitete Technik, die in der Druckschrift "Improved speech quality and efficient vector quantization in SELP" (Kleijin at al., ICASP' 88 s4.4, S. 155-158, 1998) offenbart ist und bei der ein Adaptivcodebuch verwendet wird, das durch eine Wiederholung der letzten Tonquellensignale erhalten wird.

Die Sprachsignal-Codiervorrichtung auf der Grundlage der linearen Voraussageanalyse weist den Vorteil auf, daß eine hochqualitative Codierleistung bei ziemlich niedrigen Bitraten erzielt werden kann. Dieser Typ der eine lineare Voraussageanalyse verwendenden Sprachsignal- Codiervorrichtung beruht auf der Annahme, daß die von einem Menschen erzeugten Sprache im allgemeinen einen periodischen Charakter aufweist, so daß es im allgemeinen möglich ist, einen Sprachsignalcode gut zu analysieren, falls die Länge eines Rahmens auf etwa 20 ms festgelegt ist. Die konventionelle Sprachsignal-Codiervorrichtung weist jedoch den Nachteil auf, daß, obwohl eine hohe Qualität für Sprachsignalperioden erzielt wird, eine hochqualitative Codierung für Signalperioden ohne Sprache nicht erhalten werden kann. Insbesondere tritt eine große Verschlechterung in der Sprachqualität auf, falls ein Hintergrundrauschen existiert, das größer als ein bestimmter Pegel ist.

Um eine effizientere Komprimierung zu erreichen, ist es im Stand der Technik bekannt, eine Codiertechnik mit variabler Rate zu verwenden, bei der die Bitrate in Übereinstimmung mit dem Zustand eines bestimmten Sprachsignals variiert wird. Es ist ferner bekannt, eine hocheffiziente Sprachsignal-Codiertechnik mit einer Komprimierungstechnik für ein Signal ohne Sprache zu verbinden, wie dies beispielsweise in der JP 58-203499 offenbart ist.

Bei der in der JP 58-203499 ("Variable length frame type linear forecast vocoder") offenbarten Technik wird die Codierung auf extrem unterschiedliche Art und Weise in Abhängigkeit davon durchgeführt, ob das Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist, so daß der reproduzierte Ton sehr unnatürlich beim Übergang zwischen Sprachperioden und sprachfreien Perioden wird.

Die Sprachsignal-Codiervorrichtung findet bei mobilen Telefonen, Sprachaufzeichnungseinrichtungen usw. Anwendung. Bei diesen Anwendungsfällen ist davon auszugehen, daß die Sprachsignal-Codiervorrichtung in verschiedenen Umgebungen verwendet wird, in denen in viele Fällen Hintergrundrauschen vorliegt. Demzufolge muß zur Realisierung eines atraktiveren Produkts das Problem der Sprachqualitätsverschlechterung gelöst werden.

Im Hinblick auf die vorstehenden Erläuterungen hat der Erfinder der vorliegenden Erfindung eine Sprachsignal- Codiervorrichtung mit hoher Leistung vorgeschlagen, bei der stets eine hohe Tonqualität ungeachtet davon vorgesehen wird, ob das Signal ein Signal mit Sprache oder Signal ohne Sprache ist, wie dies in der JP 9-114498 ("Speech encoding device") offenbart ist. Diese Codiervorrichtung umfaßt eine Sprachzustands- Erfassungseinrichtung zum Erfassen, ob ein Eingangssignal, das in vorbestimmte Rahmenintervalle unterteilt ist, ein Signal mit Sprache oder ein Signal ohne Sprache ist, eine Linearvoraussage- Analysiereinrichtung zum Ausgeben eines Spektralparameters, der dem Eingangssignal zugeordnet ist, eine Steuereinrichtung zum Steuern der Linearvoraussage-Analysiervorrichtung derart, daß, wenn das Ermittlungsergebnis seitens der Sprachzustands- Erfassungseinrichtung anzeigt, das das Eingangssignal über eine vorbestimmte Anzahl von aufeinanderfolgenden Rahmen ein Signal ohne Sprache ist, die Linearvorhersage- Analysiereinrichtung kontinuierlich den Spektralparameter abgibt, der für die vorbestimmte Anzahl von vorhergehenden Rahmen als Spektralparameter für das Eingangssignal verwendet wurde, eine Tonsteuersignal- Erzeugungseinrichtung zum Erzeugen eines Tonquellen- Steuersignals, das einem restlichen Linearvorhersagesignal entspricht und ein Synthetisierungsfilter zum Synthetisieren einer Sprache vom Tonquellen-Steuersignal entsprechend dem Spektralparameter.

Bei der obigen, in der JP 9-114498 vorgeschlagenen Technik tritt, obwohl die Tonqualitätsverschlechterung, die auftritt, wenn der Spektralparameter am Übergang zwischen Perioden mit Sprache und Perioden ohne Sprache geschaltet wird, unterdrückt werden kann, immer noch eine Tonqualitätsverschlechterung auf und es wird keine Verbesserung erzielt, falls das Signal ohne Sprache über eine längere Zeitperiode anhält.

Eine konventionelle Technik zum Erzielen eines hohen Wirkungsgrades bei der Kompremierung von Sprachdaten besteht darin, daß eine hochwirksame Sprachsignal- Codiertechnik mit einer Kompremierungstechnik für Signale ohne Sprache kombiniert wird. Eine gut bekannte Kompremierungstechnik für Signale ohne Sprache ist eine mit VAT (voice activity detection - Sprachaktivitätserfassung) bezeichnete Technik, bei der festgestellt wird, ob ein bestimmtes Eingangssignal ein Signal mit Sprache oder ein Signal ohne Sprache ist, und eine Aufzeichnung auf ein Aufzeichnungsmedium oder eine Datenübertragung unterbrochen wird, falls die Feststellung anzeigt, daß das Eingangssignal ein Signal ohne Sprache ist.

Eine weitere gut bekannte Technik ist die Sprachsignal- Codiertechnik mit variabler Rate, bei der die Bitrate abhängig vom Zustand eines Eingangssignals geändert wird.

Ein spezielles Beispiel dieser Technik ist in einem Artikel mit dem Titel "QCELP: The North American CDMA Digital Cellular Variable Rate Speech Coding Standard," (A. DeJaco, W. Gardner, P. Jacobs, and C. Lee, Proceedings IEEE Workshop on Speech Coding for Telecommunications, Seiten 5-6, 1993) offenbart.

Bei dieser Technik wird ein Schwellenwert über einen weiten Bereich von einem extrem niedrigen Hintergrundgeräuschpegel bis zu einem hohen Hintergrundgeräuschpegel durch allmähliches Anwachsen des Schwellenwerts ausgehend von einem kleinen Wert angepaßt, wodurch sichergestellt wird, daß der Zustand des Eingangssignals ungeachtet der Zunahme des Hintergrundrauschens exakt erfaßt werden kann.

Bei der obigen Technik nimmt die Zeit, die für die Erfassungseinrichtung erforderlich ist, um einen Zustand zu erreichen, bei dem der Zustand eines bestimmten Spracheingangssignals korrekt erfaßt werden kann, mit dem Eingangssignalpegel oder dem Hintergrundrauschpegel zu, und es ist nicht möglich, einen wünschenswerten Codierungswirkungsgrad zu erzielen, ehe die Erfassungseinrichtung den obigen Zustand erreicht.

Aus der Veröffentlichung "Speech Coding: A Tutorial review" in den proceedings der IEEE, vol. 82, no. 10, Oktober 1994, Seiten 1541 bis 1582 ist eine Sprachsignal- Codierungseinrichtung entsprechend dem Oberbegriff des Patentanspruches 1 bekannt, die es entsprechend der nachfolgenden Aufgabe der Erfindung auszugestalten gilt.

Es ist somit Aufgabe der Erfindung, eine Sprachsignal- Codiervorrichtung vorzuschlagen, mit der ein Sprachsignal in hoher Qualität codiert werden kann.

Ferner soll eine Sprachsignal-Codiervorrichtung vorgesehen werden, die einen natürlichen Ton selbst für Signale in sprachfreien Zeitperioden reproduzieren kann und die eine Sprachzustandserfassungseinrichtung aufweist, die den Schwellenwert rasch anpassen und somit den Sprachzustand in kurzer Zeit erfassen kann.

Die vorstehende Aufgabe wird durch die Merkmale des Patentanspruches 1 gelöst.

Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche 2 bis 8.

Die Erfindung wird nachstehend anhand der Zeichnung näher erläutert. Es zeigen:

Fig. 1 ein Blockdiagramm, das den Aufbau einer Sprachsignal-Codiervorrichtung gemäß einem ersten Ausführungsbeispiel verdeutlicht;

Fig. 2 ein Blockdiagramm, das die Einzelheiten eines Sprachzustandsdetektors beim ersten Ausführungsbeispiel verdeutlicht;

Fig. 3 ein Diagramm, das ein Beispiel eines Schwellenwerts verdeutlicht, der dem Sprachzustandsdetektor zugeordnet ist und durch eine Schwellenwert-Bestimmungsschaltung gemäß dem ersten Ausführungsbeispiel bestimmt wird;

Fig. 4 ein Blockdiagramm, das den Aufbau einer Sprachsignal-Codiervorrichtung gemäß einem zweiten Ausführungsbeispiel verdeutlicht;

Fig. 5 ein Flußdiagramm, das den Betrieb der Sprachsignal-Codiervorrichtung des zweiten Ausführungsbeispiels wiedergibt;

Fig. 6 ein Blockdiagramm, das den Aufbau eines Sprachzustandsdetektors gemäß dem dritten Ausführungsbeispiel verdeutlicht;

Fig. 7 ein Flußdiagramm, das einen Betriebsabschnitt des Sprachzustandsdetektors gemäß dem dritten Ausführungsbeispiel wiedergibt;

Fig. 8 ein Flußdiagramm, das einen anderen Betriebsabschnitt des Sprachzustandsdetektors des dritten Ausführungsbeispiels verdeutlicht; und

Fig. 9A bis 9E Zeitdiagramme, die den Vorgang des Erfassens des Sprachzustands durch den Sprachzustandsdetektor des dritten Ausführungsbeispiels im Vergleich zu dem Vorgang des Erfassens des Sprachzustands durch einen konventionellen Sprachzustandsdetektor wiedergeben.

Die Fig. 1 bis 3 verdeutlichen ein erstes Ausführungsbeispiel einer Sprachsignal-Codiervorrichtung, wobei deren Aufbau in Fig. 1 in Form eines Blockdiagramms dargestellt ist.

Die Sprachsignal-Codiervorrichtung des vorliegenden Ausführungsbeispiels beruht auf einer Kombination einer Linearvoraussage-Codierung mit Code-Erregung (CELP) mit einer Komprimierung eines Signals ohne Sprache.

Wie aus Fig. 1 ersichtlich, liegt ein Eingangssignal an einem Pufferspeicher 1 an. Das Ausgangssignal des Pufferspeichers 1 wird in drei Signale unterteilt, wobei ein erstes Ausgangssignal über einen Unterrahmen- Unterteiler 7 einem Subtrahierglied 8, ein zweites Ausgangssignal dem Eingang einer LPC-Analysiereinrichtung 5, die als Linearvoraussage-Analysiereinrichtung dient, und ein drittes Ausgangssignal einer als Codeart- Auswahleinrichtung dienenden Schalter-Steuereinrichtung 3 über einen als Sprachzustands-Erfassungseinrichtung dienenden Sprachzustandsdetektor 2 zugeführt wird.

Die Schalter-Steuereinrichtung 3 steuert den EIN/AUS- Betrieb eines Schalters 20, der später in Verbindung mit dem vom Sprachszustandsdetektors 2 vorgegebenen Ermittlungsergebnis erläutert wird. Das heißt, falls das Ermittlungsergebnis seitens des Sprachzustandsdetektors 2 anzeigt, daß das Eingangssignal ein Sprachsignal ist, schaltet die Schalter-Steuereinrichtung 3 den Schalter 20 ein, wodurch ein später beschriebenes Adaptivcodebuch 12 freigegeben wird. Falls andererseits der Sprachzustandsdetektor 2 folgert, daß das Eingangssignal ein Signal ohne Sprache ist, so schaltet die Schalter- Steuereinrichtung 3 den Schalter 20 aus, wodurch das Adaptivcodebuch 12 gesperrt wird.

Die LPC-Analyisiereinrichtung 5 steht mit einem Synthetisierungsfilter 6 in Verbindung, das auch ein Signal empfängt, das unter Verwendung des Adaptivcodebuches 12 erzeugt wird, das ein Element eines Voraussageteils für eine Tonquelle mit Sprache ist, während ein Wahrscheinlichkeitscodebuch 14 ein anderes Element des Voraussageteils für eine Tonquelle mit Sprache bildet.

Das Adaptivcodebuch 12 steht über einen Multiplizierer 13 und den Schalter 20 mit einer ersten Eingangsklemme eines Addierglieds 17 in Verbindung. Das Wahrscheinlichkeitscodebuch 14 ist über einen Multiplizierer 15 und einen Schalter 16 mit einer zweiten Eingangsklemme des Addierglieds 17 verbunden.

Die Ausgangsklemme des Addierglieds 17 steht über das Synthetisierungsfilter 6 mit der Eingangsklemme des Subtrahierglieds 8 und ebenso über eine Verzögerungsschaltung 11, die ein weiteres Element des Voraussageteils für eine Tonquelle mit Sprache darstellt, mit dem Adaptivcodebuch 12 in Verbindung.

Das Ausgangssignal des Wahrscheinlichkeitscodebuches 14 wird über den Multiplizierer 15 und den Schalter 16 auch einem Zufallssignalgenerator 21 zugeführt, der als Zufallssignal-Erzeugungseinrichtung und als Voraussageteil für eine Tonquelle ohne Sprache dient. Der Ausgang des Zufallssignalgenerators 21 steht mit einer dritten Eingangsklemme des Addierglieds 17 über einen Multiplizierer 22 und einen Schalter 23 in Verbindung.

Die Ausgangsklemme des Synthetisierungsfilters 6 ist über das mit dem Unterrahmen-Unterteiler 7 verbundene Subtrahierglied 8 und ferner über ein Hörbarkeits- Wichtungsfilter 9 mit der Eingangsklemme einer Fehlerauswerteschaltung 10 verbunden. Das Auswerteergebnis der Fehlerauswerteschaltung 10 wird zum Adaptivcodebuch 12, zum Wahrscheinlichkeitscodebuch 14 und zu den Multiplizierern 13 und 15 rückgekoppelt, so daß ein optimaler Code ausgewählt und der zugeordnete Verstärkungsgrad auf einen optimalen Wert eingestellt wird. Das obige Auswerteergebnis wird auch einem Multiplexer 18 zugeführt.

Bei der vorstehend beschriebenen Sprachsignal- Codiervorrichtung wird die Linearvoraussage- Codiervorrichtung gebildet durch die Verzögerungsschaltung 11, das Adaptivcodebuch 12, das Wahrscheinlichkeitscodebuch 14, den Zufallssignalgenerator 21, die Multiplizierer 13, 15 und 22, die Schalter 16, 20 und 23 sowie das Addierglied 17.

Fig. 2 stellt ein Blockdiagramm dar, das Einzelheiten des Sprachzustandsdetektors 2 verdeutlicht.

Das Ausgangssignal des Pufferspeichers 1 wird dem Sprachzustandsdetektor 2 angelegt. In dem Sprachzustandsdetektor 2 wird das angelegte Signal in zwei Signale so unterteilt, daß das eine Signal einer Rahmenenergie-Analysiereinrichtung 2a und das andere Signal einer Anfangsrahmenenergie-Analysiereinrichtung 2b zugeführt wird.

Der Ausgang der Rahmenenergie-Analysiereinrichtung 2a steht mit einer ersten Eingangsklemme in Verbindung, die als eine positive Klemme eines Addierglieds 2c dient. Der Ausgang der Anfangsrahmenenergie-Analyisiereinrichtung 2b steht mit einer zweiten Eingangsklemme in Verbindung, die als eine negative Klemme des Addierglieds 2c dient. Der Ausgang der Anfangsrahmenenergie-Analysiereinrichtung 2b steht auch mit einer Schwellenwert-Bestimmungsschaltung 2d in Verbindung.

Die Ausgangsklemme des Addierglieds 2c und die Ausgangsklemme der Schwellenwert-Bestimmungsschaltung 2d sind mit einem Detektor 2e verbunden, dessen Ausgangssignal der Schalter-Steuereinrichtung 3 zugeführt wird.

Der Signalfluß durch die Sprachsignal-Codiervorrichtung mit dem in den Fig. 1 und 2 verdeutlichten Aufbau wird nachfolgend beschrieben.

Ein Originalsprachsignal, das mit beispielsweise 8 kHz abgetastet wird (oder zu Zeitintervallen von 1/8 ms abgetastet wird), wird über die Eingangsklemme der Sprachsignal-Codiervorrichtung angelegt. Das Sprachsignal in einer vorbestimmten Rahmenperiode (z. B. 20 ms, in denen 160 Abtastwerte vorliegen) wird in dem Pufferspeicher 1 abgespeichert.

Der Pufferspeicher 1 führt das obige Eingangssignal in Einheiten von Rahmen dem Unterrahmen-Unterteiler 7, der LPC-Analysiereinrichung 5 und dem Sprachzustandsdetektor 2 zu.

Der Sprachzustandsdetektor 2 ermittelt, ob das Eingangssignal in einem bestimmten Rahmen ein Signal mit Sprache (Sprachsignal) oder ein Signal ohne Sprache ist, und zwar z. B. in der nachfolgend beschriebenen Art und Weise.

Bei dem entsprechend Fig. 2 aufgebauten Sprachzustandsdetektor 2 berechnet die Rahmenenergie- Analysiereinrichtung 2a die dem Eingangssignal zugeordnete Rahmenenergie E_f gemäß der nachfolgenden Gleichung (1)

wobei s(n) das Eingangssignal eines n-ten Abtastwerts und N die Rahmenlänge ist.

Die Anfangsrahmenenergie-Analysiereinrichtung 2b berechnet die Anfangsrahmenenergie E_b zu Beginn eines Codiervorganges gemäß Gleichung (1).

Die Schwellenwert-Bestimmungsschaltung 2d setzt einen Schwellenwert in Abhängigkeit von der Hintergrundrauschenergie fest. Zum Beispiel wird, wie aus Fig. 3 ersichtlich, der Schwellenwert (in dB) mit einer Zunahme der Hintergrundrauschenergie (in dB) verringert. Der festgesetzte Schwellenwert wird dem Detektor 2e zugeführt.

Das Addierglied 2c empfängt die Rahmenenergie E_f an seiner positiven Eingangsklemme und die Anfangsrahmenenergie E_b an seiner negativen Eingangsklemme und addiert diese beiden Signale. Somit wird die Anfangsrahmenenergie E_b von der Rahmenenergie E_f abgezogen. Der sich ergebende Subtraktionswert wird dem Detektor 2e zugeführt.

Der Detektor 2e vergleicht den Subtraktionswert mit dem Schwellenwert. Ist der Subtraktionswert größer als der Schwellenwert, wird der Eingangssignalrahmen als Sprachsignalrahmen angesehen. Im entgegengesetzten Fall wird der Eingangssignalrahmen als Rahmen eines Signals ohne Sprache angesehen.

Betrachtet man wieder Fig. 1, so unterteilt der Unterrahmen-Unterteiler 7 das Eingangssignal in jedem Rahmen in Unterrahmen, von denen jeder einer vorbestimmte Zeitperiode aufweist (z. B. 5 ms, so daß jeder Unterrahmen 40 Abtastwerte einschließt). Das heißt, das Eingangssignal in jedem Rahmen wird durch einen ersten, zweiten, dritten und vierten Unterrahmen unterteilt, so daß für jeden Rahmen vier Unterrahmen erzeugt werden.

Die LPC-Analysiereinrichtung 5 führt eine Linearvoraussage-Codier (LPC)-Analyse im Hinblick auf das Eingangssignal durch und gewinnt einen Linearvoraussage- Parameter α, der die Spektralcharakteristik des Eingangssignals darstellt. Der gewonnene Linearvoraussage-Parameter α wird dem Synthetisierungsfilter 6 und dem Multiplexer 18 zugeführt.

Die Verzögerung L und die Verstärkung β, die dem Adaptivcodebuch 12 zugeordnet sind, und der Index i und die Verstärkung γ, die dem Wahrscheinlichkeitscodebuch 14 zugeordnet sind, werden in der nachfolgend beschriebenen Art und Weise bestimmt.

Der Vorgang der Bestimmung der Verzögerung L und der Verstärkung β wird zuerst beschrieben.

Die Verzögerungsschaltung 11 erzeugt eine Verzögerung bei dem in das Synthetisierungsfilter 6 eingegebene Signal des vorhergehenden Rahmens, d. h. dem Tonquellen- Steuersignal, um einen Betrag, der dem Abstandszyklus entspricht, wodurch ein Adaptivcodevektor erzeugt wird.

Wird beispielsweise angenommen, daß der Abstandszyklus gleich 40-167 Abtastwerten ist, so werden 128 Arten von Signalen, die um 40-167 Abtastwerte verzögert sind, als Adaptivcodevektoren erzeugt und im Adaptivcodebuch 12 gespeichert.

Während des obigen Vorganges wird der Schalter 16 im offenen Zustand gehalten. In dem Multiplizierer 13 wird jeder Adaptivcodevektor mit einem variierenden Verstärkungswert multipliziert, und das Ergebnis wird nach Durchlaufen durch das Addierglied 17 direkt dem Synthetisierungsfilter 6 zugeführt.

Das Synthetisierungsfilter 6 synthetisiert einen Vektor unter Verwendung des Linearvoraussage-Parameters α'. Der resultierende synthetisierte Vektor wird dem Subtrahierglied 8 zugeführt. Das Subtrahierglied 8 subtrahiert den synthetisierten Vektor vom Originalsprachvektor, wodurch ein Fehlervektor erzeugt wird. Der erhaltene Fehlervektor wird dem Hörbarkeits- Wichtungsfilter 9 zugeführt.

Das Hörbarkeits-Wichtungsfilter 9 führt einen Wichtungsprozeß im Hinblick auf den Fehlervektor unter Berücksichtigung von Hörbarkeitscharakteristiken durch. Der gewichtete Fehlervektor wird dann der Fehlerauswerteschaltung 10 zugeführt.

Die Fehlerauswerteschaltung 10 berechnet das dem Fehlervektor zugeordnete mittlere Quadrat und sucht nach einem Adaptivcodevektor, der ein minimales mittleres Quadrat aufweist. Die sich ergebende Verzögerung L und die Verstärkung β werden dem Multiplexer 18 zugeführt. Auf diese Weise werden die Verzögerung L und die Verstärkung β bestimmt, die dem Adaptivcodebuch 12 zugeordnet sind.

Nachfolgend wird nun der Vorgang der Bestimmung des Index i und der Verstärkung γ beschrieben.

Das Wahrscheinlichkeitscodebuch 14 speichert z. B. 512 Wahrscheinlichkeitscodevektoren, von denen jeder eine Dimension aufweist, die der Unterrahmenlänge entspricht (40 beim obigen speziellen Beispiel), wobei jedem Wahrscheinlichkeitscodevektor sein eigener Index zugeordnet ist. Während des obigen Vorgangs wird der Schalter 16 im geschlossenen Zustand gehalten.

Mit Hilfe des Multiplizierers 13 wird der beim obigen Vorgang erhaltene optimale Adaptivcodevektor mit der optimalen Verstärkung β multipliziert, und das Ergebnis wird dem Addierglied 17 zugeführt.

Mit Hilfe des Multiplizierers 15 wird jeder Wahrscheinlichkeitscodevektor mit einem sich ändernden Verstärkungswert multipliziert, woraufhin das Ergebnis dem Addierglied 17 zugeführt wird. Das Addierglied 17 bestimmt die Summe aus optimalem Adaptivcodevektor multipliziert mit der optimalen Verstärkung β und jedem Codevektor. Das Ergebnis wird dann dem Synthetisierungsfilter 6 zugeführt.

Daraufhin wird ein Vorgang durchgeführt, der ähnlich demjenigen ist, der bei der Bestimmung der obigen Adaptivcodebuch-Parameter verwendet wurde. Das heißt, das Synthetisierungsfilter 6 synthetisiert einen Vektor unter Verwendung des Linearvoraussage-Parameters α' und führt den resultierenden synthetisierten Vektor dem Subtrahierglied 8 zu.

Das Subtrahierglied 8 subtrahiert den synthetisierten Vektor vom Originalsprachvektor, wodurch ein Fehlervektor erzeugt wird. Der erhaltene Fehlervektor wird dem Hörbarkeits-Wichtungsfilter 9 zugeführt.

Das Hörbarkeits-Wichtungsfilter 9 führt einen Wichtungsprozeß im Honblick auf den Fehlervektor unter Berücksichtigung von Hörbarkeitscharakteristiken durch. Der gewichtete Fehlervektor wird dann der Fehlerauswerteschaltung 10 zugeführt.

Die Fehlerauswerteschaltung 10 berechnet das dem Fehlervektor zugeordnete mittlere Quadrat und sucht nach einem Adaptivcodevektor, der ein minimales mittleres Quadrat aufweist. Der Index i und die Verstärkung γ, die daraus resultieren, werden dem Multiplexer 18 zugeführt. Auf diese Weise werden der Index i und die Verstärkung γ bestimmt, die dem Wahrscheinlichkeitscodebuch 14 zugeordnet sind.

Der Multiplexer 18 überträgt in einer Mutiplexart den quantisierten Linearvoraussage-Parameter α', die Verzögerung L und die Verstärkung β, die dem Adaptivcodebuch zugeordnet sind, und den Index i und die Verstärkung γ, die dem Wahrscheinlichkeitscodebuch zugeordnet sind.

Wird gefolgert, daß das Eingangssignal in einem bestimmten Rahmen ein Signal ohne Sprache ist, so wird die Verstärkung des Tonquellensignals wie folgt bestimmt.

Stellt der Sprachzustandsdetektor 2 fest, daß das Eingangssignal ein Signal ohne Sprache ist, so wird zuerst eine LPC-Analyse wie im Fall eines Sprachsignals durchgeführt. Die Übertragung der LPC-Information ermöglicht es, daß die charakteristischen Merkmale des Eingangssignals selbst für ein Signal ohne Sprache bis zu einem bestimmten Grad beibehalten werden.

Wird das Eingangssignal als ein Signal ohne Sprache angesehen, schaltet die Schalter-Steuereinrichtung 3 den Schalter 20 aus, so daß das Adaptivcodebuch 12 gesperrt wird, wie dies oben beschrieben wurde. Demzufolge wird in diesem Fall ein vom Zufallssignalgenerator 21 erzeugtes Zufallssignal als Tonquellensignal verwendet.

Die dem Zufallssignal zugeordnete Verstärkung wird wie folgt bestimmt. Zuerst wird angenommen, daß das Eingangssignal ein Sprachsignal ist. Bei dieser Annahme wird das Wahrscheinlichkeitscodebuch 14 durchsucht und das Tonquellensignal vorausgesagt.

Der Zufallssignalgenerator 21 berechnet die Energie des vorausgesagten Tonquellensignals. Die dem Tonquellensignal zugeordnete Verstärkung wird so eingestellt, daß die Energie des erzeugten Zufallssignals gleich der Energie des Tonquellensignals wird.

Ferner wird die dem Zufallssignal zugeordnete Verstärkung auf einen Wert festgelegt, der um einen vorbestimmten Faktor z. B. 1/2 relativ zu der Energie des Tonquellensignals unterdrückt wird, das unter der Annahme vorausgesagt wurde, daß das Eingangssignal ein Sprachsignal ist.

Da die dem Tonquellensignal zugeordntet Verstärkung, wie oben beschrieben, in Übereinstimmung mit der Energie des Tonquellensignals festgelegt wird, das unter der Annahme vorausgesagt wurde, daß das Eingangssignal ein Sprachsignal ist, wird eine Unnatürlichkeit am Übergang zwischen einer Sprachperiode und einer sprachfreien Periode verringert.

Da ferner die Energie des Tonquellensignals, das unter der Annahme vorausgesagt wurde, daß das Eingangssignal ein Sprachsignal ist, um ein bestimmtes Verhältnis unterdrückt wird, wird das Hintergrundrauschen, das das Ohr beeinträchtigt, falls das Eingangssignal ein Signal ohne Sprache ist, unterdrückt.

Bei einer Sprachsignal-Decodiervorrichtung, die der oben beschriebenen Sprachsignal-Codiervorrichtung entspricht, kann die Decodierung in einer Art und Weise durchgeführt werden, die ähnlich der in der japanischen Patentanmeldung Nr. 7-268756 beschriebenen konventionellen Technik ist.

Das vom Sprachzustandsdetektor zum Erfassen des Zustands des Eingangssignals verwendete Verfahren ist nicht auf das oben beschriebene Verfahren beschränkt, sondern es können auch andere Verfahren Verwendung finden.

Obwohl bei dem obigen speziellen Ausführungsbeispiel die Sprachsignal-Codiervorrichtung auf der Linearvoraussage- Codetechnik mit Code-Erregung beruht, kann die Erfindung auch bei irgendeiner Art von Sprachsignal- Codiervorrichtung Anwendung finden, solange sie ein Signal, das einen linearen Voraussageparameter verwendet, und ein Tonquellensteuersignal repräsentiert, das einem residualen, linearen Voraussagesignal entspricht.

Falls die Information, die anzeigt, ob das Signal ein Sprachsignal oder ein sprachfreies Signal ist, zusammen mit einem Codierparameter übertragen wird, und falls die Decodiervorrichtung eine Schalter-Steuerschaltung und einen Schalter, die denen bei der Codiervorrichtung ähnlich bzw. gleich sind, verwendet, so daß der Schalter in Übereinstimmung mit der Information gesteuert wird, die anzeigt, ob das Signal ein Sprachsignal oder ein Signal ohne Sprache ist, kann eine Codier-/ Decodiervorrichtung mit variabler Bitrate realisiert werden, die ein Sprachsignal mit einem höheren Komprimierungswirkungsgrad codieren kann.

Bei der oben beschriebenen Sprachsignal-Codiervorrichtung gemäß dem ersten Ausführungsbeispiel wird die Verstärkung, die dem Tonquellensignal in einer sprachfreien Periode zugeordnet ist, auf der Grundlage der Energie des Tonquellensignals festgelegt, das unter der Annahme vorausgesagt wurde, daß das Eingangssignal ein Sprachsignal ist. Dies verringert die Unnatürlichkeit am Übergang zwischen Sprachperioden und Perioden ohne Sprache, und es ist möglich, ein Signal ohne Sprache zu komprimieren, ohne eine Verschlechterung hinsichtlich der Natürlichkeit des reproduzierten Tons hervorzurufen.

Die Fig. 4 und 5 verdeutlichen ein zweites Ausführungsbeispiel einer Sprachsignal-Codiervorrichtung, wobei der Aufbau der Codiervorrichtung in Form eines Blockdiagramms in Fig. 4 dargestellt ist. Bei diesem zweiten Ausführungsbeispiel sind Elemente und Teile, die denen des oben beschriebenen ersten Ausführungsbeispiels entsprechen, mit den gleichen Bezugszeichen versehen und werden hier nicht näher beschrieben. Die folgende Beschreibung betrifft stattdessen hauptsächlich die unterschiedlichen Teile.

Bei der Sprachsignal-Codiervorrichtung dieses zweiten Ausführungsbeispiels steht, wie aus Fig. 4 ersichtlich, eine der drei Ausgangsklemmen eines Pufferspeichers 1 über einen Sprachzustandsdetektor 2 mit einer Schalter- Steuereinrichtung 3A in Verbindung, die als Steuereinrichtung zum Ansteuern der nachfolgend beschriebenen Schalter 4A und 4B dient.

Eine LPC-Analysiereinrichtung 5 ist mit einer Eingangsklemme b des Schalters 4A verbunden. Die LPC- Analysiereinrichtung 5 steht auch mit einem Parameterspeicher 5a in Verbindung, so daß das Ausgangssignal der LPC-Analysiereinrichtung 5 in dem Parameterspeicher 5a gespeichert wird. Der Parameterspeicher 5a ist mit einer Eingangsklemme a des Schalters 4A verbunden.

Die Ausgangsklemme des Schalters 4A steht mit der Eingangsklemme des Schalters 4B in Verbindung, der in der Nähe des Schalters 4A angeordnet ist. Eine Ausgangsklemme des Schalters 4B ist mit einem Synthetisierungsfilter 6 verbunden, und eine Ausgangsklemme b steht mit einer Parameter-Glättungsschaltung 19 in Verbindung, die als Mittel zum Glätten eines Linearvoraussage-Parameters dient, der einem Rahmen ohne Sprache zugeordnet ist.

Die Parameter-Glättungsschaltung 19 ist mit einem Parameterspeicher 19a verbunden, der als Parameterspeichereinrichtung zum Speichern des Ausgangssignals der Parameter-Glättungsschaltung 19 dient, so daß die gespeicherten Daten, falls erforderlich, gelesen werden können. Der Ausgang der Parameter-Glättungsschaltung 19 steht mit dem Synthetisierungsfilter 6 in Verbindung.

Bei diesem Ausführungsbeispiel findet der beim ersten Ausführungsbeispiel verwendete Schalter 20 keine Anwendung.

Bei der Sprachsignal-Codiervorrichtung mit dem obigen Aufbau wird die Linearvoraussage-Codiereinrichtung mit Hilfe einer Verzögerungsschaltung 11, eines Adaptivcodebuches 12, eines Wahrscheinlichkeitscodebuches 14, von Multiplizierern 13 und 15, des Schalters 16 und eines Addierglieds 17 ausgebildet.

Beim vorliegenden Ausführungsbeispiel weist der Sprachzustandsdetektor 2 den gleichen Aufbau und die gleiche Funktionsweise wie beim ersten Ausführungsbeispiel auf, das mit Bezug auf Fig. 2 vorstehend beschrieben wurde.

In den Fig. 1 und 4 weist jeder der Schalter zwischen den Bauelementen 12 und 13, 14 und 15 bzw. 21 und 22 eine Schaltfunktion auf, um die in Frage kommenden Daten in das Adaptivcodebuch 12, in das Wahrscheinlichkeitscodebuch 14 bzw. in den Zufallssignalgenerator 21 auszugeben.

In der Fig. 1 bewirkt die Schalter-Steuereinrichtung 3, die EIN/AUS-Steuerung des Schalters 20. Im Gegensatz dazu wird die Steuerung der Schalter 16 und 23 mit Hilfe einer nicht gezeigten Steuereinrichtung wie folgt vorgenommen. Das heißt, während der Datensuche im Wahrscheinlichkeitscodebuch 14 ist der Schalter 16 eingeschaltet, während der Schalter 23 ausgeschaltet ist. Während der Datensuche im Zufallssignalgenerator 21 ist hingegen der Schalter 16 ausgeschaltet, der Schalter 23 jedoch eingeschaltet.

In Fig. 4 nimmt die Schalter-Steuereinrichtung 3A die Steuerung der Schalter 4A und 4B vor. Im Gegensatz dazu wird die Steuerung des Schalters 16 mit Hilfe einer nicht dargestellten Steuereinrichtung wie folgt vorgenommen. Das heißt, während der Datensuche im Adaptivcodebuch 12 ist der Schalter 16 ausgeschaltet. Wenn die Datensuche im Wahrscheinlichkeitscodebuch 14 vorgenommen wird, nachdem die Datensuche im Adaptivcodebuch 12 beendet ist, wird der Schalter 16 eingeschaltet. Ist die Datensuche im Wahrscheinlichkeitscodebuch 14 beendet, so wird der Schalter 16 wieder ausgeschaltet. Die gleichen Vorgänge sind danach zu wiederholen.

In den Fig. 1 und 4 werden die Ausgangssignale des Multiplexers 18 z. B. auf einem Aufzeichnungsmedium aufgezeichnet. Andernfalls werden sie auf Informationsübertragungsleitungen, wie z. B. Telefonleitungen, gegeben.

Nachfolgend wird der Signalfluß bei der Sprachsignal- Codiervorrichtung des zweiten Ausführungsbeispiels beschrieben.

Die LPC-Analysiereinrichtung 5 führt eine Linearvoraussagecodier (LPC)-Analyse bezüglich des Eingangssignals durch und gewinnt einen Linearvoraussage- Parameter α, der die Spektralcharakteristik des Eingangssignals wiedergibt. Der gewonnene Linearvoraussage-Parameter α wird dem Parameterspeicher 5a und ebenso über die Schalter 4A und 4B dem Synthetisierungsfilter 6 oder der Parameterglättungsschaltung 19 zugeführt.

Der Betrieb der Schalter-Steuereinrichtung 3A wird nachfolgend mit Bezug auf das in Fig. 5 gezeigte Ablaufdiagramm beschrieben.

Zu Beginn eines Codiervorganges (Schritt S1) wird eine Variable i auf 0 gesetzt (Schritt S2), die die Anzahl von aufeinanderfolgenden Rahmen ohne Sprache wiedergibt.

Dann wird festgestellt, ob das Ermittlungsergebnis seitens des Sprachzustandsdetektors 2 anzeigt, daß das Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist (Schritt S3). Falls das Eingangssignal ein Signal ohne Sprache ist, wird die Variable i um 1 nach oben gezählt (Schritt S4). Die Variable i wird mit einem vorbestimmten Wert R (z. B. 5) beim Schritt S5 verglichen. Falls i größer als R ist, werden beide Schalter 4A und 4B in die Schaltstellung a gebracht (Schritt S6), so daß der Linearvoraussage-Parameter, der dem vom Parameterspeicher 5a ausgegebenen, vorhergehenden Rahmen zugeordnet ist, bei dem folgenden Rahmen weiterverwendet wird (Schritt S7).

Dann wird i mit R + 1 (Schritt S8) verglichen. Wird festgestellt, daß i größer als R + 1 ist, so werden beide Schalter 4A und 4B in die Schaltstellung b gebracht (Schritt S9), so daß das Ergebnis der LPC-Analyse, die von der LPC-Analysiereinrichtung durchgeführt wird, der Parameter-Glättungsschaltung 19 zugeführt wird (Schritt S10).

Dann glättet die Parameter-Glättungsschaltung 19 den Parameter (Schritt S11), wie dies nachfolgend beschrieben wird.

Im voraus wird ein anfänglicher k-Parameter Noise_α erstellt, der dem Hintergrundrauschen zugeordnet ist und in dem Parameterspeicher 19a abgespeichert wird. Die Glättung wird durch Ausführen einer Wichtung unter Verwendung von Noise_α entsprechend der nachfolgend beschriebenen Gleichung (2) vorgenommen.

Der dem Hintergrundrauschen zugeordnete, anfängliche k- Parameter Noise_α stellt einen Linearvoraussage-Parameter dar, der das Hintergrundrauschen in einer Umgebung, wie z. B. einem Büro, wiedergibt.

In der Gleichung (2) wird dem anfänglichen k-Parameter, der dem Hintergrundrauschen Noise_α zugeordnet ist, ein größerer Wichtungsfaktor als dem Linearvoraussage- Parameter α [i], der dem momentanen Rahmen zugeordnet ist, zugeteilt, so daß der Effekt infolge einer Schwankung des Parameters α [i] unterdrückt wird.

Dann wird unmittelbar nach dem obigen Vorgang der anfängliche k-Parameter Noise_α [i], der dem Hintergrundrauschen zugeordnet ist, entsprechend der nachfolgenden Gleichung (3) aktualisiert (Schritt S12).

Noise_α[i] = α'[i] (3)

Dann wird auf den nächsten Rahmen gewartet (Schritt S13).

Wird beim Schritt S8 festgestellt, daß i gleich oder kleiner als R + 1 ist, so schreitet der Ablauf ebenso zum Schritt S13 fort.

Wie oben beschrieben, wird die Schwankung des Tonquellensignals in einer sprachfreien Zeitperiode unterdrückt, während das Ergebnis der LPC-Analyse wiedergespiegelt wird.

Wird andererseits beim Schritt S3 festgestellt, daß das Eingangssignal ein Sprachsignal ist, wird die Variable i, die die Anzahl von aufeinanderfolgenden Rahmen ohne Sprache wiedergibt, auf 0 zurückgesetzt (Schritt S14). Anschließend wird der Schalter 4A in die Schaltstellung b, der Schalter 4B jedoch in die Schaltstellung a gebracht (Schritt S15). Dann wird eine LPC-Analyse durchgeführt und der Linearvoraussage-Parameter aktualisiert (Schritt S16). Daraufhin schreitet der Ablauf zum Schritt S13 fort und wartet auf den nächsten Rahmen.

Wird beim Schritt S5 festgestellt, daß i gleich oder kleiner als R ist, so schreitet der Ablauf auch zum Schritt S14 fort.

Ist bei der Sprachsignal-Codiervorrichtung des oben beschriebenen zweiten Ausführungsbeispiels das Eingangssignal ein Signal ohne Sprache über eine vorbestimmte oder größere Anzahl von aufeinanderfolgenden Rahmen, so wird die Schwankung des Parameters von Rahmen zu Rahmen unterdrückt, so daß ein hochqualitativer Sprachsignal-Codiervorgang selbst in einer Signalperiode ohne Sprache erzielt werden kann.

Die Fig. 6 bis 8 und 9A bis 9E verdeutlichen ein drittes Ausführungsbeispiel, wobei Fig. 6 ein Blockdiagramm zeigt, das den Aufbau eines Sprachzustandsdetektors des vorliegenden Ausführungsbeispiels verdeutlicht. Bei diesem dritten Ausführungsbeispiel sind Elemente oder Teile, die denen des oben beschriebenen ersten oder zweiten Ausführungsbeispiels entsprechen, mit gleichen Bezugszeichen versehen und werden hier nicht näher erläutert. Die folgende Beschreibung betrifft stattdessen hauptsächlich unterschiedliche Teile.

Dieses dritte Ausführungsbeispiel weist ein besonderes Merkmal im Hinblick auf den Aufbau des nachfolgend beschriebenen Sprachzustandsdetektors auf.

Wie aus Fig. 6 ersichtlich, umfaßt der als Sprachzustands-Erfassungseinrichtung dienende Sprachzustandsdetektor 31 eine Rahmenenergie- Berechnungsschaltung 32, die als Pegelmeßeinrichtung zum Berechnen des Energiepegels eines Eingangssignals für jeden Rahmen dient, eine Schwellenwert- Berechnungsschaltung 33 zum Berechnen des Schwellenwerts auf der Grundlage des Ausgangssignals der Rahmenenergie- Berechnungsschaltung 32, wobei der Ausgang der Schwellenwert-Berechnungsschaltung 33 als Schwellenwert- Anpassungseinrichtung dient, was später beschrieben wird, einen Vergleicher 34 zum Vergleichen des Ausgangssignals der Rahmenenergie-Berechnungseinrichtung 32 mit dem Ausgangssignal der Schwellenwert-Berechnungseinrichtung 33 und zum Ausgeben des Vergleichsergebnisses und einen Zähler 35 für Rahmen ohne Sprache, der die Anzahl von aufeinanderfolgenden Rahmen ohne Sprache zählt, deren Rahmenenergie vom Vergleicher 34 als geringer als der Schwellenwert angesehen wird, und der feststellt, ob das Eingangssignal ein Signal ohne Sprache ist oder nicht, und das Ergebnis der Feststellung abgibt, wobei bei der Feststellung das Eingangssignal als Signal ohne Sprache angesehen wird, falls das Zählergebnis einen vorbestimmten Wert überschreitet.

Fig. 7 zeigt ein Flußdiagramm, das einen Betriebsabschnitt des Sprachzustandsdetektors 31 wiedergibt, während Fig. 8 ein Flußdiagramm zeigt, das einen anderen Betriebsabschnitt des Sprachzustandsdetektors 31 wiedergibt.

Zu Beginn des Verfahrens bzw. Vorganges (Schritt S21) werden verschiedene Konstanten auf geeingete Werte gesetzt (Schritt S22). Zum Beispiel werden obs_lim, trs_min und trs_max auf 50, 128 bzw. 262144 gesetzt, wobei obs_lim die Anzahl der betrachteten Rahmen ist, um das Verhältnis zu bestimmen, um das der Schwellenwert erhöht werden soll, trs_min der untere Grenzwert des Schwellenwerts ist und trs_max der obere Grenzwert des Schwellenwerts ist.

Anschließend werden verschiedene Variable voreingestellt (Schritt S23). Im einzelnen werden die Variablen frm, trs, status und NoiseCnt alle auf 0 gesetzt, wobei frm die momentane Rahmenanzahl, trs der Schwellenwert, status der Zustand des Einstellens des Schwellenwert- Zunahmeverhältnisses und NoiseCnt die Anzahl der nachhängenden Rahmen ist.

Anschließend wird die Rahmenenergie eng beispielsweise in Übereinstimmung mit der nachfolgend wiedergegebenen Gleichung (4) berechnet (Schritt S24).

Anschließend wird der Schwellenwert trs mit dem unteren Grenzwert trs_min verglichen (Schritt S25). Falls der Schwellenwert trs kleiner als der untere Grenzwert trs_min ist, wird der Schwellenwert auf den unteren Grenzwert trs_min gesetzt (Schritt S26).

Wird beim Schritt S25 festgestellt, daß der Schwellenwert trs gleich oder größer als der untere Grenzwert trs_min ist, oder falls der Schritt S26 beendet ist, schreitet der Verfahrensablauf zum Schritt S27 fort, um festzustellen, ob die Rahmenenergie eng geringer als der Schwellenwert trs ist. Ist die Rahmenenergie eng geringer als der Schwellenwert trs, so wird der Schwellenwert trs aktualisiert, so daß trs = eng gilt (Schritt S28).

Wird beim Schritt S27 andererseits festgestellt, daß die Rahmenenergie eng gleich oder größer als der Schwellenwert trs ist, so schreitet der Verfahrensablauf zum Schritt S29 fort, um festzustellen, ob die momentane Rahmenanzahl frm geringer als die Anzahl der zu betrachtenden Rahmen obs_lim ist. Bei dem obigen speziellen Beispiel, bei dem die Konstanten wie beim Schritt S22 festgelegt werden, wird die Beurteilung derart durchgeführt, daß festgestellt wird, ob die Anzahl von Rahmen, die bereits nach dem Start des Vorgangs bzw. Verfahrens bearbeitet wurden, kleiner als 50 ist.

Falls frm kleiner als obs_lim ist, schreitet der Verfahrensablauf zum Schritt S30 fort, um ferner festzustellen, ob die momentane Rahmenanzahl frm gleich 0 ist. Ist die momentane Rahmenanzahl gleich 0, wird MinLev auf einen Wert gleich eng gesetzt (Schritt S31). Ist die momentane Rahmenanzahl nicht gleich 0, so schreitet der Verfahrensablauf zum Schritt S32 fort, um festzustellen, ob die Rahmenenergie geringer als MinLev ist.

Falls die Rahmenenergie geringer als MinLev ist, wird MinLev aktualisiert, so daß gilt MinLev = eng (Schritt S33). Bei den Schritten S30 bis S33 wird die niedrigste Rahmenenergie von jenen 50 Rahmen, die ab Beginn des Verfahrens gezählt wurden, als MinLev bestimmt.

Falls irgendeiner der Schritte S28, S31 oder S33 beendet ist oder wird beim Schritt S29 festgestellt, daß die momentane Rahmenanzahl gleich oder größer als die Anzahl der zu betrachtenden Rahmen obs_lim ist, oder wird beim Schritt S32 festgestellt, daß die Rahmenenergie gleich oder größer als MinLev ist, so schreitet der Verfahrensablauf zum Schritt S34 fort, um festzustellen, ob die momentane Rahmenanzahl gleich oder größer als die Anzahl der zu betrachtenden Rahmen obs_lim ist und ob der Zustand des Festlegens eines ansteigenden Verhältnisses gleich 0 ist. Das heißt, es wird festgestellt, ob die Anzahl der bereits verarbeiteten Rahmen gleich oder größer als 50 ist und keiner dieser Rahmen als Rahmen ohne Sprache angesehen wird. (Beim Schritt S34 kennzeichnet "&&" ein logisches UND.)

Lautet beim Schritt S34 die Antwort JA, so schreitet der Verfahrensablauf zum Schritt S35 fort, um festzustellen, ob der Schwellenwert trs geringer als MinLev ist. Ist der Schwellenwert trs geringer als MinLev, so schreitet das Verfahren zum Schritt S36 fort, um den Schwellenwert trs um 1/32 des momentanen Schwellenwerts zu erhöhen (siehe Gleichung (9), die nachfolgend beschrieben wird). (Beim Schritt S36 oder sonstwo kennzeichnet "+=" den Vorgang des Addierens des Werts auf der rechten Seite zum momentanen Wert.)

Falls der Schritt S36 beendet ist oder falls die Feststellung beim Schritt S35 negativ ist, schreitet das Verfahren zum Schritt S37 fort, um den Schwellenwert trs um 1/64 des momentanen Schwellenwerts zu erhöhen (siehe Gleichungen (5) und (9), die nachfolgend beschrieben werden).

Beim Schritt S37 wird das ansteigende Verhältnis als normaler Wert vorgegeben, während das beim Schritt S36 vorgegebene ansteigende Verhältnis größer als das normale Verhältnis ist.

Anschließend wird beim Schritt S38 festgestellt, ob der Schwellenwert trs größer als der obere Grenzwert trs_max ist. Ist der Schwellenwert trs größer als der obere Grenzwert trs_max, so wird der Schwellenwert derart aktualisiert, daß der Schwellenwert trs gleich dem oberen Grenzwert trs_max wird (Schritt S39).

Falls der Schritt S39 abgeschlossen ist, oder falls die Feststellung beim Schritt S38 negativ ist, schreitet das Verfahren dann zum Schritt S40 fort, um festzustellen, ob die Rahmenenergie eng größer als der Schwellenwert trs ist. Ist die Feststellung negativ, so schreitet das Verfahren zum Schritt S41 fort, um den Zählwert NoiseCnt der überhängenden Rahmen zu inkrementieren. (Beim Schritt S41 oder anderswo bezeichnet "++" den Inkrementierungsvorgang). Ist die Feststellung beim Schritt S41 positiv, so schreitet das Verfahren zum Schritt S42 fort, wo der Zählwert NoiseCnt der überhängenden Rahmen auf 0 zurückgesetzt wird.

Falls der Schritt S41 oder S42 beendet ist, schreitet der Verfahrensablauf zum Schritt S43 fort, um festzustellen, ob der Zählwert NoiseCnt der überhängenden Rahmen größer als 4 ist. Lautet die Antwort NEIN, so wird dann das Eingangssignal als Sprachsignal angesehen und der Verfahrensablauf schreitet zum Schritt S44 fort. Ist die Feststellung beim Schritt S43 positiv, so wird das Eingangssignal als Signal ohne Sprache angesehen und das Verfahren schreitet zum Schritt S45 fort, woraufhin der Einstellzustand für das ansteigende Verhältnis beim Schritt S46 auf 1 gesetzt wird. Befindet sich der Einstellzustand für das ansteigende Verhältnis in einem "1" Zustand, so wird Schritt S34 negativ beendet und der Schritt S36, bei dem der Schwellenwert ansonsten um das hohe Verhältnis angehoben würde, wird übersprungen, so daß stattdessen der Schwellenwert nur um den normalen Betrag beim Schritt S37 erhöht wird.

Ist der Schritt S44 oder S46 beendet, wird die momentane Rahmenanzahl frm inkrementiert (Schritt S47), woraufhin das Verfahren zum Schritt S24 zurückkehrt, um den nächsten Rahmen zu verarbeiten.

Wie oben beschrieben, wird beim vorliegenden Ausführungsbeispiel der Minimalwert MinLev der Rahmenenergie eng für 50 Rahmen (24 ms.50 = 1,2 s) nach dem Start eines Codiervorganges bestimmt und der Schwellenwert trs mit dem Minimalwert MinLev verglichen. Ist der Schwellenwert trs kleiner als der Minimalwert MinLev, so wird dann der Schwellenwert um das große Verhältnis erhöht. Wird jedoch einmal ein Signal ohne Sprache erfaßt, wird das ansteigende Verhältnis, das dem Schwellenwert zugeordnet ist, auf den Normalwert zurückgesetzt, so daß der Schwellenwert trs rasch ausgeregelt wird.

Im einzelnen kann der Schwellenwert mit einer verbesserten Einstellgeschwindigkeit angepaßt werden, wie dies nachfolgend mit Bezug auf einige Gleichungen beschrieben wird.

Wenn das ansteigende Verhältnis, das dem Schwellenwert zugeordnet ist, auf den Normalwert gesetzt wird, wie dies im Schritt S37 erfolgt, so wird der Schwellenwert trs' des nächsten Rahmens bestimmt durch

Solange somit die Rahmenenergie eng für den Rahmen geringer als der Schwellenwert für diesen Rahmen ist, wird der Schwellenwert trs_n für den n-ten Rahmen bestimmt durch

wobei trs_0 der Anfangsschwellenwert ist.

Damit demzufolge der Schwellenwert dem Doppelten des Anfangswerts entspricht, gilt

Somit ergibt sich

Demzufolge sind 45 Rahmen erforderlich, um den Schwellenwert zu erreichen, der dem Zweifachen des Anfangswertes entspricht.

Falls andererseits dem ansteigenden Verhältnis, das dem Schwellenwert zugeordnet ist, ein großer Wert beim Schritt S36 zusätzlich zum Schritt S37 zugeteilt wird, wird der Schwellenwert trs' für den nächsten Rahmen bestimmt durch

Somit ergibt sich:

Demzufolge sind nur 15 Rahmen erforderlich, damit der Schwellenwert den Wert erreicht, der dem Zweifachen des Anfangswerts entspricht.

Die Fig. 9A bis 9E verdeutlichen den Vorgang der Erfassung des Sprachzustands unter Verwendung des Sprachzustandsdetektors 31 in Übereinstimmmung mit dem oben beschriebenen Algorithmus.

Fig. 9A verdeutlicht den Orginalton. In Fig. 9A ist nach einer ersten Sprachsignalperiode eine Signalperiode ohne Sprache vorgesehen, die an der durch eine gestrichelte Linie gekennzeichneten Stelle beginnt. Fig. 9B gibt einen Schwellenwert wieder, der sich in konventioneller Art und Weise in Erwiderung auf den Originalton ändert. Die Einstellung des in Fig. 9B gezeigten Schwellenwerts resultiert in einer fehlerhaften Feststellung, daß, wie aus Fig. 9C ersichtlich, ein bestimmter Teil einer Periode eines Signals ohne Sprache unmittelbar nach deren Beginn als eine Sprachsignalperiode angesehen wird.

Im Gegensatz dazu ändert sich beim vorliegenden Ausführungsbeispiel der Schwellenwert in einer Art und Weise, wie dies in Fig. 9D gezeigt ist, und somit kann der durch die gestrichelte Linie gekennzeichnete Übergang zwischen der Sprachsignalperiode und der folgenden Periode des Signals ohne Sprache exakt erfaßt werden, wie dies in Fig. 9E gezeigt ist.

Bei dem oben beschriebenen speziellen Ausführungsbeispiel wird das ansteigende Verhältnis, das dem Schwellenwert zugeordnet ist, auf der Grundlage des relativen Werts des Schwellenwerts trs bezüglich dem Minimalwert MinLev der Rahmenenergie eng bestimmt, der für 50 Rahmen erfaßt wird, die vom Beginn eines Codierprozesses gezählt werden. Jedoch ist die Art und Weise der Bestimmung des ansteigendne Verhältnisses bei der Erfindung nicht darauf beschränkt. Z. B. wird das dem Schwellenwert trs zugeordnete, ansteigende Verhältnis entsprechend der Größe der Differenz zwischen Schwellenwert trs und MinLev bestimmt.

Beim oben beschriebenen dritten Ausführungsbeispiel kann der Sprachzustand exakt in Übereinstimmung mit dem adaptiven Schwellenwert erfaßt werden, wobei der Schwellenwert mit höherer Geschwindigkeit als bei der konventionellen Technik angepaßt werden kann, ohne daß dabei eine Verzögerung auftritt, bevor der Sprachzustand korrekt erfaßt wird, selbst wenn der Eingangssignalpegel oder der Hintergrundrauschpegel hoch wird.

Claims

1. Sprachsignal-Codiervorrichtung mit
einer Sprachzustands-Erfassungseinrichtung (2) zum Feststellen, ob ein in vorbestimmte Rahmenintervalle unterteiltes Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist;
einer Linearvoraussage-Analysiereinrichtung (5) zum Ausgeben eines Linearvoraussage-Parameters, der dem Eingangssignal zugeordnet ist;
einer Linearvoraussage-Codiereinrichtung zum Erzeugen eines Tonquellen-Steuersignals, das einem residualen Linearvoraussagesignal entspricht, wobei die Linearvoraussage-Codiereinrichtung ein Voraussageteil (12, 14) für eine Tonquelle mit Sprache zum Codieren eines Sprachsignals und ein Voraussageteil für eine Tonquelle ohne Sprache zum Codieren eines Signals ohne Sprache aufweist; und
einer Codierart-Auswahleinrichtung (3) zum Auswählen einer Codierart für das Sprachsignal oder einer Codierart für das Signal ohne Sprache, in der die Linearvoraussage- Codiereinrichtung ihren Codiervorgang durchführen soll, entsprechend dem von der Sprachzustands- Erfassungseinrichtung (2) vorgegebenen Ergebnis,
wobei das Voraussageteil für die Tonquelle ohne Sprache eine Zufallssignal-Erzeugungseinrichtung (21) zum Erzeugen eines Zufallssignals aufweist, das ein Tonquellensignal darstellt, und
wobei die durch das Voraussageteil für die Tonquelle ohne Sprache codierten Daten den Linearvoraussage- Parameter, das Zufallssignal und eine dem Zufallssignal zugeordnete Verstärkung einschließen,
dadurch gekennzeichnet daß
die dem Zufallssignal zugeordnete Verstärkung in Übereinstimmung mit einer Verstärkung eingestellt ist, die erhalten wird, wenn das Voraussageteil für die Tonquelle mit Sprache ein als Eingangssignal vorgegebenes Signal ohne Sprache codiert.

2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Verstärkung des Zufallssignals nun in Übereinstimmung mit einem Wert eingestellt wird, der dadurch erhalten wird, daß die Verstärkung um einen vorbestimmten Faktor unterdrückt wird, die erhalten wird, wenn das Voraussageteil (12, 14) für die Tonquelle mit Sprache das als Eingangssignal vorgegebenes Signal ohne Sprache codiert.

3. Sprachsignal-Codiervorrichtung mit
einer Sprachzustands-Erfassungseinrichtung (2) zum Feststellen, ob ein in vorbestimmte Rahmenintervalle unterteiltes Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist;
einer Linearvoraussage-Analysiereinrichtung (5) zum Ausgeben eines Linearvoraussage-Parameters, der dem Eingangssignal zugeordnet ist;
einer Linearvoraussage-Codiereinrichtung zum Erzeugen eines Tonquellen-Steuersignals, das einem residualen Linearvoraussagesignal entspricht, wobei die Linearvoraussage-Codiereinrichtung ein Voraussageteil (12, 14) für eine Tonquelle mit Sprache zum Codieren eines Sprachsignals und ein Voraussageteil für eine Tonquelle ohne Sprache zum Codieren eines Signals ohne Sprache aufweist; und
einer Codierart-Auswahleinrichtung (3A) zum Auswählen einer Codierart für das Sprachsignal oder einer Codierart für das Signal ohne Sprache, in der die Linearvoraussage-Codiereinrichtung ihren Codiervorgang durchführen soll, entsprechend dem von der Sprachzustands-Erfassungseinrichtung vorgegebenen Ergebnis,
dadurch gekennzeichnet,
daß eine Steuereinrichtung vorgesehen ist, die den Linearvoraussage-Parameter so steuert, daß, wenn das Ermittlungsergebnis seitens der Sprachzustands- Erfassungseinrichtung anzeigt, daß das Eingangssignal ein Signal ohne Sprache über eine vorbestimmte Anzahl von aufeinanderfolgenden Rahmen ist, der Linearvoraussage- Parameter, der für einen vorhergehenden Rahmen verwendet wurde, fortlaufend als Linearvoraussage-Parameter für das Eingangssignal verwendet wird, und
daß eine Glättungseinrichtung (19) vorgesehen ist, die den Linearvoraussage-Parameter zur Verwendung bei Rahmen ohne Sprache derart glättet, daß, wenn die Anzahl von aufeinanderfolgenden Rahmen, von denen man annimmt, daß sie ein Signal ohne Sprache einschließen, die vorbestimmte Anzahl übersteigt, eine Gewichtung zwischen einem vorher bereitgestellten Linearvoraussage-Parameter zur Verwendung bei Rahmen ohne Sprache und dem dem momentanen Rahmen zugeordneten Linearvoraussage-Parameter durchgeführt Wird, und die den zwischen den beiden Parametern gewichteten Linearvoraussage-Parameter ausgibt.

4. Vorrichtung nach Anspruch 3, dadurch gekennzeichnet, daß ein Wert des Linearvoraussage-Parameters, der für ein bestimmtes Hintergrundrauschen vorbestimmt ist, als Anfangswert des Linearvoraussage-Parameters zur Verwendung bei Rahmen ohne Sprache Anwendung findet.

5. Vorrichtung nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß die Glättungseinrichtung (19) zum Glätten des Linearvoraussage-Parameters zur Verwendung bei Rahmen ohne Sprache die Glättung mit einem größeren Wichtungsfaktor für den Linearvoraussage-Parameter zur Verwendung bei Rahmen ohne Sprache als den für den Linearvoraussage-Parameter für den momentanen Rahmen durchführt.

6. Vorrichtung nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, daß eine Parameter-Speichereinrichtung (19a) vorgesehen ist, die einen Linearvoraussage-Parameter speichert, der von der Glättungseinrichtung (19) zum Glätten des Linearvoraussage-Parameters zur Verwendung bei Rahmen ohne Sprache ausgegeben wird, so daß der gespeicherte Linearvoraussage-Parameter als ein Linearvoraussage- Parameter zur Verwendung bei Rahmen ohne Sprache verwendet werden kann, um einen nächsten Rahmen zu glätten.

7. Sprachsignal-Codiervorrichtung mit
einer Sprachzustands-Erfassungseinrichtung (31) zum Feststellen, ob ein in vorbestimmte Rahmenintervalle unterteiltes Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist;
einer Linearvoraussage-Analysiereinrichtung (5) zum Ausgeben eines Linearvoraussage-Parameters, der dem Eingangssignal zugeordnet ist;
einer Linearvoraussage-Codiereinrichtung zum Erzeugen eines Tonquellen-Steuersignals, das einem residualen Linearvoraussagesignal entspricht, wobei die Linearvoraussage-Codiereinrichtung ein Voraussageteil (12, 14) für eine Tonquelle mit Sprache zum Codieren eines Sprachsignals und ein Voraussageteil für eine Tonquelle ohne Sprache zum Codieren eines Signals ohne Sprache aufweist; und
einer Codierart-Auswahleinrichtung (3a) zum Auswählen einer Codierart für das Sprachsignal oder einer Codierart für das Signal ohne Sprache, in der die Linearvoraussage-Codiereinrichtung ihren Codiervorgang durchführen soll, entsprechend dem von der Sprachzustands-Erfassungseinrichtung vorgegebenen Ergebnis,
dadurch gekennzeichnet,
daß die Sprachzustands-Erfassungseinrichtung aufweist:
eine Pegelmeßeinrichtung (32) zum Messen des Pegels eines Eingangssignals, das in vorbestimmte Rahmenintervalle unterteilt ist;
eine Vergleichseinrichtung (34) zum Vergleichen des von der Pegelmeßeinrichtung (32) gemessenen Pegels des Eingangssignals mit einem Schwellenwert, der als Kriterium für die Bestimmung vorgesehen ist, ob das Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist, und zum anschließenden Ausgeben des Vergleichsergebnisses; und
eine Schwellenwert-Anpassungseinrichtung (33), mit deren Hilfe der Schwellenwert um einen vorbestimmten Faktor angehoben wird, falls der Vergleich ergeben hat, daß der Pegel des Eingangssignals größer als der momentane Schwellenwert ist, wohingegen der Pegel des Eingangssignals als einen neuen Schwellenwert verwendet wird, falls der Vergleich ergeben hat, daß der Pegel des Eingangssignals geringer als der momentane Schwellenwert ist, wobei der vorbestimmte Faktor, um den der Schwellenwert angehoben wird, in Übereinstimmung mit der Differenz zwischen dem momentanen Schwellenwert und einem minimalen Pegel des Eingangssignals während einer vorbestimmten Periode der verflossenen Zeit eingestellt wird.

8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, daß, wenn der momentane Schwellenwert mit einem minimalen Pegel des Eingangssignals während einer vorbestimmten Periode ab dem Beginn eines Sprachzustands- Erfassungsprozesses verglichen wird und der momentane Schwellenwert um einen Betrag, der gleich oder größer als ein vorbestimmter Wert ist, geringer als der minimale Pegel ist, die Schwellenwert-Anpassungseinrichtung (33) den Faktor, um den der Schwellenwert erhöht wird, auf einen vorbestimmten Wert setzt, der größer als ein Faktor ist, um den der Schwellenwert bei einem Normalzustand angehoben wird, und auf den normalen Wert zurücksetzt, wenn das Eingangssignal als ein Signal ohne Sprache angesehen wird.