DE19715126C2 - Sprachsignal-Codiervorrichtung - Google Patents
Sprachsignal-CodiervorrichtungInfo
- Publication number
- DE19715126C2 DE19715126C2 DE19715126A DE19715126A DE19715126C2 DE 19715126 C2 DE19715126 C2 DE 19715126C2 DE 19715126 A DE19715126 A DE 19715126A DE 19715126 A DE19715126 A DE 19715126A DE 19715126 C2 DE19715126 C2 DE 19715126C2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- signal
- linear prediction
- coding
- input signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 54
- 230000008569 process Effects 0.000 claims description 35
- 238000001514 detection method Methods 0.000 claims description 18
- 238000009499 grossing Methods 0.000 claims description 15
- 230000003321 amplification Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 30
- 230000003044 adaptive effect Effects 0.000 description 26
- 230000002194 synthesizing effect Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000006866 deterioration Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005284 excitation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 101000622137 Homo sapiens P-selectin Proteins 0.000 description 1
- 102100023472 P-selectin Human genes 0.000 description 1
- 101000873420 Simian virus 40 SV40 early leader protein Proteins 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/004—Predictors, e.g. intraframe, interframe coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Eine Sprachsignal-Codiervorrichtung umfaßt einen Sprachzustandsdetektor (2) zum Feststellen, ob ein Eingangssignal, das in vorbestimmte Rahmenintervalle unterteilt ist, ein Sprachsignal oder ein Signal ohne Sprache ist; eine Linearvoraussage-Analysiereinrichtung (5) zum Ausgeben eines dem Eingangssignal zugeordneten Linearvoraussage-Parameters; eine Voraussageschaltung (11, 12, 14) für eine Tonquelle mit Sprache; eine Voraussageschaltung (21) für eine Tonquelle ohne Sprache, die einen Zufallssignalgenerator einschließt; und eine Schalter-Steuereinrichtung (3) zum Auswählen der Voraussageschaltung für eine Tonquelle mit Sprache oder der Voraussageschaltung für eine Tonquelle ohne Sprache entsprechend dem Ermittlungsergebnis des Sprachzustandsdetektors (2), wobei die dem Zufallssignal zugeordnete Verstärkung in Übereinstimmung mit einem Wert eingestellt wird, der dadurch erhalten wird, daß die Verstärkung um einen vorbestimmten Faktor unterdrückt wird, der erhalten wird, wenn ein als Eingangssignal vorgegebenes Signal ohne Sprache mit Hilfe der Voraussageschaltung für eine Tonquelle mit Sprache codiert wird.
Description
Die Erfindung betrifft eine Sprachsignal-
Codiervorrichtung, insbesondere eine Sprachsignal-
Codiervorrichtung zum Umwandeln eines Sprachsignals in
eine komprimierte Digitalinformation und zum Aufzeichnen
oder Übertragen der resultierenden Information.
Eine weit verbreitete Technik zur Komprimierung eines
Sprachsignals in hocheffizienter Art und Weise besteht
darin, das Sprachsignal unter Verwendung eines linearen
Prädiktions- bzw. Voraussageparameters, der eine
spektrale Hüllkurve darstellt, und ebenso unter
Verwendung eines Tonquellenparameters, der einem
residualen, linearen Voraussagesignal entspricht, zu
codieren. Falls eine derartige Sprachcodiertechnik auf
der Grundlage der linearen Voraussage verwendet wird,
kann eine synthetische Sprache mit relativ hoher Qualität
auf einem Übertragungskanal mit einer ziemlich geringen
Kapazität vorgesehen werden. Infolge der obigen Vorteile
als auch der jüngsten Entwicklung in der Hardware-
Technologie gibt es in weitem Umfang intensive
Forschungs- und Entwicklungsaktivitäten auf verschiedenen
Anwendungsgebieten.
Unter verschiedenen Techniken, die auf der linearen
Voraussage beruhen, ist die lineare Prädiktionscodierung
mit Code-Erregung, kurz mit CELP bezeichnet, eine weit
verbreitete Technik, die in der Druckschrift "Improved
speech quality and efficient vector quantization in SELP"
(Kleijin at al., ICASP' 88 s4.4, S. 155-158, 1998)
offenbart ist und bei der ein Adaptivcodebuch verwendet
wird, das durch eine Wiederholung der letzten
Tonquellensignale erhalten wird.
Die Sprachsignal-Codiervorrichtung auf der Grundlage der
linearen Voraussageanalyse weist den Vorteil auf, daß
eine hochqualitative Codierleistung bei ziemlich
niedrigen Bitraten erzielt werden kann. Dieser Typ der
eine lineare Voraussageanalyse verwendenden Sprachsignal-
Codiervorrichtung beruht auf der Annahme, daß die von
einem Menschen erzeugten Sprache im allgemeinen einen
periodischen Charakter aufweist, so daß es im allgemeinen
möglich ist, einen Sprachsignalcode gut zu analysieren,
falls die Länge eines Rahmens auf etwa 20 ms festgelegt
ist. Die konventionelle Sprachsignal-Codiervorrichtung
weist jedoch den Nachteil auf, daß, obwohl eine hohe
Qualität für Sprachsignalperioden erzielt wird, eine
hochqualitative Codierung für Signalperioden ohne Sprache
nicht erhalten werden kann. Insbesondere tritt eine große
Verschlechterung in der Sprachqualität auf, falls ein
Hintergrundrauschen existiert, das größer als ein
bestimmter Pegel ist.
Um eine effizientere Komprimierung zu erreichen, ist es
im Stand der Technik bekannt, eine Codiertechnik mit
variabler Rate zu verwenden, bei der die Bitrate in
Übereinstimmung mit dem Zustand eines bestimmten
Sprachsignals variiert wird. Es ist ferner bekannt, eine
hocheffiziente Sprachsignal-Codiertechnik mit einer
Komprimierungstechnik für ein Signal ohne Sprache zu
verbinden, wie dies beispielsweise in der JP 58-203499
offenbart ist.
Bei der in der JP 58-203499 ("Variable length frame type
linear forecast vocoder") offenbarten Technik wird die
Codierung auf extrem unterschiedliche Art und Weise in
Abhängigkeit davon durchgeführt, ob das Eingangssignal
ein Sprachsignal oder ein Signal ohne Sprache ist, so daß
der reproduzierte Ton sehr unnatürlich beim Übergang
zwischen Sprachperioden und sprachfreien Perioden wird.
Die Sprachsignal-Codiervorrichtung findet bei mobilen
Telefonen, Sprachaufzeichnungseinrichtungen usw.
Anwendung. Bei diesen Anwendungsfällen ist davon
auszugehen, daß die Sprachsignal-Codiervorrichtung in
verschiedenen Umgebungen verwendet wird, in denen in
viele Fällen Hintergrundrauschen vorliegt. Demzufolge muß
zur Realisierung eines atraktiveren Produkts das Problem
der Sprachqualitätsverschlechterung gelöst werden.
Im Hinblick auf die vorstehenden Erläuterungen hat der
Erfinder der vorliegenden Erfindung eine Sprachsignal-
Codiervorrichtung mit hoher Leistung vorgeschlagen, bei
der stets eine hohe Tonqualität ungeachtet davon
vorgesehen wird, ob das Signal ein Signal mit Sprache
oder Signal ohne Sprache ist, wie dies in der JP 9-114498
("Speech encoding device") offenbart ist. Diese
Codiervorrichtung umfaßt eine Sprachzustands-
Erfassungseinrichtung zum Erfassen, ob ein
Eingangssignal, das in vorbestimmte Rahmenintervalle
unterteilt ist, ein Signal mit Sprache oder ein Signal
ohne Sprache ist, eine Linearvoraussage-
Analysiereinrichtung zum Ausgeben eines
Spektralparameters, der dem Eingangssignal zugeordnet
ist, eine Steuereinrichtung zum Steuern der
Linearvoraussage-Analysiervorrichtung derart, daß, wenn
das Ermittlungsergebnis seitens der Sprachzustands-
Erfassungseinrichtung anzeigt, das das Eingangssignal
über eine vorbestimmte Anzahl von aufeinanderfolgenden
Rahmen ein Signal ohne Sprache ist, die Linearvorhersage-
Analysiereinrichtung kontinuierlich den Spektralparameter
abgibt, der für die vorbestimmte Anzahl von
vorhergehenden Rahmen als Spektralparameter für das
Eingangssignal verwendet wurde, eine Tonsteuersignal-
Erzeugungseinrichtung zum Erzeugen eines Tonquellen-
Steuersignals, das einem restlichen
Linearvorhersagesignal entspricht und ein
Synthetisierungsfilter zum Synthetisieren einer Sprache
vom Tonquellen-Steuersignal entsprechend dem
Spektralparameter.
Bei der obigen, in der JP 9-114498 vorgeschlagenen
Technik tritt, obwohl die Tonqualitätsverschlechterung,
die auftritt, wenn der Spektralparameter am Übergang
zwischen Perioden mit Sprache und Perioden ohne Sprache
geschaltet wird, unterdrückt werden kann, immer noch eine
Tonqualitätsverschlechterung auf und es wird keine
Verbesserung erzielt, falls das Signal ohne Sprache über
eine längere Zeitperiode anhält.
Eine konventionelle Technik zum Erzielen eines hohen
Wirkungsgrades bei der Kompremierung von Sprachdaten
besteht darin, daß eine hochwirksame Sprachsignal-
Codiertechnik mit einer Kompremierungstechnik für Signale
ohne Sprache kombiniert wird. Eine gut bekannte
Kompremierungstechnik für Signale ohne Sprache ist eine
mit VAT (voice activity detection -
Sprachaktivitätserfassung) bezeichnete Technik, bei der
festgestellt wird, ob ein bestimmtes Eingangssignal ein
Signal mit Sprache oder ein Signal ohne Sprache ist, und
eine Aufzeichnung auf ein Aufzeichnungsmedium oder eine
Datenübertragung unterbrochen wird, falls die
Feststellung anzeigt, daß das Eingangssignal ein Signal
ohne Sprache ist.
Eine weitere gut bekannte Technik ist die Sprachsignal-
Codiertechnik mit variabler Rate, bei der die Bitrate
abhängig vom Zustand eines Eingangssignals geändert wird.
Ein spezielles Beispiel dieser Technik ist in einem
Artikel mit dem Titel "QCELP: The North American CDMA
Digital Cellular Variable Rate Speech Coding Standard,"
(A. DeJaco, W. Gardner, P. Jacobs, and C. Lee,
Proceedings IEEE Workshop on Speech Coding for
Telecommunications, Seiten 5-6, 1993) offenbart.
Bei dieser Technik wird ein Schwellenwert über einen
weiten Bereich von einem extrem niedrigen
Hintergrundgeräuschpegel bis zu einem hohen
Hintergrundgeräuschpegel durch allmähliches Anwachsen des
Schwellenwerts ausgehend von einem kleinen Wert angepaßt,
wodurch sichergestellt wird, daß der Zustand des
Eingangssignals ungeachtet der Zunahme des
Hintergrundrauschens exakt erfaßt werden kann.
Bei der obigen Technik nimmt die Zeit, die für die
Erfassungseinrichtung erforderlich ist, um einen Zustand
zu erreichen, bei dem der Zustand eines bestimmten
Spracheingangssignals korrekt erfaßt werden kann, mit dem
Eingangssignalpegel oder dem Hintergrundrauschpegel zu,
und es ist nicht möglich, einen wünschenswerten
Codierungswirkungsgrad zu erzielen, ehe die
Erfassungseinrichtung den obigen Zustand erreicht.
Aus der Veröffentlichung "Speech Coding: A Tutorial
review" in den proceedings der IEEE, vol. 82, no. 10,
Oktober 1994, Seiten 1541 bis 1582 ist eine Sprachsignal-
Codierungseinrichtung entsprechend dem Oberbegriff des
Patentanspruches 1 bekannt, die es entsprechend der
nachfolgenden Aufgabe der Erfindung auszugestalten gilt.
Es ist somit Aufgabe der Erfindung, eine Sprachsignal-
Codiervorrichtung vorzuschlagen, mit der ein Sprachsignal
in hoher Qualität codiert werden kann.
Ferner soll eine Sprachsignal-Codiervorrichtung
vorgesehen werden, die einen natürlichen Ton selbst für
Signale in sprachfreien Zeitperioden reproduzieren kann
und die eine Sprachzustandserfassungseinrichtung
aufweist, die den Schwellenwert rasch anpassen und somit
den Sprachzustand in kurzer Zeit erfassen kann.
Die vorstehende Aufgabe wird durch die Merkmale des
Patentanspruches 1 gelöst.
Vorteilhafte Ausgestaltungen der Erfindung sind
Gegenstand der Unteransprüche 2 bis 8.
Die Erfindung wird nachstehend anhand der Zeichnung näher
erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm, das den Aufbau einer
Sprachsignal-Codiervorrichtung gemäß einem
ersten Ausführungsbeispiel verdeutlicht;
Fig. 2 ein Blockdiagramm, das die Einzelheiten eines
Sprachzustandsdetektors beim ersten
Ausführungsbeispiel verdeutlicht;
Fig. 3 ein Diagramm, das ein Beispiel eines
Schwellenwerts verdeutlicht, der dem
Sprachzustandsdetektor zugeordnet ist und durch
eine Schwellenwert-Bestimmungsschaltung gemäß
dem ersten Ausführungsbeispiel bestimmt wird;
Fig. 4 ein Blockdiagramm, das den Aufbau einer
Sprachsignal-Codiervorrichtung gemäß einem
zweiten Ausführungsbeispiel verdeutlicht;
Fig. 5 ein Flußdiagramm, das den Betrieb der
Sprachsignal-Codiervorrichtung des zweiten
Ausführungsbeispiels wiedergibt;
Fig. 6 ein Blockdiagramm, das den Aufbau eines
Sprachzustandsdetektors gemäß dem dritten
Ausführungsbeispiel verdeutlicht;
Fig. 7 ein Flußdiagramm, das einen Betriebsabschnitt
des Sprachzustandsdetektors gemäß dem dritten
Ausführungsbeispiel wiedergibt;
Fig. 8 ein Flußdiagramm, das einen anderen
Betriebsabschnitt des Sprachzustandsdetektors
des dritten Ausführungsbeispiels verdeutlicht;
und
Fig. 9A bis 9E Zeitdiagramme, die den Vorgang des
Erfassens des Sprachzustands durch den
Sprachzustandsdetektor des dritten
Ausführungsbeispiels im Vergleich zu dem
Vorgang des Erfassens des Sprachzustands durch
einen konventionellen Sprachzustandsdetektor
wiedergeben.
Die Fig. 1 bis 3 verdeutlichen ein erstes
Ausführungsbeispiel einer Sprachsignal-Codiervorrichtung,
wobei deren Aufbau in Fig. 1 in Form eines Blockdiagramms
dargestellt ist.
Die Sprachsignal-Codiervorrichtung des vorliegenden
Ausführungsbeispiels beruht auf einer Kombination einer
Linearvoraussage-Codierung mit Code-Erregung (CELP) mit
einer Komprimierung eines Signals ohne Sprache.
Wie aus Fig. 1 ersichtlich, liegt ein Eingangssignal an
einem Pufferspeicher 1 an. Das Ausgangssignal des
Pufferspeichers 1 wird in drei Signale unterteilt, wobei
ein erstes Ausgangssignal über einen Unterrahmen-
Unterteiler 7 einem Subtrahierglied 8, ein zweites
Ausgangssignal dem Eingang einer LPC-Analysiereinrichtung
5, die als Linearvoraussage-Analysiereinrichtung dient,
und ein drittes Ausgangssignal einer als Codeart-
Auswahleinrichtung dienenden Schalter-Steuereinrichtung 3
über einen als Sprachzustands-Erfassungseinrichtung
dienenden Sprachzustandsdetektor 2 zugeführt wird.
Die Schalter-Steuereinrichtung 3 steuert den EIN/AUS-
Betrieb eines Schalters 20, der später in Verbindung mit
dem vom Sprachszustandsdetektors 2 vorgegebenen
Ermittlungsergebnis erläutert wird. Das heißt, falls das
Ermittlungsergebnis seitens des Sprachzustandsdetektors 2
anzeigt, daß das Eingangssignal ein Sprachsignal ist,
schaltet die Schalter-Steuereinrichtung 3 den Schalter 20
ein, wodurch ein später beschriebenes Adaptivcodebuch 12
freigegeben wird. Falls andererseits der
Sprachzustandsdetektor 2 folgert, daß das Eingangssignal
ein Signal ohne Sprache ist, so schaltet die Schalter-
Steuereinrichtung 3 den Schalter 20 aus, wodurch das
Adaptivcodebuch 12 gesperrt wird.
Die LPC-Analyisiereinrichtung 5 steht mit einem
Synthetisierungsfilter 6 in Verbindung, das auch ein
Signal empfängt, das unter Verwendung des
Adaptivcodebuches 12 erzeugt wird, das ein Element eines
Voraussageteils für eine Tonquelle mit Sprache ist,
während ein Wahrscheinlichkeitscodebuch 14 ein anderes
Element des Voraussageteils für eine Tonquelle mit
Sprache bildet.
Das Adaptivcodebuch 12 steht über einen Multiplizierer 13
und den Schalter 20 mit einer ersten Eingangsklemme eines
Addierglieds 17 in Verbindung. Das
Wahrscheinlichkeitscodebuch 14 ist über einen
Multiplizierer 15 und einen Schalter 16 mit einer zweiten
Eingangsklemme des Addierglieds 17 verbunden.
Die Ausgangsklemme des Addierglieds 17 steht über das
Synthetisierungsfilter 6 mit der Eingangsklemme des
Subtrahierglieds 8 und ebenso über eine
Verzögerungsschaltung 11, die ein weiteres Element des
Voraussageteils für eine Tonquelle mit Sprache darstellt,
mit dem Adaptivcodebuch 12 in Verbindung.
Das Ausgangssignal des Wahrscheinlichkeitscodebuches 14
wird über den Multiplizierer 15 und den Schalter 16 auch
einem Zufallssignalgenerator 21 zugeführt, der als
Zufallssignal-Erzeugungseinrichtung und als
Voraussageteil für eine Tonquelle ohne Sprache dient. Der
Ausgang des Zufallssignalgenerators 21 steht mit einer
dritten Eingangsklemme des Addierglieds 17 über einen
Multiplizierer 22 und einen Schalter 23 in Verbindung.
Die Ausgangsklemme des Synthetisierungsfilters 6 ist über
das mit dem Unterrahmen-Unterteiler 7 verbundene
Subtrahierglied 8 und ferner über ein Hörbarkeits-
Wichtungsfilter 9 mit der Eingangsklemme einer
Fehlerauswerteschaltung 10 verbunden. Das
Auswerteergebnis der Fehlerauswerteschaltung 10 wird zum
Adaptivcodebuch 12, zum Wahrscheinlichkeitscodebuch 14
und zu den Multiplizierern 13 und 15 rückgekoppelt, so
daß ein optimaler Code ausgewählt und der zugeordnete
Verstärkungsgrad auf einen optimalen Wert eingestellt
wird. Das obige Auswerteergebnis wird auch einem
Multiplexer 18 zugeführt.
Bei der vorstehend beschriebenen Sprachsignal-
Codiervorrichtung wird die Linearvoraussage-
Codiervorrichtung gebildet durch die
Verzögerungsschaltung 11, das Adaptivcodebuch 12, das
Wahrscheinlichkeitscodebuch 14, den
Zufallssignalgenerator 21, die Multiplizierer 13, 15 und
22, die Schalter 16, 20 und 23 sowie das Addierglied 17.
Fig. 2 stellt ein Blockdiagramm dar, das Einzelheiten des
Sprachzustandsdetektors 2 verdeutlicht.
Das Ausgangssignal des Pufferspeichers 1 wird dem
Sprachzustandsdetektor 2 angelegt. In dem
Sprachzustandsdetektor 2 wird das angelegte Signal in
zwei Signale so unterteilt, daß das eine Signal einer
Rahmenenergie-Analysiereinrichtung 2a und das andere
Signal einer Anfangsrahmenenergie-Analysiereinrichtung 2b
zugeführt wird.
Der Ausgang der Rahmenenergie-Analysiereinrichtung 2a
steht mit einer ersten Eingangsklemme in Verbindung, die
als eine positive Klemme eines Addierglieds 2c dient. Der
Ausgang der Anfangsrahmenenergie-Analyisiereinrichtung 2b
steht mit einer zweiten Eingangsklemme in Verbindung, die
als eine negative Klemme des Addierglieds 2c dient. Der
Ausgang der Anfangsrahmenenergie-Analysiereinrichtung 2b
steht auch mit einer Schwellenwert-Bestimmungsschaltung
2d in Verbindung.
Die Ausgangsklemme des Addierglieds 2c und die
Ausgangsklemme der Schwellenwert-Bestimmungsschaltung 2d
sind mit einem Detektor 2e verbunden, dessen
Ausgangssignal der Schalter-Steuereinrichtung 3 zugeführt
wird.
Der Signalfluß durch die Sprachsignal-Codiervorrichtung
mit dem in den Fig. 1 und 2 verdeutlichten Aufbau wird
nachfolgend beschrieben.
Ein Originalsprachsignal, das mit beispielsweise 8 kHz
abgetastet wird (oder zu Zeitintervallen von 1/8 ms
abgetastet wird), wird über die Eingangsklemme der
Sprachsignal-Codiervorrichtung angelegt. Das Sprachsignal
in einer vorbestimmten Rahmenperiode (z. B. 20 ms, in
denen 160 Abtastwerte vorliegen) wird in dem
Pufferspeicher 1 abgespeichert.
Der Pufferspeicher 1 führt das obige Eingangssignal in
Einheiten von Rahmen dem Unterrahmen-Unterteiler 7, der
LPC-Analysiereinrichung 5 und dem Sprachzustandsdetektor
2 zu.
Der Sprachzustandsdetektor 2 ermittelt, ob das
Eingangssignal in einem bestimmten Rahmen ein Signal mit
Sprache (Sprachsignal) oder ein Signal ohne Sprache ist,
und zwar z. B. in der nachfolgend beschriebenen Art und
Weise.
Bei dem entsprechend Fig. 2 aufgebauten
Sprachzustandsdetektor 2 berechnet die Rahmenenergie-
Analysiereinrichtung 2a die dem Eingangssignal
zugeordnete Rahmenenergie Ef gemäß der nachfolgenden
Gleichung (1)
wobei s(n) das Eingangssignal eines n-ten Abtastwerts und
N die Rahmenlänge ist.
Die Anfangsrahmenenergie-Analysiereinrichtung 2b
berechnet die Anfangsrahmenenergie Eb zu Beginn eines
Codiervorganges gemäß Gleichung (1).
Die Schwellenwert-Bestimmungsschaltung 2d setzt einen
Schwellenwert in Abhängigkeit von der
Hintergrundrauschenergie fest. Zum Beispiel wird, wie aus
Fig. 3 ersichtlich, der Schwellenwert (in dB) mit einer
Zunahme der Hintergrundrauschenergie (in dB) verringert.
Der festgesetzte Schwellenwert wird dem Detektor 2e
zugeführt.
Das Addierglied 2c empfängt die Rahmenenergie Ef an
seiner positiven Eingangsklemme und die
Anfangsrahmenenergie Eb an seiner negativen
Eingangsklemme und addiert diese beiden Signale. Somit
wird die Anfangsrahmenenergie Eb von der Rahmenenergie Ef
abgezogen. Der sich ergebende Subtraktionswert wird dem
Detektor 2e zugeführt.
Der Detektor 2e vergleicht den Subtraktionswert mit dem
Schwellenwert. Ist der Subtraktionswert größer als der
Schwellenwert, wird der Eingangssignalrahmen als
Sprachsignalrahmen angesehen. Im entgegengesetzten Fall
wird der Eingangssignalrahmen als Rahmen eines Signals
ohne Sprache angesehen.
Betrachtet man wieder Fig. 1, so unterteilt der
Unterrahmen-Unterteiler 7 das Eingangssignal in jedem
Rahmen in Unterrahmen, von denen jeder einer vorbestimmte
Zeitperiode aufweist (z. B. 5 ms, so daß jeder
Unterrahmen 40 Abtastwerte einschließt). Das heißt, das
Eingangssignal in jedem Rahmen wird durch einen ersten,
zweiten, dritten und vierten Unterrahmen unterteilt, so
daß für jeden Rahmen vier Unterrahmen erzeugt werden.
Die LPC-Analysiereinrichtung 5 führt eine
Linearvoraussage-Codier (LPC)-Analyse im Hinblick auf das
Eingangssignal durch und gewinnt einen Linearvoraussage-
Parameter α, der die Spektralcharakteristik des
Eingangssignals darstellt. Der gewonnene
Linearvoraussage-Parameter α wird dem
Synthetisierungsfilter 6 und dem Multiplexer 18
zugeführt.
Die Verzögerung L und die Verstärkung β, die dem
Adaptivcodebuch 12 zugeordnet sind, und der Index i und
die Verstärkung γ, die dem Wahrscheinlichkeitscodebuch 14
zugeordnet sind, werden in der nachfolgend beschriebenen
Art und Weise bestimmt.
Der Vorgang der Bestimmung der Verzögerung L und der
Verstärkung β wird zuerst beschrieben.
Die Verzögerungsschaltung 11 erzeugt eine Verzögerung bei
dem in das Synthetisierungsfilter 6 eingegebene Signal
des vorhergehenden Rahmens, d. h. dem Tonquellen-
Steuersignal, um einen Betrag, der dem Abstandszyklus
entspricht, wodurch ein Adaptivcodevektor erzeugt wird.
Wird beispielsweise angenommen, daß der Abstandszyklus
gleich 40-167 Abtastwerten ist, so werden 128 Arten von
Signalen, die um 40-167 Abtastwerte verzögert sind, als
Adaptivcodevektoren erzeugt und im Adaptivcodebuch 12
gespeichert.
Während des obigen Vorganges wird der Schalter 16 im
offenen Zustand gehalten. In dem Multiplizierer 13 wird
jeder Adaptivcodevektor mit einem variierenden
Verstärkungswert multipliziert, und das Ergebnis wird
nach Durchlaufen durch das Addierglied 17 direkt dem
Synthetisierungsfilter 6 zugeführt.
Das Synthetisierungsfilter 6 synthetisiert einen Vektor
unter Verwendung des Linearvoraussage-Parameters α'. Der
resultierende synthetisierte Vektor wird dem
Subtrahierglied 8 zugeführt. Das Subtrahierglied 8
subtrahiert den synthetisierten Vektor vom
Originalsprachvektor, wodurch ein Fehlervektor erzeugt
wird. Der erhaltene Fehlervektor wird dem Hörbarkeits-
Wichtungsfilter 9 zugeführt.
Das Hörbarkeits-Wichtungsfilter 9 führt einen
Wichtungsprozeß im Hinblick auf den Fehlervektor unter
Berücksichtigung von Hörbarkeitscharakteristiken durch.
Der gewichtete Fehlervektor wird dann der
Fehlerauswerteschaltung 10 zugeführt.
Die Fehlerauswerteschaltung 10 berechnet das dem
Fehlervektor zugeordnete mittlere Quadrat und sucht nach
einem Adaptivcodevektor, der ein minimales mittleres
Quadrat aufweist. Die sich ergebende Verzögerung L und
die Verstärkung β werden dem Multiplexer 18 zugeführt.
Auf diese Weise werden die Verzögerung L und die
Verstärkung β bestimmt, die dem Adaptivcodebuch 12
zugeordnet sind.
Nachfolgend wird nun der Vorgang der Bestimmung des Index
i und der Verstärkung γ beschrieben.
Das Wahrscheinlichkeitscodebuch 14 speichert z. B. 512
Wahrscheinlichkeitscodevektoren, von denen jeder eine
Dimension aufweist, die der Unterrahmenlänge entspricht
(40 beim obigen speziellen Beispiel), wobei jedem
Wahrscheinlichkeitscodevektor sein eigener Index
zugeordnet ist. Während des obigen Vorgangs wird der
Schalter 16 im geschlossenen Zustand gehalten.
Mit Hilfe des Multiplizierers 13 wird der beim obigen
Vorgang erhaltene optimale Adaptivcodevektor mit der
optimalen Verstärkung β multipliziert, und das Ergebnis
wird dem Addierglied 17 zugeführt.
Mit Hilfe des Multiplizierers 15 wird jeder
Wahrscheinlichkeitscodevektor mit einem sich ändernden
Verstärkungswert multipliziert, woraufhin das Ergebnis
dem Addierglied 17 zugeführt wird. Das Addierglied 17
bestimmt die Summe aus optimalem Adaptivcodevektor
multipliziert mit der optimalen Verstärkung β und jedem
Codevektor. Das Ergebnis wird dann dem
Synthetisierungsfilter 6 zugeführt.
Daraufhin wird ein Vorgang durchgeführt, der ähnlich
demjenigen ist, der bei der Bestimmung der obigen
Adaptivcodebuch-Parameter verwendet wurde. Das heißt, das
Synthetisierungsfilter 6 synthetisiert einen Vektor unter
Verwendung des Linearvoraussage-Parameters α' und führt
den resultierenden synthetisierten Vektor dem
Subtrahierglied 8 zu.
Das Subtrahierglied 8 subtrahiert den synthetisierten
Vektor vom Originalsprachvektor, wodurch ein Fehlervektor
erzeugt wird. Der erhaltene Fehlervektor wird dem
Hörbarkeits-Wichtungsfilter 9 zugeführt.
Das Hörbarkeits-Wichtungsfilter 9 führt einen
Wichtungsprozeß im Honblick auf den Fehlervektor unter
Berücksichtigung von Hörbarkeitscharakteristiken durch.
Der gewichtete Fehlervektor wird dann der
Fehlerauswerteschaltung 10 zugeführt.
Die Fehlerauswerteschaltung 10 berechnet das dem
Fehlervektor zugeordnete mittlere Quadrat und sucht nach
einem Adaptivcodevektor, der ein minimales mittleres
Quadrat aufweist. Der Index i und die Verstärkung γ, die
daraus resultieren, werden dem Multiplexer 18 zugeführt.
Auf diese Weise werden der Index i und die Verstärkung γ
bestimmt, die dem Wahrscheinlichkeitscodebuch 14
zugeordnet sind.
Der Multiplexer 18 überträgt in einer Mutiplexart den
quantisierten Linearvoraussage-Parameter α', die
Verzögerung L und die Verstärkung β, die dem
Adaptivcodebuch zugeordnet sind, und den Index i und die
Verstärkung γ, die dem Wahrscheinlichkeitscodebuch
zugeordnet sind.
Wird gefolgert, daß das Eingangssignal in einem
bestimmten Rahmen ein Signal ohne Sprache ist, so wird
die Verstärkung des Tonquellensignals wie folgt bestimmt.
Stellt der Sprachzustandsdetektor 2 fest, daß das
Eingangssignal ein Signal ohne Sprache ist, so wird
zuerst eine LPC-Analyse wie im Fall eines Sprachsignals
durchgeführt. Die Übertragung der LPC-Information
ermöglicht es, daß die charakteristischen Merkmale des
Eingangssignals selbst für ein Signal ohne Sprache bis zu
einem bestimmten Grad beibehalten werden.
Wird das Eingangssignal als ein Signal ohne Sprache
angesehen, schaltet die Schalter-Steuereinrichtung 3 den
Schalter 20 aus, so daß das Adaptivcodebuch 12 gesperrt
wird, wie dies oben beschrieben wurde. Demzufolge wird in
diesem Fall ein vom Zufallssignalgenerator 21 erzeugtes
Zufallssignal als Tonquellensignal verwendet.
Die dem Zufallssignal zugeordnete Verstärkung wird wie
folgt bestimmt. Zuerst wird angenommen, daß das
Eingangssignal ein Sprachsignal ist. Bei dieser Annahme
wird das Wahrscheinlichkeitscodebuch 14 durchsucht und
das Tonquellensignal vorausgesagt.
Der Zufallssignalgenerator 21 berechnet die Energie des
vorausgesagten Tonquellensignals. Die dem
Tonquellensignal zugeordnete Verstärkung wird so
eingestellt, daß die Energie des erzeugten Zufallssignals
gleich der Energie des Tonquellensignals wird.
Ferner wird die dem Zufallssignal zugeordnete Verstärkung
auf einen Wert festgelegt, der um einen vorbestimmten
Faktor z. B. 1/2 relativ zu der Energie des
Tonquellensignals unterdrückt wird, das unter der Annahme
vorausgesagt wurde, daß das Eingangssignal ein
Sprachsignal ist.
Da die dem Tonquellensignal zugeordntet Verstärkung, wie
oben beschrieben, in Übereinstimmung mit der Energie des
Tonquellensignals festgelegt wird, das unter der Annahme
vorausgesagt wurde, daß das Eingangssignal ein
Sprachsignal ist, wird eine Unnatürlichkeit am Übergang
zwischen einer Sprachperiode und einer sprachfreien
Periode verringert.
Da ferner die Energie des Tonquellensignals, das unter
der Annahme vorausgesagt wurde, daß das Eingangssignal
ein Sprachsignal ist, um ein bestimmtes Verhältnis
unterdrückt wird, wird das Hintergrundrauschen, das das
Ohr beeinträchtigt, falls das Eingangssignal ein Signal
ohne Sprache ist, unterdrückt.
Bei einer Sprachsignal-Decodiervorrichtung, die der oben
beschriebenen Sprachsignal-Codiervorrichtung entspricht,
kann die Decodierung in einer Art und Weise durchgeführt
werden, die ähnlich der in der japanischen
Patentanmeldung Nr. 7-268756 beschriebenen
konventionellen Technik ist.
Das vom Sprachzustandsdetektor zum Erfassen des Zustands
des Eingangssignals verwendete Verfahren ist nicht auf
das oben beschriebene Verfahren beschränkt, sondern es
können auch andere Verfahren Verwendung finden.
Obwohl bei dem obigen speziellen Ausführungsbeispiel die
Sprachsignal-Codiervorrichtung auf der Linearvoraussage-
Codetechnik mit Code-Erregung beruht, kann die Erfindung
auch bei irgendeiner Art von Sprachsignal-
Codiervorrichtung Anwendung finden, solange sie ein
Signal, das einen linearen Voraussageparameter verwendet,
und ein Tonquellensteuersignal repräsentiert, das einem
residualen, linearen Voraussagesignal entspricht.
Falls die Information, die anzeigt, ob das Signal ein
Sprachsignal oder ein sprachfreies Signal ist, zusammen
mit einem Codierparameter übertragen wird, und falls die
Decodiervorrichtung eine Schalter-Steuerschaltung und
einen Schalter, die denen bei der Codiervorrichtung
ähnlich bzw. gleich sind, verwendet, so daß der Schalter
in Übereinstimmung mit der Information gesteuert wird,
die anzeigt, ob das Signal ein Sprachsignal oder ein
Signal ohne Sprache ist, kann eine Codier-/
Decodiervorrichtung mit variabler Bitrate realisiert
werden, die ein Sprachsignal mit einem höheren
Komprimierungswirkungsgrad codieren kann.
Bei der oben beschriebenen Sprachsignal-Codiervorrichtung
gemäß dem ersten Ausführungsbeispiel wird die
Verstärkung, die dem Tonquellensignal in einer
sprachfreien Periode zugeordnet ist, auf der Grundlage
der Energie des Tonquellensignals festgelegt, das unter
der Annahme vorausgesagt wurde, daß das Eingangssignal
ein Sprachsignal ist. Dies verringert die Unnatürlichkeit
am Übergang zwischen Sprachperioden und Perioden ohne
Sprache, und es ist möglich, ein Signal ohne Sprache zu
komprimieren, ohne eine Verschlechterung hinsichtlich der
Natürlichkeit des reproduzierten Tons hervorzurufen.
Die Fig. 4 und 5 verdeutlichen ein zweites
Ausführungsbeispiel einer Sprachsignal-Codiervorrichtung,
wobei der Aufbau der Codiervorrichtung in Form eines
Blockdiagramms in Fig. 4 dargestellt ist. Bei diesem
zweiten Ausführungsbeispiel sind Elemente und Teile, die
denen des oben beschriebenen ersten Ausführungsbeispiels
entsprechen, mit den gleichen Bezugszeichen versehen und
werden hier nicht näher beschrieben. Die folgende
Beschreibung betrifft stattdessen hauptsächlich die
unterschiedlichen Teile.
Bei der Sprachsignal-Codiervorrichtung dieses zweiten
Ausführungsbeispiels steht, wie aus Fig. 4 ersichtlich,
eine der drei Ausgangsklemmen eines Pufferspeichers 1
über einen Sprachzustandsdetektor 2 mit einer Schalter-
Steuereinrichtung 3A in Verbindung, die als
Steuereinrichtung zum Ansteuern der nachfolgend
beschriebenen Schalter 4A und 4B dient.
Eine LPC-Analysiereinrichtung 5 ist mit einer
Eingangsklemme b des Schalters 4A verbunden. Die LPC-
Analysiereinrichtung 5 steht auch mit einem
Parameterspeicher 5a in Verbindung, so daß das
Ausgangssignal der LPC-Analysiereinrichtung 5 in dem
Parameterspeicher 5a gespeichert wird. Der
Parameterspeicher 5a ist mit einer Eingangsklemme a des
Schalters 4A verbunden.
Die Ausgangsklemme des Schalters 4A steht mit der
Eingangsklemme des Schalters 4B in Verbindung, der in der
Nähe des Schalters 4A angeordnet ist. Eine Ausgangsklemme
des Schalters 4B ist mit einem Synthetisierungsfilter 6
verbunden, und eine Ausgangsklemme b steht mit einer
Parameter-Glättungsschaltung 19 in Verbindung, die als
Mittel zum Glätten eines Linearvoraussage-Parameters
dient, der einem Rahmen ohne Sprache zugeordnet ist.
Die Parameter-Glättungsschaltung 19 ist mit einem
Parameterspeicher 19a verbunden, der als
Parameterspeichereinrichtung zum Speichern des
Ausgangssignals der Parameter-Glättungsschaltung 19
dient, so daß die gespeicherten Daten, falls
erforderlich, gelesen werden können. Der Ausgang der
Parameter-Glättungsschaltung 19 steht mit dem
Synthetisierungsfilter 6 in Verbindung.
Bei diesem Ausführungsbeispiel findet der beim ersten
Ausführungsbeispiel verwendete Schalter 20 keine
Anwendung.
Bei der Sprachsignal-Codiervorrichtung mit dem obigen
Aufbau wird die Linearvoraussage-Codiereinrichtung mit
Hilfe einer Verzögerungsschaltung 11, eines
Adaptivcodebuches 12, eines Wahrscheinlichkeitscodebuches
14, von Multiplizierern 13 und 15, des Schalters 16 und
eines Addierglieds 17 ausgebildet.
Beim vorliegenden Ausführungsbeispiel weist der
Sprachzustandsdetektor 2 den gleichen Aufbau und die
gleiche Funktionsweise wie beim ersten
Ausführungsbeispiel auf, das mit Bezug auf Fig. 2
vorstehend beschrieben wurde.
In den Fig. 1 und 4 weist jeder der Schalter zwischen den
Bauelementen 12 und 13, 14 und 15 bzw. 21 und 22 eine
Schaltfunktion auf, um die in Frage kommenden Daten in
das Adaptivcodebuch 12, in das
Wahrscheinlichkeitscodebuch 14 bzw. in den
Zufallssignalgenerator 21 auszugeben.
In der Fig. 1 bewirkt die Schalter-Steuereinrichtung 3,
die EIN/AUS-Steuerung des Schalters 20. Im Gegensatz dazu
wird die Steuerung der Schalter 16 und 23 mit Hilfe einer
nicht gezeigten Steuereinrichtung wie folgt vorgenommen.
Das heißt, während der Datensuche im
Wahrscheinlichkeitscodebuch 14 ist der Schalter 16
eingeschaltet, während der Schalter 23 ausgeschaltet ist.
Während der Datensuche im Zufallssignalgenerator 21 ist
hingegen der Schalter 16 ausgeschaltet, der Schalter 23
jedoch eingeschaltet.
In Fig. 4 nimmt die Schalter-Steuereinrichtung 3A die
Steuerung der Schalter 4A und 4B vor. Im Gegensatz dazu
wird die Steuerung des Schalters 16 mit Hilfe einer nicht
dargestellten Steuereinrichtung wie folgt vorgenommen.
Das heißt, während der Datensuche im Adaptivcodebuch 12
ist der Schalter 16 ausgeschaltet. Wenn die Datensuche im
Wahrscheinlichkeitscodebuch 14 vorgenommen wird, nachdem
die Datensuche im Adaptivcodebuch 12 beendet ist, wird
der Schalter 16 eingeschaltet. Ist die Datensuche im
Wahrscheinlichkeitscodebuch 14 beendet, so wird der
Schalter 16 wieder ausgeschaltet. Die gleichen Vorgänge
sind danach zu wiederholen.
In den Fig. 1 und 4 werden die Ausgangssignale des
Multiplexers 18 z. B. auf einem Aufzeichnungsmedium
aufgezeichnet. Andernfalls werden sie auf
Informationsübertragungsleitungen, wie z. B.
Telefonleitungen, gegeben.
Nachfolgend wird der Signalfluß bei der Sprachsignal-
Codiervorrichtung des zweiten Ausführungsbeispiels
beschrieben.
Die LPC-Analysiereinrichtung 5 führt eine
Linearvoraussagecodier (LPC)-Analyse bezüglich des
Eingangssignals durch und gewinnt einen Linearvoraussage-
Parameter α, der die Spektralcharakteristik des
Eingangssignals wiedergibt. Der gewonnene
Linearvoraussage-Parameter α wird dem Parameterspeicher
5a und ebenso über die Schalter 4A und 4B dem
Synthetisierungsfilter 6 oder der
Parameterglättungsschaltung 19 zugeführt.
Der Betrieb der Schalter-Steuereinrichtung 3A wird
nachfolgend mit Bezug auf das in Fig. 5 gezeigte
Ablaufdiagramm beschrieben.
Zu Beginn eines Codiervorganges (Schritt S1) wird eine
Variable i auf 0 gesetzt (Schritt S2), die die Anzahl von
aufeinanderfolgenden Rahmen ohne Sprache wiedergibt.
Dann wird festgestellt, ob das Ermittlungsergebnis
seitens des Sprachzustandsdetektors 2 anzeigt, daß das
Eingangssignal ein Sprachsignal oder ein Signal ohne
Sprache ist (Schritt S3). Falls das Eingangssignal ein
Signal ohne Sprache ist, wird die Variable i um 1 nach
oben gezählt (Schritt S4). Die Variable i wird mit einem
vorbestimmten Wert R (z. B. 5) beim Schritt S5
verglichen. Falls i größer als R ist, werden beide
Schalter 4A und 4B in die Schaltstellung a gebracht
(Schritt S6), so daß der Linearvoraussage-Parameter, der
dem vom Parameterspeicher 5a ausgegebenen, vorhergehenden
Rahmen zugeordnet ist, bei dem folgenden Rahmen
weiterverwendet wird (Schritt S7).
Dann wird i mit R + 1 (Schritt S8) verglichen. Wird
festgestellt, daß i größer als R + 1 ist, so werden beide
Schalter 4A und 4B in die Schaltstellung b gebracht
(Schritt S9), so daß das Ergebnis der LPC-Analyse, die
von der LPC-Analysiereinrichtung durchgeführt wird, der
Parameter-Glättungsschaltung 19 zugeführt wird (Schritt
S10).
Dann glättet die Parameter-Glättungsschaltung 19 den
Parameter (Schritt S11), wie dies nachfolgend beschrieben
wird.
Im voraus wird ein anfänglicher k-Parameter Noise_α
erstellt, der dem Hintergrundrauschen zugeordnet ist und
in dem Parameterspeicher 19a abgespeichert wird. Die
Glättung wird durch Ausführen einer Wichtung unter
Verwendung von Noise_α entsprechend der nachfolgend
beschriebenen Gleichung (2) vorgenommen.
Der dem Hintergrundrauschen zugeordnete, anfängliche k-
Parameter Noise_α stellt einen Linearvoraussage-Parameter
dar, der das Hintergrundrauschen in einer Umgebung, wie
z. B. einem Büro, wiedergibt.
In der Gleichung (2) wird dem anfänglichen k-Parameter,
der dem Hintergrundrauschen Noise_α zugeordnet ist, ein
größerer Wichtungsfaktor als dem Linearvoraussage-
Parameter α [i], der dem momentanen Rahmen zugeordnet
ist, zugeteilt, so daß der Effekt infolge einer
Schwankung des Parameters α [i] unterdrückt wird.
Dann wird unmittelbar nach dem obigen Vorgang der
anfängliche k-Parameter Noise_α [i], der dem
Hintergrundrauschen zugeordnet ist, entsprechend der
nachfolgenden Gleichung (3) aktualisiert (Schritt S12).
Noise_α[i] = α'[i] (3)
Dann wird auf den nächsten Rahmen gewartet (Schritt S13).
Wird beim Schritt S8 festgestellt, daß i gleich oder
kleiner als R + 1 ist, so schreitet der Ablauf ebenso zum
Schritt S13 fort.
Wie oben beschrieben, wird die Schwankung des
Tonquellensignals in einer sprachfreien Zeitperiode
unterdrückt, während das Ergebnis der LPC-Analyse
wiedergespiegelt wird.
Wird andererseits beim Schritt S3 festgestellt, daß das
Eingangssignal ein Sprachsignal ist, wird die Variable i,
die die Anzahl von aufeinanderfolgenden Rahmen ohne
Sprache wiedergibt, auf 0 zurückgesetzt (Schritt S14).
Anschließend wird der Schalter 4A in die Schaltstellung
b, der Schalter 4B jedoch in die Schaltstellung a
gebracht (Schritt S15). Dann wird eine LPC-Analyse
durchgeführt und der Linearvoraussage-Parameter
aktualisiert (Schritt S16). Daraufhin schreitet der
Ablauf zum Schritt S13 fort und wartet auf den nächsten
Rahmen.
Wird beim Schritt S5 festgestellt, daß i gleich oder
kleiner als R ist, so schreitet der Ablauf auch zum
Schritt S14 fort.
Ist bei der Sprachsignal-Codiervorrichtung des oben
beschriebenen zweiten Ausführungsbeispiels das
Eingangssignal ein Signal ohne Sprache über eine
vorbestimmte oder größere Anzahl von aufeinanderfolgenden
Rahmen, so wird die Schwankung des Parameters von Rahmen
zu Rahmen unterdrückt, so daß ein hochqualitativer
Sprachsignal-Codiervorgang selbst in einer Signalperiode
ohne Sprache erzielt werden kann.
Die Fig. 6 bis 8 und 9A bis 9E verdeutlichen ein drittes
Ausführungsbeispiel, wobei Fig. 6 ein Blockdiagramm
zeigt, das den Aufbau eines Sprachzustandsdetektors des
vorliegenden Ausführungsbeispiels verdeutlicht. Bei
diesem dritten Ausführungsbeispiel sind Elemente oder
Teile, die denen des oben beschriebenen ersten oder
zweiten Ausführungsbeispiels entsprechen, mit gleichen
Bezugszeichen versehen und werden hier nicht näher
erläutert. Die folgende Beschreibung betrifft stattdessen
hauptsächlich unterschiedliche Teile.
Dieses dritte Ausführungsbeispiel weist ein besonderes
Merkmal im Hinblick auf den Aufbau des nachfolgend
beschriebenen Sprachzustandsdetektors auf.
Wie aus Fig. 6 ersichtlich, umfaßt der als
Sprachzustands-Erfassungseinrichtung dienende
Sprachzustandsdetektor 31 eine Rahmenenergie-
Berechnungsschaltung 32, die als Pegelmeßeinrichtung zum
Berechnen des Energiepegels eines Eingangssignals für
jeden Rahmen dient, eine Schwellenwert-
Berechnungsschaltung 33 zum Berechnen des Schwellenwerts
auf der Grundlage des Ausgangssignals der Rahmenenergie-
Berechnungsschaltung 32, wobei der Ausgang der
Schwellenwert-Berechnungsschaltung 33 als Schwellenwert-
Anpassungseinrichtung dient, was später beschrieben wird,
einen Vergleicher 34 zum Vergleichen des Ausgangssignals
der Rahmenenergie-Berechnungseinrichtung 32 mit dem
Ausgangssignal der Schwellenwert-Berechnungseinrichtung
33 und zum Ausgeben des Vergleichsergebnisses und einen
Zähler 35 für Rahmen ohne Sprache, der die Anzahl von
aufeinanderfolgenden Rahmen ohne Sprache zählt, deren
Rahmenenergie vom Vergleicher 34 als geringer als der
Schwellenwert angesehen wird, und der feststellt, ob das
Eingangssignal ein Signal ohne Sprache ist oder nicht,
und das Ergebnis der Feststellung abgibt, wobei bei der
Feststellung das Eingangssignal als Signal ohne Sprache
angesehen wird, falls das Zählergebnis einen
vorbestimmten Wert überschreitet.
Fig. 7 zeigt ein Flußdiagramm, das einen
Betriebsabschnitt des Sprachzustandsdetektors 31
wiedergibt, während Fig. 8 ein Flußdiagramm zeigt, das
einen anderen Betriebsabschnitt des
Sprachzustandsdetektors 31 wiedergibt.
Zu Beginn des Verfahrens bzw. Vorganges (Schritt S21)
werden verschiedene Konstanten auf geeingete Werte
gesetzt (Schritt S22). Zum Beispiel werden obs_lim,
trs_min und trs_max auf 50, 128 bzw. 262144 gesetzt,
wobei obs_lim die Anzahl der betrachteten Rahmen ist, um
das Verhältnis zu bestimmen, um das der Schwellenwert
erhöht werden soll, trs_min der untere Grenzwert des
Schwellenwerts ist und trs_max der obere Grenzwert des
Schwellenwerts ist.
Anschließend werden verschiedene Variable voreingestellt
(Schritt S23). Im einzelnen werden die Variablen frm,
trs, status und NoiseCnt alle auf 0 gesetzt, wobei frm
die momentane Rahmenanzahl, trs der Schwellenwert, status
der Zustand des Einstellens des Schwellenwert-
Zunahmeverhältnisses und NoiseCnt die Anzahl der
nachhängenden Rahmen ist.
Anschließend wird die Rahmenenergie eng beispielsweise in
Übereinstimmung mit der nachfolgend wiedergegebenen
Gleichung (4) berechnet (Schritt S24).
wobei s(n) das Eingangssignal eines n-ten Abtastwerts und
N die Rahmenlänge ist.
Anschließend wird der Schwellenwert trs mit dem unteren
Grenzwert trs_min verglichen (Schritt S25). Falls der
Schwellenwert trs kleiner als der untere Grenzwert
trs_min ist, wird der Schwellenwert auf den unteren
Grenzwert trs_min gesetzt (Schritt S26).
Wird beim Schritt S25 festgestellt, daß der Schwellenwert
trs gleich oder größer als der untere Grenzwert trs_min
ist, oder falls der Schritt S26 beendet ist, schreitet
der Verfahrensablauf zum Schritt S27 fort, um
festzustellen, ob die Rahmenenergie eng geringer als der
Schwellenwert trs ist. Ist die Rahmenenergie eng geringer
als der Schwellenwert trs, so wird der Schwellenwert trs
aktualisiert, so daß trs = eng gilt (Schritt S28).
Wird beim Schritt S27 andererseits festgestellt, daß die
Rahmenenergie eng gleich oder größer als der
Schwellenwert trs ist, so schreitet der Verfahrensablauf
zum Schritt S29 fort, um festzustellen, ob die momentane
Rahmenanzahl frm geringer als die Anzahl der zu
betrachtenden Rahmen obs_lim ist. Bei dem obigen
speziellen Beispiel, bei dem die Konstanten wie beim
Schritt S22 festgelegt werden, wird die Beurteilung
derart durchgeführt, daß festgestellt wird, ob die Anzahl
von Rahmen, die bereits nach dem Start des Vorgangs bzw.
Verfahrens bearbeitet wurden, kleiner als 50 ist.
Falls frm kleiner als obs_lim ist, schreitet der
Verfahrensablauf zum Schritt S30 fort, um ferner
festzustellen, ob die momentane Rahmenanzahl frm gleich 0
ist. Ist die momentane Rahmenanzahl gleich 0, wird MinLev
auf einen Wert gleich eng gesetzt (Schritt S31). Ist die
momentane Rahmenanzahl nicht gleich 0, so schreitet der
Verfahrensablauf zum Schritt S32 fort, um festzustellen,
ob die Rahmenenergie geringer als MinLev ist.
Falls die Rahmenenergie geringer als MinLev ist, wird
MinLev aktualisiert, so daß gilt MinLev = eng (Schritt
S33). Bei den Schritten S30 bis S33 wird die niedrigste
Rahmenenergie von jenen 50 Rahmen, die ab Beginn des
Verfahrens gezählt wurden, als MinLev bestimmt.
Falls irgendeiner der Schritte S28, S31 oder S33 beendet
ist oder wird beim Schritt S29 festgestellt, daß die
momentane Rahmenanzahl gleich oder größer als die Anzahl
der zu betrachtenden Rahmen obs_lim ist, oder wird beim
Schritt S32 festgestellt, daß die Rahmenenergie gleich
oder größer als MinLev ist, so schreitet der
Verfahrensablauf zum Schritt S34 fort, um festzustellen,
ob die momentane Rahmenanzahl gleich oder größer als die
Anzahl der zu betrachtenden Rahmen obs_lim ist und ob der
Zustand des Festlegens eines ansteigenden Verhältnisses
gleich 0 ist. Das heißt, es wird festgestellt, ob die
Anzahl der bereits verarbeiteten Rahmen gleich oder
größer als 50 ist und keiner dieser Rahmen als Rahmen
ohne Sprache angesehen wird. (Beim Schritt S34
kennzeichnet "&&" ein logisches UND.)
Lautet beim Schritt S34 die Antwort JA, so schreitet der
Verfahrensablauf zum Schritt S35 fort, um festzustellen,
ob der Schwellenwert trs geringer als MinLev ist. Ist der
Schwellenwert trs geringer als MinLev, so schreitet das
Verfahren zum Schritt S36 fort, um den Schwellenwert trs
um 1/32 des momentanen Schwellenwerts zu erhöhen (siehe
Gleichung (9), die nachfolgend beschrieben wird). (Beim
Schritt S36 oder sonstwo kennzeichnet "+=" den Vorgang
des Addierens des Werts auf der rechten Seite zum
momentanen Wert.)
Falls der Schritt S36 beendet ist oder falls die
Feststellung beim Schritt S35 negativ ist, schreitet das
Verfahren zum Schritt S37 fort, um den Schwellenwert trs
um 1/64 des momentanen Schwellenwerts zu erhöhen (siehe
Gleichungen (5) und (9), die nachfolgend beschrieben
werden).
Beim Schritt S37 wird das ansteigende Verhältnis als
normaler Wert vorgegeben, während das beim Schritt S36
vorgegebene ansteigende Verhältnis größer als das normale
Verhältnis ist.
Anschließend wird beim Schritt S38 festgestellt, ob der
Schwellenwert trs größer als der obere Grenzwert trs_max
ist. Ist der Schwellenwert trs größer als der obere
Grenzwert trs_max, so wird der Schwellenwert derart
aktualisiert, daß der Schwellenwert trs gleich dem oberen
Grenzwert trs_max wird (Schritt S39).
Falls der Schritt S39 abgeschlossen ist, oder falls die
Feststellung beim Schritt S38 negativ ist, schreitet das
Verfahren dann zum Schritt S40 fort, um festzustellen, ob
die Rahmenenergie eng größer als der Schwellenwert trs
ist. Ist die Feststellung negativ, so schreitet das
Verfahren zum Schritt S41 fort, um den Zählwert NoiseCnt
der überhängenden Rahmen zu inkrementieren. (Beim Schritt
S41 oder anderswo bezeichnet "++" den
Inkrementierungsvorgang). Ist die Feststellung beim
Schritt S41 positiv, so schreitet das Verfahren zum
Schritt S42 fort, wo der Zählwert NoiseCnt der
überhängenden Rahmen auf 0 zurückgesetzt wird.
Falls der Schritt S41 oder S42 beendet ist, schreitet der
Verfahrensablauf zum Schritt S43 fort, um festzustellen,
ob der Zählwert NoiseCnt der überhängenden Rahmen größer
als 4 ist. Lautet die Antwort NEIN, so wird dann das
Eingangssignal als Sprachsignal angesehen und der
Verfahrensablauf schreitet zum Schritt S44 fort. Ist die
Feststellung beim Schritt S43 positiv, so wird das
Eingangssignal als Signal ohne Sprache angesehen und das
Verfahren schreitet zum Schritt S45 fort, woraufhin der
Einstellzustand für das ansteigende Verhältnis beim
Schritt S46 auf 1 gesetzt wird. Befindet sich der
Einstellzustand für das ansteigende Verhältnis in einem
"1" Zustand, so wird Schritt S34 negativ beendet und der
Schritt S36, bei dem der Schwellenwert ansonsten um das
hohe Verhältnis angehoben würde, wird übersprungen, so
daß stattdessen der Schwellenwert nur um den normalen
Betrag beim Schritt S37 erhöht wird.
Ist der Schritt S44 oder S46 beendet, wird die momentane
Rahmenanzahl frm inkrementiert (Schritt S47), woraufhin
das Verfahren zum Schritt S24 zurückkehrt, um den
nächsten Rahmen zu verarbeiten.
Wie oben beschrieben, wird beim vorliegenden
Ausführungsbeispiel der Minimalwert MinLev der
Rahmenenergie eng für 50 Rahmen (24 ms.50 = 1,2 s) nach
dem Start eines Codiervorganges bestimmt und der
Schwellenwert trs mit dem Minimalwert MinLev verglichen.
Ist der Schwellenwert trs kleiner als der Minimalwert
MinLev, so wird dann der Schwellenwert um das große
Verhältnis erhöht. Wird jedoch einmal ein Signal ohne
Sprache erfaßt, wird das ansteigende Verhältnis, das dem
Schwellenwert zugeordnet ist, auf den Normalwert
zurückgesetzt, so daß der Schwellenwert trs rasch
ausgeregelt wird.
Im einzelnen kann der Schwellenwert mit einer
verbesserten Einstellgeschwindigkeit angepaßt werden, wie
dies nachfolgend mit Bezug auf einige Gleichungen
beschrieben wird.
Wenn das ansteigende Verhältnis, das dem Schwellenwert
zugeordnet ist, auf den Normalwert gesetzt wird, wie dies
im Schritt S37 erfolgt, so wird der Schwellenwert trs'
des nächsten Rahmens bestimmt durch
Solange somit die Rahmenenergie eng für den Rahmen
geringer als der Schwellenwert für diesen Rahmen ist,
wird der Schwellenwert trs_n für den n-ten Rahmen
bestimmt durch
wobei trs_0 der Anfangsschwellenwert ist.
Damit demzufolge der Schwellenwert dem Doppelten des
Anfangswerts entspricht, gilt
Somit ergibt sich
Demzufolge sind 45 Rahmen erforderlich, um den
Schwellenwert zu erreichen, der dem Zweifachen des
Anfangswertes entspricht.
Falls andererseits dem ansteigenden Verhältnis, das dem
Schwellenwert zugeordnet ist, ein großer Wert beim
Schritt S36 zusätzlich zum Schritt S37 zugeteilt wird,
wird der Schwellenwert trs' für den nächsten Rahmen
bestimmt durch
Solange somit die Rahmenenergie eng für den Rahmen
geringer als der Schwellenwert für diesen Rahmen ist,
wird der Schwellenwert trs_n für den n-ten Rahmen
bestimmt durch
Damit demzufolge der Schwellenwert dem Doppelten des
Anfangswerts entspricht, gilt
Somit ergibt sich:
Demzufolge sind nur 15 Rahmen erforderlich, damit der
Schwellenwert den Wert erreicht, der dem Zweifachen des
Anfangswerts entspricht.
Die Fig. 9A bis 9E verdeutlichen den Vorgang der
Erfassung des Sprachzustands unter Verwendung des
Sprachzustandsdetektors 31 in Übereinstimmmung mit dem
oben beschriebenen Algorithmus.
Fig. 9A verdeutlicht den Orginalton. In Fig. 9A ist nach
einer ersten Sprachsignalperiode eine Signalperiode ohne
Sprache vorgesehen, die an der durch eine gestrichelte
Linie gekennzeichneten Stelle beginnt. Fig. 9B gibt einen
Schwellenwert wieder, der sich in konventioneller Art und
Weise in Erwiderung auf den Originalton ändert. Die
Einstellung des in Fig. 9B gezeigten Schwellenwerts
resultiert in einer fehlerhaften Feststellung, daß, wie
aus Fig. 9C ersichtlich, ein bestimmter Teil einer
Periode eines Signals ohne Sprache unmittelbar nach deren
Beginn als eine Sprachsignalperiode angesehen wird.
Im Gegensatz dazu ändert sich beim vorliegenden
Ausführungsbeispiel der Schwellenwert in einer Art und
Weise, wie dies in Fig. 9D gezeigt ist, und somit kann
der durch die gestrichelte Linie gekennzeichnete Übergang
zwischen der Sprachsignalperiode und der folgenden
Periode des Signals ohne Sprache exakt erfaßt werden, wie
dies in Fig. 9E gezeigt ist.
Bei dem oben beschriebenen speziellen Ausführungsbeispiel
wird das ansteigende Verhältnis, das dem Schwellenwert
zugeordnet ist, auf der Grundlage des relativen Werts des
Schwellenwerts trs bezüglich dem Minimalwert MinLev der
Rahmenenergie eng bestimmt, der für 50 Rahmen erfaßt
wird, die vom Beginn eines Codierprozesses gezählt
werden. Jedoch ist die Art und Weise der Bestimmung des
ansteigendne Verhältnisses bei der Erfindung nicht darauf
beschränkt. Z. B. wird das dem Schwellenwert trs
zugeordnete, ansteigende Verhältnis entsprechend der
Größe der Differenz zwischen Schwellenwert trs und MinLev
bestimmt.
Beim oben beschriebenen dritten Ausführungsbeispiel kann
der Sprachzustand exakt in Übereinstimmung mit dem
adaptiven Schwellenwert erfaßt werden, wobei der
Schwellenwert mit höherer Geschwindigkeit als bei der
konventionellen Technik angepaßt werden kann, ohne daß
dabei eine Verzögerung auftritt, bevor der Sprachzustand
korrekt erfaßt wird, selbst wenn der Eingangssignalpegel
oder der Hintergrundrauschpegel hoch wird.
Claims (8)
1. Sprachsignal-Codiervorrichtung mit
einer Sprachzustands-Erfassungseinrichtung (2) zum Feststellen, ob ein in vorbestimmte Rahmenintervalle unterteiltes Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist;
einer Linearvoraussage-Analysiereinrichtung (5) zum Ausgeben eines Linearvoraussage-Parameters, der dem Eingangssignal zugeordnet ist;
einer Linearvoraussage-Codiereinrichtung zum Erzeugen eines Tonquellen-Steuersignals, das einem residualen Linearvoraussagesignal entspricht, wobei die Linearvoraussage-Codiereinrichtung ein Voraussageteil (12, 14) für eine Tonquelle mit Sprache zum Codieren eines Sprachsignals und ein Voraussageteil für eine Tonquelle ohne Sprache zum Codieren eines Signals ohne Sprache aufweist; und
einer Codierart-Auswahleinrichtung (3) zum Auswählen einer Codierart für das Sprachsignal oder einer Codierart für das Signal ohne Sprache, in der die Linearvoraussage- Codiereinrichtung ihren Codiervorgang durchführen soll, entsprechend dem von der Sprachzustands- Erfassungseinrichtung (2) vorgegebenen Ergebnis,
wobei das Voraussageteil für die Tonquelle ohne Sprache eine Zufallssignal-Erzeugungseinrichtung (21) zum Erzeugen eines Zufallssignals aufweist, das ein Tonquellensignal darstellt, und
wobei die durch das Voraussageteil für die Tonquelle ohne Sprache codierten Daten den Linearvoraussage- Parameter, das Zufallssignal und eine dem Zufallssignal zugeordnete Verstärkung einschließen,
dadurch gekennzeichnet daß
die dem Zufallssignal zugeordnete Verstärkung in Übereinstimmung mit einer Verstärkung eingestellt ist, die erhalten wird, wenn das Voraussageteil für die Tonquelle mit Sprache ein als Eingangssignal vorgegebenes Signal ohne Sprache codiert.
einer Sprachzustands-Erfassungseinrichtung (2) zum Feststellen, ob ein in vorbestimmte Rahmenintervalle unterteiltes Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist;
einer Linearvoraussage-Analysiereinrichtung (5) zum Ausgeben eines Linearvoraussage-Parameters, der dem Eingangssignal zugeordnet ist;
einer Linearvoraussage-Codiereinrichtung zum Erzeugen eines Tonquellen-Steuersignals, das einem residualen Linearvoraussagesignal entspricht, wobei die Linearvoraussage-Codiereinrichtung ein Voraussageteil (12, 14) für eine Tonquelle mit Sprache zum Codieren eines Sprachsignals und ein Voraussageteil für eine Tonquelle ohne Sprache zum Codieren eines Signals ohne Sprache aufweist; und
einer Codierart-Auswahleinrichtung (3) zum Auswählen einer Codierart für das Sprachsignal oder einer Codierart für das Signal ohne Sprache, in der die Linearvoraussage- Codiereinrichtung ihren Codiervorgang durchführen soll, entsprechend dem von der Sprachzustands- Erfassungseinrichtung (2) vorgegebenen Ergebnis,
wobei das Voraussageteil für die Tonquelle ohne Sprache eine Zufallssignal-Erzeugungseinrichtung (21) zum Erzeugen eines Zufallssignals aufweist, das ein Tonquellensignal darstellt, und
wobei die durch das Voraussageteil für die Tonquelle ohne Sprache codierten Daten den Linearvoraussage- Parameter, das Zufallssignal und eine dem Zufallssignal zugeordnete Verstärkung einschließen,
dadurch gekennzeichnet daß
die dem Zufallssignal zugeordnete Verstärkung in Übereinstimmung mit einer Verstärkung eingestellt ist, die erhalten wird, wenn das Voraussageteil für die Tonquelle mit Sprache ein als Eingangssignal vorgegebenes Signal ohne Sprache codiert.
2. Vorrichtung nach Anspruch 1,
dadurch gekennzeichnet,
daß die Verstärkung des Zufallssignals nun in
Übereinstimmung mit einem Wert eingestellt wird, der
dadurch erhalten wird, daß die Verstärkung um einen
vorbestimmten Faktor unterdrückt wird, die erhalten wird,
wenn das Voraussageteil (12, 14) für die Tonquelle mit
Sprache das als Eingangssignal vorgegebenes Signal ohne
Sprache codiert.
3. Sprachsignal-Codiervorrichtung mit
einer Sprachzustands-Erfassungseinrichtung (2) zum Feststellen, ob ein in vorbestimmte Rahmenintervalle unterteiltes Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist;
einer Linearvoraussage-Analysiereinrichtung (5) zum Ausgeben eines Linearvoraussage-Parameters, der dem Eingangssignal zugeordnet ist;
einer Linearvoraussage-Codiereinrichtung zum Erzeugen eines Tonquellen-Steuersignals, das einem residualen Linearvoraussagesignal entspricht, wobei die Linearvoraussage-Codiereinrichtung ein Voraussageteil (12, 14) für eine Tonquelle mit Sprache zum Codieren eines Sprachsignals und ein Voraussageteil für eine Tonquelle ohne Sprache zum Codieren eines Signals ohne Sprache aufweist; und
einer Codierart-Auswahleinrichtung (3A) zum Auswählen einer Codierart für das Sprachsignal oder einer Codierart für das Signal ohne Sprache, in der die Linearvoraussage-Codiereinrichtung ihren Codiervorgang durchführen soll, entsprechend dem von der Sprachzustands-Erfassungseinrichtung vorgegebenen Ergebnis,
dadurch gekennzeichnet,
daß eine Steuereinrichtung vorgesehen ist, die den Linearvoraussage-Parameter so steuert, daß, wenn das Ermittlungsergebnis seitens der Sprachzustands- Erfassungseinrichtung anzeigt, daß das Eingangssignal ein Signal ohne Sprache über eine vorbestimmte Anzahl von aufeinanderfolgenden Rahmen ist, der Linearvoraussage- Parameter, der für einen vorhergehenden Rahmen verwendet wurde, fortlaufend als Linearvoraussage-Parameter für das Eingangssignal verwendet wird, und
daß eine Glättungseinrichtung (19) vorgesehen ist, die den Linearvoraussage-Parameter zur Verwendung bei Rahmen ohne Sprache derart glättet, daß, wenn die Anzahl von aufeinanderfolgenden Rahmen, von denen man annimmt, daß sie ein Signal ohne Sprache einschließen, die vorbestimmte Anzahl übersteigt, eine Gewichtung zwischen einem vorher bereitgestellten Linearvoraussage-Parameter zur Verwendung bei Rahmen ohne Sprache und dem dem momentanen Rahmen zugeordneten Linearvoraussage-Parameter durchgeführt Wird, und die den zwischen den beiden Parametern gewichteten Linearvoraussage-Parameter ausgibt.
einer Sprachzustands-Erfassungseinrichtung (2) zum Feststellen, ob ein in vorbestimmte Rahmenintervalle unterteiltes Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist;
einer Linearvoraussage-Analysiereinrichtung (5) zum Ausgeben eines Linearvoraussage-Parameters, der dem Eingangssignal zugeordnet ist;
einer Linearvoraussage-Codiereinrichtung zum Erzeugen eines Tonquellen-Steuersignals, das einem residualen Linearvoraussagesignal entspricht, wobei die Linearvoraussage-Codiereinrichtung ein Voraussageteil (12, 14) für eine Tonquelle mit Sprache zum Codieren eines Sprachsignals und ein Voraussageteil für eine Tonquelle ohne Sprache zum Codieren eines Signals ohne Sprache aufweist; und
einer Codierart-Auswahleinrichtung (3A) zum Auswählen einer Codierart für das Sprachsignal oder einer Codierart für das Signal ohne Sprache, in der die Linearvoraussage-Codiereinrichtung ihren Codiervorgang durchführen soll, entsprechend dem von der Sprachzustands-Erfassungseinrichtung vorgegebenen Ergebnis,
dadurch gekennzeichnet,
daß eine Steuereinrichtung vorgesehen ist, die den Linearvoraussage-Parameter so steuert, daß, wenn das Ermittlungsergebnis seitens der Sprachzustands- Erfassungseinrichtung anzeigt, daß das Eingangssignal ein Signal ohne Sprache über eine vorbestimmte Anzahl von aufeinanderfolgenden Rahmen ist, der Linearvoraussage- Parameter, der für einen vorhergehenden Rahmen verwendet wurde, fortlaufend als Linearvoraussage-Parameter für das Eingangssignal verwendet wird, und
daß eine Glättungseinrichtung (19) vorgesehen ist, die den Linearvoraussage-Parameter zur Verwendung bei Rahmen ohne Sprache derart glättet, daß, wenn die Anzahl von aufeinanderfolgenden Rahmen, von denen man annimmt, daß sie ein Signal ohne Sprache einschließen, die vorbestimmte Anzahl übersteigt, eine Gewichtung zwischen einem vorher bereitgestellten Linearvoraussage-Parameter zur Verwendung bei Rahmen ohne Sprache und dem dem momentanen Rahmen zugeordneten Linearvoraussage-Parameter durchgeführt Wird, und die den zwischen den beiden Parametern gewichteten Linearvoraussage-Parameter ausgibt.
4. Vorrichtung nach Anspruch 3,
dadurch gekennzeichnet,
daß ein Wert des Linearvoraussage-Parameters, der für ein
bestimmtes Hintergrundrauschen vorbestimmt ist, als
Anfangswert des Linearvoraussage-Parameters zur
Verwendung bei Rahmen ohne Sprache Anwendung findet.
5. Vorrichtung nach Anspruch 3 oder 4,
dadurch gekennzeichnet,
daß die Glättungseinrichtung (19) zum Glätten des
Linearvoraussage-Parameters zur Verwendung bei Rahmen
ohne Sprache die Glättung mit einem größeren
Wichtungsfaktor für den Linearvoraussage-Parameter zur
Verwendung bei Rahmen ohne Sprache als den für den
Linearvoraussage-Parameter für den momentanen Rahmen
durchführt.
6. Vorrichtung nach einem der Ansprüche 3 bis 5,
dadurch gekennzeichnet,
daß eine Parameter-Speichereinrichtung (19a) vorgesehen
ist, die einen Linearvoraussage-Parameter speichert, der
von der Glättungseinrichtung (19) zum Glätten des
Linearvoraussage-Parameters zur Verwendung bei Rahmen
ohne Sprache ausgegeben wird, so daß der gespeicherte
Linearvoraussage-Parameter als ein Linearvoraussage-
Parameter zur Verwendung bei Rahmen ohne Sprache
verwendet werden kann, um einen nächsten Rahmen zu
glätten.
7. Sprachsignal-Codiervorrichtung mit
einer Sprachzustands-Erfassungseinrichtung (31) zum Feststellen, ob ein in vorbestimmte Rahmenintervalle unterteiltes Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist;
einer Linearvoraussage-Analysiereinrichtung (5) zum Ausgeben eines Linearvoraussage-Parameters, der dem Eingangssignal zugeordnet ist;
einer Linearvoraussage-Codiereinrichtung zum Erzeugen eines Tonquellen-Steuersignals, das einem residualen Linearvoraussagesignal entspricht, wobei die Linearvoraussage-Codiereinrichtung ein Voraussageteil (12, 14) für eine Tonquelle mit Sprache zum Codieren eines Sprachsignals und ein Voraussageteil für eine Tonquelle ohne Sprache zum Codieren eines Signals ohne Sprache aufweist; und
einer Codierart-Auswahleinrichtung (3a) zum Auswählen einer Codierart für das Sprachsignal oder einer Codierart für das Signal ohne Sprache, in der die Linearvoraussage-Codiereinrichtung ihren Codiervorgang durchführen soll, entsprechend dem von der Sprachzustands-Erfassungseinrichtung vorgegebenen Ergebnis,
dadurch gekennzeichnet,
daß die Sprachzustands-Erfassungseinrichtung aufweist:
eine Pegelmeßeinrichtung (32) zum Messen des Pegels eines Eingangssignals, das in vorbestimmte Rahmenintervalle unterteilt ist;
eine Vergleichseinrichtung (34) zum Vergleichen des von der Pegelmeßeinrichtung (32) gemessenen Pegels des Eingangssignals mit einem Schwellenwert, der als Kriterium für die Bestimmung vorgesehen ist, ob das Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist, und zum anschließenden Ausgeben des Vergleichsergebnisses; und
eine Schwellenwert-Anpassungseinrichtung (33), mit deren Hilfe der Schwellenwert um einen vorbestimmten Faktor angehoben wird, falls der Vergleich ergeben hat, daß der Pegel des Eingangssignals größer als der momentane Schwellenwert ist, wohingegen der Pegel des Eingangssignals als einen neuen Schwellenwert verwendet wird, falls der Vergleich ergeben hat, daß der Pegel des Eingangssignals geringer als der momentane Schwellenwert ist, wobei der vorbestimmte Faktor, um den der Schwellenwert angehoben wird, in Übereinstimmung mit der Differenz zwischen dem momentanen Schwellenwert und einem minimalen Pegel des Eingangssignals während einer vorbestimmten Periode der verflossenen Zeit eingestellt wird.
einer Sprachzustands-Erfassungseinrichtung (31) zum Feststellen, ob ein in vorbestimmte Rahmenintervalle unterteiltes Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist;
einer Linearvoraussage-Analysiereinrichtung (5) zum Ausgeben eines Linearvoraussage-Parameters, der dem Eingangssignal zugeordnet ist;
einer Linearvoraussage-Codiereinrichtung zum Erzeugen eines Tonquellen-Steuersignals, das einem residualen Linearvoraussagesignal entspricht, wobei die Linearvoraussage-Codiereinrichtung ein Voraussageteil (12, 14) für eine Tonquelle mit Sprache zum Codieren eines Sprachsignals und ein Voraussageteil für eine Tonquelle ohne Sprache zum Codieren eines Signals ohne Sprache aufweist; und
einer Codierart-Auswahleinrichtung (3a) zum Auswählen einer Codierart für das Sprachsignal oder einer Codierart für das Signal ohne Sprache, in der die Linearvoraussage-Codiereinrichtung ihren Codiervorgang durchführen soll, entsprechend dem von der Sprachzustands-Erfassungseinrichtung vorgegebenen Ergebnis,
dadurch gekennzeichnet,
daß die Sprachzustands-Erfassungseinrichtung aufweist:
eine Pegelmeßeinrichtung (32) zum Messen des Pegels eines Eingangssignals, das in vorbestimmte Rahmenintervalle unterteilt ist;
eine Vergleichseinrichtung (34) zum Vergleichen des von der Pegelmeßeinrichtung (32) gemessenen Pegels des Eingangssignals mit einem Schwellenwert, der als Kriterium für die Bestimmung vorgesehen ist, ob das Eingangssignal ein Sprachsignal oder ein Signal ohne Sprache ist, und zum anschließenden Ausgeben des Vergleichsergebnisses; und
eine Schwellenwert-Anpassungseinrichtung (33), mit deren Hilfe der Schwellenwert um einen vorbestimmten Faktor angehoben wird, falls der Vergleich ergeben hat, daß der Pegel des Eingangssignals größer als der momentane Schwellenwert ist, wohingegen der Pegel des Eingangssignals als einen neuen Schwellenwert verwendet wird, falls der Vergleich ergeben hat, daß der Pegel des Eingangssignals geringer als der momentane Schwellenwert ist, wobei der vorbestimmte Faktor, um den der Schwellenwert angehoben wird, in Übereinstimmung mit der Differenz zwischen dem momentanen Schwellenwert und einem minimalen Pegel des Eingangssignals während einer vorbestimmten Periode der verflossenen Zeit eingestellt wird.
8. Vorrichtung nach Anspruch 7,
dadurch gekennzeichnet,
daß, wenn der momentane Schwellenwert mit einem minimalen
Pegel des Eingangssignals während einer vorbestimmten
Periode ab dem Beginn eines Sprachzustands-
Erfassungsprozesses verglichen wird und der momentane
Schwellenwert um einen Betrag, der gleich oder größer als
ein vorbestimmter Wert ist, geringer als der minimale
Pegel ist, die Schwellenwert-Anpassungseinrichtung (33)
den Faktor, um den der Schwellenwert erhöht wird, auf
einen vorbestimmten Wert setzt, der größer als ein Faktor
ist, um den der Schwellenwert bei einem Normalzustand
angehoben wird, und auf den normalen Wert zurücksetzt,
wenn das Eingangssignal als ein Signal ohne Sprache
angesehen wird.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09117796A JP3607774B2 (ja) | 1996-04-12 | 1996-04-12 | 音声符号化装置 |
JP8091178A JPH09281997A (ja) | 1996-04-12 | 1996-04-12 | 音声符号化装置 |
JP09276896A JP3607775B2 (ja) | 1996-04-15 | 1996-04-15 | 音声状態判別装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19715126A1 DE19715126A1 (de) | 1997-11-06 |
DE19715126C2 true DE19715126C2 (de) | 2001-02-08 |
Family
ID=27306668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19715126A Expired - Fee Related DE19715126C2 (de) | 1996-04-12 | 1997-04-11 | Sprachsignal-Codiervorrichtung |
Country Status (3)
Country | Link |
---|---|
US (1) | US6272459B1 (de) |
DE (1) | DE19715126C2 (de) |
GB (1) | GB2312360B (de) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10247098A (ja) * | 1997-03-04 | 1998-09-14 | Mitsubishi Electric Corp | 可変レート音声符号化方法、可変レート音声復号化方法 |
KR100302370B1 (ko) * | 1997-04-30 | 2001-09-29 | 닛폰 호소 교카이 | 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템 |
EP1052620B1 (de) | 1997-12-24 | 2004-07-21 | Mitsubishi Denki Kabushiki Kaisha | Audiokodier- und dekodierverfahren und -vorrichtung |
JP3319396B2 (ja) * | 1998-07-13 | 2002-08-26 | 日本電気株式会社 | 音声符号化装置ならびに音声符号化復号化装置 |
JP2000308167A (ja) * | 1999-04-20 | 2000-11-02 | Mitsubishi Electric Corp | 音声符号化装置 |
US6954727B1 (en) * | 1999-05-28 | 2005-10-11 | Koninklijke Philips Electronics N.V. | Reducing artifact generation in a vocoder |
JP3451998B2 (ja) * | 1999-05-31 | 2003-09-29 | 日本電気株式会社 | 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体 |
GB2352949A (en) * | 1999-08-02 | 2001-02-07 | Motorola Ltd | Speech coder for communications unit |
JP2001142499A (ja) * | 1999-11-10 | 2001-05-25 | Nec Corp | 音声符号化装置ならびに音声復号化装置 |
JP3558031B2 (ja) | 2000-11-06 | 2004-08-25 | 日本電気株式会社 | 音声復号化装置 |
DE10124420C1 (de) * | 2001-05-18 | 2002-11-28 | Siemens Ag | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
JP3561261B2 (ja) * | 2002-05-30 | 2004-09-02 | 株式会社東芝 | データ通信装置及び通信制御方法 |
GB0326263D0 (en) * | 2003-11-11 | 2003-12-17 | Nokia Corp | Speech codecs |
US7752039B2 (en) * | 2004-11-03 | 2010-07-06 | Nokia Corporation | Method and device for low bit rate speech coding |
JP4380669B2 (ja) * | 2006-08-07 | 2009-12-09 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
JP5340965B2 (ja) * | 2007-03-05 | 2013-11-13 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 定常的な背景雑音の平滑化を行うための方法及び装置 |
US8121835B2 (en) * | 2007-03-21 | 2012-02-21 | Texas Instruments Incorporated | Automatic level control of speech signals |
JP5152110B2 (ja) * | 2009-06-19 | 2013-02-27 | 富士通株式会社 | パケット解析方法、プログラム及び装置 |
KR20140067512A (ko) * | 2012-11-26 | 2014-06-05 | 삼성전자주식회사 | 신호 처리 장치 및 그 신호 처리 방법 |
US11521643B2 (en) * | 2020-05-08 | 2022-12-06 | Bose Corporation | Wearable audio device with user own-voice recording |
CN113782050B (zh) * | 2021-09-08 | 2024-08-30 | 浙江大华技术股份有限公司 | 声音变调方法、电子设备及存储介质 |
CN114679512A (zh) * | 2022-03-25 | 2022-06-28 | 深圳禾苗通信科技有限公司 | 老人智能手机通话实时降速方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4315313A1 (de) * | 1993-05-07 | 1994-11-10 | Ant Nachrichtentech | Vektorcodierverfahren insbesondere für Sprachsignale |
DE4315315A1 (de) * | 1993-05-07 | 1994-11-10 | Ant Nachrichtentech | Verfahren zur Vektorquantisierung insbesondere von Sprachsignalen |
EP0654909A1 (de) * | 1993-06-10 | 1995-05-24 | Oki Electric Industry Company, Limited | Celp kodierer und dekodierer |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
US4890328A (en) * | 1985-08-28 | 1989-12-26 | American Telephone And Telegraph Company | Voice synthesis utilizing multi-level filter excitation |
IL84902A (en) * | 1987-12-21 | 1991-12-15 | D S P Group Israel Ltd | Digital autocorrelation system for detecting speech in noisy audio signal |
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
CA2006487C (en) * | 1988-12-23 | 1994-01-11 | Kazunori Ozawa | Communication system capable of improving a speech quality by effectively calculating excitation multipulses |
US5307441A (en) * | 1989-11-29 | 1994-04-26 | Comsat Corporation | Wear-toll quality 4.8 kbps speech codec |
KR960005741B1 (ko) * | 1990-05-28 | 1996-05-01 | 마쯔시다덴기산교 가부시기가이샤 | 음성신호부호화장치 |
EP0459364B1 (de) * | 1990-05-28 | 1996-08-14 | Matsushita Electric Industrial Co., Ltd. | Geräuschsignalvorhersagevorrichtung |
US5138661A (en) * | 1990-11-13 | 1992-08-11 | General Electric Company | Linear predictive codeword excited speech synthesizer |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
JP2518765B2 (ja) * | 1991-05-31 | 1996-07-31 | 国際電気株式会社 | 音声符号化通信方式及びその装置 |
ES2166355T3 (es) * | 1991-06-11 | 2002-04-16 | Qualcomm Inc | Vocodificador de velocidad variable. |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
JP2616549B2 (ja) * | 1993-12-10 | 1997-06-04 | 日本電気株式会社 | 音声復号装置 |
CA2136891A1 (en) * | 1993-12-20 | 1995-06-21 | Kalyan Ganesan | Removal of swirl artifacts from celp based speech coders |
US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
JP3568255B2 (ja) * | 1994-10-28 | 2004-09-22 | 富士通株式会社 | 音声符号化装置及びその方法 |
JPH08272395A (ja) * | 1995-03-31 | 1996-10-18 | Nec Corp | 音声符号化装置 |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
US5890115A (en) * | 1997-03-07 | 1999-03-30 | Advanced Micro Devices, Inc. | Speech synthesizer utilizing wavetable synthesis |
-
1997
- 1997-04-08 GB GB9707087A patent/GB2312360B/en not_active Expired - Fee Related
- 1997-04-11 US US08/845,543 patent/US6272459B1/en not_active Expired - Lifetime
- 1997-04-11 DE DE19715126A patent/DE19715126C2/de not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4315313A1 (de) * | 1993-05-07 | 1994-11-10 | Ant Nachrichtentech | Vektorcodierverfahren insbesondere für Sprachsignale |
DE4315315A1 (de) * | 1993-05-07 | 1994-11-10 | Ant Nachrichtentech | Verfahren zur Vektorquantisierung insbesondere von Sprachsignalen |
EP0654909A1 (de) * | 1993-06-10 | 1995-05-24 | Oki Electric Industry Company, Limited | Celp kodierer und dekodierer |
Non-Patent Citations (3)
Title |
---|
Andreas S. Spanias: Speech Coding: A Tutorial Review, in: Proceedings of the IEEE, Vol.82, No.10, Oct. 1994, S. 1541-1582 * |
Andrew DeJaco et al.: QCELP: The North American CDMA Digital Cellular Variable Rate Speech Coding Standard, In: Proceedings IEEE Workshop on Speech Coding for Telecommunications, 1993, S.5 u. 6 * |
Kleijn et al.: Improved Speech Quality and Efficient Vector Quantization in SELP, In: ICASP` 88, 1988, S. 4.4, S. 155-158 * |
Also Published As
Publication number | Publication date |
---|---|
GB2312360B (en) | 2001-01-24 |
GB9707087D0 (en) | 1997-05-28 |
DE19715126A1 (de) | 1997-11-06 |
GB2312360A (en) | 1997-10-22 |
US6272459B1 (en) | 2001-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19715126C2 (de) | Sprachsignal-Codiervorrichtung | |
DE69526007T2 (de) | Postfilter und Verfahren zur Postfilterung | |
DE19604273C2 (de) | Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit | |
DE69825180T2 (de) | Audiokodier- und dekodierverfahren und -vorrichtung | |
DE2945414C2 (de) | Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals | |
DE69032697T2 (de) | Codierverfahren und Codiervorrichtung | |
DE68911287T2 (de) | Codierer/decodierer. | |
DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
DE69535723T2 (de) | Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate | |
DE69814517T2 (de) | Sprachkodierung | |
DE69910240T2 (de) | Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals | |
DE3856280T2 (de) | Rauschunterdrückungssystem | |
DE69219718T2 (de) | Digitales Datenkodierungs-und Dekodierungsgerät mit hoher Wirksamkeit | |
DE60201766T2 (de) | Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung | |
DE69125909T2 (de) | Verfahren und Einrichtung zur Transformationskodierung mit Teilbandanregung und dynamischer Bitzordnung | |
DE69628103T2 (de) | Verfahren und Filter zur Hervorbebung von Formanten | |
DE69534285T3 (de) | Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate | |
DE69932460T2 (de) | Sprachkodierer/dekodierer | |
DE60214814T2 (de) | Verfahren und Vorrichtung zur Beseitigung von Diskontinuitäten eines adaptiv gefilterten Signals | |
DE69727895T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE69730779T2 (de) | Verbesserungen bei oder in Bezug auf Sprachkodierung | |
DE69731588T2 (de) | Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem | |
DE60017763T2 (de) | Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer | |
DE69925515T2 (de) | Sprachkodierung unter Verwendung einer sanften Adaptation | |
DE2626793A1 (de) | Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |