DE69615870T2 - Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen - Google Patents
Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten MerkmalenInfo
- Publication number
- DE69615870T2 DE69615870T2 DE69615870T DE69615870T DE69615870T2 DE 69615870 T2 DE69615870 T2 DE 69615870T2 DE 69615870 T DE69615870 T DE 69615870T DE 69615870 T DE69615870 T DE 69615870T DE 69615870 T2 DE69615870 T2 DE 69615870T2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- frame
- current
- rms
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000004044 response Effects 0.000 claims description 31
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 description 89
- 230000005284 excitation Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 29
- 230000003044 adaptive effect Effects 0.000 description 26
- 230000003595 spectral effect Effects 0.000 description 25
- 239000013598 vector Substances 0.000 description 20
- 230000003111 delayed effect Effects 0.000 description 18
- 238000013139 quantization Methods 0.000 description 7
- 239000013256 coordination polymer Substances 0.000 description 5
- 239000011295 pitch Substances 0.000 description 5
- 230000001934 delay Effects 0.000 description 4
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 235000021174 kaiseki Nutrition 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
- G10L2025/906—Pitch tracking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die vorliegende Erfindung betrifft einen Sprachsignal- oder Sprachcodierer zum Codieren eines Sprach- oder Sprechsignals in einer kurzen Rahmenperiode in Codiererausgangscodes mit einer hohen Codequalität.
- Ein derartiger Sprachcodierer ist als Sprach-Codec in einem Artikel von Kazunori Ozawa und fünf Koautoren einschließlich des vorliegenden Erfinders mit dem Titel "M-LCELP Speech Coding at 4 kb/s with Multi-Mode and Multi- Codebook", IEICE Trans. Commun. Volume E77-B, Nr. 9 (September 1994), Seiten 1114 bis 1121, beschrieben. Gemäß diesem Artikel von Ozawa et al. wird ein Eingangssprachsignal folgendermaßen codiert.
- Das Eingangssprachsignal wird in Originalsprachrahmen segmentiert oder unterteilt, die jeweils eine Rahmenperiode oder -länge von 40 ms aufweisen. Durch lineares prädiktives Codieren (LPC) werden von den Sprachrahmen Spektralparameter extrahiert, die spektrale Merkmale des Sprachsignals darstellen. Bevor Merkmal- oder Kenngrößen berechnet werden, werden die Originalsprachrahmen vorzugsweise wahrnehmungs- oder gehörgewichtet und in gewichtete Sprachrahmen umgewandelt. Die Merkmalgrößen werden verwendet, um Segmentmodi zu bestimmen, z. B. Vokal- oder Konsonantensegmente, und die bestimmten Modi darstellende Ergebnisse zu erzeugen.
- In einem Codierabschnitt des von Ozawa et al. beschriebenen Codierers wird jeder Originalrahmen in Originalunterrahmensignale mit einer Länge von jeweils 8 ms geteilt. Solche Sprachunterrahmen werden zum Bestimmen von Anregungssignalen verwendet. Gemäß den Modi werden für jeden aktuellen Sprachunterrahmen basierend auf einem vorangehenden Anregungssignal adaptive Parameter (Abstandsperioden entsprechende Verzögerungsparameter und Verstärkungsparameter) von einem adaptiven Codebuch extrahiert. Auf diese Weise wird das adaptive Codebuch zum prädiktiven Extrahieren von Abständen der Sprachunterrahmen verwendet. Für ein durch Abstandsprädiktion erhaltenes Restsignal wird ein optimaler Anregungscodevektor von einem Sprachcodebuch extrahiert (Vektorquantisierungscodebuch), das aus Rauschsignalen eines bestimmten Typs besteht. Die Anregungssignale werden durch Berechnen eines optimalen Verstärkungsfaktors quantisiert bzw. digitalisiert.
- Der Anregungscodevektor wird so gewählt, daß eine Fehlerstärke zwischen dem Restsignal und einem aus dem ausgewählten Rauschsignal bestehenden Signal minimiert wird. Für die Übertragung zu einem Sprachdecodierer oder zum Speichern in einer Aufzeichnungsvorrichtung für eine spätere Wiedergabe oder Reproduktion wird ein Multiplexer verwendet, um ein Codiererausgangssignal zu erzeugen, in das die den Modus anzeigenden Ergebnisse und Indizes oder Richtzahlen gemultiplext werden, die die adaptiven Parameter, einschließlich der Verstärkungsparameter und der Art der optimalen Anregungscodevektoren, darstellen.
- Im herkömmlichen Sprachsignalcodierer von Ozawa et al. muß eine Verarbeitungsverzögerung reduziert werden, um eine kurze Rahmenperiode für die Original- oder die gewichteten Sprachrahmen zu verwenden. Die Merkmalgrößen unterliegen erheblichen zeitlichen Schwankungen, wenn die Rahmenperiode 5 ms oder kürzer ist. Die Schwankungen können dazu führen, daß Modi instabil werden und fehlerhafte Schaltvorgänge zwischen Modi stattfinden, so daß die Codequalität abnimmt.
- Außerdem unterliegen ausgewählte Modi, prädizierte Abstände und extrahierte Pegel deutlichen Schwankungen, wenn die Rahmenperiode 5 ms oder kürzer ist. Die deutlichen Schwankungen können nicht nur zu instabilen Modi und fehlerhaften Schaltvorgängen zwischen Modi führen, sondern auch zu einer instabilen und fehlerhaften Abstands- und Pegelextraktion und damit zu einer verminderten Codequalität.
- Wenn die Pegel des Eingangssprachsignals zum Codieren des Eingangssprachsignals verwendet werden, werden zusätzlich die Pegel anzeigende Indizes im Codiererausgangssignal verwendet. Wenn die Abstände verwendet werden, muß das Codiererausgangssignal die die Abstände anzeigenden Indizes nicht enthalten.
- In der EP-A-417739 wird ein System beschrieben, in dem ein aktueller Modus basierend auf einem aktuellen Merkmal und einem vorangehenden Modus festgelegt wird.
- Daher ist es eine Aufgabe der vorliegenden Erfindung, einen Sprachsignalcodierer bereitzustellen, der mit einer kurzen Verarbeitungsverzögerung betreibbar ist, auch wenn ein Eingangssprachsignal in Originalsprachrahmen mit einer kurzen Rahmenperiode, z. B. 5 bis 10 ms oder kürzer, segmentiert ist.
- Es ist eine andere Aufgabe der vorliegenden Erfindung, einen Sprachsignalcodierer des beschriebenen Typs bereitzustellen, der verhindern kann, daß Merkmalgrößen erheblichen zeitlichen Schwankungen unterliegen.
- Es ist eine noch andere Aufgabe der vorliegenden Erfindung, einen Sprachsignalcodierer des beschriebenen Typs bereitzustellen, der Modi für die Originalrahmen oder für gewichtete Rahmen exakt bestimmen kann.
- Es ist eine noch andere Aufgabe der vorliegenden Erfindung, einen Sprachsignalcodierer des beschriebenen Typs bereitzustellen, der Abstände von Sprachunterrahmen exakt extrahieren kann.
- Es ist eine weitere Aufgabe der vorliegenden Erfindung, einen Sprachsignalcodierer des beschriebenen Typs bereitzustellen, um Codiererausgangscodes mit einer hohen Codequalität zu erzeugen.
- Diese Aufgaben werden durch einen in Patentanspruch 1 spezifizierten Sprachsignalcodierer gelöst.
- Fig. 1 zeigt ein Blockdiagramm einer ersten Ausführungsfrom eines erfindungsgemäßen Sprachsignalcodierers;
- Fig. 2 zeigt ein Blockdiagramm einer in dem in Fig. 1 dargestellten Sprachsignalcodierer verwendeten Modusentscheidungs- oder -bestimmungsschaltung;
- Fig. 3 zeigt ein Blockdiagramm einer anderen Modusbestimmungsschaltung zur Verwendung in einer zweiten Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers;
- Fig. 4 zeigt ein Blockdiagramm einer Abstandextraktionsschaltung zur Verwendung in einer dritten Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers;
- Fig. 5 zeigt ein Blockdiagramm einer vierten Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers;
- Fig. 6 zeigt ein Blockdiagramm einer fünften Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers;
- Fig. 7 zeigt ein Blockdiagramm einer in dem in Fig. 6 dargestellten Sprachsignalcodierer verwendeten Modusbestimmungsschaltung;
- Fig. 8 zeigt ein Blockdiagramm einer anderen Modusbestimmungsschaltung zur Verwendung in dem in Fig. 6 dargestellten Sprachsignalcodierer;
- Fig. 9 zeigt in ein Blockdiagramm eines in der in Fig. 8 dargestellten Modusbestimmungsschaltung verwendeten Merkmalgrößenrechners;
- Fig. 10 zeigt ein Blockdiagramm eines in der in Fig. 8 dargestellten Modusbestimmungsschaltung verwendeten anderen Merkmalgrößenrechners;
- Fig. 11 zeigt ein Blockdiagramm eines an Stelle des in Fig. 10 dargestellten Merkmalgrößenrechners verwendbaren Merkmalgrößenrechners;
- Fig. 12 zeigt ein Blockdiagramm einer noch anderen Modusbestimmungsschaltung zur Verwendung in dem in Fig. 6 dargestellten Sprachsignalcodierer;
- Fig. 13 zeigt einen in der in Fig. 12 dargestellten Modusbestimmungsschaltung verwendeten Merkmalgrößenrechner;
- Fig. 14 zeigt ein Blockdiagramm eines an Stelle des in Fig. 12 dargestellten Merkmalgrößenrechners verwendbaren Merkmalgrößenrechners;
- Fig. 15 zeigt ein Blockdiagramm einer noch anderen Modusbestimmungsschaltung zur Verwendung in dem in Fig. 6 dargestellten Sprachsignalcodierer;
- Fig. 16 zeigt ein Blockdiagramm einer sechsten Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers;
- Fig. 17 zeigt ein Blockdiagramm einer in dem in Fig. 16 dargestellten Sprachsignalcodierer verwendeten Abstandextraktionsschaltung;
- Fig. 18 zeigt ein Blockdiagramm eines in der in Fig. 17 dargestellten Abstandextraktionsschaltung verwendeten zusätzlichen Merkmalgrößenrechners;
- Fig. 19 zeigt ein Blockdiagramm einer anderen Abstandextraktionsschaltung zur Verwendung im in Fig. 16 dargestellten Sprachsignalcodierer;
- Fig. 20 zeigt ein Blockdiagramm eines in der in Fig. 17 dargestellten Abstandextraktionsschaltung verwendeten zusätzlichen Merkmalgrößenrechners;
- Fig. 21 zeigt ein Blockdiagramm einer noch anderen Abstandextraktionsschaltung zur Verwendung im in Fig. 16 dargestellten Sprachsignalcodierer;
- Fig. 22 zeigt ein Blockdiagramm eines in der in Fig. 21 dargestellten Abstandextraktionsschaltung verwendeten zusätzlichen Merkmalgrößenrechners;
- Fig. 23 zeigt ein Blockdiagramm einer noch anderen Abstandextraktionsschaltung zur Verwendung im in Fig. 16 dargestellten Sprachsignalcodierer;
- Fig. 24 zeigt ein Blockdiagramm eines in der in Fig. 23 dargestellten Abstandextraktionsschaltung verwendeten zusätzlichen Merkmalgrößenrechners;
- Fig. 25 zeigt ein Blockdiagramm einer siebenten Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers;
- Fig. 26 zeigt ein Blockdiagramm einer in dem in Fig. 25 dargestellten Sprachsignalcodierer verwendeten RMS- (quadratischer Mittelwert) Extraktionsschaltung;
- Fig. 27 zeigt ein Blockdiagramm einer anderen RMS- Extraktionsschaltung zur Verwendung im in Fig. 25 dargestellten Sprachsignalcodierer;
- Fig. 28 zeigt ein Blockdiagramm einer noch anderen RMS- Extraktionsschaltung zur Verwendung im in Fig. 25 dargestellten Sprachsignalcodierer;
- Fig. 29 zeigt ein Blockdiagramm einer noch anderen RMS- Extraktionsschaltung zur Verwendung im in Fig. 25 dargestellten Sprachsignalcodierer; und
- Fig. 30 zeigt ein Blockdiagramm einer weiteren RMS- Extraktionsschaltung zur Verwendung im in Fig. 25 dargestellten Sprachsignalcodierer.
- Fig. 1 zeigt eine erste bevorzugte Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers. Dem Sprachsignalcodierer wird ein Eingangssprach- oder -sprechsignal über einen Codierereingangsanschluß 31 zugeführt. Der Sprachsignalcodierer weist einen Multiplexer (MUX) 33 zum Zuführen eines Codiererausgangssignals zu einem Codiererausgangsanschluß 35 auf.
- Das über den Codierereingangsanschluß 31 zugeführte Eingangssprachsignal wird durch eine Rahmenteilerschaltung 37 in Originalrahmen mit einer Rahmenperiode von typischerweise 5 ms segmentiert oder geteilt. Eine Unterrahmenteilerschaltung 39 teilt außerdem jeden Originalsprachrahmen in Originalsprachunterrahmen, die jeweils eine Unterrahmenperiode von beispielsweise 2,5 ms aufweisen.
- Obwohl ein Spektralparameterrechner 41 in Fig. 1 mit der Rahmenteilerschaltung 37 verbunden ist, berechnet er Spektralparameter des Eingangssprachsignals bis zu einer vorgegebenen Ordnung, z. B. bis zur zehnten Ordnung (P = 10) durch Anwenden eines Fensters mit einer Fensterlänge von typischerweise 24 ms auf mindestens einen der Sprachunterrahmen. Im dargestellten Beispiel berechnet der Spektralparameterrechner 41 die Spektralparameter gemäß einer Burg- Analyse, die in einem von Nakamizo geschriebenen Buch, das 1988 durch Korona-Sya unter dem gemäß ISO 3602 umgeschriebenen Titel "Sing Kaiseki to Sisutemu Dôtei" (Signal Analysis and System Identification) veröffentlicht wurde, auf den Seiten 82 bis 87 beschrieben ist. Als Spektralparameterrechner 41 kann ein LPC-Analysator verwendet werden.
- Der Spektralparameterrechner 41 berechnet nicht nur lineare Prädiktionskoeffizienten α(i) durch die Burg-Analyse für i = 1, 2, ..., 10, sondern wandelt auch die linearen Prädiktionskoeffizienten in LSP- (Linienspektralpaar) Parameter um, die zur Quantisierung oder Digitalisierung und Interpolation geeignet sind. Im dargestellten Spektralparameterrechner 41 werden die linearen Prädiktionskoeffizienten gemäß einem Artikel von Sugamura et al. mit dem Titel "Sensupekutoru Tui Onsei Bunseki Gôsei Hosiki ni yoru Onsei Zyôhô Assyuku" (Speech Data Compression by LSP Speech Analysis-Synthesis Technique), Transactions of the Institute of Electronics and Communication Engineers of Japan, J64-A (1981), Seiten 599 bis 606, in LSP-Parameter umgewandelt.
- D. h., jeder Sprachrahmen besteht im dargestellten Beispiel aus einem ersten und einem zweiten Unterrahmen. Die linearen Prädiktionskoeffizienten werden berechnet und in LSP-Parameter für den zweiten Unterrahmen umgewandelt. Für den ersten Unterrahmen werden die LSP-Parameter durch lineare Interpolation der LSP-Parameter des zweiten Unterrahmens berechnet und in die linearen Prädiktionskoeffizienten invers umgewandelt. Auf diese Weise erzeugt der Spektralparameterrechner 41 LSP-Parameter und lineare Prädiktionskoeffizienten α (i, p) für den ersten und den zweiten Unterrahmen, wobei p = 1, 2, ..., 5 ist.
- Ein Spektralparameterquantisierer 43, dem die LSP- Parameter jedes vorgegebenen Unterrahmens, z. B. des zweiten Unterahmens, vom Spektralparameterrechner 41 zugeführt werden, wandelt die linearen Prädiktionskoeffizienten in umgewandelte Prädiktionskoeffizienten α' (i, p) für jeden Unterrahmen um. Außerdem quantisiert der Spektralparameterquantisierer 43 die linearen Prädiktionskoeffizienten durch Vektorquantisierung.
- Für die Vektorquantisierung können verschiedene bekannte Verfahren verwendet werden. Ein Beispiel ist in einem Artikel von Toshiyuki Hamada et al. mit dem Titel "LSP Coding Using VQ-SVQ with Interpolation in 4.075 kbps M-LCELP Speech Coder", Proc. Mobile Multimedia Communications, Seiten B.2.5-1 bis B.2.5-4 (1993) beschrieben. Andere Beispiele sind in japanischen Patentvorveröffentlichungen (A) Nr. 171500 (1992), 363000 (1992) und 6199 (1993) beschrieben. Im dargestellten Beispiel wird ein LSP-Codebuch 45 verwendet.
- Hinsichtlich der Umwandlung in umgewandelte Prädiktionskoeffizienten reproduziert der Spektralparameterquantisierer 43 zunächst die LSP-Parameter für die ersten und zweiten Unterrahmen von den in Verbindung mit jedem zweiten Unterrahmen, quantisierten LSP-Parametern. In der Praxis werden die LSP-Parameter durch lineare Interpolation zwischen den quantisierten Prädiktionskoeffizienten eines aktuellen der zweiten Unterrahmen und denjenigen eines vorangehenden der zweiten Unterrahmen reproduziert, der eine Rahmenperiode vor dem aktuellen einen der zweiten Unterrahmen angeordnet ist.
- D. h., der Spektralparameterquantisierer 43 arbeitet folgendermaßen. Zunächst wird ein Codevektor so ausgewählt, daß eine Fehlerstärke zwischen den LSP-Parametern vor und nach der Quantisierung minimiert wird, und dann werden die LSP-Parameter für die ersten und die zweiten Unterrahmen durch lineare Interpolation reproduziert. Um einen hohen Quantisierungsgrad zu erhalten, können mehrere Codevektorkandidaten zum Minimieren der Fehlerstärke im voraus gewählt werden, um sich addierende Störungen in Verbindung mit den Kandidaten zu berechnen und eine der Kombinationen interpolierter LSP-Parameter auszuwählen, durch die die sich addierenden Störungen minimiert werden.
- Alternativ können an Stelle der linearen Interpolation LSP-Interpolationsmuster für eine vorgegebene Anzahl von Bits, z. B. für zwei Bits, vorbereitet und eine der Kombinationen der LSP-Interpolationsmuster ausgewählt werden, durch die die sich addierenden Störungen hinsichtlich der ersten und der zweiten Unterrahmen minimiert werden. Dadurch kann die Ausgangsinformationsmenge zunehmen, obwohl dadurch ermöglicht wird, Variationen der LSP-Parameter in jedem Sprachrahmen exakter zu folgen.
- Es können entweder LSP-Interpolationsmuster durch ein Lernverfahren basierend auf LSP-Daten bereitgestellt werden, oder es können vorgegebene Muster gespeichert werden. Zum Speichern können die Muster den in einem Artikel von Tomohiko Taniguchi et al. mit dem Titel "Improved CELP Speech Coding at 4 kbit/s and below", Proc. ICSLP (1992), Seiten 41 bis 44 beschriebenen Mustern entsprechen. Alternativ können für eine weiter Leistungsverbeserung die LSP-Interpolationsmuster im voraus ausgewählt werden, um ein Fehlersignal zwischen tatsächlichen Werten der LSP-Parameter und interpolierten LSP-Werten zu berechnen, und das Fehlersignal kann unter Bezug auf ein Fehlercodebuch (nicht dargestellt) quantisiert werden.
- Der Spektralparameterquantisierer 43 erzeugt die umgewandelten Prädiktionskoeffizienten für die Unterrahmen. Außerdem führt der Spektralparameterquantisierer 43 dem Multiplexer 33 Indizes zu, die die für die quantisierten Prädiktionskoeffizienten in Verbindung mit den zweiten Unterrahmen ausgewählten Codevektoren anzeigen.
- Eine mit der Unterrahmenteilerschaltung 39 und dem Spektralparameterrechner und dem Quantisierer 41 bzw. 43 verbundene Wahrnehmungsgewichtschaltung 47 ordnet jeweiligen Abtastwerten oder Samples der Sprachunterrahmen Wahrnehmungs- oder Gehörgewichte γi zu, um ein wahrnehmungsgewichtetes Signal x[w](n) zu erzeugen, wobei n Abtastwertidentifizierungen der jeweiligen Sprachabtastwerte in jedem Rahmen bezeichnet.
- Wenn einer Modusbestimmungsschaltung 49 die wahrnehmungsgewichteten Signale rahmenweise zugeführt werden, extrahiert sie Merkmalgrößen vom wahrnehmungsgewichteten Signal. Außerdem verwendet die Modusbestimmungsschaltung 49 die Merkmalgrößen zum Bestimmen von Modi bezüglich Rahmen des wahrnehmungsgewichteten Signals, um die bestimmten Modi darstellende Ergebnisse zu erzeugen.
- Nachstehend wird zusätzlich zu Fig. 1 auch auf Fig. 2 Bezug genommen, um die Arbeitsweise der Modusbestimmungsschaltung 49 im dargestellten Sprachsignalcodierer zu beschreiben. Die Modusbestimmungsschaltung 49 weist einen Eingangs- und einen Ausgangsanschluß 49(I) und 49(O) auf, dem das wahrnehmungsgewichtete Signal zugeführt bzw. an dem die die bestimmten Modi darstellenden Ergebnisse erzeugt werden.
- Ein Merkmalgrößenrechner 51, dem das wahrnehmungsgewichtete Signal über den Eingangsanschluß 49(I) der Modusentscheidungsschaltung rahmenweise zugeführt wird, berechnet in diesem Beispiel einen Abstandprädiktionsverstärkungsfaktor G. Eine Rahmenverzögerungseinrichtung (D) 53 dient dazu, dem Abstandprädiktionsverstärkungsfaktor eine Verzögerung von einem Rahmen aufzuprägen, um einen um einen Rahmen verzögerten Verstärkungsfaktor zu erzeugen. Eine Einrichtung 55 zum Berechnen einer gewichteten Summe berechnet eine gewichtete Summe Gav des Abstandprädiktionsverstärkungsfaktors und des um einen Rahmen verzögerten Verstärkungsfaktors gemäß:
- Gav = ν(i)G(i),
- wobei ν(i) Verstärkungsfaktorgewichte für den i-ten Unterrahmen darstellt.
- Die Merkmalgrößen sind typischerweise durch solche gewichtete Summen in Verbindung mit jedem aktuellen Rahmen und einem vorangehenden Rahmen gegeben, der eine Rahmenperiode vor dem aktuellen Rahmen angeordnet ist. Wenn einer Modusbestimmungseinheit 57 die Merkmalgrößen zugeführt werden, wählt sie einen der Modi für jeden aktuellen Rahmen aus und führt das den bestimmten Modus darstellende Ergebnis in aufeinanderfolgenden Rahmenperioden dem Ausgangsanschluß 49(O) der Modusbestimmungsschaltung zu.
- Die Modusbestimmungseinheit 57 weist mehrere, z. B. drei, vorgegebene Schwellenwerte auf. In diesem Fall beträgt die Anzahl der Modi vier. Die den bestimmten Modus anzeigenden Ergebnisse werden dem Multiplexer 33 zugeführt.
- In Fig. 1 führen der Spektralparameterrechner und der Quantisierer 41 bzw. 43 einem Antwortsignalrechner 59 die linearen Prädiktionskoeffizienten und die umgewandelten Prädiktionskoeffizienten unterrahmenweise zu. Der Antwortsignalrechner 59 hält Filterspeicherwerte für die jeweiligen Unterrahmen. In Antwort auf ein nachstehend erläutertes Eingangssignal d(n) des Antwortsignalrechners berechnet der Antwortsignalrechner 59 ein Antwortsignal x[z](n) für jeden Unterrahmen gemäß:
- wobei:
- y(n) = d(n) - α(i)d(n - i) + α(i)γiy(n - i)
- ist.
- Ein mit der Wahrnehmungsgewichtungsschaltung 47 und mit dem Antwortsignalrechner 59 verbundenes Sprachunterrahmensubtrahierglied 61 subtrahiert das Antwortsignal vom wahrnehmungsgewicheten Signal gemäß:
- x[w]'(n) = x[w](n) - x[z](n),
- um ein Unterrahmendifferenzsignal zu erzeugen,.
- Ein mit dem Spektralparameterquantisierer 45 verbundener Impulsantwortrechner 63 berechnet für eine vorgegebene Anzahl L von Punkten Impulsantworten h[w](n) eines gewichteten Filters der z-Transformierten, die dargestellt ist durch:
- H[w](z) = (1 - α(i)z-i) ÷ (1 - α'(i)γiz-i)²
- Gesteuert durch die durch die Modusbestimmungsschaltung 49 bestimmten Modi und die durch den Impulsantwortrechner 63 berechneten Impulsantworten wird eine adaptive Codebuchschaltung 65 mit dem Unterrahmensubtrahierglied 61 und mit einer Musterakkumulierschaltung 67 verbunden. In Abhängigkeit von den Modi berechnet die adaptive Codebuchschaltung 65 Abstandsparameter und führt dem Multiplexer 33 ein Prädiktionsdifferenzsignal zu, das definiert ist durch:
- z(n) = x[w]'(n) - b(n),
- wobei b(n) ein Abstandprädiktionssignal darstellt, das gegeben ist durch:
- b(n) = βv(n - T)· h[w](n),
- wobei β den Verstärkungsfaktor der adaptiven Codebuchschaltung 65, v(n) einen adaptiven Codevektor und T eine Verzögerung darstellen. Das Sternzeichen stellt eine Faltung dar.
- Gesteuert durch die durch die Modusbestimmungsschaltung 49 bestimmten Modi und die durch den Impulsantwortrechner berechneten Impulsantworten wird einem Anregungsquantisierer 69 das Prädiktionsdifferenzsignal von der adaptiven Codebuchschaltung 65 zugeführt, und der Anregungsquantisierer nimmt Bezug auf ein dünnbesiedeltes Anregungscodebuch. Das dünnbesiedelte Anregungscodebuch 71 hält Anregungscodevektoren vom Typ eines nicht-regulären Impulses, die jeweils aus von null verschiedenen Vektorkomponenten einer einzelnen von null verschiedenen Zahl bzw. Nummer oder Größe bestehen. Der Anregungsquantisierer 69 erzeugt als optimale Anregungscodevektoren c[j](n) entweder einen Teil oder alle der Anregungscodevektoren, um durch:
- D(j) = [z(n) - γ(j)c[j](n)h[w](n)]²
- definierte j-te Differenzen zu minimieren.
- Gesteuert durch die durch den Impulsantwortrechner 63 berechneten Impulsantworten nimmt ein Verstärkungsfaktorquantisierer 73, dem das Prädiktionsdifferenzsignal von der adaptiven Codebuchschaltung 65 und die durch den Anregungsquantisierer 69 ausgewählten Anregungscodevektoren zugeführt werden, Bezug auf ein Verstärkungsfaktorcodebuch 75 von Verstärkungsfaktorcodevektoren. Der Verstärkungsfaktorquantisierer 73 liest die Verstärkungsfaktorcodevektoren und wählt Kombinationen der Anregungscodevektoren und der Verstärkungsfaktorcodevektoren aus, um (j, k)-te Differenzen zu minimieren, die definiert sind durch:
- D(j,k) = [x[w](n) - β'(k)v(n - T)k[w](n) - γ'(k)c[j](n)h[w](n)]²
- wobei β'(k) und γ'(k) einen k-ten zweidimensionalen Codevektor der Verstärkungsfaktorcodevektoren darstellen. Der Verstärkungsfaktorquantisierer 73 wählt die Kombinationen aus und führt dem Multiplexer 33 Indizes zu, die die Anregungs- und Verstärkungsfaktorcodevektoren dieser ausgewählten Kombinationen anzeigen.
- Im vorstehend erwähnten Artikel von Ozawa et al. wählt der Anregungsquantisierer 69 mindestens zwei Typen optimaler Anregungscodevektoren aus, z. B. einen Nicht-Sprachmodus und einen Sprachmodus. Im dargestellten Beispiel wählt der Verstärkungsfaktorquantisierer 73 die durch den Anregungsquantisierer 69 erzeugten optimalen Codevektoren unter der Steuerung durch die Modi aus. Durch eine durch den Verstärkungsfaktorquantisierer 73 vorgenommene Auswahl können die optimalen Anregungscodevektoren eines einzigen Typs spezifiziert werden. Alternativ können durch Anwenden der vorstehend beschriebenen Gleichung für die j-ten Differenzen D(j) nur auf einen Teil der Anregungscodevektoren Anregungscodevektorkandidaten für eine Anwendung der in Frage kommenden Gleichung auf die Anregungscodevektorkandidaten im voraus ausgewählt werden, um die optimalen Codevektoren nur eines Typs aus den Anregungscodevektorkandidaten auszuwählen.
- Ein mit dem Spektralparameterrechner und -quantisierer 41 und 43 und mit dem Verstärkungsfaktorquantisierer 73 verbundener Gewichtungssignalrechner 77 liest die Anregungs- und die Verstärkungscodevektoren unter Bezug auf ihre Indizes und berechnet ein Anregungstreiber- oder -steuersignal gemäß:
- v(n) = β'(n)v(n - T) + γ'(k)c[j](n).
- Anschließend berechnet der Gewichtungssignalrechner 77 ein Gewichtungssignal s[w](n), das dem Antwortsignalrechenr 59 zugeführt wird, gemäß:
- wobei:
- p(n) = v(n) - α(i)v(n - i) + α(i)γip(n - i)
- ist.
- In Verbindung mit dem dargestellten Beispiel ist ersichtlich, daß die Modi entweder für jeden Originalsprachrahmen oder für jeden gewichteten Sprachrahmen durch die Merkmalgrößen bestimmt werden, die aus dem Eingangssprachsignal für eine längere Periode extrahiert werden, die länger ist als eine Rahmenperiode. Auch wenn die Rahmenperiode nur 5 ms beträgt oder kürzer ist, und obwohl die Merkmalgrößen fehlerhaft sein können, wenn sie ausschließlich aus dem aktuellen Sprachrahmen extrahiert werden, würden durch den vorangehenden Sprachrahmen korrekte und präzise Merkmalgrößen erhalten, wenn der vorangehende Sprachrahmen mindestens eine Rahmenperiode vor dem aktuellen Sprachrahmen angeordnet ist. Dadurch kann hinsichtlich instabiler und fehlerhafter Schaltvorgänge zwischen Modi verhindert werden, daß die Codequalität beeinträchtigt wird.
- Gemäß den Fig. 3 zusammen mit den Fig. 1 und 2 dient eine andere Modusbestimmungsschaltung zur Verwendung in einer zweiten bevorzugten Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers. Im folgenden sind ähnliche Teile durch ähnliche Bezugszeichen bezeichnet und sie arbeiten auf ähnliche Weise mit ähnlich bezeichneten Signalen, außer wenn dies spezifisch anders erwähnt ist. Die Modusbestimmungsschaltung ist daher durch das Bezugszeichen 49 bezeichnet. Mit Ausnahme der nachstehend beschriebenen Modusbestimmungsschaltung 49 unterscheidet sich der Sprachsignalcodierer nicht von dem unter Bezug auf Fig. 1 dargestellten Sprachsignalcodierer.
- In der dargestellten Modusbestimmungsschaltung 49 ist die Rahmenverzögerungseinrichtung 53 direkt mit dem Eingangsanschluß 49(I) der Modusbestimmungsschaltung verbunden. Wenn der Rahmenverzögerungseinrichtung 53 die wahrnehmungsgewichteten Signale über den Eingangsanschluß 49(I) der Modusbestimmungsschaltung zugeführt werden, erzeugt sie ein verzögertes gewichtetes Signal mit einer Verzögerung von einer Rahmenperiode.
- Der mit der Rahmenverzögerungseinrichtung 53 und mit dem Eingangsanschluß 49(I) der Modusbestimmungsschaltung verbundene Merkmalgrößenrechner 51 berechnet einen Abstandprädiktionsverstärkungsfaktor G für jeden Sprachrahmen als die Merkmalgrößen. Der Abstandprädiktionsverstärkungsfaktor wird berechnet gemäß:
- G = 10 log&sub1;&sub0;(P/E),
- wobei:
- P = x[w]²(n)
- und
- E = P - [ x[w](n)x[w](n - T)]² ÷ [ x[w]²(n - T)]
- wobei T eine optimale Verzögerung darstellt, durch die diese Prädiktionsverzögerungen maximiert werden, und N eine Gesamtanzahl von Sprachabtastwerten in jedem Rahmen darstellt.
- Die mit dem Merkmalgrößenrechner 51 verbundene Modusbestimmungseinheit 57 vergleicht den Abstandprädiktionsverstärkungsfaktor mit vorgegebenen Schwellenwerten, um Modi des Eingangssprachsignals rahmenweise zu bestimmen. Die Modi werden als die bestimmten Modi darstellende Ergebnisse über den Ausgangsanschluß 49(O) der Modusbestimmungsschaltung dem Multiplexer 33, der adaptiven Codebuchschaltung 65 und dem Anregungsquantisierer 69 zugeführt.
- Im Sprachsignalcodierer mit der dargestellten Modusbestimmungsschaltung 49 werden Modusinformationen gemittelt über mehr als eine Rahmenperiode erzeugt. Dadurch kann die ansonsten auftretende Beeinträchtigung der Codequalität unterdrückt werden.
- Gemäß den Fig. 4 zusammen mit den Fig. 1 und 2 dient eine Abstandextraktionsschaltung zur Verwendung in einer dritten bevorzugten Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers. Die Abstandextraktionsschaltung wird an Stelle der Modusbestimmungsschaltung 49 verwendet und ist daher durch ein ähnliches Bezugszeichen 49(A) bezeichnet. Bezüglich anderen Merkmalen unterscheidet sich der Sprachsignalcodierer nicht wesentlich von dem unter Bezug auf Fig. 1 dargestellten Sprachsignalcodierer, mit Ausnahme der adaptiven Codebuchschaltung 65, die nun gemäß der nachstehenden kurzen Beschreibung arbeitet.
- In Fig. 4 entsprechen der Eingangs- und der Ausgangsanschluß der Abstandextraktionsschaltung dem Eingangs- und dem Ausgangsanschluß 49(I) und 49(O), die unter Bezug auf Fig. 2 beschrieben wurden, so daß sie durch die Bezugszeichen 49(I) und 49(O) bezeichnet sind. Die Abstandextraktionsschaltung 49(A) weist die Rahmenverzögerungseinrichtung 53 auf, die wie in der unter Bezug auf Fig. 3 beschriebenen Modusbestimmungsschaltung 49 direkt mit dem Eingangsanschluß 49(I) der Abstandextraktionsschaltung verbunden ist.
- Mit der Rahmenverzögerungseinrichtung 53 und dem Eingangsanschluß 49(I) der Abstandextraktionsschaltung ist ein Abstandsrechner 79 verbunden. Wenn dem Abstandsrechner 79 das wahrnehmungsgewichtete Signal als unverzögertes gewichtetes Signal von der Wahrnehmungsgewichtungsschaltung 47 über den Eingangsanschluß 49(I) der Abstandextraktionsschaltung und das verzögerte gewichtete Signal von der Rahmenverzögerungseinrichtung 53 zugeführt wird, berechnet er Abstände T (wobei das gleiche Bezugszeichen verwendet wird), durch die eine neue Fehlerstärke E(T) maximiert wird, die definiert ist durch:
- Nachdem die Abstandextraktionsschaltung 49(A) die Abstände T auf diese Weise vom Eingangssprachsignal extrahiert hat, führt sie der adaptiven Codebuchschaltung 65 die Abstände zu. Obwohl in Fig. 1 Verbindungen zwischen der Modusbestimmungsschaltung 49 und dem Multiplexer 33 und zwischen der Modusbestimmungsschaltung 49 und dem Anregungsquantisierer 69 dargestellt sind, muß die Abstandextraktionsschaltung 49(A) dem Multiplexer 33 und dem Anregungsquantisierer 69 die Abstände nicht zuführen.
- Wenn der adaptiven Codebucheinheit 65 von der Abstandextraktionsschaltung 49(A) die Abstände zugeführt werden, sucht sie in einer geschlossenen Schleife Verzögerungsparameter in der Nähe der Abstände in den Unterrahmen des Unterrahmendifferenzsignals. Außerdem führt die adaptive Codebuchschaltung 65 eine Abstandprädiktionsverarbeitung aus, um das vorstehend beschriebene Prädiktionsdifferenzsignal z(n) zu erzeugen.
- Es wurde bestätigt, daß die Abstandextraktionsschaltung 49(A) ausgezeichnet arbeitet. Im vorstehend erwähnten Artikel von Ozawa et al. werden die Abstände T so berechnet, daß eine herkömmliche Fehlerstärke minimiert wird, die definiert ist durch:
- Im Gegensatz dazu berechnet die Abstandextraktionsschaltung 49(A) für jeden Original- oder gewichteten Sprachrahmen eine mittlere Abstand über zwei oder mehr Rahmenperioden. Dadurch wird verhindert, daß instabile und fehlerhafte Abstände extrahiert werden, und wird verhindert, daß die Codequalität unbeabsichtigt beeinträchtigt wird.
- Gemäß Fig. 5 ist eine vierte bevorzugte Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers der unter Bezug auf die Fig. 1 und 4 dargestellten Ausführungsform ähnlich.
- Zwischen der Wahrnehmungsgewichtungseinheit 47 und der Modusbestimmungseinheit 57, die in Verbindung mit Fig. 3 beschrieben wird, wird eine mit der adaptiven Codebuchschaltung 65 verbundene Abstands- und Abstandprädiktionsverstärkungsfaktor (T & G) -extraktionsschaltung 49(B) verwendet. Anstelle des dünnbesiedelten Codebuchs 71 sind erste bis N- te dünnbesiedelte Anregungscodebücher 71(1) bis 71(N) mit dem Anregungsquantisierer 69 verbunden.
- Fig. 4 zeigt auch die Abstand- und Abstandprädiktionsverstärkungsfaktorextraktionsschaltung 49(B). Ein Eingangsanschluß der Abstand- und Abstandprädiktionsverstärkungsfaktorextraktionsschaltung ist mit der Wahrnehmungsgewichtungsschaltung 47 verbunden, so daß er dem Eingangsanschluß der Modusbestimmungs- oder Abstandextraktionsschaltung entspricht und durch das Bezugszeichen 49(I) bezeichnet ist. Ein Abstand - und Abstandprädiktionsverstärkungsfaktorrechner 79(A) ist, wie der Abstandverstärkungsfaktorrechner 79, mit der Rahmenverzögerungseinrichtung 53 verbunden und berechnet die Abstände T, durch die die vorstehend definierte neue Fehlerstärke maximiert wird, und den Abstandprädiktionsverstärkungsfaktor G unter Verwendung der vorstehend dargestellten Gleichung, wobei E der neuen Fehlerstärke entspricht. Auf die in Fig. 5 ersichtliche Weise weist die Abstand- und Abstandprädiktionsverstärkungsfaktorextraktionsschaltung anstatt nur eines Ausgangsanschlusses 49(O) der Abstandextraktionsschaltung zwei Ausgangsanschlüsse auf, d. h. Ausgangsanschlüsse der Abstand- und Abstandprädiktionsverstärkungsfaktorextraktionsschaltung, die mit dem Abstand- und Abstandprädiktionsverstärkungsfaktorrechner 79(A) verbunden sind.
- Einer dieser beiden Ausgangsanschlüsse ist für die Abstände T vorgesehen und mit der adaptiven Codebuchschaltung 65 verbunden. Der andere ist für den Abstandprädiktionsverstärkungsfaktor G vorgesehen und mit der Modusbestimmungsschaltung 49 verbunden, die diese Abstandprädiktionsverstärkungsfaktoren als die Merkmalgrößen verwendet.
- Die adaptive Codebuchschaltung 65 wird durch die Modi gesteuert und ist so betreibbar, daß sie in einer geschlossenen Schleife die Verzögerungsparameter sucht. Der Anregungsquantisierer 69 verwendet entweder einen Teil der Anregungscodevektoren oder alle Anregungscodevektoren, die in den ersten bis N-ten Anregungscodebüchern 71(1) bis 71(N) gespeichert sind.
- Nachstehend wird unter Bezug auf Fig. 6 eine fünfte bevorzugte Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers beschrieben. Dieser Sprachsignalcodierer ist dem unter Bezug auf Fig. 1 beschriebenen Sprachsignalcodierer mit Ausnahme der folgenden Unterschiede ähnlich. D. h., der Modusbestimmungsschaltung 49 werden außer den gewichteten Sprachunterrahmen x[w](n) von der Wahrnehmungsgewichtungsschaltung 47 mit der Rahmenperiode auch die Spektralparameter α(i, p) für den ersten und den zweiten Unterrahmen vom Spektralparameterrechner 41 zugeführt.
- Gemäß den Fig. 7 und 6 weist die Modusbestimmungsschaltung 49 einen ersten und einen zweiten Schaltungseingangsanschluß 49(1) und 49(2) auf, die mit der Wahrnehmungsgewichtungsschaltung 47 bzw. mit dem Spektralparameterrechner 41 verbunden sind. Entsprechend dem in Verbindung mit Fig. 2 beschriebenen Ausgangsanschluß der Modusbestimmungsschaltung ist nur ein Schaltungsausgangsangsanschluß durch das Bezugszeichen 49(O) bezeichnet und mit dem Multiplexer 33, der adaptiven Codebuchschaltung 65 und dem Anregungsquantisierer 69 verbunden.
- Ein mit dem ersten Schaltungseingangsanschluß 49(1) verbundener erster Merkmalgrößenrechner 81 berechnet primäre Merkmalgrößen, z. B. die Abstandprädiktionsverstärkungsfaktoren, die vorstehend beschrieben wurden und nachstehend durch PG bezeichnet werden. Ein mit dem ersten und dem zweiten Schaltungseingangsanschluß 49(1) und 49(2) verbundener zweiter Merkmalgrößenrechner 83 berechnet sekundäre Merkmalgrößen, die kurzperiodische oder kurzzeitige prädizierte Verstärkungsfaktoren SG sein können.
- Wenn einer Modusbestimmungseinheit 87 die primären und die sekundären Merkmalgrößen und verzögerte Modusinformationen über eine Rahmenverzögerungseinrichtung 85 zugeführt werden, wählt sie, ähnlich wie die in Verbindung mit Fig. 2 beschriebene Modusbestimmungseinheit 57, durch Vergleichen einer Kombination aus den primären und sekundären Merkmalgrößen und der verzögerten Modusinformation mit den vorgegebenen Schwellenwerten des vorstehend beschriebenen Typs einen der Modi für jeden aktuellen Rahmen als Ausgangsmodusinformation aus. Die Ausgangsmodusinformation wird dem einzigen Schaltungsausgangsanschluß 49(O) und der Rahmenverzögrungseinrichtung 85 zugeführt, die eine Verzögerung von einer Rahmenperiode erzeugt, um die verzögerte Modusinformation zur Modusbestimmungseinheit 87 zurückzuführen. Vorzugsweise sollte die Kombination aus der verzögerten Modusinformation und den primären und sekundären Merkmalgrößen eine gewichtete Kombination des Typs der in Verbindung mit Fig. 2 beschriebenen gewichteten Summe Gav sein.
- Bezüglich anderen Merkmalen unterscheidet sich die Funktionsweise dises Sprachsignalcodierers nicht von derjenigen des in Verbindung mit Fig. 1 beschriebenen Sprachsignalcodierers. Durch die unter Bezug auf Fig. 7 beschriebene Modusbestimmungsschaltung 49 können die vorstehend dargestellten technischen Vorteile erhalten werden.
- Gemäß Fig. 8 dient eine andere Modusbestimmungsschaltung zur Verwendung im vorstehend beschriebenen Sprachsignalcodierer und ist durch das Bezugszeichen 49 bezeichnet.
- Wie in Fig. 7 dargestellt, weist diese Modusbestimmungsschaltung 49 den ersten und den zweiten Schaltungseingangsanschluß 49(1) und 49(2) und den einzigen Schaltungsausgangsanschluß 49(O) auf und weist den ersten und den zweiten Merkmalgrößenrechner 81 und 83, die Rahmenverzögerungseinrichtung 85 und die Modusbestimmungseinheit 87 auf. Der auf die in Verbindung mit Fig. 7 beschriebene Weise arbeitende erste Merkmalgrößenrechner 81 führt der Modusbestimmungseinheit 87 die Abstandprädiktionsverstärkungsfaktoren PG zu. Im dargestellten Beispiel werden dem zweiten Merkmalgrößenrechner 83 nur die gewichteten Sprachunterrahmen zugeführt, und der zweite Merkmalgrößenrechner berechnet RMS-Verhältnisse RR als die sekundären Merkmalgrößen auf die gerade beschriebene Weise, um sie der Modusbestimmungseinheit 87 zuzuführen. Ein mit dem ersten und dem zweiten Schaltungseingangsanschluß 49(1) und 49(2) verbundener und auf die nachstehend kurz beschrieben Weise arbeitender dritter Merkmalgrößenrechner 89 berechnet die kurzperiodischen prädizierten Verstärkungsfaktoren SG und kurzperiodische prädizierte Verstärkungsfaktorverhältnisse SGR kollektiv als ternäre Merkmalgrößen, um sie der Modusbestimmungseinheit 87 zuzuführen. Die Rahmenverzögerungseinrichtung 85 und die Modusbestimmungseinheit 87 arbeiten auf die vorstehend beschriebene Weise.
- Gemäß Fig. 9 in Verbindung mit den Fig. 6 und 8 weist der zweite Merkmalgrößenrechner 83 einen RMS-Rechner 91 auf, dem die gewichteten Sprachunterrahmen über den ersten Schaltungseingangsanschluß 49(1) rahmenweise zugeführt werden, um RMS-Werte R zu berechnen, die im Artikel von Ozawa et al. verwendet werden. Eine mit dem RMS-Rechner 91 verbundene Rahmenverzögerungseinrichtung (D) 93 verzögert die RMS-Werte um eine Rahmenperiode, um verzögerte Werte zu erzeugen. Wenn einem RMS-Verhältnisrechner 95 die RMS-Werte und die verzögerten Werte zugeführt werden, berechnet er die RMS-Verhältnisse, um sie der Modusbestimmungseinheit 87 zuzuführen. Jedes RMS-Verhältnis stellt eine Änderungsrate der RMS-Werte bezüglich einer durch die Rahmenperiode skalierten Zeitachse dar.
- Gemäß Fig. 10 in Verbindung mit den Fig. 6 und 8 weist der dritte Merkmalgrößenrechner 89 einen mit dem ersten und dem zweiten Schaltungseingangsanschluß 49(1) und 49(2) verbundenen Rechner 97 zum Berechnen kurzperiodischer prädizierter Verstärkungsfaktoren auf, um die der Modusbestimmungseinheit 87 zuzuführenden kurzperiodischen prädizierten Verstärkungsfaktoren zu berechnen. Obwohl eine Rahmenverzögerungseinrichtung (D) von der in Verbindung mit Fig. 9 beschriebenen Rahmenverzögerungseinrichtung getrennt ist, ist sie zur vereinfachenden Darstellung durch das Bezugszeichen 39 dargestellt und ist ähnlich betreibbar, um verzögerte Prädiktionsverstärkungsfaktoren zu erzeugen, die mit dem vorstehend beschriebenen vorangehenden Rahmen in Beziehung stehen. In Antwort auf die kurzperiodischen Prädiktionsverstärkungsfaktoren und auf die verzögerten Prädiktionsverstärkungsfaktoren berechnet ein Rechner 99 zum Berechnen kurzperiodischer prädizierter Verstärkungsfaktoren der Modusbestimmungseinheit 87 zuzuführende Verhältnisse kurzperiodischer Prädiktionsverstärkungsfaktoren.
- Gemäß Fig. 11 in Verbindung mit den Fig. 6 und 8 weist der dritte Merkmalgrößenrechner 89 an Stelle der in Fig. 9 dargestellten Rahmenverzögerungseinrichtung 93 eine erste und eine zweite Rahmenverzögerungseinrichtung 93(1) und 93(2) auf. Dadurch führt der dritte Merkmalgrößenrechner 89 der Modusbestimmungseinheit 87 die kurzperiodischen prädizierten Verstärkungsfaktoren zu, die durch Vergleichen der vorgegebenen Schwellenwerte mit einer Summe, vorzugsweise mit einer gewichteten Summe, berechnet werden, die in jedem Rahmen durch einen kurzperiodischen prädizierten Verstärkungsfaktor und einen verzögerten prädizierten Verstärkungsfaktor berechnet wird, die von der ersten und der zweiten Rahmenverzögerungseinrichtung 93(1) und 93(2) zugeführt werden, wobei dem kurzperiodischen prädizierten Verstärkungsfaktor eine Gesamtverzögerung von zwei Rahmenperioden aufgeprägt wird.
- Gemäß den Fig. 12 und 6 ist die Modusbestimmungsschaltung 49 teilweise der in Verbindung mit Fig. 8 beschriebenen Modusbestimmungsschaltung und teilweise der in Fig. 9 beschriebenen Modusbestimmungsschaltung ähnlich. D. h., der zweite Merkmalgrößenrechner 83 führt der Modusbestimmungseinheit 87 außer den RMS-Verhältnissen RR die RMS- Werte R zu. Der erste und der zweite Merkmalgrößenrechner 81 und 89, die Rahmenverzögerungseinrichtung 85 und die Modusbestimmungseinheit 87 arbeiten auf die vorstehend beschriebene Weise.
- Gemäß den Fig. 13 und 12 ist der zweite Merkmalgrößenrechner 83 dem unter Bezug auf Fig. 9 dargestellten Merkmalgrößenrechner ähnlich. Der RMS-Rechenr 91 führt die RMS- Werte jedoch direkt der Modusbestimmungseinheit 87 zu. Außerdem führt der RMS-Rechner 91 die RMS-Werte dem RMS- Verhältnisrechenr 95 direkt und über eine Serienschaltung aus einer ersten und einer zweiten Verzögerungseinrichtung (D) zu, die zwar von den in Verbindung mit Fig. 11 beschriebenen Verzögerungseinrichtungen getrennt, aber dennoch durch die Bezugszeichen 93(1) und 93(2) bezeichnet sind. Daher berechnet der RMS-Verhältnisrechner 95 das RMS-Verhältnis jedes aktuellen RMS-Wertes zu einem vorangehenden RMS-Wert, der zwei Rahmenperioden vor dem aktuellen RMS-Wert vorlag.
- Gemäß Fig. 14 in Verbindung mit den Fig. 6 und 12 ist der zweite Merkmalvektorrechner 83 dem unter Bezug auf Fig. 9 beschriebenen Merkmalvektorrechner ähnlich. Der RMS- Rechner 91 führt jedoch die RMS-Werte außer der Rahmenverzögerungseinrichtung 93 und dem RMS-Verhältnisrechner 95 der Modusbestimmungsschaltung 87 direkt zu.
- Gemäß den Fig. 15 und 6 ist die Modusbestimmungsschaltung 49 der unter Bezug auf Fig. 12 beschriebenen Modusbestimmungsschaltung ähnlich. Der zweite Merkmalgrößenrechner 83 führt der Modusbestimmungseinheit 87 jedoch nur die RMS-Werte R zu.
- Nachstehend wird unter Bezug auf Fig. 16 eine sechste bevorzugte Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers beschrieben. In diesem Sprachsignalcodierer werden der Modusbestimmungsschaltung 49 von der Wahrnehmungsgewichtungsschaltung 47 nur die gewichteten Sprachunterrahmen mit der Rahmenperiode zugeführt, und die Modusbestimmungsschaltung berechnet die Abstandprädiktionsverstärkungsfaktoren als Merkmalgrößen wie der in Verbindung mit den Fig. 7, 8, 12 oder 15 beschriebene erste Merkmalgrößenrechner 81, und bestimmt die Modusinformation jedes dem Multiplexer 33, der adaptiven Codebuchschaltung 65 und dem Anregungsquantisierer 69 zuzuführenden Originalsprachrahmens. Im dargestellten Beispiel wird zusätzlich die Modusinformation auf eine nachfolgend beschriebene Weise verwendet.
- Eine mit der Wahrnehmungsgewichtungsschaltung 47 verbundene Abstandextraktionsschaltung 103, der die Modusinformation mit der Rahmenperiode von der Modusbestimmungsschaltung 49 zugeführt wird, berechnet in Verbindung mit einer teilweise rückgekoppelten Schleife 101 der adaptiven Codebuchschaltung 65 zuzuführende korrigierte Abstände CPP in jeder Rahmenperiode folgendermaßen.
- Gemäß den Fig. 17 und 16 weist die Abstandextraktionsschaltung 103 einen mit der Modusbestimmungsschaltung 49 verbundenen ersten Extraktionsschaltungseingangsanschluß 103(1), einen mit der Wahrnehmungsgewichtschaltung 47 verbundenen zweiten Extraktionsschaltungseingangsanschluß 103(2) und einen mit der teilweise rückgekoppelten Schleife 101 verbundenen dritten Extraktionsschaltungseingangsanschluß 103(3) auf. Ein Extraktionsschaltungsausgangsanschluß 103(O) ist mit der adaptiven Codebuchschaltung 65 verbunden.
- Die teilweise rückgekoppelte Schleife 101 führt einen aktuellen Abstand CP jedes aktuellen Rahmens dem dritten Extraktionsschaltungseingangsanschluß 103(3) zu. Ein zusätzlicher Merkmalgrößenrechner 105 berechnet aktuelle Abstände, vorangehende Abstände PP und Abstandverhältnisse DR in Antwort auf die aktuellen Abstände und die gewichteten Sprachunterrahmen, die ihm mit der Rahmenperiode zugeführt werden. Die vorangehenden Abstände weisen eine gemeinsame Verzögerung von einer Rahmenperiode bezüglich den aktuellen Abständen auf. Jedes Abstandverhältnis stellt eine Änderungsrate der aktuellen Abstände in jeder Rahmenperiode dar.
- Eine mit dem ersten Extraktionsschaltungseingangsanschluß 103(1) verbundene. Rahmenverzögerungseinrichtung (D) 107 erzeugt eine Verzögerung von einer Rahmenperiode, um eine verzögerte Information zu erzeugen. Wenn einer Merkmalgrößenanpassungseinheit 109 die Modusinformation vom ersten Extraktionsschaltungseingangsanschluß 103(1), die verzögerte Information von der Rahmenverzögerungseinrichtung 107 und die aktuellen Abstände, die vorangehenden Abstände und die Abstandverhältnisse vom zusätzlichen Merkmalgrößenrechner 105 gemeinsam als Merkmalgrößen zugeführt werden, vergleicht sie die Abstandverhältnisse mit einem vorgegebenen zusätzlichen Schwellenwert bezüglich der Modus- und der verzögerten Informationen, um die aktuellen Abstände durch die vorangehenden Abstände und die Abstandverhältnisse anzupassen oder zu korrigieren, um dem Extraktionsschaltungsausgangsanschluß 103(O) zuzuführende angepaßte Abstände CPP zu erzeugen.
- Gemäß Fig. 18 in Verbindung mit den Fig. 16 und 17 weist der zusätzliche Merkmalgrößenrechner 105 einen Abstandrechner 111 auf, der mit dem zweiten Extraktionsschaltungseingangsanschluß 103(2) verbunden ist, um die wahrnehmungsgewichteten Sprachunterrahmen mit der Rahmenperiode zu empfangen und die der teilweise rückgekoppelten Schleife 101 und der Merkmalgrößenanpassungseinheit 109 zuzuführenden aktuellen Abstände CP zu berechnen. Wenn einer Rahmenverzögerungseinheit (D) 113 die aktuellen Abstände über den dritten Extraktionsschaltungseingangsanschluß 103(3) zugeführt werden, erzeugt sie die der Merkmalgrößenanpassungseinheit 109 zuzuführenden vorangehenden Abstände PP. Wenn einem Abstandverhältnisrechner 115 die aktuellen und die vorangehenden Abstände zugeführt werden, berechnet er die der Merkmalgrößenanpassungseinheit 109 zuzuführenden Abstandverhältnisse DR.
- In Fig. 16 arbeitet die adaptive Codebuchschaltung 65 auf ähnliche Weise wie die in Verbindung mit dem Sprachsignalcodierer mit dem in Fig. 4 dargestellten Abstandsrechner 79 beschriebene Codebuchschaltung. D. h., die adaptive Codebuchschaltung 65 sucht in einer geschlossenen Schleife die Abstände in jedem vorangehenden Unterrahmen des Unterrahmendifferenzsignals eher in der Nähe der angepaßten Abstände CCP als die Verzögerungsparameter in der Nähe der durch den Abstandsrechner 79 berechneten Abstände.
- Ansonsten ist der Sprachsignalcodierer von Fig. 15 dem unter Bezug auf Fig. 6 dargestellten Sprachsignalcodierer ähnlich.
- Gemäß den Fig. 19 und 16 dient eine andere Abstandextraktionsschaltung zur Verwendung im betrachteten Sprachsignalcodierer. Die Abstandextraktionsschaltung entspricht der unter Bezug auf Fig. 17 dargestellten Abstandextraktionsschaltung und wird durch das Bezugszeichen 103 bezeichnet.
- Die Abstandextraktionsschaltung 103 weist nur einen ersten und einen zweiten Extraktionsschaltungseingangsanschluß 103(1) und 103(2) und den Extraktionsschaltungsausgangsanschluß 103(O) auf. D. h., die Abstandextraktionsschaltung weist nicht die in Verbindung mit Fig. 16 beschriebene teilweise rückgekoppelte Schleife 101 auf.
- Der zusätzliche Merkmalgrößenrechner 105, dem die gewichteten Sprachunterrahmen von der Wahrnehmungsgewichtungsschaltung 47 rahmenweise zugeführt werden, berechnet die aktuellen Abstände CP als die Merkmalgrößen. In Antwort auf die von der Modusbestimmungsschaltung 49 rahmenweise zugeführten Modusinformationen und auf die durch die Rahmenverzögerungseinrichtung 107 erzeugten verzögerten Informationen paßt die Merkmalgrößenanpassungseinheit 109 die aktuellen Impulse an und erzeugt angepaßte Impulse CPP zur Verwendung in der adaptiven Codebuchschaltung 65 an.
- Gemäß Fig. 20 in Verbindung mit den Fig. 16 und 17 dient der zusätzliche Merkmalgrößenrechner zur Verwendung in der Abstandextraktionsschaltung 103, die mit der teilweise rückgekoppelten Schleife 101 verbunden ist, und ist durch das Bezugszeichen 105 bezeichnet. Dieser zusätzliche Merkmalgrößenrechner 105 ist dem unter Bezug auf Fig. 18 dargestellten zusätzlichen Merkmalgrößenrechner ähnlich. Im dargestellten zusätzlichen Merkmalgrößenrechner 105 wird die Rahmenverzögerungseinrichtung 113 von Fig. 18 erneut als erste Rahmenverzögerungseinrichtung 113(1) bezeichnet, die der Merkmalgrößenanpassungseinheit 109 die vorangehenden Abstände PD zuführt.
- Der Abstandsrechner 111, dem die wahrnehmungsgewichteten Sprachunterrahmen über den zweiten Extraktionsschaltungseingangsanschluß 103(2) mit der Rahmenperiode zugeführt werden, berechnet die der Merkmalgrößenanpassungseinheit 109 und der teilweise rückgekoppelten Schleife 101 und dann dem in Fig. 18 dargestellten Extraktionsschaltungseingangsanschluß 103(3) zuzuführenden aktuellen Abstände CP. Eine mit der ersten Rahmenverzögerungseinrichtung 113(1) verbundene zweite Verzögerungseinrichtung 113(2) verzögert die vorangehenden Abstände um eine Rahmenperiode, um ehemalige vorangehende Abstände PPP zu erzeugen, die eine lange Verzögerung von zwei Rahmenperioden bezüglich den aktuellen Abständen aufweisen. Um die Abstandverhältnisse DR der Merkmalgrößenanpassungseinheit 109 zuzuführen, arbeitet der Abstandverhältnisrechner 115 auf die gleiche Weise wie der in Verbindung mit Fig. 18 beschriebene Abstandverhältnisrechner.
- Gemäß den Fig. 21 und 16 dient die Abstandextraktionsschaltung 103 zur Verwendung in Kombination mit der teilweise rückgekoppelten Schleife 101. Die Abstandextraktionsschaltung 103, der die Modusinformationen über den ersten Extraktionsschaltungseingangsanschluß 103(1) rahmenweise zugeführt werden, die wahrnehmungsgewichteten Sprachunterrahmen über den zweiten Extraktionsschaltungseingangsanschluß 103(2) rahmenweise zugeführt werden und die aktuellen Abstände CC über den dritten Extraktionsschaltungseingangsanschluß 103(3) zugeführt werden, führt die angepaßten Abstände CPP über den Extraktionsschaltungsausgangsanschluß 103(O) der adaptiven Codebuchschaltung 65 zu.
- Ein mit dem zweiten und dem dritten Extraktionsschaltungseingangsanschluß 103(2) und 103(3) verbundener zusätzlicher Merkmalgrößenrechner ist dem unter Bezug auf jede der Fig. 17 bis 20 beschriebenen zusätzlichen Merkmalgrößenrechner ähnlich und wird daher durch das Bezugszeichen 105 bezeichnet. In Antwort auf die wahrnehmungsgewichteten Sprachunterrahmen jedes Rahmens und auf die aktuellen Abstände berechnet der zusätzlichen Merkmalgrößenrechner 105 die Abstandsverhältnisse DR, die der Merkmalgrößenanpassungseinheit 109 zusammen mit den aktuellen Abstanden kollektiv als die Merkmalgrößen zugeführt werden. In Antwort auf die Modus- und die Verzögerungsinformationen vergleicht die Merkmalgrößenanpassungseinheit 109 die Abstandsverhältnisse mit dem zusätzlichen Schwellenwert, um die aktuellen Abstände nun nur durch die Abstandsverhältnisse anzupassen und angepaßte Abstände zu erzeugen.
- Gemäß Fig. 22 in Verbindung mit den Fig. 16 und 21 ist der zusätzliche Merkmalgrößenrechner 105 dem unter Bezug auf die Fig. 18 oder 20 dargestellten zusätzlichen Merkmalgrößenrechner ähnlich. Die vorangehenden Abstände werden der Merkmalgrößenanpassungseinheit 109 jedoch nicht zugeführt.
- Gemäß Fig. 22 in Verbindung mit den Fig. 16 und 21 kann der zusätzliche Merkmalgrößenrechner an Stelle der ersten und der zweiten Rahmenverzögerungseinrichtung 113(1) und 113(2) einfach die Rahmenverzögerungseinrichtung 113 zwischen dem dritten Extraktionsschaltungseingangsanschluß 103(3) und dem Abstandsverhältnisrechner 115 aufweisen, wie in Fig. 18 dargestellt, wobei die vorangehenden Abstände der Merkmalgrößenanpassungseinheit 109 nicht zugeführt werden.
- Gemäß den Fig. 23 und 16 unterscheidet sich die Abstandextraktionsschaltung 103 nicht von derjenigen von Fig. 21, soweit in den Blöcken dargestellt. Der zusätzliche Merkmalgrößenrechner 105 unterscheidet sich jedoch geringfügig von dem in Verbindung mit Fig. 21 beschriebenen zusätzlichen Merkmalgrößenrechner. Daher unterscheidet sich die Arbeitsweise der Merkmalgrößenanpassungseinheit 109 geringfügig.
- Gemäß Fig. 24 in Verbindung mit den Fig. 16 und 23 weist der zusätzliche Merkmalgrößenrechner 105 den Abstandrechner 111 auf, dem über den zweiten Extraktionsschaltungseingangsanschluß 103(2) die wahrnehmungsgewichteten Sprachunterrahmen mit der Rahmenperiode zugeführt werden, um die aktuellen Abstände CC der teilweise rückgekoppelten Schleife 101 und der Merkmalgrößenanpassungseinheit 109 zuzuführen. Der Rahmenverzögerungseinheit 113 werden die aktuellen Abstände CP über den dritten Extraktionsschaltungseingangsanschluß 103(3) zugeführt, um die vorangehenden Abstände PP der Merkmalgrößenanpassungseinheit 109 zuzuführen.
- Gemäß Fig. 23 arbeitet die Merkmalgrößenanpassungseinheit 109 folgendermaßen. In Antwort auf die Modus- und die verzögerten Informationen, die über den ersten Extraktionsschaltungseingangsanschluß 103(1) direkt und zusätzlich über die Rahmenverzögerungseinrichtung 107 zugeführt werden, vergleicht die Merkmalgrößenanpassungseinheit 109 die vorangehenden Abstände mit vorgegebenen zusätzlichen Schwellenwerten, um die aktuellen Abstände durch die vorangehenden Abstände anzupassen und angepaßte Abstände CPP zu erzeugen.
- Unter Bezug auf Fig. 25 wird nachstehend eine siebente Ausführungsform eines erfindungsgemäßen Sprachsignalcodierers beschrieben. Dieser Sprachsignalcodierer unterscheidet sich folgendermaßen von dem unter Bezug auf Fig. 5 dargestellten Sprachsignalcodierer.
- Auf die unter Bezug auf Fig. 6 in Verbindung mit den Fig. 7, 8, 12 oder 15 beschriebene Weise berechnet die Modusbestimmungsschaltung 49 die Abstandprädiktionsverstärkungsfaktoren in der Rahmenperiode und bestimmt die Modusinformation. Auf die im Artikel von Ozawa et al. beschriebene Weise ist eine RMS-Extraktionsschaltung 121 mit der Rahmenteilerschaltung 37 verbunden und mit einem RMS-Codebuch 123 kombiniert, das mehrere RMS-Codevektoren hält. Die durch die Modusinformationen, die einen der vorgegebenen Modi für jeden der Sprachrahmen spezifizieren, in die das Sprachsignal segmentiert ist, gesteuerte RMS-Extraktionsschaltung 121 wählt einen der RMS-Codevektoren als ausgewählten RMS-Vektor aus, der dem Multiplexer 33 und von dort dem Ausgangsanschluß 35 des Codierers zugeführt wird. Die RMS- Extraktionsschaltung 121 dient als Pegelextraktionsschaltungsanordnung.
- Gemäß den Fig. 26 und 25 weist die RMS- Extraktionsschaltung 121 einen ersten Extraktionsschaltungseingangsanschluß 121(1) auf, dem von der Modusbestimmungsschaltung 49 die Modusinformationen als aktuelle Modusinformationen mit der Rahmenperiode zugeführt werden. Einem mit der Rahmenteilerschaltung 37 verbundenen zweiten Extraktionsschaltungseingangsanschluß 121(2) werden die Originalsprachrahmen zugeführt. Eine dritte Extraktionsschaltung 121(3) dient zur Bezugnahme auf das RMS-Codebuch 123. Ein Extraktionsschaltungsausgangsanschluß 123(O) dient zum Zuführen des ausgewählten RMS-Vektors zum Multiplexer 33.
- Ein mit dem zweiten Extraktionsschaltungseingangsanschluß 121(2) verbundener RMS-Rechner 125 berechnet die RMS- Werte R ähnlich wie der in Verbindung mit den Fig. 9, 13 oder 14 beschriebene RMS-Rechner 91. In Antwort auf die aktuellen Modusinformationen und auf die vorangehenden Modusinformationen, die vom ersten Extraktionsschaltungseingangsanschluß 121(1) direkt und über eine Rahmenverzögerungseinrichtung (D) 127 zugeführt werden, vergleicht eine RMS-Anpassungseinheit 129 die vom RMS-Rechner 125 als Original-RMS-Werte zugeführten RMS-Werte mit einem vorgegebenen, noch anderen zusätzlichen Schwellenwert, um die Original- RMS-Werte anzupassen und angepaßte RMS-Werte IR zu erzeugen. Eine mit der RMS-Anpassungseinheit 129 und mit dem dritten Extraktionsschaltungseingangsanschluß 121(3) verbundene RMS- Quantisierungsvektorauswahleinrichtung 131 wählt einen der RMS-Codevektoren, der den angepaßten RMS-Werten am ähnlichsten ist, bei jeder Rahmenperiode als ausgewählten RMS- Vektor aus, um ihn dem Extraktionsschaltungsausgangsanschluß 121(O) zuzuführen.
- Gemäß den Fig. 27 und 25 weist die RMS- Extraktionsschaltung 121 außerdem eine zusätzliche Rahmenverzögerungseinrichtung 133 auf, der von der RMS- Anpassungseinheit 129 die angepaßten RMS-Werte als aktuelle angepaßte Werte zugeführt werden, um die vorangehenden angepaßten Werte zur RMS-Anpassungseinheit 129 zurückzusenden. In Antwort auf die aktuellen und die vorangehenden Modusinformationen und auf die vorangehenden angepaßten Werte paßt die RMS-Anpassungseinheit 129 die Original-RMS-Werte an und erzeugt die angepaßten RMS-Werte.
- Gemäß den Fig. 28 und 25 unterscheidet sich die RMS- Extraktionsschaltung 121 von der unter Bezug auf Fig. 27 dargestellten Extraktionsschaltung dadurch, daß die vorangehenden angepaßten RMS-Werte nicht zur RMS-Anpassungseinheit 120 zurückgesendet werden. Stattdessen führt die zusätzliche Rahmenverzögerungseinrichtung 133 die vorangehenden angepaßten Werte einem RMS-Verhältnisrechner 135 zu, dem vom RMS- Rechner 125 die Original-RMS-Werte zugeführt werden, um an die RMS-Anpassungseinheit 129 zurückzusendende RMS-Verhältnisse RR zu berechnen. Im Zusammenhang mit den RMS- Verhältnissen sollte erwähnt werden, daß die vorangehenden angepaßten Werte durch die zusätzliche Rahmenverzögerungseinrichtung 133 gleichzeitig mit den vorangehenden RMS- Werten erzeugt werden, die die Original-RMS-Werte sind, die vom RMS-Rechner 125 eine Rahmenperiode früher an die RMS- Anpassungseinheit 129 übertragen werden als die betrachteten, vorangehend angepaßten Werte. Jedes RMS-Verhältnis stellt ein Verhältnis eines Original-RMS-Wertes zu einem der vorangehenden angepaßten Werte dar, der durch die zusätzliche Rahmenverzögerungseinrichtung 133 gleichzeitig mit dem vorangehenden RMS-Wert eine Rahmenperiode früher erzeugt wird als der vorstehend erwähnte Original-RMS-Wert.
- Die RMS-Anpassungsschaltung 129 arbeitet auf die gleiche Weise wie die unter Bezug auf Fig. 22 beschriebene Merkmalgrößenanpassungseinheit 109. D. h., die RMS-Anpassungseinheit 129 erzeugt die angepaßten RMS-Werte IR durch Vergleichen der Original-RMS-Werte mit dem noch anderen zusätzlichen Schwellenwert in Antwort auf die aktuellen und die vorangehenden Modusinformationen und die RMS-Verhältnisse.
- Gemäß den Fig. 29 und 25 weist die RMS-Extraktionsschaltung 121 die RMS-Anpassungseinheit 129 auf, der außer den Original-RMS-Werten und den RMS-Verhältnissen auch die vorangehenden angepaßten Werte von der zusätzlichen Rahmenverzögerungseinrichtung 133 zugeführt werden. Daher arbeitet die RMS-Anpassungseinheit 129 wie die in Verbindung mit den Fig. 17 und 18 beschriebene Merkmalgrößenanpassungseinheit 109. D. h., die RMS-Anpassungseinheit 129 erzeugt die angepaßten RMS-Werte IR durch Vergleichen der Original-RMS- Werte mit dem noch anderen zusätzlichen Schwellenwert, um die aktuellen RMS-Werte durch die vorangehenden angepaßten Werte in Antwort auf die aktuellen und die vorangehenden Modusinformationen und die RMS-Verhältnisse anzupassen.
- Gemäß den Fig. 30 und 25 unterscheidet sich die RMS- Extraktionsschaltung 121 von der unter Bezug auf Fig. 28 dargestellten Extraktionsschaltung dadurch, daß die zusätzliche Rahmenverzögerungseinrichtung 133 von Fig. 28 in eine Serienschaltung aus einer ersten und einer zweiten Rahmenverzögerungseinrichtung 133(1) und 133(2) geändert ist. Der RMS-Verhältnisrechner 135 berechnet RMS-Verhältnisse der aktuellen RMS-Werte zu ehemals vorangehenden angepaßten RMS- Werten, die durch die RMS-Anpassungseinheit 129 in Antwort auf RMS-Werte erzeugt werden, die zwei Rahmenperioden vor den aktuellen RMS-Werten vorlagen. Die RMS-Anpassungseinheit 129 arbeitet auf die gleiche Weise wie die unter Bezug auf Fig. 28 dargestellte RMS-Extraktionsschaltung 121. In diesem Zusammenhang sollte erwähnt werden, daß die RMS-Verhältnisse sich zwischen den in Verbindung mit den Fig. 28 und 30 beschriebenen RMS-Anpassungseinheiten unterscheiden.
- Gemäß Fig. 29 in Verbindung mit den Fig. 30 und 25 kann die RMS-Extraktionsschaltung 121 auf die in Fig. 29 dargestellte Weise die erste und die zweite zusätzliche Rahmenverzögerungseinrichtung 133(1) und 133(2) und eine Signalleitung zwischen der ersten zusätzlichen Rahmenverzögerungseinrichtung 133(1) und der RMS-Anpassungseinheit 129 aufweisen. Der RMS-Rechner 135 arbeitet auf die in Verbindung mit Fig. 30 dargestellte Weise. Die RMS-Anpassungseinheit 129 arbeitet auf die in Verbindung mit Fig. 29 beschriebene Weise.
Claims (6)
1. Sprachsignalcodierer mit:
einer Segmentierungseinrichtung (31) zum
Segmentieren eines Eingangssprachsignals in
Originalsprachrahmen mit einer vorgegebenen Rahmenperiode;
einer Entscheidungseinrichtung (49) zum Verwenden
der Originalsprachrahmen zum Bestimmen einer
vorgegebenen Anzahl von Modi der Originalsprachrahmen, um
bestimmte Modi anzeigende Ergebnisse zu erzeugen;
und einer Codiereinrichtung (65, 69, 73, 33) zum
Codieren des Eingangssprachsignals in Codes mit der
Rahmenperiode und zum Erzeugen der die Modi anzeigenden
Ergebnisse und der Codes in Antwort auf die Modi als
Codiererausgangssignal;
dadurch gekennzeichnet, daß
die Entscheidungseinrichtung beim Bestimmen eines
aktuellen Modus aus den Modi für jeden aktuellen
Sprachrahmen, der von dem Spracheingangssignal mit der
Rahmenperiode segmentiert wurde, mindestens eine Art
von Merkmalgrößen verwendet, die aus dem aktuellen
Sprachrahmen und aus einem vorangehenden Sprachrahmen
extrahiert werden, der mindestens eine Rahmenperiode
vor dem aktuellen Sprachrahmen segmentiert wurde, und
einen vorangehenden Modus, der mindestens eine
Rahmenperiode vor dem aktuellen Modus bestimmt wurde.
2. Sprachsignalcodierer nach Anspruch 1, ferner dadurch
gekennzeichnet, daß zeitliche Änderungsraten in den
Merkmalgrößen als sekundäre Merkmalgrößen verwendet
werden.
3. Sprachsignalcodierer nach Anspruch 2, ferner mit einer
Einrichtung (81) zum Extrahieren jeder der
Merkmalgrößen als primäre Merkmalgrößen aus dem aktuellen
Sprachrahmen, ferner dadurch gekennzeichnet, daß die
Entscheidungseinrichtung (49) aufweist:
eine Einrichtung (83) zum Extrahieren der
Änderungsraten aus den aktuellen und den vorangehenden
Sprachrahmen als sekundäre Merkmalgrößen der
Merkmalgrößen; und
eine Modusentscheidungseinrichtung (85, 87) zum
Bestimmen des aktuellen Modus in Antwort auf die
primären und die sekundären Merkmalgrößen und den
vorangehenden Modus.
4. Sprachsignalcodierer nach Anspruch 3, dadurch
gekennzeichnet, daß
die Modusentscheidungseinrichtung (85, 87) den
aktuellen Modus in Antwort auf die primären und die
sekundären Merkmalgrößen und den vorangehenden Modus auf
einen angepaßten Modus einstellt;
wobei die Codiereinrichtung (65, 69, 73, 33) als
die Modi angepaßte Modi verwendet, die durch die
Modusentscheidungseinrichtung für das Eingangssprachsignal
erzeugt wurden.
5. Sprachsignalcodierer nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet, daß jede der Merkmalgrößen ein
Abstandprädiktionsverstärkungsfaktor und/oder ein
kurzperiodischer prädizierter Verstärkungsfaktor und/oder
ein Pegel und/oder ein Abstand des aktuellen
Sprachrahmens ist.
6. Sprachsignalcodierer nach einem der Ansprüche 1 bis 4,
ferner mit einer Gewichtungseinrichtung (47) zum
wahrnehmungsbezogenen Gewichten der Originalsprachrahmen in
gewichtete Sprachrahmen, dadurch gekennzeichnet, daß
die Entscheidungseinrichtung (49) die gewichteten
Sprachrahmen zum Bestimmen der Modi verwendet.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07004921A JP3089967B2 (ja) | 1995-01-17 | 1995-01-17 | 音声符号化装置 |
JP7013072A JP3047761B2 (ja) | 1995-01-30 | 1995-01-30 | 音声符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69615870D1 DE69615870D1 (de) | 2001-11-15 |
DE69615870T2 true DE69615870T2 (de) | 2002-04-04 |
Family
ID=26338778
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69615227T Expired - Lifetime DE69615227T2 (de) | 1995-01-17 | 1996-01-16 | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
DE69609089T Expired - Lifetime DE69609089T2 (de) | 1995-01-17 | 1996-01-16 | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
DE69615870T Expired - Lifetime DE69615870T2 (de) | 1995-01-17 | 1996-01-16 | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69615227T Expired - Lifetime DE69615227T2 (de) | 1995-01-17 | 1996-01-16 | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
DE69609089T Expired - Lifetime DE69609089T2 (de) | 1995-01-17 | 1996-01-16 | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
Country Status (3)
Country | Link |
---|---|
US (1) | US5787389A (de) |
EP (3) | EP0723258B1 (de) |
DE (3) | DE69615227T2 (de) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09230896A (ja) * | 1996-02-28 | 1997-09-05 | Sony Corp | 音声合成装置 |
JP3268731B2 (ja) | 1996-10-09 | 2002-03-25 | 沖電気工業株式会社 | 光電変換素子 |
JP3067676B2 (ja) * | 1997-02-13 | 2000-07-17 | 日本電気株式会社 | Lspの予測符号化装置及び方法 |
JP3147807B2 (ja) * | 1997-03-21 | 2001-03-19 | 日本電気株式会社 | 信号符号化装置 |
CA2233896C (en) * | 1997-04-09 | 2002-11-19 | Kazunori Ozawa | Signal coding system |
US6058359A (en) * | 1998-03-04 | 2000-05-02 | Telefonaktiebolaget L M Ericsson | Speech coding including soft adaptability feature |
CN1494055A (zh) * | 1997-12-24 | 2004-05-05 | ������������ʽ���� | 声音编码方法和声音译码方法以及声音编码装置和声音译码装置 |
US7003121B1 (en) | 1998-04-08 | 2006-02-21 | Bang & Olufsen Technology A/S | Method and an apparatus for processing an auscultation signal |
US7117146B2 (en) * | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
US6311154B1 (en) | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
JP3594854B2 (ja) | 1999-11-08 | 2004-12-02 | 三菱電機株式会社 | 音声符号化装置及び音声復号化装置 |
USRE43209E1 (en) | 1999-11-08 | 2012-02-21 | Mitsubishi Denki Kabushiki Kaisha | Speech coding apparatus and speech decoding apparatus |
JP2002162998A (ja) * | 2000-11-28 | 2002-06-07 | Fujitsu Ltd | パケット修復処理を伴なう音声符号化方法 |
JP5511372B2 (ja) * | 2007-03-02 | 2014-06-04 | パナソニック株式会社 | 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 |
KR20100006492A (ko) * | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
CN103229235B (zh) * | 2010-11-24 | 2015-12-09 | Lg电子株式会社 | 语音信号编码方法和语音信号解码方法 |
CN107452391B (zh) | 2014-04-29 | 2020-08-25 | 华为技术有限公司 | 音频编码方法及相关装置 |
CN105741838B (zh) * | 2016-01-20 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2940005B2 (ja) * | 1989-07-20 | 1999-08-25 | 日本電気株式会社 | 音声符号化装置 |
JPH0398318A (ja) * | 1989-09-11 | 1991-04-23 | Fujitsu Ltd | 音声符号化方式 |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
JP3114197B2 (ja) * | 1990-11-02 | 2000-12-04 | 日本電気株式会社 | 音声パラメータ符号化方法 |
JP3151874B2 (ja) * | 1991-02-26 | 2001-04-03 | 日本電気株式会社 | 音声パラメータ符号化方式および装置 |
JP3143956B2 (ja) * | 1991-06-27 | 2001-03-07 | 日本電気株式会社 | 音声パラメータ符号化方式 |
US5371853A (en) * | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
JP2746039B2 (ja) * | 1993-01-22 | 1998-04-28 | 日本電気株式会社 | 音声符号化方式 |
IT1270439B (it) * | 1993-06-10 | 1997-05-05 | Sip | Procedimento e dispositivo per la quantizzazione dei parametri spettrali in codificatori numerici della voce |
US5602961A (en) * | 1994-05-31 | 1997-02-11 | Alaris, Inc. | Method and apparatus for speech compression using multi-mode code excited linear predictive coding |
US5751903A (en) * | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
-
1996
- 1996-01-16 DE DE69615227T patent/DE69615227T2/de not_active Expired - Lifetime
- 1996-01-16 DE DE69609089T patent/DE69609089T2/de not_active Expired - Lifetime
- 1996-01-16 EP EP96100544A patent/EP0723258B1/de not_active Expired - Lifetime
- 1996-01-16 DE DE69615870T patent/DE69615870T2/de not_active Expired - Lifetime
- 1996-01-16 EP EP99111363A patent/EP0944038B1/de not_active Expired - Lifetime
- 1996-01-16 EP EP99109387A patent/EP0944037B1/de not_active Expired - Lifetime
- 1996-01-17 US US08/588,005 patent/US5787389A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69609089T2 (de) | 2000-11-16 |
EP0944037A1 (de) | 1999-09-22 |
DE69615227D1 (de) | 2001-10-18 |
EP0723258A1 (de) | 1996-07-24 |
EP0944038A1 (de) | 1999-09-22 |
EP0944038B1 (de) | 2001-09-12 |
EP0723258B1 (de) | 2000-07-05 |
US5787389A (en) | 1998-07-28 |
DE69615227T2 (de) | 2002-04-25 |
DE69615870D1 (de) | 2001-11-15 |
EP0944037B1 (de) | 2001-10-10 |
DE69609089D1 (de) | 2000-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69530442T2 (de) | Vorrichtung zur Sprachkodierung | |
DE69023402T2 (de) | Verfahren zur Sprachkodierung und -dekodierung. | |
DE69615870T2 (de) | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen | |
DE69900786T2 (de) | Sprachkodierung | |
DE19647298C2 (de) | Kodiersystem | |
DE69928288T2 (de) | Kodierung periodischer sprache | |
DE69420431T2 (de) | Sprachkodierungssystem | |
DE69029232T2 (de) | System und Methode zur Sprachkodierung | |
DE69309557T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE69634179T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung und -dekodierung | |
DE69529356T2 (de) | Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile | |
DE69613360T2 (de) | Linear-prädiktiver analyse-durch-synthese sprachkodierer | |
DE69814517T2 (de) | Sprachkodierung | |
DE602004007786T2 (de) | Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate | |
DE69837822T2 (de) | Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen | |
DE69636209T2 (de) | Vorrichtung zur Sprachkodierung | |
DE69718234T2 (de) | Sprachkodierer | |
DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE69729527T2 (de) | Verfahren und Vorrichtung zur Kodierung von Sprachsignalen | |
DE69620560T2 (de) | Kodierverfahren eines Sprach- oder Musiksignals mittels Quantisierung harmonischer Komponenten sowie im Anschluss daran Quantisierung der Residuen | |
DE69524890T2 (de) | Parametrische Sprachkodierung | |
DE60309651T2 (de) | Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens | |
DE69610915T2 (de) | Verfahren zur quantisierung des verstärkungsfaktors für die linear-prädiktive sprachkodierung mittels analyse-durch-synthese | |
DE68913691T2 (de) | System zur Sprachcodierung und -decodierung. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |