DE69837822T2 - Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen - Google Patents
Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen Download PDFInfo
- Publication number
- DE69837822T2 DE69837822T2 DE69837822T DE69837822T DE69837822T2 DE 69837822 T2 DE69837822 T2 DE 69837822T2 DE 69837822 T DE69837822 T DE 69837822T DE 69837822 T DE69837822 T DE 69837822T DE 69837822 T2 DE69837822 T2 DE 69837822T2
- Authority
- DE
- Germany
- Prior art keywords
- time series
- excitation
- speech
- series vector
- codebook
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 50
- 230000005284 excitation Effects 0.000 claims description 180
- 239000013598 vector Substances 0.000 claims description 106
- 230000003044 adaptive effect Effects 0.000 claims description 54
- 238000011156 evaluation Methods 0.000 claims description 44
- 230000015572 biosynthetic process Effects 0.000 claims description 22
- 238000003786 synthesis reaction Methods 0.000 claims description 22
- 230000003321 amplification Effects 0.000 claims 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims 2
- 230000002194 synthesizing effect Effects 0.000 claims 2
- 238000001228 spectrum Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000037007 arousal Effects 0.000 description 2
- 230000002964 excitative effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/135—Vector sum excited linear prediction [VSELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0012—Smoothing of parameters of the decoder interpolation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Analogue/Digital Conversion (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
- Technisches Gebiet
- Diese Erfindung bezieht sich auf Verfahren zur Sprachdecodierung und auf Vorrichtungen zur Sprachdecodierung. Insbesondere bezieht sich diese Erfindung auf ein Verfahren zur Sprachdecodierung, und eine Vorrichtung zur Sprachdecodierung für die Wiedergabe einer Sprache mit hoher Qualität bei niedrigen Bitraten.
- Im Stand der Technik ist die Codierung mit codeerregter linearer Vorhersage (codeerregte lineare Vorhersage: CELP) bekannt als ein wirkungsvolles Sprachcodierverfahren, und seine Technik ist beschrieben in "Code-excited linear prediction (CELP): High-quality speech at very low bit rates", ICASSP '85, Seiten 937-940, von M. R. Shroeder und B. S. Atal 1985.
-
6 illustriert ein Beispiel einer Gesamtkonfigu ration eines CELP-Sprachcodier- und – decodierverfahrens. In6 sind ein Codierer101 , ein Decodierer102 , eine Multiplexvorrichtung103 und eine Teilungsvorrichtung104 illustriert. - Der Codierer
101 enthält eine Linearvorhersage-Parameteranalysevorrichtung105 , eine Linearvorhersage-Parametercodiervorrichtung106 , ein Synthesefilter107 , ein adaptives Codebuch108 , ein Erregungscodebuch109 , eine Verstärkungscodiervorrichtung110 , eine Abstandsberechnungsvorrichtung111 und eine Gewichtungsadditionsvorrichtung138 . Der Decodierer102 enthält eine Linearvorhersage-Parameterdecodiervorrichtung112 , eine Synthesefilter113 , ein adaptives Codebuch114 , ein Erregungscodebuch115 , eine Verstärkungsdecodiervorrichtung116 und eine Gewichtungsadditionsvorrichtung139 . - Bei der CELP-Sprachcodierung wird eine Sprache in einem Rahmen von etwa 5-50 ms in Spektruminformationen und Erregungsinformationen geteilt und codiert.
- Erläuterungen erfolgen hinsichtlich der Operationen bei dem CELP-Sprachcodierverfahren. In dem Codierer
101 analysiert die Linearvorhersage-Parameteranalysevorrichtung105 eine Eingangssprache S101 und zieht einen Linearvorhersageparameter heraus, der die Spektruminformationen der Sprache darstellt. Die Linearvorhersage-Parametercodiervorrichtung106 codiert den Linearvorhersageparameter und setzt einen codierten Linearvorhersageparameter als einen Koeffizienten für das Synthesefilter107 . - Erläuterungen erfolgen hinsichtlich der Codierung von Erregungsinformationen.
- Ein altes Erregungssignal wird in dem adaptiven Codebuch
108 gespeichert. Das adaptive Codebuch108 gibt einen Zeitserienvektor entsprechend einem durch die Distanzberechnungsvorrichtung111 eingegebenen adaptiven Code aus, der durch periodisches Wiederholen des alten Erregungssignals erzeugt wird. - Mehrere Zeitserienvektoren, die durch Herabsetzen einer Verzerrung zwischen einer Sprache zum Trainieren und ihrer codierten Sprache trainiert sind, werden beispielsweise in dem Erregungscodebuch
109 gespeichert. Das Erregungscodebuch109 gibt einen Zeitserienvektor entsprechend einem von der Distanzberechnungsvorrichtung111 eingegebenen Erregungscode aus. - Jeder der von dem adaptiven Codebuch
108 und dem Erregungscodebuch109 ausgegebenen Zeitserienvektoren wird gewichtet durch Verwendung einer jeweiligen Verstärkung, die von der Verstärkungscodiervorrichtung110 erhalten wird, und durch die Gewichtungsadditionsvorrichtung138 hinzugefügt. Dann wird ein Additionsergebnis zu dem Synthesefilter107 als Erregungssignale geliefert und eine codierte Sprache wird erzeugt. Die Abstandsberechnungsvorrichtung111 berechnet einen Abstand zwischen der codierten Sprache und der Eingangssprache S101 und sucht einen adaptiven Code, einen Erregungscode und Verstärkungen zum Minimieren des Abstands. Wenn die vorgenannte Codierung vorbei ist, werden ein Linearvorhersage-Parametercode und der adaptive Code, der Erregungscode und Verstärkungscodes zum Minimieren einer Verzerrung zwischen der Eingangssprache und der codierten Sprache als ein Codierergebnis ausgegeben. - Erläuterungen erfolgen hinsichtlich der Operationen bei dem CELP-Sprachdecodierverfahren.
- In dem Decodierer
102 decodiert die Linearvorhersage-Parameterdecodiervorrichtung112 den Linearvorhersage-Parametercode in den Linearvorhersageparameter und setzt den Linearvorhersageparameter als einen Koeffizienten für das Synthesefilter113 . Das adaptive Codebuch114 gibt einen Zeitserienvektor entsprechend einem adaptiven Code aus, der erzeugt ist durch periodisches Wiederholen eines alten Erregungssignals. Das Erregungscodebuch115 gibt einen Zeitserienvektor entsprechend einem Erregungscode aus. Die Zeitserienvektoren werden durch Verwendung jeweiliger Verstärkungen gewichtet, die aus den Verstärkungscodes durch die Verstärkungsdecodiervorrichtung116 decodiert sind, und hinzugefügt sind durch die Gewichtungsadditionsvorrichtung139 . Ein Additionsergebnis wird zu dem Synthesefilter113 als ein Erregungssignal geliefert und eine Ausgangssprache S103 wird erzeugt. - Unter dem CELP-Sprachcodier- und -decodierverfahren wird ein verbessertes Sprachcodier- und -decodierverfahren zum Erzeugen von Sprache hoher Qualität gemäß dem Stand der Technik beschrieben in "Phonetically – based vector excitation coding of speech at 3.6 kbps", ICASSP '89, Seiten 49-52, von S. Wang und A. Gersho, 1989.
-
7 zeigt ein Beispiel für eine Gesamtkonfiguration des Sprachcodier- und -decodierverfahrens gemäß dem Stand der Technik, und dieselben Zeichen werden verwendet für Mittel, die den Mitteln in6 entsprechen. Ein Beispiel für einen derartigen Codierer/Decodierer ist in der PatentanmeldungEP-0 654 909 A1 offenbart. - In
7 enthält der Codierer101 eine Sprachzustands-Bestimmungsvorrichtung117 , eine Erregungscodebuch-Schaltvorrichtung118 , ein erstes Erregungscodebuch119 und ein zweites Erregungscodebuch120 . Der Decodierer102 enthält eine Erregungscodebuch-Schaltvorrichtung121 , ein erstes Erregungscodebuch122 und ein zweites Erregungscodebuch123 . - Erläuterungen von Operationen bei dem Codier- und Decodierverfahren gemäß dieser Konfiguration werden durchgeführt. In dem Codierer
101 analysiert die Sprachzustands-Bestimmungsvorrichtung117 die Eingangssprache S101 und bestimmt, welchen von zwei Zuständen ein Zustand der Sprache hat, beispielsweise mit Stimme oder ohne Stimme. Die Erregungscodebuch-Schaltvorrichtung118 schaltet die bei der Codierung zu verwendenden Erregungscodebücher auf der Grundlage eines Sprachzustands-Bestimmungsergebnisses. Wenn beispielsweise die Sprache mit Stimme ist, wird das erste Erregungscodebuch119 verwendet, und wenn die Sprache ohne Stimme ist, wird das zweite Erregungscodebuch120 verwendet. Dann codiert die Erregungscodebuch-Schaltvorrichtung118 , welches Erregungscodebuch bei der Codierung verwendet wird. - In dem Decodierer
102 schaltet die Erregungscodebuch-Schaltvorrichtung121 das erste Erregungscodebuch122 und das zweite Erregungscodebuch123 auf der Grundlage eines Codes, der zeigt, welches Erregungscodebuch in dem Codierer101 verwendet wurde, so dass das Erregungscodebuch, das in dem Codierer101 verwendet wurde, in dem Decodierer102 verwendet wird. Gemäß dieser Konfiguration werden Erregungscodebücher, die zum Codieren in verschiedenen Sprachzuständen geeignet sind, erhalten, und die Erregungscodebücher werden auf der Grundlage eines Zustands einer Eingangs sprache geschaltet. Daher kann Sprache mit hoher Qualität wiedergegeben werden. - Ein Sprachcodier- und -decodierverfahren zum Schalten mehrerer Erregungscodebücher ohne Erhöhen einer Übertragungsbitzahl gemäß dem Stand der Technik wird in der veröffentlichten ungeprüften
Japanischen Patentanmeldung 8-185198 - Wie festgestellt ist, wird bei dem in
6 illustrierten Sprachcodier- und -decodierverfahren gemäß dem Stand der Technik ein einzelnes Erregungscodebuch verwendet, um eine synthetische Sprache zu erzeugen. Rauschfreie Zeitserienvektoren mit vielen Impulsen sollten in dem Erregungscodebuch gespeichert werden, um eine codierte Sprache hoher Qualität selbst bei niedrigen Bitraten zu erzeugen. Wenn daher eine Rauschsprache, z.B. Hintergrundrauschen, Reiblautkonsonant usw. codiert und zusammengesetzt wird, besteht ein Problem, dass eine codierte Sprache einen unnatürlichen Ton erzeugt, z.B. "Jiri-Jiri" und "Chiri-Chiri". Dieses Problem kann gelöst werden, wenn das Erregungscodebuch nur Rauschzeitserienvektoren enthält. Jedoch wird in diesem Fall die Qualität der codierten Sprache insgesamt verschlechtert. - Bei dem in
7 illustrierten verbesserten Sprachcodier- und -decodierverfahren nach dem Stand der Technik werden die mehreren Erregungscodebücher geschaltet auf der Grundlage des Zustands der Eingangssprache zum Erzeugen einer codierten Sprache. Daher ist es möglich, ein Erregungscodebuch enthaltend Rauschzeitserienvektoren in einer Rauschperiode der Eingangssprache ohne Stimme und beispielsweise ein Erregungscodebuch enthaltend rauschfreie Zeitserienvektoren in einer Periode mit Stimme, die eine andere als die Rauschperiode ohne Stimme ist, zu verwenden. Wenn daher eine Rauschsprache codiert und zusammengesetzt wird, wird ein unnatürlicher Ton, z.B. "Jiri-Jiri", nicht erzeugt. Da jedoch das beim Codieren verwendete Erregungscodebuch auch bei der Decodierung verwendet wird, wird es erforderlich, Daten zu codieren und zu übertragen, deren Erregungscodebuch verwendet wurde. Es wird ein Hindernis für das Herabsetzen von Bitraten. - Gemäß dem Sprachcodier- und -decodierverfahren zum Schalten der mehreren Erregungscodebücher ohne Erhöhung einer Übertragungsbitzahl gemäß dem Stand der Technik werden die Erregungscodebücher geschaltet auf der Grundlage einer in dem adaptiven Codebuch ausgewählten Tonhöhenperiode. Jedoch unterscheidet sich die in dem adaptiven Codebuch ausgewählte Tonhöhenperiode von einer tatsächlichen Tonhöhenperiode einer Sprache, und es ist unmöglich, nur anhand eines Wertes der Tonhöhenperiode zu bestimmen, ob ein Zustand einer Eingangssprache Rauschen oder Nichtrauschen ist. Daher kann das Problem, das die codierte Sprache in der Rauschperiode der Sprache unnatürlich ist, nicht gelöst werden.
- Die Erfindung beabsichtigt, die vorgenannten Probleme zu lösen. Insbesondere zielt die Erfindung darauf ab, Sprachcodier- und -decodierverfahren sowie -vorrichtungen zum Wiedergeben von Sprache hoher Qualität selbst bei niedrigen Bitraten zu erhalten.
- Offenbarung der Erfindung
- Die Erfindung ist definiert durch ein Sprachdecodierverfahren gemäß Anspruch 1 und eine Sprachdecodiervorrichtung gemäß Anspruch 4.
- Kurzbeschreibung der Zeichnungen
-
1 zeigt ein Blockschaltbild einer Gesamtkonfiguration einer Sprachcodierungs- und Sprachdecodierungsvorrichtung nach dem Ausführungsbeispiel 1 dieser Erfindung. -
2 zeigt eine Tabelle zum Erläutern einer Auswertung eines Geräuschpegels bei dem Ausführungsbeispiel 1 dieser in1 illustrierten Erfindung. -
3 zeigt ein Blockschaltbild einer Gesamtkonfiguration einer Sprachcodier- und Sprachdecodiervorrichtung nach dem Ausführungsbeispiel 3 dieser Erfindung. -
4 zeigt ein Blockschaltbild einer Gesamtkonfiguration einer Sprachcodierungs- und Sprachdecodierungsvorrichtung nach dem Ausführungsbeispiel 5 dieser Erfindung. -
5 zeigt ein schematisches Liniendiagramm zum Erläutern eines Bestimmungsprozesses der Gewichtung bei dem in4 illustrierten Ausführungsbeispiel 5. -
6 zeigt ein Blockschaltbild einer Gesamtkonfiguration einer CELP-Sprachcodier- und – decodiervorrichtung gemäß dem Stand der Technik. -
7 zeigt ein Blockschaltbild einer Gesamtkonfiguration einer verbesserten CELP-Sprachcodier- und -decodiervorrichtung nach dem Stand der Technik. - Beste Art der Ausführung der Erfindung
- Es werden Erläuterungen von Ausführungsbeispielen dieser Erfindung mit Bezug auf die Zeichnungen gemacht.
- Ausführungsbeispiel 1
-
1 illustriert die Gesamtkonfiguration eines Sprachcodierverfahrens und eines Sprachdecodierverfahrens nach dem Ausführungsbeispiel 1 gemäß dieser Erfindung. In1 sind ein Codierer1 , eine Decodierer2 , ein Multiplexer3 und eine Teilungsvorrichtung4 illustriert. Der Codierer1 enthält eine Linearvorhersageparameter-Analysevorrichtung5 , einen Linearvorhersageparameter-Codierer6 , ein Synthesefilter7 , ein adaptives Codebuch8 , einen Verstärkungscodierer10 , eine Abstandsberechnungsvorrichtung11 , ein erstes Erregungscodebuch19 , ein zweites Erregungscodebuch20 , eine Geräuschpegel-Auswertungsvorrichtung24 , einen Erregungscodebuchschalter25 und einen Gewichtungsaddierer38 . Der Decodierer2 enthält einen Linearvorhersageparameter-Decodierer12 , ein Synthesefilter13 , ein adaptives Codebuch14 , ein erstes Erregungscodebuch22 , ein zweites Erregungscodebuch23 , eine Geräuschpegel-Auswertungsvorrichtung26 , einen Erregungscodebuchschalter27 , eine Verstärkungsdecodierer16 und einen Gewichtungsaddierer39 . In1 ist die Linearvor hersageparameter-Analysevorrichtung5 eine Spektrumsinformations-Analysevorrichtung zum Analysieren einer Eingangssprache S1 und zum Herausziehen eines Linearvorhersageparameters, der die Spektrumsinformation der Sprache ist. Der Linearvorhersageparameter-Codierer6 ist ein Spektruminformations-Codierer zum Codieren des Linearvorhersageparameters, der die Spektrumsinformation ist, und zum Setzen eines codierten Linearvorhersageparameters als einen Koeffizienten des Synthesefilters7 . Die ersten Erregungscodebücher19 und22 speichern mehrere Nichtgeräusch-Zeitserienvektoren, und die zweiten Erregungscodebücher20 und23 speichern mehrere Geräusch-Zeitserienvektoren. Die Geräuschpegel-Auswertungsvorrichtungen24 und26 werten einen Geräuschpegel aus, und die Erregungscodebuchschalter25 und27 schalten die Erregungscodebücher auf der Grundlage des Geräuschpegels um. - Die Arbeitsweise wird erläutert.
- In dem Codierer
1 analysiert die Linearvorhersageparameter-Analysevorrichtung5 die Eingangssprache S1 und zieht einen Linearvorhersageparameter heraus, der die Spektrumsinformation der Sprache ist. Der Linearvorhersageparameter-Codierer6 codiert den Linearvorhersageparameter. Dann setzt der Linearvorhersageparameter-Codierer6 einen codierten Linearvorhersageparameter als einen Koeffizienten für das Synthesefilter7 und gibt auch den codierten Linearvorhersageparameter zu der Geräuschpegel-Auswertungsvorrichtung24 aus. - Es wird die Codierung von Erregungsinformationen erläutert.
- Ein altes Erregungssignal ist in dem adaptiven Codebuch
8 gespeichert, und ein Zeitserienvektor entsprechend einem adaptiven Code, der von der Abstandsberechnungsvorrichtung11 eingegeben ist, der erzeugt ist durch periodisches Wiederholen eines alten Erregungssignals, wird ausgegeben. Die Geräuschpegel-Auswertungsvorrichtung25 wertet einen Geräuschpegel in einer betreffenden Codierperiode aus auf der Grundlage des codierten Linearvorhersageparameters, der von dem Linearvorhersageparameter-Codierer6 eingegeben wurde, und des adaptiven Codes, beispielsweise eines Spektrumgradienten, der Kurzzeit-Vorhersageverstärkung und der Tonhöhenschwankung, wie in2 gezeigt ist, und gibt ein Auswertungsergebnis zu dem Erregungscodebuchschalter25 aus. Der Erregungscodebuchschalter25 schaltet Erregungscodebücher für die Codierung um auf der Grundlage des Auswertungsergebnisses des Geräuschpegels. Wenn beispielsweise der Geräuschpegel niedrig ist, wird das erste Erregungscodebuch19 verwendet, und wenn der Geräuschpegel hoch, wird das zweite Erregungscodebuch20 verwendet. - Das erste Erregungscodebuch
19 speichert mehrere Nichtgeräusch-Zeitserienvektoren, z.B. mehrere Zeitserienvektoren, die trainiert wurden durch Herabsetzen einer Verzerrung zwischen einer Sprache für das Trainieren und ihrer codierten Sprache. Das zweite Erregungscodebuch20 speichert mehrere Geräusch-Zeitserienvektoren, beispielsweise mehrere Zeitserienvektoren, die aus Zufallsgeräuschen erzeugt sind. Jeweils das erste Erregungscodebuch19 und das zweite Erregungscodebuch20 geben einen Zeitserienvektor aus entsprechend einem durch die Abstandsberechnungsvorrichtung11 eingegebenen Erregungscode. Jeder der Zeitserienvektoren von dem adaptiven Codebuch8 und entweder dem ersten Erregungscodebuch19 oder dem zweiten Erregungscodebuch20 wird gewichtet durch Verwendung einer jeweiligen Verstärkung, die von dem Verstärkungscodierer10 geliefert wird, und durch den Gewichtungsaddierer38 hinzugefügt wird. Ein Additionsergebnis wird als Erregungssignale zu dem Synthesefilter7 geliefert und eine codierte Sprache wird erzeugt. Die Abstandsberechnungsvorrichtung11 berechnet einen Abstand zwischen der codierten Sprache und der eingegebenen Sprache S1 und sucht einen adaptiven Code, einen Erregungscode und eine Verstärkung zum Minimieren des Abstands. Wenn diese Codierung vorbei ist, werden der Linearvorhersageparameter-Code und ein adaptiver Code, ein Erregungscode und ein Verstärkungscode zum Minimieren der Verzerrung zwischen der eingegebenen Sprache und der codierten Sprache als ein Codierergebnis52 ausgegeben. Dies sind charakteristische Operationen bei dem Sprachcodierverfahren nach dem Ausführungsbeispiel 1. - Es wird der Decodierer
2 erläutert. In dem Decodierer2 decodiert der Linearvorhersageparameter-Decodierer12 den Linearvorhersageparameter-Code in den Linearvorhersageparameter und setzt den decodierten Linearvorhersageparameter als einen Koeffizienten für das Synthesefilter13 und gibt den decodierten Linearvorhersageparameter zu der Geräuschpegel-Auswertungsvorrichtung26 aus. - Es wird die Decodierung von Erregungsinformationen erläutert. Das adaptive Codebuch
14 gibt einen Zeitserienvektor entsprechend einem adaptiven Code aus, der durch periodisches Wiederholen eines alten Erregungssignals erzeugt wird. Die Geräuschpegel-Auswertungsvorrichtung26 wertet einen Geräuschpegel aus durch Verwendung des durch den Linearvorhersage parameter-Decodierer12 eingegebenen decodierten Linearvorhersageparameter und des adaptiven Codes nach demselben Verfahren wie dem der Geräuschpegel-Auswertungsvorrichtung24 in dem Codierer1 und gibt ein Auswertungsergebnis zu dem Erregungscodebuchschalter27 aus. Der Erregungscodebuchschalter27 schaltet das erste Erregungscodebuch22 und das zweite Erregungscodebuch23 um auf der Grundlage des Auswertungsergebnisses des Geräuschpegels nach demselben Verfahren wie dem des Erregungscodebuchschalters25 in dem Codierer1 . - Mehrere Nichtgeräusch-Zeitserienvektoren, beispielsweise mehrere Zeitserienvektoren, die durch Trainieren zum verringern einer Verzerrung zwischen einer Sprache zum Trainieren und ihrer codierten Sprache erzeugt wurden, werden in dem ersten Erregungscodebuch
22 gespeichert. Mehrere Geräusch-Zeitserienvektoren, beispielsweise mehrere Vektoren, die aus Zufallsgeräuschen erzeugt wurden, werden in dem zweiten Erregungscodebuch23 gespeichert. Jeweils das erste und das zweite Erregungscodebuch geben einen Zeitserienvektor entsprechend einem Erregungscode aus. Die Zeitserienvektoren von dem adaptiven Codebuch14 und entweder dem ersten Erregungscodebuch22 oder dem zweiten Erregungscodebuch23 werden durch Verwendung jeweiliger Verstärkungen gewichtet, durch den Verstärkungsdecodierer16 von Verstärkungscodes decodiert und durch den Gewichtungsaddierer39 hinzugefügt. Ein Additionsergebnis wird als ein Erregungssignal zu dem Synthesefilter13 geliefert und eine Ausgangssprache S3 wird erzeugt. Dies sind charakteristische Operationen bei dem Sprachdecodierverfahren nach Ausführungsbeispiel 1. - Bei dem Ausführungsbeispiel 1 wird der Geräuschpegel der eingegebenen Sprache ausgewertet durch Verwendung des Codes und des Codierergebnisses, und verschiedene Erregungscodebücher werden auf der Grundlage des Auswertungsergebnisses verwendet. Daher kann eine Sprache hoher Qualität mit einer kleinen Datenmenge wiedergegeben werden.
- Bei dem Ausführungsbeispiel 1 werden die mehreren Zeitserienvektoren in jedem der Erregungsbücher
19 ,20 ,22 und23 gespeichert. Jedoch kann dieses Ausführungsbeispiel realisiert werden, soweit zumindest ein Zeitserienvektor in jedem der Erregungscodebücher gespeichert ist. - Ausführungsbeispiel 2
- Bei dem Ausführungsbeispiel 1 werden zwei Erregungscodebücher umgeschaltet. Jedoch ist es auch möglich, dass drei oder mehr Erregungscodebücher vorgesehen sind und auf der Grundlage eines Geräuschpegels umgeschaltet werden.
- Bei dem Ausführungsbeispiel 2 kann ein geeignetes Erregungscodebuch selbst für eine mittlere Sprache, beispielsweise leicht geräuschbehaftet, zusätzlich zu zwei Arten von Sprache, d.h. geräuschbehaftet und nicht geräuschbehaftet verwendet werden. Daher kann eine Sprache hoher Qualität wiedergegeben werden.
- Ausführungsbeispiel 3
-
3 zeigt eine Gesamtkonfiguration eines Sprachcodierverfahrens und eines Sprachdecodierverfahrens nach Ausführungsbeispiel 3 dieser Erfindung. In3 werden dieselben Zeichen für Einheiten verwendet, die den Einheiten in1 entsprechen. In3 speichern Erregungscodebücher28 und30 Geräusch-Zeitserienvektoren, und Abtastvorrichtungen29 und31 setzen einen Amplitudenwert einer Abtastung mit einer niedrigen Amplitude in den Zeitserienvektoren auf null. - Die Arbeitsweise wird erläutert. In dem Codierer
1 analysiert die Linearvorhersageparameter-Analysevorrichtung5 die eingegebene Sprache S1 und zieht einen Linearvorhersageparameter heraus, der die Spektrumsinformation der Sprache ist. Der Linearvorhersageparameter-Codierer6 codiert den Linearvorhersageparameter. Dann setzt der Linearvorhersageparameter-Codierer6 einen codierten Linearvorhersageparameter als einen Koeffizienten für das Synthesefilter7 und gibt auch den codierten Linearvorhersageparameter zu der Geräuschpegel-Auswertungsvorrichtung24 aus. - Die Codierung von Erregungsinformationen wird erläutert. Ein altes Erregungssignal wird in dem adaptiven Codebuch
8 gespeichert, und ein Zeitserienvektor entsprechend einem durch die Abstandsberechnungsvorrichtung11 eingegebenen adaptiven Code, der durch periodisches Wiederholen eines alten Erregungssignals erzeugt ist, wird ausgegeben. Die Geräuschpegel-Auswertungsvorrichtung24 wertet einen Geräuschpegel in einer betreffenden Codierperiode aus durch Verwenden des codierten Linearvorhersageparameters, der von dem Linearvorhersageparameter-Codierer6 eingegeben ist, und eines adaptiven Codes, beispielsweise eines Spektrumgradienten, einer kurzzeitigen Vorhersageverstärkung und einer Tonhöhenschwankung, und gibt ein Auswertungsergebnis zu der Abtastvorrichtung29 aus. - Das Erregungscodebuch
28 speichert mehrere Zeitserienvektoren, die beispielsweise aus Zufallsgeräu schen erzeugt sind, und gibt einen Zeitserienvektor entsprechend einem von der Abstandsberechnungsvorrichtung11 eingegebenen Erregungscode aus. Wenn der Geräuschpegel in dem Auswertungsergebnis des Geräusches niedrig ist, gibt die Abtastvorrichtung29 einen Zeitserienvektor aus, in welchem eine Amplitude einer Abtastung mit einer Amplitude unterhalb eines bestimmten Wertes in den Zeitserienvektoren, eingegeben von dem Erregungscodebuch28 , beispielsweise auf null gesetzt ist. Wenn der Geräuschpegel hoch ist, gibt die Abtastvorrichtung29 den von dem Erregungscodebuch28 eingegebenen Zeitserienvektor ohne Veränderung aus. Jeder der Zeitserienvektoren von dem adaptiven Codebuch8 und der Abtastvorrichtung29 wird gewichtet durch Verwenden einer jeweiligen, von dem Verstärkungscodierer10 erhaltenen Verstärkung und wird durch den Gewichtungsaddierer38 hinzugefügt. Ein Additionsergebnis wird als Erregungssignals zu dem Synthesefilter7 geliefert, und eine codierte Sprache wird erzeugt. Die Abstandsberechnungsvorrichtung11 berechnet einen Abstand zwischen der codierten Sprache und der eingegebenen Sprache S1 und sucht einen adaptiven Code, einen Erregungscode und eine Verstärkung zum Minimieren des Abstands. Wenn die Codierung vorbei ist, werden der Linearvorhersageparameter-Code und der adaptive Code, der Erregungscode und der Verstärkungscode zum Minimieren einer Verzerrung zwischen der eingegebenen Sprache und der codierten Sprache als ein Codierergebnis S2 ausgegeben. Dies sind charakteristische Operationen bei dem Sprachcodierverfahren nach Ausführungsbeispiel 3. - Der Decodierer
2 wird erläutert. In dem Decodierer2 decodiert der Linearvorhersageparameter-Decodierer12 den Linearvorhersageparameter-Code in den Linearvorhersageparameter. Der Linearvorhersageparameter- Decodierer12 setzt den Linearvorhersageparameter als einen Koeffizienten für das Synthesefilter13 und gibt auch den Linearvorhersageparameter zu der Geräuschpegel-Auswertungsvorrichtung26 aus. - Die Decodierung der Erregungsinformation wird erläutert. Das adaptive Codebuch
14 gibt einen Zeitserienvektor entsprechend einem adaptiven Code aus, der durch periodisches Wiederholen eines alten Erregungssignals erzeugt ist. Die Geräuschpegel-Auswertungsvorrichtung26 wertet einen Geräuschpegel aus durch Verwenden des von dem Linearvorhersageparameter-Decodierer12 eingegebenen decodierten Linearvorhersageparameters und des adaptiven Codes nach demselben Verfahren wie dem der Geräuschpegel-Auswertungsvorrichtung24 in dem Codierer1 und gibt ein Auswertungsergebnis zu der Abtastvorrichtung31 aus. - Das Erregungscodebuch
30 gibt einen Zeitserienvektor entsprechend einem Erregungscode aus. Die Abtastvorrichtung31 gibt einen Zeitserienvektor aus auf der Grundlage des Auswertungsergebnisses des Geräuschpegels nach demselben Verfahren wie dem der Abtastvorrichtung29 in dem Codierer1 . Jeder der von dem adaptiven Codebuch14 und der Abtastvorrichtung31 ausgegebenen Zeitserienvektoren wird gewichtet durch Verwendung einer jeweiligen, von dem Verstärkungsdecodierer16 erhaltenen Verstärkung und durch den Gewichtungsaddierer39 hinzugefügt. Ein Additionsergebnis wird als ein Erregungssignal zu dem Synthesefilter13 geliefert, und eine Ausgangssprache S3 wird erzeugt. - Bei dem Ausführungsbeispiel 3 ist das Geräusch-Zeitserienvektoren speichernde Erregungscodebuch vorgesehen, und eine Erregung mit einem niedrigen Ge räuschpegel kann erzeugt werden durch Abtasten von Erregungssignalabtastungen auf der Grundlage eines Auswertungsergebnisses des Geräuschpegels in der Sprache. Daher kann eine Sprache hoher Qualität mit einer geringen Datenmenge wiedergegeben werden. Weiterhin kann, da es nicht erforderlich ist, mehrere Erregungscodebücher vorzusehen, die Speichermenge zum Speichern des Erregungscodebuchs herabgesetzt werden.
- Ausführungsbeispiel 4
- Bei dem Ausführungsbeispiel 3 werden die Abtastungen in den Zeitserienvektoren entweder abgetastet oder nicht. Jedoch ist es auch möglich, einen Schwellenwert einer Amplitude zum Abtasten der Abtastungen auf der Grundlage des Geräuschpegels zu ändern. Bei dem Ausführungsbeispiel 4 kann ein geeigneter Zeitserienvektor erzeugt werden und auch für eine mittlere, beispielsweise leicht geräuschbehaftete Sprache zusätzlich zu den zwei Typen von Sprache, d.h. geräuschbehaftet und nicht geräuschbehaftet verwendet werden. Daher kann eine Sprache hoher Qualität wiedergegeben werden.
- Ausführungsbeispiel 5
-
4 zeigt eine Gesamtkonfiguration eines Sprachcodierverfahrens und eines Sprachdecodierverfahrens nach dem Ausführungsbeispiel 5 dieser Erfindung, und dieselben Zeichen werden für Einheiten entsprechend den Einheiten in1 verwendet. - In
4 speichern erste Erregungscodebücher32 und35 Geräusch-Zeitserienvektoren, und zweite Erregungscodebücher33 und36 speichern Nichtgeräusch-Zeitserienvektoren. Die Gewichtungsbestimmungsvorrichtun gen34 und37 sind ebenfalls illustriert. - Die Arbeitsweise wird erläutert. In dem Codierer
1 analysiert die Linearvorhersageparameter-Analysevorrichtung5 die Eingangssprache S1 und zieht einen Linearvorhersageparameter heraus, der die Spektrumsinformation der Sprache ist. Der Linearvorhersageparameter-Codierer6 codiert den Linearvorhersageparameter. Dann setzt der Linearvorhersageparameter-Codierer6 einen codierten Linearvorhersageparameter als einen Koeffizienten für das Synthesefilter7 und gibt auch den codierten Vorhersageparameter zu der Geräuschpegel-Auswertungsvorrichtung24 aus. - Die Codierung der Erregungsinformation wird erläutert. Das adaptive Codebuch
8 speichert ein altes Erregungssignal und gibt einen Zeitserienvektor entsprechend einem durch die Abstandsberechnungsvorrichtung11 eingegebenen adaptiven Code aus, der durch periodisches Wiederholen eines alten Erregungssignals erzeugt ist. Die Geräuschpegel-Auswertungsvorrichtung24 wertet einen Geräuschpegel in einer betreffenden Codierperiode aus durch Verwendung des codierten Linearvorhersageparameters, der von dem Linearvorhersageparameter-Codierer6 eingegeben ist, und des adaptiven Codes, beispielsweise eines Spektrumgradienten, einer Kurzzeit-Vorhersageverstärkung und einer Tonhöhenschwankung, und gibt ein Auswertungsergebnis zu der Gewichtungsbestimmungsvorrichtung34 aus. - Das erste Erregungscodebuch
32 speichert mehrere Geräusch-Zeitserienvektoren, die beispielsweise aus Zufallsgeräuschen erzeugt sind, und gibt einen Zeitserienvektor entsprechend einem Erregungscode aus. Das zweite Erregungscodebuch33 speichert mehrere Zeitserienvektoren, die durch Trainieren zum Verringern ei ner Verzerrung zwischen einer Sprache zum Trainieren und ihrer codierten Sprache erzeugt sind, und gibt einen Zeitserienvektor entsprechend einem von der Abstandsberechnungsvorrichtung11 eingegebenen Erregungscode aus. Die Gewichtungsbestimmungsvorrichtung34 bestimmt eine für den Zeitserienvektor von dem ersten Erregungscodebuch32 und den Zeitserienvektor von dem zweiten Erregungscodebuch33 vorgesehene Gewichtung auf der Grundlage des Auswertungsergebnisses des von der Geräuschpegel-Auswertungsvorrichtung24 eingegebenen Geräuschpegels, wie beispielsweise in5 illustriert ist. Jeder der Zeitserienvektoren von dem ersten Erregungscodebuch32 und dem zweiten Erregungscodebuch33 wird gewichtet durch Verwenden der von der Gewichtungsbestimmungsvorrichtung34 gelieferten Gewichtung, und hinzugefügt. Der von dem adaptiven Codebuch8 ausgegebene Zeitserienvektor, und der Zeitserienvektor, der erzeugt ist durch Gewichtung und hinzugefügt ist, werden gewichtet durch Verwendung jeweiliger von dem Verstärkungscodierer10 gelieferter Verstärkungen, und durch den Gewichtungsaddierer38 hinzugefügt. Dann wird ein Additionsergebnis zu dem Synthesefilter7 als Erregungssignale geliefert, und eine codierte Sprache wird erzeugt. Die Abstandsberechnungsvorrichtung11 berechnet einen Abstand zwischen der codierten Sprache und der eingegebenen Sprache S1 und sucht einen adaptiven Code, einen Erregungscode und eine Verstärkung zum Minimieren des Abstands. Wenn die Codierung vorbei ist, werden der Linearvorhersageparameter-Code, der adaptive Code, der Erregungscode und der Verstärkungscode zum Minimieren einer Verzerrung zwischen der eingegebenen Sprache und der codierten Sprache als ein Codierergebnis ausgegeben. - Der Decodierer
2 wird erläutert. In dem Decodierer2 decodiert der Linearvorhersageparameter-Decodierer12 den Linearvorhersageparameter-Code in dem Linearvorhersageparameter. Dann setzt der Linearvorhersageparameter-Decodierer12 den Linearvorhersageparameter als einen Koeffizienten für das Synthesefilter13 und gibt auch den Linearvorhersageparameter zu der Geräuschauswertungsvorrichtung26 aus. - Die Decodierung der Erregungsinformation wird erläutert. Das adaptive Codebuch
14 gibt einen Zeitserienvektor entsprechend einem adaptiven Code durch periodisches wiederholen eines alten Erregungssignals aus. Die Geräuschpegel-Auswertungsvorrichtung26 wertet einen Geräuschpegel aus durch Verwenden des decodierten Linearvorhersageparameters, der von dem Linearvorhersageparameter-Decodierer12 eingegeben ist, und des adaptiven Codes nach demselben Verfahren wie bei der Geräuschpegel-Auswertungsvorrichtung24 in dem Codierer1 und gibt ein Auswertungsergebnis zu der Gewichtungsbestimmungsvorrichtung37 aus. - Das erste Erregungscodebuch
35 und das zweite Erregungscodebuch36 geben Zeitserienvektoren entsprechend Erregungscodes aus. Die Gewichtungsbestimmungsvorrichtung37 gewichtet auf der Grundlage des von der Geräuschpegel-Auswertungsvorrichtung26 eingegebenen Geräuschpegel-Auswertungsergebnisses nach demselben Verfahren wie bei der Gewichtungsbestimmungsvorrichtung34 in dem Codierer1 . Jeder der Zeitserienvektoren von dem ersten Erregungscodebuch35 und dem zweiten Erregungscodebuch36 wird gewichtet durch Verwenden eines von der Gewichtungsbestimmungsvorrichtung37 gelieferten jeweiligen Gewichts, und hinzugefügt. Der von dem adaptiven Codebuch14 ausgegebene Zeitserienvektor und der Zeitserienvektor, der durch Gewichten erzeugt und hinzugefügt ist, werden gewichtet durch Verwenden jeweiliger durch den Verstärkungsdecodierer16 von den Verstärkungscodes decodierter Verstärkungen, und durch den Gewichtungsaddierer39 hinzugefügt. Dann wird ein Additionsergebnis zu dem Synthesefilter13 als ein Erregungssignal geliefert und eine Ausgangssprache S3 wird erzeugt. - Bei dem Ausführungsbeispiel 5 wird der Geräuschpegel der Sprache ausgewertet durch Verwendung eines Codes und eines Codierergebnisses, und der Geräusch-Zeitserienvektor oder Nichtgeräusch-Zeitserienvektor wird gewichtet auf der Grundlage des Auswertungsergebnisses und hinzugefügt. Daher kann eine Sprache hoher Qualität mit einer geringen Datenmenge wiedergegeben werden.
- Ausführungsbeispiel 6
- Bei den Ausführungsbeispielen 1-5 ist es auch möglich, Verstärkungscodebücher auf der Grundlage des Auswertungsergebnisses des Geräuschpegels zu ändern. Bei dem Ausführungsbeispiel 6 kann ein geeignetestes Verstärkungscodebuch verwendet werden auf der Grundlage des Erregungscodebuchs. Daher kann eine Sprache hoher Qualität wiedergegeben werden.
- Ausführungsbeispiel 7
- Bei den Ausführungsbeispielen 1-6 wird der Geräuschpegel der Sprache ausgewertet und die Erregungscodebücher werden auf der Grundlage des Auswertungsergebnisses umgeschaltet. Jedoch ist es auch möglich, das Einsetzen einer Stimme, einen Verschlusskonsonanten usw. zu bestimmen und auszuwerten und die Erregungscodebücher auf der Grundlage eines Auswertungsergebnisses umzuschalten. Bei dem Ausführungsbeispiel 7 wird zusätzlich zu dem Geräuschzustand der Sprache die Sprache detaillierter klassifiziert, z.B. durch Einsatz der Stimme, Verschlusskonsonanten usw., und ein geeignetes Erregungscodebuch kann für jeden Zustand verwendet werden. Daher kann eine Sprache hoher Qualität wiedergegeben werden.
- Ausführungsbeispiel 8
- Bei den Ausführungsbeispielen 1-6 wird der Geräuschpegel in der Codierperiode durch Verwendung eines Spektrumgradienten, einer Kurzzeit-Vorhersageverstärkung, einer Tonhöhenschwankung ausgewertet. Jedoch ist es auch möglich, den Geräuschpegel durch Verwendung eines Verhältnisses eines Verstärkungswertes gegenüber einem Ausgangssignal von dem adaptiven Codebuch auszuwerten.
- Gewerbliche Anwendbarkeit
- Bei dem Sprachcodierverfahren, dem Sprachdecodierverfahren, der Sprachcodiervorrichtung und der Sprachdecodiervorrichtung gemäß dieser Erfindung wird ein Geräuschpegel einer Sprache in einer betreffenden Codierperiode ausgewertet durch Verwendung eines Codes oder eines Codierergebnisses von zumindest einer von der Spektrumsinformation, der Leistungsinformation und der Tonhöheninformation, und verschiedene Erregungscodebücher werden verwendet auf der Grundlage des Auswertungsergebnisses. Daher kann eine Sprache hoher Qualität mit einer geringen Datenmenge wiedergegeben werden.
- Bei dem Sprachcodierverfahren und dem Sprachdecodierverfahren gemäß dieser Erfindung werden mehrere Erre gungscodebücher, die Erregungen mit verschiedenen Geräuschpegeln speichern, vorgesehen, und die mehreren Erregungscodebücher werden auf der Grundlage des Auswertungsergebnisses des Geräuschpegels der Sprache umgeschaltet. Daher kann eine Sprache hoher Qualität mit einer geringen Datenmenge wiedergegeben werden.
- Bei dem Sprachcodierverfahren und dem Sprachdecodierverfahren gemäß dieser Erfindung werden die Geräuschpegel der in den Erregungscodebüchern gespeicherten Zeitserienvektoren geändert auf der Grundlage des Auswertungsergebnisses des Geräuschpegels der Sprache. Daher kann eine Sprache hoher Qualität mit einer geringen Datenmenge wiedergegeben werden.
- Bei dem Sprachcodierverfahren und dem Sprachdecodierverfahren gemäß dieser Erfindung ist ein Geräusch-Zeitserienvektoren speicherndes Erregungscodebuch vorgesehen, und ein Zeitserienvektor mit einem geringen Geräuschpegel wird erzeugt durch Abtasten von Signalabtastungen in den Zeitserienvektoren auf der Grundlage des Auswertungsergebnisses des Geräuschpegels der Sprache. Daher kann eine Sprache hoher Qualität mit einer geringen Datenmenge wiedergegeben werden.
- Bei dem Sprachcodierverfahren und dem Sprachdecodierverfahren gemäß dieser Erfindung sind das erste, Geräusch-Zeitserienvektoren speichernde Erregungscodebuch und das zweite, Nichtgeräusch-Zeitserienvektoren speichernde Erregungscodebuch vorgesehen, und der Zeitserienvektor in dem ersten Erregungscodebuch oder der Zeitserienvektor in dem zweiten Erregungscodebuch wird gewichtet auf der Grundlage des Auswertungsergebnisses des Geräuschpegels der Sprache, und hinzugefügt, um einen Zeitserienvektor zu erzeugen. Daher kann eine Sprache hoher Qualität mit einer geringen Datenmenge wiedergegeben werden.
Claims (6)
- Sprachdecodierverfahren gemäß der codeerregten linearen Vorhersage (CELP), welches Sprachdecodierverfahren eine codierte Sprache (S2) enthaltend einen Verstärkungscode empfängt und ein Erregungssignal durch Verwendung eines Erregungscodevektors und eines adaptiven Codevektors erzeugt, und eine Sprache (S3) durch Verwendung des Erregungssignals synthetisiert, welches Sprachdecodierverfahren gekennzeichnet ist durch: Erhalten des adaptiven Codevektors von einem adaptiven Codebuch (
14 ); Bewerten, welchen von Störungspegeln der Verstärkungscode anzeigt, wobei die Störungspegel zumindest zwei verschiedene Störungspegel enthalten, einen ersten Störungspegel und einen zweiten Störungspegel, der ein größerer Störungspegel als der erste Störungspegel ist; Erzeugen eines ersten Zeitserienvektors mit einem Störungspegel als den Erregungscodevektor auf der Grundlage eines Erregungscodebuchs (22 ,30 ), wenn bestimmt ist, dass der Verstärkungscode den ersten Störungspegel anzeigt; Erzeugen eines zweiten Zeitserienvektors als den Erregungscodevektor auf der Grundlage eines Erregungscodebuchs (23 ,30 ), wenn bestimmt ist, dass der Verstärkungscode den zweiten Störungspegel anzeigt, wobei der zweite Zeitserienvektor eine größere Anzahl von Abtastungen mit von null unterschiedlicher Amplitude als der erste Zeitserienvektor enthält; Erzeugen des Erregungssignals durch Verwendung des Erregungscodevektors und des adaptiven Codevektors; und Synthetisieren der Sprache (S3) durch Verwendung des Erregungssignals. - Sprachdecodierverfahren nach Anspruch 1, gekennzeichnet durch Erhalten des ersten Zeitserienvektors von einem ersten Erregungscodebuch (
22 ) enthaltend störungsfreie Zeitserienvektoren, und Erhalten des zweiten Zeitserienvektors von einem zweiten Erregungscodebuch (23 ) enthaltend gestörte Zeitserienvektoren. - Sprachdecodierverfahren nach Anspruch 1, gekennzeichnet durch Erhalten eines Zeitserienvektors von dem Erregungscodebuch als den zweiten Zeitserienvektor, und Erhalten eines Zeitserienvektors von dem Erregungscodebuch und Modifizieren des erhaltenen Zeitserienvektors derart, dass die Anzahl von Abtastungen mit einem Amplitudenwert null in einer betreffenden Codierperiode geändert wird, um den ersten Zeitserienvektor zu erzeugen.
- Sprachdecodiervorrichtung gemäß der codeerregten linearen Vorhersage (CELP), wobei die Sprachdecodiervorrichtung eine codierte Sprache (S2) enthaltend einen Verstärkungscode empfängt und ein Erregungssignal durch Verwendung eines Erregungscodevektors und eines adaptiven Codevektors erzeugt, und eine Sprache (S3) durch Verwendung des Erregungssignals synthetisiert, welche Sprachdecodiervorrichtung aufweist: ein adaptives Codebuch (
14 ) zum Ausgeben des adaptiven Codevektors; eine Erzeugungsvorrichtung für einen ersten Zeitserienvektor zum Erzeugen eines ersten Zeitserienvektors mit einem Störpegel auf der Grundlage eines Erregungscodebuchs (22 ,30 ); eine Erzeugungsvorrichtung für einen zweiten Zeitserienvektor zum Erzeugen eines zweiten Zeitserienvektors auf der Grundlange eines Erregungscodebuchs (23 ,30 ), wobei der zweite Zeitserienvektor eine größere Anzahl von Abtastungen mit einer von null abweichenden Amplitude als der erste Zeitserienvektor enthält; eine Störpegel-Bewertungsvorrichtung (26 ), zum Bestimmen, welchen von Störpegeln der Verstärkungscode anzeigt, wobei die Störpegel zumindest zwei verschiedene Störpegel enthalten, einen ersten Störpegel und einen zweiten Störpegel, der ein größerer Störpegel als der erste Störpegel ist; eine Umschaltvorrichtung (27 ) zum Ausgeben des ersten Zeitserienvektors als den Erregungscodevektor, wenn bestimmt ist, dass der Verstärkungscode den ersten Störpegel anzeigt, und zum Ausgeben des zweiten Zeitserienvektors als den Erregungscodevektor, wenn bestimmt ist, dass der Verstärkungscode den zweiten Störpegel anzeigt; eine Erregungssignal-Erzeugungsvorrichtung (39 ) zum Erzeugen des Erregungssignals durch Verwendung des Erregungscodevektors und des adaptiven Codevektors; und eine Sprachsynthesevorrichtung (13 ) zum Synthetisieren der Sprache (S3) unter Verwendung des Erregungssignals. - Sprachdecodiervorrichtung nach Anspruch 4, gekennzeichnet durch Erhalten des ersten Zeitserienvektors von einem ersten Erregungscodebuch (
22 ) enthaltend störungsfreie Zeitserienvektoren, und Erhalten des zweiten Zeitserienvektors von einem zweiten Erregungscodebuch (23 ) enthaltend einen gestörten Zeitserienvektor. - Sprachdecodiervorrichtung nach Anspruch 4, dadurch gekennzeichnet, dass ein Zeitserienvektor erhalten wird von dem Erregungscodebuch als der zweite Zeitserienvektor, und ein Zeitserienvektor von dem Erregungscodebuch erhalten und derart modifiziert wird, dass die Anzahl von Abtastungen mit dem Amplitudenwert null in einer betroffenen Codierperiode geändert wird zum Erzeugen des ersten Zeitserienvektors.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP35475497 | 1997-12-24 | ||
JP35475497 | 1997-12-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69837822D1 DE69837822D1 (de) | 2007-07-05 |
DE69837822T2 true DE69837822T2 (de) | 2008-01-31 |
Family
ID=18439687
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69837822T Expired - Lifetime DE69837822T2 (de) | 1997-12-24 | 1998-12-07 | Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen |
DE69736446T Expired - Lifetime DE69736446T2 (de) | 1997-12-24 | 1998-12-07 | Audio Dekodierverfahren und -vorrichtung |
DE69825180T Expired - Fee Related DE69825180T2 (de) | 1997-12-24 | 1998-12-07 | Audiokodier- und dekodierverfahren und -vorrichtung |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69736446T Expired - Lifetime DE69736446T2 (de) | 1997-12-24 | 1998-12-07 | Audio Dekodierverfahren und -vorrichtung |
DE69825180T Expired - Fee Related DE69825180T2 (de) | 1997-12-24 | 1998-12-07 | Audiokodier- und dekodierverfahren und -vorrichtung |
Country Status (11)
Country | Link |
---|---|
US (18) | US7092885B1 (de) |
EP (8) | EP1052620B1 (de) |
JP (2) | JP3346765B2 (de) |
KR (1) | KR100373614B1 (de) |
CN (5) | CN1737903A (de) |
AU (1) | AU732401B2 (de) |
CA (4) | CA2722196C (de) |
DE (3) | DE69837822T2 (de) |
IL (1) | IL136722A0 (de) |
NO (3) | NO20003321L (de) |
WO (1) | WO1999034354A1 (de) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1052620B1 (de) * | 1997-12-24 | 2004-07-21 | Mitsubishi Denki Kabushiki Kaisha | Audiokodier- und dekodierverfahren und -vorrichtung |
DE60018696T2 (de) * | 1999-07-01 | 2006-04-06 | Koninklijke Philips Electronics N.V. | Robuste sprachverarbeitung von verrauschten sprachmodellen |
WO2001002929A2 (en) * | 1999-07-02 | 2001-01-11 | Tellabs Operations, Inc. | Coded domain noise control |
JP2001075600A (ja) * | 1999-09-07 | 2001-03-23 | Mitsubishi Electric Corp | 音声符号化装置および音声復号化装置 |
JP4619549B2 (ja) * | 2000-01-11 | 2011-01-26 | パナソニック株式会社 | マルチモード音声復号化装置及びマルチモード音声復号化方法 |
JP4510977B2 (ja) * | 2000-02-10 | 2010-07-28 | 三菱電機株式会社 | 音声符号化方法および音声復号化方法とその装置 |
FR2813722B1 (fr) * | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
JP3404016B2 (ja) * | 2000-12-26 | 2003-05-06 | 三菱電機株式会社 | 音声符号化装置及び音声符号化方法 |
JP3404024B2 (ja) | 2001-02-27 | 2003-05-06 | 三菱電機株式会社 | 音声符号化方法および音声符号化装置 |
JP3566220B2 (ja) * | 2001-03-09 | 2004-09-15 | 三菱電機株式会社 | 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法 |
KR100467326B1 (ko) * | 2002-12-09 | 2005-01-24 | 학교법인연세대학교 | 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기 |
US20040244310A1 (en) * | 2003-03-28 | 2004-12-09 | Blumberg Marvin R. | Data center |
WO2006121101A1 (ja) * | 2005-05-13 | 2006-11-16 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置およびスペクトル変形方法 |
CN1924990B (zh) * | 2005-09-01 | 2011-03-16 | 凌阳科技股份有限公司 | Midi音讯的播放架构和方法与其应用的多媒体装置 |
US20090164211A1 (en) * | 2006-05-10 | 2009-06-25 | Panasonic Corporation | Speech encoding apparatus and speech encoding method |
US8712766B2 (en) * | 2006-05-16 | 2014-04-29 | Motorola Mobility Llc | Method and system for coding an information signal using closed loop adaptive bit allocation |
MY152845A (en) * | 2006-10-24 | 2014-11-28 | Voiceage Corp | Method and device for coding transition frames in speech signals |
EP2538406B1 (de) * | 2006-11-10 | 2015-03-11 | Panasonic Intellectual Property Corporation of America | Verfahren und Vorrichtung zum Dekodieren eines Parameters eines CELP-kodierten Sprachsignals |
JPWO2008072732A1 (ja) * | 2006-12-14 | 2010-04-02 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
US8160872B2 (en) * | 2007-04-05 | 2012-04-17 | Texas Instruments Incorporated | Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains |
CN101971251B (zh) * | 2008-03-14 | 2012-08-08 | 杜比实验室特许公司 | 像言语的信号和不像言语的信号的多模式编解码方法及装置 |
US9056697B2 (en) * | 2008-12-15 | 2015-06-16 | Exopack, Llc | Multi-layered bags and methods of manufacturing the same |
US8649456B2 (en) | 2009-03-12 | 2014-02-11 | Futurewei Technologies, Inc. | System and method for channel information feedback in a wireless communications system |
US8675627B2 (en) * | 2009-03-23 | 2014-03-18 | Futurewei Technologies, Inc. | Adaptive precoding codebooks for wireless communications |
US9070356B2 (en) * | 2012-04-04 | 2015-06-30 | Google Technology Holdings LLC | Method and apparatus for generating a candidate code-vector to code an informational signal |
US9208798B2 (en) | 2012-04-09 | 2015-12-08 | Board Of Regents, The University Of Texas System | Dynamic control of voice codec data rate |
PL2922053T3 (pl) | 2012-11-15 | 2019-11-29 | Ntt Docomo Inc | Urządzenie do kodowania audio, sposób kodowania audio, program do kodowania audio, urządzenie do dekodowania audio, sposób dekodowania audio, i program do dekodowania audio |
RU2662921C2 (ru) | 2013-06-10 | 2018-07-31 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения |
KR20160070147A (ko) | 2013-10-18 | 2016-06-17 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념 |
WO2015055531A1 (en) | 2013-10-18 | 2015-04-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
CN104934035B (zh) * | 2014-03-21 | 2017-09-26 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
CN110444217B (zh) | 2014-05-01 | 2022-10-21 | 日本电信电话株式会社 | 解码装置、解码方法、记录介质 |
US9934790B2 (en) | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
JP6759927B2 (ja) * | 2016-09-23 | 2020-09-23 | 富士通株式会社 | 発話評価装置、発話評価方法、および発話評価プログラム |
WO2018084305A1 (ja) * | 2016-11-07 | 2018-05-11 | ヤマハ株式会社 | 音声合成方法 |
US10878831B2 (en) | 2017-01-12 | 2020-12-29 | Qualcomm Incorporated | Characteristic-based speech codebook selection |
JP6514262B2 (ja) * | 2017-04-18 | 2019-05-15 | ローランドディー.ジー.株式会社 | インクジェットプリンタおよび印刷方法 |
CN112201270B (zh) * | 2020-10-26 | 2023-05-23 | 平安科技(深圳)有限公司 | 语音噪声的处理方法、装置、计算机设备及存储介质 |
EP4053750A1 (de) * | 2021-03-04 | 2022-09-07 | Tata Consultancy Services Limited | Verfahren und system zur zeitreihendatenprädiktion auf grundlage von saisonalen verzögerungen |
Family Cites Families (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0197294A (ja) | 1987-10-06 | 1989-04-14 | Piran Mirton | 木材パルプ等の精製機 |
JPH0333900A (ja) * | 1989-06-30 | 1991-02-14 | Fujitsu Ltd | 音声符号化方式 |
CA2019801C (en) | 1989-06-28 | 1994-05-31 | Tomohiko Taniguchi | System for speech coding and an apparatus for the same |
US5261027A (en) * | 1989-06-28 | 1993-11-09 | Fujitsu Limited | Code excited linear prediction speech coding system |
JP2940005B2 (ja) * | 1989-07-20 | 1999-08-25 | 日本電気株式会社 | 音声符号化装置 |
CA2021514C (en) * | 1989-09-01 | 1998-12-15 | Yair Shoham | Constrained-stochastic-excitation coding |
US5754976A (en) * | 1990-02-23 | 1998-05-19 | Universite De Sherbrooke | Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech |
JPH0451200A (ja) * | 1990-06-18 | 1992-02-19 | Fujitsu Ltd | 音声符号化方式 |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
JP2776050B2 (ja) | 1991-02-26 | 1998-07-16 | 日本電気株式会社 | 音声符号化方式 |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
US5396576A (en) * | 1991-05-22 | 1995-03-07 | Nippon Telegraph And Telephone Corporation | Speech coding and decoding methods using adaptive and random code books |
JPH05232994A (ja) | 1992-02-25 | 1993-09-10 | Oki Electric Ind Co Ltd | 統計コードブック |
JPH05265496A (ja) * | 1992-03-18 | 1993-10-15 | Hitachi Ltd | 複数のコードブックを有する音声符号化方法 |
JP3297749B2 (ja) | 1992-03-18 | 2002-07-02 | ソニー株式会社 | 符号化方法 |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
CA2107314C (en) * | 1992-09-30 | 2001-04-17 | Katsunori Takahashi | Computer system |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
JP2746033B2 (ja) * | 1992-12-24 | 1998-04-28 | 日本電気株式会社 | 音声復号化装置 |
EP0654909A4 (de) * | 1993-06-10 | 1997-09-10 | Oki Electric Ind Co Ltd | Celp kodierer und dekodierer. |
JP2624130B2 (ja) | 1993-07-29 | 1997-06-25 | 日本電気株式会社 | 音声符号化方式 |
JPH0749700A (ja) | 1993-08-09 | 1995-02-21 | Fujitsu Ltd | Celp型音声復号器 |
CA2154911C (en) * | 1994-08-02 | 2001-01-02 | Kazunori Ozawa | Speech coding device |
JPH0869298A (ja) | 1994-08-29 | 1996-03-12 | Olympus Optical Co Ltd | 再生装置 |
JP3557662B2 (ja) * | 1994-08-30 | 2004-08-25 | ソニー株式会社 | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 |
JPH08102687A (ja) * | 1994-09-29 | 1996-04-16 | Yamaha Corp | 音声送受信方式 |
JPH08110800A (ja) | 1994-10-12 | 1996-04-30 | Fujitsu Ltd | A−b−S法による高能率音声符号化方式 |
JP3328080B2 (ja) * | 1994-11-22 | 2002-09-24 | 沖電気工業株式会社 | コード励振線形予測復号器 |
JPH08179796A (ja) * | 1994-12-21 | 1996-07-12 | Sony Corp | 音声符号化方法 |
JP3292227B2 (ja) | 1994-12-28 | 2002-06-17 | 日本電信電話株式会社 | 符号励振線形予測音声符号化方法及びその復号化方法 |
EP0723258B1 (de) * | 1995-01-17 | 2000-07-05 | Nec Corporation | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen |
KR0181028B1 (ko) * | 1995-03-20 | 1999-05-01 | 배순훈 | 분류 디바이스를 갖는 개선된 비디오 신호 부호화 시스템 |
JPH08328598A (ja) * | 1995-05-26 | 1996-12-13 | Sanyo Electric Co Ltd | 音声符号化・復号化装置 |
US5864797A (en) | 1995-05-30 | 1999-01-26 | Sanyo Electric Co., Ltd. | Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors |
JP3515216B2 (ja) * | 1995-05-30 | 2004-04-05 | 三洋電機株式会社 | 音声符号化装置 |
JPH0922299A (ja) * | 1995-07-07 | 1997-01-21 | Kokusai Electric Co Ltd | 音声符号化通信方式 |
US5819215A (en) * | 1995-10-13 | 1998-10-06 | Dobson; Kurt | Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data |
JP3680380B2 (ja) * | 1995-10-26 | 2005-08-10 | ソニー株式会社 | 音声符号化方法及び装置 |
DE69516522T2 (de) | 1995-11-09 | 2001-03-08 | Nokia Mobile Phones Ltd., Salo | Verfahren zur Synthetisierung eines Sprachsignalblocks in einem CELP-Kodierer |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
JP4063911B2 (ja) | 1996-02-21 | 2008-03-19 | 松下電器産業株式会社 | 音声符号化装置 |
GB2312360B (en) | 1996-04-12 | 2001-01-24 | Olympus Optical Co | Voice signal coding apparatus |
JPH09281997A (ja) * | 1996-04-12 | 1997-10-31 | Olympus Optical Co Ltd | 音声符号化装置 |
JP3094908B2 (ja) | 1996-04-17 | 2000-10-03 | 日本電気株式会社 | 音声符号化装置 |
KR100389895B1 (ko) * | 1996-05-25 | 2003-11-28 | 삼성전자주식회사 | 음성 부호화 및 복호화방법 및 그 장치 |
JP3364825B2 (ja) | 1996-05-29 | 2003-01-08 | 三菱電機株式会社 | 音声符号化装置および音声符号化復号化装置 |
JPH1020891A (ja) * | 1996-07-09 | 1998-01-23 | Sony Corp | 音声符号化方法及び装置 |
JP3707154B2 (ja) * | 1996-09-24 | 2005-10-19 | ソニー株式会社 | 音声符号化方法及び装置 |
JP3174742B2 (ja) | 1997-02-19 | 2001-06-11 | 松下電器産業株式会社 | Celp型音声復号化装置及びcelp型音声復号化方法 |
DE69712535T2 (de) | 1996-11-07 | 2002-08-29 | Matsushita Electric Industrial Co., Ltd. | Vorrichtung zur Erzeugung eines Vektorquantisierungs-Codebuchs |
US5867289A (en) * | 1996-12-24 | 1999-02-02 | International Business Machines Corporation | Fault detection for all-optical add-drop multiplexer |
SE9700772D0 (sv) * | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
US6167375A (en) * | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
US5893060A (en) | 1997-04-07 | 1999-04-06 | Universite De Sherbrooke | Method and device for eradicating instability due to periodic signals in analysis-by-synthesis speech codecs |
US6029125A (en) | 1997-09-02 | 2000-02-22 | Telefonaktiebolaget L M Ericsson, (Publ) | Reducing sparseness in coded speech signals |
US6058359A (en) * | 1998-03-04 | 2000-05-02 | Telefonaktiebolaget L M Ericsson | Speech coding including soft adaptability feature |
JPH11119800A (ja) | 1997-10-20 | 1999-04-30 | Fujitsu Ltd | 音声符号化復号化方法及び音声符号化復号化装置 |
EP1052620B1 (de) * | 1997-12-24 | 2004-07-21 | Mitsubishi Denki Kabushiki Kaisha | Audiokodier- und dekodierverfahren und -vorrichtung |
US6415252B1 (en) * | 1998-05-28 | 2002-07-02 | Motorola, Inc. | Method and apparatus for coding and decoding speech |
US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US6385573B1 (en) * | 1998-08-24 | 2002-05-07 | Conexant Systems, Inc. | Adaptive tilt compensation for synthesized speech residual |
ITMI20011454A1 (it) | 2001-07-09 | 2003-01-09 | Cadif Srl | Procedimento impianto e nastro a base di bitume polimero per il riscaldamento superficiale ed ambiantale delle strutture e delle infrastrutt |
-
1998
- 1998-12-07 EP EP98957197A patent/EP1052620B1/de not_active Expired - Lifetime
- 1998-12-07 CN CNA2005100895281A patent/CN1737903A/zh active Pending
- 1998-12-07 EP EP03090370A patent/EP1426925B1/de not_active Expired - Lifetime
- 1998-12-07 CA CA2722196A patent/CA2722196C/en not_active Expired - Lifetime
- 1998-12-07 JP JP2000526920A patent/JP3346765B2/ja not_active Expired - Lifetime
- 1998-12-07 KR KR10-2000-7007047A patent/KR100373614B1/ko active IP Right Grant
- 1998-12-07 EP EP09014423.9A patent/EP2154680B1/de not_active Expired - Lifetime
- 1998-12-07 EP EP09014422.1A patent/EP2154679B1/de not_active Expired - Lifetime
- 1998-12-07 CA CA002315699A patent/CA2315699C/en not_active Expired - Lifetime
- 1998-12-07 CA CA002636684A patent/CA2636684C/en not_active Expired - Lifetime
- 1998-12-07 EP EP06008656A patent/EP1686563A3/de not_active Withdrawn
- 1998-12-07 US US09/530,719 patent/US7092885B1/en not_active Expired - Lifetime
- 1998-12-07 DE DE69837822T patent/DE69837822T2/de not_active Expired - Lifetime
- 1998-12-07 CN CNA031584632A patent/CN1494055A/zh active Pending
- 1998-12-07 EP EP05015793A patent/EP1596368B1/de not_active Expired - Lifetime
- 1998-12-07 EP EP05015792A patent/EP1596367A3/de not_active Ceased
- 1998-12-07 CA CA2636552A patent/CA2636552C/en not_active Expired - Lifetime
- 1998-12-07 IL IL13672298A patent/IL136722A0/xx unknown
- 1998-12-07 EP EP09014424A patent/EP2154681A3/de not_active Ceased
- 1998-12-07 WO PCT/JP1998/005513 patent/WO1999034354A1/ja active Application Filing
- 1998-12-07 DE DE69736446T patent/DE69736446T2/de not_active Expired - Lifetime
- 1998-12-07 CN CN2005100563318A patent/CN1658282A/zh active Pending
- 1998-12-07 DE DE69825180T patent/DE69825180T2/de not_active Expired - Fee Related
- 1998-12-07 CN CNB988126826A patent/CN1143268C/zh not_active Expired - Lifetime
- 1998-12-07 AU AU13526/99A patent/AU732401B2/en not_active Expired
- 1998-12-07 CN CN200510088000A patent/CN100583242C/zh not_active Expired - Lifetime
-
2000
- 2000-06-23 NO NO20003321A patent/NO20003321L/no not_active Application Discontinuation
-
2003
- 2003-11-17 NO NO20035109A patent/NO323734B1/no not_active IP Right Cessation
-
2004
- 2004-01-06 NO NO20040046A patent/NO20040046L/no not_active Application Discontinuation
-
2005
- 2005-03-28 US US11/090,227 patent/US7363220B2/en not_active Expired - Fee Related
- 2005-07-26 US US11/188,624 patent/US7383177B2/en not_active Expired - Fee Related
-
2007
- 2007-01-16 US US11/653,288 patent/US7747441B2/en not_active Expired - Fee Related
- 2007-10-29 US US11/976,878 patent/US20080071526A1/en not_active Abandoned
- 2007-10-29 US US11/976,830 patent/US20080065375A1/en not_active Abandoned
- 2007-10-29 US US11/976,828 patent/US20080071524A1/en not_active Abandoned
- 2007-10-29 US US11/976,841 patent/US20080065394A1/en not_active Abandoned
- 2007-10-29 US US11/976,883 patent/US7747433B2/en not_active Expired - Fee Related
- 2007-10-29 US US11/976,840 patent/US7747432B2/en not_active Expired - Fee Related
- 2007-10-29 US US11/976,877 patent/US7742917B2/en not_active Expired - Fee Related
-
2008
- 2008-12-11 US US12/332,601 patent/US7937267B2/en not_active Expired - Fee Related
-
2009
- 2009-01-30 JP JP2009018916A patent/JP4916521B2/ja not_active Expired - Lifetime
-
2011
- 2011-03-28 US US13/073,560 patent/US8190428B2/en not_active Expired - Fee Related
-
2012
- 2012-02-17 US US13/399,830 patent/US8352255B2/en not_active Expired - Fee Related
- 2012-09-14 US US13/618,345 patent/US8447593B2/en not_active Expired - Fee Related
-
2013
- 2013-03-11 US US13/792,508 patent/US8688439B2/en not_active Expired - Fee Related
-
2014
- 2014-02-25 US US14/189,013 patent/US9263025B2/en not_active Expired - Fee Related
-
2016
- 2016-02-12 US US15/043,189 patent/US9852740B2/en not_active Expired - Fee Related
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69837822T2 (de) | Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen | |
DE69530442T2 (de) | Vorrichtung zur Sprachkodierung | |
DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
DE69023402T2 (de) | Verfahren zur Sprachkodierung und -dekodierung. | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE69900786T2 (de) | Sprachkodierung | |
DE602004007786T2 (de) | Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate | |
DE69926821T2 (de) | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen | |
DE60201766T2 (de) | Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung | |
DE69928288T2 (de) | Kodierung periodischer sprache | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE69636209T2 (de) | Vorrichtung zur Sprachkodierung | |
DE60117144T2 (de) | Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen | |
DE69613646T2 (de) | Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen | |
DE60126149T2 (de) | Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen | |
DE69329569T2 (de) | Digitale Kodierung von Sprachsignalen | |
DE69729527T2 (de) | Verfahren und Vorrichtung zur Kodierung von Sprachsignalen | |
DE69929069T2 (de) | Verfahren und vorrchtung zur celp kodierung und dekodierung | |
DE69426860T2 (de) | Sprachcodierer und Verfahren zum Suchen von Codebüchern | |
DE69615227T2 (de) | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen | |
DE69425226T2 (de) | Sprachdekoder zur Erzeugung von Hintergrundgeräuschen | |
DE60028500T2 (de) | Sprachdekodierung | |
DE69727256T2 (de) | Sprachkodierer hoher Qualität mit niedriger Bitrate | |
DE69624449T2 (de) | Vorrichtung zur Sprachkodierung | |
DE69629485T2 (de) | Kompressionsystem für sich wiederholende töne |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
R084 | Declaration of willingness to licence |
Ref document number: 1596368 Country of ref document: EP Effective date: 20110630 |