DE4447647C2 - Sprachcodierungsverfahren und Sprachcodierer - Google Patents
Sprachcodierungsverfahren und SprachcodiererInfo
- Publication number
- DE4447647C2 DE4447647C2 DE4447647A DE4447647A DE4447647C2 DE 4447647 C2 DE4447647 C2 DE 4447647C2 DE 4447647 A DE4447647 A DE 4447647A DE 4447647 A DE4447647 A DE 4447647A DE 4447647 C2 DE4447647 C2 DE 4447647C2
- Authority
- DE
- Germany
- Prior art keywords
- vector
- reflection coefficient
- code
- speech
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 239000013598 vector Substances 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000005284 excitation Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 238000013139 quantization Methods 0.000 description 49
- 230000007774 longterm Effects 0.000 description 11
- 230000003595 spectral effect Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 239000011295 pitch Substances 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 235000003197 Byrsonima crassifolia Nutrition 0.000 description 1
- 240000001546 Byrsonima crassifolia Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/135—Vector sum excited linear prediction [VSELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- 1. Berechne das bewertete Eingangssignal y(n) für den Sub frame.
- 2. Berechne d(n), die Null-Eingangsantwort der B(z)- und W(z)- (und C(z)-falls verwendet)-Filter für den Subframe. (Die Nulleingangsantwort ist die Antwort der Filter ohne Eingang; der Abfall der Filterzustände).
- 3. p(n) = y(n) - d(n) über dem Subframe (0 ≦ n ≦ N - 1).
- 4. Für jeden Code i
- a) Berechne gi(n), die Nullzustandsantwort von B(z) und W(z) (und C(z), falls verwendet) für den Codevektor i. (Die Nullzustandsantwort ist der Filterausgang, bei dem die ursprünglichen Filterzustände auf Null gesetzt sind).
- b) Berechne
die Kreuzkorrelation zwischen den gefilterten Codevek toren i und p(n) - c) Berechne
die Leistung in dem gefiltertern Codevektor i.
- 5. Wähle das i, welches
maximiert - 6. Erneuere die Filterzustände von B(z) und W(z) (und von C(z), falls verwendet) unter Verwendung des gewählten Code wortes und seines korrespondierenden Quantisierungsgewinns. Dies wird gemacht, um die gleichen Filterzustände zu erhalten, die der Synthesizer am Beginn des nächsten Subframes für Schritt 2 aufweisen würde.
- 1. Berechne zuerst die Covarianz (autocorrelations)-Matrix
der Eingangssprache:
für 0 ≦ i, k ≦ NP. - 2.
F0(i, k) = f(i, k) 0 ≦ i, k ≦ NP - 1 (2.9)
B0(i, k) = f(i + 1, k + 1) 0 ≦ i, k ≦ NP - 1 (2.10)
C0(i, k) = f(i, k + 1) 0 ≦ i, k ≦ NP - 1 (2.11) - 3. Setze j = 1
- 4. Berechne rj unter Verwendung von (2.7)
- 5. Falls j = NP ist Ende.
- 6. Berechne Fj(i, k) 0 ≦ i, k ≦ NP - j - 1 unter Verwendung von
(2.4)
Berechne Bj(i, k) 0 ≦ i, k ≦ NP - j - 1 unter Verwendung von (2.5)
Berechne Cj(i, k) 0 ≦ i, k ≦ NP - j - 1 unter Verwendung von (2.6) - 7. j = j + 1; gehe zu 4.
Q2 9 Bits
Q3 8 Bits.
P2 5 Bits
P3 4 Bits
Claims (6)
- a) Konstruieren (203) eines Anregungscodebuches von 2M Codevektoren (ui(n)), wobei M Basisvektoren benutzt werden;
- b) Empfangen von Eingabesprache (s(n));
- c) Berechnen im Ansprechen auf die Eingabesprache von Reflektionskoeffizientwer ten, die Sprachparametern stellvertretend für die Eingabesprache entsprechen;
- a) Speichern von 2N Reflektionskoeffizientwerten in einer Tabelle, wobei jeder Re flektionskoeffizientwert durch einen N-Bitcode adressierbar ist;
- b) Verarbeiten (205, 207, 209) von Codevektoren, um synthetisierte Sprache (s'i(n)) zu erzeugen; und
- c) Auswählen (217) eines Codevektors aus dem Anregungscodebuch, der ein Feh
lerkriterium (213, 215) für die synthetisierte Sprache gegenüber der Eingabesprache
minimiert, und
- 1. wenn Reflektionskoeffizientwerte zur Verarbeitung benötigt werden, Liefern entsprechender N-Bitcodes an die Tabelle, um die Reflektions koeffizientwerte zu suchen,
- 2. andernfalls Speichern nur der N-Bitcodes während der Verarbeitung, wobei hierdurch das Speichererfordernis für die Reflektionskoeffizientwerte mini miert wird.
einem Codebuchgenerator (203), der ein Anregungscodebuch erzeugt, das 2M Codevektoren aufweist, die unter Benutzung von M Basisvektoren gebildet werden;
einer Eingabeeinrichtung (Filter, Wandler) zum Empfangen eines Eingabesprachsi gnals und zum Erzeugen eines Datenvektors (s(n));
einer Codiereinrichtung (Koeffizienten-Analysierer), die mit der Eingabeeinrichtung gekoppelt ist, zum Erzeugen von Reflektionskoeffizienten, die Sprachparametern stellvertretend für das Eingabesprachsignal entsprechen,
einem Vektorquantisierer zum Quantisieren der Reflektionskoeffizienten,
dadurch gekennzeichnet, daß
die Codiereinrichtung die Codevektoren verarbeitet, um synthetisierte Sprache (s'i(n)) zu erzeugen, und
der Vektorquantisierer einen Vektorquantisierspeicher umfaßt, der ausgelegt ist, um 2N Reflektionskoeffizientwerte zu speichern, wobei der Vektorquantisierspeicher ei nen N-Biteingang und einen Ausgang aufweist, wobei der Vektorquantisierspeicher einen der 2N Reflektionskoeffizientwerte am Ausgang im Ansprechen auf eine N- Bitadresse liefert, die bei dem N-Biteingang empfangen wird; und ferner mit:
einer Codebuchsuchsteuerung (217), die mit dem Codebuchgenerator gekoppelt ist, der einen Codevektor aus dem Anregungscodebuch auswählt, um ein Fehlerkriteri um (213, 215) zwischen der synthetisierten Sprache und dem Datenvektor zu mini mieren, wobei die Codebuchsuchsteuerung mit dem Vektorquantisierer gekoppelt ist und einen entsprechenden N-Bitcode an den Vektorquantisierer liefert, um einen Reflektionskoeffizientwert zum Verarbeiten herauszusuchen, wobei die Codebuch suchsteuerung andernfalls nur den N-Bitcode speichert, um hierdurch Speicherer fordernisse zu minimieren.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US3779393A | 1993-03-26 | 1993-03-26 | |
DE4492048A DE4492048C2 (de) | 1993-03-26 | 1994-03-07 | Vektorquantisierungs-Verfahren |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4447647C2 true DE4447647C2 (de) | 2000-05-11 |
Family
ID=25943662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4447647A Expired - Lifetime DE4447647C2 (de) | 1993-03-26 | 1994-03-07 | Sprachcodierungsverfahren und Sprachcodierer |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4447647C2 (de) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4890327A (en) * | 1987-06-03 | 1989-12-26 | Itt Corporation | Multi-rate digital voice coder apparatus |
US5038377A (en) * | 1982-12-23 | 1991-08-06 | Sharp Kabushiki Kaisha | ROM circuit for reducing sound data |
-
1994
- 1994-03-07 DE DE4447647A patent/DE4447647C2/de not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5038377A (en) * | 1982-12-23 | 1991-08-06 | Sharp Kabushiki Kaisha | ROM circuit for reducing sound data |
US4890327A (en) * | 1987-06-03 | 1989-12-26 | Itt Corporation | Multi-rate digital voice coder apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4492048C2 (de) | Vektorquantisierungs-Verfahren | |
DE19604273C2 (de) | Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE60226308T2 (de) | Quantisierung der Anregung in einem Geräuschrückkopplungskodierungssytem mit allgemeiner Rauschformung | |
DE69815242T2 (de) | Verfahren zur Quantisierung der LPC Parameter mittels geschalteter prädiktiver Quantisierung | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE19811039B4 (de) | Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen | |
DE69836624T2 (de) | Audiokodierer und -dekodierer | |
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE69531642T2 (de) | Synthese eines Anregungssignals bei Ausfall von Datenrahmen oder Verlust von Datenpaketen | |
DE19647298C2 (de) | Kodiersystem | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE602004007786T2 (de) | Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate | |
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE60126149T2 (de) | Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen | |
DE69033510T3 (de) | Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
EP1979899B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE60309651T2 (de) | Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens | |
DE69828709T2 (de) | Erhöhung der Dichte von kodierten Sprachsignalen | |
DE4491015C2 (de) | Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder | |
DE10004862B4 (de) | Ein schnelles Suchverfahren für LSP-Quantisierung | |
DE60214121T2 (de) | Quantisierung der Anregung bei einem "noise-feedback" Kodierungsverfahren | |
DE69830816T2 (de) | Mehrstufige Audiodekodierung | |
DE60030069T2 (de) | Verschleierungsverfahren bei Verlust von Sprachrahmen | |
DE69630177T2 (de) | Sprachkodierer mit der Fähigkeit zur wesentlichen Vergrösserung der Codebuchgrösse ohne aber die Zahl der übertragenen Bits zu vergrössern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8172 | Supplementary division/partition in: |
Ref document number: 4492048 Country of ref document: DE |
|
Q171 | Divided out to: |
Ref document number: 4492048 Country of ref document: DE |
|
8110 | Request for examination paragraph 44 | ||
AH | Division in |
Ref document number: 4492048 Country of ref document: DE |
|
8607 | Notification of search results after publication | ||
AH | Division in |
Ref document number: 4492048 Country of ref document: DE |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
R082 | Change of representative |
Representative=s name: MERH-IP MATIAS ERNY REICHL HOFFMANN, DE Representative=s name: MERH-IP MATIAS ERNY REICHL HOFFMANN, 80336 MUENCHE |
|
R081 | Change of applicant/patentee |
Owner name: RESEARCH IN MOTION LTD., WATERLOO, CA Free format text: FORMER OWNER: MOTOROLA, INC., SCHAUMBURG, ILL., US Effective date: 20111221 Owner name: RESEARCH IN MOTION LTD., CA Free format text: FORMER OWNER: MOTOROLA, INC., SCHAUMBURG, US Effective date: 20111221 |
|
R082 | Change of representative |
Representative=s name: MERH-IP MATIAS ERNY REICHL HOFFMANN PATENTANWA, DE Effective date: 20111221 Representative=s name: MERH-IP MATIAS ERNY REICHL HOFFMANN, DE Effective date: 20111221 |
|
R071 | Expiry of right | ||
R071 | Expiry of right |