DE60125491T2 - Tiefpaßfilterung des Anregungssignals für die Sprachkodierung - Google Patents

Tiefpaßfilterung des Anregungssignals für die Sprachkodierung Download PDF

Info

Publication number
DE60125491T2
DE60125491T2 DE60125491T DE60125491T DE60125491T2 DE 60125491 T2 DE60125491 T2 DE 60125491T2 DE 60125491 T DE60125491 T DE 60125491T DE 60125491 T DE60125491 T DE 60125491T DE 60125491 T2 DE60125491 T2 DE 60125491T2
Authority
DE
Germany
Prior art keywords
signal
excitation
filter
codebook
excitation signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60125491T
Other languages
English (en)
Other versions
DE60125491D1 (de
Inventor
Kimio Minato-ku Miseki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Application granted granted Critical
Publication of DE60125491D1 publication Critical patent/DE60125491D1/de
Publication of DE60125491T2 publication Critical patent/DE60125491T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • 1. Feld der Erfindung
  • Die vorliegende Erfindung betrifft ein Sprachencodierverfahren und ein Sprachdecodierverfahren, die zur Kompressions-Encodierung und -Decodierung von Sprachsignalen, Audiosignalen und Ähnlichem benutzt werden.
  • 2. Beschreibung des Standes der Technik
  • Als ein Verfahren der Kompressions-Encodierung von Sprachsignalen ist ein CELP (Code-Excited Linear Prediction = lineare Prädiktion mit Code-Anregung) ("Code-Excited Linear Prediction (CELP): High-quality Speech at Very Low Rates" Proc. ICASSP '85, 25, 1.1. Seite 937–940, 1985).
  • Entsprechend der charakteristischen Merkmalen des CELP-Schemas wird die Modellierung eines Sprachsignals getrennt für einen Synthesefilter und ein Anregungssignal zum Betrieb des Synthesefilters durchgeführt, und die Verzerrung wird in Übereinstimmung mit dem Pegel eines wahrnehmungsgewichteten Sprachsignals in der Encodierung des Anregungssignals ausgewertet, wodurch es schwierig gemacht wird, eine Encodierungs-Verzerrung zu erkennen. Ein synthetisiertes Sprachsignal wird nach der Encodierung durch ein Durchlaufen des Anregungssignals durch das Synthesefilter erzeugt. Das Anregungssignal wird durch die Vereinigung von zwei Codevektoren erzeugt, d. h., einem von einem adaptiven Codebuch erzeugten Codevektor, der vergangene Anregungssignale speichert, und einem von einem stochastischen Codebuch erzeugten, stochastischen Vektor.
  • Ein adaptiver Codevektor repräsentiert hauptsächlich die Wiederholung einer Wellenform auf der Grundlage einer Pitch-Periode als ein Merkmal eines Anregungssignals in einem Stimmen-Sprachintervall. Ein stochastischer Codevektor enthält eine Komponente zum Kompensieren einer Komponente, die in einem Anregungssignal, welches nicht durch einen adaptiven Codevektor ausgedrückt werden kann, enthalten ist, und wird benutzt, ein synthetisiertes Sprachsignal natürlicher zu machen.
  • Ein adaptives Codebuch ist ein Codebuch, das die Tatsache benutzt, dass eine sich wiederholende Wellenform auf der Grundlage einer Pitch-Periode eines Anregungssignals ähnlich ist zur sich wiederholenden Wellenform eines unmittelbar vorangehenden Anregungssignals. Insbesondere werden vergangene Anregungssignale im adaptiven Codebuch ohne irgendwelche Änderungen gespeichert, und ein vergangenes Anregungssignal wird aus dem adaptiven Codebuch in einem Umfang entsprechend zu einer Pitch-Periode herausgezogen. Der Vektor, welcher durch die Wiederholung des herausgezogenen Signals mit einem Pitch-Intervall bei einer Pitch-Periode bis zu einem Signalintervall erhalten wird, wird als ein adaptiver Codevektor benutzt. Wie oben beschrieben wird gemäß des herkömmlichen, adaptiven Codebuches der gegenwärtige, adaptive Codevektor durch direkte Wiederholung eines Anregungssignals erhalten, welches in der Vergangenheit benutzt wurde. In diesem herkömmlichen Verfahren wird eine Verzerrung aufgrund der Encodierung deutlich empfangen, wenn die Encodierungs-Bitrate auf ungefähr 4 kbits/s vermindert wird, da eine unausreichende Anzahl von Bits zugewiesen wird, um ein Anregungssignal auszudrücken. Folglich wird die Sprache unklar oder ist mit Geräuschen verbunden. Die Klangqualität sinkt damit beträchtlich. Deshalb gibt es einen Bedarf nach einem hocheffizienten Encodierungsschema, das eine synthetisierte Sprache mit hoher Qualität erzeugen kann, sogar wenn die Bitrate vermindert wird.
  • Der Artikel „Pitch sharpening for perceptually improved CELP, and the sparse-delta codebook for redcuced computation" Taniguchi T et al., IEEEICASSP 1991 offenbart Algorithmen, die das Feedback von geräuschähnlichen Informationen zum adaptiven Codebuch begrenzen.
  • Wie oben beschrieben ist es im herkömmlichen Sprachencodierverfahren schwierig, synthetisierte Sprache mit hoher Qualität bei einer geringen Bitrate zu erhalten.
  • Es ist eine technische Aufgabe der vorliegenden Erfindung, ein Sprachencodierverfahren/Sprachdecodierverfahren vorzusehen, die synthetisierte Sprache mit hoher Qualität sogar bei einer geringen Bitrate erzeugen können.
  • Der vorliegende Erfinder weist speziell auf die Tatsache hin, dass in der Pitch-Periode auftretende Komponenten, welche in einem Stimmen-Sprachsignal enthalten sind, Komponenten mit geringen Frequenzen eine Wiederholung mit einer stärkeren Korrelation aufweisen als Komponenten mit hohen Frequenzen, in Bezug auf die Frequenz. Damit tendieren Pitch-Wiederholungskomponenten in einem niedrigen Frequenzband dazu, sich langsamer zu ändern, wobei die Pitch-Wiederholungskomponenten in einem hohen Frequenzband dazu tendieren, sich schneller zu ändern.
  • Unter Berücksichtigung der Merkmale der Komponenten der Pitch-Periode, die im Sprachsignal enthalten sind, ist daher der Grad des Beitrags für einen besseren Ausdruck eines Anregungssignals durch einen erhaltenen, adaptiven Codevektor auf der niedrigen Frequenzseite im Allgemeinen höher als auf der hohen Frequenzseite. Damit können Anregungssignale in einem niedrigen Frequenzband in einem adaptiven Codebuch gespeichert und effektiver wiederbenutzt werden als Anregungssignale in einem hohen Frequenzband. Deshalb ist das herkömmliche Verfahren nicht notwendigerweise effektiv, bei dem die Anregungssignale in allen Frequenzbändern in einem adaptiven Codebuch auf dieselbe Art und Weise gespeichert werden.
  • Die vorliegende Erfindung wurde unter Berücksichtigung der allgemeinen Tendenz durchgeführt, dass die Beiträge der adaptiven Codevektoren in unterschiedlichen Frequenzbändern variieren und die Beiträge der adaptiven Codevektoren mit einer Frequenzzunahme abnehmen.
  • Synthetisierte Sprache mit hoher Qualität kann erhalten werden, und exzellente synthetisierte Sprache kann sogar bei einer geringen Bitrate durch Änderung der von solchen Frequenzbändern abhängigen Merkmale erhalten werden, d. h., durch die Aktualisierung eines adaptiven Codebuches durch Benutzung eines Anregungssignals nach der Modifikation durch die Anregungsfilterverarbeitung (Anpassung eines Ausgangs in Übereinstimmung mit einem Frequenzband).
  • Gemäß einem Aspekt der vorliegenden Erfindung ist ein Sprachencodierverfahren gemäß Anspruch 1 vorgesehen.
  • Gemäß einem anderen Aspekt der vorliegenden Erfindung ist eine Sprachencodiervorrichtung gemäß Anspruch 4 vorgesehen.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist ein Sprachdecodierverfahren gemäß Anspruch 7 vorgesehen.
  • Gemäß einem zusätzlichen Aspekt der vorliegenden Erfindung ist eine Sprachdecodiervorrichtung gemäß Anspruch 10 vorgesehen.
  • Gemäß einem noch weiteren Aspekt der vorliegenden Erfindung ist eine elektronische Vorrichtung gemäß Anspruch 12 vorgesehen. Bevorzugte Ausführungsformen gehen aus den abhängigen Ansprüchen hervor.
  • Ein Sprachencodier-/-decodierverfahren ist vorgesehen, das Sprache mit hoher Qualität synthetisieren kann, durch das Speichern eines, durch eine vorbestimmte Filterverarbeitung modifizierten Anregungssignals in einem adaptiven Codebuch, anstelle des Speicherns eines Anregungssignals im adaptiven Codebuch ohne irgendeine Modifikation, wie im herkömmlichen Verfahren.
  • Wie oben beschrieben sind Tiefpass-Merkmale bevorzugt vorgesehen, da ein adaptiver Codevektor in einem niedrigeren Frequenzband mehr einem Anregungssignal beisteuert. Ein Anregungssignal kann durch die Verwendung eines ersten, von einem adaptiven Codebuch (erstes Codebuch) erhaltenen Codevektor erzeugt werden, wobei das adaptive Codebuch Periodizität reflektiert, und durch die Verwendung eines zweiten, von einer anderen Art von Codebuch (ein zweites Codebuch z. B. ein stochastisches Codebuch) erhaltenen Codevektors (z. B. ein stochastischer Codevektor). Die vorliegende Erfindung ist jedoch nicht auf das stochastische Codebuch begrenzt, und die Anzahl der verwendeten Codebücher ist nicht auf zwei begrenzt; ein Anregungssignal kann von einer Mehrzahl von Codebüchern durch die Miteinbeziehung eines adaptiven Codebuchs erhalten werden.
  • Die vorliegende Erfindung kann z. B. durch ein Sprachencodierverfahren implementiert werden, welches ein synthetisiertes Sprachsignal durch die Benutzung eines Anregungssignals, das durch die Benutzung eines ersten, von einem adaptiven Codebuch erhaltenen Codevektors erzeugt wird, erzeugt, wobei das adaptive Codebuch ein vergangenes Anregungssignal speichert, und durch die Verwendung eines zweiten, von einem vorbestimmten Codebuch (z. B. einem stochastischen Codebuch) erhaltenen Codevektors. Dieses Sprachencodierverfahren umfasst ausgewählte Code-Informationen, die einen ersten Codevektor durch die Verwendung des adaptiven Codebuchs repräsentieren, zumal die wahrnehmungsgewichtete Verzerrung zwischen einem, von einem Eingangs-Sprachsignal erhaltenen Zielvektor und einem synthetisierten Vektor, welcher durch die Synthetisierung von Kandidatenvektoren des ersten Codevektors erhalten wird, vermindert wird; ein Auswählen von Code-Informationen, die einen zweiten Codevektor aus dem Codebuch repräsentieren, zumal die wahrnehmungsgewichtete Verzerrung des synthetisierten Sprachsignals vermindert wird; ein Erzeugen eines Anregungssignals durch die Benutzung des ausgewählten ersten und zweiten Codevektors; ein Modifizieren des erzeugen Anregungssignals durch eine Filterverarbeitung; und ein Speichern des modifizierten Anregungssignals im adaptiven Codebuch.
  • Wenn ein Anregungssignal von einem adaptiven Codevektor, der von einem adaptiven Codebuch erhalten wird, und von einem stochastischen Codevektor, der von einem stochastischen Codebuch erhalten wird, zu erzeugen ist, wird ein Anregungssignal vor der Modifikation z. B. durch einen Anregungsvektor u vorgegeben, der durch die folgende Gleichung ausgedrückt wird, und wird in einen Synthesefilter eingegeben, um synthetisierte Sprache zu erhalten. Es wird bemerkt, dass das Anregungssignal nicht darauf beschränkt ist. u = GOx0 + G1x1,wobei u einen Anregungsvektor, x0 einen adaptiven Codevektor, x1 einen stochastischen Codevektor, G0 den Gewinn des adaptiven Codevektors, und G1 den Gewinn des stochastischen Codevektors darstellt.
  • Filter mit unterschiedlichen Bedingungen können für die, für dieses Anregungssignal vor der Modifikation durchzuführende Filterverarbeitung benutzt werden. Die Anregungsfilterverarbeitung wird z. B. für das Anregungssignal vor der Modifikation durchgeführt, durch die Benutzung eines rekursiven Filters, welches durch R(z) = 1/(1 – k1z–1) (k1: Filterkoeffizient) in einem z-Transformationsbereich ausgedrückt wird, und das Ergebnis wird als die spätesten Daten im adaptiven Codebuch gespeichert.
  • Der durch die Benutzung einer solchen Filterverarbeitung modifizierte Anregungsvektor ist durch v(n) = u(n) + k1v(n – 1)gegeben, wobei v den modifizierten Anregungsvektor, u(n) das aktuelle Anregungssignal, v(n) das modifizierte Anregungssignal, und k1 einen Filterkoeffizienten darstellt.
  • Es ist zu erwähnen, dass dieses Anregungsfilter nicht auf einen rekursiven Filter erster Ordnung begrenzt ist, und ein Filter mehrfacher Ordnung oder ein nichtrekursiver Filter können benutzt werden.
  • Außerdem können sich die Merkmale eines Anregungsfilters in Abhängigkeit von den Encodier-Informationen (Synthesefilter-Informationen, Pitch-Periode, Gewinn-Informationen und Ähnliches, oder Eingangs-Sprachsignal) ändern. In diesem Fall kann das Anregungssignal vor und nach der Modifikation in Abhängigkeit von Bedingungen dasselbige bleiben.
  • Die vorliegende Erfindung kann auf eine elektronische Vorrichtung angewendet werden, die ausgelegt ist, um eine digitale Sprachverarbeitung durchzuführen, wie z. B. einem Handy-Telefon, einem tragbaren Endgerät, oder einem PC mit Sprachverarbeitung.
  • Gemäß der vorliegenden Erfindung ist eine elektronische Vorrichtung vorgesehen, die einen Sprachencoder umfasst, welcher das oben aufgeführte Sprachencodierverfahren ausführt, und eine Sprach-Eingangsvorrichtung (eine direkte Sprach-Eingangvorrichtung wie einem Mikrophon oder einer Eingangsvorrichtung, die ein Sprachsignal eingibt, das extern zugeführt wird) zum Zuführen eines Sprachsignals zum Sprachencoder.
  • Außerdem ist gemäß der vorliegenden Erfindung eine elektronische Vorrichtung vorgesehen, die einen Sprachdecoder umfasst, welcher das oben aufgeführte Sprachdecodierverfahren für das durch das oben erwähnte Sprachencodierverfahren encodierte Sprachsignal ausgeführt, und eine Sprach-Ausgangsvorrichtung (eine direkte Klangvorrichtung wie einem Lautsprecher oder einer Sprach-Zuführvorrichtung, die ein Sprachsignal zu einer externen Vorrichtung zuführt) zum Ausgeben eines Sprachsignals vom Sprachdecoder.
  • Wenn eine elektronische Vorrichtung sowohl einen Encoder als auch einen Decoder enthält, kann die Vorrichtung Sprachsignale encodieren und decodieren. Wenn jedoch eine Decodierung nicht erforderlich ist, kann die Vorrichtung nur einen Encoder zusammen mit einem anderen dafür notwendigen Mittel enthalten. Wenn nur eine Decodierung erforderlich ist, kann die Vorrichtung nur einen Decoder zusammen mit einem dafür notwendigen Mittel enthalten.
  • Ein Handy-Telefon erfordert sowohl eine Encodierfunktion als auch eine Decodierfunktion, weil es Signale an/von eine/einer Befehlsvorrichtung überträgt/empfängt.
  • In Basisstationen und Relaystationen, welche ein Telefonnetzwerk bilden, müssen analoge und digitale Leitungen in einigen Fällen miteinander verbunden werden. In solchen Fällen müssen genauso die Encodierung und Decodierung für die zugehörigen Betriebe durchgeführt werden, da die encodierten Sprachsignale von der digitalen Leitungsseite zugeführt werden, und die analogen Sprachsignale vor der Encodierung von der analogen Leitungsseite zugeführt werden. Deshalb sind sowohl eine Encodierfunktion als auch eine Decodierfunktion erforderlich. Die vorliegende Erfindung kann auch auf eine elektronische Vorrichtung angewendet werden, die entworfen wird, um ein Sprachsignal von einer externen Vorrichtung zu empfangen und das Signal zur externen Vorrichtung zurückzusenden oder es zu einer anderen Vorrichtung encodiert zu übertragen.
  • Der Schutzbereich wird durch die Ansprüche definiert.
  • Die Erfindung kann von der folgenden detaillierten Beschreibung in Zusammenhang mit den begleitenden Zeichnungen besser verstanden werden, es zeigen:
  • 1 ein Blockdiagramm, das die Sprachencodierung gemäß einer Ausführungsform der vorliegenden Erfindung aufzeigt;
  • 2 ein Blockdiagramm, das ein Anregungsfilter gemäß der Ausführungsform der vorliegenden Erfindung aufzeigt;
  • 3 eine Abbildung zur Erklärung eines adaptiven Codebuchs gemäß der Ausführungsform der vorliegenden Erfindung;
  • 4 ein Blockdiagramm, das die Sprachdecodierung gemäß der Ausführungsform der vorliegenden Erfindung aufzeigt;
  • 5 eine Abbildung zur Erklärung der Funktion des Anregungsfilters gemäß der Ausführungsform der vorliegenden Erfindung;
  • 6 ein Blockdiagramm, das ein Anregungsfilter gemäß der Ausführungsform der vorliegenden Erfindung aufzeigt;
  • 7 ein Blockdiagramm, das ein Anregungsfilter gemäß der Ausführungsform der vorliegenden Erfindung aufzeigt; und
  • 8 ein Blockdiagramm, das ein Anregungsfilter gemäß der Ausführungsform der vorliegenden Erfindung aufzeigt.
  • Eine Ausführungsform der vorliegenden Erfindung wird unter Bezug auf die Abbildungen der begleitenden Zeichnungen beschrieben. 1 ist ein schematisches Blockdiagramm, das ein Sprachencodierverfahren in dieser Ausführungsform der vorliegenden Erfindung aufzeigt. Ein Eingangs-Sprachsignal, das von einer Sprach-Eingangsvorrichtung (nicht aufgezeigt) wie einem Mikrophon eingegeben wird, wird einer Analog-Digital-Wandlung unterzogen und in Rahmeneinheiten verarbeitet, wobei jede Rahmeneinheit einer vorbestimmten Zeitdauer entspricht. Ein LPC-Analysierer 101 analysiert das in Rahmen eingeteilte Eingangs-Sprachsignal, um die linearen Prädiktions-Koeffizienten (LPC-Koeffizienten) herauszuziehen. Ein Synthesefilter-Informationsencoder 102 encodiert die herausgezogenen LPC-Koeffizienten und gibt die Synthesefilter-Informationen A zu einem Multiplexer 103 aus. Die linearen Prädiktions-Koeffizienten werden als Synthesefilter-Koeffizienten (α(i): die Ordnung eines Filters wird z. B. auf 10 gesetzt, wie benötigt) eines Synthesefilterabschnitts 104 benutzt. Anschließend wird z. B. jeder Rahmen in Unterrahmen aufgeteilt, entsprechend zu den vorbestimmten Zeitintervallen, um Pitch-Perioden-Informationen L, einen stochastischen Code C und Gewinninformationen G zu erhalten. Ein adaptives Codebuch 105 speichert vergangene Anregungssignale (vergangene, durch die Filterverarbeitung in der vorliegenden Erfindung modifizierte Anregungssignale). Bei Empfang einer Pitch-Periode als einen Kandidaten verfolgt das adaptive Codebuch 105 durch eine Länge entsprechend zur Pitch-Periode zurück und zieht ein Anregungssignal heraus. Das adaptive Codebuch 105 erzeugt einen adaptiven Codevektor durch eine Wiederholung dieses Signals.
  • Bei der Suche nach einer Pitch-Periode berechnet ein wahrnehmungsgewichteter Verzerrungsberechnungsabschnitt 109 die Wellenform-Verzerrung, die verursacht wird, wenn der Synthesefilterabschnitt 104 einen adaptiven Codevektor entsprechend zu einem Pitch-Perioden-Kandidaten synthetisiert, und ein Code-Selektor 106 sucht eine Pitch-Periode, bei der die Verzerrung der wahrnehmungsgewichteten, synthetisierten Wellenform mehr mehr vermindert wird. Obwohl der durch die offene Schleifen-Pitch-Analyse auf einer Rahmenbasis erhaltene Wert als der Anfangswert eines Kandidaten-Pitches verwendet werden kann, ist die vorliegende Erfindung nicht darauf beschränkt.
  • Die durch die adaptive Codebuch-Suche bestimmte Pitch-Periode wird in die Pitch-Perioden-Informationen L umgewandelt und zum Multiplexer 103 ausgegeben.
  • Ein stochastisches Codebuch 107 gibt einen stochastischen Vektor entsprechend zum zugeführten stochastischen Code als einen stochastischen Codevektor-Kandidaten aus. In einigen Schemata ist ein stochastisches Codebuch so aufgebaut, dass es nicht direkt stochastische Codevektoren speichert. Z. B. ist ein Schema, welches ein Algebraisches Codebuch benutzt, verfügbar. Dieses Algebraische Codebuch ist ausgelegt, um einen Codevektor durch eine Vereinigung von Pulspositionsinformationen und Polaritätsinformationen mit den Amplituden einer vorbestimmten Anzahl von Pulsen, die auf +1 und –1 beschränkt sind, auszudrücken. Gemäß der charakteristischen Merkmale des algebraischen Codebuchs kann ein Codebuch durch eine kleine Speicherkapazität ausgedrückt werden, weil irgendwelche Codevektoren an sich nicht gespeichert werden müssen, und stochastische Komponenten, die in den Anregungsinformationen enthalten sind, können mit einer relativ hohen Qualität trotz einer geringen Berechnungsmenge, welche für eine Codevektor-Auswahl erforderlich ist, ausgedrückt werden.
  • Ein Schema, welches ein Algebraisches Codebuch benutzt, um Anregungssignale zu encodieren, wird ein ACELP-Schema oder ein auf ACELP basierendes Schema genannt und ist als ein Schema bekannt, das eine synthetisierte Sprache mit geringer Verzerrung erhält.
  • Bei der Suche nach dem stochastischen Code C berechnet der wahrnehmungsgewichtete Verzerrungsberechnungsabschnitt 109 die wahrnehmungsgewichtete Verzerrung, welche in der Wellenform enthalten ist und gebildet wird, wenn ein stochastischer Codevektor entsprechend zu einem stochastischen Code-Kandidaten durch den Synthesefilterabschnitt 104 synthetisiert wird, und der Code-Selektor 106 sucht einen stochastischen Code, bei dem die Verzerrung dieser wahrnehmungsgewichteten, synthetisierten Wellenform mehr vermindert wird. Der gefundene stochastische Code C wird an den Multiplexer 103 ausgegeben.
  • In dieser Ausführungsform wird der Ausdruck „stochastisches Codebuch" benutzt. Jedoch muss offensichtlich ein stochastischer Codevektor, der durch dieses Codebuch ausgedrückt wird, nicht immer stochastisch sein. Dieser Codevektor kann z. B. ein Pulsanregungs-Codevektor sein, wie in einem Algebraischen Codebuch.
  • Ein Gewinn-Codebuch 108 speichert Kandidaten für einen Gewinn G0, der für einen adaptiven Codevektor benutzt wird, und einen Gewinn G1, der für einen stochastischen Codevektor benutzt wird. Bei der Suche nach einem Gewinn-Code kann z. B. der wahrnehmungsgewichtete Verzerrungsberechnungsabschnitt 109 die wahrnehmungsgewichtete Verzerrung berechnen, die in der Wellenform enthalten ist und gebildet wird, wenn der Anregungs-Codevektor, welcher erhalten wird durch das Addieren des adaptiven Codevektors und des stochastischen Codevektors, der durch die entsprechenden Gewinn-Kandidaten multipliziert wird, durch das Synthesefilter synthetisiert wird. Der Code-Selektor 106 sucht einen Gewinn-Code, bei dem die Verzerrung der wahrnehmungsgewichteten, synthetisierten Wellenform mehr vermindert wird.
  • Der gefundene Gewinn-Code G wird an den Multiplexer 103 ausgegeben. Unterschiedliche Verfahren können benutzt werden, um die oben genannten Pitch-Perioden-Informationen L, den stochastischen Code C und die Gewinn-Informationen G zu bestimmen. Das folgende Verfahren kann z. B. benutzt werden.
  • Die Pitch-Perioden-Informationen L werden durch eine adaptive Codebuch-Suche (adaptiver Codevektor) erhalten. Der stochastische Code C (stochastischer Codevektor) wird dann dadurch erhalten, dass ein stochastisches Codebuch zur Suche veranlasst wird, so dass die Differenz zwischen dem Zielvektor und dem durch die Multiplizierung des erhaltenen adaptiven Codevektors mit einem vorübergehenden Gewinn (z. B. optimaler Gewinn) erhaltene Vektor reduziert wird. Die Gewinn-Informationen G (Gewinn-Codevektor) wird dadurch erhalten, dass eine Gewinn-Codebuch-Suche veranlasst wird, den erhaltenen, adaptiven Codevektor und den stochastischen Codevektor zu benutzen.
  • Die vorliegende Erfindung ist offensichtlich nicht auf das oben genannte Verfahren beschränkt. Durch die Benutzung der Pitch-Perioden-Information L, des stochastischen Codes C und der Gewinn-Informationen G, die auf diese Art und Weise gefunden werden, wird ein Anregungssignal (Anregungsvektor) u gemäß (1) erzeugt: u = G0x0 + G1x1, (1)wobei x0 den adaptiven Codevektor darstellt, der vom adaptiven Codebuch 105 in Übereinstimmung mit den Pitch-Perioden-Informationen L erhalten wird, x1 den stochastischen Codevektor darstellt, der vom stochastischen Codebuch 107 in Übereinstimmung mit dem stochastischen Code C erhalten wird, G0 einen Gewinn darstellt, der vom Gewinn-Codebuch 108 in Übereinstimmung mit den Gewinn-Informationen G erhalten wird und mit dem adaptiven Codevektor in einem Multiplizierer 111 multipliziert wird, und G1 einen Gewinn darstellt, der vom Gewinn-Codebuch 108 in Übereinstimmung mit den Gewinn-Informationen G erhalten wird und mit dem stochastischen Codevektor in einem Multiplizierer 112 multipliziert wird. Die Ausgänge der Mulitplizierer 111 und 112 werden durch einen Addierer 113 addiert.
  • Der Synthesefilterabschnitt 104 erzeugt eine synthetisierte Sprache durch die Ausführung einer Synthesefilterung, welche durch 1/A(z):A(z) = 1 + Σα(i)z –' ausgedrückt wird, wobei α(i) einen Synthesefilter-Koeffizienten (Synthesefilter-Informationen A) in einem z-Transformatiosbereich mit Bezug auf den Eingang des Anregungssignals u darstellt, welches auf diese Art und Weise erhalten wird. Diese synthetisierte Sprache und die Eingangssprache werden in einem Addierer 114 voneinander abgezogen, und die oben erwähnten, unterschiedlichen Auswahl-/Bestimmungsschritte werden dann durchgeführt, um die Differenz, d. h., die Verzerrung der wahrnehmungsgewichteten, synthetisierten Wellenform, welche durch den wahrnehmungsgewichteten Verzerrungsberechnungsabschnitt 109 berechnet wird, zu vermindern.
  • Der erhaltene Anregungsvektor u wird modifiziert (oder korrigiert) durch das Anregungsfilter 110 und im adaptiven Codebuch 105 gespeichert. Unterschiedliche Verfahren können für diese Modifikation (oder Korrektur) benutzt werden. Der Vektor kann z. B. durch direkte Filterung unter Benutzung eines Anregungsfilters mit vorbestimmten Merkmalen modifiziert werden. Es kann z. B. ein rekursiver Filter als dieser Anregungsfilter erster Ordnung benutzt werden, welches durch die unten angegebene Gleichung (2) ausgedrückt wird: R(z) = 1/(1 – k1z–1), (2)wobei k1 einen Filterkoeffizienten darstellt.
  • Wenn ein Anregungsfilter mit solchen Ausgangsmerkmalen benutzt wird, kann ein Anregungssignal v(n) nach der Modifikation durch v(n) = u(n) + k1v(n – 1) (3)angegeben werden, wobei u(n) das Anregungssignal vor der Modifikation, v(n) das Anregungssignal nach der Modifikation (n = 0, ..., N – 1, wobei N die Ordnung eines Anregungsvektors darstellt) und k1 einen Filterkoeffizienten darstellt.
  • 2 zeigt schematisch die Verarbeitung mit diesem Anregungsfilter auf. Das Eingangs-Anregungssignal u(n) wird an ein Anregungsfilter 210 eingegeben, wobei das Anregungsfilter 210 eine Verzögerungsvorrichtung 211, einen Multiplizierer 212 und einen Addierer 213 enthält. In diesem Anregungsfilter 210 multipliziert der Multiplizierer 212 ein Signal v(n – 1), das durch eine Verzögerung des Ausgangssignals v(n) vom Anregungsfilter unter Benutzung der Verzögerungsvorrichtung 211 erhalten wird, mit dem Filterkoeffizienten k1, und der Addierer 213 addiert dann das Anregungssignal u(n) zum Produkt, wodurch das sich ergebende Signal als das modifizierte Anregungssignal v(n) ausgegeben wird.
  • Wie oben beschrieben kann ein besserer Effekt durch das Vorsehen von Tiefpass-Merkmalen erhalten werden, da ein besserer Effekt durch die Zunahme des Grades des Beitrags in einem niedrigen Frequenzband erhalten werden kann. Gemäß von Experimenten wird ein Wert, der die Ungleichung 0 < k1 < 0.25 oder Ähnliches erfüllt, bevorzugt benutzt. Das auf diese Art und Weise modifizierte Anregungssignal v(n) wird als die spätesten Informationen im adaptiven Codebuch gespeichert. Das adaptive Codebuch wird durch die Verschiebung um N Abtastwerte als Ganzes aktualisiert, so dass die ältesten Anregungssignaldaten verworfen und die spätesten Anregungssignaldaten gespeichert werden. Die spätesten Daten werden auf diese Art und Weise addiert. 3 ist eine schematische Abbildung, die diesen Zustand aufzeigt. Das adaptive Codebuch vor der Aktualisierungsoperation wird gebildet durch v(–K)v(-K + 1), ..., v(–K + N – 1)v(–K + N)v(–K + N + 1), ..., v(–2)v(–1), wobei N die Anzahl der Anregungsvektoren darstellt und K die Anzahl der im adaptiven Codebuch gespeicherten Anregungssignaldaten darstellt. Das älteste Anregungssignal ist v(–K)v(–K + 1), ..., v(–K + N – 1), welches verworfen wird. Die Daten „v(0)v(1), ..., v(N – 1)", welche vom ältesten Anregungssignal „u(0)u(1), ..., u(N – 1)" vor der Modifikation durch die Anregungsfilterung [v(n) = u(n) + k1v(n – 1): (n = 0, ..., N – 1)] erhalten werden, werden im adaptiven Codebuch als die ältesten Daten gespeichert.
  • Die Synthesefilter-Informationen A, die Pitch-Perioden-Informationen L, der stochastische Code C und die Gewinn-Informationen G, welche durch das oben aufgeführte Encodierverfahren erhalten werden, werden gemultiplext, und der gemultiplexte, encodierte Ausgang wird ausgesendet.
  • Die beim Empfang dieser encodierten Informationen durchzuführende Decodierung wird nachfolgend mit Bezug auf 4 beschrieben. Ein Demultiplexer 401 demultiplext den encodierten Eingang, um die Synthesefilter-Informationen A, die linearen, Prädiktions-Pitch-Perioden-Informationen L, den stochastischen Code C und die Gewinn-Informationen G zu erhalten. Diese Informationsbestandteile werden entsprechend zu einem Synthesefilter-Informationsdecoder 402, dem adaptiven Codebuch 403, dem stochastischen Codebuch 404 und dem Gewinn-Codebuch 405 ausgesendet.
  • Der Synthesefilter-Informationsdecoder 402 erhält einen linearen Prädiktions-Koeffizienten (LPC) auf der Grundlage der erhaltenen Synthesefilter-Informationen A, rekonstruiert denselben LPC-Koeffizienten wie den auf der Encodierungs-Seite und sendet den LPC-Koeffizienten zu einem Synthesefilterabschnitt 406. Das adaptive Codebuch 403 speichert vergangene Anregungssignale wie das Codebuch auf der Encodierungs-Seite. Das adaptive Codebuch 403 verfolgt aus dem spätesten Signal durch eine Länge entsprechend zur Pitch-Periode L zurück und zieht ein Anregungssignal heraus. Das adaptive Codebuch 403 erzeugt einen adaptiven Codevektor durch die Wiederholung dieses Signals.
  • Das stochastische Codebuch 404 gibt einen stochastischen Codevektor entsprechend zum stochastischen Code C auf der Grundlage des Codes C aus. Das Gewinn-Codebuch 405 gibt den Gewinn G0 für einen adaptiven Codevektor und den Gewinn G1 für einen stochastischen Codevektor auf der Grundlage des Gewinn-Codes G aus.
  • Der auf die oben erwähnte Art und Weise erhaltene Codevektor wird in einem Multiplizierer 408 mit dem Gewinn G0 multipliziert, und der stochastische Codevektor wird in einem Multiplizierer 409 mit dem Gewinn G1 multipliziert. Diese Vektoren werden dann durch einen Addierer 410 addiert, und das sich ergebende Signal wird als das Anregungssignal u an einen Synthesefilterabschnitt 406 eingegeben. Diese Operation ist äquivalent zur Gleichung 1 in der Encodierungs-Operation. Der Synthesefilterabschnitt 406 führt eine Synthesefilterverarbeitung durch, welche durch 1/A(z) für den Eingang des Anregungssignalvektors (Vektor, der durch die Multiplikation der zugehörigen Vektoren mit den Gewinnen erhalten wird) repräsentiert wird, auf der Grundlage des adaptiven Codevektors und des stochastischen Codevektors auf dieselbe Art und Weise wie auf der Encodierungs-Seite, wodurch eine synthetisierte Sprache erzeugt wird.
  • Es ist zu erwähnen, dass ein auf der Grundlage des erzeugten Anregungssignals u durch ein Anregungsfilter 407 modifiziertes Anregungssignal v als die spätesten Daten im adaptiven Codebuch wie in der Encodierungs-Operation gespeichert wird. Das bedeutet, dass das adaptive Codebuch, welches Informationen aufweist, die mit den Informationen auf der Encodierungs-Seite übereinstimmen, auch auf der Decodierungs-Seite gehalten wird. Durch die Speicherung des Anregungssignals, das durch das Anregungsfilter im adaptiven Codebuch genauso wie auf der Decodierungs-Seite modifiziert wird, kann ein auf der Encodierungs-Seite erhaltenes Sprachsignal mit geringer Wahrnehmungs-Verzerrung genau reproduziert werden.
  • Die funktionelle Rolle des Anregungsfilters in der Encodierungs-/Decodierungs-Operation der vorliegenden Erfindung wird mit Bezug auf 5 beschrieben. Unter Bezugnahme auf 5 kennzeichnet das Referenzsymbol (a) die Zeit-Wellenform eines Anregungssignals vor der Modifikation; (b) kennzeichnet die Zeit-Wellenform eines Anregungssignals nach der Modifikation unter Benutzung eines Anregungsfilters; und (c) und (d) kennzeichnen die Amplitudenmerkmale des Anregungssignals (a) und des modifizierten Anregungssignals (b) auf der Frequenzachse.
  • Wie durch die gestrichelte Linie dargestellt, ist die Frequenzamplitude des Anregungssignals u vor der Modifikation unter Benutzung eines Anregungsfilters fast flach ohne irgendeine Neigung im Durchschnitt. Im Gegensatz dazu ist die Frequenzamplitude des durch das Anregungsfilter 110 modifizierte Anregungssignal v im Mittel nicht flach, aber weist eine Neigung unter Aufweisung einer höheren Amplitude in einem Bereich mit niedriger Frequenz auf. Dies zeigt an, dass die Frequenzmerkmale des Anregungsfilters mit jenen, durch die gestrichelte Linie repräsentierten Frequenzmerkmalen, aufgezeigt durch „(d)" in 5, äquivalent sind. Im Allgemeinen weist dieser Filter Tiefpass-Merkmale auf.
  • Wie oben beschrieben, steuert ein adaptiver Codevektor mehr einem besseren Ausdruck einer Anregungsquelle in einem niedrigen Frequenzbereich bei, und somit wird ein Anregungsfilter mit solchen Merkmalen bevorzugt benutzt, um eine hohe Qualität zu realisieren. Außerdem bleibt die Leistung eines Anregungssignals, welches das Filter durchlaufen hat, bevorzugt dieselbige. In diesem Fall kann ein Anregungsfilter wie folgt gebildet werden: R(z) = b0/(1 – b1z–1),wobei b0 und b1 Filterkoeffizienten darstellen. Es wird bemerkt, dass b0 + b1 = 1 ist.
  • Durch die Benutzung eines Anregungsfilters mit solchen Ausgangsmerkmalen kann das Anregungssignal v(n) nach der Modifikation durch v(n) = b0u(n) + b1v(n – 1)ausgedrückt werden.
  • 6 zeigt schematisch die Verarbeitung mit diesem Anregungsfilter auf. Ein Anregungsfilter 610 enthält einen Verzögerungsabschnitt 611, einen ersten Multiplizierer 612, einen Addierer 613 und einen zweiten Multiplizierer 614. Der Verzögerungsabschnitt 611 verzögert das Ausgangssignal v(n) vom Anregungsfilter um einen Abtastzyklus, um ein Signal v(n – 1) zu erhalten. Der erste Multiplizierer 612 multipliziert dann das Signal v(n – 1) mit dem Filterkoeffizienten b1. Der Addierer 613 addiert das sich ergebende Signal zum Signal, welches durch die Multiplikation des Anregungssignals u(n) mit dem Filterkoeffizienten b0 erhalten wird, unter der Benutzung des zweiten Multiplizierers 614, und gibt das sich ergebende Signal als das multiplizierte Anregungssignal v(n) aus. In diesem Fall wird genauso ein Wert, der die Ungleichung 0 < b1 < 0.25 oder Ähnliches erfüllt, bevorzugt gesetzt, um die Tiefpass-Merkmale zu realisieren.
  • Das zu benutzende Anregungsfilter ist nicht auf die oben genannten rekursiven Filter begrenzt, und die vorliegende Erfindung kann einen nicht rekursiven Filter benutzen, wie den rekursiven Filter, welcher durch R(z) = 1 + k2z–1 ausgedrückt wird, wobei k2 einen Filterkoeffizienten darstellt.
  • In diesem Fall ist ein Anregungssignal v(n) nach der Modifikation, welches durch Eingabe des Anregungssignals u an das Anregungsfilter erhalten wird, gegeben durch v(n) = u(n) + k2u(n – 1).
  • 7 zeigt schematisch die Verarbeitung mit diesem Anregungsfilter auf.
  • Ein Anregungsfilter 710 enthält einen Verzögerungsabschnitt 711, einen Multiplizierer 712 und einen Addierer 713. Der Verzögerungsabschnitt 711 verzögert das Anregungssignal v(n) um einen Abtastzyklus, um ein Signal u(n – 1) zu erhalten. Der erste Multiplizierer 712 multipliziert dann das Signal u(n – 1) mit einem Filterkoeffizienten k2. Der Addierer 713 addiert das Anregungssignal u(n) mit dem sich ergebenden Signal und gibt das sich ergebende Signal als das modifizierte Anregungssignal v(n) aus.
  • Wie oben beschrieben kann ein besserer Effekt durch das Vorsehen von Tiefpass-Merkmalen erhalten werden, da ein besserer Effekt durch die Zunahme des Grads der Beitrags in einem niedrigen Frequenzband erhalten werden kann. Gemäß von Experimenten wird ein Wert, der die Ungleichung 0 < k2 < 0.25 oder Ähnliches erfüllt, bevorzugt gesetzt. In diesem Fall kann auch der Gewinn des Anregungsfilters angepasst werden. In diesem Fall kann das folgende Anregungsfilter benutzt werden: R(z) = c0 + c1z–1,wobei c0 und c1 die Filterkoeffizienten darstellen.
  • In diesem Fall ist das Anregungssignal v(n) nach der Modifikation, welches durch die Eingabe des Anregungssignals u an das Anregungsfilter erhalten wird, gegeben durch v(n) = c0u(n) + c1u(n – 1).
  • Der Gewinn des Anregungsfilters kann auf 1 durch das Setzen von c0 + c1 = 1 gesetzt werden. In diesem Fall kann genauso ein besserer Effekt durch das Vorsehen von Tiefpass-Merkmalen für das Anregungsfilter erhalten werden, wie oben beschrieben, da ein besserer Effekt durch die Zunahme des Grads des Beitrags in einem niedrigen Frequenzband erhalten wird. Ein Wert, der die Ungleichung 0 < (c1/c0) < 0.25 oder Ähnliches erfüllt, wird bevorzugt gesetzt.
  • 8 zeigt schematisch die Verarbeitung mit diesem Anregungsfilter auf. Ein Anregungsfilter 810 enthält einen Verzögerungsabschnitt 811, einen ersten Multiplizierer 812, einen Addierer 813 und einen zweiten Multiplizierer 814. Der Verzögerungsabschnitt 811 verzögert das Anregungssignal v(n) um einen Abtastzyklus, um das Signal u(n – 1) zu erhalten. Der erste Multiplizierer 812 multipliziert das Signal u(n – 1) mit einem Filterkoeffizienten c1. Der Addierer 813 addiert dann das sich ergebende Signal zum Signal, welches durch die Multiplikation des Anregungssignals u(n) mit einem Filterkoeffizienten c0 erhalten wird, unter Benutzung des zweiten Multiplizierers 814, und gibt das sich ergebende Signal als das modifizierte Anregungssignal v(n) aus.
  • Der Anregungsfilter muss keine festgelegten Merkmale aufweisen. Eine Mehrzahl von Anregungsfiltern mit unterschiedlichen Merkmalen kann ausgewählt benutzt werden, oder ein Anregungsfilter mit veränderlichen Merkmalen, z. B. ein Anregungsfilter, das fähig ist, den Wert des/der Filterkoeffizienten zu verändern, kann benutzt werden. Es wird bemerkt, dass die Informationsübertragung durchgeführt werden muss, um die Benutzung von Anregungsfiltern mit denselben Merkmalen auf den Encodierungs- und Decodierungs-Seiten zu erlauben.
  • Es ist z. B. ein Verfahren zum Ändern der Filtermerkmale eines Anregungsfilters durch die Benutzung der encodierten Informationen eines Sprachsignals verfügbar. Ein Mechanismus, um die Filtermerkmale des in 1 aufgezeigten Anregungsfilters auf der Grundlage von gegenwärtigen oder vergangenen, encodierten Informationen (A, L, G und Ähnliches) adaptiv zu machen, kann benutzt werden. In diesem Fall ist ein Filtermerkmal R(f(y), z): f(y) des Anregungsfilters eine Funktion von einer variablen y, und y kann als gegenwärtige oder vergangene, encodierte Informationen ausgedrückt werden. Alternativ können Anregungsfilter durch das Auswählen eines Satzes von Anregungsfilterkoeffizienten aus einer Mehrzahl von Sätzen von Anregungsfilterkoeffizienten umgeschaltet werden.
  • Durch das Umschalten der Merkmale eines Anregungsfilters auf der Grundlage der encodierten Sprachinformationen kann ein Anregungsfilter in Übereinstimmung mit den Merkmalen eines Sprachsignals adaptiv benutzt werden. Außerdem gibt es keinen Bedarf, zusätzliche Informationen zu senden, die für das Umschalten der Anregungsfilter erforderlich sind.
  • Ein für die Erzeugung einer synthetisierten Sprache benutztes Anregungssignal kann bevorzugt im adaptiven Codebuch ohne irgendeine Modifikation in Abhängigkeit von Bedingungen gespeichert werden. Aus diesem Grund wird das Umschalten der Anregungsfilter oder die Änderung der Filterkoeffizienten bevorzugt unter Berücksichtigung des oben genannten Falls ausgewählt, genauso für den Fall, bei dem keine Anregungsfilterung durchgeführt wird. Die vorliegende Erfindung ist nicht auf jene, oben beschriebene Anregungsfilter beschränkt, und unterschiedliche Anregungsfilter können benutzt werden. Durch die Aktualisierung des adaptiven Codebuchs mit Anregungssignalen, welche eine durchgeführte Modifikation durch das Anregungsfilter aufweisen, kann ein adaptives Codebuch erhalten werden, das einen Schwerpunkt auf einen Abschnitt setzt, der einen großen Beitrag zu einem Anregungssignal aufweist.
  • Eine synthetisierte Sprache kann erhalten werden, welche eine hohe Qualität aufweist, verglichen mit einem Fall, bei dem ein adaptives Codebuch benutzt wird, das Anregungssignale ohne irgendwelche Änderungen speichert.
  • Wie oben beschrieben wurde, kann gemäß der vorliegenden Erfindung ein Sprachencodier-/-decodierverfahren erhalten werden, die fähig sind, eine synthetisierte Sprache mit hoher Qualität zu erhalten.

Claims (12)

  1. Sprachencodier-Verfahren, die folgenden Schritte umfassend: Addieren (113) eines ersten Signals aus einem adaptiven Codebuch (105), das ein vergangenes, tiefpassgefiltertes Anregungssignal speichert, und eines zweiten Signals aus einem zweiten Codebuch (107), um ein Anregungssignal zu erzeugen; Erzeugen (104) eines synthetisierten Sprachsignals unter Verwendung des Anregungssignals; Filtern (110) des Anregungssignals durch ein Anregungsfilter mit Tiefpass-Merkmalen, um ein tiefpassgefiltertes Anregungssignal zu erzeugen; und Speichern des tiefpassgefilterten Anregungssignals im adaptiven Codebuch (105).
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Filterungsschritt durch ein rekursives Filter ausgeführt wird, welches durch R(z) = 1/(1 – k1z–1), |k1: Filterkoeffizient|, in einem z-Transformations-Bereich ausgedrückt wird.
  3. Verfahren nach Anspruch 1, wobei das zweite Codebuch ein stochastisches Codebuch ist.
  4. Sprachencodier-Vorrichtung, umfassend: ein adaptives Codebuch (105), das konfiguriert ist ein vergangenes, tiefpassgefiltertes Anregungssignal zu speichern; ein zweites Codebuch (107), das konfiguriert ist ein zweites Signal zu erzeugen; einen Addierer (113), der konfiguriert ist ein erstes Signal aus dem adaptiven Codebuch (105) und das zweite Signal aus dem zweiten Codebuch (107) zu addieren, um ein Anregungssignal zu erzeugen; ein Synthese-Filter (104), das konfiguriert ist ein synthetisiertes Sprachsignal unter Verwendung des Anregungssignals zu erzeugen; und ein Anregungsfilter (110) mit Tiefpass-Merkmalen, das konfiguriert ist das Anregungssignal zu filtern und das tiefpassgefilterte Anregungssignal zu erzeugen, das im adaptiven Codebuch (105) zu speichern ist.
  5. Sprachencodier-Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, dass das erste Signal in einem adaptiven Codevektor mit einem Gewinn multipliziert wird, und das zweite Codebuch ein stochastisches Codebuch ist.
  6. Sprachencodier-Vorrichtung nach Anspruch 4 und umfassend eine Spracheingabeeinrichtung, konfiguriert, um ein Sprachsignal dorthin zu führen.
  7. Sprachdecodier-Verfahren, die folgenden Schritte umfassend: Addieren (410) eines ersten Signals aus einem adaptiven Codebuch (403), das ein vergangenes, tiefpassgefiltertes Anregungssignal speichert, und eines zweiten Signals aus einem zweiten Codebuch (404), um ein Anregungssignal zu erzeugen; Erzeugen (406) eines synthetisierten Sprachsignals unter Verwendung des Anregungssignals; Filtern (407) des Anregungssignals durch ein Anregungsfilter mit Tiefpass-Merkmalen, um ein tiefpassgefiltertes Anregungssignal zu erzeugen; und Speichern des tiefpassgefilterten Anregungssignals im adaptiven Codebuch (403).
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass der Filterungsschritt durch ein rekursives Filter ausgeführt wird, welches durch R(z) = 1/(1 – k1z–1), |k1: Filterkoeffizient|, in einem z-Transformations-Bereich ausgedrückt wird.
  9. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass das zweite Codebuch ein stochastisches Codebuch (404) ist.
  10. Sprachencodier-Vorrichtung, umfassend: ein adaptives Codebuch (403), das konfiguriert ist ein vergangenes, tiefpassgefiltertes Anregungssignal zu speichern und konfiguriert ist ein erstes Signal zu erzeugen; ein zweites Codebuch (404), das konfiguriert ist ein zweites Signal zu erzeugen; einen Addierer (410), der konfiguriert ist das erste Signal und das zweite Signal zu addieren, um ein Anregungssignal zu erzeugen; ein Synthese-Filter (406), das konfiguriert ist ein synthetisiertes Sprachsignal unter Verwendung des Anregungssignals zu erzeugen; und ein Anregungsfilter (407) mit Tiefpass-Merkmalen, das konfiguriert ist das Anregungssignal zu filtern und ein tiefpassgefiltertes Anregungssignal zu erzeugen, das im adaptiven Codebuch (403) zu speichern ist.
  11. Sprachdecodier-Vorrichtung nach Anspruch 9 und umfassend: eine Spracheingabeeinrichtung, die konfiguriert ist ein Sprachsignal auszugeben.
  12. Elektronische Vorrichtung, umfassend: eine Sprachencodier-Vorrichtung wie in Anspruch 4 beansprucht und eine Sprachdecodier-Vorrichtung wie in Anspruch 10 beansprucht.
DE60125491T 2000-10-20 2001-03-16 Tiefpaßfilterung des Anregungssignals für die Sprachkodierung Expired - Lifetime DE60125491T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000320679 2000-10-20
JP2000320679A JP3462464B2 (ja) 2000-10-20 2000-10-20 音声符号化方法、音声復号化方法及び電子装置

Publications (2)

Publication Number Publication Date
DE60125491D1 DE60125491D1 (de) 2007-02-08
DE60125491T2 true DE60125491T2 (de) 2007-10-04

Family

ID=18798927

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60125491T Expired - Lifetime DE60125491T2 (de) 2000-10-20 2001-03-16 Tiefpaßfilterung des Anregungssignals für die Sprachkodierung

Country Status (4)

Country Link
US (1) US6842732B2 (de)
EP (1) EP1204094B1 (de)
JP (1) JP3462464B2 (de)
DE (1) DE60125491T2 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6725500A (en) * 1999-08-23 2001-03-19 Matsushita Electric Industrial Co., Ltd. Voice encoder and voice encoding method
JP2004061646A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd Tfo機能を有する音声符号化器および方法
JP4433668B2 (ja) * 2002-10-31 2010-03-17 日本電気株式会社 帯域拡張装置及び方法
JP5127170B2 (ja) * 2006-07-07 2013-01-23 株式会社東芝 復号装置およびスペクトル整形方法
WO2013063688A1 (en) * 2011-11-03 2013-05-10 Voiceage Corporation Improving non-speech content for low rate celp decoder
US20210366461A1 (en) * 2020-05-20 2021-11-25 Resemble.ai Generating speech signals using both neural network-based vocoding and generative adversarial training

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04352199A (ja) 1991-05-30 1992-12-07 Fujitsu Ltd 音声符号化及び復号化方式
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JPH10149200A (ja) 1996-11-20 1998-06-02 Olympus Optical Co Ltd 線形予測符号化装置
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP2000122698A (ja) 1998-10-19 2000-04-28 Mitsubishi Electric Corp 音声符号化装置
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding

Also Published As

Publication number Publication date
EP1204094B1 (de) 2006-12-27
EP1204094A3 (de) 2004-01-14
US6842732B2 (en) 2005-01-11
JP3462464B2 (ja) 2003-11-05
JP2002132300A (ja) 2002-05-09
US20020052745A1 (en) 2002-05-02
DE60125491D1 (de) 2007-02-08
EP1204094A2 (de) 2002-05-08

Similar Documents

Publication Publication Date Title
DE69932460T2 (de) Sprachkodierer/dekodierer
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69628103T2 (de) Verfahren und Filter zur Hervorbebung von Formanten
DE69928288T2 (de) Kodierung periodischer sprache
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE60124274T2 (de) Codebuchstruktur und suchverfahren für die sprachkodierung
DE60011051T2 (de) Celp-transkodierung
DE69531642T2 (de) Synthese eines Anregungssignals bei Ausfall von Datenrahmen oder Verlust von Datenpaketen
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE60120766T2 (de) Indizieren von impulspositionen und vorzeichen in algebraischen codebüchern zur codierung von breitbandsignalen
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE19604273C5 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE3244476C2 (de)
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE19647298C2 (de) Kodiersystem
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache

Legal Events

Date Code Title Description
8381 Inventor (new situation)

Inventor name: MISEKI, KIMIO, MINATO-KU, TOKYO 105-8001, JP

8364 No opposition during term of opposition