DE69720527T2 - Verfahren zur kodierung eines sprachsignals - Google Patents

Verfahren zur kodierung eines sprachsignals Download PDF

Info

Publication number
DE69720527T2
DE69720527T2 DE69720527T DE69720527T DE69720527T2 DE 69720527 T2 DE69720527 T2 DE 69720527T2 DE 69720527 T DE69720527 T DE 69720527T DE 69720527 T DE69720527 T DE 69720527T DE 69720527 T2 DE69720527 T2 DE 69720527T2
Authority
DE
Germany
Prior art keywords
signal
coefficients
transformation
harmonics
transform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69720527T
Other languages
English (en)
Other versions
DE69720527D1 (de
Inventor
Boon Wee CHOO
Ngee Soo KOH
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Germany Holding GmbH
Original Assignee
Infineon Technologies AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infineon Technologies AG filed Critical Infineon Technologies AG
Application granted granted Critical
Publication of DE69720527D1 publication Critical patent/DE69720527D1/de
Publication of DE69720527T2 publication Critical patent/DE69720527T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Diese Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Codieren eines Sprachsignals und insbesondere, jedoch nicht ausschließlich, auf ein Verfahren und eine Vorrichtung zum Codieren von Sprache für die Übertragung und Speicherung mit niedriger Bitrate.
  • HINTERGRUND DER ERFINDUNG
  • In vielen Audio-Anwendungen ist es wünschenswert ein Audiosignal, wie beispielsweise ein Sprachsignal, digital zu übertragen oder zu speichem. Anstelle des Versuchs des Abtastens und anschließender Wiedergabe des Sprachsignals wird oftmals ein Vocoder eingesetzt, der ein synthetisiertes Sprachsignal konstruiert, das die Hauptmerkmale des Audiosignals enthält, wobei das synthetisierte Signal anschließend für die Wiedergabe decodiert wird.
  • Ein für den Einsatz mit einem Vocoder vorgeschlagener Codierungsalgorithmus verwendet ein Sprachmodell, das man als Mehrband-Anregungsmodell (Multi-Band Excitation Model = MBE) bezeichnet. Dieses Modell wurde zuerst in der Abhandlung "Multi-Band Excitation Vocoder" von Griffin und Lim, IEEE Transactions on Acoustics, Speech and Signal Processing, Band 36; Nr. 8, August 1988, Seite 1223 vorgeschlagen. Das MBE-Modell unterteilt das Sprachsignal in eine Vielzahl von Datenblöcken, die unabhängig analysiert werden, um einen Satz von Parametern zu erzeugen. Diese Parameter bilden das Sprachsignal bei diesem Datenblock nach, wobei sie für die Übertragung/Speicherung anschließend codiert werden. Das Sprachsignal in jedem Datenblock wird in eine Anzahl von Frequenzbändern unterteilt und für jedes Frequenzband wird eine Entscheidung getroffen, ob dieser Abschnitt des Spektrums eine Stimmelkeine Stimme enthält und dann entweder durch periodische Energie im Falle einer Entscheidung Stimme oder durch rauschähnliche Energie im Falle einer Entscheidung keine Stimme dargestellt. Unter Verwendung des Modells wird das Sprachsignal in jedem Datenblock mittels Informationen charakterisiert, die die Grundfrequenz des Sprachsignals in dem Datenblock, Entscheidungen Stimme/keine Stimme für die Frequenzbänder und die entsprechenden Amplituden für die Oberwellen in jedem Band enthalten. Diese Informationen werden dann umgewandelt und vektorquantisiert, um das Codierausgangssignal bereitzustellen. Das Ausgangssignal wird decodiert, indem dieses Verfahren umgekehrt wird. Ein Vorschlag für die Implementierung eines Vocoders mittels des Mehrband-Anregungsmodells ist in dem Inmarsat-M Voice Codec, Version 3, August 1991 SDM/M, Mod. 1/Appendix 1 (Digital Voice System Inc.) zu finden.
  • Ein Problem bei der Implementierung eines solchen Vocoders ist, dass sich die Periode der Grundtonlage und die Anzahl der Oberwellen von Datenblock zu Datenblock ändert, da diese Eigenschaften Funktionen des Sprechers sind. So hat eine männliche Stimme eine niedrigere Grundfrequenz mit mehr harmonischen Komponenten, wohingegen eine weibliche Stimme eine höhere Grundfrequenz mit weniger Oberwellen aufweist. Dies führt zu einem Quantisierungsproblem von Vektoren mit variabler Dimension. Eine vorgeschlagene Lösung für das Problem ist es, das Sprachsignal zu kürzen, indem nur eine vorbestimmte Anzahl von Oberwellen ausgewählt wird. Ein derartiger Ansatz hat jedoch einen inakzeptablen Qualitätsverlust der Sprache zur Folge, insbesondere dann, wenn der Sprecher des rekonstruierten Sprachsignals erkannt werden soll.
  • Ein Vorschlag zur Problemverringerung ist die Verwendung einer Nicht-Quadrat-Transformation-Vektorquantisierung (NST =Non-Sguare Transform), wie sie von Lupini und Cuperman in IEEE Signal Processing Letters, Band 3, Nr. 1, Januar 1996 und Cuperman, Lupini und Bhattacharya in der Abhandlung "Spectral Excitation Coding of Speech at 2.4 kb/s" Proceedings, IEEE Intemational Conference on Acoustics, Speech and Signal Processing 1995, Band 1, Seiten 496–499 vorgeschlagen wird. Bei diesem Ansatz transformiert die NST die wechselnde Anzahl von spektralen Oberwellenamplituden in eine feste Anzahl von Transformationskoeffizienten, die anschließend vektorquantisiert werden.
  • Ein Nachteil dieses Vorschlags ist jedoch, dass die Operation der Nicht-Quadrat-Transformation rechnerisch sehr komplex ist. Das liegt daran, dass die Transformation von Vektoren mit wechselnder Dimension in Vektoren von entweder 30 oder 40 festen Dimensionen in diesem Vorschlag sehr rechenintensiv ist und ein großer Speicher benötigt wird, um alle Elemente der Transformationsmatrizen zu speichern. Der empfohlene Vektor mit fester Dimension benötigt eine einstufige Quantisierung, die ebenfalls einen hohen Rechenaufwand verursacht. Ein weiterer Nachteil der NST-Vektorquantisierung ist, dass das Verfahren eine Verzerrung in das Sprachsignal einbringt, die die Erkennungsqualität der wiedergegebenen Sprache verschlechtert, wenn die Größe des Codeiexikons des Vektorquantisierers klein ist.
  • In einigen Anwendungen ist es wünschenswert, die Sprache bei niedriger Bitrate zu codieren, wie beispielsweise 2,4 kbps oder weniger. Ein auf diese Weise codiertes Sprachsignal benötigt weniger Speicherplatz, um das Signal digital zu speichern, wodurch die Kosten für ein Gerät, das die Bitrate verwendet, niedrig gehalten werden. Die Verwendung der NST-Vektorquantisierung, für die folglich eine hohe Rechenleistung und ein großer Speicher benötigt werden, liefert zusammen mit dem Problem der Verzerrung keine durchführbare Lösung des Problems einer kostengünstigen Codierung und Speicherung von Sprache bei derart niedrigen Bitraten.
  • Aufgabe der Erfindung ist es, ein Verfahren und eine Vorrichtung zur Sprachcodierung bereitzustellen, bei dem zumindest einer der Nachteile aus dem Stand der Technik verringert wird.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß der Erfindung unter dem ersten Aspekt wird ein Verfahren zum Codieren eines Sprachsignals mit den folgenden Schritten bereitgestellt:
    Abtasten des Sprachsignals;
    Unterteilen des abgetasteten Sprachsignals in eine Vielzahl von Datenblöcken;
    Durchführen einer Mehrband-Anregungsanalyse an dem Signal innerhalb jedes Datenblocks, um eine Grundtonlage, eine Vielzahl von Entscheidungen Stimmelkeine Stimme für Frequenzbänder im Signal und Amplituden von Oberwellen innerhalb der Bänder abzuleiten;
    Transformieren der Oberwellenamplituden, um eine Vielzahl von Transformationskoeffizienten zu erzeugen;
    Vektorquantisieren der Koeffizienten, um eine Vielzahl von Indizes zu erzeugen; gekennzeichnet durch
    Unterteilen der Oberwellenamplituden in eine erste Gruppe mit einer festen Anzahl von Oberwellen und eine zweite Gruppe des Rests der Oberwellen, wobei die erste und die zweite Gruppe verschiedenen Transformationen unterzogen werden, um jeweilige erste und zweite Sätze von Transformationskoefitzienten zur Quantisierung zu erzeugen.
  • Vorzugsweise ist die erste Transformation eine diskrete Cosinus Transformation (DCT), die die erste vorbestimmte Anzahl von Oberwellen in dieselbe Anzahl von ersten Transformationskoeffizienten transformiert. Die zweite Transformation ist vorzugsweise eine Nicht-Quadrat-Transformation (NST), die die Reste der Oberwellen in eine feste Anzahl von zweiten Transformationskoeffizienten transformiert.
  • Am meisten bevorzugt ist es, wenn die erste Gruppe die ersten 8 Oberwellen des Audio-Signals umfasst, die in 8 Transformationskoeffizienten transformiert werden, und die zweite Gruppe den Rest der Oberwellen umfasst, die ebenfalls in 8 Transformationskoeffizienten transformiert werden.
  • Bei dem Verfahren der Erfindung wird die erste Gruppe von Oberwellen als Gruppe mit den wichtigsten Oberwellen ausgewählt für den Zweck, das rekonstruierte Sprachsignal zu erkennen. Da die Anzahl von derartigen Oberwellen fest ist, kann eine Transformation fester Dimension, wie beispielsweise die DCT verwendet werden, wodurch sich die Verzerrung minimieren Isst und die Dimension der wichtigsten Parameter unverändert bleibt. Auf der anderen Seite werden die restlichen weniger bedeutenden Oberwellen transformiert, indem die NST-Transformation mit variabler Dimension verwendet wird. Da nur die weniger bedeutenden Oberwellen mittels der NST transformiert werden, wird der Verzerrungseffekt auf die Reproduzierbarkeit des Audio-Signals minimiert.
  • Außerdem, da die Oberwellen in zwei Gruppen unterteilt werden, ist der Grad der Rechenleistung, der für die Transformation und Codierung der folglich kleineren Vektoren notwendig ist, geringer, wodurch die für den Codieren notwendige Rechenleistung reduziert wird.
  • Gemäß der Erfindung unter einem zweiten Aspekt wird ein Verfahren zum Decodieren eines Eingangsdatensignals für die Sprachsynthese mit den folgenden Schritten bereitgestellt:
    Vektordequantisieren einer Vielzahl von Indizes des Datensignals, um erste und zweite Sätze von Transformationskoeffiziehten zu erzeugen;
    inverses Transformieren der ersten und zweiten Sätze von Koeffizienten mit verschiedenen inversen Transformationen, um jeweilige erste und zweite Gruppen von Oberwellenamplituden abzuleiten;
    Ableiten einer Tonlageinformation und einer Entscheidungsinformation Stimmelkeine Stimme aus dem Eingangsdaterisignal;
    Durchführen einer Mehrband-Anregunganalyse an der Information und den Oberwellenamplituden, um ein synthetisiertes Signal zu erzeugen; und
    Konstruieren eines Sprachsignals aus dem synthetisierten Signal.
  • Gemäß der Erfindung unter einem dritten Aspekt wird eine Vorrichtung zur Sprachcodierung bereitgestellt, die folgendes umfasst:
    eine Einrichtung zum Abtasten eines Sprachsignals und Unterteilen des abgetasteten Signals in eine Velzahl von Datenblöcken;
    ein Mehrband-Anregungsanalysator zum Ableiten einer Grundtonlage und einer Vielzahl von Entscheidungen Stimme/keine Stimme für Frequenzbänder in jedem Datenblock und Amplituden von Oberwellen innerhalb der Bänder;
    eine Transformationseinrichtung zum Transformieren der Oberwellenamplituden, um eine Vielzahl von Transformationskoeftizienten zu erzeugen;
    eine Vektorquantisierungseinrichtung zum Quantisieren der Koeffizienten, um eine Vielzahl von Indizes zu erzeugen;
    dadurch gekennzeichnet, dass die Trarlsformationseinrichtung eine erste Transformationseinrichtung zum Transformieren einer ersten festen Anzahl von Oberwellen in einen ersten Satz von Transformationskoeffizienten und eine zweite Transformationseinrichtung zum Transfonrieren des Rests der Oberwellenamplituden mit einer unterschiedlichen Transformation in einen zweiten Satz von Transformationskoeffizienten umfasst.
  • Gemäß der Erfindung unter einem vierten Aspekt wird eine Decodiervorrichtung zum Decodieren eines Eingangsdatensignals zur Sprachsynthese bereitgestellt, bestehend aus einer Vektordequantisierungseinrichtung zum Dequantisieren einer Vielzahl von Indizes, um mindestens zwei Sätze von Transformationskoeffizienten zu erzeugen, einer ersten und einer zweiten Transformationseinrichtung zum inversen Transformieren jeweils des ersten und des zweiten Satzes von Koeffizienten mit verschiedenen inversen Transformationen, um eine erste und zweite Gruppe von Oberwellenamplituden abzuleiten, einem Mehrband-Anregungssynthesizer zum Kombinieren der Oberwellen mit einer Tonlageinformation und einer Entscheidungsinformation Stimmelkeine Stimme aus dem Eingangssignal und einer Einrichtung zum Konstruieren eines Sprachsignals aus dem Ausgangssignal des Synthesizers.
  • Eine Ausführungsform der vorliegenden Erfindung wird nun beispielhaft unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, in denen:
  • 1. 1 ein Blockdiagramm einer Ausführungsform einer Codiervorrichtung der Erfindung darstellt;
  • 2. 2 ein Blockdiagramm einer Ausführungsform einer Decodiervorrichtung der Erfindung zum Decodieren von Sprache darstellt, die unter Verwendung der Ausführungsform in 1 codiert wurde.
  • GENAUE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
  • Unter Bezugnahme auf 1 wird eine Ausführungsform einer Codiervorrichtung gemäß der Erfindung gezeigt.
  • Die Ausführungsform beruht auf einem Mehrband-Anregungs-Sprachcodierer (MBE = Multi-Band Excitation), in dem ein Eingangssprachsignal abgetastet und bei Block 100 von analog in digital gewandelt wird. Die Abtastwerte werden anschließend unter Verwendung des MBE-Modells bei Block 110 analysiert. Die MBE-Analyse gruppiert die Abtastwerte in Datenblöcke von 160 Abtastwerten, führt eine diskrete Fourier Transformation auf jeden Datenblock aus, leitet die Grundtonlage des Datenblocks ab und unterteilt die Oberwellen des Datenblocks in Bänder und trifft Entscheidungen Stimme (keine Stimme für jedes Band. Diese Information wird dann mittels eines herkömmlichen MBE-Quantisierers 120 quantisiert (wobei die Tonlageinformation in 8 Bits skalarquantisiert wird und die Entscheidung Stimme 1 keine Stimme durch ein Bit dargestellt wird), und mit vektorquantisierten Oberwellen, gemäß nachfolgender Beschreibung, bei Block 130 kombiniert, um eine Digitaldarstellung jedes Datenblocks zur Übertragung oder Speicherung zu erzeugen.
  • Die MBE-Analyse bei Schritt 110 liefert ferner ein Ausgangssignal von Oberwellenamplituden, und zwar eines für jede Oberwelle im Datenblock des Sprachsignals. Die Anzahl N von Oberwellenamplituden variiert in Abhängigkeit von dem Sprachsignal in dem Datenblock und wild in zwei Gruppen unterteilt: eine Gruppe von fester Größe der ersten 8 Oberwellen, die normalerweise die wichtigsten Oberwellen des Datenblocks sind, und eine Gruppe von variabler Größe des Rests. Die ersten 8 Oberwellen werden einer diskreten Cosinus Transformation (DCT) bei Block 140 unterzogen, um einen ersten Formvektor zu erzeugen, der 8 erste Transformationskoeffizienten bei Block 150 umfasst. Die verbleibenden N-8-Oberwellen werden einer Nicht-Quadrat-Transformation (NST) bei Block 180 unterzogen, um 8 letzte Transformationskoeffizienten bei Block 170 zu erzeugen. Die ersten 8 Oberwellen, die allgemein die wichtigsten Oberwellen darstellen und DGTtransformiert werden, werden genau transformiert. Die verbleibenden Oberwellen, die NST-transformiert werden, werden weniger genau transformiert. Da sie aber weniger bedeutend sind, wird die Qualität der decodierten Sprache nicht nennenswert beeinträchtigt, trotz der geringeren Anforderung an die Rechenleistung.
  • Jeder der Transforrnationskoeffizienten, die bei den Blöcken 150, 170 erzeugt werden, wird anschließend normiert, um einen Verstärkungswert und 8 normierte Koeffizienten bereitzustellen. Die Verstärkungswerte werden in einen einzelnen Verstärkungsvektor bei Block 180 kombiniert (die Verstärkungswerte für den ersten und letzten Transformationskoeffienten bleiben hierbei im Verstärkungsvektor unabhängig) und die normierte Koeffizienten und die Verstärkungsvektoren werden anschließend in den Vektorquantisierern 190, 200, 210 in Übereinstimmung mit den einzelnen Vektor-Codelexika quantisiert.
  • Wie gezeigt ist das Codelexikon für die ersten 8 Transformationskoeffizienten von der Dimension 256 mal 8, für die letzten Transformationskoefflzienten von der Dimension 512 mal 8 und für die Verstärkungswerte von der Dimension 2048 mal 2. Die Größe des Codelexikons kann in Abhängigkeit vom Grad der Annäherung der gewünschten codierten Informationen geändert werden – je größer das Codelexikon, desto genauer der Quantisierungsvorgang zu Lasten einer größeren Rechenleistung bzw. eines größeren Speichers.
  • Das Ausgangssignal aus den Quantisierern 190210 besteht aus den drei Codelexikon-Indizes 1113, die mit der quantisierten Tonlageinformation und der Information Stimmelkeine Stimme bei Block 130 kombiniert werden, um ein digitales Datensignal für jeden Datenblock zu erzeugen. Der Kombinationsvorgang bei Block 130 behält jedes Element einzeln in einer vorbestimmten Reihenfolge bei, um eine Decodierung wie nachfolgend beschrieben zu ermöglichen.
  • Unter Bezugnahme auf 2 wird ein Decodierer zum Decodieren des Ausgangssignals von 1 gezeigt, der die inverse Operation des Codierers von 1 ausführt, wobei die Blöcke des Decodierers, die dieselben inversen Funktionen aufweisen, durch gleiche Referenzahlen unter Addition der Zahl 200 dargestellt wurden.
  • Das Datensignal wird bei Block 330 in seine Bestandteile unterteilt, den Indizes 11-13 und der quantisierten Tonlageinformation und der Entscheidungsinforration Stimme/keine Stimme. Die drei Codelexikon-Indizes 1113 werden durch Extrahieren der korrekten Einträge aus den entsprechenden Codelexika in den Blöcken 390, 400, 410 decodiert. Die Verstärkungsinformation wird anschließend für jeden Satz von Transformationskoeffizienten bei Block 380 extrahiert und mit den ausgegebenen normierten Koeffizienten bei 382, 384 multipliziert, um die ersten und letzten 8 Transformationskoeffizienten bei den Blöcken 350, 370 zu erzeugen. Die zwei Gruppen von Transformationskoeffizienten werden bei den Blöcken 340, 360 invers transformiert und an einen Mehrband-Anregungssynfihesizer 310 ausgegeben, zusammen mit der Tonlageinformation und der Entscheidungsinformation Stimmelkeine Stimme, die aus einem MBf-Dequantisierer 330 extrahiert wurde, der die 8-Bit-Daten mittels einer Decodiertabelle decodiert.
  • Der MBE-Synthesizer 310 fuhrt anschließend die umgekehrte Operation zum Analysator 110 aus, indem er die Signalkomponenten zusammenfügt, eine inverse diskrete Fourier-Transformation für stimmlose Bänder durchführt, eine stimmhafte Sprachsynthese mittels der decodierten Oberwellenamplituden durchführt, um einen Satz von sinusförmigen Oszilfatoren für die stimmhaften Bänder zu steuern, die synthetisierten stimmhafen und stimmlosen Signale in jedem Datenblock kombiniert und die Datenblöcke verbindet, um einen Signalausgang zu erzeugen. Das vom Synthesizer 310 ausgegebene Signal passiert dann einen Digital-Analog-Wandler bei Block 300, um ein Audiosignal zu erzeugen.
  • Die Ausführungsform der Erfindung findet insbesondere in solchen Geräten Anwendung, bei denen es wünschenswert ist, ein Audio-Signal in digitaler Form zu speichern, beispielsweise in einem digitalen Anrufbeantworter oder einem digitalen Diktiergerät. Die Ausführungsform der vorliegenden Erfindung ist insbesondere in einem digitalen Anrufbeantworter anwendbar, da es einerseits das Ziel ist, den Sprecher zu erkennen, es andererseits bei einem relativ kostengünstigen Haushaltsgerät jedoch erforderlich ist, die Rechen- und Speicheranfordenangen für die digitale Codierung niedrig zu halten. Mit Hilfe der Ausführungsform der Erfindung ist es möglich, die digitalen Informationen bei der Bitrate von 2,4 kbps zu speichern. Folglich ist eine relativ niedrige Speicherrate im Vergleich zu beispielsweise anderen Verfahren zum Erzielen von hochwertiger Sprache erforderlich, wie z. B. mit der Code Excited Linear prediction, die für die Fernsprachqualität 16 kbps während der Aufrechterhaltung einer erkennbaren Wiedergabe benötigt.
  • Die beschriebene Ausführungsform ist nicht als einschränkend auszulegen. Obwohl beispielsweise die ersten 8 Oberwellen des Signals als die erste Gruppe von Oberwellen ausgewählt wird, bei der die Transformation fester Dimension angewendet wird, kann auch eine andere Anzahl von Oberwellen je nach Anforderung ausgewählt werden. Außerdem können, obwohl die diskrete Cosinus Transformation und die Nicht-Quadrat-Transformation für die Transformation der beiden Gruppen bevorzugt werden, auch andere Transformationen, wie beispielsweise die Wauelet und Integer-Transformationen oder Methoden verwendet werden. Die Größe der Vektorquantisierungs-Codelexika kann in Abhängigkeit von der Genauigkeit der erforderlichen Quantisierung variiert werden.

Claims (19)

  1. Verfahren zum Codieren eines Sprachsignals mit den Schritten: Abtasten des Sprachsignals; Unterteilen des abgetasteten Sprachsignals in eine Vielzahl von Datenblöcken; Durchführen einer Mehrband-Anregungsanalyse an dem Signal innerhalb jedes Datenblocks, um eine Grundtonlage, eine Vielzahl von Entscheidungen Stimmelkeine Stimme für Frequenzbänder im Signal und Amplituden von Oberwellen innerhalb der Bänder abzuleiten; Transformieren der Oberwellenamplituden, um eine Vielzahl von Trans formationskoeffizienten zu erzeugen; Vektorquantisieren der Koeffizienten, um eine Vielzahl von Indizes zu erzeugen; gekennzeichnet durch Unterteilen der Oberwellenamplituden in eine erste Gruppe mit einer festen Anzahl von Oberwellen und eine zweite Gruppe des Rests der Oberwellen, wobei die erste und die zweite Gruppe verschiedenen Transformationen unterzogen werden, um jeweilige erste und zweite Sätze von Transformationskoeffizienten zur Quantisierung zu erzeugen.
  2. Verfahren nach Anspruch 1, wobei die erste Gruppe unter Verwendung einer diskreten Cosinustransformation transformiert wird.
  3. Verfahren nach Anspruch 1 oder Anspruch 2, wobei die zweite Gruppe unter Verwendung einer Nicht-Quadrat-Transformation transformiert wird.
  4. Verfahren nach einem der vorangehenden Ansprache, wobei die zweite Gruppe von Oberwellen in dieselbe Anzahl von Transformationskoeffizienten wie die erste Gruppe transformiert wird.
  5. Vertahren nach einem der vorangehenden Ansprüche, wobei die erste Gruppe die ersten 8 Oberwellen des Signals innerhalb jedes Datenblocks umfaßt.
  6. Verfahren nach einem der vorangehenden Ansprüche, wobei die Transformationskoeffizienten normiert werden, um narmierte Koeffizienten und einen Verstärkungswert zu erzeugen, wobei die Verstärkungswerte separat von den Säuen von nbrmierten Koeffizienten quantisiert werden.
  7. Verfahren zum Decodieren eines Eingangsdatensignals zur Sprachsynthese mit den Schritten: Vektordequantisieren einer Vielzahl von Indizes des Datensignals, um erste und zweite Sätze von Transformationskoefizienten zu erzeugen; inverses Transformieren der ersten und zweiten Sätze von Koeffizienten mit verschiedenen inversen Transformationen, um jeweilige erste und. zweite Gruppen von Oberwellenamplituden abzuleiten; Ableiten einer Tonlageinformation und einer Entscheidungsinformation Stimmelkeine Stimme aus dem Eingangsdatensignal; Durchführen einer Mehrband-Anregungssynthese an der Information und den Oberwellenamplituden, um ein synthetisiertes Sprachsignal zu erzeugen; und Konstruieren eines Sprachsignals aus dem synthetisierten Signal.
  8. Sprachcodiervorrichtung mit: einer Einrichtung (100) zum Abtasten eines Sprachsignals und Unterteilen des abgetasteten Signals in eine Vielzahl von Datenblöcken; einem Mehrband-Anregungsanalysator (170) zum Ableiten einer Grundtonlage und einer Vielzahl von Entscheidungen Stimmelkeine Stimme für Frequenzbänder in jedem Datenblock und Amplituden van Oberwellen innerhalb der Bänder; einer Transformationseinrichtung (140, 160) zum Transformieren der Oberwellenamplituden, um eine Vielzahl von Transformationskoeffizienten zu erzeugen; einer Vektorquantisierungseinrichtung (190, 200) zum Quantisieren der Koeffizienten, um eine Vielzahl von Indizes zu erzeugen; dadurch gekennzeichnet, dass die Transformationseinrichtung (140, 180) eine erste Transformationseinrichtung (140) zum Transformieren einer ersten festen Anzahl von Oberwellen in einen ersten Satz von Transformati onskoeffizienten und eine zweite Transformationseinrichtung (160) zum Transformieren des Rests der Oberwellenamplituden in einen zweiten Satz von Transformationskoeffizienten mit einer anderen Transformation umfasst,
  9. Vorrichtung nach Anspruch 8, wobei die erste Transformationseinrichtung eine diskrete Cosinustransformation durchführt.
  10. Vorrichtung nach Anspruch 8, wobei die zweite Transformationseinrichtung eine Nicht-Quadrat-Transformation durchführt.
  11. Vorrichtung nach einem der Ansprüche 8 bis 10, wobei die erste Transformationseinrichtung die Transformation an den ersten 8 Oberwellen des Datenblocks durchführt.
  12. Vorrichtung nach einem der Ansprüche 8 bis 11, wobei die zweite Transformationseinrichtung den Rest der Oberwellen in einen zweiten Satz von Transformationskoeffizienten mit derselben Anzahl wie der Satz von ersten Transformationskaeffizienten transformiert.
  13. Vorrichtung nach einem der Ansprüche 8 bis 12, wobei die Vektorquantisierungseinrichtung Codelexika entsprechend jedem Satz von Transformationskoeffizienten umfasst.
  14. Vorrichtung nach einem der Ansprüche 8 bis 13, welche ferner eine Einrich- tung zum Aufteilen der Sätze von Transformationskoeffizienten in Sätze von normierten Koeffizienten und jeweiligen Verstärkungswerten umfasst.
  15. Vorrichtung nach Anspruch 14, wobei die Vektorquantisierungseinrichtung ein separates Codelexikon für die Verstärkungswerte umfasst.
  16. Decodiervorrichtung zum Decodieren eines Eingangsdatensignals zur Sprachsynthese mit einer Vektordequantisierungseinrichtung (390, 400) zum Dequantisieren einer Vielzahl von Indizes, um mindestens zwei Sätze von Transformationskoeffizienten zu erzeugen, einer ersten und einer zweiten Transformationseinrichtung (340, 360) zum inversen Transformieren jeweils des ersten und des zweiten Satzes von Koeffizienten mit verschiedenen inversen Transformationen, um eine erste und eine zweite Gruppe von Oberwellenamplituden abzuleiten, einem Mehrband-Anregungssynthesizer (310) zum Kombinieren der Oberwellen mit einer Tonlageinformation und einer Entscheidungsinformation Stimmelkeine Stimme aus dem Eingangssignal und einer Einrichtung (300) zum Konstruieren eines Sprachsignals aus dem Ausgangssignal des Synthesizers.
  17. System mit einer Vorrichtung nach einem der Ansprüche 8 bis 15 und einer Vorrichtung nach Anspruch 16.
  18. Vorrichtung zum Speichern und Wiedergeben von Sprache mit einer Vorrichtung nach einem der Ansprüche 8 bis 16 oder einem System nach Anspruch 17.
  19. Anrufbeantworter mit einer Vorrichtung nach einem der Ansprüche 8 bis 16 oder einem System nach Anspruch 17.
DE69720527T 1997-09-30 1997-09-30 Verfahren zur kodierung eines sprachsignals Expired - Lifetime DE69720527T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SG1997/000050 WO1999017279A1 (en) 1997-09-30 1997-09-30 A method of encoding a speech signal

Publications (2)

Publication Number Publication Date
DE69720527D1 DE69720527D1 (de) 2003-05-08
DE69720527T2 true DE69720527T2 (de) 2004-03-04

Family

ID=20429572

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69720527T Expired - Lifetime DE69720527T2 (de) 1997-09-30 1997-09-30 Verfahren zur kodierung eines sprachsignals

Country Status (6)

Country Link
US (1) US6269332B1 (de)
EP (1) EP0954853B1 (de)
JP (1) JP2001507822A (de)
AU (1) AU4975597A (de)
DE (1) DE69720527T2 (de)
WO (1) WO1999017279A1 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
US6734971B2 (en) * 2000-12-08 2004-05-11 Lael Instruments Method and apparatus for self-referenced wafer stage positional error mapping
US7310598B1 (en) * 2002-04-12 2007-12-18 University Of Central Florida Research Foundation, Inc. Energy based split vector quantizer employing signal representation in multiple transform domains
US7337110B2 (en) * 2002-08-26 2008-02-26 Motorola, Inc. Structured VSELP codebook for low complexity search
US20060235685A1 (en) * 2005-04-15 2006-10-19 Nokia Corporation Framework for voice conversion
US20080161057A1 (en) * 2005-04-15 2008-07-03 Nokia Corporation Voice conversion in ring tones and other features for a communication device
US8577684B2 (en) 2005-07-13 2013-11-05 Intellisist, Inc. Selective security masking within recorded speech utilizing speech recognition techniques
US8433915B2 (en) 2006-06-28 2013-04-30 Intellisist, Inc. Selective security masking within recorded speech
KR101131880B1 (ko) 2007-03-23 2012-04-03 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치
US8620660B2 (en) 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
US9819798B2 (en) 2013-03-14 2017-11-14 Intellisist, Inc. Computer-implemented system and method for efficiently facilitating appointments within a call center via an automatic call distributor
US9224402B2 (en) * 2013-09-30 2015-12-29 International Business Machines Corporation Wideband speech parameterization for high quality synthesis, transformation and quantization
US10754978B2 (en) 2016-07-29 2020-08-25 Intellisist Inc. Computer-implemented system and method for storing and retrieving sensitive information

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5150410A (en) 1991-04-11 1992-09-22 Itt Corporation Secure digital conferencing system
JP3343965B2 (ja) 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
PL173718B1 (pl) * 1993-06-30 1998-04-30 Sony Corp Sposób i urządzenie do kodowania sygnałów cyfrowych
TW327223B (en) * 1993-09-28 1998-02-21 Sony Co Ltd Methods and apparatus for encoding an input signal broken into frequency components, methods and apparatus for decoding such encoded signal
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6144937A (en) * 1997-07-23 2000-11-07 Texas Instruments Incorporated Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information

Also Published As

Publication number Publication date
AU4975597A (en) 1999-04-23
EP0954853A1 (de) 1999-11-10
DE69720527D1 (de) 2003-05-08
EP0954853B1 (de) 2003-04-02
JP2001507822A (ja) 2001-06-12
US6269332B1 (en) 2001-07-31
WO1999017279A1 (en) 1999-04-08

Similar Documents

Publication Publication Date Title
DE69815650T2 (de) Sprachkodierer
DE19604273C2 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
DE69815242T2 (de) Verfahren zur Quantisierung der LPC Parameter mittels geschalteter prädiktiver Quantisierung
EP2022043B1 (de) Informationssignalcodierung
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE4492048C2 (de) Vektorquantisierungs-Verfahren
DE69915400T2 (de) Vorrichtung zur Kodierung und Dekodierung von Audiosignalen
DE60313332T2 (de) Audiocodierung mit niedriger bitrate
EP1495464B1 (de) Vorrichtung und verfahren zum codieren eines zeitdiskreten audiosignals und vorrichtung und verfahren zum decodieren von codierten audiodaten
DE19647298C2 (de) Kodiersystem
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
DE69720527T2 (de) Verfahren zur kodierung eines sprachsignals
EP1397799B1 (de) Verfahren und vorrichtung zum verarbeiten von zeitdiskreten audio-abtastwerten
DE60017825T2 (de) Verfahren und Vorrichtung zur Kodierung und Dekodierung von Audiosignalen und Aufzeichnungsträger mit Programmen dafür
DE60310449T2 (de) Audiosignalkodierung
WO2005083680A1 (de) Vorrichtung und verfahren zum ermitteln eines schätzwerts
DE60303346T2 (de) Encodier- und/oder Decodierverfahren für digitale Audiosignale, basierend auf Zeit-Frequenzkorrelation und Vorrichtung hierzu
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE69629485T2 (de) Kompressionsystem für sich wiederholende töne
DE60305907T2 (de) Verfahren zur modellierung von beträgen der oberwellen in der sprache
DE4033350B4 (de) Verfahren und Vorrichtung für die Sprachverarbeitung
DE60016305T2 (de) Verfahren zum Betrieb eines Sprachkodierers

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE