EP0751495B1 - Verfahren und Anordnung zur Klassifizierung von Sprachsignalen - Google Patents

Verfahren und Anordnung zur Klassifizierung von Sprachsignalen Download PDF

Info

Publication number
EP0751495B1
EP0751495B1 EP96104213A EP96104213A EP0751495B1 EP 0751495 B1 EP0751495 B1 EP 0751495B1 EP 96104213 A EP96104213 A EP 96104213A EP 96104213 A EP96104213 A EP 96104213A EP 0751495 B1 EP0751495 B1 EP 0751495B1
Authority
EP
European Patent Office
Prior art keywords
speech
wavelet transformation
calculated
frame
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP96104213A
Other languages
English (en)
French (fr)
Other versions
EP0751495A2 (de
EP0751495A3 (de
Inventor
Joachim Dipl.-Ing. Stegmann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE19538852A external-priority patent/DE19538852A1/de
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Publication of EP0751495A2 publication Critical patent/EP0751495A2/de
Publication of EP0751495A3 publication Critical patent/EP0751495A3/de
Application granted granted Critical
Publication of EP0751495B1 publication Critical patent/EP0751495B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Definitions

  • a discrete-time wavelet transformation Sh (m, n) with respect to a wavelet h (k) is calculated with the integer parameters scaling m and time shift n.
  • This transformation is through defined, where N u and N o represent the lower and upper limits of the time index k given by the selected segmentation.
  • the transformation only has to be calculated for the scaling range 0 ⁇ m ⁇ M and the time range in the interval (0, N), the constant M depending on a o having to be chosen so large that the lowest signal frequencies in the transformation range still represent sufficiently well become.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Klassifizierung von Sprachsignalen nach dem Oberbegriff des Patentanspruchs 1 sowie eine Schaltungsanordnung zur Durchführung des Verfahrens.
Sprachcodierverfahren und zugehörige Schaltungsanordnungen zur Klassifizierung von Sprachsignalen für Bitraten unterhalb von 8 kbit pro Sekunde gewinnen zunehmend an Bedeutung.
Die Hauptanwendungen hierfür sind unter anderem bei Multiplexübertragung für bestehende Festnetze und in Mobilfunksystemen der dritten Generation zu sehen. Auch für die Bereitstellung von Diensten wie zum Beispiel Videophonie werden Sprachcodierverfahren in diesem Datenratenbereich benötigt.
Die meisten derzeit bekannten, hochqualitativen Sprachcodierverfahren für Datenraten zwischen 4 kbit/s und 8 kbit/s arbeiten nach dem Prinzip des Code Excited Linear Prediction (CELP)-Verfahrens wie es von Schroeder, M.R., Atal, B.S.: Code-Excited Linear Prediction (CELP): High Quality Speech at Very Low Bit Rates, in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1985, erstmals beschrieben worden ist. Dabei wird das Sprachsignal durch lineare Filterung von Anregungsvektoren aus einem oder mehreren Codebüchern synthetisiert. In einem ersten Schritt werden die Koeffizienten des Kurzzeit-Synthesefilters durch LPC-Analyse aus dem Eingangs-Sprachvektor ermittelt und dann quantisiert. Im Anschluß daran werden die Anregungscodebücher durchsucht, wobei als Optimierungskriterium der perzeptuell gewichtete Fehler zwischen Original- und synthetisiertem Sprachvektor verwendet wird (⇒ Analyse durch Synthese). Übertragen werden schließlich nur die Indizes der optimalen Vektoren, aus denen der Decoder den synthetisierten Sprachvektor wieder erzeugen kann.
Viele dieser Codierverfahren, wie zum Beispiel der neue 8 kbit/s Sprachcoder von ITU-T, beschrieben in der Literaturstelle Study Group 15 Contribution - Q. 12/15: Draft Recommendation G.729 - Coding Of Speech at 8 kbit/s using Conjugate-Structure-Algebraic-Code-Excited-Linear-Predictive (CS-ACELP) Coding, 1995, arbeiten mit einer festen Kombination von Codebüchern. Diese starre Anordnung berücksichtigt nicht die starken zeitlichen Änderungen der Eigenschaften des Sprachsignals und benötigt zur Codierung im Durchschnitt mehr Bits als erforderlich. Zum Beispiel bleibt das nur zur Codierung von periodischen Sprachabschnitten erforderliche adaptive Codebuch auch während eindeutig nichtperiodischer Segmente eingeschaltet.
Um zu niedrigeren Datenraten im Bereich um 4 kbit/s bei möglichst wenig abfallender Qualität zu gelangen, wurde deshalb in anderen Veröffentlichungen, zum Beispiel in Wang, S., Gersho, A.: Phonetically-Based Vector Excitation Coding of Speech at 3.6 kbit/s, Proceedings of IEEE International Conference On Acoustics, Speech and Signal Processing, 1989, vorgeschlagen, das Sprachsignal vor der Codierung in verschiedene typische Klassen einzuordnen. Im Vorschlag für das GSM-Halbratensystem wird das Signal auf Basis des Langzeit-Prädiktionsgewinns rahmenweise (alle 20 ms) in stimmhafte und stimmlose Abschnitte mit jeweils angepaßten Codebüchern eingeteilt, wodurch die Datenrate für die Anregung gesenkt und die Qualität gegenüber dem Vollratensystem weitgehend gleich bleibt. Bei einer allgemeineren Untersuchung wurde das Signal in die Klassen stimmhaft, stimmlos und Onset eingeteilt. Dabei wurde die Entscheidung rahmenweise (hier 11,25 ms) auf Basis von Parametern - wie unter anderem Nulldurchgangsrate, Reflexionskoeffizienten, Energie - durch lineare Diskriminierung gewonnen, siehe zum Beispiel Campbell, J., Tremain, T.: Voiced/Unvoiced Classification of Speech with Application to the U.S. Gouvernment LPC-10e Algorithm, Proceedings of IEEE International Conference On Acoustics, Speech and Signal Processing, 1986. Jeder Klasse wird wiederum eine bestimmte Kombination von Codebüchern zugeordnet, so daß die Datenrate auf 3,6 kbit/s bei mittlerer Qualität gesenkt werden kann.
Ein weiteres Beispiel für ein solches Verfahren findet sich in Meyer et. al., "Variable rate speech coding using perceptive thresholds and adaptive VUS detection", EUROSPEECH 91, S. 809-812.
All diese bekannten Verfahren ermitteln das Ergebnis ihrer Klassifizierung aus Parametern, die durch Berechnung von Zeitmittelwerten aus einem Fenster konstanter Länge gewonnen wurden. Die zeitliche Auflösung ist also durch die Wahl dieser Fensterlänge fest vorgegeben. Verringert man die Fensterlänge, so sinkt auch die Genauigkeit der Mittelwerte. Erhöht man dagegen die Fensterlänge, so kann der zeitliche Verlauf der Mittelwerte dem Verlauf des instationären Sprachsignals nicht mehr folgen. Dies gilt besonders für stark instationäre Übergänge (Onsets) von stimmlosen auf stimmhafte Sprachabschnitte. Gerade die zeitlich richtige Reproduktion der Lage der ersten signifikanten Pulse stimmhafter Abschnitte ist aber wichtig für die subjektive Beurteilung eines Codierverfahrens. Weitere Nachteile herkömmlicher Klassifizierungsverfahren sind oftmals eine hohe Komplexität oder starke Abhängigkeit von in der Praxis immer vorhandenen Hintergrundgeräuschen.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und einen Klassifizierer von Sprachsignalen für die signalangepaßte Steuerung von Sprachcodierverfahren zur Senkung der Bitrate bei gleichbleibender Sprachqualität bzw. zur Erhöhung der Qualität bei gleicher Bitrate zu schaffen, die das Sprachsignal mit Hilfe der Wavelet-Transformation für jeden Zeitraum klassifizieren, wobei sowohl eine hohe Auflösung im Zeitbereich als auch im Frequenzbereich erreicht werden soll.
Die Lösung für das erfindungsgemäße Verfahren ist im Kennzeichen des Patentanspruchs 1 charakterisiert und die für den Klassifizierer im Kennzeichen des Patentanspruchs 5.
Weitere Lösungen bzw. Ausgestaltungen der Erfindung ergeben sich aus den Kennzeichen der Patentansprüche 2 - 4.
Hier werden ein Verfahren und eine Anordnung beschrieben, die das Sprachsignal auf Basis der Wavelet-Transformation für jeden Zeitrahmen klassifizieren. Dadurch kann - den Anforderungen des Sprachsignals entsprechend - sowohl eine hohe Auflösung im Zeitbereich (Lokalisierung von Pulsen) als auch im Frequenzbereich (gute Mittelwerte) erreicht werden. Die Klassifizierung eignet sich deshalb besonders zur Steuerung bzw. Auswahl von Codebüchern in einem niederratigen Sprachcoder. Dabei weist das Verfahren und die Anordnung eine hohe Unempfindlichkeit gegenüber Hintergrundgeräuschen sowie eine niedrige Komplexität auf. Bei der Wavelet-Transformation handelt es sich - ähnlich der Fourier-Transformation - um ein mathematisches Verfahren zur Bildung eines Modells für ein Signal oder System. Im Gegensatz zur Fourier-Transformation kann man aber im Zeit- und Frequenz- bzw. Skalierungsbereich die Auflösung den Anforderungen entsprechend flexibel anpassen. Die Basisfunktionen der Wavelet-Transformation werden durch Skalierung und Verschiebung aus einem sogenannten Mother-Wavelet erzeugt und haben Bandpaßcharakter. Die Wavelet-Transformation ist somit erst durch Angabe des zugehörigen Mother-Wavelets eindeutig definiert. Hintergründe und Details zur mathematischen Theorie sind beispielsweise aufgezeigt von Rioul O., Vetterli, M.: Wavelets and Signal Processing, IEEE Signal Processing Magazine, Oct. 1991.
Aufgrund ihrer Eigenschaften eignet sich die Wavelet-Transformation gut zur Analyse instationärer Signale. Ein weiterer Vorteil ist die Existenz schneller Algorithmen, mit denen eine effiziente Berechnung der Wavelet-Transformation durchgeführt werden kann. Erfolgreiche Anwendungen im Bereich der Signalverarbeitung findet man unter anderem in der Bildcodierung, bei Breitbandkorrelationsverfahren (zum Beispiel für Radar) sowie zur Sprachgrundfrequenzschätzung, wie unter anderem aus den folgenden Literaturstellen hervorgeht. Mallat, S., Zhong, S.: Characterization of Signals from Multiscale Edges, IEEE Transactions on Pattern Analysis and Machine Intelligence, July, 1992 sowie Kadambe, S.Boudreaux-Bartels, G.F.: Applications of the Wavelet Transform for Pitch Detection of Speech Signals, IEEE Transactions on Information Theory, March 1992.
Die Erfindung wird im folgenden anhand eines Ausführungsbeispiels näher beschrieben. Für die Beschreibung des Verfahrens soll der prinzipielle Aufbau eines Klassifizierers nach Fig. 1 verwendet werden. Zunächst erfolgt die Segmentierung des Sprachsignals. Das Sprachsignal wird in Segmente konstanter Länge eingeteilt, wobei die Länge der Segmente zwischen 5 ms und 40 ms betragen soll. Zur Vermeidung von Randeffekten bei der sich anschließenden Transformation kann eine der drei folgenden Techniken angewandt werden:
  • Das Segment wird an den Grenzen gespiegelt.
  • Die Wavelet-Transformation wird im kleineren Intervall (L/2,N-L/2) berechnet und der Rahmen nur um den konstanten Versatz L/2 verschoben, so daß die Segmente überlappen. Dabei ist L die Länge eines auf den zeitlichen Ursprung zentrierten Wavelets, wobei die Bedingung N>L gelten muß.
  • An den Rändern des Segmentes wird mit den vorangegangenen bzw. zukünftigen Abtastwerten aufgefüllt.
Danach erfolgt eine diskrete Wavelet-Transformation. Für ein solches Segment s(k), wird eine zeitdiskrete Wavelet-Transformation (DWT) Sh(m,n) bezüglich eines Wavelets h(k) mit den ganzzahligen Parametern Skalierung m und Zeitverschiebung n berechnet. Diese Transformation ist durch
Figure 00060001
definiert, wobei Nu und No die durch die gewählte Segmentierung vorgegebene untere bzw. obere Grenze des Zeitindex k darstellen. Die Transformation muß nur für den Skalierungsbereich 0<m<M und den Zeitbereich im Intervall (0,N) berechnet werden, wobei die Konstante M in Abhängigkeit von ao so groß gewählt werden muß, daß die niedrigsten Signalfrequenzen im Transformationsbereich noch ausreichend gut repräsentiert werden.
Zur Klassifizierung von Sprachsignalen reicht es in der Regel aus, das Signal zu dyadischen Skalierungen (ao=2) zu betrachten. Läßt sich das Wavelet h(k) durch eine sogenannte "Multiresolution-Analyse" gemäß Rioul, Vetterli mittels einer iterierten Filterbank darstellen, so kann man zur Berechnung der dyadischen Wavelet-Transformation in der Literatur angegebene effiziente, rekursive Algorithmen verwenden. In diesem Fall (ao=2) ist eine Zerlegung bis maximal M=6 ausreichend. Für die Klassifizierung eignen sich besonders Wavelets mit wenigen signifikanten Oszillationszyklen, aber dennoch möglichst glattem Funktionsverlauf. Beispielsweise können kubische Spline-Wavelets oder orthogonale Daubechies-Wavelets geringer Länge verwendet werden.
Hiernach erfolgt die Klasseneinteilung. Das Sprachsegment wird auf Basis der Transformationskoeffizienten in Klassen eingeteilt. Um eine ausreichend feine Zeitlauflösung zu erreichen, wird das Segment noch in P Subrahmen eingeteilt, so daß für jeden Subrahmen ein Klassifizierungsergebnis ausgegeben wird. Für einen Einsatz in niederratigen Sprachcodierverfahren wurde die Unterscheidung der folgenden Klassen vorgenommen:
  • (1) Hintergrundrauschen/stimmlos,
  • (2) Signalübergänge/"voicing onsets",
  • (3) Periodisch/stimmhaft.
  • Beim Einsatz in bestimmten Codierverfahren kann es sinnvoll sein, die periodische Klasse noch weiter aufzuteilen, etwa in Abschnitte mit überwiegend tieffrequenter Energie oder eher gleichmäßig verteilter Energie. Optional kann deshalb auch eine Unterscheidung von mehr als drei Klassen durchgeführt werden.
    Im Anschluß daran erfolgt in einem entsprechenden Prozessor die Parameterberechnung. Zunächst wird aus den Transformationskoeffizienten Sh(m,n) ein Satz von Parametern bestimmt, mit deren Hilfe dann anschließend die endgültige Klasseneinteilung vorgenommen werden kann. Die Auswahl der Parameter Skalierungs-Differenzmaß (P1), zeitliches Differenzmaß (P2) und Periodizitätsmaß (P3) erwiesen sich dabei als besonders günstig, da sie einen direkten Bezug zu den definierten Klassen (1) bis (3) aufweisen.
    • Für P1 wird die Varianz der Energie der DWTTransformationskoeffizienten über alle Skalierungsbereiche berechnet. Auf Basis dieses Parameters kann rahmenweise - also für ein relativ grobes Zeitraster - festgestellt werden, ob das Sprachsignal stimmlos ist bzw. nur Hintergrundrauschen vorliegt.
    • Um P2 zu ermitteln, wird zunächst die mittlere Energiedifferenz der Transformationskoeffizienten zwischen dem aktuellen und dem vergangen Rahmen berechnet. Nun werden für Transformationskoeffizienten feiner Skalierungsstufe (m klein) die Energiedifferenzen zwischen benachbarten Subrahmen ermittelt und mit der Energiedifferenz für den Gesamtrahmen verglichen. Dadurch kann ein Maß für die Wahrscheinlichkeit eines Signalübergangs (zum Beispiel stimmlos auf stimmhaft) für jeden Subrahmen - also für ein feines Zeitraster - bestimmt werden.
    • Für P3 werden rahmenweise die lokalen Maxima von Transformationskoeffizienten grober Skalierungsstufe (m nahe bei M) bestimmt und geprüft, ob diese in regelmäßigen Abständen auftreten. Als lokale Maxima werden dabei die Spitzen bezeichnet, die einen gewissen Prozentsatz T des globalen Maximums des Rahmens übersteigen.
    Die für diese Parameterberechnungen erforderlichen Schwellwerte werden in Abhängigkeit vom aktuellen Pegel des Hintergrundgeräusches adaptiv gesteuert, wodurch die Robustheit des Verfahrens in gestörter Umgebung gesteigert wird.
    Darauffolgend wird die Auswertung vorgenommen. Die drei Parameter werden der Auswerteeinheit in. Form von "Wahrscheinlichkeiten" (auf den Wertebereich (0,1) abgebildete Größen) zugeführt. Die Auswerteeinheit selbst trifft das endgültige Klassifizierungsergebnis für jeden Subrahmen auf Basis eines Zustandsmodells. Dadurch'wird das Gedächtnis der für vorangegangene Subrahmen getroffenen Entscheidungen berücksichtigt. Außerdem werden nicht sinnvolle Übergänge, wie zum Beispiel direkter Sprung von "stimmlos" auf "stimmhaft", verboten. Als Ergebnis wird schließlich pro Rahmen ein Vektor mit P Komponenten ausgegeben, der das Klassifizierungsergebnis für die P Subrahmen enthält.
    In den Fig. 2a und 2b sind die Klassifizierungsergebnisse für das Sprachsegment "...parcel, I'd like..." einer englischen Sprecherin exemplarisch dargestellt. Dabei wurden die Sprachrahmen der Länge 20ms in vier equidistante Subrahmen zu jeweils 5 ms eingeteilt. Die DWT wurde nur für dyadische Skalierungsschritte ermittelt und auf Basis von kubischen Spline-Wavelets mit Hilfe einer rekursiven Filterbank implementiert. Die drei Signalklassen werden mit 0,1,2 in der gleichen Reihenfolge wie oben bezeichnet. Für Fig. 2a wurde Telefonband-Sprache (200 Hz bis 3400 Hz) ohne Störung verwendet, während für Fig. 2b zusätzlich Fahrzeuggeräusche mit einem durchschnittlichen Signal-Rausch-Abstand von 10 dB überlagert wurden. Der Vergleich der beiden Abbildungen zeigt, daß das Klassifizierungsergebnis nahezu unabhängig vom Rauschpegel ist. Mit Ausnahme kleinerer Unterschiede, die für Anwendungen in der Sprachcodierung irrelevant sind, werden die perzeptuell wichtigen periodischen Abschnitte sowie deren Anfangs- und Endpunkte in beiden Fällen gut lokalisiert. Durch Auswertung einer großen Vielfalt unterschiedlichen Sprachmaterials ergab sich, daß der Klassifizierungsfehler deutlich unter 5% für Signal-Rausch-Abstände oberhalb 10 dB liegt.
    Der Klassifizierer wurde zusätzlich für folgenden typischen Anwendungsfall getestet: Ein CELP-Codierverfahren arbeitet bei einer Rahmenlänge von 20 ms und teilt diesen Rahmen zur effizienten Anregungscodierung in vier Subrahmen ä 5 ms ein. Für jeden Subrahmen soll entsprechend der drei oben genannten Signalklassen auf Basis des Klassifizierers eine angepaßte Kombination von Codebüchern verwendet werden. Es wurde für jede Klasse ein typisches Codebuch mit jeweils 9 Bit/Subrahmen zur Codierung der Anregung eingesetzt, wodurch sich eine Bitrate von lediglich 1800 Bit/s für die Anregungscodierung (ohne Gain) ergab. Es wurden für die stimmlose Klasse ein Gauß'sches Codebuch, für die Onset-Klasse ein Zwei-Puls-Codebuch und für die periodische Klasse ein adaptives Codebuch verwendet. Schon für diese einfache, mit festen Subrahmenlängen arbeitende Konstellation von Codebüchern ergab sich eine gut verständliche Sprachqualität, jedoch noch mit rauhem Klang in periodischen Abschnitten. Zum Vergleich sei erwähnt, daß in ITU-T, Study Group 15 Contribution - Q. 12/15: Draft Recommendation G.729 - Coding Of Speech at 8 kbit/s using Conjugate-Structure-Algebraic-Code-Excited-Linear-Predictive (CS-ACELP) Coding, 1995, für die Codierung der Anregung (ohne Gain) 4800 Bit/s benötigt werden, um Leitungsqualität zu erzielen. Selbst in Gerson, I. et al., Speech and Channel Coding for the Half-Rate GSM Channel, ITG-Fachbericht "Codierung für Quelle, Kanal und Übertragung", 1994, werden dafür noch 2800 bit/s verwendet, um Mobilfunkqualität sicherzustellen.

    Claims (5)

    1. Verfahren zur Klassifizierung von Sprache, insbesondere Sprachsignalen für die signalangepaßte Steuerung von Sprachcodierverfahren zur Senkung der Bitrate bei gleichbleibender Sprachqualität oder zur Erhöhung der Qualität bei gleicher Bitrate,
      wobei nach einer Segmentierung eines Sprachsignals für jeden gebildeten Rahmen eine Wavelet-Transformation berechnet wird, aus der mit Hilfe adaptiver Schwellen ein Satz Parameter (P1-P3) ermittelt wird, die ein Zustandsmodell steuern, das den Sprachrahmen in Unterrahmen aufteilt und jeden dieser Unterrahmen in eine von mehreren, für die Sprachcodierung typische Klassen unterteilt.
    2. Verfahren nach Patentanspruch 1,
      wobei das Sprachsignal in Segmente konstanter Länge eingeteilt wird, und daß zur Vermeidung von Randeffekten bei der sich anschließenden Wavelet-Transformation entweder das Segment an den Grenzen gespiegelt wird, oder die Wavelet-Transformation im kleineren Intervall (L/2, N-L/2) berechnet wird und der Rahmen nur um den konstanten Versatz L/2 verschoben wird, so daß die Segmente sich überlappen oder daß an den Rändern des Segments mit den vorangegangenen bzw. zukünftigen Abtastwerten aufgefüllt wird.
    3. Verfahren nach Patentanspruch 1 oder 2,
      wobei für ein Segment s(k) eine zeitdiskrete Wavelet-Transformation (DWT) Sh(mn) bezüglich eines Wavelets h(k) mit den ganzzahligen Parametern Skalierung m und Zeitverschiebung n berechnet wird, und daß das Segment auf Basis der Transformationskoeffizienten in Klassen eingeteilt wird, insbesondere zur Erreichung einer feinen Zeitauflösung noch in P Subrahmen eingeteilt und für jeden Subrahmen ein Klassifizierungsergebnis errechnet und ausgegeben wird.
    4. Verfahren nach einem der Patentansprüche 1 - 3,
      wobei aus dem Transformationskoeffizienten Sh(mn) ein Satz von Parametern, insbesondere Skalierungs-Differenzmaß (P1), zeitliches Differenzmaß (P2) und Periodizitätsmaß (P3) bestimmt wird, mit deren Hilfe dann anschließend die endgültige Klasseneinteilung vorgenommen wird, wobei die für diese Parameterberechnungen erforderlichen Schwellwerte in Abhängigkeit vom aktuellen Pegel des Hintergrundgeräusches adaptiv gesteuert werden.
    5. Anordnung, insbesondere Klassifizierer, zur Durchführung des Verfahrens nach einem der Patentansprüche 1 - 4, in welcher,
      das Sprachsignal einer Segmentierungseinrichtung zugeführt wird, daß nach der Segmentierung des Sprachsignals für jeden gebildeten Rahmen bzw. für jedes gebildete Segment durch einen Prozessor eine diskrete Wavelet-Transformation berechnet wird, daraus mit Hilfe adaptiver Schwellen ein Satz Parameter (P1 - P3) ermittelt wird, die als Eingangsgrößen einem Zustandsmodell zugeführt werden, das seinerseits den Sprachrahmen in Unterrahmen aufteilt und jeden dieser Unterrahmen in eine von mehreren für die Sprachcodierung typische Klassen einteilt.
    EP96104213A 1995-06-30 1996-03-16 Verfahren und Anordnung zur Klassifizierung von Sprachsignalen Expired - Lifetime EP0751495B1 (de)

    Applications Claiming Priority (4)

    Application Number Priority Date Filing Date Title
    DE19523598 1995-06-30
    DE19523598 1995-06-30
    DE19538852A DE19538852A1 (de) 1995-06-30 1995-10-19 Verfahren und Anordnung zur Klassifizierung von Sprachsignalen
    DE19538852 1995-10-19

    Publications (3)

    Publication Number Publication Date
    EP0751495A2 EP0751495A2 (de) 1997-01-02
    EP0751495A3 EP0751495A3 (de) 1998-04-15
    EP0751495B1 true EP0751495B1 (de) 2001-10-10

    Family

    ID=26016384

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP96104213A Expired - Lifetime EP0751495B1 (de) 1995-06-30 1996-03-16 Verfahren und Anordnung zur Klassifizierung von Sprachsignalen

    Country Status (4)

    Country Link
    EP (1) EP0751495B1 (de)
    AT (1) ATE206841T1 (de)
    ES (1) ES2165933T3 (de)
    NO (1) NO309831B1 (de)

    Families Citing this family (1)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    DE19716862A1 (de) * 1997-04-22 1998-10-29 Deutsche Telekom Ag Sprachaktivitätserkennung

    Also Published As

    Publication number Publication date
    EP0751495A2 (de) 1997-01-02
    EP0751495A3 (de) 1998-04-15
    NO309831B1 (no) 2001-04-02
    ATE206841T1 (de) 2001-10-15
    NO961636L (no) 1997-01-02
    ES2165933T3 (es) 2002-04-01
    NO961636D0 (no) 1996-04-24

    Similar Documents

    Publication Publication Date Title
    DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
    DE69412913T2 (de) Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern
    DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
    DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
    DE69615119T2 (de) Relaxation CELP (RCELP) Koder
    DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
    DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
    DE69810754T2 (de) Hochauflösendes nachbearbeitungsverfahren für einen sprachdekoder
    DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
    DE60125219T2 (de) Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder
    DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
    DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
    DE60225381T2 (de) Verfahren zur Kodierung von Sprach- und Musiksignalen
    DE60128677T2 (de) Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
    DE69322313T2 (de) C.E.L.P. - Vocoder
    DE60031002T2 (de) Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
    DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
    DE60316396T2 (de) Interoperable Sprachkodierung
    DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
    DE69928288T2 (de) Kodierung periodischer sprache
    DE69900786T2 (de) Sprachkodierung
    DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
    DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
    US5781881A (en) Variable-subframe-length speech-coding classes derived from wavelet-transform parameters
    EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals

    Legal Events

    Date Code Title Description
    PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

    Free format text: ORIGINAL CODE: 0009012

    AK Designated contracting states

    Kind code of ref document: A2

    Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    K1C1 Correction of patent application (title page) published

    Effective date: 19970102

    RTI1 Title (correction)
    PUAL Search report despatched

    Free format text: ORIGINAL CODE: 0009013

    AK Designated contracting states

    Kind code of ref document: A3

    Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    17P Request for examination filed

    Effective date: 19981015

    RIC1 Information provided on ipc code assigned before grant

    Free format text: 7G 10L 11/00 A, 7G 10L 11/06 B, 7G 10L 19/14 B

    GRAG Despatch of communication of intention to grant

    Free format text: ORIGINAL CODE: EPIDOS AGRA

    RIC1 Information provided on ipc code assigned before grant

    Free format text: 7G 10L 11/00 A, 7G 10L 11/06 B, 7G 10L 19/14 B

    17Q First examination report despatched

    Effective date: 20001026

    RIC1 Information provided on ipc code assigned before grant

    Free format text: 7G 10L 11/00 A, 7G 10L 11/06 B, 7G 10L 19/14 B

    GRAG Despatch of communication of intention to grant

    Free format text: ORIGINAL CODE: EPIDOS AGRA

    GRAH Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOS IGRA

    GRAH Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOS IGRA

    GRAA (expected) grant

    Free format text: ORIGINAL CODE: 0009210

    AK Designated contracting states

    Kind code of ref document: B1

    Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: NL

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20011010

    Ref country code: IE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20011010

    Ref country code: FI

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20011010

    REF Corresponds to:

    Ref document number: 206841

    Country of ref document: AT

    Date of ref document: 20011015

    Kind code of ref document: T

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: EP

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FG4D

    Free format text: GERMAN

    REF Corresponds to:

    Ref document number: 59607864

    Country of ref document: DE

    Date of ref document: 20011115

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: IF02

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: SE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20020110

    Ref country code: PT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20020110

    Ref country code: DK

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20020110

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: GR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20020111

    GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

    Effective date: 20020114

    NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
    ET Fr: translation filed
    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: MC

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20020316

    Ref country code: LU

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20020316

    Ref country code: AT

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20020316

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: LI

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20020331

    Ref country code: CH

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20020331

    Ref country code: BE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20020331

    REG Reference to a national code

    Ref country code: ES

    Ref legal event code: FG2A

    Ref document number: 2165933

    Country of ref document: ES

    Kind code of ref document: T3

    PLBE No opposition filed within time limit

    Free format text: ORIGINAL CODE: 0009261

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FD4D

    BERE Be: lapsed

    Owner name: DEUTSCHE *TELEKOM A.G.

    Effective date: 20020331

    26N No opposition filed
    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: PL

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: ES

    Payment date: 20140324

    Year of fee payment: 19

    Ref country code: IT

    Payment date: 20140325

    Year of fee payment: 19

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: PLFP

    Year of fee payment: 20

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: DE

    Payment date: 20150324

    Year of fee payment: 20

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: GB

    Payment date: 20150324

    Year of fee payment: 20

    Ref country code: FR

    Payment date: 20150319

    Year of fee payment: 20

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: IT

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20150316

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R071

    Ref document number: 59607864

    Country of ref document: DE

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: PE20

    Expiry date: 20160315

    REG Reference to a national code

    Ref country code: ES

    Ref legal event code: FD2A

    Effective date: 20160426

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: GB

    Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

    Effective date: 20160315

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: ES

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20150317