EP0865026A2 - Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen - Google Patents

Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen Download PDF

Info

Publication number
EP0865026A2
EP0865026A2 EP98104455A EP98104455A EP0865026A2 EP 0865026 A2 EP0865026 A2 EP 0865026A2 EP 98104455 A EP98104455 A EP 98104455A EP 98104455 A EP98104455 A EP 98104455A EP 0865026 A2 EP0865026 A2 EP 0865026A2
Authority
EP
European Patent Office
Prior art keywords
section
segments
segment
digitized
weighted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP98104455A
Other languages
English (en)
French (fr)
Other versions
EP0865026B1 (de
EP0865026A3 (de
Inventor
Holger Dr. Carl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grundig AG
Original Assignee
Grundig AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grundig AG filed Critical Grundig AG
Publication of EP0865026A2 publication Critical patent/EP0865026A2/de
Publication of EP0865026A3 publication Critical patent/EP0865026A3/de
Application granted granted Critical
Publication of EP0865026B1 publication Critical patent/EP0865026B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Definitions

  • the invention relates to a method for speed modification of Speech signals in the time domain, especially an efficient overlap add method.
  • the time compression or time expansion of audio signals is used in studios, for example with the aim of trimming advertising programs to the intended length. In dictation technology, too, it is important to adapt the playback speed to the needs and skills of the typist.
  • Another application is in the real-time transmission of voice signals, in which data packets arrive at the receiver with a variable delay. By using the speed modification, the overall delay can be kept lower on average than the worst-case delay of the transmission link, without a data packet arriving too late leading to dropouts or other, similarly disturbing effects.
  • the process in addition to the desire for the highest possible sound quality, the following additional requirements apply to the process:
  • SOLA Synchronized OverLap-Add
  • WSOLA Waveform Similarity OverLap - Add
  • the object of the invention is to provide a method for speed modification of speech signals in the time domain, which works particularly efficiently and requires less effort compared to the prior art.
  • the shift variable ⁇ ⁇ contained in the above synthesis equation is to be determined from a "tolerance range" - ⁇ max , ..., ⁇ max for the purpose of the mentioned synchronization.
  • the basic procedure is as follows: Apart from a synchronization-related "jitter", segments of length L + N are taken from the original signal x (apart from a synchronization-related "jitter") and, after weighting with w (k), are added by L sample values each offset.
  • the signal y (k) obtained in this way is accelerated by a factor of ⁇ compared to x (k), that is to say that an utterance of K samples in the original signal x (k) length by this procedure onto a y (k) section the length K / ⁇ is mapped, that is to say shortened and thus accelerated in the reproduction for ⁇ > 1, or lengthened, that is to say slowed down, if ⁇ ⁇ 1.
  • the weighting of this section with the rising edge of the window is represented by multiplying this vector by a diagonal matrix V, which is populated with the values v (0), ..., v (N-1).
  • the weighting of the ideal segment section x is represented by the falling edge of the window by multiplication by 1 - V, where 1 denotes the N ⁇ N unit matrix.
  • the y (k) section resulting from the overlap-add synthesis in the critical overlap region is thus

Abstract

Die Erfindung betrifft ein Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, insbesondere digitalisierten Sprachsignalen. Bei diesem Verfahren wird ein analoges Sprachsignal digitalisiert und in einem Speicher gespeichert. Außerdem wird ein Faktor α definiert, um den das Sprachsignal verlängert oder verkürzt wird. Über das Sprachsignal wird eine Fensterfunktion mit einem ersten steigenden Abschnitt, einem zweiten, sich direkt an den ersten Abschnitt anschließenden, konstanten Abschnitt und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt, gelegt.

Description

Gegenstand der Erfindung ist ein Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen im Zeitbereich, insbesondere eine effiziente Overlap-Add-Methode.
In verschiedenen Bereichen der Verarbeitung von Sprach- und Audiosignalen ist eine Veränderung der Wiedergabegeschwindigkeit dieser Signale erwünscht, möglichst ohne daß damit eine Beeinträchtigung ihrer Natürlichkeit und - im Fall von Sprache - ihrer Verständlichkeit verbunden wäre. Dieses Ziel, den Klangcharakter zu erhalten, kann man aus technischer Sicht folgendermaßen formulieren: Trotz einer Modifikation der Zeitskala dieser Signale sollen ihre Kurzzeitspektraleigenschaffen unverändert bleiben. Insbesondere bedeutet das für Sprachsignale, daß Grundfrequenz und Formanten bei der Geschwindigkeitsmodifikation erhalten bleiben müssen.
Die Zeitstauchung oder Zeitdehnung von Audiosignalen wird in Studios eingesetzt, zum Beispiel mit dem Ziel, Werbesendungen auf die vorgesehene Länge zu trimmen. Auch in der Diktiertechnik ist die Anpassung der Wiedergabegeschwindigkeit an die Bedürfnisse bzw. Fähigkeiten der Schreibkraft von Bedeutung. Eine weitere Anwendung besteht bei der Echtzeitübertragung von Sprachsignalen, bei der Datenpakete mit variabler Verzögerung beim Empfänger eintreffen. Durch Anwendung der Geschwindigkeitsmodifikation kann man hier die Über-Alles-Verzögerung im Mittel geringer halten als das Worst-Case Delay der Übertragungsstrecke, ohne daß ein zu spät eintreffendes Datenpaket zu Aussetzern oder anderen, ähnlich störenden Effekten führen würde.
Für viele Anwendungen ergeben sich neben dem Wunsch nach möglichst hoher Klangqualität die folgenden zusätzlichen Anforderungen an das Verfahren:
Eine kostengünstige Echtzeitrealisierung muß erzielbar sein, und es muß zur Laufzeit eine nach Möglichkeit stufenlose Änderung des Geschwindigkeitsmodifikationsfaktors möglich sein. Von Vorteil ist ohne Zweifel auch, wenn der Algorithmus ohne eine stets fehlerbehaftete Pitch-Schätzung auskommt.
Aus "Method for Time or Frequency Compression-Expansion of Speed", von G. Fairbaks und R. P. Jaeger, Inst. of Radio Engineers Trans. on Audio, Vol. AU-2, No. 1 pp. 7-12, Jan. 1954, sind erste Untersuchungen zur Sprachsignalstauchung bzw. Sprachsignaldehnung bekannt. Häufig wurden seitdem Frequenzbereichsverfahren eingesetzt - naheliegend, da, wie eingangs erwähnt, die Kurzzeitspektraleigenschaften des Sprachsignals erhalten bleiben sollen. Seit Mitte der achtziger Jahre sind vergleichsweise einfache im Zeitbereich arbeitende Overlap-Add-Verfahren bekannt, mit denen sehr gut klingende zeitskalierte Sprachsignale erzeugt werden können.
In "Signal Estimation from Modified Short-Time Fourier Transform", von D. W. Griffin, in IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-32, No. 2, pp. 236-242, Apr. 1984, berichten Griffin und Lim von Experimenten mit einer sehr aufwendigen iterativ arbeitenden Phasenbestimmung. Auf diesen Ansatz nimmt wiederum die Veröffentlichung von S. Roucos und A. M. Wilgus "High Quality Time-Scale Modification for Speech", IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 493-496, 1985, Bezug, die eine Zeitbereichsmethode vorschlagen, die mittels eines Overlap-Add-Ansatzes zeitskalierte Sprachsignale erzeugt. Bei diesem sogenannten SOLA-Verfahren (SOLA = Synchronized OverLap-Add) erfolgt eine Synchronisation der in regelmäßigen Abständen dem Originalsignal entnommenen Abschnitte durch Verschiebung vor der jeweils entsprechenden Fensterung und Addition im Zielsignal. Dies entspricht im weiteren Sinne der Phasenoptimierung, wie sie in den Frequenzbereichsverfahren durchgeführt wird. Eng mit dem SOLA-Algorithmus verwandt ist das sogenannte WSOLA-Verfahren (WSOLA = Waveform Similarity OverLap--Add), das W. Verhelst und M. Roelands in "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed", IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation", Int. Conf. on Speech Communication and Technology, pp. 337-340, 1993, vorstellen. Der Hauptunterschied zwischen diesen beiden Ansätzen besteht in der Synchronisation, die im WSOLA-Verfahren durch versetztes Entnehmen von Segmenten aus dem Originalsignal durchgeführt wird, was sich gegenüber dem SOLA-Prinzip vor allem aufwandsmindernd auswirkt.
7
Aufgabe der Erfindung ist es, ein Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen im Zeitbereich anzugeben, das besonders effizient arbeitet und gegenüber dem Stand der Technik weniger Aufwand erfordert.
Diese Aufgabe wird durch die Merkmale der Ansprüche 1 und 2 gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in der nachfolgenden Beschreibung angegeben.
Die Erzeugung der mit dem Faktor α zeitskalierten Version y(k) eines Sprachsignals x(k) erfolgt gemäß der Synthese y(k)= λ=-∞ (k+λ(α-1)Lλ)w(kL) mit einer Fensterfunktion
Figure 00040001
Die hierin vorkommende für k=0, ... , N-1 definierte Funktion v(k) ist dabei sinnvollerweise zwischen ihren Extrema v(0)=ε0 mit 0<ε0<<1 und v(N-1 )=1-ε1 mit 0<ε1<<1 monotonwachsend.
Die angegebene w(k)-Definition stellt sicher, daß die für sinnvolles Overlap-Add notwendige Bedingung λ=-∞ w(k-λL) ≡ 1 ∀k ε {-∞,...,∞} erfüllt ist.
Die in obiger Synthesegleichung enthaltene Verschiebevariable Δλ ist zwecks der erwähnten Synchronisation aus einem "Toleranzbereich" -Δmax, ... ,Δmax zu bestimmen.
Die prinzipielle Vorgehensweise ist wie folgt:
Aus dem Originalsignal x(k) werden in - abgesehen von einem synchronisationsbedingten "Jitter" - regelmäßigen αL Werte betragenden Abständen Segmente der Länge L+N entnommen und nach Gewichtung mit w(k) jeweils um L Abtastwerte versetzt aufaddiert. Das auf diese Weise erhaltene Signal y(k) ist gegenüber x(k) um den Faktor α beschleunigt, das heißt, daß eine im Originalsignal x(k) enthaltene Äußerung von K Abtastwerten Länge durch dieses Vorgehen auf einen y(k) -Abschnitt der Länge K/α abgebildet, also verkürzt und damit in der Wiedergabe beschleunigt für α > 1, bzw. verlängert, das heißt verlangsamt, wird, wenn α < 1 ist.
Die Synchronisation der zu überlappenden Abschnitte ist für die resultierende Klangqualität von großer Bedeutung. Hierzu wird der folgende Ansatz verwendet: Während der Abarbeitung des Verfahrens kann zu jedem dem Signal x(k) entnommenen Segment für den nächsten Schritt als "Idealsegment" der um L Abtastwerte versetzte Abschnitt von x(k) angesehen werden, da durch diese Wahl die Overlap-Add-Operation wieder das Originalsignal x(k) reproduzieren würde. Die erwünschte Zeitskalierung erfordert nun aber, daß für die Overlap-Add-Synthese i. a. ein anderer, gegenüber dem "Idealsegment" versetzter Abschnitt von x(k) ausgewählt wird. Die bestmögliche Synchronisation ist gegeben, wenn der für die Overlap-Add-Operation benutzte Abschnitt größtmögliche Ähnlichkeit ("Waveform Similarity") mit dem "Idealsegment" aufweist.
Als Kriterium für die Ähnlichkeit der genannten Segmente bieten sich verschiedene Maße an. Naheliegend ist beispielsweise die Benutzung des Korrelationskoeffizienten. Während W. Verhelst und M. Roelands in "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed", in IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation" in Int. Conf. on Speech Communication and Technology, pp. 337-340, 1993, für die Auswertung des Ähnlichkeitsmaßes das komplette Segment der Länge L+N herangezogen haben, erscheint es als vollkommen ausreichend, die Berechnung auf den Bereich der N Abtastwerte zu beschränken, in dem die Segmente tatsächlich überlappen.
Für die weiteren Darstellungen ist es hilfreich, die folgende Vektornotation einzuführen:
Der N Werte lange Abschnitt des "Idealsegments", in dem die Überlappung mit dem neu zu bestimmenden Segment stattfinden wird, sei mit x bezeichnet, die ersten N Werte des verschobenen Segments mit xq. Die Gewichtung dieses Abschnitts mit der steigenden Flanke des Fensters wird durch Multiplikation dieses Vektors mit einer Diagonalmatrix V repräsentiert, die mit den Werten v(0), ... , v(N-1) besetzt ist. Entsprechend wird die Gewichtung des Idealsegmentabschnitts x mit der fallenden Flanke des Fensters durch Multiplikation mit 1 - V dargestellt, wobei 1 die N×N-Einheitsmatrix bezeichnet. Der im kritischen Überlappungsbereich aus der Overlap-Add-Synthese resultierende y(k)-Abschnitt lautet damit
Figure 00060001
Beispielsweise läßt sich nun als Maß für die Ähnlichkeit der hierbei beteiligten Komponenten eine Kreuzkorreliertenberechnung gemäß
Figure 00060002
angeben. Die Maximierung dieses Ausdrucks bezüglich der sich in xq wiederfindenden Verschiebung δ ∈ {-Δmax, ... , Δmax} liefert die für das betrachtete Segment im Sinne des angesetzten Ähnlichkeitsmaßes optimale Verschiebung Δλ.
Die Berechnung der Cδ erfordert alle L Abtastwerte 2N Multiplikationen für die Vorabberechnung des Ausdrucks xT(1-V)TV sowie anschließend (2Δmax+1)N Multiplikationen und Additionen.
Dies stellt gegenüber W. Verhelst und M. Roelands in "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed", in IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation" in Int. Conf. on Speech Communication and Technology, pp. 337-340, 1993, eine Aufwandsreduktion um den Faktor zwei dar, der sich für L>N sogar noch erhöht. Die Beschränkung der Ähnlichkeitsberechnung auf den Bereich der Überlappung hat keinerlei negative Auswirkungen auf die Qualität der zeitskalierten Sprachproben.
Ein anderer Ansatz für die Synchronisation ist, anstelle der Maximierung der "Waveform Similarity" den Fehler zwischen dem synthetisierten Signal y und dem Originalsignal x zu minimieren. Eine einfache willkürliche Wahl ist, für diesen Fehler den quadratischen Ausdruck Eδ =∥x-y∥2 anzusetzen.
Bei Vernachlässigung der Vorabberechnungen beläuft sich der für die Auswertung von Eδ anfallende Aufwand auf (2Δmax+1 )4N DSP-Operationen alle L Abtastwerte. Hierunter werden solche Operationen verstanden, die ein Signalprozessor mit gängiger Architektur in einem Schritt abarbeiten kann.
Ein weiterer Ansatz besteht darin, anstelle des absoluten Fehlers den relativen Fehler R∂ = x - y2 y2 zu minimieren, was als SNR-Maximierung interpretiert werden kann. (2Δmax+1)5N Operationen sind hier vor jeder Overlap-Add-Operation erforderlich.

Claims (2)

  1. Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, insbesondere digitalisierten Sprachsignalen, bei dem
    ein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird,
    ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird,
    eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt an den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich, sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht,
    aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer Länge L+N entnommen werden,
    diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden
    die gewichteten Segmente jeweils um eine definierte Anzahl von L Abtastwerten versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal um den Faktor α verlängert bzw. um 1/α verkürzt wird,
    dadurch gekennzeichnet,
    daß nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, das dort entnommene, mit der Fensterfunktion gewichtete, Segment mit dem nachfolgend entnommenen, ebenfalls mit der Fensterfunktion gewichteten, Segment unter Ähnlichkeitsaspekten verglichen wird,
    daß zum schnellen Vergleich der Ähnlichkeit der Segmente lediglich der N Werte lange dritte, mit dem fallenden Fensterabschnitt gewichtete, Abschnitt des Segmentes mit dem jeweils ersten, mit dem steigenden N Werte langen Fensterabschnitt gewichteten Abschnitten des nachfolgenden Segmentes verglichen wird,
    daß diese Segmente zueinander versetzt aufaddiert werden, wenn die Ähnlichkeit beider verglichener Segmentteile maximal ist und
    daß zur Berechnung der Ähnlichkeit, als deren Maß, eine Korrelation verwendet wird.
  2. Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, insbesondere digitalisierten Sprachsignalen, bei dem
    ein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird,
    ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird,
    eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt an den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich, sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht,
    aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer Länge L+N entnommen werden,
    diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden,
    die gewichteten Segmente jeweils um eine definierte Anzahl von L Abtastwerten versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal um den Faktor α verlängert bzw. um 1/α verkürzt wird,
    dadurch gekennzeichnet,
    daß nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, das dort entnommene Segment mit dem Resultat der Synthese mit dem nachfolgend entnommenen Segment verglichen wird,
    daß zum schnellen Vergleich der Abweichung des jeweiligen Syntheseresultats vom Originalsignal lediglich der N Werte lange dritte Abschnitt des zuletzt entnommenen Segmentes als Referenz herangezogen wird,
    daß diese Segmente zueinander versetzt aufaddiert werden, wenn die ermittelte Abweichung minimal ist und
    daß als Maß für die Abweichung der relative Fehler oder der absolute quadratische Fehler herangezogen wird.
EP98104455A 1997-03-14 1998-03-12 Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen Expired - Lifetime EP0865026B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19710545 1997-03-14
DE19710545A DE19710545C1 (de) 1997-03-14 1997-03-14 Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen

Publications (3)

Publication Number Publication Date
EP0865026A2 true EP0865026A2 (de) 1998-09-16
EP0865026A3 EP0865026A3 (de) 1999-02-10
EP0865026B1 EP0865026B1 (de) 2003-12-03

Family

ID=7823336

Family Applications (1)

Application Number Title Priority Date Filing Date
EP98104455A Expired - Lifetime EP0865026B1 (de) 1997-03-14 1998-03-12 Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen

Country Status (3)

Country Link
EP (1) EP0865026B1 (de)
AT (1) ATE255763T1 (de)
DE (2) DE19710545C1 (de)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004114282A1 (de) * 2003-06-16 2004-12-29 Siemens Aktiengesellschaft Vorrichtung zum zeitlichen stauchen oder strecken, verfahren und folge von abtastwerten
US6944510B1 (en) 1999-05-21 2005-09-13 Koninklijke Philips Electronics N.V. Audio signal time scale modification
WO2006048349A1 (de) * 2004-11-03 2006-05-11 Siemens Aktiengesellschaft Verfahren zur ausgabe eines nutzdatenstroms und kommunikationsendgerät zum empfang und zur ausgabe eines nutzdatenstroms
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7313519B2 (en) 2001-05-10 2007-12-25 Dolby Laboratories Licensing Corporation Transient performance of low bit rate audio coding systems by reducing pre-noise
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7894654B2 (en) 2008-07-08 2011-02-22 Ge Medical Systems Global Technology Company, Llc Voice data processing for converting voice data into voice playback data
CN102855884A (zh) * 2012-09-11 2013-01-02 中国人民解放军理工大学 基于短时连续非负矩阵分解的语音时长调整方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0427953A2 (de) * 1989-10-06 1991-05-22 Matsushita Electric Industrial Co., Ltd. Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit
EP0608833A2 (de) * 1993-01-25 1994-08-03 Matsushita Electric Industrial Co., Ltd. Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen
EP0726560A2 (de) * 1995-01-11 1996-08-14 Rockwell International Corporation System zum Abspielen mit veränderbarer Geschwindigkeit

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0427953A2 (de) * 1989-10-06 1991-05-22 Matsushita Electric Industrial Co., Ltd. Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit
EP0608833A2 (de) * 1993-01-25 1994-08-03 Matsushita Electric Industrial Co., Ltd. Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen
EP0726560A2 (de) * 1995-01-11 1996-08-14 Rockwell International Corporation System zum Abspielen mit veränderbarer Geschwindigkeit

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944510B1 (en) 1999-05-21 2005-09-13 Koninklijke Philips Electronics N.V. Audio signal time scale modification
US8195472B2 (en) 2001-04-13 2012-06-05 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US8488800B2 (en) 2001-04-13 2013-07-16 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7313519B2 (en) 2001-05-10 2007-12-25 Dolby Laboratories Licensing Corporation Transient performance of low bit rate audio coding systems by reducing pre-noise
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
WO2004114282A1 (de) * 2003-06-16 2004-12-29 Siemens Aktiengesellschaft Vorrichtung zum zeitlichen stauchen oder strecken, verfahren und folge von abtastwerten
WO2006048349A1 (de) * 2004-11-03 2006-05-11 Siemens Aktiengesellschaft Verfahren zur ausgabe eines nutzdatenstroms und kommunikationsendgerät zum empfang und zur ausgabe eines nutzdatenstroms
US8270366B2 (en) 2004-11-03 2012-09-18 Siemens Enterprise Communications Gmbh & Co. Kg Method for outputting a useful data stream and communications terminal for receiving and for outputting a useful data stream
US7894654B2 (en) 2008-07-08 2011-02-22 Ge Medical Systems Global Technology Company, Llc Voice data processing for converting voice data into voice playback data
CN102855884A (zh) * 2012-09-11 2013-01-02 中国人民解放军理工大学 基于短时连续非负矩阵分解的语音时长调整方法
CN102855884B (zh) * 2012-09-11 2014-08-13 中国人民解放军理工大学 基于短时连续非负矩阵分解的语音时长调整方法

Also Published As

Publication number Publication date
ATE255763T1 (de) 2003-12-15
DE59810302D1 (de) 2004-01-15
EP0865026B1 (de) 2003-12-03
DE19710545C1 (de) 1997-12-04
EP0865026A3 (de) 1999-02-10

Similar Documents

Publication Publication Date Title
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE60127274T2 (de) Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
DE60023237T2 (de) Verfahren zur verschleierung von paketverlusten
DE60126513T2 (de) Verfahren zum ändern der grösse eines zitlerpuffers zur zeitausrichtung, kommunikationssystem, empfängerseite und transcoder
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
EP0865026B1 (de) Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen
DE69720861T2 (de) Verfahren zur Tonsynthese
DE2818204A1 (de) Signalverarbeitungsanlage, insbesondere zur beseitigung von raumnachhall
EP0624866A2 (de) Frequenzanalyseverfahren
DE2551632A1 (de) Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden sprache
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen
DE2805478A1 (de) Diskriminatoranordnung fuer sprachsignale
DE102004028694B3 (de) Vorrichtung und Verfahren zum Umsetzen eines Informationssignals in eine Spektraldarstellung mit variabler Auflösung
DE4218623C2 (de) Sprachsynthesizer
DE69723930T2 (de) Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
DE2649540A1 (de) Verfahren und anordnung zur sprachsynthese
DE60303688T2 (de) Sprachsynthese durch verkettung von sprachsignalformen
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
DE60316678T2 (de) Verfahren zum synthetisieren von sprache
DE10150519B4 (de) Verfahren und Anordnung zur Sprachverarbeitung
DE2854601A1 (de) Ton-synthesizer und verfahren zur ton-aufbereitung

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT DE FR GB NL

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

17P Request for examination filed

Effective date: 19990724

AKX Designation fees paid

Free format text: AT DE FR GB NL

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: GRUNDIG AKTIENGESELLSCHAFT

RIC1 Information provided on ipc code assigned before grant

Free format text: 7G 10L 21/04 A

17Q First examination report despatched

Effective date: 20020925

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

RIC1 Information provided on ipc code assigned before grant

Ipc: 7G 10L 21/04 A

RTI1 Title (correction)

Free format text: METHOD FOR MODIFYING SPEECH SPEED

RIC1 Information provided on ipc code assigned before grant

Ipc: 7G 10L 21/04 A

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT DE FR GB NL

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20031203

REF Corresponds to:

Ref document number: 59810302

Country of ref document: DE

Date of ref document: 20040115

Kind code of ref document: P

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20040906

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

NLS Nl: assignments of ep-patents

Owner name: GRUNDIG MULTIMEDIA B.V.

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: AT

Payment date: 20090324

Year of fee payment: 12

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20090327

Year of fee payment: 12

REG Reference to a national code

Ref country code: NL

Ref legal event code: V1

Effective date: 20101001

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20100312

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20101001

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 19

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 59810302

Country of ref document: DE

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20160321

Year of fee payment: 19

Ref country code: FR

Payment date: 20160328

Year of fee payment: 19

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20160331

Year of fee payment: 19

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 59810302

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20170312

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20171130

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171003

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170331

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170312