EP0865026A2 - Method for modifying speech speed - Google Patents

Method for modifying speech speed Download PDF

Info

Publication number
EP0865026A2
EP0865026A2 EP98104455A EP98104455A EP0865026A2 EP 0865026 A2 EP0865026 A2 EP 0865026A2 EP 98104455 A EP98104455 A EP 98104455A EP 98104455 A EP98104455 A EP 98104455A EP 0865026 A2 EP0865026 A2 EP 0865026A2
Authority
EP
European Patent Office
Prior art keywords
section
segments
digitized
voice signal
weighted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP98104455A
Other languages
German (de)
French (fr)
Other versions
EP0865026A3 (en
EP0865026B1 (en
Inventor
Holger Dr. Carl
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grundig AG
Original Assignee
Grundig AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to DE1997110545 priority Critical patent/DE19710545C1/en
Priority to DE19710545 priority
Application filed by Grundig AG filed Critical Grundig AG
Publication of EP0865026A2 publication Critical patent/EP0865026A2/en
Publication of EP0865026A3 publication Critical patent/EP0865026A3/en
Application granted granted Critical
Publication of EP0865026B1 publication Critical patent/EP0865026B1/en
Anticipated expiration legal-status Critical
Application status is Expired - Lifetime legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Abstract

The modification method has an analogue speech signal converted into a corresponding digital signal. The digital signal is entered in a memory, with lengthening or shortening of the signal by a pre-defined factor, using an add overlap method. The stored speech signal is divided into segments which are weighted via a window function with a first rising section, a constant section and a falling section. There is a comparison made of the weighted segments, for waveform similarity and addition of the segments, when the similarity has a maximum value.

Description

Gegenstand der Erfindung ist ein Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen im Zeitbereich, insbesondere eine effiziente Overlap-Add-Methode. The invention provides a method for rate modification of speech signals in the time domain, in particular an efficient overlap-add method.

In verschiedenen Bereichen der Verarbeitung von Sprach- und Audiosignalen ist eine Veränderung der Wiedergabegeschwindigkeit dieser Signale erwünscht, möglichst ohne daß damit eine Beeinträchtigung ihrer Natürlichkeit und - im Fall von Sprache - ihrer Verständlichkeit verbunden wäre. In different areas of the processing of voice and audio signals a change in the reproduction speed of these signals is desirable, if possible without thereby jeopardizing their naturalness and - in the case of language - its intelligibility would be connected. Dieses Ziel, den Klangcharakter zu erhalten, kann man aus technischer Sicht folgendermaßen formulieren: Trotz einer Modifikation der Zeitskala dieser Signale sollen ihre Kurzzeitspektraleigenschaffen unverändert bleiben. This objective of maintaining the sound character, can be formulated as follows from a technical perspective: Despite a modification of the time scale of these signals are to remain unchanged its Kurzzeitspektraleigenschaffen. Insbesondere bedeutet das für Sprachsignale, daß Grundfrequenz und Formanten bei der Geschwindigkeitsmodifikation erhalten bleiben müssen. In particular, the means for speech signals that fundamental frequency and formant must be maintained at the speed modification.

Die Zeitstauchung oder Zeitdehnung von Audiosignalen wird in Studios eingesetzt, zum Beispiel mit dem Ziel, Werbesendungen auf die vorgesehene Länge zu trimmen. The time compression or time expansion of audio signals is used in studios, for example, with the aim to trim commercials to the intended length. Auch in der Diktiertechnik ist die Anpassung der Wiedergabegeschwindigkeit an die Bedürfnisse bzw. Fähigkeiten der Schreibkraft von Bedeutung. Also in the dictation is to adjust the playback speed to the needs and abilities of the typist important. Eine weitere Anwendung besteht bei der Echtzeitübertragung von Sprachsignalen, bei der Datenpakete mit variabler Verzögerung beim Empfänger eintreffen. Another application is in real-time transmission of speech signals, in which data packets arrive at the receiver with a variable delay. Durch Anwendung der Geschwindigkeitsmodifikation kann man hier die Über-Alles-Verzögerung im Mittel geringer halten als das Worst-Case Delay der Übertragungsstrecke, ohne daß ein zu spät eintreffendes Datenpaket zu Aussetzern oder anderen, ähnlich störenden Effekten führen würde. By applying the speed modification can here keep the over-all delay on average lower than the worst-case delay of the transmission link without a late incoming data packet dropouts or other similarly disturbing effects would result.
Für viele Anwendungen ergeben sich neben dem Wunsch nach möglichst hoher Klangqualität die folgenden zusätzlichen Anforderungen an das Verfahren: result for many applications in addition to the desire for the highest possible sound quality, the following additional requirements for the procedure:

Eine kostengünstige Echtzeitrealisierung muß erzielbar sein, und es muß zur Laufzeit eine nach Möglichkeit stufenlose Änderung des Geschwindigkeitsmodifikationsfaktors möglich sein. A cost-effective real-time implementation must be achieved, and it must be possible at runtime stepless if possible change of speed modification factor. Von Vorteil ist ohne Zweifel auch, wenn der Algorithmus ohne eine stets fehlerbehaftete Pitch-Schätzung auskommt. Another advantage is, no doubt, if the algorithm does not require an always erroneous pitch estimation.

Aus "Method for Time or Frequency Compression-Expansion of Speed", von G. Fairbaks und RP Jaeger, Inst. of Radio Engineers Trans. on Audio, Vol. AU-2, No. From "Method for Time or Frequency Compression Expansion of Speed", by G. Fairbaks and RP Jaeger, Inst. Of Radio Engineers Trans. On Audio, Vol. AU-2, No. 1 pp. 1 pp. 7-12, Jan. 1954, sind erste Untersuchungen zur Sprachsignalstauchung bzw. Sprachsignaldehnung bekannt. 7-12, Jan. 1954, the first studies on the speech signal compression or expansion speech signal are known. Häufig wurden seitdem Frequenzbereichsverfahren eingesetzt - naheliegend, da, wie eingangs erwähnt, die Kurzzeitspektraleigenschaften des Sprachsignals erhalten bleiben sollen. since the frequency domain methods were often used - obvious since, as mentioned above, the Kurzzeitspektraleigenschaften of the speech signal to be retained. Seit Mitte der achtziger Jahre sind vergleichsweise einfache im Zeitbereich arbeitende Overlap-Add-Verfahren bekannt, mit denen sehr gut klingende zeitskalierte Sprachsignale erzeugt werden können. Since the mid-eighties comparatively easy working in the time domain overlap-add processes are known by which very good sounding time scaled speech signals can be generated.

In "Signal Estimation from Modified Short-Time Fourier Transform", von DW Griffin, in IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-32, No. In "Signal Estimation from Modified Short-Time Fourier Transform", by DW Griffin, in IEEE Trans. Acoust., Speech, Signal Processing, Vol. ASSP-32, No. 2, pp. 2, pp. 236-242, Apr. 1984, berichten Griffin und Lim von Experimenten mit einer sehr aufwendigen iterativ arbeitenden Phasenbestimmung. 236-242, Apr. 1984, Griffin and Lim reports of experiments with a very elaborate iteratively operating phase determination. Auf diesen Ansatz nimmt wiederum die Veröffentlichung von S. Roucos und AM Wilgus "High Quality Time-Scale Modification for Speech", IEEE Proc. In this approach, in turn, the release of S. Roucos and AM Wilgus "High Quality Time-Scale Modification for Speech," IEEE Proc takes. Int. Int. Conf. Conf. Acoust., Speech, Signal Processing, pp. Acoust., Speech, Signal Processing, pp. 493-496, 1985, Bezug, die eine Zeitbereichsmethode vorschlagen, die mittels eines Overlap-Add-Ansatzes zeitskalierte Sprachsignale erzeugt. 493-496, 1985, reference suggesting a time-domain method that generates time scaled speech signals by means of an overlap-add approach. Bei diesem sogenannten SOLA-Verfahren (SOLA = Synchronized OverLap-Add) erfolgt eine Synchronisation der in regelmäßigen Abständen dem Originalsignal entnommenen Abschnitte durch Verschiebung vor der jeweils entsprechenden Fensterung und Addition im Zielsignal. In this so-called SOLA method (SOLA = Synchronized Overlap Add) is carried out a synchronization of the extracted at regular intervals to the original signal sections by displacement in front of each respective windowing and adding the target signal. Dies entspricht im weiteren Sinne der Phasenoptimierung, wie sie in den Frequenzbereichsverfahren durchgeführt wird. This corresponds in the broader sense of the phase optimization, as it is performed in the frequency domain methods. Eng mit dem SOLA-Algorithmus verwandt ist das sogenannte WSOLA-Verfahren (WSOLA = Waveform Similarity OverLap--Add), das W. Verhelst und M. Roelands in "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed", IEEE Proc. Closely related to the SOLA algorithm is the so-called WSOLA method (WSOLA = Waveform Similarity OverLap - Add), the W. Verhelst and M. Roelands in "An overlap-add Technique Based on Waveform Similarity (WSOLA) for High Quality Time -scale Modification of speed ", IEEE Proc. Int. Int. Conf. Conf. Acoust., Speech, Signal Processing, pp. Acoust., Speech, Signal Processing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation", Int. 554-557, 1993, and "Waveform Similarity based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation", Int. Conf. Conf. on Speech Communication and Technology, pp. on Speech Communication and Technology, pp. 337-340, 1993, vorstellen. 337-340, 1993, to present. Der Hauptunterschied zwischen diesen beiden Ansätzen besteht in der Synchronisation, die im WSOLA-Verfahren durch versetztes Entnehmen von Segmenten aus dem Originalsignal durchgeführt wird, was sich gegenüber dem SOLA-Prinzip vor allem aufwandsmindernd auswirkt. The main difference between these two approaches is the synchronization that is performed in the WSOLA method by staggered removal of segments from the original signal, which mainly affects reducing expenses with respect to the SOLA principle.
7 7
Aufgabe der Erfindung ist es, ein Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen im Zeitbereich anzugeben, das besonders effizient arbeitet und gegenüber dem Stand der Technik weniger Aufwand erfordert. The object of the invention is to provide a process for the velocity modification of speech signals in the time domain, which operates particularly efficiently and over the prior art requires less effort.

Diese Aufgabe wird durch die Merkmale der Ansprüche 1 und 2 gelöst. This object is solved by the features of claims 1 and 2. FIG. Vorteilhafte Ausgestaltungen der Erfindung sind in der nachfolgenden Beschreibung angegeben. Advantageous embodiments of the invention are given in the following description.

Die Erzeugung der mit dem Faktor α zeitskalierten Version y(k) eines Sprachsignals x(k) erfolgt gemäß der Synthese The generation of the time scaled by a factor α version y (k) of a speech signal x (k) according to the synthesis y y ( ( k k )= ) = λ=-∞ λ = -∞ ( ( k k +λ(α-1) + Λ (α-1) L L λ ) + Δ λ) w w ( ( k k L L ) ) mit einer Fensterfunktion with a window function

Figure 00040001

Die hierin vorkommende für k=0, ... , N-1 definierte Funktion v(k) ist dabei sinnvollerweise zwischen ihren Extrema occurring herein defined for k = 0 ..., N-1 function v (k) is usefully between its extremes v(0)=ε 0 v (0) = ε 0 mit 0<ε 0 <<1 und 0 <ε 0 << 1 and v(N-1 )=1-ε 1 v (N-1) = 1-ε 1 mit 0<ε 1 <<1 monotonwachsend. increases monotonically with 0 <ε << 1. 1

Die angegebene w(k)-Definition stellt sicher, daß die für sinnvolles Overlap-Add notwendige Bedingung The specified w (k) definition ensures that the time necessary for meaningful overlap-add condition λ=-∞ λ = -∞ w w ( ( k k - - λL λL ) ≡ 1 ∀ ) ≡ 1 ∀ k k ε {-∞,...,∞} ε {-∞, ..., ∞} erfüllt ist. is satisfied.

Die in obiger Synthesegleichung enthaltene Verschiebevariable Δ λ ist zwecks der erwähnten Synchronisation aus einem "Toleranzbereich" -Δ max , ... ,Δ max zu bestimmen. The shift variable Δ contained in the above synthesis equation λ is the purpose of the aforementioned synchronization of a "tolerance range" -Δ max, ... to determine Δ max.

Die prinzipielle Vorgehensweise ist wie folgt: The basic procedure is as follows:
Aus dem Originalsignal x(k) werden in - abgesehen von einem synchronisationsbedingten "Jitter" - regelmäßigen αL Werte betragenden Abständen Segmente der Länge L+N entnommen und nach Gewichtung mit w(k) jeweils um L Abtastwerte versetzt aufaddiert. be in from the original signal x (k) - apart from a synchronization-related "jitter" - amount forming intervals added removed segments of length L + N and, after weighting by w (k) respectively by L samples αL regular values. Das auf diese Weise erhaltene Signal y(k) ist gegenüber x(k) um den Faktor α beschleunigt, das heißt, daß eine im Originalsignal x(k) enthaltene Äußerung von K Abtastwerten Länge durch dieses Vorgehen auf einen y(k) -Abschnitt der Länge K/α abgebildet, also verkürzt und damit in der Wiedergabe beschleunigt für α > 1, bzw. verlängert, das heißt verlangsamt, wird, wenn α < 1 ist. The signal y (k) obtained in this manner is compared to x (k) accelerated α by a factor, that is, a x in the original signal (k) expression given by K samples length by this procedure on a y (k) section the length K / α displayed, so shortened and thus in the playback speeds for α> 1, or extended, that is slow, when α <1.

Die Synchronisation der zu überlappenden Abschnitte ist für die resultierende Klangqualität von großer Bedeutung. The synchronization of to overlapping sections of the resulting sound quality is very important. Hierzu wird der folgende Ansatz verwendet: Während der Abarbeitung des Verfahrens kann zu jedem dem Signal x(k) entnommenen Segment für den nächsten Schritt als "Idealsegment" der um L Abtastwerte versetzte Abschnitt von x(k) angesehen werden, da durch diese Wahl die Overlap-Add-Operation wieder das Originalsignal x(k) reproduzieren würde. For this purpose, the following approach is used: During the execution of the method taken to each of the signal x (k) segment, for the next step as "Ideal segment" of offset by L samples portion of x (k) can be considered, since by this choice the overlap-add operation would again reproduce the original signal x (k). Die erwünschte Zeitskalierung erfordert nun aber, daß für die Overlap-Add-Synthese ia ein anderer, gegenüber dem "Idealsegment" versetzter Abschnitt von x(k) ausgewählt wird. The desired time scaling but now requires that another, offset with respect to the "Ideal segment" section is selected by x (k) for the overlap-add synthesis ia. Die bestmögliche Synchronisation ist gegeben, wenn der für die Overlap-Add-Operation benutzte Abschnitt größtmögliche Ähnlichkeit ("Waveform Similarity") mit dem "Idealsegment" aufweist. The best possible synchronization is obtained if the portion used for the overlap-add operation as similar as possible ( "Waveform Similarity") with the "ideal segment".

Als Kriterium für die Ähnlichkeit der genannten Segmente bieten sich verschiedene Maße an. The criterion for the similarity of said segments to different measures offer. Naheliegend ist beispielsweise die Benutzung des Korrelationskoeffizienten. An obvious example is the use of the correlation coefficient. Während W. Verhelst und M. Roelands in "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed", in IEEE Proc. While W. Verhelst and M. Roelands "An overlap-add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed" in, in IEEE Proc. Int. Int. Conf. Conf. Acoust., Speech, Signal Processing, pp. Acoust., Speech, Signal Processing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation" in Int. 554-557, 1993, and "Waveform Similarity based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation" in Int. Conf. Conf. on Speech Communication and Technology, pp. on Speech Communication and Technology, pp. 337-340, 1993, für die Auswertung des Ähnlichkeitsmaßes das komplette Segment der Länge L+N herangezogen haben, erscheint es als vollkommen ausreichend, die Berechnung auf den Bereich der N Abtastwerte zu beschränken, in dem die Segmente tatsächlich überlappen. 337-340, 1993, have used the complete segment of length L + N for the evaluation of the similarity measure, it appears as a fully sufficient to limit the calculation to the area of ​​the N samples, in which the segments do overlap.

Für die weiteren Darstellungen ist es hilfreich, die folgende Vektornotation einzuführen: For further representations, it is helpful to introduce the following vector notation:
Der N Werte lange Abschnitt des "Idealsegments", in dem die Überlappung mit dem neu zu bestimmenden Segment stattfinden wird, sei mit x bezeichnet, die ersten N Werte des verschobenen Segments mit x q . The N values of the long section "Ideal segment", in which the overlap is held with the newly determined segment will be denoted by x, the first N values of the shifted segment having x q. Die Gewichtung dieses Abschnitts mit der steigenden Flanke des Fensters wird durch Multiplikation dieses Vektors mit einer Diagonalmatrix V repräsentiert, die mit den Werten v(0), ... , v(N-1) besetzt ist. The weight of this section with the rising edge of the window is represented by multiplying this vector by a diagonal matrix V, which is set with the values ​​of v (0), ..., v (N-1). Entsprechend wird die Gewichtung des Idealsegmentabschnitts x mit der fallenden Flanke des Fensters durch Multiplikation mit 1 - V dargestellt, wobei 1 die N×N-Einheitsmatrix bezeichnet. Accordingly, the weighting of the ideal segment portion is x with the falling edge of the window by multiplying by 1 - V shown, where 1 denotes the N × N unit matrix. Der im kritischen Überlappungsbereich aus der Overlap-Add-Synthese resultierende y(k)-Abschnitt lautet damit The resulting in the critical region of overlap in the overlap-add synthesis of y (k) portion is thus

Figure 00060001

Beispielsweise läßt sich nun als Maß für die Ähnlichkeit der hierbei beteiligten Komponenten eine Kreuzkorreliertenberechnung gemäß For example, can now be used as a measure of the similarity of the components involved in this case a cross-correlated calculation according to

Figure 00060002
angeben. specify. Die Maximierung dieses Ausdrucks bezüglich der sich in x q wiederfindenden Verschiebung δ ∈ {-Δ max , ... , Δ max } liefert die für das betrachtete Segment im Sinne des angesetzten Ähnlichkeitsmaßes optimale Verschiebung Δ λ . Maximizing this expression with respect to the q again place in x displacement δ ∈ {-Δ max, ... Δ max} provides the optimum for the segment under consideration within the meaning of the attached similarity measure displacement Δ λ.

Die Berechnung der C δ erfordert alle L Abtastwerte 2N Multiplikationen für die Vorabberechnung des Ausdrucks x T ( 1 -V) T V sowie anschließend (2Δ max +1)N Multiplikationen und Additionen. The calculation of the C δ requires all L samples 2N multiplications for a preliminary calculation of the expression x T (1 -V) V T, and then (2Δ max +1) N multiplications and additions.

Dies stellt gegenüber W. Verhelst und M. Roelands in "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed", in IEEE Proc. This represents over W. Verhelst and M. Roelands in "An overlap-add Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed," in IEEE Proc. Int. Int. Conf. Conf. Acoust., Speech, Signal Processing, pp. Acoust., Speech, Signal Processing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation" in Int. 554-557, 1993, and "Waveform Similarity based Overlap-Add (WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation" in Int. Conf. Conf. on Speech Communication and Technology, pp. on Speech Communication and Technology, pp. 337-340, 1993, eine Aufwandsreduktion um den Faktor zwei dar, der sich für L>N sogar noch erhöht. 337-340, 1993, a cost reduction by a factor of two is that still increases for L> N even. Die Beschränkung der Ähnlichkeitsberechnung auf den Bereich der Überlappung hat keinerlei negative Auswirkungen auf die Qualität der zeitskalierten Sprachproben. The limitation of the similarity calculation to the area of ​​overlap has no negative impact on the quality of time scaled speech samples.

Ein anderer Ansatz für die Synchronisation ist, anstelle der Maximierung der "Waveform Similarity" den Fehler zwischen dem synthetisierten Signal y und dem Originalsignal x zu minimieren. Another approach for synchronization to minimize rather than maximize the "Waveform Similarity" the error between the synthesized signal y and the original signal x. Eine einfache willkürliche Wahl ist, für diesen Fehler den quadratischen Ausdruck A simple random choice, for this error the quadratic expression E δ =∥xy∥ 2 E δ = 2 ∥xy∥ anzusetzen. to be set.

Bei Vernachlässigung der Vorabberechnungen beläuft sich der für die Auswertung von E δ anfallende Aufwand auf (2Δ max +1 )4N DSP-Operationen alle L Abtastwerte. Neglecting the preliminary calculations, the for the evaluation of e δ incurred expenses on (2Δ max +1) 4N DSP operations all L samples amounts. Hierunter werden solche Operationen verstanden, die ein Signalprozessor mit gängiger Architektur in einem Schritt abarbeiten kann. Among these, those operations are meant, which can execute a signal processor having common architecture in one step.

Ein weiterer Ansatz besteht darin, anstelle des absoluten Fehlers den relativen Fehler Another approach is to place the absolute error relative error R∂ = R∂ = x x - - y y 2 2 y y 2 2 zu minimieren, was als SNR-Maximierung interpretiert werden kann. to minimize what can be interpreted as SNR maximization. (2Δ max +1)5N Operationen sind hier vor jeder Overlap-Add-Operation erforderlich. (2Δ max +1) 5N operations are required here before each overlap-add operation.

Claims (2)

  1. Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, insbesondere digitalisierten Sprachsignalen, bei dem A process for the modification speed of voice signals, in particular digitized voice signals, in which
    ein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird, an analog voice signal is digitized, thereby providing a digitized voice signal that is stored in a memory is created,
    ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird, a factor α is defined, which the speech signal is to be extended or shortened,
    eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt an den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich, sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht, a window function having a first rising section of length N, a second, will be defined directly to the first section subsequent, constant section of length L, and a third, subsequent directly to the second portion, falling portion, the first at a superimposition rising section of a window with the third falling section of another window and an addition of the two portions in the overlap region, the result obtained one, which corresponds to the value of the second section of the window function,
    aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer Länge L+N entnommen werden, are extracted from the digitized, stored voice signal at irregular intervals of mean length αL segments of a length L + N,
    diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden this, removed from the digitized, stored voice signal segments are weighted with the window function in the time domain
    die gewichteten Segmente jeweils um eine definierte Anzahl von L Abtastwerten versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal um den Faktor α verlängert bzw. um 1/α verkürzt wird, the weighted segments are added together in each case by a defined number of offset L samples, whereby the voice signal thus produced by a factor α and extended by 1 / α is shortened,
    dadurch gekennzeichnet, characterized,
    daß nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, das dort entnommene, mit der Fensterfunktion gewichtete, Segment mit dem nachfolgend entnommenen, ebenfalls mit der Fensterfunktion gewichteten, Segment unter Ähnlichkeitsaspekten verglichen wird, that successively at the points of extraction of the segments from the digitized voice signal, the extracted there, weighted by the window function, the segment with the withdrawn below segment is compared with similarity aspects likewise weighted with the window function,
    daß zum schnellen Vergleich der Ähnlichkeit der Segmente lediglich der N Werte lange dritte, mit dem fallenden Fensterabschnitt gewichtete, Abschnitt des Segmentes mit dem jeweils ersten, mit dem steigenden N Werte langen Fensterabschnitt gewichteten Abschnitten des nachfolgenden Segmentes verglichen wird, that long third, weighted with the falling window section, portion of the segment is compared with the respective first, weighted with the rising N values ​​long window section portions of the following segment for a quick comparison of the similarity of the segments, only the N values,
    daß diese Segmente zueinander versetzt aufaddiert werden, wenn die Ähnlichkeit beider verglichener Segmentteile maximal ist und that these segments are offset from each other added when the similarity of both compared segment portions is at a maximum and
    daß zur Berechnung der Ähnlichkeit, als deren Maß, eine Korrelation verwendet wird. that for the calculation of the similarity, as their measure, a correlation is used.
  2. Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, insbesondere digitalisierten Sprachsignalen, bei dem A process for the modification speed of voice signals, in particular digitized voice signals, in which
    ein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird, an analog voice signal is digitized, thereby providing a digitized voice signal that is stored in a memory is created,
    ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird, a factor α is defined, which the speech signal is to be extended or shortened,
    eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt an den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich, sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht, a window function having a first rising section of length N, a second, will be defined directly to the first section subsequent, constant section of length L, and a third, subsequent directly to the second portion, falling portion, the first at a superimposition rising section of a window with the third falling section of another window and an addition of the two portions in the overlap region, the result obtained one, which corresponds to the value of the second section of the window function,
    aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer Länge L+N entnommen werden, are extracted from the digitized, stored voice signal at irregular intervals of mean length αL segments of a length L + N,
    diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden, this, removed from the digitized, stored voice signal segments are weighted with the window function in the time domain,
    die gewichteten Segmente jeweils um eine definierte Anzahl von L Abtastwerten versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal um den Faktor α verlängert bzw. um 1/α verkürzt wird, the weighted segments are added together in each case by a defined number of offset L samples, whereby the voice signal thus produced by a factor α and extended by 1 / α is shortened,
    dadurch gekennzeichnet, characterized,
    daß nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, das dort entnommene Segment mit dem Resultat der Synthese mit dem nachfolgend entnommenen Segment verglichen wird, that successively at the points of extraction, the removed segment there with the result of the synthesis with the extracted segment is compared below the segments from the digitized voice signal,
    daß zum schnellen Vergleich der Abweichung des jeweiligen Syntheseresultats vom Originalsignal lediglich der N Werte lange dritte Abschnitt des zuletzt entnommenen Segmentes als Referenz herangezogen wird, that long third section of the segment extracted last is used as reference for a quick comparison of the deviation of the respective synthesis result from the original signal, only the N values,
    daß diese Segmente zueinander versetzt aufaddiert werden, wenn die ermittelte Abweichung minimal ist und that these segments are added together offset from one another when the determined deviation is minimal and
    daß als Maß für die Abweichung der relative Fehler oder der absolute quadratische Fehler herangezogen wird. that is used as a measure for the deviation of the relative error or the absolute square error.
EP19980104455 1997-03-14 1998-03-12 Method for modifying speech speed Expired - Lifetime EP0865026B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE1997110545 DE19710545C1 (en) 1997-03-14 1997-03-14 Time scale modification method for speech signals
DE19710545 1997-03-14

Publications (3)

Publication Number Publication Date
EP0865026A2 true EP0865026A2 (en) 1998-09-16
EP0865026A3 EP0865026A3 (en) 1999-02-10
EP0865026B1 EP0865026B1 (en) 2003-12-03

Family

ID=7823336

Family Applications (1)

Application Number Title Priority Date Filing Date
EP19980104455 Expired - Lifetime EP0865026B1 (en) 1997-03-14 1998-03-12 Method for modifying speech speed

Country Status (3)

Country Link
EP (1) EP0865026B1 (en)
AT (1) AT255763T (en)
DE (1) DE19710545C1 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004114282A1 (en) * 2003-06-16 2004-12-29 Siemens Aktiengesellschaft Device for the temporal compression or expansion of samples, associated method and sequence of samples
US6944510B1 (en) 1999-05-21 2005-09-13 Koninklijke Philips Electronics N.V. Audio signal time scale modification
WO2006048349A1 (en) * 2004-11-03 2006-05-11 Siemens Aktiengesellschaft Method for emitting a useful data flow and communication terminal for receiving and emitting a useful data flow
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7313519B2 (en) 2001-05-10 2007-12-25 Dolby Laboratories Licensing Corporation Transient performance of low bit rate audio coding systems by reducing pre-noise
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7894654B2 (en) 2008-07-08 2011-02-22 Ge Medical Systems Global Technology Company, Llc Voice data processing for converting voice data into voice playback data
CN102855884A (en) * 2012-09-11 2013-01-02 中国人民解放军理工大学 Speech time scale modification method based on short-term continuous nonnegative matrix decomposition

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0427953A2 (en) * 1989-10-06 1991-05-22 Matsushita Electric Industrial Co., Ltd. Apparatus and method for speech rate modification
EP0608833A2 (en) * 1993-01-25 1994-08-03 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
EP0726560A2 (en) * 1995-01-11 1996-08-14 Rockwell International Corporation Variable speed playback system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0427953A2 (en) * 1989-10-06 1991-05-22 Matsushita Electric Industrial Co., Ltd. Apparatus and method for speech rate modification
EP0608833A2 (en) * 1993-01-25 1994-08-03 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
EP0726560A2 (en) * 1995-01-11 1996-08-14 Rockwell International Corporation Variable speed playback system

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944510B1 (en) 1999-05-21 2005-09-13 Koninklijke Philips Electronics N.V. Audio signal time scale modification
US8195472B2 (en) 2001-04-13 2012-06-05 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US8488800B2 (en) 2001-04-13 2013-07-16 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7313519B2 (en) 2001-05-10 2007-12-25 Dolby Laboratories Licensing Corporation Transient performance of low bit rate audio coding systems by reducing pre-noise
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
WO2004114282A1 (en) * 2003-06-16 2004-12-29 Siemens Aktiengesellschaft Device for the temporal compression or expansion of samples, associated method and sequence of samples
US8270366B2 (en) 2004-11-03 2012-09-18 Siemens Enterprise Communications Gmbh & Co. Kg Method for outputting a useful data stream and communications terminal for receiving and for outputting a useful data stream
WO2006048349A1 (en) * 2004-11-03 2006-05-11 Siemens Aktiengesellschaft Method for emitting a useful data flow and communication terminal for receiving and emitting a useful data flow
US7894654B2 (en) 2008-07-08 2011-02-22 Ge Medical Systems Global Technology Company, Llc Voice data processing for converting voice data into voice playback data
CN102855884A (en) * 2012-09-11 2013-01-02 中国人民解放军理工大学 Speech time scale modification method based on short-term continuous nonnegative matrix decomposition
CN102855884B (en) 2012-09-11 2014-08-13 中国人民解放军理工大学 Speech time scale modification method based on short-term continuous nonnegative matrix decomposition

Also Published As

Publication number Publication date
AT255763T (en) 2003-12-15
EP0865026A3 (en) 1999-02-10
EP0865026B1 (en) 2003-12-03
DE19710545C1 (en) 1997-12-04

Similar Documents

Publication Publication Date Title
Moulines et al. Non-parametric techniques for pitch-scale and time-scale modification of speech
DE69910058T2 (en) Improving the periodicity of a broadband signal
EP0296588B1 (en) Method and circuit arrangement for the automatic recognition of signal sequences
EP0889588B1 (en) Filter combination for sample rate conversion
DE3306730C2 (en)
CN1146863C (en) Speech synthesizing method and apparatus thereof
US9275652B2 (en) Device and method for manipulating an audio signal having a transient event
US20030229490A1 (en) Methods and devices for selectively generating time-scaled sound signals
DE69725802T2 (en) Prefiltering means lexical trees for speech recognition
Søndergaard et al. The linear time frequency analysis toolbox
JP2782147B2 (en) Waveform editing speech synthesis devices
DE19736669C1 (en) Beat detection method for time discrete audio signal
DE69531642T2 (en) Synthesis of an excitation signal in case of failure of data frames or loss of data packets
US5029509A (en) Musical synthesizer combining deterministic and stochastic waveforms
EP0910065A1 (en) Speaking speed changing method and device
DE69816177T2 (en) Speech / pause distinction means unguided adaptation of Hidden Markov Models
DE3244476C2 (en)
DE3510660C2 (en)
DE4492048C2 (en) Vector quantization method
DE69816687T2 (en) Method and apparatus for Entfernungsmehrdeutigkeitsauflösung, in particular for frequency-hopping radar
EP0427953B1 (en) Apparatus and method for speech rate modification
EP0608833A2 (en) Method of and apparatus for performing time-scale modification of speech signals
DE69531471T2 (en) Multichannel signal coding using weighted vector
EP0624866B1 (en) Method for frequency analysis
DE10118653C2 (en) A method for noise reduction

Legal Events

Date Code Title Description
AK Designated contracting states:

Kind code of ref document: A2

Designated state(s): AT DE FR GB NL

AX Request for extension of the european patent to

Free format text: AL;LT;LV;MK;RO;SI

AX Request for extension of the european patent to

Free format text: AL;LT;LV;MK;RO;SI

AK Designated contracting states:

Kind code of ref document: A3

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

17P Request for examination filed

Effective date: 19990724

AKX Payment of designation fees

Free format text: AT DE FR GB NL

RAP1 Transfer of rights of an ep published application

Owner name: GRUNDIG AKTIENGESELLSCHAFT

RIC1 Classification (correction)

Free format text: 7G 10L 21/04 A

17Q First examination report

Effective date: 20020925

RTI1 Title (correction)

Free format text: METHOD FOR MODIFYING SPEECH SPEED

RIC1 Classification (correction)

Ipc: 7G 10L 21/04 A

RIC1 Classification (correction)

Ipc: 7G 10L 21/04 A

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

AK Designated contracting states:

Kind code of ref document: B1

Designated state(s): AT DE FR GB NL

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20031203

REF Corresponds to:

Ref document number: 59810302

Country of ref document: DE

Date of ref document: 20040115

Kind code of ref document: P

ET Fr: translation filed
26N No opposition filed

Effective date: 20040906

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

NLS Nl: assignments of ep-patents

Owner name: GRUNDIG MULTIMEDIA B.V.

PGFP Postgrant: annual fees paid to national office

Ref country code: AT

Payment date: 20090324

Year of fee payment: 12

PGFP Postgrant: annual fees paid to national office

Ref country code: NL

Payment date: 20090327

Year of fee payment: 12

REG Reference to a national code

Ref country code: NL

Ref legal event code: V1

Effective date: 20101001

PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20100312

PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

Ref country code: NL

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20101001

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 19

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 59810302

Country of ref document: DE

PGFP Postgrant: annual fees paid to national office

Ref country code: FR

Payment date: 20160328

Year of fee payment: 19

Ref country code: GB

Payment date: 20160321

Year of fee payment: 19

PGFP Postgrant: annual fees paid to national office

Ref country code: DE

Payment date: 20160331

Year of fee payment: 19

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 59810302

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20170312

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20171130

PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170331

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20171003

PG25 Lapsed in a contracting state announced via postgrant inform. from nat. office to epo

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170312