EP0865026B1 - Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen - Google Patents
Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen Download PDFInfo
- Publication number
- EP0865026B1 EP0865026B1 EP98104455A EP98104455A EP0865026B1 EP 0865026 B1 EP0865026 B1 EP 0865026B1 EP 98104455 A EP98104455 A EP 98104455A EP 98104455 A EP98104455 A EP 98104455A EP 0865026 B1 EP0865026 B1 EP 0865026B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- section
- voice signal
- segments
- digitized
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Definitions
- the invention relates to a method for speed modification of Voice signals in the time domain, especially an efficient overlap add method.
- SOLA Synchronized OverLap-Add
- WSOLA Waveform Similarity OverLap - Add
- the object of the invention is to provide a method for speed modification of Specify voice signals in the time domain that works particularly efficiently.
- the version y (k) of a speech signal x (k) time-scaled by the factor ⁇ is generated according to the synthesis with a window function
- the specified w (k) definition ensures that the condition necessary for meaningful overlap add is satisfied.
- the shift variable ⁇ ⁇ contained in the above synthesis equation is to be determined from a "tolerance range" - ⁇ max , ..., ⁇ max for the purpose of the synchronization mentioned.
- the basic procedure is as follows: Apart from a synchronization-related “jitter”, segments of length L + N are taken from the original signal x (apart from a synchronization-related “jitter”) and, after weighting with w (k), are added by L sample values each offset.
- the signal y (k) obtained in this way is accelerated by a factor of ⁇ compared to x (k), that is to say that an utterance of K samples in the original signal x (k) length on this y (k) section by this procedure the length K / ⁇ is mapped, that is to say shortened and thus accelerated in the reproduction for ⁇ > 1, or lengthened, that is to say slowed down, if ⁇ ⁇ 1.
- the weighting of this section with the rising edge of the window is represented by multiplying this vector by a diagonal matrix V, by the values v (0), ... v (N-1) is occupied.
- the weighting of the ideal segment section x with the falling edge of the window is represented by multiplication by 1 - V, where 1 denotes the N ⁇ N unit matrix.
- Another approach to synchronization is to minimize the error between the synthesized signal y and the original signal x instead of maximizing the "waveform similarity".
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Time-Division Multiplex Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
Description
Für viele Anwendungen ergeben sich neben dem Wunsch nach möglichst hoher Klangqualität die folgenden zusätzlichen Anforderungen an das Verfahren:
Aus dem Originalsignal x(k) werden in - abgesehen von einem synchronisationsbedingten "Jitter" - regelmäßigen αL Werte betragenden Abständen Segmente der Länge L+N entnommen und nach Gewichtung mit w(k) jeweils um L Abtastwerte versetzt aufaddiert. Das auf diese Weise erhaltene Signal y(k) ist gegenüber x(k) um den Faktor α beschleunigt, das heißt, daß eine im Originalsignal x(k) enthaltene Äußerung von K Abtastwerten Länge durch dieses Vorgehen auf einen y(k) -Abschnitt der Länge K/α abgebildet, also verkürzt und damit in der Wiedergabe beschleunigt für α > 1, bzw. verlängert, das heißt verlangsamt, wird, wenn α < 1 ist.
Der N Werte lange Abschnitt des "Idealsegments", in dem die Überlappung mit dem neu zu bestimmenden Segment stattfinden wird, sei mit x bezeichnet, die ersten N Werte des verschobenen Segments mit xq. Die Gewichtung dieses Abschnitts mit der steigenden Flanke des Fensters wird durch Multiplikation dieses Vektors mit einer Diagonalmatrix V repräsentiert, die mit den Werten
v(0), ... v(N-1) besetzt ist. Entsprechend wird die Gewichtung des Idealsegmentabschnitts x mit der fallenden Flanke des Fensters durch Multiplikation mit 1 - V dargestellt, wobei 1 die N×N-Einheitsmatrix bezeichnet. Der im kritischen Überlappungsbereich aus der Overlap-Add-Synthese resultierende y(k)-Abschnitt lautet damit
Claims (3)
- Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, insbesondere digitalisierten Sprachsignalen, bei demein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird,ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird,eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt ah den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L-N und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht,aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer definierten Länge L+N entnommen werden,diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden,die gewichteten Segmente jeweils um eine definierte Anzahl von Abtastwerten L versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal für α > 1 verkürzt und für α < 1 verlängert wird,nacheinander an den Stetten der Entnahme der Segmente aus dem digitalisierten Sprachsignal das dort entnommene, mit der Fensterfunktion gewichtete Segment mit dem nachfolgend entnommenen, ebenfalls mit der Fensterfunktion gewichteten Segment unter Ähnlichkeitsaspekten verglichen wird, dadurch gekennzeichnet,dass zum schnellen Vergleich der Ähnlichkeit der Segmente lediglich der N Werte lange dritte, mit dem fallenden Fensterabschnitt gewichtete Abschnitt des Segmentes mit dem jeweils ersten, mit dem steigenden N Werte langen Fensterabschnitt gewichteten Abschnitt des nachfolgend entnommenen Segmentes verglichen wird,dass diese Segmente so zueinander versetzt aufaddiert werden daß die Ähnlichkeit der beiden Segmentalschnitte maximal wird, unddass zur Berechnung der Ähnlichkeit, als deren Maß, eine Korrelation verwendet wird.
- Verfahren nach Anspruch 1,
dadurch gekennzeichnet, dass
die Ähnlichkeit beider verglichener Segmentabschnitte maximal wird, wenn eine Maximierung des Ähnlichkeitsmaßes in Bezug zur Verschiebung zueinander durchgeführt wird. - Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, insbesondere digitalisierten Sprachsignalen, bei demein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht, welches in einem Speicher gespeichert wird,ein Faktor α definiert wird, um welchen das Sprachsignal verlängert oder verkürzt wird,eine Fensterfunktion mit einem ersten steigenden Abschnitt der Länge N, einem zweiten, sich direkt an den ersten Abschnitt anschließenden, konstanten Abschnitt der Länge L-N und einem dritten, sich direkt an den zweiten Abschnitt anschließenden, fallenden Abschnitt definiert wird, wobei bei einer Überlagerung des ersten steigenden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer Addition beider Abschnitte im Überlappungsbereich sich das Ergebnis eins ergibt, was dem Wert des zweiten Abschnittes der Fensterfunktion entspricht,aus dem digitalisierten, gespeicherten Sprachsignal in unregelmäßigen Abständen einer mittleren Länge αL Segmente einer Länge L+N entnommen werden,diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen Segmente mit der Fensterfunktion im Zeitbereich gewichtet werden,die gewichteten Segmente jeweils um eine definierte Anzahl von Abtastwerten L versetzt aufaddiert werden, wodurch das so entstehende Sprachsignal für α > 1 verkürzt und für α < 1 verlängert wird,nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, jeweils das dort entnommene Segment mit dem Segment des verlängerten oder verkürzten Sprachsignals, welches dieses entnommene Segment repräsentiert, verglichen wird, dadurch gekennzeichnet,dass zum schnellen Vergleich der Abweichung des verlängerten oder verkürzten Sprachsignals vom digitalisierten Sprachsignal lediglich der N Werte lange dritte Abschnitt des zuletzt entnommenen Segmentes als Referenz herangezogen wird,dass die entnommenen Segmente so zueinander versetzt aufaddiert werden, daß die ermittelte Abweichung minimal ist unddass als Maß für die Abweichung der relative Fehler oder der absolute quadratische Fehler herangezogen wird.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19710545 | 1997-03-14 | ||
| DE19710545A DE19710545C1 (de) | 1997-03-14 | 1997-03-14 | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| EP0865026A2 EP0865026A2 (de) | 1998-09-16 |
| EP0865026A3 EP0865026A3 (de) | 1999-02-10 |
| EP0865026B1 true EP0865026B1 (de) | 2003-12-03 |
Family
ID=7823336
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| EP98104455A Expired - Lifetime EP0865026B1 (de) | 1997-03-14 | 1998-03-12 | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen |
Country Status (3)
| Country | Link |
|---|---|
| EP (1) | EP0865026B1 (de) |
| AT (1) | ATE255763T1 (de) |
| DE (2) | DE19710545C1 (de) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB9911737D0 (en) | 1999-05-21 | 1999-07-21 | Philips Electronics Nv | Audio signal time scale modification |
| US7283954B2 (en) | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
| US7461002B2 (en) | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
| US7711123B2 (en) | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
| US7610205B2 (en) | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
| JP4290997B2 (ja) | 2001-05-10 | 2009-07-08 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | プレノイズの縮減による低ビットレートオーディオコーディングにおけるトランジエント効率の改善 |
| DE10327057A1 (de) * | 2003-06-16 | 2005-01-20 | Siemens Ag | Vorrichtung zum zeitlichen Stauchen oder Strecken, Verfahren und Folge von Abtastwerten |
| DE102004053093B4 (de) * | 2004-11-03 | 2006-08-17 | Siemens Ag | Verfahren zur Ausgabe eines Nutzdatenstroms und Kommunikationsendgerät zum Empfang und zur Ausgabe eines Nutzdatenstroms |
| JP2010017216A (ja) | 2008-07-08 | 2010-01-28 | Ge Medical Systems Global Technology Co Llc | 音声データ処理装置,音声データ処理方法、および、イメージング装置 |
| CN102855884B (zh) * | 2012-09-11 | 2014-08-13 | 中国人民解放军理工大学 | 基于短时连续非负矩阵分解的语音时长调整方法 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE69024919T2 (de) * | 1989-10-06 | 1996-10-17 | Matsushita Electric Ind Co Ltd | Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit |
| EP0608833B1 (de) * | 1993-01-25 | 2001-10-17 | Matsushita Electric Industrial Co., Ltd. | Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen |
| US5694521A (en) * | 1995-01-11 | 1997-12-02 | Rockwell International Corporation | Variable speed playback system |
-
1997
- 1997-03-14 DE DE19710545A patent/DE19710545C1/de not_active Expired - Fee Related
-
1998
- 1998-03-12 AT AT98104455T patent/ATE255763T1/de not_active IP Right Cessation
- 1998-03-12 DE DE59810302T patent/DE59810302D1/de not_active Expired - Lifetime
- 1998-03-12 EP EP98104455A patent/EP0865026B1/de not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| EP0865026A2 (de) | 1998-09-16 |
| DE19710545C1 (de) | 1997-12-04 |
| DE59810302D1 (de) | 2004-01-15 |
| ATE255763T1 (de) | 2003-12-15 |
| EP0865026A3 (de) | 1999-02-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69428612T2 (de) | Verfahren und Vorrichtung zur Durchführung einer Zeitskalenmodifikation von Sprachsignalen | |
| DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
| DE69230324T2 (de) | Verfahren zur Zeitskalenmodifikation von Signalen | |
| DE60127274T2 (de) | Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen | |
| DE60305716T2 (de) | Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals | |
| DE60214358T2 (de) | Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp | |
| DE69121312T2 (de) | Geräuschsignalvorhersagevorrichtung | |
| Verhelst | Overlap-add methods for time-scaling of speech | |
| DE69024919T2 (de) | Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit | |
| DE69926462T2 (de) | Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung | |
| DE69932786T2 (de) | Tonhöhenerkennung | |
| DE69613646T2 (de) | Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen | |
| DE2659096C2 (de) | ||
| EP0865026B1 (de) | Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen | |
| DE69612958T2 (de) | Verfahren und vorrichtung zur resynthetisierung eines sprachsignals | |
| DE69720861T2 (de) | Verfahren zur Tonsynthese | |
| DE19859174C1 (de) | Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale | |
| DE60031812T2 (de) | Vorrichtung und Verfahren zur Klangsynthesierung | |
| DE69824613T2 (de) | Ein system und verfahren zur prosodyanpassung | |
| DE69421704T2 (de) | Verfahren und vorrichtung zum testen einer fernmeldeanlage unter verwendung eines testsignals mit verminderter redundanz | |
| DE69717377T2 (de) | Sprachgeschwindigkeitsumwandler | |
| DE2805478A1 (de) | Diskriminatoranordnung fuer sprachsignale | |
| DE3228757A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen | |
| DE69723930T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu | |
| DE60305944T2 (de) | Verfahren zur synthese eines stationären klangsignals |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
| AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT DE FR GB NL |
|
| AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
| PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
| AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
| AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
| 17P | Request for examination filed |
Effective date: 19990724 |
|
| AKX | Designation fees paid |
Free format text: AT DE FR GB NL |
|
| RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: GRUNDIG AKTIENGESELLSCHAFT |
|
| RIC1 | Information provided on ipc code assigned before grant |
Free format text: 7G 10L 21/04 A |
|
| 17Q | First examination report despatched |
Effective date: 20020925 |
|
| GRAH | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOS IGRA |
|
| RIC1 | Information provided on ipc code assigned before grant |
Ipc: 7G 10L 21/04 A |
|
| RTI1 | Title (correction) |
Free format text: METHOD FOR MODIFYING SPEECH SPEED |
|
| RIC1 | Information provided on ipc code assigned before grant |
Ipc: 7G 10L 21/04 A |
|
| GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
| GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
| AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT DE FR GB NL |
|
| REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
| GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) |
Effective date: 20031203 |
|
| REF | Corresponds to: |
Ref document number: 59810302 Country of ref document: DE Date of ref document: 20040115 Kind code of ref document: P |
|
| ET | Fr: translation filed | ||
| PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
| STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
| 26N | No opposition filed |
Effective date: 20040906 |
|
| REG | Reference to a national code |
Ref country code: GB Ref legal event code: 732E |
|
| REG | Reference to a national code |
Ref country code: FR Ref legal event code: TP |
|
| NLS | Nl: assignments of ep-patents |
Owner name: GRUNDIG MULTIMEDIA B.V. |
|
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: AT Payment date: 20090324 Year of fee payment: 12 |
|
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: NL Payment date: 20090327 Year of fee payment: 12 |
|
| REG | Reference to a national code |
Ref country code: NL Ref legal event code: V1 Effective date: 20101001 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20100312 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20101001 |
|
| REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 19 |
|
| REG | Reference to a national code |
Ref country code: DE Ref legal event code: R082 Ref document number: 59810302 Country of ref document: DE |
|
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20160321 Year of fee payment: 19 Ref country code: FR Payment date: 20160328 Year of fee payment: 19 |
|
| PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20160331 Year of fee payment: 19 |
|
| REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 59810302 Country of ref document: DE |
|
| GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20170312 |
|
| REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20171130 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20171003 Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170331 |
|
| PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170312 |


