DE60305944T2 - Verfahren zur synthese eines stationären klangsignals - Google Patents

Verfahren zur synthese eines stationären klangsignals Download PDF

Info

Publication number
DE60305944T2
DE60305944T2 DE60305944T DE60305944T DE60305944T2 DE 60305944 T2 DE60305944 T2 DE 60305944T2 DE 60305944 T DE60305944 T DE 60305944T DE 60305944 T DE60305944 T DE 60305944T DE 60305944 T2 DE60305944 T2 DE 60305944T2
Authority
DE
Germany
Prior art keywords
bell
signal
sound signal
fundamental frequency
positions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60305944T
Other languages
English (en)
Other versions
DE60305944D1 (de
Inventor
F. Ercan GIGI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE60305944D1 publication Critical patent/DE60305944D1/de
Application granted granted Critical
Publication of DE60305944T2 publication Critical patent/DE60305944T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)
  • Stereophonic System (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf das Gebiet der Synthese von Sprache oder Musik und im Besonderen ohne Einschränkung auf das Gebiet der Text/Sprache-Synthese.
  • Die Funktion eines Text/Sprache (TTS)-Synthesesystems besteht darin, Sprache von einem generischen Text in einer gegebenen Sprache zu synthetisieren. Heutzutage werden TTS-Systeme in vielen Anwendungsbereichen praktisch eingesetzt, beispielsweise für den Zugriff auf Datenbanken über das Telefonnetz oder als Hilfe für behinderte Personen. Ein Verfahren zum Synthetisieren von Sprache besteht darin, Elemente eines aufgezeichneten Satzes von Sprachteileinheiten wie Halbsilben oder Polyphone zu verketten. Die Mehrzahl erfolgreicher handelsüblicher Systeme verwendet die Verkettung von Polyphonen. Die Polyphone umfassen Gruppen von zwei (Diphone), drei (Triphone) oder mehr Phonen und können aus Unsinnwörtern ermittelt werden, indem die gewünschte Gruppierung von Phonen in stabilen spektralen Bereichen segmentiert werden. Bei einer Synthese auf der Basis der Verkettung ist die Erhaltung des Übergangs zwischen zwei benachbarten Phonen wesentlich für die Sicherstellung der Qualität der synthetisch erzeugten Sprache. Durch die Wahl der Polyphone als grundlegende Teileinheiten wird der Übergang zwischen zwei benachbarten Phonen in den aufgezeichneten Teileinheiten beibehalten, und die Verkettung erfolgt zwischen ähnlichen Phonen.
  • Vor der Synthese muss jedoch die Dauer und die Tonhöhe der Phonc verändert werden, damit die prosodischen Einschränkungen der neuen, derartige Phone enthaltenden Wörter erfüllt werden. Diese Verarbeitung ist erforderlich um zu vermeiden, dass die synthetisch erzeugte Sprache monoton klingt. In einem TTS-System wird diese Funktion durch ein prosodisches Modul ausgeführt. Damit die Dauer und die Tonhöhe in den aufgezeichneten Teileinheiten verändert werden kann, nutzen viele auf Verkettung basierende TTS-Systeme das TD-PSOLA-Synthesemodell (engl. time-domain pitch synchronous over-lap-add, TD-PSOLA) (E. Moulines und F. Charpentier, „Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones", erschienen in Speech Commun., Band 9, S. 453–467, 1990). Wenn das zu synthetisierende Signal eine längere Dauer haben muss, wird dies durch Wiederholen der glockenförmigen Tonhöhenverläufe erzielt, die dem Originalsignal entnommen wurden. Dieser Wiederholungsvorgang ist in 1 dargestellt. Die Zeitachse 100 gehört zum Zeitbereich des Originalsignals. Das Originalsignal hat eine Länge T, die sich über das Zeitintervall zwischen Null und T auf der Zeitachse 100 erstreckt. Ferner weist das Originalsignal eine Grundfrequenz f auf, die einer Periode p entspricht; Glockenverläufe werden vom Originalsignal erzielt, indem das Originalsignal mit Hilfe der Fenster 102 gefenstert wird. In dem hier betrachteten Beispiel sind die Fenster durch die Periode p im Bereich der Zeitachse 100 voneinander getrennt. Dadurch werden die Positionen i der Glockenverläufe auf der Zeitachse 100 bestimmt. Die Zeitachse 104 gehört zum Zeitbereich des zu synthetisierenden Signals. Das zu synthetisierende Signal muss eine Dauer von yT aufweisen, wobei y jegliche Zahl sein kann. Als nächstes wird eine Anzahl von Glockenverlaufspositionen j auf der Zeitachse 104 bestimmt. Wie auf der Zeitachse 100 sind die Glockenverlaufspositionen j durch die Periode p voneinander getrennt, die der Grundfrequenz f des Originalsignals entspricht. Zur Verlängerung der Dauer des Originalsignals wird jeder der vom Originalsignal erhaltenen Originalglockenverläufe y-mal wiederholt. Dadurch ergibt sich eine Anzahl von Intervallen 106, 108, ... im Zeitbereich der Zeitachse 104, wobei jedes der Intervalle 106, 108, ... aus Wiederholungen identischer Glockenverläufe besteht. Das Intervall 106 enthält beispielsweise Wiederholungen des Glockenverlaufs, der von der Glockenverlaufsposition i = 1 auf der Zeitachse 100 des Originalsignals erhalten wurde, an den Glockenverlaufspositionen j (i = 1, k = 1) bis j (i = 1, k = y). Dies bedeutet, dass das Intervall 106 eine Anzahl von y Wiederholungen des von der Glockenverlaufsposition i = 1 auf der Zeitachse 100 des Originalsignals erhaltenen Glockenverlaufs enthält. In gleicher Weise enthält das folgende Intervall 108 eine Anzahl von y Wiederholungen des Glockenverlaufs, der von der Glockenverlaufsposition i = 2 des Originalsignals erhalten wurde. Infolgedessen besteht das synthetisierte Signal aus verketteten Folgen von Wiederholungen des Glockenverlaufs.
  • Ein gemeinsamer Nachteil derartiger PSOLA-Verfahren besteht darin, dass eine extreme Veränderung der Dauer hörbare Übergänge zwischen den Sequenzen in das Signal einfügt. Dies stellt insbesondere ein Problem dar, wenn der Originalton ein hybrider Laut, wie beispielsweise stimmhafte Reibelaute, mit sowohl einer verrauschten als auch einer periodischen Komponente ist. Die Wiederholung von Glockenverläufen bewirkt eine Periodizität in den verrauschten Komponenten, wodurch sich das synthetisierte Signal un natürlich anhört. In dem Dokument US 6 208 960 wird beispielsweise eine Lösung für das Problem unnatürlicher Periodizität in stimmlosen Lauten vorgeschlagen.
  • Die vorliegende Erfindung, wie sie in den anhängenden unabhängigen Ansprüchen definiert ist, zielt daher darauf ab, ein verbessertes Verfahren für die Synthese eines Tonsignals und insbesondere für extreme Veränderungen der Dauer wie bei Gesang zu schaffen.
  • Die vorliegende Erfindung schafft ein Verfahren für die Synthese eines Tonsignals basierend auf einem Originalsignal, um die Dauer des Originalsignals zu verändern. Im Besonderen ermöglicht es die vorliegende Erfindung, extreme Veränderungen der Dauer und der Tonhöhe des Originalsignals ohne hörbare Artefakte vorzunehmen. Dies ist besonders nützlich für die Synthese von Gesang, bei der extreme Veränderungen der Dauer des Originalsignals in der Größenordnung von 4 bis 100-mal auftreten können.
  • Im Wesentlichen basiert die vorliegende Erfindung auf der Beobachtung, dass bei PSOLA-Verfahren nach dem Stand der Technik in ein synthetisiertes Signal nach der Veränderung der Dauer Artefakte eingefügt werden, da der Übergang von einer Kette mit sich wiederholenden Glockenverläufen zur nächsten hörbar ist. Dieser Effekt, der auftritt, wenn ein PSOLA-Verfahren nach dem Stand der Technik für extreme Veränderungen der Dauer eingesetzt wird, ist besonders nachteilig für hybride Laute, die sowohl eine verrauschte als auch eine periodische Komponente enthalten.
  • Erfindungsgemäß werden Glockenverläufe für jede der erforderlichen Glockenverlaufspositionen des zu synthetisierenden Signals zufällig aus dem Originalsignal ausgewählt. Dadurch kann vermieden werden, dass eine Periodizität in den verrauschten Komponenten entsteht, und die Natürlichkeit des Originalklangs bleibt erhalten. Gemäß einem bevorzugten Ausführungsbeispiel der Erfindung ist der Originalton ein stimmhafter Reibelaut mit sowohl einer verrauschten als auch einer periodischen Komponente. Die Anwendung der vorliegenden Erfindung auf derartige stimmhafte Reibelaute ist besonders vorteilhaft.
  • Gemäß einem weiteren bevorzugten Ausführungsbeispiel der Erfindung wird ein angehobener Kosinus für die Fensterung von stimmhaften Reibelauten verwendet. Für stimmlose Lautintervalle wird ein Sinusfenster eingesetzt, das den Vorteil bietet, dass die Gesamtsignalhüllkurve im Leistungsbereich ungefähr konstant bleibt. Im Gegensatz zu einem periodischen Signal kann bei der Addition zweier abgetasteter Rauschsignalwerte die Gesamtsumme kleiner als der Absolutwert jegliches der beiden abgetasteten Signalwerte sein. Dies liegt daran, dass die Signale (meistens) nicht in gleicher Phase sind. Das Sinusfenster gleicht diesen Effekt aus und entfernt die Hüllkurvenmodulation.
  • Gemäß einem weiteren bevorzugten Ausführungsbeispiel der Erfindung weist das Originaltonsignal Perioden auf, die spektral gleich sind und im Grunde den gleichen Informationsgehalt haben. Derartige Perioden, die stimmhaft sind, werden von einem ersten Klassifizierer klassifiziert, und die Perioden, die stimmlos sind, werden mit Hilfe eines zweiten Klassifizierers klassifiziert.
  • Gemäß einem weiteren bevorzugten Ausführungsbeispiel der Erfindung werden die Klassifizierungsinformationen des Originalsignals in einem Computersystem, beispielsweise einem Text/Sprache-System, gespeichert. Intervalle des Originalsignals, die als stimmhafte oder stimmlose stationäre, spektral gleiche Perioden klassifiziert werden, werden gemäß der vorliegenden Erfindung verarbeitet, wobei ein angehobenes Kosinusfenster für stimmhafte Intervalle und ein Sinusfenster für stimmlose Intervalle eingesetzt wird.
  • Ausführungsbeispiele der Erfindung sind in den Zeichnungen dargelegt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 eine Darstellung eines PSOLA-Verfahrens nach dem Stand der Technik;
  • 2 eine Darstellung eines Beispiels für die Synthese eines Tonsignals gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 3 eine Darstellung eines Ablaufdiagramms eines Ausführungsbeispiels eines Verfahrens gemäß der vorliegenden Erfindung;
  • 4 ein Beispiel für ein Originalsignal und das synthetisierte Signal; und
  • 5 ein Blockschaltbild eines bevorzugten Ausführungsbeispiels eines Computersystems.
  • 2 zeigt ein Beispiel für die Synthese eines Signals auf der Grundlage eines Originalsignals. Die Zeitachse 200 gibt den Zeitbereich des Originalsignals an. Das Originalsignal hat eine Dauer T, die sich über die Zeit von Null bis T auf der Zeitachse 200 erstreckt. Das Originalsignal weist eine Grundfrequenz f auf, die einer Periode p entspricht. Die Periode p bestimmt Positionen i auf der Zeitachse 200 zum Fenstern des Originalsignals mit Hilfe des Fensters 202. In dem hier betrachteten Beispiel ist das Originalsignal ein stimmhafter hybrider Laut, so dass ein Kosinusfenster gemäß der folgenden Formel verwendet wird.
  • Figure 00050001
  • In der obigen Beziehung ist m die Länge des Fensters und n ein laufender Index.
  • Wenn das Originalsignal ein stimmloses Tonsignal ist, wird vorzugsweise das folgende Fenster verwendet:
  • Figure 00050002
  • Der Zeitbereich des zu synthetisierenden Signals ist durch die Zeitachse 204 dargestellt. Das zu synthetisierende Signal muss eine Dauer von yT haben, wobei y jegliche Zahl sein kann, beispielsweise y = 4 oder y = 6 oder y = 20 oder y = 50 oder y = 100.
  • Die Periode p bestimmt auch die Glockenverlaufspositionen j auf der Zeitachse 204. Wie auf der Zeitachse 200 sind die Glockenverlaufspositionen durch die Periode p voneinander getrennt. Für jede der erforderlichen Glockenverlaufspositionen j erfolgt eine zufällige Auswahl einer Position eines Glockenverlaufs i im Zeitbereich der Zeitachse 200. In dem hier betrachteten Beispiel existiert eine Anzahl von 6 Glockenverläufen, die man durch Fensterung des Originalsignals im Zeitbereich der Zeitachse 200 erhält. Zur Auswahl einer dieser erhaltenen Glockenverläufe für eine Glockenverlaufsposition j wird eine Zufallszahl zwischen 1 und 6 erzeugt. Dadurch erfolgt eine zufällige Auswahl aus den verfügbaren Glockenverläufen an den Glockenverlaufspositionen i = 1 bis i = 6. Dieser Vorgang wird für alle erforderlichen Glockenverlaufspositionen j auf der Zeitachse 204 wiederholt. Beispielsweise wird ein Glockenverlauf für die erforderliche Glockenverlaufsposition j = 1 ausgewählt, indem eine Zufallszahl zwischen 1 und 6 erzeugt wird. In dem hier betrachteten Beispiel ergibt sich die Zahl 6, so dass der an der Glockenverlaufsposition i = 6 auf der Zeitachse 200 erhaltene Glockenverlauf für die erforderliche Glockenverlaufsposition j = 1 auf der Zeitachse 204 ausgewählt wird. In gleicher Weise wird eine Zufallszahl für die erforderliche Glockenverlaufsposition j = 2 erzeugt. Die Zufallszahl ist in diesem Beispiel 4, so dass der Glockenverlauf an der Position i = 4 auf der Zeitachse 200 für die erforderliche Position des Glockenverlaufs j = 2 ausgewählt wird. Dieser Vorgang wird für alle erforderlichen Positionen des Glockenverlaufs j = 1 bis j = z auf der Zeitachse 204 durchgeführt. Aufgrund der zufälligen Auswahl von Glockenverläufen aus dem Bereich des Originalsignals werden die Intervalle 106, 108, ... vermieden (vergleiche 1). Infolgedessen wird kein derartiges Artefakt in das synthetisierte Signal eingefügt, und das synthetisierte Signal klingt auch bei extremen Veränderungen der Dauer natürlich.
  • 3 zeigt ein Ablaufdiagramm, das dieses Verfahren darstellt. In Schritt 300 wird ein Originalton aufgezeichnet. In Schritt 302 werden hybride Tonintervalle identifiziert und als stimmhaft oder stimmlos in der Originaltonaufzeichnung klassifiziert. Dies kann manuell durch einen Fachmann oder mit Hilfe eines Computerprogramms erfolgen, das das Originalsignal bzw. sein Frequenzspektrum auf stationäre Perioden hin analysiert. Die erste Analyse wird vorzugsweise mit Hilfe eines Programms durchgeführt, und ein Fachmann prüft die Ausgabe eines Programms. In Schritt 304 werden mit Hilfe von Fensterung Glockenverläufe vom Originaltonsignal ermittelt. Die Fensterung wird anhand von Fenstern durchgeführt, die synchron mit der Grundfrequenz des Originaltonsignals positioniert werden, d. h. die Fenster sind durch die Periode p des Originaltonsignals in dem Bereich des Originaltonsignals voneinander getrennt. In Schritt 306 werden die Glockenverlaufspositionen j, für die Glockenverläufe zur Synthese des Signals erforderlich sind, bestimmt. Die erforderlichen Glockenverlaufspositionen j sind wieder durch die Periode p voneinander getrennt. Als Alternative können die Glockenverlaufspositionen j durch eine andere Periode q voneinander getrennt sein, die einer höheren oder niedrigeren erforderlichen Grundfrequenz des zu synthetisierenden Signals entspricht. Auf diese Weise können die Dauer und die Frequenz verändert werden. In Schritt 308 wird eine zufällige Auswahl von Glockenverläufen für jede der erforderlichen Glockenverlaufspositionen j innerhalb des Tonintervalls getroffen, der als hybrid klassifiziert wird. Für andere Tonintervalle kann ein PSOLA-Verfahren nach dem Stand der Technik eingesetzt werden oder nicht. In Schritt 310 werden die Glockenverläufe an den Glockenverlaufspositionen j im Bereich des zu synthetisierenden Signals überlappt und addiert.
  • 4 zeigt ein Beispiel eines Originaltonsignals 400, das ein Diphon eines /z/-/z/-Übergangs ist. In 4 ist außerdem das Frequenzspektrum 402 des Tonsignals 400 dargestellt.
  • Das Tonsignal 404 wird gemäß der vorliegenden Erfindung aus dem Tonsignal 400 erzielt, indem aus dem Tonsignal 400 für die erforderlichen Glockenverlaufspo sitionen im Zeitbereich des synthetisierten Tonsignals 404 erhaltene Glockenverläufe zufällig ausgewählt werden. In dem hier betrachteten Beispiel ist das synthetisierte Tonsignal 404 y = 5-mal länger als das Originaltonsignal 400. Auch das Frequenzspektrum 406 des Tonsignals 404 ist in 4 dargestellt. Wie aus dem Tonsignal 404 und seinem Frequenzspektrum 406 ersichtlich ist, werden die Merkmale des Originaltonsignals 400 in dem synthetisierten Signal erhalten und keine Artefakte eingefügt. Infolgedessen hört sich das Tonsignal 404 genauso wie das Tonsignal 400 an, ist jedoch 5-mal länger.
  • 5 zeigt ein Blockschaltbild eines Computersystems, beispielsweise eines Text/Sprache-Synthesesystems. Das Computersystem 500 umfasst ein Modul 502 zum Speichern eines Originaltonsignals. Das Modul 504 dient dazu, Tonklassifizierungsinformationen für das im Modul 502 gespeicherte Originaltonsignal einzugeben und zu speichern. Stationäre stimmhafte Perioden werden beispielsweise mit einem ,r' und stationäre stimmlose Perioden mit einem ,s' in dem Originaltonsignal gekennzeichnet. Das Modul 506 dient zum Fenstern des Originaltonsignals aus dem Modul 502, um Glockenverläufe zu erzielen. Je nach Tonklassifizierung wird ein angehobenes Kosinus- oder ein Sinusfenster für stationäre stimmhafte Perioden bzw. stationäre stimmlose Perioden verwendet. Das Modul 508 dient dazu, die erforderlichen Glockenverlaufspositionen j im Zeitbereich des zu synthetisierenden Signals zu bestimmen. Zur Bestimmung der erforderlichen Glockenverlaufspositionen j wird der Eingangsparameter „Länge y" verwendet. Der Eingangsparameter Länge y spezifiziert den Multiplikationsfaktor für die Dauer des Originalsignals. Es ist ferner möglich, eine dynamisch variierende Tonhöhe als zusätzlichen Eingangsparameter vorzusehen, um zusätzlich zu oder anstelle der Dauer die Grundfrequenz zu verändern.
  • Das Modul 510 dient dazu, Glockenverläufe aus dem Satz von aus dem Originaltonsignal erhaltenen Glockenverläufen auszuwählen. Das Modul 510 ist mit einem Pseudo-Zufallszahlgenerator 512 verbunden. Für jede der erforderlichen Glockenverlaufspositionen im Bereich des zu synthetisierenden Signals, wird vom Pseudo-Zufallszahlgenerator 512 eine Pseudozufallszahl erzeugt. Anhand dieser Zufallszahlen werden Glockenverläufe aus dem Satz von Glockenverläufen durch das Modul 510 ausgewählt, um für jede der erforderlichen Glockenverlaufspositionen im Zeitbereich des zu synthetisierenden Signals einen zufällig ausgewählten Glockenverlauf zu schaffen. Das Modul 514 dient dazu, eine Überlappungs- und Additionsoperation an den ausgewählten Glockenverläufen im Zeitbereich des zu synthetisierenden Signals durchzuführen. Auf diese Weise wird das synthetisierte Signal mit der erforderlichen Dauer erzielt.
  • Es ist anzumerken, dass die vorliegende Erfindung auf stationäre Bereiche angewendet werden kann. Ein derartiger stationärer Bereich kann beispielsweise ein Vokal oder ein verrauschter stimmhafter Laut wie /z/ sein. Die Erfindung ist daher nicht auf „hybride" Laute beschränkt.
  • Ferner ist anzumerken, dass das synthetisierte Signal nicht die gleiche Tonhöhe (Grundfrequenz) wie das Original zu haben braucht. In einigen Anwendungsbereichen ist es erforderlich, die Tonhöhe zu verändern, beispielsweise bei der Synthese von Gesang. Damit diese Änderung der Grundfrequenz in dem synthetisierten Signal durchgeführt werden kann, werden die Periodenpositionen in dem synthetisierten Signal weiter auseinander oder näher zusammen platziert als im Original. Dadurch ändert sich das Syntheseverfahren ansonsten jedoch nicht.
  • Es ist ferner anzumerken, dass die vorliegende Erfindung nicht auf eine gewisse Wahl eines Fensters beschränkt ist. Anstelle von angehobenen Kosinus- oder Sinusfenstern können andere Fenster, beispielsweise Dreieckfenster, verwendet werden. Text in den Figuren Figur 4
    Amplitude Amplitude
    Time Zeit
    Frequency Frequenz
    Figur 5
    Length y Länge y
    Synthesized signal synthetisiertes Signal

Claims (10)

  1. Verfahren zur Synthese eines ersten Tonsignals basierend auf einem zweiten Tonsignal, wobei das erste Tonsignal eine erforderliche erste Grundfrequenz und das zweite Tonsignal eine zweite Grundfrequenz hat, wobei das Verfahren folgende Schritte umfasst: – Bestimmen erforderlicher Positionen glockenförmiger Tonhöhenverläufe im Zeitbereich des ersten Tonsignals, wobei die Positionen der glockenförmigen Tonhöhenverläufe durch eine Periode der ersten Grundfrequenz voneinander getrennt sind, – Schaffen von glockenförmigen Tonhöhenverläufen durch Fenstern des zweiten Tonsignals an Positionen glockenförmiger Tonhöhenverläufe im Zeitbereich des zweiten Tonsignals, wobei die Positionen glockenförmiger Tonhöhenverläufe durch eine Periode der zweiten Grundfrequenz voneinander getrennt sind, – zufälliges Auswählen eines glockenförmigen Tonhöhenverlaufs von den geschaffenen glockenförmigen Tonhöhenverläufen für jede der erforderlichen Positionen glockenförmiger Tonhöhenverläufe, und – Durchführen einer Überlappungs- und Additionsoperation an den ausgewählten glockenförmigen Tonhöhenverläufen zur Synthese des ersten Signals.
  2. Verfahren nach Anspruch 1, wobei das zweite Tonsignal ein hybrider Ton ist, der eine verrauschte und eine periodische Komponente umfasst.
  3. Verfahren nach Anspruch 1 oder 2, wobei das zweite Tonsignal ein Tonsignal mit einem stimmhaften Reibelaut ist.
  4. Verfahren nach einem der vorherigen Ansprüche 1, 2 oder 3, wobei das zweite Tonsignal ein stimmhaftes Tonsignal ist und wobei ein angehobener Kosinus zum Fenstern des zweiten Tonsignals verwendet wird.
  5. Verfahren nach einem der vorherigen Ansprüche 1, 2 oder 3, wobei das zweite Tonsignal ein stimmloses Tonsignal ist und wobei ein Sinusfenster zum Fenstern des zweiten Tonsignals verwendet wird.
  6. Verfahren nach einem der vorherigen Ansprüche 1 bis 5, wobei das zweite Tonsignal spektral gleiche Perioden aufweist, wobei die spektral gleichen Perioden im Wesentlichen den gleichen Informationsgehalt haben.
  7. Verfahren nach einem der vorherigen Ansprüche 1 bis 6, wobei die erforderliche erste Grundfrequenz und die zweite Grundfrequenz im Wesentlichen gleich sind.
  8. Computerprogrammprodukt, insbesondere auf einem digitalen Speichermedium gespeichert, das Programmmitel zur Synthese eines ersten Tonsignals auf der Grundlage eines zweiten Tonsignals umfasst, wobei das erste Tonsignal eine erforderliche erste Grundfrequenz und das zweite Tonsignal eine zweite Grundfrequenz aufweist, wobei die Programmmittel so ausgelegt sind, dass sie beim Einsatz in einem Computer folgende Schritte ausführen: – Bestimmen erforderlicher Positionen glockenförmiger Tonhöhenverläufe im Zeitbereich des ersten Tonsignals, wobei die Positionen der glockenförmigen Tonhöhenverläufe durch eine Periode der ersten Grundfrequenz voneinander getrennt sind, – Schaffen von glockenförmigen Tonhöhenverläufen durch Fenstern des zweiten Tonsignals an Positionen glockenförmiger Tonhöhenverläufe im Zeitbereich des zweiten Tonsignals, wobei die Positionen glockenförmiger Tonhöhenverläufe durch eine Periode der zweiten Grundfrequenz voneinander getrennt sind, – zufälliges Auswählen eines glockenförmigen Tonhöhenverlaufs von den geschaffenen glockenförmigen Tonhöhenverläufen für jede der erforderlichen Positionen glockenförmiger Tonhöhenverläufe, und – Durchführen einer Überlappungs- und Additionsoperation an den ausgewählten glockenförmigen Tonhöhenverläufen zur Synthese des ersten Signals.
  9. Computersystem, insbesondere Text/Sprache-Synthesesystem, zur Synthese eines ersten Tonsignals auf der Grundlage eines zweiten Tonsignals, wobei das erste Ton signal eine erforderliche erste Grundfrequenz und das zweite Tonsignal eine zweite Grundfrequenz aufweist, wobei das Computersystem Folgendes umfasst: – Mittel (508) zum Bestimmen erforderlicher Positionen glockenförmiger Tonhöhenverläufe im Zeitbereich des ersten Tonsignals, wobei die Positionen der glockenförmigen Tonhöhenverläufe durch eine Periode der ersten Grundfrequenz voneinander getrennt sind, – Mittel (506) zum Schaffen von glockenförmigen Tonhöhenverläufen durch Fenstern des zweiten Tonsignals an Positionen glockenförmiger Tonhöhenverläufe im Zeitbereich des zweiten Tonsignals, wobei die Positionen glockenförmiger Tonhöhenverläufe durch eine Periode der zweiten Grundfrequenz voneinander getrennt sind, – Mittel (510, 512) zum zufälligen Auswählen eines glockenförmigen Tonhöhenverlaufs von den geschaffenen glockenförmigen Tonhöhenverläufen für jede der erforderlichen Positionen glockenförmiger Tonhöhenverläufe, und – Mittel (514) zum Durchführen einer Überlappungs- und Additionsoperation an den ausgewählten glockenförmigen Tonhöhenverläufen zur Synthese des ersten Signals.
  10. Computersystem nach Anspruch 9, das ferner Mittel (504) zum Speichern von Tonklassifizierungsdaten umfasst, wobei die Mittel zum Speichern von Tonklassifizierungsdaten so ausgelegt sind, dass sie Daten speichern, die ein Intervall innerhalb eines Originaltonsignals angeben, das das zweite Tonsignal enthält.
DE60305944T 2002-09-17 2003-08-05 Verfahren zur synthese eines stationären klangsignals Expired - Lifetime DE60305944T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP02078848 2002-09-17
EP02078848 2002-09-17
PCT/IB2003/003381 WO2004027753A1 (en) 2002-09-17 2003-08-05 Method of synthesis for a steady sound signal

Publications (2)

Publication Number Publication Date
DE60305944D1 DE60305944D1 (de) 2006-07-20
DE60305944T2 true DE60305944T2 (de) 2007-02-01

Family

ID=32010977

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60305944T Expired - Lifetime DE60305944T2 (de) 2002-09-17 2003-08-05 Verfahren zur synthese eines stationären klangsignals

Country Status (11)

Country Link
US (1) US7558727B2 (de)
EP (1) EP1543497B1 (de)
JP (1) JP4490818B2 (de)
KR (1) KR101016978B1 (de)
CN (1) CN100343893C (de)
AT (1) ATE329346T1 (de)
AU (1) AU2003250410A1 (de)
DE (1) DE60305944T2 (de)
ES (1) ES2266908T3 (de)
TW (1) TWI307876B (de)
WO (1) WO2004027753A1 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004027754A1 (en) * 2002-09-17 2004-04-01 Koninklijke Philips Electronics N.V. A method of synthesizing of an unvoiced speech signal
WO2009031219A1 (ja) * 2007-09-06 2009-03-12 Fujitsu Limited 音信号生成方法、音信号生成装置及びコンピュータプログラム
EP2634769B1 (de) * 2012-03-02 2018-11-07 Yamaha Corporation Tongenerierungsvorrichtung und Tongenerierungsverfahren
CN103295574B (zh) * 2012-03-02 2018-09-18 上海果壳电子有限公司 唱歌语音转换设备及其方法
CN103295577B (zh) * 2013-05-27 2015-09-02 深圳广晟信源技术有限公司 用于音频信号编码的分析窗切换方法和装置
CN107924678B (zh) 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
CN108831437B (zh) * 2018-06-15 2020-09-01 百度在线网络技术(北京)有限公司 一种歌声生成方法、装置、终端和存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4344148A (en) * 1977-06-17 1982-08-10 Texas Instruments Incorporated System using digital filter for waveform or speech synthesis
FR2636163B1 (fr) 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
DE69228211T2 (de) 1991-08-09 1999-07-08 Koninkl Philips Electronics Nv Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
US5357048A (en) * 1992-10-08 1994-10-18 Sgroi John J MIDI sound designer with randomizer function
IT1266943B1 (it) 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
JPH09198089A (ja) * 1996-01-19 1997-07-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
US6170073B1 (en) 1996-03-29 2001-01-02 Nokia Mobile Phones (Uk) Limited Method and apparatus for error detection in digital communications
JP4040126B2 (ja) * 1996-09-20 2008-01-30 ソニー株式会社 音声復号化方法および装置
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US6026356A (en) 1997-07-03 2000-02-15 Nortel Networks Corporation Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form
WO1999010719A1 (en) 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
JP3576840B2 (ja) * 1997-11-28 2004-10-13 松下電器産業株式会社 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
JP2001513225A (ja) * 1997-12-19 2001-08-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 伸長オーディオ信号からの周期性の除去
US6253171B1 (en) 1999-02-23 2001-06-26 Comsat Corporation Method of determining the voicing probability of speech signals
US6829577B1 (en) * 2000-11-03 2004-12-07 International Business Machines Corporation Generating non-stationary additive noise for addition to synthesized speech
JP2002244693A (ja) * 2001-02-16 2002-08-30 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
US7251601B2 (en) * 2001-03-26 2007-07-31 Kabushiki Kaisha Toshiba Speech synthesis method and speech synthesizer
US20030182106A1 (en) * 2002-03-13 2003-09-25 Spectral Design Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal
WO2004027754A1 (en) * 2002-09-17 2004-04-01 Koninklijke Philips Electronics N.V. A method of synthesizing of an unvoiced speech signal
US7912708B2 (en) * 2002-09-17 2011-03-22 Koninklijke Philips Electronics N.V. Method for controlling duration in speech synthesis
WO2004027756A1 (en) * 2002-09-17 2004-04-01 Koninklijke Philips Electronics N.V. Speech synthesis using concatenation of speech waveforms

Also Published As

Publication number Publication date
US20060178873A1 (en) 2006-08-10
CN1682278A (zh) 2005-10-12
CN100343893C (zh) 2007-10-17
US7558727B2 (en) 2009-07-07
ES2266908T3 (es) 2007-03-01
WO2004027753A1 (en) 2004-04-01
JP4490818B2 (ja) 2010-06-30
JP2005539262A (ja) 2005-12-22
EP1543497B1 (de) 2006-06-07
AU2003250410A1 (en) 2004-04-08
DE60305944D1 (de) 2006-07-20
KR20050057372A (ko) 2005-06-16
TWI307876B (en) 2009-03-21
ATE329346T1 (de) 2006-06-15
EP1543497A1 (de) 2005-06-22
KR101016978B1 (ko) 2011-02-25
TW200425059A (en) 2004-11-16

Similar Documents

Publication Publication Date Title
DE69932786T2 (de) Tonhöhenerkennung
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE60126575T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE60127274T2 (de) Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
DE60213653T2 (de) Verfahren und system zur echtzeit-sprachsynthese
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE69720861T2 (de) Verfahren zur Tonsynthese
DE60216651T2 (de) Vorrichtung zur Sprachsynthese
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE69631037T2 (de) Sprachsynthese
DE2736082A1 (de) Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)
DE3228756A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen
DE60202161T2 (de) Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache
DE69722585T2 (de) Synthese von wellenformen
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
DE60205421T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
DE69723930T2 (de) Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu
EP0865026B1 (de) Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
EP1224531A2 (de) Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe

Legal Events

Date Code Title Description
8364 No opposition during term of opposition