DE60305716T2 - Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals - Google Patents

Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals Download PDF

Info

Publication number
DE60305716T2
DE60305716T2 DE60305716T DE60305716T DE60305716T2 DE 60305716 T2 DE60305716 T2 DE 60305716T2 DE 60305716 T DE60305716 T DE 60305716T DE 60305716 T DE60305716 T DE 60305716T DE 60305716 T2 DE60305716 T2 DE 60305716T2
Authority
DE
Germany
Prior art keywords
bell
shaped pitch
signal
shaped
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60305716T
Other languages
English (en)
Other versions
DE60305716D1 (de
Inventor
F. Ercan GIGI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE60305716D1 publication Critical patent/DE60305716D1/de
Publication of DE60305716T2 publication Critical patent/DE60305716T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Auxiliary Devices For Music (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Radio Relay Systems (AREA)

Description

  • Die vorliegende Erfindung betrifft den Bereich der Synthetisierung von Sprache oder Musik und im Besonderen ohne Einschränkung den Bereich der Text/Sprache-Synthese.
  • Die Funktion eines Text/Sprache-Synthesesystems (engl. text-to-speech, TTS) besteht darin, Sprache von einem allgemeinen Text in einer gegebenen Sprache zu synthetisieren. Heutzutage werden TTS-Systeme in der Praxis für viele Anwendungsbereiche genutzt, beispielsweise für den Zugriff auf Datenbanken über das Telefonnetz oder als Hilfe für behinderte Personen. Ein Verfahren zum Synthetisieren von Sprache besteht darin, Elemente eines aufgezeichneten Satzes von Sprachteileinheiten wie Halbsilben oder Polyphone zu verketten. Die Mehrzahl erfolgreicher handelsüblicher Systeme verwendet die Verkettung von Polyphonen. Die Polyphone umfassen Gruppen von zwei (Diphone), drei (Triphone) oder mehr Phonen und können aus Unsinnwörtern ermittelt werden, indem die gewünschte Gruppierung von Phonen bei stabilen spektralen Bereichen segmentiert werden. Bei einer Synthese auf der Basis der Verkettung ist die Erhaltung des Übergangs zwischen zwei benachbarten Phonen wesentlich für die Sicherstellung der Qualität der synthetisch erzeugten Sprache. Durch die Wahl der Polyphone als grundlegende Teileinheiten wird der Übergang zwischen zwei benachbarten Phonen in den aufgezeichneten Teileinheiten beibehalten, und die Verkettung erfolgt zwischen ähnlichen Phonen.
  • Vor der Synthese müssen jedoch die Dauer und die Tonhöhe der Phone verändert werden, damit die prosodischen Einschränkungen der neuen, derartige Phone enthaltenden Wörter erfüllt werden. Diese Verarbeitung ist erforderlich um zu vermeiden, dass die synthetisch erzeugte Sprache monoton klingt. In einem TTS-System wird diese Funktion durch ein prosodisches Modul ausgeführt. Damit die Dauer und die Tonhöhe in den aufgezeichneten Teileinheiten verändert werden können, nutzen viele auf Verkettung basierende TTS-Systeme das TD-PSOLA-Synthesemodell (engl. time-domain pitch synchronous overlap-add, TD-PSOLA) (E. Moulines und F. Charpentier, „Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones", erschienen in Speech Commun., Band 9, S. 453-467, 1990).
  • Bei dem TD-PSOLA-Modell wird das Sprachsignal zuerst einem die Tonhöhe kennzeichnenden Algorithmus unterzogen. Dieser Algorithmus ordnet den Spitzen des Signals in stimmhaften Segmenten und 10 ms entfernt in den stimmlosen Segmenten Marken zu. Die Synthese erfolgt durch Überlagerung von der Hanning-Fensterfunktion unterzogenen Segmenten, die an den Tonhöhenmarken zentriert sind und sich von der vorherigen Tonhöhenmarke bis zur nächsten erstrecken. Die Veränderung der Dauer erfolgt durch Löschen oder Replizieren einiger der gefensterten Segmente. Die Veränderung der Tonhöhenperiode erfolgt andererseits durch die Vergrößerung oder Reduzierung der Überlagerung zwischen den gefensterten Segmenten.
  • Trotz des in vielen handelsüblichen TTS-Systemen erzielten Erfolgs kann die unter Einsatz des TD-PSOLA-Synthesemodells erzeugte synthetische Sprache insbesondere bei starken prosodischen Schwankungen einige Nachteile aufweisen.
  • Beispiele für PSOLA-Verfahren sind in den Dokumenten EP-0363233, US-A-5.479.564 und EP-0706170 dargelegt. Ein spezielles Beispiel ist auch das MBR-PSOLA-Verfahren, wie es von T. Dutoit und H. Leich in Speech Communication, Elsevier Verlag, November 1993, Band 13, N.Grad 3-4, 1993, veröffentlicht wurde. Das in der US-amerikanischen Patentschrift Nr. 5.479.564 beschriebene Verfahren schlägt Mittel vor zum Verändern der Frequenz durch die Überlappung und Addition von kurzzeitigen Signalen, die aus diesem Signal extrahiert werden. Die Breite der Gewichtungsfenster, die zur Erzielung der kurzzeitigen Signale eingesetzt werden, entspricht ungefähr der doppelten Periode des Audiosignals, und ihre Position innerhalb der Periode kann auf jeglichen Wert eingestellt werden (vorausgesetzt, dass die Zeitverschiebung zwischen aufeinander folgenden Fenstern der Periode des Audiosignals entspricht). In der US-amerikanischen Patentschrift Nr. 5.479.564 werden auch Mittel zum Interpolieren von Signalformen zwischen zu verkettenden Segmenten beschrieben, um Unstetigkeiten zu glätten. Wenn ein verrauschtes Signal mit Hilfe des bekannten PSOLA-Verfahrens synthetisiert werden soll, wird das Signal periodisch wiederholt. Auf diese Weise wird in das Frequenzspektrum eine unbeabsichtigte Periodizität eingefügt. Diese wird als metallischer Klang wahrgenommen. Dieses Problem tritt bei allen verrauschten Signalen auf, die keine Grundfrequenz aufweisen, beispielsweise stimmlosen Sprachteilen oder Musik. Ein stimmloser Sprachteil wie der Laut „s" hat keine Tonhöhe. Die Stimmbänder bewegen sich nicht so, wie sie es bei stimmhaften Lauten tun. Stattdessen wird ein verrauschter Zischlaut erzeugt, indem Luft durch eine kleine Öffnung zwischen den Stimmbändern gestoßen wird. Das Flüstern ist ein Beispiel für Sprache, die nur stimmlose Teile enthält. Existiert keine Tonhöhe, muss diese auch nicht verändert werden. Es kann jedoch wünschenswert sein, die Dauer eines stimmlosen Sprachteils zu verändern.
  • Das Dokument US-A-6.208.960 bezieht sich auf die Entfernung von Periodizität aus einem langen Audiosignal. Ein Audiosignal wird in eine Folge von sich überlappenden oder benachbarten Signalsegmenten unterteilt. Ein langes Signal wird synthetisiert, indem entsprechende Signalsegmente der Folge von Segmenten systematisch beibehalten oder wiederholt werden. Durch die Wiederholung nicht periodischer Segmente, beispielsweise eines stimmlosen Teils eines Sprachsignals oder Rauschen in Musik, ergeben sich hörbare Artefakte. Die eingeführte Periodizität wird unterbrochen, indem eine Signalsektion, die von einem nicht periodischen Quellensignalsegment herrührt, in eine zweite Folge von Signalsegmenten unterteilt wird, wobei mindestens eines der Signalsegmente eine Dauer hat, die ungleich einer Dauer des Quellensignalsegmentes und ungleich einem Vielfachen der Dauer des Quellensignalsegmentes ist. Die Signalsegmente der zweiten Folge werden umgeordnet.
  • Der vorliegenden Erfindung nach den unabhängigen Ansprüchen 1, 8, 9 und 10 liegt die Aufgabe zugrunde, ein Verfahren zum Synthetisieren eines Signals zu schaffen, das die Veränderung der Dauer von stimmlosen Sprachteilen oder Musik ermöglicht, ohne eine unbeabsichtigte Periodizität in das Signal einzuführen.
  • Die vorliegende Erfindung schafft ein Verfahren zum Synthetisieren eines Signals, insbesondere eines verrauschten Signals, auf der Grundlage eines Originalsignals. Ferner schafft die vorliegende Erfindung ein Computerprogrammprodukt zum Durchführen einer derartigen Synthese sowie ein entsprechendes Computersystem, insbesondere ein Text/Sprache-System.
  • Erfindungsgemäß werden die erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs des zu synthetisierenden Signals ermittelt. Dies geschieht beispielsweise auf der Grundlage einer angenommenen Frequenz von beispielsweise 100 Hz. Diese ausgewählte Frequenz entspricht einer Tonhöhenperiode. Die erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs des zu synthetisierenden Signals werden auf der Zeitachse in Intervallen mit der Länge der Tonhöhenperiode angeordnet. Die erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs werden auf das Originalsignal abgebildet, um Positionen des glockenförmigen Tonhöhenverlaufs im Bereich des Originalsignals zu schaffen. Die Positionen des glockenförmigen Tonhöhenverlaufs im Bereich des Origi nalsignals werden zufällig verschoben. Die Randomisierung wird vorzugsweise durchgeführt, indem die Positionen des glockenförmigen Tonhöhenverlaufs in dem Originalsignalbereich innerhalb +/– der Tonhöhenperiode verschoben werden.
  • Gemäß einem Ausführungsbeispiel der Erfindung wird die Fensterung mit Hilfe eines Sinusfensters durchgeführt. Der Vorteil eines Sinusfensters besteht darin, dass es dazu beiträgt, jegliche verbliebene Periodizität zu reduzieren. Insbesondere ist der Einsatz eines Sinusfensters deshalb vorteilhaft, weil es sicherstellt, dass die Signalhüllkurve im Leistungsbereich konstant bleibt. Im Gegensatz zu einem periodischen Signal kann bei der Addition zweier abgetasteter Rauschsignalwerte die Gesamtsumme kleiner als der Absolutwert jegliches der beiden abgetasteter Signalwerte sein. Dies liegt daran, dass die Signale (meistens) nicht in gleicher Phase sind. Das Sinusfenster gleicht diesen Effekt aus und entfernt die Hüllkurvenmodulation.
  • Bevorzugte Ausführungsbeispiele der Erfindung sind in den Zeichnungen dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 eine Darstellung eines Ablaufdiagramms eines Ausführungsbeispiels der vorliegenden Erfindung;
  • 2 eine Darstellung eines Beispiels für die Synthetisierung eines stimmlosen Sprachsignals;
  • 3 ein Blockschaltbild eines bevorzugten Ausführungsbeispiels eines Computersystems.
  • Das Ablaufdiagramm aus 1 zeigt ein Ausführungsbeispiel des Verfahrens zum Synthetisieren eines Signals. In Schritt 100 wird ein Originalsignal mit einer Dauer von y zugeführt. Das Originalsignal ist beispielsweise ein natürliches Sprachsignal, das stimmlose Sprache oder ein Musiksignal mit einer verrauschten Signalkennlinie enthält. Ferner wird eine Auswahl für eine Grundfrequenz f getroffen, auch wenn das Originalsignal aufgrund seiner verrauschten Kennlinie keine derartige Grundfrequenz aufweist. Die Auswahl einer Frequenz f entspricht einer Auswahl einer Tonhöhenperiode p. Eine geeignete Wahl einer Frequenz f liegt zwischen 50 Hz und 200 Hz, vorzugsweise 100 Hz. Zusätzlich wird in Schritt 100 die gewünschte Dauer x des zu synthetisierenden Signals eingegeben. In Schritt 102 werden die Positionen des glockenförmigen Tonhöhenverlaufs in dem Bereich des zu synthetisierenden Signals in Übereinstimmung mit der Wahl der Frequenz f und der Tonhöhenperiode p ermittelt. Dies erfolgt durch Aufteilen der Zeitachse in dem Bereich des zu synthetisierenden Signals in Intervalle mit der Länge p. In Schritt 104 werden die Positionen des glockenförmigen Tonhöhenverlaufs von dem Bereich des zu synthetisierenden Signals auf den Bereich des Originalsignals abgebildet. Ist die Dauer x länger als die Dauer y des Originalsignals, bedeutet dies, dass die Positionen des glockenförmigen Tonhöhenverlaufs i im Bereich des Originalsignals um Intervalle voneinander getrennt werden, die kürzer als die Tonhöhenperiode p sind. Im umgekehrten Fall sind die Intervalle zwischen den Positionen des glockenförmigen Tonhöhenverlaufs i im Bereich des Originalsignals länger als die Intervalle zwischen den Positionen des glockenförmigen Tonhöhenverlaufs in dem Bereich des zu synthetisierenden Signals. In Schritt 106 werden die Positionen des glockenförmigen Tonhöhenverlaufs i im Bereich des Originalsignals randomisiert. Dies kann durch zufälliges Verschieben jeder der Positionen des glockenförmigen Tonhöhenverlaufs i innerhalb eines Intervalls von +/–p um die ursprüngliche Position der glockenförmigen Tonhöhenverlaufs i erfolgen. Zur Durchführung dieser Randomisierung kann in Pseudozufallszahlgenerator eingesetzt werden. In Schritt 108 erfolgt die Fensterung im Bereich des Originalsignals. Dies geschieht vorzugsweise mit Hilfe eines Sinusfensters, das auf die randomisierten Positionen des glockenförmigen Tonhöhenverlaufs i' angewendet wird; hierdurch wird die Periodizität weiter reduziert. In Schritt 110 werden die resultierenden glockenförmigen Tonhöhenverläufe im Bereich des zu synthetisierenden Signals überlappt und addiert, wodurch das synthetisierte Signal geschaffen wird.
  • 2 zeigt diese Signalsynthese an einem Beispiel. Die Zeitachse 200 befindet sich in dem Bereich des zu synthetisierenden Signals. Die erforderliche Dauer x des zu synthetisierenden Signals beträgt in dem hier betrachteten Beispiel eine Sekunde. Die angenommene Frequenz f beträgt 100 Hz, was einer Tonhöhenperiode p von 10 ms entspricht. Dies bedeutet, dass die erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs im Bereich des zu synthetisierenden Signals auf der Zeitachse 200 einen Abstand voneinander von Intervallen p = 10 ms aufweisen, d.h. die erste Position des glockenförmigen Tonhöhenverlaufs befindet sich bei 0 s auf der Zeitachse 200, die nächste Position des glockenförmigen Tonhöhenverlaufs befindet sich bei 10 ms, die folgende bei 20 ms usw. Mit anderen Worten: die Positionen des glockenförmigen Tonhöhenverlaufs im Bereich des zu synthetisierenden Signals werden durch Punkte auf der Zeitachse 200 ermittelt, die durch Intervalle p beginnend beim Zeitpunkt 0 voneinander getrennt sind. Die Positionen des glockenförmigen Tonhöhenverlaufs auf der Zeitachse 200 werden auf die Zeitachse 202 im Bereich des Originalsignals abgebildet. Das Originalsignal hat eine Dauer von y = 0,5 s. Da die Dauer y kürzer als die Dauer x des zu synthetisierenden Signals ist, bedeutet dies, dass die Positionen des glockenförmigen Tonhöhenverlaufs auf der Zeitachse 202 „komprimiert" werden müssen. Da die Dauer y halb so lang wie die Dauer x ist, betragen die Intervalle zwischen den abgebildeten Positionen des glockenförmigen Tonhöhenverlaufs auf der Zeitachse 202 p/2 anstatt p. Dies bedeutet, dass sich die erste Position des glockenförmigen Tonhöhenverlaufs i = 1 bei 0 ms auf der Zeitachse 202 befindet; die folgende Position des glockenförmigen Tonhöhenverlaufs i = 2 befindet sich bei 5 ms, die nächste Position des glockenförmigen Tonhöhenverlaufs i = 3 bei 10 ms usw. Mit anderen Worten: die erste Position des glockenförmigen Tonhöhenverlaufs zum Zeitpunkt 0 ms auf der Zeitachse 200 wird auf die Position des glockenförmigen Tonhöhenverlaufs i = 1 auf der Zeitachse 202 bei 0 ms abgebildet; die erforderliche Position des glockenförmigen Tonhöhenverlaufs bei 10 ms auf der Zeitachse 200 wird auf die Position des glockenförmigen Tonhöhenverlaufs i = 2 bei 5 ms auf der Zeitachse 202 abgebildet; die erforderliche Position des glockenförmigen Tonhöhenverlaufs bei 20 ms auf der Zeitachse 200 wird auf die Position des glockenförmigen Tonhöhenverlaufs i = 3 zum Zeitpunkt 10 ms auf der Zeitachse 202 abgebildet usw. Danach werden die Positionen des glockenförmigen Tonhöhenverlaufs i randomisiert. Dies ist in 2 mit Bezug auf die erste Position des glockenförmigen Tonhöhenverlaufs i = 1 auf der Zeitachse 202 dargestellt. Ein Intervall von +/–p um 0 ms wird auf der Zeitachse 202 festgelegt. Innerhalb dieses Intervall wird die Position des glockenförmigen Tonhöhenverlaufs i = 1 zufällig verschoben. Für die Position des glockenförmigen Tonhöhenverlaufs i = 1 befindet sich das Intervall zwischen –10 ms und +10 ms auf der Zeitachse 202. In dem hier betrachteten Beispiels ergibt dies eine randomisierte Position des glockenförmigen Tonhöhenverlaufs i' bei 7,5 ms auf der Zeitachse 202. An dieser Position wird das Originalsignal mit Hilfe einer Fensterfunktion 204 gefenstert. Es wird vorzugsweise das folgende Fenster zum Schaffen einer Fensterfunktion 204 eingesetzt:
    Figure 00060001
  • Die Randomisierung der Positionen des glockenförmigen Tonhöhenverlaufs i wird vorzugsweise gemäß der folgenden Formel durchgeführt: i' = i + (R × p),wobei i die ursprüngliche Position des glockenförmigen Tonhöhenverlaufs auf der Zeitachse 202 bezeichnet, i' die neue Position des glockenförmigen Tonhöhenverlaufs nach der Randomisierung ist, R die Zufallszahl zwischen –1 und 1 ist und p die Tonhöhenperiode bezeichnet. Das Ergebnis der Fensterung des Originalsignals ist ein glockenförmiger Tonhöhenverlauf. Dieser glockenförmige Tonhöhenverlauf wird an der ersten erforderlich Position des glockenförmigen Tonhöhenverlaufs innerhalb des Bereichs des zu synthetisierenden Signals auf der Zeitachse 200 positioniert, wie es in 2 dargestellt ist. Dieser Prozess wird in Bezug auf alle erforderlichen glockenförmigen Tonhöhenverläufe auf der Zeitachse wiederholt. Diese glockenförmigen Tonhöhenverläufe werden addiert und ergeben das gewünschte synthetisierte Signal mit der Länge x.
  • 3 zeigt ein Blockschaltbild eines Computersystems, beispielsweise eines Text/Sprache-Systems. Das Computersystem 300 weist ein Modul 302 zum Speichern eines Originalsignals mit einer Dauer y auf. Ferner weist das Computersystem 300 ein Modul 304 zum Speichern einer vorher ausgewählten Frequenz f oder Tonhöhenperiode p auf. Das Modul 306 dient dazu, die erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs des zu synthetisierenden Signals auf der Grundlage der erforderlichen Dauer x des zu synthetisierenden Signals und der vorher ausgewählten Frequenz f oder Tonhöhenperiode p zu bestimmen. Das Modul 308 dient dazu, die erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs in dem Bereich des zu synthetisierenden Signals auf den Bereich des Originalsignals abzubilden. Dadurch werden die Positionen des glockenförmigen Tonhöhenverlaufs i wie in dem Beispiel aus 2 ermittelt. Das Modul 310 dient dazu, die Positionen des glockenförmigen Tonhöhenverlaufs i zu randomisieren. Das Modul 310 ist mit dem Modul 312 verbunden, das Zufallszahlen für den Randomisierungsprozess liefert. Das Modul 314 dient dazu, die Fensterung des Originalsignal an den randomisierten Positionen des glockenförmigen Tonhöhenverlaufs i' durchzuführen. Die resultierenden glockenförmigen Tonhöhenverläufe werden dann in dem Bereich des zu synthetisierenden Signals mit Hilfe des Moduls 316 überlappt und addiert. Dies ergibt das synthetisierte Signal mit der gewünschten Dauer y.
  • 200
    Zeitachse
    202
    Zeitachse
    204
    Fensterfunktion
    300
    Computersystem
    302
    Modul
    304
    Modul
    306
    Modul
    308
    Modul
    310
    Modul
    312
    Modul
    314
    Modul
    316
    Modul
  • Text in den Figuren
  • 3
    • Length – Länge
    • Synthesized signal – Synthetisiertes Signal

Claims (10)

  1. Verfahren zum Synthetisieren eines Signals, das die folgenden Schritte umfasst: a) Bestimmen einer erforderlichen Position des glockenförmigen Tonhöhenverlaufs im Bereich des zu synthetisierenden Signals, b) Abbilden der erforderlichen Position des glockenförmigen Tonhöhenverlaufs auf ein Originalsignal zum Schaffen einer ersten Position des glockenförmigen Tonhöhenverlaufs, c) zufälliges Verschieben der ersten Position des glockenförmigen Tonhöhenverlaufs zum Schaffen einer zweiten Position des glockenförmigen Tonhöhenverlaufs, d) Fenstern des Originalsignals an der zweiten Position des glockenförmigen Tonhöhenverlaufs zum Schaffen eines glockenförmigen Tonhöhenverlaufs, e) Positionieren der resultierenden glockenförmigen Tonhöhenverlaufs an der erforderlichen Position des glockenförmigen Tonhöhenverlaufs im Bereich des zu synthetisierenden Signals, und f) Wiederholen der Schritte a) bis e) für alle erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs des zu synthetisierenden Signals und Durchführen einer Überlappungs- und Additionsoperation an den resultierenden glockenförmigen Tonhöhenverläufen im Bereich des zu synthetisierenden Signals, um das Signal zu synthetisieren.
  2. Verfahren nach Anspruch 1, wobei das Bestimmen von erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs durch Unterteilen der erforderlichen Länge des zu synthetisierenden Signals in Zeitintervalle erfolgt, wobei jedes der Zeitintervalle die Länge einer Tonhöhenperiode hat.
  3. Verfahren nach Anspruch 1 oder 2, wobei der Schritt der Randomisierung der ersten Position des glockenförmigen Tonhöhenverlaufs durch zufälliges Verschieben der ersten Position des glockenförmigen Tonhöhenverlaufs innerhalb eines Intervalls von +/– der Tonhöhenperiode erfolgt.
  4. Verfahren nach einem der vorherigen Ansprüche 1, 2 oder 3, wobei der Schritt des zufälligen Verschiebens der ersten Position des glockenförmigen Tonhöhenverlaufs i zum Schaffen der zweiten Position des glockenförmigen Tonhöhenverlaufs i' gemäß der folgenden Gleichung erfolgt: i' = i + (R × p),wobei R eine Zufallszahl zwischen – 1 und + 1 und p die Tonhöhenperiode ist.
  5. Verfahren nach einem der vorherigen Ansprüche 1 bis 4, wobei die Fensterung mit Hilfe eines Sinusfensters erfolgt.
  6. Verfahren nach einem der vorherigen Ansprüche 1 bis 5, wobei die Fensterung mit Hilfe der folgenden Sinusfensterfunktion erfolgt:
    Figure 00110001
    wobei m die Breite des Fensters und n der laufende Index ist.
  7. Verfahren nach einem der vorherigen Ansprüche 1 bis 6, wobei das Originalsignal keine Grundfrequenz aufweist und vorzugsweise stimmlose Sprache oder Musik umfasst.
  8. Computerprogrammprodukt, das bei Ausführung auf einer programmierbaren Computereinrichtung die genannte Computereinrichtung veranlasst, folgende Schritte durchzuführen: a) Bestimmen einer erforderlichen Position des glockenförmigen Tonhöhenverlaufs im Bereich des zu synthetisierenden Signals, b) Abbilden der erforderlichen Position des glockenförmigen Tonhöhenverlaufs auf ein Originalsignal zum Schaffen einer ersten Position des glockenförmigen Tonhöhenverlaufs, c) zufälliges Verschieben der ersten Position des glockenförmigen Tonhöhenverlaufs zum Schaffen einer zweiten Position des glockenförmigen Tonhöhenverlaufs, d) Fenstern des Originalsignals an der zweiten Position des glockenförmigen Tonhöhenverlaufs zum Schaffen eines glockenförmigen Tonhöhenverlaufs, e) Positionieren des resultierenden glockenförmigen Tonhöhenverlaufs an der erforderlichen Position des glockenförmigen Tonhöhenverlaufs im Bereich des zu synthetisierenden Signals, und f) Wiederholen der Schritte a) bis e) für alle erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs des zu synthetisierenden Signals und Durchführen einer Überlappungs- und Additionsoperation an den resultierenden glockenförmigen Tonhöhenverläufen im Bereich des zu synthetisierenden Signals, um das Signal zu synthetisieren.
  9. Computersystem, im Besonderen Text/Sprache-Synthesesystem, zum Synthetisieren eines Signals, wobei das Computersystem Folgendes umfasst: – Mittel zum Bestimmen von erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs im Bereich des zu synthetisierenden Signals, – Mittel zum Abbilden der erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs auf ein Originalsignal zum Schaffen erster Positionen des glockenförmigen Tonhöhenverlaufs (i), – Mittel zum zufälligen Verschieben der ersten Positionen des glockenförmigen Tonhöhenverlaufs zum Schaffen ein zweiter Positionen des glockenförmigen Tonhöhenverlaufs (i'), – Mittel zum Fenstern des Originalsignals an der zweiten Positionen des glockenförmigen Tonhöhenverlaufs zum Schaffen von glockenförmigen Tonverläufen, – Mittel zum Positionieren der resultierenden glockenförmigen Tonverläufe an den erforderlichen Positionen des glockenförmigen Tonhöhenverlaufs im Bereich des zu synthetisierenden Signals, und – Mittel zum Durchführen einer Überlappungs- und Additionsoperation im Hinblick auf die glockenförmigen Tonverläufe, um das Signal zu synthetisieren.
  10. Synthetisiertes Signal, das eine Anzahl von glockenförmigen Tonhöhenverläufen enthält, die überlappt und addiert werden, wobei jeder der glockenförmigen Tonhöhenverläufe aus der Fensterung eines Originalsignals an einer zweiten Position des glockenförmigen Tonhöhenverlaufs (i') resultiert, wobei die zweite Position des glockenförmigen Tonhöhenverlaufs durch Randomisieren der ersten Position des glockenförmigen Tonhöhenverlaufs (i) erzielt wurde, die durch Abbilden einer erforderlichen Position des glockenförmigen Tonhöhenverlaufs auf ein Originalsignal erzielt wird.
DE60305716T 2002-09-17 2003-08-08 Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals Expired - Lifetime DE60305716T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP02078853 2002-09-17
EP02078853 2002-09-17
PCT/IB2003/003544 WO2004027754A1 (en) 2002-09-17 2003-08-08 A method of synthesizing of an unvoiced speech signal

Publications (2)

Publication Number Publication Date
DE60305716D1 DE60305716D1 (de) 2006-07-06
DE60305716T2 true DE60305716T2 (de) 2007-05-31

Family

ID=32010980

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60305716T Expired - Lifetime DE60305716T2 (de) 2002-09-17 2003-08-08 Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals

Country Status (8)

Country Link
US (2) US7805295B2 (de)
EP (1) EP1543498B1 (de)
JP (1) JP4813796B2 (de)
CN (1) CN100361198C (de)
AT (1) ATE328343T1 (de)
AU (1) AU2003253152A1 (de)
DE (1) DE60305716T2 (de)
WO (1) WO2004027754A1 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100343893C (zh) * 2002-09-17 2007-10-17 皇家飞利浦电子股份有限公司 用于稳定音信号合成的方法和文本到语音转换的合成系统
EP1543498B1 (de) * 2002-09-17 2006-05-31 Koninklijke Philips Electronics N.V. Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
JP5482042B2 (ja) * 2009-09-10 2014-04-23 富士通株式会社 合成音声テキスト入力装置及びプログラム
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
JP7422685B2 (ja) 2018-05-31 2024-01-26 シュアー アクイジッション ホールディングス インコーポレイテッド 自動ミキシング用のインテリジェント音声起動のためのシステムおよび方法
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US10382143B1 (en) * 2018-08-21 2019-08-13 AC Global Risk, Inc. Method for increasing tone marker signal detection reliability, and system therefor
CN112889296A (zh) 2018-09-20 2021-06-01 舒尔获得控股公司 用于阵列麦克风的可调整的波瓣形状
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
JP2022526761A (ja) 2019-03-21 2022-05-26 シュアー アクイジッション ホールディングス インコーポレイテッド 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
CN113841419A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 天花板阵列麦克风的外壳及相关联设计特征
WO2020237206A1 (en) 2019-05-23 2020-11-26 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
JP2022545113A (ja) 2019-08-23 2022-10-25 シュアー アクイジッション ホールディングス インコーポレイテッド 指向性が改善された一次元アレイマイクロホン
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
WO2022165007A1 (en) 2021-01-28 2022-08-04 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4631746A (en) * 1983-02-14 1986-12-23 Wang Laboratories, Inc. Compression and expansion of digitized voice signals
JPS60225200A (ja) * 1984-04-23 1985-11-09 日本電気株式会社 音声符号化器
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
JP2605680B2 (ja) * 1985-06-20 1997-04-30 日本電気株式会社 音声ノイズ発生回路
US4805511A (en) * 1986-08-12 1989-02-21 Schulmerich Carillons, Inc. Electronic bell-tone generating system
JPS63199399A (ja) * 1987-02-16 1988-08-17 キヤノン株式会社 音声合成装置
FR2636163B1 (fr) 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
EP0360265B1 (de) * 1988-09-21 1994-01-26 Nec Corporation Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale
JP2903533B2 (ja) * 1989-03-22 1999-06-07 日本電気株式会社 音声符号化方式
US5241650A (en) * 1989-10-17 1993-08-31 Motorola, Inc. Digital speech decoder having a postfilter with reduced spectral distortion
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
CA2032765C (en) * 1989-12-21 1995-12-12 Hidetaka Yoshikawa Variable rate encoding and communicating apparatus
US5664051A (en) * 1990-09-24 1997-09-02 Digital Voice Systems, Inc. Method and apparatus for phase synthesis for speech processing
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
DE69231266T2 (de) * 1991-08-09 2001-03-15 Koninkl Philips Electronics Nv Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
DE69228211T2 (de) 1991-08-09 1999-07-08 Koninkl Philips Electronics Nv Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
JP3360312B2 (ja) * 1992-06-03 2002-12-24 ヤマハ株式会社 楽音合成装置
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5434947A (en) * 1993-02-23 1995-07-18 Motorola Method for generating a spectral noise weighting filter for use in a speech coder
JP3024468B2 (ja) * 1993-12-10 2000-03-21 日本電気株式会社 音声復号装置
IT1266943B1 (it) 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
US5754094A (en) * 1994-11-14 1998-05-19 Frushour; Robert H. Sound generating apparatus
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
JPH09281994A (ja) * 1996-04-19 1997-10-31 Oki Electric Ind Co Ltd 音声合成装置
TW419645B (en) * 1996-05-24 2001-01-21 Koninkl Philips Electronics Nv A method for coding Human speech and an apparatus for reproducing human speech so coded
JPH10214098A (ja) * 1997-01-31 1998-08-11 Sanyo Electric Co Ltd 音声変換玩具
US5940791A (en) * 1997-05-09 1999-08-17 Washington University Method and apparatus for speech analysis and synthesis using lattice ladder notch filters
DE69822618T2 (de) 1997-12-19 2005-02-10 Koninklijke Philips Electronics N.V. Beseitigung der periodizität in einem gestreckten audio-signal
US6011211A (en) * 1998-03-25 2000-01-04 International Business Machines Corporation System and method for approximate shifting of musical pitches while maintaining harmonic function in a given context
US6015949A (en) * 1998-05-13 2000-01-18 International Business Machines Corporation System and method for applying a harmonic change to a representation of musical pitches while maintaining conformity to a harmonic rule-base
US6284965B1 (en) * 1998-05-19 2001-09-04 Staccato Systems Inc. Physical model musical tone synthesis system employing truncated recursive filters
JP3430968B2 (ja) * 1999-05-06 2003-07-28 ヤマハ株式会社 ディジタル信号の時間軸圧伸方法及び装置
US6963833B1 (en) * 1999-10-26 2005-11-08 Sasken Communication Technologies Limited Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
EP1543498B1 (de) * 2002-09-17 2006-05-31 Koninklijke Philips Electronics N.V. Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
CN100343893C (zh) * 2002-09-17 2007-10-17 皇家飞利浦电子股份有限公司 用于稳定音信号合成的方法和文本到语音转换的合成系统
US7657289B1 (en) * 2004-12-03 2010-02-02 Mark Levy Synthesized voice production

Also Published As

Publication number Publication date
AU2003253152A1 (en) 2004-04-08
ATE328343T1 (de) 2006-06-15
JP4813796B2 (ja) 2011-11-09
CN1682276A (zh) 2005-10-12
EP1543498A1 (de) 2005-06-22
EP1543498B1 (de) 2006-05-31
US8326613B2 (en) 2012-12-04
WO2004027754A1 (en) 2004-04-01
US20100324906A1 (en) 2010-12-23
CN100361198C (zh) 2008-01-09
JP2005539264A (ja) 2005-12-22
US7805295B2 (en) 2010-09-28
DE60305716D1 (de) 2006-07-06
US20060053017A1 (en) 2006-03-09

Similar Documents

Publication Publication Date Title
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
DE69932786T2 (de) Tonhöhenerkennung
DE60127274T2 (de) Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE2115258C3 (de) Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
DE69720861T2 (de) Verfahren zur Tonsynthese
DE69631037T2 (de) Sprachsynthese
DE3228756A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen
DE69009571T2 (de) Sprachsynthesizer.
WO2000011647A1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE69822618T2 (de) Beseitigung der periodizität in einem gestreckten audio-signal
DE3228757A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
EP0865026B1 (de) Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen
DE69723930T2 (de) Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
DE60303688T2 (de) Sprachsynthese durch verkettung von sprachsignalformen
DE60316678T2 (de) Verfahren zum synthetisieren von sprache
EP1110203B1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
DE4441906C2 (de) Anordnung und Verfahren für Sprachsynthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition