DE602004000656T2 - Verfahren und Vorrichtung zum Erzeugen von Sprache aus einem Text - Google Patents

Verfahren und Vorrichtung zum Erzeugen von Sprache aus einem Text Download PDF

Info

Publication number
DE602004000656T2
DE602004000656T2 DE602004000656T DE602004000656T DE602004000656T2 DE 602004000656 T2 DE602004000656 T2 DE 602004000656T2 DE 602004000656 T DE602004000656 T DE 602004000656T DE 602004000656 T DE602004000656 T DE 602004000656T DE 602004000656 T2 DE602004000656 T2 DE 602004000656T2
Authority
DE
Germany
Prior art keywords
speech
unit
units
language
interpolation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE602004000656T
Other languages
English (en)
Other versions
DE602004000656D1 (de
Inventor
A. 407-1704 Cheongmyeong Maeul Jugon Yeongtong-gu Suwon-si Ferencz
3-1009 Samsung 2-cha Apt. Jeong-su Yeongtong-gu Suwon-si Kim
807-Seocho ESA 3-cha Apt. Jae-won Seocho-gu Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of DE602004000656D1 publication Critical patent/DE602004000656D1/de
Application granted granted Critical
Publication of DE602004000656T2 publication Critical patent/DE602004000656T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Description

  • Die vorliegende Erfindung betrifft Text-in-Sprache-Synthese (TTS, text to speech synthesis) und insbesondere ein Verfahren und eine Vorrichtung für reibungslose Verknüpfung von Spracheinheiten.
  • Sprachsynthese (Erzeugen von Sprache) wird unter Verwendung einer Sprachdatenbasis auf Basis des Corpus (nachfolgend als DB oder Sprach-DB bezeichnet) durchgeführt. In neuerer Zeit führen Sprachsynthesesysteme geeignete Sprachsynthese gemäß ihren Systemspezifikationen aus, wie ihren unterschiedlichen Größen von DB. Da zum Beispiel große Sprachsynthesesysteme einen großen Umfang an DB enthalten, können sie Sprachsynthese ohne Beschneidung von Sprachdaten durchführen. Jedoch kann nicht jedes Sprachsynthesesystem eine große DB verwenden. In der Tat können Mobiltelefone, digitale Personalassistenten (PDAs, personal digital assistants) und dergleichen nur eine DB mit kleinem Umfang verwenden. Daher konzentrieren sich diese Geräte darauf, wie Sprachsynthese guter Qualität bei Verwendung einer kleinen DB erreicht werden kann.
  • In einer Verknüpfung von zwei benachbarten Spracheinheiten ist bei der Sprachsynthese eine Reduzierung des akustischen Fehlers ein erstes Ziel, das zu erreichen ist. Die folgenden Schriften zum Stand der Technik behandeln diesen Punkt.
  • US-Patent Nr. 5,490,234 mit dem Titel "Waveform Blending Technique for Text-to-Speech System" betrifft Systeme zur Bestimmung eines optimalen Verknüpfungspunkts und Durchführen einer reibungslosen Verknüpfung von zwei benachbarten Teilungen mit Bezug zum Verknüpfungspunkt.
  • US-A-2002099547 mit dem Titel „Method and Apparatus for Speech Synthesis without Prosody Modification" betrifft Sprachsynthese, die sowohl für große DB und DB von begrenztem Umfang geeignet ist (nämlich von mittelgroßen bis kleinen DB) und insbesondere Verknüpfung unter Verwendung einer großen Sprach-DB ohne Ausgleichsprozess.
  • US-A-2002143526 mit dem Titel „Fast Waveform Synchronization for Concatenation and Timescale Modification of Speech" betrifft begrenztes Ausgleichen, das über ein Teilungsintervall durchgeführt wird, und insbesondere eine Einstellung der Verknüpfungsgrenze zwischen einer linken Spracheinheit und einer rechten Spracheinheit, ohne akkurate Teilungsmarkierung.
  • Bei einer Verknüpfung von zwei benachbarten stimmhaften Spracheinheiten bei der Sprachsynthese ist es von Bedeutung, akustische Fehler zu reduzieren und eine natürliche Sprache aus einem eingegebenen Text zu bilden und adaptiv Sprachsynthese entsprechend der Hardwareanlagen für Sprachsynthese durchzuführen.
  • US 6,067,519 beschreibt ein Sprachsynthesesystem mit einem spezifischen Verfahren zum Zusammenfügen von stimmhaften Phonemen. Sowohl linke und rechte Phoneme werden erweitert, wobei das linke Phonem unter Verwendung einer versetzten Version einer Fensterperiode erweitert wird, um sie mit den Teilungsmarkierungen des rechten Phonems zu synchronisieren, wobei das rechte Phonem unter Verwendung einer Version einer anderen Fensterperiode erweitert wird, die versetzt ist, um sie mit den Teilungsmarkierungen des linken Phonems zu synchronisieren.
  • Die vorliegende Erfindung zielt darauf ab, ein Sprachsyntheseverfahren zur Verfügung zu stellen, durch das akustische Fehler reduziert werden, sprachunabhängige Verknüpfung erreicht wird und gute Sprachsynthese selbst unter Verwendung einer kleinen DB durchgeführt werden kann.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein Sprachsyntheseverfahren zur Verfügung gestellt, wie es in Anspruch 1 angeführt ist.
  • In Ausführungsformen kann equiproportionale Interpolation von Teilungsperioden, die in dem bestimmten Interpolationsbereich enthalten sind, zwischen dem Ausrichtschritt der Teilungsmarkierungen und dem Überlagerungsschritt der Spracheinheit durchgeführt werden.
  • Gemäß einem anderen Aspekt der vorliegenden Erfindung wird eine Sprachsynthesevorrichtung zur Verfügung gestellt, in der Spracheinheiten unter Verwendung einer DB verknüpft werden, wie es in Anspruch 5 angegeben ist.
  • Gemäß einem anderen Aspekt der vorliegenden Erfindung umfasst die Vorrichtung zur Sprachsynthese ferner eine Teilungsspurinterpolationseinheit. Die Teilungsspurinterpolationseinheit empfängt eine Teilungswellenform von der Teilungsmarkierungausrichteinheit, interpoliert equiproportional die Perioden der im Interpolationsbereich enthaltenen Teilungen und gibt das Ergebnis der equiproportionalen Interpolation an die Spracheinheitenüberlagerungseinheit.
  • Die obigen und weitere Merkmale und Vorteile der vorliegenden Erfindung werden besser ersichtlich durch eine ausführliche Beschreibung bevorzugter Ausführungsformen mit Bezug zu den beigefügten Zeichnungen, in denen:
  • 1 ein Fliessbild zur Erläuterung eines Sprachsyntheseverfahrens gemäß einer Ausführungsform der Erfindung ist;
  • 2 eine Sprachwellenform und ihr Spektrogramm über ein Intervall zeigt, in dem drei Spracheinheiten, die synthetisiert werden sollen, nacheinander folgen;
  • 3 getrennt eine linke Spracheinheit und eine rechte Spracheinheit zeigt, die in Schritt S10 von 1 verknüpft werden sollen;
  • 4 ein Fliessbild zur Erläuterung einer bevorzugten Ausführungsform von Schritt S14 von 1 ist;
  • 5 ein Beispiel von Schritt S14 von 1 zeigt, bei dem Ränder zweier benachbarter linker und rechter Einheiten aus 3 unter Verwendung von Extrasegmentdaten erweitert werden;
  • 6 ein Beispiel von Schritt S14 von 1 zeigt, bei dem ein Rand einer linken Spracheinheit durch eine Extrapolation erweitert wird;
  • 7 ein Beispiel von Schritt S14 von 1 zeigt, bei dem ein Rand einer rechten Spracheinheit durch eine Extrapolation erweitert wird;
  • 8 ein Beispiel von Schritt S16 von 1 zeigt, in dem Teilungsmarkierungen (PMs) durch Verkleinern der in einem erweiterten Teil einer linken Spracheinheit enthaltenen Teilungen ausgerichtet werden, so dass die Teilungen in einen bestimmten Interpolationsbereich passen können;
  • 9 ein Beispiel von Schritt S16 von 1 zeigt, in dem Teilungsmarkierungen durch Erweitern der in einem erweiterten Teil einer rechten Spracheinheit enthaltenen Teilungen ausgerichtet werden, so dass die Teilungen in einen bestimmten Interpolationsbereich passen können;
  • 10 ein Beispiel von Schritt S18 von 1 zeigt, in dem die Teilungsperioden in einem bestimmten Interpolationsbereich jeder der linken und rechten Spracheinheiten equiproportional interpoliert werden;
  • 11 ein Beispiel zeigt, in dem ein bestimmter Interpolationsbereich einer linken Spracheinheit ausgeblendet wird und ein bestimmter Interpolationsbereich einer rechten Spracheinheit eingeblendet wird;
  • 12 Wellenformen zeigt, in denen linke und rechte Spracheinheiten von 11 überlagert sind;
  • 13 Wellenformen zeigt, in denen Phoneme verknüpft werden, ohne dass ein Ausgleichsprozess vorgenommen wird; und
  • 14 ein Blockdiagramm einer Sprachsynthesevorrichtung gemäß der vorliegenden Erfindung zum Verknüpfen von Spracheinheiten auf Basis einer DB ist.
  • Die vorliegende Erfindung betrifft ein Sprachsyntheseverfahren und eine Sprachsynthesevorrichtung, in denen Spracheinheiten unter Verwendung einer DB verknüpft werden, die eine Sammlung von aufgezeichneten und verarbeiteten Spracheinheiten ist. Die zu verknüpfenden Spracheinheiten können in stimmlos-stimmlos, stimmlos-stimmhaft, stimmhaft-stimmlos und stimmhaft-stimmhaft Nachbarpaare geteilt werden. Da die reibungslose Verknüpfung von stimmhaft-stimmhaf Nachbarspracheinheiten für Sprachsynthese in hoher Qualität wesentlich ist, betreffen das vorliegende Verfahren und die Vorrichtung die Verknüpfung von stimmhaft-stimmhaft Spracheinheiten. Weil die stimmhaft-stimmhaft Spracheinheitenübergänge in allen Sprachen erscheinen, können die Methodik und die Vorrichtung sprachunabhängig angewendet werden.
  • Ein Sprachsyntheseprozess auf Basis des Corpus besteht in einem Offlineprozess zur Erzeugung einer DB für Sprachsynthese und einem Onlineprozess zur Konvertierung eines Eingabetextes in Sprache unter Verwendung der DB.
  • Der Offlineprozess der Sprachsynthese beinhaltet die folgenden Schritte: Auswählen eines optimalen Corpus, Aufzeichnen des Corpus, Anhängen von Phonemen und Prosodiekennungen, Segmentieren des Corpus in Spracheinheiten, Komprimieren der Daten unter Verwendung von Wellenformkodierverfahren, Speichern der kodierten Sprachdaten in der Sprach-DB, Extrahieren von phonetisch-akustischen Parametern aus Spracheinheiten, Erzeugen einer Einheits-DB, die diese Parameter enthält und wahlweise Beschneiden der Sprache und Einheits-DBs, um ihre Größe zu reduzieren.
  • Der Online-Prozess der Sprachsynthese beinhaltet die folgenden Schritte: Eingeben eines Textes, Vorbearbeiten des Eingabetextes, Durchführung einer Wortartanalyse (POS, part of speech), Konvertieren von Graphemen in Phoneme, Erzeugen von Prosodiedaten, Auswählen der geeigneten Spracheinheiten ausgehend von ihren phonetisch-akustischen Parametern, die in der Einheits-DB gespeichert sind, Durchführen von Prosodieüberlagerung, Durchführung von Verknüpfung und Ausgleich und Ausgeben einer Sprachansage.
  • 1 ist ein Fliessbild zur Erläuterung eines Verfahrens zum Erzeugen von Sprache gemäß einer Ausführungsform der vorliegenden Erfindung. Mit Bezug zu 1 beinhaltet das Sprachsyntheseverfahren auf Basis von Interpolation einen Bestimmungsschritt S10 für eine zu verknüpfende Spracheinheit, einen Bestimmungsschritt S12 für den Interpolationsbereich, einen Randerweiterungsschritt S14, einen Ausrichtschritt für Teilungsmarkierungen S16, einen Interpolationsschritt für die Teilungsspur S18 und einen Spracheinheitenüberlagerungsschritt S20.
  • In Schritt S10 werden zu verknüpfende Spracheinheiten bestimmt und eine Sprache wird als linke Spracheinheit und die andere als rechte Spracheinheit bezeichnet. 2 zeigt einen Sprachwellenform und ihr Spektrogramm in einem Intervall, in dem Spracheinheiten, nämlich drei stimmhafte Phoneme, die synthetisiert werden sollen, einander folgen. Mit Bezug zu 2 werden Wellenformfehler und Spektrogrammdiskontinuität an den Rändern zwischen benachbarten Phonemen gefunden. Es wird ausgleichende Verknüpfung für eine Sprachsynthese in einer quasistationären Zone zwischen stimmhaften Spracheinheiten durchgeführt. Wie in 3 gezeigt ist, werden zwei zu verknüpfende Sprach einheiten bestimmt und eine als linke Spracheinheit und die andere als rechte Spracheinheit abgeteilt.
  • In Schritt S12 wird die Länge eines Interpolationsbereichs jeder der linken und rechten Spracheinheiten variabel bestimmt. Ein Interpolationsbereich eines mit einem anderen Phonem zu verknüpfenden Phonems wird zu einem gewissen Prozentsatz bestimmt, aber weniger als 40 der Gesamtlänge des Phonems. Mit Bezug zu 2 wird ein Bereich, der maximal 40 % der Gesamtlänge eines Phonems entspricht, als Interpolationsbereich des Phonems bestimmt. Der Prozentanteil des Interpolationsbereichs eines Phonems von der Gesamtlänge des Phonems schwankt entsprechend der Spezifikation eines Sprachsynthesesystems und dem Abweichungsgrad zwischen zu verknüpfenden Spracheinheiten.
  • In Schritt S14 wird am rechten Rand einer linken Spracheinheit und am linken Rand einer rechten Spracheinheit eine Erweiterung angehängt. Der Randerweiterungsschritt S14 kann entweder durch Verbinden von Extrasegmentdaten mit dem Rand einer Spracheinheit oder durch Wiederholen einer Teilung am Rand einer Spracheinheit durchgeführt werden.
  • 4 ist ein Fliessbild zur Erläuterung einer bevorzugten Ausführungsform von Schritt S14 von 1. Die Ausführungsform von Schritt S14 beinhaltet die Schritte 140 bis 150, die Randerweiterung in dem Fall erläutern, wo die Extrasegmentdaten einer linken und/oder rechten Spracheinheit vorhanden sind und Randerweiterung in dem Fall, wo keine Extrasegmentdaten der linken und/oder rechten Spracheinheit vorhanden sind.
  • In Schritt S140 wird bestimmt, ob die Extrasegmentdaten einer linken Spracheinheit in einer DB vorhanden sind. Wenn die Extrasegmentdaten der linken Spracheinheit in der DB vorhanden sind, wird der rechte Rand erweitert und die Extrasegmentdaten in Schritt S142 geladen. Wie in 5 gezeigt ist, wird, wenn die Extrasegmentdaten einer linken Spracheinheit vorhanden sind, die linke Spracheinheit durch Anhängen so vieler Extrasegmentdaten erweitert, wie es der Anzahl an Teilungen in einem bestimmten Interpolationsbereich einer rechten Spracheinheit zum rechten Rand der linken Spracheinheit entspricht. Wenn hingegen keine Extrasegmentdaten der linken Spracheinheit vorhanden sind, werden in Schritt 144 künstliche Extrasegmentdaten erzeugt. Wie in 6 gezeigt ist, wird, wenn keine Extrasegmentdaten der linken Spracheinheit vorhanden sind, die linke Spracheinheit durch Wiederholen einer Teilung an ihrem rechten Rand um die Anzahl erweitert, die der Anzahl von Teilungen in einem bestimmten Interpolationsbereich der rechten Spracheinheit entspricht. Dieser Prozess wird gleichermaßen bei einer rechten Spracheinheit, wie in den 5 und 7 gezeigt, in den Schritten S146, S148 und S150 angewendet.
  • In Schritt S16 werden die Stellen der Teilungsmarkierungen, die in einem erweiterten Teil jeder der linken und rechten Spracheinheiten enthalten sind, synchronisiert und zueinander ausgerichtet, so dass die Teilungsmarkierungen in einen bestimmten Interpolationsbereich passen. Der Teilungsmarkierungsausrichtschritt S16 entspricht einem Vorbearbeitungsschritt zum Verknüpfen der linken und rechten Spracheinheiten. Mit Bezug zu 8 werden die im erweiterten Teil der linken Spracheinheit enthaltenen Teilungen verkleinert, so dass sie in einen bestimmten Interpolationsbereich passen. Mit Bezug zu 9 werden die im erweiterten Teil der rechten Spracheinheit enthaltenen Teilungen erweitert, so dass sie in den bestimmten Interpolationsbereich passen.
  • Der Teilungsmarkierungsinterpolationsschritt S18 ist beim Sprachsyntheseverfahren gemäß der vorliegenden Erfindung optional. In Schritt S18 werden die in einem Interpolationsbereich jeder der linken und rechten Spracheinheiten enthaltenen Teilungsperioden equiproportional interpoliert. Mit Bezug zu 10 nehmen die in einem Interpolationsbereich einer linken Spracheinheit enthaltenen Teilungsperioden in einer gleichen Rate in Richtung vom linken Rand des Interpolationsbereichs zu seinem rechten Rand ab. Ebenso nehmen die in einem Interpolationsbereich einer rechten Spracheinheit enthaltenen Teilungsperioden in einer gleichen Rate in Richtung vom linken Rand des Interpolationsbereichs zu seinem rechten Rand ab. Außerdem bleiben einzelne Teilungspaare der linken und rechten Einheit im Interpolationsbereich synchron und einzelne Paare von Teilungsmarkierungen bleiben ausgerichtet.
  • Im Sprachüberlagerungsschritt S20 werden die linke Spracheinheit und die rechte Spracheinheit überlagert. Die Spracheinheitenüberlagerung kann in einem Einblend-/Ausblendvorgang durchgeführt werden. 11 zeigt eine Wellenform, in der ein bestimmter Interpolationsbereich einer linken Spracheinheit ausgeblendet wird und eine Wellenform, in der ein bestimmter Interpolationsbereich einer rechten Spracheinheit eingeblendet wird. 12 zeigt Wellenformen, in denen linke und rechte Spracheinheiten von 11 überlagert sind. Zum Vergleich zeigt 13 Wellenformen, in denen Phoneme verknüpft sind, ohne dass sie einem Ausgleichsprozess unterzogen sind. Wie in 13 gezeigt ist, tritt eine schnelle Wellenformveränderung bei einem Verknüpfungsrand zwischen linker und rechter Spracheinheit auf. In diesem Fall wird eine raue und diskontinuierliche Sprache erzeugt. Hingegen zeigt 12 eine reibungslose Verknüpfung der linken und rechten Spracheinheit ohne schnelle Wellenformänderung.
  • 14 ist ein Blockdiagramm eines Sprachsynthesegeräts gemäß der vorliegenden Erfindung. Das Sprachsynthesegerät von 14 beinhaltet eine Bestimmungseinheit 10 für den Verknüpfungsbereich, eine Rand erweiterungseinheit 20, eine Teilungsmarkierungsausrichteinheit 30 und eine Spracheinheitenüberlagerungseinheit 50.
  • Die Vorrichtung zum Erzeugen von Sprache gemäß der vorliegenden Erfindung verknüpft Spracheinheiten unter Verwendung einer DB. Die Bestimmungseinheit 10 für den Verknüpfungsbereich führt die Schritte S10 und S12 von 1 aus, indem zu verknüpfende Spracheinheiten bestimmt werden, die bestimmten Spracheinheiten in eine linke Spracheinheit und eine rechte Spracheinheit unterteilt werden und die Länge eines Interpolationsbereichs jeder der linken und rechten Spracheinheiten variabel bestimmt wird. Die zu verknüpfenden Spracheinheiten sind stimmhafte Phoneme.
  • Die Randerweiterungseinheit 20 führt den Schritt S14 von 1 durch Anhängen einer Erweiterung an den Rand der linken und rechten Spracheinheiten aus. Insbesondere bestimmt die Randerweiterungseinheit 20, ob Extrasegmentdaten der linken und rechten Spracheinheit in einer DB vorhanden sind. Wenn die Extrasegmentdaten der linken und rechten Spracheinheit in der DB vorhanden sind, erweitert die Randerweiterungseinheit 20 den Rand der linken und rechten Spracheinheit unter Verwendung der in der DB vorhandenen Extrasegmentdaten. Wenn keine Extrasegmentdaten der linken und rechten Spracheinheit in der DB vorhanden sind, erweitert die Randerweiterungseinheit 20 den Rand der linken und rechten Spracheinheit unter Verwendung von Extrapolation.
  • Die Teilungsmarkierungsausrichteinheit 30 führt den Schritt S16 in 1 durch, indem die in der Erweiterung enthaltenen Teilungsmarkierungen ausgerichtet werden, so dass die Teilungsmarkierungen in den bestimmten Verknüpfungsbereich passen können.
  • Die Spracheinheitenüberlagerungseinheit 50 führt den Schritt S20 von 1 durch, indem die linke und rechte Spracheinheit überlagert werden, deren Teilungsmarkierungen ausgerichtet wurden. Die Spracheinheitenüberlagerungseinheit 50 kann die linke und rechte Spracheinheit überlagern, nachdem die linke Spracheinheit ausgeblendet und die rechte Spracheinheit eingeblendet wird.
  • Das Sprachsynthesegerät gemäß der vorliegenden Erfindung kann eine Teilungsspurinterpolationseinheit 40 beinhalten, die Teilungsspur- und Wellenformdaten von der Teilungsmarkierungsausrichteinheit 30 erhält, die Perioden der im Interpolationsbereich enthaltenen Teilungen equiproportional interpoliert und das Ergebnis der equiproportionalen Interpolation an die Spracheinheitenüberlagerungseinheit 50 ausgibt.
  • Wie oben beschrieben kann im Falle von Sprachsyntheseverfahren auf Basis des Corpus gemäß der vorliegenden Erfindung eine Bestimmung, ob Extrasegmentdaten vorhanden sind oder nicht vorgenommen werden, und ausgleichende Verknüpfung wird durchgeführt, entweder unter Verwendung von vorhandenen Daten oder einer Extrapolation in Abhängigkeit vom Ergebnis der Bestimmung. Auf diese Weise kann eine akustische Unstimmigkeit am Verknüpfungsrand zwischen zwei Spracheinheiten gemildert werden und eine Sprachsynthese in guter Qualität kann erreicht werden. Das Sprachsyntheseverfahren gemäß der vorliegenden Erfindung ist in Systemen mit einer großen und mittleren DB effektiv, aber noch effektiver in Systemen mit einer kleinen DB, wobei eine natürliche und gewünschte Sprache erhalten wird.
  • Eine durch ausgleichende Verknüpfung erhaltene Sprache, wie sie in der vorliegenden Erfindung vorgeschlagen ist, wird mit einer Sprache verglichen, die durch einfache Verknüpfung erhalten ist, mittels insgesamt 15 Befragungen, wobei die Anzahl bei Durchführung von 3 Befragungen für jeweils 18 Personen erhalten ist. Tabelle 1 zeigt das Ergeb nis der 15 Befragungen, in denen jeweils ein Teilnehmer eine Sprache hört, die durch eine einfache Verknüpfung (d. h. Verknüpfung ohne Ausgleich) erzeugt ist, eine Sprache, die durch eine ausgleichende Verknüpfung ausgehend von Interpolation unter Verwendung von Extrasegmentdaten erzeugt ist, und einer Sprache, die durch eine ausgleichende Verknüpfung ausgehend von Interpolation von extrapolierten Daten erzeugt ist, und dann die drei Sprachen unter Vergabe von 1 bis 5 Bewertungspunkten bewertet.
  • Tabelle 1
    Figure 00120001
  • Das Verfahren und die Vorrichtung zum Reduzieren akustischer Fehler zwischen Phonemen ist für sprachunabhängige Anwendungen geeignet. Die vorliegende Erfindung ist nicht auf die oben beschriebenen und in den Zeichnungen dargestellten Ausführungsformen beschränkt. Insbesondere wurde die vorliegende Erfindung mit Schwerpunkt auf eine ausgleichende Verknüpfung zwischen stimmhaften Phonemen in der Sprachsynthese beschrieben. Es ist jedoch ersichtlich, dass die vorlie gende Erfindung auch angewendet werden kann, wenn quasistationäre eindimensionale Signale ausgeglichen und verknüpft werden.
  • Während die vorliegende Erfindung insbesondere mit Bezug zu beispielhaften Ausführungsformen beschrieben und gezeigt wurde, versteht es sich für die Fachleute, dass verschiedene Änderungen in Form und Details vorgenommen werden können, ohne vom Rahmen der vorliegenden Erfindung abzuweichen, wie er in den folgenden Ansprüchen definiert ist.

Claims (8)

  1. Verfahren zum Erzeugen von Sprache, bei dem Spracheinheiten unter Verwendung einer Datenbasis (DB) verknüpft werden, wobei das Verfahren umfasst: Bestimmen der (S10) Spracheinheiten, die verknüpft werden sollen und Teilen der Spracheinheiten in eine linke Spracheinheit und eine rechte Spracheinheit; variables Bestimmen (S12) der Länge eines Interpolationsbereichs bei jeder der linken und rechten Spracheinheiten; Anhängen (S14) einer Erweiterung an einen rechten Rand der linken Spracheinheit und einer Erweiterung an einen linken Rand der rechten Spracheinheit; Ausrichten (S16) der Stellen von Teilungsmarkierungen, die jeweils in der Erweiterung der linken und rechten Spracheinheiten vorhanden sind, so dass die Teilungsmarkierungen in den bestimmen Interpolationsbereich passen können; und Überlagern (S20) der linken und rechten Spracheinheiten; dadurch gekennzeichnet, dass der Randerweiterungsschritt umfasst: Bestimmen (S140, S146), ob Extrasegmentdaten der linken und/oder rechten Spracheinheiten in der DB vorhanden sind; Erweitern (S142, S148) des rechten Randes der linken Spracheinheit und/oder des linken Randes der rechten Spracheinheit unter Verwendung vorhandener Daten, wenn Extrasegmentdaten in der DB vorhanden sind; und Erweitern (S144, S150) des rechten Randes der linken Spracheinheit und/oder des linken Randes der rechten Spracheinheit unter Verwendung einer Extrapolation, wenn keine Extrasegmentdaten in der DB vorhanden sind.
  2. Verfahren zum Erzeugen von Sprache nach Anspruch 1, worin die zu verknüpfenden Spracheinheiten stimmhafte Phoneme sind.
  3. Verfahren zum Erzeugen von Sprache nach einem der vorhergehenden Ansprüche, worin im Spracheinheitenüberlagerungsschritt die linken und rechten Spracheinheiten überlagert werden, nachdem die linke Spracheinheit ausgeblendet wird und die rechte Spracheinheit eingeblendet wird.
  4. Verfahren zum Erzeugen von Sprache nach einem der vorhergehenden Ansprüche, das zwischen dem Teilungsmarkierungsausrichtschritt und dem Spracheinheitenüberlagerungsschritt, ferner equiproportionales (S18) Interpolieren der Teilungsperioden umfasst, die im bestimmten Interpolationsbereich enthalten sind.
  5. Vorrichtung zum Erzeugen von Sprache, bei der Spracheinheiten unter Verwendung einer Datenbasis (DB) verknüpft werden, wobei die Vorrichtung umfasst: eine Bestimmungseinheit (10) für den Verknüpfungsbereich, so angeordnet, dass sie die zu verknüpfenden Spracheinheiten bestimmt, die Spracheinheiten in eine linke Spracheinheit und eine rechte Spracheinheit teilt und die Länge eines Interpolationsbereichs jeder der linken und rechten Spracheinheiten variabel bestimmt; eine Randerweiterungseinheit (20), so angeordnet, dass sie eine Erweiterung an einen rechten Rand der linken Spracheinheit und einer Erweiterung an einen linken Rand der rechten Spracheinheit anhängt; eine Teilungsmarkierungsausrichteinheit (30), so angeordnet, dass sie die Stellen von Teilungsmarkierungen, die jeweils in der Erweiterung der linken und rechten Spracheinheiten enthalten sind, ausrichtet, so dass die Teilungsmarkierungen in den bestimmten Interpolationsbereich passen können; und eine Überlagerungseinheit (50) für Spracheinheiten, so angeordnet, dass sie die linken und rechten Spracheinheiten überlagert; dadurch gekennzeichnet, dass die Randerweiterungseinheit (20) so angeordnet ist, dass sie bestimmt, ob Extrasegmentdaten der linken und/oder rechten Spracheinheiten in der DB vorhanden sind, und den rechten Rand der linken Spracheinheit und den linken Rand der rechten Spracheinheit erweitert, entweder unter Verwendung vorhandener Daten, wenn die Extrasegmentdaten in der DB vorhanden sind oder unter Verwendung einer Extrapolation, wenn keine Extrasegmentdaten in der DB vorhanden sind.
  6. Vorrichtung zum Erzeugen von Sprache nach Anspruch 5, worin die zu verknüpfenden Spracheinheiten stimmhafte Phoneme sind.
  7. Vorrichtung zum Erzeugen von Sprache nach Anspruch 5 oder 6, worin die Überlagerungseinheit (50) für Spracheinheiten so angeordnet ist, dass sie die linken und rechten Spracheinheiten überlagert, nachdem die linke Spracheinheit ausgeblendet wird und die rechte Spracheinheit eingeblendet wird.
  8. Vorrichtung zum Erzeugen von Sprache nach einem der Ansprüche 5 bis 7, ferner umfassend eine Teilungsspurinterpolationseinheit (40), die so angeordnet ist, dass sie eine Teilungswellenform von der Teilungsmarkierungsausrichteinheit empfängt, die Perioden der im Interpolationsbereich enthaltenen Teilungen equiproportional interpoliert und das Ergebnis der equiproportionalen Interpolation an die Spracheinheitenüberlagerungseinheit ausgibt.
DE602004000656T 2003-02-25 2004-02-24 Verfahren und Vorrichtung zum Erzeugen von Sprache aus einem Text Expired - Lifetime DE602004000656T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR2003011786 2003-02-25
KR10-2003-0011786A KR100486734B1 (ko) 2003-02-25 2003-02-25 음성 합성 방법 및 장치

Publications (2)

Publication Number Publication Date
DE602004000656D1 DE602004000656D1 (de) 2006-05-24
DE602004000656T2 true DE602004000656T2 (de) 2007-04-26

Family

ID=36314088

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004000656T Expired - Lifetime DE602004000656T2 (de) 2003-02-25 2004-02-24 Verfahren und Vorrichtung zum Erzeugen von Sprache aus einem Text

Country Status (5)

Country Link
US (1) US7369995B2 (de)
EP (1) EP1453036B1 (de)
JP (1) JP4643914B2 (de)
KR (1) KR100486734B1 (de)
DE (1) DE602004000656T2 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4963345B2 (ja) * 2004-09-16 2012-06-27 株式会社国際電気通信基礎技術研究所 音声合成方法及び音声合成プログラム
FR2884031A1 (fr) * 2005-03-30 2006-10-06 France Telecom Concatenation de signaux
US20070106513A1 (en) * 2005-11-10 2007-05-10 Boillot Marc A Method for facilitating text to speech synthesis using a differential vocoder
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
KR101650739B1 (ko) * 2015-07-21 2016-08-24 주식회사 디오텍 음성 합성 방법, 서버 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램
CN118098236A (zh) * 2024-04-23 2024-05-28 深圳市友杰智新科技有限公司 确定语音识别窗口左右边界的方法、装置、设备及介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
ATE195276T1 (de) * 1992-12-21 2000-08-15 Stackpole Ltd Verfahren zur herstellung von lagern
US5490234A (en) 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
US5642466A (en) * 1993-01-21 1997-06-24 Apple Computer, Inc. Intonation adjustment in text-to-speech systems
US5592585A (en) * 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
JPH11501409A (ja) * 1995-03-07 1999-02-02 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 話し言葉の合成
NZ304418A (en) * 1995-04-12 1998-02-26 British Telecomm Extension and combination of digitised speech waveforms for speech synthesis
JP3397082B2 (ja) * 1997-05-02 2003-04-14 ヤマハ株式会社 楽音発生装置および方法
JP2955247B2 (ja) * 1997-03-14 1999-10-04 日本放送協会 話速変換方法およびその装置
AU753695B2 (en) * 1997-07-31 2002-10-24 British Telecommunications Public Limited Company Generation of voice messages
JP3520781B2 (ja) * 1997-09-30 2004-04-19 ヤマハ株式会社 波形生成装置及び方法
JP3336253B2 (ja) * 1998-04-23 2002-10-21 松下電工株式会社 半導体装置とその製造方法、実装方法および用途
JP4183346B2 (ja) * 1999-09-13 2008-11-19 株式会社神戸製鋼所 粉末冶金用混合粉末ならびに鉄系焼結体およびその製造方法
US6514307B2 (en) * 2000-08-31 2003-02-04 Kawasaki Steel Corporation Iron-based sintered powder metal body, manufacturing method thereof and manufacturing method of iron-based sintered component with high strength and high density
DE60127274T2 (de) 2000-09-15 2007-12-20 Lernout & Hauspie Speech Products N.V. Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
US6978239B2 (en) 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification

Also Published As

Publication number Publication date
JP2004258660A (ja) 2004-09-16
KR100486734B1 (ko) 2005-05-03
US7369995B2 (en) 2008-05-06
US20040167780A1 (en) 2004-08-26
JP4643914B2 (ja) 2011-03-02
DE602004000656D1 (de) 2006-05-24
KR20040076440A (ko) 2004-09-01
EP1453036B1 (de) 2006-04-19
EP1453036A1 (de) 2004-09-01

Similar Documents

Publication Publication Date Title
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE69932786T2 (de) Tonhöhenerkennung
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE2115258C3 (de) Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern
DE3856146T2 (de) Sprachsynthese
DE60126575T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE60216069T2 (de) Sprache-zu-sprache erzeugungssystem und verfahren
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
EP1388147B1 (de) Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals
DE2740520A1 (de) Verfahren und anordnung zur synthese von sprache
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
DE69631037T2 (de) Sprachsynthese
DE602004000656T2 (de) Verfahren und Vorrichtung zum Erzeugen von Sprache aus einem Text
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE19861167A1 (de) Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten
DE69723930T2 (de) Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu
EP1110203B1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
DE60303688T2 (de) Sprachsynthese durch verkettung von sprachsignalformen
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals