DE60004420T2 - Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem - Google Patents

Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem Download PDF

Info

Publication number
DE60004420T2
DE60004420T2 DE60004420T DE60004420T DE60004420T2 DE 60004420 T2 DE60004420 T2 DE 60004420T2 DE 60004420 T DE60004420 T DE 60004420T DE 60004420 T DE60004420 T DE 60004420T DE 60004420 T2 DE60004420 T2 DE 60004420T2
Authority
DE
Germany
Prior art keywords
vowel
time series
model
trajectory area
core trajectory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60004420T
Other languages
English (en)
Other versions
DE60004420D1 (de
Inventor
Nicholas Goleta Kibre
Steve #C Santa Barbara Pearson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE60004420D1 publication Critical patent/DE60004420D1/de
Application granted granted Critical
Publication of DE60004420T2 publication Critical patent/DE60004420T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Description

  • Hintergrund und Zusammenfassung der Erfindung
  • Die vorliegende Erfindung bezieht sich auf konkatenative Sprachsynthesesysteme. Insbesondere bezieht sich die Erfindung auf ein System und Verfahren zur Erkennung geeigneter Randgrenzbereiche für konkatenatierende Spracheinheiten. Das System verwendet eine mit Spracheinheitsmodellen bestückte Spracheinheitsdatenbank.
  • Konkatenative Sprachsynthese existiert heute in einer Reihe verschiedener Formen, die davon abhängen wie die konkatenativen Spracheinheiten gespeichert und verarbeitet werden. Diese Formen schließen Zeitbereichs-Wellenformrepräsentationen, Frequenzbereichsrepräsentationen (wie beispielsweise eine Formantrepräsentation oder eine lineare Prädiktionscodierung bzw. LPC-Repräsentation) oder vielleicht eine Kombination von diesen ein.
  • Ungeachtet der Form von Spracheinheit wird konkatenative Sprachsynthese durch Erkennen geeigneter Grenzbereiche an den Rändern jeder Einheit durchgeführt, wo Einheiten reibungslos überlappt werden können, um neue Klangeinheiten, einschließlich Wörtern und Phrasen, zu synthetisieren. Spracheinheiten in konkatenativen Sprachsynthesesystemen sind typisch Diphone oder Halbsilben. Als solches beziehen sich ihre Grenzüberlappungsbereiche in Richtung der Phonemmitte. Daher könnte, beispielsweise das Wort "tool" aus den Einheiten "tu" und "ul" zusammengesetzt werden, das von den Wörtern "tooth" und "fool" abgeleitet ist. Was bestimmt werden muss ist, wie viele der Quellenwörter in den Spracheinheiten gespeichert werden sollten, und um wie viel sie sich, wenn vereinigt, überlappen sollten.
  • In bisheriger Arbeit über konkatenative Text-zu-Sprache-Systemen (TTS-Systemen), kamen eine Reihe von Verfahren zur Bestimmung von Überlappungsbereichen zum Einsatz. Beim Entwurf solcher Systeme werden drei Faktoren in Betracht gezogen:
    • • Nahtlose Verkettung: Überlappen zu Spracheinheiten sollte zwischen einer Einheit und der Nächsten für einen Übergang sorgen, der glatt genug ist, dass keine abrupte Änderung zu hören ist. Zuhörer sollten keine Ahnung davon haben, dass die Sprache, die sie hören, aus Stücken zusammengesetzt wird.
    • • Verzerrungsfreier Übergang: Überlappen zu Spracheinheiten sollte keinerlei eigene Verzerrung einbringen. Einheiten sollten so vermischt werden, dass das Ergebnis von nicht überlappter Sprache nicht zu unterscheiden ist.
    • • Minimale Systembelastung: Die dem Synthesizer auferlegten rechenbetonten und/oder Speicheranforderungen sollten so klein wie möglich sein.
  • In gegenwärtigen Systemen gibt es einen Trade-off bzw. Kompromiss zwischen diesen drei Zielen. Kein System ist hinsichtlich aller drei optimal. Gegenwärtige Ansätze lassen sich allgemein gemäß zwei Möglichkeiten gruppieren, die sie beim Erwägen dieser Ziele treffen. Die erste ist, ob sie kurze oder lange Überlappungsbereiche verwenden. Eine kurze Überlappung kann so schnell wie ein einziger glottaler Impuls sein, während eine lange Überlappung den Großteil eines ganzen Phonems umfassen kann. Die zweite Möglichkeit involviert, ob die Überlappungsbereiche konsistent sind oder sich kontextuell ändern dürfen. Im ersteren Fall, werden ähnliche Teile jeder Klangeinheit mit den vorausgehenden und nachfolgenden Einheiten, ungeachtet dessen was jene Einheiten sind, überlappt; im letzteren Fall werden die Teile, jedes Mal, wenn die Einheit verwendet wird, in Abhängigkeit von benachbarten Einheiten, variiert.
  • Lange Überlappung hat den Vorteil Übergänge zwischen Einheiten nahtloser zu machen, weil mehr Zeit vorhanden ist subtile Unterschiede zwischen ihnen auszugleichen. Lange Überlappungen neigen jedoch dazu Verzerrung zu schaffen. Verzerrung ist die Folge der Vermischung unähnlicher Signale.
  • Kurze Überlappung hat den Vorteil Verzerrung zu minimieren. Bei kurzer Überlappung fällt es leichter sicherzustellen, dass die Überlappungsteile gut angepasst sind. Kurze Überlappungsbereiche lassen sich in etwa als unmittelbare Zustände (im Gegensatz zu dynamisch variierenden Zuständen) kennzeichnen. Kurze Überlappung opfert jedoch nahtlose Verkettung, die in Systemen mit langer Überlappung vorzufinden ist.
  • Obwohl es wünschenswert wäre, die Nahtlosigkeit von Techniken langer Überlappung und die geringe Verzerrung von Techniken kurzer Überlappung zu haben, konnte dies bisher von keinen Systemen erzielt werden. Einige heutige Systeme haben, beim Versuch Verzerrung zu minimieren, damit experimentiert variable Überlappungsbereiche zu verwenden, während die Vorteile langer Überlappung beibehalten werden. Solche Systeme verlassen sich aber stark auf rechenbetont teure Verarbeitung, was sie für viele Anwendungen unpraktisch macht.
  • Die EP-A-0 805 433 offenbart eine automatische Segmentierung eines Sprachhauptteils für konkatenative Sprachsynthese auf der Basis von Hidden Markov Modellen.
  • Die vorliegende, wie in den Ansprüchen 1 und 8 beanspruchte, Erfindung setzt eine statistische Modelliertechnik ein, um die Kerntrajektoriebereiche innerhalb Klangeinheiten zu identifizieren, und diese Bereiche werden dann dazu verwendet die optimalen Überlappungsgrenzen zu identifizieren. Im gegenwärtig bevorzugten Ausführungsbeispiel werden Zeitreihendaten unter Verwendung von Hidden Markov Modellen statistisch modelliert, die auf dem Phonembereich jeder Klangeinheit konstruiert und dann durch Training oder eingebettete Neuschätzung optimal ausgerichtet werden.
  • Im bevorzugten Ausführungsbeispiel, wird erachtet, dass das Anfangs- und Endphonem jeder Klangeinheit aus drei Elementen besteht: der Kerntrajektorie, einem Übergangselement, das dem Kernbereich vorausgeht und einem Übergangselement, das dem Kernbereich nachfolgt. Der Modellierprozess identifiziert diese drei Elemente optimal, so dass der Kernbereich für alle Fälle des in Frage kommenden Phonems relativ konsistent bleibt.
  • Nach dem der Kerntrajektoriebereich identifiziert worden ist, dienen die Anfangs- und Endgrenzen des Kernbereichs dazu den Überlappungsbereich abzugrenzen, der danach für konkatenative Sprachsynthese verwendet wird.
  • Die gegenwärtig bevorzugte Implementierung verwendet ein statistisches Modell, das eine Datenstruktur für separates Modellieren des Kerntrajektoriebereichs eines Vokals, ein erstes Übergangselement, das dem Kerntrajektoriebereich vorausgeht und ein zweites Übergangselement, das dem Kerntrajektoriebereich nachfolgt, aufweist. Die Datenstruktur kann vielleicht dazu verwendet werden einen Teil der Klangeinheitsdaten zu verwerfen, der jenem Teil der Klangeinheit entspricht, der während des Verkettungsprozesses nicht benutzt werden wird.
  • Die Erfindung hat eine Reihe von Vorteilen und Verwendungen. Sie lässt sich vielleicht als Basis für die automatisierte Konstruktion von Spracheinheitsdatenbanken für konkatenative Sprachsynthesesysteme verwenden. Die automatisierten Techniken verbessern die Qualität abgeleiteter synthetisierter Sprache und sparen eine signifikante Menge Arbeit beim Datenbankerfassungsprozess.
  • Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm, das zum Verständnis der konkatenativen Sprachsynthesetechnik nützlich ist;
  • 2 ist ein Flussdiagramm, das illustriert wie Spracheinheiten gemäß der Erfindung konstruiert werden;
  • 3 ist ein Blockdiagramm, das den konkatenativen Sprachsyntheseprozess mittels der Spracheinheitsdatenbank der Erfindung illustriert.
  • Beschreibung des bevorzugten Ausführungsbeispiels
  • Um die von der vorliegenden Erfindung angewandten Techniken bestens zu würdigen, ist ein grundlegendes Verständnis der konkatenativen Sprachsynthese erforderlich. Die 1 illustriert den konkatenativen Sprachsyntheseprozess durch ein Beispiel, in dem Klangeinheiten (in diesem Fall Silben) aus zwei verschiedenen Wörtern verkettet werden, um ein drittes Wort zu bilden. Insbesondere werden Klangeinheiten aus den Wörtern "suffice" und "tight" kombiniert, um das neue Wort "fight" zu synthetisieren.
  • Bezugnehmend auf die 1 werden den Wörtern "suffice" und "tight" Zeitreihendaten entnommen, vorzugsweise an Silbengrenzen, um die Klangeinheiten 10 und 12 zu definieren. In diesem Fall wird die Klangeinheit 10 wie bei 14 weiter unterteilt, um den für die Verkettung relevanten Teil zu isolieren.
  • Die Klangeinheiten werden dann wie bei 16 ausgerichtet, so dass ein Überlappungsbereich vorhanden ist, der durch jeweilige Teile 18 und 20 definiert ist, wobei die Zeitreihendaten vermischt werden, um das neue Wort wie bei 22 zu synthetisieren.
  • Die vorliegende Erfindung behandelt speziell den Überlappungsbereich 16, und insbesondere die Optimierung der Teile 18 und 20, so dass der Übergang von einer Klangeinheit auf die andere nahtlos und verzerrungsfrei ist.
  • Die Erfindung erzielt diese optimale Überlappung durch eine automatisierte Prozedur, die den Kerntrajektoriebereich innerhalb des Vokals sucht, wo das Sprachsignal einem dynamische Muster folgt, das, nichtsdestoweniger, für verschiedene Beispiele desselben Phonems relativ stabil ist.
  • Die Prozedur für das Entwickeln dieser optimalen Überlappungsbereiche ist in der 2 veranschaulicht. Eine Datenbank von Spracheinheiten 30 ist bereitgestellt. Die Datenbank kann vielleicht Zeitreihendaten enthalten, die verschiedenen Klangeinheiten entsprechen, die das konkatenative Sprachsynthesesystem ausmachen. Im gegenwärtig bevorzugten Ausführungsbeispiel werden Klangeinheiten den Beispielen gesprochener Wörter entnommen, die dann an den Silbengrenzen unterteilt werden. In der 2 sind zwei Spracheinheiten 32 und 34 diagrammatisch dargestellt. Die Klangeinheit 32 wird dem Wort "tight" entnommen und die Klangeinheit 34 wird dem Wort "suffice" entnommen.
  • Die in der Datenbank 30 gespeicherten Zeitreihendaten werden zuerst bei 36 parametrisiert. Im Allgemeinen können die Klangeinheiten mittels jedweder geeigneten Methodik parametrisiert werden. Das gegenwärtig bevorzugte Ausführungsbeispiel parametrisiert durch Formantanalyse des Phonembereichs innerhalb jeder Klangeinheit. Formantanalyse ist mit dem Entnehmen der Sprachformantfrequenzen verbunden (das bevorzugte Ausführungsbeispiel entnimmt die Formantfrequenzen F1, F2 und F3). Falls erwünscht, kann der Signalpegel des quadratischen Mittelswerts (RMS) ebenso parametrisiert werden.
  • Obwohl Formantanalyse momentan bevorzugt wird, können andere Formen der Parametrisierung ebenso eingesetzt werden. Beispielsweise, könnte vielleicht Sprachmerkmalentnahme unter Verwendung einer Prozedur wie Lineare Prädiktionscodierung (LPC) durchgeführt werden, um geeignete Merkmalparameter zu identifizieren und zu entnehmen.
  • Nach dem geeignete Parameter entnommen worden sind, um den Phonembereich jeder Klangeinheit zu repräsentieren, wird ein Modell konstruiert, um den Phonembereich jeder Einheit, wie bei 38 dargestellt, zu repräsentieren. Für diesen Zweck benutzt das gegenwärtig bevorzugte Ausführungsbeispiel Hidden Markov Modelle. Im Allgemeinen kann jedoch jedes geeignete statistische Modell benutzt werden, das zeitvariables oder dynamisches Verhalten repräsentiert. Beispielsweise könnte ein periodisch wiederkehrendes neuronales Netz verwendet werden.
  • Das gegenwärtig bevorzugte Ausführungsbeispiel modelliert den Phonembereich als in drei separate Zwischenbereiche unterteilt. Diese Bereiche sind bei 40 illustriert und schließen den Kerntrajektoriebereich 42, das dem Kernbereich vorausgehenden Übergangselement 44 und das dem Kernbereich nachfolgende Übergangselement 46 ein. Das bevorzugte Ausführungsbeispiel verwendet separate Hidden Markov Modelle für jeden dieser drei Bereiche. Ein Modell mit drei Zuständen kann vielleicht für die vorausgehenden und nachfolgenden Übergangselemente 44 und 46 verwendet werden, während ein Modell mit vier oder fünf Zuständen für den Kerntrajektorie 42 benutzt werden kann (fünf Zustände sind in der 2 illustriert). Verwendung einer größeren Zahl von Zuständen für den Kerntrajektoriebereich hilft sicherzustellen, dass die anschließende Prozedur auf eine konsistente Nichtnull-Kerntrajektorie konvergieren wird.
  • Anfänglich können die Sprachmodelle 40 vielleicht mit durchschnittlichen Anfangwerten bestückt sein. Danach wird eingebettete Neuschätzung an diesen Modellen, wie bei 48 gezeigt, durchgeführt. Neuschätzung konstituiert, eigentlich, den Trainingsprozess durch den die Modelle optimiert werden, um die sich wiederholenden Sequenzen innerhalb der Zeitreihendaten bestens zu repräsentieren. Der Kerntrajektoriebereich 42 und die vorausgehenden und nachfolgenden Übergangselemente sind so konzipiert, dass der Trainingsprozess konsistente Modelle für jeden Phonembereich, auf der Basis der tatsächlich via die Datenbank 30 gelieferten Daten, konstruiert. In dieser Hinsicht repräsentiert der Kernbereich das Herz des Vokals, und die vorausgehenden und nachfolgenden Übergangselemente repräsentieren die Aspekte des Vokals, die dem gegenwärtigen Phonem und den ihm vorausgehenden und nachfolgenden Klängen spezifisch sind. Beispielsweise in der Klangeinheit 32, die dem Wort "tight" entnommen ist, repräsentiert das vorausgehende Übergangselement die Färbung, die dem "ay" Vokalklang durch den vorausgehenden Konsonant "t" gegeben wird.
  • Der Trainingsprozess konvergiert natürlich auf optimal ausgerichtete Modelle. Um zu verstehen wie dem so ist, gilt es zu erkennen, dass die Datenbank von Spracheinheiten 30 mindestens zwei, und vorzugsweise viele, Beispiele jedes Vokalklangs enthält. Beispielsweise wird der sowohl in "tight" als auch "suffice" vorgefundene Vokalklang durch Klangeinheiten 32 und 34 in der 2 repräsentiert. Der eingebettete Neuschätzungsprozess oder Trainingsprozess verwendet diese Pluralfälle vom "ay" Klang, um die anfänglichen Sprachmodelle 40 zu trainieren und dadurch die optimal ausgerichteten Sprachmodelle 50 zu generieren. Der Teil der Zeitreihendaten, der über alle Beispiele des "ay" Klangs konsistent ist, repräsentiert den Kern oder Kerntrajektoriebereich. Wie bei 50 illustriert, trainiert das System die vorausgehenden und nachfolgenden Übergangselemente separat. Natürlich werden diese, abhängig von den Klängen, die dem Vokal vorausgehen und nachfolgen, unterschiedlich sein.
  • Sobald die Modelle trainiert worden sind, die optimal ausgerichteten Modelle zu generieren, werden die Grenzen auf beiden Seiten des Kerntrajektoriebereichs ermittelt, um die Position der Überlappungsgrenzen für konkatenative Sprachsynthese zu bestimmen. Daher werden bei Schritt 52 die optimal ausgerichteten Modelle dazu verwendet die Überlappungsgrenzen zu bestimmen. Die 2 illustriert Überlappungsgrenzen A und B, die den Formantfrequenzdaten für die Klangeinheiten überlagert sind, die aus den Wörtern "suffice" und "tight" abgeleitet wurden.
  • Nach dem die Überlappungsdaten in den Parameterdaten identifiziert worden sind (in diesem Fall in den Formantfrequenzdaten), etikettiert das System dann die Zeitreihendaten bei Schritt 54, um die Überlappungsgrenzen in den Zeitreihendaten abzugrenzen. Fall erwünscht, können die etikettierten Daten zur späteren Verwendung bei der konkatenativen Sprachsynthese in der Datenbank 30 gespeichert werden.
  • Zur Illustration ist der, diagrammatisch als eine Überlappungsschablone 56 illustrierte, Überlappungsgrenzbereich überlagert auf eine diagrammatische Repräsentation der Zeitreihendaten für das Wort "suffice" gezeigt. Insbesondere ist die Schablone 56, wie durch Klammer 58 illustriert, innerhalb der letzteren Silbe "...fice" ausgerichtet. Wenn diese Klangeinheit für konkatenative Sprache verwendet wird, kann der vorausgehende Teil 62 verworfen werden und der Kerntrajektoriebereich 64 (abgegrenzt durch Grenzen A und B) dient als Überblendungs- oder Verkettungsbereich.
  • Bei gewissen Implementierungen muss die Zeitlänge des Überlappungsbereichs vielleicht eingestellt werden, um konkatenative Sprachsynthese durchzuführen. Dieser Prozess ist in der 3 illustriert. Der Eingabetext 70 wird analysiert und geeignete Spracheinheiten werden, wie bei Schritt 72 illustriert, aus der Datenbank 30 ausgewählt. Wenn, beispielsweise, das Wort "fight" als Eingabetext bereitgestellt wird, kann das System vielleicht vorher gespeicherte Spracheinheiten auswählen, die den Wörtern "tight" und "suffice" entnommen wurden.
  • Der Kerntrajektoriebereich der jeweiligen Spracheinheiten kann vielleicht nicht notwendigerweise dieselbe Zeitmenge überspannen. Daher kann bei Schritt 74 die Zeitlänge der jeweiligen Kerntrajektoriebereiche expandiert oder geschrumpft werden, so dass ihre Zeitlängen übereinstimmen. In der 3 ist der Kerntrajektoriebereich 64a auf 64b expandiert. Die Klangeinheit B kann vielleicht ähnlich modifiziert werden. Die 3 illustriert den Kerntrajektoriebereich 64c, der in den Bereich 64d komprimiert wird, so dass die jeweiligen Bereiche der zwei Stücke dieselbe Zeitlänge haben.
  • Sobald die Zeitlängen passend eingestellt worden sind, werden die Daten ab den Spracheinheiten bei Schritt 76 vermischt, um das neu verkettete Wort wie bei 78 zu bilden.
  • Aus dem Vorgenannten wird ersichtlich sein, dass die Erfindung ein automatisiertes Mittel zur Konstruktion von Spracheinheitsdatenbanken für konkatenative Sprachsynthesesysteme bereitstellt. Durch Isolieren der Kerntrajektoriebereiche, bietet das System eine nahtlose, unverzerrte Überlappung. Die Überlappungsbereiche lassen sich, vorteilhaft, auf eine gemeinsame feste Größe expandieren oder schrumpfen, was den Verkettungsprozess vereinfacht. Auf Grund des statistischen Modellierungsprozesses, repräsentiert der Kerntrajektoriebereich einen Teil des Sprachsignals wo die akustischen Spracheigenschaften einem dynamischen Muster folgen, das für verschiedene Beispiele des selben Phonems relativ stabil ist. Diese Stabilität ermöglicht einen nahtlosen, verzerrungsfreien Übergang.
  • Die, nach den Grundsätzen der Erfindung generierten, Spracheinheiten lassen sich zwecks späterer Entnahme und Verkettung, bei minimaler Belastung des Computerverarbeitungssystems, leicht in einer Datenbank speichern. Daher ist das System zum Entwickeln synthetisierter Sprachprodukte und Anwendungen ideal, wo Verarbeitungsleistung begrenzt ist. Außerdem reduziert die automatisierte Prozedur zum Generieren von Klangeinheiten stark die zur Konstruktion spezieller Spracheinheitsdatenbanken erforderliche Zeit und Arbeit, wie sie vielleicht für Spezialvokabulare oder für die Entwicklung mehrsprachiger Sprachsynthesesysteme notwendig ist.

Claims (15)

  1. Verfahren zur Erkennung eines Bereichs überlappender Elemente für konkatenative Sprachsynthese, umfassend: Definieren eines statistischen Modells zum Repräsentieren zeitvariabler Spracheigenschaften; Bereitstellen einer Vielheit von Zeitreihendaten, die verschiedenen, den gleichen Vokal enthaltenden, Klangeinheiten entsprechen, besagter Vokal aus einem Kerntrajektoriebereich, der das Herz des besagten Vokals repräsentiert, wobei umgebende Übergangselemente, welche die Aspekte des besagten Vokals repräsentieren, die auf das aktuelle Phonem zutreffen, und den diesem vorausgehenden und nachfolgenden Klängen besteht; Entnehmen von Sprachsignalparametern aus besagten Zeitreihendaten und Verwenden besagter Parameter um besagtes statistische Modell zu trainieren, gekennzeichnet durch Verwenden des besagten, trainierten, statistischen Modells zur Erkennung einer wiederkehrenden Folge, die über alle Vorkommen besagten Vokals in besagten Zeitreihendaten konsequent ist, und assoziieren besagter wiederkehrenden Folge mit dem Kerntrajektoriebereich des besagten Vokals; Verwenden besagter wiederkehrenden Folge, zum Abgrenzen des Bereichs überlappender Elemente für konkatenative Sprachsynthese.
  2. Verfahren des Anspruchs 1, worin besagtes statistische Modell ein "Hidden-Markov-Modell" ist.
  3. Verfahren des Anspruchs 1, worin besagtes statistische Modell ein wiederkehrendes Neuronennetz ist.
  4. Verfahren des Anspruchs 1, wobei besagte Sprachsignalparameter Sprachformanten einschließen.
  5. Verfahren des Anspruchs 1, worin besagtes statistische Modell eine Datenstruktur für separates Modellieren des Kerntrajektoriebereichs eines Vokals und der besagten Kerntrajektoriebereich umgebenden Übergangselemente aufweist.
  6. Verfahren des Anspruchs 1, worin der Schritt für das Trainieren des besagten Modells durch eingebettete Neuschätzung durchgeführt wird, um ein konvergiertes Modell zur Ausrichtung über den ganzen Datensatz zu generieren, der durch besagte Zeitreihendaten repräsentiert wird.
  7. Verfahren des Anspruchs 1, worin besagtes statistische Modell eine Datenstruktur für separates Modellieren des Kerntrajektoriebereichs eines Vokals, ein erstes Übergangselement, das besagtem Kerntrajektoriebereich vorausgeht und ein zweites Übergangselement, das besagtem Kerntrajektoriebereich folgt, aufweist; und Verwenden besagter Datenstruktur, um einen Teil besagter Daten je Zeitreihe auszurangieren, die einem der besagten ersten und zweiten Übergangselemente entsprechen.
  8. Verfahren zur Durchführung konkatenativer Sprachsynthese, umfassend: Definieren eines statistischen Modells zum Repräsentieren zeitvariabler Spracheigenschaften; Bereitstellen einer Vielheit von Zeitreihendaten, die verschiedenen, den gleichen Vokal enthaltenden, Klangeinheiten entsprechen, besagter Vokal aus einem Kerntrajektoriebereich, der das Herz des besagten Vokals repräsentiert, wobei umgebende Übergangselemente, welche die Aspekte des besagten Vokals repräsentieren, die auf das aktuelle Phonem zutreffen, und den diesem vorausgehenden und nachfolgenden Klängen besteht; Entnehmen von Sprachsignalparametern aus besagten Zeitreihendaten und Verwendung besagter Parameter, um besagtes statistische Modell zu trainieren; gekennzeichnet durch Verwenden des besagten, trainierten, statistischen Modells zur Erkennung einer wiederkehrenden Folge, die über alle Vorkommen besagten Vokals in besagten Zeitreihendaten konsequent ist, und assoziieren besagter wiederkehrenden Folge mit dem Kerntrajektoriebereich des besagten Vokals; Verwenden besagter wiederkehrenden Folge, um einen Bereich überlappender Elemente für jede der besagten Klangeinheiten abzugrenzen; konkatenatives Synthesieren einer neuen Klangeinheit durch Überlappen und Mischen besagter Zeitreihendaten aus zwei der besagten unterschiedlichen Klangeinheiten auf der Basis des betreffenden Bereichs überlappender Einheiten besagter Klangeinheiten.
  9. Verfahren nach Anspruch 8, das weiter selektives Ändern der Zeitdauer von wenigstens einem der besagten Bereiche überlappender Elemente umfasst, um der Zeitdauer eines weiteren der besagten Bereiche überlappender Elemente vor Durchführung des besagten mischenden Schritts zu entsprechen.
  10. Verfahren des Anspruchs 8, worin besagtes statistische Modell ein "Hidden-Markov-Modell" ist.
  11. Verfahren des Anspruchs 8, worin besagtes statistische Modell ein wiederkehrendes Neuronennetz ist.
  12. Verfahren des Anspruchs 8, wobei besagte Sprachsignalparameter Sprachformanten einschließen.
  13. Verfahren des Anspruchs 8, worin besagtes statistische Modell eine Datenstruktur für separates Modellieren des Kerntrajektoriebereichs eines Vokals und der besagten Kerntrajektoriebereich umgebenden Übergangselemente aufweist.
  14. Verfahren des Anspruchs 8, worin der Schritt des Trainierens besagten Modells durch eingebettete Neuschätzung durchgeführt wird, um ein konvergiertes Modell zur Ausrichtung über den ganzen Datensatz zu generieren, der durch besagte Zeitreihendaten repräsentiert wird.
  15. Verfahren des Anspruchs 8, worin besagtes statistische Modell eine Datenstruktur für separates Modellieren des Kerntrajektoriebereichs eines Vokals, ein erstes Übergangselement, das besagtem Kerntrajektoriebereich vorausgeht und ein zweites Übergangselement aufweist, das besagtem Kerntrajektoriebereich folgt; und Verwenden besagter Datenstruktur, um einen Teil besagter Zeitreihendaten auszurangieren, die einem der besagten ersten und zweiten Übergangselemente entsprechen.
DE60004420T 1999-03-09 2000-02-29 Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem Expired - Fee Related DE60004420T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US264981 1999-03-09
US09/264,981 US6202049B1 (en) 1999-03-09 1999-03-09 Identification of unit overlap regions for concatenative speech synthesis system

Publications (2)

Publication Number Publication Date
DE60004420D1 DE60004420D1 (de) 2003-09-18
DE60004420T2 true DE60004420T2 (de) 2004-06-09

Family

ID=23008465

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60004420T Expired - Fee Related DE60004420T2 (de) 1999-03-09 2000-02-29 Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem

Country Status (7)

Country Link
US (1) US6202049B1 (de)
EP (1) EP1035537B1 (de)
JP (1) JP3588302B2 (de)
CN (1) CN1158641C (de)
DE (1) DE60004420T2 (de)
ES (1) ES2204455T3 (de)
TW (1) TW466470B (de)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US7266497B2 (en) 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
EP1860645A3 (de) * 2002-03-29 2008-09-03 AT&T Corp. Automatische Segmentierung bei der Sprachsynthese
JP4510631B2 (ja) * 2002-09-17 2010-07-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声波形の連結を用いる音声合成
US7280967B2 (en) * 2003-07-30 2007-10-09 International Business Machines Corporation Method for detecting misaligned phonetic units for a concatenative text-to-speech voice
US8583439B1 (en) * 2004-01-12 2013-11-12 Verizon Services Corp. Enhanced interface for use with speech recognition
US20070219799A1 (en) * 2005-12-30 2007-09-20 Inci Ozkaragoz Text to speech synthesis system using syllables as concatenative units
US9053753B2 (en) * 2006-11-09 2015-06-09 Broadcom Corporation Method and system for a flexible multiplexer and mixer
CN101178896B (zh) * 2007-12-06 2012-03-28 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
KR101214402B1 (ko) * 2008-05-30 2012-12-21 노키아 코포레이션 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
US8473431B1 (en) 2010-05-14 2013-06-25 Google Inc. Predictive analytic modeling platform
US8438122B1 (en) 2010-05-14 2013-05-07 Google Inc. Predictive analytic modeling platform
JP5699496B2 (ja) * 2010-09-06 2015-04-08 ヤマハ株式会社 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム
US8533222B2 (en) * 2011-01-26 2013-09-10 Google Inc. Updateable predictive analytical modeling
US8595154B2 (en) 2011-01-26 2013-11-26 Google Inc. Dynamic predictive modeling platform
US8533224B2 (en) 2011-05-04 2013-09-10 Google Inc. Assessing accuracy of trained predictive models
US8489632B1 (en) * 2011-06-28 2013-07-16 Google Inc. Predictive model training management
JP5888013B2 (ja) 2012-01-25 2016-03-16 富士通株式会社 ニューラルネットワーク設計方法、プログラム及びデジタルアナログフィッティング方法
JP6524674B2 (ja) * 2015-01-22 2019-06-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
KR102284238B1 (ko) * 2015-05-28 2021-07-30 미쓰비시덴키 가부시키가이샤 입력 표시 장치, 입력 표시 방법, 및 프로그램
CN106611604B (zh) * 2015-10-23 2020-04-14 中国科学院声学研究所 一种基于深度神经网络的自动语音叠音检测方法
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
CN111081231B (zh) 2016-03-23 2023-09-05 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
EP3436989A4 (de) * 2016-03-31 2019-11-20 Maluuba Inc. Verfahren und system zur verarbeitung einer eingabeabfrage
EP3794512A1 (de) 2018-05-14 2021-03-24 Quantum-Si Incorporated Systeme und verfahren zur vereinheitlichung statistischer modelle für verschiedene datenmodalitäten
MX2020012899A (es) * 2018-05-30 2021-02-26 Quantum Si Inc Metodos y aparato para la prediccion multimodal utilizando un modelo estadistico entrenado.

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
US5751907A (en) 1995-08-16 1998-05-12 Lucent Technologies Inc. Speech synthesizer having an acoustic element database
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis

Also Published As

Publication number Publication date
CN1266257A (zh) 2000-09-13
EP1035537A2 (de) 2000-09-13
JP3588302B2 (ja) 2004-11-10
US6202049B1 (en) 2001-03-13
ES2204455T3 (es) 2004-05-01
CN1158641C (zh) 2004-07-21
JP2000310997A (ja) 2000-11-07
EP1035537B1 (de) 2003-08-13
TW466470B (en) 2001-12-01
DE60004420D1 (de) 2003-09-18
EP1035537A3 (de) 2002-04-17

Similar Documents

Publication Publication Date Title
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE69925932T2 (de) Sprachsynthese durch verkettung von sprachwellenformen
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE69818930T2 (de) Verfahren zur Ausrichtung von Text an Audiosignalen
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE2918533C2 (de)
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
EP1184839A2 (de) Graphem-Phonem-Konvertierung
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
DE69917960T2 (de) Phonembasierte Sprachsynthese
DE69631037T2 (de) Sprachsynthese
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee