DE69908518T2 - Verfahren und Vorrichtung zur Sprachsynthese - Google Patents

Verfahren und Vorrichtung zur Sprachsynthese Download PDF

Info

Publication number
DE69908518T2
DE69908518T2 DE69908518T DE69908518T DE69908518T2 DE 69908518 T2 DE69908518 T2 DE 69908518T2 DE 69908518 T DE69908518 T DE 69908518T DE 69908518 T DE69908518 T DE 69908518T DE 69908518 T2 DE69908518 T2 DE 69908518T2
Authority
DE
Germany
Prior art keywords
phoneme
sub
amplitude
voiced
magnification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69908518T
Other languages
English (en)
Other versions
DE69908518D1 (de
Inventor
Masayuki Ohta-ku Yamada
Yasuhiro Ohta-ku Komori
Mitsuru Ohta-ku Ohtsuka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of DE69908518D1 publication Critical patent/DE69908518D1/de
Application granted granted Critical
Publication of DE69908518T2 publication Critical patent/DE69908518T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die Erfindung bezieht sich auf ein Sprachsyntheseverfahren und eine Sprachsynthesevorrichtung und insbesondere auf ein Sprachsyntheseverfahren und eine Sprachsynthesevorrichtung zur Steuerung der Energie von synthetisierter Sprache.
  • Ein bekanntes Sprachsyntheseverfahren, das zum Erhalten von gewünschter synthetisierter Sprache verfügbar ist, umfaßt ein Aufteilen einer voraufgezeichneten Phonemeinheit in eine Vielzahl von Unterphonemeinheiten und ein Unterziehen der als Ergebnis erhaltenen Unterphonemeinheiten einer Verarbeitung wie beispielsweise einer Intervallmodifikation, einer Wiederholung und einer Ausdünnung, um dadurch einen zusammengesetzten Ton mit einer gewünschten Dauer und Grundfrequenz zu erhalten.
  • 5A bis 5D zeigen graphische Darstellungen, die ein Verfahren zur Aufteilung eines Sprachsignalverlaufs in Unterphonemeinheiten schematisch veranschaulichen. Ein in 5A gezeigter Sprachsignalverlauf wird unter Verwendung einer Extraktionsfensterfunktion der in 5B gezeigten Art in Unterphonemeinheiten der in 5C veranschaulichten Art aufgeteilt. Dabei wird eine mit dem Tonhöhenintervall von ursprünglicher Sprache synchronisierte Extraktionsfensterfunktion auf den Abschnitt des Signalverlaufs angewendet, der stimmhaft ist (die letztere Hälfte des Sprachsignalverlaufs), und eine Extraktionsfensterfunktion mit einem passenden Intervall wird auf den Abschnitt des Signalverlaufs angewendet, der stimmlos ist.
  • Die Dauer von synthetisierter Sprache kann verkürzt werden, indem ausgedünnt wird und daraufhin diese durch die Fensterfunktion erhaltenen Unterphonemeinheiten verwendet werden. Die Dauer von synthetisierter Sprache kann demgegenüber verlängert werden, indem diese Unterphonemeinheiten wiederholt verwendet werden.
  • Durch eine Verkleinerung des Intervalls der Unterphonemeinheiten in dem stimmhaften Abschnitt ist es möglich, die Grundfrequenz von synthetisierter Sprache zu erhöhen. Eine Erweiterung des Intervalls der Unterphonemeinheiten ermöglicht es demgegenüber, die Grundfrequenz von synthetisierter Sprache zu senken.
  • Gewünschte synthetisierte Sprache der in 5D angegebenen Art wird erhalten, indem die Unterphonemeinheiten nach der vorstehend beschriebenen Wiederholung, Ausdünnung und Intervallmodifikation wieder überlagert werden.
  • Eine Steuerung der Energie von synthetisierter Sprache wird in der nachstehenden Art und Weise ausgeführt: in einem Fall, in dem eine als ein Ziel dienende Phonemdurchschnittsenergie p0 gegeben ist, wird eine Durchschnittsenergie p von durch die vorstehend beschriebene Prozedur erhaltener synthetisierter Sprache bestimmt, und durch die vorstehend beschriebene Prozedur erhaltene synthetisierte Sprache wird mit
    Figure 00020001
    multipliziert, um dadurch synthetisierte Sprache mit der gewünschten Durchschnittsenergie zu erhalten. Es ist zu beachten, daß die Energie als das Quadrat der Amplitude oder als ein durch eine Integration des Quadrats der Amplitude über ein geeignetes Intervall erhaltener Wert definiert ist. Die Lautstärke eines zusammengesetzten Tons ist groß, falls die Energie groß ist, und klein, falls die Energie klein ist.
  • 6A bis 6E zeigen graphische Darstellungen, die bei der Beschreibung einer üblichen Steuerung der Energie von synthetisierter Sprache verwendbar sind. Der Sprachsignalverlauf, die Extraktionsfensterfunktion, die Unterphonemeinheiten und der synthetisierte Signalverlauf davon in 6A bis 6D entsprechen jeweils denjenigen gemäß 5A bis 5D. 6E veranschaulicht energiegesteuerte synthetisierte Sprache, die durch eine Multiplikation des synthetisierten Signalverlaufs gemäß 6D mit
    Figure 00030001
    erhalten wird.
  • Mit dem vorstehend beschriebenen Verfahren zur Energiesteuerung werden jedoch stimmlose Abschnitte und stimmhafte Abschnitte gemäß der gleichen Vergrößerung vergrößert, und folglich sind Fälle vorhanden, in denen die stimmlosen Abschnitte anormale rauschartige Töne entwickeln. Dies führt zu einer Abnahme der Qualität von synthetisierter Sprache.
  • Die WO-A-97/26648 beschreibt ein Sprachsynthesesystem, in dem synthetisierte Sprache aus gespeicherten Phonemproben erzeugt wird und in dem eine CPU oder ein analoger Verstärker eine Amplitudensteuerung bei jeder zur Synthese der Sprache verwendeten Phonemprobe ausführt.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Entsprechend besteht ein Ziel der vorliegenden Erfindung darin, ein Sprachsyntheseverfahren und eine Sprachsynthesevorrichtung zur Realisierung einer Energiesteuerung, bei der eine Abnahme der Qualität von synthetisierter Sprache verringert ist, bereitzustellen.
  • Gemäß einer Ausgestaltung der vorliegenden Erfindung wird das vorhergehende Ziel erreicht, indem ein Verfahren zur Synthese von Sprache bereitgestellt wird, mit: einem Vergrößerungserfassungsschritt zum Erhalten einer auf Unterphonemeinheiten eines stimmhaften Abschnitts anzuwendenden ersten Vergrößerung und einer auf Unterphonemeinheiten eines stimmlosen Abschnitts anzuwendenden zweiten Vergrößerung auf der Grundlage einer Zielenergie von synthetisierter Sprache; einem Extraktionsschritt zum Extrahieren von Unterphonemeinheiten aus einem zu synthetisierenden Phonem; einem Amplitudenänderungsschritt zum Ändern einer Amplitude einer Unterphonemeinheit eines stimmhaften Abschnitts unter den in dem Extraktionsschritt extrahierten Unterphonemeinheiten auf der Grundlage der ersten Vergrößerung und Ändern einer Amplitude einer Unterphonemeinheit eines stimmlosen Abschnitts unter den in dem Extraktionsschritt extrahierten Unterphonemeinheiten auf der Grundlage der zweiten Vergrößerung; und einem Syntheseschritt zum Erhalten von synthetisierter Sprache unter Verwendung der in dem Amplitudenänderungsschritt verarbeiteten Unterphonemeinheiten.
  • Gemäß einer anderen Ausgestaltung der vorliegenden Erfindung wird das vorhergehende Ziel erreicht, indem eine Vorrichtung zur Synthese von Sprache bereitgestellt wird, mit: einer Vergrößerungserfassungseinrichtung zum Erhalten einer auf eine Unterphonemeinheit eines stimmhaften Abschnitts anzuwendenden ersten Vergrößerung und einer auf eine Unterphonemeinheit eines stimmlosen Abschnitts anzuwendenden zweiten Vergrößerung auf der Grundlage einer Zielenergie von synthetisierter Sprache; einer Extraktionseinrichtung zum Extrahieren von Unterphonemeinheiten aus einem zu synthetisierenden Phonem; einer Amplitudenänderungseinrichtung zum Multiplizieren einer Unterphonemeinheit eines stimmhaften Abschnitts unter den durch die Extraktionseinrichtung extrahierten Unterphonemeinheiten mit einer ersten Amplitudenänderungsvergrößerung und Multiplizieren einer Unterphonemeinheit eines stimmlosen Abschnitts unter den durch die Extraktionseinrichtung extrahierten Unterphonemeinheiten mit einer zweiten Amplitudenänderungsvergrößerung; und einer Syntheseeinrichtung zum Erhalten von synthetisierter Sprache unter Verwendung der durch die Amplitudenänderungseinrichtung verarbeiteten Unterphonemeinheiten.
  • Die vorliegende Erfindung stellt auch einen Speicherträger gemäß dem Patentanspruch 15 und von einer Verarbeitungseinrichtung ausführbare Anweisungen gemäß dem Patentanspruch 22 bereit.
  • Andere Merkmale und Vorteile der vorliegenden Erfindung sind aus der nachstehenden Beschreibung in Verbindung mit den beigefügten Zeichnungen, in denen gleiche Bezugszeichen überall in den Figuren davon die gleichen oder ähnliche Teile bezeichnen, ersichtlich.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Die beigefügten Zeichnungen, die eng mit der Patentschrift verbunden sind und einen Teil von ihr bilden, veranschaulichen Ausführungsbeispiele der Erfindung und dienen zusammen mit der Beschreibung zur Erläuterung der Prinzipien der Erfindung.
  • 1 zeigt ein Blockschaltbild, das einen Hardwareaufbau gemäß einem Ausführungsbeispiel der vorliegenden Erfindung veranschaulicht;
  • 2 zeigt ein Flußdiagramm, das eine Sprachsyntheseverarbeitung gemäß diesem Ausführungsbeispiel veranschaulicht;
  • 3 zeigt ein Flußdiagramm, das die Einzelheiten der Verarbeitung (Schritt S4) zur Berechnung von Amplitudenänderungsvergrößerungen veranschaulicht;
  • 4A bis 4D zeigen graphische Darstellungen, die bei der Beschreibung eines Überblicks der Energiesteuerung bei der Sprachsyntheseverarbeitung gemäß diesem Ausführungsbeispiel verwendbar sind;
  • 5A bis 5D zeigen graphische Darstellungen, die ein Verfahren zur Aufteilung eines Sprachsignalverlaufs in Unterphonemeinheiten schematisch veranschaulichen;
  • 6A bis 6E zeigen graphische Darstellungen, die bei der Beschreibung einer üblichen Steuerung der Energie von synthetisierter Sprache verwendbar sind; und
  • 7 zeigt ein Flußdiagramm, das eine andere Sequenz der Berechnungsverarbeitung einer Amplitudenänderungsvergrößerung darstellt.
  • BESCHREIBUNG DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
  • 1 zeigt ein Blockschaltbild, das einen Hardwareaufbau gemäß einem Ausführungsbeispiel der Erfindung veranschaulicht.
  • Wie es in 1 gezeigt ist, umfaßt die Hardware eine Zentraleinheit H1 zur Ausführung einer Verarbeitung wie beispielsweise numerischer Berechnungen und einer Steuerung gemäß nachstehend beschriebenen Flußdiagrammen, eine Speichervorrichtung H2 wie beispielsweise ein RAM und ROM zur Speicherung eines Steuerprogramms und von für die später beschriebene Prozedur und Verarbeitung notwendigen temporären Daten und eine externe Speichereinheit H3 mit einer Festplatte oder dergleichen. Die externe Speichereinheit H3 speichert ein Phonemlexikon, in dem als die Grundlage von synthetisierter Sprache dienende Phonemeinheiten eingetragen worden sind.
  • Die Hardware umfaßt ferner eine Ausgabeeinheit H4 wie beispielsweise einen Lautsprecher zur Ausgabe von synthetisierter Sprache. Es ist jedoch zu beachten, daß es möglich ist, dieses Ausführungsbeispiel als Teil einer anderen Vorrichtung oder als Teil eines Programms zu integrieren, wobei in diesem Fall die Ausgabe mit der Eingabe der anderen Vorrichtung oder des Programms verbunden wäre. Es ist auch eine Eingabeeinheit H5 wie beispielsweise eine Tastatur zur Eingabe von Text, der das Ziel der Sprachsynthese ist, sowie von Befehlen zur Steuerung von synthetisiertem Ton bereitgestellt. Es ist jedoch zu beachten, daß es möglich ist, die Erfindung als Teil einer anderen Vorrichtung oder als Teil eines Programms zu integrieren, wobei in diesem Fall die Eingabe indirekt über die andere Vorrichtung oder das Programm ausgeführt werden würde. Beispiele für die andere Vorrichtung umfassen ein Fahrzeugnavigationssystem, einen Anrufbeantworter und andere elektrische Haushaltsgeräte. Ein Beispiel für eine andere Eingabe als von einer Tastatur sind über zum Beispiel eine Kommunikationsleitung verteilte Textinformationen. Ein Beispiel für eine andere Ausgabe als von einem Lautsprecher ist die Ausgabe zu einer Telefonleitung, die Aufzeichnung auf eine Aufzeichnungsvorrichtung wie beispielsweise eine Minidisc und so weiter. Ein Bus H6 verbindet diese Komponenten miteinander.
  • Nachstehend ist eine Sprachsyntheseverarbeitung gemäß diesem Ausführungsbeispiel der Erfindung auf der Grundlage des vorstehend dargelegten Hardwareaufbaus beschrieben. Ein Überblick der Verarbeitung gemäß diesem Ausführungsbeispiel ist unter Bezugnahme auf 4A bis 4D beschrieben, bevor die Einzelheiten der Verarbeitungsprozedur beschrieben sind.
  • 4A bis 4D zeigen graphische Darstellungen, die bei der Beschreibung eines Überblicks der Energiesteuerung bei der Sprachsyntheseverarbeitung gemäß diesem Ausführungsbeispiel verwendbar sind. Gemäß dem Ausführungsbeispiel werden eine Amplitudenvergrößerung s des Unterphonemsignalverlaufs eines stimmlosen Abschnitts und eine Amplitudenvergrößerung r des Unterphonemsignalverlaufs eines stimmhaften Abschnitts bestimmt, die Amplitude jeder Unterphonemeinheit wird geändert, und daraufhin werden eine Unterphonemeinheitswiederholung, eine Ausdünnung und eine Intervallmodifikationsverarbeitung ausgeführt. Die Unterphonemeinheiten werden wieder überlagert, um dadurch synthetisierte Sprache mit der gewünschten Energie zu erhalten, wie es in 4D gezeigt ist.
  • 2 zeigt ein Flußdiagramm, das die Verarbeitung gemäß der Erfindung veranschaulicht. Die Erfindung ist nachstehend gemäß diesem Flußdiagramm beschrieben.
  • In einem Schritt S1 werden Parameter bezüglich des Ziels der Syntheseverarbeitung eingestellt. Bei diesem Ausführungsbeispiel werden ein Phonem (Name), eine Durchschnittsenergie p0 des Phonems von Interesse, eine Dauer d und eine Zeitreihe f(t) der Grundfrequenz als die Parameter eingestellt. Diese Werte können direkt über die Eingabeeinheit H5 eingegeben oder durch ein anderes Modul unter Verwendung der Ergebnisse einer Sprachanalyse oder der Ergebnisse einer auf eingegebenen Text angewendeten statistischen Verarbeitung berechnet werden.
  • Als nächstes wird in einem Schritt S2 eine Phonemeinheit A, auf deren Grundlage ein zu synthetisierendes Phonem basiert, aus einem Phonemlexikon ausgewählt. Das grundlegendste Kriterium für die Auswahl der Phonemeinheit A ist der vorstehend angeführte Phonemname. Andere Auswahlkriterien, die verwendet werden können, umfassen die Leichtigkeit der Verbindung mit Phonemeinheiten (wobei es sich um die Namen der Phonemeinheiten handeln kann) auf beiden Seiten und die "Nähe" zu der Dauer, Grundfrequenz und Energie, die bei der Synthese die Ziele sind. In einem Schritt S3 wird die Durchschnittsenergie p der Phonemeinheit A berechnet. Die Durchschnittsenergie wird als der Zeitdurchschnitt des Quadrats der Amplitude berechnet. Es ist zu beachten, daß die Durchschnittsenergie einer Phonemeinheit im voraus berechnet und auf einer Platte oder dergleichen gespeichert werden kann. Daraufhin kann dann, wenn ein Phonem zu synthetisieren ist, die Durchschnittsenergie von der Platte ausgelesen werden, statt sie zu berechnen. Dem folgt in einem Schritt S4 die Berechnung der auf einen stimmhaften Ton angewendeten Vergrößerung r und der auf einen stimmlosen Ton angewendeten Vergrößerung s zum Zwecke der Änderung der Amplitude der Phonemeinheit. Die Einzelheiten der Verarbeitung des Schritts S4 zur Berechnung der Amplitudenänderungsvergrößerungen sind später unter Bezugnahme auf 3 beschrieben.
  • In einem Schritt S5 wird ein Schleifenzähler i auf 0 initialisiert.
  • Als nächstes wird in einem Schritt S6 eine i-te Unterphonemeinheit α(i) aus den die Phonemeinheit A bildenden Unterphonemeinheiten ausgewählt. Die Unterphonemeinheit α(i) wird erhalten, indem die Phonemeinheit, die von der in 4A gezeigten Art ist, mit der in 4B veranschaulichten Fensterfunktion multipliziert wird.
  • Als nächstes wird es in einem Schritt S7 bestimmt, ob die in dem Schritt S6 ausgewählte Unterphonemeinheit α(i) eine stimmhafte oder stimmlose Unterphonemeinheit ist. Die Verarbeitung verzweigt sich abhängig von der ausgebildeten Bestimmung. Die Steuerung geht zu 58 über, falls α(i) stimmhaft ist, und zu einem Schritt S9, falls α(i) stimmlos ist.
  • In dem Schritt S8 wird die Amplitude einer stimmhaften Unterphonemeinheit geändert. Speziell wird die Amplitude der Unterphonemeinheit α(i) mit r multipliziert, was die in dem Schritt S4 gefundene Amplitudenänderungsvergrößerung ist, wonach die Steuerung zu einem Schritt S10 übergeht. Demgegenüber wird in dem Schritt S9 die Amplitude einer stimmlosen Unterphonemeinheit geändert. Speziell wird die Amplitude der Unterphonemeinheit α(i) mit s multipliziert, was die in dem Schritt S4 gefundene Amplitudenänderungsvergrößerung ist, wonach die Steuerung zu dem Schritt S10 übergeht.
  • In dem Schritt S10 wird der Wert des Schleifenzählers i erhöht. Als nächstes wird es in einem Schritt S11 bestimmt, ob der Zählwert in dem Schleifenzähler i gleich der Anzahl von in der Phonemeinheit A enthaltenen Unterphonemeinheiten ist. Die Steuerung geht zu einem Schritt S12 über, falls die zwei gleich sind, und zu dem Schritt S6, falls die zwei nicht gleich sind.
  • In dem Schritt S12 wird ein zusammengesetzter Ton erzeugt, indem die Unterphonemeinheit, die in der beschriebenen Art und Weise mit r oder s multipliziert worden ist, einer Signalverlaufsformungs- und Signalverlaufsverbindungsverarbeitung gemäß der in dem Schritt S1 eingestellten Grundfrequenz f(t) und Dauer d unterzogen wird.
  • Nachstehend sind die Einzelheiten der Verarbeitung des Schritts S4 zur Berechnung der Amplitudenänderungsvergrößerungen beschrieben. 3 zeigt ein Flußdiagramm, das die Einzelheiten dieser Verarbeitung darstellt.
  • In einem Schritt S13 wird eine anfängliche Einstellung der Amplitudenänderungsvergrößerung ausgeführt. Bei diesem Ausführungsbeispiel werden die Amplitudenänderungsvergrößerungen auf
    Figure 00120001
    eingestellt. Als nächstes wird es in einem Schritt S14 bestimmt, ob die auf einen stimmhaften Ton anzuwendende Amplitudenänderungsvergrößerung r größer als ein zulässiger oberer Grenzwert rmax ist. Falls das Ergebnis der Bestimmung darin besteht, daß r > rmax gilt, geht die Steuerung zu einem Schritt S15 über, wo der Wert von r bei dem oberen Grenzwert der auf stimmhaften Ton angewendeten Amplitudenänderungsvergrößerung abgeschnitten wird. Das heißt, in dem Schritt S15 wird die auf stimmhaften Ton angewendete Amplitudenänderungsvergrößerung r auf den oberen Grenzwert rmax eingestellt. Die Steuerung geht daraufhin zu einem Schritt S18 über. Falls es in dem Schritt S14 gefunden wird, daß r > rmax nicht gilt, geht die Steuerung demgegenüber zu einem Schritt S16 über. Hier wird es bestimmt, ob die auf einen stimmhaften Ton anzuwendende Amplitudenänderungsvergrößerung r kleiner als ein zulässiger unterer Grenzwert rmin ist. Falls r < rmin gilt, geht die Steuerung zu einem Schritt S17 über. Wenn r < rmin nicht gilt, dann geht die Steuerung zu einem Schritt S18 über. In dem Schritt S17 wird der Wert von r bei dem unteren Grenzwert der auf stimmhaften Ton angewendeten Amplitudenänderungsvergrößerung abgeschnitten. Das heißt, die auf stimmhaften Ton angewendete Amplitudenänderungsvergrößerung r wird auf den unteren Grenzwert rmin eingestellt. Die Steuerung geht daraufhin zu dem Schritt S18 über.
  • In dem Schritt S18 wird es bestimmt, ob die auf einen stimmlosen Ton anzuwendende Amplitudenänderungsvergrößerung s größer als ein zulässiger oberer Grenzwert smax ist. Die Steuerung geht zu einem Schritt S19 über, falls s > smax gilt, und zu einem Schritt 520, falls s > smax nicht gilt. In dem Schritt S19 wird der Wert von s bei dem oberen Grenzwert der auf stimmlosen Ton angewendeten Amplitudenänderungsvergrößerung abgeschnitten. Das heißt, die auf stimmlosen Ton angewendete Amplitudenänderungsvergrößerung s wird auf den oberen Grenzwert smax eingestellt. Die Berechnung dieser Amplitudenänderungsvergrößerung wird daraufhin beendet. Demgegenüber wird es in dem Schritt S20 bestimmt, ob die auf einen stimmlosen Ton anzuwendende Amplitudenänderungsvergrößerung s kleiner als ein zulässiger unterer Grenzwert smin ist. Falls s < smin gilt, geht die Steuerung zu einem Schritt S21 über. Wenn s < smin nicht gilt, dann wird die Berechnung dieser Amplitudenänderungsvergrößerung beendet. In dem Schritt S21 wird der Wert von s bei dem unteren Grenzwert der auf stimmlosen Ton angewendeten Amplitudenänderungsvergrößerung abgeschnitten. Das heißt, die auf stimmlosen Ton angewendete Amplitudenänderungsvergrößerung s wird auf den unteren Grenzwert smin eingestellt. Die Berechnung dieser Amplitudenänderungsvergrößerungen wird daraufhin beendet.
  • Gemäß diesem Ausführungsbeispiel der Erfindung wie vorstehend beschrieben werden dann, wenn sich nach einer eingestellten Energie richtende synthetisierte Sprache zu erhalten ist, die Amplituden von Unterphonemeinheiten durch an jeweilige stimmhafte und stimmlose Töne angepaßte Amplitudenänderungsvergrößerungen geändert. Dies ermöglicht es, synthetisierte Sprache von guter Qualität zu erhalten. Da die Amplitudenänderungsvergrößerung von stimmloser Sprache bei einer vorbestimmten Größe abgeschnitten wird, wird insbesondere anormaler rauschartiger Ton in stimmlosen Abschnitten verringert.
  • Es sind Fälle vorhanden, in denen der Energiezielwert in einer Sprachsynthesevorrichtung selbst eine durch ein Verfahren oder anders gefundene Schätzung ist. Um in derartigen Fällen mit einem einem Schätzfehler zuzuschreibenden anormalen Wert fertig zu werden, wird bei der Verarbeitung gemäß 3 das Abschneiden bei den oberen und unteren Grenzwerten ausgeführt, um eine Verwendung von Vergrößerungen, die nicht vernünftig sind, zu vermeiden. Ferner sind Fälle vorhanden, in denen die stimmhafte und stimmlose Töne betreffenden Bestimmungen nicht mit Sicherheit ausgebildet werden können und die zwei nicht klar voneinander unterschieden werden können. In derartigen Fällen wird zum Zwecke des Fertigwerdens mit stimmhafte und stimmlose Töne betreffenden Beurteilungsfehlern ein oberer Grenzwert bezüglich stimmhaften Tons bereitgestellt.
  • Bei dem vorstehend beschriebenen Ausführungsbeispiel wird ein Zielwert p der Energie pro Phonem eingestellt. Es ist jedoch ebenfalls möglich, ein Phonem in eine Anzahl N von Intervallen aufzuteilen und einen Zielwert pk (1 < k < N) der Energie in jedem Intervall einzustellen. In einem derartigen Fall würde die vorstehend beschriebene Verarbeitung auf jedes Intervall der Anzahl N von Intervallen angewendet werden. Das heißt, es würde genügen, die vorstehend beschriebene Verarbeitung gemäß 2 und 3 durch eine Behandlung des Sprachsignalverlaufs in jedem Intervall als ein unabhängiges Phonem anzuwenden.
  • Ferner veranschaulicht das vorstehende Ausführungsbeispiel ein Verfahren zur Multiplikation der Phonemeinheit A mit einer Fensterfunktion als das Verfahren zum Erhalten der Unterphonemeinheit α(i). Unterphonemeinheiten können jedoch durch eine kompliziertere Signalverarbeitung erhalten werden. Zum Beispiel kann die Phonemeinheit A einer Cepstrum-Analyse in einem geeigneten Intervall unterzogen werden, und ein Impulsantwortsignalverlauf in dem erhaltenen Filter kann verwendet werden.
  • Obwohl bei dem in 3 gezeigten Flußdiagramm die auf die stimmhafte Unterphonemeinheit anzuwendende Amplitudenänderungsvergrößerung r und die auf die stimmlose Unterphonemeinheit anzuwendende Amplitudenänderungsvergrößerung s auf den gleichen Wert eingestellt (Schritt S13) und daraufhin bei der nachfolgenden Abschneideverarbeitung geändert werden, ist es zu beachten, daß das Verfahren zur Bestimmung der Werte der Amplitudenänderungsvergrößerungen r und s nicht darauf beschränkt ist. Die Amplitudenänderungsvergrößerungen r und s können vor der Ausführung des Abschneidens auf verschiedene Werte eingestellt werden. 7 zeigt ein Flußdiagramm, das ein Beispiel für derartige Verarbeitungsschritte darstellt. Es ist zu beachten, daß in 7 im Hinblick auf die gleichen Verarbeitungsschritte wie diejenigen in 3 die gleichen Bezugszeichen zugewiesen sind und eine ausführliche Beschreibung davon dabei weggelassen ist.
  • In 7 ist ein Schritt S22 nach dem Schritt S13 hinzugefügt. In dem Schritt S22 wird die auf einen stimmlosen Ton anzuwendende Amplitudenänderungsvergrößerung r mit ρ(0 < ρ < 1) multipliziert, um die Energie des stimmlosen Abschnitts zu unterdrücken. Dabei kann ρ ein konstanter Wert oder ein durch eine Bedingung wie beispielsweise einen Namen einer Phonemeinheit bestimmter Wert sein. Dadurch können die Amplitudenänderungsvergrößerungen r und s ohne Rücksicht auf die Abschneideverarbeitung auf verschiedene Werte eingestellt werden. Ferner kann durch eine Einstellung eines Werts ρ in Verbindung mit jedem Phonem die Amplitudenänderungsvergrößerung s geeigneter eingestellt werden.
  • Die Erfindung kann auf ein durch eine Vielzahl von Vorrichtungen (zum Beispiel einen Hostcomputer, eine Schnittstelle, eine Leseeinrichtung, einen Drucker und so weiter) gebildetes System oder auf ein eine einzelne Vorrichtung (zum Beispiel einen Kopierer oder ein Faxgerät und so weiter) umfassendes Gerät angewendet werden.
  • Ferner ist es selbstverständlich, daß die Erfindung auch auf einen Fall anwendbar ist, in dem das Ziel der Erfindung erreicht wird, indem einem System oder einem Gerät ein Speicherträger oder ein Trägersignal, der oder das die Programmcodes der Software zur Ausführung der Funktionen des vorhergehenden Ausführungsbeispiels speichert oder trägt, zugeführt wird, die Programmcodes mit einem Computer (zum Beispiel einer CPU oder MPU) des Systems oder Geräts von dem Speicherträger gelesen werden und daraufhin die Programmcodes ausgeführt werden.
  • In diesem Fall realisieren die von dem Speicherträger gelesenen Programmcodes die neuen Funktionen der Erfindung, und der die Programmcodes speichernde Speicherträger bildet die Erfindung.
  • Ferner kann der Speicherträger wie beispielsweise eine Diskette, eine Festplatte, eine optische Platte, eine magnetooptische Platte, eine CD-ROM, eine CD-R, ein Magnetband, eine Speicherkarte des nichtflüchtigen Typs oder ein ROM zur Bereitstellung der Programmcodes verwendet werden.
  • Ferner ist es neben dem Fall, in dem die oben erwähnten Funktionen gemäß dem Ausführungsbeispiel durch eine Ausführung der durch einen Computer gelesenen Programmcodes realisiert werden, selbstverständlich, daß die Erfindung einen Fall abdeckt, in dem ein auf dem Computer laufendes Betriebssystem oder dergleichen einen Teil des Prozesses oder den ganzen Prozeß gemäß der Bezeichnung von Programmcodes ausführt und die Funktionen gemäß den Ausführungsbeispielen realisiert.
  • Es ist selbstverständlich, daß die Erfindung ferner einen Fall abdeckt, in dem nach einem Schreiben der von dem Speicherträger gelesenen Programmcodes in eine in den Computer eingesetzte Funktionserweiterungskarte oder in einen in einer mit dem Computer verbundenen Funktionserweiterungseinheit bereitgestellten Speicher eine in der Funktionserweiterungskarte oder Funktionserweiterungseinheit enthaltene CPU oder dergleichen einen Teil des Prozesses oder den ganzen Prozeß gemäß der Bezeichnung von Programmcodes ausführt und die Funktion des vorstehenden Ausführungsbeispiels realisiert.
  • Somit werden gemäß der Erfindung wie vorstehend beschrieben Amplitudenänderungsvergrößerungen, die sich für stimmhafte und stimmlose Töne unterscheiden, zur Ausführung einer Multiplikation verwendet, wenn die Energie von synthetisierter Sprache gesteuert wird. Dies ermöglicht eine Sprachsynthese, bei der rauschartige anormale Töne in stimmlosem Ton erzeugt werden.
  • Da viele offensichtlich sehr verschiedene Ausführungsbeispiele der Erfindung ausgebildet werden können, ohne von ihrem Schutzbereich abzuweichen, ist es selbstverständlich, daß die Erfindung nicht auf die vorstehend beschriebenen speziellen Ausführungsbeispiele beschränkt ist, sondern daß der Schutzbereich der Erfindung lediglich durch die beigefügten Patentansprüche beschränkt ist.

Claims (22)

  1. Verfahren zur Synthese von Sprache, gekennzeichnet durch: einen Vergrößerungserfassungsschritt (S4) zum Erhalten einer auf Unterphonemeinheiten eines stimmhaften Abschnitts anzuwendenden ersten Vergrößerung und einer auf Unterphonemeinheiten eines stimmlosen Abschnitts anzuwendenden zweiten Vergrößerung auf der Grundlage einer Zielenergie von synthetisierter Sprache; einen Extraktionsschritt (S6) zum Extrahieren von Unterphonemeinheiten aus einem zu synthetisierenden Phonem; einem Amplitudenänderungsschritt (S8, S9) zum Ändern einer Amplitude einer Unterphonemeinheit eines stimmhaften Abschnitts unter den in dem Extraktionsschritt (S6) extrahierten Unterphonemeinheiten auf der Grundlage der ersten Vergrößerung und Ändern einer Amplitude einer Unterphonemeinheit eines stimmlosen Abschnitts unter den in dem Extraktionsschritt (S6) extrahierten Unterphonemeinheiten auf der Grundlage der zweiten Vergrößerung; und einem Syntheseschritt (S12) zum Erhalten von synthetisierter Sprache unter Verwendung der in dem Amplitudenänderungsschritt (S8, S9) verarbeiteten Unterphonemeinheiten.
  2. Verfahren nach Anspruch 1, ferner gekennzeichnet durch einen Durchschnittsenergieerfassungsschritt (S3) zum Erhalten einer Durchschnittsenergie einer zu synthetisierenden Phonemeinheit; wobei der Vergrößerungserfassungsschritt (S4) die erste und zweite Vergrößerung auf der Grundlage der Zielenergie und der in dem Durchschnittsenergieerfassungsschritt (S3) erhaltenen Durchschnittsenergie erhält.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Vergrößerungserfassungsschritt (S4) die erste und zweite Vergrößerung durch ein Bestimmen einer Amplitudenvergrößerung des stimmhaften Abschnitts der Phonemeinheit und einer Amplitudenvergrößerung des stimmlosen Abschnitts der Phonemeinheit auf der Grundlage der Zielenergie und Durchschnittsenergie und ein Abschneiden der Amplitudenvergrößerungen der jeweiligen stimmhaften und stimmlosen Abschnitte bei für jeweilige Abschnitte der stimmhaften und stimmlosen Abschnitte eingestellten oberen Grenzwerten erhält.
  4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Vergrößerungserfassungsschritt (S4) die erste und zweite Vergrößerung durch ein Bestimmen einer Amplitudenvergrößerung des stimmhaften Abschnitts der Phonemeinheit und einer Amplitudenvergrößerung des stimmlosen Abschnitts der Phonemeinheit auf der Grundlage der Zielenergie und Durchschnittsenergie und ein Abschneiden der Amplitudenvergrößerungen der jeweiligen stimmhaften und stimmlosen Abschnitte bei für jeweilige Abschnitte der stimmhaften und stimmlosen Abschnitte eingestellten unteren Grenzwerten erhält.
  5. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß der Syntheseschritt (S12) ein Anwenden einer Unterphonemeinheitsausdünnung, einer Wiederholung und/oder einer Modifikation eines Verbindungsintervalls, wenn unter Verwendung von in dem Amplitudenänderungsschritt erzeugten Unterphonemeinheiten Sprache erzeugt wird, umfaßt.
  6. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, daß der Extraktionsschritt (S6) durch ein Anwenden einer Fensterfunktion auf eine zu synthetisierende Phonemeinheit eine Unterphonemeinheit extrahiert.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Fensterfunktion derart beschaffen ist, daß ein Extraktionsintervall bei einem stimmhaften Abschnitt sich von demjenigen bei einem stimmlosen Abschnitt unterscheidet.
  8. Vorrichtung zur Synthese von Sprache, gekennzeichnet durch: eine Vergrößerungserfassungseinrichtung zum Erhalten einer auf eine Unterphonemeinheit eines stimmhaften Abschnitts anzuwendenden ersten Vergrößerung und einer auf eine Unterphonemeinheit eines stimmlosen Abschnitts anzuwendenden zweiten Vergrößerung auf der Grundlage einer Zielenergie von synthetisierter Sprache; eine Extraktionseinrichtung zum Extrahieren von Unterphonemeinheiten aus einem zu synthetisierenden Phonem; eine Amplitudenänderungseinrichtung zum Multiplizieren einer Unterphonemeinheit eines stimmhaften Abschnitts unter den durch die Extraktionseinrichtung extrahierten Unterphonemeinheiten mit einer ersten Amplitudenänderungsvergrößerung und Multiplizieren einer Unterphonemeinheit eines stimmlosen Abschnitts unter den durch die Extraktionseinrichtung extrahierten Unterphonemeinheiten mit einer zweiten Amplitudenänderungsvergrößerung; und eine Syntheseeinrichtung zum Erhalten von synthetisierter Sprache unter Verwendung der durch die Amplitudenänderungseinrichtung verarbeiteten Unterphonemeinheiten.
  9. Vorrichtung nach Anspruch 8, ferner gekennzeichnet durch eine Durchschnittsenergieerfassungseinrichtung zum Erhalten einer Durchschnittsenergie einer zu synthetisierenden Phonemeinheit; wobei die Vergrößerungserfassungseinrichtung die erste und zweite Vergrößerung auf der Grundlage der Zielenergie und der durch die Durchschnittsenergieerfassungseinrichtung erhaltenen Durchschnittsenergie erhält.
  10. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet, daß die Vergrößerungserfassungseinrichtung die erste und zweite Vergrößerung durch ein Bestimmen einer Amplitudenvergrößerung des stimmhaften Abschnitts der Phonemeinheit und einer Amplitudenvergrößerung des stimmlosen Abschnitts der Phonemeinheit auf der Grundlage der Zielenergie und Durchschnittsenergie und ein Abschneiden der Amplitudenvergrößerungen der jeweiligen stimmhaften und stimmlosen Abschnitte bei für jeweilige Abschnitte der stimmhaften und stimmlosen Abschnitte eingestellten oberen Grenzwerten erhält.
  11. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet, daß die Vergrößerungserfassungseinrichtung die erste und zweite Vergrößerung durch ein Bestimmen einer Amplitudenvergrößerung des stimmhaften Abschnitts der Phonemeinheit und einer Amplitudenvergrößerung des stimmlosen Abschnitts der Phonemeinheit auf der Grundlage der Zielenergie und Durchschnittsenergie und ein Abschneiden der Amplitudenvergrößerungen der jeweiligen stimmhaften und stimmlosen Abschnitte bei für jeweilige Abschnitte der stimmhaften und stimmlosen Abschnitte eingestellten unteren Grenzwerten erhält.
  12. Vorrichtung nach einem der Ansprüche 8 bis 11, dadurch gekennzeichnet, daß die Syntheseeinrichtung eine Unterphonemeinheitsausdünnung, eine Wiederholung und/oder eine Modifikation eines Verbindungsintervalls anwendet, wenn unter Verwendung von durch die Amplitudenänderungseinrichtung erzeugten Unterphonemeinheiten Sprache erzeugt wird.
  13. Vorrichtung nach einem der Ansprüche 8 bis 12, dadurch gekennzeichnet, daß die Extraktionseinrichtung durch ein Anwenden einer Fensterfunktion auf eine zu synthetisierende Phonemeinheit eine Unterphonemeinheit extrahiert.
  14. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, daß die Fensterfunktion derart beschaffen ist, daß ein Extraktionsintervall bei einem stimmhaften Abschnitt sich von demjenigen bei einem stimmlosen Abschnitt unterscheidet.
  15. Speicherträger, der ein Steuerprogramm zur Veranlassung eines Computers zum Ausführen einer Sprachsyntheseverarbeitung speichert, wobei das Steuerprogramm aufweist: Code eines Vergrößerungserfassungsschritts zum Erhalten einer auf Unterphonemeinheiten eines stimmhaften Abschnitts anzuwendenden ersten Vergrößerung und einer auf Unterphonemeinheiten eines stimmlosen Abschnitts anzuwendenden zweiten Vergrößerung auf der Grundlage einer Zielenergie von synthetisierter Sprache; Code eines Extraktionsschritts zum Extrahieren von Unterphonemeinheiten aus einem zu synthetisierenden Phonem; Code eines Amplitudenänderungsschritts zum Ändern einer Amplitude einer Unterphonemeinheit eines stimmhaften Abschnitts unter den in dem Extraktionsschritt extrahierten Unterphonemeinheiten auf der Grundlage der ersten Vergrößerung und Ändern einer Amplitude einer Unterphonemeinheit eines stimmlosen Abschnitts unter den in dem Extraktionsschritt extrahierten Unterphonemeinheiten auf der Grundlage der zweiten Vergrößerung; und Code eines Syntheseschritts zum Erhalten von synthetisierter Sprache unter Verwendung der in dem Amplitudenänderungsschritt verarbeiteten Unterphonemeinheiten.
  16. Speicherträger nach Anspruch 15, dadurch gekennzeichnet, daß das Programm ferner Code eines Durchschnittsenergieerfassungsschritts zum Erhalten einer Durchschnittsenergie einer zu synthetisierenden Phonemeinheit aufweist; wobei der Vergrößerungserfassungsschritt die erste und zweite Vergrößerung auf der Grundlage der Zielenergie und der in dem Durchschnittsenergieerfassungsschritt erhaltenen Durchschnittsenergie erhält.
  17. Speicherträger nach Anspruch 16, dadurch gekennzeichnet, daß der Vergrößerungserfassungsschritt die erste und zweite Vergrößerung durch ein Bestimmen einer Amplitudenvergrößerung des stimmhaften Abschnitts der Phonemeinheit und einer Amplitudenvergrößerung des stimmlosen Abschnitts der Phonemeinheit auf der Grundlage der Zielenergie und Durchschnittsenergie und ein Abschneiden der Amplitudenvergrößerungen der jeweiligen stimmhaften und stimmlosen Abschnitte bei für jeweilige Abschnitte der stimmhaften und stimmlosen Abschnitte eingestellten oberen Grenzwerten erhält.
  18. Speicherträger nach Anspruch 16, dadurch gekennzeichnet, daß der Vergrößerungserfassungsschritt die erste und zweite Vergrößerung durch ein Bestimmen einer Amplitudenvergrößerung des stimmhaften Abschnitts der Phonemeinheit und einer Amplitudenvergrößerung des stimmlosen Abschnitts der Phonemeinheit auf der Grundlage der Zielenergie und Durchschnittsenergie und ein Abschneiden der Amplitudenvergrößerungen der jeweiligen stimmhaften und stimmlosen Abschnitte bei für jeweilige Abschnitte der stimmhaften und stimmlosen Abschnitte eingestellten unteren Grenzwerten erhält.
  19. Speicherträger nach einem der Ansprüche 15 bis 18, dadurch gekennzeichnet, daß der Syntheseschritt ein Anwenden einer Unterphonemeinheitsausdünnung, einer Wiederholung und/oder einer Modifikation eines Verbindungsintervalls, wenn unter Verwendung von in dem Amplitudenänderungsschritt erzeugten Unterphonemeinheiten Sprache erzeugt wird, umfaßt.
  20. Speicherträger nach einem der Ansprüche 15 bis 19, dadurch gekennzeichnet, daß der Extraktionsschritt durch ein Anwenden einer Fensterfunktion auf eine zu synthetisierende Phonemeinheit eine Unterphonemeinheit extrahiert.
  21. Speicherträger nach Anspruch 20, dadurch gekennzeichnet, daß die Fensterfunktion derart beschaffen ist, daß ein Extraktionsintervall bei einem stimmhaften Abschnitt sich von demjenigen bei einem stimmlosen Abschnitt unterscheidet.
  22. Von einer Verarbeitungseinrichtung ausführbare Anweisungen zur Steuerung einer Verarbeitungseinrichtung zum Ausführen aller Schritte des Verfahrens nach einem der Ansprüche 1 bis 7.
DE69908518T 1998-08-31 1999-08-31 Verfahren und Vorrichtung zur Sprachsynthese Expired - Lifetime DE69908518T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP24595098A JP3912913B2 (ja) 1998-08-31 1998-08-31 音声合成方法及び装置
JP24595098 1998-08-31

Publications (2)

Publication Number Publication Date
DE69908518D1 DE69908518D1 (de) 2003-07-10
DE69908518T2 true DE69908518T2 (de) 2004-05-06

Family

ID=17141275

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69908518T Expired - Lifetime DE69908518T2 (de) 1998-08-31 1999-08-31 Verfahren und Vorrichtung zur Sprachsynthese

Country Status (4)

Country Link
US (2) US6993484B1 (de)
EP (1) EP0984425B1 (de)
JP (1) JP3912913B2 (de)
DE (1) DE69908518T2 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3912913B2 (ja) * 1998-08-31 2007-05-09 キヤノン株式会社 音声合成方法及び装置
US7369994B1 (en) * 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US7546241B2 (en) 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus
US20050096898A1 (en) * 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
WO2009023807A1 (en) * 2007-08-15 2009-02-19 Massachusetts Institute Of Technology Speech processing apparatus and method employing feedback
US20110029326A1 (en) * 2009-07-28 2011-02-03 General Electric Company, A New York Corporation Interactive healthcare media devices and systems
US20110029325A1 (en) * 2009-07-28 2011-02-03 General Electric Company, A New York Corporation Methods and apparatus to enhance healthcare information analyses
KR20170051856A (ko) * 2015-11-02 2017-05-12 주식회사 아이티매직 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4071695A (en) * 1976-08-12 1978-01-31 Bell Telephone Laboratories, Incorporated Speech signal amplitude equalizer
US4128737A (en) 1976-08-16 1978-12-05 Federal Screw Works Voice synthesizer
JPS5853352B2 (ja) * 1979-10-03 1983-11-29 日本電信電話株式会社 音声合成器
US4433210A (en) * 1980-06-04 1984-02-21 Federal Screw Works Integrated circuit phoneme-based speech synthesizer
EP0054365B1 (de) * 1980-12-09 1984-09-12 Secretary of State for Industry in Her Britannic Majesty's Gov. of the United Kingdom of Great Britain and Northern Ireland Spracherkennungssystem
US5091952A (en) * 1988-11-10 1992-02-25 Wisconsin Alumni Research Foundation Feedback suppression in digital signal processing hearing aids
JPH05158129A (ja) 1991-10-09 1993-06-25 Canon Inc カメラ
JPH0650890A (ja) 1992-03-16 1994-02-25 Agency Of Ind Science & Technol 官能基推定方法
US5327520A (en) 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
JPH06222314A (ja) 1993-01-26 1994-08-12 Furukawa Electric Co Ltd:The 光外部変調器
JP3089940B2 (ja) 1993-03-24 2000-09-18 松下電器産業株式会社 音声合成装置
JPH0839981A (ja) 1994-07-28 1996-02-13 Pentel Kk 合成樹脂製ペン先
JP3289511B2 (ja) 1994-09-19 2002-06-10 株式会社明電舎 音声合成用音源データ作成方法
JPH08232388A (ja) 1995-02-23 1996-09-10 Yuichiro Tsukuda 転倒防止用伸縮天井
EP0813733B1 (de) * 1995-03-07 2003-12-10 BRITISH TELECOMMUNICATIONS public limited company Sprachsysnthese
DE69615832T2 (de) * 1995-04-12 2002-04-25 British Telecommunications P.L.C., London Sprachsynthese mit wellenformen
JPH08329845A (ja) 1995-06-02 1996-12-13 Oki Electric Ind Co Ltd ガス放電パネル
JP3257661B2 (ja) 1995-06-19 2002-02-18 太平洋セメント株式会社
GB9600774D0 (en) 1996-01-15 1996-03-20 British Telecomm Waveform synthesis
US5774836A (en) * 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
SE509919C2 (sv) * 1996-07-03 1999-03-22 Telia Ab Metod och anordning för syntetisering av tonlösa konsonanter
JP3342310B2 (ja) 1996-09-02 2002-11-05 シャープ株式会社 音声復号化装置
JP3349905B2 (ja) 1996-12-10 2002-11-25 松下電器産業株式会社 音声合成方法および装置
JP3954681B2 (ja) 1997-02-20 2007-08-08 リコー光学株式会社 液晶プロジェクター用の液晶デバイス及び液晶デバイス用の対向基板
JP3953582B2 (ja) 1997-05-29 2007-08-08 大日本印刷株式会社 易開口包装袋及びその製造方法
JP3902860B2 (ja) * 1998-03-09 2007-04-11 キヤノン株式会社 音声合成制御装置及びその制御方法、コンピュータ可読メモリ
JP3912913B2 (ja) * 1998-08-31 2007-05-09 キヤノン株式会社 音声合成方法及び装置
JP3728173B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法、装置および記憶媒体
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置

Also Published As

Publication number Publication date
EP0984425A2 (de) 2000-03-08
EP0984425B1 (de) 2003-06-04
JP2000075879A (ja) 2000-03-14
US7162417B2 (en) 2007-01-09
EP0984425A3 (de) 2001-03-21
DE69908518D1 (de) 2003-07-10
US20050251392A1 (en) 2005-11-10
US6993484B1 (en) 2006-01-31
JP3912913B2 (ja) 2007-05-09

Similar Documents

Publication Publication Date Title
DE2659096C2 (de)
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69615832T2 (de) Sprachsynthese mit wellenformen
DE69718284T2 (de) Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz
DE3819178C2 (de)
DE69009545T2 (de) Verfahren zur Sprachanalyse und -synthese.
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69725670T2 (de) Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme
DE3306730C2 (de)
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2825082A1 (de) Verfahren zur spracherkennung
DE4031638C2 (de)
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE69917960T2 (de) Phonembasierte Sprachsynthese
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE2622423A1 (de) Vocodersystem
DE69908518T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
DE3019823C2 (de)
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition