DE02765393T1

DE02765393T1 - Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit

Info

Publication number: DE02765393T1
Application number: DE02765393T
Authority: DE
Inventors: Yasushi Sato
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2001-08-31
Filing date: 2002-08-30
Publication date: 2005-01-13
Also published as: EP1793370A3; US7630883B2; US20070174056A1; EP1422690A1; EP1422690A4; EP1422690B1; CN1324556C; DE07003891T1; US7647226B2; US20040030546A1; WO2003019527A1; EP1793370A2; EP1793370B1; DE60234195D1; CN1473322A; DE60232560D1

Abstract

Signalerzeugende Vorrichtung, umfassend:
Mittel zur Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; und
Mittel jeweils zum Erweitern oder Verdichten des Tonhöhen-Wellenelements auf einer Zeitachse, das jeweils mit den erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch das jeweilige Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.

Claims

Signalerzeugende Vorrichtung, umfassend: Mittel zur Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; und Mittel jeweils zum Erweitern oder Verdichten des Tonhöhen-Wellenelements auf einer Zeitachse, das jeweils mit den erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch das jeweilige Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
Signalerzeugende Vorrichtung, umfassend: Mittel zum Erkennen einer durchschnittlichen Tonhöhenperiode in einem bestimmten Zeitabstabd eines Sprachwellensignals; einen variablen Filter zum Filtern der Sprachwellensignale, wobei Frequenzmerkmale des Filters dazu veranlasst werden, in ihrer Resonanz zur erkannten durchschnittlichen Tonhöhenperiode zu variieren; Mittel zur Einzelerkennung momentaner Tonhöhenperioden in dem Sprachwellensignal basierend auf der Ausgabe des variablen Filters; Mittel zum Extrahieren eines entsprechenden Tonhöhen-Wellenelements, das jeweils mit den erkannten Tonhöhenperioden basierend of der jeweils erkannten Tonhöhenzeit übereinstimmt; und Mittel zum Erweitern oder Verdichten des extrahierten Tonhöhen-Wellenelement auf einer Zeitachse, um das extrahierte Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
Signalerzeugende Vorrichtung nach Anspruch 1 oder 2, wobei die vorgegebene, festgelegte Zeitdauer der durchschnittlichen Tonhöhenperiode in einem bestimmten Zeitabstand des Sprachwellensignals gleichwertig ist.
Tonhöhen-Wellensignal erzeugende Vorrichtung, umfassend: einen variablen Filter, in dem die Frequenzmerkmale gemäß der Kontrolle zum Filtern eines Sprachsignals, das eine Sprachwelle darstellt, variiert sind, wodurch eine Grundfrequenzkomponente eines Sprachlautes extrahiert wird; eine Filtermerkmal feststellende Einheit, die die Grundfrequenz des Sprachlautes basierend auf der durch den variablen Filter extrahierten Grundfrequenzkomponente identifiziert, und den variablen Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; Tonhöhen extrahierende Mittel zur Teilung des Sprachsignals in Abschnitte, die jeweils durch ein Spachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Tonsignals gleichwertig ist; und eine Sprachsignal-Verarbeitungseinheit, die das Sprachsignals durch ein im wesentlichen Identischmachen der Phase des Sprachsignals im jeweiligen Abschnitt zu einem Tonhöhen-Wellenelement verarbeitet.
Tonhöhen-Wellensignal erzeugende Vorrichtung nach Anspruch 5, wobei die Filtermerkmal festlegende Eineinheit eine Tonhöhenlängen festlegende Einheit umfasst, die im Wesentlichen die Zeitdauer des Tonhöhen-Wellensignals im jeweiligen Abschnitt durch Abtasten des Tonhöhen-Wellensignals im jeweiligen Abschnitt mit im Wesentlichen der selben Anzahl an Proben identisch macht.
Tonhöhen-Wellensignal erzeugende Vorrichtung nach Anspruch 5, wobei die Filtermerkmal festlegende Einheit folgendes umfasst: eine die durchschnittliche Tonhöhe erkennende Einheit, die die Tonhöhenlänge eines durch ein Sprachsignal dargestellten Sprachlautes vor dem Filtern basierend auf dem Sprachsignal erkennt; und eine Feststellungseinheit, die feststellt, ob ein Unterschied um einem vorgegebenen Betrag, oder größer, zwischen der durch die Gegenerkennungseinheit identifizierten Periode und der durch die durchschnittliche Tonhöhe erkennende Einheit identifizierte Tonhöhenlänge besteht, und den variablen Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die Gegenerkennungseinheit identifizierten Grundfrequenz existierenden abgeschnitten werden, falls festgestellt wird, dass ein solcher Unterschied nicht besteht, und den variable Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die durchschnittliche Tonhöhen erkennende Einheit identifizierten Grundfrequenz, die aus der Tonhöhenlänge identifiziert wird, abgeschnitten werden, falls ein solcher Unterschied besteht.
Tonhöhen-Wellensignal erzeugende Vorrichtung nach Anspruch 6, wobei die durchschnittliche Tonhöhe erkennende Einheit folgendes umfasst: eine Cepstralanalyseeinheit zum Feststellen einer Frequenz, bei der das Cepstrum eines Sprachsignals vor dem Filtern einen Höchstwert hat; eine Analyseeinheit zur selbstständigen Harmonisierung, die eine Frequenz feststellt, bei der das Periodogramm der selbstständigen Harmonisierungsfunktion eines Sprachsignals vor dem Filtern einen Höchstwert hat; und eine den Durchschnitt ausrechnende Einheit, die den Durchschnitt der Tonhöhen des durch das Sprachsignal dargestellten Sprachlauts basierend auf den durch die Cepstralanalyseeinheit und durch die Analyseeinheit zur selbständigen Harmonisierung festgestellten Frequenzen feststellt, und die den festgestellten Durchschnitt als die Tonhöhenlänge eines Sprachlauts identifiziert.
Tonhöhen-Wellensignal erzeugendes Verfahren, die folgenden Schritte umfassend: die Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; und das jeweilige Erweitern oder Verdichten der Tonhöhen-Wellenelemente auf einer Zeitachse, das mit der jeweils erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden bei behalten wird, um dadurch jedes Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
Tonhöhen-Wellensignal erzeugendes Verfahren, wobei das Verfahren die folgenden Schritte umfasst: Erkennen von durchschnittlichen Tonhöhenperioden in einem bestimmten Zeitabstand eines Sprachwellensignals; Filtern der Sprachwellensignale, wobei Frequenzmerkmale des Filters dazu veranlasst werden, in ihrer Resonanz zur erkannten, durchschnittlichen Tonhöhenzeit zu variieren; Einzelerkennung momentaner Tonhöhenperioden in dem Sprachwellensignal basierend auf der Ausgabe des variablen Filters; Extrahieren eines entsprechenden Tonhöhen-Wellenelements, das jeweils mit den erkannten Tonhöhenperioden basierend of der jeweils erkannten Tonhöhenzeit übereinstimmt; und
Erweitern oder Verdichten des extrahierten Tonhöhen-Wellenelements auf einer Zeitachse; un das extrahierte Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen.
Tonhöhen-Wellensignal erzeugendes Verfahren, dadurch gekennzeichnet, dass eine Grundfrequenzkomponente eines Sprachlauts durch Filtern eines eine Welle des Sprachlauts darstellenden Sprachsignal unter Anwendung eines variablen Filters mit gemäß der Kontrolle variierten Frequenzmerkmalen extrahiert wird; eine Grundfrequenz des Sprachlauts basierend auf der durch den variablen Filter extrahierten Grundfrequenzkomponente identifiziert wird, und dass der variable Filter so kontrolliert wird, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; das Sprachsignal in Abschnitte geteilt wird, die jeweils durch ein Sprachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Tonsignals gleichwertig ist; und das Sprachsignal durch ein im Wesentlichen Identischmachen der Phase des Sprachsignals im jeweiligen Abschnitt zu einem Tonhöhen-Wellensignal verarbeitet wird.
Sprachsignal verdichtende Vorrichtung, umfassend: Mittel zur Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; Mittel jeweils zum Erweitern oder Verdichten des Tonhöhen-Wellenelements auf einer Zeitachse, das mit jeder der erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch das jeweilige Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen; und Kodierungsmittel zur Einzelkodierung eines Wertes der jeweils erkannten momentanen Tonhöhenperioden, und ein das normalisierte Tonhöhen-Wellenelement darstellende Signal mit der vorgegebenen, festgelegten Zeitdauer, die durch die Umsetzung erhalten worden ist.
Sprachsignal verdichtende Vorrichtung nach Anspruch 11, wobei die Kodierungsmittel so funktionieren, dass das normalisierte Tonhöhen-Wellenelement darstellende Signal mit der vorgegebenen, festgelegten Zeitdauer statistisch kodiert wird.
Sprachsignal verdichtende Vorrichtung, umfassend: Sprachsignal verarbeitende Mittel zum Erhalt von Sprachsignalen, die die Welle eines ersten zu verdichtenden Sprachlauts darstellen, und die Zeitdauer der jeweils einer Einheitstonhöhe des Sprachsignals gleichwertigen Abschnitte im Wesentlichen identisch macht, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; Unterband extrahierende Mittel zum Extrahieren einer Grundfrequenzkomponente und einer harmonischen Wellenkomponente eines ersten Sprachlauts vom Tonhöhen-Wellensignal; Wiedergewinnungsmittel zum Identifizieren von Unterbandinformationen mit der höchsten Harmonisierung mit einer mit der Zeit auftretenden Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente, die durch die Unterband extrahierenden Mittel extrahiert worden sind, von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und in der harmonischen Wellenkomponente eines zweiten Sprachlauts zum Erzeugen eines Unterschieds aufzeigen; differenzierende Mittel zum Erzeugen eines Differenzialsignals, das einen Unterschied zwischen der Welle des ersten Sprachlauts und der Welle des durch die Unterbandinformationen darstellenden zweiten Sprachlauts basierend auf dem Sprachsignal und der durch die Wiedergewinnungsmittel identifizierten Unterbandinformationen darstellt; und Ausgabemittel zur Ausgabe eines Kennungscodes zum Identifizieren der durch die Wiedergewinnungsmittel und dem Differenzialsignal identifizierten Unterbandinformationen.
Sprachsignal verdichtende Vorrichtung nach Anspruch 13, wobei den Sprecher identifizierende Daten, die Sprachlautmerkmale eines Sprechers des zweiten durch die Unterbandinformationen darstellenden Sprachlauts aufweisen, in Übereinstimmung mit den Unterbandinformationen gebracht werden; und die Wiedergewinnungsmittel Merkmal identifizierende Mittel zur Identifizierung von Merkmalen eines Sprechers des ersten Sprachlauts basierend auf dem Sprachsignal umfassen, die Merkmal identifizierenden Mittel Unterbandinformationen mit der höchsten Harmonisierung, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und in der harmonischen Wellenkomponente haben, die durch die Unterband extrahierenden Mittel von nur Unterbandinformationen, die in Übereinstimmung mit den Sprecher identifizierende Daten extrahiert worden sind, die die durch die Merkmal identifizierenden Mittel identifizierten Merkmale aufweisen.
Sprachsignal verdichtende Vorrichtung nach Anspruch 14, wobei die Sprachsignal verarbeitenden Mittel folgendes umfassen: einen variablen Filter mit gemäß der Kontrolle variierten Frequenzmerkmalen zum Filtern des Sprachsignals, wodurch eine Grundfrequenzkomponente des Sprachlauts extrahiert wird; eine Filtermerkmal feststellende Einheit, die die Grundfrequenz des Sprachlauts basierend auf der durch den variablen Filter extrahierten Frequenzkomponente identifiziert, und den variablen Filter so kontrol-liert, dass Frequenzmerkmale erhalten werden, so dass andere Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; Tonhöhen extrahierende Mittel zur Teilung des Sprachsignals in Abschnitte, die jeweils durch ein Sprachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Sprachsignals gleichwertig ist; und eine Tonhöhenlänge festlegende Einheit, die ein Tonhöhen-Wellensignal mit einer Zeitdauer im jeweiligen Abschnitt, die im Wesentlichen identisch ist durch Abtasten des Sprachsignals im jeweiligen Abschnitt des Sprachsignals mit im Wesentlichen der gleichen Anzahl an Proben erzeugt.
Sprachsignal erweiternde Vorrichtung, umfassend: Eingabemittel zum Erhalt eines Kennungscodes zum Bestimmen von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente auf einem ersten Tonhöhen-Wellensignal aufweisen, ERZEUGT durch das im Wesentlichen Identischmachen der Zeitdauer der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle eines ersten Sprachlauts darstellenden Sprachsignals, einem den Unterschied zwischen der Welle eines zweiten wiederherzustellenden Sprachlauts und der Welle eines ersten Sprachlauts darstellenden Differenzialsignals, und den Tonhöhendaten, die die Zeitlänge eines der Einheitstonhöhe des Sprachlauts gleichwertigen Abschnitts aufzeigen, gleichwertig ist; Tonhöhen-Wellensignal wiederherstellende Mittel zum Erhalt von Unterbandinformationen, die durch den von den Eingabemitteln erhaltenen Kennungscode der Unterbandinformationen identifiziert sind, und zum Wiederherstellen des ersten Tonhöhen-Wellensignals basierend auf den erhaltenen Unterbandinformationen; Zusatzmittel zum Erzeugen eines zweiten Tonhöhen-Wellensignals, das die Summe der Welle des ersten durch die Tonhöhen-Wellensignal wiederherstellenden Mittel wiederhergestellte Tonhöhen-Wellensignal und der durch das Differenzialsignal dargestellten Welle darstellt; und Sprachsignal wiederherstellende Mittel zum Erzeugen eines Sprachsignals, das den zweiten Sprachlaut basierend auf den Tonhöhendaten und den zweiten Tonhöhen-Wellendaten darstellt.
Sprachsignal verdichtendes Verfahren, die folgenden Schritte umfassend: die Einzelerkennung von momentanen Tonhöhenperioden in einem Sprachwellensignal; das jeweilige Erweitern oder Verdichten der Tonhöhen-Wellenelemente auf einer Zeitachse, das mit jeder der erkannten momentanen Tonhöhenperioden übereinstimmt, wobei sein Wellenformmuster auf der Basis der jeweils erkannten momentanen Tonhöhenperioden beibehalten wird, um dadurch jedes Tonhöhen-Wellenelement in ein normalisiertes Tonhöhen-Wellenelement von einer vorgegebenen, festgelegten Zeitdauer umzusetzen; und die Einzelkodierung eines Wertes der jeweils momentan erkannten Tonhöhenperiode und eines Signals, das das normalisierte Tonhöhen-Wellenelement mit der vorgegebenen, festgelegten Zeitdauer, die durch die Umsetzung erhalten wird, dargestellt.
Sprachsignal verdichtendes Verfahren, wobei ein die Welle eines ersten zu verdichtenden Sprachlauts darstellendes Sprachsignal erhalten wird, und die Zeitdauer der jeweils einer Einheitstonhöhe des Sprachsignals gleichwertigen Abschnitte im Wesentlichen identisch gemacht werden, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; eine Grundfrequenzkomponente und eine harmonische Wellenkomponente des ersten Sprachlauts vom Tonhöhen-Wellensignal extrahiert wird; Unterbandinformationen mit der höchsten Harmonisierung mit einer mit der Zeit auftretenden Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente, die durch die Unterband extrahierenden Mittel extrahiert worden sind, von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und in der harmonischen Wellenkomponente eines zweiten Sprachlauts zum Erzeugen eines Unterschieds aufzeigt, identifiziert werden; ein Differenzialsignal, das einen Unterschied zwischen der Welle des ersten Sprachlauts und der Welle des durch die Unterbandinformationen darstellenden zweiten Sprachlauts basierend auf dem Sprachsignal und der durch die Wiedergewinnungsmittel identifizierten Unterbandinformationen darstellt, ERZEUGT wird; und ein Kennungscode zum Identifizieren der durch die Wiedergewinnungsmittel und dem Differenzsignal identifizierten Unterbandinformationen ausgegeben wird.
Sprachsignal erweiterndes Verfahren, wobei ein Kennungscode zum Bestimmen von Unterbandinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente auf einem ersten Tonhöhen-Wellensignal aufweisen, erzeugt durch das im Wesentlichen Identischmachen der Zeitlängen der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle eines ersten Sprachlauts darstellenden Sprachsignals, einem den Unterschied zwischen der Welle eines zweiten wiederherzustellenden Sprachlauts und der Welle eines ersten Sprachlauts darstellenden Differenzialsignal, und den Tonhöhendaten, die die Zeitlänge eines der Einheitstonhöhe des Sprachlauts gleichwertigen Abschnitts aufzeigen, gleichwertig ist, erhalten wird; Unterbandinformationen, die durch den von den Eingabemitteln erhaltenen Kennungscode der Unterbandinformationen identifiziert sind, erhalten werden, und das erste Tonhöhen-Wellensignal basierend auf den erhaltenen Unterbandinformationen wiederhergestellt wird; ein zweites Tonhöhen-Wellensignal erzeugt wird, das die Summe der Welle des ersten wiederhergestellten Tonhöhen-Wellensignals und der durch das Differenzialsignal dargestellten Welle darstellt; und ein Sprachsignal, das den zweiten Sprachlaut basierend auf den Tonhöhendaten und den zweiten Tonhöhen-Wellendaten darstellt, erzeugt wird.
Sprache generierende Vorrichtung, umfassend: Speichermittel zum Speichern von Rhythmusinformationen, die den Rhythmus einer Probe eines Einheitssprachlauts darstellen, Tonhöheninformationen, die die Tonhöhe der Probe darstellen, und Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente eines Tonhöhen-Wellensignals aufzeigen, die durch das im Wesentlichen Identischmachen der Zeitdauer der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle einer Probe darstellenden Sprachsignals gleichwertig sind, mit solchen Informationen erzeugt wird, die in Übereinstimmung mit der Probe gebracht werden; Vorhersagemittel zur Eingabe von Textinformationen, die einen Text darstellen, und Vorhersageinformationen erzeugen, die das Ergebnis der Vorhersage der Tonhöhe und des Spektrums eines den Text bildenden Einheitssprachlauts darstellen, basierend auf den Textinformationen; Wiedergewinnungsmittel zum Identifizieren einer Probe mit einer Tonhöhe und einem Spektrum, die die höchste Harmonisierung mit der Tonhöhe und dem Spektrum eines Einheitssprachlauts hat, die den Text basierend auf den Tonhöheninformationen, den Spektrumsinformationen, und den Vorhersageinformationen bildet; und Signal generierende Mittel zum Erzeugen eines generierten Sprachsignals, das einen Sprachlaut darstellt, in welchem der Sprachlaut einen Rhythmus hat, der durch die Rhythmusinformationen dargestellt wird, die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebracht worden ist, wobei die mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Spektrumsinformationen dargestellt wird, und die Zeitdauer des Abschnitts, der der Einheitstonhöhe gleichwertig ist, eine Zeitdauer ist, die durch die Tonhöheninformationen durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Tonhöheninformationen dargestellt wird.
Sprache generierende Vorrichtung nach Anspruch 20, wobei die Spektrumsinformationen durch Daten gebildet werden, die das Ergebnis von dem nichtlinearen Quanteln des Volumens darstellen, das eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Tonhöhen-Wellensignals darstellt.
Sprachverzeichnis erzeugende Vorrichtung, umfassend: Tonhöhen-Wellensignal erzeugende Mittel zum Erhalt eines Sprachsignals, das die Welle eines Einheitssprachlauts darstellt, und im Wesentlichen die Zeitdauer der Abschnitte identisch macht, die der Einheitstonhöhe des Sprachsignals gleichwertig sind, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; Tonhöheninformationen erzeugende Mittel zum Erzeugen von Ausgabe-Tonhöheninformationen, die die Original-Zeitdauer des Abschnitts darstellt; Spektrumsinformationen extrahierende Mittel zum Erzeuund zur Ausgabe von Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Sprachsignals basierend auf dem Tonhöhen-Wellensignal aufweist; und Rhythmusinformationen erzeugende Mittel zum Erhalt von phonetischen Daten, die Lautzeichen darstellen, die die Aussprache des Einheitssprachlauts darstellen, die den Rhythmus der durch die phonetischen Daten dargestellte Aussprache festlegt, und den festgestellten Rhythmus darstellende Rhythmusinformationen erzeugt und ausgibt.
Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 22, wobei die Spektrumsinformationen extrahierenden Mittel folgendes umfassen: einen variablen Filter mit gemäß der Kontrolle variierten Frequenzmerkmalen zum Filtern des Sprachsignals, wodurch eine Grundfrequenzkomponente des Sprachsignals extrahiert wird; Filtermerkmal feststellende Mittel, die die Grundfrequenz des Sprachlauts basierend auf der durch den variablen Filter extrahierten Frequenzkomponente identifizieren, und den variablen Filter so kontrollieren, dass Frequenzmerkmale erhalten werden, sodass Komponenten, als die in der Nähe der identifizierten Grundfrequenz existierenden, abgeschnitten werden; Tonhöhen extrahierende Mittel zur Teilung des Sprachsignals in Abschnitte, die jeweils durch ein Sprachsignal gebildet werden, das einer Einheitstonhöhe basierend auf dem Wert der Grundfrequenzkomponente eines Sprachsignals gleichwertig ist; und eine Tonhöhenlänge festlegende Einheit, die ein Tonhöhen-Wellensignal mit einer Zeitdauer im jeweiligen Abschnitt, die im Wesentlichen identisch ist durch Abtasten des Sprachsignals im jeweiligen Abschnitt des Sprachsignals mit im Wesentlichen der gleichen Anzahl an Proben erzeugt.
Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 23, wobei die Filtermerkmal festlegenden Mittel Gegenerkennungsmittel zum Identifizieren einer Periode umfassen, in der die durch den variablen Filter extrahierte Grundfrequenzkomponente einen vorgegebenen Wert erreicht, und die Grundfrequenz basierend auf der identifizierten Periode identifiziert wird.
Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 24, wobei die Filtermerkmal festlegenden Mittel folgendes umfassen: die durchschnittliche Tonhöhe erkennende Mittel, zur Erkennung der Tonhöhenlänge eines durch ein Sprachsignal dargestellten Sprachlautes vor dem Filtern basierend auf dem Sprachsignal; und Feststellungsmittel, zum Feststellen, ob ein Unterschied um einen vorgegebenen Betrag, oder größer, zwischen der durch die Gegenerkennungseinheit identifizierten Periode und der durch die durchschnittliche Tonhöhe erkennende Einheit identifizierte Tonhöhenlänge besteht, und den variablen Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die Gegenerkennungseinheit identifizierten Grundfrequenz existierenden abgeschnitten werden, falls festgestellt wird, dass ein solcher Unterschied nicht besteht, und den variable Filter so kontrolliert, dass Frequenzmerkmale erhalten werden, sodass andere Komponenten, als die in der Nähe der durch die durchschnittliche Tonhöhen erkennende Einheit identifizierten Grundfrequenz, die aus der Tonhöhenlänge identifiziert wird, abgeschnitten werden, falls festgestellt wird, dass ein solcher Unterschied besteht.
Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 25, wobei die die durchschnittliche Tonhöhe erkennenden Mittel folgendes umfassen: Cepstralanalysmittel zum Feststellen einer Frequenz, bei der das Cepstrum eines Sprachsignals vor dem Filtern durch den variablen Filter einen Höchstwert hat; Analysemittel zur selbstständigen Harmonisierung zur Feststellung einer Frequenz, bei der das Periodogramm der selbstständigen Harmonisierungsfunktion eine s Sprachsignals vor dem Filtern durch den variablen Filter einen Höchstwert hat; und den Durchschnitt ausrechnende Mittel zur Feststellung des Durchschnitts der Tonhöhen des durch das Sprachsignal dargestellten Sprachlauts basierend auf den durch die Cepstralanalysemittel und auf den durch die Analysemittel zur selbständigen Harmonisierung festgestellten Frequenzen feststellen, und die den festgestellten Durchschnitt als die Zeitdauer der Tonhöhe des Einheitssprachlauts identifizieren.
Sprachverzeichnis erzeugende Vorrichtung nach Anspruch 26, wobei die Spektrumsinformationen extrahierenden Mittel Daten erzeugen, die das Ergebnis von dem linearen Quanteln des Wertes darstellen, der eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Sprachsignals aufweist, und die Daten als Spektrumsinformationen ausgeben.
Sprachgenerationsverfahren, wobei Rhythmusinformationen, die den Rhythmus einer Probe eines Einheitssprachlauts darstellen, Tonhöheninformationen, die die Tonhöhe der Probe darstellen, und Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente eines Tonhöhen-Wellensignals aufzeigen, die durch das im Wesentlichen Identischmachen der Zeitdauer der Abschnitte, die jeweils der Einheitstonhöhe eines die Welle eines die Welle einer Probe darstellenden Sprachsignals gleichwertige sind, mit solchen Informationen gespeichert werden, die in Übereinstimmung mit der Probe gebracht werden; Textinformationen, die einen eingegebenen Text darstellen, und Vorhersageinformationen, die das Ergebnis der Vorhersage der Tonhöhe und des Spektrums eines den Text bildenden Einheitssprachlauts darstellen, basierend auf den Textinformationen erzeugt werden; eine Probe mit einer Tonhöhe und einem Spektrum, die die höchste Harmonisierung mit der Tonhöhe und dem Spektrum eines Einheitssprachlauts hat, die den Text basierend auf den Tonhöheninformationen, den Spektrumsinformationen, und den Vorhersageinformationen bildet, identifiziert wird; und ein generiertes Sprachsignal, das einen Sprachlaut darstellt, in welchem der Sprachlaut einen Rhythmus hat, der durch die Rhythmusinformationen dargestellt wird, die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebracht worden ist, wobei die mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Spektrumsinformationen dargestellt wird, und die Zeitdauer des Abschnitts, der der Einheitstonhöhe gleichwertig ist, eine Zeitdauer ist, die durch die Tonhöheninformationen durch die in Übereinstimmung mit der durch die Wiedergewinnungsmittel identifizierten Probe gebrachten Tonhöheninformationen dargestellt wird, erzeugt wird.
Sprachverzeichnis erzeugendes Verfahren, wobei ein Sprachsignal erhalten wird, das die Welle eines Einheitssprachlauts darstellt, und im Wesentlichen die Zeitdauer der Abschnitte identisch gemacht wird, die der Einheitstonhöhe des Sprachsignals gleichwertig sind, wodurch das Sprachsignal zu einem Tonhöhen-Wellensignal verarbeitet wird; Tonhöheninformationen, die die Original-Zeitdauer des Abschnitts darstellen, erzeugt und ausgegeben werden; Spektrumsinformationen, die eine mit der Zeit auftretende Variation in der Grundfrequenzkomponente und der harmonischen Wellenkomponente des Sprachsignals aufweisen, basierend auf dem Tonhöhen-Wellensignal erzeugt und ausgegeben werden; und phonetischen Daten, die Lautzeichen darstellen, die die Aussprache des Einheitssprachlauts darstellen, erhalten werden, der Rhythmus der durch die phonetischen Daten dargestellte Aussprache festgelegt wird, und die den festgestellten Rhythmus darstellende Rhythmusinformationen erzeugt und ausgegeben werden.