-
HINTERGRUND DER ERFINDUNG
-
1. Gebiet der Erfindung
-
Die
Erfindung betrifft eine Sprachanalysevorrichtung, ein Sprachanalyseprogramm
und ein Sprachanalyseverfahren. Sie betrifft genauer eine Bilderzeugungsvorrichtung,
in der ein Sprachanalyseverfahren der Erfindung eingesetzt wird
und insbesondere eine Bilderzeugungsvorrichtung für die Lippensynchronisations-Animation,
die eine Animation (Lippensynchronisations-Animation) erzeugt, bei
der sich die Mundform abhängig
von der Sprache ändert.
-
2. Beschreibung des Stands der Technik
-
Sprachanalysetechniken
werden derzeit auf unterschiedlichen Gebieten eingesetzt. Beispiele
sind das Erkennen eines Sprechers an der Stimme, das Umwandeln von
Sprache in Text oder das Erzeugen einer Lippensynchronisations-Animation,
bei der sich die Mundform abhängig
von der Sprache ändert.
Die Verarbeitung, die in diesen Fällen jeweils erfolgt, umfasst:
im Fall der Sprachanalysetechnik das Entnehmen von Phonemen aus
der Sprache, d. h. der Einheiten, die zum Unterscheiden der Bedeutung
von Wörtern
verwendet werden; im Fall der Sprechererkennung das Identifizieren
eines Sprechers mit Hilfe des Übereinstimmungsgrads
zwischen entnommenen Phonemen und Referenzmustern, die vorab aufgezeichnet
wurden; im Fall der Textumwandlung das Anzeigen von Buchstaben,
die den entnommenen Phonemen entsprechen, auf einer Anzeige oder
einer ähnlichen
Vorrichtung; und im Fall der Lippensynchronisations-Animation das
Darstellen eines Bilds entsprechenden zu den entnommenen Phonemen
auf einer Anzeige oder einer ähnlichen
Vorrichtung.
-
Man
kennt die folgenden Verfahren zum Entnehmen von Phonemen aus Sprache.
Beispielsweise werden in dem Sprechererkennungssystem, das in der
veröffentlichten
japanischen Patentschrift Nr. H6-32007 offenbart
ist, Phoneme dadurch entnommen, dass man für jeden Vokal Intervalle so
bestimmt, dass der Abstand zwischen einem vorab eingegebenen Referenzmuster
und der Sprache des Sprechers geringer ist als ein vorbestimmter
Wert, und dass man eine Entsprechung zwischen diesen Intervallen
und den Vokalen herstellt.
-
Derartige
Intervalle zum Entnehmen von Phonemen nennt man Abschnitte. In der
Erzeugungsvorrichtung für
animierte Bilder der veröffentlichten
japanischen Patentschrift Nr.
2003-233389 nimmt man eine Formantenanalyse vor, in der
beispielsweise Composite Sinusoidal Modeling (CSM) verwendet wird,
und Phoneme werden ausgehend von Formanteninformation entnommen,
um Vokale zu charakterisieren.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Um
die Feststellung von Abschnitten mit Hilfe der Entfernung von einem
Referenzmuster vorzunehmen, muss man eine Datenbank bereithalten,
in der Referenzmuster für
jeden Sprecher registriert sind. Dies führt jedoch unvermeidbar zu
einer sehr umfangreichen Datenmenge, die von der Anzahl der Sprecher
abhängt.
Dadurch verlängert
sich die Verarbeitungszeit, die für die Sprachanalyse erforderlich
ist. Es ist daher schwierig, diese Vorgehensweise in Situationen
anzuwenden, in denen eine Echtzeitverarbeitung erforderlich ist
(beispielsweise beim Erzeugen einer Lippensynchronisations-Animation).
Wird ein neuer Sprecher aufgenommen, so muss man die Referenzmuster
des neuen Sprechers in die Datenbank eintragen. Die Verwaltung der
Datenbank wird daher mühsam,
und das System ist bei einer unbestimmt großen Anzahl von Sprechern schwierig
anzuwenden.
-
Im
gegenwärtigen
Zustand ist es so, dass die Phonementnahme mit Hilfe von Formanteninformation schwierig
in Situationen anzuwenden ist, die einer Echtzeitverarbeitung bedürfen, und
zwar aufgrund der für eine
solche Verarbeitung benötigten
Zeit. Neben diesen Vorgehensweisen kennt man ein Phonementnahmeverfahren,
in dem beispielsweise eine Cepstrumanalyse mit LPC (Linear Predictive
Coding) verwendet wird. Es hat sich gezeigt, dass die Genauigkeit
der Phonementnahme mit diesem Verfahren wächst, wenn die Anzahl der Wiederholungen
wächst,
d. h., es tritt ein Lerneffekt auf. Andererseits ist es zum Erhöhen der
Entnahmegenauigkeit erforderlich, Analyseergebnisse für eine große Anzahl
Lernsignale vorab zu erzeugen. Es ist daher schwierig, dieses Verfahren
bei einer unbestimmt großen
Anzahl von Sprechern anzuwenden.
-
Zudem
ist bekannt, dass sich die Art der spektralen Einhüllenden
abhängig
von dem Repräsentationsverfahren
oder dem Entnahmeverfahren beträchtlich ändert, und
beispielsweise von der Feststellung des Grads oder der Anzahl der
Wiederholungen beeinflusst wird, so dass auf Seite des Analysten
Können
erforderlich ist.
-
Der
Stand der Technik kennt ein auf einem Computer ausführbares
Verfahren zur Sprachanalyse, das Grenzen von Phonemen in einem eingegebenen
Sprachsignal erkennt, indem eine Technik verwendet wird, die auf
den Gebrauch einer akustisch-phonetischen HMM-Erkennungseinheit
beruht (HMM = Hidden Markov Model). Sowohl der Erkenner als auch
das Segmentierungssystem nutzen DARPA-TIMIT, die akustisch-phonetische
Datenbank für
kontinuierliche Sprache des American English. Das System liefert einen
akzeptablen Anteil an korrekter Grenzerkennung und ist offenbart
in der Veröffentlichung
von BRUGNARA F ET AL: "AUTOMATIC
SEGMENTATION AND LABELING OF SPEECH BASED ON HIDDEN MARKOV MODELS" SPEECH COMMUNICATION,
ELSE-VIER SCIENCE
PUBLISHERS, AMSTERDAM, NL, vol. 12, no. 4, 1 August 1993 (1993-08-01), pages 357–370, XP000393652
ISSN: 0167-6393.
-
Es
ist Aufgabe der Erfindung, eine Sprachanalysevorrichtung und ein
Sprachanalyseverfahren bereitzustellen, mit denen man eine Echtzeit-Sprachanalyseverarbeitung
vornehmen kann, und bei denen man eine große Anzahl Sprecher verwenden
kann, ohne dass man Referenzmuster für jeden Sprecher vorhalten
muss. Eine Anwendung der Erfindung stellt eine Animations-Bilderzeugungsvorrichtung
bereit, die durch Anwenden dieses Sprachanalyseverfahrens der Echtzeitverarbeitung
fähig ist.
-
Es
werden nun verschiedene Aspekte der Erfindung beschrieben. Dabei
ist zu beachten, die "Veränderungsgrade", auf die Bezug genommen
wird, tatsächlich
Differenzen zwischen den angegebenen Korrelationen sind. Die Erfindung
ist durch die beigefügten
unabhängigen
Ansprüche
bestimmt.
-
Gemäß einem
ersten Aspekt der Erfindung erfüllt
man die obigen Aufgaben durch das Bereitstellen eines computerausführbaren
Verfahrens zur Sprachanalyse, das Grenzen von Phonemen an eingegebenen Sprachsignalen
erkennt, umfassend: einen ersten Schritt, der einen Zeitpunkt in
dem eingegebenen Sprachsignal festlegt;
einen zweiten Schritt,
der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener
Länge ab
dem Zeitpunkt enthalten ist; und
einen dritten Schritt, in
dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt
wird, wobei:
n aus dem Sprachsignal entnommene Frequenzkomponentendaten,
die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten
sind, dadurch gefunden werden, dass man den ersten, zweiten und
dritten Schritt für
jede vorgeschriebene Zeit n Mal wiederholt (wobei n eine natürliche Zahl
ist, die mindestens den Wert 6 hat);
(n-1) Korrelationen in
den n Frequenzkomponentendaten gefunden werden, indem man die i-te
Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens
den Wert 1 hat und nicht größer als
(n-1) ist), und zwar abhängig
vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten
Element der Frequenzkomponentendaten entsprechend dem Sprachsignal,
das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen
Länge enthalten
ist;
(n-2) Veränderungsgrade
aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten
Veränderungsgrad
abhängig
von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt
(wobei k eine natürliche
Zahl ist, die mindestens den Wert 1 hat und nicht größer als
(n-2) ist);
wenn m definiert wird als die Zahl, die den Veränderungsgrad
festlegt, der größer ist
als zwei Veränderungsgrade
benachbart zu dem festlegten Veränderungsgrad
in den (n-2) Veränderungsgraden
von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass
der m-te Veränderungsgrad
größer ist
als der (m-1)-te Veränderungsgrad
und größer ist
als der (m+1)-te Veränderungsgrad,
wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die
definierte Zahl m gefunden ist;
ein Zeitbereich der vorgeschriebenen
Länge gemäß der definierten
Zahl m festgelegt wird; und
das eingegebene Sprachsignal entsprechend
den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt
wird.
-
Gemäß einem
zweiten Aspekt der Erfindung erfüllt
man die obigen Aufgaben durch das Bereitstellen eines Verfahrens
zur Sprachanalyse gemäß dem ersten
Aspekt, zudem umfassend:
das Berechnen charakteristischer Größen für jeden
Abschnitt der unterteilten Sprachsignale, und
das Spezifizieren
der Phoneme der Abschnitte durch den Vergleich der charakteristischen
Größen mit
Referenzdaten für
jedes Phonem.
-
Gemäß einem
dritten Aspekt der Erfindung erfüllt
man die obigen Aufgaben durch das Bereitstellen eines Verfahrens
zur Sprachanalyse gemäß dem ersten
Aspekt, wobei die vorgeschriebene Zeit über den Zeitbereich mit der
vorgeschriebenen Länge
verschoben wird, damit sich gegenseitig überlappende Abschnitte erzeugt
werden.
-
Gemäß einem
vierten Aspekt der Erfindung erfüllt
man die obigen Aufgaben durch das Bereitstellen eines Verfahrens
zur Sprachanalyse gemäß dem ersten
Aspekt, wobei die Korrelation ein Wert ist, den man durch Summieren
der Produkte der Amplituden erhält,
die zu den gleichen Frequenzkomponenten gehören.
-
Gemäß einem
fünften
Aspekt der Erfindung erfüllt
man die obigen Aufgaben durch das Bereitstellen eines Verfahrens
zur Sprachanalyse gemäß dem ersten
Aspekt, wobei man die Frequenzkomponentendaten durch die Fouriertransformation
von Frequenzkomponenten des entnommenen Sprachsignals bestimmt.
-
Gemäß einem
sechsten Aspekt der Erfindung erfüllt man die obigen Aufgaben
durch das Bereitstellen eines Verfahrens zur Sprachanalyse gemäß dem zweiten
Aspekt, wobei man die charakteristischen Größen abhängig von einer Amplitude einer
jeden Frequenzkomponente bestimmt, die man durch Fouriertransformation
des Sprachsignals erhält,
das in dem Abschnitt des unterteilten Sprachsignals enthalten ist,
den man durch die Unterteilung gewinnt.
-
Gemäß einem
siebten Aspekt der Erfindung erfüllt
man die obigen Aufgaben durch das Bereitstellen eines computerausführbaren
Verfahrens der Animationsbilderzeugung, das ein Bild entsprechend
den Unterteilungen der Phoneme aus einem eingegebenen Sprachsignal
darstellt, umfassend:
einen ersten Schritt, der einen Zeitpunkt
in dem eingegebenen Sprachsignal festlegt;
einen zweiten Schritt,
der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener
Länge ab
dem Zeitpunkt enthalten ist; und
einen dritten Schritt, in
dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt
wird, wobei:
n aus dem Sprachsignal entnommene Frequenzkomponentendaten,
die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten
sind, dadurch gefunden werden, dass man den ersten, zweiten und
dritten Schritt für
jede vorgeschriebene Zeit n Mal wiederholt (wobei n eine natürliche Zahl
ist, die mindestens den Wert 6 hat);
(n-1) Korrelationen in
den n Frequenzkomponentendaten gefunden werden, indem man die i-te
Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens
den Wert 1 hat und nicht größer als
(n-1) ist), und zwar abhängig
vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten
Element der Frequenzkomponentendaten entsprechend dem Sprachsignal,
das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen
Länge enthalten
ist;
(n-2) Veränderungsgrade
aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten
Veränderungsgrad
abhängig
von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt
(wobei k eine natürliche
Zahl ist, die mindestens den Wert 1 hat und nicht größer als
(n-2) ist);
wenn m definiert wird als die Zahl, die den Veränderungsgrad
festlegt, der größer ist
als zwei Veränderungsgrade
benachbart zu dem festlegten Veränderungsgrad
in den (n-2) Veränderungsgraden
von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass
der m-te Veränderungsgrad
größer ist
als der (m-1)-te Veränderungsgrad
und größer ist
als der (m+1)-te Veränderungsgrad,
wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die
definierte Zahl m gefunden ist;
ein Zeitbereich der vorgeschriebenen
Länge gemäß der definierten
Zahl m festgelegt wird;
das eingegebene Sprachsignal entsprechend
den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt
wird;
charakteristische Größen für jeden
Abschnitt der unterteilten Sprachsignale berechnet werden;
die
Phoneme der Abschnitte durch das Vergleichen der charakteristischen
Größen mit
Referenzdaten für
jedes Phonem spezifiziert werden; und
Bilder entsprechend den
Phonemen der Abschnitte dargestellt werden, die in einer Weise verändert werden, die
auf die Abschnitte abgestimmt ist.
-
Gemäß einem
achten Aspekt der Erfindung erfüllt
man die obigen Aufgaben durch das Bereitstellen eines Sprachanalyseprogramms,
das auf einem Computer ausführbar
ist, der eine CPU enthält,
und das die Grenzen von Phonemen in eingegebener Sprache erkennt,
wobei das Programm die CPU veranlasst auszuführen:
einen ersten Schritt,
der einen Zeitpunkt in dem eingegebenen Sprachsignal festlegt;
einen
zweiten Schritt, der das Sprachsignal entnimmt, das in einem Zeitbereich
mit vorgeschriebener Länge ab
dem Zeitpunkt enthalten ist; und
einen dritten Schritt, in
dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt
wird, wobei:
n aus dem Sprachsignal entnommene Frequenzkomponentendaten,
die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten
sind, dadurch gefunden werden, dass die CPU den ersten, zweiten
und dritten Schritt für
jede vorgeschriebene Zeit n Mal wiederholt (wobei n eine natürliche Zahl
ist, die mindestens den Wert 6 hat);
(n-1) Korrelationen in
den n Frequenzkomponentendaten gefunden werden, indem man die i-te
Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens
den Wert 1 hat und nicht größer als
(n-1) ist), und zwar abhängig
vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten
Element der Frequenzkomponentendaten entsprechend dem Sprachsignal,
das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen
Länge enthalten
ist;
(n-2) Veränderungsgrade
aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten
Veränderungsgrad
abhängig
von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt
(wobei k eine natürliche
Zahl ist, die mindestens den Wert 1 hat und nicht größer als
(n-2) ist);
wenn m definiert wird als die Zahl, die den Veränderungsgrad
festlegt, der größer ist
als zwei Veränderungsgrade
benachbart zu dem festlegten Veränderungsgrad
in den (n-2) Veränderungsgraden
von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass
der m-te Veränderungsgrad
größer ist
als der (m-1)-te Veränderungsgrad
und größer ist
als der (m+1)-te Veränderungsgrad,
wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die
definierte Zahl m gefunden ist;
ein Zeitbereich der vorgeschriebenen
Länge gemäß der definierten
Zahl m festgelegt wird; und
das eingegebene Sprachsignal von
der CPU entsprechend den festgelegten Zeitbereichen in zahlreiche
Abschnitte unterteilt wird.
-
Gemäß einem
neunten Aspekt der Erfindung erfüllt
man die obigen Aufgaben durch das Bereitstellen eines Sprachanalyseprogramms
gemäß dem achten
Aspekt, das die CPU veranlasst, zudem auszuführen:
das Berechnen charakteristischer
Größen für jeden
Abschnitt der unterteilten Sprachsignale und das Spezifizieren von
Phonemen der Abschnitte durch das Vergleichen der charakteristischen
Größen mit
Referenzdaten für
jedes Phonem.
-
Gemäß einem
zehnten Aspekt der Erfindung erfüllt
man die obigen Aufgaben durch das Bereitstellen eines Sprachanalyseprogramms
gemäß dem neunten
Aspekt, worin die vorgeschriebene Zeit über den Zeitbereich mit der
vorgeschriebenen Länge
verschoben wird, damit sich gegenseitig überlappende Abschnitte erzeugt
werden;
die Korrelation ein Wert ist, den man durch Summieren
der Produkte der Amplituden erhält,
die zu den gleichen Frequenzkomponenten gehören;
man die Frequenzkomponentendaten
durch die Fouriertransformation von entnommenen Frequenzkomponenten
des Sprachsignals bestimmt; und
man die charakteristischen
Größen abhängig von
einer Amplitude einer jeden Frequenzkomponente bestimmt, die man
durch Fouriertransformation des Sprachsignals erhält, das
in dem Abschnitt des unterteilten Sprachsignals enthalten ist.
-
Gemäß einem
elften Aspekt der Erfindung erfüllt
man die obigen Aufgaben durch das Bereitstellen eines Animationsbild-Erzeugungsprogramms,
das auf einem Computer ausführbar
ist, der eine CPU enthält,
und das ein Bild entsprechend den Unterteilungen vom Phonemen in
einem eingegebenen Sprachsignal darstellt, wobei das Programm die
CPU veranlasst auszuführen:
einen
ersten Schritt, der einen Zeitpunkt in dem eingegebenen Sprachsignal
festlegt;
einen zweiten Schritt, der das Sprachsignal entnimmt,
das in einem Zeitbereich mit vorgeschriebener Länge ab dem Zeitpunkt enthalten
ist; und
einen dritten Schritt, in dem das entnommene Sprachsignal
in Frequenzkomponentendaten zerlegt wird, wobei:
n aus dem
Sprachsignal entnommene Frequenzkomponentendaten, die in n Zeitbereichen
mit der vorgeschriebenen Länge
enthalten sind, dadurch gefunden werden, dass der erste, zweite
und dritte Schritt für
jede vorgeschriebene Zeit n Mal wiederholt wird (wobei n eine natürliche Zahl
ist, die mindestens den Wert 6 hat);
(n-1) Korrelationen in
den n Frequenzkomponentendaten gefunden werden, indem man die i-te
Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens
den Wert 1 hat und nicht größer als
(n-1) ist), und zwar abhängig
vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten
Element der Frequenzkomponentendaten entsprechend dem Sprachsignal,
das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen
Länge enthalten
ist;
(n-2) Veränderungsgrade
aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten
Veränderungsgrad
abhängig
von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt
(wobei k eine natürliche
Zahl ist, die mindestens den Wert 1 hat und nicht größer als
(n-2) ist);
wenn m definiert wird als die Zahl, die den Veränderungsgrad
festlegt, der größer ist
als zwei Veränderungsgrade
benachbart zu dem festlegten Veränderungsgrad
in den (n-2) Veränderungsgraden
von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass
der m-te Veränderungsgrad
größer ist
als der (m-1)-te Veränderungsgrad
und größer ist
als der (m+1)-te Veränderungsgrad,
wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die
definierte Zahl m gefunden ist;
ein Zeitbereich der vorgeschriebenen
Länge gemäß der definierten
Zahl m festgelegt wird;
das eingegebene Sprachsignal entsprechend
den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt
wird;
charakteristische Größen für jeden
Abschnitt der unterteilten Sprachsignale berechnet werden;
die
Phoneme der Abschnitte durch das Vergleichen der charakteristischen
Größen mit
Referenzdaten für
jedes Phonem spezifiziert werden; und
Bilder entsprechend den
Phonemen der Abschnitte dargestellt werden, die in einer Weise verändert werden, die
auf die Abschnitte abgestimmt ist.
-
Gemäß einem
zwölften
Aspekt der Erfindung erfüllt
man die obigen Aufgaben durch das Bereitstellen eines Speichermediums,
das ein Programm gemäß irgendeinem
der Aspekte acht bis elf speichert.
-
Gemäß einem
dreizehnten Aspekt der Erfindung erfüllt man die obigen Aufgaben
durch das Bereitstellen einer Sprachanalysevorrichtung, die enthält:
eine
Frequenzzerlegungseinheit, die n Frequenzkomponentendaten findet,
die aus einem Sprachsignal entnommen werden, das in n Zeitbereichen
mit vorgeschriebener Länge
enthalten ist (wobei n eine natürliche
Zahl ist, die mindestens den Wert 6 hat), und zwar durch n-maliges
Wiederholen in vorgeschriebenen Intervallen, damit ein Zeitpunkt
in einem eingegebenen Sprachsignal festgelegt wird, damit ein Sprachsignal
entnommen wird, das in einem Zeitbereich der vorgeschriebenen Länge ab dem
Zeitpunkt enthalten ist, und damit das entnommene Sprachsignal in
Frequenzkomponentendaten zerlegt wird;
eine Veränderungsgrad-Berechnungseinheit,
die (n-1) Korrelationen in den n Frequenzkomponentendaten findet,
indem sie die i-te Korrelation gewinnt (wobei i eine natürliche Zahl
ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar
abhängig
vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten
Element der Frequenzkomponentendaten entsprechend dem Sprachsignal,
das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen
Länge enthalten
ist, und die (n-2) Veränderungsgrade
aus den (n-1) Korrelationen findet, indem sie den k-ten Veränderungsgrad
abhängig
von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt
(wobei k eine natürliche
Zahl ist, die mindestens den Wert 1 hat und nicht größer als
(n-2) ist); und
eine Abschnittsbestimmungseinheit, die eine
definierte Zahl findet, wobei die definierte Zahl m als diejenige Zahl
definiert ist, die den Veränderungsgrad
angibt, der größer ist
als zwei Veränderungsgrade
benachbart zu dem festgelegten Veränderungsgrad in den (n-2) Veränderungsgraden
von dem ersten bis zum (n-2)-ten, d. h. die definierte Zahl m die
Bedingung erfüllt,
dass der m-te Veränderungsgrad
größer ist
als der (m-1)-te Veränderungsgrad
und größer ist
als der (m+1)-te Veränderungsgrad,
wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die
einen Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festlegt,
und die das eingegebene Sprachsignal entsprechend den festgelegten
Zeitbereichen in zahlreiche Abschnitte unterteilt.
-
Gemäß einem
vierzehnten Aspekt der Erfindung erfüllt man die obigen Aufgaben
durch das Bereitstellen einer Animationsbild-Erzeugungsvorrichtung,
die enthält:
eine
Frequenzzerlegungseinheit, die n Frequenzkomponentendaten findet,
die aus einem Sprachsignal entnommen werden, das in n Zeitbereichen
mit vorgeschriebener Länge
enthalten ist (wobei n eine natürliche
Zahl ist, die mindestens den Wert 6 hat), und zwar durch n-maliges
Wiederholen in vorgeschriebenen Intervallen, damit ein Zeitpunkt
in einem eingegebenen Sprachsignal festgelegt wird, damit ein Sprachsignal
entnommen wird, das in einem Zeitbereich der vorgeschriebenen Länge ab dem
Zeitpunkt enthalten ist, und damit das entnommene Sprachsignal in
Frequenzkomponentendaten zerlegt wird;
eine Veränderungsgrad-Berechnungseinheit,
die (n-1) Korrelationen in den n Frequenzkomponentendaten findet,
indem sie die i-te Korrelation gewinnt (wobei i eine natürliche Zahl
ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar
abhängig
vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten
Element der Frequenzkomponentendaten entsprechend dem Sprachsignal,
das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen
Länge enthalten
ist, und die (n-2) Veränderungsgrade
aus den (n-1) Korrelationen findet, indem sie den k-ten Veränderungsgrad
abhängig
von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt
(wobei k eine natürliche
Zahl ist, die mindestens den Wert 1 hat und nicht größer als
(n-2) ist);
eine Abschnittsbestimmungseinheit, die eine definierte
Zahl findet, wobei die definierte Zahl m als diejenige Zahl definiert
ist, die den Veränderungsgrad
angibt, der größer ist
als zwei Veränderungsgrade
benachbart zu dem festlegten Veränderungsgrad
in den (n-2) Veränderungsgraden
von dem ersten bis zum (n-2)-ten, d. h. die definierte Zahl m die
Bedingung erfüllt,
dass der m-te Veränderungsgrad
größer ist
als der (m-1)-te Veränderungsgrad
und größer ist
als der (m+1)-te Veränderungsgrad,
wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die
einen Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festlegt,
und die das eingegebene Sprachsignal entsprechend den festgelegten
Zeitbereichen in zahlreiche Abschnitte unterteilt;
eine Phonementnahmeeinheit,
die die Phoneme der Abschnitte durch das Berechnen charakteristischer
Größen für jeden
Abschnitt des unterteilten Sprachsignals spezifiziert, und die die
charakteristischen Größen mit Referenzdaten
für jedes
Phonem vergleicht; und
eine Animationsanzeigeeinheit, die Bilder
darstellt, die den Phonemen der Abschnitte entsprechen, wobei sich diese
Bilder in einer Weise verändern,
die auf die Abschnitte abgestimmt ist.
-
Durch
das Anwenden der Erfindung kann man eine rasche Sprachanalyseverarbeitung
in Echtzeit einfach dadurch erreichen, dass die Ergebnisse der Analyse
der eingegebenen Sprache einer Anzahl Personen vorab als Referenzdaten
vorbereitet werden ohne dass man Referenzmuster für jeden
Sprecher erzeugen muss. Da zudem ein Registriervorgang von Referenzmustern
für jeden
Sprecher nicht erforderlich ist und das Referenzmuster nur ein Mal
angefertigt werden muss, kann eine unbegrenzt große Anzahl
von Sprechern damit abgedeckt werden. Da ferner eine Datenbank zum
Speichern der Referenzmuster für
jeden Sprecher nicht erforderlich ist, ist auch eine Installation
in einer Anlage mit geringer Speicherkapazität möglich.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
Es
zeigt:
-
1 ein
Anordnungsblockdiagramm einer Bilderzeugungsvorrichtung gemäß einer
Ausführungsform der
Erfindung;
-
2 ein
Anordnungsblockdiagramm einer Sprachanalyseeinheit (Sprachanalysevorrichtung)
der Erfindung;
-
3 ein
Flussdiagramm zum Erklären
der Verarbeitung in einer Bilderzeugungsvorrichtung gemäß einer
Ausführungsform
der Erfindung;
-
4 eine
Ansicht für
die Erklärung
der Pageunterteilung im Schritt S2 in 3; 5 eine
Ansicht des Zusammenhangs zwischen Frequenz und Amplitude bei der
Analyse der Frequenzkomponenten im Schritt S2 in 3;
-
6 eine
Ansicht der Ergebnisse der Frequenzzerlegung bezüglich einer Anzahl Pages;
-
7 eine
Ansicht, die darstellt, wie eine Berechnung der Korrelation zwischen
benachbarten Pages erfolgt;
-
8 eine
Ansicht des Zusammenhangs zwischen einem mit einer Page verbundenen
Parameter y und der Differenz S(y) der Korrelation;
-
9 eine
Ansicht für
die Erklärung
der Frequenzzerlegung für
jeden Abschnitt; und
-
10 eine
Ansicht zum Erklären
einer Animation entsprechend zu Phonemen.
-
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
Im
Weiteren werden Ausführungsformen
der Erfindung anhand der Zeichnungen beschrieben. Der technische
Bereich der Erfindung ist jedoch in den Patentansprüchen beschrieben.
-
1 zeigt
ein Anordnungsblockdiagramm einer Bilderzeugungsvorrichtung gemäß einer
Ausführungsform
der Erfindung. Es handelt sich um eine Animationserzeugungsvorrichtung
für die
Lippensynchronisation, die eine Animation entsprechend einer eingegebenen
Stimme erzeugt. Eine Bilderzeugungsvorrichtung gemäß dieser
Ausführungsform
enthält
als Sprachanalyseeinheit 1 eine Sprachanalysevorrichtung
der Erfindung und weist zusätzlich
eine CPU 2, ein Arbeits-RAM 3, eine Geometrieberechnungseinheit 4,
einen Renderer 5, eine Texturerzeugungseinheit 6,
ein Textur-RAM 7, eine Anzeigeeinheit 8 und einen
Framepuffer 9 auf. Diese Funktionseinheiten sind mit Hilfe
eines Programms implementiert, das die CPU 2 (CPU = Central
Processing Unit) ausführt,
die in der Bilderzeugungsvorrichtung bereitgestellt ist. Man könnte die
Funktionseinheiten jedoch auch in Hardware implementieren.
-
Die
CPU 2 kontrolliert ein Programm, das ein Bild erzeugt.
Die Programme oder Daten, die die CPU 2 verwendet, sind
im Arbeits-RAM 3 gespeichert. Die Sprachanalyseeinheit 1 analysiert
eingegebene Sprache und entnimmt Phoneme, die in der eingegebenen
Sprache enthalten sind. Sie gibt Zeitbezugsinformationen aus, die
die Darstellungszeit eines Bilds zugeordnet zu jedem Phonem festlegen.
-
Gesteuert
durch die CPU 2 liest die Geometrieberechnungseinheit 4 Polygondaten
aus dem Arbeits-RAM 3 ein, die dreidimensionale Objektdaten
in einem Welt-Koordinatensystem aufbauen. Daraufhin nimmt sie eine
Koordinatentransformation auf Daten in einem Betrachtungspunkt-Koordinatensystem
vor, dessen Ursprung der Betrachtungspunkt ist. Die in der Geometrieberechnungseinheit 4 bearbeiteten
Polygondaten werden in den Renderer 5 eingegeben, in dem
die Daten in Polygoneinheiten in Pixeleinheitendaten umgesetzt werden.
-
Die
Pixeleinheitendaten werden in die Texturerzeugungseinheit 6 eingegeben,
in der Texturfarbe in Pixeleinheiten erzeugt wird, und zwar abhängig von
den im Textur-RAM 7 gespeicherten
Texturdaten. Die Anzeigeeinheit 8 nimmt eine Verarbeitung
zum Entfernen verdeckter Flächen
und/oder eine Schattierung vor wie dies die Bilddaten von der Texturerzeugungseinheit 6 erfordern,
und sie schreibt anschließend
die Daten in den Framepuffer 9, wobei sie in zweidimensionale
Koordinaten umgewandelt werden. Die in den Framepuffer 9 geschriebenen
Daten werden wiederholt gelesen und in ein Videosignal umgesetzt,
das ausgegeben wird. Auf diese Weise werden den jeweiligen Phonemen
entsprechende Bilder verändert
und beispielsweise auf einer Anzeige (nicht dargestellt) entsprechend
der Zeitbezugsinformation angezeigt. Der Funktionsblock in 1,
der die Sprachanalyseeinheit 1 nicht enthält, ist
eine Animationsanzeigeeinheit, die Animationen darstellt.
-
2 zeigt
ein Anordnungsblockdiagramm einer Sprachanalyseeinheit (Sprachanalysevorrichtung) der
Erfindung. Die Sprachanalyseeinheit 1 besitzt eine Eingabeeinheit 11,
eine AD-Umsetzeinheit 12, eine Frequenzzerlegungseinheit 13,
eine Veränderungsgrad-Berechnungseinheit 14,
eine Abschnittsbestimmungseinheit 15, eine Phonementnahmeeinheit 16 und
eine Speichereinheit 17. Diese Funktionseinheiten sind
mit Hilfe eines Programms implementiert, das die CPU (CPU = Central
Processing Unit) ausführt.
Man könnte
die Funktionseinheiten jedoch auch in Hardware implementieren. Ist
eine CPU in der Sprachanalyseeinheit 1 enthalten, so kann
die (nicht dargestellte) in der Sprachanalyseeinheit 1 enthaltene
CPU verwendet werden, oder es kann eine externe CPU (beispielsweise
die CPU 2 in 1) verwendet werden.
-
Die
Eingabeeinheit 11 ist eine Schnittstelle, in die Sprache
eingegeben wird. Die Spracheingabe in die Sprachanalyseeinheit 1 erfolgt
beispielsweise mit Hilfe eines Eingangssignals von einem Mikrophon
oder eines Ausgangssignals eines Audiogeräts, das über ein Audiokabel angeschlossen
ist. In diesem Fall weist die Eingabeeinheit 11 die entsprechenden
Eingangsanschlüsse
für. die
Verbindung mit einem Mikrophon oder Audiokabel auf. Die Sprache
kann auch mit Hilfe digitaler Daten eingegeben werden, beispielsweise
einer Wave-Datei oder einer MP3-Datei (MPEG 1 Audio Layer 3). In
diesem Fall ist die Eingabeeinheit 11 mit einer Anschlussschnittstelle
für die
Datenübertragung
versehen (beispielsweise einer USB-Schnittstelle (Universal Serial
Bus), einer Parallelschnittstelle, einer IEEE-1394-Schnittstelle
(IEEE = Institute of Electrical and Electronical Engineers) oder
einem internen Bus).
-
Sind
die eingegebenen Sprachdaten ein Analogsignal, so werden diese in
einer Analog-Digital-Umsetzeinheit (A/D) 12 in digitale
Daten umgesetzt. Die durch diesen Digitalumsetzprozess gewonnenen
Sprachdaten sind zeitserielle Daten, die je einer Amplitude zu einem
gegebenen Zeitpunkt zugeordnet sind. Diese Daten werden in die Frequenzzerlegungseinheit 13 eingegeben.
Die Frequenzzerlegungseinheit 13 schneidet nacheinander
versetzte Zeitbereiche (die Pages genannt werden) mit vorgeschriebener
Länge heraus,
unterteilt die Sprachdaten in zahlreiche Pages und analysiert die
Frequenzkomponenten einer jeden Page (beispielsweise mit Hilfe der
diskreten Fouriertransformation). Man kann die Pages auch als Rahmen
oder Sprachrahmen bezeichnen.
-
Die
Frequenzkomponentendaten für
jede Page werden in die Veränderungsgrad-Berechnungseinheit 14 eingegeben,
in der der Veränderungsgrad
anhand der Korrelation zwischen benachbarten Pages berechnet wird
(das Berechnungsverfahren wird später beschrieben). Der berechnete
Veränderungsgrad
wird in die Abschnittsbestimmungseinheit 15 eingegeben,
in der Abschnitte, die Intervalle zum Entnehmen von Phonemen bilden,
hinsichtlich ihrer Korrelation spezifiziert werden. Sie werden als
Gruppen von Pages spezifiziert, deren Abschnittsgrenzen (genauer
deren Anfangspositionen) benachbart sind. Die Phonementnahmeeinheit 16 entnimmt
nun Phoneme für
jeden auf diese Weise bestimmten Abschnitt durch Vergleich mit Referenzdaten,
die in der Speichereinheit 17 abgelegt sind. Da Abschnittsgrenzen
als Pagezahlen spezifiziert sind, wenn ein Abschnitt bestimmt wird,
so wird dadurch die Zeitbezugsinformation bezüglich der Zeitpunkte ge wonnen,
zu denen Phoneme wechseln, anders formuliert die Zeitbezugsinformation
zum Festlegen des Zeitpunkts, an dem ein jedem Phonem zugeordnetes
Bild anzuzeigen ist.
-
Die
in der Speichereinheit 17 abgelegten Referenzdaten sind
Referenzdaten, die man durch Mitteln der Ergebnisse erhält, indem
man vorab die Stimmen zahlreicher Personen entsprechend der Prozedur
analysiert, mit der eingegebene Sprache untersucht wird. Die Sprachanalyseeinheit 1 entnimmt
also in der eingegebenen Sprache enthaltene Phoneme und gibt Zeitbezugsinformation
aus, die die Zeitpunkte festlegt, an denen den Phonemen zugeordnete
Bilder anzuzeigen sind.
-
3 zeigt
ein Flussdiagramm zum Erklären
der Verarbeitung in einer Bilderzeugungsvorrichtung gemäß einer
Ausführungsform
der Erfindung. 4 bis 10 sind
ebenfalls Ansichten, die dem Erklären der Schritte im Flussdiagramm
in 3 dienen. 3 wird je
nach Bedarf mit Hilfe dieser Abbildungen erklärt.
-
Zuallererst
erfolgt eine Analog/Digital-Umsetzung (A/D) der eingegebenen Sprache
(S1). Dies geschieht durch das Eingeben der Sprache, die über die
Eingabeeinheit 11 eingegeben wurde, in die AD-Umsetzeinheit 12,
in der das beispielsweise über
ein Mikrophon eingegebene Analogsignal in digitale Daten umgesetzt
wird. Liegt die eingegebene Sprache in Form digitaler Daten vor,
so wird der Schritt S1 weggelassen.
-
Nun
unterteilt die Frequenzzerlegungseinheit 13 die Sprachdaten
in zahlreiche Pages, indem sie nacheinander versetzte Zeitbereiche
(die Pages genannt werden) von vorgeschriebener Länge ausschneidet und
die Frequenzkomponenten einer jeden Page analysiert (S2). Die vorgeschriebene
Länge ist
kürzer
als das kürzeste
Phonem (ungefähr
1/10 Sekunde). Man hat durch Erfahrung herausgefunden, dass man
eine ausreichende Genauigkeit erhält, falls diese vorgeschriebene
Länge ein
Zehntel des kürzesten
Phonems beträgt
(d. h. ungefähr
1/100 Sekunde). Verkürzt
man die vorgeschriebene Länge,
so vergrößert dies
lediglich den Verarbeitungsaufwand, bietet aber keine Vorteile.
Die vorgeschriebene Länge
wird daher bevorzugt auf ungefähr 1/10
Sekunde bis 1/100 Sekunde gesetzt.
-
4 zeigt
eine Ansicht für
die Erklärung
der Pageunterteilung im Schritt S2 in 3. Der Verlauf
der eingegebenen Sprache ist durch eine Kurve dargestellt, wobei
die Zeit auf der Abszisse und die Amplitude auf der Ordinate aufgetragen
sind. Dieser Verlauf wird in eine Anzahl Pages unterteilt, wobei
eine Page als ein Zeitbereich von vorgeschriebener Länge (in
diesem Fall 1024 Punkte, wobei ein Punkt (1/44100) Sekunde ist) aufgefasst
wird, der zum Zeitpunkt D beginnt (Zeitpunkt des Beginns der Spracheingabe),
und diese Pages nacheinander um jedes Mal um 441 Punkte versetzt
werden.
-
Obwohl
in diesem Fall die vorgeschriebene Länge auf 1024 Punkte gesetzt
wurde, sei darauf hingewiesen, dass man diesen Wert geeignet verändern kann,
um beispielsweise die Abtastfrequenz des Sprachsignals oder die
Sprechgeschwindigkeit des Sprechers einzubeziehen. Obgleich in diesem
Fall in den Zeitbereichen überlappende
Abschnitte vorhanden sind, da die Versatzzeit kürzer ist als der Zeitbereich
mit der vorgeschriebenen Länge,
kann man einen Zeitbereich mit vorgeschriebener Länge so wählen, dass
keine überlappenden
Abschnitte auftreten.
-
5 zeigt
eine Ansicht des Zusammenhangs zwischen Frequenz und Amplitude bei
der Analyse der Frequenzkomponenten im Schritt S2 in
3.
Diese Ansicht erhält
man durch das Ausführen
einer diskreten Fouriertransformation mit N Punkten auf der Kurve,
die in jeder Page in
4 enthalten ist. Stellt man
im Einzelnen die Amplitude an einem Punkt N in der Page m durch
{x(m, k)[k = 0...N-1} dar, so kann man die diskrete Fouriertransformation
durch die folgende Gleichung (A) ausdrücken.
wobei gilt
-
Da
dieser Ausdruck symmetrisch zur Amplitudenachse ist (siehe 5),
reicht es aus, nur den positiven Frequenzbereich zu verwenden.
-
6 zeigt
eine Ansicht der Ergebnisse der Frequenzzerlegung bezüglich einer
Anzahl Pages. In 6 sind zur Vereinfachung die
Frequenzkomponentenkurven mit gleicher Form nebeneinander angeordnet. In
Wirklichkeit unterscheiden sich die Frequenzkomponentenkurven für jede Page,
da sich die Verläufe
der eingegebenen Sprache abhängig
von der verstrichenen Zeit unterscheiden.
-
Die
Veränderungsgrad-Berechnungseinheit 14 berechnet
nun zuerst mit Hilfe der Gleichung (B) die Korrelation zwischen
benachbarten Pages (S3).
-
-
Die
Art und Weise, in der die Korrelation berechnet wird, und die Bedeutung
der Gleichung (B) wird anhand von 7 beschrieben.
-
7 zeigt
eine Ansicht, die darstellt, wie eine Berechnung der Korrelation
zwischen benachbarten Pages erfolgt. 7 ist ein
Beispiel für
das Berechnen der Korrelation beispielsweise der Page m und der Page
(m+1) (d. h. für
den Fall dass in Gleichung (B) gilt x = m) aus den benachbarten
Pages in 6. Die Korrelation erhält man aus
der Summe für
N Punkte der Werte, die man durch Multiplizieren der Amplituden gewinnt,
die in jeder der Pages zur gleichen Frequenzkomponente gehören. In 7 werden
zuerst die Amplitude A (m, k) der Page m und die Amplitude A (m+1,
k) der Page (m+1), die zur gleichen Frequenzkomponente k gehören, multipliziert.
Die Korrelation der Page m und der Page (m+1) berechnet man aus
der Summe für
k zwischen 0 und N-1.
-
Die
Veränderungsgrad-Berechnungseinheit 14 mittelt
dann die mit Gleichung (B) bestimmte Korrelation mit Hilfe der Gleichung
(C), um Rauschen zu entfernen (S4).
-
-
Je
geringer die Formänderung
der Kurve der Frequenzkomponenten bei einem Wechsel der Pages ist,
umso kleiner ist die Veränderung
im Korrelationswert Q(x), den man aus Gleichung (C) erhält. Verändert sich
dagegen die Kurvenform der Frequenzkomponenten, so tritt verglichen
mit der Korrelation benachbarter und folgender Pages eine große Änderung
im Korrelationswert Q(x) auf. Damit können Pages, an denen eine Änderung
der Frequenzkomponentenkurve erfolgt, als definierend für die Grenzorte
neuer Phoneme angesehen werden (d. h. als Abschnittsgrenzen). Nimmt
man die Differenz zwischen Korrelationen als Veränderungsgrad, so kann man einen
Abschnitt dadurch definieren, dass man benachbarte Pages spezifiziert,
die die Bedingung erfüllen,
dass der Veränderungsgrad
dort verglichen mit den vorhergehenden und folgenden Veränderungsgraden
größer ist
als in diesen beiden Fällen
(S5). Im Schritt S5 legt die Abschnittsbestimmungseinheit 15 anhand
der Differenzfunktion der Korrelationen benachbarte Pages fest,
die die angegebenen Bedingung erfüllen. Hierzu verwendet man die
vom Rauschen befreite Korrelation Q(x). Die weitere Beschreibung
erfolgt nun mit Hilfe von 8. Der Veränderungsgrad,
d. h. die Differenzen zwischen Korrelationen, kann durch S(y) =
Q(y+1) – Q(y)
ausgedrückt
werden.
-
8 zeigt
eine Ansicht des Zusammenhangs zwischen einem mit einer Page verbundenen
Parameter y und der Differenz S(y) der Korrelation. S(1), das dem
mit der Page verbundenen Parameter y = 1 zugeordnet ist, bedeutet
einen Wert, den man durch Subtrahieren der Korrelationen (Q(1))
der benachbarten ersten Page und zweiten Page von der Korrelation
(Q(2)) der benachbarten zweiten Page und dritten Page erhält. Obwohl
man eine Page durch den mit der Page verbundenen Parameter nicht
direkt spezifizieren kann, wird dadurch eine Gruppe benachbarter
Pages festgelegt, die eine Abschnittsgrenze bestimmen.
-
Gruppen
benachbarter Pages, die natürlichen
Zahlen y zugeordnet sind, für
die dieser Veränderungsgrad
S(y) erfüllt
S(y-1) < S(y) und
S(y+1) < S(y) werden
nun als Anfangspositionen von Phonemen festgelegt. Wie angegeben
verändert
sich der Verlauf einer eingegebenen Sprache an den Stellen beträchtlich,
an denen sich Phoneme ändern.
Damit geben Orte, die ausgeprägte Änderungen
zeigen, die Anfangspositionen neuer Phoneme an. Im Fall von 8 gibt
es vier Orte, an denen die natürliche
Zahl y die Bedingungen S(y-1) < S(y) und
S(y+1) < S(y) erfüllt (diese
Orte werden jeweils als mit der Page verbundene Parameter y1, y2, y3 und
y4 bezeichnet). Damit werden aus dem ersten
bis vierten Abschnitt vier Phoneme entnommen.
-
Der
mit der Page verbundene Parameter y1 bezeichnet
die Page y1 oder y1 +
1 als Abschnittsanfangsseite. Es ist unerheblich, welche der beiden
Pages verwendet wird. Im analysierten Sprachsignal werden dieses
Pages als gleich betrachtet. Das Gleiche gilt für die weiteren mit Pages verbundenen
Parameter, die die Abschnittsanfangspositionen festlegen. Nun berechnet
die Phonementnahmeeinheit 16 für jeden im Schritt S5 bestimmten
Abschnitt eine charakteristische Größe (S6). Ein gängiges Verfahren
zum Berechnen gewöhnlicher
charakteristischer Größen besteht
beispielsweise darin, die eingegebene Sprache in jedem Abschnitt
in Frequenzkomponenten zu zerlegen, daraufhin eine inverse Fouriertransformation
vorzunehmen und dann eine Cepstrumanalyse. Ein Beispiel dafür besteht
darin, die eingegebene Sprache für
jeden Abschnitt in Frequenzkomponenten zu zerlegen und die Amplitude
dieser Frequenzkomponenten als charakteristische Größen zu verwenden.
Fallen Abschnitt und Page zusammen, so kann man die im Schritt S2
für jede
Page bestimmten Ergebnisse der Frequenzzerlegung verwenden.
-
9 zeigt
eine Ansicht für
die Erklärung
der Frequenzzerlegung für
jeden Abschnitt. Dabei ist erläutert,
wie Frequenzkomponenten bei einer diskreten Fouriertransformation
mit N Punkten für
jeden Abschnitt berechnet werden. In 9 sind zur
Vereinfachung die Frequenzkomponentenkurven mit gleicher Form nebeneinander
angeordnet. In Wirklichkeit unterscheiden sich die Frequenzkomponentenkurven
für jede
Page, da sich die Verläufe
der eingegebenen Sprache abhängig
von der verstrichenen Zeit unterscheiden.
-
Nun
werden Phoneme durch den Vergleich mit Referenzdaten entnommen (S7).
Als Referenzdaten werden Daten verendet, die man durch Mitteln der
Ergebnisse aus der obigen Prozedur mit den Schritten S1 bis S6 für zahlreiche
Personen vorab bestimmt. Nach dem Erzeugen und Ablegen derartiger
Referenzdaten in der Speichereinheit 17 kann man eine stabile
Phonementnahme unabhängig
davon erzielen, ob sich nachfolgend die Benutzer ändern. Es
ist insbesondere die Anwendung auf eine unbestimmt große Anzahl
von Benutzern möglich.
Als Vergleichsverfahren kann man bekannte Vorgehensweisen verwenden,
beispielsweise den DP-Vergleich.
-
Mit
Hilfe der Verarbeitung in den obigen Schritten S1 bis S7 kann man
Abschnitte und Phoneme und die Pages der Abschnittsgrenzen festlegen,
die in der eingegebenen Sprache enthalten sind. Sind die Pages der
Abschnittsgrenzen in dieser Ausführungsform
festgelegt, so ist auch die Entnahme der Zeitbezugsinformation abgeschlossen,
da die Umwandlung auf einen Zeitpunkt erreicht werden kann, indem
man {Anfangszeitpunkt D + Produkt aus 441 Punkten und (Page der
Abschnittsgrenze – 1)}
verwendet. Anschließend
wird entsprechend dem Phonem eine Animation gemäß der in 1 beschriebenen
Anordnung angezeigt und dazu die Phonem- und Zeitbezugsinformation
verwendet, die die Sprachanalyseeinheit 1 ausgibt (S8).
-
10 zeigt
eine Ansicht zum Erklären
einer Animation entsprechend zu Phonemen. Sei beispielsweise angenommen,
dass Dateien als entnommene Phoneme gewählt werden, und dass Referenzdaten
für jeden
Vokal in der Speichereinheit 17 hinterlegt sind. Sind Daten,
die der Animation für
jeden in 10 dargestellten Vokal zugeordnet
sind, im Arbeits-RAM 3 gespeichert, so kann man eine Animation
entsprechend zu jedem Vokal anzeigen, der in der eingegebenen Sprache
enthalten ist, indem man die Bilderzeugungsvorrichtung in 1 verwendet.
Beispielsweise kann man Animationsbilder, die einem jeden Vokal
zugeordnet sind, dadurch anzeigen, dass man dem Bild "a" in 10 den
Vokal "a" zuordnet und dem
Bild "i" in 10 den Vokal "i".
-
Wie
beschrieben kann man mit dieser Ausführungsform der Erfindung eine
rasche Sprachanalyseverarbeitung in Echtzeit einfach dadurch erzielen,
dass man die Ergebnisse der Analyse der eingegebenen Sprache zahlreicher
Personen vorab als Referenzdaten herstellt, ohne dass es erforderlich
ist, Referenzmuster für jeden
Sprecher zu erzeugen. Da ein Einordnungsvorgang der Referenzmuster
für jeden
Sprecher nicht erforderlich ist und das Referenzmuster nur ein Mal
erzeugt werden muss, kann man eine unbestimmt große Anzahl von
Sprechern abdecken. Da man zudem keine Datenbank zum Speichern der
Referenzmuster eines jeden Sprechers benötigt, ist eine Installation
auch auf Anlagen mit geringer Speicherkapazität möglich.
-
Beispiele
für mögliche Anwendungen
umfassen die Animation für
Online-Gesprächsforen,
Animation in Videospielen (insbesondere in Videospielen, die im
Konversationsmodus gespielt werden, oder in Rollenspielen), oder
in unbemannten Empfangssystemen, die in Kliniken oder Finanzinstitutionen
usw. verwendet werden.
-
In
dieser Ausführungsform
ist ein Verfahren beschrieben, das als Bilderzeugungsvorrichtung
implementiert ist. Man beachte, dass eine Implementierung auch als
Verfahren oder Programm möglich
ist, das gemäß dem Flussdiagramm
in 3 verarbeitet wird. Zudem ist in dieser Ausführungsform
ein Verfahren beschrieben, das als Bilderzeugungsvorrichtung implementiert
ist. Eine Anwendung ist auch beispielsweise als Sprache/Schrift-Umsetzvorrichtung
möglich,
wobei den Phonemen entsprechende Buchstaben angezeigt werden. In
diesem Fall wird der Funktionsblock, der in der Anordnung in 1 eine
Animation darstellt (der Funktionsblock, der die Sprachanalyseeinheit 1 in 1 nicht
enthält),
durch einen Funktionsblock ersetzt, der Buchstaben anzeigt. Den
Schritt S8 (Flussdiagramm in 3), der
die Animation anzeigt, kann man so verändern, dass er Buchstaben anzeigt.
In dieser Ausführungsform
ist ein Verfahren beschrieben, in dem die Implementierung als Bilderzeugungsvorrichtung
erfolgt, die eine Sprachanalyseeinheit 1 enthält. Eine
Implementierung der Sprachanalyseeinheit als unabhängige Vorrichtung
(Sprachanalysevorrichtung) ist jedoch ebenfalls möglich. In
diesem Fall lässt
man den Schritt S8 in Flussdiagramm in 3 weg, und
die Phoneme oder die Zeitbezugsinformationen, die von der Sprachanalysevorrichtung
ausgegeben werden, werden in einer getrennten Vorrichtung verarbeitet,
die daran angeschlossen ist.