DE602005000896T2

DE602005000896T2 - Sprachsegmentierung

Info

Publication number: DE602005000896T2
Application number: DE602005000896T
Authority: DE
Inventors: Hirokazu Ohta-ku Tokyo Kudoh
Original assignee: Sega Corp
Current assignee: Sega Corp
Priority date: 2004-02-26
Filing date: 2005-02-22
Publication date: 2008-01-17
Anticipated expiration: 2025-02-23
Also published as: EP1569201B1; US7680660B2; JP2005241997A; JP4792703B2; ES2284133T3; EP1569201A1; CN1319042C; CN1661675A; US20050192805A1; DE602005000896D1

Description

HINTERGRUND DER ERFINDUNG
1. Gebiet der Erfindung
Die Erfindung betrifft eine Sprachanalysevorrichtung, ein Sprachanalyseprogramm und ein Sprachanalyseverfahren. Sie betrifft genauer eine Bilderzeugungsvorrichtung, in der ein Sprachanalyseverfahren der Erfindung eingesetzt wird und insbesondere eine Bilderzeugungsvorrichtung für die Lippensynchronisations-Animation, die eine Animation (Lippensynchronisations-Animation) erzeugt, bei der sich die Mundform abhängig von der Sprache ändert.
2. Beschreibung des Stands der Technik
Sprachanalysetechniken werden derzeit auf unterschiedlichen Gebieten eingesetzt. Beispiele sind das Erkennen eines Sprechers an der Stimme, das Umwandeln von Sprache in Text oder das Erzeugen einer Lippensynchronisations-Animation, bei der sich die Mundform abhängig von der Sprache ändert. Die Verarbeitung, die in diesen Fällen jeweils erfolgt, umfasst: im Fall der Sprachanalysetechnik das Entnehmen von Phonemen aus der Sprache, d. h. der Einheiten, die zum Unterscheiden der Bedeutung von Wörtern verwendet werden; im Fall der Sprechererkennung das Identifizieren eines Sprechers mit Hilfe des Übereinstimmungsgrads zwischen entnommenen Phonemen und Referenzmustern, die vorab aufgezeichnet wurden; im Fall der Textumwandlung das Anzeigen von Buchstaben, die den entnommenen Phonemen entsprechen, auf einer Anzeige oder einer ähnlichen Vorrichtung; und im Fall der Lippensynchronisations-Animation das Darstellen eines Bilds entsprechenden zu den entnommenen Phonemen auf einer Anzeige oder einer ähnlichen Vorrichtung.
Man kennt die folgenden Verfahren zum Entnehmen von Phonemen aus Sprache. Beispielsweise werden in dem Sprechererkennungssystem, das in der veröffentlichten japanischen Patentschrift Nr. H6-32007 offenbart ist, Phoneme dadurch entnommen, dass man für jeden Vokal Intervalle so bestimmt, dass der Abstand zwischen einem vorab eingegebenen Referenzmuster und der Sprache des Sprechers geringer ist als ein vorbestimmter Wert, und dass man eine Entsprechung zwischen diesen Intervallen und den Vokalen herstellt.
Derartige Intervalle zum Entnehmen von Phonemen nennt man Abschnitte. In der Erzeugungsvorrichtung für animierte Bilder der veröffentlichten japanischen Patentschrift Nr. 2003-233389 nimmt man eine Formantenanalyse vor, in der beispielsweise Composite Sinusoidal Modeling (CSM) verwendet wird, und Phoneme werden ausgehend von Formanteninformation entnommen, um Vokale zu charakterisieren.
ZUSAMMENFASSUNG DER ERFINDUNG
Um die Feststellung von Abschnitten mit Hilfe der Entfernung von einem Referenzmuster vorzunehmen, muss man eine Datenbank bereithalten, in der Referenzmuster für jeden Sprecher registriert sind. Dies führt jedoch unvermeidbar zu einer sehr umfangreichen Datenmenge, die von der Anzahl der Sprecher abhängt. Dadurch verlängert sich die Verarbeitungszeit, die für die Sprachanalyse erforderlich ist. Es ist daher schwierig, diese Vorgehensweise in Situationen anzuwenden, in denen eine Echtzeitverarbeitung erforderlich ist (beispielsweise beim Erzeugen einer Lippensynchronisations-Animation). Wird ein neuer Sprecher aufgenommen, so muss man die Referenzmuster des neuen Sprechers in die Datenbank eintragen. Die Verwaltung der Datenbank wird daher mühsam, und das System ist bei einer unbestimmt großen Anzahl von Sprechern schwierig anzuwenden.
Im gegenwärtigen Zustand ist es so, dass die Phonementnahme mit Hilfe von Formanteninformation schwierig in Situationen anzuwenden ist, die einer Echtzeitverarbeitung bedürfen, und zwar aufgrund der für eine solche Verarbeitung benötigten Zeit. Neben diesen Vorgehensweisen kennt man ein Phonementnahmeverfahren, in dem beispielsweise eine Cepstrumanalyse mit LPC (Linear Predictive Coding) verwendet wird. Es hat sich gezeigt, dass die Genauigkeit der Phonementnahme mit diesem Verfahren wächst, wenn die Anzahl der Wiederholungen wächst, d. h., es tritt ein Lerneffekt auf. Andererseits ist es zum Erhöhen der Entnahmegenauigkeit erforderlich, Analyseergebnisse für eine große Anzahl Lernsignale vorab zu erzeugen. Es ist daher schwierig, dieses Verfahren bei einer unbestimmt großen Anzahl von Sprechern anzuwenden.
Zudem ist bekannt, dass sich die Art der spektralen Einhüllenden abhängig von dem Repräsentationsverfahren oder dem Entnahmeverfahren beträchtlich ändert, und beispielsweise von der Feststellung des Grads oder der Anzahl der Wiederholungen beeinflusst wird, so dass auf Seite des Analysten Können erforderlich ist.
Der Stand der Technik kennt ein auf einem Computer ausführbares Verfahren zur Sprachanalyse, das Grenzen von Phonemen in einem eingegebenen Sprachsignal erkennt, indem eine Technik verwendet wird, die auf den Gebrauch einer akustisch-phonetischen HMM-Erkennungseinheit beruht (HMM = Hidden Markov Model). Sowohl der Erkenner als auch das Segmentierungssystem nutzen DARPA-TIMIT, die akustisch-phonetische Datenbank für kontinuierliche Sprache des American English. Das System liefert einen akzeptablen Anteil an korrekter Grenzerkennung und ist offenbart in der Veröffentlichung von BRUGNARA F ET AL: "AUTOMATIC SEGMENTATION AND LABELING OF SPEECH BASED ON HIDDEN MARKOV MODELS" SPEECH COMMUNICATION, ELSE-VIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 12, no. 4, 1 August 1993 (1993-08-01), pages 357–370, XP000393652 ISSN: 0167-6393.
Es ist Aufgabe der Erfindung, eine Sprachanalysevorrichtung und ein Sprachanalyseverfahren bereitzustellen, mit denen man eine Echtzeit-Sprachanalyseverarbeitung vornehmen kann, und bei denen man eine große Anzahl Sprecher verwenden kann, ohne dass man Referenzmuster für jeden Sprecher vorhalten muss. Eine Anwendung der Erfindung stellt eine Animations-Bilderzeugungsvorrichtung bereit, die durch Anwenden dieses Sprachanalyseverfahrens der Echtzeitverarbeitung fähig ist.
Es werden nun verschiedene Aspekte der Erfindung beschrieben. Dabei ist zu beachten, die "Veränderungsgrade", auf die Bezug genommen wird, tatsächlich Differenzen zwischen den angegebenen Korrelationen sind. Die Erfindung ist durch die beigefügten unabhängigen Ansprüche bestimmt.
Gemäß einem ersten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines computerausführbaren Verfahrens zur Sprachanalyse, das Grenzen von Phonemen an eingegebenen Sprachsignalen erkennt, umfassend: einen ersten Schritt, der einen Zeitpunkt in dem eingegebenen Sprachsignal festlegt;
einen zweiten Schritt, der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener Länge ab dem Zeitpunkt enthalten ist; und
einen dritten Schritt, in dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird, wobei:
n aus dem Sprachsignal entnommene Frequenzkomponentendaten, die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten sind, dadurch gefunden werden, dass man den ersten, zweiten und dritten Schritt für jede vorgeschriebene Zeit n Mal wiederholt (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat);
(n-1) Korrelationen in den n Frequenzkomponentendaten gefunden werden, indem man die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist;
(n-2) Veränderungsgrade aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist);
wenn m definiert wird als die Zahl, die den Veränderungsgrad festlegt, der größer ist als zwei Veränderungsgrade benachbart zu dem festlegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die definierte Zahl m gefunden ist;
ein Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festgelegt wird; und
das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt wird.
Gemäß einem zweiten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Verfahrens zur Sprachanalyse gemäß dem ersten Aspekt, zudem umfassend:
das Berechnen charakteristischer Größen für jeden Abschnitt der unterteilten Sprachsignale, und
das Spezifizieren der Phoneme der Abschnitte durch den Vergleich der charakteristischen Größen mit Referenzdaten für jedes Phonem.
Gemäß einem dritten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Verfahrens zur Sprachanalyse gemäß dem ersten Aspekt, wobei die vorgeschriebene Zeit über den Zeitbereich mit der vorgeschriebenen Länge verschoben wird, damit sich gegenseitig überlappende Abschnitte erzeugt werden.
Gemäß einem vierten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Verfahrens zur Sprachanalyse gemäß dem ersten Aspekt, wobei die Korrelation ein Wert ist, den man durch Summieren der Produkte der Amplituden erhält, die zu den gleichen Frequenzkomponenten gehören.
Gemäß einem fünften Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Verfahrens zur Sprachanalyse gemäß dem ersten Aspekt, wobei man die Frequenzkomponentendaten durch die Fouriertransformation von Frequenzkomponenten des entnommenen Sprachsignals bestimmt.
Gemäß einem sechsten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Verfahrens zur Sprachanalyse gemäß dem zweiten Aspekt, wobei man die charakteristischen Größen abhängig von einer Amplitude einer jeden Frequenzkomponente bestimmt, die man durch Fouriertransformation des Sprachsignals erhält, das in dem Abschnitt des unterteilten Sprachsignals enthalten ist, den man durch die Unterteilung gewinnt.
Gemäß einem siebten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines computerausführbaren Verfahrens der Animationsbilderzeugung, das ein Bild entsprechend den Unterteilungen der Phoneme aus einem eingegebenen Sprachsignal darstellt, umfassend:
einen ersten Schritt, der einen Zeitpunkt in dem eingegebenen Sprachsignal festlegt;
einen zweiten Schritt, der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener Länge ab dem Zeitpunkt enthalten ist; und
einen dritten Schritt, in dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird, wobei:
n aus dem Sprachsignal entnommene Frequenzkomponentendaten, die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten sind, dadurch gefunden werden, dass man den ersten, zweiten und dritten Schritt für jede vorgeschriebene Zeit n Mal wiederholt (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat);
(n-1) Korrelationen in den n Frequenzkomponentendaten gefunden werden, indem man die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist;
(n-2) Veränderungsgrade aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist);
wenn m definiert wird als die Zahl, die den Veränderungsgrad festlegt, der größer ist als zwei Veränderungsgrade benachbart zu dem festlegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die definierte Zahl m gefunden ist;
ein Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festgelegt wird;
das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt wird;
charakteristische Größen für jeden Abschnitt der unterteilten Sprachsignale berechnet werden;
die Phoneme der Abschnitte durch das Vergleichen der charakteristischen Größen mit Referenzdaten für jedes Phonem spezifiziert werden; und
Bilder entsprechend den Phonemen der Abschnitte dargestellt werden, die in einer Weise verändert werden, die auf die Abschnitte abgestimmt ist.
Gemäß einem achten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Sprachanalyseprogramms, das auf einem Computer ausführbar ist, der eine CPU enthält, und das die Grenzen von Phonemen in eingegebener Sprache erkennt, wobei das Programm die CPU veranlasst auszuführen:
einen ersten Schritt, der einen Zeitpunkt in dem eingegebenen Sprachsignal festlegt;
einen zweiten Schritt, der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener Länge ab dem Zeitpunkt enthalten ist; und
einen dritten Schritt, in dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird, wobei:
n aus dem Sprachsignal entnommene Frequenzkomponentendaten, die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten sind, dadurch gefunden werden, dass die CPU den ersten, zweiten und dritten Schritt für jede vorgeschriebene Zeit n Mal wiederholt (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat);
(n-1) Korrelationen in den n Frequenzkomponentendaten gefunden werden, indem man die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist;
(n-2) Veränderungsgrade aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist);
wenn m definiert wird als die Zahl, die den Veränderungsgrad festlegt, der größer ist als zwei Veränderungsgrade benachbart zu dem festlegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die definierte Zahl m gefunden ist;
ein Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festgelegt wird; und
das eingegebene Sprachsignal von der CPU entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt wird.
Gemäß einem neunten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Sprachanalyseprogramms gemäß dem achten Aspekt, das die CPU veranlasst, zudem auszuführen:
das Berechnen charakteristischer Größen für jeden Abschnitt der unterteilten Sprachsignale und das Spezifizieren von Phonemen der Abschnitte durch das Vergleichen der charakteristischen Größen mit Referenzdaten für jedes Phonem.
Gemäß einem zehnten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Sprachanalyseprogramms gemäß dem neunten Aspekt, worin die vorgeschriebene Zeit über den Zeitbereich mit der vorgeschriebenen Länge verschoben wird, damit sich gegenseitig überlappende Abschnitte erzeugt werden;
die Korrelation ein Wert ist, den man durch Summieren der Produkte der Amplituden erhält, die zu den gleichen Frequenzkomponenten gehören;
man die Frequenzkomponentendaten durch die Fouriertransformation von entnommenen Frequenzkomponenten des Sprachsignals bestimmt; und
man die charakteristischen Größen abhängig von einer Amplitude einer jeden Frequenzkomponente bestimmt, die man durch Fouriertransformation des Sprachsignals erhält, das in dem Abschnitt des unterteilten Sprachsignals enthalten ist.
Gemäß einem elften Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Animationsbild-Erzeugungsprogramms, das auf einem Computer ausführbar ist, der eine CPU enthält, und das ein Bild entsprechend den Unterteilungen vom Phonemen in einem eingegebenen Sprachsignal darstellt, wobei das Programm die CPU veranlasst auszuführen:
einen ersten Schritt, der einen Zeitpunkt in dem eingegebenen Sprachsignal festlegt;
einen zweiten Schritt, der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener Länge ab dem Zeitpunkt enthalten ist; und
einen dritten Schritt, in dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird, wobei:
n aus dem Sprachsignal entnommene Frequenzkomponentendaten, die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten sind, dadurch gefunden werden, dass der erste, zweite und dritte Schritt für jede vorgeschriebene Zeit n Mal wiederholt wird (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat);
(n-1) Korrelationen in den n Frequenzkomponentendaten gefunden werden, indem man die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist;
(n-2) Veränderungsgrade aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist);
wenn m definiert wird als die Zahl, die den Veränderungsgrad festlegt, der größer ist als zwei Veränderungsgrade benachbart zu dem festlegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die definierte Zahl m gefunden ist;
ein Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festgelegt wird;
das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt wird;
charakteristische Größen für jeden Abschnitt der unterteilten Sprachsignale berechnet werden;
die Phoneme der Abschnitte durch das Vergleichen der charakteristischen Größen mit Referenzdaten für jedes Phonem spezifiziert werden; und
Bilder entsprechend den Phonemen der Abschnitte dargestellt werden, die in einer Weise verändert werden, die auf die Abschnitte abgestimmt ist.
Gemäß einem zwölften Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Speichermediums, das ein Programm gemäß irgendeinem der Aspekte acht bis elf speichert.
Gemäß einem dreizehnten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen einer Sprachanalysevorrichtung, die enthält:
eine Frequenzzerlegungseinheit, die n Frequenzkomponentendaten findet, die aus einem Sprachsignal entnommen werden, das in n Zeitbereichen mit vorgeschriebener Länge enthalten ist (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat), und zwar durch n-maliges Wiederholen in vorgeschriebenen Intervallen, damit ein Zeitpunkt in einem eingegebenen Sprachsignal festgelegt wird, damit ein Sprachsignal entnommen wird, das in einem Zeitbereich der vorgeschriebenen Länge ab dem Zeitpunkt enthalten ist, und damit das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird;
eine Veränderungsgrad-Berechnungseinheit, die (n-1) Korrelationen in den n Frequenzkomponentendaten findet, indem sie die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist, und die (n-2) Veränderungsgrade aus den (n-1) Korrelationen findet, indem sie den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist); und
eine Abschnittsbestimmungseinheit, die eine definierte Zahl findet, wobei die definierte Zahl m als diejenige Zahl definiert ist, die den Veränderungsgrad angibt, der größer ist als zwei Veränderungsgrade benachbart zu dem festgelegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. die definierte Zahl m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die einen Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festlegt, und die das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt.
Gemäß einem vierzehnten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen einer Animationsbild-Erzeugungsvorrichtung, die enthält:
eine Frequenzzerlegungseinheit, die n Frequenzkomponentendaten findet, die aus einem Sprachsignal entnommen werden, das in n Zeitbereichen mit vorgeschriebener Länge enthalten ist (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat), und zwar durch n-maliges Wiederholen in vorgeschriebenen Intervallen, damit ein Zeitpunkt in einem eingegebenen Sprachsignal festgelegt wird, damit ein Sprachsignal entnommen wird, das in einem Zeitbereich der vorgeschriebenen Länge ab dem Zeitpunkt enthalten ist, und damit das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird;
eine Veränderungsgrad-Berechnungseinheit, die (n-1) Korrelationen in den n Frequenzkomponentendaten findet, indem sie die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist, und die (n-2) Veränderungsgrade aus den (n-1) Korrelationen findet, indem sie den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist);
eine Abschnittsbestimmungseinheit, die eine definierte Zahl findet, wobei die definierte Zahl m als diejenige Zahl definiert ist, die den Veränderungsgrad angibt, der größer ist als zwei Veränderungsgrade benachbart zu dem festlegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. die definierte Zahl m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die einen Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festlegt, und die das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt;
eine Phonementnahmeeinheit, die die Phoneme der Abschnitte durch das Berechnen charakteristischer Größen für jeden Abschnitt des unterteilten Sprachsignals spezifiziert, und die die charakteristischen Größen mit Referenzdaten für jedes Phonem vergleicht; und
eine Animationsanzeigeeinheit, die Bilder darstellt, die den Phonemen der Abschnitte entsprechen, wobei sich diese Bilder in einer Weise verändern, die auf die Abschnitte abgestimmt ist.
Durch das Anwenden der Erfindung kann man eine rasche Sprachanalyseverarbeitung in Echtzeit einfach dadurch erreichen, dass die Ergebnisse der Analyse der eingegebenen Sprache einer Anzahl Personen vorab als Referenzdaten vorbereitet werden ohne dass man Referenzmuster für jeden Sprecher erzeugen muss. Da zudem ein Registriervorgang von Referenzmustern für jeden Sprecher nicht erforderlich ist und das Referenzmuster nur ein Mal angefertigt werden muss, kann eine unbegrenzt große Anzahl von Sprechern damit abgedeckt werden. Da ferner eine Datenbank zum Speichern der Referenzmuster für jeden Sprecher nicht erforderlich ist, ist auch eine Installation in einer Anlage mit geringer Speicherkapazität möglich.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Es zeigt:
1 ein Anordnungsblockdiagramm einer Bilderzeugungsvorrichtung gemäß einer Ausführungsform der Erfindung;
2 ein Anordnungsblockdiagramm einer Sprachanalyseeinheit (Sprachanalysevorrichtung) der Erfindung;
3 ein Flussdiagramm zum Erklären der Verarbeitung in einer Bilderzeugungsvorrichtung gemäß einer Ausführungsform der Erfindung;
4 eine Ansicht für die Erklärung der Pageunterteilung im Schritt S2 in 3; 5 eine Ansicht des Zusammenhangs zwischen Frequenz und Amplitude bei der Analyse der Frequenzkomponenten im Schritt S2 in 3;
6 eine Ansicht der Ergebnisse der Frequenzzerlegung bezüglich einer Anzahl Pages;
7 eine Ansicht, die darstellt, wie eine Berechnung der Korrelation zwischen benachbarten Pages erfolgt;
8 eine Ansicht des Zusammenhangs zwischen einem mit einer Page verbundenen Parameter y und der Differenz S(y) der Korrelation;
9 eine Ansicht für die Erklärung der Frequenzzerlegung für jeden Abschnitt; und
10 eine Ansicht zum Erklären einer Animation entsprechend zu Phonemen.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Im Weiteren werden Ausführungsformen der Erfindung anhand der Zeichnungen beschrieben. Der technische Bereich der Erfindung ist jedoch in den Patentansprüchen beschrieben.
1 zeigt ein Anordnungsblockdiagramm einer Bilderzeugungsvorrichtung gemäß einer Ausführungsform der Erfindung. Es handelt sich um eine Animationserzeugungsvorrichtung für die Lippensynchronisation, die eine Animation entsprechend einer eingegebenen Stimme erzeugt. Eine Bilderzeugungsvorrichtung gemäß dieser Ausführungsform enthält als Sprachanalyseeinheit 1 eine Sprachanalysevorrichtung der Erfindung und weist zusätzlich eine CPU 2, ein Arbeits-RAM 3, eine Geometrieberechnungseinheit 4, einen Renderer 5, eine Texturerzeugungseinheit 6, ein Textur-RAM 7, eine Anzeigeeinheit 8 und einen Framepuffer 9 auf. Diese Funktionseinheiten sind mit Hilfe eines Programms implementiert, das die CPU 2 (CPU = Central Processing Unit) ausführt, die in der Bilderzeugungsvorrichtung bereitgestellt ist. Man könnte die Funktionseinheiten jedoch auch in Hardware implementieren.
Die CPU 2 kontrolliert ein Programm, das ein Bild erzeugt. Die Programme oder Daten, die die CPU 2 verwendet, sind im Arbeits-RAM 3 gespeichert. Die Sprachanalyseeinheit 1 analysiert eingegebene Sprache und entnimmt Phoneme, die in der eingegebenen Sprache enthalten sind. Sie gibt Zeitbezugsinformationen aus, die die Darstellungszeit eines Bilds zugeordnet zu jedem Phonem festlegen.
Gesteuert durch die CPU 2 liest die Geometrieberechnungseinheit 4 Polygondaten aus dem Arbeits-RAM 3 ein, die dreidimensionale Objektdaten in einem Welt-Koordinatensystem aufbauen. Daraufhin nimmt sie eine Koordinatentransformation auf Daten in einem Betrachtungspunkt-Koordinatensystem vor, dessen Ursprung der Betrachtungspunkt ist. Die in der Geometrieberechnungseinheit 4 bearbeiteten Polygondaten werden in den Renderer 5 eingegeben, in dem die Daten in Polygoneinheiten in Pixeleinheitendaten umgesetzt werden.
Die Pixeleinheitendaten werden in die Texturerzeugungseinheit 6 eingegeben, in der Texturfarbe in Pixeleinheiten erzeugt wird, und zwar abhängig von den im Textur-RAM 7 gespeicherten Texturdaten. Die Anzeigeeinheit 8 nimmt eine Verarbeitung zum Entfernen verdeckter Flächen und/oder eine Schattierung vor wie dies die Bilddaten von der Texturerzeugungseinheit 6 erfordern, und sie schreibt anschließend die Daten in den Framepuffer 9, wobei sie in zweidimensionale Koordinaten umgewandelt werden. Die in den Framepuffer 9 geschriebenen Daten werden wiederholt gelesen und in ein Videosignal umgesetzt, das ausgegeben wird. Auf diese Weise werden den jeweiligen Phonemen entsprechende Bilder verändert und beispielsweise auf einer Anzeige (nicht dargestellt) entsprechend der Zeitbezugsinformation angezeigt. Der Funktionsblock in 1, der die Sprachanalyseeinheit 1 nicht enthält, ist eine Animationsanzeigeeinheit, die Animationen darstellt.
2 zeigt ein Anordnungsblockdiagramm einer Sprachanalyseeinheit (Sprachanalysevorrichtung) der Erfindung. Die Sprachanalyseeinheit 1 besitzt eine Eingabeeinheit 11, eine AD-Umsetzeinheit 12, eine Frequenzzerlegungseinheit 13, eine Veränderungsgrad-Berechnungseinheit 14, eine Abschnittsbestimmungseinheit 15, eine Phonementnahmeeinheit 16 und eine Speichereinheit 17. Diese Funktionseinheiten sind mit Hilfe eines Programms implementiert, das die CPU (CPU = Central Processing Unit) ausführt. Man könnte die Funktionseinheiten jedoch auch in Hardware implementieren. Ist eine CPU in der Sprachanalyseeinheit 1 enthalten, so kann die (nicht dargestellte) in der Sprachanalyseeinheit 1 enthaltene CPU verwendet werden, oder es kann eine externe CPU (beispielsweise die CPU 2 in 1) verwendet werden.
Die Eingabeeinheit 11 ist eine Schnittstelle, in die Sprache eingegeben wird. Die Spracheingabe in die Sprachanalyseeinheit 1 erfolgt beispielsweise mit Hilfe eines Eingangssignals von einem Mikrophon oder eines Ausgangssignals eines Audiogeräts, das über ein Audiokabel angeschlossen ist. In diesem Fall weist die Eingabeeinheit 11 die entsprechenden Eingangsanschlüsse für. die Verbindung mit einem Mikrophon oder Audiokabel auf. Die Sprache kann auch mit Hilfe digitaler Daten eingegeben werden, beispielsweise einer Wave-Datei oder einer MP3-Datei (MPEG 1 Audio Layer 3). In diesem Fall ist die Eingabeeinheit 11 mit einer Anschlussschnittstelle für die Datenübertragung versehen (beispielsweise einer USB-Schnittstelle (Universal Serial Bus), einer Parallelschnittstelle, einer IEEE-1394-Schnittstelle (IEEE = Institute of Electrical and Electronical Engineers) oder einem internen Bus).
Sind die eingegebenen Sprachdaten ein Analogsignal, so werden diese in einer Analog-Digital-Umsetzeinheit (A/D) 12 in digitale Daten umgesetzt. Die durch diesen Digitalumsetzprozess gewonnenen Sprachdaten sind zeitserielle Daten, die je einer Amplitude zu einem gegebenen Zeitpunkt zugeordnet sind. Diese Daten werden in die Frequenzzerlegungseinheit 13 eingegeben. Die Frequenzzerlegungseinheit 13 schneidet nacheinander versetzte Zeitbereiche (die Pages genannt werden) mit vorgeschriebener Länge heraus, unterteilt die Sprachdaten in zahlreiche Pages und analysiert die Frequenzkomponenten einer jeden Page (beispielsweise mit Hilfe der diskreten Fouriertransformation). Man kann die Pages auch als Rahmen oder Sprachrahmen bezeichnen.
Die Frequenzkomponentendaten für jede Page werden in die Veränderungsgrad-Berechnungseinheit 14 eingegeben, in der der Veränderungsgrad anhand der Korrelation zwischen benachbarten Pages berechnet wird (das Berechnungsverfahren wird später beschrieben). Der berechnete Veränderungsgrad wird in die Abschnittsbestimmungseinheit 15 eingegeben, in der Abschnitte, die Intervalle zum Entnehmen von Phonemen bilden, hinsichtlich ihrer Korrelation spezifiziert werden. Sie werden als Gruppen von Pages spezifiziert, deren Abschnittsgrenzen (genauer deren Anfangspositionen) benachbart sind. Die Phonementnahmeeinheit 16 entnimmt nun Phoneme für jeden auf diese Weise bestimmten Abschnitt durch Vergleich mit Referenzdaten, die in der Speichereinheit 17 abgelegt sind. Da Abschnittsgrenzen als Pagezahlen spezifiziert sind, wenn ein Abschnitt bestimmt wird, so wird dadurch die Zeitbezugsinformation bezüglich der Zeitpunkte ge wonnen, zu denen Phoneme wechseln, anders formuliert die Zeitbezugsinformation zum Festlegen des Zeitpunkts, an dem ein jedem Phonem zugeordnetes Bild anzuzeigen ist.
Die in der Speichereinheit 17 abgelegten Referenzdaten sind Referenzdaten, die man durch Mitteln der Ergebnisse erhält, indem man vorab die Stimmen zahlreicher Personen entsprechend der Prozedur analysiert, mit der eingegebene Sprache untersucht wird. Die Sprachanalyseeinheit 1 entnimmt also in der eingegebenen Sprache enthaltene Phoneme und gibt Zeitbezugsinformation aus, die die Zeitpunkte festlegt, an denen den Phonemen zugeordnete Bilder anzuzeigen sind.
3 zeigt ein Flussdiagramm zum Erklären der Verarbeitung in einer Bilderzeugungsvorrichtung gemäß einer Ausführungsform der Erfindung. 4 bis 10 sind ebenfalls Ansichten, die dem Erklären der Schritte im Flussdiagramm in 3 dienen. 3 wird je nach Bedarf mit Hilfe dieser Abbildungen erklärt.
Zuallererst erfolgt eine Analog/Digital-Umsetzung (A/D) der eingegebenen Sprache (S1). Dies geschieht durch das Eingeben der Sprache, die über die Eingabeeinheit 11 eingegeben wurde, in die AD-Umsetzeinheit 12, in der das beispielsweise über ein Mikrophon eingegebene Analogsignal in digitale Daten umgesetzt wird. Liegt die eingegebene Sprache in Form digitaler Daten vor, so wird der Schritt S1 weggelassen.
Nun unterteilt die Frequenzzerlegungseinheit 13 die Sprachdaten in zahlreiche Pages, indem sie nacheinander versetzte Zeitbereiche (die Pages genannt werden) von vorgeschriebener Länge ausschneidet und die Frequenzkomponenten einer jeden Page analysiert (S2). Die vorgeschriebene Länge ist kürzer als das kürzeste Phonem (ungefähr 1/10 Sekunde). Man hat durch Erfahrung herausgefunden, dass man eine ausreichende Genauigkeit erhält, falls diese vorgeschriebene Länge ein Zehntel des kürzesten Phonems beträgt (d. h. ungefähr 1/100 Sekunde). Verkürzt man die vorgeschriebene Länge, so vergrößert dies lediglich den Verarbeitungsaufwand, bietet aber keine Vorteile. Die vorgeschriebene Länge wird daher bevorzugt auf ungefähr 1/10 Sekunde bis 1/100 Sekunde gesetzt.
4 zeigt eine Ansicht für die Erklärung der Pageunterteilung im Schritt S2 in 3. Der Verlauf der eingegebenen Sprache ist durch eine Kurve dargestellt, wobei die Zeit auf der Abszisse und die Amplitude auf der Ordinate aufgetragen sind. Dieser Verlauf wird in eine Anzahl Pages unterteilt, wobei eine Page als ein Zeitbereich von vorgeschriebener Länge (in diesem Fall 1024 Punkte, wobei ein Punkt (1/44100) Sekunde ist) aufgefasst wird, der zum Zeitpunkt D beginnt (Zeitpunkt des Beginns der Spracheingabe), und diese Pages nacheinander um jedes Mal um 441 Punkte versetzt werden.
Obwohl in diesem Fall die vorgeschriebene Länge auf 1024 Punkte gesetzt wurde, sei darauf hingewiesen, dass man diesen Wert geeignet verändern kann, um beispielsweise die Abtastfrequenz des Sprachsignals oder die Sprechgeschwindigkeit des Sprechers einzubeziehen. Obgleich in diesem Fall in den Zeitbereichen überlappende Abschnitte vorhanden sind, da die Versatzzeit kürzer ist als der Zeitbereich mit der vorgeschriebenen Länge, kann man einen Zeitbereich mit vorgeschriebener Länge so wählen, dass keine überlappenden Abschnitte auftreten.
5 zeigt eine Ansicht des Zusammenhangs zwischen Frequenz und Amplitude bei der Analyse der Frequenzkomponenten im Schritt S2 in 3. Diese Ansicht erhält man durch das Ausführen einer diskreten Fouriertransformation mit N Punkten auf der Kurve, die in jeder Page in 4 enthalten ist. Stellt man im Einzelnen die Amplitude an einem Punkt N in der Page m durch {x(m, k)[k = 0...N-1} dar, so kann man die diskrete Fouriertransformation durch die folgende Gleichung (A) ausdrücken.
wobei gilt
Da dieser Ausdruck symmetrisch zur Amplitudenachse ist (siehe 5), reicht es aus, nur den positiven Frequenzbereich zu verwenden.
6 zeigt eine Ansicht der Ergebnisse der Frequenzzerlegung bezüglich einer Anzahl Pages. In 6 sind zur Vereinfachung die Frequenzkomponentenkurven mit gleicher Form nebeneinander angeordnet. In Wirklichkeit unterscheiden sich die Frequenzkomponentenkurven für jede Page, da sich die Verläufe der eingegebenen Sprache abhängig von der verstrichenen Zeit unterscheiden.
Die Veränderungsgrad-Berechnungseinheit 14 berechnet nun zuerst mit Hilfe der Gleichung (B) die Korrelation zwischen benachbarten Pages (S3).
Die Art und Weise, in der die Korrelation berechnet wird, und die Bedeutung der Gleichung (B) wird anhand von 7 beschrieben.
7 zeigt eine Ansicht, die darstellt, wie eine Berechnung der Korrelation zwischen benachbarten Pages erfolgt. 7 ist ein Beispiel für das Berechnen der Korrelation beispielsweise der Page m und der Page (m+1) (d. h. für den Fall dass in Gleichung (B) gilt x = m) aus den benachbarten Pages in 6. Die Korrelation erhält man aus der Summe für N Punkte der Werte, die man durch Multiplizieren der Amplituden gewinnt, die in jeder der Pages zur gleichen Frequenzkomponente gehören. In 7 werden zuerst die Amplitude A (m, k) der Page m und die Amplitude A (m+1, k) der Page (m+1), die zur gleichen Frequenzkomponente k gehören, multipliziert. Die Korrelation der Page m und der Page (m+1) berechnet man aus der Summe für k zwischen 0 und N-1.
Die Veränderungsgrad-Berechnungseinheit 14 mittelt dann die mit Gleichung (B) bestimmte Korrelation mit Hilfe der Gleichung (C), um Rauschen zu entfernen (S4).
Je geringer die Formänderung der Kurve der Frequenzkomponenten bei einem Wechsel der Pages ist, umso kleiner ist die Veränderung im Korrelationswert Q(x), den man aus Gleichung (C) erhält. Verändert sich dagegen die Kurvenform der Frequenzkomponenten, so tritt verglichen mit der Korrelation benachbarter und folgender Pages eine große Änderung im Korrelationswert Q(x) auf. Damit können Pages, an denen eine Änderung der Frequenzkomponentenkurve erfolgt, als definierend für die Grenzorte neuer Phoneme angesehen werden (d. h. als Abschnittsgrenzen). Nimmt man die Differenz zwischen Korrelationen als Veränderungsgrad, so kann man einen Abschnitt dadurch definieren, dass man benachbarte Pages spezifiziert, die die Bedingung erfüllen, dass der Veränderungsgrad dort verglichen mit den vorhergehenden und folgenden Veränderungsgraden größer ist als in diesen beiden Fällen (S5). Im Schritt S5 legt die Abschnittsbestimmungseinheit 15 anhand der Differenzfunktion der Korrelationen benachbarte Pages fest, die die angegebenen Bedingung erfüllen. Hierzu verwendet man die vom Rauschen befreite Korrelation Q(x). Die weitere Beschreibung erfolgt nun mit Hilfe von 8. Der Veränderungsgrad, d. h. die Differenzen zwischen Korrelationen, kann durch S(y) = Q(y+1) – Q(y) ausgedrückt werden.
8 zeigt eine Ansicht des Zusammenhangs zwischen einem mit einer Page verbundenen Parameter y und der Differenz S(y) der Korrelation. S(1), das dem mit der Page verbundenen Parameter y = 1 zugeordnet ist, bedeutet einen Wert, den man durch Subtrahieren der Korrelationen (Q(1)) der benachbarten ersten Page und zweiten Page von der Korrelation (Q(2)) der benachbarten zweiten Page und dritten Page erhält. Obwohl man eine Page durch den mit der Page verbundenen Parameter nicht direkt spezifizieren kann, wird dadurch eine Gruppe benachbarter Pages festgelegt, die eine Abschnittsgrenze bestimmen.
Gruppen benachbarter Pages, die natürlichen Zahlen y zugeordnet sind, für die dieser Veränderungsgrad S(y) erfüllt S(y-1) < S(y) und S(y+1) < S(y) werden nun als Anfangspositionen von Phonemen festgelegt. Wie angegeben verändert sich der Verlauf einer eingegebenen Sprache an den Stellen beträchtlich, an denen sich Phoneme ändern. Damit geben Orte, die ausgeprägte Änderungen zeigen, die Anfangspositionen neuer Phoneme an. Im Fall von 8 gibt es vier Orte, an denen die natürliche Zahl y die Bedingungen S(y-1) < S(y) und S(y+1) < S(y) erfüllt (diese Orte werden jeweils als mit der Page verbundene Parameter y₁, y₂, y₃ und y₄ bezeichnet). Damit werden aus dem ersten bis vierten Abschnitt vier Phoneme entnommen.
Der mit der Page verbundene Parameter y₁ bezeichnet die Page y₁ oder y₁ + 1 als Abschnittsanfangsseite. Es ist unerheblich, welche der beiden Pages verwendet wird. Im analysierten Sprachsignal werden dieses Pages als gleich betrachtet. Das Gleiche gilt für die weiteren mit Pages verbundenen Parameter, die die Abschnittsanfangspositionen festlegen. Nun berechnet die Phonementnahmeeinheit 16 für jeden im Schritt S5 bestimmten Abschnitt eine charakteristische Größe (S6). Ein gängiges Verfahren zum Berechnen gewöhnlicher charakteristischer Größen besteht beispielsweise darin, die eingegebene Sprache in jedem Abschnitt in Frequenzkomponenten zu zerlegen, daraufhin eine inverse Fouriertransformation vorzunehmen und dann eine Cepstrumanalyse. Ein Beispiel dafür besteht darin, die eingegebene Sprache für jeden Abschnitt in Frequenzkomponenten zu zerlegen und die Amplitude dieser Frequenzkomponenten als charakteristische Größen zu verwenden. Fallen Abschnitt und Page zusammen, so kann man die im Schritt S2 für jede Page bestimmten Ergebnisse der Frequenzzerlegung verwenden.
9 zeigt eine Ansicht für die Erklärung der Frequenzzerlegung für jeden Abschnitt. Dabei ist erläutert, wie Frequenzkomponenten bei einer diskreten Fouriertransformation mit N Punkten für jeden Abschnitt berechnet werden. In 9 sind zur Vereinfachung die Frequenzkomponentenkurven mit gleicher Form nebeneinander angeordnet. In Wirklichkeit unterscheiden sich die Frequenzkomponentenkurven für jede Page, da sich die Verläufe der eingegebenen Sprache abhängig von der verstrichenen Zeit unterscheiden.
Nun werden Phoneme durch den Vergleich mit Referenzdaten entnommen (S7). Als Referenzdaten werden Daten verendet, die man durch Mitteln der Ergebnisse aus der obigen Prozedur mit den Schritten S1 bis S6 für zahlreiche Personen vorab bestimmt. Nach dem Erzeugen und Ablegen derartiger Referenzdaten in der Speichereinheit 17 kann man eine stabile Phonementnahme unabhängig davon erzielen, ob sich nachfolgend die Benutzer ändern. Es ist insbesondere die Anwendung auf eine unbestimmt große Anzahl von Benutzern möglich. Als Vergleichsverfahren kann man bekannte Vorgehensweisen verwenden, beispielsweise den DP-Vergleich.
Mit Hilfe der Verarbeitung in den obigen Schritten S1 bis S7 kann man Abschnitte und Phoneme und die Pages der Abschnittsgrenzen festlegen, die in der eingegebenen Sprache enthalten sind. Sind die Pages der Abschnittsgrenzen in dieser Ausführungsform festgelegt, so ist auch die Entnahme der Zeitbezugsinformation abgeschlossen, da die Umwandlung auf einen Zeitpunkt erreicht werden kann, indem man {Anfangszeitpunkt D + Produkt aus 441 Punkten und (Page der Abschnittsgrenze – 1)} verwendet. Anschließend wird entsprechend dem Phonem eine Animation gemäß der in 1 beschriebenen Anordnung angezeigt und dazu die Phonem- und Zeitbezugsinformation verwendet, die die Sprachanalyseeinheit 1 ausgibt (S8).
10 zeigt eine Ansicht zum Erklären einer Animation entsprechend zu Phonemen. Sei beispielsweise angenommen, dass Dateien als entnommene Phoneme gewählt werden, und dass Referenzdaten für jeden Vokal in der Speichereinheit 17 hinterlegt sind. Sind Daten, die der Animation für jeden in 10 dargestellten Vokal zugeordnet sind, im Arbeits-RAM 3 gespeichert, so kann man eine Animation entsprechend zu jedem Vokal anzeigen, der in der eingegebenen Sprache enthalten ist, indem man die Bilderzeugungsvorrichtung in 1 verwendet. Beispielsweise kann man Animationsbilder, die einem jeden Vokal zugeordnet sind, dadurch anzeigen, dass man dem Bild "a" in 10 den Vokal "a" zuordnet und dem Bild "i" in 10 den Vokal "i".
Wie beschrieben kann man mit dieser Ausführungsform der Erfindung eine rasche Sprachanalyseverarbeitung in Echtzeit einfach dadurch erzielen, dass man die Ergebnisse der Analyse der eingegebenen Sprache zahlreicher Personen vorab als Referenzdaten herstellt, ohne dass es erforderlich ist, Referenzmuster für jeden Sprecher zu erzeugen. Da ein Einordnungsvorgang der Referenzmuster für jeden Sprecher nicht erforderlich ist und das Referenzmuster nur ein Mal erzeugt werden muss, kann man eine unbestimmt große Anzahl von Sprechern abdecken. Da man zudem keine Datenbank zum Speichern der Referenzmuster eines jeden Sprechers benötigt, ist eine Installation auch auf Anlagen mit geringer Speicherkapazität möglich.
Beispiele für mögliche Anwendungen umfassen die Animation für Online-Gesprächsforen, Animation in Videospielen (insbesondere in Videospielen, die im Konversationsmodus gespielt werden, oder in Rollenspielen), oder in unbemannten Empfangssystemen, die in Kliniken oder Finanzinstitutionen usw. verwendet werden.
In dieser Ausführungsform ist ein Verfahren beschrieben, das als Bilderzeugungsvorrichtung implementiert ist. Man beachte, dass eine Implementierung auch als Verfahren oder Programm möglich ist, das gemäß dem Flussdiagramm in 3 verarbeitet wird. Zudem ist in dieser Ausführungsform ein Verfahren beschrieben, das als Bilderzeugungsvorrichtung implementiert ist. Eine Anwendung ist auch beispielsweise als Sprache/Schrift-Umsetzvorrichtung möglich, wobei den Phonemen entsprechende Buchstaben angezeigt werden. In diesem Fall wird der Funktionsblock, der in der Anordnung in 1 eine Animation darstellt (der Funktionsblock, der die Sprachanalyseeinheit 1 in 1 nicht enthält), durch einen Funktionsblock ersetzt, der Buchstaben anzeigt. Den Schritt S8 (Flussdiagramm in 3), der die Animation anzeigt, kann man so verändern, dass er Buchstaben anzeigt. In dieser Ausführungsform ist ein Verfahren beschrieben, in dem die Implementierung als Bilderzeugungsvorrichtung erfolgt, die eine Sprachanalyseeinheit 1 enthält. Eine Implementierung der Sprachanalyseeinheit als unabhängige Vorrichtung (Sprachanalysevorrichtung) ist jedoch ebenfalls möglich. In diesem Fall lässt man den Schritt S8 in Flussdiagramm in 3 weg, und die Phoneme oder die Zeitbezugsinformationen, die von der Sprachanalysevorrichtung ausgegeben werden, werden in einer getrennten Vorrichtung verarbeitet, die daran angeschlossen ist.

Claims

Computerausführbares Verfahren zur Sprachanalyse, das Grenzen von Phonemen an eingegebenen Sprachsignalen erkennt, umfassend: einen ersten Schritt, der einen Zeitpunkt in dem eingegebenen Sprachsignal festlegt; einen zweiten Schritt, der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener Länge ab dem Zeitpunkt enthalten ist; und einen dritten Schritt, in dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird, wobei: n aus dem Sprachsignal entnommene Frequenzkomponentendaten, die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten sind, dadurch gefunden werden, dass man den ersten, zweiten und dritten Schritt für jede vorgeschriebene Zeit n Mal wiederholt, wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat; (n-1) Korrelationen in den n Frequenzkomponentendaten gefunden werden, indem man die i-te Korrelation gewinnt, wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist, und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist; (n-2) Differenzen zwischen Korrelationen aus den (n-1) Korrelationen gewonnen werden, indem man die k-te Differenz zwischen Korrelationen abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt, wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist; wenn m definiert wird als die Zahl, die die Differenz zwischen Korrelationen festlegt, die größer ist als zwei Differenzen zwischen Korrelationen benachbart zu der festlegten Differenz zwischen Korrelationen in den (n-2) Differenzen zwischen Korrelationen von der ersten bis zur (n-2)-ten, d. h. m die Bedingung erfüllt, dass die m-te Differenz zwischen Korrelationen größer ist als die (m-1)-te Differenz zwischen Korrelationen und größer ist als die (m+1)-te Differenz zwischen Korrelationen, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die definierte Zahl m gefunden ist; ein Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festgelegt wird; und das eingegebene Sprachsignal entsprechend den festgelegten Zeitberei chen in zahlreiche Abschnitte unterteilt wird.
Verfahren zur Sprachanalyse nach Anspruch 1, umfassend: das Berechnen charakteristischer Größen für jeden Abschnitt der unterteilten Sprachsignale, und das Spezifizieren der Phoneme der Abschnitte durch den Vergleich der charakteristischen Größen mit Referenzdaten für jedes Phonem.
Verfahren zur Sprachanalyse nach Anspruch 1, wobei die vorgeschriebene Zeit über den Zeitbereich mit der vorgeschriebenen Länge verschoben wird, damit sich gegenseitig überlappende Abschnitte erzeugt werden.
Verfahren zur Sprachanalyse nach Anspruch 1, wobei die Korrelation ein Wert ist, den man durch Summieren der Produkte der Amplituden erhält, die zu den gleichen Frequenzkomponenten gehören.
Verfahren zur Sprachanalyse nach Anspruch 1, wobei man die Frequenzkomponentendaten durch die Fouriertransformation von Frequenzkomponenten des entnommenen Sprachsignals bestimmt.
Verfahren zur Sprachanalyse nach Anspruch 2, wobei man die charakteristischen Größen abhängig von einer Amplitude einer jeden Frequenzkomponente bestimmt, die man durch Fouriertransformation des Sprachsignals erhält, das in dem Abschnitt des unterteilten Sprachsignals enthalten ist.
Verfahren zur Sprachanalyse nach Anspruch 2, wobei Animationsbilder, die entsprechend den Phonemen der Abschnitte angezeigt werden, in einer Weise verändert werden, die an die Abschnitte angepasst ist.
Sprachanalyseprogramm, das, wenn es auf einem Computer läuft, der eine CPU enthält, die CPU veranlasst, einen jeden Schritt eines Verfahrens gemäß Anspruch 1 auszuführen.
Sprachanalyseprogramm nach Anspruch 8, das die CPU zudem veranlasst, auszuführen: das Berechnen charakteristischer Größen für jeden Abschnitt der unterteilten Sprachsignale, und das Spezifizieren der Phoneme der Abschnitte durch den Vergleich der charakteristischen Größen mit Referenzdaten für jedes Phonem.
Sprachanalyseprogramm nach Anspruch 9, wobei die vorgeschriebene Zeit über den Zeitbereich mit der vorgeschriebenen Länge verschoben wird, damit sich gegenseitig überlappende Abschnitte erzeugt werden; die Korrelation ein Wert ist, den man durch Summieren der Produkte der Amplituden erhält, die zu den gleichen Frequenzkomponenten gehören; man die Frequenzkomponentendaten durch die Fouriertransformation von entnommenen Frequenzkomponenten des Sprachsignals bestimmt; und man die charakteristischen Größen abhängig von einer Amplitude einer jeden Frequenzkomponente bestimmt, die man durch Fouriertransformation des Sprachsignals erhält, das in dem Abschnitt des unterteilten Sprachsignals enthalten ist.
Sprachanalyseprogramm nach Anspruch 9, wobei Animationsbilder, die entsprechend den Phonemen der Abschnitte angezeigt werden, in einer Weise verändert werden, die an die Abschnitte angepasst ist.
Speichermedium, das ein Programm gemäß irgendeinem der Ansprüche 8 bis 11 speichert.
Sprachanalysevorrichtung, umfassend: eine Frequenzzerlegungseinheit (13), die n Frequenzkomponentendaten findet, die aus einem Sprachsignal entnommen werden, das in n Zeitbereichen mit vorgeschriebener Länge enthalten ist, und zwar durch n-maliges Wiederholen in vorgeschriebenen Intervallen, wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat: des Spezifizierens eines Zeitpunkts in einem eingegebenen Sprachsignal; des Entnehmens eines Sprachsignals, das in einem Zeitbereich mit der vorgeschriebenen Länge ab den Zeitpunkt enthalten ist; und des Zerlegens des entnommenen Sprachsignals in Frequenzkomponentendaten; eine Veränderungsgrad-Berechnungseinheit (14), die (n-1) Korrelationen in den n Frequenzkomponentendaten findet, indem sie die i-te Korrelation gewinnt, wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist, und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist, und die (n-2) Differenzen zwischen Korrelationen aus den (n-1) Korrelationen findet, indem sie die k-te Differenz zwischen Korrelationen abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt, wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist; und eine Abschnittsbestimmungseinheit (15), die eine definierte Zahl findet, wobei die definierte Zahl m als diejenige Zahl definiert ist, die die Differenz zwischen Korrelationen angibt, die größer ist als zwei Differenzen zwischen Korrelationen benachbart zu der festlegten Differenz zwischen Korrelationen in den (n-2) Differenzen zwischen Korrelationen von der ersten bis zur (n-2)-ten, d. h. die definierte Zahl m die Bedingung erfüllt, dass die m-te Differenz zwischen Korrelationen größer ist als die (m-1)-te Differenz zwischen Korrelationen und größer ist als die (m+1)-te Differenz zwischen Korrelationen, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die einen Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festlegt, und die das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt.
Animationsbild-Erzeugungsvorrichtung mit einer Sprachanalysevorrichtung nach Anspruch 13, zudem umfassend: eine Phonementnahmeeinheit (16), die die Phoneme der Abschnitte durch das Berechnen charakteristischer Größen für jeden Abschnitt der unterteilten Sprachsignale spezifiziert, und die die charakteristischen Größen mit Referenzdaten für jedes Phonem vergleicht; und eine Animationsanzeigeeinheit (8), die Bilder darstellt, die den Phonemen der Abschnitte entsprechen, wobei sich diese Bilder in einer Weise verändern, die auf die Abschnitte abgestimmt ist.