DE602005000896T2 - Sprachsegmentierung - Google Patents

Sprachsegmentierung Download PDF

Info

Publication number
DE602005000896T2
DE602005000896T2 DE602005000896T DE602005000896T DE602005000896T2 DE 602005000896 T2 DE602005000896 T2 DE 602005000896T2 DE 602005000896 T DE602005000896 T DE 602005000896T DE 602005000896 T DE602005000896 T DE 602005000896T DE 602005000896 T2 DE602005000896 T2 DE 602005000896T2
Authority
DE
Germany
Prior art keywords
correlations
speech
speech signal
frequency component
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602005000896T
Other languages
English (en)
Other versions
DE602005000896D1 (de
Inventor
Hirokazu Ohta-ku Tokyo Kudoh
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sega Corp
Original Assignee
Sega Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sega Corp filed Critical Sega Corp
Publication of DE602005000896D1 publication Critical patent/DE602005000896D1/de
Application granted granted Critical
Publication of DE602005000896T2 publication Critical patent/DE602005000896T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Gebiet der Erfindung
  • Die Erfindung betrifft eine Sprachanalysevorrichtung, ein Sprachanalyseprogramm und ein Sprachanalyseverfahren. Sie betrifft genauer eine Bilderzeugungsvorrichtung, in der ein Sprachanalyseverfahren der Erfindung eingesetzt wird und insbesondere eine Bilderzeugungsvorrichtung für die Lippensynchronisations-Animation, die eine Animation (Lippensynchronisations-Animation) erzeugt, bei der sich die Mundform abhängig von der Sprache ändert.
  • 2. Beschreibung des Stands der Technik
  • Sprachanalysetechniken werden derzeit auf unterschiedlichen Gebieten eingesetzt. Beispiele sind das Erkennen eines Sprechers an der Stimme, das Umwandeln von Sprache in Text oder das Erzeugen einer Lippensynchronisations-Animation, bei der sich die Mundform abhängig von der Sprache ändert. Die Verarbeitung, die in diesen Fällen jeweils erfolgt, umfasst: im Fall der Sprachanalysetechnik das Entnehmen von Phonemen aus der Sprache, d. h. der Einheiten, die zum Unterscheiden der Bedeutung von Wörtern verwendet werden; im Fall der Sprechererkennung das Identifizieren eines Sprechers mit Hilfe des Übereinstimmungsgrads zwischen entnommenen Phonemen und Referenzmustern, die vorab aufgezeichnet wurden; im Fall der Textumwandlung das Anzeigen von Buchstaben, die den entnommenen Phonemen entsprechen, auf einer Anzeige oder einer ähnlichen Vorrichtung; und im Fall der Lippensynchronisations-Animation das Darstellen eines Bilds entsprechenden zu den entnommenen Phonemen auf einer Anzeige oder einer ähnlichen Vorrichtung.
  • Man kennt die folgenden Verfahren zum Entnehmen von Phonemen aus Sprache. Beispielsweise werden in dem Sprechererkennungssystem, das in der veröffentlichten japanischen Patentschrift Nr. H6-32007 offenbart ist, Phoneme dadurch entnommen, dass man für jeden Vokal Intervalle so bestimmt, dass der Abstand zwischen einem vorab eingegebenen Referenzmuster und der Sprache des Sprechers geringer ist als ein vorbestimmter Wert, und dass man eine Entsprechung zwischen diesen Intervallen und den Vokalen herstellt.
  • Derartige Intervalle zum Entnehmen von Phonemen nennt man Abschnitte. In der Erzeugungsvorrichtung für animierte Bilder der veröffentlichten japanischen Patentschrift Nr. 2003-233389 nimmt man eine Formantenanalyse vor, in der beispielsweise Composite Sinusoidal Modeling (CSM) verwendet wird, und Phoneme werden ausgehend von Formanteninformation entnommen, um Vokale zu charakterisieren.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Um die Feststellung von Abschnitten mit Hilfe der Entfernung von einem Referenzmuster vorzunehmen, muss man eine Datenbank bereithalten, in der Referenzmuster für jeden Sprecher registriert sind. Dies führt jedoch unvermeidbar zu einer sehr umfangreichen Datenmenge, die von der Anzahl der Sprecher abhängt. Dadurch verlängert sich die Verarbeitungszeit, die für die Sprachanalyse erforderlich ist. Es ist daher schwierig, diese Vorgehensweise in Situationen anzuwenden, in denen eine Echtzeitverarbeitung erforderlich ist (beispielsweise beim Erzeugen einer Lippensynchronisations-Animation). Wird ein neuer Sprecher aufgenommen, so muss man die Referenzmuster des neuen Sprechers in die Datenbank eintragen. Die Verwaltung der Datenbank wird daher mühsam, und das System ist bei einer unbestimmt großen Anzahl von Sprechern schwierig anzuwenden.
  • Im gegenwärtigen Zustand ist es so, dass die Phonementnahme mit Hilfe von Formanteninformation schwierig in Situationen anzuwenden ist, die einer Echtzeitverarbeitung bedürfen, und zwar aufgrund der für eine solche Verarbeitung benötigten Zeit. Neben diesen Vorgehensweisen kennt man ein Phonementnahmeverfahren, in dem beispielsweise eine Cepstrumanalyse mit LPC (Linear Predictive Coding) verwendet wird. Es hat sich gezeigt, dass die Genauigkeit der Phonementnahme mit diesem Verfahren wächst, wenn die Anzahl der Wiederholungen wächst, d. h., es tritt ein Lerneffekt auf. Andererseits ist es zum Erhöhen der Entnahmegenauigkeit erforderlich, Analyseergebnisse für eine große Anzahl Lernsignale vorab zu erzeugen. Es ist daher schwierig, dieses Verfahren bei einer unbestimmt großen Anzahl von Sprechern anzuwenden.
  • Zudem ist bekannt, dass sich die Art der spektralen Einhüllenden abhängig von dem Repräsentationsverfahren oder dem Entnahmeverfahren beträchtlich ändert, und beispielsweise von der Feststellung des Grads oder der Anzahl der Wiederholungen beeinflusst wird, so dass auf Seite des Analysten Können erforderlich ist.
  • Der Stand der Technik kennt ein auf einem Computer ausführbares Verfahren zur Sprachanalyse, das Grenzen von Phonemen in einem eingegebenen Sprachsignal erkennt, indem eine Technik verwendet wird, die auf den Gebrauch einer akustisch-phonetischen HMM-Erkennungseinheit beruht (HMM = Hidden Markov Model). Sowohl der Erkenner als auch das Segmentierungssystem nutzen DARPA-TIMIT, die akustisch-phonetische Datenbank für kontinuierliche Sprache des American English. Das System liefert einen akzeptablen Anteil an korrekter Grenzerkennung und ist offenbart in der Veröffentlichung von BRUGNARA F ET AL: "AUTOMATIC SEGMENTATION AND LABELING OF SPEECH BASED ON HIDDEN MARKOV MODELS" SPEECH COMMUNICATION, ELSE-VIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 12, no. 4, 1 August 1993 (1993-08-01), pages 357–370, XP000393652 ISSN: 0167-6393.
  • Es ist Aufgabe der Erfindung, eine Sprachanalysevorrichtung und ein Sprachanalyseverfahren bereitzustellen, mit denen man eine Echtzeit-Sprachanalyseverarbeitung vornehmen kann, und bei denen man eine große Anzahl Sprecher verwenden kann, ohne dass man Referenzmuster für jeden Sprecher vorhalten muss. Eine Anwendung der Erfindung stellt eine Animations-Bilderzeugungsvorrichtung bereit, die durch Anwenden dieses Sprachanalyseverfahrens der Echtzeitverarbeitung fähig ist.
  • Es werden nun verschiedene Aspekte der Erfindung beschrieben. Dabei ist zu beachten, die "Veränderungsgrade", auf die Bezug genommen wird, tatsächlich Differenzen zwischen den angegebenen Korrelationen sind. Die Erfindung ist durch die beigefügten unabhängigen Ansprüche bestimmt.
  • Gemäß einem ersten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines computerausführbaren Verfahrens zur Sprachanalyse, das Grenzen von Phonemen an eingegebenen Sprachsignalen erkennt, umfassend: einen ersten Schritt, der einen Zeitpunkt in dem eingegebenen Sprachsignal festlegt;
    einen zweiten Schritt, der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener Länge ab dem Zeitpunkt enthalten ist; und
    einen dritten Schritt, in dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird, wobei:
    n aus dem Sprachsignal entnommene Frequenzkomponentendaten, die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten sind, dadurch gefunden werden, dass man den ersten, zweiten und dritten Schritt für jede vorgeschriebene Zeit n Mal wiederholt (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat);
    (n-1) Korrelationen in den n Frequenzkomponentendaten gefunden werden, indem man die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist;
    (n-2) Veränderungsgrade aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist);
    wenn m definiert wird als die Zahl, die den Veränderungsgrad festlegt, der größer ist als zwei Veränderungsgrade benachbart zu dem festlegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die definierte Zahl m gefunden ist;
    ein Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festgelegt wird; und
    das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt wird.
  • Gemäß einem zweiten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Verfahrens zur Sprachanalyse gemäß dem ersten Aspekt, zudem umfassend:
    das Berechnen charakteristischer Größen für jeden Abschnitt der unterteilten Sprachsignale, und
    das Spezifizieren der Phoneme der Abschnitte durch den Vergleich der charakteristischen Größen mit Referenzdaten für jedes Phonem.
  • Gemäß einem dritten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Verfahrens zur Sprachanalyse gemäß dem ersten Aspekt, wobei die vorgeschriebene Zeit über den Zeitbereich mit der vorgeschriebenen Länge verschoben wird, damit sich gegenseitig überlappende Abschnitte erzeugt werden.
  • Gemäß einem vierten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Verfahrens zur Sprachanalyse gemäß dem ersten Aspekt, wobei die Korrelation ein Wert ist, den man durch Summieren der Produkte der Amplituden erhält, die zu den gleichen Frequenzkomponenten gehören.
  • Gemäß einem fünften Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Verfahrens zur Sprachanalyse gemäß dem ersten Aspekt, wobei man die Frequenzkomponentendaten durch die Fouriertransformation von Frequenzkomponenten des entnommenen Sprachsignals bestimmt.
  • Gemäß einem sechsten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Verfahrens zur Sprachanalyse gemäß dem zweiten Aspekt, wobei man die charakteristischen Größen abhängig von einer Amplitude einer jeden Frequenzkomponente bestimmt, die man durch Fouriertransformation des Sprachsignals erhält, das in dem Abschnitt des unterteilten Sprachsignals enthalten ist, den man durch die Unterteilung gewinnt.
  • Gemäß einem siebten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines computerausführbaren Verfahrens der Animationsbilderzeugung, das ein Bild entsprechend den Unterteilungen der Phoneme aus einem eingegebenen Sprachsignal darstellt, umfassend:
    einen ersten Schritt, der einen Zeitpunkt in dem eingegebenen Sprachsignal festlegt;
    einen zweiten Schritt, der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener Länge ab dem Zeitpunkt enthalten ist; und
    einen dritten Schritt, in dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird, wobei:
    n aus dem Sprachsignal entnommene Frequenzkomponentendaten, die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten sind, dadurch gefunden werden, dass man den ersten, zweiten und dritten Schritt für jede vorgeschriebene Zeit n Mal wiederholt (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat);
    (n-1) Korrelationen in den n Frequenzkomponentendaten gefunden werden, indem man die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist;
    (n-2) Veränderungsgrade aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist);
    wenn m definiert wird als die Zahl, die den Veränderungsgrad festlegt, der größer ist als zwei Veränderungsgrade benachbart zu dem festlegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die definierte Zahl m gefunden ist;
    ein Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festgelegt wird;
    das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt wird;
    charakteristische Größen für jeden Abschnitt der unterteilten Sprachsignale berechnet werden;
    die Phoneme der Abschnitte durch das Vergleichen der charakteristischen Größen mit Referenzdaten für jedes Phonem spezifiziert werden; und
    Bilder entsprechend den Phonemen der Abschnitte dargestellt werden, die in einer Weise verändert werden, die auf die Abschnitte abgestimmt ist.
  • Gemäß einem achten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Sprachanalyseprogramms, das auf einem Computer ausführbar ist, der eine CPU enthält, und das die Grenzen von Phonemen in eingegebener Sprache erkennt, wobei das Programm die CPU veranlasst auszuführen:
    einen ersten Schritt, der einen Zeitpunkt in dem eingegebenen Sprachsignal festlegt;
    einen zweiten Schritt, der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener Länge ab dem Zeitpunkt enthalten ist; und
    einen dritten Schritt, in dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird, wobei:
    n aus dem Sprachsignal entnommene Frequenzkomponentendaten, die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten sind, dadurch gefunden werden, dass die CPU den ersten, zweiten und dritten Schritt für jede vorgeschriebene Zeit n Mal wiederholt (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat);
    (n-1) Korrelationen in den n Frequenzkomponentendaten gefunden werden, indem man die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist;
    (n-2) Veränderungsgrade aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist);
    wenn m definiert wird als die Zahl, die den Veränderungsgrad festlegt, der größer ist als zwei Veränderungsgrade benachbart zu dem festlegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die definierte Zahl m gefunden ist;
    ein Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festgelegt wird; und
    das eingegebene Sprachsignal von der CPU entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt wird.
  • Gemäß einem neunten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Sprachanalyseprogramms gemäß dem achten Aspekt, das die CPU veranlasst, zudem auszuführen:
    das Berechnen charakteristischer Größen für jeden Abschnitt der unterteilten Sprachsignale und das Spezifizieren von Phonemen der Abschnitte durch das Vergleichen der charakteristischen Größen mit Referenzdaten für jedes Phonem.
  • Gemäß einem zehnten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Sprachanalyseprogramms gemäß dem neunten Aspekt, worin die vorgeschriebene Zeit über den Zeitbereich mit der vorgeschriebenen Länge verschoben wird, damit sich gegenseitig überlappende Abschnitte erzeugt werden;
    die Korrelation ein Wert ist, den man durch Summieren der Produkte der Amplituden erhält, die zu den gleichen Frequenzkomponenten gehören;
    man die Frequenzkomponentendaten durch die Fouriertransformation von entnommenen Frequenzkomponenten des Sprachsignals bestimmt; und
    man die charakteristischen Größen abhängig von einer Amplitude einer jeden Frequenzkomponente bestimmt, die man durch Fouriertransformation des Sprachsignals erhält, das in dem Abschnitt des unterteilten Sprachsignals enthalten ist.
  • Gemäß einem elften Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Animationsbild-Erzeugungsprogramms, das auf einem Computer ausführbar ist, der eine CPU enthält, und das ein Bild entsprechend den Unterteilungen vom Phonemen in einem eingegebenen Sprachsignal darstellt, wobei das Programm die CPU veranlasst auszuführen:
    einen ersten Schritt, der einen Zeitpunkt in dem eingegebenen Sprachsignal festlegt;
    einen zweiten Schritt, der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener Länge ab dem Zeitpunkt enthalten ist; und
    einen dritten Schritt, in dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird, wobei:
    n aus dem Sprachsignal entnommene Frequenzkomponentendaten, die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten sind, dadurch gefunden werden, dass der erste, zweite und dritte Schritt für jede vorgeschriebene Zeit n Mal wiederholt wird (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat);
    (n-1) Korrelationen in den n Frequenzkomponentendaten gefunden werden, indem man die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist;
    (n-2) Veränderungsgrade aus den (n-1) Korrelationen gewonnen werden, indem man den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist);
    wenn m definiert wird als die Zahl, die den Veränderungsgrad festlegt, der größer ist als zwei Veränderungsgrade benachbart zu dem festlegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die definierte Zahl m gefunden ist;
    ein Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festgelegt wird;
    das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt wird;
    charakteristische Größen für jeden Abschnitt der unterteilten Sprachsignale berechnet werden;
    die Phoneme der Abschnitte durch das Vergleichen der charakteristischen Größen mit Referenzdaten für jedes Phonem spezifiziert werden; und
    Bilder entsprechend den Phonemen der Abschnitte dargestellt werden, die in einer Weise verändert werden, die auf die Abschnitte abgestimmt ist.
  • Gemäß einem zwölften Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen eines Speichermediums, das ein Programm gemäß irgendeinem der Aspekte acht bis elf speichert.
  • Gemäß einem dreizehnten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen einer Sprachanalysevorrichtung, die enthält:
    eine Frequenzzerlegungseinheit, die n Frequenzkomponentendaten findet, die aus einem Sprachsignal entnommen werden, das in n Zeitbereichen mit vorgeschriebener Länge enthalten ist (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat), und zwar durch n-maliges Wiederholen in vorgeschriebenen Intervallen, damit ein Zeitpunkt in einem eingegebenen Sprachsignal festgelegt wird, damit ein Sprachsignal entnommen wird, das in einem Zeitbereich der vorgeschriebenen Länge ab dem Zeitpunkt enthalten ist, und damit das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird;
    eine Veränderungsgrad-Berechnungseinheit, die (n-1) Korrelationen in den n Frequenzkomponentendaten findet, indem sie die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist, und die (n-2) Veränderungsgrade aus den (n-1) Korrelationen findet, indem sie den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist); und
    eine Abschnittsbestimmungseinheit, die eine definierte Zahl findet, wobei die definierte Zahl m als diejenige Zahl definiert ist, die den Veränderungsgrad angibt, der größer ist als zwei Veränderungsgrade benachbart zu dem festgelegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. die definierte Zahl m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die einen Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festlegt, und die das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt.
  • Gemäß einem vierzehnten Aspekt der Erfindung erfüllt man die obigen Aufgaben durch das Bereitstellen einer Animationsbild-Erzeugungsvorrichtung, die enthält:
    eine Frequenzzerlegungseinheit, die n Frequenzkomponentendaten findet, die aus einem Sprachsignal entnommen werden, das in n Zeitbereichen mit vorgeschriebener Länge enthalten ist (wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat), und zwar durch n-maliges Wiederholen in vorgeschriebenen Intervallen, damit ein Zeitpunkt in einem eingegebenen Sprachsignal festgelegt wird, damit ein Sprachsignal entnommen wird, das in einem Zeitbereich der vorgeschriebenen Länge ab dem Zeitpunkt enthalten ist, und damit das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird;
    eine Veränderungsgrad-Berechnungseinheit, die (n-1) Korrelationen in den n Frequenzkomponentendaten findet, indem sie die i-te Korrelation gewinnt (wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist), und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist, und die (n-2) Veränderungsgrade aus den (n-1) Korrelationen findet, indem sie den k-ten Veränderungsgrad abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt (wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist);
    eine Abschnittsbestimmungseinheit, die eine definierte Zahl findet, wobei die definierte Zahl m als diejenige Zahl definiert ist, die den Veränderungsgrad angibt, der größer ist als zwei Veränderungsgrade benachbart zu dem festlegten Veränderungsgrad in den (n-2) Veränderungsgraden von dem ersten bis zum (n-2)-ten, d. h. die definierte Zahl m die Bedingung erfüllt, dass der m-te Veränderungsgrad größer ist als der (m-1)-te Veränderungsgrad und größer ist als der (m+1)-te Veränderungsgrad, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die einen Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festlegt, und die das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt;
    eine Phonementnahmeeinheit, die die Phoneme der Abschnitte durch das Berechnen charakteristischer Größen für jeden Abschnitt des unterteilten Sprachsignals spezifiziert, und die die charakteristischen Größen mit Referenzdaten für jedes Phonem vergleicht; und
    eine Animationsanzeigeeinheit, die Bilder darstellt, die den Phonemen der Abschnitte entsprechen, wobei sich diese Bilder in einer Weise verändern, die auf die Abschnitte abgestimmt ist.
  • Durch das Anwenden der Erfindung kann man eine rasche Sprachanalyseverarbeitung in Echtzeit einfach dadurch erreichen, dass die Ergebnisse der Analyse der eingegebenen Sprache einer Anzahl Personen vorab als Referenzdaten vorbereitet werden ohne dass man Referenzmuster für jeden Sprecher erzeugen muss. Da zudem ein Registriervorgang von Referenzmustern für jeden Sprecher nicht erforderlich ist und das Referenzmuster nur ein Mal angefertigt werden muss, kann eine unbegrenzt große Anzahl von Sprechern damit abgedeckt werden. Da ferner eine Datenbank zum Speichern der Referenzmuster für jeden Sprecher nicht erforderlich ist, ist auch eine Installation in einer Anlage mit geringer Speicherkapazität möglich.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Es zeigt:
  • 1 ein Anordnungsblockdiagramm einer Bilderzeugungsvorrichtung gemäß einer Ausführungsform der Erfindung;
  • 2 ein Anordnungsblockdiagramm einer Sprachanalyseeinheit (Sprachanalysevorrichtung) der Erfindung;
  • 3 ein Flussdiagramm zum Erklären der Verarbeitung in einer Bilderzeugungsvorrichtung gemäß einer Ausführungsform der Erfindung;
  • 4 eine Ansicht für die Erklärung der Pageunterteilung im Schritt S2 in 3; 5 eine Ansicht des Zusammenhangs zwischen Frequenz und Amplitude bei der Analyse der Frequenzkomponenten im Schritt S2 in 3;
  • 6 eine Ansicht der Ergebnisse der Frequenzzerlegung bezüglich einer Anzahl Pages;
  • 7 eine Ansicht, die darstellt, wie eine Berechnung der Korrelation zwischen benachbarten Pages erfolgt;
  • 8 eine Ansicht des Zusammenhangs zwischen einem mit einer Page verbundenen Parameter y und der Differenz S(y) der Korrelation;
  • 9 eine Ansicht für die Erklärung der Frequenzzerlegung für jeden Abschnitt; und
  • 10 eine Ansicht zum Erklären einer Animation entsprechend zu Phonemen.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Im Weiteren werden Ausführungsformen der Erfindung anhand der Zeichnungen beschrieben. Der technische Bereich der Erfindung ist jedoch in den Patentansprüchen beschrieben.
  • 1 zeigt ein Anordnungsblockdiagramm einer Bilderzeugungsvorrichtung gemäß einer Ausführungsform der Erfindung. Es handelt sich um eine Animationserzeugungsvorrichtung für die Lippensynchronisation, die eine Animation entsprechend einer eingegebenen Stimme erzeugt. Eine Bilderzeugungsvorrichtung gemäß dieser Ausführungsform enthält als Sprachanalyseeinheit 1 eine Sprachanalysevorrichtung der Erfindung und weist zusätzlich eine CPU 2, ein Arbeits-RAM 3, eine Geometrieberechnungseinheit 4, einen Renderer 5, eine Texturerzeugungseinheit 6, ein Textur-RAM 7, eine Anzeigeeinheit 8 und einen Framepuffer 9 auf. Diese Funktionseinheiten sind mit Hilfe eines Programms implementiert, das die CPU 2 (CPU = Central Processing Unit) ausführt, die in der Bilderzeugungsvorrichtung bereitgestellt ist. Man könnte die Funktionseinheiten jedoch auch in Hardware implementieren.
  • Die CPU 2 kontrolliert ein Programm, das ein Bild erzeugt. Die Programme oder Daten, die die CPU 2 verwendet, sind im Arbeits-RAM 3 gespeichert. Die Sprachanalyseeinheit 1 analysiert eingegebene Sprache und entnimmt Phoneme, die in der eingegebenen Sprache enthalten sind. Sie gibt Zeitbezugsinformationen aus, die die Darstellungszeit eines Bilds zugeordnet zu jedem Phonem festlegen.
  • Gesteuert durch die CPU 2 liest die Geometrieberechnungseinheit 4 Polygondaten aus dem Arbeits-RAM 3 ein, die dreidimensionale Objektdaten in einem Welt-Koordinatensystem aufbauen. Daraufhin nimmt sie eine Koordinatentransformation auf Daten in einem Betrachtungspunkt-Koordinatensystem vor, dessen Ursprung der Betrachtungspunkt ist. Die in der Geometrieberechnungseinheit 4 bearbeiteten Polygondaten werden in den Renderer 5 eingegeben, in dem die Daten in Polygoneinheiten in Pixeleinheitendaten umgesetzt werden.
  • Die Pixeleinheitendaten werden in die Texturerzeugungseinheit 6 eingegeben, in der Texturfarbe in Pixeleinheiten erzeugt wird, und zwar abhängig von den im Textur-RAM 7 gespeicherten Texturdaten. Die Anzeigeeinheit 8 nimmt eine Verarbeitung zum Entfernen verdeckter Flächen und/oder eine Schattierung vor wie dies die Bilddaten von der Texturerzeugungseinheit 6 erfordern, und sie schreibt anschließend die Daten in den Framepuffer 9, wobei sie in zweidimensionale Koordinaten umgewandelt werden. Die in den Framepuffer 9 geschriebenen Daten werden wiederholt gelesen und in ein Videosignal umgesetzt, das ausgegeben wird. Auf diese Weise werden den jeweiligen Phonemen entsprechende Bilder verändert und beispielsweise auf einer Anzeige (nicht dargestellt) entsprechend der Zeitbezugsinformation angezeigt. Der Funktionsblock in 1, der die Sprachanalyseeinheit 1 nicht enthält, ist eine Animationsanzeigeeinheit, die Animationen darstellt.
  • 2 zeigt ein Anordnungsblockdiagramm einer Sprachanalyseeinheit (Sprachanalysevorrichtung) der Erfindung. Die Sprachanalyseeinheit 1 besitzt eine Eingabeeinheit 11, eine AD-Umsetzeinheit 12, eine Frequenzzerlegungseinheit 13, eine Veränderungsgrad-Berechnungseinheit 14, eine Abschnittsbestimmungseinheit 15, eine Phonementnahmeeinheit 16 und eine Speichereinheit 17. Diese Funktionseinheiten sind mit Hilfe eines Programms implementiert, das die CPU (CPU = Central Processing Unit) ausführt. Man könnte die Funktionseinheiten jedoch auch in Hardware implementieren. Ist eine CPU in der Sprachanalyseeinheit 1 enthalten, so kann die (nicht dargestellte) in der Sprachanalyseeinheit 1 enthaltene CPU verwendet werden, oder es kann eine externe CPU (beispielsweise die CPU 2 in 1) verwendet werden.
  • Die Eingabeeinheit 11 ist eine Schnittstelle, in die Sprache eingegeben wird. Die Spracheingabe in die Sprachanalyseeinheit 1 erfolgt beispielsweise mit Hilfe eines Eingangssignals von einem Mikrophon oder eines Ausgangssignals eines Audiogeräts, das über ein Audiokabel angeschlossen ist. In diesem Fall weist die Eingabeeinheit 11 die entsprechenden Eingangsanschlüsse für. die Verbindung mit einem Mikrophon oder Audiokabel auf. Die Sprache kann auch mit Hilfe digitaler Daten eingegeben werden, beispielsweise einer Wave-Datei oder einer MP3-Datei (MPEG 1 Audio Layer 3). In diesem Fall ist die Eingabeeinheit 11 mit einer Anschlussschnittstelle für die Datenübertragung versehen (beispielsweise einer USB-Schnittstelle (Universal Serial Bus), einer Parallelschnittstelle, einer IEEE-1394-Schnittstelle (IEEE = Institute of Electrical and Electronical Engineers) oder einem internen Bus).
  • Sind die eingegebenen Sprachdaten ein Analogsignal, so werden diese in einer Analog-Digital-Umsetzeinheit (A/D) 12 in digitale Daten umgesetzt. Die durch diesen Digitalumsetzprozess gewonnenen Sprachdaten sind zeitserielle Daten, die je einer Amplitude zu einem gegebenen Zeitpunkt zugeordnet sind. Diese Daten werden in die Frequenzzerlegungseinheit 13 eingegeben. Die Frequenzzerlegungseinheit 13 schneidet nacheinander versetzte Zeitbereiche (die Pages genannt werden) mit vorgeschriebener Länge heraus, unterteilt die Sprachdaten in zahlreiche Pages und analysiert die Frequenzkomponenten einer jeden Page (beispielsweise mit Hilfe der diskreten Fouriertransformation). Man kann die Pages auch als Rahmen oder Sprachrahmen bezeichnen.
  • Die Frequenzkomponentendaten für jede Page werden in die Veränderungsgrad-Berechnungseinheit 14 eingegeben, in der der Veränderungsgrad anhand der Korrelation zwischen benachbarten Pages berechnet wird (das Berechnungsverfahren wird später beschrieben). Der berechnete Veränderungsgrad wird in die Abschnittsbestimmungseinheit 15 eingegeben, in der Abschnitte, die Intervalle zum Entnehmen von Phonemen bilden, hinsichtlich ihrer Korrelation spezifiziert werden. Sie werden als Gruppen von Pages spezifiziert, deren Abschnittsgrenzen (genauer deren Anfangspositionen) benachbart sind. Die Phonementnahmeeinheit 16 entnimmt nun Phoneme für jeden auf diese Weise bestimmten Abschnitt durch Vergleich mit Referenzdaten, die in der Speichereinheit 17 abgelegt sind. Da Abschnittsgrenzen als Pagezahlen spezifiziert sind, wenn ein Abschnitt bestimmt wird, so wird dadurch die Zeitbezugsinformation bezüglich der Zeitpunkte ge wonnen, zu denen Phoneme wechseln, anders formuliert die Zeitbezugsinformation zum Festlegen des Zeitpunkts, an dem ein jedem Phonem zugeordnetes Bild anzuzeigen ist.
  • Die in der Speichereinheit 17 abgelegten Referenzdaten sind Referenzdaten, die man durch Mitteln der Ergebnisse erhält, indem man vorab die Stimmen zahlreicher Personen entsprechend der Prozedur analysiert, mit der eingegebene Sprache untersucht wird. Die Sprachanalyseeinheit 1 entnimmt also in der eingegebenen Sprache enthaltene Phoneme und gibt Zeitbezugsinformation aus, die die Zeitpunkte festlegt, an denen den Phonemen zugeordnete Bilder anzuzeigen sind.
  • 3 zeigt ein Flussdiagramm zum Erklären der Verarbeitung in einer Bilderzeugungsvorrichtung gemäß einer Ausführungsform der Erfindung. 4 bis 10 sind ebenfalls Ansichten, die dem Erklären der Schritte im Flussdiagramm in 3 dienen. 3 wird je nach Bedarf mit Hilfe dieser Abbildungen erklärt.
  • Zuallererst erfolgt eine Analog/Digital-Umsetzung (A/D) der eingegebenen Sprache (S1). Dies geschieht durch das Eingeben der Sprache, die über die Eingabeeinheit 11 eingegeben wurde, in die AD-Umsetzeinheit 12, in der das beispielsweise über ein Mikrophon eingegebene Analogsignal in digitale Daten umgesetzt wird. Liegt die eingegebene Sprache in Form digitaler Daten vor, so wird der Schritt S1 weggelassen.
  • Nun unterteilt die Frequenzzerlegungseinheit 13 die Sprachdaten in zahlreiche Pages, indem sie nacheinander versetzte Zeitbereiche (die Pages genannt werden) von vorgeschriebener Länge ausschneidet und die Frequenzkomponenten einer jeden Page analysiert (S2). Die vorgeschriebene Länge ist kürzer als das kürzeste Phonem (ungefähr 1/10 Sekunde). Man hat durch Erfahrung herausgefunden, dass man eine ausreichende Genauigkeit erhält, falls diese vorgeschriebene Länge ein Zehntel des kürzesten Phonems beträgt (d. h. ungefähr 1/100 Sekunde). Verkürzt man die vorgeschriebene Länge, so vergrößert dies lediglich den Verarbeitungsaufwand, bietet aber keine Vorteile. Die vorgeschriebene Länge wird daher bevorzugt auf ungefähr 1/10 Sekunde bis 1/100 Sekunde gesetzt.
  • 4 zeigt eine Ansicht für die Erklärung der Pageunterteilung im Schritt S2 in 3. Der Verlauf der eingegebenen Sprache ist durch eine Kurve dargestellt, wobei die Zeit auf der Abszisse und die Amplitude auf der Ordinate aufgetragen sind. Dieser Verlauf wird in eine Anzahl Pages unterteilt, wobei eine Page als ein Zeitbereich von vorgeschriebener Länge (in diesem Fall 1024 Punkte, wobei ein Punkt (1/44100) Sekunde ist) aufgefasst wird, der zum Zeitpunkt D beginnt (Zeitpunkt des Beginns der Spracheingabe), und diese Pages nacheinander um jedes Mal um 441 Punkte versetzt werden.
  • Obwohl in diesem Fall die vorgeschriebene Länge auf 1024 Punkte gesetzt wurde, sei darauf hingewiesen, dass man diesen Wert geeignet verändern kann, um beispielsweise die Abtastfrequenz des Sprachsignals oder die Sprechgeschwindigkeit des Sprechers einzubeziehen. Obgleich in diesem Fall in den Zeitbereichen überlappende Abschnitte vorhanden sind, da die Versatzzeit kürzer ist als der Zeitbereich mit der vorgeschriebenen Länge, kann man einen Zeitbereich mit vorgeschriebener Länge so wählen, dass keine überlappenden Abschnitte auftreten.
  • 5 zeigt eine Ansicht des Zusammenhangs zwischen Frequenz und Amplitude bei der Analyse der Frequenzkomponenten im Schritt S2 in 3. Diese Ansicht erhält man durch das Ausführen einer diskreten Fouriertransformation mit N Punkten auf der Kurve, die in jeder Page in 4 enthalten ist. Stellt man im Einzelnen die Amplitude an einem Punkt N in der Page m durch {x(m, k)[k = 0...N-1} dar, so kann man die diskrete Fouriertransformation durch die folgende Gleichung (A) ausdrücken.
    Figure 00150001
    wobei gilt
    Figure 00150002
  • Da dieser Ausdruck symmetrisch zur Amplitudenachse ist (siehe 5), reicht es aus, nur den positiven Frequenzbereich zu verwenden.
  • 6 zeigt eine Ansicht der Ergebnisse der Frequenzzerlegung bezüglich einer Anzahl Pages. In 6 sind zur Vereinfachung die Frequenzkomponentenkurven mit gleicher Form nebeneinander angeordnet. In Wirklichkeit unterscheiden sich die Frequenzkomponentenkurven für jede Page, da sich die Verläufe der eingegebenen Sprache abhängig von der verstrichenen Zeit unterscheiden.
  • Die Veränderungsgrad-Berechnungseinheit 14 berechnet nun zuerst mit Hilfe der Gleichung (B) die Korrelation zwischen benachbarten Pages (S3).
  • Figure 00160001
  • Die Art und Weise, in der die Korrelation berechnet wird, und die Bedeutung der Gleichung (B) wird anhand von 7 beschrieben.
  • 7 zeigt eine Ansicht, die darstellt, wie eine Berechnung der Korrelation zwischen benachbarten Pages erfolgt. 7 ist ein Beispiel für das Berechnen der Korrelation beispielsweise der Page m und der Page (m+1) (d. h. für den Fall dass in Gleichung (B) gilt x = m) aus den benachbarten Pages in 6. Die Korrelation erhält man aus der Summe für N Punkte der Werte, die man durch Multiplizieren der Amplituden gewinnt, die in jeder der Pages zur gleichen Frequenzkomponente gehören. In 7 werden zuerst die Amplitude A (m, k) der Page m und die Amplitude A (m+1, k) der Page (m+1), die zur gleichen Frequenzkomponente k gehören, multipliziert. Die Korrelation der Page m und der Page (m+1) berechnet man aus der Summe für k zwischen 0 und N-1.
  • Die Veränderungsgrad-Berechnungseinheit 14 mittelt dann die mit Gleichung (B) bestimmte Korrelation mit Hilfe der Gleichung (C), um Rauschen zu entfernen (S4).
  • Figure 00160002
  • Je geringer die Formänderung der Kurve der Frequenzkomponenten bei einem Wechsel der Pages ist, umso kleiner ist die Veränderung im Korrelationswert Q(x), den man aus Gleichung (C) erhält. Verändert sich dagegen die Kurvenform der Frequenzkomponenten, so tritt verglichen mit der Korrelation benachbarter und folgender Pages eine große Änderung im Korrelationswert Q(x) auf. Damit können Pages, an denen eine Änderung der Frequenzkomponentenkurve erfolgt, als definierend für die Grenzorte neuer Phoneme angesehen werden (d. h. als Abschnittsgrenzen). Nimmt man die Differenz zwischen Korrelationen als Veränderungsgrad, so kann man einen Abschnitt dadurch definieren, dass man benachbarte Pages spezifiziert, die die Bedingung erfüllen, dass der Veränderungsgrad dort verglichen mit den vorhergehenden und folgenden Veränderungsgraden größer ist als in diesen beiden Fällen (S5). Im Schritt S5 legt die Abschnittsbestimmungseinheit 15 anhand der Differenzfunktion der Korrelationen benachbarte Pages fest, die die angegebenen Bedingung erfüllen. Hierzu verwendet man die vom Rauschen befreite Korrelation Q(x). Die weitere Beschreibung erfolgt nun mit Hilfe von 8. Der Veränderungsgrad, d. h. die Differenzen zwischen Korrelationen, kann durch S(y) = Q(y+1) – Q(y) ausgedrückt werden.
  • 8 zeigt eine Ansicht des Zusammenhangs zwischen einem mit einer Page verbundenen Parameter y und der Differenz S(y) der Korrelation. S(1), das dem mit der Page verbundenen Parameter y = 1 zugeordnet ist, bedeutet einen Wert, den man durch Subtrahieren der Korrelationen (Q(1)) der benachbarten ersten Page und zweiten Page von der Korrelation (Q(2)) der benachbarten zweiten Page und dritten Page erhält. Obwohl man eine Page durch den mit der Page verbundenen Parameter nicht direkt spezifizieren kann, wird dadurch eine Gruppe benachbarter Pages festgelegt, die eine Abschnittsgrenze bestimmen.
  • Gruppen benachbarter Pages, die natürlichen Zahlen y zugeordnet sind, für die dieser Veränderungsgrad S(y) erfüllt S(y-1) < S(y) und S(y+1) < S(y) werden nun als Anfangspositionen von Phonemen festgelegt. Wie angegeben verändert sich der Verlauf einer eingegebenen Sprache an den Stellen beträchtlich, an denen sich Phoneme ändern. Damit geben Orte, die ausgeprägte Änderungen zeigen, die Anfangspositionen neuer Phoneme an. Im Fall von 8 gibt es vier Orte, an denen die natürliche Zahl y die Bedingungen S(y-1) < S(y) und S(y+1) < S(y) erfüllt (diese Orte werden jeweils als mit der Page verbundene Parameter y1, y2, y3 und y4 bezeichnet). Damit werden aus dem ersten bis vierten Abschnitt vier Phoneme entnommen.
  • Der mit der Page verbundene Parameter y1 bezeichnet die Page y1 oder y1 + 1 als Abschnittsanfangsseite. Es ist unerheblich, welche der beiden Pages verwendet wird. Im analysierten Sprachsignal werden dieses Pages als gleich betrachtet. Das Gleiche gilt für die weiteren mit Pages verbundenen Parameter, die die Abschnittsanfangspositionen festlegen. Nun berechnet die Phonementnahmeeinheit 16 für jeden im Schritt S5 bestimmten Abschnitt eine charakteristische Größe (S6). Ein gängiges Verfahren zum Berechnen gewöhnlicher charakteristischer Größen besteht beispielsweise darin, die eingegebene Sprache in jedem Abschnitt in Frequenzkomponenten zu zerlegen, daraufhin eine inverse Fouriertransformation vorzunehmen und dann eine Cepstrumanalyse. Ein Beispiel dafür besteht darin, die eingegebene Sprache für jeden Abschnitt in Frequenzkomponenten zu zerlegen und die Amplitude dieser Frequenzkomponenten als charakteristische Größen zu verwenden. Fallen Abschnitt und Page zusammen, so kann man die im Schritt S2 für jede Page bestimmten Ergebnisse der Frequenzzerlegung verwenden.
  • 9 zeigt eine Ansicht für die Erklärung der Frequenzzerlegung für jeden Abschnitt. Dabei ist erläutert, wie Frequenzkomponenten bei einer diskreten Fouriertransformation mit N Punkten für jeden Abschnitt berechnet werden. In 9 sind zur Vereinfachung die Frequenzkomponentenkurven mit gleicher Form nebeneinander angeordnet. In Wirklichkeit unterscheiden sich die Frequenzkomponentenkurven für jede Page, da sich die Verläufe der eingegebenen Sprache abhängig von der verstrichenen Zeit unterscheiden.
  • Nun werden Phoneme durch den Vergleich mit Referenzdaten entnommen (S7). Als Referenzdaten werden Daten verendet, die man durch Mitteln der Ergebnisse aus der obigen Prozedur mit den Schritten S1 bis S6 für zahlreiche Personen vorab bestimmt. Nach dem Erzeugen und Ablegen derartiger Referenzdaten in der Speichereinheit 17 kann man eine stabile Phonementnahme unabhängig davon erzielen, ob sich nachfolgend die Benutzer ändern. Es ist insbesondere die Anwendung auf eine unbestimmt große Anzahl von Benutzern möglich. Als Vergleichsverfahren kann man bekannte Vorgehensweisen verwenden, beispielsweise den DP-Vergleich.
  • Mit Hilfe der Verarbeitung in den obigen Schritten S1 bis S7 kann man Abschnitte und Phoneme und die Pages der Abschnittsgrenzen festlegen, die in der eingegebenen Sprache enthalten sind. Sind die Pages der Abschnittsgrenzen in dieser Ausführungsform festgelegt, so ist auch die Entnahme der Zeitbezugsinformation abgeschlossen, da die Umwandlung auf einen Zeitpunkt erreicht werden kann, indem man {Anfangszeitpunkt D + Produkt aus 441 Punkten und (Page der Abschnittsgrenze – 1)} verwendet. Anschließend wird entsprechend dem Phonem eine Animation gemäß der in 1 beschriebenen Anordnung angezeigt und dazu die Phonem- und Zeitbezugsinformation verwendet, die die Sprachanalyseeinheit 1 ausgibt (S8).
  • 10 zeigt eine Ansicht zum Erklären einer Animation entsprechend zu Phonemen. Sei beispielsweise angenommen, dass Dateien als entnommene Phoneme gewählt werden, und dass Referenzdaten für jeden Vokal in der Speichereinheit 17 hinterlegt sind. Sind Daten, die der Animation für jeden in 10 dargestellten Vokal zugeordnet sind, im Arbeits-RAM 3 gespeichert, so kann man eine Animation entsprechend zu jedem Vokal anzeigen, der in der eingegebenen Sprache enthalten ist, indem man die Bilderzeugungsvorrichtung in 1 verwendet. Beispielsweise kann man Animationsbilder, die einem jeden Vokal zugeordnet sind, dadurch anzeigen, dass man dem Bild "a" in 10 den Vokal "a" zuordnet und dem Bild "i" in 10 den Vokal "i".
  • Wie beschrieben kann man mit dieser Ausführungsform der Erfindung eine rasche Sprachanalyseverarbeitung in Echtzeit einfach dadurch erzielen, dass man die Ergebnisse der Analyse der eingegebenen Sprache zahlreicher Personen vorab als Referenzdaten herstellt, ohne dass es erforderlich ist, Referenzmuster für jeden Sprecher zu erzeugen. Da ein Einordnungsvorgang der Referenzmuster für jeden Sprecher nicht erforderlich ist und das Referenzmuster nur ein Mal erzeugt werden muss, kann man eine unbestimmt große Anzahl von Sprechern abdecken. Da man zudem keine Datenbank zum Speichern der Referenzmuster eines jeden Sprechers benötigt, ist eine Installation auch auf Anlagen mit geringer Speicherkapazität möglich.
  • Beispiele für mögliche Anwendungen umfassen die Animation für Online-Gesprächsforen, Animation in Videospielen (insbesondere in Videospielen, die im Konversationsmodus gespielt werden, oder in Rollenspielen), oder in unbemannten Empfangssystemen, die in Kliniken oder Finanzinstitutionen usw. verwendet werden.
  • In dieser Ausführungsform ist ein Verfahren beschrieben, das als Bilderzeugungsvorrichtung implementiert ist. Man beachte, dass eine Implementierung auch als Verfahren oder Programm möglich ist, das gemäß dem Flussdiagramm in 3 verarbeitet wird. Zudem ist in dieser Ausführungsform ein Verfahren beschrieben, das als Bilderzeugungsvorrichtung implementiert ist. Eine Anwendung ist auch beispielsweise als Sprache/Schrift-Umsetzvorrichtung möglich, wobei den Phonemen entsprechende Buchstaben angezeigt werden. In diesem Fall wird der Funktionsblock, der in der Anordnung in 1 eine Animation darstellt (der Funktionsblock, der die Sprachanalyseeinheit 1 in 1 nicht enthält), durch einen Funktionsblock ersetzt, der Buchstaben anzeigt. Den Schritt S8 (Flussdiagramm in 3), der die Animation anzeigt, kann man so verändern, dass er Buchstaben anzeigt. In dieser Ausführungsform ist ein Verfahren beschrieben, in dem die Implementierung als Bilderzeugungsvorrichtung erfolgt, die eine Sprachanalyseeinheit 1 enthält. Eine Implementierung der Sprachanalyseeinheit als unabhängige Vorrichtung (Sprachanalysevorrichtung) ist jedoch ebenfalls möglich. In diesem Fall lässt man den Schritt S8 in Flussdiagramm in 3 weg, und die Phoneme oder die Zeitbezugsinformationen, die von der Sprachanalysevorrichtung ausgegeben werden, werden in einer getrennten Vorrichtung verarbeitet, die daran angeschlossen ist.

Claims (14)

  1. Computerausführbares Verfahren zur Sprachanalyse, das Grenzen von Phonemen an eingegebenen Sprachsignalen erkennt, umfassend: einen ersten Schritt, der einen Zeitpunkt in dem eingegebenen Sprachsignal festlegt; einen zweiten Schritt, der das Sprachsignal entnimmt, das in einem Zeitbereich mit vorgeschriebener Länge ab dem Zeitpunkt enthalten ist; und einen dritten Schritt, in dem das entnommene Sprachsignal in Frequenzkomponentendaten zerlegt wird, wobei: n aus dem Sprachsignal entnommene Frequenzkomponentendaten, die in n Zeitbereichen mit der vorgeschriebenen Länge enthalten sind, dadurch gefunden werden, dass man den ersten, zweiten und dritten Schritt für jede vorgeschriebene Zeit n Mal wiederholt, wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat; (n-1) Korrelationen in den n Frequenzkomponentendaten gefunden werden, indem man die i-te Korrelation gewinnt, wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist, und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist; (n-2) Differenzen zwischen Korrelationen aus den (n-1) Korrelationen gewonnen werden, indem man die k-te Differenz zwischen Korrelationen abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt, wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist; wenn m definiert wird als die Zahl, die die Differenz zwischen Korrelationen festlegt, die größer ist als zwei Differenzen zwischen Korrelationen benachbart zu der festlegten Differenz zwischen Korrelationen in den (n-2) Differenzen zwischen Korrelationen von der ersten bis zur (n-2)-ten, d. h. m die Bedingung erfüllt, dass die m-te Differenz zwischen Korrelationen größer ist als die (m-1)-te Differenz zwischen Korrelationen und größer ist als die (m+1)-te Differenz zwischen Korrelationen, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die definierte Zahl m gefunden ist; ein Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festgelegt wird; und das eingegebene Sprachsignal entsprechend den festgelegten Zeitberei chen in zahlreiche Abschnitte unterteilt wird.
  2. Verfahren zur Sprachanalyse nach Anspruch 1, umfassend: das Berechnen charakteristischer Größen für jeden Abschnitt der unterteilten Sprachsignale, und das Spezifizieren der Phoneme der Abschnitte durch den Vergleich der charakteristischen Größen mit Referenzdaten für jedes Phonem.
  3. Verfahren zur Sprachanalyse nach Anspruch 1, wobei die vorgeschriebene Zeit über den Zeitbereich mit der vorgeschriebenen Länge verschoben wird, damit sich gegenseitig überlappende Abschnitte erzeugt werden.
  4. Verfahren zur Sprachanalyse nach Anspruch 1, wobei die Korrelation ein Wert ist, den man durch Summieren der Produkte der Amplituden erhält, die zu den gleichen Frequenzkomponenten gehören.
  5. Verfahren zur Sprachanalyse nach Anspruch 1, wobei man die Frequenzkomponentendaten durch die Fouriertransformation von Frequenzkomponenten des entnommenen Sprachsignals bestimmt.
  6. Verfahren zur Sprachanalyse nach Anspruch 2, wobei man die charakteristischen Größen abhängig von einer Amplitude einer jeden Frequenzkomponente bestimmt, die man durch Fouriertransformation des Sprachsignals erhält, das in dem Abschnitt des unterteilten Sprachsignals enthalten ist.
  7. Verfahren zur Sprachanalyse nach Anspruch 2, wobei Animationsbilder, die entsprechend den Phonemen der Abschnitte angezeigt werden, in einer Weise verändert werden, die an die Abschnitte angepasst ist.
  8. Sprachanalyseprogramm, das, wenn es auf einem Computer läuft, der eine CPU enthält, die CPU veranlasst, einen jeden Schritt eines Verfahrens gemäß Anspruch 1 auszuführen.
  9. Sprachanalyseprogramm nach Anspruch 8, das die CPU zudem veranlasst, auszuführen: das Berechnen charakteristischer Größen für jeden Abschnitt der unterteilten Sprachsignale, und das Spezifizieren der Phoneme der Abschnitte durch den Vergleich der charakteristischen Größen mit Referenzdaten für jedes Phonem.
  10. Sprachanalyseprogramm nach Anspruch 9, wobei die vorgeschriebene Zeit über den Zeitbereich mit der vorgeschriebenen Länge verschoben wird, damit sich gegenseitig überlappende Abschnitte erzeugt werden; die Korrelation ein Wert ist, den man durch Summieren der Produkte der Amplituden erhält, die zu den gleichen Frequenzkomponenten gehören; man die Frequenzkomponentendaten durch die Fouriertransformation von entnommenen Frequenzkomponenten des Sprachsignals bestimmt; und man die charakteristischen Größen abhängig von einer Amplitude einer jeden Frequenzkomponente bestimmt, die man durch Fouriertransformation des Sprachsignals erhält, das in dem Abschnitt des unterteilten Sprachsignals enthalten ist.
  11. Sprachanalyseprogramm nach Anspruch 9, wobei Animationsbilder, die entsprechend den Phonemen der Abschnitte angezeigt werden, in einer Weise verändert werden, die an die Abschnitte angepasst ist.
  12. Speichermedium, das ein Programm gemäß irgendeinem der Ansprüche 8 bis 11 speichert.
  13. Sprachanalysevorrichtung, umfassend: eine Frequenzzerlegungseinheit (13), die n Frequenzkomponentendaten findet, die aus einem Sprachsignal entnommen werden, das in n Zeitbereichen mit vorgeschriebener Länge enthalten ist, und zwar durch n-maliges Wiederholen in vorgeschriebenen Intervallen, wobei n eine natürliche Zahl ist, die mindestens den Wert 6 hat: des Spezifizierens eines Zeitpunkts in einem eingegebenen Sprachsignal; des Entnehmens eines Sprachsignals, das in einem Zeitbereich mit der vorgeschriebenen Länge ab den Zeitpunkt enthalten ist; und des Zerlegens des entnommenen Sprachsignals in Frequenzkomponentendaten; eine Veränderungsgrad-Berechnungseinheit (14), die (n-1) Korrelationen in den n Frequenzkomponentendaten findet, indem sie die i-te Korrelation gewinnt, wobei i eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-1) ist, und zwar abhängig vom i-ten Element der Frequenzkomponentendaten und dem (i+1)-ten Element der Frequenzkomponentendaten entsprechend dem Sprachsignal, das in gegenseitig benachbarten Zeitbereichen mit der vorgeschriebenen Länge enthalten ist, und die (n-2) Differenzen zwischen Korrelationen aus den (n-1) Korrelationen findet, indem sie die k-te Differenz zwischen Korrelationen abhängig von der k-ten Korrelation und der (k+1)-ten Korrelation bestimmt, wobei k eine natürliche Zahl ist, die mindestens den Wert 1 hat und nicht größer als (n-2) ist; und eine Abschnittsbestimmungseinheit (15), die eine definierte Zahl findet, wobei die definierte Zahl m als diejenige Zahl definiert ist, die die Differenz zwischen Korrelationen angibt, die größer ist als zwei Differenzen zwischen Korrelationen benachbart zu der festlegten Differenz zwischen Korrelationen in den (n-2) Differenzen zwischen Korrelationen von der ersten bis zur (n-2)-ten, d. h. die definierte Zahl m die Bedingung erfüllt, dass die m-te Differenz zwischen Korrelationen größer ist als die (m-1)-te Differenz zwischen Korrelationen und größer ist als die (m+1)-te Differenz zwischen Korrelationen, wobei sich m einmal in jedem Zeitschritt zwischen 2 und (n-3) ändert, die einen Zeitbereich der vorgeschriebenen Länge gemäß der definierten Zahl m festlegt, und die das eingegebene Sprachsignal entsprechend den festgelegten Zeitbereichen in zahlreiche Abschnitte unterteilt.
  14. Animationsbild-Erzeugungsvorrichtung mit einer Sprachanalysevorrichtung nach Anspruch 13, zudem umfassend: eine Phonementnahmeeinheit (16), die die Phoneme der Abschnitte durch das Berechnen charakteristischer Größen für jeden Abschnitt der unterteilten Sprachsignale spezifiziert, und die die charakteristischen Größen mit Referenzdaten für jedes Phonem vergleicht; und eine Animationsanzeigeeinheit (8), die Bilder darstellt, die den Phonemen der Abschnitte entsprechen, wobei sich diese Bilder in einer Weise verändern, die auf die Abschnitte abgestimmt ist.
DE602005000896T 2004-02-26 2005-02-22 Sprachsegmentierung Active DE602005000896T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004051998 2004-02-26
JP2004051998A JP4792703B2 (ja) 2004-02-26 2004-02-26 音声解析装置、音声解析方法及び音声解析プログラム

Publications (2)

Publication Number Publication Date
DE602005000896D1 DE602005000896D1 (de) 2007-05-31
DE602005000896T2 true DE602005000896T2 (de) 2008-01-17

Family

ID=34747518

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602005000896T Active DE602005000896T2 (de) 2004-02-26 2005-02-22 Sprachsegmentierung

Country Status (6)

Country Link
US (1) US7680660B2 (de)
EP (1) EP1569201B1 (de)
JP (1) JP4792703B2 (de)
CN (1) CN1319042C (de)
DE (1) DE602005000896T2 (de)
ES (1) ES2284133T3 (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
ES2391603T3 (es) * 2009-06-02 2012-11-28 Vodafone Holding Gmbh Registro de un dispositivo móvil en una red de comunicaciones móviles
US20110143768A1 (en) * 2009-12-14 2011-06-16 Lane Sean L Methods and apparatus related to region-specific mobile device and infrastructure detection, analysis and display
RU2445718C1 (ru) * 2010-08-31 2012-03-20 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале
US20120089392A1 (en) * 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
US10264990B2 (en) * 2012-10-26 2019-04-23 The Regents Of The University Of California Methods of decoding speech from brain activity data and devices for practicing the same
US9302393B1 (en) * 2014-04-15 2016-04-05 Alan Rosen Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes
US10002543B2 (en) * 2014-11-04 2018-06-19 Knotbird LLC System and methods for transforming language into interactive elements
US10057681B2 (en) 2016-08-01 2018-08-21 Bose Corporation Entertainment audio processing
TWI606390B (zh) * 2016-09-23 2017-11-21 元鼎音訊股份有限公司 可自動調整聲音輸出之方法及電子裝置
JP6337362B1 (ja) * 2017-11-02 2018-06-06 パナソニックIpマネジメント株式会社 認知機能評価装置、及び、認知機能評価システム
CN108170710A (zh) * 2017-11-28 2018-06-15 苏州市东皓计算机系统工程有限公司 一种计算机声音识别系统
CN108538308B (zh) * 2018-01-09 2020-09-29 网易(杭州)网络有限公司 基于语音的口型和/或表情模拟方法及装置
JP6672380B2 (ja) * 2018-05-29 2020-03-25 株式会社コロプラ ゲームプログラム、キャラクタ制御プログラム、方法、および情報処理装置
CN109087629A (zh) * 2018-08-24 2018-12-25 苏州玩友时代科技股份有限公司 一种基于语音识别的口型动画实现方法及装置
CN113112993B (zh) * 2020-01-10 2024-04-02 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质
CN111540344B (zh) * 2020-04-21 2022-01-21 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
CN116129926B (zh) * 2023-04-19 2023-06-09 北京北信源软件股份有限公司 智能设备自然语言交互信息处理方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58148443A (ja) 1982-03-01 1983-09-03 Seiko Epson Corp 半導体集積回路装置
JPS6136798A (ja) * 1984-07-30 1986-02-21 松下電器産業株式会社 音声セグメンテ−シヨン法
JPS61100956A (ja) 1984-10-22 1986-05-19 Nec Corp モノブリツド集積回路
NL8500377A (nl) 1985-02-12 1986-09-01 Philips Nv Werkwijze en inrichting voor het segmenteren van spraak.
JP2664136B2 (ja) * 1985-08-30 1997-10-15 株式会社日立製作所 音声認識装置
JP2863818B2 (ja) * 1990-08-31 1999-03-03 工業技術院長 動画像の変化点検出方法
JPH04263298A (ja) * 1991-02-16 1992-09-18 Nippon Sheet Glass Co Ltd 音声認識装置
US5689618A (en) * 1991-02-19 1997-11-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
JP3269162B2 (ja) 1992-03-23 2002-03-25 日本電気株式会社 エレクトロルミネッセンス表示パネル駆動回路
JPH0632007A (ja) 1992-07-15 1994-02-08 Sony Corp リボンカートリッジ
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
JP3081108B2 (ja) 1994-08-11 2000-08-28 株式会社トレンディ 話者分類処理装置及び方法
US6377918B1 (en) * 1997-03-25 2002-04-23 Qinetiq Limited Speech analysis using multiple noise compensation
JP2000100072A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
JP2000324499A (ja) * 1999-05-14 2000-11-24 Fujitsu Ltd 画像処理装置及びシーンチェンジ検出方法
JP2002108382A (ja) * 2000-09-27 2002-04-10 Sony Corp リップシンクを行うアニメーション方法および装置
JP2002215180A (ja) 2001-01-17 2002-07-31 Digital Media Lab Inc 通信装置
JP2003233389A (ja) 2002-02-12 2003-08-22 Yamaha Corp アニメーション画像生成装置、及び同装置を内蔵した携帯電話、並びにアニメーション画像生成方法

Also Published As

Publication number Publication date
EP1569201B1 (de) 2007-04-18
US7680660B2 (en) 2010-03-16
JP2005241997A (ja) 2005-09-08
JP4792703B2 (ja) 2011-10-12
ES2284133T3 (es) 2007-11-01
EP1569201A1 (de) 2005-08-31
CN1319042C (zh) 2007-05-30
CN1661675A (zh) 2005-08-31
US20050192805A1 (en) 2005-09-01
DE602005000896D1 (de) 2007-05-31

Similar Documents

Publication Publication Date Title
DE602005000896T2 (de) Sprachsegmentierung
DE10232916B4 (de) Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
EP1797552B1 (de) Verfahren und vorrichtung zur extraktion einer einem audiosignal zu grunde liegenden melodie
DE60014063T2 (de) Vorrichtung und verfahren zur erkennung von gefühlen in der menschlichen stimme
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE2945413C1 (de) Verfahren und Vorrichtung zur Synthetisierung von Sprache
DE102019001775A1 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
WO2005111998A1 (de) Vorrichtung und verfahren zum analysieren eines informationssignals
DE2825082A1 (de) Verfahren zur spracherkennung
DE19859174C1 (de) Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
DE60014031T2 (de) Sprachererkennung durch korrelierung von spektrogrammen
DE212016000292U1 (de) System zur Text-zu-Sprache-Leistungsbewertung
DE102004028693B4 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
EP3940692B1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
DE102004049517B4 (de) Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
DE10311581A1 (de) Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen
CN109767790A (zh) 一种语音情感识别方法及系统
DE602004007223T2 (de) Verfahren zur kontinuierlichwertigen Vokaltraktresonanzverfolgung unter Verwendung von stückweisen linearen Annäherungen
DE602004011292T2 (de) Vorrichtung zur Sprachdetektion
DE60131521T2 (de) Verfahren und Vorrichtung zur Steuerung des Betriebs eines Geräts bzw. eines Systems sowie System mit einer solchen Vorrichtung und Computerprogramm zur Ausführung des Verfahrens
DE10253868B3 (de) Verfahren und Anordnung zur Synchronisation von Test- und Referenzmustern sowie ein entsprechendes Computerprogramm-Erzeugnis und ein entsprechendes computerlesbares Speichermedium
DE2400027A1 (de) Verfahren und vorrichtung zum erkennen von worten
DE102004045097B3 (de) Verfahren zur Extraktion periodischer Signalkomponenten und Vorrichtung hierzu

Legal Events

Date Code Title Description
8364 No opposition during term of opposition