DE69816078T2 - Verbesserungen im bezug auf visuelle sprachsynthese - Google Patents

Verbesserungen im bezug auf visuelle sprachsynthese Download PDF

Info

Publication number
DE69816078T2
DE69816078T2 DE69816078T DE69816078T DE69816078T2 DE 69816078 T2 DE69816078 T2 DE 69816078T2 DE 69816078 T DE69816078 T DE 69816078T DE 69816078 T DE69816078 T DE 69816078T DE 69816078 T2 DE69816078 T2 DE 69816078T2
Authority
DE
Germany
Prior art keywords
acoustic
mouth
speaker
units
around
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69816078T
Other languages
English (en)
Other versions
DE69816078D1 (de
Inventor
Mats Ljungqvist
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telia AB
Original Assignee
Telia AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia AB filed Critical Telia AB
Application granted granted Critical
Publication of DE69816078D1 publication Critical patent/DE69816078D1/de
Publication of DE69816078T2 publication Critical patent/DE69816078T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems

Description

  • Die Erfindung betrifft visuelle Sprachsynthese und insbesondere ein Verfahren und eine Vorrichtung zum Schaffen von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers, die mit einem akustischem Sprachsignal verknüpft sind.
  • Im wesentlichen beruht die Erzeugung von Sprache auf den grundlegenden Mechanismen von
    • – Lautbildung, die mit den Schwingungen der Stimmbänder zusammenhängt; und
    • – Aussprache von Vokalen, die mit der sich mit der Zeit ändernden Geometrie des Stimmtraktes zusammenhängt, der für die phonemische Struktur von Sprache verantwortlich ist.
  • Wenn eine Person bewirkt, daß sein/ihr Zwerchfell nach oben gedrückt wird, wird Luft aus den Lungen ausgestoßen und strömt in die Luftröhre, die Stimmritze (den Zwischenraum zwischen den beiden Stimmbändern) und den Kehlkopf, bevor sie den oberen Teil der Stimmröhre erreicht, der Stimmtrakt genannt wird, der durch die Konkavitäten der Rachenhöhle und die nasalen und oralen Konkavitäten gebildet wird. Das periodische Verschließen der Stimmritze unterbricht die Luftströmung und erzeugt eine Variation des Luftdrucks, dessen Frequenz in den akustischen Bereich angehoben werden kann. Die harmonischen Komponenten dieser akustischen Welle, die Vielfache der fundamentalen (d. h. Tonhöhe) Frequenz sind, werden dann abgewandelt, so lange wie die Luft durch den Stimmtrakt strömt. Die Natur der Veränderung hängt von der Geometrie des Stimmtraktes ab. Die Form des Stimmtraktes kann tatsächlich dadurch verändert werden, daß der Kiefer, die Zunge, die Lippen und der weiche Gaumen (Gaumen) bewegt werden. Dieser Mechanismus ermöglicht es dem Stimmtrakt, ein sich mit der Zeit änderndes System zu bilden, das die Fähigkeit hat, die ankommende akustische Welle zu filtern, ihr Spektrum umzuformen und den erzeugten Ton abzuwandeln.
  • Sprache ist die Verkettung von elementaren Einheiten, die Phone genannt werden, die allgemein klassifiziert werden als:
    • – Vokale, wenn sie einer stabilen Konfiguration des Stimmtraktes entsprechen, oder alternativ
    • – als Konsonanten, wenn sie artikulierenden Übergangsbewegungen entsprechen.
  • Jeder Phon kann dann mit Hilfe weniger Attribute gekennzeichnet werden (d. h. offen/geschlossen, vorne/hinten, oral/nasal und abgerundet/unabgerundet), die die Artikulationsweise (d. h. Reibelaut wie /f/, /s/; Verschlußlaut wie /b/, /p/; nasal, wie /n/, /m/;...) und den Artikulationsort bestimmen (d. h. labial, dental, alveolar, gaumenmäßig oder stimmritzenmäßig).
  • Einige Phone wie Vokale und eine Untergruppe von Konsonanten werden von Stimmbandvibration begleitet und werden „stimmhafte" Phone genannt, während andere Phone wie Verschlußlautkonsonanten völlig unabhängig von der Stimmbandvibration sind und „stimmlose" Phone genannt werden. Mit stimmhaften Phonen wird das Sprachspektrum geformt, wie dies vorher beschrieben wurde, in Übereinstimmung mit der Geometrie des Stimmtraktes mit charakteristischen Energiekonzentrationen um drei Hauptspitzenwerte, die „Formanten" genannt werden, die bei anwachsenden Frequenzen F1, F2 und F3 angeordnet sind.
  • Ein Beobachter, der Lippen lesen kann, ist imstande, die wahrscheinlichen Orte der Formantenspitzenwerte zu schätzen, indem er die Übertragungsfunktion von der Konfiguration des sichtbaren Artikulierers berechnet. Diese Berechnung wird durch ein Schätzen von vier Grundparametern durchgeführt, nämlich:
    • (i) die Länge des Stimmtraktes, L;
    • (ii) der Abstand d zwischen der Stimmritze und der Stelle der maximalen Zusammenschnürung;
    • (iii) dem Radius r der Zusammenziehung; und
    • (iv) dem Verhältnis zwischen der Fläche A der Zusammenschnürung und der Länge L des Stimmtraktes.
  • Während die Länge L des Stimmtraktes von vonherein geschätzt werden kann, indem das Geschlecht und das Alters des Sprechers berücksichtigt wird, können die anderen Parameter (ungefähr) von der sichtbaren Konfiguration abgeleitet werden. Wenn die maximale Zusammenschnürung entsprechend dem Mund angeordnet ist, was Lippen, Zunge und Zähne einschließt, wie dies für labiale und dentale Phone der Fall ist, ist die Schätzung üblicherweise zuverlässig. Wenn die maximale Zusammenschnürung nicht sichtbar ist, wie z. B. bei Gaumenphonen (/k/, /g/), ist die Abschätzung üblicherweise sehr schlecht.
  • Das Lippenlesen stellt die höchste Synthese von menschlicher Erfahrung beim Umwandeln von visuellen Eingangssignalen in Worte und dann in Bedeutungen dar. Sie besteht aus einer persönlichen Datenbank von Kenntnis und Erfahrung, die durch Trainieren gebildet und verbessert wird und die Fähigkeit hat, virtuelle Töne mit speziellen Mundformen zu verknüpfen, die allgemein „Viseme" genannt werden, und dabei die darunterliegende akustische Nachricht abzuleiten. Die Aufmerksamtkeit des Lippenlesers ist im wesentlichen auf den Mund gerichtet, d. h. alle seine Komponenten, d. h. Lippen, Zähne und Zunge; signifikate Hilfe kommt jedoch beim Verständnisvorgang des Lippenlesers auch von dem Gesamtgesichtsausdruck des Sprechers.
  • Beim Lippenlesen wird eine beträchtliche Menge von Verarbeitung durch den Lippenleser selbst durchgeführt, der im Nachfiltern der umgewandelten Nachricht erfahren ist, um mit Fehlern und Kommunikationsverzögerungen fertigzuwerden. Es ist möglich, durch linguistische und semantische Überlegungen Nachrichten-Redundanz auszunutzen und ein Verständnis vom Zusammenhang der Nachricht zu erhalten. Diese Art von auf Kenntnis beruhender Interpretation wird durch den Lippenleser in Echtzeit durchgeführt.
  • Audiovisuelle Sprachwahrnehmung und Lippenlesen beruhen auf zwei Wahrnehmungssystemen, die kooperierend zusammenwirken, so daß im Falle von Gehörbehinderungen die visuelle Modalität die Gehörmodalität wirksam integrieren oder sogar ersetzen kann. Es ist experimentell gezeigt worden, daß die Ausnutzung von visueller Information, verknüpft mit den Bewegungen der Lippen des Sprechers, das Verständnis von Sprache verbessert; bei diesen Versuchen wird das Signal zu Rauschen Verhältnis (SNR) bis zu 15 dB erhöht, und Hörfehler werden in den meisten Fällen in nahezu perfektes visuelles Verständnis umgewandelt. Die visuelle Analyse des Gesichts des Sprechers liefert dem Beobachter unterschiedliche Informationsniveaus und verbessert die Unterscheidung des Signals von Geräuschen. Das Öffnen/Schließen der Lippen ist in der Tat stark mit der Kraft oder Leistung des Sprachsignal korreliert und ergibt nützliche Hinweise, was die Art und Weise betrifft, in der der Sprachfluß aufgeteilt ist. Während Vokale ziemlich leicht erkannt werden können, sowohl durch Hören als auch durch Sehen, sind Konsonanten dagegen sehr empfindlich auf Rauschen und Geräusche, und visuelle Analyse stellt häufig den einzigen Weg eines erfolgreichen Verständnisses dar. Die akustischen Fingerzeige, verknüpft mit Konsonanten, sind normalerweise durch niedrige Intensität, eine sehr kurze Dauer und feine Sprachmusterung gekennzeichnet.
  • Es ist gezeigt worden (siehe B. Dodd, T. Campbell, „Hearing by eye: the psychology of lipreading (mit dem Auge hören: die Psychologie des Lippenlesens)", Lawrence Erlbaum Ass. Publ., insbesondere Figur B.1: Auditory confusion of consonant transitions, CV, in white noise with decreasing Signal to noise ratio expressed in dB (Höhr-Konfusion bei Konsonantenübergängen, CV, in weißem Rauschen mit abnehmenden Signal zu Raschenverhältnis ausgedrückt in dB, und Figur B.2: Visual confusion of consonant transitions, CV, in white noise among adult hearing impaired persons (visuelle Verwirrung bei Konsonantenübergängen, CV, im weißem Rausehen unter erwachsenen hörbehinderten Personen)) in Bezug auf Hörverwirrung, daß Fingerzeige von Nasalität und Stimmhaftigkeit wirksam durch akustische Analyse unterschieden werden, unterschiedlich von Ortshinweisen, die leicht durch Lärm verzerrt werden (siehe Fig. B.1 von Dodd et al).
  • Die entgegengesetzte Situation tritt in der visuellen Domäne auf (siehe Fig. B.2 von Dodd et al), wo der Ort sehr viel leichter erkannt wird als Stimmhaftigkeit und Nasalität. Indem das Signal zu Rauschen Verhältnis verringert wird, werden Konsonanten, die urspürnglich unterschieden wurden, mehr und mehr durcheinandergebracht und angehäuft. Wenn die 11. Anhäufung gebildet ist (gestrichelte Linie von Figur B.2 von Dodd et al) können die resultierenden neun Gruppen von Konsonanten als getrennte Viseme angesehen werden.
  • Platzhinweise sind in der Tat mit mittelhohen Frequenzen verknüpft, d. h. oberhalb 1 kHz, die üblicherweise bei den meisten Hörstörungen schlecht unterschieden werden. Nasalität und Stimmhaftigkeit sind jedoch im unteren Teil des Frequenzspektrums angeordnet. Platzhinweise sind darüber hinaus durch eine kurzzeitige feine spektrale Struktur gekennzeichnet, was hohe Frequenz- und Zeitauflösung erfordert, während Stimmhaftigkeits- und Nasalitätshinweise meistens mit der unstrukturierten Leistungsverteilung über mehrere zehn Millisekunden verknüpft sind.
  • In jedem Fall ist das Beobachten des Gesichts eines Sprechers offensichtlich ein großer Vorteil für das Sprachverständnis und fast notwendig bei Anwesenheit von Geräuschen oder Gerhörfehlern, d. h., daß das Sehen die Aufmerksamkeit des Hörers ausrichtet, Redundanz zum Signal hinzufügt und Anzeichen auf jene Hinweise liefert, die irreversibel durch Geräusche verdeckt werden würden. Es ist bekannt, daß bei der normalen verbalen Kommunikation die Analyse und das Verständnis verschiedener Artikulierungsbewegungen auf einem bimodalen Verständnismechanismus für die ununterbrochene Integration koherenter visueller und akustischer Anregungen beruht. Im Falle von Behinderungen im akustischen Kanal aufgrund von Entfernung, lauten Umgebungen, Transportbarrieren (z. B. eine Glasscheibe) oder pathologischen Zuständen wird die vorherrschende Aufgabe des Aufnehmens daher durch die visuelle Modalität durchgeführt. In diesem Falle werden nur die Bewegung und die Ausdrücke der visuellen Artikulationsorgane für das Verständnis verwertet, d. h. die vertikale und horizontale Öffnung der Lippen des Sprechers, vertikale Kieferverschiebung, Sichtbarkeit der Zähne, Zungenstellung und andere weniger wichtige Anzeigeelemente, wie z. B. das Aufblasen der Wangen des Sprechers und Nasenzusammenziehungen.
  • Es ist aus den Ergebnissen von experimenteller Phonetik bekannt, daß hörbehinderte Menschen sich beim Lippenlesen von normal hörenden Menschen unterschiedlich verhalten. Insbesondere Viseme, wie z. B. Bilabiale /b, p, m/,Reibelaute /f, v/, und Verschlußkonsonanten /d, d werden sowohl durch hörbehinderte Menschen und Menschen, die normales Gehör haben, erkannt, während andere Viseme, wie z. B. /k, g/ nur durch hörbehinderte Menschen erkannt werden. Das Auftreten der richtigen Erkennung für jedes Visem ist auch unterschiedlich zwischen normalen und hörbehinderten Menschen. Z. B. sind hörbehinderte Menschen sehr viel erfolgreicher als normal hörende Menschen beim Erkennen von nasalen Konsonanten /m, n/. Die beiden besonderen Unterschiede in der Phonemerkennung ist schwierig zu erklären, da das Gaumensegel, das der Hauptartekulierer ist, der bei Phonemen eine Rolle spielt wie z. B. /k, g/ oder /m, n/, nicht sichtbar ist, und seine Bewegungen nicht beim Lippenlesen wahrgenommen werden können. Eine mög liche Erklärung, die von kürzlichen Ergebnissen in der experimentellen Phonetik herrührt, beruht auf der Auswertung von sekundären Artikulationsanzeigen, die allgemein durch den normalen Beobachter nicht bemerkt werden.
  • Es ist ein Ziel der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung für visuelle Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers zu schaffen, die mit einem akustischen Sprachsignal verknüpft sind.
  • Es ist ein anderes Ziel der vorliegenden Erfindung, ein Telekommunikationssystem einschließlich eines Geräts zum Liefern von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers zu schaffen, die mit einem akustischem Sprachsignal verknüpft sind, um ein verbessertes Verständnis von akustischen Sprachsignalen für Benutzer des Systems zu erleichtern, die ein behindertes Gehör und die Fähigkeit der Lippenlesens haben.
  • Gemäß einem ersten Gesichtspunkt der vorliegenden Erfindung wird geschaffen ein Verfahren zur Schaffung von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers, die einem vom Sprecher abgegebenen akustischen Sprachsignal zugeordnet sind, mit den Schritten: Analysieren des akustischen Sprachsignals zur Identifizierung seiner konstitutierenden elementaren Spracheinheiten; Erzeugen und Darstellen auf einem Displayschirm eines Bildes von sich bewegenden menschlichen Gesichtszügen, wobei die Gesichtsbewegungen im wesentlichen in Echtzeit mit den konstituierenden elementaren Spracheinheiten synchronisiert sind; wobei das Verfahren gekennzeichnet ist durch den Schritt des Darstellens auf dem Displayschirm einer Serie von Bewegungsmustern für jeweilige konstituierende elementare Einheiten des akustischen Sprachsignals, wobei die Bewegungsmuster repräsentativ sind für die Bewegung in drei Dimensionen einer Anzahl von Punkten um den Mund des Sprechers herum; und im wesentlichen in Echtzeit mit einer jeweiligen konstituierenden elementaren Spracheinheit synchronisiert sind.
  • Gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung wird geschaffen ein Verfahren zur Schaffung von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers, die einem vom Sprecher abgegebenen akustischen Sprachsignal zugeordnet sind, mit den Schritten: Analysieren des akustischen Sprachsignals zur Identifizierung seiner konstituierenden elementaren Spracheinheiten; Erzeugen und Darstellen auf einem Displayschirm eines Bildes von sich bewegenden menschlichen Gesichtszügen, wobei die Gesichtsbewegungen im wesentlichen in Echtzeit mit den konstituierenden elementaren Spracheinheiten synchronisiert sind; wobei das Verfahren gekennzeichnet ist durch den Schritt des Erzeugens und Speicherns einer Serie von Gesichts-Bewegungsmustern für die konstituierenden elementaren Einheiten von akustischen Sprachsignalen für die Darstellung auf dem Displayschirm, wobei jedes der Bewegungsmuster repräsentativ ist für die Bewegung in drei Dimensionen einer Anzahl von Punkten um den Mund des Sprechers herum für eine jeweilige konstituierende elementare Spracheinheit.
  • Die in den vorstehenden Absätzen angegebenen Verfahren können den Schritt des Abrufens aufgrund der Identifizierung jeder konstituierenden elementaren Einheiten des vom Sprecher abgegebenen akustischen Sprachsignals eines jeweiligen gespeicherten Bewegungsmusters für die Darstellung einschließen.
  • Die Gesichtsmerkmale um den Mund können den Bereich um die Lippen, Wangen und Nase einschließen, und die Anzahl von Punkten um den Mund kann wenigstens zehn Punkte betragen.
  • Bei einem bevorzugten Verfahren der vorliegenden Erfindung kann die Erzeugung der Serie von Gesichtsbewegungsmustern die Schritte umfassen: Speichern einer visuellen Darstellung von menschlichen Gesichtszügen, einschließlich mindestens des Mundes, zusammen mit Information, die eine Normalposition einer Anzahl von Punkten um den Mund herum angibt; Analysieren von akustischen Sprachsignalen zur Identifizierung der zuge ordneten akustischen Parameter, die die konstituierenden elementaren Spracheinheiten definieren; Durchführung von dreidimensionalen Messungen für jeden der identifizierten akustischen Parameter, an jedem der Anzahl von Punkten um den Mund eines Sprechers herum für jeden der identifizierten akustischen Parameter; Vergleichen, für jeden der akustischen Parameter, der gemessenen Positionen und der Normalpositionen für jeden der Anzahl von Punkten rund um den Mund herum, zum Bestimmen einer Positionsdifferenz in drei Dimensionen an jedem der Anzahl von Punkten für einen jeweiligen akustischen Parameter; Erstellen eines Bewegungsmusters für die Anzahl von Punkten um den Mund herum für jeden der akustischen Parameter, wobei das Bewegungsmuster eine Transformation von den akustischen Parametern zu den dreidimensionalen Differenzen zwischen den gemessenen und normalen Positionen an jedem der Anzahl von Punkten ist; und Speichern der Bewegungsmuster für jeden der akustischen Parameter. Die Transformation kann eine lineare Funktion sein, die eine Differenz für einen Meßpunkt als eine Funktion von akustischen Parametern beschreibt. Auch können die akustischen Parameter statistisch aus bekannten Daten unter Verwendung von mehrfachen linearen Regressionsverfahren geschätzt werden.
  • Die Bestandteile bildenden elementaren Einheiten, die sich aus der Analyse des (der) akustischen Sprachsignale(s) ergeben, können die Form einer Serie von Phonen haben, die für Vokale und Konsonanten repräsentativ sind.
  • In Übereinstimmung mit dem Verfahren der vorliegenden Erfindung können die akustischen Parameter alle 20 Millisekunden (50 Hz) geschätzt werden.
  • Gemäß einem dritten Gesichtspunkt der vorliegenden Erfindung wird geschaffen ein Verfahren zum Schaffen von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers, die mit einem akustischem Sprachsignal verknüpft sind, wobei das akustische Sprachsignal analysiert wird, um seine die Bestandteile bildenden oder konstituierenden elementaren Spracheinheiten zu identifizieren, bei dem die Gesichtsbewegungen des Sprechers, die mit jedem der Bestandteile bildenden elementaren Spracheinheiten verknüpft sind, gemessen werden, wobei die Analyse und die Gesichtsmessungen zeitlich synchronisiert werden und benutzt werden, die visuellen Darstellungen der Gesichtsbewegungen des Sprechers zu synthetisieren, und wobei die synthetisierten visuellen Darstellungen angezeigt werden, damit sie durch eine Person angeschaut werden können, an die das akustische Sprachsignal adressiert ist, gleichzeitig mit Empfang der entsprechenden Bestandteile bildenden elementaren Spracheinheiten durch diese Person, dadurch gekennzeichnet, daß das Verfahren die Schritte aufweist, Speichern einer visuellen Darstellung von menschlichen Gesichtszügen, einschließlich mindestens des Mundes, zusammen mit Information, die eine Normalposition in einer Anzahl von Punkten um den Mund herum angibt; Analysieren des akustischen Sprachsignals zur Identifizierung der zugeordneten akustischen Parameter, die die Einzelteile bildenden oder konstituierenden Elementaren Spracheinheiten definieren; während der Analyse des akustischen Sprachsignals Durchführung von dreidimensionalen Messungen für jeden der identifizierten akustischen Parameter an jedem der Anzahl von Punkten um den Mund eines Sprechers herum für jeden der identifizierten akustischen Parameter; Vergleichen, für jeden der akustischen Parameter, der gemessenen Positionen und der Normalpositionen für jeden der Anzahl von Punkten um den Mund herum zum Bestimmen einer Positionsdifferenz in drei Dimensionen an jedem der Anzahl von Punkten für einen jeweiligen akustischen Parameter; Erstellen eines Bewegungsmusters für die Anzahl von Punkten um den Mund herum für jeden der akustischen Parameter, wobei das Bewegungsmuster eine Transformation von den akustischen Parametern zu den dreidimensionalen Differenzen zwischen den gemessenen und normalen Positionen an jedem der Anzahl von Punkten ist; Senden der resultierenden Bewegungsmuster zu einem Empfänger zur selben Zeit und in Synchronisation mit den entsprechenden konstituierenden elementaren Spracheinheiten; und die Bewegungsmuster des Mundes auf der Anzeigeeinheit synchron mit dem Empfang durch den Empfänger von entsprechen den konstituieren elementaren Einheiten des akustischen Sprachsignals anzuzeigen.
  • Gemäß einem vierten Gesichtspunkt der vorliegenden Erfindung wird geschaffen eine Vorrichtung zur Schaffung von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers, die einem vom Sprecher abgegebenen akustischen Sprachsignal zugeordnet sind, mit: einer Displayeinheit zum Anzeigen der visuellen Darstellungen; Mitteln zum Analysieren des akustischen Sprachsignals zur Identifizierung seiner konstituierenden elementaren Spracheinheiten; Generiermittlen zum Erzeugen und Darstellen, auf der Displayeinheit eines Bildes von sich bewegenden menschlichen Gesichtszügen, wobei die Gesichtsbewegungen im wesentlichen in Echtzeit mit den konstituierenden elementaren Spracheinheiten synchronisiert sind; dadurch gekennzeichnet, daß die Vorrichtung angepaßt ist für das Darstellen, auf dem Displayschirm, einer Serie von Bewegungsmustern für jeweilige konstituierende elementare Einheiten des akustischen Sprachsignals, wobei jedes der Bewegungsmuster repräsentativ ist für die Bewegung in drei Dimensionen einer Anzahl von Punkten um den Mund des Sprechers herum; und im wesentlichen in Echtzeit mit einer jeweiligen konstituierenden elementaren Spracheinheit synchronisiert ist.
  • Gemäß einem fünften Gesichtspunkt der vorliegenden Erfindung wird geschaffen eine Vorrichtung zur Schaffung von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers, die einem vom Sprecher abgegebenen akustischen Sprachsignal zugeordnet sind, mit: einer Displayeinheit zum Anzeigen der visuellen Darstellungen; Mitteln zum Analysieren des akustischen Sprachsignals zur Identifizierung seiner konstituierenden elementaren Spracheinheiten; Generiermittlen zum Erzeugen und Darstellen, auf der Displayeinheit eines Bildes von sich bewegenden menschlichen Gesichtszügen, wobei die Gesichtsbewegungen im wesentlichen in Echtzeit mit den konstituierenden elementaren Spracheinheiten synchronisiert sind dadurch gekennzeichnet, daß die Generiermittel Mittel zum Erzeugen einer Reihe von Gesichtsbewegungsmuster für die kon stituierenden elementaren Einheiten von akustischen Sprachsignalen für Anzeige auf dem Bildschirm einschließen, wobei jedes der Bewegungsmuster eine Bewegung in drei Dimensionen eine Anzahl von Punkten um den Mund eines Sprechers herum für die entsprechende konstituierende elementare Spracheinheit angibt, und daß die Vorrichtung Speichermittel zum Speichern der Reihe von Gewichtsbewegungsmustern aufweist.
  • Die Vorrichtung der vorliegenden Erfindung kann Abrufmittel einschließen, die auf die Identifizierung jeder der konstituierenden elementaren Einheiten des akustischen Sprachsignals reagieren, das durch einen Sprecher geliefert wird, um ein entsprechendes gespeichertes Bewegungsmuster für Anzeige auf der Anzeigeeinheit abzurufen.
  • Bei der Vorrichtung der vorliegenden Erfindung können die Gesichtszüge um den Mund herum den Bereich um die Lippen, Wangen und Nase einschließen und die Anzahl von Punkten um den Mund kann wenigstens zehn Punkte betragen.
  • Die Generiermittel können einschließen Speichermittel zum Speichern einer visuellen Darstellung von menschlichen Gesichtszügen, einschließlich mindestens des Mundes, zusammen mit Information, die eine Normalposition einer Anzahl von Punkten um den Mund herum angibt; Analysiermittel zum Analysieren von akustischen Sprachsignalen zur Identifizierung der zugeordneten akustischen Parameter, die die konstituierenden elementaren Spracheinheiten definieren; Meßmittel zur Durchführung von dreidimensionalen Messungen an jedem der Anzahl von Punkten um den Mund eines Sprechers herum für jeden der identifizierten akustischen Parameter; Vergleichsmittel zum Vergleichen, für jeden der akustischen Parameter, der gemessenen Positionen und der Normalpositionen für jeden der Anzahl von Punkten rund um den Mund herum, zum Bestimmen einer Positionsdifferenz in drei Dimensionen an jedem der Anzahl von Punkten für einen jeweiligen akustischen Parameter; und Transformationsmittel zum Erstellen eines Bewegungsmusters für die Anzahl von Punkten um den Mund herum für jeden der akustischen Parameter, wobei das Bewegungsmuster eine Transformation von den akustischen Parametern zu den dreidimensionalen Differenzen zwischen den gemessenen und normalen Positionen an jedem der Anzahl von Punkten ist.
  • Die Transformation, die durch die Transformationsmittel bewirkt wird, kann eine lineare Funktion sein, die den Unterschied für einen Meßpunkt als Funktion von akustischen Parameter beschreibt, und die Analysiermittel können dazu ausgebildet sein, statistisch die akustischen Parameter von bekannten Daten unter Verwendung von vielfacher linearer Regressionstechniken zu schätzen.
  • Die konstituierenden elementaren Spracheinheiten, die sich aus der Analyse des (der) akustischen Sprachsignal e) ergeben, können in Form einer Reihe von Phonen sein, die repräsentativ für Vokale und Konsonanten sind, und die akustischen Parameter können alle 20 Millisekunden (50 Hz) geschätzt werden.
  • Gemäß einem sechsten Gesichtspunkt der vorliegenden Erfindung wird eine Vorrichtung zum Schaffen von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers geschaffen, die mit einem akustischem Sprachsignal verknüpft sind, die eine Anzeigeeinheit zum Anzeigen der visuellen Darstellungen, Analysiermittel zum Analysieren des akustischen Sprachsignals zum Identifizieren von ihren konstituierenden elementaren Spracheinheiten, Mittel zum Messen der Gesichtsbewegungen des Sprechers, die mit jeder der konstituierenden elementaren Spracheinheiten verknüpft sind, wobei die Gesichtsmessungen und Sprachsignalanalysen zeitlich synchronisiert sind; Mittel zum Synthetisieren der visuellen Darstellungen der Gesichtsbewegungen des Sprechers, wobei die synthetisierte visuelle Darstellung auf der Anzeigeeinheit angezeigt wird, damit sie durch eine Person angesehen werden kann, an die das akustische Sprachsignal adressiert ist, gleichzeitig mit dem Empfang der entsprechenden konstituierenden elementaren Spracheinheiten durch diese Person, ein schließt, dadurch gekennzeichnet, daß die Vorrichtung Speichermittel zum Speichern einer visuellen Darstellung der menschlichen Gesichtszüge, die wenigstens dem Mund einschließt, zusammen mit Information, die die Normalposition einer Anzahl von Punkten um den Mund herum anzeigt, Analysiermittel zum Analysieren des akustischen Sprachsignals, um die damit verknüpften akustischen Parameter zu identifizieren, die die konstituierenden elementaren Spracheinheiten definieren; Meßmittel zum Durchführen während der Analyse des akustischen Sprachsignals von dreidimensionalen Messungen an jeder der Anzahl von Punkten um den Mund des Sprechers für jeden der identifizierten akustischen Parameter; Vergleichsmittel zum Vergleichen für jeden der akustischen Parameter der gemessenen und normalen Positionen für jeden der Anzahl von Punkten um den Mund, um eine Positionsdifferenz in drei Dimensionen an jeder der Anzahl von Punkten für einen entsprechenden akustischen Parameter zu bestimmen; Transformationsmittel zum Einrichten eines Bewegungsmusters für die Anzahl von Punkten um den Mund für jeden der akustischen Parameter, welches Bewegungsmuster eine Transformation von den akustischen Parametern zu den Differenzen zwischen den gemessenen und normalen Positionen jeder der Anzahl von Punkten in drei Dimensionen ist, und Übertragungsmittel einschließt um die resultierenden Bewegungsmuster zu einem Empfänger zur selben Zeit wie und synchron mit den entsprechenden konstituierenden elementaren Spracheinheiten zu übertragen; und daß die Vorrichtung dazu ausgebildet ist, Bewegungsmuster des Mundes auf der Anzeigeeinheit synchron mit dem Empfang entsprechender konstituierender elementarer Einheiten des akustischen Sprachsignals durch den Empfänger anzuzeigen.
  • Gemäß einem siebten Gesichtspunkt der vorliegenden Erfindung wird eine Vorrichtung zum Schaffen von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers geschaffen, die mit einem akustischen Sprachsignal verknüpft sind, das durch den Sprecher geliefert wird, in Übereinstimmung mit dem Verfahren, wie es in den vorstehenden Absätzen ausgeführt wurde.
  • Gemäß einem achten Gesichtspunkt der vorliegenden Erfindung wird ein Telekommunikationssystem geschaffen, das eine Mehrzahl von Telefonhandgeräten und Vermittlungsmittel einschließt, die dazu ausgebildet sind, irgendwelche zwei oder mehr der Telefonhandgeräte miteinander zu verbinden, dadurch gekennzeichnet, daß das System eine Vorrichtung, wie sie in den vorstehenden Absätzen ausgeführt wurde, zum Liefern eines besseren Verständnisses akustischer Sprachsignale für Benutzer der Telefonhandgeräte einschließt, die ein behindertes Hörvermögen und Erfahrung zum Lippenlesen haben. Jeder der Telefonhandapparate kann dazu ausgebildet sein, mit der Vorrichtung verbunden zu sein und integral damit ausgebildet zu sein, wobei die Anzeigeeinheit der Vorrichtung dazu ausgebildet ist, Gesichtsbewegungsmuster synchron mit dem Empfang entsprechender konstituierender Elementareinheiten eines akustischen Sprachsignals anzuzeigen, das durch ein entsprechendes Telefonhandgerät empfangen wird, und wobei die Anzeige für die Gesichtsbewegung es einem Benutzer eines Handgerätes ermöglicht, einen wesentlichen Teil des Inhalts des akustischen Sprachsignals durch Lippenablesen der Gesichtsbewegungen zu verstehen.
  • Die vorstehenden und andere Merkmale der vorliegenden Erfindung werden besser aus der folgenden Beschreibung besonderer Ausführungsformen der Erfindung verstanden werden.
  • In Übereinstimmung mit dem Verfahren und der Vorrichtung der vorliegenden Erfindung wird ein lippenlesbares visuelles synthetisches Ausgangssignal durch die automatische Analyse kontinuierlicher Sprache geschaffen, wobei große Aufmerksamkeit der Definition geeigneter Anzeigegrößen gewidmet wird, die die Fähigkeit haben, die visuell relevanten Artikulierungsorte zu beschreiben, wie z. B. labial, dental und alveolar, mit dem geringstmöglichen Rest von Mehrdeutigkeit. Man wird aus der folgenden Beschreibung erkennen, daß die Methodik der folgenden Erfindung visuelle Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers schafft, die mit einem akustischen Sprachsignal verknüpft sind, und zwar um den Mund des Sprechers, d. h., daß der Gesichtsbereich für Analyse und Synthese der Bereich um die Lippen einschließlich der Wangen und der Nase ist.
  • Mit dem Verfahren und der Vorrichtung der vorliegenden Erfindung werden daher Gesichtsbewegungen, die von einem akustischen Sprachsignal herrühren, an einer Stelle von Punkten um den Mund herum kontrolliert, und es werden fortgeschrittene Berechnungen von Transformationen von Sprache zu Gesichtsbewegungen durchgeführt, d. h. Transformationen von akustischen Sprachparametern zu Gesichtsbewegungsparametern.
  • Bekannte Verfahren und Vorrichtungen für die Schaffung von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers verknüpft mit einem akustischen Sprachsignal, das durch den Sprecher geliefert wird, beinhalten normalerweise Analyse des akustischen Sprachsignals, um seine konstituierenden elementaren Einheiten zu identifizieren, und die Generierung und Anzeige eines Bildes der sich bewegenden menschlichen Gesichtszüge auf einem Anzeigebildschirm. Die angezeigten Bewegungen der Gesichtszüge sind im wesentlichen in Echtzeit mit den konstituierenden elementaren Spracheinheiten synchronisiert.
  • In Übereinstimmung mit dem Verfahren und der Vorrichtung der vorliegenden Erfindung wird eine Reihe von Gesichtsbewegungsmustern für die konstituierenden elementaren Einheiten akustischer Sprachsignale generiert und gespeichert. Diese Gesichtsbewegungsmuster zeigen die Bewegung einer Anzahl von Punkten in drei Dimensionen an, z. B. wenigstens zehn Punkte, und zwar um den Mund des Sprechers herum. Die Gesichtszüge um den Mund des Sprechers, für den die Bewegungsmuster generiert und gespeichert werden, schließen vorzugsweise den Bereich um die Lippen, Wangen und Nase ein.
  • Die Generierung einer Reihe von Gesichtsbewegungsmuster wird vorzugsweise in Übereinstimmung mit der Erfindung dadurch be wirkt, daß erst eine visuelle Darstellung menschlicher Gesichtszüge einschließlich wenigstens des Mundes in ihrem Normalzustand zusammen mit Information gespeichert wird, die die normalen Positionen einer Anzahl von Punkten anzeigen, zum Beispiel wenigstens zehn Punkte, und zwar um den Mund herum, was, wie dies oben erwähnt wurde, vorzugsweise den Bereich um die Lippen, Wangen und Nase einschließt.
  • Der nächste Schritt bei dem Generierungsverfahren für das Bewegungsmuster besteht darin, eine Analyse akustischer Sprachsignale durchzuführen, um die damit zusammenhängenden akustischen Parameter zu identifizieren, die die konstituierenden elementaren Spracheinheiten definieren, und dreidimensionale Messungen an jeder der Anzahl von Punkten um den Mund eines Sprechers für jeden der identifizierten akustischen Parameter durchzuführen.
  • Die akustischen Parameter können z. B. statistisch von bekannten Daten unter Verwendung von Techniken vielfacher linearer Regression geschätzt werden.
  • Wie dies vorher angegeben wurde, ist Sprache die Verkettung von elementaren Einheiten, die Phone benannt werden, die allgemein klassifiziert werden als:
    • – Vokale, wenn sie einer stabilen Konfiguration des Stimmtraktes entsprechen, oder alternativ
    • – als Konsonanten, wenn sie zu artikulatorischen Übergangsbewegungen entsprechen.
  • Jeder Phon kann, wie dies vorher erwähnt wurde, mit Hilfe weniger Attribute gekennzeichnet werden (d. h. offen/geschlossen, vorne/hinten, oral/nasal und abgerundet/unabgerundet), was die Artikulationsweise (d. h. Reibelaut, wie /f/, /s/; Verschlußlaut, wie /b/, /p/; nasal, wie /n/, /m/;...) und den Artikulationsort bestimmt (d. h. labial, dental, alwiolar, im Gaumen oder stimmbandmäßig). Einige Phone wie Vokale und eine Untergruppe von Konsonanten werden durch Stimmbandvibration begleitet und werden „stimmhafte" Phone genannt, während andere Phone, wie z. B. Verschlußlaute, völlig unabhängig von Stimmbandvibration sind und „stimmlose" Phone genannt werden. In stimmhaften Phonen wird, wie dies vorher beschrieben wurde, das Sprachspektrum geformt, und zwar in Übereinstimmung mit der Geometrie des Stimmtraktes mit charakteristischen Energiekonzentrationen um drei Hauptspitzenwerte, die „Formanten" genannt werden, die bei anwachsenden Frequenzen F1, F2 und F3 angeordnet sind.
  • Darüber hinaus ist, wie dies vorher erwähnt wurde, ein Beobachter, der Fähigkeiten zum Lippenlesen hat, imstande, die wahrscheinlichen Orte der Formanten-Spitzenwerte zu schätzen, indem er die Transferfunktion von der Konfiguration der sichtbaren Artikulatoren berechnet.
  • In Übereinstimmung mit der vorliegenden Erfindung können daher die konstituierenden elementare Spracheinheiten, die sich aus der Analyse der akustischen Sprachsignale ergeben, in Form einer Reihe von Phonen sein, die repräsentativ für Vokale und Konsonanten sind.
  • Bei der nächsten Stufe des Generierungsprozesses für das Bewegungsmuster werden dreidimensionale Messungen an jedem der Anzahl von Punkten um den Mund herum des Sprechers für jeden der identifizierten akustischen Parameter vorgenommen. Die gemessenen und normalen Positionen für jeden der Anzahl von Punkte um den Mund werden kann für jeden der akustischen Parameter verglichen, um eine Positionsdifferenz in drei Dimensionen an jedem der Anzahl von Punkten für einen entsprechenden akustischen Parameter zu bestimmen. Ein Bewegungsmuster wird dann für die Anzahl von Punkten um den Mund für jeden der akustischen Parameter eingerichtet. Die sich ergebenden Bewegungsmuster sind eine Transformation von den akustischen Parametern zu den Unterschieden in drei Dimensionen zwischen den gemessenen und normalen Positionen jedes der Anzahl von Punkte um den Mund. Die Transformation kann z. B. eine linea re Funktion sein, die eine Differenz für einen Meßpunkt als Funktion von akustischen Parametern beschreibt.
  • Die Gesichtsbewegungsmuster für jeden der akustischen Parametern werden dann für anschließende Verwendung in der Synthese und der Anzeige von Gesichtsbewegungen gespeichert, die mit einem akustischen Sprachsignal verknüpft sind.
  • Als Reaktion auf die Identifizierung jeder der konstituierenden elementaren Einheiten des akustischen Sprachsignal, das durch den Sprecher geliefert wird, wird daher ein entsprechendes gespeichertes Gesichtsbewegungsmuster abgerufen und auf einem Anzeigeschirm angezeigt, damit es durch einem Empfänger des Sprachsignals angesehen werden kann. Die akustischen Parameter, die die konstituierenden elementaren Spracheinheiten definieren, können z. B. alle 20 Millisekunden (50 Hz) geschätzt werden. Der Anzeigeschirm wird daher eine visuelle Darstellung in Echtzeit der Gesichtszüge des Sprechers im wesentlichen in Echtzeit synchronisiert mit den konstituierenden elementaren Einheiten des akustischen Sprachsignals liefern. Diese Anzeige wird es einer Person, die hörbehindert ist und die Fähigkeit hat Lippen zu lesen, ermöglichen, ein verbessertes Verständnis des akustischen Sprachsignals zu erhalten.
  • Während das Verfahren und die Vorrichtung der vorliegenden Erfindung in einer Anzahl von Anwendungen benutzt werden könnte, was für den Fachmann direkt ersichtlich sein wird, ist eine besondere Anwendung der vorliegenden Erfindung in einem Telekommunikationssystem, das Teilnehmer mit Hörbehinderung und einer Fähigkeit zum Lippenlesen hat.
  • In einem Telekommunikationssystem, das eine Mehrzahl von Telefonhandapparaten und Vermittlungsmittel einschließt, die dazu ausgebildet sind, irgendwelche zwei oder mehr der Telefonhandgeräte zu verbinden, ermöglicht daher die vorliegende Erfindung Benutzern der Telefonhandapparate, die eine Hörbehinderung haben und fähig sind, Lippen zu lesen, ein verbes sertes Verständnis akustischer Sprachsignale durch Betrachten der angezeigten visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers zu erhalten, während sie dem akustischen Sprachsignal zuhören. Anders gesagt wäre die Anzeigeeinheit der Vorrichtung dazu ausgebildet, Gesichtsbewegungsmuster synchron mit dem Empfang entsprechender konstituierender elementarer Einheiten eines akustischen Sprachsignals anzuzeigen, die durch einen entsprechende Telefonhandapparat empfangen werden, und die Anzeige der Gesichtsbewegungen würde es dem Benutzer des Handapparates ermöglichen, einen wesentlichen Teil des Inhalts des akustischen Sprachsignals durch Lippenlesen der Gesichtsbewegungen zu verstehen.
  • Bei einem solchen Telekommunikationssystem könnte z. B. jeder Handapparat dazu ausgebildet sein, mit der Vorrichtung der vorliegenden Erfindung verbunden zu sein oder integral damit zu sein.
  • Obwohl ein Videotelefonsystem es einem hörbehinderten Teilnehmer ermöglichen würde, der die Fähigkeit hat, Lippen zu lesen, ein verbessertes Verständnis eines akustischen Sprachsignals zu erhalten, ist ein konventionelles Telefonsysten, das die Vorrichtung der vorliegenden Erfindung einschließt oder in Übereinstimmung mit dem Verfahren der vorliegenden Erfindung arbeitet, kostengünstiger und benötigt wesentlich weniger Bandbreite als ein Videotelefonsystem.
  • Das Verfahren und die Vorrichtung der vorliegenden Erfindung könnten jedoch für Benutzung in einem Telekommuniaktionssystem ausgebildet werden, indem visuelle Echtzeitbilder der Gesichtsbewegungen des Sprechers anstelle der gespeicherten Darstellungen verwendet werden. Die Bandbreiteerfordernisse eine solchen Telekommunikationssystems würden größer sein als ein konventionelles Telefonsystem, aber geringer als ein konventionelles Videotelefonsystem.
  • Um eine solche Anordnung zu realisieren, schließt das Verfahren der vorliegenden Erfindung zum Schaffen von visuellen Echtzeitdarstellungen von Gesichtsbewegungen eines Sprechers, die mit einem akustischen Sprachsignal verknüpft sind, die Schritte ein, eine visuelle Repräsentation von Gesichtszügen, wenigstens den Mund einschließend, in einem normalen Zustand zusammen mit Information zu speichern, die die Normalposition einer Anzahl von Punkten anzeigen, z. B. zehn Punkten, um den Mund, und das akustische Sprachsignal zu analysieren, um die damit zusammenhängenden akustischen Parameter zu identifizieren, die die konstituierenden elementaren Spracheinheiten definieren. Während der Analyse des akustischen Sprachsignals würden dreidimensionale Messungen an jedem der Anzahl von Punkte um den Mund des Sprechers für jeden der identifizierten akustischen Parameter durchgeführt. Diese Messungen können z, B. alle 20 Millisekunden (50 Hz) durchgeführt werden. Der nächste Schritt des Verfahrens schließt das Vergleichen für jeden der identifizierten akustischen Parameter der gemessenen und normalen Positionen für jeden der Anzahl von Punkten um den Mund ein, um eine Positionsdifferenz in drei Dimensionen an jedem der Anzahl von Punkten für einen entsprechenden akustischen Parameter zu bestimmen, um ein Bewegungsmuster für die Anzahl von Punkten um den Mund für jeden der akustischen Parameter einzurichten. Wie oben ist das Bewegungsmuster eine Transformation von den akustischen Parametern zu den Unterschieden in drei Dimensionen zwischen den gemessenen und Normalpositionen jeder der Anzahl von Punkten um den Mund. Die resultierenden Bewegungsmuster werden mit derselben Zeit wie und synchron mit den entsprechenden konstituierenden elementaren Spracheinheit übertragen. Die Bewegungsmuster werden dann auf einer Anzeigeeinheit synchron mit Empfang durch einen Hörer der entsprechenden konstituierenden elementaren Einheiten des akustischen Sprachsignals angezeigt.

Claims (19)

  1. Verfahren zur Schaffung von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers, die einem vom Sprecher abgegebenen akustischen Sprachsignal zugeordnet sind, mit den Schritten: – Analysieren des akustischen Sprachsignals zur Identifizierung seiner konstituierenden elementaren Spracheinheiten; – Erzeugen und Darstellen auf einem Displayschirm eines Bildes von sich bewegenden menschlichen Gesichtszügen, wobei die Gesichtsbewegungen im wesentlichen in Echtzeit mit den konstituierenden elementaren Spracheinheiten synchronisiert sind; wobei das Verfahren gekennzeichnet ist durch den Schritt des Darstellens auf dem Displayschirm einer Serie von Bewegungsmustern für jeweilige konstituierende elementare Einheiten des akustischen Sprachsignals, wobei die Bewegungsmuster – repräsentativ sind für die Bewegung in drei Dimensionen einer Anzahl von Punkten um den Mund des Sprechers herum; und – im wesentlichen in Echtzeit mit einer jeweiligen konstituierenden elementaren Spracheinheit synchronisiert sind, und durch den Schritt des Abrufens, aufgrund der Identifizierung jeder der konstituie renden elementaren Einheiten des vom Sprecher abgegebenen akustischen Sprachsignals, eines jeweiligen gespeicherten Bewegungsmusters für die Darstellung, wobei die Erzeugung der Serie von Gesichtsbewegungsmustern die folgenden Schritte umfaßt: – Speichern einer visuellen Darstellung von menschlichen Gesichtszügen, einschließlich mindestens des Mundes, zusammen mit Information, die eine Normalposition einer Anzahl von Punkten um den Mund herum angibt; – Analysieren von akustischen Sprachsignalen zur Identifizierung der zugeordneten akustischen Parameter, die die konstituierenden elementaren Spracheinheiten definieren; – Durchführung von dreidimensionalen Messungen für jeden der identifizierten akustischen Parameter, an jedem der Anzahl von Punkten um den Mund eines Sprechers herum für jeden der identifizierten akustischen Parameter; – Vergleichen, für jeden der akustischen Parameter, der gemessenen Positionen und der Normalpositionen für jeden der Anzahl von Punkten rund um den Mund herum, zum Bestimmen einer Positionsdifferenz in drei Dimensionen an jedem der Anzahl von Punkten für einen jeweiligen akustischen Parameter; – Erstellen eines Bewegungsmusters für die Anzahl von Punkten um den Mund herum für jeden der akustischen Parameter, wobei das Bewegungsmuster eine Transformation von den akustischen Parametern zu den dreidimensionalen Differenzen zwischen den gemessenen und normalen Positionen an jedem der Anzahl von Punkten ist; und – Speichern der Bewegungsmuster für jeden der akustischen Parameter.
  2. Verfahren zur Schaffung von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers, die einem vom Sprecher abgegebenen akustischen Sprachsignal zugeordnet sind, mit den Schritten: – Analysieren des akustischen Sprachsignals zur Identifizierung seiner konstituierenden elementaren Spracheinheiten; – Erzeugen und Darstellen auf einem Displayschirm eines Bildes von sich bewegenden menschlichen Gesichtszügen, wobei die Gesichtsbewegungen im wesentlichen in Echtzeit mit den konstituierenden elementaren Spracheinheiten synchronisiert sind; wobei das Verfahren gekennzeichnet ist durch den Schritt des Erzeugens und Speicherns einer Serie von Bewegungsmustern für die konstituierenden elementaren Einheiten von akustischen Sprachsignalen für die Darstellung auf dem Displayschirm, wobei jedes der Bewegungsmuster repräsentativ ist für die Bewegung in drei Dimensionen einer Anzahl von Punkten um den Mund des Sprechers herum für eine jeweilige konstituierende elementare Spracheinheit, und durch den Schritt des Abrufens, aufgrund der Identifizierung jeder der konstituierenden elementaren Einheiten des vom Sprecher abgegebenen akustischen Sprachsignals, eines jeweiligen gespeicherten Bewegungsmusters für die Darstellung, wobei die Erzeugung der Serie von Gesichtsbewegungsmustern, die folgenden Schritte umfaßt: – Speichern einer visuellen Darstellung von menschlichen Gesichtszügen, einschließlich mindestens des Mundes, zusammen mit Information, die eine Normalposition einer Anzahl von Punkten um den Mund herum angibt; – Analysieren von akustischen Sprachsignalen zur Identifizierung der zugeordneten akustischen Parameter, die die konstituierenden elementaren Spracheinheiten definieren; – Durchführung von dreidimensionalen Messungen für jeden der identifizierten akustischen Parameter, an jedem der Anzahl von Punkten um den Mund eines Sprechers herum für jeden der identifizierten akustischen Parameter; – Vergleichen, für jeden der akustischen Parameter, der gemessenen Positionen und der Normalpositionen für jeden der Anzahl von Punkten rund um den Mund herum, zum Bestimmen einer Positionsdifferenz in drei Dimensionen an jedem der Anzahl von Punkten für einen jeweiligen akustischen Parameter; – Erstellen eines Bewegungsmusters für die Anzahl von Punkten um den Mund herum für jeden der akustischen Parameter, wobei das Bewegungsmuster eine Transformation von den akustischen Parametern zu den dreidimensionalen Differenzen zwischen den gemessenen und normalen Positionen an jedem der Anzahl von Punkten ist; und – Speichern der Bewegungsmuster für jeden der akustischen Parameter.
  3. Verfahren nach einem vorangehenden Anspruch, dadurch gekennzeichnet, daß die Gesichtszüge um den Mund herum den Bereich um die Lippen, Wangen und Nase beinhalten.
  4. Verfahren nach einem vorangehenden Anspruch, dadurch gekennzeichnet, daß die Anzahl von Punkten um den Mund herum mindestens 10 Punkte beträgt.
  5. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Transformation eine lineare Funktion ist, die eine Differenz für einen Meßpunkt als eine Funktion von akustischen Parametern beschreibt.
  6. Verfahren nach Anspruch 2 oder 5, dadurch gekennzeichnet, daß die akustischen Parameter statistisch aus bekannten Daten geschätzt werden unter Verwendung von mehrfachen linearen Regressionsverfahren.
  7. Verfahren nach einem vorangehenden Anspruch, dadurch gekennzeichnet, daß die sich aus der Analyse des (der) akustischen Sprachsignale(s) ergebenden konstituierenden elementaren Einheiten die Form einer Serie von Phonen haben, die für Vokale und Konsonanten repräsentativ sind.
  8. Verfahren nach einem vorangehenden Anspruch, gekennzeichnet durch den Schritt des Schätzens der akustischen Parameter alle 20 Millisekunden (50Hz).
  9. Vorrichtung zur Schaffung von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers, die einem vom Sprecher abgegebenen akustischen Sprachsignal zugeordnet sind, mit: – einer Displayeinheit zum Anzeigen der visuellen Darstellungen; – Mitteln zum Analysieren des akustischen Sprachsignals zur Identifizierung seiner konstituierenden elementaren Spracheinheiten; – Generiermittlen zum Erzeugen und Darstellen, auf der Displayeinheit eines Bildes von sich bewegenden menschlichen Gesichtszügen, wobei die Gesichtsbewegungen im wesentlichen in Echtzeit mit den konstituierenden elementaren Spracheinheiten synchronisiert sind; dadurch gekennzeichnet, daß die Vorrichtung angepaßt ist für das Darstellen, auf dem Displayschirm, einer Serie von Bewegungsmustern für jeweilige konstituierende elementare Einheiten des akustischen Sprachsignals, wobei jedes der Bewegungsmuster – repräsentativ ist für die Bewegung in drei Dimensionen einer Anzahl von Punkten um den Mund des Sprechers herum; und – im wesentlichen in Echtzeit mit einer jeweiligen konstituierenden elementaren Spracheinheit synchronisiert ist, und daß die Generiermittel enthalten: – Speichermittel zum Speichern einer visuellen Darstellung von menschlichen Gesichtszügen, einschließlich mindestens des Mundes, zusammen mit Information, die eine Normalposition einer Anzahl von Punkten um den Mund herum angibt; – Analysiermittel zum Analysieren von akustischen Sprachsignalen zur Identifizierung der zugeordneten akustischen Parameter, die die konstituierenden elementaren Spracheinheiten definieren; Meßmittel zur Durchführung von dreidimensionalen Messungen an jedem der Anzahl von Punkten um den Mund eines Sprechers herum für jeden der identifizierten aku stischen Parameter; – Vergleichsmittel zum Vergleichen, für jeden der akustischen Parameter, der gemessenen Positionen und der Normalpositionen für jeden der Anzahl von Punkten rund um den Mund herum, zum Bestimmen einer Positionsdifferenz in drei Dimensionen an jedem der Anzahl von Punkten für einen jeweiligen akustischen Parameter; – und Transformationsmittel zum Erstellen eines Bewegungsmusters für die Anzahl von Punkten um den Mund herum für jeden der akustischen Parameter, wobei das Bewegungsmuster eine Transformation von den akustischen Parametern zu den dreidimensionalen Differenzen zwischen den gemessenen und normalen Positionen an jedem der Anzahl von Punkten ist.
  10. Vorrichtung zur Schaffung von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers, die einem vom Sprecher abgegebenen akustischen Sprachsignal zugeordnet sind, mit: – einer Displayeinheit zum Anzeigen der visuellen Darstellungen; – Mitteln zum Analysieren des akustischen Sprachsignals zur Identifizierung seiner konstituierenden elementaren Spracheinheiten; – Generiermittlen zum Erzeugen und Darstellen, auf der Displayeinheit eines Bildes von sich bewegenden menschlichen Gesichtszügen, wobei die Gesichtsbewegungen im wesentlichen in Echtzeit mit den konstituierenden elementaren Spracheinheiten synchronisiert sind; dadurch gekennzeichnet, daß die Generiermittel Mittel aufweisen zum Erzeugen einer Serie von Bewegungsmustern für die konstituierenden elementaren Einheiten des akustischen Sprachsignals für die Darstellung auf dem Schirm, wobei die Bewegungsmuster repräsentativ sind für die Bewegung in drei Dimensionen einer Anzahl von Punkten um den Mund des Sprechers herum für eine jeweilige konstituierende elementare Spracheinheit, und daß die Vorrichtung Speichermittel umfaßt zum Speichern der Serie von Gesichtsbewegungen, wobei die Generiermittel umfassen: – Speichermittel zum Speichern einer visuellen Darstellung von menschlichen Gesichtszügen, einschließlich mindestens des Mundes, zusammen mit Information, die eine Normalposition einer Anzahl von Punkten um den Mund herum angibt; – Analysiermitel zum Analysieren von akustischen Sprachsignalen zur Identifizierung der zugeordneten akustischen Parameter, die die konstituierenden elementaren Spracheinheiten definieren; Meßmittel zur Durchführung von dreidimensionalen Messungen an jedem der Anzahl von Punkten um den Mund eines Sprechers herum für jeden der identifizierten akustischen Parameter; – Vergleichsmittel zum Vergleichen, für jeden der akustischen Parameter, der gemessenen Positionen und der Normalpositionen für jeden der Anzahl von Punkten rund um den Mund herum, zum Bestimmen einer Positionsdifferenz in drei Dimensionen an jedem der Anzahl von Punkten für einen jeweiligen akustischen Parameter; – und Transformationsmittel zum Erstellen eines Bewegungsmusters für die Anzahl von Punkten um den Mund herum für jeden der akustischen Parameter, wobei das Bewegungsmuster eine Transformation von den akustischen Parametern zu den dreidimensionalen Differenzen zwischen den gemessenen und normalen Positionen an jedem der Anzahl von Punkten ist.
  11. Vorrichtung nach Anspruch 9 oder 10, dadurch gekennzeichnet, daß die Vorrichtung Abrufmittel aufweist, die aufgrund der Identifizierung jeder der konstituierenden elementaren Einheiten des vom Speicher abgegebenen akustischen Sprachsignals ein jeweiliges gespeichertes Bewegungsmuster für die Darstellung auf der Displayeinheit abrufen.
  12. Vorrichtung nach einem der Ansprüche 9 bis 12, dadurch gekennzeichnet, daß die Gesichtszüge um den Mund herum den Bereich um die Lippen, Wangen und Nase beinhalten.
  13. Vorrichtung nach einem der Ansprüche 9 bis 12, dadurch gekennzeichnet, daß die Anzahl von Punkten um den Mund herum mindestens 10 Punkte beträgt.
  14. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, daß die Transformation eine lineare Funktion ist, die eine Differenz für einen Meßpunkt als eine Funktion von akustischen Parametern beschreibt.
  15. Vorrichtung nach Anspruch 13 oder 14, dadurch gekennzeichnet, daß die Analysiermittel dafür angepaßt sind, die akustischen Parameter aus bekannten Daten unter Verwendung von mehrfachen linearen Regressionsverfahren statistisch zu schätzen.
  16. Vorrichtung nach einem der Ansprüche 9 bis 15, dadurch gekennzeichnet, daß die sich aus der Analyse des (der) akustischen Sprachsignale(s) ergebenden konstituierenden elementaren Einheiten die Form einer Serie von Phonen haben, die für Vokale und Konsonanten repräsentativ sind.
  17. Vorrichtung nach einem der Ansprüche 9 bis 16, gekennzeichnet durch den Schritt des Schätzens der akustischen Parameter alle 20 Millisekunden (50Hz).
  18. Telekommunikationssystem mit einer Mehrzahl von Telefonhandgeräten und Schalteinrichtungen zum Verbinden von zwei oder mehr der Telefonhandgeräten, dadurch gekennzeichnet, daß das System eine Vorrichtung nach einem der Ansprüche 9 bis 17 enthält zum Schaffen einer verbesserten Verständnismöglichkeit von akustischen Sprachsignalen für Benutzer der Telefonhandgeräte, die hörbehindert sind und das Lippenlesen beherrschen.
  19. Telekommunikationssystem nach Anspruch 18, dadurch gekennzeichnet, daß jedes der Telefonhandgeräte mit der Vorrichtung verbindbar oder mit ihr integriert ist, daß die Displayeinheit der Vorrichtung dazu angepaßt ist, Gesichtsbewegungsmuster synchron mit dem Empfang von entsprechenden konstituierenden elementaren Einheiten eines akustischen Sprachsignals, das von einem jeweiligen Telefonhandgerät empfangen wird, darzustellen, und daß die Gesichtsbewegungsdarstellung einen Benutzer des Handgerätes in die Lage versetzt, einen wesentlichen Teil des Inhaltes des akustischen Sprachsignals durch das Lippenlesen der Gesichtsbewegungen zu verstehen.
DE69816078T 1997-05-27 1998-04-20 Verbesserungen im bezug auf visuelle sprachsynthese Expired - Fee Related DE69816078T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9701977A SE511927C2 (sv) 1997-05-27 1997-05-27 Förbättringar i, eller med avseende på, visuell talsyntes
SE9701977 1997-05-27
PCT/SE1998/000710 WO1998054696A1 (en) 1997-05-27 1998-04-20 Improvements in, or relating to, visual speech synthesis

Publications (2)

Publication Number Publication Date
DE69816078D1 DE69816078D1 (de) 2003-08-07
DE69816078T2 true DE69816078T2 (de) 2004-05-13

Family

ID=20407101

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69816078T Expired - Fee Related DE69816078T2 (de) 1997-05-27 1998-04-20 Verbesserungen im bezug auf visuelle sprachsynthese

Country Status (7)

Country Link
EP (1) EP0983575B1 (de)
DE (1) DE69816078T2 (de)
DK (1) DK0983575T3 (de)
EE (1) EE03634B1 (de)
NO (1) NO317598B1 (de)
SE (1) SE511927C2 (de)
WO (1) WO1998054696A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007007228A2 (en) 2005-07-11 2007-01-18 Philips Intellectual Property & Standards Gmbh Method for communication and communication device
US8664160B2 (en) 2005-11-10 2014-03-04 Basf Se Fungicidal mixtures
US9956407B2 (en) 2014-08-04 2018-05-01 Cochlear Limited Tonal deafness compensation in an auditory prosthesis system
US10534955B2 (en) * 2016-01-22 2020-01-14 Dreamworks Animation L.L.C. Facial capture analysis and training system
CN106067989B (zh) * 2016-04-28 2022-05-17 江苏大学 一种人像语音视频同步校准装置及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
US5482048A (en) * 1993-06-30 1996-01-09 University Of Pittsburgh System and method for measuring and quantitating facial movements
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
CA2162199A1 (en) * 1994-11-07 1996-05-08 Homer H. Chen Acoustic-assisted image processing
SE519244C2 (sv) * 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes

Also Published As

Publication number Publication date
EP0983575A1 (de) 2000-03-08
WO1998054696A1 (en) 1998-12-03
EE03634B1 (et) 2002-02-15
DK0983575T3 (da) 2003-10-27
SE9701977D0 (sv) 1997-05-27
NO995673D0 (no) 1999-11-19
SE9701977L (sv) 1998-11-28
NO317598B1 (no) 2004-11-22
DE69816078D1 (de) 2003-08-07
EE9900542A (et) 2000-06-15
NO995673L (no) 2000-01-25
EP0983575B1 (de) 2003-07-02
SE511927C2 (sv) 1999-12-20

Similar Documents

Publication Publication Date Title
Lavagetto Converting speech into lip movements: A multimedia telephone for hard of hearing people
DE60020865T2 (de) System, Verfahren und Computerprogramm für einen telefonischen Emotionsdetektor mit Rückmeldung an einen Bediener
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE60031432T2 (de) System, verfahren und hergestellter gegenstand zur detektion von emotionen in sprachsignalen mittels statistischer analyse von sprachsignalparametern
DE69632901T2 (de) Vorrichtung und Verfahren zur Sprachsynthese
DE602005001142T2 (de) Nachrichtenübertragungsgerät
JP2518683B2 (ja) 画像合成方法及びその装置
EP3074974B1 (de) Hörhilfevorrichtung mit grundfrequenzmodifizierung
Beskow et al. The teleface project multi-modal speech-communication for the hearing impaired
Agelfors et al. Synthetic faces as a lipreading support.
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE60019248T2 (de) Sprachgesteuertes Mundanimationssystem
DE69816078T2 (de) Verbesserungen im bezug auf visuelle sprachsynthese
Olives et al. Audio-visual speech synthesis for finnish
DE69817550T2 (de) Verfahren zur sprachsynthese
DE602004011292T2 (de) Vorrichtung zur Sprachdetektion
WO2010078938A2 (de) Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
DE102020102468B3 (de) Verfahren zur Steuerung einer Anzeigevorrichtung und Anzeigevorrichtung zur dynamischen Anzeige eines vordefinierten Textes
DE102007039603A1 (de) Verfahren zum Synchronisieren von medialen Datenströmen
Cooke Auditory organisation and speech perception: Arguments for an integrated computational theory
DE69829947T2 (de) Ein verfahren und gerät zum synchronisieren eines computeranimierten modells mit einem audiosignal

Legal Events

Date Code Title Description
8339 Ceased/non-payment of the annual fee