-
Die Erfindung betrifft visuelle Sprachsynthese
und insbesondere ein Verfahren und eine Vorrichtung zum Schaffen
von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines
Sprechers, die mit einem akustischem Sprachsignal verknüpft sind.
-
Im wesentlichen beruht die Erzeugung
von Sprache auf den grundlegenden Mechanismen von
- – Lautbildung,
die mit den Schwingungen der Stimmbänder zusammenhängt; und
- – Aussprache
von Vokalen, die mit der sich mit der Zeit ändernden Geometrie des Stimmtraktes
zusammenhängt,
der für
die phonemische Struktur von Sprache verantwortlich ist.
-
Wenn eine Person bewirkt, daß sein/ihr Zwerchfell
nach oben gedrückt
wird, wird Luft aus den Lungen ausgestoßen und strömt in die Luftröhre, die
Stimmritze (den Zwischenraum zwischen den beiden Stimmbändern) und
den Kehlkopf, bevor sie den oberen Teil der Stimmröhre erreicht,
der Stimmtrakt genannt wird, der durch die Konkavitäten der
Rachenhöhle
und die nasalen und oralen Konkavitäten gebildet wird. Das periodische
Verschließen
der Stimmritze unterbricht die Luftströmung und erzeugt eine Variation
des Luftdrucks, dessen Frequenz in den akustischen Bereich angehoben
werden kann. Die harmonischen Komponenten dieser akustischen Welle,
die Vielfache der fundamentalen (d. h. Tonhöhe) Frequenz sind, werden dann
abgewandelt, so lange wie die Luft durch den Stimmtrakt strömt. Die Natur
der Veränderung
hängt von
der Geometrie des Stimmtraktes ab. Die Form des Stimmtraktes kann tatsächlich dadurch
verändert
werden, daß der
Kiefer, die Zunge, die Lippen und der weiche Gaumen (Gaumen) bewegt
werden. Dieser Mechanismus ermöglicht
es dem Stimmtrakt, ein sich mit der Zeit änderndes System zu bilden,
das die Fähigkeit
hat, die ankommende akustische Welle zu filtern, ihr Spektrum umzuformen
und den erzeugten Ton abzuwandeln.
-
Sprache ist die Verkettung von elementaren Einheiten,
die Phone genannt werden, die allgemein klassifiziert werden als:
- – Vokale,
wenn sie einer stabilen Konfiguration des Stimmtraktes entsprechen,
oder alternativ
- – als
Konsonanten, wenn sie artikulierenden Übergangsbewegungen entsprechen.
-
Jeder Phon kann dann mit Hilfe weniger
Attribute gekennzeichnet werden (d. h. offen/geschlossen, vorne/hinten,
oral/nasal und abgerundet/unabgerundet), die die Artikulationsweise
(d. h. Reibelaut wie /f/, /s/; Verschlußlaut wie /b/, /p/; nasal,
wie /n/, /m/;...) und den Artikulationsort bestimmen (d. h. labial,
dental, alveolar, gaumenmäßig oder
stimmritzenmäßig).
-
Einige Phone wie Vokale und eine
Untergruppe von Konsonanten werden von Stimmbandvibration begleitet
und werden „stimmhafte" Phone genannt, während andere
Phone wie Verschlußlautkonsonanten
völlig
unabhängig
von der Stimmbandvibration sind und „stimmlose" Phone genannt werden. Mit stimmhaften
Phonen wird das Sprachspektrum geformt, wie dies vorher beschrieben
wurde, in Übereinstimmung
mit der Geometrie des Stimmtraktes mit charakteristischen Energiekonzentrationen
um drei Hauptspitzenwerte, die „Formanten" genannt werden, die bei anwachsenden
Frequenzen F1, F2 und F3 angeordnet sind.
-
Ein Beobachter, der Lippen lesen
kann, ist imstande, die wahrscheinlichen Orte der Formantenspitzenwerte
zu schätzen,
indem er die Übertragungsfunktion
von der Konfiguration des sichtbaren Artikulierers berechnet. Diese
Berechnung wird durch ein Schätzen
von vier Grundparametern durchgeführt, nämlich:
- (i)
die Länge
des Stimmtraktes, L;
- (ii) der Abstand d zwischen der Stimmritze und der Stelle der
maximalen Zusammenschnürung;
- (iii) dem Radius r der Zusammenziehung; und
- (iv) dem Verhältnis
zwischen der Fläche
A der Zusammenschnürung
und der Länge
L des Stimmtraktes.
-
Während
die Länge
L des Stimmtraktes von vonherein geschätzt werden kann, indem das
Geschlecht und das Alters des Sprechers berücksichtigt wird, können die
anderen Parameter (ungefähr)
von der sichtbaren Konfiguration abgeleitet werden. Wenn die maximale
Zusammenschnürung
entsprechend dem Mund angeordnet ist, was Lippen, Zunge und Zähne einschließt, wie
dies für
labiale und dentale Phone der Fall ist, ist die Schätzung üblicherweise
zuverlässig.
Wenn die maximale Zusammenschnürung
nicht sichtbar ist, wie z. B. bei Gaumenphonen (/k/, /g/), ist die
Abschätzung üblicherweise sehr
schlecht.
-
Das Lippenlesen stellt die höchste Synthese von
menschlicher Erfahrung beim Umwandeln von visuellen Eingangssignalen
in Worte und dann in Bedeutungen dar. Sie besteht aus einer persönlichen Datenbank
von Kenntnis und Erfahrung, die durch Trainieren gebildet und verbessert
wird und die Fähigkeit
hat, virtuelle Töne
mit speziellen Mundformen zu verknüpfen, die allgemein „Viseme" genannt werden,
und dabei die darunterliegende akustische Nachricht abzuleiten.
Die Aufmerksamtkeit des Lippenlesers ist im wesentlichen auf den
Mund gerichtet, d. h. alle seine Komponenten, d. h. Lippen, Zähne und
Zunge; signifikate Hilfe kommt jedoch beim Verständnisvorgang des Lippenlesers
auch von dem Gesamtgesichtsausdruck des Sprechers.
-
Beim Lippenlesen wird eine beträchtliche Menge
von Verarbeitung durch den Lippenleser selbst durchgeführt, der
im Nachfiltern der umgewandelten Nachricht erfahren ist, um mit
Fehlern und Kommunikationsverzögerungen
fertigzuwerden. Es ist möglich,
durch linguistische und semantische Überlegungen Nachrichten-Redundanz
auszunutzen und ein Verständnis
vom Zusammenhang der Nachricht zu erhalten. Diese Art von auf Kenntnis
beruhender Interpretation wird durch den Lippenleser in Echtzeit
durchgeführt.
-
Audiovisuelle Sprachwahrnehmung und
Lippenlesen beruhen auf zwei Wahrnehmungssystemen, die kooperierend
zusammenwirken, so daß im Falle
von Gehörbehinderungen
die visuelle Modalität die
Gehörmodalität wirksam
integrieren oder sogar ersetzen kann. Es ist experimentell gezeigt
worden, daß die
Ausnutzung von visueller Information, verknüpft mit den Bewegungen der
Lippen des Sprechers, das Verständnis
von Sprache verbessert; bei diesen Versuchen wird das Signal zu
Rauschen Verhältnis
(SNR) bis zu 15 dB erhöht,
und Hörfehler
werden in den meisten Fällen
in nahezu perfektes visuelles Verständnis umgewandelt. Die visuelle
Analyse des Gesichts des Sprechers liefert dem Beobachter unterschiedliche
Informationsniveaus und verbessert die Unterscheidung des Signals
von Geräuschen. Das Öffnen/Schließen der
Lippen ist in der Tat stark mit der Kraft oder Leistung des Sprachsignal
korreliert und ergibt nützliche
Hinweise, was die Art und Weise betrifft, in der der Sprachfluß aufgeteilt
ist. Während
Vokale ziemlich leicht erkannt werden können, sowohl durch Hören als
auch durch Sehen, sind Konsonanten dagegen sehr empfindlich auf
Rauschen und Geräusche,
und visuelle Analyse stellt häufig
den einzigen Weg eines erfolgreichen Verständnisses dar. Die akustischen
Fingerzeige, verknüpft
mit Konsonanten, sind normalerweise durch niedrige Intensität, eine
sehr kurze Dauer und feine Sprachmusterung gekennzeichnet.
-
Es ist gezeigt worden (siehe B. Dodd,
T. Campbell, „Hearing
by eye: the psychology of lipreading (mit dem Auge hören: die Psychologie
des Lippenlesens)",
Lawrence Erlbaum Ass. Publ., insbesondere Figur B.1: Auditory confusion
of consonant transitions, CV, in white noise with decreasing Signal to
noise ratio expressed in dB (Höhr-Konfusion
bei Konsonantenübergängen, CV,
in weißem
Rauschen mit abnehmenden Signal zu Raschenverhältnis ausgedrückt in dB,
und Figur B.2: Visual confusion of consonant transitions, CV, in
white noise among adult hearing impaired persons (visuelle Verwirrung
bei Konsonantenübergängen, CV,
im weißem
Rausehen unter erwachsenen hörbehinderten
Personen)) in Bezug auf Hörverwirrung,
daß Fingerzeige
von Nasalität
und Stimmhaftigkeit wirksam durch akustische Analyse unterschieden
werden, unterschiedlich von Ortshinweisen, die leicht durch Lärm verzerrt
werden (siehe Fig. B.1 von Dodd et al).
-
Die entgegengesetzte Situation tritt
in der visuellen Domäne
auf (siehe Fig. B.2 von Dodd et al), wo der Ort sehr viel leichter
erkannt wird als Stimmhaftigkeit und Nasalität. Indem das Signal zu Rauschen
Verhältnis
verringert wird, werden Konsonanten, die urspürnglich unterschieden wurden,
mehr und mehr durcheinandergebracht und angehäuft. Wenn die 11. Anhäufung gebildet
ist (gestrichelte Linie von Figur B.2 von Dodd et al) können die
resultierenden neun Gruppen von Konsonanten als getrennte Viseme
angesehen werden.
-
Platzhinweise sind in der Tat mit
mittelhohen Frequenzen verknüpft,
d. h. oberhalb 1 kHz, die üblicherweise
bei den meisten Hörstörungen schlecht unterschieden
werden. Nasalität
und Stimmhaftigkeit sind jedoch im unteren Teil des Frequenzspektrums angeordnet.
Platzhinweise sind darüber
hinaus durch eine kurzzeitige feine spektrale Struktur gekennzeichnet,
was hohe Frequenz- und Zeitauflösung
erfordert, während
Stimmhaftigkeits- und Nasalitätshinweise
meistens mit der unstrukturierten Leistungsverteilung über mehrere
zehn Millisekunden verknüpft
sind.
-
In jedem Fall ist das Beobachten
des Gesichts eines Sprechers offensichtlich ein großer Vorteil
für das
Sprachverständnis und
fast notwendig bei Anwesenheit von Geräuschen oder Gerhörfehlern,
d. h., daß das
Sehen die Aufmerksamkeit des Hörers ausrichtet,
Redundanz zum Signal hinzufügt
und Anzeichen auf jene Hinweise liefert, die irreversibel durch
Geräusche
verdeckt werden würden.
Es ist bekannt, daß bei
der normalen verbalen Kommunikation die Analyse und das Verständnis verschiedener Artikulierungsbewegungen
auf einem bimodalen Verständnismechanismus
für die
ununterbrochene Integration koherenter visueller und akustischer
Anregungen beruht. Im Falle von Behinderungen im akustischen Kanal
aufgrund von Entfernung, lauten Umgebungen, Transportbarrieren (z.
B. eine Glasscheibe) oder pathologischen Zuständen wird die vorherrschende
Aufgabe des Aufnehmens daher durch die visuelle Modalität durchgeführt. In
diesem Falle werden nur die Bewegung und die Ausdrücke der
visuellen Artikulationsorgane für
das Verständnis
verwertet, d. h. die vertikale und horizontale Öffnung der Lippen des Sprechers,
vertikale Kieferverschiebung, Sichtbarkeit der Zähne, Zungenstellung und andere weniger
wichtige Anzeigeelemente, wie z. B. das Aufblasen der Wangen des
Sprechers und Nasenzusammenziehungen.
-
Es ist aus den Ergebnissen von experimenteller
Phonetik bekannt, daß hörbehinderte
Menschen sich beim Lippenlesen von normal hörenden Menschen unterschiedlich
verhalten. Insbesondere Viseme, wie z. B. Bilabiale /b, p, m/,Reibelaute
/f, v/, und Verschlußkonsonanten
/d, d werden sowohl durch hörbehinderte
Menschen und Menschen, die normales Gehör haben, erkannt, während andere
Viseme, wie z. B. /k, g/ nur durch hörbehinderte Menschen erkannt
werden. Das Auftreten der richtigen Erkennung für jedes Visem ist auch unterschiedlich zwischen
normalen und hörbehinderten
Menschen. Z. B. sind hörbehinderte
Menschen sehr viel erfolgreicher als normal hörende Menschen beim Erkennen
von nasalen Konsonanten /m, n/. Die beiden besonderen Unterschiede
in der Phonemerkennung ist schwierig zu erklären, da das Gaumensegel, das
der Hauptartekulierer ist, der bei Phonemen eine Rolle spielt wie
z. B. /k, g/ oder /m, n/, nicht sichtbar ist, und seine Bewegungen
nicht beim Lippenlesen wahrgenommen werden können. Eine mög liche Erklärung, die
von kürzlichen
Ergebnissen in der experimentellen Phonetik herrührt, beruht auf der Auswertung
von sekundären
Artikulationsanzeigen, die allgemein durch den normalen Beobachter
nicht bemerkt werden.
-
Es ist ein Ziel der vorliegenden
Erfindung, ein Verfahren und eine Vorrichtung für visuelle Darstellungen in
Echtzeit der Gesichtsbewegungen eines Sprechers zu schaffen, die
mit einem akustischen Sprachsignal verknüpft sind.
-
Es ist ein anderes Ziel der vorliegenden
Erfindung, ein Telekommunikationssystem einschließlich eines
Geräts
zum Liefern von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen
eines Sprechers zu schaffen, die mit einem akustischem Sprachsignal
verknüpft
sind, um ein verbessertes Verständnis
von akustischen Sprachsignalen für
Benutzer des Systems zu erleichtern, die ein behindertes Gehör und die
Fähigkeit
der Lippenlesens haben.
-
Gemäß einem ersten Gesichtspunkt
der vorliegenden Erfindung wird geschaffen ein Verfahren zur Schaffung
von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines
Sprechers, die einem vom Sprecher abgegebenen akustischen Sprachsignal
zugeordnet sind, mit den Schritten: Analysieren des akustischen
Sprachsignals zur Identifizierung seiner konstitutierenden elementaren Spracheinheiten;
Erzeugen und Darstellen auf einem Displayschirm eines Bildes von
sich bewegenden menschlichen Gesichtszügen, wobei die Gesichtsbewegungen
im wesentlichen in Echtzeit mit den konstituierenden elementaren
Spracheinheiten synchronisiert sind; wobei das Verfahren gekennzeichnet
ist durch den Schritt des Darstellens auf dem Displayschirm einer
Serie von Bewegungsmustern für
jeweilige konstituierende elementare Einheiten des akustischen Sprachsignals,
wobei die Bewegungsmuster repräsentativ
sind für
die Bewegung in drei Dimensionen einer Anzahl von Punkten um den
Mund des Sprechers herum; und im wesentlichen in Echtzeit mit einer
jeweiligen konstituierenden elementaren Spracheinheit synchronisiert
sind.
-
Gemäß einem zweiten Gesichtspunkt
der vorliegenden Erfindung wird geschaffen ein Verfahren zur Schaffung
von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines
Sprechers, die einem vom Sprecher abgegebenen akustischen Sprachsignal
zugeordnet sind, mit den Schritten: Analysieren des akustischen
Sprachsignals zur Identifizierung seiner konstituierenden elementaren
Spracheinheiten; Erzeugen und Darstellen auf einem Displayschirm
eines Bildes von sich bewegenden menschlichen Gesichtszügen, wobei
die Gesichtsbewegungen im wesentlichen in Echtzeit mit den konstituierenden
elementaren Spracheinheiten synchronisiert sind; wobei das Verfahren
gekennzeichnet ist durch den Schritt des Erzeugens und Speicherns
einer Serie von Gesichts-Bewegungsmustern für die konstituierenden elementaren
Einheiten von akustischen Sprachsignalen für die Darstellung auf dem Displayschirm,
wobei jedes der Bewegungsmuster repräsentativ ist für die Bewegung
in drei Dimensionen einer Anzahl von Punkten um den Mund des Sprechers
herum für
eine jeweilige konstituierende elementare Spracheinheit.
-
Die in den vorstehenden Absätzen angegebenen
Verfahren können
den Schritt des Abrufens aufgrund der Identifizierung jeder konstituierenden elementaren
Einheiten des vom Sprecher abgegebenen akustischen Sprachsignals
eines jeweiligen gespeicherten Bewegungsmusters für die Darstellung einschließen.
-
Die Gesichtsmerkmale um den Mund
können
den Bereich um die Lippen, Wangen und Nase einschließen, und
die Anzahl von Punkten um den Mund kann wenigstens zehn Punkte betragen.
-
Bei einem bevorzugten Verfahren der
vorliegenden Erfindung kann die Erzeugung der Serie von Gesichtsbewegungsmustern
die Schritte umfassen: Speichern einer visuellen Darstellung von
menschlichen Gesichtszügen,
einschließlich
mindestens des Mundes, zusammen mit Information, die eine Normalposition
einer Anzahl von Punkten um den Mund herum angibt; Analysieren von
akustischen Sprachsignalen zur Identifizierung der zuge ordneten
akustischen Parameter, die die konstituierenden elementaren Spracheinheiten
definieren; Durchführung
von dreidimensionalen Messungen für jeden der identifizierten
akustischen Parameter, an jedem der Anzahl von Punkten um den Mund
eines Sprechers herum für
jeden der identifizierten akustischen Parameter; Vergleichen, für jeden
der akustischen Parameter, der gemessenen Positionen und der Normalpositionen
für jeden
der Anzahl von Punkten rund um den Mund herum, zum Bestimmen einer
Positionsdifferenz in drei Dimensionen an jedem der Anzahl von Punkten
für einen
jeweiligen akustischen Parameter; Erstellen eines Bewegungsmusters
für die
Anzahl von Punkten um den Mund herum für jeden der akustischen Parameter,
wobei das Bewegungsmuster eine Transformation von den akustischen
Parametern zu den dreidimensionalen Differenzen zwischen den gemessenen
und normalen Positionen an jedem der Anzahl von Punkten ist; und
Speichern der Bewegungsmuster für
jeden der akustischen Parameter. Die Transformation kann eine lineare
Funktion sein, die eine Differenz für einen Meßpunkt als eine Funktion von
akustischen Parametern beschreibt. Auch können die akustischen Parameter
statistisch aus bekannten Daten unter Verwendung von mehrfachen linearen
Regressionsverfahren geschätzt
werden.
-
Die Bestandteile bildenden elementaren
Einheiten, die sich aus der Analyse des (der) akustischen Sprachsignale(s)
ergeben, können
die Form einer Serie von Phonen haben, die für Vokale und Konsonanten repräsentativ
sind.
-
In Übereinstimmung mit dem Verfahren
der vorliegenden Erfindung können
die akustischen Parameter alle 20 Millisekunden (50 Hz) geschätzt werden.
-
Gemäß einem dritten Gesichtspunkt
der vorliegenden Erfindung wird geschaffen ein Verfahren zum Schaffen
von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines
Sprechers, die mit einem akustischem Sprachsignal verknüpft sind,
wobei das akustische Sprachsignal analysiert wird, um seine die
Bestandteile bildenden oder konstituierenden elementaren Spracheinheiten
zu identifizieren, bei dem die Gesichtsbewegungen des Sprechers, die
mit jedem der Bestandteile bildenden elementaren Spracheinheiten
verknüpft
sind, gemessen werden, wobei die Analyse und die Gesichtsmessungen zeitlich
synchronisiert werden und benutzt werden, die visuellen Darstellungen
der Gesichtsbewegungen des Sprechers zu synthetisieren, und wobei
die synthetisierten visuellen Darstellungen angezeigt werden, damit
sie durch eine Person angeschaut werden können, an die das akustische
Sprachsignal adressiert ist, gleichzeitig mit Empfang der entsprechenden
Bestandteile bildenden elementaren Spracheinheiten durch diese Person,
dadurch gekennzeichnet, daß das
Verfahren die Schritte aufweist, Speichern einer visuellen Darstellung
von menschlichen Gesichtszügen,
einschließlich
mindestens des Mundes, zusammen mit Information, die eine Normalposition
in einer Anzahl von Punkten um den Mund herum angibt; Analysieren
des akustischen Sprachsignals zur Identifizierung der zugeordneten akustischen
Parameter, die die Einzelteile bildenden oder konstituierenden Elementaren
Spracheinheiten definieren; während
der Analyse des akustischen Sprachsignals Durchführung von dreidimensionalen Messungen
für jeden
der identifizierten akustischen Parameter an jedem der Anzahl von
Punkten um den Mund eines Sprechers herum für jeden der identifizierten
akustischen Parameter; Vergleichen, für jeden der akustischen Parameter,
der gemessenen Positionen und der Normalpositionen für jeden
der Anzahl von Punkten um den Mund herum zum Bestimmen einer Positionsdifferenz
in drei Dimensionen an jedem der Anzahl von Punkten für einen
jeweiligen akustischen Parameter; Erstellen eines Bewegungsmusters
für die
Anzahl von Punkten um den Mund herum für jeden der akustischen Parameter, wobei
das Bewegungsmuster eine Transformation von den akustischen Parametern
zu den dreidimensionalen Differenzen zwischen den gemessenen und normalen
Positionen an jedem der Anzahl von Punkten ist; Senden der resultierenden
Bewegungsmuster zu einem Empfänger
zur selben Zeit und in Synchronisation mit den entsprechenden konstituierenden elementaren
Spracheinheiten; und die Bewegungsmuster des Mundes auf der Anzeigeeinheit
synchron mit dem Empfang durch den Empfänger von entsprechen den konstituieren
elementaren Einheiten des akustischen Sprachsignals anzuzeigen.
-
Gemäß einem vierten Gesichtspunkt
der vorliegenden Erfindung wird geschaffen eine Vorrichtung zur
Schaffung von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen
eines Sprechers, die einem vom Sprecher abgegebenen akustischen Sprachsignal
zugeordnet sind, mit: einer Displayeinheit zum Anzeigen der visuellen
Darstellungen; Mitteln zum Analysieren des akustischen Sprachsignals zur
Identifizierung seiner konstituierenden elementaren Spracheinheiten;
Generiermittlen zum Erzeugen und Darstellen, auf der Displayeinheit
eines Bildes von sich bewegenden menschlichen Gesichtszügen, wobei
die Gesichtsbewegungen im wesentlichen in Echtzeit mit den konstituierenden
elementaren Spracheinheiten synchronisiert sind; dadurch gekennzeichnet,
daß die
Vorrichtung angepaßt
ist für
das Darstellen, auf dem Displayschirm, einer Serie von Bewegungsmustern
für jeweilige
konstituierende elementare Einheiten des akustischen Sprachsignals, wobei
jedes der Bewegungsmuster repräsentativ
ist für
die Bewegung in drei Dimensionen einer Anzahl von Punkten um den
Mund des Sprechers herum; und im wesentlichen in Echtzeit mit einer
jeweiligen konstituierenden elementaren Spracheinheit synchronisiert
ist.
-
Gemäß einem fünften Gesichtspunkt der vorliegenden
Erfindung wird geschaffen eine Vorrichtung zur Schaffung von visuellen
Darstellungen in Echtzeit der Gesichtsbewegungen eines Sprechers, die
einem vom Sprecher abgegebenen akustischen Sprachsignal zugeordnet
sind, mit: einer Displayeinheit zum Anzeigen der visuellen Darstellungen;
Mitteln zum Analysieren des akustischen Sprachsignals zur Identifizierung
seiner konstituierenden elementaren Spracheinheiten; Generiermittlen
zum Erzeugen und Darstellen, auf der Displayeinheit eines Bildes von
sich bewegenden menschlichen Gesichtszügen, wobei die Gesichtsbewegungen
im wesentlichen in Echtzeit mit den konstituierenden elementaren
Spracheinheiten synchronisiert sind dadurch gekennzeichnet, daß die Generiermittel
Mittel zum Erzeugen einer Reihe von Gesichtsbewegungsmuster für die kon stituierenden
elementaren Einheiten von akustischen Sprachsignalen für Anzeige
auf dem Bildschirm einschließen,
wobei jedes der Bewegungsmuster eine Bewegung in drei Dimensionen
eine Anzahl von Punkten um den Mund eines Sprechers herum für die entsprechende
konstituierende elementare Spracheinheit angibt, und daß die Vorrichtung Speichermittel
zum Speichern der Reihe von Gewichtsbewegungsmustern aufweist.
-
Die Vorrichtung der vorliegenden
Erfindung kann Abrufmittel einschließen, die auf die Identifizierung
jeder der konstituierenden elementaren Einheiten des akustischen
Sprachsignals reagieren, das durch einen Sprecher geliefert wird,
um ein entsprechendes gespeichertes Bewegungsmuster für Anzeige
auf der Anzeigeeinheit abzurufen.
-
Bei der Vorrichtung der vorliegenden
Erfindung können
die Gesichtszüge
um den Mund herum den Bereich um die Lippen, Wangen und Nase einschließen und
die Anzahl von Punkten um den Mund kann wenigstens zehn Punkte betragen.
-
Die Generiermittel können einschließen Speichermittel
zum Speichern einer visuellen Darstellung von menschlichen Gesichtszügen, einschließlich mindestens
des Mundes, zusammen mit Information, die eine Normalposition einer
Anzahl von Punkten um den Mund herum angibt; Analysiermittel zum
Analysieren von akustischen Sprachsignalen zur Identifizierung der
zugeordneten akustischen Parameter, die die konstituierenden elementaren
Spracheinheiten definieren; Meßmittel
zur Durchführung
von dreidimensionalen Messungen an jedem der Anzahl von Punkten
um den Mund eines Sprechers herum für jeden der identifizierten
akustischen Parameter; Vergleichsmittel zum Vergleichen, für jeden
der akustischen Parameter, der gemessenen Positionen und der Normalpositionen
für jeden
der Anzahl von Punkten rund um den Mund herum, zum Bestimmen einer
Positionsdifferenz in drei Dimensionen an jedem der Anzahl von Punkten
für einen
jeweiligen akustischen Parameter; und Transformationsmittel zum
Erstellen eines Bewegungsmusters für die Anzahl von Punkten um
den Mund herum für
jeden der akustischen Parameter, wobei das Bewegungsmuster eine
Transformation von den akustischen Parametern zu den dreidimensionalen
Differenzen zwischen den gemessenen und normalen Positionen an jedem
der Anzahl von Punkten ist.
-
Die Transformation, die durch die
Transformationsmittel bewirkt wird, kann eine lineare Funktion sein,
die den Unterschied für
einen Meßpunkt
als Funktion von akustischen Parameter beschreibt, und die Analysiermittel
können
dazu ausgebildet sein, statistisch die akustischen Parameter von
bekannten Daten unter Verwendung von vielfacher linearer Regressionstechniken
zu schätzen.
-
Die konstituierenden elementaren
Spracheinheiten, die sich aus der Analyse des (der) akustischen
Sprachsignal e) ergeben, können
in Form einer Reihe von Phonen sein, die repräsentativ für Vokale und Konsonanten sind,
und die akustischen Parameter können
alle 20 Millisekunden (50 Hz) geschätzt werden.
-
Gemäß einem sechsten Gesichtspunkt
der vorliegenden Erfindung wird eine Vorrichtung zum Schaffen von
visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines
Sprechers geschaffen, die mit einem akustischem Sprachsignal verknüpft sind,
die eine Anzeigeeinheit zum Anzeigen der visuellen Darstellungen,
Analysiermittel zum Analysieren des akustischen Sprachsignals zum
Identifizieren von ihren konstituierenden elementaren Spracheinheiten,
Mittel zum Messen der Gesichtsbewegungen des Sprechers, die mit
jeder der konstituierenden elementaren Spracheinheiten verknüpft sind,
wobei die Gesichtsmessungen und Sprachsignalanalysen zeitlich synchronisiert
sind; Mittel zum Synthetisieren der visuellen Darstellungen der
Gesichtsbewegungen des Sprechers, wobei die synthetisierte visuelle
Darstellung auf der Anzeigeeinheit angezeigt wird, damit sie durch
eine Person angesehen werden kann, an die das akustische Sprachsignal
adressiert ist, gleichzeitig mit dem Empfang der entsprechenden konstituierenden
elementaren Spracheinheiten durch diese Person, ein schließt, dadurch
gekennzeichnet, daß die
Vorrichtung Speichermittel zum Speichern einer visuellen Darstellung
der menschlichen Gesichtszüge,
die wenigstens dem Mund einschließt, zusammen mit Information,
die die Normalposition einer Anzahl von Punkten um den Mund herum
anzeigt, Analysiermittel zum Analysieren des akustischen Sprachsignals,
um die damit verknüpften
akustischen Parameter zu identifizieren, die die konstituierenden
elementaren Spracheinheiten definieren; Meßmittel zum Durchführen während der
Analyse des akustischen Sprachsignals von dreidimensionalen Messungen
an jeder der Anzahl von Punkten um den Mund des Sprechers für jeden
der identifizierten akustischen Parameter; Vergleichsmittel zum
Vergleichen für
jeden der akustischen Parameter der gemessenen und normalen Positionen
für jeden
der Anzahl von Punkten um den Mund, um eine Positionsdifferenz in
drei Dimensionen an jeder der Anzahl von Punkten für einen
entsprechenden akustischen Parameter zu bestimmen; Transformationsmittel
zum Einrichten eines Bewegungsmusters für die Anzahl von Punkten um
den Mund für
jeden der akustischen Parameter, welches Bewegungsmuster eine Transformation
von den akustischen Parametern zu den Differenzen zwischen den gemessenen
und normalen Positionen jeder der Anzahl von Punkten in drei Dimensionen
ist, und Übertragungsmittel
einschließt um
die resultierenden Bewegungsmuster zu einem Empfänger zur selben Zeit wie und
synchron mit den entsprechenden konstituierenden elementaren Spracheinheiten
zu übertragen;
und daß die
Vorrichtung dazu ausgebildet ist, Bewegungsmuster des Mundes auf
der Anzeigeeinheit synchron mit dem Empfang entsprechender konstituierender
elementarer Einheiten des akustischen Sprachsignals durch den Empfänger anzuzeigen.
-
Gemäß einem siebten Gesichtspunkt
der vorliegenden Erfindung wird eine Vorrichtung zum Schaffen von
visuellen Darstellungen in Echtzeit der Gesichtsbewegungen eines
Sprechers geschaffen, die mit einem akustischen Sprachsignal verknüpft sind,
das durch den Sprecher geliefert wird, in Übereinstimmung mit dem Verfahren,
wie es in den vorstehenden Absätzen
ausgeführt
wurde.
-
Gemäß einem achten Gesichtspunkt
der vorliegenden Erfindung wird ein Telekommunikationssystem geschaffen,
das eine Mehrzahl von Telefonhandgeräten und Vermittlungsmittel
einschließt,
die dazu ausgebildet sind, irgendwelche zwei oder mehr der Telefonhandgeräte miteinander
zu verbinden, dadurch gekennzeichnet, daß das System eine Vorrichtung,
wie sie in den vorstehenden Absätzen
ausgeführt
wurde, zum Liefern eines besseren Verständnisses akustischer Sprachsignale
für Benutzer
der Telefonhandgeräte
einschließt,
die ein behindertes Hörvermögen und
Erfahrung zum Lippenlesen haben. Jeder der Telefonhandapparate kann
dazu ausgebildet sein, mit der Vorrichtung verbunden zu sein und
integral damit ausgebildet zu sein, wobei die Anzeigeeinheit der
Vorrichtung dazu ausgebildet ist, Gesichtsbewegungsmuster synchron
mit dem Empfang entsprechender konstituierender Elementareinheiten
eines akustischen Sprachsignals anzuzeigen, das durch ein entsprechendes
Telefonhandgerät empfangen
wird, und wobei die Anzeige für
die Gesichtsbewegung es einem Benutzer eines Handgerätes ermöglicht,
einen wesentlichen Teil des Inhalts des akustischen Sprachsignals
durch Lippenablesen der Gesichtsbewegungen zu verstehen.
-
Die vorstehenden und andere Merkmale
der vorliegenden Erfindung werden besser aus der folgenden Beschreibung
besonderer Ausführungsformen
der Erfindung verstanden werden.
-
In Übereinstimmung mit dem Verfahren
und der Vorrichtung der vorliegenden Erfindung wird ein lippenlesbares
visuelles synthetisches Ausgangssignal durch die automatische Analyse
kontinuierlicher Sprache geschaffen, wobei große Aufmerksamkeit der Definition
geeigneter Anzeigegrößen gewidmet wird,
die die Fähigkeit
haben, die visuell relevanten Artikulierungsorte zu beschreiben,
wie z. B. labial, dental und alveolar, mit dem geringstmöglichen
Rest von Mehrdeutigkeit. Man wird aus der folgenden Beschreibung
erkennen, daß die
Methodik der folgenden Erfindung visuelle Darstellungen in Echtzeit
der Gesichtsbewegungen eines Sprechers schafft, die mit einem akustischen
Sprachsignal verknüpft
sind, und zwar um den Mund des Sprechers, d. h., daß der Gesichtsbereich
für Analyse
und Synthese der Bereich um die Lippen einschließlich der Wangen und der Nase
ist.
-
Mit dem Verfahren und der Vorrichtung
der vorliegenden Erfindung werden daher Gesichtsbewegungen, die
von einem akustischen Sprachsignal herrühren, an einer Stelle von Punkten
um den Mund herum kontrolliert, und es werden fortgeschrittene Berechnungen
von Transformationen von Sprache zu Gesichtsbewegungen durchgeführt, d.
h. Transformationen von akustischen Sprachparametern zu Gesichtsbewegungsparametern.
-
Bekannte Verfahren und Vorrichtungen
für die
Schaffung von visuellen Darstellungen in Echtzeit der Gesichtsbewegungen
eines Sprechers verknüpft mit
einem akustischen Sprachsignal, das durch den Sprecher geliefert
wird, beinhalten normalerweise Analyse des akustischen Sprachsignals,
um seine konstituierenden elementaren Einheiten zu identifizieren,
und die Generierung und Anzeige eines Bildes der sich bewegenden
menschlichen Gesichtszüge
auf einem Anzeigebildschirm. Die angezeigten Bewegungen der Gesichtszüge sind
im wesentlichen in Echtzeit mit den konstituierenden elementaren Spracheinheiten
synchronisiert.
-
In Übereinstimmung mit dem Verfahren
und der Vorrichtung der vorliegenden Erfindung wird eine Reihe von
Gesichtsbewegungsmustern für
die konstituierenden elementaren Einheiten akustischer Sprachsignale
generiert und gespeichert. Diese Gesichtsbewegungsmuster zeigen
die Bewegung einer Anzahl von Punkten in drei Dimensionen an, z.
B. wenigstens zehn Punkte, und zwar um den Mund des Sprechers herum.
Die Gesichtszüge
um den Mund des Sprechers, für
den die Bewegungsmuster generiert und gespeichert werden, schließen vorzugsweise
den Bereich um die Lippen, Wangen und Nase ein.
-
Die Generierung einer Reihe von Gesichtsbewegungsmuster
wird vorzugsweise in Übereinstimmung
mit der Erfindung dadurch be wirkt, daß erst eine visuelle Darstellung
menschlicher Gesichtszüge
einschließlich
wenigstens des Mundes in ihrem Normalzustand zusammen mit Information
gespeichert wird, die die normalen Positionen einer Anzahl von Punkten
anzeigen, zum Beispiel wenigstens zehn Punkte, und zwar um den Mund
herum, was, wie dies oben erwähnt
wurde, vorzugsweise den Bereich um die Lippen, Wangen und Nase einschließt.
-
Der nächste Schritt bei dem Generierungsverfahren
für das
Bewegungsmuster besteht darin, eine Analyse akustischer Sprachsignale
durchzuführen,
um die damit zusammenhängenden
akustischen Parameter zu identifizieren, die die konstituierenden elementaren
Spracheinheiten definieren, und dreidimensionale Messungen an jeder
der Anzahl von Punkten um den Mund eines Sprechers für jeden
der identifizierten akustischen Parameter durchzuführen.
-
Die akustischen Parameter können z.
B. statistisch von bekannten Daten unter Verwendung von Techniken
vielfacher linearer Regression geschätzt werden.
-
Wie dies vorher angegeben wurde,
ist Sprache die Verkettung von elementaren Einheiten, die Phone
benannt werden, die allgemein klassifiziert werden als:
- – Vokale,
wenn sie einer stabilen Konfiguration des Stimmtraktes entsprechen,
oder alternativ
- – als
Konsonanten, wenn sie zu artikulatorischen Übergangsbewegungen entsprechen.
-
Jeder Phon kann, wie dies vorher
erwähnt wurde,
mit Hilfe weniger Attribute gekennzeichnet werden (d. h. offen/geschlossen,
vorne/hinten, oral/nasal und abgerundet/unabgerundet), was die Artikulationsweise
(d. h. Reibelaut, wie /f/, /s/; Verschlußlaut, wie /b/, /p/; nasal,
wie /n/, /m/;...) und den Artikulationsort bestimmt (d. h. labial,
dental, alwiolar, im Gaumen oder stimmbandmäßig). Einige Phone wie Vokale
und eine Untergruppe von Konsonanten werden durch Stimmbandvibration
begleitet und werden „stimmhafte" Phone genannt, während andere Phone,
wie z. B. Verschlußlaute,
völlig
unabhängig von
Stimmbandvibration sind und „stimmlose" Phone genannt werden.
In stimmhaften Phonen wird, wie dies vorher beschrieben wurde, das
Sprachspektrum geformt, und zwar in Übereinstimmung mit der Geometrie
des Stimmtraktes mit charakteristischen Energiekonzentrationen um
drei Hauptspitzenwerte, die „Formanten" genannt werden,
die bei anwachsenden Frequenzen F1, F2 und F3 angeordnet sind.
-
Darüber hinaus ist, wie dies vorher
erwähnt wurde,
ein Beobachter, der Fähigkeiten
zum Lippenlesen hat, imstande, die wahrscheinlichen Orte der Formanten-Spitzenwerte
zu schätzen,
indem er die Transferfunktion von der Konfiguration der sichtbaren Artikulatoren
berechnet.
-
In Übereinstimmung mit der vorliegenden
Erfindung können
daher die konstituierenden elementare Spracheinheiten, die sich
aus der Analyse der akustischen Sprachsignale ergeben, in Form einer Reihe
von Phonen sein, die repräsentativ
für Vokale und
Konsonanten sind.
-
Bei der nächsten Stufe des Generierungsprozesses
für das
Bewegungsmuster werden dreidimensionale Messungen an jedem der Anzahl
von Punkten um den Mund herum des Sprechers für jeden der identifizierten
akustischen Parameter vorgenommen. Die gemessenen und normalen Positionen für jeden
der Anzahl von Punkte um den Mund werden kann für jeden der akustischen Parameter
verglichen, um eine Positionsdifferenz in drei Dimensionen an jedem
der Anzahl von Punkten für
einen entsprechenden akustischen Parameter zu bestimmen. Ein Bewegungsmuster
wird dann für
die Anzahl von Punkten um den Mund für jeden der akustischen Parameter
eingerichtet. Die sich ergebenden Bewegungsmuster sind eine Transformation
von den akustischen Parametern zu den Unterschieden in drei Dimensionen
zwischen den gemessenen und normalen Positionen jedes der Anzahl
von Punkte um den Mund. Die Transformation kann z. B. eine linea re Funktion
sein, die eine Differenz für
einen Meßpunkt als
Funktion von akustischen Parametern beschreibt.
-
Die Gesichtsbewegungsmuster für jeden
der akustischen Parametern werden dann für anschließende Verwendung in der Synthese
und der Anzeige von Gesichtsbewegungen gespeichert, die mit einem akustischen
Sprachsignal verknüpft
sind.
-
Als Reaktion auf die Identifizierung
jeder der konstituierenden elementaren Einheiten des akustischen
Sprachsignal, das durch den Sprecher geliefert wird, wird daher
ein entsprechendes gespeichertes Gesichtsbewegungsmuster abgerufen
und auf einem Anzeigeschirm angezeigt, damit es durch einem Empfänger des
Sprachsignals angesehen werden kann. Die akustischen Parameter,
die die konstituierenden elementaren Spracheinheiten definieren, können z.
B. alle 20 Millisekunden (50 Hz) geschätzt werden. Der Anzeigeschirm
wird daher eine visuelle Darstellung in Echtzeit der Gesichtszüge des Sprechers
im wesentlichen in Echtzeit synchronisiert mit den konstituierenden
elementaren Einheiten des akustischen Sprachsignals liefern. Diese
Anzeige wird es einer Person, die hörbehindert ist und die Fähigkeit
hat Lippen zu lesen, ermöglichen,
ein verbessertes Verständnis
des akustischen Sprachsignals zu erhalten.
-
Während
das Verfahren und die Vorrichtung der vorliegenden Erfindung in
einer Anzahl von Anwendungen benutzt werden könnte, was für den Fachmann direkt ersichtlich
sein wird, ist eine besondere Anwendung der vorliegenden Erfindung
in einem Telekommunikationssystem, das Teilnehmer mit Hörbehinderung
und einer Fähigkeit
zum Lippenlesen hat.
-
In einem Telekommunikationssystem,
das eine Mehrzahl von Telefonhandapparaten und Vermittlungsmittel
einschließt,
die dazu ausgebildet sind, irgendwelche zwei oder mehr der Telefonhandgeräte zu verbinden,
ermöglicht
daher die vorliegende Erfindung Benutzern der Telefonhandapparate,
die eine Hörbehinderung
haben und fähig
sind, Lippen zu lesen, ein verbes sertes Verständnis akustischer Sprachsignale
durch Betrachten der angezeigten visuellen Darstellungen in Echtzeit
der Gesichtsbewegungen eines Sprechers zu erhalten, während sie dem
akustischen Sprachsignal zuhören.
Anders gesagt wäre
die Anzeigeeinheit der Vorrichtung dazu ausgebildet, Gesichtsbewegungsmuster
synchron mit dem Empfang entsprechender konstituierender elementarer
Einheiten eines akustischen Sprachsignals anzuzeigen, die durch
einen entsprechende Telefonhandapparat empfangen werden, und die
Anzeige der Gesichtsbewegungen würde
es dem Benutzer des Handapparates ermöglichen, einen wesentlichen Teil
des Inhalts des akustischen Sprachsignals durch Lippenlesen der
Gesichtsbewegungen zu verstehen.
-
Bei einem solchen Telekommunikationssystem
könnte
z. B. jeder Handapparat dazu ausgebildet sein, mit der Vorrichtung
der vorliegenden Erfindung verbunden zu sein oder integral damit
zu sein.
-
Obwohl ein Videotelefonsystem es
einem hörbehinderten
Teilnehmer ermöglichen
würde,
der die Fähigkeit
hat, Lippen zu lesen, ein verbessertes Verständnis eines akustischen Sprachsignals
zu erhalten, ist ein konventionelles Telefonsysten, das die Vorrichtung
der vorliegenden Erfindung einschließt oder in Übereinstimmung mit dem Verfahren
der vorliegenden Erfindung arbeitet, kostengünstiger und benötigt wesentlich
weniger Bandbreite als ein Videotelefonsystem.
-
Das Verfahren und die Vorrichtung
der vorliegenden Erfindung könnten
jedoch für
Benutzung in einem Telekommuniaktionssystem ausgebildet werden,
indem visuelle Echtzeitbilder der Gesichtsbewegungen des Sprechers
anstelle der gespeicherten Darstellungen verwendet werden. Die Bandbreiteerfordernisse
eine solchen Telekommunikationssystems würden größer sein als ein konventionelles
Telefonsystem, aber geringer als ein konventionelles Videotelefonsystem.
-
Um eine solche Anordnung zu realisieren, schließt das Verfahren
der vorliegenden Erfindung zum Schaffen von visuellen Echtzeitdarstellungen von
Gesichtsbewegungen eines Sprechers, die mit einem akustischen Sprachsignal
verknüpft
sind, die Schritte ein, eine visuelle Repräsentation von Gesichtszügen, wenigstens
den Mund einschließend,
in einem normalen Zustand zusammen mit Information zu speichern,
die die Normalposition einer Anzahl von Punkten anzeigen, z. B.
zehn Punkten, um den Mund, und das akustische Sprachsignal zu analysieren,
um die damit zusammenhängenden
akustischen Parameter zu identifizieren, die die konstituierenden elementaren
Spracheinheiten definieren. Während der
Analyse des akustischen Sprachsignals würden dreidimensionale Messungen
an jedem der Anzahl von Punkte um den Mund des Sprechers für jeden der
identifizierten akustischen Parameter durchgeführt. Diese Messungen können z,
B. alle 20 Millisekunden (50 Hz) durchgeführt werden. Der nächste Schritt
des Verfahrens schließt
das Vergleichen für jeden
der identifizierten akustischen Parameter der gemessenen und normalen
Positionen für
jeden der Anzahl von Punkten um den Mund ein, um eine Positionsdifferenz
in drei Dimensionen an jedem der Anzahl von Punkten für einen
entsprechenden akustischen Parameter zu bestimmen, um ein Bewegungsmuster
für die
Anzahl von Punkten um den Mund für jeden
der akustischen Parameter einzurichten. Wie oben ist das Bewegungsmuster
eine Transformation von den akustischen Parametern zu den Unterschieden
in drei Dimensionen zwischen den gemessenen und Normalpositionen
jeder der Anzahl von Punkten um den Mund. Die resultierenden Bewegungsmuster werden
mit derselben Zeit wie und synchron mit den entsprechenden konstituierenden
elementaren Spracheinheit übertragen.
Die Bewegungsmuster werden dann auf einer Anzeigeeinheit synchron
mit Empfang durch einen Hörer
der entsprechenden konstituierenden elementaren Einheiten des akustischen
Sprachsignals angezeigt.