-
Die
vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung
zum Synchronisieren von medialen Datenströmen, wie zum Beispiel audiovisuelle
Multimediadaten.
-
Bei
der Übertragung
von Multimediainformationen, zum Beispiel über geeignete Datenverbindungen über das
Internet können
hinsichtlich der Synchronizität,
beispielsweise von Audiodaten auf der einen Seite und Videodaten
auf der anderen Seite, Probleme ergeben. Dies macht sich zum Beispiel
bei Videokonferenzanwendungen über
das Internet oder über
Mobiltelefonnetzwerke bemerkbar. Da in der Regel Audiosignale und
Videosignale unabhängig voneinander
kodiert und übertragen
werden, können auf
der Empfängerseite
Verzögerungen
zwischen der Audiowiedergabe, zum Beispiel Sprachwiedergabe, und
Videowiedergabe, wie beispielsweise die Anzeige des Sprechers, auftreten.
Auf der entsprechenden Decoder- oder Empfängerseite müssen diese Multimediainhalte
dann synchron zueinander abgespielt werden.
-
Ohne
Synchronisierung werden kombinierte Audio- und Videoinhalte vom
Benutzer als unangenehm und von schlechter Qualität empfunden.
Der Mensch kann zum Beispiel Asynchronizitäten zwischen Audio- und Videoinhalten
von mehr als 220 ms bemerken. Insbesondere bei Videokonferenzen scheinen
die Nutzer, beziehungsweise Teilnehmer, besonders sensibel gegenüber einer
Verzögerung zwischen
dem Audio- und Videosignal zu reagieren. Das Videosignal und dabei
insbesondere die Lippenbewegungen der Sprecher scheinen dann nicht
dem Audiosignal, also der gesprochenen Sprache zu entsprechen. Insbesondere
bei Bildsequenzen, in den Gesichtern von sprechenden Personen auftreten, müssen Diskrepanzen
zwischen der Mund- oder Lippenbewegung und dem Sprachsignal vermieden werden.
-
In
der Vergangenheit wurde zum Beispiel bei Fernseh- oder Filmaufnahmen
eine Klappe zu Beginn jeder Szene aufgenommen. Damit konnten die entsprechenden
Audioaufnahmen und Videosignale miteinander synchronisiert werden.
Als Synchronisationszeitpunkt galten dabei das sichtbare Schließen der
Klappe sowie der entsprechende Knall im Audiosignal.
-
Bei
modernen Multimediastreams, die beispielsweise über das Internet übertragen
werden, sind derartige Vorgehensweisen jedoch unpraktisch. Üblicherweise
werden Audio- und Videodaten über rahmenbasierte
Datenströme übertragen.
Dabei können
Synchronisationsinformationen, welche auf eine jeweilige abgelaufene
Zeit in dem Audio- oder Videodatenstrom kennzeichnend eingesetzt
werden. Auf der Empfangsseite werden dann die künstlichen, in den Datenstrom
eingebetteten Synchronisationsinformationen, wie zum Beispiel bestimmte
Zeit- oder Synchronisationsmerker, welche eine jeweilige Zeitidentifikation
haben, bei der Wiedergabe des Multimediainhaltes aufeinander abgestimmt.
-
In
der 1 ist zum Beispiel schematisch ein Audiodatenstrom
AU und ein Videodatenstrom VI dargestellt. Im Audiodatenstrom sind
Synchronisationskennungen M1–M5
in die entsprechenden Datenrahmen eingebettet, die vorgegebene Zeitpunkte kennzeichnen.
Ebenso sind in dem Videodatenstrom VI Synchronisationsmerker N1–N5 vorgesehen,
die denselben Zeiten entsprechen wie die Merker M1–M5. Bei
der Übertragung
der Audio- und Videoinformation
können
die AU beziehungsweise VI unterschiedlichen Verzögerungen unterliegen. Insgesamt können auch
die gegenüber
einer linearen Zeit gemessenen Synchronisationsmerker M1–M5, N1–N5 verzerrt
werden. Dies ist in der 1 durch die unregelmäßigen Abstände der
Merker M1–M5
beziehungsweise N1–N5
untereinander dargestellt.
-
Bei
der Wiedergabe des kombinierten Multimediainhaltes als Multimediadatenstrom
AV müssen diese
Zeitpunkte jedoch zusammenfallen, da beispielsweise die zum Synchronisationszeitpunkt
N2 dargestellte Lippenbewegung einem Audiosignal zum Synchronisationszeitpunkt
M2 entsprechen muss. Diese Abbildung auf eine gemeinsame synchrone
Zeit MNR ist durch die Pfeile M dargestellt. Bei der Wiedergabe
beziehungsweise Dekodierung und dem Zusammenführen der beiden Datenströme AU und
VI müssen
somit die entsprechenden Dateninhalte derart miteinander synchron
gebracht werden, dass die Zeitpunkte der Merker M1 und N1, M2 und
N2, M3 und N3, M4 und N4, M5 und N5 bei der Wiedergabe auf gemeinsame
gleiche Zeitpunkte fallen. Dies ist in der 1 durch
die Markierungen MN0–MN5
des kombinierten Multimediastreams AV angedeutet.
-
Nachteilig
ist bei dieser Vorgehensweise insbesondere, dass Teile der Datenrahmen
von entsprechenden Synchronisationsmarkierungen belegt sind. damit
sinkt die Übertragungsrate
eines entsprechenden Datenstroms. Ferner muss auf Sender- und Empfängerseite
die Art der Markierung standardisiert werden.
-
Es
ist daher eine Aufgabe der vorliegenden Erfindung ein verbessertes
Verfahren für
die Synchronisation medialer Datenströme untereinander zu schaffen.
-
Diese
Aufgabe wird durch ein Verfahren zum Synchronisieren von medialen
Datenströmen
gemäß Patentanspruch
1 gelöst.
-
Demgemäß ist ein
Verfahren zum Synchronisieren von medialen Datenströmen vorgesehen,
wobei die medialen Datenströme
jeweils mediale Dateninhalte einer vorgegebenen Medienklasse umfassen. Dabei
erfolgt eine zeitliche Synchronisierung der Datenströme in Abhängigkeit
von den medialen Dateninhalten.
-
Gemäß dem Verfahren
ist es nicht notwendig, vorgesehene Synchronisierungsmarker im Datenstrom
aufzufinden beziehungsweise diese beim Kodieren der Datenströme in die
Daten einzufügen. Vielmehr
sieht die Erfindung vor, anhand der Dateninhalte, also beispielsweise
der Audiodaten in Form von Sprache oder Videodaten als Bildsequenzen, beispielsweise
von Gesichtern vorzunehmen. Unter Datenströmen versteht man im Wesentlichen
eine kontinuierliche Abfolge von Datensätzen, deren Ende im Voraus
nicht abzusehen ist. Die einzelnen Datensätze oder Datenrahmen innerhalb
eines Datenstroms sind von einem festen vorgegebenen Typ, wie beispielsweise
Datenrahmen, die Audiodaten aufweisen. Die Menge der Datensätze oder
Rahmen pro Zeiteinheit kann dabei variieren, so dass eine Datenrate
unterschiedlicher Datenströme
unterschiedlich groß ist.
Beispielsweise Audio- oder Videodaten bilden jeweils eine eigene
Medienklasse. Es sind jedoch weitere Medienklassen denkbar, die
der jeweiligen Anwendung angepasst werden können. Durch den Rückgriff
auf die Dateninhalte der Datenströme ist es nicht notwendig,
dass die Datenströme
irgendwelche Zeitinformationen aufweisen.
-
Bei
dem Verfahren können
vorteilhaft die medialen Dateninhalte zum Beispiel kontinuierlich überwacht
werden und vorgegebene Dateninhalte als Synchronisationsstellen
in den medialen Datenströmen
erfasst werden. Bestimmte Datenteilinhalte können beispielsweise als besondere
Synchronisationsstellen verwendet werden. Als ein Datenteilinhalt kommen
beispielsweise bei Audiodaten Phoneme in Frage und bei Videodaten
Viseme.
-
Unter
einem Phonem wird die kleinste bedeutungsunterscheidende, aber nicht
bedeutungstragende Einheit einer Sprache verstanden. Dabei sind insbesondere
bei der Spracherkennung Verfahren zur Phonemerkennung bekannt. Analog
versteht man unter Visemen kleinste Bedeutungseinheiten von Mund-
oder Lippenbewegungen, denen eine Bedeutung zugeordnet werden können. Beispielsweise kann
einem Phonem /o/ ein Visem zugeordnet werden, das die zugehörige offene
Mundstellung bezeichnet.
-
Insofern
ist es bei einer Variante des Verfahrens möglich, bei einem medialen Datenstrom
der Audiodaten aufweist, vorgegebene Phoneme oder Phonemkombinationen
als Synchronisationsstellen zu überwachen.
Parallel dazu kann dann ein medialer Datenstrom der Videodaten aufweist,
beziehungsweise dessen Videodateninhalte zum Erkennen von vorgegebenen
Visemen als Synchronisationsstellen überwacht werden. Durch Feststellen
der Zeitpunkte, beispielsweise innerhalb eines vorgegebenen Zeitfensters
in dem zueinander gehörige
Viseme und Phoneme auftreten, kann dann eine Synchronisierung oder
ein Abgleich der beiden Datenströme
erfolgen.
-
Es
ist insbesondere von Vorteil, wenn dabei die Überwachung eines zweiten medialen
Datenstroms in Abhängigkeit
von einer erfassten Synchronisationsstelle eines ersten medialen
Datenstroms erfolgt. Dadurch kann beispielsweise bei einer Phonemerkennung
die tendenziell weniger Rechenaufwand erfordert als eine Visemerkennung,
der Suchraum für
die Visemerkennung innerhalb des Zeitfensters reduziert werden.
-
Vorzugsweise
wird bei dem Verfahren eine Synchronisationstabelle angelegt, welche
mediale Datenteilinhalte einer ersten Medienklasse, wie zum Beispiel
Phoneme, und zweite mediale Datenteilinhalte einer zweiten Medienklasse,
wie beispielsweise Viseme, zueinander zugeordnet aufweist. Somit
kann die Synchronisationsstellenerkennung und anschließende Synchronisierung
auf Grundlage einer entsprechenden Tabelle mit der Abbildung von
Phonem auf Visem erfolgen.
-
Das
Verfahren zum Synchronisieren medialer Datenströme hat vorzugsweise einen oder
mehrere der folgenden Verfahrensschritte:
Zwischenspeichern
eines ersten und mindestens eines zweiten medialen Datenstroms;
Überwachen
des ersten und des zweiten medialen Datenstroms;
Erkennen von
vorgegebenen Datenteilinhalten in den Datenströmen;
Vergleichen der erkannten
Dateninhalte verschiedener Datenströme;
Verzögern des
ersten oder des zweiten Datenstroms, falls ein erkannter Datenteilinhalt
des ersten Datenstroms und ein er kannter Datenteilinhalt des zweiten Datenstroms
einem gleichen Synchronisationsereignis entsprechen und zu verschiedenen
Zeitpunkten in den Datenströmen
erkannt werden.
-
Als
Synchronisationsstellen bei Audiodateninhalten kommen insbesondere
bilabiale Phoneme und/oder plosive Phoneme in Frage. Die Phonemerkennung
und Bestimmung der jeweiligen Synchronisationsstelle kann zum Beispiel
durch kontinuierliches Überwachen
einer Audioenergie der Audioinhalte unterstützt werden.
-
Entsprechend
bieten sich auch bilabiale Viseme als Synchronisationsstellen in
einem Videodatenstrom an. Dabei wird ein kontinuierliches Überwachen
einer Videoenergie oder eines Parameters, welcher als visuelle Energie
eine besonders rasche Lippenbewegung kennzeichnet, der Videoinhalte
bevorzugt ausgeführt.
Die jeweiligen Energien der Audio- oder Videodaten oder aus den
Video- und Audiodaten extrahierbare Parameter, lassen sich zum Beispiel
durch Bestimmung von Transformationskoeffizienten trigonometrischer
Transformationen, wie zum Beispiel diskreter Kosinustransformationen
ableiten oder direkt ermitteln.
-
Zur
Visemerkennung in einer Folge von Einzelbildern eines Videodatenstroms
werden vorzugsweise die Lippenbilder überwacht und erfasst. Dabei sieht
eine Variante des Verfahrens vor, die erfassten Lippenbilder mit
einer Darstellung mit einer vorgegebenen Basis von Lippenmoden zu
vergleichen. Es lassen sich zum Beispiel geometrische Linienzüge als Lippenmoden
bestimmen, die in einer Linearkombination eine vorgegebene Lippenbewegung
oder Lippenkontur darstellen können.
Aus einer zeitlichen Änderung
der entsprechenden Linearkoeffizienten lassen sich die konkreten
Synchronisationszeitpunkte ableiten.
-
Es
ist ebenfalls möglich
zur Visemerkennung in einer Folge von Einzelbildern des Videodatenstroms
Lippenbilder zu überwachen
und zu erfassen und dabei die erfassten Lippenbilder einer diskreten Kosinustransformation
zu unterziehen. Bestimmte Kosinustransformationskoeffizienten können dann als
Grundlage für
eine Mustererkennung zur Visemerkennung herangezogen werden.
-
Vorzugsweise
wird bei dem Synchronisationsverfahren eine natürliche Verzögerung zwischen einem erfassten
Phonem und einem erfassten Visem berücksichtigt. Es ist zum Beispiel
bei bestimmten Lauten notwendig, dass sich das physiologische Sprachsystem
beispielsweise durch ein vorübergehendes
Schließen
des Mundes auf die Ausgabe eines bestimmten Phonems vorbereitet.
In diesem Fall entsteht vor der eigentlichen Lautäußerung bereits ein
dazugehöriges
Visem.
-
Die
Erfindung betrifft ferner eine Synchronisationsrichtung gemäß Patentanspruch
25.
-
Diese
Synchronisationsvorrichtung ist derart ausgestaltet, dass ein Verfahren
zur Synchronisierung von medialen Datenströmen wie vorbeschrieben durchgeführt wird.
Dabei weist die Synchronisationsvorrichtung vorzugsweise eine Phonemerkennungseinheit,
eine Visemerkennungseinheit und eine Synchronisationseinheit auf.
-
Bevorzugte
Anwendungsgebiete entsprechender Synchronisationsvorrichtungen sind
zum Beispiel Empfangseinrichtungen für multimediale Datenströme. Es kann
zum Beispiel ein Videokonferenzsystem oder auch ein Mobiltelefon
sowie Empfangseinrichtungen für
multimediale Daten mit einer entsprechenden Synchronisationsvorrichtung
ausgestattet werden. Der Vorteil dabei besteht insbesondere darin,
dass die Empfangseinrichtung ohne dass eine dezidierte Sendeeinrichtung
die vorgegebenen Datenströme
in standardisierter Form mit Synchronisationspulsen ausstattet,
funktionsfähig
ist. Eine besonders bevorzugte Implementierung des Verfahrens bzw.
einer Synchronisationsvorrichtung erfolgt als Embedded System, welches
vielfältig
in mobilen Kommunikationseinrichtungen vorgesehen werden kann.
-
Schließlich betrifft
die Erfindung ein Computerprogrammprodukt, welches die Durchführung eines
entsprechenden Verfahrens zum Synchronisieren von medialen Datenströmen auf
einer programmgesteuerten Rechnereinrichtung veranlasst. Als Programmgesteuerte
Rechnereinrichtung kommt zum Beispiel ein PC in Frage, der entsprechende
Software aufweist, die Videokonferenzen oder den Empfang von Audio-
und Videodaten bewerkstelligt. Das Computerprogrammprodukt kann
beispielsweise in der Art eines Datenträgers, wie zum Beispiel USB-Stick, Floppy-Disk,
CDROM, DVD, implementiert werden oder auch auf einer Servereinrichtung
als herunterladbare Programmdatei implementiert sein.
-
Weitere
vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche sowie der
im Folgenden beschriebenen Ausführungsbeispiele
der Erfindung.
-
Im
Weiteren wird die Erfindung anhand bevorzugter Ausführungsbeispiele
unter Bezugnahme auf die beigelegten Figuren näher erläutert. Es zeigt dabei:
-
1 Beispiele
für mediale
Datenströme
mit Synchronisationsmerkern;
-
2 Beispiele
für Datenströme mit medialen
Dateninhalten ohne Synchronisationsmerker;
-
3 ein
Ablaufdiagramm einer Variante des Verfahrens zum Synchronisieren
von medialen Datenströmen;
-
4 ein
Blockdiagramm einer Ausführungsform
einer Synchronisationsvorrichtung;
-
5 eine Übersicht
von Visemmoden;
-
6 eine
Tabelle von Phonem- auf Visemzuordnungen; und
-
7 Zeitdiagramme von einander zuzuordnenden
Phonemen und Visemen zur Synchronisation von Datenströmen.
-
In
den Figuren sind gleiche oder funktionsgleiche Elemente mit denselben
Bezugszeichen versehen worden, sofern nichts Anderes angegeben ist.
-
In
der 2 sind Datenströme von Audiodaten AU und Videodaten
VI schematisch dargestellt. Übliche
Datenströme
weisen Datenrahmen F1–F10 beziehungsweise
G1–G7
auf. Die Datenrahmen müssen
dabei nicht immer dieselbe Länge
aufweisen und können
auch während
der Übertragung
der jeweiligen Datenströme
AU, VI unterschiedlich stark verzögert werden. Dies ist beispielhaft
bei dem Datenrahmen G6 illustriert, der zeitlich kürzer ist
als die darum liegenden Datenrahmen G5 und G7.
-
Die
jeweiligen Datenrahmen umfassen Dateninhalte, beispielsweise der
Datenrahmen F3 einen Audioinhalt A1, der Datenrahmen F4 einen Audiodateninhalt
A2. Der Videodatenstrom VI führt
beispielsweise in den Datenrahmen G2 und G3 jeweils Videodateninhalte
V1 und V2. Die zu verarbeitenden und empfangenen Datenströme AU und
VI haben keine Synchronisationsmerker oder Zeitinformationen. Vielmehr
weist der Audiodatenstrom AU lediglich entsprechend kodierte Audiodaten
A1, A2 auf, wie beispielsweise digital kodierte Sprachsignale. Ähnlich weist
der Videodatenstrom VI Datenrahmen G1–G7 mit Videoinhalten V1, V2
auf, die beispielsweise eine Abfolge von kodierten Einzelbildern
einer Szene, insbesondere mit der Darstellung von Gesichtern und Lippenbewegungen.
-
Die 3 zeigt
ein Beispiel einer Synchronisierung von Audio- und Videodaten, wobei
die Audiodaten kodierte Sprachsignale aufweisen und die Videodaten
entsprechende Szenen mit Lippenbewegungen als schematisches Ablaufdiagramm.
In der 3 verläuft
die Zeitachse senkrecht nach unten. Je nach Übertragungsmodus können die
Audio- und Videodaten beziehungsweise die entsprechenden Rahmen
F1–F10
und G1–G7,
wie sie in der 2 angedeutet sind, über ein
geeignetes Über tragungsverfahren
zum Beispiel einer Empfangs- oder Anzeigeeinrichtung übertragen
werden. Im Schritt SO erfolgt somit ein Empfang entsprechender Datenströme, die sowohl
Video- als auch Audiodaten aufweisen, beispielsweise über das
Internet. In einem zweiten Schritt S1 erfolgt eine Aufspaltung in
sowohl die Audiodaten wie auch in die Videodaten, so dass als Ergebnis
zum Beispiel die in der 2 dargestellte Audiodatenströme AU und
Videodatenströme
VI vorliegen.
-
Nun
erfolgt im Schritt S2 eine Phonemanalyse, die zum Beispiel nach
bekannten Methoden der Spracherkennung vorgenommen werden kann. Gleichzeitig
erfolgt im Schritt S22 eine Visemanalyse. Auch bei der Visemanalyse
sind verschiedene Verfahren denkbar, wobei im Folgenden einige beispielhaft
skizziert sind.
-
Durch
die Phonemanalyse der Audiodateninhalte werden zum Beispiel bilabiale
Plosivlaute wie /p/ in dem Dateninhalt R2 erkannt und das zeitliche Auftreten
in Bezug auf die lokale Zeit t, mit der beispielsweise die Empfangsdarstellungseinrichtung
arbeitet registriert. Gleichzeitig wird bei der Visemanalyse erkannt,
ob zum Beispiel Viseme, die insbesondere bestimmten Phonemen zugeordnet
werden können,
wie beispielsweise eine schnelle runde Lippenöffnung beim Ausspruch des Lautes
/p/ erfasst. Auch dies wird zeitlich festgehalten.
-
Da
sowohl Phoneme als auch Viseme prinzipiell einen längeren Zeitraum
umfassen können, kann
innerhalb der erkannten Synchronisationsstelle (Phonem bzw. Visem)
ein konkreter Zeitpunkt markiert werden, der bei der Wiedergabe
beider Datenstrominhalte zeitgleich dargestellt werden muss. Denkbar
ist zum Beispiel das Audio- und/oder Videosignal hinsichtlich einer
jeweiligen Energie zu überprüfen. Bei
Plosivlauten entsteht ein kurzer schneller Anstieg in der Audiosignalenergie,
der als Synchronisationszeitpunkt verwendbar ist. Analog kann einem entsprechenden
Videosignal eine "visuelle
Energie" zugeordnet
werden, die eine besonders rasche Lippenbewegung, wie zum Beispiel
das explosionsartige Öffnen
des Mundes bei bilabialen Plosivlauten, anzeigt.
-
Entsprechende
Visemanalysen beruhen auf einer graphischen Auswertung des Videoinhaltes, wobei
zum Beispiel zunächst
eine Mundregion oder Gesichtsregion über eine Mustererkennung erkannt wird,
anschließend
insbesondere die auftretenden Lippenbewegungen überwacht werden und wie bei einer
Spracherkennung eine entsprechende Mustererkennung durchgeführt wird.
-
Durch
die Schritte S2 und S22 wird somit festgestellt, ob im Audiodatenstrom
AU Synchronisationsstellen, wie beispielsweise bilabiale Plosivlaute auftreten
und in der zeitlichen Umgebung, also in einem darum liegenden Zeitfenster
in dem Videodatenstrom VI dazu passende Viseme vorliegen. Im Schritt S3
werden diese Überwachungsergebnisse
aus der Phonemanalyse und der Visemanalyse miteinander verglichen.
-
Sofern
sich bei der zeitlichen Abfolge der zueinander gehörigen Phoneme
und Viseme, welche bei korrekter Synchronisation zu einem gemeinsamen
Synchronisationszeitpunkt auftreten müssen, eine zeitliche Verschiebung
oder ein Zeitversatz erkannt wird, kann nun im Schritt S4 ein Abgleich
erfolgen, sodass beide Ereignisse, nämlich die Audiowiedergabe des
bilabialen Plosivlautes und die gleichzeitige Anzeige des entsprechenden
Videoinhaltes mit einem entsprechenden Gesichts- oder Lippenzug erfolgt.
-
Die 4 zeigt
ein Blockdiagramm einer möglichen
Implementierung des Synchronisationsverfahrens in einer Empfangseinrichtung
für multimediale
Datenströme.
Die Empfangseinrichtung 1 weist dabei eine Synchronisationsvorrichtung 2 auf
und eine Anzeigeeinrichtung 3.
-
Der
Synchronisationseinrichtung 2 wird über einen Eingang 13 ein
multimediales Signal mit medialen Datenströmen AV zugeführt. An
einem Ausgang 14 der Synchronisationsvorrichtung 2 ist
dann ein synchronisierter medialer Datenstrom, beispiels weise mit
audiovisuellen Daten abgreifbar. Die multimedialen Daten AVS können beispielsweise
miteinander synchronisierte Audio- und Videodatenströme sein. In
der 4 ist dies lediglich durch einen einfachen Pfeil
dargestellt.
-
Die
synchronisierten audiovisuellen Daten AVS werden dann von einer
Anzeigeeinrichtung 3 beispielsweise einem Bildschirm 10,
welcher mit einem Lautsprecher 11 und einem Display 12 ausgestattet
ist, angezeigt. Sowohl die Synchronisationsvorrichtung 2,
wie auch die Anzeigeeinrichtung kann in einem Computersystem implementiert
werden.
-
Die
Synchronisationsvorrichtung 2 weist eine Aufspaltungseinheit 4 auf,
welche aus dem gemischten medialen Datenstrom AV einen Audiodatenstrom AU
und einen Videodatenstrom VI erzeugt. Die Datenströme AU, VI
können
beispielsweise in der Form der 2 ausgestaltet
sein. Im Vergleich zu den Verfahrensschritten der 3 erfolgt
somit ein Empfang der Datenströme
und eine Aufspaltung in Audio- und Videodatenströme gemäß der Schritte S0 und S1 in der
Aufspaltungseinheit 4.
-
An
dem Audiodatenstrom AU wird über
eine Phonemerkennungseinheit 5 eine Phonemerkennung durchgeführt. Parallel
dazu erfolgt an dem Videodatenstrom eine Visemerkennung über eine
Visemerkennungseinheit 6. Dabei werden zum Beispiel Parameter
der Audio- und Videosignale ermittelt, wie MFCCs (Mel-Frequenz-Cepstrum-Koeffizienten). MFCCs
werden häufig
bei der automatischen Spracherkennung verwendet, da sie zu einer
kompakten Darstellung des Spektrums führen. Über ein Verfahren der Mustererkennung
werden dann die Phoneme erkannt. Analog werden Merkmale oder Parameter des
Videosignals bestimmt und bei der Visemerkennung benutzt.
-
Eine
Phonemanalyseeinheit 7 verarbeitet die von der Phonemerkennungseinheit 5 gelieferten
Daten AE, und eine Visemanalyseeinheit 8 verarbeitet die
von der Visemerkennung 6 gelieferten Daten VE. Bei der
jeweiligen Analyse werden zum Beispiel anhand einer Betrachtung
des Energieverlaufs der Audio- oder
Videosignale oder davon abgeleiteter Größen innerhalb der Phoneme bzw.
Viseme die exakten zur Synchronisation benötigten Zeitpunkte ermittelt. Die
in der 3 mit den Schritten S2 und S22 bezeichneten Vorgänge erfolgen
somit in der Phonemerkennungs- und Analyseeinheit 5, 7 beziehungsweise
der Visemerkennungs- und Analyseeinheit 6, 8.
-
Eine
Synchronisationseinheit 9 empfängt entsprechende Synchronisationsdaten
SDA für
den Audioanteil und SDV für
den Videoanteil der audiovisuellen Daten AV. Die Synchronisationseinheit 9 verzögert und
gleicht die verschiedenen erkannten Synchronisationsstellen, welche
durch die erkannten Viseme beziehungsweise Phoneme festgelegt werden, aufeinander
ab und gibt aufeinander synchronisierte Datenströme AVS aus.
-
Die
in der 4 als Aufspaltungseinheit 4, Phonemerkennungseinheit 5,
Visemerkennungseinheit 6, Phonemanalyseeinheit 7,
Visemanalyseeinheit 8 und Synchronisationseinheit 9 bezeichneten Elemente
können
zum Beispiel in Form von entsprechenden Computerprogrammanwendungen
implementiert werden. Dabei wird eine Durchführung des beispielhaft in der 3 dargestellten
Verfahrens realisiert.
-
Bei
der zuvor beschriebenen Synchronisierung wird ausgenutzt, dass bei
einem Sprachprozess Abhängigkeiten
zwischen den Audio- und Videoinformationen bestehen. Verfahren und
Vorgänge
beim Lippenlesen können
zum Beispiel die Korrelation zwischen Lippenbewegungen und der gleichzeitigen Audioinformation
verwenden, um bei einer Spracherkennung verbesserte Erkennungsraten
zu erzielen. Dabei existieren zum Beispiel einige Phoneme, die verhältnismäßig einfach
sowohl bei der Audio- wie auch bei der Videowahrnehmung detektierbar
sind. Dies ist insbesondere bei den sogenannten bilabialen Plosivphonemen
der Fall. Dies sind zum Beispiel die Phoneme /p/ und /b/. Bei diesen
bilabiale Plosivlauten steigt die Energie des Audiosignals in einem sehr
kurzen Zeitraum stark an. Das heißt, es besteht ein schneller Übergang
von einem niedrigen Energieniveau des Audiosignals zu einem höheren Audioniveau.
Die Au dioenergie ergibt sich in Abhängigkeit von einem Integral über das
Quadrat der Audioamplitude, wobei über ein zeitlich wanderndes
Zeitfenster integriert wird.
-
Plosive
Phoneme sind somit im Wesentlichen dadurch gekennzeichnet, dass
zunächst
ein Zeitraum relativ niedriger Audioenergie vorliegt und dann ein
rascher Energieanstieg zu erkennen ist. Dies vollzieht sich physiologisch
zunächst
mit einem Stoppen des Luftstroms und einer darauf folgenden explosiven
Wiederfreisetzung des angestauten Luftstroms. Es sind daher auch
die Bezeichnungen Explosivlaute einschlägig. Visuell lässt sich
ein entsprechender Plosivlaut dadurch erkennen, dass der Sprecher
zunächst
den Mund schließt,
somit die Lippen aufeinander liegen und diese sich dann plötzlich mit dem
sich angestauten Luftstrom öffnen.
Diese Änderung
in dem Lippenzustand oder der Lippenanordnung im Gesicht eines Sprechers
kann eine entsprechende visuelle Energie zugeordnet werden. Man spricht ähnlich wie
bei der Phonemdarstellung von Lauten von Visemen.
-
Eine
Möglichkeit
derartige Viseme, die auf den Lippenbewegungen basieren, darzustellen,
ist hinsichtlich der 5 erläutert. Die 5 zeigt
Darstellungen von fünf
Visemmoden MO1, MO2, MO3, MO4 und MO5. Die dargestellten Rauten
in den verschiedenen Diagrammen entsprechen ausgezeichneten Punkten
auf den Lippen eines Sprechers. Diese können zum Beispiel standardisiert
festgelegt werden. Die mittlere Spalte zeigt die fünf Visemmoden
MO1–MO5
in einer gemittelten normierten Form dargestellt. Bei einer Visemerkennung,
die auf einem entsprechenden Active Shape Model (ASM), beziehungsweise
einem Modell basiert, das die tatsächliche Lippenformung berücksichtigt,
kann eine Lippenbewegung oder ein Lippenmuster in Form dieser Basismoden
MO1–MO5
dargestellt werden.
-
Die
linke und die rechte Spalte zeigt die Basismoden MO1–MO5 mit
einer Standardabweichung von ±3.
Bei der entsprechenden Visemerkennung werden die jeweiligen Linearkoeffizienten
der ASM-Moden kontinuierlich gemessen und als Maß für eine Vise menergie oder visuelle
Energie betrachtet. Bei einem bilabialen Plosivlaut kann dessen
Vorliegen im Datenstrom somit dadurch erkannt werden, dass eine
spezielle Linearkoeffizientenkombination vorliegt. Beispielsweise
steigt der erste Linearkoeffizient für die Mode MO1 rapid plötzlich an,
was als Synchronisationsstelle erfasst wird.
-
Bei
einem entsprechenden Verfahren zur Visemerkennung wird zunächst mittels
bekannter Verfahren eine vorläufige
Gesichtserkennung durchgeführt
und beispielsweise anhand der Augen- und Mundpositionen die Mittelregion
identifiziert. Dazu kann zum Beispiel zunächst ein entsprechendes Graustufenbild
eines Einzelbildes im Videodatenstrom erzeugt werden und eine Gesichtsfarbenklassifikation
durchgeführt
werden. Anschließend
kann eine horizontale Filterung des Graustufenbildes vorgenommen
werden, wodurch Konturen einfacher erkennbar werden. Bei der Identifizierung
der Lippen- oder Mundregion können
bekannte Verfahren eingesetzt werden. Weiterhin lässt sich
anhand der erkannten Lippenform dann zum Beispiel auf Basis eines
Hidden-Markov-Modells eine Mustererkennung durchführen. Die
Mustererkennung erfolgt ähnlich
einer Mustererkennung zur Spracherkennung, wobei jedoch Lippenmuster
für das
entsprechende Modell verwendet werden und im Erkennungsalgorithmus identifiziert
werden.
-
Eine
alternative Klassifizierung von Lippenbewegungen oder Lippenmustern
kann mit Hilfe einer diskreten Kosinustransformation der Bildregion erfolgen,
in denen die Lippen einer Person sichtbar sind. Ähnlich einer Spektralanalyse
am Audiosignal erfolgt dann eine Überprüfung der entsprechenden Fourierkoeffizienten
oder Koeffizienten der diskreten Kosinustransformation (DCT-Koeffizienten)
im Rahmen einer Mustererkennung, wie beispielsweise mit einem Hiden-Markov-Modell
oder aber auch Verfahren, die neuronale Netze verwenden.
-
Die 6 zeigt
eine Tabelle MP, bei der miteinander korrelierende Phoneme und Viseme
aufgeführt
sind. Die bereits zuvor angedeuteten bilabialen Plosivlaute P und
B können
bei spielsweise einem Visem /p/ zugeordnet werden. In der 6 sind
die Phoneme und zuordenbare Viseme für englische Aussprache dargestellt.
Dabei existiert in der Regel keine 1:1 Zuordnung in der Tabelle
MP, wie dies beispielsweise bei den bilabialen Plosivlauten oder
im Laut AH, AY der Fall ist. Es ist allerdings möglich, die mit begrenztem Rechenaufwand
durchführbare
Phonemerkennung und dabei insbesondere bereits bekannte Phoneme
im Audiodatenstrom zu nutzen, um bei einer Visemerkennung einen
eingeschränkten Suchraum
zu verwenden.
-
In
der 7 ist ein Beispiel für den Plosivlaut /p/
dargestellt. Dabei ist in der ersten Zeile (A) das Audiosignal ASG
in beliebigen Einheiten über
einen Zeitraum von 3,5 Sekunden dargestellt. Etwa zum Zeitpunkt
T1 = 2.2 s wird der Laut "Peh" ausgesprochen. Dieses
in der 7A dargestellte Audiosignal liegt
beispielsweise in einem Audiodatenstrom vor. Um Audiodaten und visuelle
Daten, wie beispielsweise bei einer Videokonferenz, synchron anzuzeigen
ist es nun notwendig, dass die Lippenbewegung, welche in dem entsprechenden
Videosignal kodiert ist, gleichzeitig mit dem entsprechenden Audiosignal
angezeigt beziehungsweise dargestellt wird.
-
In
der 7B ist der zeitliche Verlauf eines Paramters für eine visuelle
Energie VPE ebenfalls in beliebigen Einheiten über denselben Zeitraum dargestellt.
Ein Maß für die visuelle
Energie VPE kann zum Beispiel, wie es in der 7B gezeigt
ist, von einem DCT-Koeffizienten der Lippenregion abgeleitet werden.
Zum Zeitpunkt T2 lässt
sich innerhalb des Visemverlaufs, welches zu dem Plosivlaut "Peh" gehört, in der
visuellen Energie VPE beziehungsweise dem Inhalt des entsprechenden
Videostroms ein als Synchronisationszeitpunkt VSS verwendetes Merkmal
feststellen. Dies kann durch zeitliches Verfolgen der zeitlichen
Ableitung des entsprechenden DCT-Koeffizienten geschehen. Ferner
kann das Quadrat des entsprechenden Wertes berechnet werden und
als ein Maß für visuelle
Energie betrachtet werden. Bezüglich
einer lokalen Zeit beziehungsweise einem Takt der Empfangseinrichtung
lässt sich
nun wie in der 7A dargestellt ist, zum Zeitpunkt
T1 eine Synchronisati onsstelle im Audiodatenstrom festlegen. Ähnlich kann
für den
Videodatenstrom wie in der 7B dargestellt
ist, zum Zeitpunkt T2 eine entsprechende Synchronisationsstelle
VSS festgelegt werden.
-
Da
die beiden Datenströme
mit Videoinhalten beziehungsweise Audioinhalten nicht synchronisiert
sind, treten die beiden Synchronisationsstellen VSS beziehungsweise
ASS zu unterschiedlichen Zeitpunkten auf. Dies ist in der 7C illustriert.
Es ergibt sich eine Verzögerung
zwischen den Audioinhalten und den Videoinhalten um ΔT = |T1 – T2|. Um diese
Differenz müssen
die beiden Datenströme
miteinander abgeglichen werden. Dies kann zum Beispiel dadurch erfolgen,
dass der zeitlich früher
einsetzende Synchronisationszeitpunkt T1 für das Audiosignal um ΔT verzögert wird,
damit beide Synchronisationsstellen VSS, ASS zum selben Synchronisationszeitpunkt
ST bei der Wiedergabe der audiovisuellen, also multimedialen Inhalte übereinstimmen.
-
Dies
ist in der 7D erläutert. Die abweichende Zeitskala
t' entspricht dabei
der zeitgleichen Wiedergabe aller Datenströme. Die Zeitskala t' kann dabei gegenüber den
anderen Zeitskalen T verzerrt oder linear gestreckt sein, da es
denkbar ist, dass Audiodatenströme
erheblich schneller übertragen
werden, als zum Beispiel Videodatenströme. Dies kann in der Bandbreite
des Übertragungsmediums
oder in der Verarbeitungsgeschwindigkeit für die Dekodierung der entsprechenden
Daten begründet
sein. In der 7A ist zudem angedeutet, dass
in einem Zeitfenster TT, das um ein erkanntes Synchronisationsereignis
ASS beziehungsweise einen Synchronisationszeitpunkt T1 liegt, insbesondere
die gleichzeitig erfolgende Visemerkennung besonders gründlich oder
sensibel eingerichtet wird.
-
Es
ist ferner möglich,
dass eine vorgegebene Verzögerungszeit,
die natürlich,
beispielsweise bei dem Ausspruch eines Phonems "kah" auftritt,
berücksichtigt
wird. Dabei wird der Mund zunächst
zur Aussprache des Vokals "ah" vorbereitet, so
dass visuell die entsprechende Lippenbewegung vor dem Luft ausstoß und damit
vor dem entsprechenden Audiosignal erfasst werden kann. Es kann
zum Beispiel die Einhüllende
oder zeitliche Ableitungen des Audiosignals zur Phonemerkennung
verwendet werden. Beim Synchronisationsverfahren werden die natürlichen Vorgänge, welche
den Audio- und Videoinhalten entnommen werden können, zur Synchronisation der beiden
medialen Kanäle
verwendet.
-
Da
die entsprechenden Phoneme und Viseme nur sehr kurzzeitig, insbesondere
bei den bilabialen Phonemen auftreten, ist eine zuverlässige Synchronisierung
möglich.
Neben diesen Phonemen können
auch weitere Phoneme und Viseme, wie es beispielsweise in der 4 als
Tabelle MP dargestellt ist, aufeinander abgebildet werden und verwendet
werden. Sofern innerhalb eines vorgebbaren Zeitfensters die über eine
entsprechende Tabelle MP verknüpften
Viseme und Phoneme erkannt werden, erfolgt vorzugsweise eine Synchronisierung.
Es ist auch möglich,
dass anhand des Synchronisationsverfahrens entsprechende Synchronisationsmerker in
die Datenströme
eingefügt
werden und diese weiter übertragen
werden.
-
Das
vorgenannte Zeitfenster begrenzt dabei die maximale Asynchronizität, welche
das entsprechende Synchronisationssystem erkennen und korrigieren
kann.
-
Bei
den vorbeschriebenen Anwendungsbeispielen des Synchronisationsverfahrens
wurden vollständige
Phoneme beziehungsweise Viseme zur Synchronisation verwendet. Es
ist jedoch auch denkbar, dass Teile von Phonemen oder Visemen als
Synchronisationsstellen verwendet werden. Es ist zum Beispiel denkbar,
dass bestimmte Phonemeigenschaften verwendet werden. Neben den vorgenannten
Beispielen lassen sich weitere Merkmale der Audio- oder Videoinhalte
zur Synchronisierung verwenden. Nur beispielhaft sei zum Beispiel
ein Maximum der Ableitung der Energie des Audiosignals genannt. Ebenso
kann ein Maximum der ersten Ableitung eines entsprechenden ASM-Koeffizienten
verwendet werden.
-
Die
Erfindung hat den besonderen Vorteil, dass keine weiteren Synchronisierungsmerker
in den Datenströmen
vorgesehen werden müssen.
Vielmehr werden die natürlichen
bimodalen Ereignisse, welche eine zeitliche Korrelation zwischen
Audio- und Videoinformationen darstellen, verwendet. Das Synchronisationsverfahren
ist im Besonderen dann besonders zuverlässig, wenn die Lippenbewegungen der
Sprecher, von denen das Audiosignal ausgeht, detektierbar und erfassbar
sind. Selbstverständlich sind
entsprechend der Audio- oder Videoinhalte weitere Synchronisationsstellen
denkbar. Beispielsweise bei der Wiedergabe einer Klaviertastatur
kann die geordnete Abfolge von Tasten und deren Bedienung visuell
erkannt werden und bei der audiovisuellen Wiedergabe den entsprechenden
Tönen,
die eindeutig im Audiosignal erkannt werden können, zugeordnet werden und
somit synchronisiert werden. Selbstverständlich sind weitere, sowohl
visuell wie auch per Audio registrierbare Inhalte denkbar.