DE102007039603A1

DE102007039603A1 - Verfahren zum Synchronisieren von medialen Datenströmen

Info

Publication number: DE102007039603A1
Application number: DE102007039603A
Authority: DE
Inventors: Jesus Fernando Dr. Guitarte Perez; Klaus Lukas
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2007-08-22
Filing date: 2007-08-22
Publication date: 2009-02-26
Also published as: WO2009024442A2; WO2009024442A3

Abstract

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Synchronisation von medialen Datenströmen (AU, VI), welche jeweils mediale Dateninhalte (A1, A2, V1, V2) einer vorgegebenen Medienklasse umfassen, wobei eine zeitliche Synchronisierung der Datenströme (AU, VI) in Abhängigkeit von den medialen Dateninhalten (A1, A2, V1, V2) erfolgt.

Description

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Synchronisieren von medialen Datenströmen, wie zum Beispiel audiovisuelle Multimediadaten.
Bei der Übertragung von Multimediainformationen, zum Beispiel über geeignete Datenverbindungen über das Internet können hinsichtlich der Synchronizität, beispielsweise von Audiodaten auf der einen Seite und Videodaten auf der anderen Seite, Probleme ergeben. Dies macht sich zum Beispiel bei Videokonferenzanwendungen über das Internet oder über Mobiltelefonnetzwerke bemerkbar. Da in der Regel Audiosignale und Videosignale unabhängig voneinander kodiert und übertragen werden, können auf der Empfängerseite Verzögerungen zwischen der Audiowiedergabe, zum Beispiel Sprachwiedergabe, und Videowiedergabe, wie beispielsweise die Anzeige des Sprechers, auftreten. Auf der entsprechenden Decoder- oder Empfängerseite müssen diese Multimediainhalte dann synchron zueinander abgespielt werden.
Ohne Synchronisierung werden kombinierte Audio- und Videoinhalte vom Benutzer als unangenehm und von schlechter Qualität empfunden. Der Mensch kann zum Beispiel Asynchronizitäten zwischen Audio- und Videoinhalten von mehr als 220 ms bemerken. Insbesondere bei Videokonferenzen scheinen die Nutzer, beziehungsweise Teilnehmer, besonders sensibel gegenüber einer Verzögerung zwischen dem Audio- und Videosignal zu reagieren. Das Videosignal und dabei insbesondere die Lippenbewegungen der Sprecher scheinen dann nicht dem Audiosignal, also der gesprochenen Sprache zu entsprechen. Insbesondere bei Bildsequenzen, in den Gesichtern von sprechenden Personen auftreten, müssen Diskrepanzen zwischen der Mund- oder Lippenbewegung und dem Sprachsignal vermieden werden.
In der Vergangenheit wurde zum Beispiel bei Fernseh- oder Filmaufnahmen eine Klappe zu Beginn jeder Szene aufgenommen. Damit konnten die entsprechenden Audioaufnahmen und Videosignale miteinander synchronisiert werden. Als Synchronisationszeitpunkt galten dabei das sichtbare Schließen der Klappe sowie der entsprechende Knall im Audiosignal.
Bei modernen Multimediastreams, die beispielsweise über das Internet übertragen werden, sind derartige Vorgehensweisen jedoch unpraktisch. Üblicherweise werden Audio- und Videodaten über rahmenbasierte Datenströme übertragen. Dabei können Synchronisationsinformationen, welche auf eine jeweilige abgelaufene Zeit in dem Audio- oder Videodatenstrom kennzeichnend eingesetzt werden. Auf der Empfangsseite werden dann die künstlichen, in den Datenstrom eingebetteten Synchronisationsinformationen, wie zum Beispiel bestimmte Zeit- oder Synchronisationsmerker, welche eine jeweilige Zeitidentifikation haben, bei der Wiedergabe des Multimediainhaltes aufeinander abgestimmt.
In der 1 ist zum Beispiel schematisch ein Audiodatenstrom AU und ein Videodatenstrom VI dargestellt. Im Audiodatenstrom sind Synchronisationskennungen M1–M5 in die entsprechenden Datenrahmen eingebettet, die vorgegebene Zeitpunkte kennzeichnen. Ebenso sind in dem Videodatenstrom VI Synchronisationsmerker N1–N5 vorgesehen, die denselben Zeiten entsprechen wie die Merker M1–M5. Bei der Übertragung der Audio- und Videoinformation können die AU beziehungsweise VI unterschiedlichen Verzögerungen unterliegen. Insgesamt können auch die gegenüber einer linearen Zeit gemessenen Synchronisationsmerker M1–M5, N1–N5 verzerrt werden. Dies ist in der 1 durch die unregelmäßigen Abstände der Merker M1–M5 beziehungsweise N1–N5 untereinander dargestellt.
Bei der Wiedergabe des kombinierten Multimediainhaltes als Multimediadatenstrom AV müssen diese Zeitpunkte jedoch zusammenfallen, da beispielsweise die zum Synchronisationszeitpunkt N2 dargestellte Lippenbewegung einem Audiosignal zum Synchronisationszeitpunkt M2 entsprechen muss. Diese Abbildung auf eine gemeinsame synchrone Zeit MNR ist durch die Pfeile M dargestellt. Bei der Wiedergabe beziehungsweise Dekodierung und dem Zusammenführen der beiden Datenströme AU und VI müssen somit die entsprechenden Dateninhalte derart miteinander synchron gebracht werden, dass die Zeitpunkte der Merker M1 und N1, M2 und N2, M3 und N3, M4 und N4, M5 und N5 bei der Wiedergabe auf gemeinsame gleiche Zeitpunkte fallen. Dies ist in der 1 durch die Markierungen MN0–MN5 des kombinierten Multimediastreams AV angedeutet.
Nachteilig ist bei dieser Vorgehensweise insbesondere, dass Teile der Datenrahmen von entsprechenden Synchronisationsmarkierungen belegt sind. damit sinkt die Übertragungsrate eines entsprechenden Datenstroms. Ferner muss auf Sender- und Empfängerseite die Art der Markierung standardisiert werden.
Es ist daher eine Aufgabe der vorliegenden Erfindung ein verbessertes Verfahren für die Synchronisation medialer Datenströme untereinander zu schaffen.
Diese Aufgabe wird durch ein Verfahren zum Synchronisieren von medialen Datenströmen gemäß Patentanspruch 1 gelöst.
Demgemäß ist ein Verfahren zum Synchronisieren von medialen Datenströmen vorgesehen, wobei die medialen Datenströme jeweils mediale Dateninhalte einer vorgegebenen Medienklasse umfassen. Dabei erfolgt eine zeitliche Synchronisierung der Datenströme in Abhängigkeit von den medialen Dateninhalten.
Gemäß dem Verfahren ist es nicht notwendig, vorgesehene Synchronisierungsmarker im Datenstrom aufzufinden beziehungsweise diese beim Kodieren der Datenströme in die Daten einzufügen. Vielmehr sieht die Erfindung vor, anhand der Dateninhalte, also beispielsweise der Audiodaten in Form von Sprache oder Videodaten als Bildsequenzen, beispielsweise von Gesichtern vorzunehmen. Unter Datenströmen versteht man im Wesentlichen eine kontinuierliche Abfolge von Datensätzen, deren Ende im Voraus nicht abzusehen ist. Die einzelnen Datensätze oder Datenrahmen innerhalb eines Datenstroms sind von einem festen vorgegebenen Typ, wie beispielsweise Datenrahmen, die Audiodaten aufweisen. Die Menge der Datensätze oder Rahmen pro Zeiteinheit kann dabei variieren, so dass eine Datenrate unterschiedlicher Datenströme unterschiedlich groß ist. Beispielsweise Audio- oder Videodaten bilden jeweils eine eigene Medienklasse. Es sind jedoch weitere Medienklassen denkbar, die der jeweiligen Anwendung angepasst werden können. Durch den Rückgriff auf die Dateninhalte der Datenströme ist es nicht notwendig, dass die Datenströme irgendwelche Zeitinformationen aufweisen.
Bei dem Verfahren können vorteilhaft die medialen Dateninhalte zum Beispiel kontinuierlich überwacht werden und vorgegebene Dateninhalte als Synchronisationsstellen in den medialen Datenströmen erfasst werden. Bestimmte Datenteilinhalte können beispielsweise als besondere Synchronisationsstellen verwendet werden. Als ein Datenteilinhalt kommen beispielsweise bei Audiodaten Phoneme in Frage und bei Videodaten Viseme.
Unter einem Phonem wird die kleinste bedeutungsunterscheidende, aber nicht bedeutungstragende Einheit einer Sprache verstanden. Dabei sind insbesondere bei der Spracherkennung Verfahren zur Phonemerkennung bekannt. Analog versteht man unter Visemen kleinste Bedeutungseinheiten von Mund- oder Lippenbewegungen, denen eine Bedeutung zugeordnet werden können. Beispielsweise kann einem Phonem /o/ ein Visem zugeordnet werden, das die zugehörige offene Mundstellung bezeichnet.
Insofern ist es bei einer Variante des Verfahrens möglich, bei einem medialen Datenstrom der Audiodaten aufweist, vorgegebene Phoneme oder Phonemkombinationen als Synchronisationsstellen zu überwachen. Parallel dazu kann dann ein medialer Datenstrom der Videodaten aufweist, beziehungsweise dessen Videodateninhalte zum Erkennen von vorgegebenen Visemen als Synchronisationsstellen überwacht werden. Durch Feststellen der Zeitpunkte, beispielsweise innerhalb eines vorgegebenen Zeitfensters in dem zueinander gehörige Viseme und Phoneme auftreten, kann dann eine Synchronisierung oder ein Abgleich der beiden Datenströme erfolgen.
Es ist insbesondere von Vorteil, wenn dabei die Überwachung eines zweiten medialen Datenstroms in Abhängigkeit von einer erfassten Synchronisationsstelle eines ersten medialen Datenstroms erfolgt. Dadurch kann beispielsweise bei einer Phonemerkennung die tendenziell weniger Rechenaufwand erfordert als eine Visemerkennung, der Suchraum für die Visemerkennung innerhalb des Zeitfensters reduziert werden.
Vorzugsweise wird bei dem Verfahren eine Synchronisationstabelle angelegt, welche mediale Datenteilinhalte einer ersten Medienklasse, wie zum Beispiel Phoneme, und zweite mediale Datenteilinhalte einer zweiten Medienklasse, wie beispielsweise Viseme, zueinander zugeordnet aufweist. Somit kann die Synchronisationsstellenerkennung und anschließende Synchronisierung auf Grundlage einer entsprechenden Tabelle mit der Abbildung von Phonem auf Visem erfolgen.
Das Verfahren zum Synchronisieren medialer Datenströme hat vorzugsweise einen oder mehrere der folgenden Verfahrensschritte:
Zwischenspeichern eines ersten und mindestens eines zweiten medialen Datenstroms;
Überwachen des ersten und des zweiten medialen Datenstroms;
Erkennen von vorgegebenen Datenteilinhalten in den Datenströmen;
Vergleichen der erkannten Dateninhalte verschiedener Datenströme;
Verzögern des ersten oder des zweiten Datenstroms, falls ein erkannter Datenteilinhalt des ersten Datenstroms und ein er kannter Datenteilinhalt des zweiten Datenstroms einem gleichen Synchronisationsereignis entsprechen und zu verschiedenen Zeitpunkten in den Datenströmen erkannt werden.
Als Synchronisationsstellen bei Audiodateninhalten kommen insbesondere bilabiale Phoneme und/oder plosive Phoneme in Frage. Die Phonemerkennung und Bestimmung der jeweiligen Synchronisationsstelle kann zum Beispiel durch kontinuierliches Überwachen einer Audioenergie der Audioinhalte unterstützt werden.
Entsprechend bieten sich auch bilabiale Viseme als Synchronisationsstellen in einem Videodatenstrom an. Dabei wird ein kontinuierliches Überwachen einer Videoenergie oder eines Parameters, welcher als visuelle Energie eine besonders rasche Lippenbewegung kennzeichnet, der Videoinhalte bevorzugt ausgeführt. Die jeweiligen Energien der Audio- oder Videodaten oder aus den Video- und Audiodaten extrahierbare Parameter, lassen sich zum Beispiel durch Bestimmung von Transformationskoeffizienten trigonometrischer Transformationen, wie zum Beispiel diskreter Kosinustransformationen ableiten oder direkt ermitteln.
Zur Visemerkennung in einer Folge von Einzelbildern eines Videodatenstroms werden vorzugsweise die Lippenbilder überwacht und erfasst. Dabei sieht eine Variante des Verfahrens vor, die erfassten Lippenbilder mit einer Darstellung mit einer vorgegebenen Basis von Lippenmoden zu vergleichen. Es lassen sich zum Beispiel geometrische Linienzüge als Lippenmoden bestimmen, die in einer Linearkombination eine vorgegebene Lippenbewegung oder Lippenkontur darstellen können. Aus einer zeitlichen Änderung der entsprechenden Linearkoeffizienten lassen sich die konkreten Synchronisationszeitpunkte ableiten.
Es ist ebenfalls möglich zur Visemerkennung in einer Folge von Einzelbildern des Videodatenstroms Lippenbilder zu überwachen und zu erfassen und dabei die erfassten Lippenbilder einer diskreten Kosinustransformation zu unterziehen. Bestimmte Kosinustransformationskoeffizienten können dann als Grundlage für eine Mustererkennung zur Visemerkennung herangezogen werden.
Vorzugsweise wird bei dem Synchronisationsverfahren eine natürliche Verzögerung zwischen einem erfassten Phonem und einem erfassten Visem berücksichtigt. Es ist zum Beispiel bei bestimmten Lauten notwendig, dass sich das physiologische Sprachsystem beispielsweise durch ein vorübergehendes Schließen des Mundes auf die Ausgabe eines bestimmten Phonems vorbereitet. In diesem Fall entsteht vor der eigentlichen Lautäußerung bereits ein dazugehöriges Visem.
Die Erfindung betrifft ferner eine Synchronisationsrichtung gemäß Patentanspruch 25.
Diese Synchronisationsvorrichtung ist derart ausgestaltet, dass ein Verfahren zur Synchronisierung von medialen Datenströmen wie vorbeschrieben durchgeführt wird. Dabei weist die Synchronisationsvorrichtung vorzugsweise eine Phonemerkennungseinheit, eine Visemerkennungseinheit und eine Synchronisationseinheit auf.
Bevorzugte Anwendungsgebiete entsprechender Synchronisationsvorrichtungen sind zum Beispiel Empfangseinrichtungen für multimediale Datenströme. Es kann zum Beispiel ein Videokonferenzsystem oder auch ein Mobiltelefon sowie Empfangseinrichtungen für multimediale Daten mit einer entsprechenden Synchronisationsvorrichtung ausgestattet werden. Der Vorteil dabei besteht insbesondere darin, dass die Empfangseinrichtung ohne dass eine dezidierte Sendeeinrichtung die vorgegebenen Datenströme in standardisierter Form mit Synchronisationspulsen ausstattet, funktionsfähig ist. Eine besonders bevorzugte Implementierung des Verfahrens bzw. einer Synchronisationsvorrichtung erfolgt als Embedded System, welches vielfältig in mobilen Kommunikationseinrichtungen vorgesehen werden kann.
Schließlich betrifft die Erfindung ein Computerprogrammprodukt, welches die Durchführung eines entsprechenden Verfahrens zum Synchronisieren von medialen Datenströmen auf einer programmgesteuerten Rechnereinrichtung veranlasst. Als Programmgesteuerte Rechnereinrichtung kommt zum Beispiel ein PC in Frage, der entsprechende Software aufweist, die Videokonferenzen oder den Empfang von Audio- und Videodaten bewerkstelligt. Das Computerprogrammprodukt kann beispielsweise in der Art eines Datenträgers, wie zum Beispiel USB-Stick, Floppy-Disk, CDROM, DVD, implementiert werden oder auch auf einer Servereinrichtung als herunterladbare Programmdatei implementiert sein.
Weitere vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche sowie der im Folgenden beschriebenen Ausführungsbeispiele der Erfindung.
Im Weiteren wird die Erfindung anhand bevorzugter Ausführungsbeispiele unter Bezugnahme auf die beigelegten Figuren näher erläutert. Es zeigt dabei:
1 Beispiele für mediale Datenströme mit Synchronisationsmerkern;
2 Beispiele für Datenströme mit medialen Dateninhalten ohne Synchronisationsmerker;
3 ein Ablaufdiagramm einer Variante des Verfahrens zum Synchronisieren von medialen Datenströmen;
4 ein Blockdiagramm einer Ausführungsform einer Synchronisationsvorrichtung;
5 eine Übersicht von Visemmoden;
6 eine Tabelle von Phonem- auf Visemzuordnungen; und
7 Zeitdiagramme von einander zuzuordnenden Phonemen und Visemen zur Synchronisation von Datenströmen.
In den Figuren sind gleiche oder funktionsgleiche Elemente mit denselben Bezugszeichen versehen worden, sofern nichts Anderes angegeben ist.
In der 2 sind Datenströme von Audiodaten AU und Videodaten VI schematisch dargestellt. Übliche Datenströme weisen Datenrahmen F1–F10 beziehungsweise G1–G7 auf. Die Datenrahmen müssen dabei nicht immer dieselbe Länge aufweisen und können auch während der Übertragung der jeweiligen Datenströme AU, VI unterschiedlich stark verzögert werden. Dies ist beispielhaft bei dem Datenrahmen G6 illustriert, der zeitlich kürzer ist als die darum liegenden Datenrahmen G5 und G7.
Die jeweiligen Datenrahmen umfassen Dateninhalte, beispielsweise der Datenrahmen F3 einen Audioinhalt A1, der Datenrahmen F4 einen Audiodateninhalt A2. Der Videodatenstrom VI führt beispielsweise in den Datenrahmen G2 und G3 jeweils Videodateninhalte V1 und V2. Die zu verarbeitenden und empfangenen Datenströme AU und VI haben keine Synchronisationsmerker oder Zeitinformationen. Vielmehr weist der Audiodatenstrom AU lediglich entsprechend kodierte Audiodaten A1, A2 auf, wie beispielsweise digital kodierte Sprachsignale. Ähnlich weist der Videodatenstrom VI Datenrahmen G1–G7 mit Videoinhalten V1, V2 auf, die beispielsweise eine Abfolge von kodierten Einzelbildern einer Szene, insbesondere mit der Darstellung von Gesichtern und Lippenbewegungen.
Die 3 zeigt ein Beispiel einer Synchronisierung von Audio- und Videodaten, wobei die Audiodaten kodierte Sprachsignale aufweisen und die Videodaten entsprechende Szenen mit Lippenbewegungen als schematisches Ablaufdiagramm. In der 3 verläuft die Zeitachse senkrecht nach unten. Je nach Übertragungsmodus können die Audio- und Videodaten beziehungsweise die entsprechenden Rahmen F1–F10 und G1–G7, wie sie in der 2 angedeutet sind, über ein geeignetes Über tragungsverfahren zum Beispiel einer Empfangs- oder Anzeigeeinrichtung übertragen werden. Im Schritt SO erfolgt somit ein Empfang entsprechender Datenströme, die sowohl Video- als auch Audiodaten aufweisen, beispielsweise über das Internet. In einem zweiten Schritt S1 erfolgt eine Aufspaltung in sowohl die Audiodaten wie auch in die Videodaten, so dass als Ergebnis zum Beispiel die in der 2 dargestellte Audiodatenströme AU und Videodatenströme VI vorliegen.
Nun erfolgt im Schritt S2 eine Phonemanalyse, die zum Beispiel nach bekannten Methoden der Spracherkennung vorgenommen werden kann. Gleichzeitig erfolgt im Schritt S22 eine Visemanalyse. Auch bei der Visemanalyse sind verschiedene Verfahren denkbar, wobei im Folgenden einige beispielhaft skizziert sind.
Durch die Phonemanalyse der Audiodateninhalte werden zum Beispiel bilabiale Plosivlaute wie /p/ in dem Dateninhalt R2 erkannt und das zeitliche Auftreten in Bezug auf die lokale Zeit t, mit der beispielsweise die Empfangsdarstellungseinrichtung arbeitet registriert. Gleichzeitig wird bei der Visemanalyse erkannt, ob zum Beispiel Viseme, die insbesondere bestimmten Phonemen zugeordnet werden können, wie beispielsweise eine schnelle runde Lippenöffnung beim Ausspruch des Lautes /p/ erfasst. Auch dies wird zeitlich festgehalten.
Da sowohl Phoneme als auch Viseme prinzipiell einen längeren Zeitraum umfassen können, kann innerhalb der erkannten Synchronisationsstelle (Phonem bzw. Visem) ein konkreter Zeitpunkt markiert werden, der bei der Wiedergabe beider Datenstrominhalte zeitgleich dargestellt werden muss. Denkbar ist zum Beispiel das Audio- und/oder Videosignal hinsichtlich einer jeweiligen Energie zu überprüfen. Bei Plosivlauten entsteht ein kurzer schneller Anstieg in der Audiosignalenergie, der als Synchronisationszeitpunkt verwendbar ist. Analog kann einem entsprechenden Videosignal eine "visuelle Energie" zugeordnet werden, die eine besonders rasche Lippenbewegung, wie zum Beispiel das explosionsartige Öffnen des Mundes bei bilabialen Plosivlauten, anzeigt.
Entsprechende Visemanalysen beruhen auf einer graphischen Auswertung des Videoinhaltes, wobei zum Beispiel zunächst eine Mundregion oder Gesichtsregion über eine Mustererkennung erkannt wird, anschließend insbesondere die auftretenden Lippenbewegungen überwacht werden und wie bei einer Spracherkennung eine entsprechende Mustererkennung durchgeführt wird.
Durch die Schritte S2 und S22 wird somit festgestellt, ob im Audiodatenstrom AU Synchronisationsstellen, wie beispielsweise bilabiale Plosivlaute auftreten und in der zeitlichen Umgebung, also in einem darum liegenden Zeitfenster in dem Videodatenstrom VI dazu passende Viseme vorliegen. Im Schritt S3 werden diese Überwachungsergebnisse aus der Phonemanalyse und der Visemanalyse miteinander verglichen.
Sofern sich bei der zeitlichen Abfolge der zueinander gehörigen Phoneme und Viseme, welche bei korrekter Synchronisation zu einem gemeinsamen Synchronisationszeitpunkt auftreten müssen, eine zeitliche Verschiebung oder ein Zeitversatz erkannt wird, kann nun im Schritt S4 ein Abgleich erfolgen, sodass beide Ereignisse, nämlich die Audiowiedergabe des bilabialen Plosivlautes und die gleichzeitige Anzeige des entsprechenden Videoinhaltes mit einem entsprechenden Gesichts- oder Lippenzug erfolgt.
Die 4 zeigt ein Blockdiagramm einer möglichen Implementierung des Synchronisationsverfahrens in einer Empfangseinrichtung für multimediale Datenströme. Die Empfangseinrichtung 1 weist dabei eine Synchronisationsvorrichtung 2 auf und eine Anzeigeeinrichtung 3.
Der Synchronisationseinrichtung 2 wird über einen Eingang 13 ein multimediales Signal mit medialen Datenströmen AV zugeführt. An einem Ausgang 14 der Synchronisationsvorrichtung 2 ist dann ein synchronisierter medialer Datenstrom, beispiels weise mit audiovisuellen Daten abgreifbar. Die multimedialen Daten AVS können beispielsweise miteinander synchronisierte Audio- und Videodatenströme sein. In der 4 ist dies lediglich durch einen einfachen Pfeil dargestellt.
Die synchronisierten audiovisuellen Daten AVS werden dann von einer Anzeigeeinrichtung 3 beispielsweise einem Bildschirm 10, welcher mit einem Lautsprecher 11 und einem Display 12 ausgestattet ist, angezeigt. Sowohl die Synchronisationsvorrichtung 2, wie auch die Anzeigeeinrichtung kann in einem Computersystem implementiert werden.
Die Synchronisationsvorrichtung 2 weist eine Aufspaltungseinheit 4 auf, welche aus dem gemischten medialen Datenstrom AV einen Audiodatenstrom AU und einen Videodatenstrom VI erzeugt. Die Datenströme AU, VI können beispielsweise in der Form der 2 ausgestaltet sein. Im Vergleich zu den Verfahrensschritten der 3 erfolgt somit ein Empfang der Datenströme und eine Aufspaltung in Audio- und Videodatenströme gemäß der Schritte S0 und S1 in der Aufspaltungseinheit 4.
An dem Audiodatenstrom AU wird über eine Phonemerkennungseinheit 5 eine Phonemerkennung durchgeführt. Parallel dazu erfolgt an dem Videodatenstrom eine Visemerkennung über eine Visemerkennungseinheit 6. Dabei werden zum Beispiel Parameter der Audio- und Videosignale ermittelt, wie MFCCs (Mel-Frequenz-Cepstrum-Koeffizienten). MFCCs werden häufig bei der automatischen Spracherkennung verwendet, da sie zu einer kompakten Darstellung des Spektrums führen. Über ein Verfahren der Mustererkennung werden dann die Phoneme erkannt. Analog werden Merkmale oder Parameter des Videosignals bestimmt und bei der Visemerkennung benutzt.
Eine Phonemanalyseeinheit 7 verarbeitet die von der Phonemerkennungseinheit 5 gelieferten Daten AE, und eine Visemanalyseeinheit 8 verarbeitet die von der Visemerkennung 6 gelieferten Daten VE. Bei der jeweiligen Analyse werden zum Beispiel anhand einer Betrachtung des Energieverlaufs der Audio- oder Videosignale oder davon abgeleiteter Größen innerhalb der Phoneme bzw. Viseme die exakten zur Synchronisation benötigten Zeitpunkte ermittelt. Die in der 3 mit den Schritten S2 und S22 bezeichneten Vorgänge erfolgen somit in der Phonemerkennungs- und Analyseeinheit 5, 7 beziehungsweise der Visemerkennungs- und Analyseeinheit 6, 8.
Eine Synchronisationseinheit 9 empfängt entsprechende Synchronisationsdaten SDA für den Audioanteil und SDV für den Videoanteil der audiovisuellen Daten AV. Die Synchronisationseinheit 9 verzögert und gleicht die verschiedenen erkannten Synchronisationsstellen, welche durch die erkannten Viseme beziehungsweise Phoneme festgelegt werden, aufeinander ab und gibt aufeinander synchronisierte Datenströme AVS aus.
Die in der 4 als Aufspaltungseinheit 4, Phonemerkennungseinheit 5, Visemerkennungseinheit 6, Phonemanalyseeinheit 7, Visemanalyseeinheit 8 und Synchronisationseinheit 9 bezeichneten Elemente können zum Beispiel in Form von entsprechenden Computerprogrammanwendungen implementiert werden. Dabei wird eine Durchführung des beispielhaft in der 3 dargestellten Verfahrens realisiert.
Bei der zuvor beschriebenen Synchronisierung wird ausgenutzt, dass bei einem Sprachprozess Abhängigkeiten zwischen den Audio- und Videoinformationen bestehen. Verfahren und Vorgänge beim Lippenlesen können zum Beispiel die Korrelation zwischen Lippenbewegungen und der gleichzeitigen Audioinformation verwenden, um bei einer Spracherkennung verbesserte Erkennungsraten zu erzielen. Dabei existieren zum Beispiel einige Phoneme, die verhältnismäßig einfach sowohl bei der Audio- wie auch bei der Videowahrnehmung detektierbar sind. Dies ist insbesondere bei den sogenannten bilabialen Plosivphonemen der Fall. Dies sind zum Beispiel die Phoneme /p/ und /b/. Bei diesen bilabiale Plosivlauten steigt die Energie des Audiosignals in einem sehr kurzen Zeitraum stark an. Das heißt, es besteht ein schneller Übergang von einem niedrigen Energieniveau des Audiosignals zu einem höheren Audioniveau. Die Au dioenergie ergibt sich in Abhängigkeit von einem Integral über das Quadrat der Audioamplitude, wobei über ein zeitlich wanderndes Zeitfenster integriert wird.
Plosive Phoneme sind somit im Wesentlichen dadurch gekennzeichnet, dass zunächst ein Zeitraum relativ niedriger Audioenergie vorliegt und dann ein rascher Energieanstieg zu erkennen ist. Dies vollzieht sich physiologisch zunächst mit einem Stoppen des Luftstroms und einer darauf folgenden explosiven Wiederfreisetzung des angestauten Luftstroms. Es sind daher auch die Bezeichnungen Explosivlaute einschlägig. Visuell lässt sich ein entsprechender Plosivlaut dadurch erkennen, dass der Sprecher zunächst den Mund schließt, somit die Lippen aufeinander liegen und diese sich dann plötzlich mit dem sich angestauten Luftstrom öffnen. Diese Änderung in dem Lippenzustand oder der Lippenanordnung im Gesicht eines Sprechers kann eine entsprechende visuelle Energie zugeordnet werden. Man spricht ähnlich wie bei der Phonemdarstellung von Lauten von Visemen.
Eine Möglichkeit derartige Viseme, die auf den Lippenbewegungen basieren, darzustellen, ist hinsichtlich der 5 erläutert. Die 5 zeigt Darstellungen von fünf Visemmoden MO1, MO2, MO3, MO4 und MO5. Die dargestellten Rauten in den verschiedenen Diagrammen entsprechen ausgezeichneten Punkten auf den Lippen eines Sprechers. Diese können zum Beispiel standardisiert festgelegt werden. Die mittlere Spalte zeigt die fünf Visemmoden MO1–MO5 in einer gemittelten normierten Form dargestellt. Bei einer Visemerkennung, die auf einem entsprechenden Active Shape Model (ASM), beziehungsweise einem Modell basiert, das die tatsächliche Lippenformung berücksichtigt, kann eine Lippenbewegung oder ein Lippenmuster in Form dieser Basismoden MO1–MO5 dargestellt werden.
Die linke und die rechte Spalte zeigt die Basismoden MO1–MO5 mit einer Standardabweichung von ±3. Bei der entsprechenden Visemerkennung werden die jeweiligen Linearkoeffizienten der ASM-Moden kontinuierlich gemessen und als Maß für eine Vise menergie oder visuelle Energie betrachtet. Bei einem bilabialen Plosivlaut kann dessen Vorliegen im Datenstrom somit dadurch erkannt werden, dass eine spezielle Linearkoeffizientenkombination vorliegt. Beispielsweise steigt der erste Linearkoeffizient für die Mode MO1 rapid plötzlich an, was als Synchronisationsstelle erfasst wird.
Bei einem entsprechenden Verfahren zur Visemerkennung wird zunächst mittels bekannter Verfahren eine vorläufige Gesichtserkennung durchgeführt und beispielsweise anhand der Augen- und Mundpositionen die Mittelregion identifiziert. Dazu kann zum Beispiel zunächst ein entsprechendes Graustufenbild eines Einzelbildes im Videodatenstrom erzeugt werden und eine Gesichtsfarbenklassifikation durchgeführt werden. Anschließend kann eine horizontale Filterung des Graustufenbildes vorgenommen werden, wodurch Konturen einfacher erkennbar werden. Bei der Identifizierung der Lippen- oder Mundregion können bekannte Verfahren eingesetzt werden. Weiterhin lässt sich anhand der erkannten Lippenform dann zum Beispiel auf Basis eines Hidden-Markov-Modells eine Mustererkennung durchführen. Die Mustererkennung erfolgt ähnlich einer Mustererkennung zur Spracherkennung, wobei jedoch Lippenmuster für das entsprechende Modell verwendet werden und im Erkennungsalgorithmus identifiziert werden.
Eine alternative Klassifizierung von Lippenbewegungen oder Lippenmustern kann mit Hilfe einer diskreten Kosinustransformation der Bildregion erfolgen, in denen die Lippen einer Person sichtbar sind. Ähnlich einer Spektralanalyse am Audiosignal erfolgt dann eine Überprüfung der entsprechenden Fourierkoeffizienten oder Koeffizienten der diskreten Kosinustransformation (DCT-Koeffizienten) im Rahmen einer Mustererkennung, wie beispielsweise mit einem Hiden-Markov-Modell oder aber auch Verfahren, die neuronale Netze verwenden.
Die 6 zeigt eine Tabelle MP, bei der miteinander korrelierende Phoneme und Viseme aufgeführt sind. Die bereits zuvor angedeuteten bilabialen Plosivlaute P und B können bei spielsweise einem Visem /p/ zugeordnet werden. In der 6 sind die Phoneme und zuordenbare Viseme für englische Aussprache dargestellt. Dabei existiert in der Regel keine 1:1 Zuordnung in der Tabelle MP, wie dies beispielsweise bei den bilabialen Plosivlauten oder im Laut AH, AY der Fall ist. Es ist allerdings möglich, die mit begrenztem Rechenaufwand durchführbare Phonemerkennung und dabei insbesondere bereits bekannte Phoneme im Audiodatenstrom zu nutzen, um bei einer Visemerkennung einen eingeschränkten Suchraum zu verwenden.
In der 7 ist ein Beispiel für den Plosivlaut /p/ dargestellt. Dabei ist in der ersten Zeile (A) das Audiosignal ASG in beliebigen Einheiten über einen Zeitraum von 3,5 Sekunden dargestellt. Etwa zum Zeitpunkt T1 = 2.2 s wird der Laut "Peh" ausgesprochen. Dieses in der 7A dargestellte Audiosignal liegt beispielsweise in einem Audiodatenstrom vor. Um Audiodaten und visuelle Daten, wie beispielsweise bei einer Videokonferenz, synchron anzuzeigen ist es nun notwendig, dass die Lippenbewegung, welche in dem entsprechenden Videosignal kodiert ist, gleichzeitig mit dem entsprechenden Audiosignal angezeigt beziehungsweise dargestellt wird.
In der 7B ist der zeitliche Verlauf eines Paramters für eine visuelle Energie VPE ebenfalls in beliebigen Einheiten über denselben Zeitraum dargestellt. Ein Maß für die visuelle Energie VPE kann zum Beispiel, wie es in der 7B gezeigt ist, von einem DCT-Koeffizienten der Lippenregion abgeleitet werden. Zum Zeitpunkt T2 lässt sich innerhalb des Visemverlaufs, welches zu dem Plosivlaut "Peh" gehört, in der visuellen Energie VPE beziehungsweise dem Inhalt des entsprechenden Videostroms ein als Synchronisationszeitpunkt VSS verwendetes Merkmal feststellen. Dies kann durch zeitliches Verfolgen der zeitlichen Ableitung des entsprechenden DCT-Koeffizienten geschehen. Ferner kann das Quadrat des entsprechenden Wertes berechnet werden und als ein Maß für visuelle Energie betrachtet werden. Bezüglich einer lokalen Zeit beziehungsweise einem Takt der Empfangseinrichtung lässt sich nun wie in der 7A dargestellt ist, zum Zeitpunkt T1 eine Synchronisati onsstelle im Audiodatenstrom festlegen. Ähnlich kann für den Videodatenstrom wie in der 7B dargestellt ist, zum Zeitpunkt T2 eine entsprechende Synchronisationsstelle VSS festgelegt werden.
Da die beiden Datenströme mit Videoinhalten beziehungsweise Audioinhalten nicht synchronisiert sind, treten die beiden Synchronisationsstellen VSS beziehungsweise ASS zu unterschiedlichen Zeitpunkten auf. Dies ist in der 7C illustriert. Es ergibt sich eine Verzögerung zwischen den Audioinhalten und den Videoinhalten um ΔT = |T1 – T2|. Um diese Differenz müssen die beiden Datenströme miteinander abgeglichen werden. Dies kann zum Beispiel dadurch erfolgen, dass der zeitlich früher einsetzende Synchronisationszeitpunkt T1 für das Audiosignal um ΔT verzögert wird, damit beide Synchronisationsstellen VSS, ASS zum selben Synchronisationszeitpunkt ST bei der Wiedergabe der audiovisuellen, also multimedialen Inhalte übereinstimmen.
Dies ist in der 7D erläutert. Die abweichende Zeitskala t' entspricht dabei der zeitgleichen Wiedergabe aller Datenströme. Die Zeitskala t' kann dabei gegenüber den anderen Zeitskalen T verzerrt oder linear gestreckt sein, da es denkbar ist, dass Audiodatenströme erheblich schneller übertragen werden, als zum Beispiel Videodatenströme. Dies kann in der Bandbreite des Übertragungsmediums oder in der Verarbeitungsgeschwindigkeit für die Dekodierung der entsprechenden Daten begründet sein. In der 7A ist zudem angedeutet, dass in einem Zeitfenster TT, das um ein erkanntes Synchronisationsereignis ASS beziehungsweise einen Synchronisationszeitpunkt T1 liegt, insbesondere die gleichzeitig erfolgende Visemerkennung besonders gründlich oder sensibel eingerichtet wird.
Es ist ferner möglich, dass eine vorgegebene Verzögerungszeit, die natürlich, beispielsweise bei dem Ausspruch eines Phonems "kah" auftritt, berücksichtigt wird. Dabei wird der Mund zunächst zur Aussprache des Vokals "ah" vorbereitet, so dass visuell die entsprechende Lippenbewegung vor dem Luft ausstoß und damit vor dem entsprechenden Audiosignal erfasst werden kann. Es kann zum Beispiel die Einhüllende oder zeitliche Ableitungen des Audiosignals zur Phonemerkennung verwendet werden. Beim Synchronisationsverfahren werden die natürlichen Vorgänge, welche den Audio- und Videoinhalten entnommen werden können, zur Synchronisation der beiden medialen Kanäle verwendet.
Da die entsprechenden Phoneme und Viseme nur sehr kurzzeitig, insbesondere bei den bilabialen Phonemen auftreten, ist eine zuverlässige Synchronisierung möglich. Neben diesen Phonemen können auch weitere Phoneme und Viseme, wie es beispielsweise in der 4 als Tabelle MP dargestellt ist, aufeinander abgebildet werden und verwendet werden. Sofern innerhalb eines vorgebbaren Zeitfensters die über eine entsprechende Tabelle MP verknüpften Viseme und Phoneme erkannt werden, erfolgt vorzugsweise eine Synchronisierung. Es ist auch möglich, dass anhand des Synchronisationsverfahrens entsprechende Synchronisationsmerker in die Datenströme eingefügt werden und diese weiter übertragen werden.
Das vorgenannte Zeitfenster begrenzt dabei die maximale Asynchronizität, welche das entsprechende Synchronisationssystem erkennen und korrigieren kann.
Bei den vorbeschriebenen Anwendungsbeispielen des Synchronisationsverfahrens wurden vollständige Phoneme beziehungsweise Viseme zur Synchronisation verwendet. Es ist jedoch auch denkbar, dass Teile von Phonemen oder Visemen als Synchronisationsstellen verwendet werden. Es ist zum Beispiel denkbar, dass bestimmte Phonemeigenschaften verwendet werden. Neben den vorgenannten Beispielen lassen sich weitere Merkmale der Audio- oder Videoinhalte zur Synchronisierung verwenden. Nur beispielhaft sei zum Beispiel ein Maximum der Ableitung der Energie des Audiosignals genannt. Ebenso kann ein Maximum der ersten Ableitung eines entsprechenden ASM-Koeffizienten verwendet werden.
Die Erfindung hat den besonderen Vorteil, dass keine weiteren Synchronisierungsmerker in den Datenströmen vorgesehen werden müssen. Vielmehr werden die natürlichen bimodalen Ereignisse, welche eine zeitliche Korrelation zwischen Audio- und Videoinformationen darstellen, verwendet. Das Synchronisationsverfahren ist im Besonderen dann besonders zuverlässig, wenn die Lippenbewegungen der Sprecher, von denen das Audiosignal ausgeht, detektierbar und erfassbar sind. Selbstverständlich sind entsprechend der Audio- oder Videoinhalte weitere Synchronisationsstellen denkbar. Beispielsweise bei der Wiedergabe einer Klaviertastatur kann die geordnete Abfolge von Tasten und deren Bedienung visuell erkannt werden und bei der audiovisuellen Wiedergabe den entsprechenden Tönen, die eindeutig im Audiosignal erkannt werden können, zugeordnet werden und somit synchronisiert werden. Selbstverständlich sind weitere, sowohl visuell wie auch per Audio registrierbare Inhalte denkbar.

Claims

Verfahren zum Synchronisieren von medialen Datenströmen (AU, VI), welche jeweils mediale Dateninhalte (A1, A2, V1, V2) einer vorgegebenen Medienklasse umfassen, wobei eine zeitliche Synchronisierung der Datenströme (AU, VI) in Abhängigkeit von den medialen Dateninhalten (A1, A2, V1, V2) erfolgt.
Verfahren nach Anspruch 1, wobei die medialen Dateninhalte (Al, A2, V1, V2) überwacht werden und vorgegebene Dateninhalte (A1, A2, V1, V2) als Synchronisationsstellen (ASS, VSS) in den medialen Datenströmen (AU, VI) erfasst werden.
Verfahren nach Anspruch 1 oder 2, wobei ein jeweiliger Datenstrom (AU, VI) Dateninhalte (A1, A2, V1, V2) genau einer Medienklasse aufweist.
Verfahren nach einem der Ansprüche 1–3, wobei die Medienklasse Audiodaten oder Videodaten umfasst.
Verfahren nach einem der Ansprüche 1–4, wobei verschiedene Datenströme (AU, VI) Dateninhalte (A1, A2, V1, V2) verschiedener Medienklassen aufweisen.
Verfahren nach einem der Ansprüche 1–5, wobei die medialen Datenströme (AU, VI) keine Zeitinformation aufweisen.
Verfahren nach einem der Ansprüche 2–6, wobei erfasste Synchronisationsstellen (ASS, VSS) verschiedener medialer Datenströme (AU, VI) einem gemeinsamen Synchronisationszeitpunkt (ST) zugeordnet werden.
Verfahren nach einem der Ansprüche 2–7, wobei die Überwachung eines zweiten medialen Datenstroms (VI) in Abhängigkeit von einer erfassten Synchronisationsstelle (ASS) eines ersten medialen Datenstroms (AU) erfolgt.
Verfahren nach einem der Ansprüche 2–8, wobei erkannte Synchronisationsstellen (ASS) in einem ersten medialen Datenstrom (AU) mit erkannten Synchronisationsstellen (VSS) in einem zweiten Datenstrom (VI) innerhalb von einem vorgegebenen Zeitfenster (TT) verglichen werden.
Verfahren nach einem der Ansprüche 1–9, wobei erste vorgegebene mediale Datenteilinhalte (A1, A2) einer ersten Medienklasse und zweite vorgegebene mediale Datenteilinhalte (V1, V2) einer zweiten Medienklasse einem Synchronisationsereignis (ST) in einer jeweiligen Synchronisationstabelle (MP) zugeordnet werden.
Verfahren nach einem Anspruch 10, wobei als Datenteilinhalte Phoneme und/oder Viseme verwendet werden.
Verfahren nach einem der Ansprüche 1–11, wobei das Verfahren einen oder mehrere der folgenden Verfahrensschritte umfasst: – Zwischenspeichern eines ersten und mindestens eines zweiten medialen Datenstroms (AU, VI); – Überwachen des ersten und des zweiten medialen Datenstroms (AU, VI); – Erkennen von vorgegebenen Datenteilinhalten in den Datenströmen; – Vergleichen der erkannten Datenteilinhalte verschiedener Datenströme (AU, VI); – Verzögern des ersten oder des zweiten Datenstroms (AU, VI), falls ein erkannter Datenteilinhalt des ersten Datenstroms (AU) und ein erkannter Datenteilinhalt des zweiten Datenstroms (VI) einem gleichen Synchronisationsereignis (ST) entsprechen und zu verschiedenen Zeitpunkten (T1, T2) in den Datenströmen (AU, VI) erkannt werden.
Verfahren nach einem der Ansprüche 2–12, wobei zumindest ein medialer Datenstrom (AU) Audiodaten aufweist und die Audiodateninhalte (A1, A2) zum Erkennen von vorgegebenen Phonemen oder Phonemkombinationen als Synchronisationsstellen (ASS) überwacht werden.
Verfahren nach einem der Ansprüche 2–13, wobei bilabiale Phoneme als Synchronisationsstellen (ASS) erfasst werden.
Verfahren nach einem der Ansprüche 2–14, wobei plosive Phoneme als Synchronisationsstellen (ASS) erfasst werden.
Verfahren nach einem der Ansprüche 13–15, wobei Synchronisationsstellen (ASS) durch kontinuierliches Überwachen einer Audioenergie der Audioinhalte (A1, A2) bestimmt werden.
Verfahren nach einem der Ansprüche 2–16, wobei zumindest ein medialer Datenstrom (VI) Videodaten aufweist und die Videodateninhalte (V1, V2) zum Erkennen von vorgegebenen Visemen oder Visemkombinationen als Synchronisationsstellen (VSS) überwacht werden.
Verfahren nach einem der Ansprüche 2–17, wobei bilabiale Viseme als Synchronisationsstellen (VSS) erfasst werden.
Verfahren nach Anspruch 17 oder 18, wobei Synchronisationsstellen (VSS) durch kontinuierliches Überwachen einer visuellen Energie (VPE) der Videoinhalte bestimmt werden.
Verfahren nach einem der Ansprüche 17–19, wobei zur Visemerkennung in einer Folge von Einzelbildern des Videodatenstroms (VI) Lippenbilder überwacht und erfasst wer den, wobei die erfassten Lippenbilder mit einer Darstellung mit einer vorgegebenen Basis von Lippenmoden (MOP1–MO5) verglichen werden.
Verfahren nach einem der Ansprüche 17–20, wobei zur Visemerkennung in einer Folge von Einzelbildern des Videodatenstroms (VI) Lippenbilder überwacht und erfasst werden, wobei die erfassten Lippenbilder einer diskreten Kosinustransformation unterzogen werden.
Verfahren nach Anspruch 21, wobei anhand eines oder mehrerer Kosinustransformationskoeffizienten (VPE) eine Musterkennung zur Visemerkennung erfolgt.
Verfahren nach einem der Ansprüche 13–22, wobei natürliche Verzögerungen zwischen einem erfassten Phonem und einem erfassten Visem, welche demselben Synchronisationszeitpunkt (ST) zugeordnet werden, bei der Synchronisierung berücksichtigt werden.
Verfahren nach einem der Ansprüche 13–23, wobei zur Phonem- und/oder Visemerkennung ein Hidden-Markov-Modell verwendet wird.
Synchronisationsvorrichtung (2) zur Synchronisation von medialen Datenströmen (AV), welche derart ausgestaltet ist, dass ein Verfahren nach einem der Ansprüche 1–24 ausgeführt wird.
Synchronisationsvorrichtung (2) nach Anspruch 25 mit einer Phonemerkennungseinheit (5), einer Visemerkennungseinheit (6) und einer Synchronisationseinheit (9).
Empfangseinrichtung (1) für multimediale Datenströme mit einer Synchronisationsvorrichtung (2) nach Anspruch 25 oder 26.
Computerprogrammprodukt, welches die Durchführung eines Verfahrens nach einem der Ansprüche 1–24 auf einer programmgesteuerten Rechnereinrichtung veranlasst.