-
Diese
Erfindung betrifft das Management der Multimedia-Interaktionen, die von einem oder mehreren Benutzern
ausgehend von Multimedia-Terminals durchgeführt werden. Die Interaktionen
können
sowohl Texte, als auch Sprache oder Gesten sein. Die Interaktionen
werden ausgehend von jeder beliebigen herkömmlichen Eingangsvorrichtung
erfaßt,
wie zum Beispiel Maus, Joystick, Tastatur oder einer nicht herkömmlichen,
wie zum Beispiel Erkennungssysteme und Systeme für die Sprachsynthese oder Steuerschnittstellen
durch den Blick und/oder die Geste. Diese Multimedia-Interaktionen werden
im Zusammenhang mit dem internationalen MPEG-4-Standard verarbeitet.
-
Kontext der Erfindung
-
Im
MPEG-4-Standard (ISO/EIC 14496) wird ein Kommunikationssystem für audiovisuelle
interaktive Szenen spezifiziert. Nach diesem Standard haben die
Benutzer die Möglichkeit
zur Interaktion mit der Multimedia-Szene. Diese Benutzer-Interaktionen
können örtlich kundenseitig verarbeitet
werden oder zwecks Verarbeitung wieder an den Server übertragen
werden.
-
Im
ISO/EIC 14496-1 (MPEG-4 Systems) Standard wird das binäre Format
der Szenendeskription (BIFS: Binary Format for Scene) definiert,
das die Organisation der audiovisuellen Objekte in einer Szene betrifft.
Die Verhaltensweisen der Objekte und ihre Antworten auf die von
den Benutzern durchgeführten
Interaktionen können
im BIFS-Format vermittels von Quellen und Zielen (Routen) von Ereignissen
dargestellt werden, sowie mit Hilfe von Aufnehmern (spezielle Knoten,
die Ereignisse auslösen
können).
Die kundenseitigen Interaktionen bestehen aus der Änderung
der Attribute der Objekte der Szene gemäß den von den Benutzern spezifizierten
Aktionen. Jedoch definiert MPEG-4 Systems keine besondere Benutzerschnittstelle
oder einen Mechanismus, der die Interaktion des Benutzers den BIFS
Ereignissen zuordnet.
-
BIFS
Command ist die Untergruppe der BIFS Deskription, mit der Eigenschaften
des Graphs der Szene, seiner Knoten oder seiner Verhaltensweisen
geändert
werden können.
BIFS Command wird also für
die Änderung
einer Reihe Eigenschaften der Szene zu einem gegebenen Zeitpunkt
verwendet. Die Befehle sind in CommandFrames gruppiert, damit mehrere
Befehle in eine einzige Zugriffseinheit (Access Unit) geschickt werden
können.
Nachstehend die vier Basisbefehle: Ersatz einer ganzen Szene, und
Einfügung,
Löschen
oder Ersatz der Knotenstrukturen, Eingang von Ereignissen (eventin),
exposedField, indexierter Wert in einem MFField oder einer Route).
Die Identifizierung eines Knotens in der Szene wird von einer nodeID
geliefert. Die Identifizierung der Felder eines Knotens wird von
INid des Feldes geliefert.
-
BIFS-Anim
ist die Untergruppe der BIFS Beschreibung, die die kontinuierliche
Aktualisierung gewisser Knotenfelder im Graph der Szene betrifft.
BIFS-Anim wird zum Einbinden verschiedener Animationsarten benutzt,
einschließlich
der Animation von Gesichtsmodellen, Modellen des menschlichen Körpers, Vernetzung, sowie
diverser Arten von Attributen, wie zum Beispiel zweidimensionale
und dreidimensionale Positionen, Drehungen, Skalenfaktoren oder
kolorimetrische Information. BIFS-Anim spezifiziert einen Strom
sowie die Verfahren zum Codieren und Decodieren zur Animation gewisser
Knoten der Szene, die besondere dynamische Felder umfassen. Der
Hauptnachteil von BIFS-Anim im Rahmen dieser Erfindung ist folgender:
In BIFS-Anim wird nicht spezifiziert, wie alle Felder aller Knoten
einer Szene zu animieren sind, die aktualisiert werden können. Außerdem verwendet
BIFS-Anim eine Animationsmaske, die Teil der Informationen zur Konfiguration
des Decodierers ist. Die Animationsmaske kann nicht durch eine direkte
Interaktion eines Benutzers geändert
werden. Folglich ist BIFS-Anim nicht für die Interaktion des Benutzers
geeignet, die hohe Flexibilität
und die Möglichkeit
notwendig macht, die Knoten der zu ändernden Szene sich dynamisch
entwickeln zu lassen.
-
MPEG-J
ist ein Programmierungssystem, in dem Schnittstellen spezifiziert
sind, um das Zusammenwirken eines MPEG-4 Mediasenders mit JAVA Code
zu garantieren. Der JAVA Code kommt am MPEG-4 Terminal in Form eines
getrennten grundlegenden Stroms an. Er wird dann zum Umfeld der
Ausführung
MPEG-J geleitet, das eine virtuelle Java-Maschine umfaßt, von
der aus das MPEG-J Programm Zugriff auf die einzelnen Komponenten
des MPEG-4 Mediasenders haben wird. Die Programmierschnittstelle
SceneGraph liefert einen Mechanismus, mit dem die MPEG-J Anwendungen
auf die Szene zugreifen, die für
die Komposition durch den BIFS Mediasender benutzt wird, und sie
handhaben. Es handelt sich dabei um eine Schnittstelle niedrigen
Niveaus, die der MPEG-J
Anwendung erlaubt, die Ereignisse der Szene zu kontrollieren und
die Verzweigung der Szene durch Programm zu ändern. Es können auch Knoten angelegt und
gehandhabt werden, aber die MPEG-J Anwendung kann nur auf die Felder
der Knoten zugreifen, für
die eine Identifizierung des Knotens definiert worden ist. Außerdem erfordert
ein Einsatz von MPEG-J Quellen, die für viele Anwendungen zu groß sind,
und insbesondere, wenn es um tragbare kleine Vorrichtungen und Decodierer
geht. MPEG-J ist somit nicht für
die Definition von Interaktionsverfahren des Benutzers geeignet,
die auf den Terminals mit begrenzten Kapazitäten verfügbar sind.
-
Bei
der Auswertung des oben beschriebenen technischen Stands werden
die wichtigsten Verfahren kurz beschrieben und untersucht, die zum
Management der Interaktionen von Multimedia-Anwendern benutzt werden
könnten.
Dann muß durch
Aspekte bezüglich
der aktuellen Architekturen des Managements von Interaktionen ergänzt werden.
Bisher gibt es nur zwei Arten, um die Interaktion anzugehen. Zunächst ist
im MPEG-4 Rahmen und nur bei Interaktionen von der Art Zeiger die
Kompositionsvorrichtung damit beauftragt, die Ereignisse zu transcodieren,
die von Benutzern bei der Aktion der Änderung der Szene herkommen.
Zweitens, und außerhalb
des MPEG-4 Kontextes müssen
alle anderen Interaktionen außer
denjenigen von der Art Zeiger in einer spezifischen Anwendung eingesetzt
werden. Folglich ist das Zusammenwirken verloren. Die beiden vorher
beschriebenen Optionen sind zu begrenzt, um das Konzept der Interaktivität zwischen
mehreren Benutzern in seiner Allgemeinheit und seiner Überordnung
zu erfassen, das zu dem wird, was bei Kommunikationssystemen hauptsächlich auf
dem Spiel steht.
-
In
diesem Dokument werden übergeordnete
Verfahren und ein System für
das Management der Multimedia-Interaktionen vorgeschlagen, die von
einem oder mehreren Benutzern ausgehend von einem Multimedia-Terminal
durchgeführt
werden. Das vorgeschlagene System ist eine Erweiterung der Spezifikationen
des Teils „MPEG-4
Systeme". Darin
wird spezifiziert, wie die Interaktionen eines oder mehrerer Benutzer
mit den BIFS Ereignissen verbunden werden können, indem die Architektur
der MPEG-4 Systeme wiederverwendet wird. Das mit der Erfindung verbundene
System ist übergeordnet,
denn mit ihm können
alle Arten von Interaktionen mit einem oder mehreren Benutzern verarbeitet
werden, und zwar ab Eingangsvorrichtungen, die sowohl einfach sein
können
(Maus, Tastaturen), als auch komplex (bei denen 6 Freiheitsgrade
berücksichtigt werden
müssen,
oder bei denen Spracherkennungssysteme eingesetzt werden). Dieses
System ist durch die einfache Wiederbenutzung von vorhandenen Werkzeugen
in allen Situationen benutzbar, einschließlich in denjenigen, die nur
einen sehr geringen Komplexheitsgrad stützen können.
-
Im
derzeitigen Stand der Technik ist das Patent
WO0000898 bekannt. Es betrifft eine
Interaktion zwischen mehreren Benutzern für eine Multimedia-Kommunikation,
die darin besteht, eine Meldung auf einem örtlichen Computer des Benutzers
zu generieren, wobei die Meldung objektorientierte Mediadaten enthält (zum Beispiel
ein Fluß digitaler
Audiodaten oder ein Fluß digitaler
Videodaten oder beide), und die Meldung an einen Computer eines
entfernten Benutzers zu übertragen.
Der Computer des örtlichen
Benutzers zeigt eine Szene an, die objektorientierte Mediadaten
umfaßt,
und die zwischen dem Computer des örtlichen Benutzers und dem
Computer eines entfernten Benutzers geteilt ist. Letzterer konstruiert
die Meldung mit Hilfe einer Art Meldungs-Manager. Die Interaktion zwischen mehreren
Benutzern für
die Multimedia-Kommunikation ist eine Erweiterung der Version 1
MPEG-4.
-
Ein
anderes Patent PCT
WO9939272 betrifft
ein auf MPEG-4 beruhendes System für interaktive Kommunikation,
in dem Befehls-Deskriptoren mit Knoten zur Weiterleitung von Befehlen
oder Wege zur Weiterleitung eines Servers in der Beschreibung der
Szene benutzt werden, um eine Unterstützung der spezifischen Interaktivität für die Anwendung
beizutragen. Man kann bei der Wahl des Inhalts helfen, indem die
Präsentation in
den Befehlsparametern angegeben wird, wobei der Befehlserkenner
angibt, daß der
Befehl ein Befehl für die
Wahl des Inhalts ist. Es kann eine ursprüngliche Szene angelegt werden,
die mehrere Bilder und einen Text enthält, in dem eine zu einem Bild
zugeordnete Präsentation
beschrieben wird. Jedem Bild und dem entsprechenden Text ist ein
Deskriptor für
die Wahl des Inhalts zugeordnet. Wenn der Benutzer auf ein Bild
klickt, überträgt er den
Befehl, der die gewählte
Präsentation
enthält,
und der Server löst
eine neue Präsentation
aus. Diese Technik kann in jedem Anwendungskontext angewendet werden,
ebenso, wie HTTP und CGI benutzt werden können, um jegliche auf einen
Server gestützte
Funktionalität
der Anwendung einzusetzen.
-
Im
Rahmen des neuen Ansatzes, der für
die Multimedia-Interaktion
mit einem oder mehreren Benutzern vorgeschlagen wird, werden die
von einer beliebigen Eingangsvorrichtung generierten Interaktionsdaten als
grundlegende MPEG-4 Flüsse
betrachtet. Daraus ergibt sich, daß Vorgänge, die denen ähnlich sind,
die bei jedem beliebigen grundlegenden Datenfluß angewendet werden, dann eingesetzt
werden können,
indem direkt die standardmäßige Decodierkette
benutzt wird.
-
Folglich
schlägt
diese Erfindung vor, ein gleichartiges Modell wie das in MPEG-4
ausgestellte Modell zu benutzen, um die Interaktionsdaten zu behandeln.
-
Folglich
betrifft diese Erfindung in ihrer allgemeinsten Annahme ein Verfahren
für das
Management von Interaktionen zwischen peripheren Steuergeräten und
Multimedia-Anwendungen mit Nutzung des MPEG-4 Standards, wobei die
besagten peripheren Steuergeräte
digitale Signale je nach Aktionen eines oder mehrerer Benutzer abgeben,
und dieses Verfahren ist dadurch gekennzeichnet, daß es einen
Schritt mit Bildung einer digitalen Folge umfaßt, die die Form eines BIFS(Binary
Format for Szene im Sinne des MPEG-4 Standards)-Knotens aufweist, wobei dieser Knoten
ein oder mehrere Felder umfaßt,
die den Typ und die Anzahl der auf die Objekte der Szene anzuwendenden
Interaktionsdaten festlegt.
-
Bei
einem bevorzugten Ausführungsverfahren
umfaßt
dieser Knoten ein Merkzeichen, dessen Zustand erlaubt oder untersagt,
daß eine
Interaktion von der Szene berücksichtigt
wird.
-
Bei
einer Variante umfaßt
der besagte Knoten einen Schritt zur Signalisierung der Aktivität der zugeordneten
Vorrichtung.
-
Vorteilhafterweise
umfaßt
das Verfahren einen Schritt mit Bezeichnung der Art der Tätigkeit
oder der Tätigkeiten,
die an einem oder mehreren Objekten der Szene über das Feld oder die Felder
des Knotens ausgeführt
werden sollen.
-
Bei
einem bevorzugten Ausführungsverfahren
umfaßt
das Verfahren einen Schritt mit Bildung, ausgehend vom oder von
den Feld(ern) des Knotens, einer anderen digitalen Folge, die mindestens
aus einer auf die Szene auszuübenden
Tätigkeit
und mindestens aus einem Parameter der besagten Tätigkeit
zusammengesetzt ist, deren Wert einer vom besagten Peripheriegerät abgegebenen
Variablen entspricht.
-
Bei
einem bevorzugten Ausführungsverfahren
umfaßt
das Verfahren einen Schritt mit Transfer der besagten digitalen
Folge in den Kompositionsspeicher.
-
Bei
einem bevorzugten Ausführungsverfahren
wird für
den Transfer der besagten digitalen Folge die Decodierkette der
MPEG-4 Systeme für
die Einführung
der Interaktionsinformationen in die Kompositionsvorrichtung benutzt.
-
Bei
einem besonderen Ausführungsverfahren
wird der Schritt mit Transfer der Folge unter der Kontrolle eines
Flusses durchgeführt,
der mindestens einen Fluß-Deskriptor
hat, der selbst die Informationen transportiert, die für die Konfiguration
der Decodierkette mit dem geeigneten Decodierer notwendig sind.
-
Bei
einer Variante wird der Schritt mit Bildung der besagten Folge in
einem Decodierer ausgeführt,
der mit der gleichen Schnittstelle zur Kompositionsvorrichtung versehen
ist, wie ein üblicher
BIFS Decodierer, um die decodierten BIFS Commands in der Szene auszuführen, ohne über einen
Kompositionspuffer zu gehen.
-
Bei
einer Variante umfaßt
der BIFS Knoten, der den ersten Schritt mit Bildung ausführt, eine
variable Anzahl Felder je nach der Art des benutzten peripheren
Steuergeräts,
wobei die besagten Felder mit den Feldern der von Routen zu ändernden
Knoten verbunden sind. Der Decodierer der Interaktion transferiert
dann die vom Peripheriegerät
erzeugten Werte in die Felder dieses BIFS Knotens, wobei es der
Mechanismus der Routen übernimmt,
diese Werte an die Zielfelder weiterzugeben.
-
Bei
einem besonderen Ausführungsverfahren
geht der Fluß der
Interaktionsdaten mit einem oder mehreren Benutzern über einen
DMIF-client, der der Vorrichtung zugeordnet ist, die die Zugriffseinheiten
generiert, die im Decodier-Pufferspeicher
anzuordnen sind, der mit dem entsprechenden Decodierer verbunden ist.
-
Bei
einem spezifischen Beispiel tritt der Interaktionsfluß mit einem
oder mehreren Benutzern in den entsprechenden Decodierer ein, und
zwar entweder direkt oder durch den zugeordneten und verkürzt somit den
Weg des Flusses der Interaktionen des Benutzers.
-
Die
Erfindung betrifft auch eine EDV-Ausrüstung, die einen Rechner für die Ausführung einer
Multimedia-Anwendung mit Nutzung des MPEG-4 Standards und mindestens
ein Peripheriegerät
für die
Darstellung einer Multimediaszene, sowie mindestens ein Peripheriegerät für die Steuerung
des Programms umfaßt,
wobei das besagte Programm dadurch gekennzeichnet ist, daß es außerdem eine
Schnittstellenleitung aufweist, die einen Eingang zum Empfangen
der Signale eines Steuermittels und einen Ausgang für die Abgabe
einer Folge vom Typ BIFS und ein Mittel zur Bildung einer Ausgangsfolge
in Abhängigkeit
von den Signalen enthält, die
vom Eingangsperipheriegerät
gemäß oben angesprochenem
Verfahren geliefert werden.
-
Die
Erfindung wird beim Lesen der nachfolgenden Beschreibung eines nicht
beschränkenden
Realisationsbeispiels besser verstanden werden, die auf die Zeichnungen
im Anhang verweist:
-
Die 1 stellt
ein Organisationsschema des Modells des Decodierers des Systems
dar;
-
Die 2 stellt
den Fluß der
Interaktionsdaten des Benutzers dar.
-
Die 1 beschreibt
das Standardmodell. Die 2 beschreibt das Modell, in
dem zwei Hauptkonzepte erscheinen: Der Interaktionscodierer, der
Kompositionseinheiten (CU) erzeugt, und der Interaktionsfluß des Benutzers.
Die Daten können
entweder vom in einer Zugriffseinheit (AU) angeordneten Decodier-Pufferspeicher
herkommen, wenn der Zugriff zum Manager der Eingangsvorrichtung
vermittels des DMIF (Delivery Multimedia Integration Framework)
des MPEG-4 Standards erfolgt, oder er kann direkt von der Eingangsvorrichtung
zum Decodierer selbst gehen, wenn der Einsatz dergestalt ist, daß der Decodierer
und der Manager der Eingangsvorrichtung in der gleichen Komponente
angeordnet sind. Im letzteren Fall ist der Decodier-Pufferspeicher nicht
nützlich.
-
Für das Management
der Benutzerinteraktion sind folgende Elemente notwendig:
- – Eine
neue Art Fluß,
die die Daten der Benutzerinteraktion (UI) berücksichtigt;
- – Ein
neuer einziger BIFS Knoten zum Spezifizieren der Verbindung zwischen
dem Fluß der
Benutzerinteraktionen und den Elementen der Szene, und auch zum
Zulassen oder Untersagen dieser Interaktion;
- – Ein
neuer Typ eines Decodierers zum Interpretieren der von der Eingangsvorrichtung
oder vielleicht vom Decodier-Pufferspeicher
herkommenden Daten und zur Umwandlung in Szenenänderungen. Diese Änderungen
haben das gleiche Format wie die BIFS Commands. Anders gesagt, der
Ausgang des Interaktions-Decodierers ist genau gleichwertig mit
dem Ausgang eines BIFS Decodierers.
-
Hier
wird die neue Art eines Flusses definiert, der Fluß der Benutzerinteraktion
(Fluß UI,
siehe Tabelle 1) genannt wird.
-
Er
besteht aus Zugriffseinheiten (AU), die von einer Eingangsvorrichtung
herkommen (zum Beispiel eine Maus, eine Tastatur, ein Handschuh
mit Instrumenten, ...). Die Syntax einer Zugriffseinheit wird hier
nicht näher
definiert, um möglichst
allgemein zu bleiben. Ohne darauf beschränkt zu sein, könnte sie
identisch mit einer anderen Zugriffseinheit sein, die von einem
anderen grundlegenden Fluß herkommt,
wenn der Zugriff durch DMIF erfolgt. Die hier spezifizierte Art
eines Flusses umfaßt
auch den Fall einer örtlichen
Vorrichtung zum Anlegen von Media, die als Interaktionsvorrichtung
benutzt wird. Somit wird eine örtliche
Vorrichtung, die eine beliebige Art eines Objekts erzeugt, das von
der Angabe des Objekttyps (Objekt Type Indication) von MPEG-4 definiert
wird, wie zum Beispiel ein visuelles oder audio-Objekt, von dieser
Verbesserung des Modells gemanagt.
-
Nachstehend
die Syntax des neuen BIFS Knotens, der InputSensor genannt wird:
InputSensor
{ | | | |
ExposedField | SFBool | Enabled | TRUE |
ExposedField | SFCommandBuffer | InteractionBuffer | [] |
Field | SFUrl | url | " " |
EventOut | SFBool | IsActive | |
} | | | |
-
Mit
dem Feld „enabled" kann kontrolliert
werden, ob der Benutzer die Interaktion zulassen will oder nicht,
die von den Flüssen
der Benutzerinteraktion herkommt, die im Feld „url" angegeben sind. Letzteres spezifiziert
den zu benutzenden grundlegenden Fluß, wie auf der Plattform der
Objektbeschreibung des MPEG-4 Standards beschrieben wird.
-
Das
Feld „InteractionBuffer" ist ein SCFCommandBuffer,
der beschreibt, was der Decodierer mit dem in „url" spezifizierten Interaktionsfluß tun muß. Die Syntax
ist nicht obligatorisch, hier wird aber anhand de folgenden Beispiels
die Semantik des Pufferspeichers beschrieben:
InputSensor
{ | |
enabled | TRUE |
interactionBuffer | [„ERSETZEN
N1.Größe", „ERSETZEN
N2.Größe", „ERSETZEN
N3.Größe"] |
url | "4" |
} | |
-
Dieser
Aufnehmer erfaßt
mindestens drei Parameter, die von der Eingangsvorrichtung herkommen, die
mit dem Objekt-Deskriptor
4 verbunden ist, und ersetzt das Feld „size" der Knoten N1, N2 und N3 durch die
erhaltenen Parameter.
-
Die
Aufgabe des Decodierers der Benutzerinteraktion besteht darin, die
erhaltenen Zugriffseinheiten umzuwandeln, die entweder vom Decodier-Pufferspeicher
herkommen oder direkt von der Eingangsvorrichtung. Er wandelt sie
in Kompositionseinheiten (CU) um und ordnet sie im Kompositionsspeicher
(CM) an, wie im MPEG-4 Standard spezifiziert ist. Die Kompositionseinheiten,
die vom Decodierer des Flusses der Benutzerinteraktionen generiert
werden, sind BIFS-Updates, und spezifischer die Befehle REMPLACER
(Ersetzen) wie von MPEG-4 Systems spezifiziert ist. Die Syntax ist
streng identisch mit der im MPEG-4 Standard definierten und vom
Pufferspeicher der Interaktion abgeleiteten.
-
Wenn
zum Beispiel die Eingangsvorrichtung die ganze Zahl 3 generiert
hat, und wenn der Pufferspeicher der Interaktion „ERSETZEN
N1.Größe" enthält, wird
die Kompositionseinheit der decodierte BIFS-Update sein und gleichwertig
mit „ERSETZEN
N1.Größe mal 3" sein.
-
Eine
der erwähnten
Varianten besteht darin, das Feld InteractionBuffer des Knotens
InputSensor durch eine variable Anzahl Felder zu ersetzen, in Abhängigkeit
von der Art des benutzten peripheren Steuergeräts, von der Art EventOut. Die
Rolle des Decodierers der Benutzerinteraktion besteht dann darin,
die Werte dieser Felder zu ändern,
und es liegt dann am Urheber der Multimedia-Präsentation, Routen anzulegen,
die die Felder des Knotens InputSensor mit den Zielfeldern im Szenenbaum
zu ersetzen.
-
In der Beschreibung angeführte Referenzen
-
Diese
Liste mit den vom Antragsteller angeführten Referenzen ist nur als
Hilfe für
den Leser gedacht und ist kein Bestandteil des Dokuments zum europäischen Patent.
Sie wurde zwar mit der größten Sorgfalt konzipiert,
jedoch können
Fehler oder Auslassungen nicht ausgeschlossen werden, und das OEB
lehnt jegliche Haftung hierfür
ab.
-
In
der Beschreibung angeführte
Patentdokumente
- • WO 0000898 A
- • WO 9939272 A