DE102004063553A1 - Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem - Google Patents

Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem Download PDF

Info

Publication number
DE102004063553A1
DE102004063553A1 DE102004063553A DE102004063553A DE102004063553A1 DE 102004063553 A1 DE102004063553 A1 DE 102004063553A1 DE 102004063553 A DE102004063553 A DE 102004063553A DE 102004063553 A DE102004063553 A DE 102004063553A DE 102004063553 A1 DE102004063553 A1 DE 102004063553A1
Authority
DE
Germany
Prior art keywords
terminal
facial image
variation
image
facial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102004063553A
Other languages
English (en)
Inventor
Thomas Riegel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102004063553A priority Critical patent/DE102004063553A1/de
Publication of DE102004063553A1 publication Critical patent/DE102004063553A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72427User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting games or graphical animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Processing Or Creating Images (AREA)
  • Telephone Function (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem, bei dem ein binär codiertes erstes Gesichtsbild auf Grundlage eines zweiten Gesichtsbildes und eines in einer von einem ersten, insbesondere mobilen Endgerät generierten Kurznachricht enthaltenen semantischen Inhalts gemäß einem standardisierten binären Bildformats derart in eine binäre Form codiert wird, dass für eine Ausgabe der Kurznachrichten auf einem zweiten mobilen Endgerät der semantische Inhalt als Sprachausgabe über eine Sprachausgabeeinrichtung des zweiten mobilen Endgerätes erfolgen kann und zumindest Teile des zweiten Gesichtsbildes derart synchron mit der Sprachausgabe variiert werden können, das sich ihre Darstellung auf einem Display des zweiten mobilen Endgerätes zeitgleich mit der Ausgabe eines Teils des semantischen Inhalts ändert, wobei zumindest Teile der für die Variation erforderlichen Daten in die binäre Form des zweiten Gesichtsbildes eingebettet sind. Des Weiteren werden Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes auf Grundlage des semantischen Inhalts ermittelt.

Description

  • Die Erfindung betrifft ein Verfahren zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem, gemäß dem Gattungsbegriff des Anspruchs 1, ein Endgerät zur Durchführung des Verfahrens gemäß dem Gattungsbegriff des Anspruchs 17 sowie ein mobiles Endgerät zur Durchführung des Verfahrens gemäß dem Gattungsbegriff des Anspruchs 18.
  • Die Kommunikation zwischen verschiedenen Individuen hat sich im Laufe der Evolution immer weiter entwickelt. Zu den umfangreichen Möglichkeiten einer vorsprachlichen Kommunikation sind auf der Ebene menschlicher Kommunikation, spezifisch sprachliche Formen hinzugekommen. Damit sind nonverbale Formen jedoch nicht außer Kraft gesetzt, musste aber bei den wichtigen Kommunikationsmitteln wie Schrift und Telephonie entfallen. Inzwischen ist der technische Fortschritt soweit gediehen, dass durch Videotelephonie im Fernsehen es dem Menschen wieder ermöglicht worden ist, die nonverbale Kommunikationskomponente zu nutzen.
  • Dabei gibt es für die Realisierung der nonverbalen Kommunikationskomponenten zum einen pixelbasierte Bilddarstellungsverfahren, aber auch Ansätze die auf zwei- oder dreidimensionale geometrische Modelle basierende Verfahrensweisen nutzen. In der Regel geschieht dies dadurch, dass die geometrischen Modelle mithilfe von Computerprogrammen bildhaft dargestellt werden und mittels bestimmter Programmanweisungen, die normalerweise modellspezifisch ausgestaltet sind, können diese Modelle über die Zeit hinweg verändert, d.h. animiert werden.
  • Nachteilig ist hierbei das ein hohes Maß an Daten anfällt sowie in der Regel auch die Durchführung rechenintensiv, d.h. ressourcenverzehrend wirkt.
  • Insbesondere bei mobilen Kommunikationssystemen sind aber Ressourcen relativ begrenzt vorhanden, sodass diese Art der nonverbalen Kommunikation entweder nicht oder nur unter Inkaufnehmen der höheren Ressourcenbelastung erfolgen kann.
  • Die der Erfindung zugrunde liegende Aufgabe ist es, ein Verfahren, ein Endgerät sowie ein mobiles Endgerät anzugeben, welches eine Darstellung von Kurznachrichten in einem mobilen Kommunikationssystem ermöglicht.
  • Diese Aufgabe wird ausgehend von dem Verfahren gemäß dem Gattungsbegriff des Anspruchs 1 durch dessen Merkmale, ausgehend von dem Endgerät, gemäß dem Gattungsbegriff des Anspruchs 17 und durch dessen kennzeichnende Merkmale sowie ausgehend von dem mobilen Endgerät gemäß dem Gattungsbegriff des Anspruchs 18, durch dessen kennzeichnende Merkmale gelöst.
  • Bei einem erfindungsgemäßen Verfahren zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem, wird ein binär codiertes erstes Gesichtsbild auf Grundlage eines zweiten Gesichtsbildes und eines in einer von einem ersten, insbesondere mobilen Endgerät generierten Kurznachricht enthaltenen semantischen Inhalts gemäß einem standardisierten binären Bildformats derart in eine binäre Form codiert, dass für eine Ausgabe der Kurznachrichten auf einem zweiten mobilen Endgerät der semantische Inhalt als Sprachausgabe über eine Sprachausgabeeinrichtung des zweiten mobilen Endgerätes erfolgen kann und zumindest Teile des zweiten Gesichtsbildes derart synchron mit der Sprachausgabe variiert werden können, das sich ihre Darstellung auf einem Display des zweiten mobilen Endgerätes zeitgleich mit der Ausgabe eines Teils des semantischen Inhalts ändert, wobei zumindest Teile der für die Variation erforder lichen Daten in die binäre Form des zweiten Gesichtsbildes eingebettet sind. Des Weiteren werden Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes auf Grundlage des semantischen Inhalts ermittelt.
  • Durch das erfindungsgemäße Verfahren wird eine Lösung bereitgestellt die es ermöglicht, ressourceschonend eine nonverbale Kommunikationskomponente auch für mobile Kommunikationssysteme bereitzustellen, wobei dies unabhängig davon erfolgt ob Kurznachrichten in textueller Form oder als Sprachdatum vorliegen. Das erfindungsgemäße Verfahren hat auch den Vorteil, dass es dadurch weil es ein standardisiertes binäres Bildformat nutzt und die variationserforderlichen Daten zumindest teilweise in die binäre Form einbettet, es eine Abwärtskompatibilität bietet, d.h, ist ein die Kurznachricht darstellendes zweites mobiles Endgerät nicht in der Lage erfindungsgemäß binär codierte erste Gesichtsbilder animiert darzustellen, wird lediglich das erste Gesichtsbild ohne Variation von Teilen dargestellt, d.h. es wird dem Nutzer des zweiten mobilen Kommunikationsnetzgerätes lediglich das zweite Gesichtsbild dargeboten wobei die Sprache, d.h. die Sprachausgabe parallel zu dem unanimierten zweiten Gesichtsbild erfolgt. Das erfindungsgemäße Verfahren ist daher eine hochgradig flexible Lösung, wobei sich diese Flexibilität auch darin äußert, dass beispielsweise das zweite Gesichtsbild entweder bereits im zweiten mobilen Endgerät fest gespeichert ist, d.h. ein beispielsweise gezeichnetes Bild, welches als Stellvertreter oder sog. Avatar unabhängig davon wer Absender der Kurznachricht ist, verwendet wird oder das zweite Gesichtsbild ist eine im Endgerät gespeicherte gezeichnete Abbildung oder Photographie des betreffenden, die Kurznachricht versendeten Absenders.
  • Vorzugsweise wird dazu das zweite Gesichtsbild in dem ersten Endgerät erzeugt, wobei dies in einem Zeitpunkt vor Versenden der Kurznachricht oder gemeinsam vor einer Übermittlung der Kurznachricht an das zweite mobile Endgerät übermittelt wird und wobei Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes im zweiten mobilen Endgerät ermittelt werden. Diese Variante hat den Vorteil, dass ein eine Kurznachricht versendendes erstes Endgerät lediglich in der Lage sein muss ein Bild zu generieren, welches den Absender identifiziert und dieses an das mobile zweite Endgerät übermittelt. Zudem hat es den Vorteil das ein derartiges Verfahren durchführendes, zweites mobiles Endgerät unabhängig davon, ob das erste Endgerät das Verfahren implementiert hat oder nicht, die nonverbale Kommunikationskomponente zufügen kann, in dem es eintreffende Kurznachrichten dahingehend überprüft, ob ein zweites Gesichtsbild gespeichert vorhanden ist, sodass es selbstständig Animationsparameter zur Variation der Teile des zweiten Gesichtsbild ermittelt. Das zweite Gerät kann also ein zu einem beliebigen früheren Zeitpunkt übertragenes Bild des Absenders verwenden, um später folgende Kurznachrichten des gleichen Absenders mit einer nonverbalen Komponente zu versehen. Diese Weiterbildung hat also den Vorteil, dass es beliebige mobile Endgeräte in die Lage versetzt, nonverbale Komponenten zu erzeugen ohne dass Kurznachrichten absendende Endgeräte irgendeiner Änderung oder Anpassung bedürfen.
  • Alternativ wird das zweite Gesichtsbild im ersten Gerät erzeugt, die Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes, ebenfalls im ersten Endgerät ermittelt und das erste Gesichtsbild auch im ersten Gerät erzeugt worauf anschließend das erste Gesichtsbild gemeinsam und/oder vor einer Übermittlung der Kurznachricht an das zweite mobile Endgerät übermittelt wird. Die Weiterbildung ermöglicht es, mobile Endgeräte von der Notwendigkeit der Bereitstellung zusätzlicher Ressourcen befreit, da das komplette erste Gesichtsbild im absendenden Endgerät vollständig erzeugt worden ist. Bei dieser Weiterbildung kommt auch das Merkmal, dass das erste Gesichtsbild gemäß einem standardisierten binären Bildformat in eine binäre Form gebracht wird besonders vorteilhaft zur Geltung, da hierdurch eine abwärtskompatible Übertragung von animierten Gesichtsbildern inklusive Nachrichten ermöglicht wird. D.h. wenn es sich bei dem empfangenen zweiten mobilen Endgerät um ein Endgerät handelt, welches nicht in der Lage ist animierte Darstellungen zu erkennen bzw. darzustellen, wird lediglich das zweite Gesichtsbild in Verbindung mit Sprache herausgegeben. Ist es jedoch in der Lage das erfindungsgemäße Verfahren durchzuführen, so wird auf Grundlage der in dem ersten Gesichtsbild eingebetteten Daten eine Sprachausgabe in Begleitung von nonverbalen Kommunikationskomponenten ermöglicht.
  • Eine Alternative bzw. Ergänzung besteht auch darin, dass als zweites Gesichtsbild ein drittes Gesichtsbild zugeordnet wird, wobei mindestens ein drittes Gesichtsbild im zweiten Endgerät gespeichert ist. Mit dieser Lösung wird das absendende erste Endgerät von der Stellung von Gesichtsbildern bzw. dem Versand derselben befreit. Da das zweite mobile Endgerät bereits Gesichtsbilder enthält, die beispielsweise selbst durch photographische Verfahren erzeugt oder als gezeichnetes Stellvertreterbild von dritten Quellen, wie beispielsweise dem Internet bezogen worden sind.
  • Vorzugsweise erfolgt dabei die Zuordnung des dritten Gesichtsbildes als zweites Gesichtsbild in Abhängigkeit des Absenders der Kurznachricht, d.h. hierdurch wird ermöglicht, das auch wenn kein individuelles Bild des Absenders vorhanden ist, durch ein individuell zugeordnetes Drittbild der Absender der Kurznachricht dem Nutzer des zweiten mobilen Endgerätes unterscheidbar von anderen Absendern dargestellt wird.
  • Bei einer weiteren Fortbildung des erfindungsgemäßen Verfahrens wird bei Vorliegen des semantischen Inhalts in schriftlicher Form, d.h. wenn es um eine rein textuelle oder überwiegend textuelle Kurznachricht handelt, eine Text-to-Speech-Transformation zur Erzeugung der Sprachausgabe vorgenommen. Hierdurch wird erreicht, dass unabhängig davon in welcher Form die Kurznachricht gesendet wird, die Empfänger dieser Kurznachricht stets eine Sprachausgabe in Verbindung mit nonverbaler Kommunikationskomponente dargeboten und somit eine lebensnahe Darstellung realisiert wird.
  • Dabei ist es ergänzend oder alternativ von Vorteil, wenn eine Ermittlung von Animationsparametern zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes Grundlage der schriftlichen Form durchgeführt wird. Hierdurch wird erreicht, der bekannte Text sowie sie im Transformationsverfahren verwendet werden können.
  • Alternativ hierzu erfolgt die Ermittlung von Animationsparametern zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes anhand des Transformationsergebnisses. Dies ermöglicht die Nutzung von bekannten Phonem zu Visem Transformationsverfahren zur Erzeugung von Gesichtsanimationsparametern.
  • Vorzugsweise erfolgt die Variation der Teile auf Grundlage eines gesichtsmodellierenden Gitters, wobei das Gitter auf Grundlage des zweiten Gesichtsbildes generiert wird. Diese Verfahrensweise hat den Vorteil, eine leicht zu implementierende Möglichkeit darzustellen, die aufgrund von automatischer Dedektion von Gesichtsmerkmalen anhand eines Bildes die wesentlichen für eine Animation wichtigen Punkte ermittelt und somit ein Gesichtsmodell für eine spätere Animation erzeugt.
  • Vorzugsweise wird das Gitter dabei mittels eines Verfahrens zur Lokalisierung von Gesichtsmerkmalen anhand eines Gesichtsbildes erzeugt, wobei vorzugsweise das Gitter als ein Warping-Gitter generiert wird. Dies sind weit verbreitete und leicht zu implementierende Verfahren dabei weist das Gitter nicht notwendigerweise eine feste Topologie auf.
  • Für eine günstige Animation des unter Zuhilfenahme des Gitters ist die Weiterbildung geeignet, bei der der Teil der A nimationsdaten Animationsregeln für Sprache, insbesondere Phoneme, zur Verzerrung des Gitters in Abhängigkeit des semantischen Gitters enthält.
  • Des Weiteren ist vorteilhaft wenn dieser Teil auch Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes enthält, sodass insgesamt im ersten Gesichtsbild soviel wie möglich Daten eingebettet sind und hiermit mit möglichst wenig Schritten die animierte Darstellung ermöglicht wird.
  • Vorzugsweise wird dabei die binäre Form gemäß den „Joint-Photographic-Expert-Groop" (JPEG) Interchange Format, dem „Portable Network Graphics" (PNG) Format oder dem „Paket Image File" Format (PIF) erzeugt. Dies sind standardisiere Bildformate, welche es erlauben Daten im Bild abzuspeichern ohne dieses optisch zu ändern. Dabei können diese Daten vor allem applikationsspezifisch sein, d.h. dem zweiten mobilen Endgerät wird erlaubt, durch dort implementierte Applikationen eine Auswertung dieser Daten vorzunehmen. Zudem haben diese binären Bildformate den Vorteil, dass sie im Falle das derartig eingebettete applikationsspezifische Daten nicht bearbeitet werden, zumindest das Bild selbst genutzt werden kann. Somit wird die Abwärtskompatibilität durch diese Verfahren bzw. Bildformate besonders gestützt.
  • Des Weiteren ist es von Vorteil wenn die Variation für die Variation notwendigen Daten einen gemäß MPEG 4-Standard oder seinen Derivaten gebildeten Datenstrom enthalten. Bei dieser Weiterbildung ist es von Vorteil, dass gemäß dem im MPEG4-Standard dreidimensionale bzw. zweidimensionale Animationsparameter vorgesehen und darstellbar sind.
  • Das Endgerät sowie das Mobilendgerät zeichnen sich dadurch aus, dass sie Mittel zur Durchführung des Verfahrens aufweisen und somit ihr Vorteil in der Bereitstellung des erfindungsgemäßen Verfahrens besteht.
  • Weitere Vorteile sowie Einzelheiten der Erfindung wird anhand der 1a bis 1b erläutert. Dabei enthält
  • 1a einen Systemüberblick mit den einzelnen Verfahrenskomponenten des erfindungsgemäßen eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens sowie
  • 1b schematisch die einzelnen Schritte der Gesichtsmodellgenerierung.
  • In 1a ist schematisch ein Ausführungsbeispiel der Erfindung dargestellt, bei welchem das erste Gesichtsbild GB-vollständig in einem ersten Endgerät auf Grundlage eines zweiten Gesichtsbildes GB erzeugt wird.
  • Dabei erfolgt in einem ersten Schritt S1 die Eingabe einer textuellen oder sprachlichen Eingabe einer Kurznachricht seitens des Nutzers des ersten Endgerätes wobei in einem zweiten Schritt S2 abhängig davon ob es sich um einen Text oder Sprache handelt, eine Sprachsynthese derart erfolg, dass aus dem Text Phoneme gebildet und zu einer Liste gefasst werden, während aus der Sprache lediglich durch Spracherkennung die Phonemliste erzeugt wird.
  • Ausgehend von dieser Phonemliste wird in einem dritten Schritt S3 eine Phonem-zu-Gesichtsanimationsparameter (Facial Animation Parameter, FAP) Wandlung durchgeführt und in einem dritten Schritt S4 einem Gesichtsaktionseditor zugeführt. Dieser erzeugt dann einen MPEG4 konformen Animationsdatenstrom, der in einem fünften Schritt S5 in einem JPEG-codierten Bild eingebettet wird. Des Weiteren wird in diesem Schritt S5 auch ein Gesichtsmodell eingebettet, welches auf Grundlage eines Gitters GT und dem zweiten Gesichtsbild GB erzeugt worden ist.
  • In einem sechsten Schritt S6 wird nun aus dem JPEG-Bild und zu einem audiosignalgewandelten Text bzw. der unmittelbar der Sprache eine Multimedianachricht MMS gebildet und an das zweite Mobilendgerät übertragen.
  • In einem siebten Schritt des S7 wird dieses animierte Gesichtsbild zeitsynchron mit der Ausgabe des Sprachinhaltes ausgegeben, sobald das Endgerät dazu in der Lage ist. Ansonsten erfolgen aufgrund der Abwärtskompatibilität der Erfindung lediglich eine Darstellung des zweiten Gesichtbildes GB und parallel dazu eine Ausgabe der Audionachricht.
  • In 1b ist ferner schematisch die Erzeugung der erfindungsgemäß automatisch anhand eines Bildes erfolgenden Ge-sichtsmodellerzeugung dargestellt.
  • Zur Erkenntnis ist hierbei das zu einem Zeitpunkt 1 eine Bildaufnahme der betreffenden Person, vorzugsweise des Absenders erfolgt.
  • Diese Bildaufnahme wird an einer automatischen Gesichtsmerkmalsdedektion zugeführt. Als Ergebnis dieser Gesichtsmerkmalsdedektion werden Gesichtsmerkmale GM ermittelt und zu einem dritten Zeitpunkt 3 anhand dieser Gesichtsmerkmale GM eine automatische Gesichtsmodellkonstruktion durchgeführt, welche als Ergebnis ein insbesondere Warping-Gitter GT hervorbringt welches durch Verzerrungsparameter synchron zu einer Sprache variiert werden kann und aus dem insgesamt mit dem zweiten Gesichtsbild GB eine entsprechende Gesichtsanimation erfolgt. Die Erfindung hat damit den Vorteil, dass der Nutzer sehr leicht ein geeignetes zweidimensionales Gesichtsmodell erstellen kann.
  • Ferner erlaubt die Erfindung eine lippensynchrone Animation, welche sehr leicht erstellbar ist. Zudem werden übertragene klassische Sprachentexteinrichtungen Textnachrichten auf Mobiltelefonen mit der erfindungsgemäßen Lösung animiert, so dass eine Art Aufwärtskompatibilität gewährleistet ist, die dergestalt ist, dass im Mobiltelefon lediglich ein Bild vorhanden sein muss, sodass erfindungsgemäß automatisch ein dreidimensionales Gesichtmodell hieraus generiert werden kann, welches die klassische Sprach- bzw. Textnachricht mit nonverbalen Kommunikationselementen bereichert oder anreichert. Zudem ist ein transparenter Versand von zweidimensionalen Gesichtsmodellen in Multimediakurznachrichten möglich, d.h. die essentiellen Gesichtsmodellmerkmale sind nun das Bild derart eingebettet, das Mobiltelefone, welche das erfindungsgemäße Verfahren nicht implementieren, diese Bilder einfach ohne Animation darstellen, sodass eine Abwärtskompatibilität gewährleistet ist.

Claims (18)

  1. Verfahren zur Darstellung von, insbesondere multimedialen, Kurznachrichten in einem mobilen Kommunikationssystem, mit folgenden Merkmalen: a) ein binär codiertes erstes Gesichtsbild (GB') wird auf Grundlage eines zweiten Gesichtsbildes (GB) sowie eines in einer von einem ersten, insbesondere mobilen, Endgerät generierten Kurznachricht (S1) enthaltenen semantischen Inhalts (BLABLA) gemäß einem standardisierten binären Bildformat derart in eine binäre Form codiert (S4..S5), dass für eine Ausgabe der Kurznachricht auf einem zweiten mobilen Endgerät (S6..S7) a. der semantische Inhalt als Sprachausgabe über eine Sprachausgabeeinrichtung des zweiten mobilen Endgerätes erfolgen kann und b. zumindest Teile des zweiten Gesichtsbildes derart synchron mit der Sprachausgabe variiert werden können, dass sich Ihre Darstellung auf einem Display des zweiten mobilen Endgerätes zeitgleich mit der Ausgabe eines Teils des semantischen Inhalts ändert, wobei c. zumindest Teile der für die Variation erforderlichen Daten in die binäre Form des zweiten Gesichtsbildes eingebettet sind, b) Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes auf Grundlage des semantischen Inhalts ermittelt werden (S2..S3).
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass a) das zweite Gesichtsbild (GB) im ersten Endgerät erzeugt ((1)) und an das zweite Endgerät gemeinsam und/oder vor einer Übermittlung der Kurznachricht übermittelt wird, b) Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes im zweiten mobilen Endgerät ermittelt werden.
  3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass a) das zweite Gesichtsbild im ersten Endgerät erzeugt wird ((1)), b) Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes im ersten Endgerät ermittelt werden (S2..S3), c) das erste Gesichtsbild im ersten Endgerät erzeugt wird, (S4..S5) d) das erste Gesichtsbild gemeinsam mit einer Übermittlung der Kurznachricht an das zweite mobile Endgerät übermittelt wird.
  4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das als zweites Gesichtsbild ein drittes Gesichtsbild zugeordnet wird, wobei mindestens ein drittes Gesichtsbild im zweiten Endgerät gespeichert ist.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Zuordnung des dritten Gesichtsbildes als zweites Gesichtsbild in Abhängigkeit des Absenders der Kurznachricht erfolgt.
  6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei Vorliegen des semantischen Inhalts in schriftlicher Form, eine Text-to-Speech Transformation zur Erzeugung der Sprachausgabe vorgenommen wird.
  7. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass eine Ermittlung von Animationsparametern zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes auf Grundlage der schriftlichen Form durchgeführt wird.
  8. Verfahren nach dem Anspruch 6, dadurch gekennzeichnet, dass eine Ermittlung von Animationsparametern zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes anhand des Transformationsergebnisses durchgeführt wird (S3).
  9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Variation der Teile auf Grundlage eines eine Gesicht modellierenden Gitters (GT) erfolgt, wobei dass Gitter auf Grundlage des zweiten Gesichtsbildes generiert wird.
  10. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass Gitter (GT) mittels eines Verfahrens zur Lokalisierung von Gesichtsmerkmalen (GM) anhand eines Gesichtsbildes erzeugt wird.
  11. Verfahren nach einem der beiden vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Gitter als ein Warping-Gitter generiert wird.
  12. Verfahren nach einem der Ansprüche 9 bis 11, dadurch gekennzeichnet, dass das Gitter eine feste Topologie aufweist.
  13. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Teil der Animationsdaten, Animationsregeln für Sprache, insbesondere Phoneme, zur Verzerrung des Gitters in Abhängigkeit des semantischen Inhalts, enthält.
  14. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Teil der Animationsdaten, Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes enthält.
  15. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die binäre Form gemäß dem Joint Photographic Expert Group „JPEG" – Interchange Format, dem Portable Network Graphics „PNG" Format oder dem Tagged Image File Format „TIFF" erzeugt wird.
  16. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die Variation notwendigen Daten einen ge mäß dem MPEG4 Standard, oder seinen Derivaten, gebildeten Datenstrom enthalten.
  17. Endgerät gekennzeichnet durch Mittel zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche.
  18. Mobiles Endgerät gekennzeichnet durch Mittel zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 10.
DE102004063553A 2004-12-30 2004-12-30 Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem Ceased DE102004063553A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102004063553A DE102004063553A1 (de) 2004-12-30 2004-12-30 Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004063553A DE102004063553A1 (de) 2004-12-30 2004-12-30 Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem

Publications (1)

Publication Number Publication Date
DE102004063553A1 true DE102004063553A1 (de) 2006-04-13

Family

ID=36088954

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102004063553A Ceased DE102004063553A1 (de) 2004-12-30 2004-12-30 Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem

Country Status (1)

Country Link
DE (1) DE102004063553A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008096099A1 (en) * 2007-02-05 2008-08-14 Amegoworld Ltd A communication network and devices for text to speech and text to facial animation conversion

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010051535A1 (en) * 2000-06-13 2001-12-13 Minolta Co., Ltd. Communication system and communication method using animation and server as well as terminal device used therefor
US20030035412A1 (en) * 2001-07-31 2003-02-20 Xuejun Wang Animated audio messaging
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
EP1443465A1 (de) * 2003-01-31 2004-08-04 NTT DoCoMo, Inc. System zur Übertragung von Gesichtsinformation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
US20010051535A1 (en) * 2000-06-13 2001-12-13 Minolta Co., Ltd. Communication system and communication method using animation and server as well as terminal device used therefor
US20030035412A1 (en) * 2001-07-31 2003-02-20 Xuejun Wang Animated audio messaging
EP1443465A1 (de) * 2003-01-31 2004-08-04 NTT DoCoMo, Inc. System zur Übertragung von Gesichtsinformation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Di Giacomo, T. [u.a.]: Benchmark-Driven Automatic Transmoding of 3D to 2D Talking Heads. In: Work- shop on Modelling and Motion Capture Techniques for Virtual Environments, CAPTECH 2004, 10. u. 11. Dezember 2004 *
Pandzic, I.S. [u.a.]: Faces Everywhere: Towards Ubiquitous Production and Delivery of Face Ani- mation. In: Proceedings of the 2nd International Conference on Mobile and Ubiquitous Multimedia, ACM, 2003, S. 49-55 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008096099A1 (en) * 2007-02-05 2008-08-14 Amegoworld Ltd A communication network and devices for text to speech and text to facial animation conversion
GB2459073A (en) * 2007-02-05 2009-10-14 Amegoworld Ltd A communication network and devices for text to speech and text to facial animation conversion
GB2459073B (en) * 2007-02-05 2011-10-12 Amegoworld Ltd A communication network and devices
AU2007346312B2 (en) * 2007-02-05 2012-04-26 Amegoworld Ltd A communication network and devices for text to speech and text to facial animation conversion
RU2488232C2 (ru) * 2007-02-05 2013-07-20 Амеговорлд Лтд Сеть связи и устройства для преобразования текста в речь и текста в анимацию лица

Similar Documents

Publication Publication Date Title
DE60105995T2 (de) Animation von personen
DE102019001775B4 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
DE60223131T2 (de) Verfahren und vorrichtung zum codieren und decodieren von pauseninformationen
DE602005004983T2 (de) Verfahren zum Darstellen von Multimediaanzeigen
Licoppe et al. Interpreting, video communication and the sequential reshaping of institutional talk in the bilingual and distributed courtroom.
JP2008500573A (ja) メッセージを変更するための方法及びシステム
CN105786880A (zh) 语音识别的方法、客户端及终端设备
DE112017006746T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
DE10117367B4 (de) Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten
CN116229977A (zh) 基于虚拟数字人实现智能化实时交互问答的系统及其处理方法
EP1670165B1 (de) Verfahren und modellbasiertes Audio-und Videosystem zur Darstellung einer virtuellen Figur
CN116524791A (zh) 一种基于元宇宙的唇语学习辅助训练系统及其应用
WO2022013045A1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
DE60125674T2 (de) Informationsanzeige
DE102004063553A1 (de) Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem
DE60221636T2 (de) Verfahren und vorrichtung zur verwaltung von interaktionen im standard mpeg-4
DE102012213914A1 (de) Verfahren und System zum Bereitstellen einer Übersetzung eines Sprachinhalts aus einem ersten Audiosignal
DE10056762B4 (de) Verfahren zum Erstellen elektronischer Nachrichten
DE10147902A1 (de) Kommunikationssystem und mobiles Kommunikationsendgert für den Einsatz in einem solchen Kommunikati onssystem
CN116628153B (zh) 一种人工智能设备对话的控制方法、装置、设备及介质
Satriyo Multimodality and the construction of fear in Tatsuki Fujimoto's Chainsaw Man
DE102016002496A1 (de) Verfahren und System zum Wiedergeben einer Textnachricht
DE10334105A1 (de) Verfahren zur Generierung von Gesichts-Animationsparametern zur Darstellung gesprochener Sprache mittels graphischer Computermodelle
EP4187855A1 (de) Computer-implementiertes videokonferenz-verfahren
WO2023012116A1 (de) Sprachsignalbearbeitungsvorrichtung, sprachsignalwiedergabesystem und verfahren zum ausgeben eines entemotionalisierten sprachsignals

Legal Events

Date Code Title Description
OAV Applicant agreed to the publication of the unexamined application as to paragraph 31 lit. 2 z1
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection