DE102004063553A1 - Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem - Google Patents
Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem Download PDFInfo
- Publication number
- DE102004063553A1 DE102004063553A1 DE102004063553A DE102004063553A DE102004063553A1 DE 102004063553 A1 DE102004063553 A1 DE 102004063553A1 DE 102004063553 A DE102004063553 A DE 102004063553A DE 102004063553 A DE102004063553 A DE 102004063553A DE 102004063553 A1 DE102004063553 A1 DE 102004063553A1
- Authority
- DE
- Germany
- Prior art keywords
- terminal
- facial image
- variation
- image
- facial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 230000001815 facial effect Effects 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000010295 mobile communication Methods 0.000 title claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000004807 localization Effects 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 239000007787 solid Substances 0.000 claims 1
- 238000004891 communication Methods 0.000 description 12
- 230000008901 benefit Effects 0.000 description 10
- 230000001755 vocal effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72427—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting games or graphical animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/414—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
- H04N21/41407—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Processing Or Creating Images (AREA)
- Telephone Function (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem, bei dem ein binär codiertes erstes Gesichtsbild auf Grundlage eines zweiten Gesichtsbildes und eines in einer von einem ersten, insbesondere mobilen Endgerät generierten Kurznachricht enthaltenen semantischen Inhalts gemäß einem standardisierten binären Bildformats derart in eine binäre Form codiert wird, dass für eine Ausgabe der Kurznachrichten auf einem zweiten mobilen Endgerät der semantische Inhalt als Sprachausgabe über eine Sprachausgabeeinrichtung des zweiten mobilen Endgerätes erfolgen kann und zumindest Teile des zweiten Gesichtsbildes derart synchron mit der Sprachausgabe variiert werden können, das sich ihre Darstellung auf einem Display des zweiten mobilen Endgerätes zeitgleich mit der Ausgabe eines Teils des semantischen Inhalts ändert, wobei zumindest Teile der für die Variation erforderlichen Daten in die binäre Form des zweiten Gesichtsbildes eingebettet sind. Des Weiteren werden Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes auf Grundlage des semantischen Inhalts ermittelt.
Description
- Die Erfindung betrifft ein Verfahren zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem, gemäß dem Gattungsbegriff des Anspruchs 1, ein Endgerät zur Durchführung des Verfahrens gemäß dem Gattungsbegriff des Anspruchs 17 sowie ein mobiles Endgerät zur Durchführung des Verfahrens gemäß dem Gattungsbegriff des Anspruchs 18.
- Die Kommunikation zwischen verschiedenen Individuen hat sich im Laufe der Evolution immer weiter entwickelt. Zu den umfangreichen Möglichkeiten einer vorsprachlichen Kommunikation sind auf der Ebene menschlicher Kommunikation, spezifisch sprachliche Formen hinzugekommen. Damit sind nonverbale Formen jedoch nicht außer Kraft gesetzt, musste aber bei den wichtigen Kommunikationsmitteln wie Schrift und Telephonie entfallen. Inzwischen ist der technische Fortschritt soweit gediehen, dass durch Videotelephonie im Fernsehen es dem Menschen wieder ermöglicht worden ist, die nonverbale Kommunikationskomponente zu nutzen.
- Dabei gibt es für die Realisierung der nonverbalen Kommunikationskomponenten zum einen pixelbasierte Bilddarstellungsverfahren, aber auch Ansätze die auf zwei- oder dreidimensionale geometrische Modelle basierende Verfahrensweisen nutzen. In der Regel geschieht dies dadurch, dass die geometrischen Modelle mithilfe von Computerprogrammen bildhaft dargestellt werden und mittels bestimmter Programmanweisungen, die normalerweise modellspezifisch ausgestaltet sind, können diese Modelle über die Zeit hinweg verändert, d.h. animiert werden.
- Nachteilig ist hierbei das ein hohes Maß an Daten anfällt sowie in der Regel auch die Durchführung rechenintensiv, d.h. ressourcenverzehrend wirkt.
- Insbesondere bei mobilen Kommunikationssystemen sind aber Ressourcen relativ begrenzt vorhanden, sodass diese Art der nonverbalen Kommunikation entweder nicht oder nur unter Inkaufnehmen der höheren Ressourcenbelastung erfolgen kann.
- Die der Erfindung zugrunde liegende Aufgabe ist es, ein Verfahren, ein Endgerät sowie ein mobiles Endgerät anzugeben, welches eine Darstellung von Kurznachrichten in einem mobilen Kommunikationssystem ermöglicht.
- Diese Aufgabe wird ausgehend von dem Verfahren gemäß dem Gattungsbegriff des Anspruchs 1 durch dessen Merkmale, ausgehend von dem Endgerät, gemäß dem Gattungsbegriff des Anspruchs 17 und durch dessen kennzeichnende Merkmale sowie ausgehend von dem mobilen Endgerät gemäß dem Gattungsbegriff des Anspruchs 18, durch dessen kennzeichnende Merkmale gelöst.
- Bei einem erfindungsgemäßen Verfahren zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem, wird ein binär codiertes erstes Gesichtsbild auf Grundlage eines zweiten Gesichtsbildes und eines in einer von einem ersten, insbesondere mobilen Endgerät generierten Kurznachricht enthaltenen semantischen Inhalts gemäß einem standardisierten binären Bildformats derart in eine binäre Form codiert, dass für eine Ausgabe der Kurznachrichten auf einem zweiten mobilen Endgerät der semantische Inhalt als Sprachausgabe über eine Sprachausgabeeinrichtung des zweiten mobilen Endgerätes erfolgen kann und zumindest Teile des zweiten Gesichtsbildes derart synchron mit der Sprachausgabe variiert werden können, das sich ihre Darstellung auf einem Display des zweiten mobilen Endgerätes zeitgleich mit der Ausgabe eines Teils des semantischen Inhalts ändert, wobei zumindest Teile der für die Variation erforder lichen Daten in die binäre Form des zweiten Gesichtsbildes eingebettet sind. Des Weiteren werden Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes auf Grundlage des semantischen Inhalts ermittelt.
- Durch das erfindungsgemäße Verfahren wird eine Lösung bereitgestellt die es ermöglicht, ressourceschonend eine nonverbale Kommunikationskomponente auch für mobile Kommunikationssysteme bereitzustellen, wobei dies unabhängig davon erfolgt ob Kurznachrichten in textueller Form oder als Sprachdatum vorliegen. Das erfindungsgemäße Verfahren hat auch den Vorteil, dass es dadurch weil es ein standardisiertes binäres Bildformat nutzt und die variationserforderlichen Daten zumindest teilweise in die binäre Form einbettet, es eine Abwärtskompatibilität bietet, d.h, ist ein die Kurznachricht darstellendes zweites mobiles Endgerät nicht in der Lage erfindungsgemäß binär codierte erste Gesichtsbilder animiert darzustellen, wird lediglich das erste Gesichtsbild ohne Variation von Teilen dargestellt, d.h. es wird dem Nutzer des zweiten mobilen Kommunikationsnetzgerätes lediglich das zweite Gesichtsbild dargeboten wobei die Sprache, d.h. die Sprachausgabe parallel zu dem unanimierten zweiten Gesichtsbild erfolgt. Das erfindungsgemäße Verfahren ist daher eine hochgradig flexible Lösung, wobei sich diese Flexibilität auch darin äußert, dass beispielsweise das zweite Gesichtsbild entweder bereits im zweiten mobilen Endgerät fest gespeichert ist, d.h. ein beispielsweise gezeichnetes Bild, welches als Stellvertreter oder sog. Avatar unabhängig davon wer Absender der Kurznachricht ist, verwendet wird oder das zweite Gesichtsbild ist eine im Endgerät gespeicherte gezeichnete Abbildung oder Photographie des betreffenden, die Kurznachricht versendeten Absenders.
- Vorzugsweise wird dazu das zweite Gesichtsbild in dem ersten Endgerät erzeugt, wobei dies in einem Zeitpunkt vor Versenden der Kurznachricht oder gemeinsam vor einer Übermittlung der Kurznachricht an das zweite mobile Endgerät übermittelt wird und wobei Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes im zweiten mobilen Endgerät ermittelt werden. Diese Variante hat den Vorteil, dass ein eine Kurznachricht versendendes erstes Endgerät lediglich in der Lage sein muss ein Bild zu generieren, welches den Absender identifiziert und dieses an das mobile zweite Endgerät übermittelt. Zudem hat es den Vorteil das ein derartiges Verfahren durchführendes, zweites mobiles Endgerät unabhängig davon, ob das erste Endgerät das Verfahren implementiert hat oder nicht, die nonverbale Kommunikationskomponente zufügen kann, in dem es eintreffende Kurznachrichten dahingehend überprüft, ob ein zweites Gesichtsbild gespeichert vorhanden ist, sodass es selbstständig Animationsparameter zur Variation der Teile des zweiten Gesichtsbild ermittelt. Das zweite Gerät kann also ein zu einem beliebigen früheren Zeitpunkt übertragenes Bild des Absenders verwenden, um später folgende Kurznachrichten des gleichen Absenders mit einer nonverbalen Komponente zu versehen. Diese Weiterbildung hat also den Vorteil, dass es beliebige mobile Endgeräte in die Lage versetzt, nonverbale Komponenten zu erzeugen ohne dass Kurznachrichten absendende Endgeräte irgendeiner Änderung oder Anpassung bedürfen.
- Alternativ wird das zweite Gesichtsbild im ersten Gerät erzeugt, die Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes, ebenfalls im ersten Endgerät ermittelt und das erste Gesichtsbild auch im ersten Gerät erzeugt worauf anschließend das erste Gesichtsbild gemeinsam und/oder vor einer Übermittlung der Kurznachricht an das zweite mobile Endgerät übermittelt wird. Die Weiterbildung ermöglicht es, mobile Endgeräte von der Notwendigkeit der Bereitstellung zusätzlicher Ressourcen befreit, da das komplette erste Gesichtsbild im absendenden Endgerät vollständig erzeugt worden ist. Bei dieser Weiterbildung kommt auch das Merkmal, dass das erste Gesichtsbild gemäß einem standardisierten binären Bildformat in eine binäre Form gebracht wird besonders vorteilhaft zur Geltung, da hierdurch eine abwärtskompatible Übertragung von animierten Gesichtsbildern inklusive Nachrichten ermöglicht wird. D.h. wenn es sich bei dem empfangenen zweiten mobilen Endgerät um ein Endgerät handelt, welches nicht in der Lage ist animierte Darstellungen zu erkennen bzw. darzustellen, wird lediglich das zweite Gesichtsbild in Verbindung mit Sprache herausgegeben. Ist es jedoch in der Lage das erfindungsgemäße Verfahren durchzuführen, so wird auf Grundlage der in dem ersten Gesichtsbild eingebetteten Daten eine Sprachausgabe in Begleitung von nonverbalen Kommunikationskomponenten ermöglicht.
- Eine Alternative bzw. Ergänzung besteht auch darin, dass als zweites Gesichtsbild ein drittes Gesichtsbild zugeordnet wird, wobei mindestens ein drittes Gesichtsbild im zweiten Endgerät gespeichert ist. Mit dieser Lösung wird das absendende erste Endgerät von der Stellung von Gesichtsbildern bzw. dem Versand derselben befreit. Da das zweite mobile Endgerät bereits Gesichtsbilder enthält, die beispielsweise selbst durch photographische Verfahren erzeugt oder als gezeichnetes Stellvertreterbild von dritten Quellen, wie beispielsweise dem Internet bezogen worden sind.
- Vorzugsweise erfolgt dabei die Zuordnung des dritten Gesichtsbildes als zweites Gesichtsbild in Abhängigkeit des Absenders der Kurznachricht, d.h. hierdurch wird ermöglicht, das auch wenn kein individuelles Bild des Absenders vorhanden ist, durch ein individuell zugeordnetes Drittbild der Absender der Kurznachricht dem Nutzer des zweiten mobilen Endgerätes unterscheidbar von anderen Absendern dargestellt wird.
- Bei einer weiteren Fortbildung des erfindungsgemäßen Verfahrens wird bei Vorliegen des semantischen Inhalts in schriftlicher Form, d.h. wenn es um eine rein textuelle oder überwiegend textuelle Kurznachricht handelt, eine Text-to-Speech-Transformation zur Erzeugung der Sprachausgabe vorgenommen. Hierdurch wird erreicht, dass unabhängig davon in welcher Form die Kurznachricht gesendet wird, die Empfänger dieser Kurznachricht stets eine Sprachausgabe in Verbindung mit nonverbaler Kommunikationskomponente dargeboten und somit eine lebensnahe Darstellung realisiert wird.
- Dabei ist es ergänzend oder alternativ von Vorteil, wenn eine Ermittlung von Animationsparametern zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes Grundlage der schriftlichen Form durchgeführt wird. Hierdurch wird erreicht, der bekannte Text sowie sie im Transformationsverfahren verwendet werden können.
- Alternativ hierzu erfolgt die Ermittlung von Animationsparametern zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes anhand des Transformationsergebnisses. Dies ermöglicht die Nutzung von bekannten Phonem zu Visem Transformationsverfahren zur Erzeugung von Gesichtsanimationsparametern.
- Vorzugsweise erfolgt die Variation der Teile auf Grundlage eines gesichtsmodellierenden Gitters, wobei das Gitter auf Grundlage des zweiten Gesichtsbildes generiert wird. Diese Verfahrensweise hat den Vorteil, eine leicht zu implementierende Möglichkeit darzustellen, die aufgrund von automatischer Dedektion von Gesichtsmerkmalen anhand eines Bildes die wesentlichen für eine Animation wichtigen Punkte ermittelt und somit ein Gesichtsmodell für eine spätere Animation erzeugt.
- Vorzugsweise wird das Gitter dabei mittels eines Verfahrens zur Lokalisierung von Gesichtsmerkmalen anhand eines Gesichtsbildes erzeugt, wobei vorzugsweise das Gitter als ein Warping-Gitter generiert wird. Dies sind weit verbreitete und leicht zu implementierende Verfahren dabei weist das Gitter nicht notwendigerweise eine feste Topologie auf.
- Für eine günstige Animation des unter Zuhilfenahme des Gitters ist die Weiterbildung geeignet, bei der der Teil der A nimationsdaten Animationsregeln für Sprache, insbesondere Phoneme, zur Verzerrung des Gitters in Abhängigkeit des semantischen Gitters enthält.
- Des Weiteren ist vorteilhaft wenn dieser Teil auch Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes enthält, sodass insgesamt im ersten Gesichtsbild soviel wie möglich Daten eingebettet sind und hiermit mit möglichst wenig Schritten die animierte Darstellung ermöglicht wird.
- Vorzugsweise wird dabei die binäre Form gemäß den „Joint-Photographic-Expert-Groop" (JPEG) Interchange Format, dem „Portable Network Graphics" (PNG) Format oder dem „Paket Image File" Format (PIF) erzeugt. Dies sind standardisiere Bildformate, welche es erlauben Daten im Bild abzuspeichern ohne dieses optisch zu ändern. Dabei können diese Daten vor allem applikationsspezifisch sein, d.h. dem zweiten mobilen Endgerät wird erlaubt, durch dort implementierte Applikationen eine Auswertung dieser Daten vorzunehmen. Zudem haben diese binären Bildformate den Vorteil, dass sie im Falle das derartig eingebettete applikationsspezifische Daten nicht bearbeitet werden, zumindest das Bild selbst genutzt werden kann. Somit wird die Abwärtskompatibilität durch diese Verfahren bzw. Bildformate besonders gestützt.
- Des Weiteren ist es von Vorteil wenn die Variation für die Variation notwendigen Daten einen gemäß MPEG 4-Standard oder seinen Derivaten gebildeten Datenstrom enthalten. Bei dieser Weiterbildung ist es von Vorteil, dass gemäß dem im MPEG4-Standard dreidimensionale bzw. zweidimensionale Animationsparameter vorgesehen und darstellbar sind.
- Das Endgerät sowie das Mobilendgerät zeichnen sich dadurch aus, dass sie Mittel zur Durchführung des Verfahrens aufweisen und somit ihr Vorteil in der Bereitstellung des erfindungsgemäßen Verfahrens besteht.
- Weitere Vorteile sowie Einzelheiten der Erfindung wird anhand der
1a bis1b erläutert. Dabei enthält -
1a einen Systemüberblick mit den einzelnen Verfahrenskomponenten des erfindungsgemäßen eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens sowie -
1b schematisch die einzelnen Schritte der Gesichtsmodellgenerierung. - In
1a ist schematisch ein Ausführungsbeispiel der Erfindung dargestellt, bei welchem das erste Gesichtsbild GB-vollständig in einem ersten Endgerät auf Grundlage eines zweiten Gesichtsbildes GB erzeugt wird. - Dabei erfolgt in einem ersten Schritt S1 die Eingabe einer textuellen oder sprachlichen Eingabe einer Kurznachricht seitens des Nutzers des ersten Endgerätes wobei in einem zweiten Schritt S2 abhängig davon ob es sich um einen Text oder Sprache handelt, eine Sprachsynthese derart erfolg, dass aus dem Text Phoneme gebildet und zu einer Liste gefasst werden, während aus der Sprache lediglich durch Spracherkennung die Phonemliste erzeugt wird.
- Ausgehend von dieser Phonemliste wird in einem dritten Schritt S3 eine Phonem-zu-Gesichtsanimationsparameter (Facial Animation Parameter, FAP) Wandlung durchgeführt und in einem dritten Schritt S4 einem Gesichtsaktionseditor zugeführt. Dieser erzeugt dann einen MPEG4 konformen Animationsdatenstrom, der in einem fünften Schritt S5 in einem JPEG-codierten Bild eingebettet wird. Des Weiteren wird in diesem Schritt S5 auch ein Gesichtsmodell eingebettet, welches auf Grundlage eines Gitters GT und dem zweiten Gesichtsbild GB erzeugt worden ist.
- In einem sechsten Schritt S6 wird nun aus dem JPEG-Bild und zu einem audiosignalgewandelten Text bzw. der unmittelbar der Sprache eine Multimedianachricht MMS gebildet und an das zweite Mobilendgerät übertragen.
- In einem siebten Schritt des S7 wird dieses animierte Gesichtsbild zeitsynchron mit der Ausgabe des Sprachinhaltes ausgegeben, sobald das Endgerät dazu in der Lage ist. Ansonsten erfolgen aufgrund der Abwärtskompatibilität der Erfindung lediglich eine Darstellung des zweiten Gesichtbildes GB und parallel dazu eine Ausgabe der Audionachricht.
- In
1b ist ferner schematisch die Erzeugung der erfindungsgemäß automatisch anhand eines Bildes erfolgenden Ge-sichtsmodellerzeugung dargestellt. - Zur Erkenntnis ist hierbei das zu einem Zeitpunkt 1 eine Bildaufnahme der betreffenden Person, vorzugsweise des Absenders erfolgt.
- Diese Bildaufnahme wird an einer automatischen Gesichtsmerkmalsdedektion zugeführt. Als Ergebnis dieser Gesichtsmerkmalsdedektion werden Gesichtsmerkmale GM ermittelt und zu einem dritten Zeitpunkt 3 anhand dieser Gesichtsmerkmale GM eine automatische Gesichtsmodellkonstruktion durchgeführt, welche als Ergebnis ein insbesondere Warping-Gitter GT hervorbringt welches durch Verzerrungsparameter synchron zu einer Sprache variiert werden kann und aus dem insgesamt mit dem zweiten Gesichtsbild GB eine entsprechende Gesichtsanimation erfolgt. Die Erfindung hat damit den Vorteil, dass der Nutzer sehr leicht ein geeignetes zweidimensionales Gesichtsmodell erstellen kann.
- Ferner erlaubt die Erfindung eine lippensynchrone Animation, welche sehr leicht erstellbar ist. Zudem werden übertragene klassische Sprachentexteinrichtungen Textnachrichten auf Mobiltelefonen mit der erfindungsgemäßen Lösung animiert, so dass eine Art Aufwärtskompatibilität gewährleistet ist, die dergestalt ist, dass im Mobiltelefon lediglich ein Bild vorhanden sein muss, sodass erfindungsgemäß automatisch ein dreidimensionales Gesichtmodell hieraus generiert werden kann, welches die klassische Sprach- bzw. Textnachricht mit nonverbalen Kommunikationselementen bereichert oder anreichert. Zudem ist ein transparenter Versand von zweidimensionalen Gesichtsmodellen in Multimediakurznachrichten möglich, d.h. die essentiellen Gesichtsmodellmerkmale sind nun das Bild derart eingebettet, das Mobiltelefone, welche das erfindungsgemäße Verfahren nicht implementieren, diese Bilder einfach ohne Animation darstellen, sodass eine Abwärtskompatibilität gewährleistet ist.
Claims (18)
- Verfahren zur Darstellung von, insbesondere multimedialen, Kurznachrichten in einem mobilen Kommunikationssystem, mit folgenden Merkmalen: a) ein binär codiertes erstes Gesichtsbild (GB') wird auf Grundlage eines zweiten Gesichtsbildes (GB) sowie eines in einer von einem ersten, insbesondere mobilen, Endgerät generierten Kurznachricht (S1) enthaltenen semantischen Inhalts (BLABLA) gemäß einem standardisierten binären Bildformat derart in eine binäre Form codiert (S4..S5), dass für eine Ausgabe der Kurznachricht auf einem zweiten mobilen Endgerät (S6..S7) a. der semantische Inhalt als Sprachausgabe über eine Sprachausgabeeinrichtung des zweiten mobilen Endgerätes erfolgen kann und b. zumindest Teile des zweiten Gesichtsbildes derart synchron mit der Sprachausgabe variiert werden können, dass sich Ihre Darstellung auf einem Display des zweiten mobilen Endgerätes zeitgleich mit der Ausgabe eines Teils des semantischen Inhalts ändert, wobei c. zumindest Teile der für die Variation erforderlichen Daten in die binäre Form des zweiten Gesichtsbildes eingebettet sind, b) Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes auf Grundlage des semantischen Inhalts ermittelt werden (S2..S3).
- Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass a) das zweite Gesichtsbild (GB) im ersten Endgerät erzeugt ((1)) und an das zweite Endgerät gemeinsam und/oder vor einer Übermittlung der Kurznachricht übermittelt wird, b) Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes im zweiten mobilen Endgerät ermittelt werden.
- Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass a) das zweite Gesichtsbild im ersten Endgerät erzeugt wird ((1)), b) Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes im ersten Endgerät ermittelt werden (S2..S3), c) das erste Gesichtsbild im ersten Endgerät erzeugt wird, (S4..S5) d) das erste Gesichtsbild gemeinsam mit einer Übermittlung der Kurznachricht an das zweite mobile Endgerät übermittelt wird.
- Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das als zweites Gesichtsbild ein drittes Gesichtsbild zugeordnet wird, wobei mindestens ein drittes Gesichtsbild im zweiten Endgerät gespeichert ist.
- Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Zuordnung des dritten Gesichtsbildes als zweites Gesichtsbild in Abhängigkeit des Absenders der Kurznachricht erfolgt.
- Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei Vorliegen des semantischen Inhalts in schriftlicher Form, eine Text-to-Speech Transformation zur Erzeugung der Sprachausgabe vorgenommen wird.
- Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass eine Ermittlung von Animationsparametern zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes auf Grundlage der schriftlichen Form durchgeführt wird.
- Verfahren nach dem Anspruch 6, dadurch gekennzeichnet, dass eine Ermittlung von Animationsparametern zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes anhand des Transformationsergebnisses durchgeführt wird (S3).
- Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Variation der Teile auf Grundlage eines eine Gesicht modellierenden Gitters (GT) erfolgt, wobei dass Gitter auf Grundlage des zweiten Gesichtsbildes generiert wird.
- Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass Gitter (GT) mittels eines Verfahrens zur Lokalisierung von Gesichtsmerkmalen (GM) anhand eines Gesichtsbildes erzeugt wird.
- Verfahren nach einem der beiden vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Gitter als ein Warping-Gitter generiert wird.
- Verfahren nach einem der Ansprüche 9 bis 11, dadurch gekennzeichnet, dass das Gitter eine feste Topologie aufweist.
- Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Teil der Animationsdaten, Animationsregeln für Sprache, insbesondere Phoneme, zur Verzerrung des Gitters in Abhängigkeit des semantischen Inhalts, enthält.
- Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Teil der Animationsdaten, Animationsparameter zur Erzeugung der Variation der Teile des zweiten Gesichtsbildes enthält.
- Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die binäre Form gemäß dem Joint Photographic Expert Group „JPEG" – Interchange Format, dem Portable Network Graphics „PNG" Format oder dem Tagged Image File Format „TIFF" erzeugt wird.
- Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die Variation notwendigen Daten einen ge mäß dem MPEG4 Standard, oder seinen Derivaten, gebildeten Datenstrom enthalten.
- Endgerät gekennzeichnet durch Mittel zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche.
- Mobiles Endgerät gekennzeichnet durch Mittel zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 10.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102004063553A DE102004063553A1 (de) | 2004-12-30 | 2004-12-30 | Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102004063553A DE102004063553A1 (de) | 2004-12-30 | 2004-12-30 | Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102004063553A1 true DE102004063553A1 (de) | 2006-04-13 |
Family
ID=36088954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102004063553A Ceased DE102004063553A1 (de) | 2004-12-30 | 2004-12-30 | Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102004063553A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008096099A1 (en) * | 2007-02-05 | 2008-08-14 | Amegoworld Ltd | A communication network and devices for text to speech and text to facial animation conversion |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010051535A1 (en) * | 2000-06-13 | 2001-12-13 | Minolta Co., Ltd. | Communication system and communication method using animation and server as well as terminal device used therefor |
US20030035412A1 (en) * | 2001-07-31 | 2003-02-20 | Xuejun Wang | Animated audio messaging |
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
EP1443465A1 (de) * | 2003-01-31 | 2004-08-04 | NTT DoCoMo, Inc. | System zur Übertragung von Gesichtsinformation |
-
2004
- 2004-12-30 DE DE102004063553A patent/DE102004063553A1/de not_active Ceased
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6539354B1 (en) * | 2000-03-24 | 2003-03-25 | Fluent Speech Technologies, Inc. | Methods and devices for producing and using synthetic visual speech based on natural coarticulation |
US20010051535A1 (en) * | 2000-06-13 | 2001-12-13 | Minolta Co., Ltd. | Communication system and communication method using animation and server as well as terminal device used therefor |
US20030035412A1 (en) * | 2001-07-31 | 2003-02-20 | Xuejun Wang | Animated audio messaging |
EP1443465A1 (de) * | 2003-01-31 | 2004-08-04 | NTT DoCoMo, Inc. | System zur Übertragung von Gesichtsinformation |
Non-Patent Citations (2)
Title |
---|
Di Giacomo, T. [u.a.]: Benchmark-Driven Automatic Transmoding of 3D to 2D Talking Heads. In: Work- shop on Modelling and Motion Capture Techniques for Virtual Environments, CAPTECH 2004, 10. u. 11. Dezember 2004 * |
Pandzic, I.S. [u.a.]: Faces Everywhere: Towards Ubiquitous Production and Delivery of Face Ani- mation. In: Proceedings of the 2nd International Conference on Mobile and Ubiquitous Multimedia, ACM, 2003, S. 49-55 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008096099A1 (en) * | 2007-02-05 | 2008-08-14 | Amegoworld Ltd | A communication network and devices for text to speech and text to facial animation conversion |
GB2459073A (en) * | 2007-02-05 | 2009-10-14 | Amegoworld Ltd | A communication network and devices for text to speech and text to facial animation conversion |
GB2459073B (en) * | 2007-02-05 | 2011-10-12 | Amegoworld Ltd | A communication network and devices |
AU2007346312B2 (en) * | 2007-02-05 | 2012-04-26 | Amegoworld Ltd | A communication network and devices for text to speech and text to facial animation conversion |
RU2488232C2 (ru) * | 2007-02-05 | 2013-07-20 | Амеговорлд Лтд | Сеть связи и устройства для преобразования текста в речь и текста в анимацию лица |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60105995T2 (de) | Animation von personen | |
DE102019001775B4 (de) | Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache | |
DE60223131T2 (de) | Verfahren und vorrichtung zum codieren und decodieren von pauseninformationen | |
DE602005004983T2 (de) | Verfahren zum Darstellen von Multimediaanzeigen | |
Licoppe et al. | Interpreting, video communication and the sequential reshaping of institutional talk in the bilingual and distributed courtroom. | |
JP2008500573A (ja) | メッセージを変更するための方法及びシステム | |
CN105786880A (zh) | 语音识别的方法、客户端及终端设备 | |
DE112017006746T5 (de) | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm | |
DE10117367B4 (de) | Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten | |
CN116229977A (zh) | 基于虚拟数字人实现智能化实时交互问答的系统及其处理方法 | |
EP1670165B1 (de) | Verfahren und modellbasiertes Audio-und Videosystem zur Darstellung einer virtuellen Figur | |
CN116524791A (zh) | 一种基于元宇宙的唇语学习辅助训练系统及其应用 | |
WO2022013045A1 (de) | Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente | |
DE60125674T2 (de) | Informationsanzeige | |
DE102004063553A1 (de) | Verfahren, Endgerät sowie mobiles Endgerät zur Darstellung von insbesondere multimedialen Kurznachrichten in einem mobilen Kommunikationssystem | |
DE60221636T2 (de) | Verfahren und vorrichtung zur verwaltung von interaktionen im standard mpeg-4 | |
DE102012213914A1 (de) | Verfahren und System zum Bereitstellen einer Übersetzung eines Sprachinhalts aus einem ersten Audiosignal | |
DE10056762B4 (de) | Verfahren zum Erstellen elektronischer Nachrichten | |
DE10147902A1 (de) | Kommunikationssystem und mobiles Kommunikationsendgert für den Einsatz in einem solchen Kommunikati onssystem | |
CN116628153B (zh) | 一种人工智能设备对话的控制方法、装置、设备及介质 | |
Satriyo | Multimodality and the construction of fear in Tatsuki Fujimoto's Chainsaw Man | |
DE102016002496A1 (de) | Verfahren und System zum Wiedergeben einer Textnachricht | |
DE10334105A1 (de) | Verfahren zur Generierung von Gesichts-Animationsparametern zur Darstellung gesprochener Sprache mittels graphischer Computermodelle | |
EP4187855A1 (de) | Computer-implementiertes videokonferenz-verfahren | |
WO2023012116A1 (de) | Sprachsignalbearbeitungsvorrichtung, sprachsignalwiedergabesystem und verfahren zum ausgeben eines entemotionalisierten sprachsignals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OAV | Applicant agreed to the publication of the unexamined application as to paragraph 31 lit. 2 z1 | ||
OP8 | Request for examination as to paragraph 44 patent law | ||
8131 | Rejection |