DE69829947T2 - Ein verfahren und gerät zum synchronisieren eines computeranimierten modells mit einem audiosignal - Google Patents
Ein verfahren und gerät zum synchronisieren eines computeranimierten modells mit einem audiosignal Download PDFInfo
- Publication number
- DE69829947T2 DE69829947T2 DE69829947T DE69829947T DE69829947T2 DE 69829947 T2 DE69829947 T2 DE 69829947T2 DE 69829947 T DE69829947 T DE 69829947T DE 69829947 T DE69829947 T DE 69829947T DE 69829947 T2 DE69829947 T2 DE 69829947T2
- Authority
- DE
- Germany
- Prior art keywords
- audio signal
- model
- parameter
- image
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000005236 sound signal Effects 0.000 title claims 9
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims 2
- 230000008921 facial expression Effects 0.000 claims 1
- 210000001847 jaw Anatomy 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000004373 mandible Anatomy 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
Description
- HINTERGRUND DER ERFINDUNG
- Die vorliegende Erfindung bezieht sich auf ein Verfahren nach dem Oberbegriff des Anspruchs 1. Bestimmte Systeme erfordern Animierung eines computererzeugten graphischen Modells zusammen mit der Auslieferung eines Audiomusters zum Schaffen des Eindrucks, dass das Modell die ausgelieferte Audioinformation wirklich spricht. Ein derartiges Verfahren ist in
US 5.613.056 beschrieben worden. Das Bezugsmaterial benutzt komplexe Prozeduren, die im Allgemeinen vorher aufgezeichnete Sprache erfordert. Es sind andere Verfahren bekannt, basiert auf der Identifikation von Spracherscheinungen mit Hilfe von LPC-Analyse, beispielsweise aus EP-A-0 710 925 oder US-A-5 426 460. - Es ist nun eine Absicht der vorliegenden Erfindung, einfachere Prozeduren anzuwenden, die es u. a. ermöglichen sollen, in Echtzeit mit nicht vorher aufgezeichneter Sprache zu arbeiten, sowie in mehreren Wiedergabemoden.
- ZUSAMMENFASSUNG DER ERFINDUNG
- Folglich ist es u. a. eine Aufgabe der vorliegenden Erfindung, eine einfache Wirkung zu schaffen, die nur eine geringe unmittelbare Interaktion erfordert zur Steuerung des Bildes, und dem Benutzer einen ziemlich natürlichen Eindruck gibt. Dazu weist die vorliegende Erfindung nach einem der Aspekte das Kennzeichen auf entsprechend dem kennzeichnenden Teil des Anspruchs 1. Die Erfinder haben gefunden, dass ein einfaches Öffnen und Schließen des Mundes einer Bildfigur nicht ein effektives Sprechen suggeriert, und weiterhin dass es auch notwendig ist, zu gewährleisten, dass die visuelle Darstellung in einer möglichst engen Synchronisation gehalten wird, wobei das Audio ausgeliefert wird (lippensynchron) weil sogar kleine Differenzen zwischen Audio und animiertem Bildmaterial durch eine menschliche Person detektierbar ist. In diesem Zusammenhang kann "mehrwertig" entweder analog oder mehrwertig digital bedeuten. Wenn Audio unmittelbar empfangen wird, kann die Reproduktion um etwa 0,1 Sekunde versetzt werden, damit ein Gerät die Videodarstellung verbessern kann.
- Die vorliegende Erfindung bezieht sich auch auf eine Anordnung, vorgesehen zum Implementieren des Verfahrens nach der vorliegenden Erfindung. Weitere vorteilhafte Aspekte der vorliegenden Erfindung sind in den Unteransprüchen erwähnt.
- KURZE BESCHREIBUNG DER ZEICHNUNG
- Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
-
1 ein Diagramm einer Anordnung nach der vorliegenden Erfindung, -
2 ein Abtastabschnitt einer Audio-Umhüllenden, -
3 ein Beispiel eines computererzeugten graphischen Modells. - DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
-
1 zeigt ein Diagramm einer Anordnung nach der vorliegenden Erfindung. Am Eingang20 empfängt die Anordnung Information eines Bildes. Diese Information kann dennoch Bilder darstellen, oder Bilder, die umher gehen können, wie gehen, fliegen oder andere charakteristische Bewegungen durchführen können. Die Bilder können in Bitmap, in Linienzeichnung oder in einer anderen nützlichen Darstellung ausgeführt werden. Insbesondere können ein oder mehrere Parameter des Bildes oder der Bilder in Termen einer assoziierten analogen oder mehrwertig digitalen Quantität ausgedrückt werden. Der Block22 kann die Bilder zur nachfolgenden Adressierung speichern, indem jedes Bild einen bestimmten Identifizierer oder eine andere unterscheidende Qualifikation gegenüber dem System hat. Der Eingang26 empfängt eine geeignete Audio-Darstellung. In einem einfachen Fall kann dies Sprache sein zur Darstellung über den Lautsprecher38 . In einer anderen Situation kann die Sprache entsprechend einem bestimmten Standardschema, wie LPC, codiert werden. Falls anwendbar empfängt der Eingang24 einen bestimmten Identifizierer zur visuellen Wiedergabe, wie zur Selektion aus einer Anzahl Personenbilder, oder einen anderen, Selektionsmechanismus eines höheren Pegels zur Selektion aus einer Anzahl Bewegungsmuster oder sonst wie. Die Bildbeschreibung wird auf diese Weise am Ausgang23 angeboten. In dem Block28 wird die wirkliche Audio-Amplitude gemessen und der Wert bei der Verbindung30 wird auf eine mehrwertige Weise oder auf eine analoge Weise an einem oder mehreren assoziierten Bildparametern zur synchronisierten Ausgabe dargestellt. Am Ausgang32 werden die Audio- und die Bildinformation in gegenseitiger Syn chronisation zur Wiedergabe an dem Monitor36 und Audioaufbereitung am Lautsprecher38 wiedergegeben. -
2 zeigt ein Muster einer Audio-Umhüllenden, die ausgeliefert wird. Die vertikale Achse stellt die Wellenamplitude dar und die horizontale Achse stellt die Zeit dar. Die Zeitperiode s ist die Abtastzeitperiode, über welche die Wellenamplitude gemessen und gemittelt wird. In der Praxis ist diese Periode oft etwas länger als die wirkliche Schrittperiode und kann in dem Gebiet von 0,01 bis 0,1 einer Sekunde liegen. Diese mittlere Amplitude a wird durch einen Skalierungsfaktor f skaliert und wird zur Animierung der Lage eines Objektes benutzt. Der Skalierungsfaktor ermöglicht einen weiteren Steuermechanismus. Auf alternative Weise kann der Faktor von der "Person" abhängen, die wirklich spricht, oder von mehreren anderen Aspekten. So kann beispielsweise eine Person, die murmelt, eine kleinere Mundöffnung erhalten. - Um zu gewährleisten, dass das Objekt synchron zu dem Zeitpunkt ist, an dem die abgetastete Audiowelle wiedergegeben wird, wird eine Prädiktionszeit p verwendet um die Abtastperiode gegenüber der aktuellen Zeit t zu versetzen. Diese Prädiktionszeit kann die Möglichkeit bieten für die Zeit, die es nimmt, dass das Gerät das graphische Objekt mit der neuen Objektlage zu zeichnen.
-
3 zeigt ein Beispiel eines komputererzeugten graphischen Modells, in diesem Fall einer Vorderansicht eines einfachen computererzeugten menschlichen Kopfes, der zu einem ellipsenförmigen Kopfumriss50 , zwei kreisförmigen Augen52 und einem Unterkieferteil54 vereinfacht worden ist. Das Modell über einen analogen oder mehrwertigen digitalen Abstand a·f zwischen dem Kieferteil und der Lage des restlichen Teils des eigentlichen Kopfes, der als (yj – a·f) ausgedrückt wird. Der Öffnungsabstand des Unterkiefers ist verbunden mit der skalierten (a·f) Ausgangsamplitude des abgespielten Audios. In einer anderen Ausführungsform kann dies ein Öffnungswinkel des Kiefers sein, oder ein anderer Lagenparameter. Das Audio kann stimmhafte und stimmlose Intervalle haben und kann auch lautere und leisere Intervalle haben. Dies sorgt dafür, dass der Kiefer weiter geöffnet werden muss wenn die Wellenamplitude zunimmt und entsprechend geschlossen werden muss, je nachdem die Amplitude abnimmt. Der Betrag an Bewegung des sprechenden Mundes variiert mit der erzeugten Sprache, wodurch auf diese Art und Weise der Eindruck von Sprechen gegeben wird. - Außerdem ist es auch möglich, andere Eigenschaften, wie die x- und z-Koordinaten der Objekte zu animieren, ebenso wie Drehung und Skalierung des Objektes. Die Technik kann auch auf andere Visualisierungen als Sprachwiedergabe, wie Musik, angewandt werden. Der Skalierungsfaktor f ermöglicht die Anwendung des Verfahrens mehrerer verschiedener Größen. Weiterhin kann der Skalierungsfaktor auf verschiedene Pegel von "Sprechdeutlichkeit" gesetzt werden. Wenn das Modell murmelt, soll der Mund sich relativ wenig bewegen. Wenn das Modell mit Betonung spricht, soll auch die Mundbewegung mehr akzentuiert werden.
- Die vorliegende Erfindung kann in mehreren Applikationen angewandt werden, wie für ein Benutzeruntersuchungssystem, und für andere Systeme, bei denen der künstliche Pegel der Darstellung relativ unwichtig ist. Das Verfahren kann in einem einseitigen System durchgeführt werden, wobei das System nur Sprache ausliefert. Auf alternative Weise kann ein Zweiwegdialog durchgeführt werden, wobei auch Spracherkennung auf Spracheingaben von einer Benutzerperson angewandt wird. Es können mehrere andere Aspekte oder Parameter des Bildes durch die aktuelle Audioamplitude beeinflusst werden. So kann beispielsweise die Farbe eines Gesichtes röter werden bei einer höheren Amplitude, Haare können sich sträuben, oder Ohren können wackeln, wenn das Bild durch erhöhte Stimme auf eine unübliche Benutzerreaktion reagiert. Weiterhin braucht die Zeitkonstante mehrerer Reaktionen durch das Bild nicht einheitlich zu sein, obschon die Mundöffnung immer weitgehend unmittelbar sein soll.
Claims (10)
- Verfahren zum Synchronisieren eines computeranimierten Modells mit einem Audiosignal, wobei das genannte Verfahren die nachfolgenden Verfahrensschritte umfasst: – das Speichern eines computeranimierten Bildes des genannten Modells, – das Empfangen einer Audiosignaldarstellung, – das dynamische Variieren des genannten Modells unter Ansteuerung des genannten Audiosignals, und – das Ausliefern des genannten dynamisch variierten Modells zusammen mit dem genannten Audiosignal, wobei das genannte Verfahren durch die nachfolgenden Verfahrensschritte gekennzeichnet ist: – das Assoziieren eines Bildparameters mit dem genannten Modell, – das Messen einer wirklichen Audiosignalamplitude, und – das Abbilden der genannten Amplitude auf eine mehrwertige oder analoge Weise auf dem genannten Bildparameter zur synchronisierten Auslieferung.
- Verfahren nach Anspruch 1, wobei das genannte Audiosignal Sprache ist.
- Verfahren nach Anspruch 1, wobei das genannte Audiosignal eine menschenähnliche Sprache ist.
- Verfahren nach Anspruch 1, wobei der genannte Bildparameter ein Stellenparameter ist.
- Verfahren nach Anspruch 1, wobei der genannte Bildparameter ein Größenparameter eines menschenähnliche Mundes ist.
- Verfahren nach Anspruch 1, wobei der genannte Parameter eine Farbe, ein Gesichtsausdruck oder eine Körperbewegung ist.
- Verfahren nach Anspruch 1, wobei die genannte Abbildung mit einer nicht einheitlichen Zeitkonstanten assoziiert ist.
- Verfahren nach Anspruch 1, vorgesehen um in Echtzeit durchgeführt zu werden.
- Verfahren nach Anspruch 1, weiterhin zum Skalieren des genannten Bildparameters um einen Skalierungsfaktor und zum Ausliefern des Audiosignals mit einer Zeitverschiebung zum berichtigen der Videodarstellung.
- Anordnung zum Implementieren eines Verfahrens nach Anspruch 1.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP97202672 | 1997-09-01 | ||
EP97202672 | 1997-09-01 | ||
PCT/IB1998/001213 WO1999012128A1 (en) | 1997-09-01 | 1998-08-07 | A method and apparatus for synchronizing a computer-animated model with an audio wave output |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69829947D1 DE69829947D1 (de) | 2005-06-02 |
DE69829947T2 true DE69829947T2 (de) | 2006-03-02 |
Family
ID=8228687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69829947T Expired - Fee Related DE69829947T2 (de) | 1997-09-01 | 1998-08-07 | Ein verfahren und gerät zum synchronisieren eines computeranimierten modells mit einem audiosignal |
Country Status (5)
Country | Link |
---|---|
US (1) | US6408274B2 (de) |
EP (1) | EP0960389B1 (de) |
JP (1) | JP2001509933A (de) |
DE (1) | DE69829947T2 (de) |
WO (1) | WO1999012128A1 (de) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7764713B2 (en) * | 2005-09-28 | 2010-07-27 | Avaya Inc. | Synchronization watermarking in multimedia streams |
US9286383B1 (en) | 2014-08-28 | 2016-03-15 | Sonic Bloom, LLC | System and method for synchronization of data and audio |
US11130066B1 (en) | 2015-08-28 | 2021-09-28 | Sonic Bloom, LLC | System and method for synchronization of messages and events with a variable rate timeline undergoing processing delay in environments with inconsistent framerates |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4177589A (en) * | 1977-10-11 | 1979-12-11 | Walt Disney Productions | Three-dimensional animated facial control |
GB2178584A (en) * | 1985-08-02 | 1987-02-11 | Gray Ventures Inc | Method and apparatus for the recording and playback of animation control signals |
US5111409A (en) * | 1989-07-21 | 1992-05-05 | Elon Gasper | Authoring and use systems for sound synchronized animation |
US5074821A (en) * | 1990-01-18 | 1991-12-24 | Worlds Of Wonder, Inc. | Character animation method and apparatus |
US5278943A (en) * | 1990-03-23 | 1994-01-11 | Bright Star Technology, Inc. | Speech animation and inflection system |
US5149104A (en) * | 1991-02-06 | 1992-09-22 | Elissa Edelstein | Video game having audio player interation with real time video synchronization |
US5630017A (en) | 1991-02-19 | 1997-05-13 | Bright Star Technology, Inc. | Advanced tools for speech synchronized animation |
US5426460A (en) * | 1993-12-17 | 1995-06-20 | At&T Corp. | Virtual multimedia service for mass market connectivity |
CA2162199A1 (en) * | 1994-11-07 | 1996-05-08 | Homer H. Chen | Acoustic-assisted image processing |
SE519244C2 (sv) * | 1995-12-06 | 2003-02-04 | Telia Ab | Anordning och metod vid talsyntes |
US6031539A (en) * | 1997-03-10 | 2000-02-29 | Digital Equipment Corporation | Facial image method and apparatus for semi-automatically mapping a face on to a wireframe topology |
US5969721A (en) * | 1997-06-03 | 1999-10-19 | At&T Corp. | System and apparatus for customizing a computer animation wireframe |
-
1998
- 1998-08-07 JP JP51648399A patent/JP2001509933A/ja not_active Ceased
- 1998-08-07 EP EP98935241A patent/EP0960389B1/de not_active Expired - Lifetime
- 1998-08-07 DE DE69829947T patent/DE69829947T2/de not_active Expired - Fee Related
- 1998-08-07 WO PCT/IB1998/001213 patent/WO1999012128A1/en active IP Right Grant
- 1998-09-01 US US09/145,095 patent/US6408274B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO1999012128A1 (en) | 1999-03-11 |
JP2001509933A (ja) | 2001-07-24 |
US20010041983A1 (en) | 2001-11-15 |
DE69829947D1 (de) | 2005-06-02 |
EP0960389B1 (de) | 2005-04-27 |
US6408274B2 (en) | 2002-06-18 |
EP0960389A1 (de) | 1999-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60101540T2 (de) | Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale | |
DE3687915T2 (de) | Änderung von Gesichtsausdrücken in der Kinematographie. | |
DE69632901T2 (de) | Vorrichtung und Verfahren zur Sprachsynthese | |
DE102019001775B4 (de) | Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache | |
DE102006032484B4 (de) | Auf Gesichtsmerkmale örtlich begrenztes und umfassendes Echtzeit-Video-Morphing | |
Le Goff et al. | A text-to-audiovisual-speech synthesizer for french | |
DE69922898T2 (de) | Verfahren zur dreidimensionalen Gesichtsmodellerzeugung aus Gesichtsbildern | |
DE69826167T2 (de) | Verfahren und Gerät zur Graffitianimation | |
DE19753453B4 (de) | System zum Synchronisieren eines Films mit einem Text/Sprache-Umsetzer | |
JP2518683B2 (ja) | 画像合成方法及びその装置 | |
Revéret et al. | MOTHER: a new generation of talking heads providing a flexible articulatory control for video-realistic speech animation | |
Le Goff et al. | Real-time analysis-synthesis and intelligibility of talking faces. | |
CA2760289A1 (en) | A method and apparatus for character animation | |
DE60019248T2 (de) | Sprachgesteuertes Mundanimationssystem | |
EP1670165B1 (de) | Verfahren und modellbasiertes Audio-und Videosystem zur Darstellung einer virtuellen Figur | |
DE60307965T2 (de) | Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen | |
DE102005014772A1 (de) | Verfahren zur Darstellung eines einem Kommunikationsteilnehmer zugeordneten Bildes an einem Kommunikationsendgerät | |
DE60121334T2 (de) | Verfahren zur gesichtsanimation | |
DE69829947T2 (de) | Ein verfahren und gerät zum synchronisieren eines computeranimierten modells mit einem audiosignal | |
DE112017008305T5 (de) | Spracherkennungsvorrichtung, Spracherkennungssystem und Spracherkennungsverfahren | |
DE102019126688A1 (de) | System und verfahren zur automatischen untertitelanzeige | |
Bailly et al. | Evaluation of movement generation systems using the point-light technique | |
JP3059022B2 (ja) | 動画像表示装置 | |
DE69816078T2 (de) | Verbesserungen im bezug auf visuelle sprachsynthese | |
KR100229538B1 (ko) | 얼글 움직임을 인코딩하기 위한 방법 및 장치한 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |