JP2016042362A - コンピュータ生成ヘッド - Google Patents
コンピュータ生成ヘッド Download PDFInfo
- Publication number
- JP2016042362A JP2016042362A JP2015194171A JP2015194171A JP2016042362A JP 2016042362 A JP2016042362 A JP 2016042362A JP 2015194171 A JP2015194171 A JP 2015194171A JP 2015194171 A JP2015194171 A JP 2015194171A JP 2016042362 A JP2016042362 A JP 2016042362A
- Authority
- JP
- Japan
- Prior art keywords
- facial expression
- face
- input
- sequence
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 122
- 238000000034 method Methods 0.000 claims abstract description 80
- 238000009826 distribution Methods 0.000 claims abstract description 52
- 230000001419 dependent effect Effects 0.000 claims abstract description 50
- 230000014509 gene expression Effects 0.000 claims abstract description 43
- 238000013179 statistical model Methods 0.000 claims abstract description 16
- 230000008921 facial expression Effects 0.000 claims description 164
- 238000003066 decision tree Methods 0.000 claims description 63
- 230000008451 emotion Effects 0.000 claims description 57
- 230000001815 facial effect Effects 0.000 claims description 18
- 238000009877 rendering Methods 0.000 claims description 10
- 230000004397 blinking Effects 0.000 claims description 8
- 230000003068 static effect Effects 0.000 claims description 6
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 210000003128 head Anatomy 0.000 description 90
- 230000009466 transformation Effects 0.000 description 26
- 238000007476 Maximum Likelihood Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 18
- 230000007935 neutral effect Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 9
- 238000013216 cat model Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000000844 transformation Methods 0.000 description 7
- 238000000638 solvent extraction Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 210000000744 eyelid Anatomy 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000004886 head movement Effects 0.000 description 3
- 230000003278 mimic effect Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 239000004243 E-number Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 206010034719 Personality change Diseases 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Processing Or Creating Images (AREA)
Abstract
【解決手段】ヘッドは、音声に従い動く口を持ち、唇の動きと音声に関連する入力を音響単位系列へと分割し、入力されるテキストのための表情特性を選択し、音響単位を画像ベクトルに関連付ける確率分布を記述するパラメータを持つ統計的モデルを用いて、音響単位系列をヘッドの顔を定義する複数パラメータを含む画像ベクトル系列へ変換する。ヘッドの口が動き選択された表情を伴って入力テキストに関連付けられる音声を真似るよう、画像ベクトル系列をビデオとして出力する。選択された表情における各確率分布の所定の種別パラメータは、同一種別パラメータの重み付き和として表現され、音響単位系列の画像ベクトル系列への変換が選択された表情のための表情依存の重みを検索する。重みは表情依存であり、パラメータはクラスタで準備され、表情依存の重みはクラスタ毎に検索される。
【選択図】図2
Description
この出願は、2013年1月29日に出願された英国特許出願第1301583.9号に基づいており、かつ、この優先権の利益を主張するものであって、これの全内容は参照によってここに組み込まれる。
スペクトル:1ストリーム、5状態、状態毎に1本の木×3クラス
LogF0:3ストリーム、ストリーム毎に5状態、状態およびストリーム毎に1本の木×3クラス
BAP:1ストリーム、5状態、状態毎に1本の木×3クラス
VID:1ストリーム、5状態、状態毎に1本の木×3クラス
持続時間:1ストリーム、5状態、1本の木×3クラス(それぞれの木は、全ての状態中で共有される)
合計:3×31=93本の決定木
上記のものに対して、以下の重みが表情特性毎の各ストリームに適用される。
スペクトル:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
LogF0:3ストリーム、ストリーム毎に5状態、ストリーム毎に1個の重み×3クラス
BAP:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
VID:1ストリーム、5状態、ストリーム毎に1個の重み×3クラス
持続時間:1ストリーム、5状態、状態およびストリーム毎に1個の重み×3クラス
合計:3×11=33個の重み。
− 表情依存の重みのセットλ(s) q(m)
− 表情依存のクラスタμ(s) c(m,x)
− 線形変換のセット[A(s) r(m),b(s) r(m)]。
1.4つの表情のうちいずれかが、当該表情に対応する重みベクトルの最終的なセットを用いて合成可能である。
2.ランダムな表情が、重みベクトルを任意の位置に設定することによってCATモデルによって張られるオーディオヴィジュアル空間から合成可能である。
− スタイル−感情依存の重みのセットλ(s,e) q(m)
− スタイル−感情依存のクラスタμ(s,e) c(m,x)
− 線形変換のセット[A(s,e) r(m),b(s,e) r(m)](それによって、これらの変換は、スタイルだけに依存したり、感情だけに依存したり、両方に依存したりすることもあり得る)。
Claims (27)
- コンピュータ生成された顔をアニメーションにする方法であって、
前記方法は、
前記顔の口の動きに同期して出力されることになる音声に関連する入力を準備することと、
前記入力を音響単位の系列へと分割することと、
入力されるテキストのための表情特性を選択することと、
統計的モデルを用いて前記音響単位の系列を前記顔の画像ベクトルの系列へと変換することと、
前記選択された表情特性を伴って前記顔の口の動きに同期して出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力することと
を具備し、
前記統計的モデルは、前記音響単位を前記画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持ち、
前記画像ベクトルは、前記顔を定義する複数のパラメータを含み、
前記選択された表情特性における各確率分布の所定の種別のパラメータは、パラメータの重み付き和として表現される、
方法。 - 前記統計的モデルは、前記音響単位の系列を音声ベクトルへと変換するように構成され、
前記統計的モデルは、音響単位を音声ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持ち、
前記方法は、前記音声ベクトルの系列を前記顔の唇の動きと同期するオーディオとして出力することをさらに具備する、
請求項1記載の方法。 - 前記入力は、音響単位の系列へと分割されるテキスト入力である、請求項1記載の方法。
- 前記入力が音声入力であり、
前記音声入力は、音響単位の系列へと分割され、前記顔のビデオと共にオーディオとして出力される、
請求項1記載の方法。 - 前記音響単位の系列を画像ベクトルの系列へと変換することは、前記選択された表情特性の表情依存の重みを検索して使用することを具備し、
パラメータはクラスタで準備され、各クラスタは少なくとも1つのサブクラスタを含み、
サブクラスタ毎に1つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索される、
請求項1記載の方法。 - 各サブクラスタは、少なくとも1つの決定木を含み、
前記決定木は、言語学的な差異、音声学的な差異または韻律学的な差異のうち少なくとも1つに関連する質問に基づいている、
請求項5記載の方法。 - 表情特性は、様々な感情、アクセントまたは発話スタイルのうち少なくとも1つから選択される、請求項1記載の方法。
- 表情特性を選択することは、入力を準備することを具備し、
前記入力は、重み付けが当該入力を介して選択されることを可能にする、
請求項5記載の方法。 - 表情特性を選択することは、出力される音声から、使用されるべき重み付けを予測することを具備する、請求項5記載の方法。
- 表情特性を選択することは、出力される音声に関する外部情報から、使用されるべき重み付けを予測することを具備する、請求項5記載の方法。
- 表情特性を選択することは、
顔を含むビデオ入力を受け取ることと、
前記ビデオ入力の顔の表情特性をシミュレートするために重み付けを変更することと
を具備する、請求項5記載の方法。 - 表情特性を選択することは、
出力される音声を含むオーディオ入力を受け取ることと、
オーディオ音声入力から重み付けを得ることと
を具備する、請求項5記載の方法。 - 表情特性を選択することは、事前に保存された複数の重みのセットから重みのセットをランダムに選択することを具備し、
それぞれの重みのセットは、全てのサブクラスタのための重み付けを含む、
請求項5記載の方法。 - 前記画像ベクトルは、顔がモードの重み付き和から構築されることを可能にするパラメータを含み、
前記モードは、顔または顔のパーツの再構築を表す、
請求項5記載の方法。 - モードが、顔の形状およびアピアランスを表すモードを含む、請求項14記載の方法。
- 同一の重み付けパラメータが、形状モードおよび当該形状モードの対応するアピアランスモードのために使用される、請求項15記載の方法。
- モードのうち少なくとも1つが、顔の姿勢を表す、請求項14記載の方法。
- 複数のモードが、顔の部位の変形を表す、請求項14記載の方法。
- モードのうち少なくとも1つが、まばたきを表す、請求項14記載の方法。
- 顔の静的な特徴が、固定の形状およびテクスチャを用いてモデル化される、請求項14記載の方法。
- コンピュータ生成された顔をレンダリングするためのシステムを新たな表情に適応させる方法であって、
前記システムは、
前記顔の口の動きに同期して出力されることになる音声のデータを受け取るための入力と、
プロセッサと
を具備し、
前記プロセッサは、
入力データを音響単位の系列へと分割し、
入力されるテキストのための表情特性の選択を可能にし、
統計的モデルを用いて前記音響単位の系列を前記顔の画像ベクトルの系列へと変換し、
前記選択された表情特性を伴って前記顔の口の動きに同期して出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力する、
ように構成され、
前記統計的モデルは、前記音響単位を前記画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持ち、
前記画像ベクトルは、前記顔を定義する複数のパラメータを含み、
前記選択された表情特性における各確率分布の所定の種別のパラメータは、パラメータの重み付き和として表現される、
方法。 - 前記音響単位の系列を画像ベクトルの系列へと変換することは、前記選択された表情特性の表情依存の重みを検索して使用することを具備し、
パラメータはクラスタで準備され、各クラスタは少なくとも1つのサブクラスタを含み、
サブクラスタ毎に1つの重みが存在するよう、前記表情依存の重みはクラスタ毎に検索され、
前記方法は、
新たな入力ビデオファイルを受け取ることと、
生成される画像と新たなビデオファイルとの類似度を最大化するために、クラスタへと適用される重みを計算することと
を具備する、
請求項21記載の方法。 - 新たなビデオファイルからのデータを用いて新たなクラスタを作成することと、
生成される画像と前記新たなビデオファイルとの類似度を最大化するために、新たなクラスタを含むクラスタへと適用される重みを計算することと
をさらに具備する、請求項22記載の方法。 - コンピュータ生成された顔をレンダリングするためのシステムであって、
前記システムは、
前記顔の口の動きに同期して出力されることになる音声のデータを受け取るための入力と、
プロセッサと
を具備し、
前記プロセッサは、
入力データを音響単位の系列へと変換し、
入力されるテキストのための表情特性の選択を可能にし、
統計的モデルを用いて前記音響単位の系列を前記顔の画像ベクトルの系列へと変換し、
前記選択された表情特性を伴って前記顔の口の動きに同期して出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力する
ように構成され、
前記統計的モデルは、前記音響単位を前記画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持ち、
前記画像ベクトルは、前記顔を定義する複数のパラメータを含み、
前記選択された表情特性における各確率分布の所定の種別のパラメータは、パラメータの重み付き和として表現される、
システム。 - コンピュータ生成された顔をレンダリングするために適応可能なシステムであって、
前記システムは、
前記顔の口の動きによって出力されることになる音声のデータを受け取るための入力と、
プロセッサと
を具備し、
前記プロセッサは、
入力データを音響単位の系列へと分割し、
入力されるテキストのための表情特性の選択を可能にし、
統計的モデルを用いて前記音響単位の系列を前記顔の画像ベクトルの系列へと変換し、
前記選択された表情特性を伴って前記顔の口の動きに同期して出力される音声を真似るよう、前記画像ベクトルの系列をビデオとして出力する、
ように構成され、
前記統計的モデルは、前記音響単位を前記画像ベクトルに関連付ける確率分布を記述する複数のモデルパラメータを持ち、
前記画像ベクトルは、前記顔を定義する複数のパラメータを含み、
前記選択された表情特性における各確率分布の所定の種別のパラメータは、パラメータの重み付き和として表現される、
システム。 - コンピュータに請求項1記載の方法を行わせるように構成されたコンピュータ可読コードを具備するプログラム。
- コンピュータに請求項21記載の方法を行わせるように構成されたコンピュータ可読コードを具備するプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1301583.9 | 2013-01-29 | ||
GB1301583.9A GB2510200B (en) | 2013-01-29 | 2013-01-29 | A computer generated head |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014014924A Division JP2014146339A (ja) | 2013-01-29 | 2014-01-29 | コンピュータ生成ヘッド |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016042362A true JP2016042362A (ja) | 2016-03-31 |
JP6109901B2 JP6109901B2 (ja) | 2017-04-05 |
Family
ID=47890966
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014014924A Pending JP2014146339A (ja) | 2013-01-29 | 2014-01-29 | コンピュータ生成ヘッド |
JP2015194171A Active JP6109901B2 (ja) | 2013-01-29 | 2015-09-30 | コンピュータ生成ヘッド |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014014924A Pending JP2014146339A (ja) | 2013-01-29 | 2014-01-29 | コンピュータ生成ヘッド |
Country Status (5)
Country | Link |
---|---|
US (1) | US9959657B2 (ja) |
EP (1) | EP2760023A1 (ja) |
JP (2) | JP2014146339A (ja) |
CN (1) | CN103971393A (ja) |
GB (1) | GB2510200B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020256471A1 (ko) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | 머신 러닝 기반의 발화 동영상 생성 방법 및 장치 |
JP7500582B2 (ja) | 2019-01-25 | 2024-06-17 | ソウル マシーンズ リミティド | 発話アニメーションのリアルタイム生成 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2516965B (en) | 2013-08-08 | 2018-01-31 | Toshiba Res Europe Limited | Synthetic audiovisual storyteller |
US9378735B1 (en) * | 2013-12-19 | 2016-06-28 | Amazon Technologies, Inc. | Estimating speaker-specific affine transforms for neural network based speech recognition systems |
CN106327555A (zh) * | 2016-08-24 | 2017-01-11 | 网易(杭州)网络有限公司 | 一种获得唇形动画的方法及装置 |
JP6767224B2 (ja) | 2016-09-29 | 2020-10-14 | 株式会社東芝 | コミュニケーション装置、コミュニケーション方法、およびコミュニケーションプログラム |
US10554957B2 (en) * | 2017-06-04 | 2020-02-04 | Google Llc | Learning-based matching for active stereo systems |
US10586368B2 (en) | 2017-10-26 | 2020-03-10 | Snap Inc. | Joint audio-video facial animation system |
CN107977674B (zh) * | 2017-11-21 | 2020-02-18 | Oppo广东移动通信有限公司 | 图像处理方法、装置、移动终端及计算机可读存储介质 |
KR20210048441A (ko) * | 2018-05-24 | 2021-05-03 | 워너 브로스. 엔터테인먼트 인크. | 디지털 비디오에서의 입 모양과 움직임을 대체 오디오에 매칭 |
KR102079453B1 (ko) * | 2018-07-31 | 2020-02-19 | 전자부품연구원 | 비디오 특성에 부합하는 오디오 합성 방법 |
CN110288077B (zh) * | 2018-11-14 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的合成说话表情的方法和相关装置 |
CN110035271B (zh) * | 2019-03-21 | 2020-06-02 | 北京字节跳动网络技术有限公司 | 保真图像生成方法、装置及电子设备 |
US10957304B1 (en) * | 2019-03-26 | 2021-03-23 | Audible, Inc. | Extracting content from audio files using text files |
CN110347867B (zh) * | 2019-07-16 | 2022-04-19 | 北京百度网讯科技有限公司 | 用于生成嘴唇动作视频的方法和装置 |
US11151979B2 (en) | 2019-08-23 | 2021-10-19 | Tencent America LLC | Duration informed attention network (DURIAN) for audio-visual synthesis |
CN111415677B (zh) * | 2020-03-16 | 2020-12-25 | 北京字节跳动网络技术有限公司 | 用于生成视频的方法、装置、设备和介质 |
CN113468883B (zh) * | 2020-03-30 | 2024-04-30 | 株式会社理光 | 位置信息的融合方法、装置及计算机可读存储介质 |
CN112634866B (zh) * | 2020-12-24 | 2024-05-14 | 北京猎户星空科技有限公司 | 语音合成模型训练和语音合成方法、装置、设备及介质 |
CN112907706A (zh) * | 2021-01-31 | 2021-06-04 | 云知声智能科技股份有限公司 | 基于多模态的声音驱动动漫视频生成方法、装置及系统 |
WO2023287416A1 (en) * | 2021-07-15 | 2023-01-19 | Hewlett-Packard Development Company, L.P. | Rendering avatar to have viseme corresponding to phoneme within detected speech |
CN117275129B (zh) * | 2023-10-29 | 2024-04-16 | 浙江华屹物联技术有限公司 | 一种基于物联网的语音结合人脸识别的门禁系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003281567A (ja) * | 2002-03-20 | 2003-10-03 | Oki Electric Ind Co Ltd | 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体 |
JP2007507784A (ja) * | 2003-09-30 | 2007-03-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオビジュアルコンテント合成システム及び方法 |
JP2008052628A (ja) * | 2006-08-28 | 2008-03-06 | Advanced Telecommunication Research Institute International | アニメーションデータ作成装置及びアニメーションデータ作成プログラム |
US20100082345A1 (en) * | 2008-09-26 | 2010-04-01 | Microsoft Corporation | Speech and text driven hmm-based body animation synthesis |
WO2012154618A2 (en) * | 2011-05-06 | 2012-11-15 | Seyyer, Inc. | Video generation based on text |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1144172C (zh) * | 1998-04-30 | 2004-03-31 | 松下电器产业株式会社 | 包括最大似然方法的基于本征音的发言者适应方法 |
US6343267B1 (en) * | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6735566B1 (en) * | 1998-10-09 | 2004-05-11 | Mitsubishi Electric Research Laboratories, Inc. | Generating realistic facial animation from speech |
US6366885B1 (en) | 1999-08-27 | 2002-04-02 | International Business Machines Corporation | Speech driven lip synthesis using viseme based hidden markov models |
CN1320497C (zh) * | 2002-07-03 | 2007-06-06 | 中国科学院计算技术研究所 | 基于统计与规则结合的语音驱动人脸动画方法 |
US7613613B2 (en) * | 2004-12-10 | 2009-11-03 | Microsoft Corporation | Method and system for converting text to lip-synchronized speech in real time |
JP2007006182A (ja) | 2005-06-24 | 2007-01-11 | Fujifilm Holdings Corp | 画像処理装置および方法並びにプログラム |
US7784580B2 (en) | 2005-11-18 | 2010-08-31 | Toyota Jidosha Kabushiki Kaisha | Fuel supply system component protective construction |
KR101541907B1 (ko) | 2008-10-14 | 2015-08-03 | 삼성전자 주식회사 | 음성 기반 얼굴 캐릭터 형성 장치 및 방법 |
US8204301B2 (en) | 2009-02-25 | 2012-06-19 | Seiko Epson Corporation | Iterative data reweighting for balanced model learning |
US8260038B2 (en) | 2009-02-25 | 2012-09-04 | Seiko Epson Corporation | Subdivision weighting for robust object model fitting |
US8825485B2 (en) | 2009-06-10 | 2014-09-02 | Kabushiki Kaisha Toshiba | Text to speech method and system converting acoustic units to speech vectors using language dependent weights for a selected language |
US9728203B2 (en) * | 2011-05-02 | 2017-08-08 | Microsoft Technology Licensing, Llc | Photo-realistic synthesis of image sequences with lip movements synchronized with speech |
GB2501062B (en) | 2012-03-14 | 2014-08-13 | Toshiba Res Europ Ltd | A text to speech method and system |
-
2013
- 2013-01-29 GB GB1301583.9A patent/GB2510200B/en active Active
-
2014
- 2014-01-29 US US14/167,238 patent/US9959657B2/en active Active
- 2014-01-29 EP EP14153137.6A patent/EP2760023A1/en not_active Withdrawn
- 2014-01-29 JP JP2014014924A patent/JP2014146339A/ja active Pending
- 2014-01-29 CN CN201410050837.7A patent/CN103971393A/zh active Pending
-
2015
- 2015-09-30 JP JP2015194171A patent/JP6109901B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003281567A (ja) * | 2002-03-20 | 2003-10-03 | Oki Electric Ind Co Ltd | 3次元画像生成装置およびその画像生成方法ならびにその画像生成プログラムを記録したコンピュータ読取り可能な記録媒体 |
JP2007507784A (ja) * | 2003-09-30 | 2007-03-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオビジュアルコンテント合成システム及び方法 |
JP2008052628A (ja) * | 2006-08-28 | 2008-03-06 | Advanced Telecommunication Research Institute International | アニメーションデータ作成装置及びアニメーションデータ作成プログラム |
US20100082345A1 (en) * | 2008-09-26 | 2010-04-01 | Microsoft Corporation | Speech and text driven hmm-based body animation synthesis |
WO2012154618A2 (en) * | 2011-05-06 | 2012-11-15 | Seyyer, Inc. | Video generation based on text |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7500582B2 (ja) | 2019-01-25 | 2024-06-17 | ソウル マシーンズ リミティド | 発話アニメーションのリアルタイム生成 |
WO2020256471A1 (ko) * | 2019-06-21 | 2020-12-24 | 주식회사 머니브레인 | 머신 러닝 기반의 발화 동영상 생성 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
GB2510200B (en) | 2017-05-10 |
US20140210830A1 (en) | 2014-07-31 |
GB2510200A (en) | 2014-07-30 |
JP6109901B2 (ja) | 2017-04-05 |
CN103971393A (zh) | 2014-08-06 |
EP2760023A1 (en) | 2014-07-30 |
GB201301583D0 (en) | 2013-03-13 |
JP2014146339A (ja) | 2014-08-14 |
US9959657B2 (en) | 2018-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6109901B2 (ja) | コンピュータ生成ヘッド | |
US9361722B2 (en) | Synthetic audiovisual storyteller | |
US11144597B2 (en) | Computer generated emulation of a subject | |
JP2016029576A (ja) | コンピュータ生成ヘッド | |
JP6092293B2 (ja) | テキスト読み上げシステム | |
JP6246777B2 (ja) | 音声合成方法、装置及びプログラム | |
US20180151177A1 (en) | Speech recognition system and method using an adaptive incremental learning approach | |
JP2015057651A (ja) | 音声処理システム及び方法 | |
KR20060090687A (ko) | 시청각 콘텐츠 합성을 위한 시스템 및 방법 | |
Wang et al. | HMM trajectory-guided sample selection for photo-realistic talking head | |
Hrúz et al. | Automatic fingersign-to-speech translation system | |
Chiţu¹ et al. | Automatic visual speech recognition | |
Schabus et al. | Speaker-adaptive visual speech synthesis in the HMM-framework. | |
Hilder et al. | In pursuit of visemes | |
Narwekar et al. | PRAV: A Phonetically Rich Audio Visual Corpus. | |
d’Alessandro et al. | Reactive statistical mapping: Towards the sketching of performative control with data | |
Schabus et al. | Building a synchronous corpus of acoustic and 3D facial marker data for adaptive audio-visual speech synthesis. | |
KR102532253B1 (ko) | 스펙트로그램에 대응하는 어텐션 얼라인먼트의 디코더 스코어를 연산하는 방법 및 음성 합성 시스템 | |
Edge et al. | Model-based synthesis of visual speech movements from 3D video | |
Whipple et al. | Foreign language visemes for use in lip-synching with computer-generated audio | |
CN117635892A (zh) | 人脸模型的表情调整方法、装置、设备及存储介质 | |
Filntisis et al. | Video-realistic expressive audio-visual speech synthesis for the Greek | |
Inanoglu et al. | Multimodal Speaker Identity Conversion | |
Inanoglu et al. | MULTIMODAL SPEAKER IDENTITY CONVERSION-CONTINUED | |
JP2003280677A (ja) | 口形状ライブラリを作成するための分解方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170308 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6109901 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |