JP2003280677A - 口形状ライブラリを作成するための分解方法 - Google Patents
口形状ライブラリを作成するための分解方法Info
- Publication number
- JP2003280677A JP2003280677A JP2003066584A JP2003066584A JP2003280677A JP 2003280677 A JP2003280677 A JP 2003280677A JP 2003066584 A JP2003066584 A JP 2003066584A JP 2003066584 A JP2003066584 A JP 2003066584A JP 2003280677 A JP2003280677 A JP 2003280677A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- mouth shape
- information
- dependent
- independent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Processing Or Creating Images (AREA)
Abstract
を作成する。 【解決手段】 口形状ライブラリは、話者依存性変動と
話者独立性変動を分離することで作成される。好ましく
は、話者依存性変動を話者空間42によってモデル化す
る一方、話者独立性変動(すなわち、文脈依存性)を1
回だけ作成すればよい標準型口形状の集合44によって
モデル化する。新しい話者から少量のデータが与えられ
ると、適応データの尤度を最大にする話者空間内の点を
推定し、話者依存性変動と話者独立性変動を結合するこ
とによって、対応する口形状ライブラリを作成する。話
者空間42を構築するため、文脈独立性の口形状パラメ
ータ表現を入手する。その後、話者空間42内の話者ご
とに、文脈独立性口形状データの集合を含んだスーパー
ベクトルを形成する。次元数削減技術38を利用して、
話者空間42の各領域を求める。
Description
模擬口形状を表示するオーディオビジュアルテキスト音
声合成システムなど、様々なマルチメディアアプリケー
ションで使用される口形状の生成に関し、特に、話者依
存性の変動と話者独立性の変動を分離する技術に基づい
て口形状のライブラリを作成するシステムおよび方法に
関する。
テキスト音声合成アプリケーションにおいてトーキング
ヘッドの動画シーケンスを生成することは、特に、様々
な口形状を表す画像を撮影した場合に、非常に単調にな
りやすい。口形状は、調音結合現象(音響同士間の影
響)によって影響されるので、音声部分とトーキングヘ
ッドの動画とをうまく一致させるためには、動画による
形状を多数格納した大きなライブラリが必要とされる。
3Dモデル作成技術の発達やより高速なコンピュータが
利用可能になったことは、実際の人間から撮影された画
像や最新のモデル作成技術に基づいて現実感のあるトー
キングヘッドを開発することへの関心を高めるきっかけ
となった。
集合を基にして実際の顔画像のコンピュータモデルを作
成することが可能になったとはいえ、音声データと画像
データすなわちビデオデータとをうまく同期させるのに
必要な口形状ライブラリの作成はまだ困難である。
れまで提案されてきた解決策の場合には、多数の口形状
を用いて調音結合のライブラリを作成することが必要で
あり、この作業は非常に時間のかかるものである。現
在、特定話者に何時間も口形状のサンプルを登録させな
い限り、音声と画像とがうまく同期する口形状ライブラ
リを作成するのに有効な方法はない。
まく同期する口形状ライブラリを作成できれば本当に望
ましいことであるが、そのような技術はこれまで存在し
なかった。
状データだけで口形状ライブラリを作成するシステムと
方法を提供することである。
は、口形状ライブラリの作成方法が提供される。この方
法は、話者独立性口形状モデルの情報を提供する工程
と、話者依存性口形状モデルの変動に関する情報を提供
する工程と、新しい話者の口形状データを入手する工程
と、上記新しい話者の口形状データと上記話者依存性口
形状モデルの変動に関する情報とに基づいて話者依存性
口形状モデルの情報を推定する工程と、上記話者独立性
口形状モデルの情報と上記話者依存性口形状モデルの情
報とに基づいて口形状ライブラリを作成する工程とを備
えている。
状モデルの情報と話者依存性口形状モデルの変動に関す
る情報とを格納するコンピュータメモリと、話者の口形
状データを受け取る入力部と、上記口形状データと上記
話者依存性口形状モデルの変動に関する情報とに基づい
て話者依存性口形状モデルの情報を推定し、上記話者独
立性口形状モデルの情報と上記話者依存性口形状モデル
の情報とに基づいて口形状ライブラリを作成する口形状
ライブラリ作成モジュールとを備えた適応型オーディオ
ビジュアルテキスト音声合成システムが提供される。
オビジュアルテキスト音声合成システムに使用される口
形状ライブラリ作成モジュールを製作する方法が提供さ
れる。この方法は、複数の学習用話者からの口形状デー
タに基づいて話者独立性口形状モデルの情報と話者依存
性口形状モデルの変動に関する情報とを求める工程と、
上記話者独立性口形状モデルの情報と上記話者依存性口
形状モデルの変動に関する情報とをコンピュータメモリ
に格納する工程と、話者依存性口形状データと上記話者
依存性口形状モデルの変動に関する情報とに基づいて話
者依存性口形状モデルの情報を推定する工程と、上記話
者独立性口形状モデルの情報と上記話者依存性口形状モ
デルの情報とに基づいて口形状ライブラリを作成する工
程とを備えている。
(話者による変動)を話者空間によってモデル化する一
方、話者独立性の変動(すなわち、文脈依存性(文脈に
よる変動))を1回だけ作成すればよい標準型口形状の
集合によってモデル化する。新しい話者から少量のデー
タが与えられると、適応データの尤度を最大にする話者
空間内の点を推定することによって、対応する口形状ラ
イブラリを作成することができる。この技術によれば、
わずかな口形状インスタンスで口形状ライブラリを作成
することができるので、トーキングヘッドの製作が非常
に容易になる。話者空間を構築するため、口形状のパラ
メータ表現を入手する。その後、話者空間内の話者ごと
に、文脈独立性の(文脈によらない)口形状の集合を含
んだスーパーベクトルを形成する。主成分分析(PC
A)、線形判別分析(LDA)などの次元数削減技術を
利用して、話者空間の各領域を求める。
下に記載の詳細な説明から明らかになるであろう。な
お、本発明の好ましい実施形態を示す以下の詳細な説明
と具体例は例示に過ぎず、本発明の範囲を限定すること
を意図するものではない。
を図面に基づいて詳細に説明する。
本質的に例示に過ぎず、本発明、その用途および使用法
を限定するものでは全くない。
ースのシステムを用いて口形状ライブラリが作成され
る。モデルベースシステムは、N人の学習用話者から学
習を行った後、新しい話者(場合によっては、学習用話
者の1人であってもよい)からの口形状データを適応化
することによって口形状データを生成する際に使用され
る。このシステムは、前と次の口形状に依存して口形状
特性を同定することによって文脈を考慮する。好ましい
実施形態では、話者独立性の変動と話者依存性の変動と
が分離、すなわち、分解される。本システムは、文脈依
存性の(特定の文脈の)口形状を話者独立性の変動に関
連づける一方、文脈独立性の口形状を話者依存性の変動
に関連づける。
に応じてデータを編成する決定木に格納される。さら
に、学習時には、話者依存性のデータを使用して、N個
の学習用話者母集団の話者依存特性を表現する固有空間
が構築される。
場合は、新しい話者が、必ずしも全てではなくいくつか
の口形素(visemes)によって口形状データのサンプルを
提供する。口形素は、特定音素の調音と関連づけされた
口形状である。このデータサンプルから、新しい話者が
固有空間に配置、すなわち、射影される。固有空間内の
新しい話者の位置から、話者依存性の(文脈独立性の)
パラメータ集合が推定される。これらのパラメータか
ら、本システムは、文脈独立性の重心を生成する。重心
には、決定木からの文脈依存性データが付加される。文
脈依存性データは、それぞれ異なる文脈に対応するズレ
として重心に付加されてもよい。このようにして、口形
状ライブラリ全体を作成することができる。この口形状
ライブラリ作成プロセスをより深く理解するため、図1
ないし図3に基づいて以下に詳細に説明する。
方法10が12で開始されると、ステップ14に進み、
話者独立性口形状モデルの情報が提供される。好ましい
実施形態では、話者独立性口形状モデル情報は、文脈依
存性のデルタ決定木に格納されるパラメータ空間に対応
する。方法10はステップ16に進み、話者依存性口形
状モデルの変動に関する情報が提供される。好ましい実
施形態では、ステップ16で、文脈独立性の話者空間が
生成され、この話者空間は、複数の口形状を話者単位で
パラメータで表現することによって文脈独立性かつ話者
依存性のパラメータ空間を生成するように処理すること
が可能である。また、好ましい実施形態では、話者独立
性のデータを使用して、N人の学習用話者に対応する固
有空間を生成する。次に、方法10はステップ18に進
み、新しい話者の口形状データが入手される。その場
合、好ましくは、口形状入力のプロンプトの後に画像検
出を経てから、データが入手される。また、好ましく
は、ステップ18で、口形状入力がパラメータで表現さ
れる。固有空間でN人の話者の母集団を表現する実施形
態の場合、異なる口形素の全てについて新しい話者の入
力データを入手する必要はない。
手した口形状データおよび話者依存性口形状モデルの変
動に関する情報に基づいて、話者依存性口形状モデルの
情報が推定される。方法10はさらにステップ22に進
み、話者独立性口形状モデル情報および話者依存性口形
状モデル情報に基づいて、口形状ライブラリが作成され
る。好ましい実施形態では、ステップ22で、話者依存
性かつ文脈独立性のパラメータ空間と話者独立性かつ文
脈依存性のパラメータ空間とを加えて、話者依存性かつ
文脈依存性のパラメータ空間が得られる。これにより、
方法10は24で終了する。
話者依存性パラメータ表現および話者依存性口形状モデ
ルの変動に関する情報に基づいて、話者依存性文脈独立
性スーパーベクトルが作成される。具体的には、話者依
存性パラメータ表現に基づいて、話者空間(固有空間)
内の点が推定され、この推定された話者空間内の点に基
づいて、話者依存性文脈独立性スーパーベクトルが作成
される。適切な点を推定する1つの方法は、全ての口形
素が入手可能であれば、ユークリッド距離を使用して話
者空間内の点を推定することである。しかしながら、そ
のパラメータ表現が隠れマルコフモデルからのガウス分
布に一致する場合には、口形状の動きが状態の遷移であ
ると仮定すると、最尤推定技術(MLET)を使用する
ことができる。実際には、最尤推定技術は、実際にどの
程度の口形状データが入手できるかに関係なく、話者の
口形状入力データと最も一致する話者空間の中でスーパ
ーベクトルを選択することになる。
合の観測データを生成する確率を表す確率関数Qが使用
される。確率関数Qの操作は、この関数が確率項Pだけ
でなくその項の対数であるlogPも含んでいる場合に
容易になる。その場合、確率関数は、各固有値について
個別に確率関数の導関数をとることによって最大化され
る。例えば、話者空間が100次元であれば、このシス
テムは、確率関数Qの100個の導関数を算出し、各導
関数を0に設定して各固有値Wについて解く。
は、最大尤度の点に対応する話者空間内の点を同定する
のに必要な固有値を表す。したがって、固有値Wの集合
は、話者空間内の最大尤度ベクトルを含んでいる。その
後、この最大尤度ベクトルを使用して話者空間内の最適
点に対応するスーパーベクトルを作成することができ
る。
ては、与えられたモデルに対する観測値Oの尤度を最大
にする必要がある。これは、以下の式
される補助関数Qを繰返し最大化することによって行う
ことができる。
最大化する場合もある。確率Pが口形状モデル集合によ
って与えられるため、以下の式が得られる。
は状態sの混合ガウス分布mの逆共分散、μ^m (s)は状
態sの混合成分mの適応平均の近似値、γm (s)(t)は混
合ガウス分布m|λ,otを用いた確率Pをそれぞれ表
す。
話者空間内に位置すると仮定し、この空間に以下の平均
スーパーベクトルμj(j=1,...,E)が広がる
とする。
モデル)jの状態sにおける混合ガウス分布mの平均ベ
クトルを表す。この場合、以下の近似値μ^が必要であ
る。
値である。ここで、いかなる新しい話者も観測済みの話
者のデータベースから線形結合の形でモデル化できると
仮定する。その場合、
Mの混合ガウス分布である。
∂we=0,e=1,...,Eと設定する必要がある
(但し、固有ベクトルは直交であるので、∂wi/∂wj
=0,i≠j)。したがって、以下の式が成り立つ。
られる。
式が求められる。
独立性変動への分解の好ましい実施形態では、N人の学
習用話者26から入力された口形状に基づいて、パラメ
ータ空間が生成される。この学習用話者のパラメータ空
間は、学習用話者から収集された口形状データから作成
されたスーパーベクトル28から構成されている。例え
ば、口形状は、1状態当たりに1つ以上のガウス分布を
有する隠れマルコフモデルまたはその他の確率モデルの
形でモデル化される。パラメータ空間は、ガウス分布の
定義に使用されるパラメータ値を用いることによって構
築されてもよい。
性(話者依存性)変動とは、以下のようにして分離すな
わち分解される。まず、学習用話者データ26から文脈
独立性話者依存性データ34が入手され、その後、この
データ34の平均値が分離プロセス30に入力として送
られる。分離プロセス30は、ラベル付き文脈情報32
から文脈の知識を入手し、さらに、学習用話者データ2
6からの入力も受け取る。分離プロセス30は、文脈の
知識を利用して、学習用話者データから文脈独立性話者
依存性データ34の平均値を減算する。これにより、分
離プロセス30は、文脈依存性話者独立性データ36を
生成すなわち抽出する。この文脈依存性話者独立性デー
タ36は、デルタ決定木44のデータ構造に格納され
る。
立性データ36を表すガウス分布データが、様々な口形
素に関するデルタ決定木44の形で格納され、このデル
タ決定木44は、終端ではない節46のyes/no文
脈に基づく質問と、終端節48の特定の口形状をあらわ
すガウス分布データとから構成されている。
34は、スーパーベクトルの形のまま反射され、このス
ーパーベクトルは、主成分分析(PCA)、独立成分分
析(ICA)、線形判別分析(LDA)、因子分析(F
A)、特異値分解(SVD)などの適切な次元数削減技
術によって次元数が削減される(38)。その結果、固
有ベクトルの集合とそれに関連する固有値とが抽出され
る。好ましい実施形態では、話者空間42のサイズを削
減するために、プロセス40で、最下位の固有ベクトル
の一部が切り捨てられる。これにより、場合に応じてい
くらかの上位固有ベクトルが残されて、固有空間、すな
わち、話者空間42が構築される。生成された固有ベク
トルの全てを残すことも可能であるが、話者空間42を
記憶する所要メモリ量を削減するために、プロセス40
が実行されることが好ましい。
空間)42とデルタ決定木44が生成されると、新しい
話者の口形状ライブラリを作成する際にシステムを使用
する準備が整う。この場合、新しい話者は、学習時に事
前に口形状データを提供しなかった話者であってもよい
し、学習時に参加した話者の1人であってもよい。
テムと工程を示す。
ら、口形状データのパラメータ表現50が入手される。
この段階で全ての口形素に関する口形状パラメータデー
タの完全集合を収集することもできるが、実際には、必
要ではない。固有空間内の点を同定できるだけの口形状
データのサンプルが得られるだけで充分である。これに
より、話者空間42内の点Pは、口形状データのパラメ
ータ表現50に基づいて推定され、文脈独立性話者依存
性パラメータ空間52が、固有空間(話者空間)内の点
Pに対応する重心53の形で生成される。固有空間を使
うことによる1つの大きな利点は、新しい話者によって
与えられなかった口形状の口形素のパラメータを自動的
に推定できることである。それは、固有空間がN個の学
習用話者母集団の話者依存性データに基づいているから
であり、そのためには、口形状データの完全集合が既に
与えられていることが好ましい。
存性パラメータ空間52の重心53に対して、デルタ決
定木44の形で格納されている文脈依存性話者独立性口
形状データ48が付加されることによって、口形状ライ
ブラリ56が成立する。
が、文脈ごとにデルタ決定木から取り出され、取り出さ
れたデータが、固有空間を用いて作成された話者依存性
データと結合、すなわち、合算されることによって、新
しい話者の口形状ライブラリが作成される。実際には、
固有空間から作成された話者依存性データは、重心とみ
なすことができ、話者独立性データは、その重心からの
「デルタ」、すなわち、ズレとみなすことができる。こ
の点に関して、固有空間から作成されるデータは、特定
話者に対応する口形状情報を表している(その情報の一
部は、固有空間の作用による推定値を表している)。一
方、デルタ決定木から得られるデータは、様々な文脈に
おける口形状間の話者独立性の差を表している。このよ
うに、文脈ごとに話者依存性情報(重心)と話者独立性
情報(ズレ)とを結合させることによって、新しい口形
状ライブラリが作成される。
ィオビジュアルテキスト音声合成システム58では、コ
ンピュータメモリ内に、話者独立性口形状モデル情報6
0と、話者依存性口形状モデルの変動に関する情報62
とが格納されている。また、このシステム58は、新し
い話者から口形状データ66を受け取る入力部64を有
している。口形状ライブラリ作成モジュール68は、新
しい話者からの口形状データ66と話者依存性口形状モ
デルの変動に関する情報62とに基づく話者依存性口形
状モデル情報(図示せず)の推定と、話者独立性口形状
モデル情報60と話者依存性口形状モデル情報(図示せ
ず)とに基づく口形状ライブラリ70の作成とを行うよ
うに動作することができる。
に過ぎず、したがって、本発明の主旨から逸脱しない変
形は本発明の範囲内に含まれるものである。そのような
変形は、本発明の精神および範囲から逸脱するものとみ
なすべきではない。
フロー図。
存性変動と話者独立性変動への分解を示すブロック図。
イブラリ作成方法のブロック図。
テキスト音声合成システムのブロック図。
ステム 64 入力部
Claims (13)
- 【請求項1】話者独立性口形状モデルの情報を文脈単位
に編成して提供する工程と、 少なくとも1人の学習用話者に基づいて、話者依存性口
形状モデルの情報を提供する工程と、 新しい話者の口形状データを入手する工程と、 上記新しい話者の口形状データと上記話者依存性口形状
モデルの情報とに基づいて、文脈独立性口形状モデルの
情報を推定する工程と、 上記話者独立性口形状モデルの情報に基づいて、文脈依
存性口形状モデルの情報を同定する工程と、 上記文脈独立性口形状モデルの情報と上記文脈依存性口
形状モデルの情報とを結合することによって、口形状ラ
イブラリを作成する工程とを備えることを特徴とする口
形状ライブラリ作成方法。 - 【請求項2】 請求項1において、 上記話者独立性口形状モデルの情報は、決定木に編成さ
れることを特徴とする口形状ライブラリ作成方法。 - 【請求項3】 請求項1において、 上記話者独立性口形状モデルの情報を、節が文脈に従っ
て編成される決定木に編成する工程をさらに備えること
を特徴とする口形状ライブラリ作成方法。 - 【請求項4】 請求項1において、 上記話者依存性口形状モデルの情報は、次元数が削減さ
れた話者空間で表現されることを特徴とする口形状ライ
ブラリ作成方法。 - 【請求項5】 請求項1において、 複数の学習用話者から収集された文脈独立性口形状モデ
ルの情報から固有空間を生成することによって、上記話
者依存性口形状モデルの情報を提供する工程をさらに備
えることを特徴とする口形状ライブラリ作成方法。 - 【請求項6】 請求項1において、 上記新しい話者の口形状データは、口形素であることを
特徴とする口形状ライブラリ作成方法。 - 【請求項7】 請求項1において、 上記新しい話者の口形状データを入手する工程は、上記
新しい話者から口形素データのサンプルを収集すること
によって行われることを特徴とする口形状ライブラリ作
成方法。 - 【請求項8】 請求項7において、 上記口形素データのサンプルは、発話された言葉を構成
する口形素の不完全な集合であることを特徴とする口形
状ライブラリ作成方法。 - 【請求項9】 請求項1において、 少なくとも1人の学習用話者から口形状の入力を得る工
程と、 上記学習用話者から複数の口形状を観測する工程と、 上記複数の口形状の観測値の話者依存性パラメータ表現
を作成する工程と、 上記話者依存性パラメータ表現を用いて上記話者依存性
口形状モデルの情報を作成する工程とをさらに備えるこ
とを特徴とする口形状ライブラリ作成方法。 - 【請求項10】話者独立性口形状モデルの情報と話者依
存性口形状モデルの情報とを格納するコンピュータメモ
リと、 話者の口形状データを受け取る入力部と、 上記口形状データと上記話者依存性口形状モデルの情報
とに基づいて、文脈独立性の重心を推定するよう動作可
能な重心生成モジュールと、 上記文脈独立性の重心を上記話者独立性口形状モデルの
情報に結合することによって口形状ライブラリを作成す
る口形状ライブラリ作成モジュールとを備えることを特
徴とする口形状ライブラリ生成システム。 - 【請求項11】 請求項10において、 上記話者独立性口形状モデルの情報は、上記コンピュー
タメモリに保存された決定木に編成されていることを特
徴とする口形状ライブラリ作成システム。 - 【請求項12】 請求項10において、 上記話者独立性口形状モデルの情報は、節が文脈に従っ
て編成された少なくとも1つの決定木の形で上記コンピ
ュータメモリに格納されていることを特徴とする口形状
ライブラリ作成システム。 - 【請求項13】 請求項10において、 上記話者依存性口形状モデルの情報は、次元数が削減さ
れた話者空間で表現されていることを特徴とする口形状
ライブラリ作成システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/095,813 US7069214B2 (en) | 2001-02-26 | 2002-03-12 | Factorization for generating a library of mouth shapes |
US10/095,813 | 2002-03-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003280677A true JP2003280677A (ja) | 2003-10-02 |
JP4242676B2 JP4242676B2 (ja) | 2009-03-25 |
Family
ID=29248147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003066584A Expired - Fee Related JP4242676B2 (ja) | 2002-03-12 | 2003-03-12 | 口形状ライブラリを作成するための分解方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4242676B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058696A (ja) * | 2006-08-31 | 2008-03-13 | Nara Institute Of Science & Technology | 声質変換モデル生成装置及び声質変換システム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05153581A (ja) * | 1991-12-02 | 1993-06-18 | Seiko Epson Corp | 顔画像符号化方式 |
JPH10312195A (ja) * | 1997-05-13 | 1998-11-24 | Seiko Epson Corp | 話者音質変換方法および話者音質変換装置 |
JPH11219421A (ja) * | 1998-01-30 | 1999-08-10 | Toshiba Corp | 画像認識装置及び画像認識装置方法 |
JP2000122677A (ja) * | 1998-10-09 | 2000-04-28 | Sony Corp | パラメータ抽出装置およびパラメータ抽出方法 |
JP2002156989A (ja) * | 2000-11-22 | 2002-05-31 | Minolta Co Ltd | 音声合成方法および音声合成システム |
JP2002304194A (ja) * | 2001-02-05 | 2002-10-18 | Masanobu Kujirada | 音声及び/又は口形状入力のためのシステム、方法、プログラム |
-
2003
- 2003-03-12 JP JP2003066584A patent/JP4242676B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05153581A (ja) * | 1991-12-02 | 1993-06-18 | Seiko Epson Corp | 顔画像符号化方式 |
JPH10312195A (ja) * | 1997-05-13 | 1998-11-24 | Seiko Epson Corp | 話者音質変換方法および話者音質変換装置 |
JPH11219421A (ja) * | 1998-01-30 | 1999-08-10 | Toshiba Corp | 画像認識装置及び画像認識装置方法 |
JP2000122677A (ja) * | 1998-10-09 | 2000-04-28 | Sony Corp | パラメータ抽出装置およびパラメータ抽出方法 |
JP2002156989A (ja) * | 2000-11-22 | 2002-05-31 | Minolta Co Ltd | 音声合成方法および音声合成システム |
JP2002304194A (ja) * | 2001-02-05 | 2002-10-18 | Masanobu Kujirada | 音声及び/又は口形状入力のためのシステム、方法、プログラム |
Non-Patent Citations (1)
Title |
---|
松村光浩他: ""読唇の併用による音韻認識"", 電子情報通信学会技術研究報告, vol. Vol.93,No.426,SP93-124, JPN6008044860, 20 January 1994 (1994-01-20), pages 47 - 54, ISSN: 0001192296 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058696A (ja) * | 2006-08-31 | 2008-03-13 | Nara Institute Of Science & Technology | 声質変換モデル生成装置及び声質変換システム |
Also Published As
Publication number | Publication date |
---|---|
JP4242676B2 (ja) | 2009-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11144597B2 (en) | Computer generated emulation of a subject | |
US7636662B2 (en) | System and method for audio-visual content synthesis | |
US9959657B2 (en) | Computer generated head | |
US9361722B2 (en) | Synthetic audiovisual storyteller | |
Fan et al. | Photo-real talking head with deep bidirectional LSTM | |
Cao et al. | Expressive speech-driven facial animation | |
US9613450B2 (en) | Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech | |
TW493160B (en) | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training | |
US20140210831A1 (en) | Computer generated head | |
CN108364639A (zh) | 语音处理系统和方法 | |
JP2000081893A (ja) | 話者適応化または話者正規化方法 | |
CN113077537B (zh) | 一种视频生成方法、存储介质及设备 | |
CN109196583A (zh) | 动态语音识别数据评估 | |
JP2002149185A (ja) | 複数の学習用話者を表現する固有空間の決定方法 | |
JP2007058846A (ja) | リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム | |
US20020143539A1 (en) | Method of determining an eigenspace for representing a plurality of training speakers | |
JPH11338491A (ja) | 固有声に基いた最尤法を含む話者と環境適合化 | |
Filntisis et al. | Video-realistic expressive audio-visual speech synthesis for the Greek language | |
US7069214B2 (en) | Factorization for generating a library of mouth shapes | |
Vakhshiteh et al. | Lip-reading via deep neural networks using hybrid visual features | |
JP4242676B2 (ja) | 口形状ライブラリを作成するための分解方法 | |
Narwekar et al. | PRAV: A Phonetically Rich Audio Visual Corpus. | |
Verma et al. | Using viseme based acoustic models for speech driven lip synthesis | |
CN114627898A (zh) | 语音转换方法、装置、计算机设备、存储介质和程序产品 | |
Deena et al. | Speech-driven facial animation using a shared Gaussian process latent variable model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081225 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120109 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4242676 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |