JP2003280677A - 口形状ライブラリを作成するための分解方法 - Google Patents

口形状ライブラリを作成するための分解方法

Info

Publication number
JP2003280677A
JP2003280677A JP2003066584A JP2003066584A JP2003280677A JP 2003280677 A JP2003280677 A JP 2003280677A JP 2003066584 A JP2003066584 A JP 2003066584A JP 2003066584 A JP2003066584 A JP 2003066584A JP 2003280677 A JP2003280677 A JP 2003280677A
Authority
JP
Japan
Prior art keywords
speaker
mouth shape
information
dependent
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003066584A
Other languages
English (en)
Other versions
JP4242676B2 (ja
Inventor
Jean-Claude Junqua
クロード ジュンカ ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/095,813 external-priority patent/US7069214B2/en
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JP2003280677A publication Critical patent/JP2003280677A/ja
Application granted granted Critical
Publication of JP4242676B2 publication Critical patent/JP4242676B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【課題】 少量の口形状データだけで口形状ライブラリ
を作成する。 【解決手段】 口形状ライブラリは、話者依存性変動と
話者独立性変動を分離することで作成される。好ましく
は、話者依存性変動を話者空間42によってモデル化す
る一方、話者独立性変動(すなわち、文脈依存性)を1
回だけ作成すればよい標準型口形状の集合44によって
モデル化する。新しい話者から少量のデータが与えられ
ると、適応データの尤度を最大にする話者空間内の点を
推定し、話者依存性変動と話者独立性変動を結合するこ
とによって、対応する口形状ライブラリを作成する。話
者空間42を構築するため、文脈独立性の口形状パラメ
ータ表現を入手する。その後、話者空間42内の話者ご
とに、文脈独立性口形状データの集合を含んだスーパー
ベクトルを形成する。次元数削減技術38を利用して、
話者空間42の各領域を求める。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、合成口形状または
模擬口形状を表示するオーディオビジュアルテキスト音
声合成システムなど、様々なマルチメディアアプリケー
ションで使用される口形状の生成に関し、特に、話者依
存性の変動と話者独立性の変動を分離する技術に基づい
て口形状のライブラリを作成するシステムおよび方法に
関する。
【0002】
【従来の技術】マルチメディアアプリケーションおよび
テキスト音声合成アプリケーションにおいてトーキング
ヘッドの動画シーケンスを生成することは、特に、様々
な口形状を表す画像を撮影した場合に、非常に単調にな
りやすい。口形状は、調音結合現象(音響同士間の影
響)によって影響されるので、音声部分とトーキングヘ
ッドの動画とをうまく一致させるためには、動画による
形状を多数格納した大きなライブラリが必要とされる。
3Dモデル作成技術の発達やより高速なコンピュータが
利用可能になったことは、実際の人間から撮影された画
像や最新のモデル作成技術に基づいて現実感のあるトー
キングヘッドを開発することへの関心を高めるきっかけ
となった。
【0003】
【発明が解決しようとする課題】しかしながら、画像の
集合を基にして実際の顔画像のコンピュータモデルを作
成することが可能になったとはいえ、音声データと画像
データすなわちビデオデータとをうまく同期させるのに
必要な口形状ライブラリの作成はまだ困難である。
【0004】この点に関して進歩が続いてはいるが、こ
れまで提案されてきた解決策の場合には、多数の口形状
を用いて調音結合のライブラリを作成することが必要で
あり、この作業は非常に時間のかかるものである。現
在、特定話者に何時間も口形状のサンプルを登録させな
い限り、音声と画像とがうまく同期する口形状ライブラ
リを作成するのに有効な方法はない。
【0005】少量の口形状データだけで音声と画像がう
まく同期する口形状ライブラリを作成できれば本当に望
ましいことであるが、そのような技術はこれまで存在し
なかった。
【0006】したがって、本発明の目的は、少量の口形
状データだけで口形状ライブラリを作成するシステムと
方法を提供することである。
【0007】
【課題を解決するための手段】本発明の第1の側面で
は、口形状ライブラリの作成方法が提供される。この方
法は、話者独立性口形状モデルの情報を提供する工程
と、話者依存性口形状モデルの変動に関する情報を提供
する工程と、新しい話者の口形状データを入手する工程
と、上記新しい話者の口形状データと上記話者依存性口
形状モデルの変動に関する情報とに基づいて話者依存性
口形状モデルの情報を推定する工程と、上記話者独立性
口形状モデルの情報と上記話者依存性口形状モデルの情
報とに基づいて口形状ライブラリを作成する工程とを備
えている。
【0008】本発明の第2の側面では、話者独立性口形
状モデルの情報と話者依存性口形状モデルの変動に関す
る情報とを格納するコンピュータメモリと、話者の口形
状データを受け取る入力部と、上記口形状データと上記
話者依存性口形状モデルの変動に関する情報とに基づい
て話者依存性口形状モデルの情報を推定し、上記話者独
立性口形状モデルの情報と上記話者依存性口形状モデル
の情報とに基づいて口形状ライブラリを作成する口形状
ライブラリ作成モジュールとを備えた適応型オーディオ
ビジュアルテキスト音声合成システムが提供される。
【0009】本発明の第3の側面では、適応型オーディ
オビジュアルテキスト音声合成システムに使用される口
形状ライブラリ作成モジュールを製作する方法が提供さ
れる。この方法は、複数の学習用話者からの口形状デー
タに基づいて話者独立性口形状モデルの情報と話者依存
性口形状モデルの変動に関する情報とを求める工程と、
上記話者独立性口形状モデルの情報と上記話者依存性口
形状モデルの変動に関する情報とをコンピュータメモリ
に格納する工程と、話者依存性口形状データと上記話者
依存性口形状モデルの変動に関する情報とに基づいて話
者依存性口形状モデルの情報を推定する工程と、上記話
者独立性口形状モデルの情報と上記話者依存性口形状モ
デルの情報とに基づいて口形状ライブラリを作成する工
程とを備えている。
【0010】好ましい実施形態では、話者依存性の変動
(話者による変動)を話者空間によってモデル化する一
方、話者独立性の変動(すなわち、文脈依存性(文脈に
よる変動))を1回だけ作成すればよい標準型口形状の
集合によってモデル化する。新しい話者から少量のデー
タが与えられると、適応データの尤度を最大にする話者
空間内の点を推定することによって、対応する口形状ラ
イブラリを作成することができる。この技術によれば、
わずかな口形状インスタンスで口形状ライブラリを作成
することができるので、トーキングヘッドの製作が非常
に容易になる。話者空間を構築するため、口形状のパラ
メータ表現を入手する。その後、話者空間内の話者ごと
に、文脈独立性の(文脈によらない)口形状の集合を含
んだスーパーベクトルを形成する。主成分分析(PC
A)、線形判別分析(LDA)などの次元数削減技術を
利用して、話者空間の各領域を求める。
【0011】本発明のその他の適用分野については、以
下に記載の詳細な説明から明らかになるであろう。な
お、本発明の好ましい実施形態を示す以下の詳細な説明
と具体例は例示に過ぎず、本発明の範囲を限定すること
を意図するものではない。
【0012】
【発明の実施の形態】以下、本発明の好ましい実施形態
を図面に基づいて詳細に説明する。
【0013】なお、以下の好ましい実施形態の説明は、
本質的に例示に過ぎず、本発明、その用途および使用法
を限定するものでは全くない。
【0014】本発明の好ましい実施形態では、モデルベ
ースのシステムを用いて口形状ライブラリが作成され
る。モデルベースシステムは、N人の学習用話者から学
習を行った後、新しい話者(場合によっては、学習用話
者の1人であってもよい)からの口形状データを適応化
することによって口形状データを生成する際に使用され
る。このシステムは、前と次の口形状に依存して口形状
特性を同定することによって文脈を考慮する。好ましい
実施形態では、話者独立性の変動と話者依存性の変動と
が分離、すなわち、分解される。本システムは、文脈依
存性の(特定の文脈の)口形状を話者独立性の変動に関
連づける一方、文脈独立性の口形状を話者依存性の変動
に関連づける。
【0015】学習時には、話者独立性のデータが、文脈
に応じてデータを編成する決定木に格納される。さら
に、学習時には、話者依存性のデータを使用して、N個
の学習用話者母集団の話者依存特性を表現する固有空間
が構築される。
【0016】その後、新しい口形状ライブラリが必要な
場合は、新しい話者が、必ずしも全てではなくいくつか
の口形素(visemes)によって口形状データのサンプルを
提供する。口形素は、特定音素の調音と関連づけされた
口形状である。このデータサンプルから、新しい話者が
固有空間に配置、すなわち、射影される。固有空間内の
新しい話者の位置から、話者依存性の(文脈独立性の)
パラメータ集合が推定される。これらのパラメータか
ら、本システムは、文脈独立性の重心を生成する。重心
には、決定木からの文脈依存性データが付加される。文
脈依存性データは、それぞれ異なる文脈に対応するズレ
として重心に付加されてもよい。このようにして、口形
状ライブラリ全体を作成することができる。この口形状
ライブラリ作成プロセスをより深く理解するため、図1
ないし図3に基づいて以下に詳細に説明する。
【0017】図1に示すように、口形状ライブラリ作成
方法10が12で開始されると、ステップ14に進み、
話者独立性口形状モデルの情報が提供される。好ましい
実施形態では、話者独立性口形状モデル情報は、文脈依
存性のデルタ決定木に格納されるパラメータ空間に対応
する。方法10はステップ16に進み、話者依存性口形
状モデルの変動に関する情報が提供される。好ましい実
施形態では、ステップ16で、文脈独立性の話者空間が
生成され、この話者空間は、複数の口形状を話者単位で
パラメータで表現することによって文脈独立性かつ話者
依存性のパラメータ空間を生成するように処理すること
が可能である。また、好ましい実施形態では、話者独立
性のデータを使用して、N人の学習用話者に対応する固
有空間を生成する。次に、方法10はステップ18に進
み、新しい話者の口形状データが入手される。その場
合、好ましくは、口形状入力のプロンプトの後に画像検
出を経てから、データが入手される。また、好ましく
は、ステップ18で、口形状入力がパラメータで表現さ
れる。固有空間でN人の話者の母集団を表現する実施形
態の場合、異なる口形素の全てについて新しい話者の入
力データを入手する必要はない。
【0018】次に、方法10はステップ20に進み、入
手した口形状データおよび話者依存性口形状モデルの変
動に関する情報に基づいて、話者依存性口形状モデルの
情報が推定される。方法10はさらにステップ22に進
み、話者独立性口形状モデル情報および話者依存性口形
状モデル情報に基づいて、口形状ライブラリが作成され
る。好ましい実施形態では、ステップ22で、話者依存
性かつ文脈独立性のパラメータ空間と話者独立性かつ文
脈依存性のパラメータ空間とを加えて、話者依存性かつ
文脈依存性のパラメータ空間が得られる。これにより、
方法10は24で終了する。
【0019】好ましい実施形態では、ステップ20で、
話者依存性パラメータ表現および話者依存性口形状モデ
ルの変動に関する情報に基づいて、話者依存性文脈独立
性スーパーベクトルが作成される。具体的には、話者依
存性パラメータ表現に基づいて、話者空間(固有空間)
内の点が推定され、この推定された話者空間内の点に基
づいて、話者依存性文脈独立性スーパーベクトルが作成
される。適切な点を推定する1つの方法は、全ての口形
素が入手可能であれば、ユークリッド距離を使用して話
者空間内の点を推定することである。しかしながら、そ
のパラメータ表現が隠れマルコフモデルからのガウス分
布に一致する場合には、口形状の動きが状態の遷移であ
ると仮定すると、最尤推定技術(MLET)を使用する
ことができる。実際には、最尤推定技術は、実際にどの
程度の口形状データが入手できるかに関係なく、話者の
口形状入力データと最も一致する話者空間の中でスーパ
ーベクトルを選択することになる。
【0020】最尤推定技術では、所定の口形状モデル集
合の観測データを生成する確率を表す確率関数Qが使用
される。確率関数Qの操作は、この関数が確率項Pだけ
でなくその項の対数であるlogPも含んでいる場合に
容易になる。その場合、確率関数は、各固有値について
個別に確率関数の導関数をとることによって最大化され
る。例えば、話者空間が100次元であれば、このシス
テムは、確率関数Qの100個の導関数を算出し、各導
関数を0に設定して各固有値Wについて解く。
【0021】そのようにして得られた固有値Wの集合
は、最大尤度の点に対応する話者空間内の点を同定する
のに必要な固有値を表す。したがって、固有値Wの集合
は、話者空間内の最大尤度ベクトルを含んでいる。その
後、この最大尤度ベクトルを使用して話者空間内の最適
点に対応するスーパーベクトルを作成することができ
る。
【0022】最大尤度に関して、本発明の枠組みにおい
ては、与えられたモデルに対する観測値Oの尤度を最大
にする必要がある。これは、以下の式
【数1】 (但し、λはモデル、λ^は推定されたモデル)で表現
される補助関数Qを繰返し最大化することによって行う
ことができる。
【0023】予め近似化する方法として、平均値のみを
最大化する場合もある。確率Pが口形状モデル集合によ
って与えられるため、以下の式が得られる。
【数2】 但し、
【数3】 であり、otは時刻tにおける特徴ベクトル、Cm (s)-1
は状態sの混合ガウス分布mの逆共分散、μ^m (s)は状
態sの混合成分mの適応平均の近似値、γm (s)(t)は混
合ガウス分布m|λ,otを用いた確率Pをそれぞれ表
す。
【0024】新しい話者の口形状モデルのガウス平均が
話者空間内に位置すると仮定し、この空間に以下の平均
スーパーベクトルμj(j=1,...,E)が広がる
とする。
【数4】
【0025】但し、μm (s)(j)は、固有ベクトル(固有
モデル)jの状態sにおける混合ガウス分布mの平均ベ
クトルを表す。この場合、以下の近似値μ^が必要であ
る。
【数5】
【0026】μjは直交であり、wjは話者モデルの固有
値である。ここで、いかなる新しい話者も観測済みの話
者のデータベースから線形結合の形でモデル化できると
仮定する。その場合、
【数6】 が成り立つ。但し、sはモデルλの状態、mは線形変換
Mの混合ガウス分布である。
【0027】確率関数Qを最大化するためには、∂Q/
∂we=0,e=1,...,Eと設定する必要がある
(但し、固有ベクトルは直交であるので、∂wi/∂wj
=0,i≠j)。したがって、以下の式が成り立つ。
【数7】
【0028】上記の導関数を計算すると、以下の式が得
られる。
【数8】
【0029】さらに、上の式から、以下の一連の線形等
式が求められる。
【数9】
【0030】図2に示すように、話者依存性変動と話者
独立性変動への分解の好ましい実施形態では、N人の学
習用話者26から入力された口形状に基づいて、パラメ
ータ空間が生成される。この学習用話者のパラメータ空
間は、学習用話者から収集された口形状データから作成
されたスーパーベクトル28から構成されている。例え
ば、口形状は、1状態当たりに1つ以上のガウス分布を
有する隠れマルコフモデルまたはその他の確率モデルの
形でモデル化される。パラメータ空間は、ガウス分布の
定義に使用されるパラメータ値を用いることによって構
築されてもよい。
【0031】文脈依存性(話者独立性)変動と文脈独立
性(話者依存性)変動とは、以下のようにして分離すな
わち分解される。まず、学習用話者データ26から文脈
独立性話者依存性データ34が入手され、その後、この
データ34の平均値が分離プロセス30に入力として送
られる。分離プロセス30は、ラベル付き文脈情報32
から文脈の知識を入手し、さらに、学習用話者データ2
6からの入力も受け取る。分離プロセス30は、文脈の
知識を利用して、学習用話者データから文脈独立性話者
依存性データ34の平均値を減算する。これにより、分
離プロセス30は、文脈依存性話者独立性データ36を
生成すなわち抽出する。この文脈依存性話者独立性デー
タ36は、デルタ決定木44のデータ構造に格納され
る。
【0032】好ましい実施形態では、文脈依存性話者独
立性データ36を表すガウス分布データが、様々な口形
素に関するデルタ決定木44の形で格納され、このデル
タ決定木44は、終端ではない節46のyes/no文
脈に基づく質問と、終端節48の特定の口形状をあらわ
すガウス分布データとから構成されている。
【0033】その一方で、文脈独立性話者依存性データ
34は、スーパーベクトルの形のまま反射され、このス
ーパーベクトルは、主成分分析(PCA)、独立成分分
析(ICA)、線形判別分析(LDA)、因子分析(F
A)、特異値分解(SVD)などの適切な次元数削減技
術によって次元数が削減される(38)。その結果、固
有ベクトルの集合とそれに関連する固有値とが抽出され
る。好ましい実施形態では、話者空間42のサイズを削
減するために、プロセス40で、最下位の固有ベクトル
の一部が切り捨てられる。これにより、場合に応じてい
くらかの上位固有ベクトルが残されて、固有空間、すな
わち、話者空間42が構築される。生成された固有ベク
トルの全てを残すことも可能であるが、話者空間42を
記憶する所要メモリ量を削減するために、プロセス40
が実行されることが好ましい。
【0034】N人の学習用話者について固有空間(話者
空間)42とデルタ決定木44が生成されると、新しい
話者の口形状ライブラリを作成する際にシステムを使用
する準備が整う。この場合、新しい話者は、学習時に事
前に口形状データを提供しなかった話者であってもよい
し、学習時に参加した話者の1人であってもよい。
【0035】図3に、新しいライブラリを作成するシス
テムと工程を示す。
【0036】図3に示すように、まず、新しい話者か
ら、口形状データのパラメータ表現50が入手される。
この段階で全ての口形素に関する口形状パラメータデー
タの完全集合を収集することもできるが、実際には、必
要ではない。固有空間内の点を同定できるだけの口形状
データのサンプルが得られるだけで充分である。これに
より、話者空間42内の点Pは、口形状データのパラメ
ータ表現50に基づいて推定され、文脈独立性話者依存
性パラメータ空間52が、固有空間(話者空間)内の点
Pに対応する重心53の形で生成される。固有空間を使
うことによる1つの大きな利点は、新しい話者によって
与えられなかった口形状の口形素のパラメータを自動的
に推定できることである。それは、固有空間がN個の学
習用話者母集団の話者依存性データに基づいているから
であり、そのためには、口形状データの完全集合が既に
与えられていることが好ましい。
【0037】符号54で示すように、文脈独立性話者依
存性パラメータ空間52の重心53に対して、デルタ決
定木44の形で格納されている文脈依存性話者独立性口
形状データ48が付加されることによって、口形状ライ
ブラリ56が成立する。
【0038】具体的には、文脈依存性話者独立性データ
が、文脈ごとにデルタ決定木から取り出され、取り出さ
れたデータが、固有空間を用いて作成された話者依存性
データと結合、すなわち、合算されることによって、新
しい話者の口形状ライブラリが作成される。実際には、
固有空間から作成された話者依存性データは、重心とみ
なすことができ、話者独立性データは、その重心からの
「デルタ」、すなわち、ズレとみなすことができる。こ
の点に関して、固有空間から作成されるデータは、特定
話者に対応する口形状情報を表している(その情報の一
部は、固有空間の作用による推定値を表している)。一
方、デルタ決定木から得られるデータは、様々な文脈に
おける口形状間の話者独立性の差を表している。このよ
うに、文脈ごとに話者依存性情報(重心)と話者独立性
情報(ズレ)とを結合させることによって、新しい口形
状ライブラリが作成される。
【0039】図4に示すように、本発明の適応型オーデ
ィオビジュアルテキスト音声合成システム58では、コ
ンピュータメモリ内に、話者独立性口形状モデル情報6
0と、話者依存性口形状モデルの変動に関する情報62
とが格納されている。また、このシステム58は、新し
い話者から口形状データ66を受け取る入力部64を有
している。口形状ライブラリ作成モジュール68は、新
しい話者からの口形状データ66と話者依存性口形状モ
デルの変動に関する情報62とに基づく話者依存性口形
状モデル情報(図示せず)の推定と、話者独立性口形状
モデル情報60と話者依存性口形状モデル情報(図示せ
ず)とに基づく口形状ライブラリ70の作成とを行うよ
うに動作することができる。
【0040】上記の本発明に関する説明は本質的に例示
に過ぎず、したがって、本発明の主旨から逸脱しない変
形は本発明の範囲内に含まれるものである。そのような
変形は、本発明の精神および範囲から逸脱するものとみ
なすべきではない。
【図面の簡単な説明】
【図1】 本発明にかかる口形状ライブラリ作成方法の
フロー図。
【図2】 本発明の好ましい実施形態において、話者依
存性変動と話者独立性変動への分解を示すブロック図。
【図3】 本発明の好ましい実施形態にかかる口形状ラ
イブラリ作成方法のブロック図。
【図4】 本発明にかかる適応型オーディオビジュアル
テキスト音声合成システムのブロック図。
【符号の説明】
28 スーパーベクトル 44 デルタ決定木 50 口形状データのパラメータ表現 52 文脈独立性話者依存性パラメータ空間 53 重心 56 口形状ライブラリ 58 適応型オーディオビジュアルテキスト音声合成シ
ステム 64 入力部

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】話者独立性口形状モデルの情報を文脈単位
    に編成して提供する工程と、 少なくとも1人の学習用話者に基づいて、話者依存性口
    形状モデルの情報を提供する工程と、 新しい話者の口形状データを入手する工程と、 上記新しい話者の口形状データと上記話者依存性口形状
    モデルの情報とに基づいて、文脈独立性口形状モデルの
    情報を推定する工程と、 上記話者独立性口形状モデルの情報に基づいて、文脈依
    存性口形状モデルの情報を同定する工程と、 上記文脈独立性口形状モデルの情報と上記文脈依存性口
    形状モデルの情報とを結合することによって、口形状ラ
    イブラリを作成する工程とを備えることを特徴とする口
    形状ライブラリ作成方法。
  2. 【請求項2】 請求項1において、 上記話者独立性口形状モデルの情報は、決定木に編成さ
    れることを特徴とする口形状ライブラリ作成方法。
  3. 【請求項3】 請求項1において、 上記話者独立性口形状モデルの情報を、節が文脈に従っ
    て編成される決定木に編成する工程をさらに備えること
    を特徴とする口形状ライブラリ作成方法。
  4. 【請求項4】 請求項1において、 上記話者依存性口形状モデルの情報は、次元数が削減さ
    れた話者空間で表現されることを特徴とする口形状ライ
    ブラリ作成方法。
  5. 【請求項5】 請求項1において、 複数の学習用話者から収集された文脈独立性口形状モデ
    ルの情報から固有空間を生成することによって、上記話
    者依存性口形状モデルの情報を提供する工程をさらに備
    えることを特徴とする口形状ライブラリ作成方法。
  6. 【請求項6】 請求項1において、 上記新しい話者の口形状データは、口形素であることを
    特徴とする口形状ライブラリ作成方法。
  7. 【請求項7】 請求項1において、 上記新しい話者の口形状データを入手する工程は、上記
    新しい話者から口形素データのサンプルを収集すること
    によって行われることを特徴とする口形状ライブラリ作
    成方法。
  8. 【請求項8】 請求項7において、 上記口形素データのサンプルは、発話された言葉を構成
    する口形素の不完全な集合であることを特徴とする口形
    状ライブラリ作成方法。
  9. 【請求項9】 請求項1において、 少なくとも1人の学習用話者から口形状の入力を得る工
    程と、 上記学習用話者から複数の口形状を観測する工程と、 上記複数の口形状の観測値の話者依存性パラメータ表現
    を作成する工程と、 上記話者依存性パラメータ表現を用いて上記話者依存性
    口形状モデルの情報を作成する工程とをさらに備えるこ
    とを特徴とする口形状ライブラリ作成方法。
  10. 【請求項10】話者独立性口形状モデルの情報と話者依
    存性口形状モデルの情報とを格納するコンピュータメモ
    リと、 話者の口形状データを受け取る入力部と、 上記口形状データと上記話者依存性口形状モデルの情報
    とに基づいて、文脈独立性の重心を推定するよう動作可
    能な重心生成モジュールと、 上記文脈独立性の重心を上記話者独立性口形状モデルの
    情報に結合することによって口形状ライブラリを作成す
    る口形状ライブラリ作成モジュールとを備えることを特
    徴とする口形状ライブラリ生成システム。
  11. 【請求項11】 請求項10において、 上記話者独立性口形状モデルの情報は、上記コンピュー
    タメモリに保存された決定木に編成されていることを特
    徴とする口形状ライブラリ作成システム。
  12. 【請求項12】 請求項10において、 上記話者独立性口形状モデルの情報は、節が文脈に従っ
    て編成された少なくとも1つの決定木の形で上記コンピ
    ュータメモリに格納されていることを特徴とする口形状
    ライブラリ作成システム。
  13. 【請求項13】 請求項10において、 上記話者依存性口形状モデルの情報は、次元数が削減さ
    れた話者空間で表現されていることを特徴とする口形状
    ライブラリ作成システム。
JP2003066584A 2002-03-12 2003-03-12 口形状ライブラリを作成するための分解方法 Expired - Fee Related JP4242676B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/095,813 US7069214B2 (en) 2001-02-26 2002-03-12 Factorization for generating a library of mouth shapes
US10/095,813 2002-03-12

Publications (2)

Publication Number Publication Date
JP2003280677A true JP2003280677A (ja) 2003-10-02
JP4242676B2 JP4242676B2 (ja) 2009-03-25

Family

ID=29248147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003066584A Expired - Fee Related JP4242676B2 (ja) 2002-03-12 2003-03-12 口形状ライブラリを作成するための分解方法

Country Status (1)

Country Link
JP (1) JP4242676B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05153581A (ja) * 1991-12-02 1993-06-18 Seiko Epson Corp 顔画像符号化方式
JPH10312195A (ja) * 1997-05-13 1998-11-24 Seiko Epson Corp 話者音質変換方法および話者音質変換装置
JPH11219421A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 画像認識装置及び画像認識装置方法
JP2000122677A (ja) * 1998-10-09 2000-04-28 Sony Corp パラメータ抽出装置およびパラメータ抽出方法
JP2002156989A (ja) * 2000-11-22 2002-05-31 Minolta Co Ltd 音声合成方法および音声合成システム
JP2002304194A (ja) * 2001-02-05 2002-10-18 Masanobu Kujirada 音声及び/又は口形状入力のためのシステム、方法、プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05153581A (ja) * 1991-12-02 1993-06-18 Seiko Epson Corp 顔画像符号化方式
JPH10312195A (ja) * 1997-05-13 1998-11-24 Seiko Epson Corp 話者音質変換方法および話者音質変換装置
JPH11219421A (ja) * 1998-01-30 1999-08-10 Toshiba Corp 画像認識装置及び画像認識装置方法
JP2000122677A (ja) * 1998-10-09 2000-04-28 Sony Corp パラメータ抽出装置およびパラメータ抽出方法
JP2002156989A (ja) * 2000-11-22 2002-05-31 Minolta Co Ltd 音声合成方法および音声合成システム
JP2002304194A (ja) * 2001-02-05 2002-10-18 Masanobu Kujirada 音声及び/又は口形状入力のためのシステム、方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
松村光浩他: ""読唇の併用による音韻認識"", 電子情報通信学会技術研究報告, vol. Vol.93,No.426,SP93-124, JPN6008044860, 20 January 1994 (1994-01-20), pages 47 - 54, ISSN: 0001192296 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム

Also Published As

Publication number Publication date
JP4242676B2 (ja) 2009-03-25

Similar Documents

Publication Publication Date Title
US11144597B2 (en) Computer generated emulation of a subject
US7636662B2 (en) System and method for audio-visual content synthesis
US9959657B2 (en) Computer generated head
US9361722B2 (en) Synthetic audiovisual storyteller
Fan et al. Photo-real talking head with deep bidirectional LSTM
Cao et al. Expressive speech-driven facial animation
US9613450B2 (en) Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
TW493160B (en) Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US20140210831A1 (en) Computer generated head
CN108364639A (zh) 语音处理系统和方法
JP2000081893A (ja) 話者適応化または話者正規化方法
CN113077537B (zh) 一种视频生成方法、存储介质及设备
CN109196583A (zh) 动态语音识别数据评估
JP2002149185A (ja) 複数の学習用話者を表現する固有空間の決定方法
JP2007058846A (ja) リップシンクアニメーション作成用の統計確率モデル作成装置、パラメータ系列合成装置、リップシンクアニメーション作成システム、及びコンピュータプログラム
US20020143539A1 (en) Method of determining an eigenspace for representing a plurality of training speakers
JPH11338491A (ja) 固有声に基いた最尤法を含む話者と環境適合化
Filntisis et al. Video-realistic expressive audio-visual speech synthesis for the Greek language
US7069214B2 (en) Factorization for generating a library of mouth shapes
Vakhshiteh et al. Lip-reading via deep neural networks using hybrid visual features
JP4242676B2 (ja) 口形状ライブラリを作成するための分解方法
Narwekar et al. PRAV: A Phonetically Rich Audio Visual Corpus.
Verma et al. Using viseme based acoustic models for speech driven lip synthesis
CN114627898A (zh) 语音转换方法、装置、计算机设备、存储介质和程序产品
Deena et al. Speech-driven facial animation using a shared Gaussian process latent variable model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081225

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120109

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4242676

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130109

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees