JP4236815B2 - 顔合成装置および顔合成方法 - Google Patents

顔合成装置および顔合成方法 Download PDF

Info

Publication number
JP4236815B2
JP4236815B2 JP2000536040A JP2000536040A JP4236815B2 JP 4236815 B2 JP4236815 B2 JP 4236815B2 JP 2000536040 A JP2000536040 A JP 2000536040A JP 2000536040 A JP2000536040 A JP 2000536040A JP 4236815 B2 JP4236815 B2 JP 4236815B2
Authority
JP
Japan
Prior art keywords
phoneme
audio
visual
phonemes
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000536040A
Other languages
English (en)
Other versions
JP2002507033A (ja
Inventor
アルスラン レヴェント
タルキン デイヴィッド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2002507033A publication Critical patent/JP2002507033A/ja
Application granted granted Critical
Publication of JP4236815B2 publication Critical patent/JP4236815B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Description

【0001】
関連出願
本出願は、米国仮出願番号60/077,565、発明の名称「顔合成装置及び方法」、出願日1998年3月11日、発明者Levent M. Arslan 及びDavid Talkinの利益を主張しており、その内容はここの文献に組み込まれている。
【0002】
本願は、共通に譲渡された系属中のPCT特許出願番号PCT/US98/01538、発明の名称「音声変換装置、及び方法」、出願日1998年1月27日、発明者Levent M. Arslan、及びDavid Tolkinの主題を含んでおり、その内容はここの文献に組み込まれている。
【0003】
発明の分野
本発明は、オーディオヴィジュアル装置に関しており、詳しくは、顔合成の装置及び方法に関するものである。
【0004】
発明の背景
近年、顔合成には大変興味が寄せられている。顔合成は、スピーチ信号に応じた顔画像の生成に関連しており、見る者にとって顔画像がスピーチ信号で発音された言葉を話しているように見える。フィルムダビング、漫画キャラクターアニメーション、相互作用因子、マルチメディアエンターテイメントを含む顔合成に関する適用範囲が数多くある。
【0005】
顔合成は一般に、言語の顕著な音声に対応する顔画像のデータベースを必要とする。言語の各顕著な音声を“音素”と呼び、音素の発音中は、“Vesime”(画素)と呼ばれる、顔の口や唇が特徴のある、目に見える形を形成する。一般には、顔画像のデータベースは、対応する画素に言語の各音素を精密に記した“コードブック”を含んでいる。したがって、入力したスピーチテキストは、音素に分けられ、各音素の対応する画素は継続的にデータベースとディスプレイに取り込まれる。
【0006】
写実的な画質は顔合成の重要な問題であり、一つの音から次の音への遷移は、口や唇は音を発音するあいだ中動いているため、生きているようにするのは非常に難しい。一つの試みとして、一連の中間画像を1音素の1画素から次のものへと補間する数学的ルーチンを採用したのもがある。このような試みは、しかしながら、1つの口や唇の形から次の形への動きがしばしば非線形であるため、不自然で、ゆがんで見えてしまう。
【0007】
一般に、限定した数の音素/画素の順序をコードブックに記憶させるのが実際的である。例えば、画像品質は、音素のすべての異音に対して画素を記憶することで改良することできる。音素の異音とは、音素の発音において若干の、非対照な変形である。もともと1言語に対して開発された顔合成を他言語のスピーチに適用すると、他の言語がもともとの言語にない他の音素を含んでいるため、同様の問題がおこる。さらに、画素の厳密な形はしばしば隣り合った画素に依存しており、Diphonesといった一定の長さの音素の順序を使用することにある関係があった。
【0008】
各異音のコードブックを論ずるに、対応する画素を有する他国語の音素及び音素順序は、受け取ることができないほど大容量の記憶装置を要する。一般的な試みとしては、ない音素又は音素の順序に対する画素をコードブックに存在する画素に置き換えるAliasing技術を採用している。しかし、Aliasingはフレーム境界に人為構造をもたらしがちであり、その結果、最終的画像に写実性がなくなる。
発明の概要
したがって、写実的な顔画層を生成する顔合成装置、及び方法に対する要求がある。特に、1つの画素から次への改良された写実性のある遷移を扱うことへの要求がある。さらに、コードブックにない音素の順序、又は他国言語の音素に対する写実的顔画像の生成が望まれている。
【0009】
これら、及びその他の要求は、顔画像の合成のための命令を受けている方法、及びコンピュータ読み取り可能媒体に対して向けられており、そこに入ってくるスピーチ信号からのスピーチフレームは、一組の重みを生成するためにオーディオヴィジュアルコードブックに記憶された音声的特徴と比較される。これらの重みは、音声的特徴に対応する視覚的特徴に基づく複合視覚的特徴を生成するために使用され、そして複合視覚的特徴は顔画像の合成に使用される。他の画像の重みのつけられた合成成分に基づいて顔画像を生成することは、より写実的な顔画像ができるフレキシブルな試みである。
【0010】
例えば、発音中のより写実的なVisermeの遷移は、音の発音中に取った、オーディオヴィジュアルコードブックへそれぞれ入れるための聴覚的及び視覚的特徴の多数のサンプルを使用することで実現できる。他国語の音素の画素は、ネイティヴの音素に対応するオーディオヴィジュアルコードブックへの入力の組合せから画素を組み合せることで生成できる。限定された数の音素順序を有する文脈に感応するコードブックに対しては、視覚的に類似した音素順序からの特徴の重みのついた組合せで、存在しない音素順序に対する写実的顔画像を生成することができる。
【0011】
ある実施例では、オーディオヴィジュアルコードブックへの各入力が音素順序に対応し、聴覚的、及び視覚的特徴の多数のサンプルを含むように、上述の両方の様相が組み合わされている。ある実施例では、音声的特徴が1組のラインスペクトル周波数によって、視覚的特徴が顔点のカルフーネン−レーヴ変換の主な成分によって実行できる。
【0012】
本発明の更なる目的、利点、新規な特徴は、以下の記述で部分的に述べ、また幾分は、試験によって明らかとなり、本発明の実施によりわかることであろう。本発明の目的及び利点は、特に添付のクレームに指摘した手段、及び組合せによって実現できる。
【0013】
好適実施例の説明
顔合成の方法、及び装置を述べる。以下の説明において、説明のため、本発明を完全に理解してもらうため、多くの特定の詳細が述べられている。しかし、これらの特定の詳細がなくても当業者が本発明を実施できることはは明らかである。別の例において、本発明を不必要に曖昧にしないために、ブロック図で周知の構造、及び装置を示す。
【0014】
ハードウェア概説
図1は、本発明の実施例を実行するコンピュータ装置100を示すブロックで図である。コンピュータ装置100は、バス、又は情報を通信するための他の通信機構と、情報を処理するためにバス102と結合しているプロセッサ(又は共動する複数のCPU)104を有する。コンピュータ装置10はまた、情報及びプロセッサ104によって実行される命令を記憶するためにバス102と結合する、ランダムアクセスメモリ(RAM)又は他のダイナミック記憶装置といった、メインメモリ106も有している。メインメモリ106はまた、プロセッサ104が命令を実行中に暫定変数、又は他の中間情報を記憶するためにも使用される。コンピュータ装置100は、プロセッサ104のための静電情報及び命令を記憶するためにバス102と結合された読取専用メモリ(ROM)108、又は他の静電記憶装置をさらに有する。電磁ディスク、又は光学ディスクといった記憶装置110が情報及び命令を記憶するためにバス102に設けられ、結合されている。
【0015】
コンピュータ装置100は、コンピュータユーザに情報を表示するためのカソード線管(CRT)のような表示装置111にバス102を介して結合されている。英数字及び他のキーを有する入力装置113が、プロセッサ104に対して情報及びコマンド選択を通信するためにバス102と結合されている。他の種類のユーザ入力装置としては、プロセッサ104に対する指示情報及びコマンド選択の通信をするため、及び表示装置111上のカーソルの動きを制御するためのマウス、トラックボール、又はカーソル指示キーといったカーソルコントロール115がある。この入力装置は一般に、装置が平面で位置を特定する、第1軸(例えばx)と第2軸(例えばy)の2軸において2度の自由度を有する。音声出力及び入力のために、コンピュータ装置100はスピーカ117、及びマイク119にそれぞれ結合されている。
【0016】
本発明は、顔合成のためのコンピュータ装置100の使用に関するものである。本発明の1実施例において、メインメモリ106に含まれる1つ以上の命令の1つ以上の順序を実行するプロセッサ104に応じて、コンピュータ装置100によって顔合成が提供される。このような命令は、記憶装置110のような他のコンピュータ読み取り可能媒体からメインメモリ106に読み込まれる。メインメモリ106に含まれる命令の順序の実行で、プロセッサ104がここに記述のプロセスステップを実行する。マルチ処理配列の1つ以上のプロセッサが、メインメモリ106に含まれる命令の順序を実行するために採用されている。別の実施例では、本発明を実施するためのソフトウェア命令と置き換えて、又は組み合せて、ハード配線回路が使用されている。このように、本発明の実施例は、ハードウェア回路及びソフトウェアの特定の組合せに限定されない。
【0017】
ここに使用している用語、“コンピュータ読み取り可能媒体”とは、実行のために命令をプロセッサ104に与えることに関係する媒体を指す。そのような媒体は、これらに限定されないが、不揮発性媒体、揮発性媒体、及び送信媒体を含むあらゆる形態を取る。不揮発性媒体は、記憶装置110のような、例えば、光学、又は磁気ディスクを含む。揮発性媒体は、メインメモリ106のようなダイナミックメモリを含む。送信媒体とは、バス102を備える配線を含む、同軸ケーブル、銅線、及びファイバーオプティクスを含む。送信媒体はまた、ラジオ周波数(RF)、赤外線データ通信中に生成されたもののような、音波、又は光波の形態を取ることもできる。コンピュータ読み取り可能媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディク、ハードディスク、磁気テープ、他の磁気媒体、CD−ROM、DVD、他の光学的媒体、パンチカード、紙テープ、孔のパターンがある他の物理的媒体、RAM、PROM、及びEPROM、フラッシュEPROM、他のメモリーチップ又はカートリッジ、以下に述べる搬送波、又はコンピュータがそこから読める他の媒体を含む。
【0018】
あらゆる形態のコンピュータ読み取り可能媒体が実行のためのプロセッサ104への1つ以上の命令の1つ以上の順序を行うのに必要である。例えば、まず命令が遠隔コンピュータの磁気ディスク上に生まれる。遠隔コンピュータは、そのダイナミックメモリに命令を荷重し、モデムを使用して電話線で命令を送信する。コンピュータ装置100から離れたモデムは、電話線でデータを受け取ることができ、赤外線送信機を使用してデータを赤外線信号に変換することができる。バス102に結合された赤外線検出器は、赤外線信号で運ばれたデータを受け取り、バス102上にデータを置く。バス102はデータをメインメモリ106へ運び、そこからプロセッサ104が命令を検索、実行する。メインメモリ106が受け取った命令は、プロセッサ104による実行前、又は後に任意に記憶装置110に記憶される。
【0019】
コンピュータ装置100は、バス102に結合された通信インターフェース120も有している。通信ターフェース120は、ローカルネットワーク122に連結されたネットワークリンク121と2方向データ通信を結合している。通信インターフェース120の例としては、集積サービスディジタルネットワーク(ISDN)カード、データ通信を対応するタイプの電話線に接続するモデム、及びデータ通信を変換可能ローカルエリアネットワーク(LAN)に接続するLANカードがある。ワイヤレスリンクも実施可能である。いずれを実施しても、通信ターフェース120はあらゆる種類の情報を表すディジタルデータ線を運ぶ電気、電磁、又は光信号を送受信している。
【0020】
ネットワークリンク121は一般に、1つ以上のネットワアークを通じてデータ通信を他のデータ装置に提供している。例えば、ネットワークリンク121は、ローカルネットワーク122を介してホストコンピュータ124、又はインターネットサービスプロバイダ(ISP)126が操作するデータ機器に接続されている。そして、ISP126が、今では一般に“インターネット”128と呼ばれている、世界的広さのパケットデータ通信ネットワークを介してデータ通信サービスを提供している。ローカルネットワーク122、及びインターネット128は、共にディジタルデータ線を運ぶ電気、電磁、又は光信号を使用している。多様なネットワークを介する信号、及びネットワークリンク121上、及び通信インターフェース120を介する信号は、ディジタルデータをコンピュータ装置110からコンピュータ装置100へ運んでおり、情報を輸送する搬送波が典型的な形態である。
【0021】
音声映像コードブック
本発明の一実施形態にしたがい、音声映像コードブック、好ましくは画素類似行列300を生成するための予備工程として、オフライン学習段階が実行される。音声映像コードブックは単一の音素あるいは「文脈音素」と称する音素シーケンス内の中心音素に相当する複数の項目を含んだデータ構造である。各項目は音素に関する一つ以上の音響的特徴と関連画素の対応する視覚的特徴とを含んでいる。
【0022】
オフライン学習段階はテスト対象が同時に発生させる音声と顔点の軌跡を読み取ることによりテスト対象からデータを収集する工程を含んでいる。ある学習方法によれば、対象は正射表現形式が作成される単語、語句及び文を言うよう要求される。そして、記録された音声画像データは処理され音声映像コードブックの項目に保存される。音声映像コードブックの項目数は作成毎に異なり、通常顔合成品質と演算能力との兼ね合いによって左右される。
【0023】
一実施形態では、音声データは16kHzなどの適切な周波数でサンプリングされ、例えば、C.ワイトマン及びD.タルキン著「ジ・アライナー・ユーザーズ・マニュアル」エントロピック・リサーチ・ラボラトリー・インコーポレーテッド、ワシントンD.C.、1994年(C. Wightman & D. Talkin, "The Aligner User's Manual", Entropic Reseach Laboratory, Inc., Washington, D.C., 1994)により詳細に記述されているようにメル−ケプストラム係数及びデルタ係数を用いて隠れマルコフモデル(HMM)フレームワーク内で正射表現形式を音声翻訳に強制的に合わせることにより自動的にセグメント化される。好ましくは、サンプリングされた音声データは線スペクトル周波数に変換され、それにより、非常に信頼性のある評価が可能になるとともに、実時間デジタル信号処理に有利な固定の値域を持つことができる。音声映像コードブック用の線スペクトル周波数値はまずこの業界で公知の技術にしたがってサンプル信号の線形予測係数akを決定することによって得ることができる。例えば、特殊なハードウェアや、汎用コンピュータやマイクロプロセッサ上で実行するソフトウェアや、それらの組み合わせは平方根分解、コレスキー分解、レヴィンソン−ダービー帰納法、板倉及び斎藤により紹介された格子分析等の技術により線形予測係数を判定することが可能である。
【0024】
一実施形態では、画像データは対象の顔面上の点に相当する3次元空間の52個の「顔点」として得られる。各顔点はx座標、y座標及びz座標をとるので、顔点のパラメータの総数は156個になり、156次元の顔点ベクトルを形成する。顔点ベクトルには、その主成分を得るためにカルフーネン−レーヴ変換などの適切な変換技術が適用される。一つの顔の各点は相関性が高いので、小さな歪みで次元数が大きく減少することになる。視覚的特徴を表現するために主成分を使用するという有利な特性は、主成分が最も相関性の高い動きに対応する方向を示すということである。それ故、背景の顔を写実的な動きで動的にするために主成分の重み修正を利用することができる。
【0025】
例えば、最大固有値を有する固有ベクトルが話者の顔の最大の相関点集合を含む下顎の動きに対応することが分かった。したがって、第1の主成分のみを修正することで下唇と下顎の軌跡を動かすことになる。第2の主成分は口の両側の動きに対応することが分かった。図2(a)及び図2(b)は一顔点ベクトルの第1及び第2成分のみをそれぞれ調整する効果をしめし、実線は元の顔点の軌跡を、破線は調整後の顔点の軌跡を示す。
【0026】
本発明の一特徴によれば、音声データからセグメント化された各音素には音素の文脈を示す「文脈音素」記号が付せられる。特に、文脈音素記号は音声データ内の中心音素とこの中心音素の両側に位置する一つ以上の隣接音素とを示している。例えば、"whenever"という単語内の音素ehはその両側の最も近い3個の隣接音素を含むw#eh#n#eh#v#axr#fという文脈音素記号を有している(右端のfの音素はfまたはphで始まる次の単語に属する)。中心音素と隣接音素を含む音素シーケンスを構成する文脈音素を利用することにより、文脈固有の適切な画素を生成することができる。
【0027】
本発明の別の特徴によれば、学習データ内の各音素は音素が明瞭に発音されている間の均等間隔を置いた多数の時間的位置、例えば五つの位置でラベル付けされる。音響的及び視覚的特徴、例えば、線スペクトル周波数及びカルフーネン−レーヴ主成分が、音素あるいは文脈音素に関する音声映像コードブック項目に保存される。多数の音響的特徴及び視覚的特徴を利用することにより、音素が明瞭に発音されている間に円滑かつ現実に近い画素シーケンスを生成することができる。
【0028】
このように、音声映像コードブックは一音素または中心音素に相当し一つ以上の音響的特徴と一つ以上の対応する視覚的特徴とを含む多数の項目を有している。音声映像コードブックは、入力音声フレームを項目内の音響的特徴と比較して比較された各音響的特徴の重みを評価することにより顔画像を生成するために利用可能である。対応する視覚的特徴は重み付けされた合計として結合され複合視覚的特徴を生成する。この複合視覚的特徴が顔画像に変換される。音声映像コードブック内の全ての項目に対してこの処理を実行することは結果として非常に高品質の出力を発生させることになるが、この処理の能力を向上させることが望ましい。
【0029】
画素類似行列
一実施形態では、音声情報が顔画像に合成される入力音声データに関して先験的に知られているならば、上記処理能力を大きく向上させることが可能である。特に、各入力音声フレームで発音される音素に最も視覚的に類似する音素または文脈音素を含む音声映像コードブック内の数個の項目が選択される。したがって、入力音声フレームの音響的特徴と比較される総項目数は最も視覚的に類似する数個の項目まで削減される。この選択は装置の演算処理量を削減して顔合成処理の全体の能力を向上させることができる。
【0030】
実際には、学習データは全ての相応しい所定の長さの文脈音素(全ての異質な音素及び全音素(allophones))を含んでいるわけではないので、未知の文脈音素を音声映像コードブック内の視覚的に類似する項目と関連付けるいくつかの方法を有していることが望ましい。視覚的類似測定の一つは顔データの主成分のユークリッド距離に基づいている。この類似度は学習データの音素の様々な例から各音素の平均主成分ベクトルmkを以下の式の基づいて評価することにより学習データから自動的に生成して画素類似行列300に保存することが可能である。すなわち、
【0031】
【数1】
Figure 0004236815
【0032】
但し、Kは言語の全音素数、Tは学習データ内のk番目の音素の総数、Pktはk番目の音素に関連するt番目の主成分ベクトルをそれぞれ示す。今、平均主成分ベクトルmkが与えられると、各一対の音素間のユークリッド距離は以下の式のとおりに算出される。すなわち、
【0033】
【数2】
Figure 0004236815
【0034】
算出されたユークリッド距離に基づいて、画素類似度Sikは以下のようにして導出される。
【0035】
【数3】
Figure 0004236815
【0036】
この公式化の一つの特性は画素類似度Sikが0ないし1の範囲内に存在することである。図3は米国英語の音素に対応する一つの画素類似行列300のグレースケール像を示し、より濃度が高い点ほどより高レベルの視覚的類似度を示す。例えば、bに最も視覚的に類似する音素はpに認識された。一般に、画素類似行列300の項目は直感的な予想と一致することが分かっている。
【0037】
画素類似行列300は2つの音素の視覚的類似度を測定するために直接使用することができるが、より複雑な方法が音素シーケンスを示す2つの文脈音素間の視覚的類似度を評価するために使用される。好ましくは、中心音素はそこからより遠距離の音素の作用を低減しながら最大の作用を及ぼす必要がある。文脈音素の視覚的類似性を評価するための一つの方法は、以下のように公式化される。すなわち、
【0038】
【数4】
Figure 0004236815
【0039】
但し、Cはレベル文脈情報(すなわち、各側の隣接音素数)、Lは音声映像コードブック内の文脈音素の総数、Slijは対象文脈音素の左側i番目の音素と音声映像コードブック内のj番目の文脈音素との間の類似性、Srijは対象文脈音素の右側i番目の音素と音声映像コードブック内のj番目の文脈音素との間の類似性をそれぞれ示す。画素類似行列300の値Sikは0と1との間に存在するので、数式4は中心音素の一致が視覚定期類似度により大きく作用することを確証している。
【0040】
顔合成
学習データから音声映像コードブックが作成されると、入力音声の応じて顔画像が合成される。既に述べたように、顔合成処理の能力は音声情報が入力音声に関して先験的に知られている場合に大きく向上させることができる。一実施形態では、入力音声の音素に相当する音素シーケンスも入力され、音声映像コードブック内の最も視覚的に類似する数項目を識別するために画素類似行列300とともに利用される。音素シーケンスは公知の方法で入力音声用に作成されてもよいし、あるいは合成音声用に作成されてもよい。音素シーケンスが最初に作成され、その後作成音素シーケンスから入力音声が合成される。
【0041】
図4は本発明の一実施形態にかかる顔合成方法を示すフロー図である。ステップ400では、音素シーケンスが音声映像コードブック内の項目と比較され、最も視覚的に類似する数項目を選択される。一方では、音声映像コードブックが文脈音素の項目、すなわち音素シーケンス群を格納するよう構成される場合、各入力音素がその隣接音素と結合されて一つの入力文脈音素が生成される。例えば、7つのシーケンス文脈音素を採用する顔合成装置では、現在の音素が先行する3個の音素及び後続の3個の音素と連結される。入力文脈音素は画素類似行列300にアクセスすることから個々の画素類似度を重み付けて結合したものである数式4を代入することにより音声映像コードブックの各項目と比較され、入力文脈音素の全体の画素類似度が測定される。他方では、音声映像コードブックが単一の音素に関する項目を格納するよう構成される場合に、画素類似行列300が画素類似度を得るために直接調べられる。
【0042】
測定された視覚的類似度に基づいて、音声映像コードブックのもっともし画定に類似したN個の項目が選択される。Nの最良値は、文脈音素の音素シーケンスの長さや所与の学習セットの能力と忠実度との間の望ましい兼ね合いなどの要素次第で、作成毎に異なる。しかしながら、一般に、Nの値は約4ないし約16の範囲内に存在し、実際にはユーザが作成可能なパラメータであっても良い。
【0043】
ステップ402では、入力音声フレームが音声映像コードブックに格納された音響的特徴との比較に適した音響的特徴に変換される。例えば、入力音声フレームは線スペクトル周波数に変換され、音声映像コードブックに格納された線スペクトル周波数集合と比較される。一部の実施形態では、複数、例えば5つのサンプルが音声映像コードブックの各項目毎に格納されている。音響的特徴の比較の結果は重みとなり、より大きな重みほどより音響的類似性の高いサンプルに割り当てられる。上記比較に基づいて重みを作成するために様々な技術が採用可能であるが、本発明はいかなる特定の重みにも限定されない。
【0044】
「音声変換装置、及び方法」("Voice Conversion System and Methodology")という名称の、共通に譲渡された係属中のPCT特許出願PCT/US98/01538号には、一つの重み付け技術が記載されている。すなわち、コードブック重みviは入力された線スペクトル周波数ベクトルwkと音声映像コードブック内の各音響的特徴サンプルSiとを比較することにより評価され、対応する距離diが以下のように算出される。すなわち、
【0045】
【数5】
Figure 0004236815
【0046】
但し、Lはコードブックのサイズである。距離計算は知覚判定基準に基づく重み因子hkを含んでいても良い。その場合、フォーマット位置に相当する傾向がある近接間隔の線スペクトル周波数の対がより大きな重みを割り当てられる。すなわち、
【0047】
【数6】
Figure 0004236815
【0048】
但し、平均のエネルギが周波数の増加とともに(音声の場合に)減少し(音声でない場合に)増加するので、Kは音声の場合には3であり音声でない場合には6である。算出された距離diに基づいて、正規化されたコードブック重みviが以下のようにして得られる。すなわち、
【0049】
【数7】
Figure 0004236815
【0050】
但し、各フレームのγの値は概算線スペクトル周波数ベクトルvSkと入力線スペクトル周波数ベクトルwkとの知覚的に重み付けされた距離を最小化する判定基準を用いて0.2ないし2.0の範囲内での増分探索によって求められる。これらの重みは係属中のPCT特許出願PCT/US98/01538にも記載されているようにさらに調整されてもよい。
【0051】
ステップ404では、複合された視覚的特徴が上記重みと音声映像コードブックの選択項目の対応する視覚的特徴とから、例えば、顔データサンプルの主成分の重み付け合計あるいは線形結合として構成される。例えば、複合視覚的特徴は以下のようにして算出される。
【0052】
【数8】
Figure 0004236815
【0053】
一実施形態では、複数の視覚的特徴が、各項目に対応する音声が明瞭に発音されている間に音声映像コードブックの異なる点で各項目に格納される。したがって、重みの合計は音声映像コードブックの項目の全ての画像サンプルを含むことになり、発声時の口と唇の動きをより写実的に追う顔データを生成する。
【0054】
ステップ406では、複合視覚的特徴が望ましい顔データに変換される。例えば、カルフーネン−レーヴ変換により得られた主成分が視覚的特徴を示すように使用される場合、逆カルフーネン−レーヴ変換が複合主成分に適用され、出力として顔点が生成される。これら顔点は公知技術により顔画像に変換可能である。
【0055】
したがって、写実的な顔画像が入力音声信号に応じて生成される顔合成装置及び方法が説明されている。特に、複合視覚的特徴は入力音響的特徴と音声映像コードブックの音響的特徴とを比較することにより特定された重みにしたがって音声映像コードブックの項目から生成される。その結果、音声映像コードブックを必要とすることなく、画素遷移用、高度に文脈に依存する状況用、及び外国語の音素用に対してさえ写実的な出力を得て、大量の学習サンプルを蓄積することができる。
【0056】
本発明は最も実用的で好ましい実施形態を考慮して説明されてきたが、本発明は開示された実施形態に限定されるものではなく、特許請求の範囲の精神及び範囲内に含まれる様々な変形例や等価の構成を包含するよう意図されていると理解すべきである。
【図面の簡単な説明】
【図1】 本発明を実行できるコンピュータ装置の概略図。
【図2】 (a)及び(b)はそれぞれ顔点データの第1及び第2主成分の変形の作用を示すグラフ。
【図3】 米国英語の音素に対応する画素類似マトリックス300を示す図。
【図4】 本発明の1実施例に応じた顔合成過程を示すフローチャート。

Claims (5)

  1. コンピュータ装置によって、音素のシーケンスと相互に関連する音声フレームのシーケンスを含む音声信号に応じて顔画像を合成する方法であって、該方法は、前記コンピュータ装置のメモリに格納された命令を前記コンピュータ装置のプロセッサが処理することによって実行され、
    上記音素シーケンス内の一音素およびその隣接する音素群と中心音素およびその隣接音素からなる音素列に相当し複数の音響的特徴およびそれに対応する複数の視覚的特徴を有する音声映像コードブックの複数の項目との視覚的類似度を測定する工程と、
    上記測定された視覚的類似度に基づいて上記音声映像コードブック内の複数の項目を選択する工程と、
    上記音声信号の音声フレームと上記複数の項目の音響的特徴とを比較して複数の重みを生成する工程と、
    上記重みと上記複数の項目の視覚的特徴とに基づいて複合された視覚的特徴を生成する工程と、
    上記複合された視覚的特徴に基づいて顔画像を合成する工程とを備えた顔画像合成方法。
  2. 上記視覚的類似度を測定する工程は上記音素シーケンス内の一音素およびその隣接音素に相当する顔データの主成分の集合のそれぞれと上記中心音素およびその隣接音素に相当する顔データの主成分サンプルとの間の各ユークリッド距離を算出するものである請求項記載の顔画像合成方法。
  3. 上記視覚的類似度を測定する工程は上記音素シーケンス内の一音素およびその隣接音素に相当する顔データの主成分の集合のそれぞれと上記中心音素およびその隣接音素に相当する顔データの主成分サンプルとの間の各ユークリッド距離に基づいて複数の成分を含む視覚的類似行列にアクセスするものである請求項記載の顔画像合成方法。
  4. 上記音響的特徴は線スペクトル周波数の集合であり、上記視覚的特徴は顔の点サンプルから導出された顔データの主成分の集合である請求項1記載の顔画像合成方法。
  5. 音素のシーケンスと相互に関連する音素フレームのシーケンスを有する音声信号に応じて顔画像を合成する命令を含むコンピュータ読取り可能媒体であって、
    上記命令は、1個以上のプロセッサによって実行されるとき、該プロセッサが
    上記音素シーケンス内の一音素およびその隣接する音素群と中心音素およびその隣接音素からなる音素列に相当し複数の音響的特徴およびそれに対応する複数の視覚的特徴を有する音声映像コードブックの複数の項目との視覚的類似度を測定する工程と、
    上記測定された視覚的類似度に基づいて上記音声映像コードブック内の複数の項目を選択する工程と、
    上記音声信号の音声フレームと上記複数の項目の音響的特徴とを比較して複数の重みを生成する工程と、
    上記重みと上記複数の項目の視覚的特徴とに基づいて複合された視覚的特徴を生成する工程と、
    上記複合された視覚的特徴に基づいて顔画像を合成する工程とを実行するよう構成されているコンピュータ読取り可能媒体。
JP2000536040A 1998-03-11 1999-03-11 顔合成装置および顔合成方法 Expired - Lifetime JP4236815B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US7756598P 1998-03-11 1998-03-11
US60/077,565 1998-03-11
PCT/US1999/005289 WO1999046734A1 (en) 1998-03-11 1999-03-11 Face synthesis system and methodology

Publications (2)

Publication Number Publication Date
JP2002507033A JP2002507033A (ja) 2002-03-05
JP4236815B2 true JP4236815B2 (ja) 2009-03-11

Family

ID=22138817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000536040A Expired - Lifetime JP4236815B2 (ja) 1998-03-11 1999-03-11 顔合成装置および顔合成方法

Country Status (5)

Country Link
US (1) US6449595B1 (ja)
JP (1) JP4236815B2 (ja)
AU (1) AU2998099A (ja)
CA (1) CA2323421C (ja)
WO (1) WO1999046734A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7193645B2 (ja) 2018-12-31 2022-12-20 サン-ゴバン パフォーマンス プラスティックス レンコール リミティド トレランスリング、アセンブリ、ならびにその作製および使用方法

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9715516D0 (en) * 1997-07-22 1997-10-01 Orange Personal Comm Serv Ltd Data communications
US7392190B1 (en) * 1997-11-07 2008-06-24 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
CN1271573C (zh) * 1999-06-24 2006-08-23 皇家菲利浦电子有限公司 后期同步信息流
US7630897B2 (en) * 1999-09-07 2009-12-08 At&T Intellectual Property Ii, L.P. Coarticulation method for audio-visual text-to-speech synthesis
US6813607B1 (en) * 2000-01-31 2004-11-02 International Business Machines Corporation Translingual visual speech synthesis
GB0008537D0 (en) * 2000-04-06 2000-05-24 Ananova Ltd Character animation
WO2002019623A2 (en) 2000-08-30 2002-03-07 Tiaris, Inc. A home network system and method
US9094226B2 (en) 2000-08-30 2015-07-28 Broadcom Corporation Home network system and method
US8724485B2 (en) 2000-08-30 2014-05-13 Broadcom Corporation Home network system and method
US6975988B1 (en) * 2000-11-10 2005-12-13 Adam Roth Electronic mail method and system using associated audio and visual techniques
US6654018B1 (en) * 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
JP3759429B2 (ja) * 2001-05-23 2006-03-22 株式会社東芝 障害物検出装置及びその方法
US7209882B1 (en) 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
US6925438B2 (en) * 2002-10-08 2005-08-02 Motorola, Inc. Method and apparatus for providing an animated display with translated speech
US7149358B2 (en) * 2002-11-27 2006-12-12 General Electric Company Method and system for improving contrast using multi-resolution contrast based dynamic range management
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
US20050027530A1 (en) * 2003-07-31 2005-02-03 Tieyan Fu Audio-visual speaker identification using coupled hidden markov models
US7990384B2 (en) * 2003-09-15 2011-08-02 At&T Intellectual Property Ii, L.P. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
EP1671277A1 (en) * 2003-09-30 2006-06-21 Koninklijke Philips Electronics N.V. System and method for audio-visual content synthesis
US20060009978A1 (en) * 2004-07-02 2006-01-12 The Regents Of The University Of Colorado Methods and systems for synthesis of accurate visible speech via transformation of motion capture data
JP5120826B2 (ja) * 2005-09-29 2013-01-16 独立行政法人産業技術総合研究所 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
US7782850B2 (en) 2006-11-20 2010-08-24 Broadcom Corporation MAC to PHY interface apparatus and methods for transmission of packets through a communications network
US7697522B2 (en) 2006-11-20 2010-04-13 Broadcom Corporation Systems and methods for aggregation of packets for transmission through a communications network
US8345553B2 (en) 2007-05-31 2013-01-01 Broadcom Corporation Apparatus and methods for reduction of transmission delay in a communication network
US8139899B2 (en) 2007-10-24 2012-03-20 Motorola Mobility, Inc. Increasing resolution of video images
JP4488091B2 (ja) * 2008-06-24 2010-06-23 ソニー株式会社 電子機器、映像コンテンツ編集方法及びプログラム
US9112717B2 (en) 2008-07-31 2015-08-18 Broadcom Corporation Systems and methods for providing a MoCA power management strategy
US8553547B2 (en) 2009-03-30 2013-10-08 Broadcom Corporation Systems and methods for retransmitting packets over a network of communication channels
US20100254278A1 (en) 2009-04-07 2010-10-07 Broadcom Corporation Assessment in an information network
US8867355B2 (en) 2009-07-14 2014-10-21 Broadcom Corporation MoCA multicast handling
US8942250B2 (en) 2009-10-07 2015-01-27 Broadcom Corporation Systems and methods for providing service (“SRV”) node selection
US8903073B2 (en) 2011-07-20 2014-12-02 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8548131B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for communicating with an interactive voice response system
US8553859B1 (en) 2010-02-03 2013-10-08 Tal Lavian Device and method for providing enhanced telephony
US8537989B1 (en) 2010-02-03 2013-09-17 Tal Lavian Device and method for providing enhanced telephony
US8681951B1 (en) 2010-02-03 2014-03-25 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8572303B2 (en) 2010-02-03 2013-10-29 Tal Lavian Portable universal communication device
US8594280B1 (en) 2010-02-03 2013-11-26 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8625756B1 (en) 2010-02-03 2014-01-07 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US9001819B1 (en) 2010-02-18 2015-04-07 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8879698B1 (en) 2010-02-03 2014-11-04 Tal Lavian Device and method for providing enhanced telephony
US8687777B1 (en) 2010-02-03 2014-04-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8406388B2 (en) 2011-07-18 2013-03-26 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8548135B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8611327B2 (en) 2010-02-22 2013-12-17 Broadcom Corporation Method and apparatus for policing a QoS flow in a MoCA 2.0 network
US8514860B2 (en) 2010-02-23 2013-08-20 Broadcom Corporation Systems and methods for implementing a high throughput mode for a MoCA device
US10375534B2 (en) 2010-12-22 2019-08-06 Seyyer, Inc. Video transmission and sharing over ultra-low bitrate wireless communication channel
US9728203B2 (en) 2011-05-02 2017-08-08 Microsoft Technology Licensing, Llc Photo-realistic synthesis of image sequences with lip movements synchronized with speech
US9613450B2 (en) * 2011-05-03 2017-04-04 Microsoft Technology Licensing, Llc Photo-realistic synthesis of three dimensional animation with facial features synchronized with speech
JP6019108B2 (ja) * 2011-05-06 2016-11-02 セイヤー インコーポレイテッド 文字に基づく映像生成
US8655152B2 (en) 2012-01-31 2014-02-18 Golden Monkey Entertainment Method and system of presenting foreign films in a native language
US8731148B1 (en) 2012-03-02 2014-05-20 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8867708B1 (en) 2012-03-02 2014-10-21 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US9460705B2 (en) * 2013-11-14 2016-10-04 Google Inc. Devices and methods for weighting of local costs for unit selection text-to-speech synthesis
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
US10540975B2 (en) 2016-03-25 2020-01-21 Intel Corporation Technologies for automatic speech recognition using articulatory parameters
US11145100B2 (en) * 2017-01-12 2021-10-12 The Regents Of The University Of Colorado, A Body Corporate Method and system for implementing three-dimensional facial modeling and visual speech synthesis
CN115731294A (zh) * 2018-05-07 2023-03-03 谷歌有限责任公司 通过面部表情操纵远程化身

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4569026A (en) * 1979-02-05 1986-02-04 Best Robert M TV Movies that talk back
US4884972A (en) * 1986-11-26 1989-12-05 Bright Star Technology, Inc. Speech synchronized animation
US4907276A (en) * 1988-04-05 1990-03-06 The Dsp Group (Israel) Ltd. Fast search method for vector quantizer communication and pattern recognition systems
JP2518683B2 (ja) * 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
US5613056A (en) 1991-02-19 1997-03-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
AU3668095A (en) * 1994-11-07 1996-05-16 At & T Corporation Acoustic-assisted image processing
SE519244C2 (sv) * 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
JP4037455B2 (ja) * 1996-03-26 2008-01-23 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 画像合成
US5884267A (en) * 1997-02-24 1999-03-16 Digital Equipment Corporation Automated speech alignment for image synthesis
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7193645B2 (ja) 2018-12-31 2022-12-20 サン-ゴバン パフォーマンス プラスティックス レンコール リミティド トレランスリング、アセンブリ、ならびにその作製および使用方法

Also Published As

Publication number Publication date
CA2323421C (en) 2008-09-23
AU2998099A (en) 1999-09-27
WO1999046734A1 (en) 1999-09-16
US6449595B1 (en) 2002-09-10
JP2002507033A (ja) 2002-03-05
CA2323421A1 (en) 1999-09-16

Similar Documents

Publication Publication Date Title
JP4236815B2 (ja) 顔合成装置および顔合成方法
Kaneko et al. Cyclegan-vc: Non-parallel voice conversion using cycle-consistent adversarial networks
US7123262B2 (en) Method of animating a synthesized model of a human face driven by an acoustic signal
US9583098B1 (en) System and method for triphone-based unit selection for visual speech synthesis
Lee et al. Many-to-many voice conversion using conditional cycle-consistent adversarial networks
JP2003529861A5 (ja)
US20210073611A1 (en) Dynamic data structures for data-driven modeling
WO2019116889A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
US10452996B2 (en) Generating dynamically controllable composite data structures from a plurality of data segments
Wang et al. Synthesizing photo-real talking head via trajectory-guided sample selection
CN113077470B (zh) 一种横竖屏转换画面的裁剪方法、系统、装置及介质
Kakumanu et al. Speech driven facial animation
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
Li et al. Non-Parallel Many-to-Many Voice Conversion with PSR-StarGAN.
Zhuang et al. A minimum converted trajectory error (MCTE) approach to high quality speech-to-lips conversion.
Li et al. Non-parallel Voice Conversion Based on Perceptual Star Generative Adversarial Network
WO2020166359A1 (ja) 推定装置、推定方法、及びプログラム
Levy-Leshem et al. Taco-VC: A single speaker tacotron based voice conversion with limited data
Shih et al. Speech-driven talking face using embedded confusable system for real time mobile multimedia
Leshem et al. Taco-vc: A single speaker tacotron based voice conversion with limited data
Ra et al. Visual-to-speech conversion based on maximum likelihood estimation
Morishima et al. Speech-to-image media conversion based on VQ and neural network
Yin et al. Dynamic mapping method based speech driven face animation system
Tao et al. Speech driven face animation based on dynamic concatenation model

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050621

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050621

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050621

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060124

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060124

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080725

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081121

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081217

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121226

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121226

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131226

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term