JP4236815B2

JP4236815B2 - 顔合成装置および顔合成方法

Info

Publication number: JP4236815B2
Application number: JP2000536040A
Authority: JP
Inventors: アルスランレヴェント; タルキンデイヴィッド
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1998-03-11
Filing date: 1999-03-11
Publication date: 2009-03-11
Anticipated expiration: 2019-03-11
Also published as: CA2323421C; AU2998099A; WO1999046734A1; US6449595B1; JP2002507033A; CA2323421A1

Description

【０００１】
関連出願
本出願は、米国仮出願番号６０／０７７，５６５、発明の名称「顔合成装置及び方法」、出願日１９９８年３月１１日、発明者Levent M. Arslan 及びDavid Talkinの利益を主張しており、その内容はここの文献に組み込まれている。
【０００２】
本願は、共通に譲渡された系属中のPCT特許出願番号PCT／US９８／０１５３８、発明の名称「音声変換装置、及び方法」、出願日１９９８年１月２７日、発明者Levent M. Arslan、及びDavid Tolkinの主題を含んでおり、その内容はここの文献に組み込まれている。
【０００３】
発明の分野
本発明は、オーディオヴィジュアル装置に関しており、詳しくは、顔合成の装置及び方法に関するものである。
【０００４】
発明の背景
近年、顔合成には大変興味が寄せられている。顔合成は、スピーチ信号に応じた顔画像の生成に関連しており、見る者にとって顔画像がスピーチ信号で発音された言葉を話しているように見える。フィルムダビング、漫画キャラクターアニメーション、相互作用因子、マルチメディアエンターテイメントを含む顔合成に関する適用範囲が数多くある。
【０００５】
顔合成は一般に、言語の顕著な音声に対応する顔画像のデータベースを必要とする。言語の各顕著な音声を“音素”と呼び、音素の発音中は、“Vesime”（画素）と呼ばれる、顔の口や唇が特徴のある、目に見える形を形成する。一般には、顔画像のデータベースは、対応する画素に言語の各音素を精密に記した“コードブック”を含んでいる。したがって、入力したスピーチテキストは、音素に分けられ、各音素の対応する画素は継続的にデータベースとディスプレイに取り込まれる。
【０００６】
写実的な画質は顔合成の重要な問題であり、一つの音から次の音への遷移は、口や唇は音を発音するあいだ中動いているため、生きているようにするのは非常に難しい。一つの試みとして、一連の中間画像を１音素の１画素から次のものへと補間する数学的ルーチンを採用したのもがある。このような試みは、しかしながら、１つの口や唇の形から次の形への動きがしばしば非線形であるため、不自然で、ゆがんで見えてしまう。
【０００７】
一般に、限定した数の音素／画素の順序をコードブックに記憶させるのが実際的である。例えば、画像品質は、音素のすべての異音に対して画素を記憶することで改良することできる。音素の異音とは、音素の発音において若干の、非対照な変形である。もともと１言語に対して開発された顔合成を他言語のスピーチに適用すると、他の言語がもともとの言語にない他の音素を含んでいるため、同様の問題がおこる。さらに、画素の厳密な形はしばしば隣り合った画素に依存しており、Diphonesといった一定の長さの音素の順序を使用することにある関係があった。
【０００８】
各異音のコードブックを論ずるに、対応する画素を有する他国語の音素及び音素順序は、受け取ることができないほど大容量の記憶装置を要する。一般的な試みとしては、ない音素又は音素の順序に対する画素をコードブックに存在する画素に置き換えるAliasing技術を採用している。しかし、Aliasingはフレーム境界に人為構造をもたらしがちであり、その結果、最終的画像に写実性がなくなる。
発明の概要
したがって、写実的な顔画層を生成する顔合成装置、及び方法に対する要求がある。特に、1つの画素から次への改良された写実性のある遷移を扱うことへの要求がある。さらに、コードブックにない音素の順序、又は他国言語の音素に対する写実的顔画像の生成が望まれている。
【０００９】
これら、及びその他の要求は、顔画像の合成のための命令を受けている方法、及びコンピュータ読み取り可能媒体に対して向けられており、そこに入ってくるスピーチ信号からのスピーチフレームは、一組の重みを生成するためにオーディオヴィジュアルコードブックに記憶された音声的特徴と比較される。これらの重みは、音声的特徴に対応する視覚的特徴に基づく複合視覚的特徴を生成するために使用され、そして複合視覚的特徴は顔画像の合成に使用される。他の画像の重みのつけられた合成成分に基づいて顔画像を生成することは、より写実的な顔画像ができるフレキシブルな試みである。
【００１０】
例えば、発音中のより写実的なVisermeの遷移は、音の発音中に取った、オーディオヴィジュアルコードブックへそれぞれ入れるための聴覚的及び視覚的特徴の多数のサンプルを使用することで実現できる。他国語の音素の画素は、ネイティヴの音素に対応するオーディオヴィジュアルコードブックへの入力の組合せから画素を組み合せることで生成できる。限定された数の音素順序を有する文脈に感応するコードブックに対しては、視覚的に類似した音素順序からの特徴の重みのついた組合せで、存在しない音素順序に対する写実的顔画像を生成することができる。
【００１１】
ある実施例では、オーディオヴィジュアルコードブックへの各入力が音素順序に対応し、聴覚的、及び視覚的特徴の多数のサンプルを含むように、上述の両方の様相が組み合わされている。ある実施例では、音声的特徴が１組のラインスペクトル周波数によって、視覚的特徴が顔点のカルフーネン−レーヴ変換の主な成分によって実行できる。
【００１２】
本発明の更なる目的、利点、新規な特徴は、以下の記述で部分的に述べ、また幾分は、試験によって明らかとなり、本発明の実施によりわかることであろう。本発明の目的及び利点は、特に添付のクレームに指摘した手段、及び組合せによって実現できる。
【００１３】
好適実施例の説明
顔合成の方法、及び装置を述べる。以下の説明において、説明のため、本発明を完全に理解してもらうため、多くの特定の詳細が述べられている。しかし、これらの特定の詳細がなくても当業者が本発明を実施できることはは明らかである。別の例において、本発明を不必要に曖昧にしないために、ブロック図で周知の構造、及び装置を示す。
【００１４】
ハードウェア概説
図１は、本発明の実施例を実行するコンピュータ装置１００を示すブロックで図である。コンピュータ装置１００は、バス、又は情報を通信するための他の通信機構と、情報を処理するためにバス１０２と結合しているプロセッサ（又は共動する複数のＣＰＵ）１０４を有する。コンピュータ装置１０はまた、情報及びプロセッサ１０４によって実行される命令を記憶するためにバス１０２と結合する、ランダムアクセスメモリ（ＲＡＭ）又は他のダイナミック記憶装置といった、メインメモリ１０６も有している。メインメモリ１０６はまた、プロセッサ１０４が命令を実行中に暫定変数、又は他の中間情報を記憶するためにも使用される。コンピュータ装置１００は、プロセッサ１０４のための静電情報及び命令を記憶するためにバス１０２と結合された読取専用メモリ（ＲＯＭ）１０８、又は他の静電記憶装置をさらに有する。電磁ディスク、又は光学ディスクといった記憶装置１１０が情報及び命令を記憶するためにバス１０２に設けられ、結合されている。
【００１５】
コンピュータ装置１００は、コンピュータユーザに情報を表示するためのカソード線管（ＣＲＴ）のような表示装置１１１にバス１０２を介して結合されている。英数字及び他のキーを有する入力装置１１３が、プロセッサ１０４に対して情報及びコマンド選択を通信するためにバス１０２と結合されている。他の種類のユーザ入力装置としては、プロセッサ１０４に対する指示情報及びコマンド選択の通信をするため、及び表示装置１１１上のカーソルの動きを制御するためのマウス、トラックボール、又はカーソル指示キーといったカーソルコントロール１１５がある。この入力装置は一般に、装置が平面で位置を特定する、第１軸（例えばｘ）と第２軸（例えばｙ）の２軸において２度の自由度を有する。音声出力及び入力のために、コンピュータ装置１００はスピーカ１１７、及びマイク１１９にそれぞれ結合されている。
【００１６】
本発明は、顔合成のためのコンピュータ装置１００の使用に関するものである。本発明の１実施例において、メインメモリ１０６に含まれる１つ以上の命令の１つ以上の順序を実行するプロセッサ１０４に応じて、コンピュータ装置１００によって顔合成が提供される。このような命令は、記憶装置１１０のような他のコンピュータ読み取り可能媒体からメインメモリ１０６に読み込まれる。メインメモリ１０６に含まれる命令の順序の実行で、プロセッサ１０４がここに記述のプロセスステップを実行する。マルチ処理配列の１つ以上のプロセッサが、メインメモリ１０６に含まれる命令の順序を実行するために採用されている。別の実施例では、本発明を実施するためのソフトウェア命令と置き換えて、又は組み合せて、ハード配線回路が使用されている。このように、本発明の実施例は、ハードウェア回路及びソフトウェアの特定の組合せに限定されない。
【００１７】
ここに使用している用語、“コンピュータ読み取り可能媒体”とは、実行のために命令をプロセッサ１０４に与えることに関係する媒体を指す。そのような媒体は、これらに限定されないが、不揮発性媒体、揮発性媒体、及び送信媒体を含むあらゆる形態を取る。不揮発性媒体は、記憶装置１１０のような、例えば、光学、又は磁気ディスクを含む。揮発性媒体は、メインメモリ１０６のようなダイナミックメモリを含む。送信媒体とは、バス１０２を備える配線を含む、同軸ケーブル、銅線、及びファイバーオプティクスを含む。送信媒体はまた、ラジオ周波数（ＲＦ）、赤外線データ通信中に生成されたもののような、音波、又は光波の形態を取ることもできる。コンピュータ読み取り可能媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディク、ハードディスク、磁気テープ、他の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤ、他の光学的媒体、パンチカード、紙テープ、孔のパターンがある他の物理的媒体、ＲＡＭ、ＰＲＯＭ、及びＥＰＲＯＭ、フラッシュＥＰＲＯＭ、他のメモリーチップ又はカートリッジ、以下に述べる搬送波、又はコンピュータがそこから読める他の媒体を含む。
【００１８】
あらゆる形態のコンピュータ読み取り可能媒体が実行のためのプロセッサ１０４への１つ以上の命令の１つ以上の順序を行うのに必要である。例えば、まず命令が遠隔コンピュータの磁気ディスク上に生まれる。遠隔コンピュータは、そのダイナミックメモリに命令を荷重し、モデムを使用して電話線で命令を送信する。コンピュータ装置１００から離れたモデムは、電話線でデータを受け取ることができ、赤外線送信機を使用してデータを赤外線信号に変換することができる。バス１０２に結合された赤外線検出器は、赤外線信号で運ばれたデータを受け取り、バス１０２上にデータを置く。バス１０２はデータをメインメモリ１０６へ運び、そこからプロセッサ１０４が命令を検索、実行する。メインメモリ１０６が受け取った命令は、プロセッサ１０４による実行前、又は後に任意に記憶装置１１０に記憶される。
【００１９】
コンピュータ装置１００は、バス１０２に結合された通信インターフェース１２０も有している。通信ターフェース１２０は、ローカルネットワーク１２２に連結されたネットワークリンク１２１と２方向データ通信を結合している。通信インターフェース１２０の例としては、集積サービスディジタルネットワーク（ＩＳＤＮ）カード、データ通信を対応するタイプの電話線に接続するモデム、及びデータ通信を変換可能ローカルエリアネットワーク（ＬＡＮ）に接続するＬＡＮカードがある。ワイヤレスリンクも実施可能である。いずれを実施しても、通信ターフェース１２０はあらゆる種類の情報を表すディジタルデータ線を運ぶ電気、電磁、又は光信号を送受信している。
【００２０】
ネットワークリンク１２１は一般に、１つ以上のネットワアークを通じてデータ通信を他のデータ装置に提供している。例えば、ネットワークリンク１２１は、ローカルネットワーク１２２を介してホストコンピュータ１２４、又はインターネットサービスプロバイダ（ＩＳＰ）１２６が操作するデータ機器に接続されている。そして、ＩＳＰ１２６が、今では一般に“インターネット”１２８と呼ばれている、世界的広さのパケットデータ通信ネットワークを介してデータ通信サービスを提供している。ローカルネットワーク１２２、及びインターネット１２８は、共にディジタルデータ線を運ぶ電気、電磁、又は光信号を使用している。多様なネットワークを介する信号、及びネットワークリンク１２１上、及び通信インターフェース１２０を介する信号は、ディジタルデータをコンピュータ装置１１０からコンピュータ装置１００へ運んでおり、情報を輸送する搬送波が典型的な形態である。
【００２１】
音声映像コードブック
本発明の一実施形態にしたがい、音声映像コードブック、好ましくは画素類似行列３００を生成するための予備工程として、オフライン学習段階が実行される。音声映像コードブックは単一の音素あるいは「文脈音素」と称する音素シーケンス内の中心音素に相当する複数の項目を含んだデータ構造である。各項目は音素に関する一つ以上の音響的特徴と関連画素の対応する視覚的特徴とを含んでいる。
【００２２】
オフライン学習段階はテスト対象が同時に発生させる音声と顔点の軌跡を読み取ることによりテスト対象からデータを収集する工程を含んでいる。ある学習方法によれば、対象は正射表現形式が作成される単語、語句及び文を言うよう要求される。そして、記録された音声画像データは処理され音声映像コードブックの項目に保存される。音声映像コードブックの項目数は作成毎に異なり、通常顔合成品質と演算能力との兼ね合いによって左右される。
【００２３】
一実施形態では、音声データは１６ｋＨｚなどの適切な周波数でサンプリングされ、例えば、Ｃ．ワイトマン及びＤ．タルキン著「ジ・アライナー・ユーザーズ・マニュアル」エントロピック・リサーチ・ラボラトリー・インコーポレーテッド、ワシントンＤ．Ｃ．、１９９４年（C. Wightman & D. Talkin, "The Aligner User's Manual", Entropic Reseach Laboratory, Inc., Washington, D.C., 1994）により詳細に記述されているようにメル−ケプストラム係数及びデルタ係数を用いて隠れマルコフモデル（ＨＭＭ）フレームワーク内で正射表現形式を音声翻訳に強制的に合わせることにより自動的にセグメント化される。好ましくは、サンプリングされた音声データは線スペクトル周波数に変換され、それにより、非常に信頼性のある評価が可能になるとともに、実時間デジタル信号処理に有利な固定の値域を持つことができる。音声映像コードブック用の線スペクトル周波数値はまずこの業界で公知の技術にしたがってサンプル信号の線形予測係数ａ_kを決定することによって得ることができる。例えば、特殊なハードウェアや、汎用コンピュータやマイクロプロセッサ上で実行するソフトウェアや、それらの組み合わせは平方根分解、コレスキー分解、レヴィンソン−ダービー帰納法、板倉及び斎藤により紹介された格子分析等の技術により線形予測係数を判定することが可能である。
【００２４】
一実施形態では、画像データは対象の顔面上の点に相当する３次元空間の５２個の「顔点」として得られる。各顔点はｘ座標、ｙ座標及びｚ座標をとるので、顔点のパラメータの総数は１５６個になり、１５６次元の顔点ベクトルを形成する。顔点ベクトルには、その主成分を得るためにカルフーネン−レーヴ変換などの適切な変換技術が適用される。一つの顔の各点は相関性が高いので、小さな歪みで次元数が大きく減少することになる。視覚的特徴を表現するために主成分を使用するという有利な特性は、主成分が最も相関性の高い動きに対応する方向を示すということである。それ故、背景の顔を写実的な動きで動的にするために主成分の重み修正を利用することができる。
【００２５】
例えば、最大固有値を有する固有ベクトルが話者の顔の最大の相関点集合を含む下顎の動きに対応することが分かった。したがって、第１の主成分のみを修正することで下唇と下顎の軌跡を動かすことになる。第２の主成分は口の両側の動きに対応することが分かった。図２（ａ）及び図２（ｂ）は一顔点ベクトルの第１及び第２成分のみをそれぞれ調整する効果をしめし、実線は元の顔点の軌跡を、破線は調整後の顔点の軌跡を示す。
【００２６】
本発明の一特徴によれば、音声データからセグメント化された各音素には音素の文脈を示す「文脈音素」記号が付せられる。特に、文脈音素記号は音声データ内の中心音素とこの中心音素の両側に位置する一つ以上の隣接音素とを示している。例えば、"whenever"という単語内の音素ehはその両側の最も近い３個の隣接音素を含むw#eh#n#eh#v#axr#fという文脈音素記号を有している（右端のfの音素はfまたはphで始まる次の単語に属する）。中心音素と隣接音素を含む音素シーケンスを構成する文脈音素を利用することにより、文脈固有の適切な画素を生成することができる。
【００２７】
本発明の別の特徴によれば、学習データ内の各音素は音素が明瞭に発音されている間の均等間隔を置いた多数の時間的位置、例えば五つの位置でラベル付けされる。音響的及び視覚的特徴、例えば、線スペクトル周波数及びカルフーネン−レーヴ主成分が、音素あるいは文脈音素に関する音声映像コードブック項目に保存される。多数の音響的特徴及び視覚的特徴を利用することにより、音素が明瞭に発音されている間に円滑かつ現実に近い画素シーケンスを生成することができる。
【００２８】
このように、音声映像コードブックは一音素または中心音素に相当し一つ以上の音響的特徴と一つ以上の対応する視覚的特徴とを含む多数の項目を有している。音声映像コードブックは、入力音声フレームを項目内の音響的特徴と比較して比較された各音響的特徴の重みを評価することにより顔画像を生成するために利用可能である。対応する視覚的特徴は重み付けされた合計として結合され複合視覚的特徴を生成する。この複合視覚的特徴が顔画像に変換される。音声映像コードブック内の全ての項目に対してこの処理を実行することは結果として非常に高品質の出力を発生させることになるが、この処理の能力を向上させることが望ましい。
【００２９】
画素類似行列
一実施形態では、音声情報が顔画像に合成される入力音声データに関して先験的に知られているならば、上記処理能力を大きく向上させることが可能である。特に、各入力音声フレームで発音される音素に最も視覚的に類似する音素または文脈音素を含む音声映像コードブック内の数個の項目が選択される。したがって、入力音声フレームの音響的特徴と比較される総項目数は最も視覚的に類似する数個の項目まで削減される。この選択は装置の演算処理量を削減して顔合成処理の全体の能力を向上させることができる。
【００３０】
実際には、学習データは全ての相応しい所定の長さの文脈音素（全ての異質な音素及び全音素(allophones)）を含んでいるわけではないので、未知の文脈音素を音声映像コードブック内の視覚的に類似する項目と関連付けるいくつかの方法を有していることが望ましい。視覚的類似測定の一つは顔データの主成分のユークリッド距離に基づいている。この類似度は学習データの音素の様々な例から各音素の平均主成分ベクトルｍ_kを以下の式の基づいて評価することにより学習データから自動的に生成して画素類似行列３００に保存することが可能である。すなわち、
【００３１】
【数１】

【００３２】
但し、Ｋは言語の全音素数、Ｔは学習データ内のｋ番目の音素の総数、Ｐ_ktはｋ番目の音素に関連するｔ番目の主成分ベクトルをそれぞれ示す。今、平均主成分ベクトルｍ_kが与えられると、各一対の音素間のユークリッド距離は以下の式のとおりに算出される。すなわち、
【００３３】
【数２】

【００３４】
算出されたユークリッド距離に基づいて、画素類似度Ｓ_ikは以下のようにして導出される。
【００３５】
【数３】

【００３６】
この公式化の一つの特性は画素類似度Ｓ_ikが０ないし１の範囲内に存在することである。図３は米国英語の音素に対応する一つの画素類似行列３００のグレースケール像を示し、より濃度が高い点ほどより高レベルの視覚的類似度を示す。例えば、bに最も視覚的に類似する音素はpに認識された。一般に、画素類似行列３００の項目は直感的な予想と一致することが分かっている。
【００３７】
画素類似行列３００は２つの音素の視覚的類似度を測定するために直接使用することができるが、より複雑な方法が音素シーケンスを示す２つの文脈音素間の視覚的類似度を評価するために使用される。好ましくは、中心音素はそこからより遠距離の音素の作用を低減しながら最大の作用を及ぼす必要がある。文脈音素の視覚的類似性を評価するための一つの方法は、以下のように公式化される。すなわち、
【００３８】
【数４】

【００３９】
但し、Ｃはレベル文脈情報（すなわち、各側の隣接音素数）、Ｌは音声映像コードブック内の文脈音素の総数、Ｓ_lijは対象文脈音素の左側ｉ番目の音素と音声映像コードブック内のｊ番目の文脈音素との間の類似性、Ｓ_rijは対象文脈音素の右側ｉ番目の音素と音声映像コードブック内のｊ番目の文脈音素との間の類似性をそれぞれ示す。画素類似行列３００の値Ｓ_ikは０と１との間に存在するので、数式４は中心音素の一致が視覚定期類似度により大きく作用することを確証している。
【００４０】
顔合成
学習データから音声映像コードブックが作成されると、入力音声の応じて顔画像が合成される。既に述べたように、顔合成処理の能力は音声情報が入力音声に関して先験的に知られている場合に大きく向上させることができる。一実施形態では、入力音声の音素に相当する音素シーケンスも入力され、音声映像コードブック内の最も視覚的に類似する数項目を識別するために画素類似行列３００とともに利用される。音素シーケンスは公知の方法で入力音声用に作成されてもよいし、あるいは合成音声用に作成されてもよい。音素シーケンスが最初に作成され、その後作成音素シーケンスから入力音声が合成される。
【００４１】
図４は本発明の一実施形態にかかる顔合成方法を示すフロー図である。ステップ４００では、音素シーケンスが音声映像コードブック内の項目と比較され、最も視覚的に類似する数項目を選択される。一方では、音声映像コードブックが文脈音素の項目、すなわち音素シーケンス群を格納するよう構成される場合、各入力音素がその隣接音素と結合されて一つの入力文脈音素が生成される。例えば、７つのシーケンス文脈音素を採用する顔合成装置では、現在の音素が先行する３個の音素及び後続の３個の音素と連結される。入力文脈音素は画素類似行列３００にアクセスすることから個々の画素類似度を重み付けて結合したものである数式４を代入することにより音声映像コードブックの各項目と比較され、入力文脈音素の全体の画素類似度が測定される。他方では、音声映像コードブックが単一の音素に関する項目を格納するよう構成される場合に、画素類似行列３００が画素類似度を得るために直接調べられる。
【００４２】
測定された視覚的類似度に基づいて、音声映像コードブックのもっともし画定に類似したＮ個の項目が選択される。Ｎの最良値は、文脈音素の音素シーケンスの長さや所与の学習セットの能力と忠実度との間の望ましい兼ね合いなどの要素次第で、作成毎に異なる。しかしながら、一般に、Ｎの値は約４ないし約１６の範囲内に存在し、実際にはユーザが作成可能なパラメータであっても良い。
【００４３】
ステップ４０２では、入力音声フレームが音声映像コードブックに格納された音響的特徴との比較に適した音響的特徴に変換される。例えば、入力音声フレームは線スペクトル周波数に変換され、音声映像コードブックに格納された線スペクトル周波数集合と比較される。一部の実施形態では、複数、例えば５つのサンプルが音声映像コードブックの各項目毎に格納されている。音響的特徴の比較の結果は重みとなり、より大きな重みほどより音響的類似性の高いサンプルに割り当てられる。上記比較に基づいて重みを作成するために様々な技術が採用可能であるが、本発明はいかなる特定の重みにも限定されない。
【００４４】
「音声変換装置、及び方法」（"Voice Conversion System and Methodology"）という名称の、共通に譲渡された係属中のPCT特許出願PCT／US９８／０１５３８号には、一つの重み付け技術が記載されている。すなわち、コードブック重みｖ_iは入力された線スペクトル周波数ベクトルｗ_kと音声映像コードブック内の各音響的特徴サンプルＳ_iとを比較することにより評価され、対応する距離ｄ_iが以下のように算出される。すなわち、
【００４５】
【数５】

【００４６】
但し、Ｌはコードブックのサイズである。距離計算は知覚判定基準に基づく重み因子ｈ_kを含んでいても良い。その場合、フォーマット位置に相当する傾向がある近接間隔の線スペクトル周波数の対がより大きな重みを割り当てられる。すなわち、
【００４７】
【数６】

【００４８】
但し、平均のエネルギが周波数の増加とともに（音声の場合に）減少し（音声でない場合に）増加するので、Ｋは音声の場合には３であり音声でない場合には６である。算出された距離ｄ_iに基づいて、正規化されたコードブック重みｖ_iが以下のようにして得られる。すなわち、
【００４９】
【数７】

【００５０】
但し、各フレームのγの値は概算線スペクトル周波数ベクトルｖＳ_kと入力線スペクトル周波数ベクトルｗ_kとの知覚的に重み付けされた距離を最小化する判定基準を用いて０．２ないし２．０の範囲内での増分探索によって求められる。これらの重みは係属中のＰＣＴ特許出願ＰＣＴ／ＵＳ９８／０１５３８にも記載されているようにさらに調整されてもよい。
【００５１】
ステップ４０４では、複合された視覚的特徴が上記重みと音声映像コードブックの選択項目の対応する視覚的特徴とから、例えば、顔データサンプルの主成分の重み付け合計あるいは線形結合として構成される。例えば、複合視覚的特徴は以下のようにして算出される。
【００５２】
【数８】

【００５３】
一実施形態では、複数の視覚的特徴が、各項目に対応する音声が明瞭に発音されている間に音声映像コードブックの異なる点で各項目に格納される。したがって、重みの合計は音声映像コードブックの項目の全ての画像サンプルを含むことになり、発声時の口と唇の動きをより写実的に追う顔データを生成する。
【００５４】
ステップ４０６では、複合視覚的特徴が望ましい顔データに変換される。例えば、カルフーネン−レーヴ変換により得られた主成分が視覚的特徴を示すように使用される場合、逆カルフーネン−レーヴ変換が複合主成分に適用され、出力として顔点が生成される。これら顔点は公知技術により顔画像に変換可能である。
【００５５】
したがって、写実的な顔画像が入力音声信号に応じて生成される顔合成装置及び方法が説明されている。特に、複合視覚的特徴は入力音響的特徴と音声映像コードブックの音響的特徴とを比較することにより特定された重みにしたがって音声映像コードブックの項目から生成される。その結果、音声映像コードブックを必要とすることなく、画素遷移用、高度に文脈に依存する状況用、及び外国語の音素用に対してさえ写実的な出力を得て、大量の学習サンプルを蓄積することができる。
【００５６】
本発明は最も実用的で好ましい実施形態を考慮して説明されてきたが、本発明は開示された実施形態に限定されるものではなく、特許請求の範囲の精神及び範囲内に含まれる様々な変形例や等価の構成を包含するよう意図されていると理解すべきである。
【図面の簡単な説明】
【図１】本発明を実行できるコンピュータ装置の概略図。
【図２】（ａ）及び（ｂ）はそれぞれ顔点データの第１及び第２主成分の変形の作用を示すグラフ。
【図３】米国英語の音素に対応する画素類似マトリックス３００を示す図。
【図４】本発明の１実施例に応じた顔合成過程を示すフローチャート。

Claims

コンピュータ装置によって、音素のシーケンスと相互に関連する音声フレームのシーケンスを含む音声信号に応じて顔画像を合成する方法であって、該方法は、前記コンピュータ装置のメモリに格納された命令を前記コンピュータ装置のプロセッサが処理することによって実行され、
上記音素シーケンス内の一音素およびその隣接する音素群と中心音素およびその隣接音素からなる音素列に相当し複数の音響的特徴およびそれに対応する複数の視覚的特徴を有する音声映像コードブックの複数の項目との視覚的類似度を測定する工程と、
上記測定された視覚的類似度に基づいて上記音声映像コードブック内の複数の項目を選択する工程と、
上記音声信号の音声フレームと上記複数の項目の音響的特徴とを比較して複数の重みを生成する工程と、
上記重みと上記複数の項目の視覚的特徴とに基づいて複合された視覚的特徴を生成する工程と、
上記複合された視覚的特徴に基づいて顔画像を合成する工程とを備えた顔画像合成方法。
上記視覚的類似度を測定する工程は上記音素シーケンス内の一音素およびその隣接音素に相当する顔データの主成分の集合のそれぞれと上記中心音素およびその隣接音素に相当する顔データの主成分サンプルとの間の各ユークリッド距離を算出するものである請求項１記載の顔画像合成方法。
上記視覚的類似度を測定する工程は上記音素シーケンス内の一音素およびその隣接音素に相当する顔データの主成分の集合のそれぞれと上記中心音素およびその隣接音素に相当する顔データの主成分サンプルとの間の各ユークリッド距離に基づいて複数の成分を含む視覚的類似行列にアクセスするものである請求項１記載の顔画像合成方法。
上記音響的特徴は線スペクトル周波数の集合であり、上記視覚的特徴は顔の点サンプルから導出された顔データの主成分の集合である請求項１記載の顔画像合成方法。
音素のシーケンスと相互に関連する音素フレームのシーケンスを有する音声信号に応じて顔画像を合成する命令を含むコンピュータ読取り可能媒体であって、
上記命令は、１個以上のプロセッサによって実行されるとき、該プロセッサが
上記音素シーケンス内の一音素およびその隣接する音素群と中心音素およびその隣接音素からなる音素列に相当し複数の音響的特徴およびそれに対応する複数の視覚的特徴を有する音声映像コードブックの複数の項目との視覚的類似度を測定する工程と、
上記測定された視覚的類似度に基づいて上記音声映像コードブック内の複数の項目を選択する工程と、
上記音声信号の音声フレームと上記複数の項目の音響的特徴とを比較して複数の重みを生成する工程と、
上記重みと上記複数の項目の視覚的特徴とに基づいて複合された視覚的特徴を生成する工程と、
上記複合された視覚的特徴に基づいて顔画像を合成する工程とを実行するよう構成されているコンピュータ読取り可能媒体。