JP4011844B2

JP4011844B2 - 翻訳装置、翻訳方法および媒体

Info

Publication number: JP4011844B2
Application number: JP2000288601A
Authority: JP
Inventors: 和昌村井; 信緒方; 繁生森島; 哲中村
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2000-09-22
Filing date: 2000-09-22
Publication date: 2007-11-21
Anticipated expiration: 2020-09-22
Also published as: JP2002099295A

Description

【０００１】
【発明の属する技術分野】
この発明は、入力された音声および画像に基づいて、入力された言語を他の言語に翻訳するための翻訳装置および翻訳方法に関する。より特定的には、本発明は、入力した音声および画像に基づいて所望の言語への翻訳を行ない、翻訳した言語の音声およびそれに対応する画像を合成する翻訳装置および翻訳方法に関する。
【０００２】
【従来の技術】
従来、発話者が話した話し言葉に基づいて音声翻訳を行なう場合、入力された第１の言語（例えば、日本語）を認識し、これに対して言語解析を行なった結果を第２の言語（例えば、英語）に翻訳し、翻訳した結果に基づいて第２の言語の音声を合成するということが行なわれている。
【０００３】
さらに、文献１：Nick Campbell, Alan W.Black著「Chatr:a multi-lingual speech re-sequencing synthesis system」電子情報通信学会信学技報、sp96-7,pp.45-, 1996には、入力した第１の言語の音声の声の特徴を認識し、その認識結果に基づいて第２の言語を合成することにより、発話者が第２の言語を発話する場合に近い音声翻訳を実現するための技術が開示されている。この文献１に開示された技術によれば、より自然な音声翻訳を実現する事ができる。
【０００４】
【発明が解決しようとする課題】
上述したような自動翻訳は、翻訳結果をあくまでコンピュータにおける合成処理の結果として外部に出力するものである。このとき、コンピュータと人間とのコミュニケーションを円滑に行なうには、人と人とが直接対話しているような環境を実現することが理想的である。また、このような人と人との会話の理解において、唇の動きは、特に重要な役割を果たしていると考えられる。
【０００５】
しかしながら、上述した文献１に開示された技術では、音声が合成されるのみであり、発話者の顔画像、特に、唇等の動きを翻訳することはできなかった。
【０００６】
これに対して、米国特許５，８２６，２３４（発明者：Bertil Lyberg, 出願日：１９９６年１２月５日, 発明の名称：「合成された話し言葉および対応する表情の動きを生成する音響画像に吹き替えを行なうための装置および方法（DEVICE AND METHOD FOR DUBBING AN AUDIO-VISUAL PRESENTATION WHICH GENERATES SYNTHESIZED SPEECH AND CORRESPONDING FACIAL MOVEMENTS）」では、発話者が第１の言語を発話している画像をあらかじめ記録し、第１の言語を発話中の音素と表情との関連に基づいて、第２の言語の発話画像を合成する方法が開示されている。
【０００７】
この方法によれば、発話者の音声のみならず、顔画像も翻訳することが可能となり、発話者が第２の言語を発話しているのに近い音声及び画像の翻訳が可能になる。つまり、発話中の画像に基づくため、表情などが翻訳結果の出力に反映されるので、音声のみの場合に比較すれば、より自然なコミュニケーションを実現できることが期待される。
【０００８】
しかしながら、たとえば、日本語を英語に翻訳する場合を想定すると、英語には、現在の日本語に存在しない音素、たとえば、/th/, /f/, /v/,/l/,/r/,/ae/などがある。つまり、日本語と英語では、母音および子音の種類に大きな開きがある。したがって、英語の発話中の顔の動きには、日本語の発話中には存在しない動きであって、外見上も明らかに異なるものが多数存在する。米国特許５８２６２３４に開示された技術に基づく場合は、これらの、第１の言語に存在しない発話における顔の動きは、第２の言語の発話における顔の動きに翻訳することができない。
【０００９】
また、逆に、英語を日本語に翻訳する場合、表記上は同じ子音であっても、実際の英語の発話における顔の動きは、日本語を発話する場合に比べると大きい事が知られており、英語の発話画像に基づいて日本語の発話画像を合成すると、動きが大きくなりすぎるという問題がある。
【００１０】
さらに、記録した音素とは異なる順序で合成する際には、一般的には画像が連続しないために、上記米国特許５，８２６，２３４に開示された技術を用いれば、音声だけの場合に比べれば、コミュニケーションがより自然に近くなる可能性があるものの、実際に人間が発話するのを見る場合と比べれば、その動きがぎこちないものとなってしまう可能性があるという問題点があった。
【００１１】
この発明は、上記のような問題点を解決するためになされたものであって、その目的は、音声と同時に発話者の画像も翻訳する際に、第１の言語から取得することのできない情報を含め、音声及び画像を翻訳することが可能な翻訳装置および翻訳方法を提供することである。
【００１２】
【課題を解決するための手段】
請求項１記載の翻訳装置は、発話者の発声した第１の言語の内容を発話情報に基づいて認識するための発話認識手段と、発話認識結果に基づいて、第１の言語を第２の言語に翻訳し、第２の言語の翻訳結果の発話に対応する時系列の音素の情報および各音素の継続長に関する情報を出力する翻訳手段と、翻訳手段の翻訳結果に基づいて、第２の言語での発話に対応する音声を合成する音声合成手段と、第２の言語の母音の音素および視覚素と第２の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けて格納するための記憶手段とを備え、調音器官の形状を数値表現したデータは、第１の言語を発話する発話者についてのサンプリングにより得られた発話者の顔画像を表現するためのデータ、ならびに、第２の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する調音器官の形状の変化を予め抽出した形状変化データに基づいて、第２の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み、翻訳手段の翻訳結果に基づいて、記憶手段に格納された情報に応じて、第２の言語での発話に対応する少なくとも調音器官の動きを表現するための動画像を合成する画像合成手段をさらに備え、画像合成手段は、記憶手段に格納された情報に基づいて、時系列の音素のそれぞれに対応する発話者の複数の顔画像データを抽出する顔画像データ抽出手段と、複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成する補間画像生成手段とを含み、音声合成手段と画像合成手段の出力とを同期して出力する出力手段とをさらに備える。
【００１４】
請求項２記載の翻訳装置は、請求項１記載の翻訳装置の翻訳装置の構成に加えて、前記発話認識手段は、前記発話者の発声した前記第１の言語の内容を音声情報に基づいて認識するための音声認識手段を含む。
【００１５】
請求項３記載の翻訳装置は、請求項１記載の翻訳装置の翻訳装置の構成に加えて、前記発話認識手段は、前記発話者の発声した前記第１の言語の内容を音声情報に基づいて認識するための音声認識手段と、前記発話者が前記第１の言語を発話する際の調音器官の形状を認識するための調音器官形状認識手段と、前記音声認識手段の認識結果と前記調音器官形状認識手段の認識結果との少なくとも一方に基づいて、前記発話者の発声した第１の言語の内容を認識して、前記翻訳手段に与えるための情報統合手段とを含む。
【００１６】
請求項４記載の翻訳装置は、請求項２または３記載の翻訳装置の翻訳装置の構成に加えて、前記画像合成手段は、前記発話認識手段の認識結果に応じて、前記記憶手段に格納された情報と前記発話者の画像の特徴とに基づいて、前記画像を合成する。
【００１７】
請求項５記載の翻訳装置は、請求項４記載の翻訳装置の翻訳装置の構成に加えて、前記画像合成手段は、前記発話者の前記第２の言語の発話に応じて変形する部分を前記翻訳手段の翻訳結果に応じて合成し、さらに発話に応じて変形しない部分と合成した上で出力する。
【００１８】
請求項６記載の翻訳装置は、請求項４記載の翻訳装置の翻訳装置の構成に加えて、前記発話者の画像の特徴は、前記発話者の顔の向きである。
【００２４】
請求項７記載の翻訳方法は、発話者の発声した第１の言語の内容を認識するステップと、認識された結果に基づいて、第１の言語を第２の言語に翻訳し、第２の言語の翻訳結果の発話に対応する時系列の音素の情報および各音素の継続長に関する情報を出力するステップと、翻訳された結果に基づいて、第２の言語での発話に対応する音声を合成するステップと、第２の言語の母音の音素および視覚素と第２の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けたデータベースと、翻訳結果に基づいて、第２の言語での発話に対応する少なくとも調音器官の動きを表現するための画像を合成するステップとを備え、調音器官の形状を数値表現したデータは、第１の言語を発話する発話者についてのサンプリングにより得られた発話者の顔画像を表現するためのデータ、ならびに、第２の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する調音器官の形状の変化を予め抽出した形状変化データに基づいて、第２の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み、記憶手段に格納された情報に基づいて、時系列の音素のそれぞれに対応する発話者の複数の顔画像データを抽出するステップと、複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成するステップと、合成された音声と、抽出された顔画像データと補間された画像データにより合成された動画像とを、同期して出力するステップをさらに備える。
【００２６】
請求項８記載の翻訳方法は、請求項７記載の翻訳方法の構成に加えて、前記データベースに格納するための前記第２の言語を発話する際の少なくとも調音器官の形状を数値表現したデータを、発話者の個性の影響を除いて正規化された形状に対応するデータにするステップをさらに備える。
【００２７】
請求項９記載の翻訳方法は、請求項７記載の翻訳方法の構成に加えて、前記発話者の発声した第１の言語の内容を認識するステップは、前記発話者の発声した前記第１の言語の内容を音声情報に基づいて認識するステップを含む。
【００２８】
請求項１０記載の翻訳方法は、請求項７記載の翻訳方法の構成に加えて、前記発話者の発声した第１の言語の内容を認識するステップは、前記発話者の発声した前記第１の言語の内容を音声情報に基づいて認識するステップと、前記発話者が前記第１の言語を発話する際の調音器官の形状を認識するステップと、前記音声情報に基づく認識の結果と前記調音器官形状の認識結果との少なくとも一方に基づいて、前記発話者の発声した第１の言語の内容を認識するステップとを含む。
【００２９】
請求項１１記載の翻訳方法は、請求項９または１０記載の翻訳方法の構成に加えて、前記画像を合成するステップは、前記第１の言語の内容の認識結果に応じて、前記データベースに格納された情報と前記発話者の画像の特徴とに基づいて、前記画像を合成する。
【００３０】
請求項１２記載の翻訳方法は、請求項１１記載の翻訳方法の構成に加えて、前記画像を合成するステップは、前記発話者の前記第２の言語の発話に応じて変形する部分を前記翻訳手段の翻訳結果に応じて合成し、さらに発話に応じて変形しない部分と合成するステップを含む。
【００３１】
請求項１３記載の翻訳方法は、請求項１１記載の翻訳方法の構成に加えて、前記発話者の画像の特徴は、前記発話者の顔の向きである。
【００３７】
請求項１４記載のコンピュータ読取り可能な媒体は、発話者の発声した第１の言語の内容を認識するステップと、認識された結果に基づいて、第１の言語を第２の言語に翻訳し、第２の言語の翻訳結果の発話に対応する時系列の音素の情報および各音素の継続長に関する情報を出力するステップと、翻訳された結果に基づいて、第２の言語での発話に対応する音声を合成するステップと、第２の言語の母音の音素および視覚素と第２の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けたデータベースと翻訳結果とに基づいて、第２の言語での発話に対応する少なくとも調音器官の動きを表現するための画像を合成するステップを備え、調音器官の形状を数値表現したデータは、第１の言語を発話する発話者についてのサンプリングにより得られた発話者の顔画像を表現するためのデータ、ならびに、第２の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する調音器官の形状の変化を予め抽出した形状変化データに基づいて、第２の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み、記憶手段に格納された情報に基づいて、時系列の音素のそれぞれに対応する発話者の複数の顔画像データを抽出するステップと、複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成するステップと、合成された音声と、抽出された顔画像データと補間された画像データにより合成された動画像とを同期して出力するステップをさらに有する翻訳方法をコンピュータに実行させるためのプログラムを記録している。
【００３９】
請求項１５記載のコンピュータ読取り可能な媒体は、請求項１４記載のコンピュータ読取り可能な媒体の構成に加えて、身体の所定の動作と当該動作を数値表現したデータは、身体の個性の影響を除いた正規化された形状に対応するデータである。
【００４６】
【発明の実施の形態】
［実施の形態１］
図１は、本発明の実施の形態１の翻訳装置１００の構成を説明するための概略ブロック図である。
【００４７】
なお、以下の説明では、第１の言語が日本語であり、第２の言語が英語である場合を例として説明するが、以下の説明で明らかとなるように、本発明はこのような場合に限定されることなく、他の言語の組合せの相互間の翻訳にも適用することが可能なものである。
【００４８】
図１を参照して、翻訳装置１００は、発話者２が発声した第１の言語についての音声を取得するためのマイクロフォン１０２と、発話者２が第１の言語を発生する際の画像を撮影するためのカメラ１０４と、マイクロフォン１０２およびカメラ１０４からの出力を受けて、発話者２が発音した文章に対応する音声情報および画像情報を処理して、第１の言語の内容を解析し、当該内容に相当する第２の言語に翻訳した上で、第２の言語の発話に対応する音声および画像を合成するためのコンピュターシステム１１０と、コンピュターシステム１１０により合成された第２言語の発話に対応する音声を出力するためのスピーカ１２０と、コンピュターシステム１１０により合成された第２言語の発話に対応する画像を出力するための表示装置（ディスプレイ）１３０とを備える。
【００４９】
コンピュターシステム１１０は、マイクロフォン１０２、カメラ１０４、スピーカ１２０および表示装置１３０との間でデータの授受を行なうためのデータ入出力部１１０２と、マイクロフォン１０２からデータ入出力部１１０２を介して与えられる音声信号に基づいて、発話者２の発声した文章をそれに含まれる音韻情報に分離解析し、さらに言語解析することで第１の言語での発話の内容を認識するための音声認識部１１０４と、音声認識部１１０４で認識された第１の言語での発話の内容を、第２の言語での発話情報に変換するための音声翻訳部１１０８と、音声翻訳部１１０８の翻訳結果を受けて第２の言語での発話に対応する音声を合成するための音声合成部１１１０と、後に説明するように、第２の言語での音声情報とそれに対応する画像情報とを格納するためのデータ記憶部１１２０と、音声翻訳部１１０８からの翻訳結果とデータ記憶部１１２０に格納された情報とに基づいて、発話者２が第２の言語で発話する際の画像を合成するための画像合成部１１２２と、音声合成部１１１０の出力と画像合成部１１２２の出力とを受けて、第２の言語での発話のタイミングに両者を同期させるための同期出力部１１２４とを備える。
【００５０】
同期出力部１１２４からの出力は、データ入出力部１１０２を介して、表示装置１３０およびスピーカ１２０とにそれぞれ出力される。
【００５１】
なお、カメラ１０４により撮影された発話者２の画像、たとえば、発話者２の無発声状態での顔部分の画像は、データ入出力部１１０２を介して、初期データとして、データ記憶部１１２０に格納されているものとする。
【００５２】
［翻訳装置１００の動作］
図２は、図１に示した翻訳装置１００の動作を説明するためのフローチャートである。
【００５３】
図２を参照して、まず、翻訳装置１００は、処理を開始すると（ステップＳ１００）、発話者２の第１の言語での画像および発話された音声を、カメラ１０４およびマイクロフォン１０２から入力として受け取る（ステップＳ１０２）。
【００５４】
続いて、音声認識部１１０４が、マイクロフォン１０２から入力された音声信号に基づいて、発話者２が発声した文章をそれに含まれる音韻情報に分離解析し、さらに言語解析することで第１の言語での発話の内容を認識する（ステップＳ１０４）。
【００５５】
さらに、音声翻訳部１１０８は、音声認識部１１０４で認識された第１の言語の内容を第２の言語の内容に変換する（ステップＳ１１０）。
【００５６】
音声合成部１１１０は、音声翻訳部１１０８から与えられる第２の言語の内容に基づいて、対応する第２の言語での発話に対応する音声情報を合成する。このとき、予め収集しておいた発話者２の音声情報の特徴に基づいて、合成される音声の特徴を発話者２の特徴を持ったものとすることができる（ステップＳ１１２）。たとえば、発話者の声の高低や、性別による音色の差異などの特徴を再現することが可能である。
【００５７】
一方、画像合成部１１２２は、音声翻訳部１１０８から出力され、音声合成においても使用される、第２の言語での発話の音素の情報および各音素の継続長に関する情報に基づいて、これに対応する一般化された調音器官（唇、歯、舌、口腔の形状等）の情報をデータ記憶部１１２０から取得する（ステップＳ１１４）。
【００５８】
さらに、画像合成部１１２２は、この一般化された調音器官の情報に基づいて、第２の言語での発話における音素の順序、継続長に適合するような時系列に従って、たとえば、顔画像の一般化された画像モデルを生成する。ここで、後に説明するように、特に限定されないが、このような顔画像の一般化された画像モデルとしては、３次元的な顔画像に対するワイヤーフレームモデルを用いることができる。さらに、画像合成部１１２２は、このようにして生成された画像モデルを発話者２の画像に適合するように変形した上で、さらに、発話者２の実際の顔画像に相当するようにテクスチャマッピングを行なって、発話者２が第２の言語を発話する際の顔画像を合成する（ステップＳ１１６）。
【００５９】
同期出力部１１２４は、音声合成部１１１０の出力と画像合成部１１２２の出力とを受けて、第２の言語での発話のタイミングに両者を同期させて出力する。この同期出力部１１２４からの出力は、データ入出力部１１０２を介して、表示装置１３０およびスピーカ１２０からそれぞれ顔画像および音声として出力される（ステップＳ１１８）。
【００６０】
以上で、発話者２の発生した文章に対する翻訳装置１００の処理が終了する（ステップＳ１２０）。
【００６１】
［一般化された顔画像モデル］
図３は、上述したような一般化された顔画像モデルを表現するための３次元ワイヤーフレームモデルの一例を示す図であり、図３（ａ）は、この３次元ワイヤーフレームモデルの正面図であり、図３（ｂ）は側面図である。
【００６２】
このような３次元ワイヤーフレームモデルは、たとえば、発話者が発声する第１の言語について、その音声とそれに対応する顔画像のデータを予め複数サンプリングしておき、それに基づいて生成することができる。
【００６３】
このとき、発話者の顔画像の複数の特徴点（目頭・目じりの位置、口の両端の位置など）を、予め定められた基準位置となるように変形して、この顔画像を特定の発話者の個性に依存しないように正規化処理しておく。
【００６４】
このように、正規化された顔画像についての３次元ワイヤーフレームモデルを、第２の言語の「母音の音素」と「視覚素」ごとに予め設定しておく。
【００６５】
ここで、「視覚素（以下、音素”phoneme”に対応する造語として”viseme”と呼ぶ）」とは、話し手の口の形状を見るだけでは区別することができないが、発声された音を聞けば区別することができる子音のことをいう。つまり、「視覚素」とは、視覚的に分類した発話の要素ということができる。たとえば、音素の集合｛/b/, /p/, /m/｝や｛/k/, /g/｝や｛/s/, /z/｝の各々は、それぞれ１つの「視覚素（viseme）」に対応する。
【００６６】
顔画像のサンプリングは、一般には、発話者の第１の言語（たとえば、母国語）について行なわれるので、第２の言語のすべての「母音の音素」と「視覚素」とについて、上述したような３次元ワイヤーフレームモデルを予め設定しておくためには、以下のような手順が考えられる。
【００６７】
たとえば、第１には、第１の言語についてサンプリングされた３次元ワイヤーフレームモデルに基づいて、音韻学上、一般的に、その「視覚素」等に対応する発音をする場合の調音器官の形状に一致するように変形した３次元ワイヤーフレームモデルの座標を抽出しておくという方法である。
【００６８】
あるいは、第２には、第２の言語について、複数の発話者の「母音の音素」および「視覚素」と、調音器官の形状の形状変化をサンプリングした上で、平均的な変化のデータを求めておき、これに対応するように３次元ワイヤーフレームモデルの座標を抽出しておくことも可能である。
【００６９】
なお、以上の説明では、第２の言語を発話する際の顔画像を合成するために、３次元ワイヤーフレームモデルを用いることとしたが、顔画像を数値の集合として表現し、その数値の集合から顔画像を逆に合成できるのであれば、モデルとしては、３次元ワイヤーフレームモデルに限定されるものではない。
【００７０】
図４は、データ記憶部１１２０に記憶される一般化された顔画像情報の一例を示す概念図である。
【００７１】
すなわち、図４に示すように、データ記憶部１１２０には、以上のようにして抽出された、「母音の音素」および「視覚素」とこれに対応する顔画像を表現するための３次元ワイヤーフレームモデルの座標（より一般的には、顔画像を表現するための数値データ）を対応させたテーブルが格納されている。
【００７２】
図４においては、第１の言語（日本語）についてのテーブルと第２の言語（英語）についてのテーブルの双方が格納されているものとしている。したがって、図４に示すような２つのテーブルがあれば、上述したように、発話者２の発話に基づいて日本語から英語への翻訳を行なう場合だけでなく、他の発話者の発話に基づいて英語から日本語への翻訳を行なう場合の処理を行なうことも可能である。
【００７３】
また、もちろん、他の言語についてのテーブルが準備されていれば、他の言語との間での翻訳に伴う処理を行なうことも可能である。
【００７４】
［顔画像の合成］
図５は、翻訳された文章の音声情報の構成の一例を説明するための概念図である。
【００７５】
図５に示した例では、第１の言語である日本語の文章から第２の言語である英語の文章の"I have a red pen"という文章への変換が行なわれた場合を例として挙げている。
【００７６】
音声言語は、図５に示すように階層性を有しており、文章は、単語、音節（母音と子音とで形成する単位）、音素（各子音、各母音）という風に細分化される。
【００７７】
したがって、音声翻訳部１１０８により翻訳された結果のデータとしては、このような連続した音素と、各音素についての継続長（音の時間的長さ）からなる時系列的なデータが得られることになる。
【００７８】
図６は、音声翻訳部１１０８から出力されるデータに基づいて、顔画像を合成する手続きを説明するための図である。
【００７９】
上述の通り、音声翻訳部１１０８において、音素とのその継続長により翻訳後の第２の文章の発話が表現される。
【００８０】
画像合成部１１２２は、図４に示したようなデータ記憶部１１２０に格納されたテーブルを参照することにより、このような音素の並びを、上述した視覚素の並びに変換する。
【００８１】
次に、画像合成部１１２２は、各視覚素の先頭の時刻（図６中の矢印）において、それぞれの視覚素に対応する３次元ワイヤーフレームモデルの座標を抽出する。
【００８２】
さらに、画像合成部１１２２は、上述のような各視覚素の先頭の時刻に対応する３次元ワイヤーフレームモデルの形状同士の間を補間するような形状を、たとえば、所定の時間間隔毎に生成する。
【００８３】
その上で、画像合成部１１２２は、形成された連続的な３次元ワイヤーフレームモデルの表面に、顔画像のテキスチャをマッピングする。このテキスチャマッピングは、特に限定されないが、例えば、カメラ１０４により撮影された発話者２の初期画像に基づいて行なうことが可能である。
【００８４】
以上のように合成された顔画像が、同期出力部１１２４から合成された第２の言語の音声と同期して出力される。
【００８５】
なお、図６においては、各視覚素の先頭の時刻について、対応する３次元ワイヤーフレームモデルを当てはめる構成としているが、必ずしもこのような場合に限定されることなく、視覚素の中の他の時点を基準とすることも可能である。
【００８６】
図７および図８は、このようにして同期出力部１１２４から出力され、表示装置１３０に出力される顔画像の例を示す概念図である。
【００８７】
図７は、口を閉じた状態の子音、例えば、/m/の視覚素に対応する画像であり、図８は、口を開けた状態の例えば、母音の発音に対応する画像であるものとする。
【００８８】
このとき、各視覚素ごとに３次元ワイヤーフレームモデルを合成することも可能である。この場合は、発話に伴って、顔の向きや方向が変化するようなジェスチャを伴う場合にも、そのような画像を合成することが可能である。
【００８９】
さらには、３次元ワイヤーフレームモデル（より一般的には、画像を表現するための数値データ）により発話者の体全体のデータを抽出しておけば、体全体のジェスチャも合成することが可能である。
【００９０】
あるいは、図７および図８に示すように、図中の点線よりも上の画像は固定としておき、点線よりも下の画像のみを、視覚素に対応して変化させつつ、合成することも可能である。
【００９１】
さらには、顔画像のうち、口の部分のみを合成して、他の部分は固定して表示することや、口の部分のみを取り出して合成し表示することなども可能である。
【００９２】
また、このようにして合成される顔の画像は、必ずしも発話者２自身の顔の特徴に適合させておく必要はない。ただし、発話者２の顔の形状に適合するように変形した画像を合成する場合は、顔画像の合成プロセスの最初に３次元ワイヤーフレームの形状を発話者２の顔の形状に適合するように変形させておき、変形したワイヤーフレームにデータ記憶部１１２０に格納されたテーブルに基づいた動きを加え、さらに、必要に応じて、顔の位置と方向の情報により１次変換した後に、ワイヤーフレームに発話者２自身の顔画像に基づくテキスチャマッピングを行なうという手続きで実現可能である。
【００９３】
なお、データ記憶部１１２０には、正規化された身体の所定の動作の画像と、当該動作画像を数値表現したデータとを対応付けて記憶させておき、所望の身体、たとえば、発話者２の身体の特徴に基づいて、記憶された数値表現データをこの所望の身体に適合化するための係数を予め決定しておき、画像合成部１１２２は、数値表現したデータをこのような係数により適合化した上で、所望の身体に所定の動作をさせた身体全体の動画像、身体の一部の動画像を合成するという構成にすることも可能である。あるいは、身体の動画像の一部は固定しておき、残りの部分についてのみ、発話情報に基づいて合成した上で、全体としての動画像を合成することも可能である。
【００９４】
以上のような構成とすることで、音声と同時に発話者の画像も翻訳する際に、第１の言語から取得することのできない情報を含め、音声及び画像を第２の言語に翻訳することができ、より自然なコミュニケーションをとることが可能となる。
【００９５】
［実施の形態２］
図９は、本発明の実施の形態２の翻訳装置２００の構成を説明するための概略ブロック図である。
【００９６】
図１に示した実施の形態１の翻訳装置１００の構成と異なる点は、以下のとおりである。
【００９７】
翻訳装置１００においては、マイクロフォン１０２から入力される音声情報に基づいて、発話者２の発声した第１の言語の文章の内容を認識する構成であった。これに対して、翻訳装置２００においては、発話者２の第１の言語で文章を発生する際の発話者の調音器官の形状変化、特に唇周辺部分の形状の変化に基づいても、第１の言語での文章の内容の認識を行なう構成となっている。
【００９８】
すなわち、翻訳装置２００は、データ入出力部１１０２からのカメラ１０４の画像情報を受けて、発話者２の調音器官表皮の形状、たとえば、唇、唇の周辺部分、頬の部分、のどの部分などの特徴部分の形状変化を検知し、データ記憶部１１２０に格納されたこれら特徴部分の形状変化と視覚素との対応関係に基づいて、画像情報に基づく音声認識結果を出力する読唇部１１０５と、音声認識部１１０４からの音声情報の認識結果と読唇部１１０５での認識結果とを受けて、両者の情報を統合し、音声認識結果を出力する情報統合部１１０６とをさらに備える。
【００９９】
このような構成とすれば、発話者２の調音器官の形状変化の情報も音声情報に加えて、あるいは、場合によっては調音器官の形状変化の情報のみに基づいて、音声認識を行なうことができ、たとえば、周囲の雑音が大きいような環境においても、音声認識の精度を維持することが可能となる。
【０１００】
図１０は、図９に示した翻訳装置２００の動作を説明するためのフローチャートである。
【０１０１】
図９を参照して、まず、翻訳装置２００は、処理を開始すると（ステップＳ１００）、発話者２の第１の言語での画像および発話された音声を、カメラ１０４およびマイクロフォン１０２から入力として受け取る（ステップＳ１０２）。
【０１０２】
続いて、音声認識部１１０４が、マイクロフォン１０２から入力された音声信号に基づいて、発話者２が発声した文章をそれに含まれる音韻情報に分離解析し、さらに言語解析することで第１の言語での発話の内容を認識する（ステップＳ１０４）。
【０１０３】
一方、読唇部１１０５は、カメラ１０４からの画像情報を受けて、発話者２の調音器官表皮の形状変化を検出し、データ記憶部１１２０に格納されたこれらの形状変化と視覚素との対応関係に基づいて、画像情報に基づく音声認識を行なう（ステップＳ１０６）。
【０１０４】
情報統合部１１０６は、音声認識部１１０４および読唇部１１０５での認識結果に基づいて、音声認識結果を出力する（ステップＳ１０８）。
【０１０５】
さらに、音声翻訳部１１０８は、情報統合部１１０６で認識された第１の言語の内容を第２の言語の内容に変換する（ステップＳ１１０）。
【０１０６】
以下の処理は、図２に示した実施の形態１の処理と同様であるので、その説明は繰り返さない。
【０１０７】
以上のような構成により、実施の形態１の翻訳装置１００の奏する効果に加えて、翻訳装置２００は、雑音環境下などでも処理精度を向上させることが可能である。
【０１０８】
なお、以上の説明では、翻訳装置としての構成を説明したが、本発明はこのような場合に限定されることなく、以上説明したような翻訳方法を実行するためのソフトウェアを記録した記録媒体を用いることで、画像入出力機能と音声入出力機能を備えたパーソナルコンピュータ等によりこのソフトウェアを実行させることで実現可能なものである。
【０１０９】
さらに、以上説明したような翻訳方法を実行するためのソフトウェアは、記録媒体としてパーソナルコンピュータ等にインストールされる場合だけでなく、インターネット等の電気通信回線を通じて、画像入出力機能と音声入出力機能を備えたパーソナルコンピュータ等にこのソフトウェアをインストールすることによっても実現可能である。
【０１１０】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【０１１１】
【発明の効果】
以上説明したとおり、本発明によれば、音声と同時に発話者の画像も翻訳する際に、第１の言語から取得することのできない情報を含め、音声及び画像を第２の言語に翻訳することができ、より自然なコミュニケーションをとることが可能となる。
【図面の簡単な説明】
【図１】本発明の実施の形態１の翻訳装置１００の構成を説明するための概略ブロック図である。
【図２】図１に示した翻訳装置１００の動作を説明するためのフローチャートである。
【図３】一般化された顔画像モデルを表現するための３次元ワイヤーフレームモデルの一例を示す図であり、図３（ａ）は、この３次元ワイヤーフレームモデルの正面図であり、図３（ｂ）は側面図である。
【図４】データ記憶部１１２０に記憶される一般化された顔画像情報の一例を示す概念図である。
【図５】翻訳された文章の音声情報の構成の一例を説明するための概念図である。
【図６】音声翻訳部１１０８から出力されるデータに基づいて、顔画像を合成する手続きを説明するための図である。
【図７】同期出力部１１２４から出力され、表示装置１３０に出力される顔画像の例を示す第１の概念図である。
【図８】同期出力部１１２４から出力され、表示装置１３０に出力される顔画像の例を示す第２の概念図である。
【図９】本発明の実施の形態２の翻訳装置２００の構成を説明するための概略ブロック図である。
【図１０】図９に示した翻訳装置２００の動作を説明するためのフローチャートである。
【符号の説明】
２発話者、１００翻訳装置、１０２マイクロフォン、１０４カメラ、１１０コンピュータシステム、１２０スピーカ、１３０表示装置、２００翻訳装置、１１０２データ入出力部、１１０４音声認識部、１１０５読唇部、１１０６情報統合部、１１０８音声翻訳部、１１１０音声合成部、１１２０データ記憶部、１１２２画像合成部、１１２４同期出力部。

Claims

発話者の発声した第１の言語の内容を発話情報に基づいて認識するための発話認識手段と、
発話認識結果に基づいて、前記第１の言語を第２の言語に翻訳し、前記第２の言語の翻訳結果の発話に対応する時系列の音素の情報および各前記音素の継続長に関する情報を出力する翻訳手段と、
前記翻訳手段の翻訳結果に基づいて、第２の言語での発話に対応する音声を合成する音声合成手段と、
前記第２の言語の母音の音素および視覚素と前記第２の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けて格納するための記憶手段とを備え、
前記調音器官の形状を数値表現したデータは、前記第１の言語を発話する前記発話者についてのサンプリングにより得られた前記発話者の顔画像を表現するためのデータ、ならびに、前記第２の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する前記調音器官の形状の変化を予め抽出した形状変化データに基づいて、前記第２の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み、
前記翻訳手段の翻訳結果に基づいて、前記記憶手段に格納された情報に応じて、前記第２の言語での発話に対応する少なくとも調音器官の動きを表現するための動画像を合成する画像合成手段をさらに備え、前記画像合成手段は、
前記記憶手段に格納された情報に基づいて、前記時系列の音素のそれぞれに対応する前記発話者の複数の顔画像データを抽出する顔画像データ抽出手段と、
前記複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成する補間画像生成手段とを含み、
前記音声合成手段と前記画像合成手段の出力とを同期して出力する出力手段とをさらに備える、翻訳装置。
前記発話認識手段は、前記発話者の発声した前記第１の言語の内容を音声情報に基づいて認識するための音声認識手段を含む、請求項１記載の翻訳装置。
前記発話認識手段は、前記発話者の発声した前記第１の言語の内容を音声情報に基づいて認識するための音声認識手段と、前記発話者が前記第１の言語を発話する際の調音器官の形状を認識するための調音器官形状認識手段と、前記音声認識手段の認識結果と前記調音器官形状認識手段の認識結果との少なくとも一方に基づいて、前記発話者の発声した第１の言語の内容を認識して、前記翻訳手段に与えるための情報統合手段とを含む、請求項１記載の翻訳装置。
前記画像合成手段は、前記発話認識手段の認識結果に応じて、前記記憶手段に格納された情報と前記発話者の画像の特徴とに基づいて、前記画像を合成する、請求項２または３記載の翻訳装置。
前記画像合成手段は、前記発話者の前記第２の言語の発話に応じて変形する部分を前記翻訳手段の翻訳結果に応じて合成し、さらに発話に応じて変形しない部分と合成した上で出力する、請求項４記載の翻訳装置。
前記発話者の画像の特徴は、前記発話者の顔の向きである、請求項４記載の翻訳装置。
発話者の発声した第１の言語の内容を認識するステップと、
認識された結果に基づいて、前記第１の言語を第２の言語に翻訳し、前記第２の言語の翻訳結果の発話に対応する時系列の音素の情報および各前記音素の継続長に関する情報を出力するステップと、
翻訳された結果に基づいて、第２の言語での発話に対応する音声を合成するステップと、
前記第２の言語の母音の音素および視覚素と前記第２の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けたデータベースと、前記翻訳結果に基づいて、前記第２の言語での発話に対応する少なくとも調音器官の動きを表現するための画像を合成するステップとを備え、
前記調音器官の形状を数値表現したデータは、前記第１の言語を発話する前記発話者についてのサンプリングにより得られた前記発話者の顔画像を表現するためのデータ、ならびに、前記第２の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する前記調音器官の形状の変化を予め抽出した形状変化データに基づいて、前記第２の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み、
前記記憶手段に格納された情報に基づいて、前記時系列の音素のそれぞれに対応する前記発話者の複数の顔画像データを抽出するステップと、
前記複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成するステップと、
前記合成された音声と、前記抽出された顔画像データと補間された前記画像データにより合成された動画像とを、同期して出力するステップをさらに備える、翻訳方法。
前記データベースに格納するための前記第２の言語を発話する際の少なくとも調音器官の形状を数値表現したデータを、発話者の個性の影響を除いて正規化された形状に対応するデータにするステップをさらに備える、請求項７記載の翻訳方法。
前記発話者の発声した第１の言語の内容を認識するステップは、前記発話者の発声した前記第１の言語の内容を音声情報に基づいて認識するステップを含む、請求項７記載の翻訳方法。
前記発話者の発声した第１の言語の内容を認識するステップは、
前記発話者の発声した前記第１の言語の内容を音声情報に基づいて認識するステップと、
前記発話者が前記第１の言語を発話する際の調音器官の形状を認識するステップと、
前記音声情報に基づく認識の結果と前記調音器官形状の認識結果との少なくとも一方に基づいて、前記発話者の発声した第１の言語の内容を認識するステップとを含む、請求項７記載の翻訳方法。
前記画像を合成するステップは、前記第１の言語の内容の認識結果に応じて、前記データベースに格納された情報と前記発話者の画像の特徴とに基づいて、前記画像を合成する、請求項９または１０記載の翻訳方法。
前記画像を合成するステップは、前記発話者の前記第２の言語の発話に応じて変形する部分を前記翻訳手段の翻訳結果に応じて合成し、さらに発話に応じて変形しない部分と合成するステップを含む、請求項１１記載の翻訳方法。
前記発話者の画像の特徴は、前記発話者の顔の向きである、請求項１１記載の翻訳方法。
発話者の発声した第１の言語の内容を認識するステップと、
認識された結果に基づいて、前記第１の言語を第２の言語に翻訳し、前記第２の言語の翻訳結果の発話に対応する時系列の音素の情報および各前記音素の継続長に関する情報を出力するステップと、
翻訳された結果に基づいて、第２の言語での発話に対応する音声を合成するステップと、
前記第２の言語の母音の音素および視覚素と前記第２の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けたデータベースと前記翻訳結果とに基づいて、前記第２の言語での発話に対応する少なくとも調音器官の動きを表現するための画像を合成するステップを備え、
前記調音器官の形状を数値表現したデータは、前記第１の言語を発話する前記発話者についてのサンプリングにより得られた前記発話者の顔画像を表現するためのデータ、ならびに、前記第２の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する前記調音器官の形状の変化を予め抽出した形状変化データに基づいて、前記第２の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み、
前記記憶手段に格納された情報に基づいて、前記時系列の音素のそれぞれに対応する前記発話者の複数の顔画像データを抽出するステップと、
前記複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成するステップと、
前記合成された音声と、前記抽出された顔画像データと補間された前記画像データにより合成された動画像とを同期して出力するステップをさらに有する翻訳方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読取り可能な媒体。
前記身体の所定の動作と当該動作を数値表現したデータは、身体の個性の影響を除いた正規化された形状に対応するデータである、請求項１４記載のコンピュータ読取り可能な媒体。