JP2002099295A

JP2002099295A - 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体

Info

Publication number: JP2002099295A
Application number: JP2000288601A
Authority: JP
Inventors: Kazumasa Murai; 和昌村井; Makoto Ogata; 信緒方; Shigeo Morishima; 繁生森島; Satoru Nakamura; 哲中村
Original assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Current assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Priority date: 2000-09-22
Filing date: 2000-09-22
Publication date: 2002-04-05
Anticipated expiration: 2020-09-22
Also published as: JP4011844B2

Abstract

(57)【要約】【課題】音声と同時に発話者の画像も翻訳することが
可能な翻訳装置を提供する。【解決手段】音声認識部１１０４は、発話者の発声し
た第１の言語の内容を音声情報に基づいて認識し、音声
翻訳部１１０８は、音声認識結果に基づいて、第１の言
語を第２の言語に翻訳する。データ記憶部１１２０は、
第２の言語を発話する際の視覚素と第２の言語を発話す
る際の調音器官の形状を数値表現したデータとを対応付
けて格納しており、画像合成部１１２２は、翻訳結果と
データ記憶部１１２０中のデータとに基づいて、第２の
言語での発話に対応する調音器官の動きを表現するため
の画像を合成する。同期出力部１１２４は、音声合成部
１１１０で合成された音声と合成された画像とを受け
て、同期して出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、入力された音声
および画像に基づいて、入力された言語を他の言語に翻
訳するための翻訳装置および翻訳方法に関する。より特
定的には、本発明は、入力した音声および画像に基づい
て所望の言語への翻訳を行ない、翻訳した言語の音声お
よびそれに対応する画像を合成する翻訳装置および翻訳
方法に関する。

【０００２】

【従来の技術】従来、発話者が話した話し言葉に基づい
て音声翻訳を行なう場合、入力された第１の言語（例え
ば、日本語）を認識し、これに対して言語解析を行なっ
た結果を第２の言語（例えば、英語）に翻訳し、翻訳し
た結果に基づいて第２の言語の音声を合成するというこ
とが行なわれている。

【０００３】さらに、文献１：Nick Campbell, Alan W.
Black著「Chatr:a multi-lingualspeech re-sequenci
ng synthesis system」電子情報通信学会信学技報、sp9
6-7,pp.45-, 1996には、入力した第１の言語の音声の声
の特徴を認識し、その認識結果に基づいて第２の言語を
合成することにより、発話者が第２の言語を発話する場
合に近い音声翻訳を実現するための技術が開示されてい
る。この文献１に開示された技術によれば、より自然な
音声翻訳を実現する事ができる。

【０００４】

【発明が解決しようとする課題】上述したような自動翻
訳は、翻訳結果をあくまでコンピュータにおける合成処
理の結果として外部に出力するものである。このとき、
コンピュータと人間とのコミュニケーションを円滑に行
なうには、人と人とが直接対話しているような環境を実
現することが理想的である。また、このような人と人と
の会話の理解において、唇の動きは、特に重要な役割を
果たしていると考えられる。

【０００５】しかしながら、上述した文献１に開示され
た技術では、音声が合成されるのみであり、発話者の顔
画像、特に、唇等の動きを翻訳することはできなかっ
た。

【０００６】これに対して、米国特許５，８２６，２３
４（発明者：Bertil Lyberg, 出願日：１９９６年１２
月５日, 発明の名称：「合成された話し言葉および対
応する表情の動きを生成する音響画像に吹き替えを行な
うための装置および方法（DEVICE AND METHOD FOR DUBB
ING AN AUDIO-VISUAL PRESENTATION WHICH GENERATESSY
NTHESIZED SPEECH AND CORRESPONDING FACIAL MOVEMENT
S）」では、発話者が第１の言語を発話している画像を
あらかじめ記録し、第１の言語を発話中の音素と表情と
の関連に基づいて、第２の言語の発話画像を合成する方
法が開示されている。

【０００７】この方法によれば、発話者の音声のみなら
ず、顔画像も翻訳することが可能となり、発話者が第２
の言語を発話しているのに近い音声及び画像の翻訳が可
能になる。つまり、発話中の画像に基づくため、表情な
どが翻訳結果の出力に反映されるので、音声のみの場合
に比較すれば、より自然なコミュニケーションを実現で
きることが期待される。

【０００８】しかしながら、たとえば、日本語を英語に
翻訳する場合を想定すると、英語には、現在の日本語に
存在しない音素、たとえば、/th/, /f/, /v/,/l/,/r/,/
ae/などがある。つまり、日本語と英語では、母音およ
び子音の種類に大きな開きがある。したがって、英語の
発話中の顔の動きには、日本語の発話中には存在しない
動きであって、外見上も明らかに異なるものが多数存在
する。米国特許５８２６２３４に開示された技術に基づ
く場合は、これらの、第１の言語に存在しない発話にお
ける顔の動きは、第２の言語の発話における顔の動きに
翻訳することができない。

【０００９】また、逆に、英語を日本語に翻訳する場
合、表記上は同じ子音であっても、実際の英語の発話に
おける顔の動きは、日本語を発話する場合に比べると大
きい事が知られており、英語の発話画像に基づいて日本
語の発話画像を合成すると、動きが大きくなりすぎると
いう問題がある。

【００１０】さらに、記録した音素とは異なる順序で合
成する際には、一般的には画像が連続しないために、上
記米国特許５，８２６，２３４に開示された技術を用い
れば、音声だけの場合に比べれば、コミュニケーション
がより自然に近くなる可能性があるものの、実際に人間
が発話するのを見る場合と比べれば、その動きがぎこち
ないものとなってしまう可能性があるという問題点があ
った。

【００１１】この発明は、上記のような問題点を解決す
るためになされたものであって、その目的は、音声と同
時に発話者の画像も翻訳する際に、第１の言語から取得
することのできない情報を含め、音声及び画像を翻訳す
ることが可能な翻訳装置および翻訳方法を提供すること
である。

【００１２】

【課題を解決するための手段】請求項１記載の翻訳装置
は、発話者の発声した第１の言語の内容を発話情報に基
づいて認識するための発話認識手段と、発話認識結果に
基づいて、第１の言語を第２の言語に翻訳する翻訳手段
と、翻訳手段の翻訳結果に基づいて、第２の言語での発
話に対応する音声を合成する音声合成手段と、第２の言
語を発話する際の音声の要素と第２の言語を発話する際
の少なくとも調音器官の形状を数値表現したデータとを
対応付けて格納するための記憶手段と、翻訳手段の翻訳
結果に基づいて、記憶手段に格納された情報に応じて、
第２の言語での発話に対応する少なくとも調音器官の動
きを表現するための画像を合成する画像合成手段と、音
声合成手段と画像合成手段の出力とを同期して出力する
出力手段とを備える。

【００１３】請求項２記載の翻訳装置は、請求項１記載
の翻訳装置の構成に加えて、音声の要素は、視覚的に分
類した発話の要素である。

【００１４】請求項３記載の翻訳装置は、請求項１記載
の翻訳装置の構成に加えて、発話認識手段は、発話者の
発声した第１の言語の内容を音声情報に基づいて認識す
るための音声認識手段を含む。

【００１５】請求項４記載の翻訳装置は、請求項１記載
の翻訳装置の構成に加えて、発話認識手段は、発話者の
発声した第１の言語の内容を音声情報に基づいて認識す
るための音声認識手段と、発話者が第１の言語を発話す
る際の調音器官の形状を認識するための調音器官形状認
識手段と、音声認識手段の認識結果と調音器官形状認識
手段の認識結果との少なくとも一方に基づいて、発話者
の発声した第１の言語の内容を認識して、翻訳手段に与
えるための情報統合手段とを含む。

【００１６】請求項５記載の翻訳装置は、請求項３また
は４記載の翻訳装置の構成に加えて、画像合成手段は、
発話認識手段の認識結果に応じて、記憶手段に格納され
た情報と発話者の画像の特徴とに基づいて、画像を合成
する。

【００１７】請求項６記載の翻訳装置は、請求項５記載
の翻訳装置の構成に加えて、画像合成手段は、発話者の
第２の言語の発話に応じて変形する部分を翻訳手段の翻
訳結果に応じて合成し、さらに発話に応じて変形しない
部分と合成した上で出力する。

【００１８】請求項７記載の翻訳装置は、請求項５記載
の翻訳装置の構成に加えて、発話者の画像の特徴は、発
話者の顔の向きである。

【００１９】請求項８記載の画像合成装置は、身体の所
定の動作と、当該動作を数値表現したデータとを対応付
けて記憶する記憶手段と、所望の身体の特徴に基づい
て、記憶手段に記憶したデータを所望の身体に適合化す
るための係数を決定する変換係数決定手段と、数値表現
したデータを、係数により適合化する適合化手段と、適
合化したデータに基づいて、所望の身体に所定の動作を
させた動画像を合成する画像合成手段とを備える。

【００２０】請求項９記載の画像合成装置は、請求項８
記載の画像合成装置の構成に加えて、身体の所定の動作
と当該動作を数値表現したデータは、身体の個性の影響
を除いた正規化された形状に対応するデータである。

【００２１】請求項１０記載の画像合成装置は、請求項
８記載の画像合成装置の構成に加えて、画像合成手段
は、所望の身体の一部の画像を、合成した動画像により
置き換えることで身体に所定の動作をさせた動画像を合
成する置換手段を含む。

【００２２】請求項１１記載の画像合成装置は、請求項
８または９記載の画像合成装置の構成に加えて、身体の
所定の動作は、発話動作である。

【００２３】請求項１２記載の画像合成装置は、請求項
１０記載の画像合成装置の構成に加えて、身体の所定の
動作は、発話動作であり、所望の身体の一部の画像は、
調音器官の画像である。

【００２４】請求項１３記載の翻訳方法は、発話者の発
声した第１の言語の内容を認識するステップと、認識さ
れた結果に基づいて、第１の言語を第２の言語に翻訳す
るステップと、翻訳された結果に基づいて、第２の言語
での発話に対応する音声を合成するステップと、第２の
言語を発話する際の音声の要素と第２の言語を発話する
際の少なくとも調音器官の形状を数値表現したデータと
を対応付けたデータベースと、翻訳結果に基づいて、第
２の言語での発話に対応する少なくとも調音器官の動き
を表現するための画像を合成するステップと、合成され
た音声と合成された画像とを、同期して出力するステッ
プとを備える。

【００２５】請求項１４記載の翻訳方法は、請求項１３
記載の翻訳方法の構成に加えて、音声の要素は、視覚的
に分類した発話の要素である。

【００２６】請求項１５記載の翻訳方法は、請求項１３
記載の翻訳方法の構成に加えて、データベースに格納す
るための第２の言語を発話する際の少なくとも調音器官
の形状を数値表現したデータを、発話者の個性の影響を
除いて正規化された形状に対応するデータにするステッ
プをさらに備える。

【００２７】請求項１６記載の翻訳方法は、請求項１３
記載の翻訳方法の構成に加えて、発話者の発声した第１
の言語の内容を認識するステップは、発話者の発声した
第１の言語の内容を音声情報に基づいて認識するステッ
プを含む。

【００２８】請求項１７記載の翻訳方法は、請求項１３
記載の翻訳方法の構成に加えて、発話者の発声した第１
の言語の内容を認識するステップは、発話者の発声した
第１の言語の内容を音声情報に基づいて認識するステッ
プと、発話者が第１の言語を発話する際の調音器官の形
状を認識するステップと、音声情報に基づく認識の結果
と調音器官形状の認識結果との少なくとも一方に基づい
て、発話者の発声した第１の言語の内容を認識するステ
ップとを含む。

【００２９】請求項１８記載の翻訳方法は、請求項１６
または１７記載の翻訳方法の構成に加えて、画像を合成
するステップは、第１の言語の内容の認識結果に応じ
て、データベースに格納された情報と発話者の画像の特
徴とに基づいて、画像を合成する。

【００３０】請求項１９記載の翻訳方法は、請求項１８
記載の翻訳方法の構成に加えて、画像を合成するステッ
プは、発話者の第２の言語の発話に応じて変形する部分
を翻訳手段の翻訳結果に応じて合成し、さらに発話に応
じて変形しない部分と合成するステップを含む。

【００３１】請求項２０記載の翻訳方法は、請求項１８
記載の翻訳方法の構成に加えて、発話者の画像の特徴
は、発話者の顔の向きである。

【００３２】請求項２１記載の画像合成方法は、身体の
所定の動作と、当該動作を数値表現したデータとを対応
付けて記憶するステップと、所望の身体の特徴に基づい
て、記憶手段に記憶したデータを所望の身体に適合化す
るための係数を決定するステップと、数値表現したデー
タを、係数により適合化するステップと、適合化したデ
ータに基づいて、所望の身体に所定の動作をさせた動画
像を合成するステップとを備える。

【００３３】請求項２２記載の画像合成方法は、請求項
２１記載の画像合成方法の構成に加えて、身体の所定の
動作と当該動作を数値表現したデータは、身体の個性の
影響を除いた正規化された形状に対応するデータであ
る。

【００３４】請求項２３記載の画像合成方法は、請求項
２１記載の画像合成方法の構成に加えて、画像を合成す
るステップは、所望の身体の一部の画像を、合成した動
画像により置き換えることで身体に所定の動作をさせた
動画像を合成するステップを含む。

【００３５】請求項２４記載の画像合成方法は、請求項
２１または２２記載の画像合成方法の構成に加えて、身
体の所定の動作は、発話動作である。

【００３６】請求項２５記載の画像合成方法は、請求項
２３記載の画像合成方法の構成に加えて、身体の所定の
動作は、発話動作であり、所望の身体の一部の画像は、
調音器官の画像である。

【００３７】請求項２６記載のコンピュータ読取り可能
な媒体は、発話者の発声した第１の言語の内容を認識す
るステップと、認識された結果に基づいて、第１の言語
を第２の言語に翻訳するステップと、翻訳された結果に
基づいて、第２の言語での発話に対応する音声を合成す
るステップと、第２の言語を発話する際の音声の要素と
第２の言語を発話する際の少なくとも調音器官の形状を
数値表現したデータとを対応付けたデータベースと翻訳
結果とに基づいて、第２の言語での発話に対応する少な
くとも調音器官の動きを表現するための画像を合成する
ステップと、合成された音声と合成された画像とを同期
して出力するステップとを有する翻訳方法をコンピュー
タに実行させるためのプログラムを記録している。

【００３８】請求項２７記載のコンピュータ読取り可能
な媒体は、請求項２６記載のコンピュータ読取り可能な
媒体の構成に加えて、音声の要素は、視覚的に分類した
発話の要素である。

【００３９】請求項２８記載のコンピュータ読取り可能
な媒体は、請求項２６記載のコンピュータ読取り可能な
媒体の構成に加えて、身体の所定の動作と当該動作を数
値表現したデータは、身体の個性の影響を除いた正規化
された形状に対応するデータである。

【００４０】請求項２９記載のコンピュータ読取り可能
な媒体は、身体の所定の動作と、当該動作を数値表現し
たデータとを対応付けて記憶するステップと、所望の身
体の特徴に基づいて、記憶手段に記憶したデータを所望
の身体に適合化するための係数を決定するステップと、
数値表現したデータを、係数により適合化するステップ
と、適合化したデータに基づいて、所望の身体に所定の
動作をさせた動画像を合成するステップとを備える画像
合成方法をコンピュータに実行させるためのプログラム
を記録している。

【００４１】請求項３０記載のコンピュータ読取り可能
な媒体は、請求項２９記載のコンピュータ読取り可能な
媒体の構成に加えて、身体の所定の動作と当該動作を数
値表現したデータは、身体の個性の影響を除いた正規化
された形状に対応するデータである。

【００４２】請求項３１記載のコンピュータ読取り可能
な媒体は、請求項２９記載のコンピュータ読取り可能な
媒体の構成に加えて、画像を合成するステップは、所望
の身体の一部の画像を、合成した動画像により置き換え
ることで身体に所定の動作をさせた動画像を合成するス
テップを含む。

【００４３】請求項３２記載のコンピュータ読取り可能
な媒体は、請求項２９または３０記載のコンピュータ読
取り可能な媒体の構成に加えて、身体の所定の動作は、
発話動作である。

【００４４】請求項３３記載のコンピュータ読取り可能
な媒体は、請求項３１記載のコンピュータ読取り可能な
媒体の構成に加えて、身体の所定の動作は、発話動作で
あり、所望の身体の一部の画像は、調音器官の画像であ
る。

【００４５】請求項３４記載の媒体は、前身体の所定の
動作動作を数値表現し、かつ身体の個性の影響を除いた
正規化された形状に対応するデータを、コンピュータが
読み取り可能なように記録している。

【００４６】

【発明の実施の形態】［実施の形態１］図１は、本発明
の実施の形態１の翻訳装置１００の構成を説明するため
の概略ブロック図である。

【００４７】なお、以下の説明では、第１の言語が日本
語であり、第２の言語が英語である場合を例として説明
するが、以下の説明で明らかとなるように、本発明はこ
のような場合に限定されることなく、他の言語の組合せ
の相互間の翻訳にも適用することが可能なものである。

【００４８】図１を参照して、翻訳装置１００は、発話
者２が発声した第１の言語についての音声を取得するた
めのマイクロフォン１０２と、発話者２が第１の言語を
発生する際の画像を撮影するためのカメラ１０４と、マ
イクロフォン１０２およびカメラ１０４からの出力を受
けて、発話者２が発音した文章に対応する音声情報およ
び画像情報を処理して、第１の言語の内容を解析し、当
該内容に相当する第２の言語に翻訳した上で、第２の言
語の発話に対応する音声および画像を合成するためのコ
ンピュターシステム１１０と、コンピュターシステム１
１０により合成された第２言語の発話に対応する音声を
出力するためのスピーカ１２０と、コンピュターシステ
ム１１０により合成された第２言語の発話に対応する画
像を出力するための表示装置（ディスプレイ）１３０と
を備える。

【００４９】コンピュターシステム１１０は、マイクロ
フォン１０２、カメラ１０４、スピーカ１２０および表
示装置１３０との間でデータの授受を行なうためのデー
タ入出力部１１０２と、マイクロフォン１０２からデー
タ入出力部１１０２を介して与えられる音声信号に基づ
いて、発話者２の発声した文章をそれに含まれる音韻情
報に分離解析し、さらに言語解析することで第１の言語
での発話の内容を認識するための音声認識部１１０４
と、音声認識部１１０４で認識された第１の言語での発
話の内容を、第２の言語での発話情報に変換するための
音声翻訳部１１０８と、音声翻訳部１１０８の翻訳結果
を受けて第２の言語での発話に対応する音声を合成する
ための音声合成部１１１０と、後に説明するように、第
２の言語での音声情報とそれに対応する画像情報とを格
納するためのデータ記憶部１１２０と、音声翻訳部１１
０８からの翻訳結果とデータ記憶部１１２０に格納され
た情報とに基づいて、発話者２が第２の言語で発話する
際の画像を合成するための画像合成部１１２２と、音声
合成部１１１０の出力と画像合成部１１２２の出力とを
受けて、第２の言語での発話のタイミングに両者を同期
させるための同期出力部１１２４とを備える。

【００５０】同期出力部１１２４からの出力は、データ
入出力部１１０２を介して、表示装置１３０およびスピ
ーカ１２０とにそれぞれ出力される。

【００５１】なお、カメラ１０４により撮影された発話
者２の画像、たとえば、発話者２の無発声状態での顔部
分の画像は、データ入出力部１１０２を介して、初期デ
ータとして、データ記憶部１１２０に格納されているも
のとする。

【００５２】［翻訳装置１００の動作］図２は、図１に
示した翻訳装置１００の動作を説明するためのフローチ
ャートである。

【００５３】図２を参照して、まず、翻訳装置１００
は、処理を開始すると（ステップＳ１００）、発話者２
の第１の言語での画像および発話された音声を、カメラ
１０４およびマイクロフォン１０２から入力として受け
取る（ステップＳ１０２）。

【００５４】続いて、音声認識部１１０４が、マイクロ
フォン１０２から入力された音声信号に基づいて、発話
者２が発声した文章をそれに含まれる音韻情報に分離解
析し、さらに言語解析することで第１の言語での発話の
内容を認識する（ステップＳ１０４）。

【００５５】さらに、音声翻訳部１１０８は、音声認識
部１１０４で認識された第１の言語の内容を第２の言語
の内容に変換する（ステップＳ１１０）。

【００５６】音声合成部１１１０は、音声翻訳部１１０
８から与えられる第２の言語の内容に基づいて、対応す
る第２の言語での発話に対応する音声情報を合成する。
このとき、予め収集しておいた発話者２の音声情報の特
徴に基づいて、合成される音声の特徴を発話者２の特徴
を持ったものとすることができる（ステップＳ１１
２）。たとえば、発話者の声の高低や、性別による音色
の差異などの特徴を再現することが可能である。

【００５７】一方、画像合成部１１２２は、音声翻訳部
１１０８から出力され、音声合成においても使用され
る、第２の言語での発話の音素の情報および各音素の継
続長に関する情報に基づいて、これに対応する一般化さ
れた調音器官（唇、歯、舌、口腔の形状等）の情報をデ
ータ記憶部１１２０から取得する（ステップＳ１１
４）。

【００５８】さらに、画像合成部１１２２は、この一般
化された調音器官の情報に基づいて、第２の言語での発
話における音素の順序、継続長に適合するような時系列
に従って、たとえば、顔画像の一般化された画像モデル
を生成する。ここで、後に説明するように、特に限定さ
れないが、このような顔画像の一般化された画像モデル
としては、３次元的な顔画像に対するワイヤーフレーム
モデルを用いることができる。さらに、画像合成部１１
２２は、このようにして生成された画像モデルを発話者
２の画像に適合するように変形した上で、さらに、発話
者２の実際の顔画像に相当するようにテクスチャマッピ
ングを行なって、発話者２が第２の言語を発話する際の
顔画像を合成する（ステップＳ１１６）。

【００５９】同期出力部１１２４は、音声合成部１１１
０の出力と画像合成部１１２２の出力とを受けて、第２
の言語での発話のタイミングに両者を同期させて出力す
る。この同期出力部１１２４からの出力は、データ入出
力部１１０２を介して、表示装置１３０およびスピーカ
１２０からそれぞれ顔画像および音声として出力される
（ステップＳ１１８）。

【００６０】以上で、発話者２の発生した文章に対する
翻訳装置１００の処理が終了する（ステップＳ１２
０）。

【００６１】［一般化された顔画像モデル］図３は、上
述したような一般化された顔画像モデルを表現するため
の３次元ワイヤーフレームモデルの一例を示す図であ
り、図３（ａ）は、この３次元ワイヤーフレームモデル
の正面図であり、図３（ｂ）は側面図である。

【００６２】このような３次元ワイヤーフレームモデル
は、たとえば、発話者が発声する第１の言語について、
その音声とそれに対応する顔画像のデータを予め複数サ
ンプリングしておき、それに基づいて生成することがで
きる。

【００６３】このとき、発話者の顔画像の複数の特徴点
（目頭・目じりの位置、口の両端の位置など）を、予め
定められた基準位置となるように変形して、この顔画像
を特定の発話者の個性に依存しないように正規化処理し
ておく。

【００６４】このように、正規化された顔画像について
の３次元ワイヤーフレームモデルを、第２の言語の「母
音の音素」と「視覚素」ごとに予め設定しておく。

【００６５】ここで、「視覚素（以下、音素”phonem
e”に対応する造語として”viseme”と呼ぶ）」とは、
話し手の口の形状を見るだけでは区別することができな
いが、発声された音を聞けば区別することができる子音
のことをいう。つまり、「視覚素」とは、視覚的に分類
した発話の要素ということができる。たとえば、音素の
集合｛/b/, /p/, /m/｝や｛/k/, /g/｝や｛/s/, /z/｝
の各々は、それぞれ１つの「視覚素（viseme）」に対応
する。

【００６６】顔画像のサンプリングは、一般には、発話
者の第１の言語（たとえば、母国語）について行なわれ
るので、第２の言語のすべての「母音の音素」と「視覚
素」とについて、上述したような３次元ワイヤーフレー
ムモデルを予め設定しておくためには、以下のような手
順が考えられる。

【００６７】たとえば、第１には、第１の言語について
サンプリングされた３次元ワイヤーフレームモデルに基
づいて、音韻学上、一般的に、その「視覚素」等に対応
する発音をする場合の調音器官の形状に一致するように
変形した３次元ワイヤーフレームモデルの座標を抽出し
ておくという方法である。

【００６８】あるいは、第２には、第２の言語につい
て、複数の発話者の「母音の音素」および「視覚素」
と、調音器官の形状の形状変化をサンプリングした上
で、平均的な変化のデータを求めておき、これに対応す
るように３次元ワイヤーフレームモデルの座標を抽出し
ておくことも可能である。

【００６９】なお、以上の説明では、第２の言語を発話
する際の顔画像を合成するために、３次元ワイヤーフレ
ームモデルを用いることとしたが、顔画像を数値の集合
として表現し、その数値の集合から顔画像を逆に合成で
きるのであれば、モデルとしては、３次元ワイヤーフレ
ームモデルに限定されるものではない。

【００７０】図４は、データ記憶部１１２０に記憶され
る一般化された顔画像情報の一例を示す概念図である。

【００７１】すなわち、図４に示すように、データ記憶
部１１２０には、以上のようにして抽出された、「母音
の音素」および「視覚素」とこれに対応する顔画像を表
現するための３次元ワイヤーフレームモデルの座標（よ
り一般的には、顔画像を表現するための数値データ）を
対応させたテーブルが格納されている。

【００７２】図４においては、第１の言語（日本語）に
ついてのテーブルと第２の言語（英語）についてのテー
ブルの双方が格納されているものとしている。したがっ
て、図４に示すような２つのテーブルがあれば、上述し
たように、発話者２の発話に基づいて日本語から英語へ
の翻訳を行なう場合だけでなく、他の発話者の発話に基
づいて英語から日本語への翻訳を行なう場合の処理を行
なうことも可能である。

【００７３】また、もちろん、他の言語についてのテー
ブルが準備されていれば、他の言語との間での翻訳に伴
う処理を行なうことも可能である。

【００７４】［顔画像の合成］図５は、翻訳された文章
の音声情報の構成の一例を説明するための概念図であ
る。

【００７５】図５に示した例では、第１の言語である日
本語の文章から第２の言語である英語の文章の"I have
a red pen"という文章への変換が行なわれた場合を例と
して挙げている。

【００７６】音声言語は、図５に示すように階層性を有
しており、文章は、単語、音節（母音と子音とで形成す
る単位）、音素（各子音、各母音）という風に細分化さ
れる。

【００７７】したがって、音声翻訳部１１０８により翻
訳された結果のデータとしては、このような連続した音
素と、各音素についての継続長（音の時間的長さ）から
なる時系列的なデータが得られることになる。

【００７８】図６は、音声翻訳部１１０８から出力され
るデータに基づいて、顔画像を合成する手続きを説明す
るための図である。

【００７９】上述の通り、音声翻訳部１１０８におい
て、音素とのその継続長により翻訳後の第２の文章の発
話が表現される。

【００８０】画像合成部１１２２は、図４に示したよう
なデータ記憶部１１２０に格納されたテーブルを参照す
ることにより、このような音素の並びを、上述した視覚
素の並びに変換する。

【００８１】次に、画像合成部１１２２は、各視覚素の
先頭の時刻（図６中の矢印）において、それぞれの視覚
素に対応する３次元ワイヤーフレームモデルの座標を抽
出する。

【００８２】さらに、画像合成部１１２２は、上述のよ
うな各視覚素の先頭の時刻に対応する３次元ワイヤーフ
レームモデルの形状同士の間を補間するような形状を、
たとえば、所定の時間間隔毎に生成する。

【００８３】その上で、画像合成部１１２２は、形成さ
れた連続的な３次元ワイヤーフレームモデルの表面に、
顔画像のテキスチャをマッピングする。このテキスチャ
マッピングは、特に限定されないが、例えば、カメラ１
０４により撮影された発話者２の初期画像に基づいて行
なうことが可能である。

【００８４】以上のように合成された顔画像が、同期出
力部１１２４から合成された第２の言語の音声と同期し
て出力される。

【００８５】なお、図６においては、各視覚素の先頭の
時刻について、対応する３次元ワイヤーフレームモデル
を当てはめる構成としているが、必ずしもこのような場
合に限定されることなく、視覚素の中の他の時点を基準
とすることも可能である。

【００８６】図７および図８は、このようにして同期出
力部１１２４から出力され、表示装置１３０に出力され
る顔画像の例を示す概念図である。

【００８７】図７は、口を閉じた状態の子音、例えば、
/m/の視覚素に対応する画像であり、図８は、口を開け
た状態の例えば、母音の発音に対応する画像であるもの
とする。

【００８８】このとき、各視覚素ごとに３次元ワイヤー
フレームモデルを合成することも可能である。この場合
は、発話に伴って、顔の向きや方向が変化するようなジ
ェスチャを伴う場合にも、そのような画像を合成するこ
とが可能である。

【００８９】さらには、３次元ワイヤーフレームモデル
（より一般的には、画像を表現するための数値データ）
により発話者の体全体のデータを抽出しておけば、体全
体のジェスチャも合成することが可能である。

【００９０】あるいは、図７および図８に示すように、
図中の点線よりも上の画像は固定としておき、点線より
も下の画像のみを、視覚素に対応して変化させつつ、合
成することも可能である。

【００９１】さらには、顔画像のうち、口の部分のみを
合成して、他の部分は固定して表示することや、口の部
分のみを取り出して合成し表示することなども可能であ
る。

【００９２】また、このようにして合成される顔の画像
は、必ずしも発話者２自身の顔の特徴に適合させておく
必要はない。ただし、発話者２の顔の形状に適合するよ
うに変形した画像を合成する場合は、顔画像の合成プロ
セスの最初に３次元ワイヤーフレームの形状を発話者２
の顔の形状に適合するように変形させておき、変形した
ワイヤーフレームにデータ記憶部１１２０に格納された
テーブルに基づいた動きを加え、さらに、必要に応じ
て、顔の位置と方向の情報により１次変換した後に、ワ
イヤーフレームに発話者２自身の顔画像に基づくテキス
チャマッピングを行なうという手続きで実現可能であ
る。

【００９３】なお、データ記憶部１１２０には、正規化
された身体の所定の動作の画像と、当該動作画像を数値
表現したデータとを対応付けて記憶させておき、所望の
身体、たとえば、発話者２の身体の特徴に基づいて、記
憶された数値表現データをこの所望の身体に適合化する
ための係数を予め決定しておき、画像合成部１１２２
は、数値表現したデータをこのような係数により適合化
した上で、所望の身体に所定の動作をさせた身体全体の
動画像、身体の一部の動画像を合成するという構成にす
ることも可能である。あるいは、身体の動画像の一部は
固定しておき、残りの部分についてのみ、発話情報に基
づいて合成した上で、全体としての動画像を合成するこ
とも可能である。

【００９４】以上のような構成とすることで、音声と同
時に発話者の画像も翻訳する際に、第１の言語から取得
することのできない情報を含め、音声及び画像を第２の
言語に翻訳することができ、より自然なコミュニケーシ
ョンをとることが可能となる。

【００９５】［実施の形態２］図９は、本発明の実施の
形態２の翻訳装置２００の構成を説明するための概略ブ
ロック図である。

【００９６】図１に示した実施の形態１の翻訳装置１０
０の構成と異なる点は、以下のとおりである。

【００９７】翻訳装置１００においては、マイクロフォ
ン１０２から入力される音声情報に基づいて、発話者２
の発声した第１の言語の文章の内容を認識する構成であ
った。これに対して、翻訳装置２００においては、発話
者２の第１の言語で文章を発生する際の発話者の調音器
官の形状変化、特に唇周辺部分の形状の変化に基づいて
も、第１の言語での文章の内容の認識を行なう構成とな
っている。

【００９８】すなわち、翻訳装置２００は、データ入出
力部１１０２からのカメラ１０４の画像情報を受けて、
発話者２の調音器官表皮の形状、たとえば、唇、唇の周
辺部分、頬の部分、のどの部分などの特徴部分の形状変
化を検知し、データ記憶部１１２０に格納されたこれら
特徴部分の形状変化と視覚素との対応関係に基づいて、
画像情報に基づく音声認識結果を出力する読唇部１１０
５と、音声認識部１１０４からの音声情報の認識結果と
読唇部１１０５での認識結果とを受けて、両者の情報を
統合し、音声認識結果を出力する情報統合部１１０６と
をさらに備える。

【００９９】このような構成とすれば、発話者２の調音
器官の形状変化の情報も音声情報に加えて、あるいは、
場合によっては調音器官の形状変化の情報のみに基づい
て、音声認識を行なうことができ、たとえば、周囲の雑
音が大きいような環境においても、音声認識の精度を維
持することが可能となる。

【０１００】図１０は、図９に示した翻訳装置２００の
動作を説明するためのフローチャートである。

【０１０１】図９を参照して、まず、翻訳装置２００
は、処理を開始すると（ステップＳ１００）、発話者２
の第１の言語での画像および発話された音声を、カメラ
１０４およびマイクロフォン１０２から入力として受け
取る（ステップＳ１０２）。

【０１０２】続いて、音声認識部１１０４が、マイクロ
フォン１０２から入力された音声信号に基づいて、発話
者２が発声した文章をそれに含まれる音韻情報に分離解
析し、さらに言語解析することで第１の言語での発話の
内容を認識する（ステップＳ１０４）。

【０１０３】一方、読唇部１１０５は、カメラ１０４か
らの画像情報を受けて、発話者２の調音器官表皮の形状
変化を検出し、データ記憶部１１２０に格納されたこれ
らの形状変化と視覚素との対応関係に基づいて、画像情
報に基づく音声認識を行なう（ステップＳ１０６）。

【０１０４】情報統合部１１０６は、音声認識部１１０
４および読唇部１１０５での認識結果に基づいて、音声
認識結果を出力する（ステップＳ１０８）。

【０１０５】さらに、音声翻訳部１１０８は、情報統合
部１１０６で認識された第１の言語の内容を第２の言語
の内容に変換する（ステップＳ１１０）。

【０１０６】以下の処理は、図２に示した実施の形態１
の処理と同様であるので、その説明は繰り返さない。

【０１０７】以上のような構成により、実施の形態１の
翻訳装置１００の奏する効果に加えて、翻訳装置２００
は、雑音環境下などでも処理精度を向上させることが可
能である。

【０１０８】なお、以上の説明では、翻訳装置としての
構成を説明したが、本発明はこのような場合に限定され
ることなく、以上説明したような翻訳方法を実行するた
めのソフトウェアを記録した記録媒体を用いることで、
画像入出力機能と音声入出力機能を備えたパーソナルコ
ンピュータ等によりこのソフトウェアを実行させること
で実現可能なものである。

【０１０９】さらに、以上説明したような翻訳方法を実
行するためのソフトウェアは、記録媒体としてパーソナ
ルコンピュータ等にインストールされる場合だけでな
く、インターネット等の電気通信回線を通じて、画像入
出力機能と音声入出力機能を備えたパーソナルコンピュ
ータ等にこのソフトウェアをインストールすることによ
っても実現可能である。

【０１１０】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。

【０１１１】

【発明の効果】以上説明したとおり、本発明によれば、
音声と同時に発話者の画像も翻訳する際に、第１の言語
から取得することのできない情報を含め、音声及び画像
を第２の言語に翻訳することができ、より自然なコミュ
ニケーションをとることが可能となる。

【図面の簡単な説明】

【図１】本発明の実施の形態１の翻訳装置１００の構
成を説明するための概略ブロック図である。

【図２】図１に示した翻訳装置１００の動作を説明す
るためのフローチャートである。

【図３】一般化された顔画像モデルを表現するための
３次元ワイヤーフレームモデルの一例を示す図であり、
図３（ａ）は、この３次元ワイヤーフレームモデルの正
面図であり、図３（ｂ）は側面図である。

【図４】データ記憶部１１２０に記憶される一般化さ
れた顔画像情報の一例を示す概念図である。

【図５】翻訳された文章の音声情報の構成の一例を説
明するための概念図である。

【図６】音声翻訳部１１０８から出力されるデータに
基づいて、顔画像を合成する手続きを説明するための図
である。

【図７】同期出力部１１２４から出力され、表示装置
１３０に出力される顔画像の例を示す第１の概念図であ
る。

【図８】同期出力部１１２４から出力され、表示装置
１３０に出力される顔画像の例を示す第２の概念図であ
る。

【図９】本発明の実施の形態２の翻訳装置２００の構
成を説明するための概略ブロック図である。

【図１０】図９に示した翻訳装置２００の動作を説明
するためのフローチャートである。

【符号の説明】

２発話者、１００翻訳装置、１０２マイクロフォ
ン、１０４カメラ、１１０コンピュータシステム、
１２０スピーカ、１３０表示装置、２００翻訳装
置、１１０２データ入出力部、１１０４音声認識
部、１１０５読唇部、１１０６情報統合部、１１０
８音声翻訳部、１１１０音声合成部、１１２０デ
ータ記憶部、１１２２画像合成部、１１２４同期出
力部。

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 13/06 Ｇ１０Ｌ 5/04 Ｅ (72)発明者緒方信京都府相楽郡精華町光台二丁目２番地２株式会社エイ・ティ・アール音声言語通信研究所内 (72)発明者森島繁生東京都世田谷区野沢一丁目15番地２ (72)発明者中村哲京都府相楽郡精華町光台二丁目２番地２株式会社エイ・ティ・アール音声言語通信研究所内Ｆターム(参考） 5B050 BA08 CA07 EA19 EA24 EA26 FA02 FA10 5B057 AA20 BA02 CA12 CA16 CB12 CB16 CE08 5B091 AA05 CB12 CB24 CB32 5D015 AA01 AA05 BB01 BB02 DD02 JJ01 JJ02 KK04 LL11 5D045 AB03

Claims

【特許請求の範囲】

【請求項１】発話者の発声した第１の言語の内容を発
話情報に基づいて認識するための発話認識手段と、発話認識結果に基づいて、前記第１の言語を第２の言語
に翻訳する翻訳手段と、前記翻訳手段の翻訳結果に基づいて、第２の言語での発
話に対応する音声を合成する音声合成手段と、前記第２の言語を発話する際の音声の要素と前記第２の
言語を発話する際の少なくとも調音器官の形状を数値表
現したデータとを対応付けて格納するための記憶手段
と、前記翻訳手段の翻訳結果に基づいて、前記記憶手段に格
納された情報に応じて、前記第２の言語での発話に対応
する少なくとも調音器官の動きを表現するための画像を
合成する画像合成手段と、前記音声合成手段と前記画像合成手段の出力とを同期し
て出力する出力手段とを備える、翻訳装置。
【請求項２】前記音声の要素は、視覚的に分類した発
話の要素である、請求項１記載の翻訳装置。
【請求項３】前記発話認識手段は、前記発話者の発声した前記第１の言語の内容を音声情報
に基づいて認識するための音声認識手段を含む、請求項
１記載の翻訳装置。
【請求項４】前記発話認識手段は、前記発話者の発声した前記第１の言語の内容を音声情報
に基づいて認識するための音声認識手段と、前記発話者が前記第１の言語を発話する際の調音器官の
形状を認識するための調音器官形状認識手段と、前記音声認識手段の認識結果と前記調音器官形状認識手
段の認識結果との少なくとも一方に基づいて、前記発話
者の発声した第１の言語の内容を認識して、前記翻訳手
段に与えるための情報統合手段とを含む、請求項１記載
の翻訳装置。
【請求項５】前記画像合成手段は、前記発話認識手段
の認識結果に応じて、前記記憶手段に格納された情報と
前記発話者の画像の特徴とに基づいて、前記画像を合成
する、請求項３または４記載の翻訳装置。
【請求項６】前記画像合成手段は、前記発話者の前記
第２の言語の発話に応じて変形する部分を前記翻訳手段
の翻訳結果に応じて合成し、さらに発話に応じて変形し
ない部分と合成した上で出力する、請求項５記載の翻訳
装置。
【請求項７】前記発話者の画像の特徴は、前記発話者
の顔の向きである、請求項５記載の翻訳装置。
【請求項８】身体の所定の動作と、当該動作を数値表
現したデータとを対応付けて記憶する記憶手段と、所望の身体の特徴に基づいて、前記記憶手段に記憶した
データを所望の身体に適合化するための係数を決定する
変換係数決定手段と、前記数値表現したデータを、前記係数により適合化する
適合化手段と、前記適合化したデータに基づいて、前記所望の身体に所
定の動作をさせた動画像を合成する画像合成手段とを備
える、画像合成装置。
【請求項９】前記身体の所定の動作と当該動作を数値
表現したデータは、身体の個性の影響を除いた正規化さ
れた形状に対応するデータである、請求項８記載の画像
合成装置。
【請求項１０】前記画像合成手段は、前記所望の身体
の一部の画像を、合成した動画像により置き換えること
で前記身体に所定の動作をさせた動画像を合成する置換
手段を含む、請求項８記載の画像合成装置。
【請求項１１】前記身体の所定の動作は、発話動作で
ある、請求項８または９記載の画像合成装置。
【請求項１２】前記身体の所定の動作は、発話動作で
あり、前記所望の身体の一部の画像は、調音器官の画像
である、請求項１０記載の画像合成装置。
【請求項１３】発話者の発声した第１の言語の内容を
認識するステップと、認識された結果に基づいて、前記第１の言語を第２の言
語に翻訳するステップと、翻訳された結果に基づいて、第２の言語での発話に対応
する音声を合成するステップと、前記第２の言語を発話する際の音声の要素と前記第２の
言語を発話する際の少なくとも調音器官の形状を数値表
現したデータとを対応付けたデータベースと、前記翻訳
結果に基づいて、前記第２の言語での発話に対応する少
なくとも調音器官の動きを表現するための画像を合成す
るステップと、前記合成された音声と前記合成された画像とを、同期し
て出力するステップとを備える、翻訳方法。
【請求項１４】前記音声の要素は、視覚的に分類した
発話の要素である、請求項１３記載の翻訳方法。
【請求項１５】前記データベースに格納するための前
記第２の言語を発話する際の少なくとも調音器官の形状
を数値表現したデータを、発話者の個性の影響を除いて
正規化された形状に対応するデータにするステップをさ
らに備える、請求項１３記載の翻訳方法。
【請求項１６】前記発話者の発声した第１の言語の内
容を認識するステップは、前記発話者の発声した前記第１の言語の内容を音声情報
に基づいて認識するステップを含む、請求項１３記載の
翻訳方法。
【請求項１７】前記発話者の発声した第１の言語の内
容を認識するステップは、前記発話者の発声した前記第１の言語の内容を音声情報
に基づいて認識するステップと、前記発話者が前記第１の言語を発話する際の調音器官の
形状を認識するステップと、前記音声情報に基づく認識の結果と前記調音器官形状の
認識結果との少なくとも一方に基づいて、前記発話者の
発声した第１の言語の内容を認識するステップとを含
む、請求項１３記載の翻訳方法。
【請求項１８】前記画像を合成するステップは、前記
第１の言語の内容の認識結果に応じて、前記データベー
スに格納された情報と前記発話者の画像の特徴とに基づ
いて、前記画像を合成する、請求項１６または１７記載
の翻訳方法。
【請求項１９】前記画像を合成するステップは、前記
発話者の前記第２の言語の発話に応じて変形する部分を
前記翻訳手段の翻訳結果に応じて合成し、さらに発話に
応じて変形しない部分と合成するステップを含む、請求
項１８記載の翻訳方法。
【請求項２０】前記発話者の画像の特徴は、前記発話
者の顔の向きである、請求項１８記載の翻訳方法。
【請求項２１】身体の所定の動作と、当該動作を数値
表現したデータとを対応付けて記憶するステップと、所望の身体の特徴に基づいて、前記記憶手段に記憶した
データを所望の身体に適合化するための係数を決定する
ステップと、前記数値表現したデータを、前記係数により適合化する
ステップと、前記適合化したデータに基づいて、前記所望の身体に所
定の動作をさせた動画像を合成するステップとを備え
る、画像合成方法。
【請求項２２】前記身体の所定の動作と当該動作を数
値表現したデータは、身体の個性の影響を除いた正規化
された形状に対応するデータである、請求項２１記載の
画像合成方法。
【請求項２３】前記画像を合成するステップは、前記
所望の身体の一部の画像を、合成した動画像により置き
換えることで前記身体に所定の動作をさせた動画像を合
成するステップを含む、請求項２１記載の画像合成方
法。
【請求項２４】前記身体の所定の動作は、発話動作で
ある、請求項２１または２２記載の画像合成方法。
【請求項２５】前記身体の所定の動作は、発話動作で
あり、前記所望の身体の一部の画像は、調音器官の画像
である、請求項２３記載の画像合成方法。
【請求項２６】発話者の発声した第１の言語の内容を
認識するステップと、認識された結果に基づいて、前記第１の言語を第２の言
語に翻訳するステップと、翻訳された結果に基づいて、第２の言語での発話に対応
する音声を合成するステップと、前記第２の言語を発話する際の音声の要素と前記第２の
言語を発話する際の少なくとも調音器官の形状を数値表
現したデータとを対応付けたデータベースと前記翻訳結
果とに基づいて、前記第２の言語での発話に対応する少
なくとも調音器官の動きを表現するための画像を合成す
るステップと、前記合成された音声と前記合成された画像とを同期して
出力するステップとを有する翻訳方法をコンピュータに
実行させるためのプログラムを記録したコンピュータ読
取り可能な媒体。
【請求項２７】前記音声の要素は、視覚的に分類した
発話の要素である、請求項２６記載のコンピュータ読取
り可能な媒体。
【請求項２８】前記身体の所定の動作と当該動作を数
値表現したデータは、身体の個性の影響を除いた正規化
された形状に対応するデータである、請求項２６記載の
コンピュータ読取り可能な媒体。
【請求項２９】身体の所定の動作と、当該動作を数値
表現したデータとを対応付けて記憶するステップと、所望の身体の特徴に基づいて、前記記憶手段に記憶した
データを所望の身体に適合化するための係数を決定する
ステップと、前記数値表現したデータを、前記係数により適合化する
ステップと、前記適合化したデータに基づいて、前記所望の身体に所
定の動作をさせた動画像を合成するステップとを備える
画像合成方法をコンピュータに実行させるためのプログ
ラムを記録したコンピュータ読取り可能な媒体。
【請求項３０】前記身体の所定の動作と当該動作を数
値表現したデータは、身体の個性の影響を除いた正規化
された形状に対応するデータである、請求項２９記載の
コンピュータ読取り可能な媒体。
【請求項３１】前記画像を合成するステップは、前記
所望の身体の一部の画像を、合成した動画像により置き
換えることで前記身体に所定の動作をさせた動画像を合
成するステップを含む、請求項２９記載のコンピュータ
読取り可能な媒体。
【請求項３２】前記身体の所定の動作は、発話動作で
ある、請求項２９または３０記載のコンピュータ読取り
可能な媒体。
【請求項３３】前記身体の所定の動作は、発話動作で
あり、前記所望の身体の一部の画像は、調音器官の画像
である、請求項３１記載のコンピュータ読取り可能な媒
体。
【請求項３４】前身体の所定の動作動作を数値表現
し、かつ身体の個性の影響を除いた正規化された形状に
対応するデータを、コンピュータが読み取り可能なよう
に記録した媒体。