JP4011844B2 - 翻訳装置、翻訳方法および媒体 - Google Patents

翻訳装置、翻訳方法および媒体 Download PDF

Info

Publication number
JP4011844B2
JP4011844B2 JP2000288601A JP2000288601A JP4011844B2 JP 4011844 B2 JP4011844 B2 JP 4011844B2 JP 2000288601 A JP2000288601 A JP 2000288601A JP 2000288601 A JP2000288601 A JP 2000288601A JP 4011844 B2 JP4011844 B2 JP 4011844B2
Authority
JP
Japan
Prior art keywords
language
speaker
translation
image
shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000288601A
Other languages
English (en)
Other versions
JP2002099295A (ja
Inventor
和昌 村井
信 緒方
繁生 森島
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2000288601A priority Critical patent/JP4011844B2/ja
Publication of JP2002099295A publication Critical patent/JP2002099295A/ja
Application granted granted Critical
Publication of JP4011844B2 publication Critical patent/JP4011844B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、入力された音声および画像に基づいて、入力された言語を他の言語に翻訳するための翻訳装置および翻訳方法に関する。より特定的には、本発明は、入力した音声および画像に基づいて所望の言語への翻訳を行ない、翻訳した言語の音声およびそれに対応する画像を合成する翻訳装置および翻訳方法に関する。
【0002】
【従来の技術】
従来、発話者が話した話し言葉に基づいて音声翻訳を行なう場合、入力された第1の言語(例えば、日本語)を認識し、これに対して言語解析を行なった結果を第2の言語(例えば、英語)に翻訳し、翻訳した結果に基づいて第2の言語の音声を合成するということが行なわれている。
【0003】
さらに、文献1:Nick Campbell, Alan W.Black著 「Chatr:a multi-lingual speech re-sequencing synthesis system」電子情報通信学会信学技報、sp96-7,pp.45-, 1996には、入力した第1の言語の音声の声の特徴を認識し、その認識結果に基づいて第2の言語を合成することにより、発話者が第2の言語を発話する場合に近い音声翻訳を実現するための技術が開示されている。この文献1に開示された技術によれば、より自然な音声翻訳を実現する事ができる。
【0004】
【発明が解決しようとする課題】
上述したような自動翻訳は、翻訳結果をあくまでコンピュータにおける合成処理の結果として外部に出力するものである。このとき、コンピュータと人間とのコミュニケーションを円滑に行なうには、人と人とが直接対話しているような環境を実現することが理想的である。また、このような人と人との会話の理解において、唇の動きは、特に重要な役割を果たしていると考えられる。
【0005】
しかしながら、上述した文献1に開示された技術では、音声が合成されるのみであり、発話者の顔画像、特に、唇等の動きを翻訳することはできなかった。
【0006】
これに対して、米国特許5,826,234(発明者:Bertil Lyberg, 出願日:1996年12月5日, 発明の名称:「合成された話し言葉および対応する表情の動きを生成する音響画像に吹き替えを行なうための装置および方法(DEVICE AND METHOD FOR DUBBING AN AUDIO-VISUAL PRESENTATION WHICH GENERATES SYNTHESIZED SPEECH AND CORRESPONDING FACIAL MOVEMENTS)」では、発話者が第1の言語を発話している画像をあらかじめ記録し、第1の言語を発話中の音素と表情との関連に基づいて、第2の言語の発話画像を合成する方法が開示されている。
【0007】
この方法によれば、発話者の音声のみならず、顔画像も翻訳することが可能となり、発話者が第2の言語を発話しているのに近い音声及び画像の翻訳が可能になる。つまり、発話中の画像に基づくため、表情などが翻訳結果の出力に反映されるので、音声のみの場合に比較すれば、より自然なコミュニケーションを実現できることが期待される。
【0008】
しかしながら、たとえば、日本語を英語に翻訳する場合を想定すると、英語には、現在の日本語に存在しない音素、たとえば、/th/, /f/, /v/,/l/,/r/,/ae/などがある。つまり、日本語と英語では、母音および子音の種類に大きな開きがある。したがって、英語の発話中の顔の動きには、日本語の発話中には存在しない動きであって、外見上も明らかに異なるものが多数存在する。米国特許5826234に開示された技術に基づく場合は、これらの、第1の言語に存在しない発話における顔の動きは、第2の言語の発話における顔の動きに翻訳することができない。
【0009】
また、逆に、英語を日本語に翻訳する場合、表記上は同じ子音であっても、実際の英語の発話における顔の動きは、日本語を発話する場合に比べると大きい事が知られており、英語の発話画像に基づいて日本語の発話画像を合成すると、動きが大きくなりすぎるという問題がある。
【0010】
さらに、記録した音素とは異なる順序で合成する際には、一般的には画像が連続しないために、上記米国特許5,826,234に開示された技術を用いれば、音声だけの場合に比べれば、コミュニケーションがより自然に近くなる可能性があるものの、実際に人間が発話するのを見る場合と比べれば、その動きがぎこちないものとなってしまう可能性があるという問題点があった。
【0011】
この発明は、上記のような問題点を解決するためになされたものであって、その目的は、音声と同時に発話者の画像も翻訳する際に、第1の言語から取得することのできない情報を含め、音声及び画像を翻訳することが可能な翻訳装置および翻訳方法を提供することである。
【0012】
【課題を解決するための手段】
請求項1記載の翻訳装置は、発話者の発声した第1の言語の内容を発話情報に基づいて認識するための発話認識手段と、発話認識結果に基づいて、第1の言語を第2の言語に翻訳し、第2の言語の翻訳結果の発話に対応する時系列の音素の情報および各音素の継続長に関する情報を出力する翻訳手段と、翻訳手段の翻訳結果に基づいて、第2の言語での発話に対応する音声を合成する音声合成手段と、第2の言語の母音の音素および視覚素と第2の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けて格納するための記憶手段とを備え、調音器官の形状を数値表現したデータは、第1の言語を発話する発話者についてのサンプリングにより得られた発話者の顔画像を表現するためのデータ、ならびに、第2の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する調音器官の形状の変化を予め抽出した形状変化データに基づいて、第2の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み、翻訳手段の翻訳結果に基づいて、記憶手段に格納された情報に応じて、第2の言語での発話に対応する少なくとも調音器官の動きを表現するための画像を合成する画像合成手段をさらに備え画像合成手段は、記憶手段に格納された情報に基づいて、時系列の音素のそれぞれに対応する発話者の複数の顔画像データを抽出する顔画像データ抽出手段と、複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成する補間画像生成手段とを含み、音声合成手段と画像合成手段の出力とを同期して出力する出力手段とをさらに備える。
【0014】
請求項記載の翻訳装置は、請求項1記載の翻訳装置の翻訳装置の構成に加えて、前記発話認識手段は、前記発話者の発声した前記第1の言語の内容を音声情報に基づいて認識するための音声認識手段を含む。
【0015】
請求項記載の翻訳装置は、請求項1記載の翻訳装置の翻訳装置の構成に加えて、前記発話認識手段は、前記発話者の発声した前記第1の言語の内容を音声情報に基づいて認識するための音声認識手段と、前記発話者が前記第1の言語を発話する際の調音器官の形状を認識するための調音器官形状認識手段と、前記音声認識手段の認識結果と前記調音器官形状認識手段の認識結果との少なくとも一方に基づいて、前記発話者の発声した第1の言語の内容を認識して、前記翻訳手段に与えるための情報統合手段とを含む。
【0016】
請求項記載の翻訳装置は、請求項または記載の翻訳装置の翻訳装置の構成に加えて、前記画像合成手段は、前記発話認識手段の認識結果に応じて、前記記憶手段に格納された情報と前記発話者の画像の特徴とに基づいて、前記画像を合成する。
【0017】
請求項記載の翻訳装置は、請求項記載の翻訳装置の翻訳装置の構成に加えて、前記画像合成手段は、前記発話者の前記第2の言語の発話に応じて変形する部分を前記翻訳手段の翻訳結果に応じて合成し、さらに発話に応じて変形しない部分と合成した上で出力する。
【0018】
請求項記載の翻訳装置は、請求項記載の翻訳装置の翻訳装置の構成に加えて、前記発話者の画像の特徴は、前記発話者の顔の向きである。
【0024】
請求項7記載の翻訳方法は、発話者の発声した第1の言語の内容を認識するステップと、認識された結果に基づいて、第1の言語を第2の言語に翻訳し、第2の言語の翻訳結果の発話に対応する時系列の音素の情報および各音素の継続長に関する情報を出力するステップと、翻訳された結果に基づいて、第2の言語での発話に対応する音声を合成するステップと、第2の言語の母音の音素および視覚素と第2の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けたデータベースと、翻訳結果に基づいて、第2の言語での発話に対応する少なくとも調音器官の動きを表現するための画像を合成するステップとを備え、調音器官の形状を数値表現したデータは、第1の言語を発話する発話者についてのサンプリングにより得られた発話者の顔画像を表現するためのデータ、ならびに、第2の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する調音器官の形状の変化を予め抽出した形状変化データに基づいて、第2の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み記憶手段に格納された情報に基づいて、時系列の音素のそれぞれに対応する発話者の複数の顔画像データを抽出するステップと、複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成するステップと、合成された音声と、抽出された顔画像データと補間された画像データにより合成された画像とを、同期して出力するステップをさらに備える。
【0026】
請求項記載の翻訳方法は、請求項記載の翻訳方法の構成に加えて、前記データベースに格納するための前記第2の言語を発話する際の少なくとも調音器官の形状を数値表現したデータを、発話者の個性の影響を除いて正規化された形状に対応するデータにするステップをさらに備える。
【0027】
請求項記載の翻訳方法は、請求項記載の翻訳方法の構成に加えて、前記発話者の発声した第1の言語の内容を認識するステップは、前記発話者の発声した前記第1の言語の内容を音声情報に基づいて認識するステップを含む。
【0028】
請求項10記載の翻訳方法は、請求項記載の翻訳方法の構成に加えて、前記発話者の発声した第1の言語の内容を認識するステップは、前記発話者の発声した前記第1の言語の内容を音声情報に基づいて認識するステップと、前記発話者が前記第1の言語を発話する際の調音器官の形状を認識するステップと、前記音声情報に基づく認識の結果と前記調音器官形状の認識結果との少なくとも一方に基づいて、前記発話者の発声した第1の言語の内容を認識するステップとを含む。
【0029】
請求項11記載の翻訳方法は、請求項または10記載の翻訳方法の構成に加えて、前記画像を合成するステップは、前記第1の言語の内容の認識結果に応じて、前記データベースに格納された情報と前記発話者の画像の特徴とに基づいて、前記画像を合成する。
【0030】
請求項12記載の翻訳方法は、請求項11記載の翻訳方法の構成に加えて、前記画像を合成するステップは、前記発話者の前記第2の言語の発話に応じて変形する部分を前記翻訳手段の翻訳結果に応じて合成し、さらに発話に応じて変形しない部分と合成するステップを含む。
【0031】
請求項13記載の翻訳方法は、請求項11記載の翻訳方法の構成に加えて、前記発話者の画像の特徴は、前記発話者の顔の向きである。
【0037】
請求項1記載のコンピュータ読取り可能な媒体は、発話者の発声した第1の言語の内容を認識するステップと、認識された結果に基づいて、第1の言語を第2の言語に翻訳し、第2の言語の翻訳結果の発話に対応する時系列の音素の情報および各音素の継続長に関する情報を出力するステップと、翻訳された結果に基づいて、第2の言語での発話に対応する音声を合成するステップと、第2の言語の母音の音素および視覚素と第2の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けたデータベースと翻訳結果とに基づいて、第2の言語での発話に対応する少なくとも調音器官の動きを表現するための画像を合成するステップを備え、調音器官の形状を数値表現したデータは、第1の言語を発話する発話者についてのサンプリングにより得られた発話者の顔画像を表現するためのデータ、ならびに、第2の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する調音器官の形状の変化を予め抽出した形状変化データに基づいて、第2の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み記憶手段に格納された情報に基づいて、時系列の音素のそれぞれに対応する発話者の複数の顔画像データを抽出するステップと、複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成するステップと、合成された音声と、抽出された顔画像データと補間された画像データにより合成された画像とを同期して出力するステップをさらに有する翻訳方法をコンピュータに実行させるためのプログラムを記録している。
【0039】
請求項1記載のコンピュータ読取り可能な媒体は、請求項14記載のコンピュータ読取り可能な媒体の構成に加えて、身体の所定の動作と当該動作を数値表現したデータは、身体の個性の影響を除いた正規化された形状に対応するデータである。
【0046】
【発明の実施の形態】
[実施の形態1]
図1は、本発明の実施の形態1の翻訳装置100の構成を説明するための概略ブロック図である。
【0047】
なお、以下の説明では、第1の言語が日本語であり、第2の言語が英語である場合を例として説明するが、以下の説明で明らかとなるように、本発明はこのような場合に限定されることなく、他の言語の組合せの相互間の翻訳にも適用することが可能なものである。
【0048】
図1を参照して、翻訳装置100は、発話者2が発声した第1の言語についての音声を取得するためのマイクロフォン102と、発話者2が第1の言語を発生する際の画像を撮影するためのカメラ104と、マイクロフォン102およびカメラ104からの出力を受けて、発話者2が発音した文章に対応する音声情報および画像情報を処理して、第1の言語の内容を解析し、当該内容に相当する第2の言語に翻訳した上で、第2の言語の発話に対応する音声および画像を合成するためのコンピュターシステム110と、コンピュターシステム110により合成された第2言語の発話に対応する音声を出力するためのスピーカ120と、コンピュターシステム110により合成された第2言語の発話に対応する画像を出力するための表示装置(ディスプレイ)130とを備える。
【0049】
コンピュターシステム110は、マイクロフォン102、カメラ104、スピーカ120および表示装置130との間でデータの授受を行なうためのデータ入出力部1102と、マイクロフォン102からデータ入出力部1102を介して与えられる音声信号に基づいて、発話者2の発声した文章をそれに含まれる音韻情報に分離解析し、さらに言語解析することで第1の言語での発話の内容を認識するための音声認識部1104と、音声認識部1104で認識された第1の言語での発話の内容を、第2の言語での発話情報に変換するための音声翻訳部1108と、音声翻訳部1108の翻訳結果を受けて第2の言語での発話に対応する音声を合成するための音声合成部1110と、後に説明するように、第2の言語での音声情報とそれに対応する画像情報とを格納するためのデータ記憶部1120と、音声翻訳部1108からの翻訳結果とデータ記憶部1120に格納された情報とに基づいて、発話者2が第2の言語で発話する際の画像を合成するための画像合成部1122と、音声合成部1110の出力と画像合成部1122の出力とを受けて、第2の言語での発話のタイミングに両者を同期させるための同期出力部1124とを備える。
【0050】
同期出力部1124からの出力は、データ入出力部1102を介して、表示装置130およびスピーカ120とにそれぞれ出力される。
【0051】
なお、カメラ104により撮影された発話者2の画像、たとえば、発話者2の無発声状態での顔部分の画像は、データ入出力部1102を介して、初期データとして、データ記憶部1120に格納されているものとする。
【0052】
[翻訳装置100の動作]
図2は、図1に示した翻訳装置100の動作を説明するためのフローチャートである。
【0053】
図2を参照して、まず、翻訳装置100は、処理を開始すると(ステップS100)、発話者2の第1の言語での画像および発話された音声を、カメラ104およびマイクロフォン102から入力として受け取る(ステップS102)。
【0054】
続いて、音声認識部1104が、マイクロフォン102から入力された音声信号に基づいて、発話者2が発声した文章をそれに含まれる音韻情報に分離解析し、さらに言語解析することで第1の言語での発話の内容を認識する(ステップS104)。
【0055】
さらに、音声翻訳部1108は、音声認識部1104で認識された第1の言語の内容を第2の言語の内容に変換する(ステップS110)。
【0056】
音声合成部1110は、音声翻訳部1108から与えられる第2の言語の内容に基づいて、対応する第2の言語での発話に対応する音声情報を合成する。このとき、予め収集しておいた発話者2の音声情報の特徴に基づいて、合成される音声の特徴を発話者2の特徴を持ったものとすることができる(ステップS112)。たとえば、発話者の声の高低や、性別による音色の差異などの特徴を再現することが可能である。
【0057】
一方、画像合成部1122は、音声翻訳部1108から出力され、音声合成においても使用される、第2の言語での発話の音素の情報および各音素の継続長に関する情報に基づいて、これに対応する一般化された調音器官(唇、歯、舌、口腔の形状等)の情報をデータ記憶部1120から取得する(ステップS114)。
【0058】
さらに、画像合成部1122は、この一般化された調音器官の情報に基づいて、第2の言語での発話における音素の順序、継続長に適合するような時系列に従って、たとえば、顔画像の一般化された画像モデルを生成する。ここで、後に説明するように、特に限定されないが、このような顔画像の一般化された画像モデルとしては、3次元的な顔画像に対するワイヤーフレームモデルを用いることができる。さらに、画像合成部1122は、このようにして生成された画像モデルを発話者2の画像に適合するように変形した上で、さらに、発話者2の実際の顔画像に相当するようにテクスチャマッピングを行なって、発話者2が第2の言語を発話する際の顔画像を合成する(ステップS116)。
【0059】
同期出力部1124は、音声合成部1110の出力と画像合成部1122の出力とを受けて、第2の言語での発話のタイミングに両者を同期させて出力する。この同期出力部1124からの出力は、データ入出力部1102を介して、表示装置130およびスピーカ120からそれぞれ顔画像および音声として出力される(ステップS118)。
【0060】
以上で、発話者2の発生した文章に対する翻訳装置100の処理が終了する(ステップS120)。
【0061】
[一般化された顔画像モデル]
図3は、上述したような一般化された顔画像モデルを表現するための3次元ワイヤーフレームモデルの一例を示す図であり、図3(a)は、この3次元ワイヤーフレームモデルの正面図であり、図3(b)は側面図である。
【0062】
このような3次元ワイヤーフレームモデルは、たとえば、発話者が発声する第1の言語について、その音声とそれに対応する顔画像のデータを予め複数サンプリングしておき、それに基づいて生成することができる。
【0063】
このとき、発話者の顔画像の複数の特徴点(目頭・目じりの位置、口の両端の位置など)を、予め定められた基準位置となるように変形して、この顔画像を特定の発話者の個性に依存しないように正規化処理しておく。
【0064】
このように、正規化された顔画像についての3次元ワイヤーフレームモデルを、第2の言語の「母音の音素」と「視覚素」ごとに予め設定しておく。
【0065】
ここで、「視覚素(以下、音素”phoneme”に対応する造語として”viseme”と呼ぶ)」とは、話し手の口の形状を見るだけでは区別することができないが、発声された音を聞けば区別することができる子音のことをいう。つまり、「視覚素」とは、視覚的に分類した発話の要素ということができる。たとえば、音素の集合{/b/, /p/, /m/}や{/k/, /g/}や{/s/, /z/}の各々は、それぞれ1つの「視覚素(viseme)」に対応する。
【0066】
顔画像のサンプリングは、一般には、発話者の第1の言語(たとえば、母国語)について行なわれるので、第2の言語のすべての「母音の音素」と「視覚素」とについて、上述したような3次元ワイヤーフレームモデルを予め設定しておくためには、以下のような手順が考えられる。
【0067】
たとえば、第1には、第1の言語についてサンプリングされた3次元ワイヤーフレームモデルに基づいて、音韻学上、一般的に、その「視覚素」等に対応する発音をする場合の調音器官の形状に一致するように変形した3次元ワイヤーフレームモデルの座標を抽出しておくという方法である。
【0068】
あるいは、第2には、第2の言語について、複数の発話者の「母音の音素」および「視覚素」と、調音器官の形状の形状変化をサンプリングした上で、平均的な変化のデータを求めておき、これに対応するように3次元ワイヤーフレームモデルの座標を抽出しておくことも可能である。
【0069】
なお、以上の説明では、第2の言語を発話する際の顔画像を合成するために、3次元ワイヤーフレームモデルを用いることとしたが、顔画像を数値の集合として表現し、その数値の集合から顔画像を逆に合成できるのであれば、モデルとしては、3次元ワイヤーフレームモデルに限定されるものではない。
【0070】
図4は、データ記憶部1120に記憶される一般化された顔画像情報の一例を示す概念図である。
【0071】
すなわち、図4に示すように、データ記憶部1120には、以上のようにして抽出された、「母音の音素」および「視覚素」とこれに対応する顔画像を表現するための3次元ワイヤーフレームモデルの座標(より一般的には、顔画像を表現するための数値データ)を対応させたテーブルが格納されている。
【0072】
図4においては、第1の言語(日本語)についてのテーブルと第2の言語(英語)についてのテーブルの双方が格納されているものとしている。したがって、図4に示すような2つのテーブルがあれば、上述したように、発話者2の発話に基づいて日本語から英語への翻訳を行なう場合だけでなく、他の発話者の発話に基づいて英語から日本語への翻訳を行なう場合の処理を行なうことも可能である。
【0073】
また、もちろん、他の言語についてのテーブルが準備されていれば、他の言語との間での翻訳に伴う処理を行なうことも可能である。
【0074】
[顔画像の合成]
図5は、翻訳された文章の音声情報の構成の一例を説明するための概念図である。
【0075】
図5に示した例では、第1の言語である日本語の文章から第2の言語である英語の文章の"I have a red pen"という文章への変換が行なわれた場合を例として挙げている。
【0076】
音声言語は、図5に示すように階層性を有しており、文章は、単語、音節(母音と子音とで形成する単位)、音素(各子音、各母音)という風に細分化される。
【0077】
したがって、音声翻訳部1108により翻訳された結果のデータとしては、このような連続した音素と、各音素についての継続長(音の時間的長さ)からなる時系列的なデータが得られることになる。
【0078】
図6は、音声翻訳部1108から出力されるデータに基づいて、顔画像を合成する手続きを説明するための図である。
【0079】
上述の通り、音声翻訳部1108において、音素とのその継続長により翻訳後の第2の文章の発話が表現される。
【0080】
画像合成部1122は、図4に示したようなデータ記憶部1120に格納されたテーブルを参照することにより、このような音素の並びを、上述した視覚素の並びに変換する。
【0081】
次に、画像合成部1122は、各視覚素の先頭の時刻(図6中の矢印)において、それぞれの視覚素に対応する3次元ワイヤーフレームモデルの座標を抽出する。
【0082】
さらに、画像合成部1122は、上述のような各視覚素の先頭の時刻に対応する3次元ワイヤーフレームモデルの形状同士の間を補間するような形状を、たとえば、所定の時間間隔毎に生成する。
【0083】
その上で、画像合成部1122は、形成された連続的な3次元ワイヤーフレームモデルの表面に、顔画像のテキスチャをマッピングする。このテキスチャマッピングは、特に限定されないが、例えば、カメラ104により撮影された発話者2の初期画像に基づいて行なうことが可能である。
【0084】
以上のように合成された顔画像が、同期出力部1124から合成された第2の言語の音声と同期して出力される。
【0085】
なお、図6においては、各視覚素の先頭の時刻について、対応する3次元ワイヤーフレームモデルを当てはめる構成としているが、必ずしもこのような場合に限定されることなく、視覚素の中の他の時点を基準とすることも可能である。
【0086】
図7および図8は、このようにして同期出力部1124から出力され、表示装置130に出力される顔画像の例を示す概念図である。
【0087】
図7は、口を閉じた状態の子音、例えば、/m/の視覚素に対応する画像であり、図8は、口を開けた状態の例えば、母音の発音に対応する画像であるものとする。
【0088】
このとき、各視覚素ごとに3次元ワイヤーフレームモデルを合成することも可能である。この場合は、発話に伴って、顔の向きや方向が変化するようなジェスチャを伴う場合にも、そのような画像を合成することが可能である。
【0089】
さらには、3次元ワイヤーフレームモデル(より一般的には、画像を表現するための数値データ)により発話者の体全体のデータを抽出しておけば、体全体のジェスチャも合成することが可能である。
【0090】
あるいは、図7および図8に示すように、図中の点線よりも上の画像は固定としておき、点線よりも下の画像のみを、視覚素に対応して変化させつつ、合成することも可能である。
【0091】
さらには、顔画像のうち、口の部分のみを合成して、他の部分は固定して表示することや、口の部分のみを取り出して合成し表示することなども可能である。
【0092】
また、このようにして合成される顔の画像は、必ずしも発話者2自身の顔の特徴に適合させておく必要はない。ただし、発話者2の顔の形状に適合するように変形した画像を合成する場合は、顔画像の合成プロセスの最初に3次元ワイヤーフレームの形状を発話者2の顔の形状に適合するように変形させておき、変形したワイヤーフレームにデータ記憶部1120に格納されたテーブルに基づいた動きを加え、さらに、必要に応じて、顔の位置と方向の情報により1次変換した後に、ワイヤーフレームに発話者2自身の顔画像に基づくテキスチャマッピングを行なうという手続きで実現可能である。
【0093】
なお、データ記憶部1120には、正規化された身体の所定の動作の画像と、当該動作画像を数値表現したデータとを対応付けて記憶させておき、所望の身体、たとえば、発話者2の身体の特徴に基づいて、記憶された数値表現データをこの所望の身体に適合化するための係数を予め決定しておき、画像合成部1122は、数値表現したデータをこのような係数により適合化した上で、所望の身体に所定の動作をさせた身体全体の動画像、身体の一部の動画像を合成するという構成にすることも可能である。あるいは、身体の動画像の一部は固定しておき、残りの部分についてのみ、発話情報に基づいて合成した上で、全体としての動画像を合成することも可能である。
【0094】
以上のような構成とすることで、音声と同時に発話者の画像も翻訳する際に、第1の言語から取得することのできない情報を含め、音声及び画像を第2の言語に翻訳することができ、より自然なコミュニケーションをとることが可能となる。
【0095】
[実施の形態2]
図9は、本発明の実施の形態2の翻訳装置200の構成を説明するための概略ブロック図である。
【0096】
図1に示した実施の形態1の翻訳装置100の構成と異なる点は、以下のとおりである。
【0097】
翻訳装置100においては、マイクロフォン102から入力される音声情報に基づいて、発話者2の発声した第1の言語の文章の内容を認識する構成であった。これに対して、翻訳装置200においては、発話者2の第1の言語で文章を発生する際の発話者の調音器官の形状変化、特に唇周辺部分の形状の変化に基づいても、第1の言語での文章の内容の認識を行なう構成となっている。
【0098】
すなわち、翻訳装置200は、データ入出力部1102からのカメラ104の画像情報を受けて、発話者2の調音器官表皮の形状、たとえば、唇、唇の周辺部分、頬の部分、のどの部分などの特徴部分の形状変化を検知し、データ記憶部1120に格納されたこれら特徴部分の形状変化と視覚素との対応関係に基づいて、画像情報に基づく音声認識結果を出力する読唇部1105と、音声認識部1104からの音声情報の認識結果と読唇部1105での認識結果とを受けて、両者の情報を統合し、音声認識結果を出力する情報統合部1106とをさらに備える。
【0099】
このような構成とすれば、発話者2の調音器官の形状変化の情報も音声情報に加えて、あるいは、場合によっては調音器官の形状変化の情報のみに基づいて、音声認識を行なうことができ、たとえば、周囲の雑音が大きいような環境においても、音声認識の精度を維持することが可能となる。
【0100】
図10は、図9に示した翻訳装置200の動作を説明するためのフローチャートである。
【0101】
図9を参照して、まず、翻訳装置200は、処理を開始すると(ステップS100)、発話者2の第1の言語での画像および発話された音声を、カメラ104およびマイクロフォン102から入力として受け取る(ステップS102)。
【0102】
続いて、音声認識部1104が、マイクロフォン102から入力された音声信号に基づいて、発話者2が発声した文章をそれに含まれる音韻情報に分離解析し、さらに言語解析することで第1の言語での発話の内容を認識する(ステップS104)。
【0103】
一方、読唇部1105は、カメラ104からの画像情報を受けて、発話者2の調音器官表皮の形状変化を検出し、データ記憶部1120に格納されたこれらの形状変化と視覚素との対応関係に基づいて、画像情報に基づく音声認識を行なう(ステップS106)。
【0104】
情報統合部1106は、音声認識部1104および読唇部1105での認識結果に基づいて、音声認識結果を出力する(ステップS108)。
【0105】
さらに、音声翻訳部1108は、情報統合部1106で認識された第1の言語の内容を第2の言語の内容に変換する(ステップS110)。
【0106】
以下の処理は、図2に示した実施の形態1の処理と同様であるので、その説明は繰り返さない。
【0107】
以上のような構成により、実施の形態1の翻訳装置100の奏する効果に加えて、翻訳装置200は、雑音環境下などでも処理精度を向上させることが可能である。
【0108】
なお、以上の説明では、翻訳装置としての構成を説明したが、本発明はこのような場合に限定されることなく、以上説明したような翻訳方法を実行するためのソフトウェアを記録した記録媒体を用いることで、画像入出力機能と音声入出力機能を備えたパーソナルコンピュータ等によりこのソフトウェアを実行させることで実現可能なものである。
【0109】
さらに、以上説明したような翻訳方法を実行するためのソフトウェアは、記録媒体としてパーソナルコンピュータ等にインストールされる場合だけでなく、インターネット等の電気通信回線を通じて、画像入出力機能と音声入出力機能を備えたパーソナルコンピュータ等にこのソフトウェアをインストールすることによっても実現可能である。
【0110】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0111】
【発明の効果】
以上説明したとおり、本発明によれば、音声と同時に発話者の画像も翻訳する際に、第1の言語から取得することのできない情報を含め、音声及び画像を第2の言語に翻訳することができ、より自然なコミュニケーションをとることが可能となる。
【図面の簡単な説明】
【図1】 本発明の実施の形態1の翻訳装置100の構成を説明するための概略ブロック図である。
【図2】 図1に示した翻訳装置100の動作を説明するためのフローチャートである。
【図3】 一般化された顔画像モデルを表現するための3次元ワイヤーフレームモデルの一例を示す図であり、図3(a)は、この3次元ワイヤーフレームモデルの正面図であり、図3(b)は側面図である。
【図4】 データ記憶部1120に記憶される一般化された顔画像情報の一例を示す概念図である。
【図5】 翻訳された文章の音声情報の構成の一例を説明するための概念図である。
【図6】 音声翻訳部1108から出力されるデータに基づいて、顔画像を合成する手続きを説明するための図である。
【図7】 同期出力部1124から出力され、表示装置130に出力される顔画像の例を示す第1の概念図である。
【図8】 同期出力部1124から出力され、表示装置130に出力される顔画像の例を示す第2の概念図である。
【図9】 本発明の実施の形態2の翻訳装置200の構成を説明するための概略ブロック図である。
【図10】 図9に示した翻訳装置200の動作を説明するためのフローチャートである。
【符号の説明】
2 発話者、100 翻訳装置、102 マイクロフォン、104 カメラ、110 コンピュータシステム、120 スピーカ、130 表示装置、200翻訳装置、1102 データ入出力部、1104 音声認識部、1105 読唇部、1106 情報統合部、1108 音声翻訳部、1110 音声合成部、1120 データ記憶部、1122 画像合成部、1124 同期出力部。

Claims (15)

  1. 発話者の発声した第1の言語の内容を発話情報に基づいて認識するための発話認識手段と、
    発話認識結果に基づいて、前記第1の言語を第2の言語に翻訳し、前記第2の言語の翻訳結果の発話に対応する時系列の音素の情報および各前記音素の継続長に関する情報を出力する翻訳手段と、
    前記翻訳手段の翻訳結果に基づいて、第2の言語での発話に対応する音声を合成する音声合成手段と、
    前記第2の言語の母音の音素および視覚素と前記第2の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けて格納するための記憶手段とを備え、
    前記調音器官の形状を数値表現したデータは、前記第1の言語を発話する前記発話者についてのサンプリングにより得られた前記発話者の顔画像を表現するためのデータ、ならびに、前記第2の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する前記調音器官の形状の変化を予め抽出した形状変化データに基づいて、前記第2の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み
    前記翻訳手段の翻訳結果に基づいて、前記記憶手段に格納された情報に応じて、前記第2の言語での発話に対応する少なくとも調音器官の動きを表現するための画像を合成する画像合成手段をさらに備え前記画像合成手段は、
    前記記憶手段に格納された情報に基づいて、前記時系列の音素のそれぞれに対応する前記発話者の複数の顔画像データを抽出する顔画像データ抽出手段と、
    前記複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成する補間画像生成手段とを含み、
    前記音声合成手段と前記画像合成手段の出力とを同期して出力する出力手段とをさらに備える、翻訳装置。
  2. 前記発話認識手段は、前記発話者の発声した前記第1の言語の内容を音声情報に基づいて認識するための音声認識手段を含む、請求項1記載の翻訳装置。
  3. 前記発話認識手段は、前記発話者の発声した前記第1の言語の内容を音声情報に基づいて認識するための音声認識手段と、前記発話者が前記第1の言語を発話する際の調音器官の形状を認識するための調音器官形状認識手段と、前記音声認識手段の認識結果と前記調音器官形状認識手段の認識結果との少なくとも一方に基づいて、前記発話者の発声した第1の言語の内容を認識して、前記翻訳手段に与えるための情報統合手段とを含む、請求項1記載の翻訳装置。
  4. 前記画像合成手段は、前記発話認識手段の認識結果に応じて、前記記憶手段に格納された情報と前記発話者の画像の特徴とに基づいて、前記画像を合成する、請求項2または3記載の翻訳装置。
  5. 前記画像合成手段は、前記発話者の前記第2の言語の発話に応じて変形する部分を前記翻訳手段の翻訳結果に応じて合成し、さらに発話に応じて変形しない部分と合成した上で出力する、請求項4記載の翻訳装置。
  6. 前記発話者の画像の特徴は、前記発話者の顔の向きである、請求項4記載の翻訳装置。
  7. 発話者の発声した第1の言語の内容を認識するステップと、
    認識された結果に基づいて、前記第1の言語を第2の言語に翻訳し、前記第2の言語の翻訳結果の発話に対応する時系列の音素の情報および各前記音素の継続長に関する情報を出力するステップと、
    翻訳された結果に基づいて、第2の言語での発話に対応する音声を合成するステップと、
    前記第2の言語の母音の音素および視覚素と前記第2の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けたデータベースと、前記翻訳結果に基づいて、前記第2の言語での発話に対応する少なくとも調音器官の動きを表現するための画像を合成するステップとを備え、
    前記調音器官の形状を数値表現したデータは、前記第1の言語を発話する前記発話者についてのサンプリングにより得られた前記発話者の顔画像を表現するためのデータ、ならびに、前記第2の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する前記調音器官の形状の変化を予め抽出した形状変化データに基づいて、前記第2の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み
    前記記憶手段に格納された情報に基づいて、前記時系列の音素のそれぞれに対応する前記発話者の複数の顔画像データを抽出するステップと、
    前記複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成するステップと、
    前記合成された音声と前記抽出された顔画像データと補間された前記画像データにより合成された画像とを、同期して出力するステップをさらに備える、翻訳方法。
  8. 前記データベースに格納するための前記第2の言語を発話する際の少なくとも調音器官の形状を数値表現したデータを、発話者の個性の影響を除いて正規化された形状に対応するデータにするステップをさらに備える、請求項7記載の翻訳方法。
  9. 前記発話者の発声した第1の言語の内容を認識するステップは、前記発話者の発声した前記第1の言語の内容を音声情報に基づいて認識するステップを含む、請求項7記載の翻訳方法。
  10. 前記発話者の発声した第1の言語の内容を認識するステップは、
    前記発話者の発声した前記第1の言語の内容を音声情報に基づいて認識するステップと、
    前記発話者が前記第1の言語を発話する際の調音器官の形状を認識するステップと、
    前記音声情報に基づく認識の結果と前記調音器官形状の認識結果との少なくとも一方に基づいて、前記発話者の発声した第1の言語の内容を認識するステップとを含む、請求項7記載の翻訳方法。
  11. 前記画像を合成するステップは、前記第1の言語の内容の認識結果に応じて、前記データベースに格納された情報と前記発話者の画像の特徴とに基づいて、前記画像を合成する、請求項9または10記載の翻訳方法。
  12. 前記画像を合成するステップは、前記発話者の前記第2の言語の発話に応じて変形する部分を前記翻訳手段の翻訳結果に応じて合成し、さらに発話に応じて変形しない部分と合成するステップを含む、請求項11記載の翻訳方法。
  13. 前記発話者の画像の特徴は、前記発話者の顔の向きである、請求項11記載の翻訳方法。
  14. 発話者の発声した第1の言語の内容を認識するステップと、
    認識された結果に基づいて、前記第1の言語を第2の言語に翻訳し、前記第2の言語の翻訳結果の発話に対応する時系列の音素の情報および各前記音素の継続長に関する情報を出力するステップと、
    翻訳された結果に基づいて、第2の言語での発話に対応する音声を合成するステップと、
    前記第2の言語の母音の音素および視覚素と前記第2の言語を発話する際の少なくとも調音器官の形状を数値表現したデータとを対応付けたデータベースと前記翻訳結果とに基づいて、前記第2の言語での発話に対応する少なくとも調音器官の動きを表現するための画像を合成するステップを備え、
    前記調音器官の形状を数値表現したデータは、前記第1の言語を発話する前記発話者についてのサンプリングにより得られた前記発話者の顔画像を表現するためのデータ、ならびに、前記第2の言語の母音の音素および視覚素の発話にそれぞれ対応して変形する前記調音器官の形状の変化を予め抽出した形状変化データに基づいて、前記第2の言語の母音の音素および視覚素と対応させた顔画像を表現するための顔画像データを含み
    前記記憶手段に格納された情報に基づいて、前記時系列の音素のそれぞれに対応する前記発話者の複数の顔画像データを抽出するステップと、
    前記複数の顔画像データ間を補間する形状の画像データを所定の時間間隔で生成するステップと、
    前記合成された音声と前記抽出された顔画像データと補間された前記画像データにより合成された画像とを同期して出力するステップをさらに有する翻訳方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読取り可能な媒体。
  15. 前記身体の所定の動作と当該動作を数値表現したデータは、身体の個性の影響を除いた正規化された形状に対応するデータである、請求項14記載のコンピュータ読取り可能な媒体。
JP2000288601A 2000-09-22 2000-09-22 翻訳装置、翻訳方法および媒体 Expired - Fee Related JP4011844B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000288601A JP4011844B2 (ja) 2000-09-22 2000-09-22 翻訳装置、翻訳方法および媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000288601A JP4011844B2 (ja) 2000-09-22 2000-09-22 翻訳装置、翻訳方法および媒体

Publications (2)

Publication Number Publication Date
JP2002099295A JP2002099295A (ja) 2002-04-05
JP4011844B2 true JP4011844B2 (ja) 2007-11-21

Family

ID=18772167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000288601A Expired - Fee Related JP4011844B2 (ja) 2000-09-22 2000-09-22 翻訳装置、翻訳方法および媒体

Country Status (1)

Country Link
JP (1) JP4011844B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014046401A1 (ko) * 2012-09-18 2014-03-27 Kim Sang Cheol 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
US9749494B2 (en) 2013-07-23 2017-08-29 Samsung Electronics Co., Ltd. User terminal device for displaying an object image in which a feature part changes based on image metadata and the control method thereof

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4526934B2 (ja) * 2004-11-24 2010-08-18 日本電信電話株式会社 調音運動の正規化を用いた音声合成方法および装置
JP2013045282A (ja) * 2011-08-24 2013-03-04 Kyushu Institute Of Technology コミュニケーション支援システム
KR20140146965A (ko) * 2013-06-18 2014-12-29 삼성전자주식회사 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
WO2017072915A1 (ja) * 2015-10-29 2017-05-04 株式会社日立製作所 視覚情報と聴覚情報の同期方法および情報処理装置
KR102306844B1 (ko) * 2018-03-29 2021-09-29 네오사피엔스 주식회사 비디오 번역 및 립싱크 방법 및 시스템
CN109635774B (zh) * 2018-12-21 2022-09-13 中山大学 一种基于生成对抗网络的人脸合成方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014046401A1 (ko) * 2012-09-18 2014-03-27 Kim Sang Cheol 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
US9372852B2 (en) 2012-09-18 2016-06-21 Sang Cheol KIM Device and method for changing lip shapes based on automatic word translation
US9749494B2 (en) 2013-07-23 2017-08-29 Samsung Electronics Co., Ltd. User terminal device for displaying an object image in which a feature part changes based on image metadata and the control method thereof

Also Published As

Publication number Publication date
JP2002099295A (ja) 2002-04-05

Similar Documents

Publication Publication Date Title
Hueber et al. Development of a silent speech interface driven by ultrasound and optical images of the tongue and lips
US5884267A (en) Automated speech alignment for image synthesis
US8131551B1 (en) System and method of providing conversational visual prosody for talking heads
JP3664474B2 (ja) 視覚的スピーチの言語透過的合成
US8200493B1 (en) System and method of providing conversational visual prosody for talking heads
JP6206960B2 (ja) 発音動作可視化装置および発音学習装置
US20070213987A1 (en) Codebook-less speech conversion method and system
JP5039865B2 (ja) 声質変換装置及びその方法
JP7069386B1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
KR20150076128A (ko) 3차원 멀티미디어 활용 발음 학습 지원 시스템 및 그 시스템의 발음 학습 지원 방법
JP5040778B2 (ja) 音声合成装置、方法及びプログラム
KR20080018408A (ko) 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을기록한 컴퓨터에서 읽을 수 있는 기록매체
JP4011844B2 (ja) 翻訳装置、翻訳方法および媒体
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
Heracleous et al. Analysis and recognition of NAM speech using HMM distances and visual information
Hueber et al. Phone recognition from ultrasound and optical video sequences for a silent speech interface.
KR100754430B1 (ko) 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체
Karpov et al. A framework for recording audio-visual speech corpora with a microphone and a high-speed camera
Karpov et al. Designing a multimodal corpus of audio-visual speech using a high-speed camera
JP4769086B2 (ja) 声質変換吹替システム、及び、プログラム
Karpov et al. Audio-visual speech asynchrony modeling in a talking head
JP2020091559A (ja) 表情認識装置、表情認識方法、およびプログラム
Weiss A Framework for Data-driven Video-realistic Audio-visual Speech-synthesis.
JP4530134B2 (ja) 音声合成装置、声質生成装置及びプログラム
JP2024102698A (ja) アバター動作制御装置およびアバター動作制御方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050817

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050922

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070906

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees