JP2002099295A - 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体 - Google Patents

翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体

Info

Publication number
JP2002099295A
JP2002099295A JP2000288601A JP2000288601A JP2002099295A JP 2002099295 A JP2002099295 A JP 2002099295A JP 2000288601 A JP2000288601 A JP 2000288601A JP 2000288601 A JP2000288601 A JP 2000288601A JP 2002099295 A JP2002099295 A JP 2002099295A
Authority
JP
Japan
Prior art keywords
image
language
translation
synthesizing
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000288601A
Other languages
English (en)
Other versions
JP4011844B2 (ja
Inventor
Kazumasa Murai
和昌 村井
Makoto Ogata
信 緒方
Shigeo Morishima
繁生 森島
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Original Assignee
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI GENGO TSUSHIN KENKYU, ATR Spoken Language Translation Research Laboratories filed Critical ATR ONSEI GENGO TSUSHIN KENKYU
Priority to JP2000288601A priority Critical patent/JP4011844B2/ja
Publication of JP2002099295A publication Critical patent/JP2002099295A/ja
Application granted granted Critical
Publication of JP4011844B2 publication Critical patent/JP4011844B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 音声と同時に発話者の画像も翻訳することが
可能な翻訳装置を提供する。 【解決手段】 音声認識部1104は、発話者の発声し
た第1の言語の内容を音声情報に基づいて認識し、音声
翻訳部1108は、音声認識結果に基づいて、第1の言
語を第2の言語に翻訳する。データ記憶部1120は、
第2の言語を発話する際の視覚素と第2の言語を発話す
る際の調音器官の形状を数値表現したデータとを対応付
けて格納しており、画像合成部1122は、翻訳結果と
データ記憶部1120中のデータとに基づいて、第2の
言語での発話に対応する調音器官の動きを表現するため
の画像を合成する。同期出力部1124は、音声合成部
1110で合成された音声と合成された画像とを受け
て、同期して出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、入力された音声
および画像に基づいて、入力された言語を他の言語に翻
訳するための翻訳装置および翻訳方法に関する。より特
定的には、本発明は、入力した音声および画像に基づい
て所望の言語への翻訳を行ない、翻訳した言語の音声お
よびそれに対応する画像を合成する翻訳装置および翻訳
方法に関する。
【0002】
【従来の技術】従来、発話者が話した話し言葉に基づい
て音声翻訳を行なう場合、入力された第1の言語(例え
ば、日本語)を認識し、これに対して言語解析を行なっ
た結果を第2の言語(例えば、英語)に翻訳し、翻訳し
た結果に基づいて第2の言語の音声を合成するというこ
とが行なわれている。
【0003】さらに、文献1:Nick Campbell, Alan W.
Black著 「Chatr:a multi-lingualspeech re-sequenci
ng synthesis system」電子情報通信学会信学技報、sp9
6-7,pp.45-, 1996には、入力した第1の言語の音声の声
の特徴を認識し、その認識結果に基づいて第2の言語を
合成することにより、発話者が第2の言語を発話する場
合に近い音声翻訳を実現するための技術が開示されてい
る。この文献1に開示された技術によれば、より自然な
音声翻訳を実現する事ができる。
【0004】
【発明が解決しようとする課題】上述したような自動翻
訳は、翻訳結果をあくまでコンピュータにおける合成処
理の結果として外部に出力するものである。このとき、
コンピュータと人間とのコミュニケーションを円滑に行
なうには、人と人とが直接対話しているような環境を実
現することが理想的である。また、このような人と人と
の会話の理解において、唇の動きは、特に重要な役割を
果たしていると考えられる。
【0005】しかしながら、上述した文献1に開示され
た技術では、音声が合成されるのみであり、発話者の顔
画像、特に、唇等の動きを翻訳することはできなかっ
た。
【0006】これに対して、米国特許5,826,23
4(発明者:Bertil Lyberg, 出願日:1996年12
月5日, 発明の名称:「合成された話し言葉および対
応する表情の動きを生成する音響画像に吹き替えを行な
うための装置および方法(DEVICE AND METHOD FOR DUBB
ING AN AUDIO-VISUAL PRESENTATION WHICH GENERATESSY
NTHESIZED SPEECH AND CORRESPONDING FACIAL MOVEMENT
S)」では、発話者が第1の言語を発話している画像を
あらかじめ記録し、第1の言語を発話中の音素と表情と
の関連に基づいて、第2の言語の発話画像を合成する方
法が開示されている。
【0007】この方法によれば、発話者の音声のみなら
ず、顔画像も翻訳することが可能となり、発話者が第2
の言語を発話しているのに近い音声及び画像の翻訳が可
能になる。つまり、発話中の画像に基づくため、表情な
どが翻訳結果の出力に反映されるので、音声のみの場合
に比較すれば、より自然なコミュニケーションを実現で
きることが期待される。
【0008】しかしながら、たとえば、日本語を英語に
翻訳する場合を想定すると、英語には、現在の日本語に
存在しない音素、たとえば、/th/, /f/, /v/,/l/,/r/,/
ae/などがある。つまり、日本語と英語では、母音およ
び子音の種類に大きな開きがある。したがって、英語の
発話中の顔の動きには、日本語の発話中には存在しない
動きであって、外見上も明らかに異なるものが多数存在
する。米国特許5826234に開示された技術に基づ
く場合は、これらの、第1の言語に存在しない発話にお
ける顔の動きは、第2の言語の発話における顔の動きに
翻訳することができない。
【0009】また、逆に、英語を日本語に翻訳する場
合、表記上は同じ子音であっても、実際の英語の発話に
おける顔の動きは、日本語を発話する場合に比べると大
きい事が知られており、英語の発話画像に基づいて日本
語の発話画像を合成すると、動きが大きくなりすぎると
いう問題がある。
【0010】さらに、記録した音素とは異なる順序で合
成する際には、一般的には画像が連続しないために、上
記米国特許5,826,234に開示された技術を用い
れば、音声だけの場合に比べれば、コミュニケーション
がより自然に近くなる可能性があるものの、実際に人間
が発話するのを見る場合と比べれば、その動きがぎこち
ないものとなってしまう可能性があるという問題点があ
った。
【0011】この発明は、上記のような問題点を解決す
るためになされたものであって、その目的は、音声と同
時に発話者の画像も翻訳する際に、第1の言語から取得
することのできない情報を含め、音声及び画像を翻訳す
ることが可能な翻訳装置および翻訳方法を提供すること
である。
【0012】
【課題を解決するための手段】請求項1記載の翻訳装置
は、発話者の発声した第1の言語の内容を発話情報に基
づいて認識するための発話認識手段と、発話認識結果に
基づいて、第1の言語を第2の言語に翻訳する翻訳手段
と、翻訳手段の翻訳結果に基づいて、第2の言語での発
話に対応する音声を合成する音声合成手段と、第2の言
語を発話する際の音声の要素と第2の言語を発話する際
の少なくとも調音器官の形状を数値表現したデータとを
対応付けて格納するための記憶手段と、翻訳手段の翻訳
結果に基づいて、記憶手段に格納された情報に応じて、
第2の言語での発話に対応する少なくとも調音器官の動
きを表現するための画像を合成する画像合成手段と、音
声合成手段と画像合成手段の出力とを同期して出力する
出力手段とを備える。
【0013】請求項2記載の翻訳装置は、請求項1記載
の翻訳装置の構成に加えて、音声の要素は、視覚的に分
類した発話の要素である。
【0014】請求項3記載の翻訳装置は、請求項1記載
の翻訳装置の構成に加えて、発話認識手段は、発話者の
発声した第1の言語の内容を音声情報に基づいて認識す
るための音声認識手段を含む。
【0015】請求項4記載の翻訳装置は、請求項1記載
の翻訳装置の構成に加えて、発話認識手段は、発話者の
発声した第1の言語の内容を音声情報に基づいて認識す
るための音声認識手段と、発話者が第1の言語を発話す
る際の調音器官の形状を認識するための調音器官形状認
識手段と、音声認識手段の認識結果と調音器官形状認識
手段の認識結果との少なくとも一方に基づいて、発話者
の発声した第1の言語の内容を認識して、翻訳手段に与
えるための情報統合手段とを含む。
【0016】請求項5記載の翻訳装置は、請求項3また
は4記載の翻訳装置の構成に加えて、画像合成手段は、
発話認識手段の認識結果に応じて、記憶手段に格納され
た情報と発話者の画像の特徴とに基づいて、画像を合成
する。
【0017】請求項6記載の翻訳装置は、請求項5記載
の翻訳装置の構成に加えて、画像合成手段は、発話者の
第2の言語の発話に応じて変形する部分を翻訳手段の翻
訳結果に応じて合成し、さらに発話に応じて変形しない
部分と合成した上で出力する。
【0018】請求項7記載の翻訳装置は、請求項5記載
の翻訳装置の構成に加えて、発話者の画像の特徴は、発
話者の顔の向きである。
【0019】請求項8記載の画像合成装置は、身体の所
定の動作と、当該動作を数値表現したデータとを対応付
けて記憶する記憶手段と、所望の身体の特徴に基づい
て、記憶手段に記憶したデータを所望の身体に適合化す
るための係数を決定する変換係数決定手段と、数値表現
したデータを、係数により適合化する適合化手段と、適
合化したデータに基づいて、所望の身体に所定の動作を
させた動画像を合成する画像合成手段とを備える。
【0020】請求項9記載の画像合成装置は、請求項8
記載の画像合成装置の構成に加えて、身体の所定の動作
と当該動作を数値表現したデータは、身体の個性の影響
を除いた正規化された形状に対応するデータである。
【0021】請求項10記載の画像合成装置は、請求項
8記載の画像合成装置の構成に加えて、画像合成手段
は、所望の身体の一部の画像を、合成した動画像により
置き換えることで身体に所定の動作をさせた動画像を合
成する置換手段を含む。
【0022】請求項11記載の画像合成装置は、請求項
8または9記載の画像合成装置の構成に加えて、身体の
所定の動作は、発話動作である。
【0023】請求項12記載の画像合成装置は、請求項
10記載の画像合成装置の構成に加えて、身体の所定の
動作は、発話動作であり、所望の身体の一部の画像は、
調音器官の画像である。
【0024】請求項13記載の翻訳方法は、発話者の発
声した第1の言語の内容を認識するステップと、認識さ
れた結果に基づいて、第1の言語を第2の言語に翻訳す
るステップと、翻訳された結果に基づいて、第2の言語
での発話に対応する音声を合成するステップと、第2の
言語を発話する際の音声の要素と第2の言語を発話する
際の少なくとも調音器官の形状を数値表現したデータと
を対応付けたデータベースと、翻訳結果に基づいて、第
2の言語での発話に対応する少なくとも調音器官の動き
を表現するための画像を合成するステップと、合成され
た音声と合成された画像とを、同期して出力するステッ
プとを備える。
【0025】請求項14記載の翻訳方法は、請求項13
記載の翻訳方法の構成に加えて、音声の要素は、視覚的
に分類した発話の要素である。
【0026】請求項15記載の翻訳方法は、請求項13
記載の翻訳方法の構成に加えて、データベースに格納す
るための第2の言語を発話する際の少なくとも調音器官
の形状を数値表現したデータを、発話者の個性の影響を
除いて正規化された形状に対応するデータにするステッ
プをさらに備える。
【0027】請求項16記載の翻訳方法は、請求項13
記載の翻訳方法の構成に加えて、発話者の発声した第1
の言語の内容を認識するステップは、発話者の発声した
第1の言語の内容を音声情報に基づいて認識するステッ
プを含む。
【0028】請求項17記載の翻訳方法は、請求項13
記載の翻訳方法の構成に加えて、発話者の発声した第1
の言語の内容を認識するステップは、発話者の発声した
第1の言語の内容を音声情報に基づいて認識するステッ
プと、発話者が第1の言語を発話する際の調音器官の形
状を認識するステップと、音声情報に基づく認識の結果
と調音器官形状の認識結果との少なくとも一方に基づい
て、発話者の発声した第1の言語の内容を認識するステ
ップとを含む。
【0029】請求項18記載の翻訳方法は、請求項16
または17記載の翻訳方法の構成に加えて、画像を合成
するステップは、第1の言語の内容の認識結果に応じ
て、データベースに格納された情報と発話者の画像の特
徴とに基づいて、画像を合成する。
【0030】請求項19記載の翻訳方法は、請求項18
記載の翻訳方法の構成に加えて、画像を合成するステッ
プは、発話者の第2の言語の発話に応じて変形する部分
を翻訳手段の翻訳結果に応じて合成し、さらに発話に応
じて変形しない部分と合成するステップを含む。
【0031】請求項20記載の翻訳方法は、請求項18
記載の翻訳方法の構成に加えて、発話者の画像の特徴
は、発話者の顔の向きである。
【0032】請求項21記載の画像合成方法は、身体の
所定の動作と、当該動作を数値表現したデータとを対応
付けて記憶するステップと、所望の身体の特徴に基づい
て、記憶手段に記憶したデータを所望の身体に適合化す
るための係数を決定するステップと、数値表現したデー
タを、係数により適合化するステップと、適合化したデ
ータに基づいて、所望の身体に所定の動作をさせた動画
像を合成するステップとを備える。
【0033】請求項22記載の画像合成方法は、請求項
21記載の画像合成方法の構成に加えて、身体の所定の
動作と当該動作を数値表現したデータは、身体の個性の
影響を除いた正規化された形状に対応するデータであ
る。
【0034】請求項23記載の画像合成方法は、請求項
21記載の画像合成方法の構成に加えて、画像を合成す
るステップは、所望の身体の一部の画像を、合成した動
画像により置き換えることで身体に所定の動作をさせた
動画像を合成するステップを含む。
【0035】請求項24記載の画像合成方法は、請求項
21または22記載の画像合成方法の構成に加えて、身
体の所定の動作は、発話動作である。
【0036】請求項25記載の画像合成方法は、請求項
23記載の画像合成方法の構成に加えて、身体の所定の
動作は、発話動作であり、所望の身体の一部の画像は、
調音器官の画像である。
【0037】請求項26記載のコンピュータ読取り可能
な媒体は、発話者の発声した第1の言語の内容を認識す
るステップと、認識された結果に基づいて、第1の言語
を第2の言語に翻訳するステップと、翻訳された結果に
基づいて、第2の言語での発話に対応する音声を合成す
るステップと、第2の言語を発話する際の音声の要素と
第2の言語を発話する際の少なくとも調音器官の形状を
数値表現したデータとを対応付けたデータベースと翻訳
結果とに基づいて、第2の言語での発話に対応する少な
くとも調音器官の動きを表現するための画像を合成する
ステップと、合成された音声と合成された画像とを同期
して出力するステップとを有する翻訳方法をコンピュー
タに実行させるためのプログラムを記録している。
【0038】請求項27記載のコンピュータ読取り可能
な媒体は、請求項26記載のコンピュータ読取り可能な
媒体の構成に加えて、音声の要素は、視覚的に分類した
発話の要素である。
【0039】請求項28記載のコンピュータ読取り可能
な媒体は、請求項26記載のコンピュータ読取り可能な
媒体の構成に加えて、身体の所定の動作と当該動作を数
値表現したデータは、身体の個性の影響を除いた正規化
された形状に対応するデータである。
【0040】請求項29記載のコンピュータ読取り可能
な媒体は、身体の所定の動作と、当該動作を数値表現し
たデータとを対応付けて記憶するステップと、所望の身
体の特徴に基づいて、記憶手段に記憶したデータを所望
の身体に適合化するための係数を決定するステップと、
数値表現したデータを、係数により適合化するステップ
と、適合化したデータに基づいて、所望の身体に所定の
動作をさせた動画像を合成するステップとを備える画像
合成方法をコンピュータに実行させるためのプログラム
を記録している。
【0041】請求項30記載のコンピュータ読取り可能
な媒体は、請求項29記載のコンピュータ読取り可能な
媒体の構成に加えて、身体の所定の動作と当該動作を数
値表現したデータは、身体の個性の影響を除いた正規化
された形状に対応するデータである。
【0042】請求項31記載のコンピュータ読取り可能
な媒体は、請求項29記載のコンピュータ読取り可能な
媒体の構成に加えて、画像を合成するステップは、所望
の身体の一部の画像を、合成した動画像により置き換え
ることで身体に所定の動作をさせた動画像を合成するス
テップを含む。
【0043】請求項32記載のコンピュータ読取り可能
な媒体は、請求項29または30記載のコンピュータ読
取り可能な媒体の構成に加えて、身体の所定の動作は、
発話動作である。
【0044】請求項33記載のコンピュータ読取り可能
な媒体は、請求項31記載のコンピュータ読取り可能な
媒体の構成に加えて、身体の所定の動作は、発話動作で
あり、所望の身体の一部の画像は、調音器官の画像であ
る。
【0045】請求項34記載の媒体は、前身体の所定の
動作動作を数値表現し、かつ身体の個性の影響を除いた
正規化された形状に対応するデータを、コンピュータが
読み取り可能なように記録している。
【0046】
【発明の実施の形態】[実施の形態1]図1は、本発明
の実施の形態1の翻訳装置100の構成を説明するため
の概略ブロック図である。
【0047】なお、以下の説明では、第1の言語が日本
語であり、第2の言語が英語である場合を例として説明
するが、以下の説明で明らかとなるように、本発明はこ
のような場合に限定されることなく、他の言語の組合せ
の相互間の翻訳にも適用することが可能なものである。
【0048】図1を参照して、翻訳装置100は、発話
者2が発声した第1の言語についての音声を取得するた
めのマイクロフォン102と、発話者2が第1の言語を
発生する際の画像を撮影するためのカメラ104と、マ
イクロフォン102およびカメラ104からの出力を受
けて、発話者2が発音した文章に対応する音声情報およ
び画像情報を処理して、第1の言語の内容を解析し、当
該内容に相当する第2の言語に翻訳した上で、第2の言
語の発話に対応する音声および画像を合成するためのコ
ンピュターシステム110と、コンピュターシステム1
10により合成された第2言語の発話に対応する音声を
出力するためのスピーカ120と、コンピュターシステ
ム110により合成された第2言語の発話に対応する画
像を出力するための表示装置(ディスプレイ)130と
を備える。
【0049】コンピュターシステム110は、マイクロ
フォン102、カメラ104、スピーカ120および表
示装置130との間でデータの授受を行なうためのデー
タ入出力部1102と、マイクロフォン102からデー
タ入出力部1102を介して与えられる音声信号に基づ
いて、発話者2の発声した文章をそれに含まれる音韻情
報に分離解析し、さらに言語解析することで第1の言語
での発話の内容を認識するための音声認識部1104
と、音声認識部1104で認識された第1の言語での発
話の内容を、第2の言語での発話情報に変換するための
音声翻訳部1108と、音声翻訳部1108の翻訳結果
を受けて第2の言語での発話に対応する音声を合成する
ための音声合成部1110と、後に説明するように、第
2の言語での音声情報とそれに対応する画像情報とを格
納するためのデータ記憶部1120と、音声翻訳部11
08からの翻訳結果とデータ記憶部1120に格納され
た情報とに基づいて、発話者2が第2の言語で発話する
際の画像を合成するための画像合成部1122と、音声
合成部1110の出力と画像合成部1122の出力とを
受けて、第2の言語での発話のタイミングに両者を同期
させるための同期出力部1124とを備える。
【0050】同期出力部1124からの出力は、データ
入出力部1102を介して、表示装置130およびスピ
ーカ120とにそれぞれ出力される。
【0051】なお、カメラ104により撮影された発話
者2の画像、たとえば、発話者2の無発声状態での顔部
分の画像は、データ入出力部1102を介して、初期デ
ータとして、データ記憶部1120に格納されているも
のとする。
【0052】[翻訳装置100の動作]図2は、図1に
示した翻訳装置100の動作を説明するためのフローチ
ャートである。
【0053】図2を参照して、まず、翻訳装置100
は、処理を開始すると(ステップS100)、発話者2
の第1の言語での画像および発話された音声を、カメラ
104およびマイクロフォン102から入力として受け
取る(ステップS102)。
【0054】続いて、音声認識部1104が、マイクロ
フォン102から入力された音声信号に基づいて、発話
者2が発声した文章をそれに含まれる音韻情報に分離解
析し、さらに言語解析することで第1の言語での発話の
内容を認識する(ステップS104)。
【0055】さらに、音声翻訳部1108は、音声認識
部1104で認識された第1の言語の内容を第2の言語
の内容に変換する(ステップS110)。
【0056】音声合成部1110は、音声翻訳部110
8から与えられる第2の言語の内容に基づいて、対応す
る第2の言語での発話に対応する音声情報を合成する。
このとき、予め収集しておいた発話者2の音声情報の特
徴に基づいて、合成される音声の特徴を発話者2の特徴
を持ったものとすることができる(ステップS11
2)。たとえば、発話者の声の高低や、性別による音色
の差異などの特徴を再現することが可能である。
【0057】一方、画像合成部1122は、音声翻訳部
1108から出力され、音声合成においても使用され
る、第2の言語での発話の音素の情報および各音素の継
続長に関する情報に基づいて、これに対応する一般化さ
れた調音器官(唇、歯、舌、口腔の形状等)の情報をデ
ータ記憶部1120から取得する(ステップS11
4)。
【0058】さらに、画像合成部1122は、この一般
化された調音器官の情報に基づいて、第2の言語での発
話における音素の順序、継続長に適合するような時系列
に従って、たとえば、顔画像の一般化された画像モデル
を生成する。ここで、後に説明するように、特に限定さ
れないが、このような顔画像の一般化された画像モデル
としては、3次元的な顔画像に対するワイヤーフレーム
モデルを用いることができる。さらに、画像合成部11
22は、このようにして生成された画像モデルを発話者
2の画像に適合するように変形した上で、さらに、発話
者2の実際の顔画像に相当するようにテクスチャマッピ
ングを行なって、発話者2が第2の言語を発話する際の
顔画像を合成する(ステップS116)。
【0059】同期出力部1124は、音声合成部111
0の出力と画像合成部1122の出力とを受けて、第2
の言語での発話のタイミングに両者を同期させて出力す
る。この同期出力部1124からの出力は、データ入出
力部1102を介して、表示装置130およびスピーカ
120からそれぞれ顔画像および音声として出力される
(ステップS118)。
【0060】以上で、発話者2の発生した文章に対する
翻訳装置100の処理が終了する(ステップS12
0)。
【0061】[一般化された顔画像モデル]図3は、上
述したような一般化された顔画像モデルを表現するため
の3次元ワイヤーフレームモデルの一例を示す図であ
り、図3(a)は、この3次元ワイヤーフレームモデル
の正面図であり、図3(b)は側面図である。
【0062】このような3次元ワイヤーフレームモデル
は、たとえば、発話者が発声する第1の言語について、
その音声とそれに対応する顔画像のデータを予め複数サ
ンプリングしておき、それに基づいて生成することがで
きる。
【0063】このとき、発話者の顔画像の複数の特徴点
(目頭・目じりの位置、口の両端の位置など)を、予め
定められた基準位置となるように変形して、この顔画像
を特定の発話者の個性に依存しないように正規化処理し
ておく。
【0064】このように、正規化された顔画像について
の3次元ワイヤーフレームモデルを、第2の言語の「母
音の音素」と「視覚素」ごとに予め設定しておく。
【0065】ここで、「視覚素(以下、音素”phonem
e”に対応する造語として”viseme”と呼ぶ)」とは、
話し手の口の形状を見るだけでは区別することができな
いが、発声された音を聞けば区別することができる子音
のことをいう。つまり、「視覚素」とは、視覚的に分類
した発話の要素ということができる。たとえば、音素の
集合{/b/, /p/, /m/}や{/k/, /g/}や{/s/, /z/}
の各々は、それぞれ1つの「視覚素(viseme)」に対応
する。
【0066】顔画像のサンプリングは、一般には、発話
者の第1の言語(たとえば、母国語)について行なわれ
るので、第2の言語のすべての「母音の音素」と「視覚
素」とについて、上述したような3次元ワイヤーフレー
ムモデルを予め設定しておくためには、以下のような手
順が考えられる。
【0067】たとえば、第1には、第1の言語について
サンプリングされた3次元ワイヤーフレームモデルに基
づいて、音韻学上、一般的に、その「視覚素」等に対応
する発音をする場合の調音器官の形状に一致するように
変形した3次元ワイヤーフレームモデルの座標を抽出し
ておくという方法である。
【0068】あるいは、第2には、第2の言語につい
て、複数の発話者の「母音の音素」および「視覚素」
と、調音器官の形状の形状変化をサンプリングした上
で、平均的な変化のデータを求めておき、これに対応す
るように3次元ワイヤーフレームモデルの座標を抽出し
ておくことも可能である。
【0069】なお、以上の説明では、第2の言語を発話
する際の顔画像を合成するために、3次元ワイヤーフレ
ームモデルを用いることとしたが、顔画像を数値の集合
として表現し、その数値の集合から顔画像を逆に合成で
きるのであれば、モデルとしては、3次元ワイヤーフレ
ームモデルに限定されるものではない。
【0070】図4は、データ記憶部1120に記憶され
る一般化された顔画像情報の一例を示す概念図である。
【0071】すなわち、図4に示すように、データ記憶
部1120には、以上のようにして抽出された、「母音
の音素」および「視覚素」とこれに対応する顔画像を表
現するための3次元ワイヤーフレームモデルの座標(よ
り一般的には、顔画像を表現するための数値データ)を
対応させたテーブルが格納されている。
【0072】図4においては、第1の言語(日本語)に
ついてのテーブルと第2の言語(英語)についてのテー
ブルの双方が格納されているものとしている。したがっ
て、図4に示すような2つのテーブルがあれば、上述し
たように、発話者2の発話に基づいて日本語から英語へ
の翻訳を行なう場合だけでなく、他の発話者の発話に基
づいて英語から日本語への翻訳を行なう場合の処理を行
なうことも可能である。
【0073】また、もちろん、他の言語についてのテー
ブルが準備されていれば、他の言語との間での翻訳に伴
う処理を行なうことも可能である。
【0074】[顔画像の合成]図5は、翻訳された文章
の音声情報の構成の一例を説明するための概念図であ
る。
【0075】図5に示した例では、第1の言語である日
本語の文章から第2の言語である英語の文章の"I have
a red pen"という文章への変換が行なわれた場合を例と
して挙げている。
【0076】音声言語は、図5に示すように階層性を有
しており、文章は、単語、音節(母音と子音とで形成す
る単位)、音素(各子音、各母音)という風に細分化さ
れる。
【0077】したがって、音声翻訳部1108により翻
訳された結果のデータとしては、このような連続した音
素と、各音素についての継続長(音の時間的長さ)から
なる時系列的なデータが得られることになる。
【0078】図6は、音声翻訳部1108から出力され
るデータに基づいて、顔画像を合成する手続きを説明す
るための図である。
【0079】上述の通り、音声翻訳部1108におい
て、音素とのその継続長により翻訳後の第2の文章の発
話が表現される。
【0080】画像合成部1122は、図4に示したよう
なデータ記憶部1120に格納されたテーブルを参照す
ることにより、このような音素の並びを、上述した視覚
素の並びに変換する。
【0081】次に、画像合成部1122は、各視覚素の
先頭の時刻(図6中の矢印)において、それぞれの視覚
素に対応する3次元ワイヤーフレームモデルの座標を抽
出する。
【0082】さらに、画像合成部1122は、上述のよ
うな各視覚素の先頭の時刻に対応する3次元ワイヤーフ
レームモデルの形状同士の間を補間するような形状を、
たとえば、所定の時間間隔毎に生成する。
【0083】その上で、画像合成部1122は、形成さ
れた連続的な3次元ワイヤーフレームモデルの表面に、
顔画像のテキスチャをマッピングする。このテキスチャ
マッピングは、特に限定されないが、例えば、カメラ1
04により撮影された発話者2の初期画像に基づいて行
なうことが可能である。
【0084】以上のように合成された顔画像が、同期出
力部1124から合成された第2の言語の音声と同期し
て出力される。
【0085】なお、図6においては、各視覚素の先頭の
時刻について、対応する3次元ワイヤーフレームモデル
を当てはめる構成としているが、必ずしもこのような場
合に限定されることなく、視覚素の中の他の時点を基準
とすることも可能である。
【0086】図7および図8は、このようにして同期出
力部1124から出力され、表示装置130に出力され
る顔画像の例を示す概念図である。
【0087】図7は、口を閉じた状態の子音、例えば、
/m/の視覚素に対応する画像であり、図8は、口を開け
た状態の例えば、母音の発音に対応する画像であるもの
とする。
【0088】このとき、各視覚素ごとに3次元ワイヤー
フレームモデルを合成することも可能である。この場合
は、発話に伴って、顔の向きや方向が変化するようなジ
ェスチャを伴う場合にも、そのような画像を合成するこ
とが可能である。
【0089】さらには、3次元ワイヤーフレームモデル
(より一般的には、画像を表現するための数値データ)
により発話者の体全体のデータを抽出しておけば、体全
体のジェスチャも合成することが可能である。
【0090】あるいは、図7および図8に示すように、
図中の点線よりも上の画像は固定としておき、点線より
も下の画像のみを、視覚素に対応して変化させつつ、合
成することも可能である。
【0091】さらには、顔画像のうち、口の部分のみを
合成して、他の部分は固定して表示することや、口の部
分のみを取り出して合成し表示することなども可能であ
る。
【0092】また、このようにして合成される顔の画像
は、必ずしも発話者2自身の顔の特徴に適合させておく
必要はない。ただし、発話者2の顔の形状に適合するよ
うに変形した画像を合成する場合は、顔画像の合成プロ
セスの最初に3次元ワイヤーフレームの形状を発話者2
の顔の形状に適合するように変形させておき、変形した
ワイヤーフレームにデータ記憶部1120に格納された
テーブルに基づいた動きを加え、さらに、必要に応じ
て、顔の位置と方向の情報により1次変換した後に、ワ
イヤーフレームに発話者2自身の顔画像に基づくテキス
チャマッピングを行なうという手続きで実現可能であ
る。
【0093】なお、データ記憶部1120には、正規化
された身体の所定の動作の画像と、当該動作画像を数値
表現したデータとを対応付けて記憶させておき、所望の
身体、たとえば、発話者2の身体の特徴に基づいて、記
憶された数値表現データをこの所望の身体に適合化する
ための係数を予め決定しておき、画像合成部1122
は、数値表現したデータをこのような係数により適合化
した上で、所望の身体に所定の動作をさせた身体全体の
動画像、身体の一部の動画像を合成するという構成にす
ることも可能である。あるいは、身体の動画像の一部は
固定しておき、残りの部分についてのみ、発話情報に基
づいて合成した上で、全体としての動画像を合成するこ
とも可能である。
【0094】以上のような構成とすることで、音声と同
時に発話者の画像も翻訳する際に、第1の言語から取得
することのできない情報を含め、音声及び画像を第2の
言語に翻訳することができ、より自然なコミュニケーシ
ョンをとることが可能となる。
【0095】[実施の形態2]図9は、本発明の実施の
形態2の翻訳装置200の構成を説明するための概略ブ
ロック図である。
【0096】図1に示した実施の形態1の翻訳装置10
0の構成と異なる点は、以下のとおりである。
【0097】翻訳装置100においては、マイクロフォ
ン102から入力される音声情報に基づいて、発話者2
の発声した第1の言語の文章の内容を認識する構成であ
った。これに対して、翻訳装置200においては、発話
者2の第1の言語で文章を発生する際の発話者の調音器
官の形状変化、特に唇周辺部分の形状の変化に基づいて
も、第1の言語での文章の内容の認識を行なう構成とな
っている。
【0098】すなわち、翻訳装置200は、データ入出
力部1102からのカメラ104の画像情報を受けて、
発話者2の調音器官表皮の形状、たとえば、唇、唇の周
辺部分、頬の部分、のどの部分などの特徴部分の形状変
化を検知し、データ記憶部1120に格納されたこれら
特徴部分の形状変化と視覚素との対応関係に基づいて、
画像情報に基づく音声認識結果を出力する読唇部110
5と、音声認識部1104からの音声情報の認識結果と
読唇部1105での認識結果とを受けて、両者の情報を
統合し、音声認識結果を出力する情報統合部1106と
をさらに備える。
【0099】このような構成とすれば、発話者2の調音
器官の形状変化の情報も音声情報に加えて、あるいは、
場合によっては調音器官の形状変化の情報のみに基づい
て、音声認識を行なうことができ、たとえば、周囲の雑
音が大きいような環境においても、音声認識の精度を維
持することが可能となる。
【0100】図10は、図9に示した翻訳装置200の
動作を説明するためのフローチャートである。
【0101】図9を参照して、まず、翻訳装置200
は、処理を開始すると(ステップS100)、発話者2
の第1の言語での画像および発話された音声を、カメラ
104およびマイクロフォン102から入力として受け
取る(ステップS102)。
【0102】続いて、音声認識部1104が、マイクロ
フォン102から入力された音声信号に基づいて、発話
者2が発声した文章をそれに含まれる音韻情報に分離解
析し、さらに言語解析することで第1の言語での発話の
内容を認識する(ステップS104)。
【0103】一方、読唇部1105は、カメラ104か
らの画像情報を受けて、発話者2の調音器官表皮の形状
変化を検出し、データ記憶部1120に格納されたこれ
らの形状変化と視覚素との対応関係に基づいて、画像情
報に基づく音声認識を行なう(ステップS106)。
【0104】情報統合部1106は、音声認識部110
4および読唇部1105での認識結果に基づいて、音声
認識結果を出力する(ステップS108)。
【0105】さらに、音声翻訳部1108は、情報統合
部1106で認識された第1の言語の内容を第2の言語
の内容に変換する(ステップS110)。
【0106】以下の処理は、図2に示した実施の形態1
の処理と同様であるので、その説明は繰り返さない。
【0107】以上のような構成により、実施の形態1の
翻訳装置100の奏する効果に加えて、翻訳装置200
は、雑音環境下などでも処理精度を向上させることが可
能である。
【0108】なお、以上の説明では、翻訳装置としての
構成を説明したが、本発明はこのような場合に限定され
ることなく、以上説明したような翻訳方法を実行するた
めのソフトウェアを記録した記録媒体を用いることで、
画像入出力機能と音声入出力機能を備えたパーソナルコ
ンピュータ等によりこのソフトウェアを実行させること
で実現可能なものである。
【0109】さらに、以上説明したような翻訳方法を実
行するためのソフトウェアは、記録媒体としてパーソナ
ルコンピュータ等にインストールされる場合だけでな
く、インターネット等の電気通信回線を通じて、画像入
出力機能と音声入出力機能を備えたパーソナルコンピュ
ータ等にこのソフトウェアをインストールすることによ
っても実現可能である。
【0110】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。
【0111】
【発明の効果】以上説明したとおり、本発明によれば、
音声と同時に発話者の画像も翻訳する際に、第1の言語
から取得することのできない情報を含め、音声及び画像
を第2の言語に翻訳することができ、より自然なコミュ
ニケーションをとることが可能となる。
【図面の簡単な説明】
【図1】 本発明の実施の形態1の翻訳装置100の構
成を説明するための概略ブロック図である。
【図2】 図1に示した翻訳装置100の動作を説明す
るためのフローチャートである。
【図3】 一般化された顔画像モデルを表現するための
3次元ワイヤーフレームモデルの一例を示す図であり、
図3(a)は、この3次元ワイヤーフレームモデルの正
面図であり、図3(b)は側面図である。
【図4】 データ記憶部1120に記憶される一般化さ
れた顔画像情報の一例を示す概念図である。
【図5】 翻訳された文章の音声情報の構成の一例を説
明するための概念図である。
【図6】 音声翻訳部1108から出力されるデータに
基づいて、顔画像を合成する手続きを説明するための図
である。
【図7】 同期出力部1124から出力され、表示装置
130に出力される顔画像の例を示す第1の概念図であ
る。
【図8】 同期出力部1124から出力され、表示装置
130に出力される顔画像の例を示す第2の概念図であ
る。
【図9】 本発明の実施の形態2の翻訳装置200の構
成を説明するための概略ブロック図である。
【図10】 図9に示した翻訳装置200の動作を説明
するためのフローチャートである。
【符号の説明】
2 発話者、100 翻訳装置、102 マイクロフォ
ン、104 カメラ、110 コンピュータシステム、
120 スピーカ、130 表示装置、200翻訳装
置、1102 データ入出力部、1104 音声認識
部、1105 読唇部、1106 情報統合部、110
8 音声翻訳部、1110 音声合成部、1120 デ
ータ記憶部、1122 画像合成部、1124 同期出
力部。
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 13/06 G10L 5/04 E (72)発明者 緒方 信 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 (72)発明者 森島 繁生 東京都世田谷区野沢一丁目15番地2 (72)発明者 中村 哲 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 Fターム(参考) 5B050 BA08 CA07 EA19 EA24 EA26 FA02 FA10 5B057 AA20 BA02 CA12 CA16 CB12 CB16 CE08 5B091 AA05 CB12 CB24 CB32 5D015 AA01 AA05 BB01 BB02 DD02 JJ01 JJ02 KK04 LL11 5D045 AB03

Claims (34)

    【特許請求の範囲】
  1. 【請求項1】 発話者の発声した第1の言語の内容を発
    話情報に基づいて認識するための発話認識手段と、 発話認識結果に基づいて、前記第1の言語を第2の言語
    に翻訳する翻訳手段と、 前記翻訳手段の翻訳結果に基づいて、第2の言語での発
    話に対応する音声を合成する音声合成手段と、 前記第2の言語を発話する際の音声の要素と前記第2の
    言語を発話する際の少なくとも調音器官の形状を数値表
    現したデータとを対応付けて格納するための記憶手段
    と、 前記翻訳手段の翻訳結果に基づいて、前記記憶手段に格
    納された情報に応じて、前記第2の言語での発話に対応
    する少なくとも調音器官の動きを表現するための画像を
    合成する画像合成手段と、 前記音声合成手段と前記画像合成手段の出力とを同期し
    て出力する出力手段とを備える、翻訳装置。
  2. 【請求項2】 前記音声の要素は、視覚的に分類した発
    話の要素である、請求項1記載の翻訳装置。
  3. 【請求項3】 前記発話認識手段は、 前記発話者の発声した前記第1の言語の内容を音声情報
    に基づいて認識するための音声認識手段を含む、請求項
    1記載の翻訳装置。
  4. 【請求項4】 前記発話認識手段は、 前記発話者の発声した前記第1の言語の内容を音声情報
    に基づいて認識するための音声認識手段と、 前記発話者が前記第1の言語を発話する際の調音器官の
    形状を認識するための調音器官形状認識手段と、 前記音声認識手段の認識結果と前記調音器官形状認識手
    段の認識結果との少なくとも一方に基づいて、前記発話
    者の発声した第1の言語の内容を認識して、前記翻訳手
    段に与えるための情報統合手段とを含む、請求項1記載
    の翻訳装置。
  5. 【請求項5】 前記画像合成手段は、前記発話認識手段
    の認識結果に応じて、前記記憶手段に格納された情報と
    前記発話者の画像の特徴とに基づいて、前記画像を合成
    する、請求項3または4記載の翻訳装置。
  6. 【請求項6】 前記画像合成手段は、前記発話者の前記
    第2の言語の発話に応じて変形する部分を前記翻訳手段
    の翻訳結果に応じて合成し、さらに発話に応じて変形し
    ない部分と合成した上で出力する、請求項5記載の翻訳
    装置。
  7. 【請求項7】 前記発話者の画像の特徴は、前記発話者
    の顔の向きである、請求項5記載の翻訳装置。
  8. 【請求項8】 身体の所定の動作と、当該動作を数値表
    現したデータとを対応付けて記憶する記憶手段と、 所望の身体の特徴に基づいて、前記記憶手段に記憶した
    データを所望の身体に適合化するための係数を決定する
    変換係数決定手段と、 前記数値表現したデータを、前記係数により適合化する
    適合化手段と、 前記適合化したデータに基づいて、前記所望の身体に所
    定の動作をさせた動画像を合成する画像合成手段とを備
    える、画像合成装置。
  9. 【請求項9】 前記身体の所定の動作と当該動作を数値
    表現したデータは、身体の個性の影響を除いた正規化さ
    れた形状に対応するデータである、請求項8記載の画像
    合成装置。
  10. 【請求項10】 前記画像合成手段は、前記所望の身体
    の一部の画像を、合成した動画像により置き換えること
    で前記身体に所定の動作をさせた動画像を合成する置換
    手段を含む、請求項8記載の画像合成装置。
  11. 【請求項11】 前記身体の所定の動作は、発話動作で
    ある、請求項8または9記載の画像合成装置。
  12. 【請求項12】 前記身体の所定の動作は、発話動作で
    あり、前記所望の身体の一部の画像は、調音器官の画像
    である、請求項10記載の画像合成装置。
  13. 【請求項13】 発話者の発声した第1の言語の内容を
    認識するステップと、 認識された結果に基づいて、前記第1の言語を第2の言
    語に翻訳するステップと、 翻訳された結果に基づいて、第2の言語での発話に対応
    する音声を合成するステップと、 前記第2の言語を発話する際の音声の要素と前記第2の
    言語を発話する際の少なくとも調音器官の形状を数値表
    現したデータとを対応付けたデータベースと、前記翻訳
    結果に基づいて、前記第2の言語での発話に対応する少
    なくとも調音器官の動きを表現するための画像を合成す
    るステップと、 前記合成された音声と前記合成された画像とを、同期し
    て出力するステップとを備える、翻訳方法。
  14. 【請求項14】 前記音声の要素は、視覚的に分類した
    発話の要素である、請求項13記載の翻訳方法。
  15. 【請求項15】 前記データベースに格納するための前
    記第2の言語を発話する際の少なくとも調音器官の形状
    を数値表現したデータを、発話者の個性の影響を除いて
    正規化された形状に対応するデータにするステップをさ
    らに備える、請求項13記載の翻訳方法。
  16. 【請求項16】 前記発話者の発声した第1の言語の内
    容を認識するステップは、 前記発話者の発声した前記第1の言語の内容を音声情報
    に基づいて認識するステップを含む、請求項13記載の
    翻訳方法。
  17. 【請求項17】 前記発話者の発声した第1の言語の内
    容を認識するステップは、 前記発話者の発声した前記第1の言語の内容を音声情報
    に基づいて認識するステップと、 前記発話者が前記第1の言語を発話する際の調音器官の
    形状を認識するステップと、 前記音声情報に基づく認識の結果と前記調音器官形状の
    認識結果との少なくとも一方に基づいて、前記発話者の
    発声した第1の言語の内容を認識するステップとを含
    む、請求項13記載の翻訳方法。
  18. 【請求項18】 前記画像を合成するステップは、前記
    第1の言語の内容の認識結果に応じて、前記データベー
    スに格納された情報と前記発話者の画像の特徴とに基づ
    いて、前記画像を合成する、請求項16または17記載
    の翻訳方法。
  19. 【請求項19】 前記画像を合成するステップは、前記
    発話者の前記第2の言語の発話に応じて変形する部分を
    前記翻訳手段の翻訳結果に応じて合成し、さらに発話に
    応じて変形しない部分と合成するステップを含む、請求
    項18記載の翻訳方法。
  20. 【請求項20】 前記発話者の画像の特徴は、前記発話
    者の顔の向きである、請求項18記載の翻訳方法。
  21. 【請求項21】 身体の所定の動作と、当該動作を数値
    表現したデータとを対応付けて記憶するステップと、 所望の身体の特徴に基づいて、前記記憶手段に記憶した
    データを所望の身体に適合化するための係数を決定する
    ステップと、 前記数値表現したデータを、前記係数により適合化する
    ステップと、 前記適合化したデータに基づいて、前記所望の身体に所
    定の動作をさせた動画像を合成するステップとを備え
    る、画像合成方法。
  22. 【請求項22】 前記身体の所定の動作と当該動作を数
    値表現したデータは、身体の個性の影響を除いた正規化
    された形状に対応するデータである、請求項21記載の
    画像合成方法。
  23. 【請求項23】 前記画像を合成するステップは、前記
    所望の身体の一部の画像を、合成した動画像により置き
    換えることで前記身体に所定の動作をさせた動画像を合
    成するステップを含む、請求項21記載の画像合成方
    法。
  24. 【請求項24】 前記身体の所定の動作は、発話動作で
    ある、請求項21または22記載の画像合成方法。
  25. 【請求項25】 前記身体の所定の動作は、発話動作で
    あり、前記所望の身体の一部の画像は、調音器官の画像
    である、請求項23記載の画像合成方法。
  26. 【請求項26】 発話者の発声した第1の言語の内容を
    認識するステップと、 認識された結果に基づいて、前記第1の言語を第2の言
    語に翻訳するステップと、 翻訳された結果に基づいて、第2の言語での発話に対応
    する音声を合成するステップと、 前記第2の言語を発話する際の音声の要素と前記第2の
    言語を発話する際の少なくとも調音器官の形状を数値表
    現したデータとを対応付けたデータベースと前記翻訳結
    果とに基づいて、前記第2の言語での発話に対応する少
    なくとも調音器官の動きを表現するための画像を合成す
    るステップと、 前記合成された音声と前記合成された画像とを同期して
    出力するステップとを有する翻訳方法をコンピュータに
    実行させるためのプログラムを記録したコンピュータ読
    取り可能な媒体。
  27. 【請求項27】 前記音声の要素は、視覚的に分類した
    発話の要素である、請求項26記載のコンピュータ読取
    り可能な媒体。
  28. 【請求項28】 前記身体の所定の動作と当該動作を数
    値表現したデータは、身体の個性の影響を除いた正規化
    された形状に対応するデータである、請求項26記載の
    コンピュータ読取り可能な媒体。
  29. 【請求項29】 身体の所定の動作と、当該動作を数値
    表現したデータとを対応付けて記憶するステップと、 所望の身体の特徴に基づいて、前記記憶手段に記憶した
    データを所望の身体に適合化するための係数を決定する
    ステップと、 前記数値表現したデータを、前記係数により適合化する
    ステップと、 前記適合化したデータに基づいて、前記所望の身体に所
    定の動作をさせた動画像を合成するステップとを備える
    画像合成方法をコンピュータに実行させるためのプログ
    ラムを記録したコンピュータ読取り可能な媒体。
  30. 【請求項30】 前記身体の所定の動作と当該動作を数
    値表現したデータは、身体の個性の影響を除いた正規化
    された形状に対応するデータである、請求項29記載の
    コンピュータ読取り可能な媒体。
  31. 【請求項31】 前記画像を合成するステップは、前記
    所望の身体の一部の画像を、合成した動画像により置き
    換えることで前記身体に所定の動作をさせた動画像を合
    成するステップを含む、請求項29記載のコンピュータ
    読取り可能な媒体。
  32. 【請求項32】 前記身体の所定の動作は、発話動作で
    ある、請求項29または30記載のコンピュータ読取り
    可能な媒体。
  33. 【請求項33】 前記身体の所定の動作は、発話動作で
    あり、前記所望の身体の一部の画像は、調音器官の画像
    である、請求項31記載のコンピュータ読取り可能な媒
    体。
  34. 【請求項34】 前身体の所定の動作動作を数値表現
    し、かつ身体の個性の影響を除いた正規化された形状に
    対応するデータを、コンピュータが読み取り可能なよう
    に記録した媒体。
JP2000288601A 2000-09-22 2000-09-22 翻訳装置、翻訳方法および媒体 Expired - Fee Related JP4011844B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000288601A JP4011844B2 (ja) 2000-09-22 2000-09-22 翻訳装置、翻訳方法および媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000288601A JP4011844B2 (ja) 2000-09-22 2000-09-22 翻訳装置、翻訳方法および媒体

Publications (2)

Publication Number Publication Date
JP2002099295A true JP2002099295A (ja) 2002-04-05
JP4011844B2 JP4011844B2 (ja) 2007-11-21

Family

ID=18772167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000288601A Expired - Fee Related JP4011844B2 (ja) 2000-09-22 2000-09-22 翻訳装置、翻訳方法および媒体

Country Status (1)

Country Link
JP (1) JP4011844B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146042A (ja) * 2004-11-24 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> 調音運動の正規化を用いた音声合成方法および装置
JP2013045282A (ja) * 2011-08-24 2013-03-04 Kyushu Institute Of Technology コミュニケーション支援システム
EP2816559A3 (en) * 2013-06-18 2015-01-21 Samsung Electronics Co., Ltd Translation system comprising display apparatus and server and control method thereof
CN104756188A (zh) * 2012-09-18 2015-07-01 金详哲 基于自动的单词翻译改变嘴唇形状的装置及方法
US9749494B2 (en) 2013-07-23 2017-08-29 Samsung Electronics Co., Ltd. User terminal device for displaying an object image in which a feature part changes based on image metadata and the control method thereof
JPWO2017072915A1 (ja) * 2015-10-29 2018-07-12 株式会社日立製作所 視覚情報と聴覚情報の同期方法および情報処理装置
CN109635774A (zh) * 2018-12-21 2019-04-16 中山大学 一种基于生成对抗网络的人脸合成方法
KR20190114150A (ko) * 2018-03-29 2019-10-10 네오사피엔스 주식회사 비디오 번역 및 립싱크 방법 및 시스템

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006146042A (ja) * 2004-11-24 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> 調音運動の正規化を用いた音声合成方法および装置
JP4526934B2 (ja) * 2004-11-24 2010-08-18 日本電信電話株式会社 調音運動の正規化を用いた音声合成方法および装置
JP2013045282A (ja) * 2011-08-24 2013-03-04 Kyushu Institute Of Technology コミュニケーション支援システム
CN104756188A (zh) * 2012-09-18 2015-07-01 金详哲 基于自动的单词翻译改变嘴唇形状的装置及方法
JP2016502157A (ja) * 2012-09-18 2016-01-21 チョル キム,サン 単語自動翻訳に基づく唇形状変更装置および方法
EP2816559A3 (en) * 2013-06-18 2015-01-21 Samsung Electronics Co., Ltd Translation system comprising display apparatus and server and control method thereof
US9749494B2 (en) 2013-07-23 2017-08-29 Samsung Electronics Co., Ltd. User terminal device for displaying an object image in which a feature part changes based on image metadata and the control method thereof
JPWO2017072915A1 (ja) * 2015-10-29 2018-07-12 株式会社日立製作所 視覚情報と聴覚情報の同期方法および情報処理装置
KR20190114150A (ko) * 2018-03-29 2019-10-10 네오사피엔스 주식회사 비디오 번역 및 립싱크 방법 및 시스템
KR102306844B1 (ko) * 2018-03-29 2021-09-29 네오사피엔스 주식회사 비디오 번역 및 립싱크 방법 및 시스템
CN109635774A (zh) * 2018-12-21 2019-04-16 中山大学 一种基于生成对抗网络的人脸合成方法
CN109635774B (zh) * 2018-12-21 2022-09-13 中山大学 一种基于生成对抗网络的人脸合成方法

Also Published As

Publication number Publication date
JP4011844B2 (ja) 2007-11-21

Similar Documents

Publication Publication Date Title
US8131551B1 (en) System and method of providing conversational visual prosody for talking heads
JP3664474B2 (ja) 視覚的スピーチの言語透過的合成
US8200493B1 (en) System and method of providing conversational visual prosody for talking heads
US5884267A (en) Automated speech alignment for image synthesis
US6112177A (en) Coarticulation method for audio-visual text-to-speech synthesis
US20020024519A1 (en) System and method for producing three-dimensional moving picture authoring tool supporting synthesis of motion, facial expression, lip synchronizing and lip synchronized voice of three-dimensional character
US8078466B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
JPH02234285A (ja) 画像合成方法及びその装置
WO2013031677A1 (ja) 発音動作可視化装置および発音学習装置
US7117155B2 (en) Coarticulation method for audio-visual text-to-speech synthesis
KR20080018408A (ko) 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을기록한 컴퓨터에서 읽을 수 있는 기록매체
JP2002099295A (ja) 翻訳装置、画像合成装置、翻訳方法、画像合成方法および媒体
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
JP2003058908A (ja) 顔画像制御方法および装置、コンピュータプログラム、および記録媒体
KR100754430B1 (ko) 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체
Morishima et al. Audio-visual speech translation with automatic lip syncqronization and face tracking based on 3-d head model
US7392190B1 (en) Coarticulation method for audio-visual text-to-speech synthesis
JP2020091559A (ja) 表情認識装置、表情認識方法、およびプログラム
Goecke A stereo vision lip tracking algorithm and subsequent statistical analyses of the audio-video correlation in Australian English
Wang et al. A real-time Cantonese text-to-audiovisual speech synthesizer
Weiss A Framework for Data-driven Video-realistic Audio-visual Speech-synthesis.
Morishima et al. Multimodal translation system using texture-mapped lip-sync images for video mail and automatic dubbing applications
Ogata et al. Model-based lip synchronization with automatically translated synthetic voice toward a multi-modal translation system
Goecke et al. Analysis of audio-video correlation in vowels in Australian English
Morishima et al. Multi-modal translation and evaluation of lip-synchronization using noise added voice

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050817

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050922

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20060127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070906

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees