JP2006048352A

JP2006048352A - キャラクタ映像表示機能付き通信端末およびその制御方法

Info

Publication number: JP2006048352A
Application number: JP2004228065A
Authority: JP
Inventors: Toshimasa Takagi; 利匡高木; Toshio Oka; 敏夫岡
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-08-04
Filing date: 2004-08-04
Publication date: 2006-02-16

Abstract

【課題】音声の内容に同期してキャラクタ映像を表示できるキャラクタ映像表示機能付き電話を提供する。
【解決手段】キャラクタ映像表示機能付き電話１１０は、音声情報を受信する電話受信部１１と、電話受信部１１１に入力された音声情報に基づいてキャラクタ映像を作成する映像生成部１１３と、電話受信部１１１に入力された音声情報を出力する音声情報出力部１１２と、映像生成部１１３にて生成されたキャラクタ映像を、音声情報に合わせて出力する映像出力部１１４とを備える。映像生成部１１３は、音声情報から音素を抽出する音素抽出部と、音素抽出部にて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する画像選択部を有する。
【選択図】図１

Description

本発明は、キャラクタ映像を表示する機能を有する通信端末に関する。

従来から、キャラクタ映像を表示する機能を有する電話が知られていた。特許文献１は、キャラクタ映像を表示できる情報端末装置および画像配信システムの発明を開示している。図１３を参照して、特許文献１に記載された画像配信システムについて説明する。特許文献１に記載された画像配信システムは、送信端末装置３０１と受信端末装置３０２とがネットワーク３０３によって接続されている。送信端末装置３０１は、画像入力部３０４、表情特徴抽出部３０５を有し、受信端末装置３０２は、モデルデータ作成部３０６、レンダリング部３０７、モデルデータ格納部３０８を有する。この構成において、送信端末装置３０１の表情特徴抽出部３０５は、画像入力部３０４にて入力された顔画像から顔のパーツを切り出し、その情報を受信端末装置３０２へ送信する。受信端末装置３０２のモデルデータ作成部３０６は、ネットワーク３０３を介して受信した顔のパーツ情報とモデルデータ格納部３０８が保持しているモデルデータよりキャラクタ画像を生成し、レンダリング部３０７に表示する。
特開２００３−１６４７５号公報

しかしながら、上記した画像配信システムでは、キャラクタ映像に影響を与えるのは、画像入力部３０４にて取り込まれた顔画像の表情の特徴だけであり、音声データがキャラクタ映像に反映されていなかった。

また、受信端末装置３０２側で音声の出力と共に、音声が出力されているか否かに応じてキャラクタの唇を動かす例はあるが、キャラクタの唇の動きが音声データの内容に合っていなかった。

そこで本発明は上記背景に鑑み、音声の内容に同期したキャラクタ映像を表示できるキャラクタ映像表示機能付き通信端末を提供することを目的とする。

本発明のキャラクタ映像表示機能付き通信端末は、音声情報を入力する音声情報入力部と、前記音声情報入力部に入力された音声情報から音素を抽出する音素抽出部と、前記音素抽出部にて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成部と、前記音声情報入力部に入力された音声情報を出力する音声情報出力部と、前記映像生成部にて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力部とを備えた構成を有する。

このように音素抽出部にて音声情報から音素を抽出し、音素に合った唇の画像を含むキャラクタ映像を生成することにより、キャラクタの唇の形が音声に合わせて変化するので、キャラクタがしゃべっているように見せることができる。なお、音声情報入力部は、音声情報の入力を受け付けるマイクなどの入力機器でもよいし、通信相手端末から送信された音声情報を受信する受信機器でもよい。マイクなどの入力機器にて音声情報の入力を受け付ける場合には、生成したキャラクタ映像を音声情報と共に通信相手端末に送信することにより、通信相手端末において音声に同期したキャラクタ映像を表示できる。通信相手端末から送信された音声情報を受信機器にて受信する場合には、生成したキャラクタ画像を音声情報に合わせて表示する。

上記キャラクタ映像表示機能付き通信端末は、前記音声情報入力部に入力された音声情報の音声認識を行って前記音声情報に含まれる単語を抽出する音声認識部と、話者の発する単語と話者の感情を示す感情パラメータとを関連付けて記憶した感情パラメータ記憶部と、前記音声認識部にて抽出された単語に対応する感情パラメータを前記感情パラメータ記憶部から読み出す感情パラメータ読出部とを備え、前記映像生成部は、前記感情パラメータ読出部にて読み出された感情パラメータに基づいてキャラクタ映像を生成してもよい。

この構成により、音声情報に含まれる単語から話者の感情を推測し、その感情を反映したキャラクタを生成することができる。

上記キャラクタ映像表示機能付き通信端末は、前記音声情報入力部に入力された音声の大きさに基づいて、話者の感情を示す感情パラメータを決定する感情パラメータ決定部を備え、前記映像生成部は、前記感情パラメータ決定部にて決定された感情パラメータに基づいてキャラクタ映像を生成してもよい。

この構成により、音声の大きさから話者の感情を推測し、その感情を反映したキャラクタを生成することができる。

上記キャラクタ映像表示機能付き通信端末において、前記音声情報入力部は、通信相手端末から送信される音声情報を受信する音声情報受信部でもよい。

このように音声受信部にて受信した音声情報に基づいて受信側でキャラクタ映像を生成することにより、通信相手端末から音声データとキャラクタ映像が送信される場合に比べて、キャラクタ映像の表示と音声情報の出力とを容易に同期させることができる。

上記キャラクタ映像表示機能付き通信端末は、話者の感情を示す感情パラメータを通信相手端末から受信する感情パラメータ受信部を備え、前記映像生成部は、前記感情パラメータ受信部にて受信した感情パラメータに基づいてキャラクタ映像を生成してもよい。

このように通信相手端末から送信された感情パラメータに基づいてキャラクタ映像を生成することにより、容易かつ適切に話者の感情をキャラクタに反映させることができる。

上記キャラクタ映像表示機能付き通信端末は、通信相手端末に記憶された前記通信相手端末の話者の属性パラメータを前記通信相手端末から受信する属性パラメータ受信部を備え、前記映像生成部は、前記属性パラメータ受信部にて受信した属性パラメータに基づいてキャラクタ映像を生成してもよい。

このように通信相手端末から送信された話者の属性パラメータに基づいてキャラクタ映像を生成することにより、話者の癖や特性をキャラクタに反映させることができる。

本発明のキャラクタ映像表示機能付き通信端末の制御方法は、音声情報を入力する音声情報入力ステップと、前記音声情報入力ステップにて入力された音声情報から音素を抽出する音素抽出ステップと、前記音素抽出ステップにて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成ステップと、前記音声情報入力ステップにて入力された音声情報を出力する音声情報出力ステップと、前記映像生成ステップにて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力ステップとを備えた構成を有する。

この構成により、本発明のキャラクタ映像表示機能付き通信端末と同様に、キャラクタがしゃべっているように見せることができる。また、本発明のキャラクタ映像表示機能付き通信端末の各種の構成を、本発明の制御方法に適用することも可能である。

本発明のプログラムは、キャラクタ映像表示機能付き通信端末にキャラクタ映像を表示させるためのプログラムであって、前記キャラクタ映像表示機能付き通信端末に、音声情報を入力する音声情報入力ステップと、前記音声情報入力ステップにて入力された音声情報から音素を抽出する音素抽出ステップと、前記音素抽出ステップにて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成ステップと、前記音声情報入力ステップにて入力された音声情報を出力する音声情報出力ステップと、前記映像生成ステップにて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力ステップとを実行させる。

この構成のプログラムを実行することにより、本発明のキャラクタ映像表示機能付き通信端末と同様に、キャラクタがしゃべっているように見せることができる。また、本発明のキャラクタ映像表示機能付き通信端末の各種の構成を、本発明のプログラムに適用することも可能である。

本発明は、音素抽出部にて音声情報から音素を抽出し、音素に合った唇の画像を含むキャラクタ映像を生成することにより、キャラクタの唇の形が音声に合わせて変化するのでキャラクタがしゃべっているように見せることができるというすぐれた効果を有する。

以下、本発明のキャラクタ映像表示機能付き通信端末の実施の形態について、図面を参照しながら説明する。実施の形態においては、通信端末の例として電話を取り上げて説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、様々なる態様で実施し得る。

（第１の実施の形態）
図１は第１の実施の形態におけるキャラクタ映像表示機能付き電話の機能ブロック図である。図１において、送信端末装置１００は、音声を入力するマイクなどの音声入力部１０１と、音声データを符号化して電話網１２０へ送信する電話送信部１０２とを備える。また、受信端末装置１１０は、電話網１２０から音声データを受信し、復号する電話受信部１１１と、復号した音声データを出力するスピーカなどの音声出力部１１２と、キャラクタ映像を生成する映像生成部１１３と、キャラクタ映像を表示する映像出力部１１４とを備える。送信端末装置１００と受信端末装置１１０は電話網１２０にそれぞれ接続されている。図１において、受信端末装置１１０が、キャラクタ映像を表示する機能を有する実施の形態のキャラクタ映像表示機能付き電話である。なお、図１では送信端末装置１００と受信端末装置１１０を異なる装置としているが、送信側の装置と受信側の装置のいずれにも送信端末装置１００および受信端末装置１１０の機能を持たせ、お互いに相手側端末から送信された音声データに基づいてキャラクタ映像を表示することも可能である。

図２は、映像生成部１１３の詳しい構成を示す図である。映像生成部１１３は、電話受信部１１１より入力された音声情報から音素を抽出する音素抽出部２０１と、抽出された音素に応じて映像を構成するキャラクタ画像を選択する画像選択部２０２とを備えている。画像選択部２０２により選択されるキャラクタ画像の候補は、キャラクタ画像データベース（以下、「キャラクタ画像ＤＢ」という）２０３に記憶されている。

図３（ａ）〜図３（ｅ）は、キャラクタ画像ＤＢ２０３に記憶されたキャラクタ画像の例を示す図である。図３（ａ）は日本語の５０音表の「あ」の段の音素に関連付けられた画像、図３（ｂ）は「い」の段の音素の関連付けられた画像、図３（ｃ）は「う」の段の音素の関連付けられた画像、図３（ｅ）は「え」の段の音素の関連付けられた画像、図３（ｅ）は「お」の段の音素の関連付けられた画像である。

画像選択部２０２は、音素抽出部２０１にて抽出された音素に対応する画像を読み出し、読み出したキャラクタ画像によってキャラクタ映像を生成する。抽出された音素が、例えば「あ」「か」「さ」等のように「あ」の段の音素である場合には、図３（ａ）のキャラクタ画像を読み出す。抽出された音素が、例えば「い」「き」「し」等のように「い」の段の音素である場合には、図３（ｂ）のキャラクタ画像を読み出す。抽出された音素が、例えば「う」「く」「す」等のように「う」の段の音素である場合には、図３（ｃ）のキャラクタ画像を読み出す。抽出された音素が、例えば「え」「け」「せ」等のように「え」の段の音素である場合には、図３（ｄ）のキャラクタ画像を読み出す。抽出された音素が、例えば「お」「こ」「そ」等のように「お」の段の音素である場合には、図３（ｅ）のキャラクタ画像を読み出す。

図４は、第１の実施の形態のキャラクタ映像表示機能付き電話のシーケンスを示す図である。図４を参照してキャラクタ映像表示機能付き電話の動作について説明する。

まず、送信端末装置１００は、マイクなどの音声入力部１０１にて入力された音声データを電話送信部１０２に送る（Ｓ１０）。電話送信部１０２は、音声入力部１０１から送られた音声データを符号化し（Ｓ１２）、符号化した音声データを電話網１２０に送信する（Ｓ１４）。ここでは、電話送信部１０２が音声データの符号化を行う例について説明したが、音声データの符号化は音声入力部１０１にて行ってもよい。

受信端末装置１１０は、電話網１２０を通じて送信端末装置１００から送信された音声データを電話受信部１１１にて受信する。続いて、電話受信部１１１は、受信した音声データを復号化する（Ｓ１６）。電話受信部１１１は、復号した音声データを映像生成部１１３および音声出力部１１２に送る（Ｓ１８、Ｓ２４）。ここでは、電話受信部１１１にて音声データを復号化する例について説明したが、電話受信部１１１にて復号化を行わずに、映像生成部１１３および音声出力部１１２にて音声データを復号化してもよい。

電話受信部１１１から音声データを受信した映像生成部１１３は、音声データに合ったキャラクタ映像を生成する（Ｓ２０）。具体的には、映像生成部１１３の音素抽出部２０１は、電話受信部１１１より入力された音声データから音素を抽出し、抽出した音素の情報を画像選択部２０２に送る。画像選択部２０２は、抽出された音素に合ったキャラクタ画像をキャラクタ画像ＤＢ２０３から読み出して、キャラクタ映像を生成する。

映像生成部１１３は、生成したキャラクタ映像を映像出力部１１４に送り（Ｓ２２）、これを受けた映像出力部１１４は、キャラクタ映像を受信端末装置１１０に表示する。同時に、電話受信部１１１から音声データを受信した音声出力部１１２は、音声を出力する。以上の動作を、音声データを受信するたびに繰り返し行うことにより、キャラクタ映像を音声に同期して表示させることができる。

本実施の形態では、電話受信部１１１から映像生成部１１３に音声データが送られ、音声データ１０６に含まれる音素に基づいてキャラクタ映像が生成される。そして、電話受信部１１１から音声出力部１１２に送られた音声データに基づいて、音声出力部１１２から音声が出力されるのに合わせてキャラクタ映像１０９を出力するので、音声に合わせてキャラクタの唇が動き、あたかもキャラクタがしゃべっているかのように見せることができる。

また、受信端末装置１１０にて受信した音声データに基づいてキャラクタ映像を生成するので、音声データとキャラクタ映像との同期をとるのが容易である。なお、映像生成部１１３での映像生成処理に時間を要する場合には、映像生成に要する時間分だけ、音声出力部１１２からの音声出力を遅らせることにより、キャラクタ映像と音声の同期をとることができる。

（第２の実施の形態）
第２の実施の形態のキャラクタ映像表示機能付き電話は、キャラクタ映像を音声に同期させる機能に加えて、話者の感情をキャラクタに反映させる機能を有する。第２の実施の形態のキャラクタ映像表示機能付き電話の基本的な構成は、第１の実施の形態のキャラクタ映像表示機能付き電話と同じであるが、映像生成部１１３の構成が第１の実施の形態とは異なる。

図５は、第２の実施の形態における映像生成部１１３の構成を示す図である。第２の実施の形態においては、映像生成部１１３は、音声データから音素を抽出する音素抽出部２０１と、音声データから単語を抽出する音声認識部２０４とを備えている。音声認識部２０４は、音素抽出部２０１にて抽出した音素を元に、意味のある単語を抽出する機能を有する。

また、映像生成部１１３は、音声データに含まれる単語と話者の感情を示すパラメータとを関連付けて記憶する感情パラメータデータベース（以下、「感情パラメータＤＢ」という）２０６と、音声データに含まれる単語に基づいて感情パラメータＤＢ２０６から感情パラメータを読み出す感情パラメータ読出部２０５と、音素抽出部２０１および感情パラメータ読出部２０５から送られる情報に基づいてキャラクタ画像を合成する画像合成部２０７とを備える。

図６は、感情パラメータＤＢ２０６に記憶されたデータの例を示す図である。感情パラメータＤＢ２０６には、単語と単語に対応する感情パラメータが記憶されている。例えば、図６に示す例によれば、音声認識部２０４にて「うれしい」「たのしい」という単語に「喜び」を示す感情パラメータが関連付けられている。従って、「うれしい」「たのしい」という単語に対応して、「喜び」を示す感情パラメータが読み出される。

画像合成部２０７は、第１の実施の形態と同様に、音素抽出部２０１にて抽出された音素に対応するキャラクタ画像を、キャラクタ画像ＤＢ２０３に記憶されたキャラクタ画像から選択する。そして、感情パラメータ読出部２０５にて読み出した感情パラメータによってキャラクタ画像を変形し、キャラクタ画像を合成する。この際、画像合成部２０７は、感情パラメータに基づく変形情報を記憶した変形情報データベース（以下、「変形情報ＤＢ」という）２０８を参照してキャラクタの変形を行う。

図７は、変形情報ＤＢ２０８に記憶されたデータを示す例である。変形情報ＤＢ２０８には、感情パラメータと変形情報とが関連付けて記憶されている。図７に示す例によれば、例えば、「喜び」を示す感情パラメータに関連付けられた変形情報は、「目を細める、口元を上げる」である。従って、感情パラメータ読出部２０５から送られた感情パラメータが「喜び」である場合には、図８（ａ）に示すキャラクタを、図８（ｂ）に示すように、キャラクタ画像の目を細くすると共に口元を上げる変形を行う。なお、図８（ａ）に示すキャラクタ画像から、図８（ｂ）に示す口元を上げたキャラクタ画像に移行する際に、モーフィングによってキャラクタ画像を滑らかに変化させてもよい。

第２の実施の形態のキャラクタ映像表示機能付き電話の動作のシーケンスは、第１の実施の形態のキャラクタ映像表示機能付き電話と基本的に同じである（図４参照）。第２の実施の形態では、キャラクタ映像の生成処理（Ｓ２０）において、音声データから話者の感情を示す感情パラメータを求め、感情パラメータに基づいてキャラクタを生成する点が第１の実施の形態とは異なる。第２の実施の形態のおけるキャラクタ映像の生成は、上記したように、映像生成部１１３の機能によって行われる。以上、第２の実施の形態のキャラクタ映像表示機能付き電話の構成および動作について説明した。

第２の実施の形態においては、音声データから話者の感情を示す感情パラメータを求め、感情パラメータに基づいてキャラクタ画像を生成するので、話者の感情を反映したキャラクタを表示できる。

また、第２の実施の形態のキャラクタ映像表示機能付き電話は、第１の実施の形態と同様に、音声データをキャラクタの唇の動きを同期させることにより、あたかもキャラクタがしゃべっているように見せることができる。

（第３の実施の形態）
図９は、第３の実施の形態におけるキャラクタ映像表示機能付き電話の機能ブロック図である。図９において、送信端末装置１００は、音声を入力するマイクなどの音声入力部１０１と、音声データを符号化して電話網１２０へ送信する電話送信部１０２と、情報の入力を受け付けるキーパッドなどのユーザ操作入力部１０３と、話者の癖や特性などの個性を示す属性パラメータを記憶する属性パラメータデータベース（以下、「属性パラメータＤＢ」という）１０４と、キャラクタを動作させるための感情パラメータおよび属性パラメータをパケット送信するパケット送信部１０５とを備える。受信端末装置１１０は、電話網１２０から音声データを受信し、復号する電話受信部１１１と、復号した音声データを出力するスピーカなどの音声出力部１１２と、送信端末装置１００から送信される感情パラメータおよび属性パラメータをパケット受信するパケット受信部１１５と、キャラクタ画像を生成する映像生成部１１３と、キャラクタ画像を表示する映像出力部１１４とを備える。送信端末装置１００と受信端末装置１１０は、電話網１２０およびパケット網１３０によって接続されている。

送信端末装置１００において、ユーザ操作入力部１０３はユーザの感情等の入力を受け付ける機能を有する。例えば、ユーザ操作入力部１０３は、「喜ぶ」「怒る」「悲しむ」等の感情を選択肢として表示し、話者に選択させる。そして、ユーザ操作入力部１０３は、ユーザの選択に応じて感情パラメータを決定し、決定された感情パラメータをパケット送信部１０５に送る。

属性パラメータＤＢ１０４は、話者の個性を示す属性パラメータを記憶する機能を有する。属性パラメータＤＢ１０４には、例えば、「話すときに頭を振る」「相槌をうつ」などの情報が記憶される。この情報は、話者によってあらかじめ設定される。属性パラメータＤＢ１０４に記憶された属性パラメータは、パケット送信部１０５から受信端末装置１１０に送信される。

次に、受信端末装置１１０について説明する。第３の実施の形態の受信端末装置１１０の基本的な構成は、第１の実施の形態の受信端末装置１１０と同じであるが、映像生成部１１３の構成が異なる。

図１０は、映像生成部１１３の構成を示す図である。映像生成部１１３は、音声データから音素を抽出する音素抽出部２０１と、パケット受信部１１５にて受信した感情パラメータおよび属性パラメータがそれぞれ入力される感情パラメータ入力部２０９および属性パラメータ入力部２１０と、キャラクタ画像を合成する画像合成部２０７とを備える。画像合成部２０７には、音素ごとのキャラクタ画像を記憶したキャラクタ画像ＤＢ２０３と、感情パラメータに応じてキャラクタ画像を変形するための変形情報ＤＢ２０８が接続されている。画像合成部２０７は、音素抽出部２０１にて音声データから抽出された音素に基づいてキャラクタ画像ＤＢ２０３からキャラクタ画像を選択し、感情パラメータ入力部２０９から送られた感情パラメータに基づいてキャラクタ画像を変形する。第３の実施の形態ではさらに、画像合成部２０７は、属性パラメータ入力部２１０から送られた属性パラメータに応じて、キャラクタ映像を動作させる。例えば、属性パラメータが「話すときに頭を振る」である場合、音声データが出力されるときに、図１１（ａ）に示すキャラクタを図１１（ｂ）に示すように動かす。

図１２は、第３の実施の形態のキャラクタ映像表示機能付き電話におけるシーケンスを示す図である。図１２を参照しながら、キャラクタ映像表示機能付き電話の動作について説明する。

まず、送信端末装置１００は、マイクなどの音声入力部１０１にて入力された音声データを電話送信部１０２に送る（Ｓ３０）。電話送信部１０２は、音声入力部１０１から送られた音声データを符号化し（Ｓ３２）、符号化した音声データを電話網１２０を通じて受信端末装置１１０に送信する（Ｓ３４）。ここでは、電話送信部１０２が音声データの符号化を行う例について説明したが、音声データの符号化は、音声入力部１０１にて行ってもよい。

次に、送信端末装置１００は、ユーザ操作部４０７を通じてユーザの操作からユーザの感情を示す感情パラメータを取得し、感情パラメータをパケット送信部１０５に送る（Ｓ３６）。また、パケット送信部１０５は、属性パラメータＤＢ１０４に記憶されている属性パラメータを読み出す（Ｓ３８）。そして、パケット送信部１０５は、感情パラメータと属性パラメータとを符号化し（Ｓ４０）、パケット網１３０を通じて受信端末装置１１０へ送信する（Ｓ４２）。なお、本実施の形態では感情パラメータと属性パラメータの両方を用いる例について説明しているが、いずれか一方のみを用いることも可能である。また、感情パラメータと属性パラメータを送信するタイミングは、同じでなくてもよい。

受信端末装置１１０は、電話網１２０から受信された音声データを、電話受信部１１１にて受信する。受信端末装置１１０は、パケット網１３０を通じて送信された感情パラメータおよび属性パラメータをパケット受信部１１５にて受信し、復号化する（Ｓ４４）。パケット受信部１１５は、復号化した感情パラメータおよび属性パラメータを映像生成部１１３に送る（Ｓ４６）。なお、パケット受信部１１５が暗号化されたパケットデータをそのままキャラクタ映像生成部１１３に送り、映像生成部１１３にてパケットデータを復号化する構成としてもよい。

また、電話受信部１１１は、受信した音声データを復号化し（Ｓ４８）、復号化した音声データを音声出力部１１２および映像生成部１１３に送る（Ｓ５０、Ｓ５６）。なお、本実施の形態では、電話受信部１１１にて音声データを復号化する例について説明したが、電話受信部１１１にて復号化を行わずに、映像生成部１１３および音声出力部１１２にて音声データを復号化してもよい。

映像生成部１１３では、電話受信部１１１から入力された音声データと、パケット受信部１１５から送信された感情パラメータおよび属性パラメータに基づいて、キャラクタ映像を生成する（Ｓ５２）。具体的には、まず、音素抽出部２０１にて音声データから音素を抽出し、抽出した音素に合ったキャラクタ画像を選択する。続いて、パケット受信部１１５から送られた感情パラメータにより選択したキャラクタ画像を変形する。そして、パケット受信部１１５から送られた属性パラメータによりキャラクタ映像を動作させる。例えば、属性パラメータが「話すときに頭を振る」である場合、図１１（ｂ）に示すように、音声データを出力するときにキャラクタの頭を振る映像を生成する。

映像生成部１１３は、生成した映像を映像出力部１１４に送る（Ｓ５４）。映像出力部１１４は、受信端末装置１１０に表示する。以上の動作を、音声データを受信するたびに繰り返し行うことにより、キャラクタ映像を音声に同期して表示させることができる。

第３の実施の形態のキャラクタ映像表示機能付き電話は、話者の癖などの個性を属性パラメータとして送信端末装置１００に記憶しておき、パケット送信部１０５にて読み出して受信端末装置１１０に送信し、受信端末装置１１０にて属性パラメータを反映したキャラクタ映像を表示するので、話者の属性をキャラクタに反映できる。

また、第３の実施の形態のキャラクタ映像表示機能付き電話は、上記した第２の実施の形態と同様に、音声データとキャラクタの唇の動きを同期させると共に話者の感情を反映したキャラクタ映像を表示することができる。第３の実施の形態では、ユーザ操作入力部１０３にて話者の感情の入力を受け付けるので、キャラクタに話者の感情を適切に反映できる。

以上、本発明のキャラクタ映像表示機能付き電話について、実施の形態を挙げて詳細に説明したが、本発明のキャラクタ映像表示機能付き電話は、上記した実施の形態に限定されるものではない。

上記した実施の形態では、受信端末装置１１０にてキャラクタ映像を生成する例について説明したが、送信端末装置１００にてキャラクタ映像を生成することも可能である。この場合、送信データから送信する音声データとキャラクタ映像との同期をとるための構成が必要となる。例えば、音声データをパケットデータとして送信する構成とし、音声データと映像データとの同期をとるための番号を音声データパケットおよび映像データパケットに付すことにより、同期をとることができる。

上記した実施の形態では、映像生成部１１３は、キャラクタ画像ＤＢ２０３に記憶されたキャラクタ画像を読み出し、読み出したキャラクタ画像に感情パラメータまたは属性パラメータによる変形を行ってキャラクタ映像を生成したが、キャラクタ映像を生成する方法は上記した実施の形態の方法に限られない。例えば、キャラクタ映像を構成する「目」「鼻」「口」等の顔のパーツをデータベースに記憶しておき、感情パラメータまたは属性パラメータに応じて、対応するパーツを読み出してキャラクタ画像を生成してもよい。また、属性パラメータとして性別や年代の情報を送信し、性別や年代に合ったキャラクタ映像を生成してもよい。

上記した第２の実施の形態では、音声認識部２０４にて音声データから抽出した単語によって話者の感情を示す感情パラメータを求めたが、別の方法によって感情パラメータを求めてもよい。例えば、音声の大きさによって感情パラメータを用いてもよいし、音声情報をフーリエ変換して音声の周波数を分析することによって感情パラメータを求めてもよい。

上記した実施の形態では、キャラクタ画像ＤＢ２０３には、キャラクタ画像を日本語の音素に関連付けて記憶しているが、英語やその他の外国語の音素に合わせてキャラクタ画像を記憶させてもよい。

以上説明したように、本発明は、音素抽出部にて音声情報から音素を抽出し、音素に合った唇の画像を含むキャラクタ映像を生成することにより、音声に合わせて唇の形が変化するのでキャラクタがしゃべっているように見せることができるというすぐれた効果を有し、キャラクタ映像表示機能付きの携帯電話等として有用である。

第１の実施の形態のキャラクタ映像表示機能付き電話の機能ブロック図第１の実施の形態における映像生成部の構成を示す図キャラクタ画像ＤＢに記憶されたデータの例を示す図第１の実施の形態のキャラクタ映像表示機能付き電話のシーケンス第２の実施の形態のキャラクタ映像表示機能付き電話の機能ブロック図感情パラメータＤＢに記憶されたデータの例を示す図変形情報ＤＢに記憶されたデータの例を示す図感情パラメータを反映したキャラクタモデルを示す図第３の実施の形態のキャラクタ映像表示機能付き電話の機能ブロック図第３の実施の形態における映像生成部の構成を示す図第３の実施の形態におけるキャラクタの表示例を示す図第３の実施の形態のキャラクタ映像表示機能付き電話のシーケンス従来のテレビ電話装置の機能ブロック図

符号の説明

１００送信端末装置
１０１音声入力部
１０２電話送信部
１０３ユーザ操作入力部
１０４属性パラメータＤＢ
１０５パケット送信部
１１０受信端末装置
１１１電話受信部
１１２音声出力部
１１３映像生成部
１１４映像出力部
１１５パケット受信部
１２０電話網
１３０パケット網
２０１音素抽出部
２０２画像選択部
２０３キャラクタ画像ＤＢ
２０４音声認識部
２０５感情パラメータ読出部
２０６感情パラメータＤＢ
２０７画像合成部
２０８変形情報ＤＢ
２０９感情パラメータ受信部
２１０属性パラメータ受信部
３０１送信端末装置
３０２受信端末装置
３０３ネットワーク
３０４画像入力部
３０５表情特徴抽出部
３０６モデルデータ作成部
３０７レンダリング部
３０８モデルデータ格納部

Claims

音声情報を入力する音声情報入力部と、
前記音声情報入力部に入力された音声情報から音素を抽出する音素抽出部と、
前記音素抽出部にて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成部と、
前記音声情報入力部に入力された音声情報を出力する音声情報出力部と、
前記映像生成部にて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力部と、
を備えたことを特徴とするキャラクタ映像表示機能付き通信端末。
前記音声情報入力部に入力された音声情報の音声認識を行って前記音声情報に含まれる単語を抽出する音声認識部と、
話者の発する単語と話者の感情を示す感情パラメータとを関連付けて記憶した感情パラメータ記憶部と、
前記音声認識部にて抽出された単語に対応する感情パラメータを前記感情パラメータ記憶部から読み出す感情パラメータ読出部と、
を備え、
前記映像生成部は、前記感情パラメータ読出部にて読み出された感情パラメータに基づいてキャラクタ映像を生成することを特徴とする請求項１に記載のキャラクタ映像表示機能付き通信端末。
前記音声情報入力部に入力された音声の大きさに基づいて、話者の感情を示す感情パラメータを決定する感情パラメータ決定部を備え、
前記映像生成部は、前記感情パラメータ決定部にて決定された感情パラメータに基づいてキャラクタ映像を生成することを特徴とする請求項１に記載のキャラクタ映像表示機能付き通信端末。
前記音声情報入力部は、通信相手端末から送信される音声情報を受信する音声情報受信部であることを特徴とする請求項１〜３のいずれかに記載のキャラクタ映像表示機能付き通信端末。
話者の感情を示す感情パラメータを通信相手端末から受信する感情パラメータ受信部を備え、
前記映像生成部は、前記感情パラメータ受信部にて受信した感情パラメータに基づいてキャラクタ映像を生成することを特徴とする請求項１に記載のキャラクタ映像表示機能付き通信端末。
通信相手端末に記憶された前記通信相手端末の話者の属性パラメータを前記通信相手端末から受信する属性パラメータ受信部を備え、
前記映像生成部は、前記属性パラメータ受信部にて受信した属性パラメータに基づいてキャラクタ映像を生成することを特徴とする請求項１に記載のキャラクタ映像表示機能付き通信端末。
音声情報を入力する音声情報入力ステップと、
前記音声情報入力ステップにて入力された音声情報から音素を抽出する音素抽出ステップと、
前記音素抽出ステップにて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成ステップと、
前記音声情報入力ステップにて入力された音声情報を出力する音声情報出力ステップと、
前記映像生成ステップにて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力ステップと、
を備えたことを特徴とするキャラクタ映像表示機能付き通信端末の制御方法。
キャラクタ映像表示機能付き通信端末にキャラクタ映像を表示させるためのプログラムであって、前記キャラクタ映像表示機能付き通信端末に、
音声情報を入力する音声情報入力ステップと、
前記音声情報入力ステップにて入力された音声情報から音素を抽出する音素抽出ステップと、
前記音素抽出ステップにて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成ステップと、
前記音声情報入力ステップにて入力された音声情報を出力する音声情報出力ステップと、
前記映像生成ステップにて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力ステップと、
を実行させることを特徴とするプログラム。