JP2006048352A - キャラクタ映像表示機能付き通信端末およびその制御方法 - Google Patents

キャラクタ映像表示機能付き通信端末およびその制御方法 Download PDF

Info

Publication number
JP2006048352A
JP2006048352A JP2004228065A JP2004228065A JP2006048352A JP 2006048352 A JP2006048352 A JP 2006048352A JP 2004228065 A JP2004228065 A JP 2004228065A JP 2004228065 A JP2004228065 A JP 2004228065A JP 2006048352 A JP2006048352 A JP 2006048352A
Authority
JP
Japan
Prior art keywords
unit
character
voice information
video
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004228065A
Other languages
English (en)
Inventor
Toshimasa Takagi
利匡 高木
Toshio Oka
敏夫 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004228065A priority Critical patent/JP2006048352A/ja
Publication of JP2006048352A publication Critical patent/JP2006048352A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】 音声の内容に同期してキャラクタ映像を表示できるキャラクタ映像表示機能付き電話を提供する。
【解決手段】 キャラクタ映像表示機能付き電話110は、音声情報を受信する電話受信部11と、電話受信部111に入力された音声情報に基づいてキャラクタ映像を作成する映像生成部113と、電話受信部111に入力された音声情報を出力する音声情報出力部112と、映像生成部113にて生成されたキャラクタ映像を、音声情報に合わせて出力する映像出力部114とを備える。映像生成部113は、音声情報から音素を抽出する音素抽出部と、音素抽出部にて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する画像選択部を有する。
【選択図】 図1

Description

本発明は、キャラクタ映像を表示する機能を有する通信端末に関する。
従来から、キャラクタ映像を表示する機能を有する電話が知られていた。特許文献1は、キャラクタ映像を表示できる情報端末装置および画像配信システムの発明を開示している。図13を参照して、特許文献1に記載された画像配信システムについて説明する。特許文献1に記載された画像配信システムは、送信端末装置301と受信端末装置302とがネットワーク303によって接続されている。送信端末装置301は、画像入力部304、表情特徴抽出部305を有し、受信端末装置302は、モデルデータ作成部306、レンダリング部307、モデルデータ格納部308を有する。この構成において、送信端末装置301の表情特徴抽出部305は、画像入力部304にて入力された顔画像から顔のパーツを切り出し、その情報を受信端末装置302へ送信する。受信端末装置302のモデルデータ作成部306は、ネットワーク303を介して受信した顔のパーツ情報とモデルデータ格納部308が保持しているモデルデータよりキャラクタ画像を生成し、レンダリング部307に表示する。
特開2003−16475号公報
しかしながら、上記した画像配信システムでは、キャラクタ映像に影響を与えるのは、画像入力部304にて取り込まれた顔画像の表情の特徴だけであり、音声データがキャラクタ映像に反映されていなかった。
また、受信端末装置302側で音声の出力と共に、音声が出力されているか否かに応じてキャラクタの唇を動かす例はあるが、キャラクタの唇の動きが音声データの内容に合っていなかった。
そこで本発明は上記背景に鑑み、音声の内容に同期したキャラクタ映像を表示できるキャラクタ映像表示機能付き通信端末を提供することを目的とする。
本発明のキャラクタ映像表示機能付き通信端末は、音声情報を入力する音声情報入力部と、前記音声情報入力部に入力された音声情報から音素を抽出する音素抽出部と、前記音素抽出部にて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成部と、前記音声情報入力部に入力された音声情報を出力する音声情報出力部と、前記映像生成部にて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力部とを備えた構成を有する。
このように音素抽出部にて音声情報から音素を抽出し、音素に合った唇の画像を含むキャラクタ映像を生成することにより、キャラクタの唇の形が音声に合わせて変化するので、キャラクタがしゃべっているように見せることができる。なお、音声情報入力部は、音声情報の入力を受け付けるマイクなどの入力機器でもよいし、通信相手端末から送信された音声情報を受信する受信機器でもよい。マイクなどの入力機器にて音声情報の入力を受け付ける場合には、生成したキャラクタ映像を音声情報と共に通信相手端末に送信することにより、通信相手端末において音声に同期したキャラクタ映像を表示できる。通信相手端末から送信された音声情報を受信機器にて受信する場合には、生成したキャラクタ画像を音声情報に合わせて表示する。
上記キャラクタ映像表示機能付き通信端末は、前記音声情報入力部に入力された音声情報の音声認識を行って前記音声情報に含まれる単語を抽出する音声認識部と、話者の発する単語と話者の感情を示す感情パラメータとを関連付けて記憶した感情パラメータ記憶部と、前記音声認識部にて抽出された単語に対応する感情パラメータを前記感情パラメータ記憶部から読み出す感情パラメータ読出部とを備え、前記映像生成部は、前記感情パラメータ読出部にて読み出された感情パラメータに基づいてキャラクタ映像を生成してもよい。
この構成により、音声情報に含まれる単語から話者の感情を推測し、その感情を反映したキャラクタを生成することができる。
上記キャラクタ映像表示機能付き通信端末は、前記音声情報入力部に入力された音声の大きさに基づいて、話者の感情を示す感情パラメータを決定する感情パラメータ決定部を備え、前記映像生成部は、前記感情パラメータ決定部にて決定された感情パラメータに基づいてキャラクタ映像を生成してもよい。
この構成により、音声の大きさから話者の感情を推測し、その感情を反映したキャラクタを生成することができる。
上記キャラクタ映像表示機能付き通信端末において、前記音声情報入力部は、通信相手端末から送信される音声情報を受信する音声情報受信部でもよい。
このように音声受信部にて受信した音声情報に基づいて受信側でキャラクタ映像を生成することにより、通信相手端末から音声データとキャラクタ映像が送信される場合に比べて、キャラクタ映像の表示と音声情報の出力とを容易に同期させることができる。
上記キャラクタ映像表示機能付き通信端末は、話者の感情を示す感情パラメータを通信相手端末から受信する感情パラメータ受信部を備え、前記映像生成部は、前記感情パラメータ受信部にて受信した感情パラメータに基づいてキャラクタ映像を生成してもよい。
このように通信相手端末から送信された感情パラメータに基づいてキャラクタ映像を生成することにより、容易かつ適切に話者の感情をキャラクタに反映させることができる。
上記キャラクタ映像表示機能付き通信端末は、通信相手端末に記憶された前記通信相手端末の話者の属性パラメータを前記通信相手端末から受信する属性パラメータ受信部を備え、前記映像生成部は、前記属性パラメータ受信部にて受信した属性パラメータに基づいてキャラクタ映像を生成してもよい。
このように通信相手端末から送信された話者の属性パラメータに基づいてキャラクタ映像を生成することにより、話者の癖や特性をキャラクタに反映させることができる。
本発明のキャラクタ映像表示機能付き通信端末の制御方法は、音声情報を入力する音声情報入力ステップと、前記音声情報入力ステップにて入力された音声情報から音素を抽出する音素抽出ステップと、前記音素抽出ステップにて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成ステップと、前記音声情報入力ステップにて入力された音声情報を出力する音声情報出力ステップと、前記映像生成ステップにて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力ステップとを備えた構成を有する。
この構成により、本発明のキャラクタ映像表示機能付き通信端末と同様に、キャラクタがしゃべっているように見せることができる。また、本発明のキャラクタ映像表示機能付き通信端末の各種の構成を、本発明の制御方法に適用することも可能である。
本発明のプログラムは、キャラクタ映像表示機能付き通信端末にキャラクタ映像を表示させるためのプログラムであって、前記キャラクタ映像表示機能付き通信端末に、音声情報を入力する音声情報入力ステップと、前記音声情報入力ステップにて入力された音声情報から音素を抽出する音素抽出ステップと、前記音素抽出ステップにて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成ステップと、前記音声情報入力ステップにて入力された音声情報を出力する音声情報出力ステップと、前記映像生成ステップにて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力ステップとを実行させる。
この構成のプログラムを実行することにより、本発明のキャラクタ映像表示機能付き通信端末と同様に、キャラクタがしゃべっているように見せることができる。また、本発明のキャラクタ映像表示機能付き通信端末の各種の構成を、本発明のプログラムに適用することも可能である。
本発明は、音素抽出部にて音声情報から音素を抽出し、音素に合った唇の画像を含むキャラクタ映像を生成することにより、キャラクタの唇の形が音声に合わせて変化するのでキャラクタがしゃべっているように見せることができるというすぐれた効果を有する。
以下、本発明のキャラクタ映像表示機能付き通信端末の実施の形態について、図面を参照しながら説明する。実施の形態においては、通信端末の例として電話を取り上げて説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、様々なる態様で実施し得る。
(第1の実施の形態)
図1は第1の実施の形態におけるキャラクタ映像表示機能付き電話の機能ブロック図である。図1において、送信端末装置100は、音声を入力するマイクなどの音声入力部101と、音声データを符号化して電話網120へ送信する電話送信部102とを備える。また、受信端末装置110は、電話網120から音声データを受信し、復号する電話受信部111と、復号した音声データを出力するスピーカなどの音声出力部112と、キャラクタ映像を生成する映像生成部113と、キャラクタ映像を表示する映像出力部114とを備える。送信端末装置100と受信端末装置110は電話網120にそれぞれ接続されている。図1において、受信端末装置110が、キャラクタ映像を表示する機能を有する実施の形態のキャラクタ映像表示機能付き電話である。なお、図1では送信端末装置100と受信端末装置110を異なる装置としているが、送信側の装置と受信側の装置のいずれにも送信端末装置100および受信端末装置110の機能を持たせ、お互いに相手側端末から送信された音声データに基づいてキャラクタ映像を表示することも可能である。
図2は、映像生成部113の詳しい構成を示す図である。映像生成部113は、電話受信部111より入力された音声情報から音素を抽出する音素抽出部201と、抽出された音素に応じて映像を構成するキャラクタ画像を選択する画像選択部202とを備えている。画像選択部202により選択されるキャラクタ画像の候補は、キャラクタ画像データベース(以下、「キャラクタ画像DB」という)203に記憶されている。
図3(a)〜図3(e)は、キャラクタ画像DB203に記憶されたキャラクタ画像の例を示す図である。図3(a)は日本語の50音表の「あ」の段の音素に関連付けられた画像、図3(b)は「い」の段の音素の関連付けられた画像、図3(c)は「う」の段の音素の関連付けられた画像、図3(e)は「え」の段の音素の関連付けられた画像、図3(e)は「お」の段の音素の関連付けられた画像である。
画像選択部202は、音素抽出部201にて抽出された音素に対応する画像を読み出し、読み出したキャラクタ画像によってキャラクタ映像を生成する。抽出された音素が、例えば「あ」「か」「さ」等のように「あ」の段の音素である場合には、図3(a)のキャラクタ画像を読み出す。抽出された音素が、例えば「い」「き」「し」等のように「い」の段の音素である場合には、図3(b)のキャラクタ画像を読み出す。抽出された音素が、例えば「う」「く」「す」等のように「う」の段の音素である場合には、図3(c)のキャラクタ画像を読み出す。抽出された音素が、例えば「え」「け」「せ」等のように「え」の段の音素である場合には、図3(d)のキャラクタ画像を読み出す。抽出された音素が、例えば「お」「こ」「そ」等のように「お」の段の音素である場合には、図3(e)のキャラクタ画像を読み出す。
図4は、第1の実施の形態のキャラクタ映像表示機能付き電話のシーケンスを示す図である。図4を参照してキャラクタ映像表示機能付き電話の動作について説明する。
まず、送信端末装置100は、マイクなどの音声入力部101にて入力された音声データを電話送信部102に送る(S10)。電話送信部102は、音声入力部101から送られた音声データを符号化し(S12)、符号化した音声データを電話網120に送信する(S14)。ここでは、電話送信部102が音声データの符号化を行う例について説明したが、音声データの符号化は音声入力部101にて行ってもよい。
受信端末装置110は、電話網120を通じて送信端末装置100から送信された音声データを電話受信部111にて受信する。続いて、電話受信部111は、受信した音声データを復号化する(S16)。電話受信部111は、復号した音声データを映像生成部113および音声出力部112に送る(S18、S24)。ここでは、電話受信部111にて音声データを復号化する例について説明したが、電話受信部111にて復号化を行わずに、映像生成部113および音声出力部112にて音声データを復号化してもよい。
電話受信部111から音声データを受信した映像生成部113は、音声データに合ったキャラクタ映像を生成する(S20)。具体的には、映像生成部113の音素抽出部201は、電話受信部111より入力された音声データから音素を抽出し、抽出した音素の情報を画像選択部202に送る。画像選択部202は、抽出された音素に合ったキャラクタ画像をキャラクタ画像DB203から読み出して、キャラクタ映像を生成する。
映像生成部113は、生成したキャラクタ映像を映像出力部114に送り(S22)、これを受けた映像出力部114は、キャラクタ映像を受信端末装置110に表示する。同時に、電話受信部111から音声データを受信した音声出力部112は、音声を出力する。以上の動作を、音声データを受信するたびに繰り返し行うことにより、キャラクタ映像を音声に同期して表示させることができる。
本実施の形態では、電話受信部111から映像生成部113に音声データが送られ、音声データ106に含まれる音素に基づいてキャラクタ映像が生成される。そして、電話受信部111から音声出力部112に送られた音声データに基づいて、音声出力部112から音声が出力されるのに合わせてキャラクタ映像109を出力するので、音声に合わせてキャラクタの唇が動き、あたかもキャラクタがしゃべっているかのように見せることができる。
また、受信端末装置110にて受信した音声データに基づいてキャラクタ映像を生成するので、音声データとキャラクタ映像との同期をとるのが容易である。なお、映像生成部113での映像生成処理に時間を要する場合には、映像生成に要する時間分だけ、音声出力部112からの音声出力を遅らせることにより、キャラクタ映像と音声の同期をとることができる。
(第2の実施の形態)
第2の実施の形態のキャラクタ映像表示機能付き電話は、キャラクタ映像を音声に同期させる機能に加えて、話者の感情をキャラクタに反映させる機能を有する。第2の実施の形態のキャラクタ映像表示機能付き電話の基本的な構成は、第1の実施の形態のキャラクタ映像表示機能付き電話と同じであるが、映像生成部113の構成が第1の実施の形態とは異なる。
図5は、第2の実施の形態における映像生成部113の構成を示す図である。第2の実施の形態においては、映像生成部113は、音声データから音素を抽出する音素抽出部201と、音声データから単語を抽出する音声認識部204とを備えている。音声認識部204は、音素抽出部201にて抽出した音素を元に、意味のある単語を抽出する機能を有する。
また、映像生成部113は、音声データに含まれる単語と話者の感情を示すパラメータとを関連付けて記憶する感情パラメータデータベース(以下、「感情パラメータDB」という)206と、音声データに含まれる単語に基づいて感情パラメータDB206から感情パラメータを読み出す感情パラメータ読出部205と、音素抽出部201および感情パラメータ読出部205から送られる情報に基づいてキャラクタ画像を合成する画像合成部207とを備える。
図6は、感情パラメータDB206に記憶されたデータの例を示す図である。感情パラメータDB206には、単語と単語に対応する感情パラメータが記憶されている。例えば、図6に示す例によれば、音声認識部204にて「うれしい」「たのしい」という単語に「喜び」を示す感情パラメータが関連付けられている。従って、「うれしい」「たのしい」という単語に対応して、「喜び」を示す感情パラメータが読み出される。
画像合成部207は、第1の実施の形態と同様に、音素抽出部201にて抽出された音素に対応するキャラクタ画像を、キャラクタ画像DB203に記憶されたキャラクタ画像から選択する。そして、感情パラメータ読出部205にて読み出した感情パラメータによってキャラクタ画像を変形し、キャラクタ画像を合成する。この際、画像合成部207は、感情パラメータに基づく変形情報を記憶した変形情報データベース(以下、「変形情報DB」という)208を参照してキャラクタの変形を行う。
図7は、変形情報DB208に記憶されたデータを示す例である。変形情報DB208には、感情パラメータと変形情報とが関連付けて記憶されている。図7に示す例によれば、例えば、「喜び」を示す感情パラメータに関連付けられた変形情報は、「目を細める、口元を上げる」である。従って、感情パラメータ読出部205から送られた感情パラメータが「喜び」である場合には、図8(a)に示すキャラクタを、図8(b)に示すように、キャラクタ画像の目を細くすると共に口元を上げる変形を行う。なお、図8(a)に示すキャラクタ画像から、図8(b)に示す口元を上げたキャラクタ画像に移行する際に、モーフィングによってキャラクタ画像を滑らかに変化させてもよい。
第2の実施の形態のキャラクタ映像表示機能付き電話の動作のシーケンスは、第1の実施の形態のキャラクタ映像表示機能付き電話と基本的に同じである(図4参照)。第2の実施の形態では、キャラクタ映像の生成処理(S20)において、音声データから話者の感情を示す感情パラメータを求め、感情パラメータに基づいてキャラクタを生成する点が第1の実施の形態とは異なる。第2の実施の形態のおけるキャラクタ映像の生成は、上記したように、映像生成部113の機能によって行われる。以上、第2の実施の形態のキャラクタ映像表示機能付き電話の構成および動作について説明した。
第2の実施の形態においては、音声データから話者の感情を示す感情パラメータを求め、感情パラメータに基づいてキャラクタ画像を生成するので、話者の感情を反映したキャラクタを表示できる。
また、第2の実施の形態のキャラクタ映像表示機能付き電話は、第1の実施の形態と同様に、音声データをキャラクタの唇の動きを同期させることにより、あたかもキャラクタがしゃべっているように見せることができる。
(第3の実施の形態)
図9は、第3の実施の形態におけるキャラクタ映像表示機能付き電話の機能ブロック図である。図9において、送信端末装置100は、音声を入力するマイクなどの音声入力部101と、音声データを符号化して電話網120へ送信する電話送信部102と、情報の入力を受け付けるキーパッドなどのユーザ操作入力部103と、話者の癖や特性などの個性を示す属性パラメータを記憶する属性パラメータデータベース(以下、「属性パラメータDB」という)104と、キャラクタを動作させるための感情パラメータおよび属性パラメータをパケット送信するパケット送信部105とを備える。受信端末装置110は、電話網120から音声データを受信し、復号する電話受信部111と、復号した音声データを出力するスピーカなどの音声出力部112と、送信端末装置100から送信される感情パラメータおよび属性パラメータをパケット受信するパケット受信部115と、キャラクタ画像を生成する映像生成部113と、キャラクタ画像を表示する映像出力部114とを備える。送信端末装置100と受信端末装置110は、電話網120およびパケット網130によって接続されている。
送信端末装置100において、ユーザ操作入力部103はユーザの感情等の入力を受け付ける機能を有する。例えば、ユーザ操作入力部103は、「喜ぶ」「怒る」「悲しむ」等の感情を選択肢として表示し、話者に選択させる。そして、ユーザ操作入力部103は、ユーザの選択に応じて感情パラメータを決定し、決定された感情パラメータをパケット送信部105に送る。
属性パラメータDB104は、話者の個性を示す属性パラメータを記憶する機能を有する。属性パラメータDB104には、例えば、「話すときに頭を振る」「相槌をうつ」などの情報が記憶される。この情報は、話者によってあらかじめ設定される。属性パラメータDB104に記憶された属性パラメータは、パケット送信部105から受信端末装置110に送信される。
次に、受信端末装置110について説明する。第3の実施の形態の受信端末装置110の基本的な構成は、第1の実施の形態の受信端末装置110と同じであるが、映像生成部113の構成が異なる。
図10は、映像生成部113の構成を示す図である。映像生成部113は、音声データから音素を抽出する音素抽出部201と、パケット受信部115にて受信した感情パラメータおよび属性パラメータがそれぞれ入力される感情パラメータ入力部209および属性パラメータ入力部210と、キャラクタ画像を合成する画像合成部207とを備える。画像合成部207には、音素ごとのキャラクタ画像を記憶したキャラクタ画像DB203と、感情パラメータに応じてキャラクタ画像を変形するための変形情報DB208が接続されている。画像合成部207は、音素抽出部201にて音声データから抽出された音素に基づいてキャラクタ画像DB203からキャラクタ画像を選択し、感情パラメータ入力部209から送られた感情パラメータに基づいてキャラクタ画像を変形する。第3の実施の形態ではさらに、画像合成部207は、属性パラメータ入力部210から送られた属性パラメータに応じて、キャラクタ映像を動作させる。例えば、属性パラメータが「話すときに頭を振る」である場合、音声データが出力されるときに、図11(a)に示すキャラクタを図11(b)に示すように動かす。
図12は、第3の実施の形態のキャラクタ映像表示機能付き電話におけるシーケンスを示す図である。図12を参照しながら、キャラクタ映像表示機能付き電話の動作について説明する。
まず、送信端末装置100は、マイクなどの音声入力部101にて入力された音声データを電話送信部102に送る(S30)。電話送信部102は、音声入力部101から送られた音声データを符号化し(S32)、符号化した音声データを電話網120を通じて受信端末装置110に送信する(S34)。ここでは、電話送信部102が音声データの符号化を行う例について説明したが、音声データの符号化は、音声入力部101にて行ってもよい。
次に、送信端末装置100は、ユーザ操作部407を通じてユーザの操作からユーザの感情を示す感情パラメータを取得し、感情パラメータをパケット送信部105に送る(S36)。また、パケット送信部105は、属性パラメータDB104に記憶されている属性パラメータを読み出す(S38)。そして、パケット送信部105は、感情パラメータと属性パラメータとを符号化し(S40)、パケット網130を通じて受信端末装置110へ送信する(S42)。なお、本実施の形態では感情パラメータと属性パラメータの両方を用いる例について説明しているが、いずれか一方のみを用いることも可能である。また、感情パラメータと属性パラメータを送信するタイミングは、同じでなくてもよい。
受信端末装置110は、電話網120から受信された音声データを、電話受信部111にて受信する。受信端末装置110は、パケット網130を通じて送信された感情パラメータおよび属性パラメータをパケット受信部115にて受信し、復号化する(S44)。パケット受信部115は、復号化した感情パラメータおよび属性パラメータを映像生成部113に送る(S46)。なお、パケット受信部115が暗号化されたパケットデータをそのままキャラクタ映像生成部113に送り、映像生成部113にてパケットデータを復号化する構成としてもよい。
また、電話受信部111は、受信した音声データを復号化し(S48)、復号化した音声データを音声出力部112および映像生成部113に送る(S50、S56)。なお、本実施の形態では、電話受信部111にて音声データを復号化する例について説明したが、電話受信部111にて復号化を行わずに、映像生成部113および音声出力部112にて音声データを復号化してもよい。
映像生成部113では、電話受信部111から入力された音声データと、パケット受信部115から送信された感情パラメータおよび属性パラメータに基づいて、キャラクタ映像を生成する(S52)。具体的には、まず、音素抽出部201にて音声データから音素を抽出し、抽出した音素に合ったキャラクタ画像を選択する。続いて、パケット受信部115から送られた感情パラメータにより選択したキャラクタ画像を変形する。そして、パケット受信部115から送られた属性パラメータによりキャラクタ映像を動作させる。例えば、属性パラメータが「話すときに頭を振る」である場合、図11(b)に示すように、音声データを出力するときにキャラクタの頭を振る映像を生成する。
映像生成部113は、生成した映像を映像出力部114に送る(S54)。映像出力部114は、受信端末装置110に表示する。以上の動作を、音声データを受信するたびに繰り返し行うことにより、キャラクタ映像を音声に同期して表示させることができる。
第3の実施の形態のキャラクタ映像表示機能付き電話は、話者の癖などの個性を属性パラメータとして送信端末装置100に記憶しておき、パケット送信部105にて読み出して受信端末装置110に送信し、受信端末装置110にて属性パラメータを反映したキャラクタ映像を表示するので、話者の属性をキャラクタに反映できる。
また、第3の実施の形態のキャラクタ映像表示機能付き電話は、上記した第2の実施の形態と同様に、音声データとキャラクタの唇の動きを同期させると共に話者の感情を反映したキャラクタ映像を表示することができる。第3の実施の形態では、ユーザ操作入力部103にて話者の感情の入力を受け付けるので、キャラクタに話者の感情を適切に反映できる。
以上、本発明のキャラクタ映像表示機能付き電話について、実施の形態を挙げて詳細に説明したが、本発明のキャラクタ映像表示機能付き電話は、上記した実施の形態に限定されるものではない。
上記した実施の形態では、受信端末装置110にてキャラクタ映像を生成する例について説明したが、送信端末装置100にてキャラクタ映像を生成することも可能である。この場合、送信データから送信する音声データとキャラクタ映像との同期をとるための構成が必要となる。例えば、音声データをパケットデータとして送信する構成とし、音声データと映像データとの同期をとるための番号を音声データパケットおよび映像データパケットに付すことにより、同期をとることができる。
上記した実施の形態では、映像生成部113は、キャラクタ画像DB203に記憶されたキャラクタ画像を読み出し、読み出したキャラクタ画像に感情パラメータまたは属性パラメータによる変形を行ってキャラクタ映像を生成したが、キャラクタ映像を生成する方法は上記した実施の形態の方法に限られない。例えば、キャラクタ映像を構成する「目」「鼻」「口」等の顔のパーツをデータベースに記憶しておき、感情パラメータまたは属性パラメータに応じて、対応するパーツを読み出してキャラクタ画像を生成してもよい。また、属性パラメータとして性別や年代の情報を送信し、性別や年代に合ったキャラクタ映像を生成してもよい。
上記した第2の実施の形態では、音声認識部204にて音声データから抽出した単語によって話者の感情を示す感情パラメータを求めたが、別の方法によって感情パラメータを求めてもよい。例えば、音声の大きさによって感情パラメータを用いてもよいし、音声情報をフーリエ変換して音声の周波数を分析することによって感情パラメータを求めてもよい。
上記した実施の形態では、キャラクタ画像DB203には、キャラクタ画像を日本語の音素に関連付けて記憶しているが、英語やその他の外国語の音素に合わせてキャラクタ画像を記憶させてもよい。
以上説明したように、本発明は、音素抽出部にて音声情報から音素を抽出し、音素に合った唇の画像を含むキャラクタ映像を生成することにより、音声に合わせて唇の形が変化するのでキャラクタがしゃべっているように見せることができるというすぐれた効果を有し、キャラクタ映像表示機能付きの携帯電話等として有用である。
第1の実施の形態のキャラクタ映像表示機能付き電話の機能ブロック図 第1の実施の形態における映像生成部の構成を示す図 キャラクタ画像DBに記憶されたデータの例を示す図 第1の実施の形態のキャラクタ映像表示機能付き電話のシーケンス 第2の実施の形態のキャラクタ映像表示機能付き電話の機能ブロック図 感情パラメータDBに記憶されたデータの例を示す図 変形情報DBに記憶されたデータの例を示す図 感情パラメータを反映したキャラクタモデルを示す図 第3の実施の形態のキャラクタ映像表示機能付き電話の機能ブロック図 第3の実施の形態における映像生成部の構成を示す図 第3の実施の形態におけるキャラクタの表示例を示す図 第3の実施の形態のキャラクタ映像表示機能付き電話のシーケンス 従来のテレビ電話装置の機能ブロック図
符号の説明
100 送信端末装置
101 音声入力部
102 電話送信部
103 ユーザ操作入力部
104 属性パラメータDB
105 パケット送信部
110 受信端末装置
111 電話受信部
112 音声出力部
113 映像生成部
114 映像出力部
115 パケット受信部
120 電話網
130 パケット網
201 音素抽出部
202 画像選択部
203 キャラクタ画像DB
204 音声認識部
205 感情パラメータ読出部
206 感情パラメータDB
207 画像合成部
208 変形情報DB
209 感情パラメータ受信部
210 属性パラメータ受信部
301 送信端末装置
302 受信端末装置
303 ネットワーク
304 画像入力部
305 表情特徴抽出部
306 モデルデータ作成部
307 レンダリング部
308 モデルデータ格納部

Claims (8)

  1. 音声情報を入力する音声情報入力部と、
    前記音声情報入力部に入力された音声情報から音素を抽出する音素抽出部と、
    前記音素抽出部にて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成部と、
    前記音声情報入力部に入力された音声情報を出力する音声情報出力部と、
    前記映像生成部にて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力部と、
    を備えたことを特徴とするキャラクタ映像表示機能付き通信端末。
  2. 前記音声情報入力部に入力された音声情報の音声認識を行って前記音声情報に含まれる単語を抽出する音声認識部と、
    話者の発する単語と話者の感情を示す感情パラメータとを関連付けて記憶した感情パラメータ記憶部と、
    前記音声認識部にて抽出された単語に対応する感情パラメータを前記感情パラメータ記憶部から読み出す感情パラメータ読出部と、
    を備え、
    前記映像生成部は、前記感情パラメータ読出部にて読み出された感情パラメータに基づいてキャラクタ映像を生成することを特徴とする請求項1に記載のキャラクタ映像表示機能付き通信端末。
  3. 前記音声情報入力部に入力された音声の大きさに基づいて、話者の感情を示す感情パラメータを決定する感情パラメータ決定部を備え、
    前記映像生成部は、前記感情パラメータ決定部にて決定された感情パラメータに基づいてキャラクタ映像を生成することを特徴とする請求項1に記載のキャラクタ映像表示機能付き通信端末。
  4. 前記音声情報入力部は、通信相手端末から送信される音声情報を受信する音声情報受信部であることを特徴とする請求項1〜3のいずれかに記載のキャラクタ映像表示機能付き通信端末。
  5. 話者の感情を示す感情パラメータを通信相手端末から受信する感情パラメータ受信部を備え、
    前記映像生成部は、前記感情パラメータ受信部にて受信した感情パラメータに基づいてキャラクタ映像を生成することを特徴とする請求項1に記載のキャラクタ映像表示機能付き通信端末。
  6. 通信相手端末に記憶された前記通信相手端末の話者の属性パラメータを前記通信相手端末から受信する属性パラメータ受信部を備え、
    前記映像生成部は、前記属性パラメータ受信部にて受信した属性パラメータに基づいてキャラクタ映像を生成することを特徴とする請求項1に記載のキャラクタ映像表示機能付き通信端末。
  7. 音声情報を入力する音声情報入力ステップと、
    前記音声情報入力ステップにて入力された音声情報から音素を抽出する音素抽出ステップと、
    前記音素抽出ステップにて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成ステップと、
    前記音声情報入力ステップにて入力された音声情報を出力する音声情報出力ステップと、
    前記映像生成ステップにて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力ステップと、
    を備えたことを特徴とするキャラクタ映像表示機能付き通信端末の制御方法。
  8. キャラクタ映像表示機能付き通信端末にキャラクタ映像を表示させるためのプログラムであって、前記キャラクタ映像表示機能付き通信端末に、
    音声情報を入力する音声情報入力ステップと、
    前記音声情報入力ステップにて入力された音声情報から音素を抽出する音素抽出ステップと、
    前記音素抽出ステップにて順次抽出される音素に合った唇の画像を含むキャラクタ映像を生成する映像生成ステップと、
    前記音声情報入力ステップにて入力された音声情報を出力する音声情報出力ステップと、
    前記映像生成ステップにて生成されたキャラクタ映像を、前記音声情報に合わせて出力する映像出力ステップと、
    を実行させることを特徴とするプログラム。
JP2004228065A 2004-08-04 2004-08-04 キャラクタ映像表示機能付き通信端末およびその制御方法 Pending JP2006048352A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004228065A JP2006048352A (ja) 2004-08-04 2004-08-04 キャラクタ映像表示機能付き通信端末およびその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004228065A JP2006048352A (ja) 2004-08-04 2004-08-04 キャラクタ映像表示機能付き通信端末およびその制御方法

Publications (1)

Publication Number Publication Date
JP2006048352A true JP2006048352A (ja) 2006-02-16

Family

ID=36026832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004228065A Pending JP2006048352A (ja) 2004-08-04 2004-08-04 キャラクタ映像表示機能付き通信端末およびその制御方法

Country Status (1)

Country Link
JP (1) JP2006048352A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101326651B1 (ko) * 2006-12-19 2013-11-08 엘지전자 주식회사 이모티콘을 이용한 화상통화장치 및 방법
JP2018036621A (ja) * 2016-08-30 2018-03-08 北京百度網訊科技有限公司 情報入力方法および装置
KR102045761B1 (ko) * 2019-09-26 2019-11-18 미디어젠(주) 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치
JP2021056940A (ja) * 2019-10-01 2021-04-08 エヌ・ティ・ティ・コミュニケーションズ株式会社 コミュニケーションシステム、応対端末装置およびそのプログラム
WO2023281704A1 (ja) * 2021-07-08 2023-01-12 日本電信電話株式会社 通信方法、通信端末、及びプログラム
JP7415387B2 (ja) 2019-09-13 2024-01-17 大日本印刷株式会社 仮想キャラクタ生成装置及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101326651B1 (ko) * 2006-12-19 2013-11-08 엘지전자 주식회사 이모티콘을 이용한 화상통화장치 및 방법
JP2018036621A (ja) * 2016-08-30 2018-03-08 北京百度網訊科技有限公司 情報入力方法および装置
JP7415387B2 (ja) 2019-09-13 2024-01-17 大日本印刷株式会社 仮想キャラクタ生成装置及びプログラム
KR102045761B1 (ko) * 2019-09-26 2019-11-18 미디어젠(주) 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치
JP2021056940A (ja) * 2019-10-01 2021-04-08 エヌ・ティ・ティ・コミュニケーションズ株式会社 コミュニケーションシステム、応対端末装置およびそのプログラム
JP7411369B2 (ja) 2019-10-01 2024-01-11 エヌ・ティ・ティ・コミュニケーションズ株式会社 コミュニケーションシステム、応対端末装置およびそのプログラム
WO2023281704A1 (ja) * 2021-07-08 2023-01-12 日本電信電話株式会社 通信方法、通信端末、及びプログラム

Similar Documents

Publication Publication Date Title
US8886537B2 (en) Method and system for text-to-speech synthesis with personalized voice
JP5600092B2 (ja) 携帯型デバイス内のテキスト音声処理用システムおよび方法
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
US20090198497A1 (en) Method and apparatus for speech synthesis of text message
JP4344658B2 (ja) 音声合成機
US20030149569A1 (en) Character animation
US8768701B2 (en) Prosodic mimic method and apparatus
JP2006330958A (ja) 画像合成装置、ならびにその装置を用いた通信端末および画像コミュニケーションシステム、ならびにそのシステムにおけるチャットサーバ
JP2010519791A (ja) 通信ネットワーク、およびテキストから音声へ・テキストから顔の動画への変換装置
KR20140146965A (ko) 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법
JP2007272773A (ja) 対話型インターフェイス制御システム
JP2009025658A (ja) 音声合成装置、音声合成システム
JP2017167779A (ja) 画像処理装置、表示装置、アニメーション生成方法、アニメーション表示方法及びプログラム
JP2008085421A (ja) テレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバ
JP2005078427A (ja) 携帯端末及びコンピュータ・ソフトウエア
JP2003037826A (ja) 代理画像表示装置およびテレビ電話装置
CN113704390A (zh) 虚拟对象的交互方法、装置、计算机可读介质及电子设备
JP2005065252A (ja) 携帯電話機
KR20170135598A (ko) 특정인의 합성된 가상 음성을 이용한 음성 대화 시스템 및 방법
JP4599606B2 (ja) 頭部動作自動生成のための頭部動作学習装置及び頭部動作合成装置並びにコンピュータプログラム
JP2006048352A (ja) キャラクタ映像表示機能付き通信端末およびその制御方法
JP2004015478A (ja) 音声通信端末装置
JP2006065683A (ja) アバタ通信システム
JP3299797B2 (ja) 合成画像表示システム
KR100395491B1 (ko) 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법