JP2004349851A

JP2004349851A - 携帯端末、画像通信プログラム、及び画像通信方法

Info

Publication number: JP2004349851A
Application number: JP2003142292A
Authority: JP
Inventors: Kazuya Yasuzawa; 和哉安澤; Yasutaka Urakawa; 康孝浦川; Kenji Ishii; 賢次石井
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2003-05-20
Filing date: 2003-05-20
Publication date: 2004-12-09
Also published as: CN1607829A; DE602004000833T2; US7486969B2; EP1480425A1; EP1480425B1; DE602004000833D1; CN1328909C; US20040235531A1

Abstract

【課題】携帯端末が、比較的簡易な構成で、送話者の所望に近いキャラクタ画像を生成し受話者の携帯端末に送信することにより、送話者と受話者との通話における興趣性を高めることである。
【解決手段】本発明に係る送信側携帯電話１０は、キャラクタ画像ＤＢ１１と、利用者指示部１２と、キャラクタ画像生成部１３と、通信部１７とを備える。キャラクタ画像ＤＢ１１には複数のキャラクタ画像が予め格納されている。利用者指示部１２は、受信側携帯電話２０宛に送信するためのキャラクタ画像の表情又は動作を指定する。キャラクタ画像生成部１３は、キャラクタ画像ＤＢ１１に格納されている複数のキャラクタ画像の中から一のキャラクタ画像を取得し、当該キャラクタ画像を使用して、利用者指示部１２により指定された表情又は動作のキャラクタ画像を生成する。通信部１７は、生成されたキャラクタ画像を受信側携帯電話２０に送信する。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、携帯端末、画像通信プログラム、及び画像通信方法に関する。
【０００２】
【従来の技術】
従来、無線通信の高速化や画像圧縮技術の発達に伴い、テレビ電話機能付の携帯電話が実用化されている。かかる携帯電話は、内蔵カメラにより撮影された送話者の動画像を受話者の携帯電話にリアルタイムに送信し、受話者の携帯電話は、この動画像を受信して逐次再生する。これにより、送話者と受話者は、お互いの顔の画像を見ながら通話を行うことができる。
【０００３】
テレビ電話機能付の携帯電話の中には、実際に撮影された送話者の顔画像の代わりに、送話者の顔を所定のキャラクタに見立てた画像データ（以下、「キャラクタ画像」と記す。）を送信する機能を有するものも提案されている。例えば、後述の特許文献１には、携帯電話に入力された音声に基づいてキャラクタ画像を生成し、受話者の携帯電話宛に送信するテレビ電話が開示されている。また、特許文献２には、送話者の顔の表情の変化に応じてキャラクタ画像も変化させ、受話者の携帯電話宛に送信する携帯電話機が開示されている。
【０００４】
【特許文献１】
特開２００２−００９９６３号公報
【特許文献２】
特開２００２−１７６６３２号公報
【０００５】
【発明が解決しようとする課題】
しかしながら、上記従来技術は何れも、送話者の発する音声そのものや顔の表情に基づいて携帯電話がキャラクタ画像を生成するものであり、生成される画像は、必ずしも送話者自身の感情や意思が反映されたものではない。このため、必ずしも送話者の所望するキャラクタ画像が生成されるとは限らない。特に、特許文献１に記載の発明においては、生成されたキャラクタ画像は、送話者の音声の音調（音量や周波数）までが考慮されたものではなく、キャラクタ画像の表情に送話者の感情が充分に反映されない場合がある。また、特許文献２に記載の発明では、送話者の感情や意思をキャラクタ画像に反映させるための処理として、送話者の顔画像を解析する処理が別途必要になる。
【０００６】
そこで、本発明の課題は、携帯端末が、比較的簡易な構成で、送話者の所望に近いキャラクタ画像を生成し受話者の携帯端末に送信することにより、送話者と受話者との通話における興趣性を高めることである。
【０００７】
【課題を解決するための手段】
上記課題を解決すべく、本発明に係る送信側携帯端末は、複数のキャラクタ画像を格納する格納手段と、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を指定する指定手段と、前記格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記指定手段により指定された表情又は動作のキャラクタ画像を生成する生成手段と、前記生成手段により生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信手段とを備える。
【０００８】
また、本発明に係る画像通信プログラムは、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を指定する指定処理と、格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記指定処理により指定された表情又は動作のキャラクタ画像を生成する生成処理と、前記生成処理により生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信処理とを送信側携帯端末に実行させる。
【０００９】
更に、本発明に係る画像通信方法は、送信側携帯端末が、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を指定する指定ステップと、前記送信側携帯端末が、格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記指定ステップにて指定された表情又は動作のキャラクタ画像を生成する生成ステップと、前記送信側携帯端末が、前記生成ステップにて生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信ステップとを含む。
【００１０】
これらの発明によれば、送信側携帯端末において、複数のキャラクタ画像の中から取得されたキャラクタ画像を使用して、指定された表情又は動作を有するキャラクタ画像が生成（例えば描画）され、受信側携帯端末宛に送信される。すなわち、受信側携帯端末に送信されるキャラクタ画像の表情又は動作は、送信側携帯端末の利用者である送話者の感情や意思が反映されたものとなり、比較的簡易な構成で、送話者の所望に近いキャラクタ画像の生成及び送受信が可能となる。その結果、送話者と受話者との通話における興趣性が高まる。
【００１１】
本発明に係る送信側携帯端末は、複数のキャラクタ画像を格納する格納手段と、音声を入力する入力手段と、前記入力手段により入力された音声の音調を解析すると共に、当該音調解析結果に基づいて、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を決定する決定手段と、前記格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記決定手段により決定された表情又は動作のキャラクタ画像を生成する生成手段と、前記生成手段により生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信手段とを備える。
【００１２】
本発明に係る画像通信プログラムは、音声を入力する入力処理と、前記入力処理により入力された音声の音調を解析すると共に、当該音調解析結果に基づいて、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を決定する決定処理と、格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記決定処理により決定された表情又は動作のキャラクタ画像を生成する生成処理と、前記生成処理により生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信処理とを送信側携帯端末に実行させる。
【００１３】
本発明に係る画像通信方法は、送信側携帯端末が、音声を入力する入力ステップと、前記送信側携帯端末が、前記入力ステップにて入力された音声の音調を解析すると共に、当該音調解析結果に基づいて、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を決定する決定ステップと、前記送信側携帯端末が、格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記決定ステップにて決定された表情又は動作のキャラクタ画像を生成する生成ステップと、前記送信側携帯端末が、前記生成ステップにて生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信ステップとを含む。
【００１４】
これらの発明によれば、送信側携帯端末において、複数のキャラクタ画像の中から取得されたキャラクタ画像を使用して、入力された音声の音調解析結果に基づいて決定された表情又は動作を有するキャラクタ画像が生成され、受信側携帯端末宛に送信される。すなわち、受信側携帯端末に送信されるキャラクタ画像の表情又は動作は、送信側携帯端末の利用者である送話者の音声の音調が反映されたものとなる。また、かかる音調には、送話者の感情が適宜反映される。したがって、送話者の顔画像を解析する処理を必要とせずに比較的簡易な構成で、送話者の所望に近いキャラクタ画像の生成及び送受信が可能となる。その結果、送話者と受話者との通話における興趣性が高まる。
【００１５】
本発明に係る送信側携帯端末において好ましくは、前記生成手段は、当該生成手段が生成した前記キャラクタ画像を送信側携帯端末の表示手段に表示させる。
【００１６】
本発明によれば、送信側携帯端末において生成されたキャラクタ画像は、受信側携帯端末のみならず、送信側携帯端末の表示手段にも表示される。したがって、送話者は、受話者が如何なるキャラクタ画像を見ながら通話しているかを容易かつ迅速に把握しつつ、通話を行うことができる。また、送信側携帯端末側に表示されているキャラクタ画像に、画面上の位置を示すポインタを重ねて表示することにより、ポインタの動きに応じてキャラクタ画像の向きを変えたり、キャラクタ画像の一部を選択したりするといった機能を付加することも可能となる。
【００１７】
本発明に係る送信側携帯端末において好ましくは、前記決定手段は、前記受信側携帯端末から送信された音声に基づいて、当該受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を決定する。
【００１８】
本発明によれば、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作は、当該受信側携帯端末から送信された受話者の音声に基づいて決定される。これにより、受話者の側からも、キャラクタ画像の表情又は動作を能動的に変化させることが可能となり、より興趣性、娯楽性が増す。ここで、受話者の音声はその音調であってもよく、かかる場合には、キャラクタ画像の表情又は動作は、前記決定手段による受話者の音声の音調解析結果に基づいて決定されることになる。なお、この場合でも、送信側携帯端末が、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を、送信側携帯端末で入力された送話者の音声の音調解析結果に基づいて決定することもできることはいうまでもない。更には、送信側携帯端末で入力された送話者の音声の音調解析結果と受話者の音声の音調解析結果との双方に基づいて、上記キャラクタ画像の表情又は動作を決定することも可能である。
【００１９】
本発明に係る送信側携帯端末において好ましくは、前記決定手段は、前記音調として、前記音声の音量、周波数のうち、少なくとも一方を解析する。
【００２０】
本発明によれば、送信側携帯端末において、複数のキャラクタ画像の中から取得されたキャラクタ画像を使用して、入力された音声の音量（音声の有無を含む）、周波数のうち、少なくとも一方に基づいて決定された表情又は動作を有するキャラクタ画像が生成される。生成されたキャラクタ画像は、受信側携帯端末宛に送信される。入力された音声の音量には、送信側携帯端末の利用者たる送話者の感情が反映され易い。この感情に応じて、送信側携帯端末は、生成及び送信するキャラクタ画像の表情又は動作を変える。
【００２１】
例えば、送話者の現在の音量と通常時の音量との差が所定値未満である場合には、送信側携帯端末は、送話者の感情は平常状態にあるものと判断し、ノーマルな感情を表すキャラクタ画像を生成及び送信する。一方、送話者の現在の音量と通常時の音量との差が上記所定値以上であり、かつ、送話者の現在の音量が上記通常時の音量以上である場合には、送信側携帯端末は、送話者の感情は平常状態よりも高ぶった状態にあるものと判断し、ホットな感情を表すキャラクタ画像を生成及び送信する。更に、送話者の現在の音量と通常時の音量との差が上記所定値以上であり、かつ、送話者の現在の音量が上記通常時の音量未満である場合には、送信側携帯端末は、送話者の感情は平常状態よりも落ち着いた状態にあるものと判断し、クールな感情を表すキャラクタ画像を生成及び送信する。このように、送信側携帯端末は、入力された音声の音量から送話者の現在の感情をある程度予測し、その予測結果に応じて、通信相手に見せるキャラクタ画像の表情又は動作を適宜変化させることができるので、通話における興趣性がより高まる。
【００２２】
また、キャラクタ画像の表情又は動作を決定する指標としては、音量に限らず周波数を用いてもよい。すなわち、送話者の現在の周波数が、通常時の周波数に所定値を加算した値未満である場合には、送信側携帯端末は、送話者の感情は平常状態にあるものと判断し、ノーマルな感情を表すキャラクタ画像を生成及び送信する。一方、送話者の現在の周波数が、通常時の周波数に所定値を加算した値以上であり、かつ、上記通常時の周波数から別の所定値を減算した値以上である場合には、送信側携帯端末は、送話者の感情は平常状態よりも高ぶった状態にあるものと判断し、ホットな感情を表すキャラクタ画像を生成及び送信する。更に、送話者の現在の周波数が、通常時の周波数に所定値を加算した値以上であり、かつ、上記通常時の周波数から別の所定値を減算した値未満である場合には、送信側携帯端末は、送話者の感情は平常状態よりも落ち着いた状態にあるものと判断し、クールな感情を表すキャラクタ画像を生成及び送信する。
【００２３】
また、音量と周波数とを組み合わせて、キャラクタ画像の表情又は動作を決定してもよい。
【００２４】
送信側携帯端末において、より好ましくは、前記送信手段は、標準的な動画通信用プロトコルを使用して、前記キャラクタ画像の送信を行う。
【００２５】
画像通信プログラムにおいて、より好ましくは、前記送信処理では、標準的な動画通信用プロトコルを使用して、前記キャラクタ画像を送信させる。
【００２６】
画像通信方法において、より好ましくは、前記送信ステップでは、前記送信側携帯端末が、標準的な動画通信用プロトコルを使用して、前記キャラクタ画像の送信を行う。
【００２７】
標準的な動画通信用プロトコルとは、例えば、Ｈ．３２０、Ｈ．３２４、３Ｇ３２４Ｍなどである。このように、標準的な既存の通信プロトコルをキャラクタ画像の送信に使用することで、新たな画像送信技術を開発することなく、本発明の課題を解決可能である。
【００２８】
また、上述した送信側携帯端末と受信側携帯端末とを備え、前記送信側携帯端末は、生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する画像通信システムを構築することも可能である。
【００２９】
【発明の実施の形態】
（第１の実施形態）
以下、添付図面を参照して、本発明の第１の実施形態におけるテレビ電話システム（画像通信システムに対応）について説明する。まず、構成を説明する。図１は、送話者と受話者との間で画像を用いて通話を行うためのテレビ電話システム１の全体構成を示す図である。本システムで送受信される画像は、送話者又は受話者が実際に撮影された画像ではなく、その代理として、送話者又は受話者を所定のキャラクタに見立てて生成された画像データ（キャラクタ画像）である。
【００３０】
図１に示す様に、送話者の携帯電話１０（送信側携帯端末に対応）は、基地局Ｂ１を介して通信網Ｎと無線接続されており、受話者の携帯電話２０（受信側携帯端末に対応）は、基地局Ｂ２を介して通信網Ｎと無線接続されている。これにより、携帯電話１０と携帯電話２０とは、キャラクタ画像を含む各種データの送受信を双方向に行うことが可能である。
【００３１】
次に、図２を参照して、携帯電話１０の機能的構成を説明する。
【００３２】
図２に示す様に、携帯電話１０は、機能的には、キャラクタ画像ＤＢ１１（格納手段に対応）と、利用者指示部１２（指定手段に対応）と、キャラクタ画像生成部１３（生成手段に対応）と、画像符号化部１４と、音声符号化部１５と、プロトコル処理部１６と、通信部１７（送信手段に対応）とを備える。
【００３３】
キャラクタ画像ＤＢ１１には、利用者指示部１２による選択の対象となる複数のキャラクタ画像が予め格納（登録）されている。キャラクタ画像は、送話者の多様な特徴に対応可能な様に、例えば、性別、年齢はもとより、髪型や服装などの違いに応じて複数登録されている。これらのキャラクタ画像は、インターネットからのダウンロードや、赤外線などの近距離無線通信、あるいは電子メールにより取得することができる。また、キャラクタ画像のデータ形式は、静止画ベースや３Ｄ（Ｄｉｍｅｎｓｉｏｎ）ベースの静的データ形式のほか、表現若しくは動作の指示入力と画像符号化部１４への出力インタフェースとを使用したアプリケーション形式など、任意である。
【００３４】
キャラクタ画像ＤＢ１１に格納されるキャラクタ画像は、カレンダや時計と連動して、季節や日時に応じて動的に変更されるようにしてもよい。例えば、キャラクタ画像と共にその背景画像が格納されている場合には、夏には背景画像が海水浴場の画像になり、２０時以降は背景画像が夜景の画像になる。また、早朝にはキャラクタ画像は素顔（すっぴん）であり、夜にはパジャマを着る、クリスマスにはサンタクロースの格好になる、といったキャラクタ画像の変更も可能である。
【００３５】
利用者指示部１２は、キャラクタ画像ＤＢ１１に格納されている複数のキャラクタ画像の中から、一のキャラクタ画像を、表情変化若しくは動作前のキャラクタ画像（換言すれば、ベースとなるキャラクタ画像）として選択する。なお、キャラクタ画像は、携帯電話１０の利用者による入力操作に基づいて選択されるものとしてもよいし、電話帳に登録されているグループや個人に予め対応付けられたキャラクタ画像の中から、通話相手（携帯電話２０）に対応するものが自動的に選択されるものとしてもよい。
【００３６】
また、利用者指示部１２は、携帯電話１０の利用者による入力操作に基づいて、選択されたキャラクタ画像の表情、動作のうち、少なくとも一方を指定する。指定内容は、キャラクタ画像生成部１３に出力される。例えば、上下左右方向のカーソルキーにそれぞれ、「笑う」、「泣く」、「怒る」の各表情、「おじぎをする」の動作が割り当てられている場合には、上向きキーを１回押下すると、笑った表情のキャラクタ画像が指定され、右向きキーを１回押下すると、おじぎの動作を行うキャラクタ画像が指定される。また、上向きキーの押下後に更に上向きキーが押下されると、その回数に応じて、笑った表情の度合いが高まったキャラクタ画像が指定されるなどして、表情に強弱を付ける機能を付加することもできる。
【００３７】
キーに割り当てられる指定内容（定義内容）は、例えば、右目を閉じる、キャラクタの全身を表示、上半身のみを表示などの個別的なものに限らず、口と眼の動作を複合して笑顔を生成させる、口の動きを変化させて”あいうえお”を発音するときの口を生成させる、といった複合的なものであってもよい。更に、スクリプトを使用して、順次処理、繰返し処理、待ち、条件などを個別的な指定内容に付加することにより、キャラクタ画像に様々な動きをもたせてもよい。
【００３８】
キャラクタ画像が携帯電話１０の画面上にも表示されている場合には、利用者指示部１２により、携帯電話１０の画面上に表示されたポインタを適宜移動させるものとしてもよい。これにより、キャラクタ画像の顔の向きを変えたり、キャラクタ画像の一部を指定したり、キャラクタ画像の頭をなでたりすることもできる。例えば、キャラクタ画像の一部として服を指定することで服の着替えが可能となり、キャラクタ画像の頭をなでることで笑った表情に変化させることも可能となる。
【００３９】
なお、キャラクタ画像ＤＢ１１内に、上記各表情又は動作のキャラクタ画像が予め格納されている場合には、利用者指示部１２は、携帯電話１０の利用者による入力操作に基づいて、一覧表示されたこれらのキャラクタ画像の中から一のキャラクタ画像を選択するものとしてもよい。
【００４０】
携帯電話１０の利用者による入力操作とは、手指による入力に限らず、音声認識及び単語登録を利用した音声入力を含む。
【００４１】
キャラクタ画像生成部１３は、利用者指示部１２により選択されたキャラクタ画像をキャラクタ画像ＤＢ１１から取得し、当該キャラクタ画像を用いて、利用者指示部１２により指定された表情又は動作のキャラクタ画像を生成する。
【００４２】
なお、キャラクタ画像生成部１３は、必ずしも、利用者指示部１２からの指示を待ってキャラクタ画像の生成を行うとは限らない。すなわち、利用者指示部１２からの指示が一定時間検知されない場合には、キャラクタ画像生成部１３は、携帯電話１０に予め登録されている若しくは利用者が事前に登録した、表情又は動作のキャラクタ画像を生成してもよい。例えば、３分間経過しても上記指示がない場合には、キャラクタ画像は、あくび等の眠くなる仕草やいらいらした仕草をし、更に３分間経過しても何も指示のない場合には寝てしまうなどして興趣性を高める。かかる表情又は動作は、キャラクタ画像の種類毎に異なる設定とすることもできる。
【００４３】
また、人間らしさを与えるために、キャラクタ画像生成部１３が、まばたきや微妙な顔の動きをキャラクタ画像に自動的に付与する機能を備えるものとしてもよい。すなわち、キャラクタ画像の動作に標準と非標準のものを定義しておき、非標準の動作として、うたたねをする、鏡を出して髪の毛を触る、携帯電話のメールをチェックする等の動作を行う機能を付加する。この場合、意外性をもたせるために、同じキャラクタ画像でも異なる動きをするようにするとよい。また、反対に、キャラクタ画像が人間らしさをもたない人形モードを追加してもよい。
【００４４】
画像符号化部１４は、キャラクタ画像生成部１３により生成されたキャラクタ画像を符号化及び圧縮する。
【００４５】
音声符号化部１５は、入力された送話者の音声を符号化及び圧縮する。
【００４６】
プロトコル処理部１６は、画像符号化部１４により符号化されたキャラクタ画像と、音声符号化部１５により符号化された音声とを、標準的なテレビ電話用のプロトコル（例えば３Ｇ−３２４Ｍ）を用いて、携帯電話２０が受信可能な信号に変換する。
【００４７】
通信部１７は、プロトコル処理部１６により変換されたキャラクタ画像及び音声の信号を携帯電話２０を宛先として実際に送信する。
【００４８】
続いて、図３を参照して、携帯電話１０のハードウェア構成、及び該ハードウェア構成と機能的構成との対応関係について説明する。図３は、携帯電話１０のハードウェア構成を示すブロック図である。図３に示す様に、携帯電話１０は、物理的には、制御装置１０ａ、入力装置１０ｂ、ＲＡＭ１０ｃ、表示装置１０ｄ、記憶装置１０ｅ、無線通信装置１０ｆ、及び音声処理装置１０ｇを備えて構成される。これら各装置は、それぞれバスを介して相互に各種信号の入出力が可能な様に電気的に接続されている。
【００４９】
より具体的には、制御装置１０ａは例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であり、入力装置１０ｂは例えばカーソルキーや数字入力キーであり、ＲＡＭ１０ｃは揮発性の半導体メモリである。表示装置１０ｄは例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）やＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）であり、記憶装置１０ｅは例えばフラッシュメモリ等の不揮発性の半導体メモリである。無線通信装置１０ｆは、例えばＲＦ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ）、ベースバンド部、テレビ電話プロトコル処理部を含む。音声処理装置１０ｇは、マイクＭ、スピーカＳの他、入力音声からその音調を解析する装置や音声認識装置を含む。
【００５０】
キャラクタ画像ＤＢ１１の有する機能は、物理的な構成要素としての記憶装置１０ｅにより実現され、利用者指示部１２の有する機能は入力装置１０ｂにより実現される。キャラクタ画像生成部１３の有する機能は制御装置１０ａが所定のプログラムを実行することにより実現される。また、画像符号化部１４とプロトコル処理部１６と通信部１７との有する機能は無線通信装置１０ｆにより実現され、音声符号化部１５の有する機能は音声処理装置１０ｇにより実現される。
【００５１】
次に、本実施の形態におけるテレビ電話システム１の動作を説明し、併せて、本発明に係る画像通信方法について説明する。本動作説明では、簡単の為、図４に示す様に、５種類の表情又は動作が各番号キーに割り当てられている場合を例に採る。すなわち、キー番号“１”には「両目を開く表情」が、キー番号“２”には「口を少し開く表情」が、キー番号“３”には「口を閉じる表情」が、キー番号“４”には「両目を閉じる（寝る）表情」が、キー番号“５”には「体を前傾させる（おじぎの）動作」が、それぞれ割り当てられているものとする。
【００５２】
図５は、テレビ電話システム１によって実行されるキャラクタ画像生成処理の流れを示すフローチャートである。まず、携帯電話１０の利用者が利用者指示部１２により一のキャラクタ画像を選択すると（Ｓ１）、選択されたキャラクタ画像がキャラクタ画像生成部１３に通知される。キャラクタ画像生成部１３は、当該通知を受けて、選択されたキャラクタ画像をベースとなるキャラクタ画像としてキャラクタ画像ＤＢ１１から取得する（Ｓ２）。
【００５３】
続いて、携帯電話１０の利用者が利用者指示部１２により、Ｓ２で取得されたキャラクタ画像に対して所望する表情又は動作を指定すると（Ｓ３）、指定された表情又は動作がキャラクタ画像生成部１３に通知される。キャラクタ画像生成部１３は、当該通知を受けて、Ｓ２で取得されたキャラクタ画像を基に、Ｓ３で指定された表情又は動作に従ってキャラクタ画像を生成する（Ｓ４）。
【００５４】
例えば、Ｓ１において図６（ａ）に示すキャラクタ画像１３ａが選択されている場合に、キー番号３，４のキーが組み合わせて押下されると、「口＝ＣＬＯＳＥ」、「右目＝ＣＬＯＳＥ，左目＝ＣＬＯＳＥ」の表情情報に従って、上記キャラクタ画像がレンダリングされる。その結果、図６（ｂ）に示す様な、口と両目を閉じた顔のキャラクタ画像１３ｂが生成される。
【００５５】
Ｓ５以降の処理は、周知慣用のテレビ電話技術であるので、その詳細な説明は省略するが、Ｓ５では、画像符号化部１４により、Ｓ４で生成されたキャラクタ画像が圧縮符号化される。同様に、Ｓ６では、音声符号化部１５により、入力された送話者の音声が圧縮符号化される。Ｓ５で圧縮符号化されたキャラクタ画像は、Ｓ６で圧縮符号化された音声と共に、プロトコル処理部１６に入力され、所定のテレビ電話用プロトコルを使用して携帯電話２０が受信可能な信号に変換される（Ｓ７）。そして、キャラクタ画像は、音声と共に、携帯電話１０の通信相手である携帯電話２０に送信される（Ｓ８）。
【００５６】
以上説明した様に、本発明に係るテレビ電話システム１によれば、携帯電話１０は、複数のキャラクタ画像の中から取得されたキャラクタ画像を使用して、指定された表情又は動作を有するキャラクタ画像を生成し、通話相手の携帯電話２０に送信する。これにより、送話者である携帯電話１０の利用者は、自己の感情や意思が反映されたキャラクタ画像を携帯電話２０側で表示させることができる。したがって、音声解析機能や画像解析機能を必要としない比較的簡易な携帯電話の構成で、送話者と受話者との通話における興趣性を高めることが可能となる。
【００５７】
テレビ電話システム１は、利用者からの指示に即応してキャラクタ画像の表情又は動作を変化させると共にキャラクタ画像と音声とを同時に送信する同期型再生を想定したものである。このため、電子メール等を使用した蓄積型の再生技術とは異なり、以下の様な利点がある。すなわち、送話者は、キャラクタ画像を介して、自己の感情や意思を受話者との会話に即時に反映させることができる。したがって、意思疎通のリアルタイム性を維持しつつ、送話者と受話者間のコミュニケーションの円滑化を図ることができる。
【００５８】
（第２の実施の形態）
次に、本発明の第２の実施形態を説明する。
【００５９】
第１の実施形態では、携帯電話１０の利用者がキャラクタ画像の表情又は動作を指定するものとしたが、本実施形態では、入力された上記利用者の音声の音調解析結果に基づいて、後述の音調解析部がキャラクタ画像の表情又は動作を決定する。音調とは音量や音の高低（周波数）であり、通常、音調は、音声を発した人の感情によって異なり、感情の変化に応じて経時的に変化するので、音調に基づいてキャラクタ画像の表情又は動作を変更することによっても、本発明の課題である興趣性の向上を実現可能である。
【００６０】
まず、第２の実施形態におけるテレビ電話システムの全体構成は、図１を参照して説明したテレビ電話システムの全体構成と同様であるので、その詳細な説明及び図示は省略する。すなわち、本実施形態におけるテレビ電話システム２は、携帯電話３０，４０と基地局Ｂ１，Ｂ２とネットワークＮとを備える。携帯電話３０は、基地局Ｂ１、ネットワークＮ、基地局Ｂ２を順次経由して、携帯電話４０との通信が可能となっている。
【００６１】
次に、図７を参照して、携帯電話３０の機能的構成を説明する。図７に示す様に、携帯電話３０は、機能的には、キャラクタ画像ＤＢ３１（格納手段に対応）と、利用者指示部３２と、キャラクタ画像生成部３３（生成手段に対応）と、画像符号化部３４と、音声符号化部３５と、プロトコル処理部３６と、通信部３７（送信手段に対応）と、音声入力部３８（入力手段に対応）と、音調解析部３９（決定手段に対応）とを備える。このように、携帯電話３０は、第１の実施形態における携帯電話１０と共通の構成要素を複数有する。したがって、かかる構成要素には同列（末尾が同一）の符号を付して対応関係を明確にすると共にその詳細な説明は省略し、第１及び第２の実施形態の差異に相当する特有の構成要素について、以下詳細に説明する。
【００６２】
音声入力部３８は、携帯電話３０の利用者が発した音声を集取して電気信号に変換した後、当該信号を音声信号として音調解析部３９に出力する。音声入力部３８の有する機能は、物理的な構成要素としての音声処理装置１０ｇ（図３参照）により実現される。
【００６３】
音調解析部３９は、音声入力部３８から入力された音声信号の音調を解析し、解析結果に基づいてキャラクタ画像の表情又は動作を決定する。決定された表情又は動作はキャラクタ画像生成部３３に通知される。音調解析部３９が音調解析結果をキャラクタ画像に反映させる手法は様々考え得る。その詳細な処理内容に関しては、動作説明にて後述するが、例えば、音調解析部３９は単純に、音声入力の有無に基づいて、キャラクタ画像の表情又は動作を決定する。すなわち、音量が０より大きい場合つまり音声入力がある場合には、送話者が話していることが予想されるのでキャラクタ画像の口を動かし、反対に、音量が０若しくは極めて小さい場合つまり音声入力がないと判断できる場合には、送話者が黙っていることが予想されるのでキャラクタ画像の口を閉じるものとする。
【００６４】
また、音調解析部３９は、音量の変化量に閾値を設定し、該変化量が閾値を超えたか否かに基づいて、キャラクタ画像の表情又は動作を決定するものとしてもよい。例えば、複数時点において測定された音量の差が閾値を超え、かつ、音量が小から大に変化している場合には、送話者が怒り出したという推測が可能であるので、キャラクタ画像の表情を怒った表情に決定する。
【００６５】
更に、音調解析部３９は、複数の感情に対応する音調パターンを予め保持しておき、音調解析結果に最も類似する音調パターンに対応する感情をキャラクタ画像の表情又は動作に反映させるものとしてもよい。音調解析結果と音調パターンとの類似性の判定には、音調解析結果からその特徴量を抽出することが有効である。例えば、音調解析結果から抽出された特徴量が、笑い声の有する音調パターンの特徴量と最も類似する場合には、音調解析部３９は、キャラクタ画像の表情を笑顔に決定し、泣き声の有する音調パターンの特徴量と最も類似する場合にはキャラクタ画像の表情を泣き顔に決定する。
【００６６】
また、音調解析部３９は、音声の周波数に閾値を設定し、該周波数が閾値を超えたか否かに基づいて、キャラクタ画像の表情又は動作を決定するものとしてもよい。例えば、任意の時点において測定された周波数が閾値を超えている場合つまり高い声の場合には、送話者の感情が高ぶっているものと判断し、キャラクタ画像の表情を興奮した表情に決定する。これに対して、測定された周波数が閾値以下の場合つまり低い声の場合には、キャラクタ画像の表情を元気のない表情に決定する。
【００６７】
更に、音調解析部３９は、音量と周波数とを組み合わせて、キャラクタ画像の表情を決定することもできる。この態様では、音調解析部３９は、図８に示すような参照テーブル３９１を有することが好適である。図８に示す様に、参照テーブル３９１には、音量の大小（５段階）と周波数の高低（５段階）別に複数の表情が設定されている。参照テーブル３９１に従えば、周波数レベルが最高値の“５”であっても、音量が１〜２の場合にはキャラクタ画像は笑った表情に決定され、音量が３〜５の場合にはキャラクタ画像は怒った表情に決定される。更に、同じ怒った表情の中でも、音量が“５”の場合には激怒、音量が“４”，“３”の場合にはそれぞれ普通、怒り気味などという様に軽重がつけられている。「怒る」以外の表情、例えば「笑う」、「驚く」、「嫌悪」、「泣く」、「悲しむ」に関しても同様に、感情の度合いに差を付けた表情の決定が可能である。
【００６８】
音声の音調には送話者によって個人差がある。そこで、音調解析部３９は、平常時における送話者の音調を記憶しておき、送話者が送話する度に随時更新していくことも効果的である。このように学習された音調を基準として送話者の感情を判断すれば、キャラクタ画像の表情又は動作に音調解析結果をより精確に反映させることができる。
【００６９】
キャラクタ画像生成部３３は、利用者指示部３２により選択されたキャラクタ画像をキャラクタ画像ＤＢ３１から取得し、当該キャラクタ画像をベースとして、音調解析部３９により決定された表情又は動作のキャラクタ画像を生成する。
【００７０】
本実施の形態においても、携帯電話３０の利用者による入力操作には、手指による入力に限らず、音声認識及び単語登録を利用した音声入力を含む。かかる音声入力機能を携帯電話３０が有する場合には、キャラクタ画像の表情又は動作を変化させる契機は、携帯電話３０の利用者（送話者）の音声のみならず、携帯電話４０の利用者（受話者）の音声とすることもできる。例えば、携帯電話４０の画面上でキャラクタ画像が居眠りしている際に、受話者が「おい」、「こら」等の音声を発し、携帯電話３０の利用者指示部３２がこれを認識すると、キャラクタ画像が驚いて飛び起きる動作を行う。また、音調解析部３９が受話者の音調を怒りあるいは興奮と判断した場合には、キャラクタ画像は驚いた表情をする。更に、音調解析部３９が受話者の音声を一定時間検知しないとキャラクタ画像はうなずくなど、様々な変形態様が考えられる。
【００７１】
次いで、本発明の第２の実施形態におけるテレビ電話システムの動作について説明し、併せて、本発明に係る画像通信方法の各ステップについて説明する。図９は、携帯電話３０によって実行されるキャラクタ画像生成処理を説明するためのフローチャートである。本キャラクタ画像生成処理は、第１の実施形態におけるキャラクタ画像生成処理（図５参照）と共通するステップを複数含む。具体的には、図９に示すＴ１〜Ｔ２は図５に示したＳ１〜Ｓ２に対応し、同じくＴ７〜Ｔ１０はＳ５〜Ｓ８に対応する。以下、本実施形態に特有の処理であるＴ３〜Ｔ６（図９の太線枠内に示す処理）について説明する。
【００７２】
Ｔ３では、音声入力部３８により、携帯電話３０の利用者が発した音声が音声信号として音調解析部３９に出力される。
【００７３】
Ｔ４では、音調解析部３９により、Ｔ３で入力された音声信号の音調が解析される。音調の解析結果は、音調解析部３９に一時的に保持される。
【００７４】
Ｔ５では、音調解析部３９は、Ｔ４における音調解析結果に基づいて、キャラクタ画像の表情又は動作を決定する。具体的には、音調解析部３９は、音調解析結果から、所定の時間幅を有するサンプリングデータを取得する。好ましくは、サンプリングデータは、平常時における送話者のサンプリングデータ（以下、「基準サンプリングデータ」と記す。）と、キャラクタ画像の表情又は動作の判定対象となるサンプリングデータ（以下、「対象サンプリングデータ）と記す。）とに分けて取得される。音調解析部３９は、対象サンプリングデータと基準サンプリングデータ若しくは所定値とを比較することにより、対象サンプリングデータの有する特性（音量の大小や周波数の高低）から送話者の感情を予測する。予測された感情は、携帯電話２０に送信されるキャラクタ画像の表情又は動作に反映される。
【００７５】
音調の解析結果からキャラクタ画像の表情又は動作を決定する処理に関しては、様々な態様が考えられるが、以下、主要な４つの態様について説明する。４つの態様とは、音声の有無、音量の大小、周波数の高低、音量の大小及び周波数の高低の各要素に基づいて、キャラクタ画像の表情又は動作を決定する態様である。以下簡単の為、上記各態様を、それぞれ単純解析モード、音量解析モード、周波数解析モード、複合解析モードと記す。
【００７６】
まず、図１０〜図１１を参照して、単純解析モードにおけるＴ５の具体的処理を説明する。図１０は、横軸に経過時間を規定し、縦軸に音量を規定した場合における音調解析結果を示す図である。図１０に示す様に、音調解析結果は、所定の時間幅（例えば３秒程度）を有する複数のサンプリングデータから構成される。本態様では、時間幅ｔ１に対応する対象サンプリングデータ▲１▼と時間幅ｔ２に対応する対象サンプリングデータ▲２▼とが抽出された場合をそれぞれ想定する。
【００７７】
図１１は、単純解析モードが選択された場合に実行されるキャラクタ画像決定処理を説明するためのフローチャートである。音調解析部３９は、音調解析結果から対象サンプリングデータを抽出した後（Ｔ５１１）、対象サンプリングデータの音量の平均値を算出する（Ｔ５１２）。該平均値は、異常値を除外した対象サンプリングデータに関して算出してもよい。音調解析部３９は、送話者周辺の雑音が考慮された無音状態における音量の値（極小値）を予め保持しており、平均値の算出後に、当該平均値と極小値との大小関係を判定する（Ｔ５１３）。
【００７８】
ここで、図１０に戻り、対象サンプリングデータ▲１▼に関しては、その平均値が極小値Ｍ以上であるものと判定され（図１１のＴ５１３；Ｎｏ）、この場合、送話者が何らかの音声を発しているものと判断される。音調解析部３９は、キャラクタ画像を送話者の表情又は動作に一致させるべく、図９のＴ２で取得されたキャラクタ画像の動作を口の開け閉め（くちぱく）の開始に決定する（Ｔ５１４）。これに対して、対象サンプリングデータ▲２▼に関しては、その平均値が極小値Ｍ未満であるものと判定される（図１１のＴ５１３；Ｙｅｓ）。この場合、送話者は音声を発していないものと予想されるので、音調解析部３９は、Ｔ２で取得されたキャラクタ画像の動作を口の開け閉め（くちぱく）の停止に決定する（Ｔ５１５）。その後、図９に示したＴ６以降の処理に移行する。
【００７９】
続いて、図１２〜図１３を参照して、音量解析モードにおけるＴ５の具体的処理を説明する。図１２は、図１０と同様に、横軸に経過時間を規定し、縦軸に音量を規定した場合における音調解析結果を示す図である。図１２に示す様に、音調解析結果は、時間幅ｔ３（例えば１０秒程度）を有する基準サンプリングデータ▲１▼と時間幅ｔ４，ｔ５（例えば共に５秒程度）を有する対象サンプリングデータ▲３▼，▲４▼とを含む。なお、これら各サンプリングデータの時間幅は同一であってもよい。
【００８０】
図１３は、音量解析モードが選択された場合に実行されるキャラクタ画像決定処理を説明するためのフローチャートである。音調解析部３９は、音調解析結果から基準サンプリングデータを抽出した後（Ｔ５２１）、この基準サンプリングデータの音量の平均値を算出し、該平均値を基準値に設定する（Ｔ５２２）。
【００８１】
音調解析部３９は、音調解析結果から対象サンプリングデータを抽出した後（Ｔ５２３）、その対象サンプリングデータの音量の平均値を算出する（Ｔ５２４）。該平均値は、異常値を除外した対象サンプリングデータに関して算出してもよい。音調解析部３９は、平均値が基準値から乖離しているか否かを判定するための指標として正の閾値を予め保持しており、平均値の算出後に、当該平均値と基準値との差である｜平均値−基準値｜と上記閾値との大小関係を判定する（Ｔ５２５）。
【００８２】
判定の結果、平均値と基準値との差が閾値以上である場合には（Ｔ５２５；Ｎｏ）、音調解析部３９は、更に、平均値と基準値との大小関係を判定する（Ｔ５２６）。当該判定の結果、平均値が基準値以上と判定された場合には（Ｔ５２６；Ｎｏ）、送話者の音声の音量は平常時よりも大きい方に乖離しているため、送話者はホットな感情にあることが予測される。したがって、音調解析部３９は、図９のＴ２で取得されたキャラクタ画像の表情をホットな表情に決定する（Ｔ５２７）。
【００８３】
一方、Ｔ５２６における判定の結果、平均値が基準値未満と判定された場合には（Ｔ５２６；Ｙｅｓ）、送話者の音声の音量は平常時よりも小さい方に乖離していることになり、送話者はクールな感情にあることが予測される。したがって、音調解析部３９は、Ｔ２で取得されたキャラクタ画像の表情をクールな表情に決定する（Ｔ５２８）。
【００８４】
更に、Ｔ５２５における判定の結果、平均値と基準値との差が閾値未満である場合には（Ｔ５２５；Ｙｅｓ）、送話者の音声の音量は平常時のものに近いので、音調解析部３９は、図９のＴ２で取得されたキャラクタ画像の表情をノーマルな表情に決定する（Ｔ５２９）。Ｔ５２７〜Ｔ５２９の何れかの処理で決定された表情は、キャラクタ画像生成部３３に通知される。その後、図９に示したＴ６以降の処理に移行し、上記表情を有するキャラクタ画像が生成及び送信される。
【００８５】
図１２に戻り、例えば、対象サンプリングデータ▲３▼の音量の平均値は、基準サンプリングデータの音量の平均値である基準値Ｎ１に近く、その差は閾値を超えるものではない。したがって、送話者が、対象サンプリングデータ▲３▼に相当する音声を発している間（ｔ４）は、ノーマルな表情のキャラクタ画像が生成されることになる。これに対して、対象サンプリングデータ▲４▼の音量の平均値は、基準サンプリングデータの音量の平均値（基準値Ｎ１）よりもかなり大きく、その差は閾値を超えるものである。したがって、送話者が、対象サンプリングデータ▲４▼に相当する音声を発している間（ｔ５）は、ホットな表情のキャラクタ画像が生成されることになる。
【００８６】
なお、単純モードと音量解析モードとは必ずしも排他的に適用されるものではなく、組み合わせて適用することも勿論可能である。この場合、例えば、対象サンプリングデータの音量の平均値が、極小値よりも大きく、かつ、閾値を超える程度に基準値よりも大きい場合には、ホットな表情のキャラクタが口の開閉を行っている画像が生成されることになる。
【００８７】
次に、図１４〜図１５を参照して、周波数解析モードにおけるＴ５の具体的処理を説明する。図１４は、図１２と同様に、横軸に経過時間を規定し、縦軸に周波数を規定した場合における音調解析結果を示す図である。図１４に示す様に、音調解析結果は、時間幅ｔ６（例えば１０秒程度）を有する基準サンプリングデータ▲２▼と時間幅ｔ７（例えば５秒程度）を有する対象サンプリングデータ▲５▼とを含む。なお、これらのサンプリングデータの時間幅は同一であってもよい。
【００８８】
図１５は、周波数解析モードが選択された場合に実行されるキャラクタ画像決定処理を説明するためのフローチャートである。音調解析部３９は、音調解析結果から基準サンプリングデータを抽出した後（Ｔ５３１）、この基準サンプリングデータの周波数の平均値を算出し、当該平均値を基準値に設定する（Ｔ５３２）。
【００８９】
音調解析部３９は、音調解析結果から対象サンプリングデータを抽出した後（Ｔ５３３）、その対象サンプリングデータの周波数の平均値を算出する（Ｔ５３４）。なお、該平均値は、異常値を除外した対象サンプリングデータに関して算出してもよい。音調解析部３９は、平均値が基準値とどの程度乖離している場合に、周波数が平常時と異なるものとみなすかを示す指標として、正の範囲値Ａ，Ｂを予め保持している。範囲値Ａ，Ｂは、同一の値であっても異なる値であってもよい。音調解析部３９は、平均値の算出後に、当該平均値と基準値＋範囲値Ａとの高低関係を判定する（Ｔ５３５）。
【００９０】
判定の結果、上記平均値が基準値＋範囲値Ａ未満である場合には（Ｔ５３５；Ｙｅｓ）、音調解析部３９は、更に、平均値と基準値−範囲値Ｂとの高低関係を判定する（Ｔ５３６）。当該判定の結果、平均値が基準値−範囲値Ｂ未満である場合には（Ｔ５３６；Ｙｅｓ）、送話者の音声の周波数は平常時と異なるといえる程度に低く、送話者はクールな感情にあることが予測される。したがって、音調解析部３９は、図９のＴ２で取得されたキャラクタ画像の表情をクールな表情に決定する（Ｔ５３７）。
【００９１】
一方、Ｔ５３６における判定の結果、平均値が基準値−範囲値Ｂ以上である場合には（Ｔ５３６；Ｎｏ）、送話者の音声の周波数は、平常時と異なる程度に低いとはいえず、また、Ｔ５３５における判定の結果、平常時と異なる程度に高いともいえない。つまり、送話者の音声は平常時に近い状態にあることから、送話者はノーマルな感情にあることが予測される。したがって、音調解析部３９は、図９のＴ２で取得されたキャラクタ画像の表情をノーマルな表情に決定する（Ｔ５３８）。
【００９２】
更に、Ｔ５３５における判定の結果、上記平均値が基準値＋範囲値Ａ以上である場合には（Ｔ５３５；Ｎｏ）、送話者の音声の周波数は平常時と異なるといえる程度に高く、送話者はホットな感情にあることが予測される。したがって、音調解析部３９は、Ｔ２で取得されたキャラクタ画像の表情をホットな表情に決定する（Ｔ５３９）。Ｔ５３７〜Ｔ５３９の何れかの処理で決定された表情は、キャラクタ画像生成部３３に通知される。その後、図９に示したＴ６以降の処理に移行し、上記表情を有するキャラクタ画像が生成及び送信される。
【００９３】
数値を用いてより具体的に説明すると、例えば、基準サンプリングデータから基準値が２２０Ｈｚに設定され、音調解析部３９の保持する範囲値Ａ，Ｂがそれぞれ＋２５Ｈｚ，＋２０Ｈｚである場合には、基準値＋範囲値Ａは２４５Ｈｚ（＝２２０＋２５）であり、基準値−範囲値Ｂは２００Ｈｚ（＝２２０−２０）である。したがって、キャラクタ画像の表情は、これらの値を、周波数の平均値の高低を決するための閾値として、決定される。すなわち、対象サンプリングデータの周波数の平均値が１５０Ｈｚの場合には、１５０＜２００であることから、キャラクタ画像の表情はクールな感情を表すものとなり、同じく平均値が２１０Ｈｚの場合には、２００＜２１０＜２４５であることから、キャラクタ画像の表情はノーマルな感情を表すものに決定される。また、平均値が２５０Ｈｚの場合には、２４５＜２５０であることから、キャラクタ画像の表情はホットな感情を表すものとなる。
【００９４】
次に、図１６〜図１８を参照して、複合解析モードにおけるＴ５の具体的処理を説明する。図１６は、図１４と同様に、横軸に経過時間を規定し、縦軸に周波数を規定した場合における音調解析結果を示す図である。図１６に示す様に、音調解析結果は、時間幅ｔ８（例えば１０秒程度）を有する基準サンプリングデータ▲３▼と時間幅ｔ９（例えば５秒程度）を有する対象サンプリングデータ▲６▼とを含む。なお、各サンプリングデータの時間幅は同一であってもよい。
【００９５】
かかる態様のように、音調解析結果が音量の解析結果と周波数の解析結果とを共に含む場合には、音調解析部３９は、それぞれの音調解析結果から取得された基準及び対象サンプリングデータを用いて、キャラクタ画像を決定することができる。以下、上記各サンプリングデータを組み合わせてキャラクタ画像を決定する処理の一例について説明する。
【００９６】
本態様における音調解析部３９は、感情種別を決定するために参照される感情種別テーブル３９２と表情を決定するために参照される表情テーブル３９３とを有する。感情種別テーブル３９２においては、音量及び周波数がそれぞれ三段階に範囲設定されている。すなわち、音量には、基準値−閾値未満、基準値−閾値以上かつ基準値＋閾値未満、基準値＋閾値以上の三つの範囲が設定されており、周波数には、基準値−範囲値Ｄ未満、基準値−範囲値Ｄ以上基準値＋範囲値Ｃ未満、基準値＋範囲値Ｃ以上の三つの範囲が設定されている。そして、音量と周波数とが決定されると、感情種別が一意に決定されるようになっている。例えば、音量が、基準値−閾値以上かつ基準値＋閾値未満の範囲内に収まり、周波数が基準値＋範囲値Ｃを超える場合には、ホットな感情の中でも中程度のホット感情ＩＩが選択される。また、音量が基準値−閾値未満、周波数が基準値−範囲値Ｄ未満である場合には、クールな感情の中でもその程度が最も強いクール感情Ｉが選択される。
【００９７】
音調解析部３９は、決定された感情種別を介してキャラクタ画像の表情を決定する。このために、表情テーブル３９３を参照する。表情テーブル３９３には、キャラクタ画像の表情が感情種別に対応付けて記憶されている。感情種別のＩ，ＩＩ，ＩＩＩは、その感情の程度を強い順に表す。通常、人の表情は、その人の感情と相関関係を有するので、その相関関係に適するように、例えば、感情種別がクール感情Ｉの場合にはかなり疲れ気味の表情が設定され、感情種別がホット感情ＩＩの場合にはいらついた表情が設定されている。
【００９８】
図９に戻り、Ｔ５で決定された表情又は動作は、キャラクタ画像生成部３３に通知される。Ｔ６では、キャラクタ画像生成部３３が、当該通知を受けて、Ｔ２で取得されたキャラクタ画像を基に、Ｔ５で決定された表情又は動作に従ってキャラクタ画像を生成する。
【００９９】
以上説明した様に、第２の実施形態におけるテレビ電話システム２によれば、携帯電話３０は、その利用者たる送話者の音声の音調を解析し、その解析結果に基づいてキャラクタ画像の表情又は動作を決定する。また、決定した表情又は動作を、キャラクタ画像ＤＢ３１から取得されたキャラクタ画像に反映させて、入力音声と共に携帯電話４０に送信する。したがって、画像解析処理を必要としない比較的簡易な構成で、送話者の所望に近いキャラクタ画像を受話者の携帯電話に表示させることが可能となる。その結果、送話者と受話者との通話における興趣性が高まる。
【０１００】
なお、上記各実施の形態における記述内容は、本発明に係る携帯端末の好適な一例であり、これに限定されるものではない。例えば、上記各実施の形態では、携帯電話１０，３０が画面上にポインタを表示する場合を除き、キャラクタ画像は通話相手の携帯電話２０，４０にのみ表示されるものとしたが、送話者の携帯電話の表示画面上にもキャラクタ画像が表示されるようにしてもよい。更に、受話者の携帯電話２０，４０が送話者の携帯電話１０，３０と同一のキャラクタ画像生成機能を有する場合には、画面上に表示されている通話相手のキャラクタ画像と自己のキャラクタ画像とを合成する機能を追加してもよい。
【０１０１】
更には、携帯電話１０，３０にモード切替え機能を追加してもよい。具体的には、ＣＣＤ（Ｃｈａｒｇｅ−ＣｏｕｐｌｅｄＤｅｖｉｃｅ）カメラを送話者側（手前）に向けると、通常のテレビ電話機能（送話者の顔画像が撮影及び送信されるモード）が有効になり、ＣＣＤカメラを送話者の反対側に向けると、本発明に係るキャラクタ画像が生成される機能が有効になる。
【０１０２】
また、携帯電話１０，３０に画像合成機能を追加してもよい。具体的には、上述したキャラクタ画像を別の動画や静止画にスーパーインポーズする、キャラクタ画像にフレームを合成する、合成範囲を指定可能とする、といった付加機能を設ける。
【０１０３】
携帯電話１０，３０に文字付加機能を追加してもよい。具体的には、キャラクタ画像に文字をスーパーインポーズする、文字枠、絵文字、定型文を付加する、大きさ、色を指定可能とする、といった機能を追加する。絵文字の場合には、対応した音を鳴らす。
【０１０４】
携帯電話１０，３０に効果音付加機能を追加してもよい。具体的には、入力された送話者の音声に別の効果音をミキシングする、例えば、９番キーを押下すると通話相手に悲鳴が聞こえる、♯キーを押下するとＢＧＭとして着信メロディが流れる、といった機能を追加する。
【０１０５】
第１の実施形態における携帯電話１０，２０、及び第２の実施形態における携帯電話３０，４０がそれぞれ有する複数の機能の一部又は全部を１台の携帯電話が併有する構成とすることも勿論可能である。また、携帯端末は、携帯電話に限らず、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）やパーソナルコンピュータ等であってもよい。更に、携帯端末は、端末自体に通信機能をもたないものであってもよく、この場合でも、クレイドル等の拡張機器を介して通信が可能である。
【０１０６】
【発明の効果】
本発明によれば、携帯端末が、比較的簡易な構成で、送話者の所望に近いキャラクタ画像を生成し受話者の携帯端末に送信することにより、送話者と受話者との通話における興趣性を高めることが可能となる。
【図面の簡単な説明】
【図１】本発明に係るテレビ電話システムの全体構成を概念的に示す図である。
【図２】第１の実施形態における送信側携帯電話の機能的構成を示す図である。
【図３】本発明に係る送信側携帯電話のハードウェア構成を示すブロック図である。
【図４】第１の実施形態において押下されるキーの番号とキャラクタ画像の表情又は動作との対応関係の一例を示す図である。
【図５】第１の実施形態における送信側携帯電話によって実行されるキャラクタ画像生成処理を説明するためのフローチャートである。
【図６】図６（ａ）は表情が指定される前のキャラクタ画像の一例を示す図であり、図６（ｂ）は表情として寝顔が指定された後のキャラクタ画像の一例を示す図である。
【図７】第２の実施形態における送信側携帯電話の機能的構成を示す図である。
【図８】第２の実施形態における送信側携帯電話がキャラクタ画像の表情を決定する際に参照されるテーブル内のデータ格納例を示す図である。
【図９】第２の実施形態における送信側携帯電話によって実行されるキャラクタ画像生成処理を説明するためのフローチャートである。
【図１０】第２の実施形態において単純解析モードが選択された場合に、音調解析結果から抽出される２種類の対象サンプリングデータを示す図である。
【図１１】第２の実施形態において単純解析モードが選択された場合に実行されるキャラクタ画像決定処理を説明するためのフローチャートである。
【図１２】第２の実施形態において音量解析モードが選択された場合に、音調解析結果から抽出される基準サンプリングデータと２種類の対象サンプリングデータとを示す図である。
【図１３】第２の実施形態において音量解析モードが選択された場合に実行されるキャラクタ画像決定処理を説明するためのフローチャートである。
【図１４】第２の実施形態において周波数解析モードが選択された場合に、音調解析結果から抽出される基準サンプリングデータと対象サンプリングデータとを示す図である。
【図１５】第２の実施形態において周波数解析モードが選択された場合に実行されるキャラクタ画像決定処理を説明するためのフローチャートである。
【図１６】第２の実施形態において複合解析モードが選択された場合に、音調解析結果から抽出される基準サンプリングデータと対象サンプリングデータとを示す図である。
【図１７】第２の実施形態において複合解析モードが選択された場合に参照される感情種別テーブルの一例を示す図である。
【図１８】第２の実施形態において複合解析モードが選択された場合に参照される表情テーブルの一例を示す図である。
【符号の説明】
１，２…テレビ電話システム、１０，３０…送信側携帯電話、２０，４０…受信側携帯電話、１１，３１…キャラクタ画像ＤＢ、１２，３２…利用者指示部、１３，３３…キャラクタ画像生成部、１７，３７…通信部、３８…音声入力部、３９…音調解析部、３９１…参照テーブル、３９２…感情種別テーブル、３９３…表情テーブル

Claims

複数のキャラクタ画像を格納する格納手段と、
受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を指定する指定手段と、
前記格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記指定手段により指定された表情又は動作のキャラクタ画像を生成する生成手段と、
前記生成手段により生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信手段と
を備えることを特徴とする送信側携帯端末。
複数のキャラクタ画像を格納する格納手段と、
音声を入力する入力手段と、
前記入力手段により入力された音声の音調を解析すると共に、当該音調解析結果に基づいて、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を決定する決定手段と、
前記格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記決定手段により決定された表情又は動作のキャラクタ画像を生成する生成手段と、
前記生成手段により生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信手段と
を備えることを特徴とする送信側携帯端末。
前記生成手段は、当該生成手段が生成した前記キャラクタ画像を送信側携帯端末の表示手段に表示させることを特徴とする請求項１又は２に記載の送信側携帯端末。
前記決定手段は、前記受信側携帯端末から送信された音声に基づいて、当該受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を決定することを特徴とする請求項２に記載の送信側携帯端末。
前記決定手段は、前記音調として、前記音声の音量、周波数のうち、少なくとも一方を解析することを特徴とする請求項２に記載の送信側携帯端末。
前記送信手段は、標準的な動画通信用プロトコルを使用して、前記キャラクタ画像の送信を行うことを特徴とする請求項１〜５の何れか一項に記載の送信側携帯端末。
受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を指定する指定処理と、
格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記指定処理により指定された表情又は動作のキャラクタ画像を生成する生成処理と、
前記生成処理により生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信処理と
を送信側携帯端末に実行させることを特徴とする画像通信プログラム。
音声を入力する入力処理と、
前記入力処理により入力された音声の音調を解析すると共に、当該音調解析結果に基づいて、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を決定する決定処理と、
格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記決定処理により決定された表情又は動作のキャラクタ画像を生成する生成処理と、
前記生成処理により生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信処理と
を送信側携帯端末に実行させることを特徴とする画像通信プログラム。
送信側携帯端末が、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を指定する指定ステップと、
前記送信側携帯端末が、格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記指定ステップにて指定された表情又は動作のキャラクタ画像を生成する生成ステップと、
前記送信側携帯端末が、前記生成ステップにて生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信ステップと
を含むことを特徴とする画像通信方法。
送信側携帯端末が、音声を入力する入力ステップと、
前記送信側携帯端末が、前記入力ステップにて入力された音声の音調を解析すると共に、当該音調解析結果に基づいて、受信側携帯端末に送信するためのキャラクタ画像の表情又は動作を決定する決定ステップと、
前記送信側携帯端末が、格納手段に格納されている複数のキャラクタ画像の中からキャラクタ画像を取得し、該キャラクタ画像を使用して、前記決定ステップにて決定された表情又は動作のキャラクタ画像を生成する生成ステップと、
前記送信側携帯端末が、前記生成ステップにて生成された前記キャラクタ画像を前記受信側携帯端末宛に送信する送信ステップと
を含むことを特徴とする画像通信方法。