以下、本発明の好ましい実施例について、添付図面を参照して説明する。図1は、本発明の画像処理装置としてのカラオケ装置1を示す概略図である。このカラオケ装置1は、画像処理部としての本体1aと、表示装置としてのCRTディスプレイ2と、本体1aを遠隔操作するための電子早見本30とを備えており、本体1aとCRTディスプレイ2とはケーブル4を介して接続されている。該カラオケ装置1は、入力された画像データを記号で構成されたアスキー画像に変換する画像処理を実行し、変換されたアスキー画像をCRTディスプレイ2に出力することにより演出を実行する機能を備えている。
また、カラオケ装置1は、いわゆる通信カラオケであって、回線を介して接続されるカラオケサーバから配信された楽曲データ(伴奏情報)や歌詞データを、本体1a内に記憶している。そして、電子早見本30から、歌唱者により選曲された楽曲を示す楽曲コードが送信されると、本体1a内から対応する楽曲データと歌詞データとを読出し、楽曲データに基づいて伴奏を自動演奏するとともに、その楽曲の進行に合わせて歌詞と映像(またはアスキー画像)とをCRTディスプレイ2に表示するように構成されている。
このカラオケ装置1の本体1aは、制御部5と、該制御部5に接続されるCCDカメラ3とマイクロフォン23とを備えている。制御部5のケーシング前面には、数値を入力するためのテンキーや、各種コマンドを制御部5に入力するコマンドボタンを備えた操作パネル20が配設されている。かかるテンキーやコマンドボタンの操作により、使用者は、選曲や、演奏テンポの設定、音程の設定、音量の設定、リバーブなどの音響効果の設定や、文字の入力などを行うことができる。また、該操作パネル20には、液晶表示器(以下単に「LCD」と称す)が設けられており、テンキーにより入力された数値やコマンドボタンにより入力されたコマンドの内容、電子早見本30から送信されたコマンドの内容、更には、カラオケ装置1の動作状態等がこのLCDに表示される。
操作パネル20の下方には、電子早見本30との間で赤外線データによる無線通信を行うための無線通信部26が配設されている。電子早見本30から赤外線データで送信される各種コマンドや楽曲コードなどのデータは、この無線通信部26により受信される。この無線通信部26により、電子早見本30からの楽曲コードや所定の処理の実行を指示するコマンドを受信した場合には、本体1aは、その楽曲コードやコマンドに基づいた処理を実行する。無線通信部26の右方には、入力端子を介してマイクロフォン23が接続されており、歌唱者の発声は、かかるマイクロフォン23から制御部5内に入力される。
CCDカメラ3は、連続的に画像を撮像する一般的な撮像装置であり、CRTディスプレイ2の筐体上面に設置されている。CCDカメラ3により撮像された画像(画像データ)は、非図示のケーブルを介して制御部5内に入力される。CCDカメラ3内には、A/Dコンバータなどが内蔵されており、制御部5には、デジタルデータに変換された画像データが入力される。制御部5は、このCCDカメラ3により入力された画像データに基づいて、アスキー画像を作成する。
電子早見本30は、楽曲の選択および選択した楽曲の指定(楽曲コードの本体1aへの送信)に加え、本体1a(制御部5)を遠隔操作(演奏の中止やスキップ等)するための装置であり、タッチパネルディスプレイ40を備えた表示本体30aと、該表示本体30aを立設した状態で維持するためのクレイドル44とを備えている。表示本体30aには、本体1aとの間で赤外線データによる無線通信を行うための無線通信部36が、その筐体上部に設けられている。電子早見本30へ送信される楽曲コード等のデータや、所定の処理の実行を指示するコマンドは、この無線通信部36から赤外線データで出力される。
また、表示本体30aは、案内画像を表示するタッチパネルディスプレイ40を備えている。タッチパネルディスプレイ40は、画像を表示するLCDで構成された表示装置41と、その表示装置41上に設けられ押下により信号入力を実行するタッチパネル42とを備えている。
案内画像は、選曲のための各種データや、選曲の為の各種操作を行うための操作ボタンを表示する画像であり、使用者が視覚的に電子早見本30の操作を理解することができるように構成されている。尚、案内画像(即ち表示装置41)に表示された各操作ボタンの押下は、表示装置41上に設けられたタッチパネル42により、その押下位置に対応する電気信号として入力される。これにより、押下された操作ボタンの入力としてCPU12(図2参照)に認識され、対応する動作(コマンド入力)が実行される。
具体的には、この案内画像は、複数画面で構成されており、各画面において、カテゴリや歌手毎に分類された項目や、その項目の選択によって表示される曲名などが表示される。各曲名の表示は、曲名を指定するための操作ボタンとなっており、この曲名の表示が押下されることにより選曲がなされる(楽曲データの指定)。この選曲が実行される画面内には、アスキーアートボタン42aが表示されている。
アスキーアートボタン42aは、本体1aにアスキー画像による演出を指示するためのものである。このアスキーアートボタン42aが、その画面上から(タッチパネル42を介して)押下されると、選曲された楽曲コードに、アスキー画像による演出を本体1aに指示するアスキーアートコードが付加されて、本体1aに送信される。本体1aでは、受信した楽曲コードにアスキーアートコードが付加されていると、かかる楽曲再生中のCRTディスプレイ2における演出を、予め記憶された映像に代えて、アスキー画像を表示することにより実行する。
更に、操作ボタンとしては、楽曲の選択等、電子早見本30においての各処理を実行させるボタンに加え、本体1aを操作するためのボタンが各種設けられている。かかる操作ボタンの操作(表示された操作ボタンの画面上からの押下)により、本体1aの操作パネル20に備えられたボタン操作と同様に、選曲や、演奏テンポの設定、音程の設定、音量の設定、リバーブなどの音響効果の設定や、文字の入力などを行うことができる。つまり、上記の本体1aの操作パネル20の機能の一部は、この電子早見本30による遠隔操作によっても実行される。
クレイドル44は、表示本体30aの下部と左右との三方を支持する矩形状に形成されており、このクレイドル44と表示本体30aとは着脱可能に構成されている。また、クレイドル44は、電子早見本30と本体1aとの接続架台であり、かかるクレイドル44によって、本体1aに取り付けられた電子早見本30は、有線により本体1aと電気的に接続される。このクレイドル44を介した有線接続により、電子早見本30に内蔵されたバッテリに対する充電が実行される。また、本体1aから電子早見本30に、新たな楽曲に対応する楽曲コードや曲名などのデータを送信することができる。
図2は、上記のように構成されたカラオケ装置1の電気的構成を示すブロック図である。カラオケ装置1は、本体1aと、CRTディスプレイ2と、電子早見本30とを備え、本体1aは、更に、制御部5とCCDカメラ3とマイクロフォン23とを備えている。
制御部5は、演算装置であるCPU11によりカラオケ装置1の制御を行うものであり、CPU11と、ROM12と、RAM13と、画像用RAM27と、ハードディスク14と、モデム15と、ディスクプレイヤー16と、映像処理部17と、入出力ポート(I/O)19と、音源であるシンセサイザを備えた伴奏装置21と、電子早見本30(クレイドル44)を有線接続するためのLANポート25と、電子早見本30からの赤外線データを受信するための無線通信部26とを備えている。これらの各デバイスはCPU11に接続され、CPU11により制御される。また、制御部5は、ディスクプレイヤー16と映像処理部17とに接続されたビデオミキサ18と、入出力ポート(I/O)19に接続された操作パネル20と、伴奏装置21に接続されたアンプミキサ22と、アンプミキサ22に接続されたスピーカ24とを備えている。また、入出力ポート(I/O)19には、CCDカメラ3が接続されている。
CPU11は、電子早見本30や操作パネル20から楽曲コードが入力された場合、その楽曲コードを、RAM13の所定のエリアに設けられた予約曲リストエリアに登録したり、その予約曲リストエリアに記憶される楽曲コードを登録順に読み出して、楽曲の再生出力を制御するものである。尚、後述するカラオケ再生処理(図4参照)では、かかる予約曲リストエリアに楽曲コードが登録されていると、楽曲コードの入力有りと判断して、楽曲を再生する処理を実行する。楽曲が再生されると、対応する楽曲コードは、予約曲リストエリアから削除される。また、CPU11は、楽曲の演奏時に行われる演出の1つとして、CCDカメラ3により撮像された画像からアスキー画像を形成し、CRTディスプレイ2に出力する制御を行う。
ROM12は、CPU11により実行される各種のプログラムや固定値などを記憶した不揮発性のメモリである。
RAM13は、ROM12内に記憶されるプログラムや後述するハードディスク14に記憶される制御プログラムの実行に際して各種のデータ等を一時的に記憶するためのメモリであり、背景画像メモリ13aと、アスキー画像バッファ13bと、アスキーアートフラグ13cとを備えている。
背景画像メモリ13aは、背景画像としてCCDカメラ3により撮像(取得)された画像データを記憶するためのメモリである。背景画像は、アスキー画像による1の演出、即ち1の楽曲の再生が実行される毎に、アスキー画像による演出に先だってCCDカメラ3により撮像される。新たに背景画像が撮像されると、この背景画像メモリ13aに記憶される背景画像の画像データは、新たに撮像された背景画像の画像データによって更新される。
アスキー画像の形成に際しては、入力された画像データから、背景画像メモリ13aに記憶される背景画像の画像データに対応する部分の画像データが除かれ、背景画像の画像データが除かれた残りの部分(人物画像データ、固有画像データ)がアスキー画像に変換される。
CCDカメラ3は、通常の撮像において、その撮像範囲に存在する各種のオブジェクトの画像データが、各オブジェクトが詳細に識別し得る解像度で、即ち、良好な画像品質を実現する画素数で取得されるように設計されている。このため、CCDカメラ3の設置場所によっては、取得される画像データが複雑なもの(複数のオブジェクトが混在する画像)となる。かかる複雑な画像データをアスキー画像に変換する場合には、入り組んだオブジェクトの輪郭線の処理が不的確になりかねず、個々のオブジェクトがアスキー画像にて的確に表現されないという事態が発生しかねない。しかし、取得された画像データから背景画像を除いた画像データ(人物画像データ)を、アスキー画像に変換するので、変換元の画像データを簡素にすることができる。このため、形成されるアスキー画像をオブジェクト(本実施の形態では主として人物)が的確かつ明確に示された画像とすることができる。
具体的には、背景画像以外の部分とは、例えば、CCDカメラ3による背景画像の撮像後、CCDカメラ3の撮像範囲に入ったオブジェクトの画像であり、本実施の形態では、人物(歌唱者)の画像である。つまり、本実施の形態では、アスキー画像への変換対象を人物(動きのある動体)の画像としており、変化の乏しい背景画像に比べてかかる人物画像(背景画像以外の部分)は、一連の撮像での特徴的部分となる。故に、一連の撮像を通して共通する変化の乏しい背景画像の画像データを除去して、その残りの部分である人物画像データにてアスキー画像を形成しても、演出の意図を大きく変化させることはないばかりか、画像の特徴的部分に絞り込んだ単純明快なアスキー画像をCRTディスプレイ2に表示することができる。
アスキー画像バッファ13bは、後述するアスキー変換処理(S28、図6参照)において、形成されたアスキー画像を一時的に記憶するためのメモリである。アスキー画像は、記号データを組み合わせて形成された画像であり、即ち、巨視的に画像の態様を成す記号の集合体である。詳細には、アスキー画像は、アスキー変換処理(S28)にて、変換元の線画像データをブロックに分割した後、各ブロックの分割画像を、近似する態様の記号データに置換(嵌め込み)して形成される。置換された記号データは、ブロックの位置に従って、順に、このアスキー画像バッファ13bに記憶される。
ここで、アスキー画像バッファ13bには、ブロックの位置に従って、順に記号データが記憶され、画像フレームの端部に達した場合には改行コードが記憶される。このため、アスキー画像バッファ13bには、変換前の線画像データの画像フレームの座標に対応付けて、記号データが記憶されることとなる。その結果、記憶された記号データを、アスキー画像バッファ13bから順に取り出すことにより、元画像に対応したアスキー画像を出力することができる。尚、アスキー画像バッファ13bに記憶される記号データは、記号を示す記号コードであっても良く、記号コードが画像に展開されたドットデータ(記号の画像データ)であっても良い。
アスキーアートフラグ13cは、選曲された楽曲に対応する演出を、その楽曲データに対応して予め記憶されている映像で実行するか、アスキー画像で実行するかを識別するためのフラグである。このアスキーアートフラグ13cは、電子早見本30から送信された楽曲コードにアスキーアートコードが付加されていた場合にオンされ、入力された楽曲コードに対応する楽曲の再生が終了するとオフされる。
画像用RAM27は、DRAMまたはSDRAMなどで構成された大容量のRAMであり、画像データを一時的に記憶するものである。背景画像撮影後にCCDカメラ3から入力された画像データ(背景と人物とが撮像された画像)は、1の画像フレーム毎に、この画像用RAM27に記憶される。記憶された画像データは、アスキー画像を作成する際に、1の画像フレーム毎に、この画像用RAM27から読み出されてアスキー画像へと変換される。
ハードディスク14は、書換可能な大容量の不揮発性のメモリであり、本カラオケ装置1を制御する制御プログラム14aと、記号データメモリ14bと、楽曲データメモリ14cと、歌詞データメモリ14dとを備えている。尚、図4〜図6に示したフローチャートのプログラムは、制御プログラム14aの一部として格納されている。
記号データメモリ14bは、記号の画像データ(記号データ)を記憶するメモリであり、各記号を示す記号コードに対応付けられて、各記号の画像がドットデータで記憶されている。アスキー画像の作成時には、この記号データメモリ14bが参照され、線画像データに近似する記号のドットデータがテンプレートマッチングにより抽出されて、アスキー画像が形成される。尚、本カラオケ装置1においては、記号コードには、ASCIIコードに準じたJIS7単位符号(8ビットのデータで表現されるコード)が採用されている。尚、コード体系は、JIS7単位符号に限られるものでなく、例えば、他のASCIIコードや、EBCDICコード、Unicode、更には、JIS漢字コードなどを適宜用いることができる。
楽曲データメモリ14cは、再生する楽曲の楽曲データを記憶するメモリである。各楽曲データは、1の楽曲コードを指定する楽曲コードのそれぞれに対応して記憶されている。楽曲コードが入力されると、その楽曲コードに対応する1の楽曲データ(MIDI(Musical Instrument Digital Interface)形式のデータや、音符長を示すデータなど)が、この楽曲データメモリ14cから読み出され、後述する伴奏装置21に出力される。
歌詞データメモリ14dは、楽曲の歌詞データ(タイトルデータを含む)を記憶するメモリである。各歌詞データは、1の楽曲コードを指定する楽曲コードのそれぞれに対応して、テキストデータで記憶されている。また、この歌詞データメモリ14dに記憶される歌詞データは、JIS漢字コードで形成されている。楽曲コードが入力されると、CPU11により、この歌詞データメモリ14dから対応する歌詞データ(タイトルデータを含む)が読み出されると共に、漢字コードに対応してハードディスク14の所定の領域に記憶された文字の画像データに、読み出した歌詞データは展開され、歌詞文字画像データ(ドットデータ)が生成される。
新曲等のリリースにより、歌唱者が所望する楽曲は変化するため、楽曲データメモリ14cに記憶される楽曲データと、歌詞データメモリ14dに記憶される歌詞データとは、定期的に更新される。本カラオケ装置1は、上記したように通信カラオケであり、回線を介して楽曲データ等を配信するカラオケサーバに接続されると共に、本カラオケ装置1からカラオケサーバにアクセスし、楽曲データと、その楽曲データに対応する歌詞データとを(場合によっては楽曲データに対応する映像データも)、1の楽曲コードに対応付けられた一連のデータとしてダウンロードすることができるように構成されている。ダウンロードされた楽曲データは、この楽曲データメモリ14cに書き加えられる(追加して記憶される)。また、歌詞データについては、歌詞データメモリ14dに書き加えられる(追加して記憶される)。
モデム15は、変復調装置であり、アナログ信号とデジタル信号との変換を行う装置である。また、伝送制御用の各種手順信号を送受信するものである。カラオケ装置1から回線に出力されるデータ(例えば、カラオケサーバへのアクセス要求など)は、このモデム15によってデジタル信号からアナログ信号に変換された後に回線に出力される。また、回線から受信したデータ(カラオケサーバからダウンロードされる楽曲データや歌詞データなど)は、このモデム15によりアナログ信号からデジタル信号に変換される。
このモデム15は、回線制御を行うためのネットワークコントロールユニット(以下単に「NCU」と称す)を内蔵しており、このNCUを介してカラオケ装置1は回線に接続されている。このNCUにより通信相手を呼び出すためのダイヤル信号が送出される。
ディスクプレイヤー16は、歌唱者が歌詞を参照しながら歌唱する際に、CRTディスプレイ2に表示される映像を記憶したCDやDVDを再生する再生装置である。本カラオケ装置1は、楽曲データの再生時におけるCRTディスプレイ2での演出を、ディスクプレイヤー16にて再生される映像とするか、CCDカメラ3により取得された画像データに基づくアスキー画像とするかを、選択可能に構成されている。かかる演出をアスキー画像で行うことが指定されている場合には、ディスクプレイヤー16による映像の再生は非実行とされる。尚、アスキー画像による演出が指定された場合に、ディスクプレイヤー16によっても映像を再生し、その映像とアスキー画像とを共にCRTディスプレイ2に表示するように、本カラオケ装置1を構成しても良い。映像とアスキー画像とを共にCRTディスプレイ2に表示する場合には、CRTディスプレイ2の画面を分割すると共に各分割画面にそれぞれ映像とアスキー画像とを個別に表示してもよく、映像にアスキー画像を重ねて1画面で表示しても良い。
映像処理部17は、CPU11にて生成された歌詞文字画像データ(ドットデータ)のテロップやアスキー画像のCRTディスプレイ2への出力を制御する装置である。ビデオミキサ18は、CPU11にて生成され且つ映像処理部17から出力される歌詞文字画像データと、ディスクプレイヤー16によって再生される映像またはアスキー画像とを合成して、CRTディスプレイ2に表示させるための映像合成装置である。
伴奏装置21は、伴奏を発生するものであって各種楽器音などの楽音波形を記憶している。(楽曲データメモリ14cから読み出された楽曲データの)MIDI形式のデータが示す音色と音程と音量とに対応する音楽信号を、音符長を示すデータにて示される長さ分、楽音波形に基づいてデジタル信号で生成する。生成された音楽信号は、アナログ信号に変換されて、アンプミキサ22に出力される。
アンプミキサ22は、伴奏装置21からの音楽信号とマイクロフォン23から入力された発声(音声データ)とをミキシングして増幅する装置であり、ミキシングされた信号は、電気的に増幅されてスピーカ24から出力される。
電子早見本30は、上記したように表示本体30aと、クレイドル44とを備えており、表示本体30aは、演算装置であるCPU31と、CPU31により実行される各種のプログラムや固定値などを記憶した不揮発性のメモリであるROM32と、ROM32内に記憶される制御プログラムの実行に際して各種のデータ等を一時的に記憶するためのメモリであるRAM33と、ハードディスク34と、インターフェース35と、無線通信部36と、クレイドル44を介して表示本体30aと本体1aとを有線接続するためのLANポート37と、表示装置41とタッチパネル42とを有するタッチパネルディスプレイ40と、タッチパネルディスプレイ40に設けられた表示装置41を制御する表示制御部38と、タッチパネルディスプレイ40に設けられたタッチパネル42による入力を制御する入力制御部と、LANポート37とクレイドル44との間に介在して、表示本体30aとクレイドル44とを接続するコネクタ43とを備えている。
ハードディスク34は、書換可能な大容量の不揮発性のメモリであり、選曲可能な楽曲のタイトルデータが楽曲コードに対応つけて記憶されている。また、各楽曲のタイトルデータには、ジャンルや歌手名などのカテゴリデータが付加されており、カテゴリ毎に表示装置41へ表示することができるようになっている。更に、ハードディスク34には、案内画像の各画面の書式データが記憶されている。
CPU31は、楽曲のタイトルデータの出力要求がなされる(使用者により選曲操作が開始される)と、選曲の操作手順に応じて、案内画像の各画面の書式や、タイトルデータなどをハードディスク34から読み出す。そして、表示制御部38に、楽曲のタイトルデータなどのデータを対応する案内画像の画面の書式で、表示装置41に表示させる。画面上から(タッチパネル42の押下により)選曲、即ち、楽曲データの指定が実行されると、CPU31は、選曲された楽曲コードを無線通信部36から無線で出力する。ここで、選曲と共に画面上から(タッチパネル42の押下により)アスキーアートボタン42aが押下された場合には、CPU31は、楽曲コードにアスキーアートコードを付加して出力する。アスキーアートコードは、使用者によりアスキー画像による演出を本体1aに指示するコマンドであり、アスキーアートコードが楽曲コードに付加されていた場合には、本体1aは、アスキー画像による演出指示と認識し、アスキー画像による演出を実行する。
次に、図4〜図6のフローチャートを参照して、本カラオケ装置1により実行される各処理について説明する。
図4は、本体1aの制御部5のCPU11により実行されるカラオケ再生処理のフローチャートである。カラオケ再生処理は、歌唱者等により指定された楽曲について、伴奏を発生させ、歌詞データを表示すると共に、CRTディスプレイ2にて楽曲の演出を行う処理である。このカラオケ再生処理は、楽曲の再生が指定されること、即ち、楽曲コードの入力により開始されるので、まず、楽曲コードが入力されたか否かを確認する(S1)。ここで、楽曲コードが入力されていなければ(S1:No)、このカラオケ再生処理を終了する。一方、楽曲コードが入力されていれば(S1:Yes)、入力された楽曲コードにアスキーコードが付加されているか否かを確認し(S2)、入力された楽曲コードにアスキーコードが付加されていなければ(S2:No)、S3〜S6の処理をスキップして、その処理を楽曲データ出力処理(S7)に移行する。一方、アスキーアートコードが付加されていると(S2:Yes)、楽曲再生中の演出をアスキー画像で行うことの要求であると認識し、アスキーアートフラグ13cをオンする(S3)。
次に、「背景画像を撮影します」の表示を、所定時間CRTディスプレイ2に出力して背景画像の撮像を告知し(S4)、歌唱者などに注意を促す。本実施の形態では、アスキー画像による演出が指定されと、その楽曲の再生が開始される前に、背景画像の撮影を実行する。ここで、「背景画像を撮影します」の表示と共に撮影領域の画像がCRTディスプレイ2に出力され、背景画像の撮影領域を歌唱者等に認識させることができるようになっている。
その後、CCDカメラ3によって撮像された画像を取込み(1の画像フレームの取得)、取得した画像データを背景画像メモリ13aに書き込む(S5)。続いて、「撮影を開始します」の表示を、所定時間CRTディスプレイ2に出力する(S6)。そして、入力された楽曲コードに対応する楽曲データを、楽曲データメモリ14cから読み出して、伴奏装置21に出力する楽曲データ出力処理を実行する(S7)。伴奏装置21には、1の楽曲コードに対応する楽曲データが一括出力され、出力された楽曲データは、伴奏装置21内に設けられた所定のメモリに一括して記憶される。
次に、伴奏装置21に出力された楽曲データに対応する歌詞データを、歌詞データメモリ14dから読み出して映像処理部17に出力する歌詞データ出力処理を実行する(S8)。この歌詞データ出力処理(S8)では、入力された楽曲コードにて指定される歌詞データ(タイトルデータを含む)を読み出すと共に、読み出した歌詞データを、その歌詞データを構成する漢字コードに対応してハードディスク14の所定の領域に記憶された文字の画像データに展開し、歌詞文字画像データ(ドットデータ)を生成する。そして、生成された歌詞文字画像データを映像処理部17に出力する。1の楽曲コードに対応する歌詞データ(歌詞文字画像データ)は、楽曲再生開始前に映像処理部17内に設けられた所定のメモリに一括して記憶される。
次いで、アスキーアートフラグ13cがオンであるか否かを確認し(S9)、アスキーアートフラグ13cがオンであれば(S9:Yes)、CCDカメラ3により取得された画像データ(1の画像フレーム)から、1フレームのアスキー画像を形成するアスキーアート処理を実行する(S10)。アスキーアート処理(S10)の実行後は、楽曲の再生中であるか否かを確認し(S11)、楽曲の再生中であれば(S11:Yes)、S15の処理に移行し、再生中でなければ(S11:No)、楽曲が終了したタイミングであるか否かを確認する(S12)。ここで、楽曲が終了したタイミングであれば(S12:Yes)、アスキーアートフラグ13cをオフして、このカラオケ再生処理を終了する。
また、S12の処理で確認した結果、楽曲が終了したタイミングでなければ(S12:No)、楽曲の再生を開始するタイミングであるので、再生開始を映像処理部17およびに伴奏装置21指示する(S14)。これにより、映像処理部17による制御によって、伴奏装置21にて生成される伴奏に対応する歌詞データ(歌詞文字画像データ)が、ビデオミキサ18を介してCRTディスプレイ2に出力される。また、伴奏装置21により伴奏が生成され、生成された伴奏がスピーカ24から出力される。
S14の処理の後は、アスキー画像バッファ13bに記憶されるアスキー画像をビデオミキサ18に出力する(S15)。出力されたアスキー画像は、ビデオミキサ18において歌詞データ(歌詞文字画像データ)と合成され、映像処理部17による制御によってCRTディスプレイ2に出力される。
その後、その処理をS10の処理に移行する。これにより、入力された画像データの1の画像フレーム毎にアスキー画像の1フレームを形成するアスキーアート処理(S10)が、楽曲が終了する(S12:Yes)まで繰り返して実行され、CRTディスプレイ2においてアスキー画像が動画表示される。
一方、S9の処理で確認した結果、アスキーアートフラグ13cがオフであれば(S9:No)、入力された楽曲コードにはアスキーアートコードが付加されていなかった、即ち、楽曲再生中の演出をアスキー画像で行うことは要求されていないと認識し、ディスク再生処理を実行する(S16)。ディスク再生処理(S16)は、楽曲毎に予め定められた映像をディスクプレイヤー16に再生させる処理である。ハードディスク14の所定の領域には、楽曲コードとCDまたはDVDの識別コードとが対応付けられた対応テーブルが記憶されており、かかる対応テーブルに基づいて、CPU11は、入力された楽曲コードに対応するCDまたはDVDの識別コードをディスクプレイヤー16に指示する。ディスクプレイヤー16におけるCDまたはDVDの選択は、機械的な動作にて実行されるため、このディスク再生処理(S16)において、ディスクプレイヤー16におけるその選択動作が完了するまで、処理をウェイトする。
ウェイト終了後、再生開始をディスクプレイヤー16、映像処理部17、伴奏装置21に指示して(S17)、このカラオケ再生処理を終了する。かかる再生指示により、入力された楽曲コードに対応する楽曲の伴奏がスピーカ24から出力されると共に、その楽曲の歌詞データ(歌詞文字画像データ)と対応する映像とがビデオミキサ18を介してCRTディスプレイ2に出力される。
尚、CPU11は、S14,S17の処理にて再生開始を指示した後は、映像処理部17と伴奏装置21とにタイミング信号を出力し、CRTディスプレイ2への歌詞データ(歌詞文字画像データ)の出力と、伴奏装置21による伴奏の生成とを同期させる。
図5は、図4のカラオケ再生処理の中で実行されるアスキーアート処理(S10)のフローチャートである。この図5に示したアスキーアート処理(S10)を、アスキー画像が形成される課程を模式的に示した図である図3を参照しつつ説明する。
アスキーアート処理(S10)では、まず、画像用RAM27に記憶されている1の画像フレームの画像データを読み出す(S21)。そして、画像用RAM27に記憶される画像データと、背景画像メモリ13aに記憶される背景画像の画像データとを、共に、80×25文字を作成するドット数となるように、データを圧縮する(S22)。
1の記号は8×16ドットで構成されるため、総ドット数を80×25×128とするデータサイズに画像データは圧縮される。背景画像メモリ13aおよび画像用メモリ27に記憶される各画像データは、CRTディスプレイ2に出力した場合に良好な画像品質を実現し得る画素数を有しており、データ量が多い。このため、画像用RAM27に記憶される画像データを、そのまま、線画像データに変換し、更に、アスキー画像へ変換すると多大な処理時間が必要となり、出力されるアスキー画像の動画が、被撮影体の実際の動作から大きく遅延しかねない。更に、一般的な表示装置における標準の表示サイズは、全画面表示において80×25文字(記号)を表示するサイズとされているので、それ以上の文字(記号)にてアスキー画像が形成されると、その一部が非表示になりかねない。故に、アスキー画像作成にかかる処理時間を短縮し、更に、作成されたアスキー画像の大きさが一般的な表示装置に適合するように、このS22の処理にてデータを圧縮している。尚、必ずしも、画像データを、総ドット数80×25×128とするデータサイズに圧縮する必要はなく、その圧縮後のデータサイズは、作成するアスキー画像の態様(細密度)や、表示装置等に応じて適宜採用することができる。
S22の処理の後は、圧縮された両画像データをドット毎に比較し、共通部分を抽出して、その共通部分によりマスクを作成する(S23)。次に、圧縮後の画像データから、作成されたマスクに対応する部分、即ち、背景画像部分を削除し、人物画像データ(背景画像以外の部分の画像データ)を抽出する(S24)。この人物画像データが抽出された状態を図3(a)に示す。この図3(a)に表示される枠にて区画された画像が1の画像フレームを模式的に示しており、中心に描画された人物画像が抽出された人物画像データに対応している。図3(a)は、S24の処理によりマスク処理が実行された後であるので、背景画像が消去され、画像フレーム内には人物画像のみが表示されている。
尚、マスクは、圧縮後の画像データを比較することにより形成するものに限られず、画像用RAM27に記憶される画像データと、背景画像メモリ13aに記憶される背景画像の画像データとのそれぞれを、圧縮前に比較して、マスクを作成しても良く、さらに、画像用RAM27に記憶される圧縮前の画像データから作成したマスクを用いて人物画像データを抽出しても良い。
そして、抽出された人物画像の面積(ドット数)が、画像フレームの全体面積に対して半分以上を占めているか否か(人物画像面積≧1/2×(画像フレームの全体面積))を調べる(S25)。ここで、その抽出された人物画像の面積が、画像フレームの全体面積に対して半分以上を占めている場合は(S25:Yes)、人物画像が十分な大きさで撮影されていると判断し、そのままアスキー画像データに変換するべく、人物画像データからノイズを除去する(S26)。続いて、ノイズの除去された人物画像データをラプラシアン変換により線画像データに変換する(S27)。これにより、面で表された画像データから、その特徴部分を線で表現した線画像に変換される。この人物画像データをラプラシアン変換により線画像データに変換した状態を図3(b)に示す。その後、線画像データをアスキー画像に変換するアスキー変換処理を実行して(S28)、このアスキーアート処理(S10)を終了する。
一方、S25の処理で確認した結果、抽出された人物画像の面積(ドット数)が、画像フレームの全体面積に対して半分未満であれば(S25:No)、人物画像は基準よりも小さく不適切な大きさで撮影されていることが示されている。そこで、人物画像の面積が画像フレームの全体面積に対して半分以上となるように、人物画像データを拡大(伸張)する。アスキー画像を形成する場合に変換元の画像データ(本実施形態では人物画像データ)が小さくなると、変換元の画像データを有するブロック数が少なくなり、その結果、少ない数の記号にて小さなアスキー画像が形成されてしまう。少ない記号で組み立てられた小さなアスキー画像には、元の画像の特徴が反映され難く、場合によっては何を表したものであるかの識別が不能となる。そこで、本実施の形態では、画像フレーム全体の半分の面積を下限値とし、かかる値以下である場合に人物画像データを拡大して、元画像(撮像された人物)の特徴が反映されたアスキー画像が形成されるように構成されている。
故に、まず、画面(画像フレーム)横軸に対する人物画像データのドット分布を算出し、横軸方向の分布の中心(中央座標)を決定してから(S29)、人物画像の面積を、画像フレーム全体の半分の面積にて除して拡大率を算出し(S30)、S29の処理で決定された中央座標を中心に、その算出された拡大率で人物画像データを拡大する(S31)。これによれば、人物画像の中心から等方的にズームアップされた画像を形成できるので、拡大された画像がいびつな画像になることを回避できる。その後、S26の処理に移行して、拡大された人物画像データに基づいたアスキー画像の形成を実行する。
尚、画像データの拡大を判断する下限値は、必ずしも、画像フレーム全体の半分の面積に限られるものでなく、良好なアスキー画像が形成できる範囲で任意に設定できる。更に、人物画像の大きさは、人物画像データのドット数によって判定したが、これに代えて、画像フレームを80×25に分割し、人物画像データを有するブロック数が所定の数(例えば半分)以下であるか否かによって、人物画像データの拡大の実行と非実行とを判定しても良い。これによれば、判定にかかる処理時間を短縮することができる。
図6は、図5のアスキーアート処理(S10)の中で実行されるアスキー変換処理(S28)のフローチャートである。この図6に示したアスキー変換処理(S28)を図3を参照しつつ説明する。
アスキー変換処理(S28)では、まず、線画像データを有する画像フレームの横方向Xのサイズを、記号データの横サイズZ1で除し、横分割数mを求める(S41)。具体的には、本実施の形態では、1の記号データは8×16ドットの大きさとされており、記号データの横サイズZ1は、8ドットである。また、横方向Xに配列する文字(記号)数は、80であるので、横方向Xのサイズは、ドット換算で、8ドット×80、即ち、640ドットのサイズである。従って、このS41の処理により、横分割数mは、640を8で除した値「80」となる。
続いて、その画像フレームの縦方向Yのサイズを記号データの縦サイズZ2で除し、縦分割数nを求める(S42)。具体的には、本実施の形態では、記号データの縦サイズZ2は、16ドットである。また、縦方向Yに配列する文字(記号)数は、25であるので、縦方向Yのサイズは、ドット換算で、16ドット×25、即ち、400ドットのサイズである。従って、このS42の処理により、縦分割数nは、400を16で除した値「25」となる。
このS41,S42の処理により、図3(b)に示すように、画像フレームは所定の大きさのブロックに分割される。本実施の形態においては、画像フレームを、記号データと同じ8×16ドットの大きさのブロックに分割する。これによれば、テンプレートマッチングに際し、ブロックに分割された線画像データの各部(分割画像)と記号データとの大きさを整合させる処理を行うことなく、直ちにマッチングを行うことができるので、迅速にマッチングを行うことができる。尚、画像データが、総ドット数80×25×128以上または以下のデータサイズに圧縮されている場合など、画像フレームを分割するS41,S42において生じた端数は繰り上げとし、80×25以上または80×25以下のブロック数に分割される。
そして、変数iおよび変数jにそれぞれ「0」をセットした後(S43)、S44〜S51の処理により、分割された線画像データを、各ブロック毎に、記号データに変換する処理を実行する。この記号データに変換する処理は、画像フレーム内の各ブロックの行毎に、上段から下段に向かって実行される。画像フレーム内の各位置は、横方向をX、縦方向をYとする座標(Xi,Yj)で指定される。
具体的には、S44の処理により、変数jが縦分割数n未満であるか(j<n)否かを調べる(S44)。ここで、変数jが縦分割数n未満でなければ(S44:No)、変数jが縦分割数nに到達したことが示されており、記号データへの変換が分割されたブロックの最下段まで完了したと判断して、このアスキー変換処理(S28)を終了する。
一方、変数jが縦分割数n未満であれば(S44:Yes)、記号データへの変換が未完了であるので、変数iが横分割数m未満であるか(i<m)であるか否かを調べる(S45)。変数iが横分割数m未満であれば(S45:Yes)、横方向Xの1行の変換が未完了であるので、変換する1の領域(ブロック)の座標を求める(S46)。変換する1のブロックの横方向Xの座標は、変数iに記号データの横サイズZ1に乗ずること(i×Z1→Xi)によって求められ、縦方向Yの座標は、変数jに記号データの横サイズZ2に乗じて(j×Z2→Yi)求められる。例えば、開始時には、変数i=変数j=0であるので、座標(X0,Y0)は、(0,0)となる。その次の変換対象のブロックの座標(X1,Y0)は、(X0,Y0)よりもそのブロックの大きさ分横方向Xにシフトした位置である。つまり、次に変換される1の領域(ブロック)のX座標(X1)は、(i×Z1→Xi)に従って、変数i=1を記号データの横サイズZ1に乗じて求められる。同様に、次の段に移動した場合の座標(X0,Y1)は、そのY座標が、(j×Z2→Yi)に従って、変数j=1を記号データの縦サイズZ2に乗じて求められる。
そして、求められた座標(Xi,Yj)と、座標(Xi+Z1,Yj+Z2)とを対角線とする領域(1のブロックの指定)に分割された線画像データの各部(分割画像)に最も近似する1の記号データを、記号データメモリ14bに記憶される記号データの中からテンプレートマッチングにより検出する(S47)。続いて、その検出された記号データを座標に対応付けてアスキー画像バッファ13bに書込み(S48)、その後、変数iに1を加算して(i+1→i)(S49)、その処理をS45の処理に移行する。これにより、1の行に属するブロックについて変換が終わるまで、S45〜S49の処理が繰り返される。
また、S45の処理で確認した結果、変数iが横分割数m未満でなければ(S45:No)、変数iが横分割数mに到達したことが示されており、横方向Xの1の行について、各ブロックの線画像データの記号データへの変換が完了したと判断して、アスキー画像バッファに改行コードを書き込んだ後(S50)、変数jに1を加算する(j+1→j)と共に、変数iに「0」をセットして(S51)、その処理をS44の処理に移行する。これにより、次の段へと変換対象位置が移動する。そして、上記したように、S44の処理にて、線画像データの記号データへの変換が終了した(S44:No)と判断されるまで、S44〜S51の処理が繰り返される。これにより、図3(c)に示すように、線画像データが、分割されたブロックごとに記号データへと変換されたアスキー画像が形成される。
尚、本実施の形態では、線画像データに変換後(S27)に、アスキー変換処理(S28)において、画像フレームの分割(S41,S42)を行ったが、画像フレームの分割(S41,S42)後に、線画像データへの変換(S27)を行っても良い。
このように、本実施の形態のカラオケ装置1によれば、楽曲データの再生中におけるCRTディスプレイ2での演出を、アスキー画像での演出にて実行することができ、楽曲毎に予め定められた映像を出力する演出とは異なる新鮮な興趣を提供することができる。また、歌唱者の動きがアスキー画像に反映されるため、歌唱者がコミカルな挙動などを歌唱と共に行えば、余興として高い娯楽性を実現することができる。
尚、楽曲に応じて予め定められた映像の出力と、アスキー画像の出力とを切り替えるスイッチを設けると共に、かかるスイッチの状態を所定時間毎に監視する監視手段を設け、その監視手段により検出されるスイッチの状態に応じて、出力する画像を切り替えるように構成しても良い。これによれば、使用者が任意のタイミングにおいて、映像の出力と、アスキー画像の出力とを切り替えることができる。
更に、カラオケ装置1は、カラオケ装置1に設けられたCCDカメラ3から入力される画像データをアスキー画像に変換して、CRTディスプレイ2に出力するように構成され、また、マイクロフォン23から入力された音声データをカラオケ装置1のスピーカ24から出力するように構成された。これに代えて、アスキー画像に変換する画像データの入力および変換されたアスキー画像の出力を、カラオケ装置1以外の外部装置にて実行するように構成しても良い。かかる外部装置は、カラオケ装置1とは別体で設けられ、且つ、カラオケ装置1と通信可能に形成されるデバイスであり、撮像装置(および表示装置)を備えた携帯電話や、PDA(Personal Digital Assistance)、パーソナルコンピュータに加え、上記の電子早見本30にCCDカメラ3を搭載したもの等が例示される。また、マイクロフォン23およびスピーカ24に代えて、上記した外部装置に設けられたマイクロフォンやスピーカを利用して音声データの入出力を行うように構成しても良い。
これによれば、各個人がそれぞれ所有する携帯電話等から画像データと音声データとを入力することにより、入力された画像データに基づくアスキー画像と音声データとを、カラオケ装置1を介して、他の携帯電話等の外部装置に出力することができる。このため、画像データや音声データの入出力デバイスの自由度を向上させることができ、特定の者にのみアスキー画像を閲覧させたいという要望や、携帯可能なデバイスでアスキー画像を手元で閲覧したいという要望等、多種多様な利用者の嗜好に応じることができる。
次に、図7から図11を参照して、本発明の第2の実施形態について説明する。第1の実施形態では、画像処理装置はカラオケ装置1にて構成された。これに代えて、第2の実施形態では、画像処理装置はインターネットプロトコル(Internet Protocol)を用いた電話装置(以下単に「IP電話装置」と称す)にて構成され、画像処理部を有する送信側装置と、表示装置を有する受信側装置とを備えている。尚、上記した第1の実施形態と同じ部分には同じ符号を付し、その説明を省略する。
図7は、第2の実施形態の画像処理装置であるIP電話装置200を備えた電話システム220を示した概略図である。各IP電話装置200(200a,200b,200c)は、いずれもデータを送信する送信側装置であり且つデータを受信する相手側装置でもある。従って、各IP電話装置200は、それぞれ、画像処理部と表示装置との両者を備えている。また、図7に示すように、IP電話装置200a,200bは、コンピュータ本体とそのコンピュータ本体へ各種データやコマンドなどを入力するためのキーボードと、コンピュータ本体で実行される処理をモニターするためのCRTディスプレイ112とを備えたパーソナルコンピュータ(以下単に「PC」と略す)である。IP電話装置200cは受話器と送話器とを備えた電話機である。尚、テレビ電話装置200以外にIPパケット網に接続される他の電話装置は、図示を省略している。
各IP電話装置200a,200b,200cは、IPネットワーク網に接続され、かかるIPネットワーク網を介して、相互に音声データや画像データ等のデータのパケット通信を行う装置であり、音声データおよび画像データのパケット処理機能やIP電話固有のプロトコル処理機能を備えIPアダプタとして機能する通信制御部120(図8参照)を内蔵している。また、各IP電話装置200a,200b,200cは、音声とともに画像を相手側装置との間で送受信するテレビ電話機能を有しており、送話者の画像を撮像するためのCCDカメラ116と、受信した画像データを再生表示するための表示装置(例えばCRTディスプレイ112等)とを備えている。
送信側装置であるIP電話装置200(例えばIP電話装置200aとする)は、送話者の要求(指定)に応じて、CCDカメラ116の入力画像をアスキー画像に変換し、変換されたアスキー画像に対応するコードを音声データと共に相手側装置のIP電話装置200b,200cに送出するように構成されている。送出されるデータは、IPアダプタにより、所定の長さに区切られてデータブロック化され、1のデータブロックが1のパケットに入れられて相手側装置へと送出される。
一方、相手側装置であるIP電話装置200(例えばIP電話装置200aを送信側装置とした場合のIP電話装置200b,200c)は、受信したパケットの遅延時間調整と、パケットの順序調整を行った後、パケットからデータを取り出すようになっており、受信したデータにアスキー画像に対応するコードが含まれていると、アスキー画像を再生して自己の表示装置(例えばCRTディスプレイ112等)に出力するように構成されている。
各IP電話装置200a,200b,200cは、ADSL(Asymmetric Degital Subscriber Line)をアクセス回線として、IPネットワーク網に接続されている。IPネットワーク網は、非図示のゲートキーパによって呼制御が行われる通信業者が専用に構築したネットワーク回線であり、回線経路に設置されたルータによって相手側装置まで、各パケットを送信するものである。更に、IPネットワーク網は、非図示のVoIPゲートウェイを介して既存の電話網と相互に接続されており、一般の電話とも相互に通信可能に構成されている。
尚、アクセス回線は、通常の一般公衆回線や、ISDN回線、ケーブルテレビのインターネット接続回線などであってもよい。また、IPネットワーク網は、一般のインターネットのIPパケット網を使用しても良い。
図8は、上記のように構成された電話システム220のIP電話装置200の電気的構成を示すブロック図である。尚、IP電話装置200bは、IP電話装置200aと同様に構成されているのでその説明を省略し、IP電話装置200cについては、IP電話装置200aと異なる部分のみ説明する。
IP電話装置200aは、PCに電話機能を実現する各デバイスが搭載されたものであり、CPU101、ROM102、RAM103、画像用RAM105、音声用RAM106を備えている。演算装置であるCPU101は、ROM102に記憶される制御プログラムや、後述するハードディスク104に記憶される制御プログラム104aにより、IP電話装置200aを制御するものである。ROM102は、CPU101により実行される各種のプログラムや固定値などを記憶した不揮発性のメモリである。RAM103は、CPU101による各種プログラムの実行に際して、各種のデータ等を一時的に記憶するためのメモリであり、背景画像メモリ103aと、アスキー画像バッファ103bと、アスキーアートフラグ103cとを備えている。
背景画像メモリ103aおよびアスキー画像バッファ103bは、第1の実施形態のカラオケ装置1(制御部5のRAM13)に設けられた背景画像メモリ13aおよびアスキー画像バッファ13bと同様のメモリである。背景画像メモリ103aには、背景画像としてCCDカメラ3により撮像(取得)された画像データが記憶され、アスキー画像バッファ103bには、アスキー変換処理(S28、図6参照)において、形成されたアスキー画像が一時的に記憶される。
アスキーアートフラグ103cは、相手側装置に送出する画像データをCCDカメラ116で撮像された画像とするか、アスキー画像とするかを識別するためのフラグである。このアスキーアートフラグ103cは、後述する電話処理(図9参照)を実行する入力画面(電話処理のメイン画面)において、アスキー画像指定コマンドが入力されるとオンされ、その後に回線が開放されるとオフされる。
画像用RAM105および音声用RAM106は、DRAMまたはSDRAMなどで構成された大容量のRAMであり、画像用RAM105は、第1の実施形態の画像用RAM27と同様に、背景画像撮影後にCCDカメラ116にて取得された画像データを一時的に記憶するものである。また、音声用RAM106は音声データを一時的に記憶するものであり、マイクロフォン115を介して入力された音声データ(送話者の発声)は、音声用CODEC109により符号化された後、この音声用RAM106に記憶される。
図8に示すように、CPU101、ROM102、RAM103、画像用RAM105、音声用RAM106はバスライン107を介して互いに接続されており、バスライン107はまた入出力ポート108にも接続されている。この入出力ポート108は、バスライン107の他に、ハードディスク104、音声用CODEC109、画像用CODEC110、CRTディスプレイ112、キーボード113、スピーカ114、マイクロフォン115、CCDカメラ116、通信制御部120と接続されている。
ハードディスク104は、書換可能な大容量の不揮発性のメモリであり、本IP電話装置200aを制御する制御プログラム104aと、記号データメモリ104bとを備えている。尚、図9〜図11に示したフローチャートのプログラムは、制御プログラム104aの一部として格納されている。記号データメモリ104bは、第1の実施形態のカラオケ装置1(制御部5のハードディスク14)に設けられた記号データメモリ14bと同様のメモリであり、記号の画像データが記憶されている。
音声用CODEC109および画像用CODEC110は、音声データと画像データとを、それぞれ、符号化および復号化する電子回路(ハードウェア)である。音声用CODEC109は、アナログデータで入力される音声データ(送話者の発声)を、所定のサンプリング周期で取得して、量子化、符号化することにより、デジタルデータに変換する処理(符号化)を行う回路である。符号化された音声データは、音声用RAM106に書き込まれる。通信制御部120にて受信された相手側装置からの音声データは、この音声用CODEC109にて復号化(伸張)された後、スピーカ114から出力される。
画像用CODEC110は、CCDカメラ116から入力され、画像用RAM105に記憶された画像データを、相手側装置に送信するデータ形式に圧縮符号化するものである。また、通信制御部120にて受信された相手側装置からの画像データは、この画像用CODEC110にて復号化(伸張)された後、CRTディスプレイ112から出力される。
尚、IP電話装置200aでは、符号化された音声データに対し、更に、帯域圧縮符号化が行われている。この音声データの帯域圧縮符号化には、離散コサイン変換(DCT)が適用されている。離散コサイン変換は、画像を小さなブロックに分割して周波数成分係数を量子化および符号化して圧縮する一般的な方式である。従って、相手側装置からの音声データを受信した場合には、まず、離散コサイン変換の逆変換(IDCT)処理を行ってから、音声用CODEC109にてアナログデータに復号化して再生出力する。
通信制御部120は、IP電話装置200aが他のIP電話装置200b,200c(または他の電話装置)との間で、IPネットワーク網を介したパケット通信を実行するための装置であり、モデム121、信号分離部123、信号多重部124、バッファ125を備えている。
モデム121は、ADSLモデムであり、IP電話装置200aから送出するデータ(信号)をADSL回線に適応したADSL信号に変換すると共に、IP電話装置200aにて受信したADSL信号をIP電話装置200a内で処理する適切な信号(例えばイーサネット(登録商標)の信号)に変換する信号変換機である。また、モデム121は、通信相手を呼び出すためにダイヤル信号を送出し、回線を制御するNCUの機能を備えている。
信号分離部123は、IP電話装置200b,200c等の相手側装置から受信したデータについて、画像データと音声データとに分離する装置である。後述するように、本電話システム220においてアスキー画像データは、音声データとして相手側装置から送出されているので、この信号分離部123においては分離されない。信号多重部124は、送信バッファ125aに記憶される音声データ及び画像データを時間軸方向に、画像フレームと音声データとを多重化する装置であり、多重化されたデータは、モデム121を介して送出される。
バッファ125は、一時的にデータを記憶しておくメモリであり、送出するデータを一時的に記憶するための送信バッファ125aと、受信したデータを一時的に記憶するための受信バッファ125bとを備えている。送信バッファ125aには、後述する電話処理(図9参照)にて圧縮符号化された音声データ及び画像データが記憶されている。記憶される音声データ及び画像データは、所定のタイミングでこの送信バッファ125aから読み出されて、信号多重部124に出力される。受信バッファ125bには、信号分離部123により分離された画像データと音声データとが、それぞれフレーム単位で記憶されている。受信バッファ125bにデータが記憶されていることがCPU101により認識されると、受信バッファ125bに記憶されるデータは、この受信バッファ125bから読み出され、復号化と再生出力とが実行される。
このように、IP電話装置200aは、通信制御部120を介し(ADSL回線を経て)、IPネットワーク網に接続されており、IPネットワーク網を経由して他のIP電話装置200b,200cなどと相互に接続されている。これにより、IP電話装置200aと他のIP電話装置200b,200c(または他の電話装置)との間で、音声データ及び画像データを送受信するテレビ電話を実行することができるようになっている。
尚、IP電話装置200cは、電話機であるので、マイクフォン115として送話器が、スピーカ114としては受話器が機能し、CRTディスプレイ112の代わりにLCDが設けられると共に、アスキー画像指定コマンドを入力するコマンド入力ボタンを備えている。
次に、図9から図11を参照して、上記のように構成されたIP電話装置200にて実行される各処理について説明する。
図9は、上記のIP電話装置200(200a,200b)にて実行される電話処理を示したフローチャートである。IP電話装置200a,200bはPCであるので、電話処理は、キーボード113操作により、開始を要求する所定のコマンドが入力されると開始され、まず、電話処理のメイン画面をCRTディスプレイ2に表示する(S101)。その後、相手側装置の電話番号が指定されたか否かを確認し(S102)、相手側装置の電話番号が指定されていなければ(S102:No)、その指定を待機する。尚、S102の処理においては、所定時間の経過が監視されており、所定時間が到来しても相手側装置の電話番号が指定されていない場合には、その処理をS114の各処理に移行する。
一方、相手側装置の電話番号が指定されていれば(S102:Yes)、アスキー画像指定コマンドが入力されたか否かを確認する(S103)。アスキー画像指定コマンドは、相手側装置に送信する画像データをアスキー画像とすることを指示するコマンドであり、メイン画面の表示に従って所定のキー操作を行うことにより入力される。
ここで、アスキー画像指定コマンドが入力されていなければ(S103:No)、S104の処理をスキップしてその処理をS105の処理に移行する。一方、アスキー画像指定コマンドが入力されていると(S103:Yes)、アスキーアートフラグ103cをオンし(S104)、その後、相手側装置を発呼する(S105)。S105の処理により発呼要求がIPネットワーク網に設置されたゲートキーパに送信され、ゲートキーパの動作によって、発呼側装置であるIP電話装置200aと相手側装置との間の通話状態が確立される。
その後、アスキーアートフラグ103cがオンであるか否かを確認し(S106)、アスキーアートフラグ103cがオンであれば(S106:Yes)、アスキーアート処理を実行して(S107)、CCDカメラ116から取り込んだ画像データをアスキー画像データに変換する。アスキーアート処理(S107)は、図5に示した第1の実施形態のアスキーアート処理(S10)同様の処理である。尚、第1の実施形態においては、アスキー変換処理(S28)のS47の処理により、アスキー画像バッファ13bには、テンプレートマッチングにより検出された記号データ(画像データ)が書き込まれるように構成したが、第2の実施形態では、アスキー変換処理(S28)のS47の処理において、テンプレートマッチングにより検出された記号データに対応する記号コードが、アスキー画像バッファ13bに書き込まれるものとする。
また、S106の処理とS107の処理との間には、背景画像をCCDカメラ116にて撮像し、撮像された背景画像の画像データを背景画像データメモリ103aに書き込む非図示のステップが設けられている。かかるステップは、回線閉結後の初回のアスキーアートフラグ103cの状態確認(S106)直後に実行され、それ以降は、非実行とされる。
その後、相手側装置から受信した画像データが受信バッファ125bに記憶されているか否かを確認すると共に、画像データが受信バッファ125bに記憶されていると、その画像データをCRTディスプレイ112に再生出力する画像出力処理を実行する(S108)。この画像出力処理により出力される画像データは、メイン画面の一部にマルチウィンドウを開いて表示される。尚、受信バッファ125bに記憶される画像データは、上記したように画像用CODEC110にて復号化されてCRTディスプレイ112に出力される。
画像出力処理(S108)の後は、マイクロフォン115から入力された音声データを相手側装置に送信するための音声送出処理を実行した後(S109)、相手側装置から受信した音声データを、スピーカ114から再生出力する音声出力処理を実行する(S110)。その後、通話が終了したか否かを確認し、通話終了であれば(S111:Yes)、相手側装置との通話状態を解消し(通話終了をゲートキーパに通知する)(S112)、アスキーアートフラグ103aをオフする(S113)。続いて、各処理を実行して(S114)、受信した画像データを画像出力するためのマルチウィンドウ表示を終了する処理を行うと共に、電話処理を終了する終了コマンドや他のコマンド(例えば電話番号の登録処理の実行コマンドなど)の入力や、新たな電話番号の指定を待機する。そして、この各処理(S114)において、終了コマンドの入力が認識されると、メイン画面を終了してこの電話処理を終了する。また、その他のコマンドが入力された場合には、入力されたコマンドの内容に応じた処理を実行する。新たな電話番号の指定が認識された場合には、その処理をS103の処理に移行する。
更に、S106の処理で確認した結果、アスキーアートフラグ103cがオフであれば(S106:No)、CCDカメラ116から入力された画像データ(映像)を相手側装置に送出する通常の画像送出処理を実行する(S115)。背景画像の撮影後にCCDカメラ116から入力された画像データは、画像用RAM105に画像フレーム単位で記憶されている。この画像送出処理(S115)では、画像用RAM105に記憶される画像データを、入力順に従って画像用CODEC110に出力する。画像用RAM105から1の画像フレームの出力が終了すると、この画像送出処理(S115)を終了し、その処理をS108の処理に移行する。画像用CODEC110に出力された画像データは、圧縮符号化された後、通信制御部120に出力される。
また、S111の処理で確認した結果、通話終了でなければ(S111:No)、その処理をS106の処理に移行し、通話終了が認識される(S111:Yes)まで、S106の処理〜S111の処理、または、S106,S115、S108〜S111の処理を繰り返し、通話状態を維持する。
尚、IP電話装置200cにおいても、上記と同様の電話処理が実行されるが、S101の処理は省略され、発呼と着呼とを交互に検出する待機状態となっている。そして、オフフック状態が検出されると、発呼要求と判断して、S102の処理が実行されることとなる。また、アスキー画像指定コマンドは、そのコマンド入力ボタンを操作することにより入力される。
図10は、図9の電話処理の中で実行される音声送出処理(S109)のフローチャートである。この音声送出処理(S109)は、上記したようにマイクロフォン115から入力された音声データ(送話者の発声)を、相手側装置に送出する処理である。マイクロフォン115から入力された音声データは、音声用CODEC109によりデジタルデータに変換され音声用RAM106に記憶されている。そして、この音声用RAM106に記憶される音声データをDCT処理(離散コサイン変換処理)した後(S121)、そのDCT処理された音声データについて最可聴限界以下の成分を除去する(S122)。
最可聴限界とは、通常の人間の聴力で聴きとることのできる限界の音声であり、周波数帯域と音量のレベルとにより決定される。例えば、20ヘルツ〜5キロヘルツは、小さな音でも良く聞こえる周波数帯域であり、これよりも高い周波数や低い周波数になればなるほど可聴困難な領域となる。また、同じ周波数帯域であっても、音量レベルが低いと、可聴困難となる。最可聴限界以下とは、周波数帯域および音量レベルの因子により、通常、人間の聴力で聴きとることのできない音声の領域である。
従って、S122の処理により、最可聴限界以下の成分であるか否かは、DCT処理された音声データの各成分の周波数帯域と音量レベルとにより判別される。尚、周波数帯域毎に定められた音量レベルが最可聴限界を示す閾値としてハードディスク104の所定のエリアに記憶されている。
次に、アスキーアートフラグ103aがオンであるか否かを確認し(S123)、オフであれば(123:No)、S124,S125の処理をスキップして、その処理をS126の処理に移行する。オンであれば(S123:Yes)、アスキー画像バッファ103bに記憶される記号コード(8ビットのデータ、2進数のデータ)を、除去した最可聴限界以下の成分として、音声データに付加する(S124)。つまり、除去された音声データの成分の周波数帯域に、記号データを、その周波数帯域に対応して予め定められた音量レベル以下となる大きさで組み込む(限界周波数成分のデータ信号に変換する)。
これにより、記号データを、音声データの可聴限界以下の成分として、音声データに重畳(保有)させることができ、記号データが音声データ中に含まれていても、再生する音声の品質に大きな影響を与えることはない。従って、かかる記号コードの部分を除去せずに音声データを再生出力しても、付加された記号コードによる耳障りなノイズや可聴不能とする音声品質の低下が発生することはない。故に、相手側装置が、汎用の電話装置であっても、通話に支障を来すことはない。
尚、相手側装置が、最可聴限界以下の成分を音声として出力しないとする(再生しない周波数帯(非再生領域)が予め設けられている)ものであれば、相手側装置において、最可聴限界以下の成分として保有される記号データは、音声データとしては出力されない。かかる場合の、音声データの最可聴限界以下の成分を除去するS122の処理が、請求項8記載の第1除去手段に該当する。尚、再生しない周波数帯(非再生領域)は、最可聴限界以下の成分の領域に限られるものではなく、所定の周波数帯域に設定されていても良い。
また、アスキー画像バッファ103bには、分割されたブロックの位置(座標)に従って、順に記号コードが記憶されており、S124の処理では、アスキー画像バッファ103bから、その記憶された順(アドレスの順)に従って記号コードを読み出し、その読み出した順に音声データに付加する。このため、受信した音声データから順次、最可聴限界以下の成分を取り出せば、記号コードの配列を元画像の座標に従ったものとでき、かかる記号コードの配列から元のアスキー画像を再生出力することができる。
また、第2の実施形態においては、音声用CODEC109にてサンプリングされた1サンプリング単位の音声データからDCT処理により変換した1単位の音声データに、1の記号コードを付加するものとする。尚、1単位の音声データに付加する記号コードは2以上の複数の記号コードであってもよく、1単位の音声データにいくつの記号コードを付加するかは、伝送速度や画像品質を加味して、適宜、設定されるものとする。
S124の処理の後は、音声データにアスキー画像を形成する記号コードが含まれていることを示すアスキー保有コードを、音声データに付加して(S125)、そのアスキー保有コードの付加された音声データを通信制御部120に出力し(S126)、この音声送出処理(S109)を終了する。
通信制御部120では、音声送出処理(S109)により入力された音声データを時間軸方向に区切ってパケット化する共に、相手側装置の識別子などと共にアスキー保有コードがパケットのヘッダデータとして付加される。そしてパケット化されたデータを所定の伝送方式で回線へ出力する。これにより、アスキー画像は、音声データの態様で相手側装置に送出されることとなる。
尚、アスキー画像の出力でない場合など、画像送出処理(S115)により、画像用CODEC110を介して通信制御部120に送出された画像データが、送信バッファ125aに記憶されていると、その画像データと対応する音声データとが信号多重部124により多重化された後、パケット化されて、回線に出力される。
図11は、図9の電話処理の中で実行される音声出力処理(S110)のフローチャートである。この音声出力処理(S110)では、まず、通信制御部120の受信バッファ125bに、音声データが記憶されているか否かを確認し(S131)、記憶されていなければ(S131:No)、この音声出力処理(S110)を終了する。一方、受信バッファ125bに音声データが記憶されていると(S131:Yes)、受信バッファ125bに記憶されている音声データを読み出し、読み出した音声データにアスキー保有コードが付加されているか否かを確認する(S132)。アスキー保有コードが付加されていた場合には(S132:Yes)、その音声データに最可聴限界以下の周波数成分として具有される2進数の値を、受信した音声データの順に従って、順次、RAM103の所定領域に書き込む(S133)。尚、受信バッファ125bに記憶されている音声データは、最可聴限界以下の周波数成分の2進数の値をRAM103の所定領域に書き込んだ後、受信バッファ125bから消去される。その後、RAM103の所定領域に書き込まれた2進数を8ビット毎に読み取り、ハードディスク14の記号データメモリ14bを参照して、読み取った8ビットの記号コードを記号データに変換する(S134)。そして、変換された記号データを、CRTディスプレイ112に表示される電話処理のメイン画面の所定領域(所定のウィンドウ)に出力する(S135)。尚、IP電話機200cにおいては、このS135の処理により、アスキー画像データがLCDに出力される。
その後、受信バッファ125bに記憶される音声データにIDCT処理(離散コサイン逆変換処理)を行ってから(S136)、IDCT処理された音声データを、音声用CODEC109に出力して(S137)、この音声出力処理(S110)を終了する。音声用CODEC109に出力された音声データは、復号化によりアナログデータに変換されて、スピーカ114から再生出力される。
一方、S132の処理で確認した結果、アスキー保有コードが付加されていなければ(S132:No)、音声データには、アスキー画像を形成するデータ(記号コード)が含まれていないと判断し、S133〜S135の処理をスキップして、その処理をS136の処理に移行する。
パケット内の各音声データから、アスキー画像を形成する記号コードが含まれているか否かを判断する場合には、最可聴限界以下の成分の2進数のデータが「0」が、記号コードが含まれていないが故であるのか、画像データの無地部分であるが故であるかの判別が困難になる。場合によっては、1の画像フレームに対応する全パケットについて、データの読み取りを終了するまで、その判別ができず、アスキー画像形成の処理速度を低下させがねない。しかし、第2の実施形態においては、アスキー画像を形成する記号コードを含む音声データであることは、アスキー保有コードにて示されるので、音声データに記号コードが含まれているか否かを容易に判定でき、アスキー画像形成をスムーズに実行することができる。
このように、第2の実施形態によれば、音声と画像とを相手側装置に出力するIP電話装置200において、相手側装置に送出する画像をアスキー画像とすることができる。このため、実際の映像を出力するテレビ電話とは異なる趣を持った画像によるコミュニケーションをはかることができる。また、実際の映像をそのまま相手側装置に送出したくない場合などにおいては、送話者側のプライバシーを守りつつ、元の映像に基づいた高度なコミュニケーションを行うことができる。また、アスキー画像は、記号の組み合わせにより描画されるものであるので、画像形成機能のない装置やプログラムであっても、文字記号を表示する機能を備えていれば、アスキー画像を現出させて演出を実行することができる。
尚、第2の実施形態においては、送信側装置となるIP電話装置200は、アスキー画像指定コマンドが入力された場合に実際の映像に代えてアスキー画像を相手側装置に送出したが、実際の映像と共にアスキー画像を相手側装置に送出するように構成しても良い。アスキー画像と実際の映像(CCDカメラ116から入力された画像データ)とを共に相手側装置に送出することにより送信側装置から送出する画像データの量が増加しても、アスキー画像は音声データとして送出されるので、画像データを送出する処理(画像データ送出処理)が煩雑になることはない。
また、送信側装置となるIP電話装置200を、上記のように、実際の映像と共にアスキー画像を送出するように構成した場合において、相手側装置となるIP電話装置200に、実際の映像の出力とアスキー画像の出力とを切り替えるスイッチと、かかるスイッチの状態を割り込み処理にて監視する監視手段とを設け、その監視手段により検出されるスイッチの状態に応じて、受信した映像とアスキー画像との一方を出力するように構成しても良い。
以上、上記各実施の形態に基づき本発明を説明したが、本発明は、上記各実施の形態に何ら限定されるものでなく、本発明の趣旨を逸脱しない範囲内で種々の改良変形が可能であることは容易に推察できるものである。
例えば、上記各実施の形態では、アスキー変換処理(S28)において、画像フレームは、記号の大きさと同じ大きさのブロックに分割したが、記号の大きさブロックの大きさとは、テンプレートマッチングの際に整合されていればよく、マッチングする際に一方の画像を拡大または縮小しても良い。このため、分割されるブロックの大きさは、必ずしも記号の大きさと整合させる必要はない。
また、分割するブロック数は、80×25に限られるものでなく、更に、そのブロック数を可変値とし、使用者が操作パネルからその値を入力することにより任意に設定できるようにしてもよい。使用者によりブロック数が設定された場合には、S41およびS42の処理において、その設定されたブロック数となるように横分割数mと、縦分割数nが設定される。これにより、使用者の意向を反映したアスキー画像を作成でき、表現の自由度を向上させて娯楽性を向上させると共に、使用者が自己の操作によって所望の変形を施すことができるので、作成されるアスキー画像に対し、使用者に高い満足度を付与し得る。
更に、上記各実施の形態では、背景画像は、アスキー画像による1の演出が開始される毎に行うように構成されたが、背景画像の取得(背景画像メモリ13a,103aに記憶される背景画像の画像データの更新)は、必ずしも、アスキー画像による演出が実行される毎に行われる必要はない。例えば、操作者により要求された場合にのみ背景画像を撮像し、背景画像が取得された場合に限って、背景画像メモリ13a,103aに記憶される背景画像の画像データを、新たに取得した背景画像の画像データにより更新するようにしても良い。
また、上記各実施の形態においては、各画像フレームのそれぞれをアスキー画像に変換したが、取得された全画像データ(画像フレーム)から、所定間隔で画像フレームをサンプリングし、サンプリングされた画像フレームについてのみアスキー画像を形成して、他の画像フレームについては廃棄するように構成しても良い。また、サンプリングする所定間隔については、使用者が任意に設定できるようにしても良い。これによれば、効率的にアスキー画像を形成してその形成処理の速度全体を高速化できる上、コマ送り表示として再生されるアスキー画像の動画の娯楽性を高めることができる。
更に、アスキーアート処理(S28,S107)においては、人物画像の面積が画像フレーム全体の半分未満である場合に、人物画像の面積が画像フレーム全体の半分となるように1段階で画像の拡大を行った。これに代えて、1回で拡大される拡大率を固定倍率とし、段階的に元の人物画像を拡大するように構成しても良い。これによれば、操作者所望の倍率に人物画像を拡大することができる。
加えて、上記各実施の形態では、画像フレームを分割した場合に、その画像フレーム内における人物画像の面積が所定の面積未満であると、人物画像データの拡大を行ったが、人物画像の面積が所定の面積以上(人物画像データを有するブロック数が所定数以上)である場合については、人物画像データの圧縮を実行しても良い。これによれば、表示画面に対して、人物画像が大きすぎるために視認性が悪化することを、回避できる。尚、かかる場合の人物画像データの圧縮を実行する処理が、請求項5記載の画像データ圧縮手段に該当する。
更に、上記各実施の形態では、画像データを入力する画像データ入力手段として、リアルタイムで画像データを取得するCCDカメラを採用したが、入力される画像データはリアルタイムで取得されたものに限られるものでなく、予め画像データが記憶された記憶媒体とその記憶媒体に記憶される画像データを読み取る読み取り手段とにより画像データを入力する画像データ入力手段を構成しても良い。