JP2006221253A

JP2006221253A - 画像処理装置および画像処理プログラム

Info

Publication number: JP2006221253A
Application number: JP2005031796A
Authority: JP
Inventors: Toyoichi Sakai; 豊一坂井
Original assignee: Xing Inc
Current assignee: Xing Inc
Priority date: 2005-02-08
Filing date: 2005-02-08
Publication date: 2006-08-24
Anticipated expiration: 2025-02-08
Also published as: JP4504216B2

Abstract

【課題】入力された画像の特徴が反映された簡素な画像を記号データで形成して動画再生することにより、高い娯楽性を有する演出を行うことのできる画像処理装置および画像処理プログラムを提供すること。
【解決手段】ＣＣＤカメラから入力された画像データの背景画像部分を削除し、人物画像データ（背景画像以外の部分の画像データ）を抽出する（ａ）。この人物画像データをラプラシアン変換により線画像データに変換し（ｂ）、線画像データを、分割したブロックごとに記号データへと変換してアスキー画像を形成する。形成されたアスキー画像をＣＲＴディスプレイに出力する。これにより、楽曲データの再生中におけるＣＲＴディスプレイでの演出を、アスキー画像での演出にて実行することができる。
【選択図】図３

Description

本発明は、入力画像を記号の集合体で構成した画像に置換して、かかる置換画像を動画再生する画像処理装置および画像処理プログラムに関する。

近年、電子メールやインターネットが広く普及し、これに伴い、電子メールやインターネットの掲示板等で、文章表現ツールの１種としていわゆる「顔文字」が広く使用されている。「顔文字」は、表情を模した画像が記号（文字）の組み合わせにより作成されたテキストデータである。

かかる「顔文字」は、使用者個人が記号を組み合わせて作成するもの以外に、予めコンピュータ内部に記憶されていたり、サーバからのダウンロードにより取得することができる。使用者は、かかる「顔文字」を表現内容に合わせて適宜選択し、文章中に添付することにより、文章表現に加え、自己の気分や感情を表現する。この「顔文字」の添付により、文章だけでは伝達できない情緒が表現され、自己と他者との間で高度なコミュニケーションを行うことができる上、文章の娯楽性を向上させることができるのである。

また、かかる「顔文字」を顔画像のパターンに対応付けて記憶させており、カメラにて撮像された使用者の顔の表情（顔画像のパターン）に応じて、対応する「顔文字」を文中に入力する顔文字入力のためのシステムが開示されている（特許文献１参照）。
特開２００２−３１８６４９号公報

しかしながら、上記文献に開示されたシステムでは、カメラから取り込んだ使用者の顔の表情に応じて画像を添付できるものの、「顔文字」は、不特定多数の者が共通の認識を持つことのできる表情を模した画像であって個々の使用者の特徴が反映されたものではない。このため、「顔文字」を使用した表現は個性のない画一的な表現になってしまうという問題点があった。更に、「顔文字」等による表現は、広く普及しているので新鮮さに欠け、閲覧する者の興趣を高め難いという問題点があった。

一方で、入力された画像の各部を、濃淡に応じて予め定めた記号（テキストデータ）にて置換し、画像（いわゆる「アスキー画像」）を形成する手法が広く知られている。これによれば、入力された画像を「顔文字」同様、テキストデータにて表現することができ、入力された画像とは異なる態様でありながらも、入力された画像の特徴を反映した表現を行うことができる。しかし、かかる画像は、明瞭さに欠けた画像品質が悪いものとなりがちであるという問題点があった。また、動画再生においては、処理するデータ量が多くなり、その処理が煩雑となるという問題点があった。

本発明は、上記問題点を解決するためになされたものであり、入力された画像の特徴が反映された簡素な画像を記号データで形成して動画再生することにより、高い娯楽性を有する演出を行うことのできる画像処理装置および画像処理プログラムを提供することを目的としている。

この目的を達成するために、請求項１記載の画像処理装置は、複数の画像フレームを有し連続した画像を現出させ得る画像データを入力する画像データ入力手段と、その画像データ入力手段により入力された画像データを各画像フレーム毎に加工する加工手段と、その加工手段により加工された画像フレームをその入力順に従って順次出力することにより画像データを出力する出力手段とを備えた画像処理部と、その画像処理部の出力手段により出力された前記画像フレームを順に表示して前記画像データを動画表示する表示装置とを備えており、前記画像処理部は、複数の記号の画像データが記憶された記号データ記憶手段を備えており、前記画像処理部の加工手段は、前記画像データ入力手段にて入力された画像データを線画像データに変換する線画変換手段と、前記画像データ入力手段にて入力された画像データの画像フレーム又は前記線画変換手段により変換された線画像データを有する画像フレームを所定数のブロックに分割する分割手段と、その分割手段により分割されたブロック単位で、前記線画像データの態様と近似する記号を前記記号データ記憶手段に記憶される記号の画像データの中から抽出する抽出手段と、その抽出手段により抽出された記号の画像データで、対応するブロックの前記線画像データを置換した置換画像データを形成する画像形成手段とを備えており、前記画像処理部の出力手段は、前記置換画像データにて形成された置換画像データを出力するものであり、前記表示装置にて前記置換画像データの動画表示を行う。

請求項２記載の画像処理装置は、請求項１記載の画像処理装置において、前記画像処理部は、前記画像データ入力手段として撮影により画像データを取得する撮像装置を備えており、更に、その撮像装置により背景画像として取得された背景画像データを記憶する背景画像記憶手段を備えると共に、前記画像処理部の加工手段は、前記撮像装置により取得された画像データから前記背景画像記憶手段に記憶される背景画像データとの共通部分を除いて、前記画像フレーム毎に固有の固有画像データを抽出する固有画像データ抽出手段を備え、前記画像処理部の線画変換手段は、その固有画像データ抽出手段により抽出された固有画像データを線画像データに変換するものであり、前記画像処理部の画像形成手段は、その固有画像データから変換された線画像データによって置換画像データを形成するものである。

請求項３記載の画像処理装置は、請求項２記載の画像処理装置において、前記画像処理部の加工手段は、前記分割手段により前記画像フレームを分割した場合に、その画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数が予め定めた下限値以下であると、前記画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数を増加させる方向に、前記線画像データまたは前記固有画像データを伸張する画像データ伸張手段を備えており、前記画像処理部の画像形成手段は、その画像データ伸張手段により前記線画像データまたは固有画像データが伸張された場合には、伸張後の画像データに基づいて置換画像データを形成するものである。

請求項４記載の画像処理装置は、請求項３記載の画像処理装置において、前記画像データ伸張手段は、抽出元の画像フレームに対して前記固有画像データ抽出手段により抽出された前記固有画像データが占める割合が、所定の割合以下であるか否かを判断する判断手段を備えており、その判断手段により、前記固有画像データが占める割合が所定の割合以下であると判断された場合に、前記固有画像データを有するブロック数が予め定めた下限値以下であるとして、前記固有画像データの伸張を行うものである。

請求項５記載の画像処理装置は、請求項２から４のいずれかに記載の画像処理装置において、前記画像処理部の加工手段は、前記分割手段により前記画像フレームを分割した場合に、その画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数が予め定めた上限値以上であると、前記線画像データまたは前記固有画像データを圧縮し、前記画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数を減少させる画像データ圧縮手段を備えており、前記画像処理部の画像形成手段は、その画像データ圧縮手段により前記画像データが圧縮された場合には、圧縮後の画像データに基づいて置換画像データを形成するものである。

請求項６記載の画像処理装置は、請求項１から５のいずれかに記載の画像処理装置において、伴奏情報を記憶する伴奏情報記憶手段と、その伴奏情報記憶手段に記憶される伴奏情報に基づいて伴奏を発生する伴奏発生手段と、音声データを入力する音声データ入力手段と、その音声データ入力手段により入力された音声データと、伴奏発生手段にて発生された伴奏とを発音する発音手段と、各伴奏情報に対応し、且つ、前記発音手段により発音される伴奏に合わせて前記表示装置に表示される歌詞データを記憶する歌詞データ記憶手段とを備えており、その歌詞データ記憶手段に記憶される歌詞データと共に、前記出力手段により出力された前記置換画像データを前記表示装置に表示するものである。

請求項７記載の画像処理装置は、請求項１から５のいずれかに記載の画像処理装置において、請求項１から５のいずれかに記載の画像処理部を備え回線を介して相手側装置に接続されると共に、音声データを入力する音声データ入力手段と、その音声データ入力手段により入力された音声データを前記回線に出力するデータ信号に変換するデータ変換手段と、前記画像処理部の画像形成手段により形成された置換画像データに対応する識別コードを音声データのデータ信号に変換して前記データ変換手段により変換されたデータ信号に重畳する重畳手段とを有する送信側装置を備えており、前記画像処理部の出力手段は、その重畳手段により重畳されたデータ信号を前記回線に出力して前記相手側装置に置換画像データを出力するものである。

請求項８記載の画像処理装置は、請求項７記載の画像処理装置において、前記送信側装置は、前記音声データ入力手段により入力された音声データについて、非再生領域として設定される非再生周波数成分を除去する除去手段を備えており、前記重畳手段は、前記置換画像データの識別コードを、前記除去手段により除去された非再生周波数成分の帯域のデータ信号に変換して前記データ変換手段により変換されたデータ信号に重畳するものである。

請求項９記載の画像処理装置は、請求項７または８に記載の画像処理装置において、前記送信側装置は、前記音声データ入力手段により入力された音声データについて、可聴限界を越えた限界周波数成分を除去する第２除去手段を備えており、前記重畳手段は、前記置換画像データの識別コードを、前記第２除去手段により除去された限界周波数成分のデータ信号に変換して前記データ変換手段により変換されたデータ信号に重畳するものである。

請求項１０記載の画像処理装置は、請求項７から９のいずれかに記載の画像処理装置において、前記回線を介して前記送信側装置に接続されると共に、前記表示装置と、音声データを受信する音声データ受信手段と、その音声データ受信手段により受信された音声データを音声で再生する音声再生手段と、前記音声データ受信手段により受信された音声データに前記置換画像データに対応する識別コードのデータ信号が含まれている場合にそのデータ信号から前記置換画像データを再生する画像データ再生手段とを有し、その画像データ再生手段により再生された置換画像データを前記表示装置にて表示する相手側装置を備えている。

請求項１１記載の画像処理プログラムは、複数の画像フレームを有し連続した画像を現出させ得る画像データが入力された場合に、その画像データを各画像フレーム毎に加工して順次出力することにより動画再生を実行するものであり、入力された画像データを線画像データに変換する線画変換ステップと、入力された画像データの画像フレーム又は前記線画変換ステップにより変換された線画像データを有する画像フレームを所定数のブロックに分割する分割ステップと、その分割ステップにより分割されたブロック単位で、前記線画像データの態様と近似する記号を複数の記号の画像データの中から抽出する抽出ステップと、その抽出ステップにより抽出された記号の画像データで、対応するブロックの前記線画像データを置換した置換画像データを形成する画像形成ステップとを備え、その画像形成ステップにより形成された置換画像データによる動画再生を実行し得るものである。

請求項１２記載の画像処理プログラムは、請求項１１記載の画像処理プログラムにおいて、入力された画像データから背景画像データとして入力された背景画像データとの共通部分を除いて、前記画像フレーム毎に固有の固有画像データを抽出する固有画像データ抽出ステップを備え、前記線画変換ステップは、その固有画像データ抽出ステップにより抽出された固有画像データを線画像データに変換するものであり、前記画像形成ステップは、その固有画像データから変換された線画像データによって置換画像データを形成するものである。

請求項１３記載の画像処理プログラムは、請求項１２記載の画像処理プログラムにおいて、前記分割ステップにより前記画像フレームを分割した場合に、その画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数が予め定めた下限値以下であると、前記画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数を増加させる方向に、前記線画像データまたは前記固有画像データを伸張する画像データ伸張ステップを備えており、前記画像形成ステップは、その画像データ伸張ステップにより前記画像データが伸張された場合には、伸張後の画像データに基づいて置換画像データを形成するものである。

請求項１４記載の画像処理プログラムは、請求項１３記載の画像処理プログラムにおいて、前記画像データ伸張ステップは、抽出元の画像フレームに対して前記固有画像データ抽出手段により抽出された前記固有画像データが占める割合が、所定の割合以下であるか否かを判断する判断ステップを備えており、その判断ステップにより、前記固有画像データが占める割合が所定の割合以下であると判断された場合に、前記固有画像データを有するブロック数が予め定めた下限値以下であるとして、前記固有画像データの伸張を行うものである。

請求項１記載の画像処理装置によれば、画像データ入力手段にて入力された画像データは、線画変換手段により、線画像データに変換される。また、分割手段により、その入力された画像データの画像フレーム又は線画変換手段により変換された線画像データを有する画像フレームは、所定数のブロックに分割され、分割されたブロック単位で、線画像データの態様と近似する記号が、抽出手段により、記号データ記憶手段に記憶される記号の画像データの中から抽出される。そして、抽出された記号の画像データで対応するブロックの線画像データを置換した置換画像データが置換画像形成手段により形成される。形成された置換画像データは、出力手段により表示装置に出力され、表示装置にて置換画像データの動画表示が行われる。

よって、入力された画像を記号の画像データで構成された画像に変換して出力することができ、単純な画像が自己の動作に応じてアクションするというコミカルで娯楽性の高い演出を提供することができる。更に、入力された画像が変換された線画から記号の画像データを形成するので、出力画像をシンプルな画像とすることができ、入力画像データ全体を記号データで構成した置換画像データに変換する場合に比べて、表示装置に表示する画像をシンプル且つシャープな画像とすることができるという効果がある。

加えて、表示装置にて表示される画像を、入力された実際の画像データとは異なる画像でありつつ、実画像の特徴的部分を残した画像することができるという効果がある。例えば、入力された画像中の人物を予め用意されたキャラクタ（「顔文字」を含む）に置換して画像出力する場合には、予め作成されたキャラクタに置き換えられるだけであるので、対象人物の特徴が反映され難い。また、特徴を少しでも反映しようとすれば多くのキャラクタデータが必要になる。しかし、置換画像データは、記号データを用いて入力された画像データから形成されるので、表示装置での出力画像が画一的な画像とならず、個々の画像データのニュアンスが反映された高度な表現を実現することができる。

請求項２記載の画像処理装置によれば、請求項１記載の画像処理装置の奏する効果に加え、撮像装置により取得された画像データから背景画像データとの共通部分を除いて、画像フレーム毎に、固有の固有画像データが固有画像データ抽出手段により抽出される。置換画像データは、抽出された固有画像データが変換された線画像データから形成される。

よって、背景画像部分を省略して置換画像データを形成することができ、画像データの全てから置換画像データを形成する場合に比べて、置換画像データの形成速度を高速にすることができるという効果がある。また、形成された置換画像データを表示装置等へ出力する場合に、そのデータ出力速度を高速にすることができるという効果がある。更に背景画像データを除去することにより、置換画像データの変換元の画像データの猥雑さを軽減することができる。従って、表示装置に簡素な置換画像データを出力でき、出力される画像が何を表現したものであるか不明確（識別困難）になることを回避できるという効果がある。背景画像データが含まれた猥雑（複雑）な画像データである場合、個々のオブジェクトの境界が不明確になりかねず、かかる画像データを置換画像データに変換すると、場合によっては、個々のオブジェクトとは異なる形状に分割あるいは連結された画像が出現しかねない。しかし、（背景画像データが除去された）固有画像データが変換された線画像データから置換画像データを形成するので、かかる不具合を軽減し、簡素で明瞭な置換画像データを表示装置に表示できる。

請求項３記載の画像処理装置によれば、請求項２記載の画像処理装置の奏する効果に加え、分割手段により画像フレームを分割した場合に、その画像フレーム内において線画像データまたは固有画像データを有するブロック数が予め定めた下限値以下であると、画像データ伸張手段により、線画像データまたは固有画像データを有するブロック数を増加させる方向に、線画像データまたは固有画像データは伸張される。そして、伸張後の画像データに基づいて置換画像データが形成される。

撮像装置にて画像データを取得する場合、撮像装置と被撮影体（固有画像データに対応するもの）との距離によっては、被撮影体の大きさが背景画像に対して（著しく）小さくなる場合がある。かかる場合の画像データにおいては、画像フレーム内において、固有画像データ（線画像データ）を有するブロック数が減少する。少ない数の記号データで構成される置換画像データは、元の画像（被撮影体）の微細な部分の画像表現が省略されるため、その特徴を具有するものとはなり難く、場合によっては、オブジェクトを表現した画像とは認識できない単なる記号の配列になりかねない。

しかし、固有画像データ（線画像データ）を伸張すれば、画像フレーム内において固有画像データ（線画像データ）を有するブロック数を増加させることができる。つまり、微細部分についても表現し得る画像に拡大した上で、置換画像データを形成することができるので、入力された画像データの固有画像データが小さくとも、元の画像の特徴を備えた置換画像データを形成することができるという効果がある。

請求項４記載の画像処理装置によれば、請求項３記載の画像処理装置の奏する効果に加え、抽出元の画像フレームに対して抽出された固有画像データの占める割合が所定の割合以下であると判断手段により判断された場合に、固有画像データを有するブロック数が予め定めた下限値以下であるとして固有画像データの伸張が行われれる。よって、伸張するべき固有画像データの選別を的確に行うことができるという効果がある。

固有画像データの大きさをブロック数で測る（ブロック単位でカウントする）場合には、ブロック全面にドットが配されていなくとも１カウントされる。このため、ブロック単位で固有画像データの大きさを測る場合、簡便である一方、測定結果が実際の大きさよりも大きい側にシフトしがちになり、場合によっては、伸張する必要のある固有画像データが伸張されないという事態が発生しかねない。しかし、抽出元の画像フレームに対して抽出された固有画像データの占める割合が所定の割合以下である場合に、固有画像データの伸張を行うので、的確に伸張の必要のある固有画像データを選別することができるのである。

請求項５記載の画像処理装置によれば、請求項２から４のいずれかに記載の画像処理装置の奏する効果に加え、分割手段により画像フレームを分割した場合に、その画像フレーム内において線画像データまたは固有画像データを有するブロック数が予め定めた上限値以上であると、画像データ圧縮手段により、線画像データまたは固有画像データは圧縮され、画像フレーム内において線画像データまたは固有画像データを有するブロック数を減少させる。置換画像データは、圧縮後の画像データに基づいて形成される。よって、表示装置の画面に適度な大きさで置換画像データを表示することができるという効果がある。

請求項６記載の画像処理装置によれば、請求項１から５のいずれかに記載の画像処理装置の奏する効果に加え、音声データ入力手段により入力された音声データと伴奏発生手段にて発生された伴奏とが発音手段により発音される。また、各伴奏情報に対応した歌詞データが、発音手段により発音される伴奏に合わせて表示装置に表示される。そして、かかる歌詞データと共に、出力手段により出力された置換画像データが表示装置に表示される。よって、発音された伴奏情報に合わせつつ、表示される歌詞データを見ながら歌唱する環境を構築できる上、置換画像データによる演出を行うことができるという効果がある。

一般に、音声データ入力手段と、伴奏情報発生手段と、発音手段と、歌詞データが表示される表示装置とを有する装置は、「カラオケ」と称されており、歌唱者の歌唱を補助する娯楽用の装置（機能）である。故に、「カラオケ」の機能と置換画像データを表示装置にて動画表示する機能を共に有する装置を提供することにより、「カラオケ」に新たな興趣を付加することができ、その娯楽性を向上させることができる。また、置換画像データは歌詞データと共に表示装置に表示されるので、置換画像データが表示装置に表示されても、歌詞が非表示となることはなく、歌唱者が歌唱不能となることを回避できるという効果がある。

請求項７記載の画像処理装置によれば、請求項１から５のいずれかに記載の画像処理装置の奏する効果に加え、音声データ入力手段により入力された音声データは、データ変換手段により回線に出力するデータ信号に変換される。また、置換画像データに対応する識別コードは、重畳手段により音声データのデータ信号に変換され、データ変換手段により変換されたデータ信号に重畳される。そして、出力手段により、その重畳されたデータ信号が回線に出力され、これにより置換画像データが相手側装置に出力される。

よって、置換画像データを、ビットマップデータなどよりも大幅にデータ量の少ない識別コードで相手側装置に送信することができ、送信する置換画像データのデータ量を低減することができるという効果がある。これによれば、（データ量が少ないため）音声データの一部として置換画像データ（識別コード）を相手側装置に送出することができる。また、かかる識別コードを、音声データの一部として相手側装置に送出するので、送信側装置は音声データを送出する手段を備えておれば良く、わざわざ、画像データを送信する為の手段（置換画像データを画像データの態様で送信するための手段）を設ける必要がない。従って、装置コストを低減することができるという効果がある。

請求項８記載の画像処理装置によれば、請求項７記載の画像処理装置の奏する効果に加え、送信側装置において、入力された音声データは、非再生領域として設定される非再生周波数成分が除去手段により除去される。そして、重畳手段により、置換画像データの識別コードが、除去手段により除去された非再生周波数成分の帯域のデータ信号に変換されて、データ変換手段により変換されたデータ信号に重畳される。

よって、送信側装置からの音声データを受信した相手側装置において、置換画像データの識別コードが音声データとして再生されることを、非実行とすることができるという効果がある。つまり、元々再生されない非再生周波数成分の音声データに置換画像データの識別コードは変換されているので、相手側装置においては、置換画像データの識別コードを含む音声データを受信しても、再生されるべき正当な（置換画像データの識別コードを除いた）音声データのみが再生される。従って、置換画像データがノイズとなって音声データで出力されてしまうが故に、必要な音声データの聞き取りが不能になるといった不具合を回避でき、相手側装置側における受話者に、違和感を抱かせることがないという効果がある。このため、受信した音声データから置換画像データの識別コードを分離して音声データの再生を行うという処理および装置を相手側装置に設ける必要がなく、相手側装置のコストを低減することができる。

請求項９記載の画像処理装置によれば、請求項７または８に記載の画像処理装置の奏する効果に加え、送信側装置は、音声データ入力手段により入力された音声データについて、可聴限界を越えた限界周波数成分が、第２除去手段により除去される。そして、重畳手段により、置換画像データの識別コードが、第２除去手段により除去された限界周波数成分のデータ信号に変換されデータ変換手段により変換されたデータ信号に重畳される。

よって、送信側装置からの音声データを受信した相手側装置において、置換画像データのコードを含んだ状態で音声データが再生されても、その再生された音声帯域が可聴限界範囲を超えているので、かかる置換画像コードに起因するノイズを、相手側装置側における受話者に、極めて聴きとられ難いものとすることができるという効果がある。言い換えれば、再生される音声データの聞き取り性が悪いという不快感や違和感を受話者に抱かせることがない。従って、受信した音声データから置換画像データの識別コードを分離して音声データの再生を行うという処理および装置を相手側装置に設ける必要がなく、相手側装置のコストを低減することができる。

特に、不特定多数の相手側装置が想定される場合には、相手側装置が画像を表示する手段を備えず、音声データの送受信のみ行う装置（例えば通常の電話機など）であることも十分に考えられるが、かかる装置であっても、受信した音声データの再生に支障を来すことなく、良好な品質で音声出力を行わせることができる。

請求項１０記載の画像処理装置によれば、請求項７から９のいずれかに記載の画像処理装置の奏する効果に加え、表示装置を備えた相手側装置を備えており、該相手側装置において、音声データ受信手段により音声データが受信される。受信された音声データは、音声再生手段により音声で再生される。ここで、受信された音声データに置換画像データに対応する識別コードのデータ信号が含まれている場合には、画像データ再生手段によりそのデータ信号から置換画像データが再生される。そして、再生された置換画像データが表示装置にて表示される。

よって、置換画像データに対応する識別コードを含んでいる音声データを受信した相手側装置において、表示装置に的確に置換画像データを出力することができる。このため、送信側装置と相手側装置とにより、実際の映像を出力するテレビ電話とは異なる趣を持った画像によるコミュニケーションをはかることができるという効果がある。相手側装置にて表示される置換画像データは、送信側装置にて実際に撮影（入力）された画像データでない、加工（デフォルメ）されたものである。つまり、相手側装置では、送信側装置にて入力された画像データが（入力された画像データが再現された状態で）出力されるわけではない。従って、送信側装置の操作者（送話者）がカメラ等にて撮影されることを好まない場合や、諸事情により実際の映像を相手側に送信したくない場合には、実際の映像（入力された画像でデータ）をデフォルメした置換画像データにより、送話者は相手側に伝達したい内容を伝えることができる。ここで、置換画像データは、入力された画像データから形成されており、入力された画像データの特徴的部分を反映させることができるものであるので、相手側装置において、実際の映像（入力された画像データ）に代えて置換画像データが出力されても、自己の表現したい事項を画像を通じて、送話者から相手側に的確に伝達する高度なコミュニケーションを行うことができるという効果がある。

請求項１１記載の画像処理プログラムによれば、入力された画像データは、線画変換ステップにより、線画像データに変換される。また、その入力された画像データの画像フレーム又は線画変換ステップにより変換された線画像データを有する画像フレームは、分割ステップにより所定数のブロックに分割され、分割されたブロック単位で、線画像データの態様と近似する記号が、抽出ステップにより、複数の記号の画像データの中から抽出される。そして、抽出された記号の画像データで対応するブロックの線画像データを置換した置換画像データが、置換画像形成ステップにより形成される。

よって、表示装置などに、入力された画像を記号の画像データで構成された画像に変換して出力し得、コミカルな娯楽性の高い画像による演出を提供することができる。更に、入力された画像が変換された線画から記号の画像データを形成するので、出力画像をシンプルな画像とすることができ、入力画像データ全体を記号データで構成した置換画像データに変換する場合に比べて、表示装置に表示する画像をシンプル且つシャープな画像とすることができるという効果がある。

請求項１２記載の画像処理プログラムによれば、請求項１１記載の画像処理プログラムの奏する効果に加え、入力された画像データから背景画像データとして入力された背景画像データとの共通部分を除いて、画像フレーム毎に固有の固有画像データが、固有画像データ抽出ステップにより抽出される。その固有画像データ抽出ステップにより抽出された固有画像データは、線画変換ステップにより線画像データに変換され、画像形成ステップにより、その固有画像データから変換された線画像データから置換画像データが形成される。

よって、背景画像部分を省略して置換画像データを形成することができるので、画像データの全てから置換画像データを形成する場合に比べて、置換画像データの形成速度を高速にすることができるという効果がある。また、形成された置換画像データを表示装置等へ出力する場合に、そのデータ出力速度を高速にすることができるという効果がある。更に背景画像データを除去することにより、置換画像データへの変換元の画像データの猥雑さを軽減することができる。従って、表示装置に出力する場合に、簡素な置換画像データを出力でき、出力される画像が何を表現したものであるか不明確（識別困難）になることを回避できるという効果がある。背景画像データが含まれた猥雑（複雑）な画像データである場合、個々のオブジェクトの境界が不明確になりかねず、かかる画像データを置換画像データに変換すると、場合によっては、個々のオブジェクトとは異なる形状に分割あるいは連結された画像が出現しかねない。しかし、（背景画像データが除去された）固有画像データが変換された線画像データから置換画像データを形成するので、かかる不具合を軽減し、簡素で明瞭な置換画像データを、表示装置に表示できるのである。

請求項１３記載の画像処理プログラムによれば、請求項１２記載の画像処理プログラムの奏する効果に加え、分割ステップにより画像フレームを分割した場合に、その画像フレーム内において線画像データまたは固有画像データを有するブロック数が予め定めた下限値以下であると、画像フレーム内において線画像データまたは固有画像データを有するブロック数を増加させる方向に、線画像データまたは固有画像データが伸張される。そして、伸張後の画像データに基づいて置換画像データが形成される。

請求項１４記載の画像処理プログラムによれば、請求項１３記載の画像処理プログラムの奏する効果に加え、抽出元の画像フレームに対して抽出された固有画像データの占める割合が所定の割合以下であると判断ステップにより判断された場合に、固有画像データを有するブロック数が予め定めた下限値以下であるとして固有画像データの伸張が行われれる。よって、伸張するべき固有画像データの選別を的確に行うことができるという効果がある。

固有画像データの大きさをブロック数で測る（ブロック単位でカウントする）場合には、ブロック全面にドットが配されていなくとも１カウントされる。このため、ブロック単位で固有画像データの大きさを測る場合、簡便である一方、測定結果が実際の大きさよりも大きい側にシフトしがちになり、場合によっては、伸張する必要のある固有画像データが伸張されないという事態が発生しかねない。しかし、抽出元の画像フレームに対して抽出された固有画像データの占める割合が所定の割合以下である場合に、固有画像データの伸張を行うので、的確に伸張の必要のある固有画像データを的確に選別することができるのである。

以下、本発明の好ましい実施例について、添付図面を参照して説明する。図１は、本発明の画像処理装置としてのカラオケ装置１を示す概略図である。このカラオケ装置１は、画像処理部としての本体１ａと、表示装置としてのＣＲＴディスプレイ２と、本体１ａを遠隔操作するための電子早見本３０とを備えており、本体１ａとＣＲＴディスプレイ２とはケーブル４を介して接続されている。該カラオケ装置１は、入力された画像データを記号で構成されたアスキー画像に変換する画像処理を実行し、変換されたアスキー画像をＣＲＴディスプレイ２に出力することにより演出を実行する機能を備えている。

また、カラオケ装置１は、いわゆる通信カラオケであって、回線を介して接続されるカラオケサーバから配信された楽曲データ（伴奏情報）や歌詞データを、本体１ａ内に記憶している。そして、電子早見本３０から、歌唱者により選曲された楽曲を示す楽曲コードが送信されると、本体１ａ内から対応する楽曲データと歌詞データとを読出し、楽曲データに基づいて伴奏を自動演奏するとともに、その楽曲の進行に合わせて歌詞と映像（またはアスキー画像）とをＣＲＴディスプレイ２に表示するように構成されている。

このカラオケ装置１の本体１ａは、制御部５と、該制御部５に接続されるＣＣＤカメラ３とマイクロフォン２３とを備えている。制御部５のケーシング前面には、数値を入力するためのテンキーや、各種コマンドを制御部５に入力するコマンドボタンを備えた操作パネル２０が配設されている。かかるテンキーやコマンドボタンの操作により、使用者は、選曲や、演奏テンポの設定、音程の設定、音量の設定、リバーブなどの音響効果の設定や、文字の入力などを行うことができる。また、該操作パネル２０には、液晶表示器（以下単に「ＬＣＤ」と称す）が設けられており、テンキーにより入力された数値やコマンドボタンにより入力されたコマンドの内容、電子早見本３０から送信されたコマンドの内容、更には、カラオケ装置１の動作状態等がこのＬＣＤに表示される。

操作パネル２０の下方には、電子早見本３０との間で赤外線データによる無線通信を行うための無線通信部２６が配設されている。電子早見本３０から赤外線データで送信される各種コマンドや楽曲コードなどのデータは、この無線通信部２６により受信される。この無線通信部２６により、電子早見本３０からの楽曲コードや所定の処理の実行を指示するコマンドを受信した場合には、本体１ａは、その楽曲コードやコマンドに基づいた処理を実行する。無線通信部２６の右方には、入力端子を介してマイクロフォン２３が接続されており、歌唱者の発声は、かかるマイクロフォン２３から制御部５内に入力される。

ＣＣＤカメラ３は、連続的に画像を撮像する一般的な撮像装置であり、ＣＲＴディスプレイ２の筐体上面に設置されている。ＣＣＤカメラ３により撮像された画像（画像データ）は、非図示のケーブルを介して制御部５内に入力される。ＣＣＤカメラ３内には、Ａ／Ｄコンバータなどが内蔵されており、制御部５には、デジタルデータに変換された画像データが入力される。制御部５は、このＣＣＤカメラ３により入力された画像データに基づいて、アスキー画像を作成する。

電子早見本３０は、楽曲の選択および選択した楽曲の指定（楽曲コードの本体１ａへの送信）に加え、本体１ａ（制御部５）を遠隔操作（演奏の中止やスキップ等）するための装置であり、タッチパネルディスプレイ４０を備えた表示本体３０ａと、該表示本体３０ａを立設した状態で維持するためのクレイドル４４とを備えている。表示本体３０ａには、本体１ａとの間で赤外線データによる無線通信を行うための無線通信部３６が、その筐体上部に設けられている。電子早見本３０へ送信される楽曲コード等のデータや、所定の処理の実行を指示するコマンドは、この無線通信部３６から赤外線データで出力される。

また、表示本体３０ａは、案内画像を表示するタッチパネルディスプレイ４０を備えている。タッチパネルディスプレイ４０は、画像を表示するＬＣＤで構成された表示装置４１と、その表示装置４１上に設けられ押下により信号入力を実行するタッチパネル４２とを備えている。

案内画像は、選曲のための各種データや、選曲の為の各種操作を行うための操作ボタンを表示する画像であり、使用者が視覚的に電子早見本３０の操作を理解することができるように構成されている。尚、案内画像（即ち表示装置４１）に表示された各操作ボタンの押下は、表示装置４１上に設けられたタッチパネル４２により、その押下位置に対応する電気信号として入力される。これにより、押下された操作ボタンの入力としてＣＰＵ１２（図２参照）に認識され、対応する動作（コマンド入力）が実行される。

具体的には、この案内画像は、複数画面で構成されており、各画面において、カテゴリや歌手毎に分類された項目や、その項目の選択によって表示される曲名などが表示される。各曲名の表示は、曲名を指定するための操作ボタンとなっており、この曲名の表示が押下されることにより選曲がなされる（楽曲データの指定）。この選曲が実行される画面内には、アスキーアートボタン４２ａが表示されている。

アスキーアートボタン４２ａは、本体１ａにアスキー画像による演出を指示するためのものである。このアスキーアートボタン４２ａが、その画面上から（タッチパネル４２を介して）押下されると、選曲された楽曲コードに、アスキー画像による演出を本体１ａに指示するアスキーアートコードが付加されて、本体１ａに送信される。本体１ａでは、受信した楽曲コードにアスキーアートコードが付加されていると、かかる楽曲再生中のＣＲＴディスプレイ２における演出を、予め記憶された映像に代えて、アスキー画像を表示することにより実行する。

更に、操作ボタンとしては、楽曲の選択等、電子早見本３０においての各処理を実行させるボタンに加え、本体１ａを操作するためのボタンが各種設けられている。かかる操作ボタンの操作（表示された操作ボタンの画面上からの押下）により、本体１ａの操作パネル２０に備えられたボタン操作と同様に、選曲や、演奏テンポの設定、音程の設定、音量の設定、リバーブなどの音響効果の設定や、文字の入力などを行うことができる。つまり、上記の本体１ａの操作パネル２０の機能の一部は、この電子早見本３０による遠隔操作によっても実行される。

クレイドル４４は、表示本体３０ａの下部と左右との三方を支持する矩形状に形成されており、このクレイドル４４と表示本体３０ａとは着脱可能に構成されている。また、クレイドル４４は、電子早見本３０と本体１ａとの接続架台であり、かかるクレイドル４４によって、本体１ａに取り付けられた電子早見本３０は、有線により本体１ａと電気的に接続される。このクレイドル４４を介した有線接続により、電子早見本３０に内蔵されたバッテリに対する充電が実行される。また、本体１ａから電子早見本３０に、新たな楽曲に対応する楽曲コードや曲名などのデータを送信することができる。

図２は、上記のように構成されたカラオケ装置１の電気的構成を示すブロック図である。カラオケ装置１は、本体１ａと、ＣＲＴディスプレイ２と、電子早見本３０とを備え、本体１ａは、更に、制御部５とＣＣＤカメラ３とマイクロフォン２３とを備えている。

制御部５は、演算装置であるＣＰＵ１１によりカラオケ装置１の制御を行うものであり、ＣＰＵ１１と、ＲＯＭ１２と、ＲＡＭ１３と、画像用ＲＡＭ２７と、ハードディスク１４と、モデム１５と、ディスクプレイヤー１６と、映像処理部１７と、入出力ポート（Ｉ／Ｏ）１９と、音源であるシンセサイザを備えた伴奏装置２１と、電子早見本３０（クレイドル４４）を有線接続するためのＬＡＮポート２５と、電子早見本３０からの赤外線データを受信するための無線通信部２６とを備えている。これらの各デバイスはＣＰＵ１１に接続され、ＣＰＵ１１により制御される。また、制御部５は、ディスクプレイヤー１６と映像処理部１７とに接続されたビデオミキサ１８と、入出力ポート（Ｉ／Ｏ）１９に接続された操作パネル２０と、伴奏装置２１に接続されたアンプミキサ２２と、アンプミキサ２２に接続されたスピーカ２４とを備えている。また、入出力ポート（Ｉ／Ｏ）１９には、ＣＣＤカメラ３が接続されている。

ＣＰＵ１１は、電子早見本３０や操作パネル２０から楽曲コードが入力された場合、その楽曲コードを、ＲＡＭ１３の所定のエリアに設けられた予約曲リストエリアに登録したり、その予約曲リストエリアに記憶される楽曲コードを登録順に読み出して、楽曲の再生出力を制御するものである。尚、後述するカラオケ再生処理（図４参照）では、かかる予約曲リストエリアに楽曲コードが登録されていると、楽曲コードの入力有りと判断して、楽曲を再生する処理を実行する。楽曲が再生されると、対応する楽曲コードは、予約曲リストエリアから削除される。また、ＣＰＵ１１は、楽曲の演奏時に行われる演出の１つとして、ＣＣＤカメラ３により撮像された画像からアスキー画像を形成し、ＣＲＴディスプレイ２に出力する制御を行う。

ＲＯＭ１２は、ＣＰＵ１１により実行される各種のプログラムや固定値などを記憶した不揮発性のメモリである。

ＲＡＭ１３は、ＲＯＭ１２内に記憶されるプログラムや後述するハードディスク１４に記憶される制御プログラムの実行に際して各種のデータ等を一時的に記憶するためのメモリであり、背景画像メモリ１３ａと、アスキー画像バッファ１３ｂと、アスキーアートフラグ１３ｃとを備えている。

背景画像メモリ１３ａは、背景画像としてＣＣＤカメラ３により撮像（取得）された画像データを記憶するためのメモリである。背景画像は、アスキー画像による１の演出、即ち１の楽曲の再生が実行される毎に、アスキー画像による演出に先だってＣＣＤカメラ３により撮像される。新たに背景画像が撮像されると、この背景画像メモリ１３ａに記憶される背景画像の画像データは、新たに撮像された背景画像の画像データによって更新される。

アスキー画像の形成に際しては、入力された画像データから、背景画像メモリ１３ａに記憶される背景画像の画像データに対応する部分の画像データが除かれ、背景画像の画像データが除かれた残りの部分（人物画像データ、固有画像データ）がアスキー画像に変換される。

ＣＣＤカメラ３は、通常の撮像において、その撮像範囲に存在する各種のオブジェクトの画像データが、各オブジェクトが詳細に識別し得る解像度で、即ち、良好な画像品質を実現する画素数で取得されるように設計されている。このため、ＣＣＤカメラ３の設置場所によっては、取得される画像データが複雑なもの（複数のオブジェクトが混在する画像）となる。かかる複雑な画像データをアスキー画像に変換する場合には、入り組んだオブジェクトの輪郭線の処理が不的確になりかねず、個々のオブジェクトがアスキー画像にて的確に表現されないという事態が発生しかねない。しかし、取得された画像データから背景画像を除いた画像データ（人物画像データ）を、アスキー画像に変換するので、変換元の画像データを簡素にすることができる。このため、形成されるアスキー画像をオブジェクト（本実施の形態では主として人物）が的確かつ明確に示された画像とすることができる。

具体的には、背景画像以外の部分とは、例えば、ＣＣＤカメラ３による背景画像の撮像後、ＣＣＤカメラ３の撮像範囲に入ったオブジェクトの画像であり、本実施の形態では、人物（歌唱者）の画像である。つまり、本実施の形態では、アスキー画像への変換対象を人物（動きのある動体）の画像としており、変化の乏しい背景画像に比べてかかる人物画像（背景画像以外の部分）は、一連の撮像での特徴的部分となる。故に、一連の撮像を通して共通する変化の乏しい背景画像の画像データを除去して、その残りの部分である人物画像データにてアスキー画像を形成しても、演出の意図を大きく変化させることはないばかりか、画像の特徴的部分に絞り込んだ単純明快なアスキー画像をＣＲＴディスプレイ２に表示することができる。

アスキー画像バッファ１３ｂは、後述するアスキー変換処理（Ｓ２８、図６参照）において、形成されたアスキー画像を一時的に記憶するためのメモリである。アスキー画像は、記号データを組み合わせて形成された画像であり、即ち、巨視的に画像の態様を成す記号の集合体である。詳細には、アスキー画像は、アスキー変換処理（Ｓ２８）にて、変換元の線画像データをブロックに分割した後、各ブロックの分割画像を、近似する態様の記号データに置換（嵌め込み）して形成される。置換された記号データは、ブロックの位置に従って、順に、このアスキー画像バッファ１３ｂに記憶される。

ここで、アスキー画像バッファ１３ｂには、ブロックの位置に従って、順に記号データが記憶され、画像フレームの端部に達した場合には改行コードが記憶される。このため、アスキー画像バッファ１３ｂには、変換前の線画像データの画像フレームの座標に対応付けて、記号データが記憶されることとなる。その結果、記憶された記号データを、アスキー画像バッファ１３ｂから順に取り出すことにより、元画像に対応したアスキー画像を出力することができる。尚、アスキー画像バッファ１３ｂに記憶される記号データは、記号を示す記号コードであっても良く、記号コードが画像に展開されたドットデータ（記号の画像データ）であっても良い。

アスキーアートフラグ１３ｃは、選曲された楽曲に対応する演出を、その楽曲データに対応して予め記憶されている映像で実行するか、アスキー画像で実行するかを識別するためのフラグである。このアスキーアートフラグ１３ｃは、電子早見本３０から送信された楽曲コードにアスキーアートコードが付加されていた場合にオンされ、入力された楽曲コードに対応する楽曲の再生が終了するとオフされる。

画像用ＲＡＭ２７は、ＤＲＡＭまたはＳＤＲＡＭなどで構成された大容量のＲＡＭであり、画像データを一時的に記憶するものである。背景画像撮影後にＣＣＤカメラ３から入力された画像データ（背景と人物とが撮像された画像）は、１の画像フレーム毎に、この画像用ＲＡＭ２７に記憶される。記憶された画像データは、アスキー画像を作成する際に、１の画像フレーム毎に、この画像用ＲＡＭ２７から読み出されてアスキー画像へと変換される。

ハードディスク１４は、書換可能な大容量の不揮発性のメモリであり、本カラオケ装置１を制御する制御プログラム１４ａと、記号データメモリ１４ｂと、楽曲データメモリ１４ｃと、歌詞データメモリ１４ｄとを備えている。尚、図４〜図６に示したフローチャートのプログラムは、制御プログラム１４ａの一部として格納されている。

記号データメモリ１４ｂは、記号の画像データ（記号データ）を記憶するメモリであり、各記号を示す記号コードに対応付けられて、各記号の画像がドットデータで記憶されている。アスキー画像の作成時には、この記号データメモリ１４ｂが参照され、線画像データに近似する記号のドットデータがテンプレートマッチングにより抽出されて、アスキー画像が形成される。尚、本カラオケ装置１においては、記号コードには、ＡＳＣＩＩコードに準じたＪＩＳ７単位符号（８ビットのデータで表現されるコード）が採用されている。尚、コード体系は、ＪＩＳ７単位符号に限られるものでなく、例えば、他のＡＳＣＩＩコードや、ＥＢＣＤＩＣコード、Ｕｎｉｃｏｄｅ、更には、ＪＩＳ漢字コードなどを適宜用いることができる。

楽曲データメモリ１４ｃは、再生する楽曲の楽曲データを記憶するメモリである。各楽曲データは、１の楽曲コードを指定する楽曲コードのそれぞれに対応して記憶されている。楽曲コードが入力されると、その楽曲コードに対応する１の楽曲データ（ＭＩＤＩ（Musical Instrument Digital Interface）形式のデータや、音符長を示すデータなど）が、この楽曲データメモリ１４ｃから読み出され、後述する伴奏装置２１に出力される。

歌詞データメモリ１４ｄは、楽曲の歌詞データ（タイトルデータを含む）を記憶するメモリである。各歌詞データは、１の楽曲コードを指定する楽曲コードのそれぞれに対応して、テキストデータで記憶されている。また、この歌詞データメモリ１４ｄに記憶される歌詞データは、ＪＩＳ漢字コードで形成されている。楽曲コードが入力されると、ＣＰＵ１１により、この歌詞データメモリ１４ｄから対応する歌詞データ（タイトルデータを含む）が読み出されると共に、漢字コードに対応してハードディスク１４の所定の領域に記憶された文字の画像データに、読み出した歌詞データは展開され、歌詞文字画像データ（ドットデータ）が生成される。

新曲等のリリースにより、歌唱者が所望する楽曲は変化するため、楽曲データメモリ１４ｃに記憶される楽曲データと、歌詞データメモリ１４ｄに記憶される歌詞データとは、定期的に更新される。本カラオケ装置１は、上記したように通信カラオケであり、回線を介して楽曲データ等を配信するカラオケサーバに接続されると共に、本カラオケ装置１からカラオケサーバにアクセスし、楽曲データと、その楽曲データに対応する歌詞データとを（場合によっては楽曲データに対応する映像データも）、１の楽曲コードに対応付けられた一連のデータとしてダウンロードすることができるように構成されている。ダウンロードされた楽曲データは、この楽曲データメモリ１４ｃに書き加えられる（追加して記憶される）。また、歌詞データについては、歌詞データメモリ１４ｄに書き加えられる（追加して記憶される）。

モデム１５は、変復調装置であり、アナログ信号とデジタル信号との変換を行う装置である。また、伝送制御用の各種手順信号を送受信するものである。カラオケ装置１から回線に出力されるデータ（例えば、カラオケサーバへのアクセス要求など）は、このモデム１５によってデジタル信号からアナログ信号に変換された後に回線に出力される。また、回線から受信したデータ（カラオケサーバからダウンロードされる楽曲データや歌詞データなど）は、このモデム１５によりアナログ信号からデジタル信号に変換される。

このモデム１５は、回線制御を行うためのネットワークコントロールユニット（以下単に「ＮＣＵ」と称す）を内蔵しており、このＮＣＵを介してカラオケ装置１は回線に接続されている。このＮＣＵにより通信相手を呼び出すためのダイヤル信号が送出される。

ディスクプレイヤー１６は、歌唱者が歌詞を参照しながら歌唱する際に、ＣＲＴディスプレイ２に表示される映像を記憶したＣＤやＤＶＤを再生する再生装置である。本カラオケ装置１は、楽曲データの再生時におけるＣＲＴディスプレイ２での演出を、ディスクプレイヤー１６にて再生される映像とするか、ＣＣＤカメラ３により取得された画像データに基づくアスキー画像とするかを、選択可能に構成されている。かかる演出をアスキー画像で行うことが指定されている場合には、ディスクプレイヤー１６による映像の再生は非実行とされる。尚、アスキー画像による演出が指定された場合に、ディスクプレイヤー１６によっても映像を再生し、その映像とアスキー画像とを共にＣＲＴディスプレイ２に表示するように、本カラオケ装置１を構成しても良い。映像とアスキー画像とを共にＣＲＴディスプレイ２に表示する場合には、ＣＲＴディスプレイ２の画面を分割すると共に各分割画面にそれぞれ映像とアスキー画像とを個別に表示してもよく、映像にアスキー画像を重ねて１画面で表示しても良い。

映像処理部１７は、ＣＰＵ１１にて生成された歌詞文字画像データ（ドットデータ）のテロップやアスキー画像のＣＲＴディスプレイ２への出力を制御する装置である。ビデオミキサ１８は、ＣＰＵ１１にて生成され且つ映像処理部１７から出力される歌詞文字画像データと、ディスクプレイヤー１６によって再生される映像またはアスキー画像とを合成して、ＣＲＴディスプレイ２に表示させるための映像合成装置である。

伴奏装置２１は、伴奏を発生するものであって各種楽器音などの楽音波形を記憶している。（楽曲データメモリ１４ｃから読み出された楽曲データの）ＭＩＤＩ形式のデータが示す音色と音程と音量とに対応する音楽信号を、音符長を示すデータにて示される長さ分、楽音波形に基づいてデジタル信号で生成する。生成された音楽信号は、アナログ信号に変換されて、アンプミキサ２２に出力される。

アンプミキサ２２は、伴奏装置２１からの音楽信号とマイクロフォン２３から入力された発声（音声データ）とをミキシングして増幅する装置であり、ミキシングされた信号は、電気的に増幅されてスピーカ２４から出力される。

電子早見本３０は、上記したように表示本体３０ａと、クレイドル４４とを備えており、表示本体３０ａは、演算装置であるＣＰＵ３１と、ＣＰＵ３１により実行される各種のプログラムや固定値などを記憶した不揮発性のメモリであるＲＯＭ３２と、ＲＯＭ３２内に記憶される制御プログラムの実行に際して各種のデータ等を一時的に記憶するためのメモリであるＲＡＭ３３と、ハードディスク３４と、インターフェース３５と、無線通信部３６と、クレイドル４４を介して表示本体３０ａと本体１ａとを有線接続するためのＬＡＮポート３７と、表示装置４１とタッチパネル４２とを有するタッチパネルディスプレイ４０と、タッチパネルディスプレイ４０に設けられた表示装置４１を制御する表示制御部３８と、タッチパネルディスプレイ４０に設けられたタッチパネル４２による入力を制御する入力制御部と、ＬＡＮポート３７とクレイドル４４との間に介在して、表示本体３０ａとクレイドル４４とを接続するコネクタ４３とを備えている。

ハードディスク３４は、書換可能な大容量の不揮発性のメモリであり、選曲可能な楽曲のタイトルデータが楽曲コードに対応つけて記憶されている。また、各楽曲のタイトルデータには、ジャンルや歌手名などのカテゴリデータが付加されており、カテゴリ毎に表示装置４１へ表示することができるようになっている。更に、ハードディスク３４には、案内画像の各画面の書式データが記憶されている。

ＣＰＵ３１は、楽曲のタイトルデータの出力要求がなされる（使用者により選曲操作が開始される）と、選曲の操作手順に応じて、案内画像の各画面の書式や、タイトルデータなどをハードディスク３４から読み出す。そして、表示制御部３８に、楽曲のタイトルデータなどのデータを対応する案内画像の画面の書式で、表示装置４１に表示させる。画面上から（タッチパネル４２の押下により）選曲、即ち、楽曲データの指定が実行されると、ＣＰＵ３１は、選曲された楽曲コードを無線通信部３６から無線で出力する。ここで、選曲と共に画面上から（タッチパネル４２の押下により）アスキーアートボタン４２ａが押下された場合には、ＣＰＵ３１は、楽曲コードにアスキーアートコードを付加して出力する。アスキーアートコードは、使用者によりアスキー画像による演出を本体１ａに指示するコマンドであり、アスキーアートコードが楽曲コードに付加されていた場合には、本体１ａは、アスキー画像による演出指示と認識し、アスキー画像による演出を実行する。

次に、図４〜図６のフローチャートを参照して、本カラオケ装置１により実行される各処理について説明する。

図４は、本体１ａの制御部５のＣＰＵ１１により実行されるカラオケ再生処理のフローチャートである。カラオケ再生処理は、歌唱者等により指定された楽曲について、伴奏を発生させ、歌詞データを表示すると共に、ＣＲＴディスプレイ２にて楽曲の演出を行う処理である。このカラオケ再生処理は、楽曲の再生が指定されること、即ち、楽曲コードの入力により開始されるので、まず、楽曲コードが入力されたか否かを確認する（Ｓ１）。ここで、楽曲コードが入力されていなければ（Ｓ１：Ｎｏ）、このカラオケ再生処理を終了する。一方、楽曲コードが入力されていれば（Ｓ１：Ｙｅｓ）、入力された楽曲コードにアスキーコードが付加されているか否かを確認し（Ｓ２）、入力された楽曲コードにアスキーコードが付加されていなければ（Ｓ２：Ｎｏ）、Ｓ３〜Ｓ６の処理をスキップして、その処理を楽曲データ出力処理（Ｓ７）に移行する。一方、アスキーアートコードが付加されていると（Ｓ２：Ｙｅｓ）、楽曲再生中の演出をアスキー画像で行うことの要求であると認識し、アスキーアートフラグ１３ｃをオンする（Ｓ３）。

次に、「背景画像を撮影します」の表示を、所定時間ＣＲＴディスプレイ２に出力して背景画像の撮像を告知し（Ｓ４）、歌唱者などに注意を促す。本実施の形態では、アスキー画像による演出が指定されと、その楽曲の再生が開始される前に、背景画像の撮影を実行する。ここで、「背景画像を撮影します」の表示と共に撮影領域の画像がＣＲＴディスプレイ２に出力され、背景画像の撮影領域を歌唱者等に認識させることができるようになっている。

その後、ＣＣＤカメラ３によって撮像された画像を取込み（１の画像フレームの取得）、取得した画像データを背景画像メモリ１３ａに書き込む（Ｓ５）。続いて、「撮影を開始します」の表示を、所定時間ＣＲＴディスプレイ２に出力する（Ｓ６）。そして、入力された楽曲コードに対応する楽曲データを、楽曲データメモリ１４ｃから読み出して、伴奏装置２１に出力する楽曲データ出力処理を実行する（Ｓ７）。伴奏装置２１には、１の楽曲コードに対応する楽曲データが一括出力され、出力された楽曲データは、伴奏装置２１内に設けられた所定のメモリに一括して記憶される。

次に、伴奏装置２１に出力された楽曲データに対応する歌詞データを、歌詞データメモリ１４ｄから読み出して映像処理部１７に出力する歌詞データ出力処理を実行する（Ｓ８）。この歌詞データ出力処理（Ｓ８）では、入力された楽曲コードにて指定される歌詞データ（タイトルデータを含む）を読み出すと共に、読み出した歌詞データを、その歌詞データを構成する漢字コードに対応してハードディスク１４の所定の領域に記憶された文字の画像データに展開し、歌詞文字画像データ（ドットデータ）を生成する。そして、生成された歌詞文字画像データを映像処理部１７に出力する。１の楽曲コードに対応する歌詞データ（歌詞文字画像データ）は、楽曲再生開始前に映像処理部１７内に設けられた所定のメモリに一括して記憶される。

次いで、アスキーアートフラグ１３ｃがオンであるか否かを確認し（Ｓ９）、アスキーアートフラグ１３ｃがオンであれば（Ｓ９：Ｙｅｓ）、ＣＣＤカメラ３により取得された画像データ（１の画像フレーム）から、１フレームのアスキー画像を形成するアスキーアート処理を実行する（Ｓ１０）。アスキーアート処理（Ｓ１０）の実行後は、楽曲の再生中であるか否かを確認し（Ｓ１１）、楽曲の再生中であれば（Ｓ１１：Ｙｅｓ）、Ｓ１５の処理に移行し、再生中でなければ（Ｓ１１：Ｎｏ）、楽曲が終了したタイミングであるか否かを確認する（Ｓ１２）。ここで、楽曲が終了したタイミングであれば（Ｓ１２：Ｙｅｓ）、アスキーアートフラグ１３ｃをオフして、このカラオケ再生処理を終了する。

また、Ｓ１２の処理で確認した結果、楽曲が終了したタイミングでなければ（Ｓ１２：Ｎｏ）、楽曲の再生を開始するタイミングであるので、再生開始を映像処理部１７およびに伴奏装置２１指示する（Ｓ１４）。これにより、映像処理部１７による制御によって、伴奏装置２１にて生成される伴奏に対応する歌詞データ（歌詞文字画像データ）が、ビデオミキサ１８を介してＣＲＴディスプレイ２に出力される。また、伴奏装置２１により伴奏が生成され、生成された伴奏がスピーカ２４から出力される。

Ｓ１４の処理の後は、アスキー画像バッファ１３ｂに記憶されるアスキー画像をビデオミキサ１８に出力する（Ｓ１５）。出力されたアスキー画像は、ビデオミキサ１８において歌詞データ（歌詞文字画像データ）と合成され、映像処理部１７による制御によってＣＲＴディスプレイ２に出力される。

その後、その処理をＳ１０の処理に移行する。これにより、入力された画像データの１の画像フレーム毎にアスキー画像の１フレームを形成するアスキーアート処理（Ｓ１０）が、楽曲が終了する（Ｓ１２：Ｙｅｓ）まで繰り返して実行され、ＣＲＴディスプレイ２においてアスキー画像が動画表示される。

一方、Ｓ９の処理で確認した結果、アスキーアートフラグ１３ｃがオフであれば（Ｓ９：Ｎｏ）、入力された楽曲コードにはアスキーアートコードが付加されていなかった、即ち、楽曲再生中の演出をアスキー画像で行うことは要求されていないと認識し、ディスク再生処理を実行する（Ｓ１６）。ディスク再生処理（Ｓ１６）は、楽曲毎に予め定められた映像をディスクプレイヤー１６に再生させる処理である。ハードディスク１４の所定の領域には、楽曲コードとＣＤまたはＤＶＤの識別コードとが対応付けられた対応テーブルが記憶されており、かかる対応テーブルに基づいて、ＣＰＵ１１は、入力された楽曲コードに対応するＣＤまたはＤＶＤの識別コードをディスクプレイヤー１６に指示する。ディスクプレイヤー１６におけるＣＤまたはＤＶＤの選択は、機械的な動作にて実行されるため、このディスク再生処理（Ｓ１６）において、ディスクプレイヤー１６におけるその選択動作が完了するまで、処理をウェイトする。

ウェイト終了後、再生開始をディスクプレイヤー１６、映像処理部１７、伴奏装置２１に指示して（Ｓ１７）、このカラオケ再生処理を終了する。かかる再生指示により、入力された楽曲コードに対応する楽曲の伴奏がスピーカ２４から出力されると共に、その楽曲の歌詞データ（歌詞文字画像データ）と対応する映像とがビデオミキサ１８を介してＣＲＴディスプレイ２に出力される。

尚、ＣＰＵ１１は、Ｓ１４，Ｓ１７の処理にて再生開始を指示した後は、映像処理部１７と伴奏装置２１とにタイミング信号を出力し、ＣＲＴディスプレイ２への歌詞データ（歌詞文字画像データ）の出力と、伴奏装置２１による伴奏の生成とを同期させる。

図５は、図４のカラオケ再生処理の中で実行されるアスキーアート処理（Ｓ１０）のフローチャートである。この図５に示したアスキーアート処理（Ｓ１０）を、アスキー画像が形成される課程を模式的に示した図である図３を参照しつつ説明する。

アスキーアート処理（Ｓ１０）では、まず、画像用ＲＡＭ２７に記憶されている１の画像フレームの画像データを読み出す（Ｓ２１）。そして、画像用ＲＡＭ２７に記憶される画像データと、背景画像メモリ１３ａに記憶される背景画像の画像データとを、共に、８０×２５文字を作成するドット数となるように、データを圧縮する（Ｓ２２）。

１の記号は８×１６ドットで構成されるため、総ドット数を８０×２５×１２８とするデータサイズに画像データは圧縮される。背景画像メモリ１３ａおよび画像用メモリ２７に記憶される各画像データは、ＣＲＴディスプレイ２に出力した場合に良好な画像品質を実現し得る画素数を有しており、データ量が多い。このため、画像用ＲＡＭ２７に記憶される画像データを、そのまま、線画像データに変換し、更に、アスキー画像へ変換すると多大な処理時間が必要となり、出力されるアスキー画像の動画が、被撮影体の実際の動作から大きく遅延しかねない。更に、一般的な表示装置における標準の表示サイズは、全画面表示において８０×２５文字（記号）を表示するサイズとされているので、それ以上の文字（記号）にてアスキー画像が形成されると、その一部が非表示になりかねない。故に、アスキー画像作成にかかる処理時間を短縮し、更に、作成されたアスキー画像の大きさが一般的な表示装置に適合するように、このＳ２２の処理にてデータを圧縮している。尚、必ずしも、画像データを、総ドット数８０×２５×１２８とするデータサイズに圧縮する必要はなく、その圧縮後のデータサイズは、作成するアスキー画像の態様（細密度）や、表示装置等に応じて適宜採用することができる。

Ｓ２２の処理の後は、圧縮された両画像データをドット毎に比較し、共通部分を抽出して、その共通部分によりマスクを作成する（Ｓ２３）。次に、圧縮後の画像データから、作成されたマスクに対応する部分、即ち、背景画像部分を削除し、人物画像データ（背景画像以外の部分の画像データ）を抽出する（Ｓ２４）。この人物画像データが抽出された状態を図３（ａ）に示す。この図３（ａ）に表示される枠にて区画された画像が１の画像フレームを模式的に示しており、中心に描画された人物画像が抽出された人物画像データに対応している。図３（ａ）は、Ｓ２４の処理によりマスク処理が実行された後であるので、背景画像が消去され、画像フレーム内には人物画像のみが表示されている。

尚、マスクは、圧縮後の画像データを比較することにより形成するものに限られず、画像用ＲＡＭ２７に記憶される画像データと、背景画像メモリ１３ａに記憶される背景画像の画像データとのそれぞれを、圧縮前に比較して、マスクを作成しても良く、さらに、画像用ＲＡＭ２７に記憶される圧縮前の画像データから作成したマスクを用いて人物画像データを抽出しても良い。

そして、抽出された人物画像の面積（ドット数）が、画像フレームの全体面積に対して半分以上を占めているか否か（人物画像面積≧１／２×（画像フレームの全体面積））を調べる（Ｓ２５）。ここで、その抽出された人物画像の面積が、画像フレームの全体面積に対して半分以上を占めている場合は（Ｓ２５：Ｙｅｓ）、人物画像が十分な大きさで撮影されていると判断し、そのままアスキー画像データに変換するべく、人物画像データからノイズを除去する（Ｓ２６）。続いて、ノイズの除去された人物画像データをラプラシアン変換により線画像データに変換する（Ｓ２７）。これにより、面で表された画像データから、その特徴部分を線で表現した線画像に変換される。この人物画像データをラプラシアン変換により線画像データに変換した状態を図３（ｂ）に示す。その後、線画像データをアスキー画像に変換するアスキー変換処理を実行して（Ｓ２８）、このアスキーアート処理（Ｓ１０）を終了する。

一方、Ｓ２５の処理で確認した結果、抽出された人物画像の面積（ドット数）が、画像フレームの全体面積に対して半分未満であれば（Ｓ２５：Ｎｏ）、人物画像は基準よりも小さく不適切な大きさで撮影されていることが示されている。そこで、人物画像の面積が画像フレームの全体面積に対して半分以上となるように、人物画像データを拡大（伸張）する。アスキー画像を形成する場合に変換元の画像データ（本実施形態では人物画像データ）が小さくなると、変換元の画像データを有するブロック数が少なくなり、その結果、少ない数の記号にて小さなアスキー画像が形成されてしまう。少ない記号で組み立てられた小さなアスキー画像には、元の画像の特徴が反映され難く、場合によっては何を表したものであるかの識別が不能となる。そこで、本実施の形態では、画像フレーム全体の半分の面積を下限値とし、かかる値以下である場合に人物画像データを拡大して、元画像（撮像された人物）の特徴が反映されたアスキー画像が形成されるように構成されている。

故に、まず、画面（画像フレーム）横軸に対する人物画像データのドット分布を算出し、横軸方向の分布の中心（中央座標）を決定してから（Ｓ２９）、人物画像の面積を、画像フレーム全体の半分の面積にて除して拡大率を算出し（Ｓ３０）、Ｓ２９の処理で決定された中央座標を中心に、その算出された拡大率で人物画像データを拡大する（Ｓ３１）。これによれば、人物画像の中心から等方的にズームアップされた画像を形成できるので、拡大された画像がいびつな画像になることを回避できる。その後、Ｓ２６の処理に移行して、拡大された人物画像データに基づいたアスキー画像の形成を実行する。

尚、画像データの拡大を判断する下限値は、必ずしも、画像フレーム全体の半分の面積に限られるものでなく、良好なアスキー画像が形成できる範囲で任意に設定できる。更に、人物画像の大きさは、人物画像データのドット数によって判定したが、これに代えて、画像フレームを８０×２５に分割し、人物画像データを有するブロック数が所定の数（例えば半分）以下であるか否かによって、人物画像データの拡大の実行と非実行とを判定しても良い。これによれば、判定にかかる処理時間を短縮することができる。

図６は、図５のアスキーアート処理（Ｓ１０）の中で実行されるアスキー変換処理（Ｓ２８）のフローチャートである。この図６に示したアスキー変換処理（Ｓ２８）を図３を参照しつつ説明する。

アスキー変換処理（Ｓ２８）では、まず、線画像データを有する画像フレームの横方向Ｘのサイズを、記号データの横サイズＺ１で除し、横分割数ｍを求める（Ｓ４１）。具体的には、本実施の形態では、１の記号データは８×１６ドットの大きさとされており、記号データの横サイズＺ１は、８ドットである。また、横方向Ｘに配列する文字（記号）数は、８０であるので、横方向Ｘのサイズは、ドット換算で、８ドット×８０、即ち、６４０ドットのサイズである。従って、このＳ４１の処理により、横分割数ｍは、６４０を８で除した値「８０」となる。

続いて、その画像フレームの縦方向Ｙのサイズを記号データの縦サイズＺ２で除し、縦分割数ｎを求める（Ｓ４２）。具体的には、本実施の形態では、記号データの縦サイズＺ２は、１６ドットである。また、縦方向Ｙに配列する文字（記号）数は、２５であるので、縦方向Ｙのサイズは、ドット換算で、１６ドット×２５、即ち、４００ドットのサイズである。従って、このＳ４２の処理により、縦分割数ｎは、４００を１６で除した値「２５」となる。

このＳ４１，Ｓ４２の処理により、図３（ｂ）に示すように、画像フレームは所定の大きさのブロックに分割される。本実施の形態においては、画像フレームを、記号データと同じ８×１６ドットの大きさのブロックに分割する。これによれば、テンプレートマッチングに際し、ブロックに分割された線画像データの各部（分割画像）と記号データとの大きさを整合させる処理を行うことなく、直ちにマッチングを行うことができるので、迅速にマッチングを行うことができる。尚、画像データが、総ドット数８０×２５×１２８以上または以下のデータサイズに圧縮されている場合など、画像フレームを分割するＳ４１，Ｓ４２において生じた端数は繰り上げとし、８０×２５以上または８０×２５以下のブロック数に分割される。

そして、変数ｉおよび変数ｊにそれぞれ「０」をセットした後（Ｓ４３）、Ｓ４４〜Ｓ５１の処理により、分割された線画像データを、各ブロック毎に、記号データに変換する処理を実行する。この記号データに変換する処理は、画像フレーム内の各ブロックの行毎に、上段から下段に向かって実行される。画像フレーム内の各位置は、横方向をＸ、縦方向をＹとする座標（Ｘｉ，Ｙｊ）で指定される。

具体的には、Ｓ４４の処理により、変数ｊが縦分割数ｎ未満であるか（ｊ＜ｎ）否かを調べる（Ｓ４４）。ここで、変数ｊが縦分割数ｎ未満でなければ（Ｓ４４：Ｎｏ）、変数ｊが縦分割数ｎに到達したことが示されており、記号データへの変換が分割されたブロックの最下段まで完了したと判断して、このアスキー変換処理（Ｓ２８）を終了する。

一方、変数ｊが縦分割数ｎ未満であれば（Ｓ４４：Ｙｅｓ）、記号データへの変換が未完了であるので、変数ｉが横分割数ｍ未満であるか（ｉ＜ｍ）であるか否かを調べる（Ｓ４５）。変数ｉが横分割数ｍ未満であれば（Ｓ４５：Ｙｅｓ）、横方向Ｘの１行の変換が未完了であるので、変換する１の領域（ブロック）の座標を求める（Ｓ４６）。変換する１のブロックの横方向Ｘの座標は、変数ｉに記号データの横サイズＺ１に乗ずること（ｉ×Ｚ１→Ｘｉ）によって求められ、縦方向Ｙの座標は、変数ｊに記号データの横サイズＺ２に乗じて（ｊ×Ｚ２→Ｙｉ）求められる。例えば、開始時には、変数ｉ＝変数ｊ＝０であるので、座標（Ｘ０，Ｙ０）は、（０，０）となる。その次の変換対象のブロックの座標（Ｘ１，Ｙ０）は、（Ｘ０，Ｙ０）よりもそのブロックの大きさ分横方向Ｘにシフトした位置である。つまり、次に変換される１の領域（ブロック）のＸ座標（Ｘ１）は、（ｉ×Ｚ１→Ｘｉ）に従って、変数ｉ＝１を記号データの横サイズＺ１に乗じて求められる。同様に、次の段に移動した場合の座標（Ｘ０，Ｙ１）は、そのＹ座標が、（ｊ×Ｚ２→Ｙｉ）に従って、変数ｊ＝１を記号データの縦サイズＺ２に乗じて求められる。

そして、求められた座標（Ｘｉ，Ｙｊ）と、座標（Ｘｉ＋Ｚ１，Ｙｊ＋Ｚ２）とを対角線とする領域（１のブロックの指定）に分割された線画像データの各部（分割画像）に最も近似する１の記号データを、記号データメモリ１４ｂに記憶される記号データの中からテンプレートマッチングにより検出する（Ｓ４７）。続いて、その検出された記号データを座標に対応付けてアスキー画像バッファ１３ｂに書込み（Ｓ４８）、その後、変数ｉに１を加算して（ｉ＋１→ｉ）（Ｓ４９）、その処理をＳ４５の処理に移行する。これにより、１の行に属するブロックについて変換が終わるまで、Ｓ４５〜Ｓ４９の処理が繰り返される。

また、Ｓ４５の処理で確認した結果、変数ｉが横分割数ｍ未満でなければ（Ｓ４５：Ｎｏ）、変数ｉが横分割数ｍに到達したことが示されており、横方向Ｘの１の行について、各ブロックの線画像データの記号データへの変換が完了したと判断して、アスキー画像バッファに改行コードを書き込んだ後（Ｓ５０）、変数ｊに１を加算する（ｊ＋１→ｊ）と共に、変数ｉに「０」をセットして（Ｓ５１）、その処理をＳ４４の処理に移行する。これにより、次の段へと変換対象位置が移動する。そして、上記したように、Ｓ４４の処理にて、線画像データの記号データへの変換が終了した（Ｓ４４：Ｎｏ）と判断されるまで、Ｓ４４〜Ｓ５１の処理が繰り返される。これにより、図３（ｃ）に示すように、線画像データが、分割されたブロックごとに記号データへと変換されたアスキー画像が形成される。

尚、本実施の形態では、線画像データに変換後（Ｓ２７）に、アスキー変換処理（Ｓ２８）において、画像フレームの分割（Ｓ４１，Ｓ４２）を行ったが、画像フレームの分割（Ｓ４１，Ｓ４２）後に、線画像データへの変換（Ｓ２７）を行っても良い。

このように、本実施の形態のカラオケ装置１によれば、楽曲データの再生中におけるＣＲＴディスプレイ２での演出を、アスキー画像での演出にて実行することができ、楽曲毎に予め定められた映像を出力する演出とは異なる新鮮な興趣を提供することができる。また、歌唱者の動きがアスキー画像に反映されるため、歌唱者がコミカルな挙動などを歌唱と共に行えば、余興として高い娯楽性を実現することができる。

尚、楽曲に応じて予め定められた映像の出力と、アスキー画像の出力とを切り替えるスイッチを設けると共に、かかるスイッチの状態を所定時間毎に監視する監視手段を設け、その監視手段により検出されるスイッチの状態に応じて、出力する画像を切り替えるように構成しても良い。これによれば、使用者が任意のタイミングにおいて、映像の出力と、アスキー画像の出力とを切り替えることができる。

更に、カラオケ装置１は、カラオケ装置１に設けられたＣＣＤカメラ３から入力される画像データをアスキー画像に変換して、ＣＲＴディスプレイ２に出力するように構成され、また、マイクロフォン２３から入力された音声データをカラオケ装置１のスピーカ２４から出力するように構成された。これに代えて、アスキー画像に変換する画像データの入力および変換されたアスキー画像の出力を、カラオケ装置１以外の外部装置にて実行するように構成しても良い。かかる外部装置は、カラオケ装置１とは別体で設けられ、且つ、カラオケ装置１と通信可能に形成されるデバイスであり、撮像装置（および表示装置）を備えた携帯電話や、ＰＤＡ（Personal Digital Assistance）、パーソナルコンピュータに加え、上記の電子早見本３０にＣＣＤカメラ３を搭載したもの等が例示される。また、マイクロフォン２３およびスピーカ２４に代えて、上記した外部装置に設けられたマイクロフォンやスピーカを利用して音声データの入出力を行うように構成しても良い。

これによれば、各個人がそれぞれ所有する携帯電話等から画像データと音声データとを入力することにより、入力された画像データに基づくアスキー画像と音声データとを、カラオケ装置１を介して、他の携帯電話等の外部装置に出力することができる。このため、画像データや音声データの入出力デバイスの自由度を向上させることができ、特定の者にのみアスキー画像を閲覧させたいという要望や、携帯可能なデバイスでアスキー画像を手元で閲覧したいという要望等、多種多様な利用者の嗜好に応じることができる。

次に、図７から図１１を参照して、本発明の第２の実施形態について説明する。第１の実施形態では、画像処理装置はカラオケ装置１にて構成された。これに代えて、第２の実施形態では、画像処理装置はインターネットプロトコル（Internet Protocol）を用いた電話装置（以下単に「ＩＰ電話装置」と称す）にて構成され、画像処理部を有する送信側装置と、表示装置を有する受信側装置とを備えている。尚、上記した第１の実施形態と同じ部分には同じ符号を付し、その説明を省略する。

図７は、第２の実施形態の画像処理装置であるＩＰ電話装置２００を備えた電話システム２２０を示した概略図である。各ＩＰ電話装置２００（２００ａ，２００ｂ，２００ｃ）は、いずれもデータを送信する送信側装置であり且つデータを受信する相手側装置でもある。従って、各ＩＰ電話装置２００は、それぞれ、画像処理部と表示装置との両者を備えている。また、図７に示すように、ＩＰ電話装置２００ａ，２００ｂは、コンピュータ本体とそのコンピュータ本体へ各種データやコマンドなどを入力するためのキーボードと、コンピュータ本体で実行される処理をモニターするためのＣＲＴディスプレイ１１２とを備えたパーソナルコンピュータ（以下単に「ＰＣ」と略す）である。ＩＰ電話装置２００ｃは受話器と送話器とを備えた電話機である。尚、テレビ電話装置２００以外にＩＰパケット網に接続される他の電話装置は、図示を省略している。

各ＩＰ電話装置２００ａ，２００ｂ，２００ｃは、ＩＰネットワーク網に接続され、かかるＩＰネットワーク網を介して、相互に音声データや画像データ等のデータのパケット通信を行う装置であり、音声データおよび画像データのパケット処理機能やＩＰ電話固有のプロトコル処理機能を備えＩＰアダプタとして機能する通信制御部１２０（図８参照）を内蔵している。また、各ＩＰ電話装置２００ａ，２００ｂ，２００ｃは、音声とともに画像を相手側装置との間で送受信するテレビ電話機能を有しており、送話者の画像を撮像するためのＣＣＤカメラ１１６と、受信した画像データを再生表示するための表示装置（例えばＣＲＴディスプレイ１１２等）とを備えている。

送信側装置であるＩＰ電話装置２００（例えばＩＰ電話装置２００ａとする）は、送話者の要求（指定）に応じて、ＣＣＤカメラ１１６の入力画像をアスキー画像に変換し、変換されたアスキー画像に対応するコードを音声データと共に相手側装置のＩＰ電話装置２００ｂ，２００ｃに送出するように構成されている。送出されるデータは、ＩＰアダプタにより、所定の長さに区切られてデータブロック化され、１のデータブロックが１のパケットに入れられて相手側装置へと送出される。

一方、相手側装置であるＩＰ電話装置２００（例えばＩＰ電話装置２００ａを送信側装置とした場合のＩＰ電話装置２００ｂ，２００ｃ）は、受信したパケットの遅延時間調整と、パケットの順序調整を行った後、パケットからデータを取り出すようになっており、受信したデータにアスキー画像に対応するコードが含まれていると、アスキー画像を再生して自己の表示装置（例えばＣＲＴディスプレイ１１２等）に出力するように構成されている。

各ＩＰ電話装置２００ａ，２００ｂ，２００ｃは、ＡＤＳＬ（Asymmetric Degital Subscriber Line）をアクセス回線として、ＩＰネットワーク網に接続されている。ＩＰネットワーク網は、非図示のゲートキーパによって呼制御が行われる通信業者が専用に構築したネットワーク回線であり、回線経路に設置されたルータによって相手側装置まで、各パケットを送信するものである。更に、ＩＰネットワーク網は、非図示のＶｏＩＰゲートウェイを介して既存の電話網と相互に接続されており、一般の電話とも相互に通信可能に構成されている。

尚、アクセス回線は、通常の一般公衆回線や、ＩＳＤＮ回線、ケーブルテレビのインターネット接続回線などであってもよい。また、ＩＰネットワーク網は、一般のインターネットのＩＰパケット網を使用しても良い。

図８は、上記のように構成された電話システム２２０のＩＰ電話装置２００の電気的構成を示すブロック図である。尚、ＩＰ電話装置２００ｂは、ＩＰ電話装置２００ａと同様に構成されているのでその説明を省略し、ＩＰ電話装置２００ｃについては、ＩＰ電話装置２００ａと異なる部分のみ説明する。

ＩＰ電話装置２００ａは、ＰＣに電話機能を実現する各デバイスが搭載されたものであり、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、画像用ＲＡＭ１０５、音声用ＲＡＭ１０６を備えている。演算装置であるＣＰＵ１０１は、ＲＯＭ１０２に記憶される制御プログラムや、後述するハードディスク１０４に記憶される制御プログラム１０４ａにより、ＩＰ電話装置２００ａを制御するものである。ＲＯＭ１０２は、ＣＰＵ１０１により実行される各種のプログラムや固定値などを記憶した不揮発性のメモリである。ＲＡＭ１０３は、ＣＰＵ１０１による各種プログラムの実行に際して、各種のデータ等を一時的に記憶するためのメモリであり、背景画像メモリ１０３ａと、アスキー画像バッファ１０３ｂと、アスキーアートフラグ１０３ｃとを備えている。

背景画像メモリ１０３ａおよびアスキー画像バッファ１０３ｂは、第１の実施形態のカラオケ装置１（制御部５のＲＡＭ１３）に設けられた背景画像メモリ１３ａおよびアスキー画像バッファ１３ｂと同様のメモリである。背景画像メモリ１０３ａには、背景画像としてＣＣＤカメラ３により撮像（取得）された画像データが記憶され、アスキー画像バッファ１０３ｂには、アスキー変換処理（Ｓ２８、図６参照）において、形成されたアスキー画像が一時的に記憶される。

アスキーアートフラグ１０３ｃは、相手側装置に送出する画像データをＣＣＤカメラ１１６で撮像された画像とするか、アスキー画像とするかを識別するためのフラグである。このアスキーアートフラグ１０３ｃは、後述する電話処理（図９参照）を実行する入力画面（電話処理のメイン画面）において、アスキー画像指定コマンドが入力されるとオンされ、その後に回線が開放されるとオフされる。

画像用ＲＡＭ１０５および音声用ＲＡＭ１０６は、ＤＲＡＭまたはＳＤＲＡＭなどで構成された大容量のＲＡＭであり、画像用ＲＡＭ１０５は、第１の実施形態の画像用ＲＡＭ２７と同様に、背景画像撮影後にＣＣＤカメラ１１６にて取得された画像データを一時的に記憶するものである。また、音声用ＲＡＭ１０６は音声データを一時的に記憶するものであり、マイクロフォン１１５を介して入力された音声データ（送話者の発声）は、音声用ＣＯＤＥＣ１０９により符号化された後、この音声用ＲＡＭ１０６に記憶される。

図８に示すように、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、画像用ＲＡＭ１０５、音声用ＲＡＭ１０６はバスライン１０７を介して互いに接続されており、バスライン１０７はまた入出力ポート１０８にも接続されている。この入出力ポート１０８は、バスライン１０７の他に、ハードディスク１０４、音声用ＣＯＤＥＣ１０９、画像用ＣＯＤＥＣ１１０、ＣＲＴディスプレイ１１２、キーボード１１３、スピーカ１１４、マイクロフォン１１５、ＣＣＤカメラ１１６、通信制御部１２０と接続されている。

ハードディスク１０４は、書換可能な大容量の不揮発性のメモリであり、本ＩＰ電話装置２００ａを制御する制御プログラム１０４ａと、記号データメモリ１０４ｂとを備えている。尚、図９〜図１１に示したフローチャートのプログラムは、制御プログラム１０４ａの一部として格納されている。記号データメモリ１０４ｂは、第１の実施形態のカラオケ装置１（制御部５のハードディスク１４）に設けられた記号データメモリ１４ｂと同様のメモリであり、記号の画像データが記憶されている。

音声用ＣＯＤＥＣ１０９および画像用ＣＯＤＥＣ１１０は、音声データと画像データとを、それぞれ、符号化および復号化する電子回路（ハードウェア）である。音声用ＣＯＤＥＣ１０９は、アナログデータで入力される音声データ（送話者の発声）を、所定のサンプリング周期で取得して、量子化、符号化することにより、デジタルデータに変換する処理（符号化）を行う回路である。符号化された音声データは、音声用ＲＡＭ１０６に書き込まれる。通信制御部１２０にて受信された相手側装置からの音声データは、この音声用ＣＯＤＥＣ１０９にて復号化（伸張）された後、スピーカ１１４から出力される。

画像用ＣＯＤＥＣ１１０は、ＣＣＤカメラ１１６から入力され、画像用ＲＡＭ１０５に記憶された画像データを、相手側装置に送信するデータ形式に圧縮符号化するものである。また、通信制御部１２０にて受信された相手側装置からの画像データは、この画像用ＣＯＤＥＣ１１０にて復号化（伸張）された後、ＣＲＴディスプレイ１１２から出力される。

尚、ＩＰ電話装置２００ａでは、符号化された音声データに対し、更に、帯域圧縮符号化が行われている。この音声データの帯域圧縮符号化には、離散コサイン変換（ＤＣＴ）が適用されている。離散コサイン変換は、画像を小さなブロックに分割して周波数成分係数を量子化および符号化して圧縮する一般的な方式である。従って、相手側装置からの音声データを受信した場合には、まず、離散コサイン変換の逆変換（ＩＤＣＴ）処理を行ってから、音声用ＣＯＤＥＣ１０９にてアナログデータに復号化して再生出力する。

通信制御部１２０は、ＩＰ電話装置２００ａが他のＩＰ電話装置２００ｂ，２００ｃ（または他の電話装置）との間で、ＩＰネットワーク網を介したパケット通信を実行するための装置であり、モデム１２１、信号分離部１２３、信号多重部１２４、バッファ１２５を備えている。

モデム１２１は、ＡＤＳＬモデムであり、ＩＰ電話装置２００ａから送出するデータ（信号）をＡＤＳＬ回線に適応したＡＤＳＬ信号に変換すると共に、ＩＰ電話装置２００ａにて受信したＡＤＳＬ信号をＩＰ電話装置２００ａ内で処理する適切な信号（例えばイーサネット（登録商標）の信号）に変換する信号変換機である。また、モデム１２１は、通信相手を呼び出すためにダイヤル信号を送出し、回線を制御するＮＣＵの機能を備えている。

信号分離部１２３は、ＩＰ電話装置２００ｂ，２００ｃ等の相手側装置から受信したデータについて、画像データと音声データとに分離する装置である。後述するように、本電話システム２２０においてアスキー画像データは、音声データとして相手側装置から送出されているので、この信号分離部１２３においては分離されない。信号多重部１２４は、送信バッファ１２５ａに記憶される音声データ及び画像データを時間軸方向に、画像フレームと音声データとを多重化する装置であり、多重化されたデータは、モデム１２１を介して送出される。

バッファ１２５は、一時的にデータを記憶しておくメモリであり、送出するデータを一時的に記憶するための送信バッファ１２５ａと、受信したデータを一時的に記憶するための受信バッファ１２５ｂとを備えている。送信バッファ１２５ａには、後述する電話処理（図９参照）にて圧縮符号化された音声データ及び画像データが記憶されている。記憶される音声データ及び画像データは、所定のタイミングでこの送信バッファ１２５ａから読み出されて、信号多重部１２４に出力される。受信バッファ１２５ｂには、信号分離部１２３により分離された画像データと音声データとが、それぞれフレーム単位で記憶されている。受信バッファ１２５ｂにデータが記憶されていることがＣＰＵ１０１により認識されると、受信バッファ１２５ｂに記憶されるデータは、この受信バッファ１２５ｂから読み出され、復号化と再生出力とが実行される。

このように、ＩＰ電話装置２００ａは、通信制御部１２０を介し（ＡＤＳＬ回線を経て）、ＩＰネットワーク網に接続されており、ＩＰネットワーク網を経由して他のＩＰ電話装置２００ｂ，２００ｃなどと相互に接続されている。これにより、ＩＰ電話装置２００ａと他のＩＰ電話装置２００ｂ，２００ｃ（または他の電話装置）との間で、音声データ及び画像データを送受信するテレビ電話を実行することができるようになっている。

尚、ＩＰ電話装置２００ｃは、電話機であるので、マイクフォン１１５として送話器が、スピーカ１１４としては受話器が機能し、ＣＲＴディスプレイ１１２の代わりにＬＣＤが設けられると共に、アスキー画像指定コマンドを入力するコマンド入力ボタンを備えている。

次に、図９から図１１を参照して、上記のように構成されたＩＰ電話装置２００にて実行される各処理について説明する。

図９は、上記のＩＰ電話装置２００（２００ａ，２００ｂ）にて実行される電話処理を示したフローチャートである。ＩＰ電話装置２００ａ，２００ｂはＰＣであるので、電話処理は、キーボード１１３操作により、開始を要求する所定のコマンドが入力されると開始され、まず、電話処理のメイン画面をＣＲＴディスプレイ２に表示する（Ｓ１０１）。その後、相手側装置の電話番号が指定されたか否かを確認し（Ｓ１０２）、相手側装置の電話番号が指定されていなければ（Ｓ１０２：Ｎｏ）、その指定を待機する。尚、Ｓ１０２の処理においては、所定時間の経過が監視されており、所定時間が到来しても相手側装置の電話番号が指定されていない場合には、その処理をＳ１１４の各処理に移行する。

一方、相手側装置の電話番号が指定されていれば（Ｓ１０２：Ｙｅｓ）、アスキー画像指定コマンドが入力されたか否かを確認する（Ｓ１０３）。アスキー画像指定コマンドは、相手側装置に送信する画像データをアスキー画像とすることを指示するコマンドであり、メイン画面の表示に従って所定のキー操作を行うことにより入力される。

ここで、アスキー画像指定コマンドが入力されていなければ（Ｓ１０３：Ｎｏ）、Ｓ１０４の処理をスキップしてその処理をＳ１０５の処理に移行する。一方、アスキー画像指定コマンドが入力されていると（Ｓ１０３：Ｙｅｓ）、アスキーアートフラグ１０３ｃをオンし（Ｓ１０４）、その後、相手側装置を発呼する（Ｓ１０５）。Ｓ１０５の処理により発呼要求がＩＰネットワーク網に設置されたゲートキーパに送信され、ゲートキーパの動作によって、発呼側装置であるＩＰ電話装置２００ａと相手側装置との間の通話状態が確立される。

その後、アスキーアートフラグ１０３ｃがオンであるか否かを確認し（Ｓ１０６）、アスキーアートフラグ１０３ｃがオンであれば（Ｓ１０６：Ｙｅｓ）、アスキーアート処理を実行して（Ｓ１０７）、ＣＣＤカメラ１１６から取り込んだ画像データをアスキー画像データに変換する。アスキーアート処理（Ｓ１０７）は、図５に示した第１の実施形態のアスキーアート処理（Ｓ１０）同様の処理である。尚、第１の実施形態においては、アスキー変換処理（Ｓ２８）のＳ４７の処理により、アスキー画像バッファ１３ｂには、テンプレートマッチングにより検出された記号データ（画像データ）が書き込まれるように構成したが、第２の実施形態では、アスキー変換処理（Ｓ２８）のＳ４７の処理において、テンプレートマッチングにより検出された記号データに対応する記号コードが、アスキー画像バッファ１３ｂに書き込まれるものとする。

また、Ｓ１０６の処理とＳ１０７の処理との間には、背景画像をＣＣＤカメラ１１６にて撮像し、撮像された背景画像の画像データを背景画像データメモリ１０３ａに書き込む非図示のステップが設けられている。かかるステップは、回線閉結後の初回のアスキーアートフラグ１０３ｃの状態確認（Ｓ１０６）直後に実行され、それ以降は、非実行とされる。

その後、相手側装置から受信した画像データが受信バッファ１２５ｂに記憶されているか否かを確認すると共に、画像データが受信バッファ１２５ｂに記憶されていると、その画像データをＣＲＴディスプレイ１１２に再生出力する画像出力処理を実行する（Ｓ１０８）。この画像出力処理により出力される画像データは、メイン画面の一部にマルチウィンドウを開いて表示される。尚、受信バッファ１２５ｂに記憶される画像データは、上記したように画像用ＣＯＤＥＣ１１０にて復号化されてＣＲＴディスプレイ１１２に出力される。

画像出力処理（Ｓ１０８）の後は、マイクロフォン１１５から入力された音声データを相手側装置に送信するための音声送出処理を実行した後（Ｓ１０９）、相手側装置から受信した音声データを、スピーカ１１４から再生出力する音声出力処理を実行する（Ｓ１１０）。その後、通話が終了したか否かを確認し、通話終了であれば（Ｓ１１１：Ｙｅｓ）、相手側装置との通話状態を解消し（通話終了をゲートキーパに通知する）（Ｓ１１２）、アスキーアートフラグ１０３ａをオフする（Ｓ１１３）。続いて、各処理を実行して（Ｓ１１４）、受信した画像データを画像出力するためのマルチウィンドウ表示を終了する処理を行うと共に、電話処理を終了する終了コマンドや他のコマンド（例えば電話番号の登録処理の実行コマンドなど）の入力や、新たな電話番号の指定を待機する。そして、この各処理（Ｓ１１４）において、終了コマンドの入力が認識されると、メイン画面を終了してこの電話処理を終了する。また、その他のコマンドが入力された場合には、入力されたコマンドの内容に応じた処理を実行する。新たな電話番号の指定が認識された場合には、その処理をＳ１０３の処理に移行する。

更に、Ｓ１０６の処理で確認した結果、アスキーアートフラグ１０３ｃがオフであれば（Ｓ１０６：Ｎｏ）、ＣＣＤカメラ１１６から入力された画像データ（映像）を相手側装置に送出する通常の画像送出処理を実行する（Ｓ１１５）。背景画像の撮影後にＣＣＤカメラ１１６から入力された画像データは、画像用ＲＡＭ１０５に画像フレーム単位で記憶されている。この画像送出処理（Ｓ１１５）では、画像用ＲＡＭ１０５に記憶される画像データを、入力順に従って画像用ＣＯＤＥＣ１１０に出力する。画像用ＲＡＭ１０５から１の画像フレームの出力が終了すると、この画像送出処理（Ｓ１１５）を終了し、その処理をＳ１０８の処理に移行する。画像用ＣＯＤＥＣ１１０に出力された画像データは、圧縮符号化された後、通信制御部１２０に出力される。

また、Ｓ１１１の処理で確認した結果、通話終了でなければ（Ｓ１１１：Ｎｏ）、その処理をＳ１０６の処理に移行し、通話終了が認識される（Ｓ１１１：Ｙｅｓ）まで、Ｓ１０６の処理〜Ｓ１１１の処理、または、Ｓ１０６，Ｓ１１５、Ｓ１０８〜Ｓ１１１の処理を繰り返し、通話状態を維持する。

尚、ＩＰ電話装置２００ｃにおいても、上記と同様の電話処理が実行されるが、Ｓ１０１の処理は省略され、発呼と着呼とを交互に検出する待機状態となっている。そして、オフフック状態が検出されると、発呼要求と判断して、Ｓ１０２の処理が実行されることとなる。また、アスキー画像指定コマンドは、そのコマンド入力ボタンを操作することにより入力される。

図１０は、図９の電話処理の中で実行される音声送出処理（Ｓ１０９）のフローチャートである。この音声送出処理（Ｓ１０９）は、上記したようにマイクロフォン１１５から入力された音声データ（送話者の発声）を、相手側装置に送出する処理である。マイクロフォン１１５から入力された音声データは、音声用ＣＯＤＥＣ１０９によりデジタルデータに変換され音声用ＲＡＭ１０６に記憶されている。そして、この音声用ＲＡＭ１０６に記憶される音声データをＤＣＴ処理（離散コサイン変換処理）した後（Ｓ１２１）、そのＤＣＴ処理された音声データについて最可聴限界以下の成分を除去する（Ｓ１２２）。

最可聴限界とは、通常の人間の聴力で聴きとることのできる限界の音声であり、周波数帯域と音量のレベルとにより決定される。例えば、２０ヘルツ〜５キロヘルツは、小さな音でも良く聞こえる周波数帯域であり、これよりも高い周波数や低い周波数になればなるほど可聴困難な領域となる。また、同じ周波数帯域であっても、音量レベルが低いと、可聴困難となる。最可聴限界以下とは、周波数帯域および音量レベルの因子により、通常、人間の聴力で聴きとることのできない音声の領域である。

従って、Ｓ１２２の処理により、最可聴限界以下の成分であるか否かは、ＤＣＴ処理された音声データの各成分の周波数帯域と音量レベルとにより判別される。尚、周波数帯域毎に定められた音量レベルが最可聴限界を示す閾値としてハードディスク１０４の所定のエリアに記憶されている。

次に、アスキーアートフラグ１０３ａがオンであるか否かを確認し（Ｓ１２３）、オフであれば（１２３：Ｎｏ）、Ｓ１２４，Ｓ１２５の処理をスキップして、その処理をＳ１２６の処理に移行する。オンであれば（Ｓ１２３：Ｙｅｓ）、アスキー画像バッファ１０３ｂに記憶される記号コード（８ビットのデータ、２進数のデータ）を、除去した最可聴限界以下の成分として、音声データに付加する（Ｓ１２４）。つまり、除去された音声データの成分の周波数帯域に、記号データを、その周波数帯域に対応して予め定められた音量レベル以下となる大きさで組み込む（限界周波数成分のデータ信号に変換する）。

これにより、記号データを、音声データの可聴限界以下の成分として、音声データに重畳（保有）させることができ、記号データが音声データ中に含まれていても、再生する音声の品質に大きな影響を与えることはない。従って、かかる記号コードの部分を除去せずに音声データを再生出力しても、付加された記号コードによる耳障りなノイズや可聴不能とする音声品質の低下が発生することはない。故に、相手側装置が、汎用の電話装置であっても、通話に支障を来すことはない。

尚、相手側装置が、最可聴限界以下の成分を音声として出力しないとする（再生しない周波数帯（非再生領域）が予め設けられている）ものであれば、相手側装置において、最可聴限界以下の成分として保有される記号データは、音声データとしては出力されない。かかる場合の、音声データの最可聴限界以下の成分を除去するＳ１２２の処理が、請求項８記載の第１除去手段に該当する。尚、再生しない周波数帯（非再生領域）は、最可聴限界以下の成分の領域に限られるものではなく、所定の周波数帯域に設定されていても良い。

また、アスキー画像バッファ１０３ｂには、分割されたブロックの位置（座標）に従って、順に記号コードが記憶されており、Ｓ１２４の処理では、アスキー画像バッファ１０３ｂから、その記憶された順（アドレスの順）に従って記号コードを読み出し、その読み出した順に音声データに付加する。このため、受信した音声データから順次、最可聴限界以下の成分を取り出せば、記号コードの配列を元画像の座標に従ったものとでき、かかる記号コードの配列から元のアスキー画像を再生出力することができる。

また、第２の実施形態においては、音声用ＣＯＤＥＣ１０９にてサンプリングされた１サンプリング単位の音声データからＤＣＴ処理により変換した１単位の音声データに、１の記号コードを付加するものとする。尚、１単位の音声データに付加する記号コードは２以上の複数の記号コードであってもよく、１単位の音声データにいくつの記号コードを付加するかは、伝送速度や画像品質を加味して、適宜、設定されるものとする。

Ｓ１２４の処理の後は、音声データにアスキー画像を形成する記号コードが含まれていることを示すアスキー保有コードを、音声データに付加して（Ｓ１２５）、そのアスキー保有コードの付加された音声データを通信制御部１２０に出力し（Ｓ１２６）、この音声送出処理（Ｓ１０９）を終了する。

通信制御部１２０では、音声送出処理（Ｓ１０９）により入力された音声データを時間軸方向に区切ってパケット化する共に、相手側装置の識別子などと共にアスキー保有コードがパケットのヘッダデータとして付加される。そしてパケット化されたデータを所定の伝送方式で回線へ出力する。これにより、アスキー画像は、音声データの態様で相手側装置に送出されることとなる。

尚、アスキー画像の出力でない場合など、画像送出処理（Ｓ１１５）により、画像用ＣＯＤＥＣ１１０を介して通信制御部１２０に送出された画像データが、送信バッファ１２５ａに記憶されていると、その画像データと対応する音声データとが信号多重部１２４により多重化された後、パケット化されて、回線に出力される。

図１１は、図９の電話処理の中で実行される音声出力処理（Ｓ１１０）のフローチャートである。この音声出力処理（Ｓ１１０）では、まず、通信制御部１２０の受信バッファ１２５ｂに、音声データが記憶されているか否かを確認し（Ｓ１３１）、記憶されていなければ（Ｓ１３１：Ｎｏ）、この音声出力処理（Ｓ１１０）を終了する。一方、受信バッファ１２５ｂに音声データが記憶されていると（Ｓ１３１：Ｙｅｓ）、受信バッファ１２５ｂに記憶されている音声データを読み出し、読み出した音声データにアスキー保有コードが付加されているか否かを確認する（Ｓ１３２）。アスキー保有コードが付加されていた場合には（Ｓ１３２：Ｙｅｓ）、その音声データに最可聴限界以下の周波数成分として具有される２進数の値を、受信した音声データの順に従って、順次、ＲＡＭ１０３の所定領域に書き込む（Ｓ１３３）。尚、受信バッファ１２５ｂに記憶されている音声データは、最可聴限界以下の周波数成分の２進数の値をＲＡＭ１０３の所定領域に書き込んだ後、受信バッファ１２５ｂから消去される。その後、ＲＡＭ１０３の所定領域に書き込まれた２進数を８ビット毎に読み取り、ハードディスク１４の記号データメモリ１４ｂを参照して、読み取った８ビットの記号コードを記号データに変換する（Ｓ１３４）。そして、変換された記号データを、ＣＲＴディスプレイ１１２に表示される電話処理のメイン画面の所定領域（所定のウィンドウ）に出力する（Ｓ１３５）。尚、ＩＰ電話機２００ｃにおいては、このＳ１３５の処理により、アスキー画像データがＬＣＤに出力される。

その後、受信バッファ１２５ｂに記憶される音声データにＩＤＣＴ処理（離散コサイン逆変換処理）を行ってから（Ｓ１３６）、ＩＤＣＴ処理された音声データを、音声用ＣＯＤＥＣ１０９に出力して（Ｓ１３７）、この音声出力処理（Ｓ１１０）を終了する。音声用ＣＯＤＥＣ１０９に出力された音声データは、復号化によりアナログデータに変換されて、スピーカ１１４から再生出力される。

一方、Ｓ１３２の処理で確認した結果、アスキー保有コードが付加されていなければ（Ｓ１３２：Ｎｏ）、音声データには、アスキー画像を形成するデータ（記号コード）が含まれていないと判断し、Ｓ１３３〜Ｓ１３５の処理をスキップして、その処理をＳ１３６の処理に移行する。

パケット内の各音声データから、アスキー画像を形成する記号コードが含まれているか否かを判断する場合には、最可聴限界以下の成分の２進数のデータが「０」が、記号コードが含まれていないが故であるのか、画像データの無地部分であるが故であるかの判別が困難になる。場合によっては、１の画像フレームに対応する全パケットについて、データの読み取りを終了するまで、その判別ができず、アスキー画像形成の処理速度を低下させがねない。しかし、第２の実施形態においては、アスキー画像を形成する記号コードを含む音声データであることは、アスキー保有コードにて示されるので、音声データに記号コードが含まれているか否かを容易に判定でき、アスキー画像形成をスムーズに実行することができる。

このように、第２の実施形態によれば、音声と画像とを相手側装置に出力するＩＰ電話装置２００において、相手側装置に送出する画像をアスキー画像とすることができる。このため、実際の映像を出力するテレビ電話とは異なる趣を持った画像によるコミュニケーションをはかることができる。また、実際の映像をそのまま相手側装置に送出したくない場合などにおいては、送話者側のプライバシーを守りつつ、元の映像に基づいた高度なコミュニケーションを行うことができる。また、アスキー画像は、記号の組み合わせにより描画されるものであるので、画像形成機能のない装置やプログラムであっても、文字記号を表示する機能を備えていれば、アスキー画像を現出させて演出を実行することができる。

尚、第２の実施形態においては、送信側装置となるＩＰ電話装置２００は、アスキー画像指定コマンドが入力された場合に実際の映像に代えてアスキー画像を相手側装置に送出したが、実際の映像と共にアスキー画像を相手側装置に送出するように構成しても良い。アスキー画像と実際の映像（ＣＣＤカメラ１１６から入力された画像データ）とを共に相手側装置に送出することにより送信側装置から送出する画像データの量が増加しても、アスキー画像は音声データとして送出されるので、画像データを送出する処理（画像データ送出処理）が煩雑になることはない。

また、送信側装置となるＩＰ電話装置２００を、上記のように、実際の映像と共にアスキー画像を送出するように構成した場合において、相手側装置となるＩＰ電話装置２００に、実際の映像の出力とアスキー画像の出力とを切り替えるスイッチと、かかるスイッチの状態を割り込み処理にて監視する監視手段とを設け、その監視手段により検出されるスイッチの状態に応じて、受信した映像とアスキー画像との一方を出力するように構成しても良い。

以上、上記各実施の形態に基づき本発明を説明したが、本発明は、上記各実施の形態に何ら限定されるものでなく、本発明の趣旨を逸脱しない範囲内で種々の改良変形が可能であることは容易に推察できるものである。

例えば、上記各実施の形態では、アスキー変換処理（Ｓ２８）において、画像フレームは、記号の大きさと同じ大きさのブロックに分割したが、記号の大きさブロックの大きさとは、テンプレートマッチングの際に整合されていればよく、マッチングする際に一方の画像を拡大または縮小しても良い。このため、分割されるブロックの大きさは、必ずしも記号の大きさと整合させる必要はない。

また、分割するブロック数は、８０×２５に限られるものでなく、更に、そのブロック数を可変値とし、使用者が操作パネルからその値を入力することにより任意に設定できるようにしてもよい。使用者によりブロック数が設定された場合には、Ｓ４１およびＳ４２の処理において、その設定されたブロック数となるように横分割数ｍと、縦分割数ｎが設定される。これにより、使用者の意向を反映したアスキー画像を作成でき、表現の自由度を向上させて娯楽性を向上させると共に、使用者が自己の操作によって所望の変形を施すことができるので、作成されるアスキー画像に対し、使用者に高い満足度を付与し得る。

更に、上記各実施の形態では、背景画像は、アスキー画像による１の演出が開始される毎に行うように構成されたが、背景画像の取得（背景画像メモリ１３ａ，１０３ａに記憶される背景画像の画像データの更新）は、必ずしも、アスキー画像による演出が実行される毎に行われる必要はない。例えば、操作者により要求された場合にのみ背景画像を撮像し、背景画像が取得された場合に限って、背景画像メモリ１３ａ，１０３ａに記憶される背景画像の画像データを、新たに取得した背景画像の画像データにより更新するようにしても良い。

また、上記各実施の形態においては、各画像フレームのそれぞれをアスキー画像に変換したが、取得された全画像データ（画像フレーム）から、所定間隔で画像フレームをサンプリングし、サンプリングされた画像フレームについてのみアスキー画像を形成して、他の画像フレームについては廃棄するように構成しても良い。また、サンプリングする所定間隔については、使用者が任意に設定できるようにしても良い。これによれば、効率的にアスキー画像を形成してその形成処理の速度全体を高速化できる上、コマ送り表示として再生されるアスキー画像の動画の娯楽性を高めることができる。

更に、アスキーアート処理（Ｓ２８，Ｓ１０７）においては、人物画像の面積が画像フレーム全体の半分未満である場合に、人物画像の面積が画像フレーム全体の半分となるように１段階で画像の拡大を行った。これに代えて、１回で拡大される拡大率を固定倍率とし、段階的に元の人物画像を拡大するように構成しても良い。これによれば、操作者所望の倍率に人物画像を拡大することができる。

加えて、上記各実施の形態では、画像フレームを分割した場合に、その画像フレーム内における人物画像の面積が所定の面積未満であると、人物画像データの拡大を行ったが、人物画像の面積が所定の面積以上（人物画像データを有するブロック数が所定数以上）である場合については、人物画像データの圧縮を実行しても良い。これによれば、表示画面に対して、人物画像が大きすぎるために視認性が悪化することを、回避できる。尚、かかる場合の人物画像データの圧縮を実行する処理が、請求項５記載の画像データ圧縮手段に該当する。

更に、上記各実施の形態では、画像データを入力する画像データ入力手段として、リアルタイムで画像データを取得するＣＣＤカメラを採用したが、入力される画像データはリアルタイムで取得されたものに限られるものでなく、予め画像データが記憶された記憶媒体とその記憶媒体に記憶される画像データを読み取る読み取り手段とにより画像データを入力する画像データ入力手段を構成しても良い。

本発明の画像処理装置を備えたカラオケ装置を示す概略図である。カラオケ装置の電気的構成を示すブロック図である。アスキー画像が形成される課程を模式的に示した図である。図４は、カラオケ装置本体の制御部にて実行されるカラオケ再生処理のフローチャートである。図４のカラオケ再生処理の中で実行されるアスキーアート処理のフローチャートである。図５のアスキーアート処理の中で実行されるアスキー変換処理のフローチャートである。第２の実施形態の画像処理装置であるＩＰ電話装置を備えた電話システムを示した概略図である。電話システムのＩＰ電話装置の電気的構成を示すブロック図である。第２の実施形態の画像処理装置であるＩＰ電話装置にて実行される電話処理を示したフローチャートである。図９の電話処理の中で実行される音声送出処理のフローチャートである。図９の電話処理の中で実行される音声出力処理のフローチャートである。

符号の説明

１カラオケ装置（画像処理装置）
１ａ本体（画像処理部）
２ＣＲＴディスプレイ（表示装置）
３，１１６ＣＣＤカメラ（画像データ入力手段、撮像装置）
１３ａ，１０３ａ背景画像メモリ（背景画像記憶手段）
１４ｂ，１０４ｂ記号データメモリ（記号データ記憶手段）
１４ｃ楽曲データメモリ（伴奏情報記憶手段）
１４ｄ歌詞データメモリ（歌詞データ記憶手段）
２１，１１５伴奏装置（伴奏発生手段）
２３マイクロフォン（音声データ入力手段）
２４スピーカ（発音手段）
１０９音声用ＣＯＤＥＣ（データ変換手段の一部、音声再生手段の一部）
１２０通信制御部（出力手段、データ変換手段の一部、音声データ受信手段）
２００ＩＰ電話装置、相手側装置、送信側装置
Ｓ１５出力手段の一部
Ｓ２３，Ｓ２４固有画像データ抽出手段、固有画像データ抽出ステップ
Ｓ２５，Ｓ２９〜Ｓ３１画像データ伸張手段、画像データ伸張ステップ
Ｓ２５判断手段、判断ステップ
Ｓ２７線画変換手段、線画変換ステップ
Ｓ４１，Ｓ４２分割手段、分割ステップ
Ｓ４７抽出手段、抽出ステップ
Ｓ４８画像形成手段の一部、画像形成ステップ
Ｓ１２１，Ｓ１２２データ変換手段の一部
Ｓ１２２第２除去手段
Ｓ１２４重畳手段
Ｓ１３２，Ｓ１３７音声再生手段の一部
Ｓ１３４，Ｓ１３５画像データ再生手段の一部
Ｓ１０アスキーアート処理（加工手段の一部、画像処理プログラム）

Claims

複数の画像フレームを有し連続した画像を現出させ得る画像データを入力する画像データ入力手段と、その画像データ入力手段により入力された画像データを各画像フレーム毎に加工する加工手段と、その加工手段により加工された画像フレームをその入力順に従って順次出力することにより画像データを出力する出力手段とを備えた画像処理部と、その画像処理部の出力手段により出力された前記画像フレームを順に表示して前記画像データを動画表示する表示装置とを備えた画像処理装置において、
前記画像処理部は、複数の記号の画像データが記憶された記号データ記憶手段を備えており、前記画像処理部の加工手段は、前記画像データ入力手段にて入力された画像データを線画像データに変換する線画変換手段と、前記画像データ入力手段にて入力された画像データの画像フレーム又は前記線画変換手段により変換された線画像データを有する画像フレームを所定数のブロックに分割する分割手段と、その分割手段により分割されたブロック単位で、前記線画像データの態様と近似する記号を前記記号データ記憶手段に記憶される記号の画像データの中から抽出する抽出手段と、その抽出手段により抽出された記号の画像データで、対応するブロックの前記線画像データを置換した置換画像データを形成する画像形成手段とを備えており、前記画像処理部の出力手段は、前記置換画像データにて形成された置換画像データを出力するものであり、
前記表示装置にて前記置換画像データの動画表示を行うことを特徴とする画像処理装置。
前記画像処理部は、前記画像データ入力手段として撮影により画像データを取得する撮像装置を備えており、更に、その撮像装置により背景画像として取得された背景画像データを記憶する背景画像記憶手段を備えると共に、
前記画像処理部の加工手段は、前記撮像装置により取得された画像データから前記背景画像記憶手段に記憶される背景画像データとの共通部分を除いて、前記画像フレーム毎に固有の固有画像データを抽出する固有画像データ抽出手段を備え、
前記画像処理部の線画変換手段は、その固有画像データ抽出手段により抽出された固有画像データを線画像データに変換するものであり、
前記画像処理部の画像形成手段は、その固有画像データから変換された線画像データによって置換画像データを形成するものであることを特徴とする請求項１記載の画像処理装置。
前記画像処理部の加工手段は、前記分割手段により前記画像フレームを分割した場合に、その画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数が予め定めた下限値以下であると、前記画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数を増加させる方向に、前記線画像データまたは前記固有画像データを伸張する画像データ伸張手段を備えており、
前記画像処理部の画像形成手段は、その画像データ伸張手段により前記線画像データまたは固有画像データが伸張された場合には、伸張後の画像データに基づいて置換画像データを形成するものであることを特徴とする請求項２記載の画像処理装置。
前記画像データ伸張手段は、抽出元の画像フレームに対して前記固有画像データ抽出手段により抽出された前記固有画像データが占める割合が、所定の割合以下であるか否かを判断する判断手段を備えており、
その判断手段により、前記固有画像データが占める割合が所定の割合以下であると判断された場合に、前記固有画像データを有するブロック数が予め定めた下限値以下であるとして、前記固有画像データの伸張を行うものであることを特徴とする請求項３記載の画像処理装置。
前記画像処理部の加工手段は、前記分割手段により前記画像フレームを分割した場合に、その画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数が予め定めた上限値以上であると、前記線画像データまたは前記固有画像データを圧縮し、前記画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数を減少させる画像データ圧縮手段を備えており、
前記画像処理部の画像形成手段は、その画像データ圧縮手段により前記画像データが圧縮された場合には、圧縮後の画像データに基づいて置換画像データを形成するものであることを特徴とする請求項２から４のいずれかに記載の画像処理装置。
伴奏情報を記憶する伴奏情報記憶手段と、
その伴奏情報記憶手段に記憶される伴奏情報に基づいて伴奏を発生する伴奏発生手段と、
音声データを入力する音声データ入力手段と、
その音声データ入力手段により入力された音声データと、伴奏発生手段にて発生された伴奏とを発音する発音手段と、
各伴奏情報に対応し、且つ、前記発音手段により発音される伴奏に合わせて前記表示装置に表示される歌詞データを記憶する歌詞データ記憶手段とを備えており、
その歌詞データ記憶手段に記憶される歌詞データと共に、前記出力手段により出力された前記置換画像データを前記表示装置に表示するものであることを特徴とする請求項１から５のいずれかに記載の画像処理装置。
請求項１から５のいずれかに記載の画像処理部を備え回線を介して相手側装置に接続されると共に、音声データを入力する音声データ入力手段と、その音声データ入力手段により入力された音声データを前記回線に出力するデータ信号に変換するデータ変換手段と、前記画像処理部の画像形成手段により形成された置換画像データに対応する識別コードを音声データのデータ信号に変換して前記データ変換手段により変換されたデータ信号に重畳する重畳手段とを有する送信側装置を備えており、
前記画像処理部の出力手段は、その重畳手段により重畳されたデータ信号を前記回線に出力して前記相手側装置に置換画像データを出力するものであることを特徴とする請求項１から５のいずれかに記載の画像処理装置。
前記送信側装置は、前記音声データ入力手段により入力された音声データについて、非再生領域として設定される非再生周波数成分を除去する第１除去手段を備えており、
前記重畳手段は、前記置換画像データの識別コードを、前記第１除去手段により除去された非再生周波数成分の帯域のデータ信号に変換して前記データ変換手段により変換されたデータ信号に重畳するものであることを特徴とする請求項７記載の画像処理装置。
前記送信側装置は、前記音声データ入力手段により入力された音声データについて、可聴限界を越えた限界周波数成分を除去する第２除去手段を備えており、
前記重畳手段は、前記置換画像データの識別コードを、前記第２除去手段により除去された限界周波数成分のデータ信号に変換して前記データ変換手段により変換されたデータ信号に重畳するものであることを特徴とする請求項７または８に記載の画像処理装置。
前記回線を介して前記送信側装置に接続されると共に、前記表示装置と、音声データを受信する音声データ受信手段と、その音声データ受信手段により受信された音声データを音声で再生する音声再生手段と、前記音声データ受信手段により受信された音声データに前記置換画像データに対応する識別コードのデータ信号が含まれている場合にそのデータ信号から前記置換画像データを再生する画像データ再生手段とを有し、その画像データ再生手段により再生された置換画像データを前記表示装置にて表示する相手側装置を備えていることを特徴とする請求項７から９のいずれかに記載の画像処理装置。
複数の画像フレームを有し連続した画像を現出させ得る画像データが入力された場合に、その画像データを各画像フレーム毎に加工して順次出力することにより動画再生を実行する画像処理プログラムにおいて、
入力された画像データを線画像データに変換する線画変換ステップと、
入力された画像データの画像フレーム又は前記線画変換ステップにより変換された線画像データを有する画像フレームを所定数のブロックに分割する分割ステップと、
その分割ステップにより分割されたブロック単位で、前記線画像データの態様と近似する記号を複数の記号の画像データの中から抽出する抽出ステップと、
その抽出ステップにより抽出された記号の画像データで、対応するブロックの前記線画像データを置換した置換画像データを形成する画像形成ステップとを備え、
その画像形成ステップにより形成された置換画像データによる動画再生を実行し得る画像処理プログラム。
入力された画像データから背景画像データとして入力された背景画像データとの共通部分を除いて、前記画像フレーム毎に固有の固有画像データを抽出する固有画像データ抽出ステップを備え、
前記線画変換ステップは、その固有画像データ抽出ステップにより抽出された固有画像データを線画像データに変換するものであり、
前記画像形成ステップは、その固有画像データから変換された線画像データによって置換画像データを形成するものであることを特徴とする請求項１１記載の画像処理プログラム。
前記分割ステップにより前記画像フレームを分割した場合に、その画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数が予め定めた下限値以下であると、前記画像フレーム内において前記線画像データまたは前記固有画像データを有するブロック数を増加させる方向に、前記線画像データまたは前記固有画像データを伸張する画像データ伸張ステップを備えており、
前記画像形成ステップは、その画像データ伸張ステップにより前記画像データが伸張された場合には、伸張後の画像データに基づいて置換画像データを形成するものであることを特徴とする請求項１２記載の画像処理プログラム。
前記画像データ伸張ステップは、抽出元の画像フレームに対して前記固有画像データ抽出手段により抽出された前記固有画像データが占める割合が、所定の割合以下であるか否かを判断する判断ステップを備えており、
その判断ステップにより、前記固有画像データが占める割合が所定の割合以下であると判断された場合に、前記固有画像データを有するブロック数が予め定めた下限値以下であるとして、前記固有画像データの伸張を行うものであることを特徴とする請求項１３記載の画像処理プログラム。