JP2004266746A

JP2004266746A - 画像音声通信システム

Info

Publication number: JP2004266746A
Application number: JP2003057357A
Authority: JP
Inventors: Mitsunari Kimura; 光成木村; Toshikazu Kaneko; 俊和金子
Original assignee: MegaChips System Solutions Inc
Current assignee: MegaChips System Solutions Inc
Priority date: 2003-03-04
Filing date: 2003-03-04
Publication date: 2004-09-24

Abstract

【課題】画像音声を送受信する通信システムにおいて、話者のプライバシーを保護すること、表現力のある画像音声情報を交換することを課題とする。
【解決手段】端末局１は、画像信号ＶＤおよび音声信号ＳＤを基地局３に送信する。基地局３の備えるエフェクト処理部３２は、画像信号ＶＤおよび音声信号ＳＤにエフェクト処理を施す。エフェクト処理後の画像信号ＶＤおよび音声信号ＳＤは端末局２に中継送信される。エフェクト処理部３２の処理内容を規定するアルゴリズム指定情報５０ａおよびパラメータ５１は、端末局１より基地局３に送信される。また、端末局２は、エフェクト処理を無効化させるコマンド５５を基地局３に対して送信することが可能である。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、ネットワークを介して送受信される画像・音声にエフェクト処理を施す技術に関する。
【０００２】
【従来の技術】
画像（映像）や音声（音楽）に様々な特殊効果を施す、いわゆるエフェクト技術が存在する。画像に対するエフェクト技術として、例えば、画像の切替やその動きを制御するもの（ロール、ワイプ）、画像の色やコントラストを補正し、セピア調やモノクロ調などの効果を得るもの、画像に別の画像を合成するもの（クロマキー合成、ＣＧ合成など）、画像の鮮明度を減少させるもの（モザイク、ソフト、デフォーカスなど）などが知られている。
【０００３】
また、音声に対するエフェクト技術として、例えば、音声の音質を変化させるもの（フィルタ、イコライザー）、音声に遅延を加えるもの（エコー、リバーブ）、音声に広がり感を与えるもの（サラウンド、コーラス）、音声にうねり感を与えるもの（ビブラート、トレモロ）、音声の周波数を変換させるもの（ピッチシフター）などが知られている。
【０００４】
このようなエフェクト処理は、高速ＣＰＵやＤＳＰ上の演算によって行われる。音声の世界では、特に、その演算方法を「アルゴリズム」と呼び、アルゴリズムに与える様々な設定数値を「パラメータ」と呼ぶ。また画像においてもこれらの呼び方が用いられる場合もある。この明細書では、画像・音声いずれに対してもエフェクト処理の演算方法を「アルゴリズム」と呼ぶことにする。
【０００５】
＜画像エフェクト処理＞
画像エフェクト処理は、画像編集時に行われる場合が大半である。画像編集とは、撮影された複数の画像を、ストーリーやシナリオに応じて、切り貼りしたり、並び替えたりする作業である。また、別の素材としての画像を追加したり、文字（タイトル・テロップ）を付加したり、音楽や効果音を追加する作業である。そして、この画像編集時に、画像シーンの切り替えをスムーズにすることや、特別な表現効果を高める為に、画像エフェクト処理が用いられるのである。
【０００６】
画像エフェクト処理には、画像編集ソフトやエフェクト（アルゴリズム）ソフトウェア（プラグインの場合もある）がインストールされたパソコン、あるいは、これらが一体化された専用ハードウェア・システムが用いられる。
【０００７】
また、画像エフェクト処理が、撮影機器側で実行される場合もある、例えば、家庭用ビデオカメラには、均一な背景色から被写体を抜き出して他の背景と合成する、いわゆる簡易クロマキー機能を備えるもの、あるいはタイトル文字が入力できる機能を備えるものなどがある。
【０００８】
一般に撮影機器側での画像エフェクト処理は、家庭用途を除いては、あまり行われることは無い。これは、撮影時に画像素材に変化を加えるため、その後の編集時において映像の汎用性が低くなるからである。
【０００９】
これに対して、再生機器側でのエフェクト処理も存在する。例えばＴＶモニタの色調整や、カラープリンタにおける画像色補正（セピア調など）である。ただし、これらの処理は、あくまでも補正処理であり、表現力に優れた画像を生成するようなエフェクト処理ではない。
【００１０】
＜音声エフェクト処理＞
音声エフェクト処理は、主に楽器用として用いられるエフェクタと呼ばれる機器で実行される場合、あるいはＰＣにインストールされたエフェクト（アルゴリズム）ソフトウェアにより実行される場合がある。
【００１１】
これらは入力音声信号をデジタル処理し、エフェクト音声出力を得るというものである。たとえば、マイクやギター等の楽器をエフェクタや、ＰＣに接続し、リアルタイムでエコーやディストーション（歪み効果）をかけたりする。また、ノンリアルタイムの編集処理では、予め録音した音声を、エフェクタや、ＰＣに入力して、エフェクト処理を実行する。
【００１２】
加えて、再生側でエフェクト処理を行なう代表例としては、ギターアンプなどのリバーブ処理やホームシアターにおけるサラウンド処理がある。
【００１３】
【特許文献１】
特開２００２−１９１０３５号公報
【特許文献２】
特開２００２−３０５７５０号公報
【００１４】
【発明が解決しようとする課題】
以上、説明したように、画像、音声のエフェクト処理は、
▲１▼録画・録音時にリアルタイムで実行するエフェクト処理
▲２▼編集時にノンリアルタイムで実行するエフェクト処理
▲３▼再生時にリアルタイムで実行するエフェクト処理
の３つの方式に大別される。
【００１５】
ここで、画像・音声コンテンツの流通ルートとしては、物理的メディアまたはオンデマンドメディアが殆どである。物理的メディアとは、具体的には、ＤＶＤ、ビデオ、ＣＤ、ＣＤ−ＲＯＭなどである。オンデマンドメディアとは、これら物理的メディアを蓄積したＶＯＤサーバによって、オンデマンド・ストリーミングとして配信される画像・音声などのコンテンツである。これらは、いわゆる放送型のコンテンツである。
【００１６】
一方、近年におけるブロードバンド環境の普及は、リアルタイムの画像・音声通信を可能とした。ＴＶ電話（ＴＶ会議／ＴＶコミュニケーション／遠隔教育）システムなどがその代表例であり、これらのシステムでは、コンテンツが双方向で配信される。
【００１７】
このように、オンデマンドメディアとして画像・音声が配信される場合や、ＴＶ会議システムにおいて画像・音声がリアルタイムで送受信される場面が多くなっている。
【００１８】
インターネットで送信される情報が文字のみであった時代は、ネットコミュニティの匿名性が一種の条件あるいは文化となっていたが、画像や音声を直接やりとりする今日では、匿名性やプライバシーを確保する為に、あえて話者の真の画像や音声を用いない方が良いケースがある。
【００１９】
また、文字通信における表現力の増強としては、フォントや文字色を変化させる方法、フェイスマークや絵文字と呼ばれる感情表現を行なう特殊な文字を用いる方法がある。しかし、画像や音声が加わるいわゆるリッチメディア通信においては、表現力の増強を行なう為には、様々なエフェクト処理の必要性が高くなる。
【００２０】
しかし、双方向画像音声通信において、様々なエフェクト処理を行なう技術は未だ確立されていない。もちろん、送信（受信）端末に、画像補正処理機能や、音声処理エフェクタを装備すればよいが、すべての通信端末にこれらの機能を装備させることは容易ではない。上記特許文献１で開示されている発明は、端末側において動画データのスムーズな再生とエフェクト処理を実行するものであるが、端末側の演算負荷については考慮されていない。また、上記特許文献２で開示されている発明は、画像撮影側でエフェクト処理を実行するものであるが、リアルタイム通信を考慮したものではない。
【００２１】
つまり、その目的および効果として、１）プライバシーを確保すること（匿名性を利用した犯罪や誹謗中傷行為を防止する要素があること）、２）表現力を増強させること、３）端末の負荷を減少させること、などを総合的に考慮した技術は存在しない。
【００２２】
そこで、本発明は前記問題点に鑑み、ネットワークを用いた双方向の画像音声通信において、画像や音声のエフェクト効果を有効に利用する技術を提供することを目的とする。
【００２３】
【課題を解決するための手段】
上記課題を解決するため、請求項１記載の発明は、画像および音声を送信する第１の端末局と、前記第１の端末局とネットワークを介して接続され、前記第１の端末局から送信された画像および音声を、中継送信する基地局と、前記基地局によって中継送信された画像および音声をネットワークを介して受信する第２の端末局と、を備え、前記基地局は、前記第１の端末局から送信された画像を中継送信する際、当該画像に特殊効果を与える画像処理を施す処理手段、を備えることを特徴とする。
【００２４】
請求項２記載の発明は、画像および音声を送信する第１の端末局と、前記第１の端末局とネットワークを介して接続され、前記第１の端末局から送信された画像および音声を、中継送信する基地局と、前記基地局によって中継送信された画像および音声をネットワークを介して受信する第２の端末局と、を備え、前記基地局は、前記第１の端末局から送信された音声を中継送信する際、当該音声に特殊効果を与える音声処理を施す処理手段、を備えることを特徴とする。
【００２５】
請求項３記載の発明は、請求項１または請求項２に記載の画像音声通信システムにおいて、前記第１の端末局は、前記処理手段の処理内容を規定する制御情報を前記基地局に送信する手段、を備え、前記基地局は、前記第１の端末局より受信した前記制御情報に基づいて前記処理手段の処理内容を設定することを特徴とする。
【００２６】
請求項４記載の発明は、請求項３に記載の画像音声通信システムにおいて、前記第１の端末局は、前記制御情報を、画像および音声による通信開始前に前記基地局に送信することを特徴とする。
【００２７】
請求項５記載の発明は、請求項３または請求項４に記載の画像音声通信システムにおいて、前記第１の端末局は、前記制御情報を、画像および音声による通信中に前記基地局に送信し、前記基地局は、受信した前記制御情報に基づいて、前記処理手段の処理内容をリアルタイムで変更することを特徴とする。
【００２８】
請求項６記載の発明は、請求項３ないし請求項５のいずれかに記載の画像音声通信システムにおいて、前記基地局は、さらに、前記第１の端末局から受信した画像および／または音声を解析し、解析結果に基づいて、前記処理手段の処理内容を規定する制御情報を生成する手段、を備え、前記基地局は、生成した制御情報に基づいて前記処理手段の処理内容を設定することを特徴とする。
【００２９】
請求項７記載の発明は、請求項１に記載の画像音声通信システムにおいて、前記第２の端末局は、前記処理手段による前記画像処理を無効化させるコマンドを送信する手段、を備え、前記基地局は、前記コマンドを受信した場合、前記第１の端末局より受信した画像に対して前記画像処理を施すことなく、そのままの画像を前記第２の端末局に送信することを特徴とする。
【００３０】
請求項８記載の発明は、請求項２に記載の画像音声通信システムにおいて、前記第２の端末局は、前記処理手段による前記音声処理を無効化させるコマンドを送信する手段、を備え、前記基地局は、前記コマンドを受信した場合、前記第１の端末局より受信した音声に対して前記音声処理を施すことなく、そのままの音声を前記第２の端末局に送信することを特徴とする。
【００３１】
請求項９記載の発明は、請求項１ないし請求項８のいずれかに記載の画像音声通信システムにおいて、前記基地局は、前記処理手段によって処理した後のデータを、前記第１の端末局に返信することを特徴とする。
【００３２】
請求項１０記載の発明は、請求項１ないし請求項９のいずれかに記載の画像音声通信システムにおいて、前記第１の端末局は、さらに、送信する画像および／または音声に特殊効果を与える処理手段、を備えることを特徴とする。
【００３３】
請求項１１記載の発明は、請求項１ないし請求項９のいずれかに記載の画像音声通信システムにおいて、前記第２の端末局は、さらに、受信した画像および／または音声に特殊効果を与える処理手段、を備えることを特徴とする。
【００３４】
請求項１２記載の発明は、請求項１０に記載の画像音声通信システムにおいて、前記第１の端末局は、前記基地局より前記処理手段を実現するソフトウェアをダウンロードすることを特徴とする。
【００３５】
請求項１３記載の発明は、請求項１１に記載の画像音声通信システムにおいて、前記第２の端末局は、前記基地局より前記処理手段を実現するソフトウェアをダウンロードすることを特徴とする。
【００３６】
請求項１４記載の発明は、請求項１に記載の画像音声通信システムにおいて、前記画像処理は、前記第１の端末局から送信される画像中の被写体画像をデフォーカスさせる処理であることを特徴とする。
【００３７】
請求項１５記載の発明は、請求項１に記載の画像音声通信システムにおいて、前記画像処理は、前記第１の端末局から送信される画像中の背景画像をデフォーカスさせる処理であることを特徴とする。
【００３８】
請求項１６記載の発明は、請求項２に記載の画像音声通信システムにおいて、前記音声処理は、前記第１の端末局から送信される音声中に含まれる雑音を除去する処理であることを特徴とする。
【００３９】
請求項１７記載の発明は、請求項２に記載の画像音声通信システムにおいて、前記音声処理は、前記第１の端末局から送信される音声に対する定位制御処理であることを特徴とする。
【００４０】
【発明の実施の形態】
以下、図面を参照しつつ本発明にかかる画像音声通信システムの実施の形態について説明する。
【００４１】
｛１．システム構成｝
図１は、画像音声通信システムの全体構成図である。ネットワーク７および基地局３を介して２つの端末局１，２が接続されている。本実施の形態においては、２つの端末局１，２間で画像音声を送受信する場合を例として説明するが、３つ以上の端末局間で同時に通信を行なう「多地点通信」の形態でもよい。「多地点通信」の形態の場合、基地局３は、各端末局に対応した画像音声中継処理を実行する。このような処理を実現するためには、複数の処理機能部を備え、並列に実行させるようにしても良いし、１つの処理機能部を時分割で実行させるようにしてもよい。
【００４２】
端末局１，２は、それぞれ、画像を入力するカメラ１１，２１と、音声を入力するマイク１２，２２と、画像を出力するモニタ１３，２３と、音声を出力するスピーカ１４，２４と、端末に動作指示を与えるための操作部１５，２５とを備える。
【００４３】
端末局１，２が備える画像音声処理部１７，２７は、少なくとも画像・音声の圧縮伸張処理を行なう圧縮伸張処理部１７１，２７１を備える。
また、後で説明するが、画像音声処理部１７，２７は、エフェクト処理部１７２，２７２を備えていてもよい。図１を含む各図面において、エフェクト処理部１７２，２７２のブロックを破線で示している。これは、端末局１，２は、必ずしもエフェクト処理部１７２，２７２を備える必要はないことを示している。
【００４４】
端末局１，２は、エフェクト指示部１６，２６を備える。エフェクト指示部１６，２６は、基地局３あるいは端末局１，２で実行されるエフェクト処理の設定を行なう機能部である。
【００４５】
基地局３は、各端末局１，２から受信した画像信号ＶＤと音声信号ＳＤとを、他方の端末局１，２に中継送信する画像音声中継部３１を備える。また、画像音声中継部３１は、エフェクト処理部３２を備えている。エフェクト処理部３２は、端末局１，２から受信した画像信号ＶＤに画像エフェクト処理を施しエフェクト処理後の画像信号ＥＶＤを出力する。また、エフェクト処理部３２は、端末局１，２から受信した音声信号ＳＤに音声エフェクト処理を施しエフェクト処理後の音声信号ＥＳＤを出力する。
【００４６】
また、基地局３は、アルゴリズムデータ５０を蓄積する記憶手段を備える。アルゴリズムデータ５０は、エフェクト処理部３２において実行するエフェクト処理の基本動作を制御するソフトウェアである。エフェクト処理部３２は、アルゴリズムデータ５０が様々に変更され、設定されることにより、画像信号ＶＤおよび音声信号ＳＤに様々なエフェクト処理を実行することを可能としている。
【００４７】
アルゴリズムデータ５０およびパラメータ５１の設定方法については、後で詳しく説明するが、アルゴリズム指定情報５０ａが所定の方法によって与えられることにより、対応するアルゴリズムデータ５０が選択されて、エフェクト処理を特徴付けるアルゴリズムが設定される。また、パラメータ５１が所定の方法によって与えられることにより、設定されたアルゴリズムの細部の設定が行われる。
【００４８】
アルゴリズムデータ５０は、具体的には、画像処理用であれば、モノクロ処理用アルゴリズムデータ、セピア処理用アルゴリズムデータなどであり、音声処理用であれば、エコー処理用アルゴリズムデータ、サラウンド処理用アルゴリズムデータなどである。また、パラメータ５１は、たとえば、モノクロ処理における濃度の設定値、エコー処理における遅延量の設定値などである。
【００４９】
図２は、エフェクト処理部３２の機能ブロック図である。エフェクト処理部３２は、演算部３２１、ＲＡＭ３２２、Ａ／Ｄ変換部３２３、フォーマット変換部３２４、Ｄ／Ａ変換部３２５、フォーマット変換部３２６とを備えている。
【００５０】
演算部３２１は、本実施の形態においてはＤＳＰ（Ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）としている。ただし、演算部３２１として高速ＣＰＵを利用することも可能である。
【００５１】
エフェクト処理部３２は、各端末局１，２から送信された画像信号ＶＤと音声信号ＳＤを入力する。画像信号ＶＤは、フォーマット変換部３２４において画像処理に適した所定のフォーマット変換が施される。フォーマット変換された画像信号ＶＤは、演算部３２１に入力される。音声信号ＳＤは、Ａ／Ｄ変換部３２３においてＡ／Ｄ変換された後、演算部３２１に入力される。なお、端末局１，２間の音声の送受信が全てデジタル信号で行われる場合には、Ａ／Ｄ変換部３２３、Ｄ／Ａ変換部３２５を省略することが可能である。
【００５２】
エフェクト処理部３２は、所定の方法により与えられたアルゴリズム指定情報５０ａに対応するアルゴリズムデータ５０を読み込むことにより、画像信号ＶＤあるいは音声信号ＳＤにエフェクト処理を実行する。図中、演算部３２１には、デジタルフィルタ、デジタルディレイ、オシレータなどのブロックを仮想的に示しているが、実際には、これらの処理は、アルゴリズムデータ５０が演算部３２１上で実行されることによって実現されるものである。
【００５３】
また、アルゴリズムデータ５０によって、エフェクト処理の基本動作が規定されるが、さらに、エフェクト処理の細かい動作内容を規定するためにパラメータ５１が設定される。したがって、エフェクト処理は、アルゴリズムデータ５０とパラメータ５１によって処理内容が具体的に決定されることになる。このように、演算部３２１は、アルゴリズムデータ５０とパラメータ５１とを読み込んで、ＲＡＭ３２２を演算領域として使用しながら、画像信号ＶＤおよび音声信号ＳＤにエフェクト処理を施し、エフェクト処理後の画像信号ＥＶＤおよび音声信号ＥＳＤを出力するのである。
【００５４】
｛２．基本的な処理の流れ｝
以上の如く構成された画像音声通信システムにおける処理の流れについて説明する。なお、以下の説明においては、端末局１が画像および音声の送信側の端末であり、端末局２が受信側の端末である場合を例にとって説明する。
【００５５】
まず、端末局１において、カメラ１１およびマイク１２により、周辺画像および周辺音声が入力される。圧縮伸張処理部１７１において、画像信号および音声信号は圧縮処理され、圧縮処理された画像信号ＶＤおよび音声信号ＳＤは、基地局３に送信される。
【００５６】
基地局３では、画像音声中継部３１が、受信した画像信号ＶＤおよび音声信号ＳＤを端末局２に中継送信する。この際、エフェクト処理部３２において、エフェクト処理が行われ、エフェクト処理後の画像信号ＥＶＤおよび音声信号ＥＳＤが端末局２に送信される。
【００５７】
端末局２では、画像信号ＥＶＤおよび音声信号ＥＳＤを受信すると、圧縮伸張処理部２７１において、画像信号ＥＶＤおよび音声信号ＥＳＤの伸張処理が行われる。そして、伸張処理後の画像信号ＥＶＤはモニタ２３に表示され、伸張処理後の音声信号ＥＳＤはスピーカ２４より出力されるのである。
【００５８】
このように、本実施の形態によれば、端末局１，２から送信された画像信号ＶＤおよび音声信号ＳＤは、基地局３においてリアルタイムのエフェクト処理が施され、相手の端末局１，２に送信される。したがって、自身の画像（顔、姿、背景など）や音声に特殊効果を与えながら、テレビ会議などを実行することが可能である。また、基地局３において、エフェクト処理を実行するので、各端末局１，２における処理負荷を軽減させることが可能である。これにより、たとえば、各家庭のパーソナルコンピュータを利用したテレビ会議などにおいても、各利用者の端末局に高い処理能力を求めることなく、エフェクト処理を実現することが可能である。
【００５９】
以上説明した実施の形態においては、エフェクト処理は、基地局３において行われるものとした。しかし、端末局１，２のＣＰＵやＤＳＰ資源に余力があれば、端末局１，２にエフェクト処理部１７２，２７２を持たせ、エフェクト処理を実行させるようにしても良い。端末局１，２でエフェクト処理を実行する場合、基地局３上の、エフェクト処理を停止させるようにしてもよい。
【００６０】
また、基地局３は、記憶手段にアルゴリズムデータ５０を蓄積しているが、このアルゴリズムデータ５０を端末局１，２に配信可能としてもよい。これにより、端末局１，２は、基地局３に蓄積された様々なアルゴリズムデータ５０を利用し、自端末でエフェクト処理を実行させることが可能である。
【００６１】
｛３．エフェクト処理内容の指定類型｝
上述の如く、基地局３は、アルゴリズムデータ５０およびパラメータ５１に基づいて、エフェクト処理を実行する。そして、このエフェクト処理内容を決定するアルゴリズムデータ５０およびパラメータ５１の指定類型として、以下の３つの形態（固定型エフェクト、ダイナミック型エフェクト、適応型エフェクト）が用意されている。なお、以下の説明においても、端末局１が送信側、端末局２が受信側である場合を例として説明する。
【００６２】
＜１．固定型エフェクト＞
図３および図６で示す形態では、エフェクト処理を決定するアルゴリズムデータ５０およびパラメータ５１は固定的である。ここで言う固定的とは、リアルタイムにエフェクト処理内容が変化する形態ではないことを意味している。したがって、所定のタイミングで、アルゴリズムデータ５０およびパラメータ５１が更新されるような方法も含まれる。
【００６３】
この方法では、画像信号ＶＤおよび音声信号ＳＤを送信する端末局１が、アルゴリズム指定情報５０ａおよびパラメータ５１を基地局３に送信する。たとえば、アルゴリズム指定情報５０ａおよびパラメータ５１は、画像、音声による通信開始の前に基地局３に送信される。基地局３では、受信した情報に基づいてエフェクト処理の動作が設定される。また、アルゴリズム指定情報５０ａおよびパラメータ５１は、任意のタイミングで、端末局１より基地局３に送信される。この場合には、所定の間隔（たとえば、５秒間隔などであり、リアルタイムではない。）で基地局３のエフェクト処理内容が更新されるような処理となっていればよい。
【００６４】
この方法におけるエフェクト処理としては、固定的に、あるいは、ある程度継続した時間同様の処理を実行することが一般的なエフェクト処理が適している。例としては、画像に対しては、セピア処理などの色補正処理、クロマキー処理などの背景合成処理など、音声に対しては、簡易ノイズリダクション処理、ピッチ変換などによる周波数変調処理、ボイスチェンジャー処理、残響付加処理、（エコーやリバーブなどによる遅延効果を出すもの）、および定位制御処理などである。
【００６５】
さらに、エフェクト処理が施された画像信号ＥＶＤおよび音声信号ＥＳＤを受信する端末局２は、エフェクト処理の解除コマンド５５を基地局３へ送信することが可能である。基地局３のエフェクト処理部３２は、受信側の端末局２から解除コマンド５５を受信すると、エフェクト処理を無効化させる。これにより、端末局２には、端末局１が送信したそのままの信号、つまり、画像信号ＶＤと音声信号ＳＤが送信される。
【００６６】
これにより、受信側の意思によって、エフェクト処理を無効化させることが可能である。例えば匿名化された通信を利用した誹謗中傷行為や、ストーカー行為などの犯罪に繋がる可能性がある行為などを有効に防止することが可能となる。
【００６７】
この方法では、基地局３でエフェクト処理を実行するのが一般的である。基地局３においてエフェクト処理を実行する場合、端末局１，２は、エフェクト処理部１７２，２７２を持つ必要が無い（あるいは、動作させる必要がない。）。したがって、処理能力の小さいコンピュータをはじめ、あらゆる端末を利用して、通信エフェクトを利用することが可能となる。ただし、端末局側にエフェクト処理を行なう為の資源に余裕があれば、端末局側でエフェクト処理を行なっても良い。
【００６８】
＜２．ダイナミック型エフェクト＞
図４および図７で示す形態では、エフェクト処理を決定するアルゴリズムデータ５０およびパラメータ５１はダイナミックに変化する。ここで言うダイナミックな変化とは、エフェクト処理内容がリアルタイムに次々と変化するような形態を意味している。
【００６９】
この方法では、画像信号ＶＤおよび音声信号ＳＤを送信する端末局１が、アルゴリズム指定情報５０ａおよびパラメータ５１を基地局３に送信する。アルゴリズム指定情報５０ａおよびパラメータ５１は、画像、音声による通信実行処理中に、基地局３に送信される。基地局３では、受信した情報に基づいてエフェクト処理の動作をリアルタイムで変更するのである。
【００７０】
この方法におけるエフェクト処理としては、動的な変化が必要とされる処理内容が適している。例としては、画像に対しては、アバター処理、簡易アバター（アニメ制御）処理などの画像変換系処理、ワイプやロールなどの処理、合成位置を動的に変化させるオブジェクト合成処理などがある。音声については、ＭＩＤＩなどを用いたＢＧＭ演奏に対するエフェクト処理、連続的に定位が移動する音源に対する定位制御処理、サラウンド処理、などがある。
【００７１】
エフェクト処理が施された画像信号ＥＶＤおよび音声信号ＥＳＤを受信する端末局２では、エフェクト処理の解除コマンド５５を基地局３へ送信することが可能である。これにより、受信側の意思によって、エフェクト処理を無効化させることが可能である。
【００７２】
この方法では、基地局３でエフェクト処理を実行するのが一般的である。基地局３においてエフェクト処理を実行する場合、端末局１，２は、エフェクト処理部１７２，２７２を持つ必要が無い。したがって、様々な端末を利用して、通信エフェクトを利用することが可能となる。
【００７３】
ただし、端末局側にエフェクト処理を行なう為の資源に余裕があれば、端末局側でエフェクト処理を行なっても良い。図７にも示したように、アルゴリズム指定情報５０ａおよびパラメータ５１を基地局３経由で端末局２に転送し、端末局２において、エフェクト処理を実行するようにしてもよい。
【００７４】
＜３．適応型エフェクト＞
図５および図８で示す形態では、エフェクト処理を決定するアルゴリズムデータ５０およびパラメータ５１は演算によって求められる。エフェクト処理部３２は、所定のプログラムが与えられることにより、入力画像信号ＶＤあるいは入力音声信号ＳＤの解析処理を実行する。この解析処理の内容は、特に、限定されるものではなく、所定のアルゴリズムに基づいて、入力画像あるいは入力音声を解析し、アルゴリズム指定情報５０ａおよびパラメータ５１を出力する処理であればよい。
【００７５】
この方法では、基地局１が画像信号ＶＤおよび音声信号ＳＤを受信すると、エフェクト処理部３２において解析処理が行われ、アルゴリズム指定情報５０ａおよびパラメータ５１が生成される。エフェクト処理部３２は、この生成したアルゴリズム指定情報５０ａおよびパラメータ５１に基づいてエフェクト処理を実行するのである。
【００７６】
そして、この処理方法において、画像解析の結果で画像エフェクト処理のみならず音声エフェクト処理を決定することが可能であり、音声解析の結果で音声エフェクト処理のみならず画像エフェクト処理を決定することが可能である。
【００７７】
このように、アルゴリズム指定情報５０ａおよびパラメータ５１は、エフェクト処理部３２自身が演算により生成するが、たとえば、アルゴリズム指定情報５０ａは、端末局１から基地局３に送信し、パラメータ５１は、演算（解析処理）により求めるような形態でもよい。あるいは、ある程度処理内容を特定する情報をあらかじめ送信側の端末局１より基地局３に送信した上で、画像および音声解析によって、エフェクト処理内容を具体的に特定するような処理方法でもよい。
【００７８】
この方法におけるエフェクト処理としては、画像に対しては、画像認識アバター処理、画像認識による背景変換処理・合成処理など、音声に対しては、適応型フィルタを用いたノイズサプレッサー処理、入力ピッチに応じて中心周波数が変るフォルマント・フィルタ処理などがある。
【００７９】
エフェクト処理が施された画像信号ＥＶＤおよび音声信号ＥＳＤを受信する端末局２は、エフェクト処理の解除コマンド５５を基地局３へ送信することが可能である。これにより、受信側の意思によって、エフェクト処理を無効化させることが可能である。
【００８０】
この方法では、基地局３でエフェクト処理を実行するのが一般的である。基地局３においてエフェクト処理を実行する場合、端末局１，２は、エフェクト処理部１７２，２７２を持つ必要が無い。したがって、様々な端末を利用して、通信エフェクトを利用することが可能となる。ただし、端末局側にエフェクト処理を行なう為の資源に余裕があれば、端末局側でエフェクト処理を行なっても良い。受信側の端末局２においてエフェクト処理を実行している場合には、エフェクトの無効化処理は、端末局２上で制御可能である。
【００８１】
｛４．アルゴリズムデータの取得｝
前述したように、基地局３の記憶手段に蓄積されたアルゴリズムデータ５０は、基地局３内のエフェクト処理において用いられるのみならず、端末局１，２にダウンロードされ、端末局１，２におけるエフェクト処理において用いられることが可能である。
【００８２】
端末局１，２の処理能力に余裕がある場合は、基地局３からアルゴリズムデータ５０をダウンロードするようにする。これにより、端末局１，２においてエフェクト処理を実行する分散処理システムを構成することとなり、基地局３における処理負荷を低減させることが可能である。
【００８３】
また、ノンリアルタイムでの編集処理をする場合、たとえば、通信におけるポン出し用のコンテンツを準備する場合などには、ダウンロードしたアルゴリズムにより、エフェクト処理を施したコンテンツを端末局上に用意することが可能である。
【００８４】
一般に、エフェクトの種類はアルゴリズムによって決定するので、端末局上にいくつものアルゴリズムデータを準備しておくのは資源上効率的ではない。そこで、必用な時に必要なものだけをダウンロードして利用することが効果的である。
【００８５】
さらに、この考え方（各端末局側にアルゴリズムを持たせるのは効率的ではないという考え方）を発展させると、次にような処理形態が有効である。コンテンツのノンリアルタイム編集等において、サーバに画像や音声の素材データを送信し、あわせて、エフェクトの種類やパラメータを指定する情報を送信する。これによって、サーバ上で素材データに対するエフェクト処理が実行され、エフェクト処理後のデータが再度端末局側に送信されるのである。
【００８６】
また、端末局１，２が基地局３からアルゴリズムデータ５０をダウンロードする形態の他に、端末局１，２がインターネット等のネットワーク上に設置された各種サーバからアルゴリズムデータをダウンロードする形態であってもよい。さらには、ネットワーク上からダウンロードしたアルゴリズムデータ５０を基地局３や他の端末局に送信することにより、取得したエフェクト処理機能を他の端末に転送することが可能である。
【００８７】
｛５．応用例｝
以上説明した本実施の形態の画像音声通信システムを利用したシステム応用例について図９、図１０を参照しながら説明する。
【００８８】
まず、図９で示す第１の例について説明する。この第１の例では、画像の鮮明度をエフェクト制御し、プライバシーを保護することと、音声をクリアに再現することを目的としている。
【００８９】
端末局１の利用者である話者７０は、ビルの背景７１とともにカメラ１１によって撮像される。撮像された画像は、基地局３でエフェクト処理が施され、端末局２のモニタ２３に表示される。
【００９０】
図中、３つの表示画像（Ａ）、（Ｂ）、（Ｃ）を示している。表示画像（Ａ）は、話者７０の画像のフォーカス（ピント）を甘くするエフェクト処理（デフォーカス処理、ソフトフォーカス処理）が施された画像である。これにより話者７０の顔や背景７１の細かいところを見えにくくして、プライパシーを保護することを可能としている。
【００９１】
表示画像（Ｂ）、（Ｃ）は、話者７０の画像はそのままにしておき、背景７１のみのピントの深さ（被写界深度）をコントロールするエフェクト処理を施した画像である。表示画像（Ｂ）は、被写界深度を小さくすることにより、背景７１をぼかすエフェクト処理が施されている。これに対して、表示画像（Ｃ）は、被写界深度を大きくすることにより、背景７１を鮮明に再現するようにしている。
【００９２】
このようなエフェクト処理を実行することにより、背景７１の細部を見えにくくして、プライバシーを保護することを可能としている。たとえば、話者７０の背景が話者７０の自宅の室内である場合などにも有効である。他にも、背景７１をクロマキー合成処理などのエフェクト処理によって、仮想背景に差し替えるようにしてもよい。
【００９３】
また、話者７０の発した音声は、マイク１２に入力されるが、この音声信号には、暗騒音（背景騒音、機械的ノイズ、ハムおよび電源ノイズ、電子的ノイズ、変換ノイズ、通信ノイズ、など）が含まれる。そこで、エフェクト処理によって、これら雑音を取り除くのである。
【００９４】
ノイズを取り除くサプレッサー処理は、一旦音声ダイナミックレンジを圧縮後、演算処理を行い、再度伸張する。ハムを取り除くキャンセラーは、バンド除去型コムフィルターの周波数を電源周波数に合致させる。
【００９５】
音声エフェクト処理を行なうＤＳＰまたは高速ＣＰＵは、送信端末側、基地局、受信端末側のいずれに配置してもよい。除去対象となるノイズの種類によって、適宜選択するようにすればよい。また、ノイズ除去処理をエンコードとデコードの２つの処理ブロックに分割し、それぞれの処理を異なる端末局あるいは基地局で実行させるようにしてもよい。
【００９６】
次に、図１０で示す第２の例について説明する。この第２の例では、音声の定位制御を行い、臨場感のある画像音声通信を実現することを目的としている。
【００９７】
図に示すように、ここでは、端末局１Ｌ，１Ｒ，２による同時多地点通信が行われている場合を例に説明する。端末局１Ｌの周囲には話者７２が、端末局１Ｒの周囲には話者７３がいる。話者７２の発する音声はマイク１２Ｌによって、話者７３の発する音声はマイク１２Ｒによって集音される。
【００９８】
そして、この２つの端末局１Ｌ，１Ｒが送信された音声に対して、エフェクト処理として定位制御が行われる。具体的には、各端末局１Ｌ，１Ｒの仮想的な位置を設定し、この仮想的な位置とスピーカを対応付けるのである。たとえば、端末局１Ｌからの音声は、音声左信号とし、端末局１Ｒからの音声は、音声右信号に設定するのである。これによって、端末局２では、話者７２の音声が左スピーカ２４Ｌから出力され、話者７３の音声が右スピーカ２４Ｒから出力される。このように、音声定位を各々の話者に設定することで、話者が誰であるかを空間的に特定しやすくすることができる。
【００９９】
この他にも、音声エフェクト処理として、音声のパンニング制御を行なうようにしてもよい。話者の空間的位置をステレオ音声により受信端末局２に伝えることが可能である。また、空間的広がり感を制御する３Ｄサウンド、プレゼンス、サラウンド効果が得られるようなエフェクト処理を行なうことにより、臨場感のある音声通信を行なうことができる。
【０１００】
これら音声エフェクト処理は、ＤＳＰまたはＣＰＵを用い、送信側端末局、基地局、受信端末局のいずれでも実行させることが可能である。
【０１０１】
【発明の効果】
以上説明したように、本発明の画像音声通信システムは、以下のような特徴をもつ。複数の端末局による、画像・音声（の少なくともいずれか）を用いた通信において、個々の端末局はネットワークを介して基地局に接続され、基地局は、画像音声を中継送信する機能に加え、画像音声に対してエフェクト処理を実行する機能を持つ。
【０１０２】
基地局において画像音声エフェクト処理が実行されるので、端末局側にエフェクト処理機能がない場合であっても、端末局側に負荷をかけることなく、プライバシー保護のためのエフェクト処理を実行することや、表現力を高めるエフェクト処理を実行することが可能である。
【０１０３】
また、ダイナミックにエフェクト処理を変更することが可能であるので、送信端末者が望むきめの細かいエフェクト表現が可能となる。
【０１０４】
また、入力画像あるいは音声を解析することによりエフェクト処理の処理内容を決定することが可能である。基地局内で入力画像信号や音声信号を解析しながら、状況にあったエフェクト処理が自動的に実行されるので、より精度の高い、あるいは効果的なエフェクト処理が実行される。さらに、パラメータ転送がほとんどなくなるのでネットワーク回線に余計な負荷をかけることがない。
【図面の簡単な説明】
【図１】画像音声通信システムの全体構成図である。
【図２】エフェクト処理部の機能ブロック図である。
【図３】固定型エフェクトにおける処理ブロック図である。
【図４】ダイナミック型エフェクトにおける処理ブロック図である。
【図５】適応型エフェクトにおける処理ブロック図である。
【図６】固定型エフェクトにおけるシステム概略図である。
【図７】ダイナミック型エフェクトにおけるシステム概略図である。
【図８】適応型エフェクトにおけるシステム概略図である。
【図９】第１の応用例を示す図である。
【図１０】第２の応用例を示す図である。
【符号の説明】
１（送信側）端末局
２（受信側）端末局
３基地局
３２エフェクト処理部
５０アルゴリズムデータ
５１パラメータ

Claims

画像および音声を送信する第１の端末局と、
前記第１の端末局とネットワークを介して接続され、前記第１の端末局から送信された画像および音声を、中継送信する基地局と、
前記基地局によって中継送信された画像および音声をネットワークを介して受信する第２の端末局と、
を備え、
前記基地局は、
前記第１の端末局から送信された画像を中継送信する際、当該画像に特殊効果を与える画像処理を施す処理手段、
を備えることを特徴とする画像音声通信システム。
画像および音声を送信する第１の端末局と、
前記第１の端末局とネットワークを介して接続され、前記第１の端末局から送信された画像および音声を、中継送信する基地局と、
前記基地局によって中継送信された画像および音声をネットワークを介して受信する第２の端末局と、
を備え、
前記基地局は、
前記第１の端末局から送信された音声を中継送信する際、当該音声に特殊効果を与える音声処理を施す処理手段、
を備えることを特徴とする画像音声通信システム。
請求項１または請求項２に記載の画像音声通信システムにおいて、
前記第１の端末局は、
前記処理手段の処理内容を規定する制御情報を前記基地局に送信する手段、
を備え、
前記基地局は、前記第１の端末局より受信した前記制御情報に基づいて前記処理手段の処理内容を設定することを特徴とする画像音声通信システム。
請求項３に記載の画像音声通信システムにおいて、
前記第１の端末局は、前記制御情報を、画像および音声による通信開始前に前記基地局に送信することを特徴とする画像音声通信システム。
請求項３または請求項４に記載の画像音声通信システムにおいて、
前記第１の端末局は、前記制御情報を、画像および音声による通信中に前記基地局に送信し、前記基地局は、受信した前記制御情報に基づいて、前記処理手段の処理内容をリアルタイムで変更することを特徴とする画像音声通信システム。
請求項３ないし請求項５のいずれかに記載の画像音声通信システムにおいて、
前記基地局は、さらに、
前記第１の端末局から受信した画像および／または音声を解析し、解析結果に基づいて、前記処理手段の処理内容を規定する制御情報を生成する手段、
を備え、
前記基地局は、生成した制御情報に基づいて前記処理手段の処理内容を設定することを特徴とする画像音声通信システム。
請求項１に記載の画像音声通信システムにおいて、
前記第２の端末局は、
前記処理手段による前記画像処理を無効化させるコマンドを送信する手段、
を備え、
前記基地局は、前記コマンドを受信した場合、前記第１の端末局より受信した画像に対して前記画像処理を施すことなく、そのままの画像を前記第２の端末局に送信することを特徴とする画像音声通信システム。
請求項２に記載の画像音声通信システムにおいて、
前記第２の端末局は、
前記処理手段による前記音声処理を無効化させるコマンドを送信する手段、
を備え、
前記基地局は、前記コマンドを受信した場合、前記第１の端末局より受信した音声に対して前記音声処理を施すことなく、そのままの音声を前記第２の端末局に送信することを特徴とする画像音声通信システム。
請求項１ないし請求項８のいずれかに記載の画像音声通信システムにおいて、
前記基地局は、前記処理手段によって処理した後のデータを、前記第１の端末局に返信することを特徴とする画像音声通信システム。
請求項１ないし請求項９のいずれかに記載の画像音声通信システムにおいて、
前記第１の端末局は、さらに、
送信する画像および／または音声に特殊効果を与える処理手段、
を備えることを特徴とする画像音声通信システム。
請求項１ないし請求項９のいずれかに記載の画像音声通信システムにおいて、
前記第２の端末局は、さらに、
受信した画像および／または音声に特殊効果を与える処理手段、
を備えることを特徴とする画像音声通信システム。
請求項１０に記載の画像音声通信システムにおいて、
前記第１の端末局は、前記基地局より前記処理手段を実現するソフトウェアをダウンロードすることを特徴とする画像音声通信システム。
請求項１１に記載の画像音声通信システムにおいて、
前記第２の端末局は、前記基地局より前記処理手段を実現するソフトウェアをダウンロードすることを特徴とする画像音声通信システム。
請求項１に記載の画像音声通信システムにおいて、
前記画像処理は、前記第１の端末局から送信される画像中の被写体画像をデフォーカスさせる処理であることを特徴とする画像音声通信システム。
請求項１に記載の画像音声通信システムにおいて、
前記画像処理は、前記第１の端末局から送信される画像中の背景画像をデフォーカスさせる処理であることを特徴とする画像音声通信システム。
請求項２に記載の画像音声通信システムにおいて、
前記音声処理は、前記第１の端末局から送信される音声中に含まれる雑音を除去する処理であることを特徴とする画像音声通信システム。
請求項２に記載の画像音声通信システムにおいて、
前記音声処理は、前記第１の端末局から送信される音声に対する定位制御処理であることを特徴とする画像音声通信システム。