JP2004266746A - 画像音声通信システム - Google Patents

画像音声通信システム Download PDF

Info

Publication number
JP2004266746A
JP2004266746A JP2003057357A JP2003057357A JP2004266746A JP 2004266746 A JP2004266746 A JP 2004266746A JP 2003057357 A JP2003057357 A JP 2003057357A JP 2003057357 A JP2003057357 A JP 2003057357A JP 2004266746 A JP2004266746 A JP 2004266746A
Authority
JP
Japan
Prior art keywords
image
processing
communication system
terminal station
base station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003057357A
Other languages
English (en)
Inventor
Mitsunari Kimura
光成 木村
Toshikazu Kaneko
俊和 金子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MegaChips System Solutions Inc
Original Assignee
MegaChips System Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MegaChips System Solutions Inc filed Critical MegaChips System Solutions Inc
Priority to JP2003057357A priority Critical patent/JP2004266746A/ja
Publication of JP2004266746A publication Critical patent/JP2004266746A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】画像音声を送受信する通信システムにおいて、話者のプライバシーを保護すること、表現力のある画像音声情報を交換することを課題とする。
【解決手段】端末局1は、画像信号VDおよび音声信号SDを基地局3に送信する。基地局3の備えるエフェクト処理部32は、画像信号VDおよび音声信号SDにエフェクト処理を施す。エフェクト処理後の画像信号VDおよび音声信号SDは端末局2に中継送信される。エフェクト処理部32の処理内容を規定するアルゴリズム指定情報50aおよびパラメータ51は、端末局1より基地局3に送信される。また、端末局2は、エフェクト処理を無効化させるコマンド55を基地局3に対して送信することが可能である。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワークを介して送受信される画像・音声にエフェクト処理を施す技術に関する。
【0002】
【従来の技術】
画像(映像)や音声(音楽)に様々な特殊効果を施す、いわゆるエフェクト技術が存在する。画像に対するエフェクト技術として、例えば、画像の切替やその動きを制御するもの(ロール、ワイプ)、画像の色やコントラストを補正し、セピア調やモノクロ調などの効果を得るもの、画像に別の画像を合成するもの(クロマキー合成、CG合成など)、画像の鮮明度を減少させるもの(モザイク、ソフト、デフォーカスなど)などが知られている。
【0003】
また、音声に対するエフェクト技術として、例えば、音声の音質を変化させるもの(フィルタ、イコライザー)、音声に遅延を加えるもの(エコー、リバーブ)、音声に広がり感を与えるもの(サラウンド、コーラス)、音声にうねり感を与えるもの(ビブラート、トレモロ)、音声の周波数を変換させるもの(ピッチシフター)などが知られている。
【0004】
このようなエフェクト処理は、高速CPUやDSP上の演算によって行われる。音声の世界では、特に、その演算方法を「アルゴリズム」と呼び、アルゴリズムに与える様々な設定数値を「パラメータ」と呼ぶ。また画像においてもこれらの呼び方が用いられる場合もある。この明細書では、画像・音声いずれに対してもエフェクト処理の演算方法を「アルゴリズム」と呼ぶことにする。
【0005】
<画像エフェクト処理>
画像エフェクト処理は、画像編集時に行われる場合が大半である。画像編集とは、撮影された複数の画像を、ストーリーやシナリオに応じて、切り貼りしたり、並び替えたりする作業である。また、別の素材としての画像を追加したり、文字(タイトル・テロップ)を付加したり、音楽や効果音を追加する作業である。そして、この画像編集時に、画像シーンの切り替えをスムーズにすることや、特別な表現効果を高める為に、画像エフェクト処理が用いられるのである。
【0006】
画像エフェクト処理には、画像編集ソフトやエフェクト(アルゴリズム)ソフトウェア(プラグインの場合もある)がインストールされたパソコン、あるいは、これらが一体化された専用ハードウェア・システムが用いられる。
【0007】
また、画像エフェクト処理が、撮影機器側で実行される場合もある、例えば、家庭用ビデオカメラには、均一な背景色から被写体を抜き出して他の背景と合成する、いわゆる簡易クロマキー機能を備えるもの、あるいはタイトル文字が入力できる機能を備えるものなどがある。
【0008】
一般に撮影機器側での画像エフェクト処理は、家庭用途を除いては、あまり行われることは無い。これは、撮影時に画像素材に変化を加えるため、その後の編集時において映像の汎用性が低くなるからである。
【0009】
これに対して、再生機器側でのエフェクト処理も存在する。例えばTVモニタの色調整や、カラープリンタにおける画像色補正(セピア調など)である。ただし、これらの処理は、あくまでも補正処理であり、表現力に優れた画像を生成するようなエフェクト処理ではない。
【0010】
<音声エフェクト処理>
音声エフェクト処理は、主に楽器用として用いられるエフェクタと呼ばれる機器で実行される場合、あるいはPCにインストールされたエフェクト(アルゴリズム)ソフトウェアにより実行される場合がある。
【0011】
これらは入力音声信号をデジタル処理し、エフェクト音声出力を得るというものである。たとえば、マイクやギター等の楽器をエフェクタや、PCに接続し、リアルタイムでエコーやディストーション(歪み効果)をかけたりする。また、ノンリアルタイムの編集処理では、予め録音した音声を、エフェクタや、PCに入力して、エフェクト処理を実行する。
【0012】
加えて、再生側でエフェクト処理を行なう代表例としては、ギターアンプなどのリバーブ処理やホームシアターにおけるサラウンド処理がある。
【0013】
【特許文献1】
特開2002−191035号公報
【特許文献2】
特開2002−305750号公報
【0014】
【発明が解決しようとする課題】
以上、説明したように、画像、音声のエフェクト処理は、
▲1▼録画・録音時にリアルタイムで実行するエフェクト処理
▲2▼編集時にノンリアルタイムで実行するエフェクト処理
▲3▼再生時にリアルタイムで実行するエフェクト処理
の3つの方式に大別される。
【0015】
ここで、画像・音声コンテンツの流通ルートとしては、物理的メディアまたはオンデマンドメディアが殆どである。物理的メディアとは、具体的には、DVD、ビデオ、CD、CD−ROMなどである。オンデマンドメディアとは、これら物理的メディアを蓄積したVODサーバによって、オンデマンド・ストリーミングとして配信される画像・音声などのコンテンツである。これらは、いわゆる放送型のコンテンツである。
【0016】
一方、近年におけるブロードバンド環境の普及は、リアルタイムの画像・音声通信を可能とした。TV電話(TV会議/TVコミュニケーション/遠隔教育)システムなどがその代表例であり、これらのシステムでは、コンテンツが双方向で配信される。
【0017】
このように、オンデマンドメディアとして画像・音声が配信される場合や、TV会議システムにおいて画像・音声がリアルタイムで送受信される場面が多くなっている。
【0018】
インターネットで送信される情報が文字のみであった時代は、ネットコミュニティの匿名性が一種の条件あるいは文化となっていたが、画像や音声を直接やりとりする今日では、匿名性やプライバシーを確保する為に、あえて話者の真の画像や音声を用いない方が良いケースがある。
【0019】
また、文字通信における表現力の増強としては、フォントや文字色を変化させる方法、フェイスマークや絵文字と呼ばれる感情表現を行なう特殊な文字を用いる方法がある。しかし、画像や音声が加わるいわゆるリッチメディア通信においては、表現力の増強を行なう為には、様々なエフェクト処理の必要性が高くなる。
【0020】
しかし、双方向画像音声通信において、様々なエフェクト処理を行なう技術は未だ確立されていない。もちろん、送信(受信)端末に、画像補正処理機能や、音声処理エフェクタを装備すればよいが、すべての通信端末にこれらの機能を装備させることは容易ではない。上記特許文献1で開示されている発明は、端末側において動画データのスムーズな再生とエフェクト処理を実行するものであるが、端末側の演算負荷については考慮されていない。また、上記特許文献2で開示されている発明は、画像撮影側でエフェクト処理を実行するものであるが、リアルタイム通信を考慮したものではない。
【0021】
つまり、その目的および効果として、1)プライバシーを確保すること(匿名性を利用した犯罪や誹謗中傷行為を防止する要素があること)、2)表現力を増強させること、3)端末の負荷を減少させること、などを総合的に考慮した技術は存在しない。
【0022】
そこで、本発明は前記問題点に鑑み、ネットワークを用いた双方向の画像音声通信において、画像や音声のエフェクト効果を有効に利用する技術を提供することを目的とする。
【0023】
【課題を解決するための手段】
上記課題を解決するため、請求項1記載の発明は、画像および音声を送信する第1の端末局と、前記第1の端末局とネットワークを介して接続され、前記第1の端末局から送信された画像および音声を、中継送信する基地局と、前記基地局によって中継送信された画像および音声をネットワークを介して受信する第2の端末局と、を備え、前記基地局は、前記第1の端末局から送信された画像を中継送信する際、当該画像に特殊効果を与える画像処理を施す処理手段、を備えることを特徴とする。
【0024】
請求項2記載の発明は、画像および音声を送信する第1の端末局と、前記第1の端末局とネットワークを介して接続され、前記第1の端末局から送信された画像および音声を、中継送信する基地局と、前記基地局によって中継送信された画像および音声をネットワークを介して受信する第2の端末局と、を備え、前記基地局は、前記第1の端末局から送信された音声を中継送信する際、当該音声に特殊効果を与える音声処理を施す処理手段、を備えることを特徴とする。
【0025】
請求項3記載の発明は、請求項1または請求項2に記載の画像音声通信システムにおいて、前記第1の端末局は、前記処理手段の処理内容を規定する制御情報を前記基地局に送信する手段、を備え、前記基地局は、前記第1の端末局より受信した前記制御情報に基づいて前記処理手段の処理内容を設定することを特徴とする。
【0026】
請求項4記載の発明は、請求項3に記載の画像音声通信システムにおいて、前記第1の端末局は、前記制御情報を、画像および音声による通信開始前に前記基地局に送信することを特徴とする。
【0027】
請求項5記載の発明は、請求項3または請求項4に記載の画像音声通信システムにおいて、前記第1の端末局は、前記制御情報を、画像および音声による通信中に前記基地局に送信し、前記基地局は、受信した前記制御情報に基づいて、前記処理手段の処理内容をリアルタイムで変更することを特徴とする。
【0028】
請求項6記載の発明は、請求項3ないし請求項5のいずれかに記載の画像音声通信システムにおいて、前記基地局は、さらに、前記第1の端末局から受信した画像および/または音声を解析し、解析結果に基づいて、前記処理手段の処理内容を規定する制御情報を生成する手段、を備え、前記基地局は、生成した制御情報に基づいて前記処理手段の処理内容を設定することを特徴とする。
【0029】
請求項7記載の発明は、請求項1に記載の画像音声通信システムにおいて、前記第2の端末局は、前記処理手段による前記画像処理を無効化させるコマンドを送信する手段、を備え、前記基地局は、前記コマンドを受信した場合、前記第1の端末局より受信した画像に対して前記画像処理を施すことなく、そのままの画像を前記第2の端末局に送信することを特徴とする。
【0030】
請求項8記載の発明は、請求項2に記載の画像音声通信システムにおいて、前記第2の端末局は、前記処理手段による前記音声処理を無効化させるコマンドを送信する手段、を備え、前記基地局は、前記コマンドを受信した場合、前記第1の端末局より受信した音声に対して前記音声処理を施すことなく、そのままの音声を前記第2の端末局に送信することを特徴とする。
【0031】
請求項9記載の発明は、請求項1ないし請求項8のいずれかに記載の画像音声通信システムにおいて、前記基地局は、前記処理手段によって処理した後のデータを、前記第1の端末局に返信することを特徴とする。
【0032】
請求項10記載の発明は、請求項1ないし請求項9のいずれかに記載の画像音声通信システムにおいて、前記第1の端末局は、さらに、送信する画像および/または音声に特殊効果を与える処理手段、を備えることを特徴とする。
【0033】
請求項11記載の発明は、請求項1ないし請求項9のいずれかに記載の画像音声通信システムにおいて、前記第2の端末局は、さらに、受信した画像および/または音声に特殊効果を与える処理手段、を備えることを特徴とする。
【0034】
請求項12記載の発明は、請求項10に記載の画像音声通信システムにおいて、前記第1の端末局は、前記基地局より前記処理手段を実現するソフトウェアをダウンロードすることを特徴とする。
【0035】
請求項13記載の発明は、請求項11に記載の画像音声通信システムにおいて、前記第2の端末局は、前記基地局より前記処理手段を実現するソフトウェアをダウンロードすることを特徴とする。
【0036】
請求項14記載の発明は、請求項1に記載の画像音声通信システムにおいて、前記画像処理は、前記第1の端末局から送信される画像中の被写体画像をデフォーカスさせる処理であることを特徴とする。
【0037】
請求項15記載の発明は、請求項1に記載の画像音声通信システムにおいて、前記画像処理は、前記第1の端末局から送信される画像中の背景画像をデフォーカスさせる処理であることを特徴とする。
【0038】
請求項16記載の発明は、請求項2に記載の画像音声通信システムにおいて、前記音声処理は、前記第1の端末局から送信される音声中に含まれる雑音を除去する処理であることを特徴とする。
【0039】
請求項17記載の発明は、請求項2に記載の画像音声通信システムにおいて、前記音声処理は、前記第1の端末局から送信される音声に対する定位制御処理であることを特徴とする。
【0040】
【発明の実施の形態】
以下、図面を参照しつつ本発明にかかる画像音声通信システムの実施の形態について説明する。
【0041】
{1.システム構成}
図1は、画像音声通信システムの全体構成図である。ネットワーク7および基地局3を介して2つの端末局1,2が接続されている。本実施の形態においては、2つの端末局1,2間で画像音声を送受信する場合を例として説明するが、3つ以上の端末局間で同時に通信を行なう「多地点通信」の形態でもよい。「多地点通信」の形態の場合、基地局3は、各端末局に対応した画像音声中継処理を実行する。このような処理を実現するためには、複数の処理機能部を備え、並列に実行させるようにしても良いし、1つの処理機能部を時分割で実行させるようにしてもよい。
【0042】
端末局1,2は、それぞれ、画像を入力するカメラ11,21と、音声を入力するマイク12,22と、画像を出力するモニタ13,23と、音声を出力するスピーカ14,24と、端末に動作指示を与えるための操作部15,25とを備える。
【0043】
端末局1,2が備える画像音声処理部17,27は、少なくとも画像・音声の圧縮伸張処理を行なう圧縮伸張処理部171,271を備える。
また、後で説明するが、画像音声処理部17,27は、エフェクト処理部172,272を備えていてもよい。図1を含む各図面において、エフェクト処理部172,272のブロックを破線で示している。これは、端末局1,2は、必ずしもエフェクト処理部172,272を備える必要はないことを示している。
【0044】
端末局1,2は、エフェクト指示部16,26を備える。エフェクト指示部16,26は、基地局3あるいは端末局1,2で実行されるエフェクト処理の設定を行なう機能部である。
【0045】
基地局3は、各端末局1,2から受信した画像信号VDと音声信号SDとを、他方の端末局1,2に中継送信する画像音声中継部31を備える。また、画像音声中継部31は、エフェクト処理部32を備えている。エフェクト処理部32は、端末局1,2から受信した画像信号VDに画像エフェクト処理を施しエフェクト処理後の画像信号EVDを出力する。また、エフェクト処理部32は、端末局1,2から受信した音声信号SDに音声エフェクト処理を施しエフェクト処理後の音声信号ESDを出力する。
【0046】
また、基地局3は、アルゴリズムデータ50を蓄積する記憶手段を備える。アルゴリズムデータ50は、エフェクト処理部32において実行するエフェクト処理の基本動作を制御するソフトウェアである。エフェクト処理部32は、アルゴリズムデータ50が様々に変更され、設定されることにより、画像信号VDおよび音声信号SDに様々なエフェクト処理を実行することを可能としている。
【0047】
アルゴリズムデータ50およびパラメータ51の設定方法については、後で詳しく説明するが、アルゴリズム指定情報50aが所定の方法によって与えられることにより、対応するアルゴリズムデータ50が選択されて、エフェクト処理を特徴付けるアルゴリズムが設定される。また、パラメータ51が所定の方法によって与えられることにより、設定されたアルゴリズムの細部の設定が行われる。
【0048】
アルゴリズムデータ50は、具体的には、画像処理用であれば、モノクロ処理用アルゴリズムデータ、セピア処理用アルゴリズムデータなどであり、音声処理用であれば、エコー処理用アルゴリズムデータ、サラウンド処理用アルゴリズムデータなどである。また、パラメータ51は、たとえば、モノクロ処理における濃度の設定値、エコー処理における遅延量の設定値などである。
【0049】
図2は、エフェクト処理部32の機能ブロック図である。エフェクト処理部32は、演算部321、RAM322、A/D変換部323、フォーマット変換部324、D/A変換部325、フォーマット変換部326とを備えている。
【0050】
演算部321は、本実施の形態においてはDSP(Digital signal processor)としている。ただし、演算部321として高速CPUを利用することも可能である。
【0051】
エフェクト処理部32は、各端末局1,2から送信された画像信号VDと音声信号SDを入力する。画像信号VDは、フォーマット変換部324において画像処理に適した所定のフォーマット変換が施される。フォーマット変換された画像信号VDは、演算部321に入力される。音声信号SDは、A/D変換部323においてA/D変換された後、演算部321に入力される。なお、端末局1,2間の音声の送受信が全てデジタル信号で行われる場合には、A/D変換部323、D/A変換部325を省略することが可能である。
【0052】
エフェクト処理部32は、所定の方法により与えられたアルゴリズム指定情報50aに対応するアルゴリズムデータ50を読み込むことにより、画像信号VDあるいは音声信号SDにエフェクト処理を実行する。図中、演算部321には、デジタルフィルタ、デジタルディレイ、オシレータなどのブロックを仮想的に示しているが、実際には、これらの処理は、アルゴリズムデータ50が演算部321上で実行されることによって実現されるものである。
【0053】
また、アルゴリズムデータ50によって、エフェクト処理の基本動作が規定されるが、さらに、エフェクト処理の細かい動作内容を規定するためにパラメータ51が設定される。したがって、エフェクト処理は、アルゴリズムデータ50とパラメータ51によって処理内容が具体的に決定されることになる。このように、演算部321は、アルゴリズムデータ50とパラメータ51とを読み込んで、RAM322を演算領域として使用しながら、画像信号VDおよび音声信号SDにエフェクト処理を施し、エフェクト処理後の画像信号EVDおよび音声信号ESDを出力するのである。
【0054】
{2.基本的な処理の流れ}
以上の如く構成された画像音声通信システムにおける処理の流れについて説明する。なお、以下の説明においては、端末局1が画像および音声の送信側の端末であり、端末局2が受信側の端末である場合を例にとって説明する。
【0055】
まず、端末局1において、カメラ11およびマイク12により、周辺画像および周辺音声が入力される。圧縮伸張処理部171において、画像信号および音声信号は圧縮処理され、圧縮処理された画像信号VDおよび音声信号SDは、基地局3に送信される。
【0056】
基地局3では、画像音声中継部31が、受信した画像信号VDおよび音声信号SDを端末局2に中継送信する。この際、エフェクト処理部32において、エフェクト処理が行われ、エフェクト処理後の画像信号EVDおよび音声信号ESDが端末局2に送信される。
【0057】
端末局2では、画像信号EVDおよび音声信号ESDを受信すると、圧縮伸張処理部271において、画像信号EVDおよび音声信号ESDの伸張処理が行われる。そして、伸張処理後の画像信号EVDはモニタ23に表示され、伸張処理後の音声信号ESDはスピーカ24より出力されるのである。
【0058】
このように、本実施の形態によれば、端末局1,2から送信された画像信号VDおよび音声信号SDは、基地局3においてリアルタイムのエフェクト処理が施され、相手の端末局1,2に送信される。したがって、自身の画像(顔、姿、背景など)や音声に特殊効果を与えながら、テレビ会議などを実行することが可能である。また、基地局3において、エフェクト処理を実行するので、各端末局1,2における処理負荷を軽減させることが可能である。これにより、たとえば、各家庭のパーソナルコンピュータを利用したテレビ会議などにおいても、各利用者の端末局に高い処理能力を求めることなく、エフェクト処理を実現することが可能である。
【0059】
以上説明した実施の形態においては、エフェクト処理は、基地局3において行われるものとした。しかし、端末局1,2のCPUやDSP資源に余力があれば、端末局1,2にエフェクト処理部172,272を持たせ、エフェクト処理を実行させるようにしても良い。端末局1,2でエフェクト処理を実行する場合、基地局3上の、エフェクト処理を停止させるようにしてもよい。
【0060】
また、基地局3は、記憶手段にアルゴリズムデータ50を蓄積しているが、このアルゴリズムデータ50を端末局1,2に配信可能としてもよい。これにより、端末局1,2は、基地局3に蓄積された様々なアルゴリズムデータ50を利用し、自端末でエフェクト処理を実行させることが可能である。
【0061】
{3.エフェクト処理内容の指定類型}
上述の如く、基地局3は、アルゴリズムデータ50およびパラメータ51に基づいて、エフェクト処理を実行する。そして、このエフェクト処理内容を決定するアルゴリズムデータ50およびパラメータ51の指定類型として、以下の3つの形態(固定型エフェクト、ダイナミック型エフェクト、適応型エフェクト)が用意されている。なお、以下の説明においても、端末局1が送信側、端末局2が受信側である場合を例として説明する。
【0062】
<1.固定型エフェクト>
図3および図6で示す形態では、エフェクト処理を決定するアルゴリズムデータ50およびパラメータ51は固定的である。ここで言う固定的とは、リアルタイムにエフェクト処理内容が変化する形態ではないことを意味している。したがって、所定のタイミングで、アルゴリズムデータ50およびパラメータ51が更新されるような方法も含まれる。
【0063】
この方法では、画像信号VDおよび音声信号SDを送信する端末局1が、アルゴリズム指定情報50aおよびパラメータ51を基地局3に送信する。たとえば、アルゴリズム指定情報50aおよびパラメータ51は、画像、音声による通信開始の前に基地局3に送信される。基地局3では、受信した情報に基づいてエフェクト処理の動作が設定される。また、アルゴリズム指定情報50aおよびパラメータ51は、任意のタイミングで、端末局1より基地局3に送信される。この場合には、所定の間隔(たとえば、5秒間隔などであり、リアルタイムではない。)で基地局3のエフェクト処理内容が更新されるような処理となっていればよい。
【0064】
この方法におけるエフェクト処理としては、固定的に、あるいは、ある程度継続した時間同様の処理を実行することが一般的なエフェクト処理が適している。例としては、画像に対しては、セピア処理などの色補正処理、クロマキー処理などの背景合成処理など、音声に対しては、簡易ノイズリダクション処理、ピッチ変換などによる周波数変調処理、ボイスチェンジャー処理、残響付加処理、(エコーやリバーブなどによる遅延効果を出すもの)、および定位制御処理などである。
【0065】
さらに、エフェクト処理が施された画像信号EVDおよび音声信号ESDを受信する端末局2は、エフェクト処理の解除コマンド55を基地局3へ送信することが可能である。基地局3のエフェクト処理部32は、受信側の端末局2から解除コマンド55を受信すると、エフェクト処理を無効化させる。これにより、端末局2には、端末局1が送信したそのままの信号、つまり、画像信号VDと音声信号SDが送信される。
【0066】
これにより、受信側の意思によって、エフェクト処理を無効化させることが可能である。例えば匿名化された通信を利用した誹謗中傷行為や、ストーカー行為などの犯罪に繋がる可能性がある行為などを有効に防止することが可能となる。
【0067】
この方法では、基地局3でエフェクト処理を実行するのが一般的である。基地局3においてエフェクト処理を実行する場合、端末局1,2は、エフェクト処理部172,272を持つ必要が無い(あるいは、動作させる必要がない。)。したがって、処理能力の小さいコンピュータをはじめ、あらゆる端末を利用して、通信エフェクトを利用することが可能となる。ただし、端末局側にエフェクト処理を行なう為の資源に余裕があれば、端末局側でエフェクト処理を行なっても良い。
【0068】
<2.ダイナミック型エフェクト>
図4および図7で示す形態では、エフェクト処理を決定するアルゴリズムデータ50およびパラメータ51はダイナミックに変化する。ここで言うダイナミックな変化とは、エフェクト処理内容がリアルタイムに次々と変化するような形態を意味している。
【0069】
この方法では、画像信号VDおよび音声信号SDを送信する端末局1が、アルゴリズム指定情報50aおよびパラメータ51を基地局3に送信する。アルゴリズム指定情報50aおよびパラメータ51は、画像、音声による通信実行処理中に、基地局3に送信される。基地局3では、受信した情報に基づいてエフェクト処理の動作をリアルタイムで変更するのである。
【0070】
この方法におけるエフェクト処理としては、動的な変化が必要とされる処理内容が適している。例としては、画像に対しては、アバター処理、簡易アバター(アニメ制御)処理などの画像変換系処理、ワイプやロールなどの処理、合成位置を動的に変化させるオブジェクト合成処理などがある。音声については、MIDIなどを用いたBGM演奏に対するエフェクト処理、連続的に定位が移動する音源に対する定位制御処理、サラウンド処理、などがある。
【0071】
エフェクト処理が施された画像信号EVDおよび音声信号ESDを受信する端末局2では、エフェクト処理の解除コマンド55を基地局3へ送信することが可能である。これにより、受信側の意思によって、エフェクト処理を無効化させることが可能である。
【0072】
この方法では、基地局3でエフェクト処理を実行するのが一般的である。基地局3においてエフェクト処理を実行する場合、端末局1,2は、エフェクト処理部172,272を持つ必要が無い。したがって、様々な端末を利用して、通信エフェクトを利用することが可能となる。
【0073】
ただし、端末局側にエフェクト処理を行なう為の資源に余裕があれば、端末局側でエフェクト処理を行なっても良い。図7にも示したように、アルゴリズム指定情報50aおよびパラメータ51を基地局3経由で端末局2に転送し、端末局2において、エフェクト処理を実行するようにしてもよい。
【0074】
<3.適応型エフェクト>
図5および図8で示す形態では、エフェクト処理を決定するアルゴリズムデータ50およびパラメータ51は演算によって求められる。エフェクト処理部32は、所定のプログラムが与えられることにより、入力画像信号VDあるいは入力音声信号SDの解析処理を実行する。この解析処理の内容は、特に、限定されるものではなく、所定のアルゴリズムに基づいて、入力画像あるいは入力音声を解析し、アルゴリズム指定情報50aおよびパラメータ51を出力する処理であればよい。
【0075】
この方法では、基地局1が画像信号VDおよび音声信号SDを受信すると、エフェクト処理部32において解析処理が行われ、アルゴリズム指定情報50aおよびパラメータ51が生成される。エフェクト処理部32は、この生成したアルゴリズム指定情報50aおよびパラメータ51に基づいてエフェクト処理を実行するのである。
【0076】
そして、この処理方法において、画像解析の結果で画像エフェクト処理のみならず音声エフェクト処理を決定することが可能であり、音声解析の結果で音声エフェクト処理のみならず画像エフェクト処理を決定することが可能である。
【0077】
このように、アルゴリズム指定情報50aおよびパラメータ51は、エフェクト処理部32自身が演算により生成するが、たとえば、アルゴリズム指定情報50aは、端末局1から基地局3に送信し、パラメータ51は、演算(解析処理)により求めるような形態でもよい。あるいは、ある程度処理内容を特定する情報をあらかじめ送信側の端末局1より基地局3に送信した上で、画像および音声解析によって、エフェクト処理内容を具体的に特定するような処理方法でもよい。
【0078】
この方法におけるエフェクト処理としては、画像に対しては、画像認識アバター処理、画像認識による背景変換処理・合成処理など、音声に対しては、適応型フィルタを用いたノイズサプレッサー処理、入力ピッチに応じて中心周波数が変るフォルマント・フィルタ処理などがある。
【0079】
エフェクト処理が施された画像信号EVDおよび音声信号ESDを受信する端末局2は、エフェクト処理の解除コマンド55を基地局3へ送信することが可能である。これにより、受信側の意思によって、エフェクト処理を無効化させることが可能である。
【0080】
この方法では、基地局3でエフェクト処理を実行するのが一般的である。基地局3においてエフェクト処理を実行する場合、端末局1,2は、エフェクト処理部172,272を持つ必要が無い。したがって、様々な端末を利用して、通信エフェクトを利用することが可能となる。ただし、端末局側にエフェクト処理を行なう為の資源に余裕があれば、端末局側でエフェクト処理を行なっても良い。受信側の端末局2においてエフェクト処理を実行している場合には、エフェクトの無効化処理は、端末局2上で制御可能である。
【0081】
{4.アルゴリズムデータの取得}
前述したように、基地局3の記憶手段に蓄積されたアルゴリズムデータ50は、基地局3内のエフェクト処理において用いられるのみならず、端末局1,2にダウンロードされ、端末局1,2におけるエフェクト処理において用いられることが可能である。
【0082】
端末局1,2の処理能力に余裕がある場合は、基地局3からアルゴリズムデータ50をダウンロードするようにする。これにより、端末局1,2においてエフェクト処理を実行する分散処理システムを構成することとなり、基地局3における処理負荷を低減させることが可能である。
【0083】
また、ノンリアルタイムでの編集処理をする場合、たとえば、通信におけるポン出し用のコンテンツを準備する場合などには、ダウンロードしたアルゴリズムにより、エフェクト処理を施したコンテンツを端末局上に用意することが可能である。
【0084】
一般に、エフェクトの種類はアルゴリズムによって決定するので、端末局上にいくつものアルゴリズムデータを準備しておくのは資源上効率的ではない。そこで、必用な時に必要なものだけをダウンロードして利用することが効果的である。
【0085】
さらに、この考え方(各端末局側にアルゴリズムを持たせるのは効率的ではないという考え方)を発展させると、次にような処理形態が有効である。コンテンツのノンリアルタイム編集等において、サーバに画像や音声の素材データを送信し、あわせて、エフェクトの種類やパラメータを指定する情報を送信する。これによって、サーバ上で素材データに対するエフェクト処理が実行され、エフェクト処理後のデータが再度端末局側に送信されるのである。
【0086】
また、端末局1,2が基地局3からアルゴリズムデータ50をダウンロードする形態の他に、端末局1,2がインターネット等のネットワーク上に設置された各種サーバからアルゴリズムデータをダウンロードする形態であってもよい。さらには、ネットワーク上からダウンロードしたアルゴリズムデータ50を基地局3や他の端末局に送信することにより、取得したエフェクト処理機能を他の端末に転送することが可能である。
【0087】
{5.応用例}
以上説明した本実施の形態の画像音声通信システムを利用したシステム応用例について図9、図10を参照しながら説明する。
【0088】
まず、図9で示す第1の例について説明する。この第1の例では、画像の鮮明度をエフェクト制御し、プライバシーを保護することと、音声をクリアに再現することを目的としている。
【0089】
端末局1の利用者である話者70は、ビルの背景71とともにカメラ11によって撮像される。撮像された画像は、基地局3でエフェクト処理が施され、端末局2のモニタ23に表示される。
【0090】
図中、3つの表示画像(A)、(B)、(C)を示している。表示画像(A)は、話者70の画像のフォーカス(ピント)を甘くするエフェクト処理(デフォーカス処理、ソフトフォーカス処理)が施された画像である。これにより話者70の顔や背景71の細かいところを見えにくくして、プライパシーを保護することを可能としている。
【0091】
表示画像(B)、(C)は、話者70の画像はそのままにしておき、背景71のみのピントの深さ(被写界深度)をコントロールするエフェクト処理を施した画像である。表示画像(B)は、被写界深度を小さくすることにより、背景71をぼかすエフェクト処理が施されている。これに対して、表示画像(C)は、被写界深度を大きくすることにより、背景71を鮮明に再現するようにしている。
【0092】
このようなエフェクト処理を実行することにより、背景71の細部を見えにくくして、プライバシーを保護することを可能としている。たとえば、話者70の背景が話者70の自宅の室内である場合などにも有効である。他にも、背景71をクロマキー合成処理などのエフェクト処理によって、仮想背景に差し替えるようにしてもよい。
【0093】
また、話者70の発した音声は、マイク12に入力されるが、この音声信号には、暗騒音(背景騒音、機械的ノイズ、ハムおよび電源ノイズ、電子的ノイズ、変換ノイズ、通信ノイズ、など)が含まれる。そこで、エフェクト処理によって、これら雑音を取り除くのである。
【0094】
ノイズを取り除くサプレッサー処理は、一旦音声ダイナミックレンジを圧縮後、演算処理を行い、再度伸張する。ハムを取り除くキャンセラーは、バンド除去型コムフィルターの周波数を電源周波数に合致させる。
【0095】
音声エフェクト処理を行なうDSPまたは高速CPUは、送信端末側、基地局、受信端末側のいずれに配置してもよい。除去対象となるノイズの種類によって、適宜選択するようにすればよい。また、ノイズ除去処理をエンコードとデコードの2つの処理ブロックに分割し、それぞれの処理を異なる端末局あるいは基地局で実行させるようにしてもよい。
【0096】
次に、図10で示す第2の例について説明する。この第2の例では、音声の定位制御を行い、臨場感のある画像音声通信を実現することを目的としている。
【0097】
図に示すように、ここでは、端末局1L,1R,2による同時多地点通信が行われている場合を例に説明する。端末局1Lの周囲には話者72が、端末局1Rの周囲には話者73がいる。話者72の発する音声はマイク12Lによって、話者73の発する音声はマイク12Rによって集音される。
【0098】
そして、この2つの端末局1L,1Rが送信された音声に対して、エフェクト処理として定位制御が行われる。具体的には、各端末局1L,1Rの仮想的な位置を設定し、この仮想的な位置とスピーカを対応付けるのである。たとえば、端末局1Lからの音声は、音声左信号とし、端末局1Rからの音声は、音声右信号に設定するのである。これによって、端末局2では、話者72の音声が左スピーカ24Lから出力され、話者73の音声が右スピーカ24Rから出力される。このように、音声定位を各々の話者に設定することで、話者が誰であるかを空間的に特定しやすくすることができる。
【0099】
この他にも、音声エフェクト処理として、音声のパンニング制御を行なうようにしてもよい。話者の空間的位置をステレオ音声により受信端末局2に伝えることが可能である。また、空間的広がり感を制御する3Dサウンド、プレゼンス、サラウンド効果が得られるようなエフェクト処理を行なうことにより、臨場感のある音声通信を行なうことができる。
【0100】
これら音声エフェクト処理は、DSPまたはCPUを用い、送信側端末局、基地局、受信端末局のいずれでも実行させることが可能である。
【0101】
【発明の効果】
以上説明したように、本発明の画像音声通信システムは、以下のような特徴をもつ。複数の端末局による、画像・音声(の少なくともいずれか)を用いた通信において、個々の端末局はネットワークを介して基地局に接続され、基地局は、画像音声を中継送信する機能に加え、画像音声に対してエフェクト処理を実行する機能を持つ。
【0102】
基地局において画像音声エフェクト処理が実行されるので、端末局側にエフェクト処理機能がない場合であっても、端末局側に負荷をかけることなく、プライバシー保護のためのエフェクト処理を実行することや、表現力を高めるエフェクト処理を実行することが可能である。
【0103】
また、ダイナミックにエフェクト処理を変更することが可能であるので、送信端末者が望むきめの細かいエフェクト表現が可能となる。
【0104】
また、入力画像あるいは音声を解析することによりエフェクト処理の処理内容を決定することが可能である。基地局内で入力画像信号や音声信号を解析しながら、状況にあったエフェクト処理が自動的に実行されるので、より精度の高い、あるいは効果的なエフェクト処理が実行される。さらに、パラメータ転送がほとんどなくなるのでネットワーク回線に余計な負荷をかけることがない。
【図面の簡単な説明】
【図1】画像音声通信システムの全体構成図である。
【図2】エフェクト処理部の機能ブロック図である。
【図3】固定型エフェクトにおける処理ブロック図である。
【図4】ダイナミック型エフェクトにおける処理ブロック図である。
【図5】適応型エフェクトにおける処理ブロック図である。
【図6】固定型エフェクトにおけるシステム概略図である。
【図7】ダイナミック型エフェクトにおけるシステム概略図である。
【図8】適応型エフェクトにおけるシステム概略図である。
【図9】第1の応用例を示す図である。
【図10】第2の応用例を示す図である。
【符号の説明】
1 (送信側)端末局
2 (受信側)端末局
3 基地局
32 エフェクト処理部
50 アルゴリズムデータ
51 パラメータ

Claims (17)

  1. 画像および音声を送信する第1の端末局と、
    前記第1の端末局とネットワークを介して接続され、前記第1の端末局から送信された画像および音声を、中継送信する基地局と、
    前記基地局によって中継送信された画像および音声をネットワークを介して受信する第2の端末局と、
    を備え、
    前記基地局は、
    前記第1の端末局から送信された画像を中継送信する際、当該画像に特殊効果を与える画像処理を施す処理手段、
    を備えることを特徴とする画像音声通信システム。
  2. 画像および音声を送信する第1の端末局と、
    前記第1の端末局とネットワークを介して接続され、前記第1の端末局から送信された画像および音声を、中継送信する基地局と、
    前記基地局によって中継送信された画像および音声をネットワークを介して受信する第2の端末局と、
    を備え、
    前記基地局は、
    前記第1の端末局から送信された音声を中継送信する際、当該音声に特殊効果を与える音声処理を施す処理手段、
    を備えることを特徴とする画像音声通信システム。
  3. 請求項1または請求項2に記載の画像音声通信システムにおいて、
    前記第1の端末局は、
    前記処理手段の処理内容を規定する制御情報を前記基地局に送信する手段、
    を備え、
    前記基地局は、前記第1の端末局より受信した前記制御情報に基づいて前記処理手段の処理内容を設定することを特徴とする画像音声通信システム。
  4. 請求項3に記載の画像音声通信システムにおいて、
    前記第1の端末局は、前記制御情報を、画像および音声による通信開始前に前記基地局に送信することを特徴とする画像音声通信システム。
  5. 請求項3または請求項4に記載の画像音声通信システムにおいて、
    前記第1の端末局は、前記制御情報を、画像および音声による通信中に前記基地局に送信し、前記基地局は、受信した前記制御情報に基づいて、前記処理手段の処理内容をリアルタイムで変更することを特徴とする画像音声通信システム。
  6. 請求項3ないし請求項5のいずれかに記載の画像音声通信システムにおいて、
    前記基地局は、さらに、
    前記第1の端末局から受信した画像および/または音声を解析し、解析結果に基づいて、前記処理手段の処理内容を規定する制御情報を生成する手段、
    を備え、
    前記基地局は、生成した制御情報に基づいて前記処理手段の処理内容を設定することを特徴とする画像音声通信システム。
  7. 請求項1に記載の画像音声通信システムにおいて、
    前記第2の端末局は、
    前記処理手段による前記画像処理を無効化させるコマンドを送信する手段、
    を備え、
    前記基地局は、前記コマンドを受信した場合、前記第1の端末局より受信した画像に対して前記画像処理を施すことなく、そのままの画像を前記第2の端末局に送信することを特徴とする画像音声通信システム。
  8. 請求項2に記載の画像音声通信システムにおいて、
    前記第2の端末局は、
    前記処理手段による前記音声処理を無効化させるコマンドを送信する手段、
    を備え、
    前記基地局は、前記コマンドを受信した場合、前記第1の端末局より受信した音声に対して前記音声処理を施すことなく、そのままの音声を前記第2の端末局に送信することを特徴とする画像音声通信システム。
  9. 請求項1ないし請求項8のいずれかに記載の画像音声通信システムにおいて、
    前記基地局は、前記処理手段によって処理した後のデータを、前記第1の端末局に返信することを特徴とする画像音声通信システム。
  10. 請求項1ないし請求項9のいずれかに記載の画像音声通信システムにおいて、
    前記第1の端末局は、さらに、
    送信する画像および/または音声に特殊効果を与える処理手段、
    を備えることを特徴とする画像音声通信システム。
  11. 請求項1ないし請求項9のいずれかに記載の画像音声通信システムにおいて、
    前記第2の端末局は、さらに、
    受信した画像および/または音声に特殊効果を与える処理手段、
    を備えることを特徴とする画像音声通信システム。
  12. 請求項10に記載の画像音声通信システムにおいて、
    前記第1の端末局は、前記基地局より前記処理手段を実現するソフトウェアをダウンロードすることを特徴とする画像音声通信システム。
  13. 請求項11に記載の画像音声通信システムにおいて、
    前記第2の端末局は、前記基地局より前記処理手段を実現するソフトウェアをダウンロードすることを特徴とする画像音声通信システム。
  14. 請求項1に記載の画像音声通信システムにおいて、
    前記画像処理は、前記第1の端末局から送信される画像中の被写体画像をデフォーカスさせる処理であることを特徴とする画像音声通信システム。
  15. 請求項1に記載の画像音声通信システムにおいて、
    前記画像処理は、前記第1の端末局から送信される画像中の背景画像をデフォーカスさせる処理であることを特徴とする画像音声通信システム。
  16. 請求項2に記載の画像音声通信システムにおいて、
    前記音声処理は、前記第1の端末局から送信される音声中に含まれる雑音を除去する処理であることを特徴とする画像音声通信システム。
  17. 請求項2に記載の画像音声通信システムにおいて、
    前記音声処理は、前記第1の端末局から送信される音声に対する定位制御処理であることを特徴とする画像音声通信システム。
JP2003057357A 2003-03-04 2003-03-04 画像音声通信システム Pending JP2004266746A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003057357A JP2004266746A (ja) 2003-03-04 2003-03-04 画像音声通信システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003057357A JP2004266746A (ja) 2003-03-04 2003-03-04 画像音声通信システム

Publications (1)

Publication Number Publication Date
JP2004266746A true JP2004266746A (ja) 2004-09-24

Family

ID=33120808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003057357A Pending JP2004266746A (ja) 2003-03-04 2003-03-04 画像音声通信システム

Country Status (1)

Country Link
JP (1) JP2004266746A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279588A (ja) * 2005-03-29 2006-10-12 Yamaha Corp 多地点通信会議用端末
JP2008118374A (ja) * 2006-11-02 2008-05-22 Necディスプレイソリューションズ株式会社 画質制御回路および画質制御方法
CN109996026A (zh) * 2019-04-23 2019-07-09 广东小天才科技有限公司 基于穿戴式设备的视频特效互动方法、装置、设备及介质
WO2020031742A1 (ja) * 2018-08-10 2020-02-13 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
CN114995704A (zh) * 2021-03-01 2022-09-02 罗布乐思公司 用于三维环境的集成化输入输出
WO2024190008A1 (ja) * 2023-03-16 2024-09-19 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法、およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279588A (ja) * 2005-03-29 2006-10-12 Yamaha Corp 多地点通信会議用端末
JP2008118374A (ja) * 2006-11-02 2008-05-22 Necディスプレイソリューションズ株式会社 画質制御回路および画質制御方法
WO2020031742A1 (ja) * 2018-08-10 2020-02-13 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
CN109996026A (zh) * 2019-04-23 2019-07-09 广东小天才科技有限公司 基于穿戴式设备的视频特效互动方法、装置、设备及介质
CN114995704A (zh) * 2021-03-01 2022-09-02 罗布乐思公司 用于三维环境的集成化输入输出
JP2022133254A (ja) * 2021-03-01 2022-09-13 ロブロックス・コーポレーション 3次元(3d)環境用の統合された入出力(i/o)
JP7502354B2 (ja) 2021-03-01 2024-06-18 ロブロックス・コーポレーション 3次元(3d)環境用の統合された入出力(i/o)
WO2024190008A1 (ja) * 2023-03-16 2024-09-19 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
KR100440454B1 (ko) 가상 음향 환경을 처리하는 방법 및 시스템
US11785410B2 (en) Reproduction apparatus and reproduction method
CA3008214C (en) Synthesis of signals for immersive audio playback
EP1416769A1 (en) Object-based three-dimensional audio system and method of controlling the same
JP2007027846A (ja) 動画再生システム及び動画再生方法
KR20220077132A (ko) 시청각 콘텐츠용 바이노럴 몰입형 오디오 생성 방법 및 시스템
EP2743917B1 (en) Information system, information reproducing apparatus, information generating method, and storage medium
JP2006041886A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
KR20200143516A (ko) 회의를 위한 서브밴드 공간 처리 및 크로스토크 제거 시스템
JPH10336798A (ja) 音場補正回路
JP2004266746A (ja) 画像音声通信システム
CN114915874A (zh) 音频处理方法、装置、设备、介质及程序产品
JP4512286B2 (ja) 番組送出システム及びこれに用いる番組送出装置
JP2003079000A (ja) 映像音響装置の臨場感制御方式
KR102559015B1 (ko) 공연과 영상에 몰입감 향상을 위한 실감음향 처리 시스템
US20080266381A1 (en) Selectively privatizing data transmissions in a video conference
US12052551B2 (en) Networked audio auralization and feedback cancellation system and method
WO2023042671A1 (ja) 音信号処理方法、端末、音信号処理システム、管理装置
Braasch et al. A cinematic spatial sound display for panorama video applications
CN114938460A (zh) 直播数据处理方法、装置、设备及存储介质
CN115550831A (zh) 通话音频的处理方法、装置、设备、介质及程序产品
JP2024001600A (ja) 再生装置、再生方法、および再生プログラム
CN116567516A (zh) 一种音频处理方法和终端
JP2024079861A (ja) データ配信プログラム及びデータ配信方法
JP2004294519A (ja) 通信装置、通信方法及びプログラム