JP2004080143A - Communication apparatus and management method thereof, and videophone system - Google Patents

Communication apparatus and management method thereof, and videophone system Download PDF

Info

Publication number
JP2004080143A
JP2004080143A JP2002234726A JP2002234726A JP2004080143A JP 2004080143 A JP2004080143 A JP 2004080143A JP 2002234726 A JP2002234726 A JP 2002234726A JP 2002234726 A JP2002234726 A JP 2002234726A JP 2004080143 A JP2004080143 A JP 2004080143A
Authority
JP
Japan
Prior art keywords
media
input
network
output
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002234726A
Other languages
Japanese (ja)
Inventor
Eiichiro Kitagawa
北川 英一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002234726A priority Critical patent/JP2004080143A/en
Publication of JP2004080143A publication Critical patent/JP2004080143A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To determine arithmetic operation parameters used for elimination of the echo components of voice in media information in accordance with an installation environment of a media input output apparatus in managing an optional media input apparatus and an optional media output apparatus, which are connected to a network as the media input output apparatus. <P>SOLUTION: A group management section 407 selects the optional media input apparatus and the optional media output apparatus out of a plurality of media input apparatuses to receive media information and a plurality of media output apparatuses outputting the media information which are connected to the network as the media input output apparatus and manages them. Then an echo cancel DSP 405 determines the arithmetic operation parameters used to eliminate the echo component of the voice in the media information inputted / outputted by the managed media input output apparatus according to the installation environment of the media input output apparatus. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワークに接続され、遠隔地点との間でメディア情報の通信を行う通信装置及びその管理方法、テレビ電話システムに関する。
【0002】
【従来の技術】
現在、一般家庭からインターネットに接続する方法は、プロバイダ料金の他に通信料金がかかる、アナログ回線(PSTN)又はデジタル回線(ISDN)を利用したダイヤルアップ接続が主流となっている。
【0003】
しかしながら、最近では、1本の電話回線で通話しながらデジタルデータ通信も行える、いわゆる非対称デジタル加入者回線(ADSL:Asymmetric DigitalSubscriber Line)やCATV網などの専用線を使用した料金定量制のIP常時接続の運用が始まってきた。このように、一般家庭の端末でインターネット常時接続が行われるようになると、今まで公衆回線網を使用していた電話やFAXなどの通信手段もパケット通信網を利用したIPパケット通信で行えるようになってくる。
【0004】
そこで、動画像、音声、静止画、その他のマルチメディア情報の伝送をLAN上で行うパケット通信端末装置が現在、H.323として勧告化されている。このH.323の勧告に従った端末機器を使い、インターネット常時接続を利用して利用料金定量のIP電話、テレビ電話システムなどの通信手段の実現が可能となった。
【0005】
図1は、従来のテレビ会議装置の構成を示すブロック図である。図1において、100はH.323の勧告に従うテレビ会議装置本体である。101はビデオ・オーディオコーデックであり、後述するビデオ復号化部、オーディオ復号化部、ビデオ符号化部、オーディオ符号化部としての複数の機能を包含し、デジタル信号プロセッサ(DSP)などで実現される。
【0006】
102は同期の維持やネットワークでのパケット到着ジッタを考慮してメディアストリームに付加された遅延を処理する遅延処理部であり、更に受信した符号化音声情報を所定期間遅延して映像情報との同期(リップ・シンク)を取るためにも設けられている。103は受信したビデオパケット、オーディオパケットをデパケット化し、符号化映像情報及び符号化音声情報を再構成させる。104は符号化された映像情報及び音声情報をビデオパケット及びオーディオパケットにパケット化処理を行う。
【0007】
105は呼制御・システム制御部であり、適切な操作のためのシグナリングを提供する。ここで提供される機能としては、呼制御、能力情報交換、命令と通知のシグナリング及び論理チャネルの開設などがある。106は送信されるビデオ、オーディオ、データ及び制御ストリームをLANインターフェース部107に出力するために形式に従って配置し、またLANインターフェース部107から入力されたメッセージから受信したビデオ、オーディオ、データ及び制御ストリームを取り出す。更に、それぞれのメディアタイプに応じて、論理フレーミング、シーケンス番号付加、エラー検出、エラー訂正機能を提供する。LANインターフェース(I/F)部107は網と端末との間に必要な適応化を図り、120はLANなどのパケットネットワーク網である。
【0008】
121はビデオモニタなどの映像出力機器、122はビデオカメラなどの映像入力機器、123はスピーカーなどの音声出力機器、124はマイクなどの音声入力機器であり、123と124は機器として一体となり、スピーカーホンとして使われることもある。
【0009】
ビデオ・オーディオコーデック101において、111は受信した符号化映像情報を伸張し復号化してビデオモニタ121に出力するビデオ復号化部、113はビデオカメラ122からの映像信号を圧縮し符号化するビデオ符号化部であり、111及び113は、例えばH.261、H.263などの規格に基づく動作を行う。112は受信した符号化音声情報を伸張し復号化してスピーカー123に出力するオーディオ復号化部、114はマイク124からの音声信号を圧縮し符号化するオーディオ符号化部であり、112及び114は、例えばG.711、G.723.1などの規格に基づく動作を行う。
【0010】
図2は、従来のテレビ会議装置に接続して使用されるエコーキャンセラー付きスピーカーフォンの構成を示すブロック図である。図示するように、スピーカー出力端子からの音声出力はエコーキャンセラー201に入力され、アンプ202へ向かうパスと遅延差分ブロックへ行くパスに分かれる。その音声出力はアンプ202で増幅され、スピーカー203から音声が出力される。出力された音声は壁や天井などで反射され、エコー205としてマイク204に入力される。このマイク204からの入力はエコーキャンセラー201に入り、変換及び遅延されたスピーカー出力と差分が取られ、エコー成分がキャンセルされてマイク端子へ出力される。
【0011】
ところで、スピーカーからの反射音声の遅延時間や周波数毎の減衰特性などは設置環境により異なる。そのため、エコーキャンセラーを最適に動作させるためには、一般的にパラメータの学習が行われる。スピーカーフォンの電源をONにしたときにスピーカーから所定の学習音響が出力される。そのエコーがマイクから入力され、そのエコー成分を除去するようにエコーキャンセラーのパラメータを調整することで行われる。このような製品には、例えばポリコム社のサウンドステーションがある。
【0012】
【発明が解決しようとする課題】
上記従来例におけるカメラ、スピーカー、マイク、モニタなどの入出力機器は全てテレビ会議装置に直接接続されているため、その用途はテレビ会議装置専用として占有されていた。従って、会議をしていないときでも、装置を他の目的に使用することができなかった。また、その配置位置もテレビ会議装置本体の設置場所の近くに限定されてしまい、部屋の中の自由な位置に設置することができなかった。
【0013】
また、カメラとスピーカーとの間のエコーキャンセラーは、電源を入れたときにパラメータの設定が行われるため、接続を変更するたびに電源をOFF/ONしなければならなかった。これを忘れた場合は、設置環境に応じたパラメータの調整が行われないためにエコーが発生し、テレビ会議を行う際に音声が聞き取りにくくなるという問題があった。
【0014】
本発明は、上記課題を解決するためになされたものであり、ネットワーク接続された、任意のメディア入力装置と任意のメディア出力装置とをメディア入出力装置として管理する際に、該メディア入出力装置の設置環境に応じて、メディア情報における音声のエコー成分の除去に用いる演算パラメータを決定することを目的とする。
【0015】
【課題を解決するための手段】
上記目的を達成するために、本発明は、ネットワークに接続され、遠隔地点との間でメディア情報の通信を行う通信装置であって、ネットワーク接続された、メディア情報を入力するための複数のメディア入力装置及びメディア情報を出力するための複数のメディア出力装置のうち、任意のメディア入力装置と任意のメディア出力装置とをメディア入出力装置として選択し管理する管理手段と、前記管理手段で管理されるメディア入出力装置で入出力されるメディア情報における音声のエコー成分を所定の演算により除去するエコーキャンセル手段とを有することを特徴とする。
【0016】
また、上記目的を達成するために、本発明は、ネットワークに接続され、遠隔地点との間でメディア情報の通信を行う通信装置の管理方法であって、ネットワーク接続された、メディア情報を入力するための複数のメディア入力装置及びメディア情報を出力するための複数のメディア出力装置のうち、任意のメディア入力装置と任意のメディア出力装置とをメディア入出力装置として選択し管理する管理工程と、前記管理工程で管理されるメディア入出力装置で入出力されるメディア情報における音声のエコー成分を所定の演算により除去するエコーキャンセル工程とを有することを特徴とする。
【0017】
【発明の実施の形態】
以下、図面を参照しながら本発明に係る実施の形態を詳細に説明する。
【0018】
本実施形態におけるパケット通信端末システムとして、ADSL(AsymmetricDigital Subscriber Line)によるLAN環境を導入した一般家庭のテレビ電話システムを例に説明する。
【0019】
図3は、本実施形態におけるテレビ電話システムの構成を示す図である。図3に示すように、電話回線301がスプリッター302に接続され、スプリッター302は音声信号からなる低周波数成分とLAN回線を流れるデータ信号を搬送する高周波成分とをフィルタによって分離する。そして、音声信号成分は電話機303へ、データ信号成分はADSLモデム304へ送られる。ADSLモデム304からの出力はHUB305に入力され、そこで複数のLANケーブルへと分配される。
【0020】
310は本実施形態におけるパケット通信端末であり、音声やビデオを入出力するための複数の機器がHUB305を介してLAN接続されている。320はLANインターフェースを持ち、カメラ入力を圧縮符号化してLANに流す雲台付きネットワークカメラ、321は通常の家庭用大画面テレビ、330はテレビ321のビデオ入力端子と音声入力端子とに接続され、LANを介して受信する端末310からの映像や音声をテレビに出力するモニタ&スピーカーアダプタ、331はアダプタ330を制御する赤外リモコンである。340はLANインターフェースを持ち、音声入力をパケット化してLANに流すネットワークマイクである。
【0021】
以上の構成により、カメラ320、マイク340、テレビ321のモニタ及びスピーカー(以下、遠隔端末)がLANインターフェースを介して端末310と接続され、テレビ会議システムを構成している。
【0022】
一方、テレビ321でテレビ番組を見ている場合には、マイク340とテレビ321のスピーカーをテレビ会議用途で使用することができないため、その場合の代替手段として、別の遠隔端末が必要になる。
【0023】
350は通常のビデオカメラ351の映像を入力し、圧縮符号化及びパケット化してLANインターフェースに流すカメラアダプタ、360はLANインターフェースを持つネットワークビデオモニタ、370はLANインターフェースを持ち、端末310からの音声パケットを受信して出力するネットワークスピーカーである。
【0024】
次に、本実施形態におけるパケット通信端末310の詳細な構成について説明する。
【0025】
図4は、パケット通信端末310の詳細な構成を示すブロック図である。図4において、401はプロトコル制御部であり、送信されるビデオ、オーディオ、データ及び制御ストリームをLANインターフェース(I/F)部408に出力するために形式に従って配置し、またLANインターフェース部408から入力されたメッセージから受信したビデオ、オーディオ、データ及び制御ストリームを抽出する。そして、それぞれのメディアタイプに応じて、論理フレーミング、シーケンス番号付加、エラー検出、エラー訂正機能を提供する。402は呼制御・システム制御部であり、適切な操作のためのシグナリングを提供する。ここで提供される機能としては、呼制御、能力情報交換、命令と通知のシグナリング、論理チャネルの開設等がある。403は操作制御部であり、LAN上の接続機器から受信するユーザ操作情報に従って機器を制御する。
【0026】
404は遠隔端末からの符号化音声の復号化及びマイクからの音声信号を圧縮符号化するオーディオコーデックであり、例えばG.711、G.723.1などの規格に基づく動作を行う。405はエコーキャンセルDSPであり、スピーカーとマイクとの間のアコースティックエコーをキャンセルする。407はグループ管理部であり、通信端末310とグループ化されている接続機器のIPアドレス、ビデオ符号化・復号化能力などの情報を管理する。406はパケット化/デパケット化制御部であり、グループ管理部407からの情報に基づいて遠隔端末から受信したビデオパケットの宛先IPアドレスをグループ化されているビデオモニタアダプタのIPアドレスに変換し、LANインターフェース部408を介してLANに送信する。
【0027】
また、パケット化/デパケット化制御部406はグループ化されているネットワークカメラからのビデオパケットの送信先アドレスを遠隔端末に変換し、送信元アドレスを本体のアドレスに変換して遠隔端末に送信する。更に、遠隔端末から受信した符号化音声情報を受信パス遅延部409で適切なタイミングに合わせた後、オーディオコーデック404に渡す。また更に、グループ化されたネットワークマイクからの音声情報をエコーキャンセルDSP405に渡す。408はLANインターフェース部であり、LAN回線120と端末310との間の通信を制御する。
【0028】
次に、エコーキャンセルDSP405とオーディオコーデック404との間のデータの流れと、エコーキャンセルDSP405でのエコーキャンセルについて説明する。
【0029】
図5は、エコーキャンセルDSP405とオーディオコーデック404との間のデータの流れを示す図である。まず、パケット化/デパケット化制御部406から渡される遠隔端末の符号化音声情報は、受信パス遅延部409で適切なタイミングが取られた後、オーディオコーデック404のデコーダ部502で伸張・復号化され、エコーキャンセルDSP405に渡される。このエコーキャンセルDSP405は、復号化された音声情報をパケット化してスピーカーユニットに渡すために、パケット化/デパケット化制御部406にデータを渡すと共に遅延フィルタ503にデータを流す。この遅延フィルタ503はフィルタ制御504によりパラメータ制御されて受信データを変換及び遅延させる。
【0030】
一方、マイクユニットからの入力音声は、LANインターフェース部408で受信され、パケット化/デパケット化制御部406でデパケット化されてエコーキャンセルDSP405に渡される。そして、エコーキャンセルDSP405で、差分演算器505が遅延フィルタ503からの情報と差分を取り、エコー成分が除去される。エコー除去後のマイク音声情報はオーディオコーデック404のエンコーダ部501で所定の方式により圧縮・符号化され、圧縮・符号化された音声情報がパケット化/デパケット化制御部406でパケット化され、その後、LANインターフェース部408を介して遠隔端末に送信される。
【0031】
ここで、LANに接続された遠隔端末(音声及びビデオの入出力ユニット)の構成について順に説明する。
【0032】
図6は、モニタ&スピーカーアダプタ330の構成を示す図である。601は通信端末310からの音声パケットデータ、ビデオパケットデータ、及び制御データを受信するためのLANインターフェース部、602は受信したパケットからデータを取り出すデパケット化制御部、603はビデオと音声を適切なタイミングで再生し、リップシンクをとるための受信パス遅延部、604は圧縮されたビデオデータを復号化するビデオ復号化部、605は復号化されたデジタルビデオ情報をNTSCアナログ信号に変換してモニタに渡すためのビデオインターフェース部、606は受信したデジタル音声データをアナログ信号に変換するD/A変換部、607はアナログ音声信号を適切な出力レベルに拡大してスピーカーに渡すためのアンプ、608は赤外リモコン331からのユーザ入力を受け付けるリモコン受光部、609はユーザ操作を受け付け・システムを制御する操作・システム制御部である。
【0033】
図7は、ネットワークビデオモニタ360の構成を示す図である。尚、601〜605及び608は図6に示したモニタ&スピーカーアダプタ330の構成と同じである。図7において、701はビデオインタフェース部605からビデオ信号を受けて表示するビデオモニタユニットである。702は赤外受光部608からのユーザ操作データ及び通信端末310から受信する制御データに従って、システム全体を制御する操作・システム制御部である。
【0034】
図8は、ネットワークスピーカー370の構成を示す図である。尚、601〜603、606及び607は図6に示したモニタ&スピーカーアダプタ330の構成と同じである。図8において、801はアンプ607からの音声信号を出力するスピーカーユニット、802はシステム全体を制御する操作・システム制御部である。
【0035】
図9は、ネットワークカメラ320の構成を示す図である。901は被写体を撮像してデジタルビデオ信号を生成するカメラユニット、902はカメラユニット901からのビデオ信号を、例えばH263などの所定の方式で圧縮符号化するビデオ符号化部、903は圧縮符号化されたビデオ信号をRTP(Real Time Protocol)ビデオパケットにパケット化するパケット化制御部、904はビデオパケットデータをLANを介して通信端末310に送信し、通信端末310からの制御パケットを受信するLANインターフェース部、905は通信端末310からの制御データを受信し、システムを制御する操作・システム制御部、906は制御部905からの制御に従って動作する雲台ユニットである。
【0036】
図10は、ネットワークマイク340の構成を示す図である。1001は音声を電気信号に変換するマイクユニット、1002はマイクユニット1001からのアナログ音声信号をデジタル信号に変換するA/D変換部、1003は音声データをRTPオーディオパケットにパケット化するパケット化制御部、1004はパケット化された音声データを通信端末310に送信し、通信端末310からの制御パケットを受信するLANインターフェース部、1005は通信端末310から受信した制御データに従ってシステムを制御する操作・システム制御部である。
【0037】
図11は、カメラアダプタ350の構成を示す図である。尚、902〜904は図9に示したネットワークカメラ320の構成と同じである。図11において、1101はビデオカメラ351からのNTSC信号を入力し、デジタルビデオ信号に変換して出力するカメラインタフェース、1102は通信端末310からの制御に従ってシステムを制御する操作・システム制御部である。
【0038】
次に、本実施形態におけるエコーキャンセラーの学習タイミングについて説明する。
【0039】
図12は、エコーキャンセラー学習処理を示すフローチャートである。最初に、雲台付きネットワークカメラ320とモニタ&スピーカーアダプタ330及びネットワークマイク340がグループ化されている。即ち、大画面TV321をテレビ会議システムのモニタ及びスピーカーとして使用している。この状態からユーザがテレビ321でテレビ番組を見ると、テレビ321の画面とスピーカーがテレビ番組に使用されるため、テレビ会議システムとして使用できなくなる。そこで、ユーザは代替モニタとスピーカー及びカメラを選択する。
【0040】
まず、ユーザが赤外リモコン331を使用し、カメラ320のグループ解除を指示する。リモコンの赤外光はモニタ&スピーカーアダプタ330で受信され、通信端末310にユーザ操作データを含む制御データが送信される。これにより、通信端末310ではユーザ操作制御データを受信してグループ管理部407内の管理テーブルからカメラ320を解除する。そして通信端末310からカメラ320にグループ化を解除する制御データを送信する(ステップS101)。
【0041】
次に、ユーザは赤外リモコン331を使用し、新たにカメラアダプタ350のグループ化を指示する。指示が通信端末310に送られ、グループ管理部407内の管理テーブルへカメラアダプタ350のグループ化を登録する。そして通信端末310からカメラアダプタ350へグループ化を指示する制御データを送信する(ステップS102)。
【0042】
次に、ユーザは赤外リモコン331を使用し、モニタ&スピーカーアダプタ330のグループ化解除を指示する。指示が通信端末310に送られ、グループ管理部407内の管理テーブルからグループ化が解除される。通信端末310からモニタ&スピーカーアダプタ330へグループ化解除を指示する制御データを送信する(ステップS103)。尚、これ以降、赤外リモコン331からの赤外光は全てネットワークビデオモニタ360の赤外受光部で受光され、通信端末310へ制御データが送られる。
【0043】
次に、ユーザは赤外リモコン331を使用し、ネットワークビデオモニタ360のグループ化を指示する。ネットワークビデオモニタ360の赤外受光部でリモコンの赤外光を受信し、ネットワークビデオモニタ360から通信端末310に操作データが送信される。通信端末310のグループ管理部407がネットワークビデオモニタ360をグループ化する。そして、通信端末310からネットワークビデオモニタ360へグループ化を指示する制御データを送信する(ステップS104)。
【0044】
次に、ユーザはネットワークスピーカー370のグループ化をリモコン331で指示し、通信端末310へ制御データが送信される。通信端末310のグループ管理部407がネットワークスピーカー370をグループ化する。そして通信端末310からネットワークスピーカー370へグループ化を指示する制御データを送信する(ステップS105)。
【0045】
上述した処理により、マイク340及びスピーカー370が通信端末310のグループ管理部407によりグループ化されたので、この後エコーキャンセラーの学習処理へ進む。
【0046】
ここで、エコーキャンセルDSP405のフィルタ制御部504へパラメータの学習を指示する(ステップS106)。次に、グループ化されたマイク340へ、入力音声の通信端末310への送信を開始するように指示する制御データをLANインターフェース部408を介して送信する(ステップS107)。
【0047】
次に、オーディオコーデック404を制御して所定の学習音響データを作成し、エコーキャンセルDSP405へ渡す(ステップS108)。そして、エコーキャンセルDSP405に入力されたデータは二つのパスに分かれる。つまり、一方のパスは遅延フィルタ503を通り、他方のパスは、そのままパケット化/デパケット化制御部406へ送られてパケット化され、LANインターフェース部408を介してスピーカー370に送信される(ステップS109)。
【0048】
これにより、スピーカー370から学習音響データが出力され、マイク340によってそのエコーが入力される。入力されたエコーはLANを介して通信端末310に送信される。また、通信端末310はマイクからのエコーデータを受信し、パケット化/デパケット化制御部406で音響信号データが抽出され、エコーキャンセルDSP405に送られる(ステップS110)。エコーキャンセルDSP405のフィルタ制御部504で遅延フィルタ503のパラメータが調整され、エコーキャンセラーの学習が完了する。そして、学習されたパラメータをグループ管理部407に保存する(ステップS111)。
【0049】
以上説明したように、通信端末310を用いたテレビ会議システムで使用するマイクとスピーカーの組み合わせを新たに選んだときに、エコーキャンセラーの学習が自動的に行われ、遠隔端末とテレビ会議を行ったときにアコースティックエコーが適切にキャンセルされる。
【0050】
[他の実施形態]
尚、本実施形態では特に説明しなかったが、更に図3に示すように、システムコンポ381の音声入力に接続され、LANからのパケット化された音声をシステムコンポ381のスピーカーに流すスピーカーアダプタ380や通常のマイク391からの入力をパケット化してLANに流すマイクアダプタ390を備える構成でも良い。その場合のマイクアダプタ390及びスピーカーアダプタの構成について説明する。
【0051】
図13は、マイクアダプタ390の構成を示す図である。1301はマイクからのアナログ信号を受信するためのマイクインタフェースである。尚、1002〜1005は図10に示すネットワークマイク340の構成と同じである。
【0052】
図14は、スピーカーアダプタ380の構成を示す図である。図6に示したモニタ&スピーカーアダプタ330の構成から音声に関する部分を抜き出した構成である。601〜603、606及び607は図6に示した構成と同じである。図14において、1401は通信端末310からの制御パケットに従ってシステムを制御する操作・システム制御部である。
【0053】
また、本実施形態においては、パケット通信端末310と遠隔端末(音声及びビデオの入出力ユニット)とのLAN接続は有線で行っているが、無線を用いて接続するようにしても良い。
【0054】
図15は、他の実施形態におけるテレビ電話システムの構成を示す図である。図15において、1500は有線LANと無線LANとの間で接続・変換を行うHUBタイプの無線LANアクセス装置である。この場合、無線LANを用いる遠隔端末の構成は、LANインターフェース部が有線から無線に変わるだけで、その他の構成に変化はない。また、操作やシステムの処理も同様である。
【0055】
以上説明した実施形態によれば、カメラ、スピーカー、マイク、モニタなどの入出力ユニットは、ネットワークに接続するだけで良いため、任意の位置に設置して良く、またそれらの用途はグループ化を変更することにより自由に選ぶことができる。特に、ネットワークを無線LANにした場合や、電源線LANにした場合に、この効果は顕著に顕れる。
【0056】
また、カメラとスピーカーをグループ化したときに、自動的にエコーキャンセラーのトレーニングが行われるために、グループ化を変更しても、テレビ会議でエコーに悩まされることがなくなる。
【0057】
尚、本発明は複数の機器(例えば、ホストコンピュータ,インターフェース機器,リーダ,プリンタなど)から構成されるシステムに適用しても、1つの機器からなる装置(例えば、複写機,ファクシミリ装置など)に適用しても良い。
【0058】
また、本発明の目的は前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(CPU若しくはMPU)が記録媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0059】
この場合、記録媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記録媒体は本発明を構成することになる。
【0060】
このプログラムコードを供給するための記録媒体としては、例えばフロッピー(登録商標)ディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0061】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0062】
更に、記録媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0063】
【発明の効果】
以上説明したように、本発明によれば、ネットワーク接続された、任意のメディア入力装置と任意のメディア出力装置とをメディア入出力装置として管理する際に、該メディア入出力装置の設置環境に応じて、メディア情報における音声のエコー成分の除去に用いる演算パラメータを決定することにより、メディア入力装置とメディア出力装置とを自由に組み合わせても、そのエコーキャンセル処理も適切に行うことができる。
【図面の簡単な説明】
【図1】従来のテレビ会議装置の構成を示すブロック図である。
【図2】従来のテレビ会議装置に接続して使用されるエコーキャンセラー付きスピーカーフォンの構成を示すブロック図である。
【図3】本実施形態におけるテレビ電話システムの構成を示す図である。
【図4】パケット通信端末310の詳細な構成を示すブロック図である。
【図5】エコーキャンセルDSP405とオーディオコーデック404との間のデータの流れを示す図である。
【図6】モニタ&スピーカーアダプタ330の構成を示す図である。
【図7】ネットワークビデオモニタ360の構成を示す図である。
【図8】ネットワークスピーカー370の構成を示す図である。
【図9】ネットワークカメラ320の構成を示す図である。
【図10】ネットワークマイク340の構成を示す図である。
【図11】カメラアダプタ350の構成を示す図である。
【図12】エコーキャンセラー学習処理を示すフローチャートである。
【図13】マイクアダプタ390の構成を示す図である。
【図14】スピーカーアダプタ380の構成を示す図である。
【図15】他の実施形態におけるテレビ電話システムの構成を示す図である。
【符号の説明】
301 電話回線
302 スプリッター
304 ADSLモデム
305 HUB
310 パケット通信端末
320 雲台付きネットワークカメラ
321 テレビ
330 モニタ&スピーカーアダプタ
331 赤外リモコン
340 ネットワークマイク
350 カメラアダプタ
351 ビデオカメラ
360 ネットワークビデオモニタ
370 ネットワークスピーカー
380 スピーカーアダプタ
381 システムコンポ(スピーカー)
390 マイクアダプタ
391 マイク
401 プロトコル制御部
402 呼制御・システム制御部
403 操作制御部
404 オーディオコーデック
405 エコーキャンセルDSP
406 パケット化/デパケット化制御部
407 グループ管理部
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a communication device connected to a network for communicating media information with a remote point, a management method thereof, and a videophone system.
[0002]
[Prior art]
At present, dial-up connection using an analog line (PSTN) or a digital line (ISDN), which requires a communication fee in addition to a provider fee, is mainly used to connect a general household to the Internet.
[0003]
However, recently, fixed-rate IP connection using a dedicated line such as a so-called Asymmetric Digital Subscriber Line (ADSL) or a CATV network, which enables digital data communication while making a call through one telephone line, is also available. Operation has begun. As described above, when the Internet is constantly connected to the terminals of ordinary households, communication means such as telephones and faxes, which used to use the public line network, can now be performed by IP packet communication using the packet communication network. It is becoming.
[0004]
Therefore, a packet communication terminal device that transmits moving images, voices, still images, and other multimedia information over a LAN is currently in H.264. 323 is recommended. This H. The use of terminal equipment according to the H.323 recommendation and the use of a constant connection to the Internet have made it possible to realize communication means such as an IP telephone and a video telephone system with a fixed usage fee.
[0005]
FIG. 1 is a block diagram showing a configuration of a conventional video conference device. In FIG. This is a video conference device main body according to the H.323 recommendation. Reference numeral 101 denotes a video / audio codec, which includes a plurality of functions as a video decoding unit, an audio decoding unit, a video encoding unit, and an audio encoding unit, which will be described later, and is realized by a digital signal processor (DSP) or the like. .
[0006]
A delay processing unit 102 processes a delay added to a media stream in consideration of maintaining synchronization and a packet arrival jitter in a network, and further delays received encoded audio information for a predetermined period to synchronize with video information. It is also provided to take (lip sync). Reference numeral 103 depackets the received video packets and audio packets, and reconstructs coded video information and coded audio information. 104 performs packetization processing on the encoded video information and audio information into video packets and audio packets.
[0007]
Reference numeral 105 denotes a call control / system control unit, which provides signaling for appropriate operation. The functions provided here include call control, capability information exchange, command and notification signaling, and establishment of logical channels. 106 arranges the transmitted video, audio, data, and control streams according to the format for output to the LAN interface unit 107, and converts the received video, audio, data, and control streams from the message input from the LAN interface unit 107. Take out. Furthermore, it provides logical framing, sequence number addition, error detection, and error correction functions according to each media type. A LAN interface (I / F) unit 107 performs necessary adaptation between the network and the terminal, and 120 is a packet network such as a LAN.
[0008]
121 is a video output device such as a video monitor, 122 is a video input device such as a video camera, 123 is an audio output device such as a speaker, 124 is an audio input device such as a microphone, and 123 and 124 are integrated as a device. Sometimes used as a phone.
[0009]
In the video / audio codec 101, reference numeral 111 denotes a video decoding unit for expanding and decoding received coded video information and outputting it to a video monitor 121. Reference numeral 113 denotes a video coding unit for compressing and coding a video signal from a video camera 122. And 111 and 113 are, for example, H.264. 261, H .; 263 and the like. 112 is an audio decoding unit that expands and decodes the received encoded audio information and outputs it to the speaker 123, 114 is an audio encoding unit that compresses and encodes the audio signal from the microphone 124, and 112 and 114 are For example, G. 711, G.R. An operation based on a standard such as 723.1 is performed.
[0010]
FIG. 2 is a block diagram showing a configuration of a speakerphone with an echo canceller used by connecting to a conventional video conference apparatus. As shown in the figure, the audio output from the speaker output terminal is input to the echo canceller 201, and is divided into a path going to the amplifier 202 and a path going to the delay difference block. The audio output is amplified by the amplifier 202, and the audio is output from the speaker 203. The output voice is reflected on a wall, a ceiling, or the like, and is input to the microphone 204 as an echo 205. The input from the microphone 204 enters the echo canceller 201, where the difference from the converted and delayed speaker output is obtained, the echo component is canceled, and the result is output to the microphone terminal.
[0011]
By the way, the delay time of the reflected sound from the speaker, the attenuation characteristic for each frequency, and the like differ depending on the installation environment. Therefore, in order to operate the echo canceller optimally, learning of parameters is generally performed. When the power of the speakerphone is turned on, a predetermined learning sound is output from the speaker. The echo is input from a microphone, and the echo is canceled by adjusting the parameters of the echo canceller so as to remove the echo component. Such products include, for example, Polycom sound stations.
[0012]
[Problems to be solved by the invention]
Since the input / output devices such as the camera, the speaker, the microphone, and the monitor in the above-described conventional example are all directly connected to the video conference device, their uses are occupied exclusively for the video conference device. Therefore, the device could not be used for other purposes, even when not in a meeting. In addition, the arrangement position is also limited to the vicinity of the installation location of the video conference device main body, and it cannot be installed at a free position in the room.
[0013]
Further, since the parameters of the echo canceller between the camera and the speaker are set when the power is turned on, the power must be turned off / on every time the connection is changed. If this is forgotten, there is a problem that an echo is generated because parameters are not adjusted in accordance with the installation environment, and it is difficult to hear the sound when performing a video conference.
[0014]
The present invention has been made in order to solve the above-mentioned problem, and when managing an arbitrary media input device and an arbitrary media output device connected to a network as a media input / output device, the media input / output device It is an object of the present invention to determine a calculation parameter used for removing an echo component of a sound in media information according to an installation environment of the media information.
[0015]
[Means for Solving the Problems]
In order to achieve the above object, the present invention relates to a communication device connected to a network for communicating media information with a remote point, comprising a plurality of media connected to a network for inputting media information. A management unit that selects and manages an arbitrary media input device and an arbitrary media output device as a media input / output device from among an input device and a plurality of media output devices for outputting media information; And echo canceling means for removing, by a predetermined operation, an echo component of audio in the media information input / output by the media input / output device.
[0016]
According to another aspect of the present invention, there is provided a method of managing a communication device connected to a network and performing communication of media information with a remote point, comprising the steps of: A plurality of media input devices and a plurality of media output devices for outputting media information, a management step of selecting and managing any media input device and any media output device as media input / output devices; And an echo canceling step of removing, by a predetermined operation, an echo component of audio in the media information input / output by the media input / output device managed by the management step.
[0017]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0018]
As an example of a packet communication terminal system according to the present embodiment, a videophone system of a general home in which a LAN environment based on ADSL (Asymmetric Digital Subscriber Line) is introduced will be described.
[0019]
FIG. 3 is a diagram showing a configuration of the videophone system according to the present embodiment. As shown in FIG. 3, a telephone line 301 is connected to a splitter 302, and the splitter 302 separates a low-frequency component composed of an audio signal and a high-frequency component carrying a data signal flowing through a LAN line by a filter. The voice signal component is sent to the telephone 303 and the data signal component is sent to the ADSL modem 304. The output from the ADSL modem 304 is input to the HUB 305, where it is distributed to a plurality of LAN cables.
[0020]
Reference numeral 310 denotes a packet communication terminal according to the present embodiment, and a plurality of devices for inputting and outputting audio and video are connected to the LAN via the HUB 305. Reference numeral 320 denotes a network camera with a camera platform that has a LAN interface, compresses and encodes the camera input and sends the data to the LAN, 321 denotes a normal large-screen television for home use, and 330 denotes a video input terminal and an audio input terminal of the television 321. A monitor and speaker adapter 331 for outputting video and audio from the terminal 310 via the LAN to the television, and an infrared remote controller 331 for controlling the adapter 330. Reference numeral 340 denotes a network microphone having a LAN interface and packetizing voice input and sending the packet to the LAN.
[0021]
With the above configuration, the camera 320, the microphone 340, the monitor of the television 321 and the speaker (hereinafter, remote terminal) are connected to the terminal 310 via the LAN interface, and constitute a video conference system.
[0022]
On the other hand, when watching a television program on the television 321, the microphone 340 and the speaker of the television 321 cannot be used for the purpose of a video conference, so another remote terminal is required as an alternative in that case.
[0023]
Reference numeral 350 denotes a camera adapter which inputs an image of a normal video camera 351, compresses and encodes and packetizes the video, and outputs the video to a LAN interface. 360 is a network video monitor having a LAN interface. 370 has a LAN interface. Network speaker that receives and outputs
[0024]
Next, a detailed configuration of the packet communication terminal 310 according to the present embodiment will be described.
[0025]
FIG. 4 is a block diagram showing a detailed configuration of the packet communication terminal 310. In FIG. 4, reference numeral 401 denotes a protocol control unit which arranges video, audio, data, and control streams to be transmitted according to a format so as to be output to a LAN interface (I / F) unit 408, and receives an input from the LAN interface unit 408. Extract the received video, audio, data and control streams from the received message. Then, it provides logical framing, sequence number addition, error detection, and error correction functions according to each media type. Reference numeral 402 denotes a call control / system control unit, which provides signaling for appropriate operation. The functions provided here include call control, capability information exchange, command and notification signaling, establishment of logical channels, and the like. An operation control unit 403 controls devices according to user operation information received from connected devices on the LAN.
[0026]
Reference numeral 404 denotes an audio codec for decoding encoded voice from a remote terminal and compression-coding a voice signal from a microphone. 711, G.R. An operation based on a standard such as 723.1 is performed. An echo canceling DSP 405 cancels an acoustic echo between the speaker and the microphone. A group management unit 407 manages information such as the IP address and video encoding / decoding capability of the connected devices grouped with the communication terminal 310. A packetization / depacketization control unit 406 converts a destination IP address of a video packet received from a remote terminal into an IP address of a grouped video monitor adapter based on information from a group management unit 407, and The data is transmitted to the LAN via the interface unit 408.
[0027]
Also, the packetization / depacketization control unit 406 converts the destination address of the video packets from the grouped network cameras into the remote terminal, converts the source address into the address of the main body, and transmits it to the remote terminal. Further, the coded voice information received from the remote terminal is adjusted to an appropriate timing by the reception path delay unit 409, and then passed to the audio codec 404. Further, audio information from the grouped network microphones is passed to the echo cancellation DSP 405. A LAN interface 408 controls communication between the LAN line 120 and the terminal 310.
[0028]
Next, the flow of data between the echo cancellation DSP 405 and the audio codec 404 and the echo cancellation in the echo cancellation DSP 405 will be described.
[0029]
FIG. 5 is a diagram showing a data flow between the echo cancellation DSP 405 and the audio codec 404. First, the coded voice information of the remote terminal passed from the packetization / depacketization control unit 406 is decompressed and decoded by the decoder unit 502 of the audio codec 404 after appropriate timing is taken by the reception path delay unit 409. , Is passed to the echo cancel DSP 405. The echo cancellation DSP 405 passes data to the packetization / depacketization control unit 406 and data to the delay filter 503 in order to packetize the decoded audio information and pass it to the speaker unit. The delay filter 503 is parameter-controlled by the filter control 504 to convert and delay received data.
[0030]
On the other hand, the input voice from the microphone unit is received by the LAN interface unit 408, depacketized by the packetization / depacketization control unit 406, and passed to the echo cancellation DSP 405. Then, in the echo cancellation DSP 405, the difference calculator 505 takes the difference from the information from the delay filter 503, and the echo component is removed. The microphone audio information after the echo removal is compressed / encoded by the encoder 501 of the audio codec 404 by a predetermined method, and the compressed / encoded audio information is packetized by the packetization / depacketization control unit 406. The data is transmitted to the remote terminal via the LAN interface unit 408.
[0031]
Here, the configuration of the remote terminal (audio and video input / output unit) connected to the LAN will be described in order.
[0032]
FIG. 6 is a diagram showing a configuration of the monitor & speaker adapter 330. Reference numeral 601 denotes a LAN interface unit for receiving audio packet data, video packet data, and control data from the communication terminal 310; 602, a depacketizing control unit for extracting data from the received packet; 604 is a reception path delay section for reproducing and lip-syncing, 604 is a video decoding section for decoding the compressed video data, and 605 is for converting the decoded digital video information into an NTSC analog signal and outputting it to a monitor. A video interface unit for passing, 606 is a D / A conversion unit for converting received digital audio data into an analog signal, 607 is an amplifier for expanding the analog audio signal to an appropriate output level and passing it to a speaker, and 608 is red. Remote controller that accepts user input from outside remote controller 331 Light unit, 609 is an operation system control unit that controls the reception system a user operation.
[0033]
FIG. 7 is a diagram showing a configuration of the network video monitor 360. Incidentally, 601 to 605 and 608 are the same as the configuration of the monitor & speaker adapter 330 shown in FIG. 7, reference numeral 701 denotes a video monitor unit which receives a video signal from the video interface unit 605 and displays the video signal. An operation / system control unit 702 controls the entire system according to user operation data from the infrared light receiving unit 608 and control data received from the communication terminal 310.
[0034]
FIG. 8 is a diagram showing a configuration of the network speaker 370. Note that 601 to 603, 606 and 607 have the same configuration as the monitor & speaker adapter 330 shown in FIG. In FIG. 8, reference numeral 801 denotes a speaker unit that outputs an audio signal from the amplifier 607, and 802 denotes an operation / system control unit that controls the entire system.
[0035]
FIG. 9 is a diagram showing the configuration of the network camera 320. Reference numeral 901 denotes a camera unit that captures an image of a subject to generate a digital video signal; 902, a video encoding unit that compresses and encodes a video signal from the camera unit 901 by a predetermined method such as, for example, H263; A packetization control unit 904 for packetizing the video signal into an RTP (Real Time Protocol) video packet; a LAN interface 904 for transmitting video packet data to the communication terminal 310 via the LAN and receiving a control packet from the communication terminal 310 And 905, an operation / system control unit that receives control data from the communication terminal 310 and controls the system, and 906, a pan head unit that operates according to control from the control unit 905.
[0036]
FIG. 10 is a diagram showing a configuration of the network microphone 340. Reference numeral 1001 denotes a microphone unit that converts audio into an electric signal; 1002, an A / D converter that converts an analog audio signal from the microphone unit 1001 into a digital signal; and 1003, a packetization control unit that packetizes audio data into RTP audio packets. , 1004 is a LAN interface unit for transmitting packetized voice data to the communication terminal 310 and receiving a control packet from the communication terminal 310. 1005 is an operation / system control for controlling the system according to the control data received from the communication terminal 310. Department.
[0037]
FIG. 11 is a diagram showing a configuration of the camera adapter 350. Note that 902 to 904 are the same as the configuration of the network camera 320 shown in FIG. In FIG. 11, reference numeral 1101 denotes a camera interface that receives an NTSC signal from the video camera 351, converts the NTSC signal into a digital video signal, and outputs the digital video signal. Reference numeral 1102 denotes an operation / system control unit that controls the system according to control from the communication terminal 310.
[0038]
Next, the learning timing of the echo canceller in the present embodiment will be described.
[0039]
FIG. 12 is a flowchart showing the echo canceller learning process. First, the network camera 320 with a camera platform, the monitor & speaker adapter 330, and the network microphone 340 are grouped. That is, the large screen TV 321 is used as a monitor and a speaker of the video conference system. When the user watches a television program on the television 321 from this state, the screen and speakers of the television 321 are used for the television program, and thus cannot be used as a video conference system. Thus, the user selects an alternative monitor, speaker and camera.
[0040]
First, the user uses the infrared remote controller 331 to instruct the camera 320 to cancel the group. The infrared light of the remote controller is received by the monitor & speaker adapter 330, and control data including user operation data is transmitted to the communication terminal 310. Accordingly, the communication terminal 310 receives the user operation control data and releases the camera 320 from the management table in the group management unit 407. Then, control data for canceling grouping is transmitted from the communication terminal 310 to the camera 320 (step S101).
[0041]
Next, the user uses the infrared remote controller 331 to newly instruct grouping of the camera adapters 350. The instruction is sent to the communication terminal 310, and the grouping of the camera adapter 350 is registered in the management table in the group management unit 407. Then, control data for instructing grouping is transmitted from communication terminal 310 to camera adapter 350 (step S102).
[0042]
Next, the user uses the infrared remote controller 331 to instruct the monitor & speaker adapter 330 to cancel grouping. The instruction is sent to the communication terminal 310, and the grouping is released from the management table in the group management unit 407. The communication terminal 310 transmits control data for instructing cancellation of grouping to the monitor & speaker adapter 330 (step S103). Thereafter, all the infrared light from the infrared remote controller 331 is received by the infrared light receiving unit of the network video monitor 360, and the control data is sent to the communication terminal 310.
[0043]
Next, the user uses the infrared remote controller 331 to instruct grouping of the network video monitors 360. The infrared light of the remote controller is received by the infrared light receiving unit of the network video monitor 360, and the operation data is transmitted from the network video monitor 360 to the communication terminal 310. The group management unit 407 of the communication terminal 310 groups the network video monitors 360. Then, control data for instructing grouping is transmitted from communication terminal 310 to network video monitor 360 (step S104).
[0044]
Next, the user instructs grouping of network speakers 370 with remote controller 331, and control data is transmitted to communication terminal 310. The group management unit 407 of the communication terminal 310 groups the network speakers 370. Then, control data for instructing grouping is transmitted from communication terminal 310 to network speaker 370 (step S105).
[0045]
Since the microphone 340 and the speaker 370 are grouped by the group management unit 407 of the communication terminal 310 by the above-described process, the process proceeds to the echo canceller learning process.
[0046]
Here, the learning of the parameters is instructed to the filter control unit 504 of the echo cancellation DSP 405 (step S106). Next, control data for instructing the grouped microphones 340 to start transmitting input voice to the communication terminal 310 is transmitted via the LAN interface unit 408 (step S107).
[0047]
Next, the audio codec 404 is controlled to create predetermined learning sound data, and passes it to the echo cancel DSP 405 (step S108). Then, the data input to the echo cancellation DSP 405 is divided into two paths. That is, one path passes through the delay filter 503, and the other path is sent as it is to the packetization / depacketization control unit 406, packetized, and transmitted to the speaker 370 via the LAN interface unit 408 (step S109). ).
[0048]
As a result, the learning sound data is output from the speaker 370, and the echo is input by the microphone 340. The input echo is transmitted to the communication terminal 310 via the LAN. Further, the communication terminal 310 receives the echo data from the microphone, the acoustic signal data is extracted by the packetization / depacketization control unit 406, and is sent to the echo cancellation DSP 405 (step S110). The parameter of the delay filter 503 is adjusted by the filter control unit 504 of the echo cancellation DSP 405, and the learning of the echo canceller is completed. Then, the learned parameters are stored in the group management unit 407 (step S111).
[0049]
As described above, when a combination of a microphone and a speaker used in the video conference system using the communication terminal 310 is newly selected, the learning of the echo canceller is automatically performed, and the video conference with the remote terminal is performed. Sometimes acoustic echo is properly canceled.
[0050]
[Other embodiments]
Although not specifically described in the present embodiment, as shown in FIG. 3, a speaker adapter 380 connected to the audio input of the system component 381 and flowing packetized audio from the LAN to the speaker of the system component 381. Alternatively, a microphone adapter 390 that packetizes an input from the normal microphone 391 and sends the packet to the LAN may be provided. The configuration of the microphone adapter 390 and the speaker adapter in that case will be described.
[0051]
FIG. 13 is a diagram illustrating a configuration of the microphone adapter 390. Reference numeral 1301 denotes a microphone interface for receiving an analog signal from the microphone. Note that 1002 to 1005 have the same configuration as the network microphone 340 shown in FIG.
[0052]
FIG. 14 is a diagram showing a configuration of the speaker adapter 380. This is a configuration in which a portion related to audio is extracted from the configuration of the monitor & speaker adapter 330 shown in FIG. Reference numerals 601 to 603, 606 and 607 are the same as those shown in FIG. In FIG. 14, reference numeral 1401 denotes an operation / system control unit that controls the system according to a control packet from the communication terminal 310.
[0053]
Also, in the present embodiment, the LAN connection between the packet communication terminal 310 and the remote terminal (audio and video input / output unit) is made by wire, but may be made by wireless.
[0054]
FIG. 15 is a diagram illustrating a configuration of a videophone system according to another embodiment. In FIG. 15, reference numeral 1500 denotes a HUB type wireless LAN access device for performing connection and conversion between a wired LAN and a wireless LAN. In this case, the configuration of the remote terminal using the wireless LAN is the same except that the LAN interface unit is changed from wired to wireless, and other configurations are not changed. The same applies to the operation and the processing of the system.
[0055]
According to the embodiment described above, input / output units such as a camera, a speaker, a microphone, and a monitor need only be connected to a network, and may be installed at an arbitrary position. You can choose freely. This effect is particularly noticeable when the network is a wireless LAN or a power line LAN.
[0056]
In addition, when the camera and the speaker are grouped, the training of the echo canceller is automatically performed. Therefore, even if the grouping is changed, the echo is not bothered by the video conference.
[0057]
Even if the present invention is applied to a system including a plurality of devices (for example, a host computer, an interface device, a reader, a printer, etc.), the present invention can be applied to an apparatus (for example, a copying machine, a facsimile device, etc.) including one device. May be applied.
[0058]
Further, an object of the present invention is to supply a recording medium in which a program code of software for realizing the functions of the above-described embodiments is recorded to a system or an apparatus, and a computer (CPU or MPU) of the system or apparatus stores the recording medium in the recording medium. Needless to say, this can also be achieved by reading and executing the program code thus read.
[0059]
In this case, the program code itself read from the recording medium realizes the functions of the above-described embodiment, and the recording medium storing the program code constitutes the present invention.
[0060]
As a recording medium for supplying the program code, for example, a floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, CD-R, magnetic tape, nonvolatile memory card, ROM, or the like is used. be able to.
[0061]
When the computer executes the readout program code, not only the functions of the above-described embodiments are realized, but also an OS (Operating System) running on the computer based on the instruction of the program code. It goes without saying that a case where some or all of the actual processing is performed and the functions of the above-described embodiments are realized by the processing is also included.
[0062]
Further, after the program code read from the recording medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that a CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments.
[0063]
【The invention's effect】
As described above, according to the present invention, when managing an arbitrary media input device and an arbitrary media output device connected to a network as a media input / output device, depending on the installation environment of the media input / output device, Thus, by determining the calculation parameters used for removing the echo component of the audio in the media information, the echo canceling process can be appropriately performed even if the media input device and the media output device are freely combined.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a conventional video conference device.
FIG. 2 is a block diagram showing a configuration of a speakerphone with an echo canceller used by connecting to a conventional video conference device.
FIG. 3 is a diagram showing a configuration of a videophone system according to the embodiment.
FIG. 4 is a block diagram showing a detailed configuration of the packet communication terminal 310.
FIG. 5 is a diagram showing a data flow between the echo cancel DSP 405 and the audio codec 404.
FIG. 6 is a diagram showing a configuration of a monitor & speaker adapter 330.
FIG. 7 is a diagram showing a configuration of a network video monitor 360.
FIG. 8 is a diagram showing a configuration of a network speaker 370.
FIG. 9 is a diagram showing a configuration of a network camera 320.
FIG. 10 is a diagram showing a configuration of a network microphone 340.
11 is a diagram illustrating a configuration of a camera adapter 350. FIG.
FIG. 12 is a flowchart illustrating an echo canceller learning process.
FIG. 13 is a diagram showing a configuration of a microphone adapter 390.
FIG. 14 is a diagram showing a configuration of a speaker adapter 380.
FIG. 15 is a diagram illustrating a configuration of a videophone system according to another embodiment.
[Explanation of symbols]
301 telephone line
302 splitter
304 ADSL modem
305 HUB
310 packet communication terminal
320 Network Camera with Head
321 TV
330 Monitor & Speaker Adapter
331 infrared remote control
340 network microphone
350 Camera Adapter
351 video camera
360 Network Video Monitor
370 Network Speaker
380 Speaker Adapter
381 System component (speaker)
390 Microphone Adapter
391 microphone
401 Protocol control unit
402 call control / system control unit
403 Operation control unit
404 audio codec
405 Echo cancellation DSP
406 Packetization / depacketization control unit
407 Group Management Department

Claims (7)

ネットワークに接続され、遠隔地点との間でメディア情報の通信を行う通信装置であって、
ネットワーク接続された、メディア情報を入力するための複数のメディア入力装置及びメディア情報を出力するための複数のメディア出力装置のうち、任意のメディア入力装置と任意のメディア出力装置とをメディア入出力装置として選択し管理する管理手段と、
前記管理手段で管理されるメディア入出力装置で入出力されるメディア情報における音声のエコー成分を所定の演算により除去するエコーキャンセル手段とを有することを特徴とする通信装置。
A communication device connected to a network for communicating media information with a remote point,
Among a plurality of media input devices for inputting media information and a plurality of media output devices for outputting media information, which are network-connected, any media input device and any media output device can be used as media input / output devices. Management means to select and manage as
A communication apparatus comprising: echo canceling means for removing, by a predetermined operation, an echo component of audio in the media information input / output by the media input / output device managed by the management means.
前記エコーキャンセル手段は、前記所定の演算に用いるパラメータを前記メディア入出力装置の設置環境に応じて決定し、前記パラメータを決定するタイミングは前記管理手段で任意のメディア入力装置と任意のメディア出力装置とをメディア入出力装置として管理するタイミングであることを特徴とする請求項1に記載の通信装置。The echo canceling unit determines a parameter used for the predetermined calculation according to an installation environment of the media input / output device, and a timing for determining the parameter is determined by the management unit using any media input device and any media output device. 2. The communication apparatus according to claim 1, wherein the timing is a timing for managing the media as a media input / output device. 前記ネットワークは、ローカルエリアネットワークであり、非対称デジタル加入者回線を介してインターネットに常時接続されていることを特徴とする請求項1に記載の通信装置。The communication device according to claim 1, wherein the network is a local area network, and is always connected to the Internet via an asymmetric digital subscriber line. 請求項1乃至請求項3の何れか一項に記載の通信装置と前記メディア入出力装置とから構成されるテレビ電話システム。A videophone system comprising the communication device according to any one of claims 1 to 3 and the media input / output device. ネットワークに接続され、遠隔地点との間でメディア情報の通信を行う通信装置の管理方法であって、
ネットワーク接続された、メディア情報を入力するための複数のメディア入力装置及びメディア情報を出力するための複数のメディア出力装置のうち、任意のメディア入力装置と任意のメディア出力装置とをメディア入出力装置として選択し管理する管理工程と、
前記管理工程で管理されるメディア入出力装置で入出力されるメディア情報における音声のエコー成分を所定の演算により除去するエコーキャンセル工程とを有することを特徴とする通信装置の管理方法。
A method for managing a communication device connected to a network and communicating media information with a remote point,
Among a plurality of media input devices for inputting media information and a plurality of media output devices for outputting media information, which are network-connected, any media input device and any media output device can be used as media input / output devices. A management process to select and manage as
An echo canceling step of removing, by a predetermined operation, an echo component of audio in the media information input / output by the media input / output device managed in the managing step.
コンピュータを請求項1乃至請求項3の何れか一項に記載の通信装置として機能させるためのプログラム。A program for causing a computer to function as the communication device according to claim 1. 請求項6に記載のプログラムが記録されたコンピュータ読み取り可能な記録媒体。A computer-readable recording medium on which the program according to claim 6 is recorded.
JP2002234726A 2002-08-12 2002-08-12 Communication apparatus and management method thereof, and videophone system Withdrawn JP2004080143A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002234726A JP2004080143A (en) 2002-08-12 2002-08-12 Communication apparatus and management method thereof, and videophone system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002234726A JP2004080143A (en) 2002-08-12 2002-08-12 Communication apparatus and management method thereof, and videophone system

Publications (1)

Publication Number Publication Date
JP2004080143A true JP2004080143A (en) 2004-03-11

Family

ID=32019451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002234726A Withdrawn JP2004080143A (en) 2002-08-12 2002-08-12 Communication apparatus and management method thereof, and videophone system

Country Status (1)

Country Link
JP (1) JP2004080143A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007325073A (en) * 2006-06-02 2007-12-13 Konica Minolta Holdings Inc Echo canceling circuit, acoustic apparatus, network camera, and echo canceling method
US8165641B2 (en) 2007-07-26 2012-04-24 Casio Hitachi Mobile Communications Co., Ltd Noise suppression system, sound acquisition apparatus, sound output apparatus, and computer-readable medium
JP2013026843A (en) * 2011-07-21 2013-02-04 Hitachi Ltd Television conference system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007325073A (en) * 2006-06-02 2007-12-13 Konica Minolta Holdings Inc Echo canceling circuit, acoustic apparatus, network camera, and echo canceling method
JP4725422B2 (en) * 2006-06-02 2011-07-13 コニカミノルタホールディングス株式会社 Echo cancellation circuit, acoustic device, network camera, and echo cancellation method
US8165641B2 (en) 2007-07-26 2012-04-24 Casio Hitachi Mobile Communications Co., Ltd Noise suppression system, sound acquisition apparatus, sound output apparatus, and computer-readable medium
EP2019544A3 (en) * 2007-07-26 2016-03-23 Lenovo Innovations Limited (Hong Kong) Noise suppression system, sound acquisition apparatus, sound output apparatus and computer-readable medium
JP2013026843A (en) * 2011-07-21 2013-02-04 Hitachi Ltd Television conference system

Similar Documents

Publication Publication Date Title
JP3676979B2 (en) High-speed video transmission via telephone line
JP2004506347A (en) Personal Video Conference System with Distributed Processing Structure
EP1628480A2 (en) Telecommunications system
US8749611B2 (en) Video conference system
US20030206739A1 (en) Audio/video IP camera
US7453829B2 (en) Method for conducting a video conference
WO2016147538A1 (en) Videoconference communication device
JP2006340321A (en) Network system and communication method in network system
JP2004080143A (en) Communication apparatus and management method thereof, and videophone system
JP2007274020A (en) Communication terminal device, and communication control device
JP5340880B2 (en) Output control device for remote conversation system, method thereof, and computer-executable program
JP2007020095A (en) Information combination apparatus, information combination system, information synchronizing method and program
JP2003163666A (en) Intercommunication system
JP5010748B1 (en) Video display device, video processing method, and video display system
JP2002290940A (en) Video conference system
JP2004165949A (en) Tv phone system
JP5330661B2 (en) Intercom base unit
JP2003060642A (en) Private communication system
JP3320086B2 (en) Multimedia communication method
JP2004088480A (en) Image pickup device and method for controlling data transmission
JP2009055361A (en) Video transmitter
JP2002335502A (en) Video-voice information communication system, television conference terminal, portable terminal, television conference communication information transfer method and storage medium
US20130113872A1 (en) Video conference system
JPH1013556A (en) Video conference system
JP2023156047A (en) Content relay device, content relay system, content relay method, and content relay program

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051101