JP2006340321A - ネットワークシステム及びネットワークシステムにおける通信方法 - Google Patents

ネットワークシステム及びネットワークシステムにおける通信方法 Download PDF

Info

Publication number
JP2006340321A
JP2006340321A JP2005166078A JP2005166078A JP2006340321A JP 2006340321 A JP2006340321 A JP 2006340321A JP 2005166078 A JP2005166078 A JP 2005166078A JP 2005166078 A JP2005166078 A JP 2005166078A JP 2006340321 A JP2006340321 A JP 2006340321A
Authority
JP
Japan
Prior art keywords
unit
audio
video
data
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005166078A
Other languages
English (en)
Inventor
Miki Ito
幹 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005166078A priority Critical patent/JP2006340321A/ja
Publication of JP2006340321A publication Critical patent/JP2006340321A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 音声データの送信部と受信部が異なる端末にある場合でも、エコーの発生を抑制することができるネットワークシステムを提供する。
【解決手段】 ネットワークカメラ100aと映像音声受信端末200aと備えるネットワークシステムであって、映像音声受信端末200aにおいて、時間情報が付加されたデジタル音声データがネットワークカメラ100aに送信され、ネットワークカメラ100aにおいて、時間情報が付加されたデジタル音声データが入力され、そのデジタル音声データの出力を、当該時間情報に基づいて一定時間遅延させ、当該一定時間遅延されたデジタル音声データから、音声の折り返しにより入力されたデジタル音声データを減算する。
【選択図】 図3

Description

本発明は、ネットワークカメラと映像音声受信端末を利用して、映像および音声の双方向配信を使ったテレビ電話機能を実現するネットワークシステム及びネットワークシステムにおける通信方法に関する。
最近、一般家庭でADSLやCATV、FTTHなどを使った料金定量制のIP常時接続の運用が広まってきた。このように、家庭端末がインターネットに常時接続されるようになると、今まで公衆回線網を使っていた電話やFAXなどの通信手段が、パケット通信網を利用したIPパケット通信で実現できるようになる。また、オフィス環境において、従来のEthernet(登録商標)で構築されていたLAN環境も、光LANなどの広帯域化が進み、数Gbpsの単位で高速化が進んでいる。
現在、動画像、音声、静止画、その他のマルチメディア情報の配信をLAN上で行うストリーム配信は、ネットワークの高速化に伴い、より大容量なコンテンツが配信されるようになっている。監視システムにおいて、画像をJPEGフォーマットで圧縮し、静止画として、または、Motion JPEGとして、動画でネットワークに配信するものが多い。また、スポーツイベントやコンサートなどのライブ中継においては、動画をMPEG2フォーマットで、音声をMPEG1Layer2フォーマット又はL−PCM形式などの高音質で配信することが望まれる。また、近年の携帯端末のブロードバンド化によって、携帯電話および携帯端末への音声・映像のライブ配信も可能となった。その際、動画をMPEG4形式、音声をAMR形式で配信されることが始まっている。
さらに、ネットワークにつながれたカメラおよびマイクを映像および音声の入力機器として使って、映像および音声の双方向配信を行うことにより、テレビ電話機能を実現することもできる。
図9は、パケットネットワーク網に接続されたネットワークカメラシステムの構成例を示す図である。
広域パケットネットワーク網(WAN)700に、ルータ300A,300B,300Cを介して、ローカルネットワーク(LAN)500A,500B,500Cがそれぞれ接続されており、LAN500A,500B,500Cにネットワークカメラ100A,100B,100C及び映像音声受信端末200A,200B,200Cがそれぞれ接続されている。例えば、LAN500Aに接続されているネットワークカメラ100Aから、LAN500Bに接続されている映像音声受信端末200Bへ映像および音声を配信し、さらにLAN500Bに接続されているネットワークカメラ100Bから、LAN500Aに接続されている映像音声受信端末200Aへ映像および音声を配信することによって、テレビ電話機能を実現できる。
そこで、このテレビ電話機能のうち、音声の双方向通信において、従来、エコーと呼ばれる現象が起こることが知られている。これは、スピーカーなどの音声出力装置より出力された音声は、話者に届くとともに音声の回り込みや話者のいる環境での反響により、マイクなどの音声入力装置に再入力されてしまい、相手に届いてしまうというものである。これに対処するため、従来からエコーキャンセル技術が用いられている(例えば、特許文献1参照)。
図10は、従来のエコーキャンセラを用いたエコー抑制システムを示した図である。
図10において、800は音声送受信端末であり、通信回線としてネットワーク700を介して遠隔地の音声送受信端末と音声双方向通信を行う。音声送受信端末800は、音声信号を符号化して音声データとして送信し、又は受信した音声データを復号化して音声信号にする音声コーデック802と、エコーキャンセラ801を有している。エコーキャンセラ801はスピーカー602から出力される音声の信号を雑音信号として取り込み、その取り込んだ雑音信号分をマイク110から入力される信号から減ずることにより、マイク110から回り込んで再入力された音声の雑音信号を打ち消す構成となっている。
特開2004−80143号公報
しかし、従来のエコーキャンセラ801を用いたエコー抑制システムでは、音声送受信端末800という1つの端末内でエコーキャンセルを行っているために、上記図9で示したネットワークカメラ100A,100B,100Cと映像音声受信端末200A,200B,200Cを用いる、映像および音声の双方向配信を使ったテレビ電話機能では、音声データの送信部と受信部が異なった端末にあるため、そのままではエコーキャンセルができない構成となっている。
本発明の目的は、上記の課題を鑑みて、音声データの送信部と受信部が異なる端末にある場合でも、エコーの発生を抑制することができるネットワークシステム及びネットワークシステムにおける通信方法を提供することにある。
上記目的を達成するため、請求項1のネットワークシステムは、外部装置にデータを配信する第1ユニットと、前記外部装置と異なる他の外部装置から音声データを受信する第2ユニットとがネットワークを介して互いに接続されるネットワークシステムにおいて、前記第2ユニットは、前記第1ユニットに送信すべき音声データに時間情報を付加する時間情報付加手段と、前記時間情報が付加された音声データを前記第1ユニットに送信する送信手段とを備え、前記第1ユニットは、前記音声データを入力する第1入力手段と、前記第2ユニットから前記時間情報が付加された音声データを入力する第2入力手段と、前記第2入力手段で入力された音声データの出力を、前記時間情報に基づいて一定時間遅延させる遅延手段と、前記遅延手段で一定時間遅延された音声データから、前記第1入力手段により入力された音声データを減算する減算手段とを備えることを特徴とする。
請求項4のネットワークシステムは、外部装置にデータを配信する第1ユニットと、当該第1ユニット及び前記外部装置と異なる他の外部装置から音声データを受信する第2ユニットとがネットワークを介して互いに接続されるネットワークシステムにおいて、前記第1ユニットは、前記第2ユニットに送信すべき音声データに時間情報を付加する時間情報付加手段と、前記時間情報が付加された音声データを前記第2ユニットに送信する送信手段とを備え、前記第2ユニットは、前記外部装置と異なる他の外部装置から音声データを入力する第1入力手段と、前記第1ユニットから前記時間情報が付加された音声データを入力する第2入力手段と、前記第1入力手段で入力された音声データの出力を、前記時間情報に基づいて一定時間遅延させる遅延手段と、前記遅延手段で一定時間遅延された音声データから、前記第2入力手段により入力された音声データを減算する減算手段とを備えることを特徴とする。
請求項7のネットワークシステムにおける通信方法は、外部装置にデータを配信する第1ユニットと、前記外部装置と異なる他の外部装置から音声データを受信する第2ユニットとがネットワークを介して互いに接続されるネットワークシステムにおける通信方法であって、前記第2ユニットが、前記第1ユニットに送信すべき音声データに時間情報を付加する時間情報付加工程と、前記時間情報が付加された音声データを前記第1ユニットに送信する送信工程とを実行し、前記第1ユニットが、前記音声データを入力する第1入力工程と、前記第2ユニットから前記時間情報が付加された音声データを入力する第2入力工程と、前記第2入力工程で入力された音声データの出力を、前記時間情報に基づいて一定時間遅延させる遅延工程と、前記遅延工程で一定時間遅延された音声データから、前記第1入力工程により入力された音声データを減算する減算工程とを実行することを特徴とする。
請求項8のネットワークシステムにおける通信方法は、外部装置にデータを配信する第1ユニットと、当該第1ユニット及び前記外部装置と異なる他の外部装置から音声データを受信する第2ユニットとがネットワークを介して互いに接続されるネットワークシステムにおける通信方法であって、前記第1ユニットが、前記第2ユニットに送信すべき音声データに時間情報を付加する時間情報付加工程と、前記時間情報が付加された音声データを前記第2ユニットに送信する送信工程とを実行し、前記第2ユニットが、前記外部装置と異なる他の外部装置から音声データを入力する第1入力工程と、前記第1ユニットから前記時間情報が付加された音声データを入力する第2入力工程と、前記第1入力工程で入力された音声データの出力を、前記時間情報に基づいて一定時間遅延させる遅延工程と、前記遅延工程で一定時間遅延された音声データから、前記第2入力工程により入力された音声データを減算する減算工程とを実行することを特徴とする。
請求項1,7に係る発明によれば、第2ユニットにおいて、時間情報が付加された音声データが第1ユニットに送信され、第1ユニットにおいて、時間情報が付加された音声データが入力され、その音声データの出力を、当該時間情報に基づいて一定時間遅延させ、当該一定時間遅延された音声データから、音声の折り返しにより入力された音声データを減算する。これにより、音声データの送信部と受信部が異なる端末にある場合でも、エコーの発生を抑制することができる。
請求項4,8に係る発明によれば、第2ユニットにおいて、第1ユニットがデータを配信する外部装置と異なる他の外部装置から音声データが入力され、第1ユニットから時間情報が付加された音声データが入力され、前記他の外部装置から入力された音声データの出力を、時間情報に基づいて一定時間遅延させ、一定時間遅延された音声データから、前記時間情報が付加された音声データを減算する。これにより、音声データの送信部と受信部が異なる端末にある場合でも、エコーの発生を抑制することができる。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
図1は、本発明の第1の実施の形態に係るネットワークシステムに適用されるネットワークカメラの構成を示したブロック図である。
同図において、100はネットワークカメラの本体を示す。ネットワークカメラ100は、焦点合わせ及び絞り調整を行うためのレンズユニット101と、レンズユニット101を駆動するための駆動制御部102と、CCDセンサーやMOSセンサーなどの撮像素子(具体的にはCCD)103と、相関二重サンプリング部と自動利得制御部(以下、「CDS/AGC」)104と、ビデオA/D変換器105と、タイミングジェネレータ(以下、「TG」という)106と、同期信号発生器(以下、「SSG」という)107と、信号処理部108と、信号処理部108からのY、U/V形式のデジタル画像信号(映像信号)をデジタル映像データとして圧縮し符号化するビデオ符号化部109と、マイクユニット110と、外付けのマイクから音声を入力する外部マイク入力部111と、マイクユニット110又は外部マイク入力部111からの音声信号を増幅させるオーディオアンプ112と、オーディオアンプ112からの音声信号をデジタル音声データに変換するオーディオA/D変換器113とを備えている。
ネットワークカメラ100は、さらに、後述する映像音声受信端末200で復号化されたパケット化デジタル音声データをデパケット化するオーディオデパケット化部120と、オーディオデパケット化部120でデパケット化されたデジタル音声データを一定時間、バッファリングするオーディオ遅延部119と、オーディオ遅延部119から受信したデジタル音声データから、オーディオA/D変換器113から受信したデジタル音声データを減算するオーディオ減算部118と、オーディオ減算部118から受信するデジタル音声データを圧縮し符号化するオーディオ符号化部114と、ビデオ符号化部109及びオーディオ符号化部114の機能を包含し、DSP(Digital Signal Processor)などで実現されるビデオ・オーディオエンコーダー121と、パケット化多重化部116と、ネットワークカメラ100のシステム全体を制御するシステム制御部115と、LAN500などのパケットネットワーク網とネットワークカメラ100との間における通信制御を行うLANI/F部117とを備えている。
パケット化多重化部116は、符号化されたデジタル映像データおよびデジタル音声データをそれぞれビデオパケット、オーディオパケットに変換するパケット化処理を行い、さらに所定のフォーマットに従い、送信すべきビデオパケット、オーディオパケットおよび制御パケットをLANI/F部117に出力するために、所定の形式に従ってこれらのパケットを配置してパケットの多重化処理を行う。
次に、ネットワークカメラ100の動作を説明する。まず、映像は、レンズユニット101で撮像された画像をCCD103上に結像させ、TG106とSSG107のタイミングに合わせて光学画像を電気信号に変換し出力する。出力されたCCD信号は、CDS/AGC104で調整される。
調整後のCCD信号は、ビデオA/D変換器105へ供給されてデジタル画像信号となる。このデジタル画像信号は、信号処理部108で所定の色処理・ホワイトバランス調整などをデジタル的に行い、適正レベルに調整されたデジタル信号であるY、U/V信号として出力される。また、信号処理部108ではレンズユニット101を駆動するために必要なAE値(Auto Exposure)や鮮鋭度信号などを取り出し、システム制御部115に出力する。システム制御部115は、レンズユニット駆動制御部102を駆動して、絞りの調整や合焦を行う。信号処理部108から出力されたデジタル画像信号は、Y、U/Vの形式でビデオ符号化部109に供給され、伝送用にデジタル画像信号はデジタル映像データとして圧縮され、フレームレート設定などが施される。ここでの伝送用の圧縮方式は、例えば、MPEG2、MPEG4、H.263又はJPEGなどの規格に基づいている。
次に、音声はマイクユニット110を通して、又は多種の外部マイクを使用する場合は外部マイク入力部111を通して音声信号に変換され、オーディオアンプ112で増幅される。増幅された音声信号はオーディオA/D変換器113へ供給されて、8KHz、16KHz、又は44.1KHzなどの周波数によりサンプリングが行われてデジタル音声データとなる。さらに、デジタル音声データはオーディオ減算部118へ供給される。オーディオ減算部118では、映像音声受信端末200から転送されてきたデジタル音声データから、オーディオA/D変換器113から入力されたデジタル音声データを減算する減算処理が行われる。
LAN500を介して後述する映像音声受信端末200から転送されてきたオーディオパケット(エコーの原因となる)は、LANI/F部117を介してオーディオデパケット化部120にてデパケット化されてオーディオ遅延部119に供給される。
このオーディオ遅延部119にて、端末の使用している環境での音声折り返し時間を考慮した一定時間をカウントしてバッファリングを行う。この音声折り返し時間は、予め、後述する映像音声受信端末200より白色ノイズを発生させて、このノイズにタイムスタンプをつけて、ネットワークカメラ100に転送させたデジタルノイズデータの到着時間と、実際にマイクユニット110を通して入力されて得られたデジタルノイズデータの到着時間との差を計測することによって得られる。
また、実使用においてのデジタル音声データの類似比較学習によって、時間を測定する方法でも可能である。このようにして得られたデジタル音声データはオーディオ符号化部114に供給され、伝送用に音声データの圧縮、フレームレート設定などが施される。
ここでの伝送用の圧縮方式は、例えば、AMR、G.711、G.722などの規格に基づいている。又は圧縮せずにそのままのレベルのL−PCMフォーマットで出力してもよい。
ビデオ符号化部109から供給された符号化されたデジタル映像データは及びオーディオ符号化部114から供給された符号化されたデジタル音声データはパケット化多重化部116にて、それぞれビデオパケット、オーディオパケットにパケット化され、さらにそれらのパケットに対してRTPなどのプロトコルに従って、多重化処理が行われ、多重化処理が行われたパケットがLANI/F部117よりLAN500を介して遠隔地へ伝送される。
図2は、ネットワークシステムに適用される映像音声受信端末の構成を示したブロック図である。
同図において、200は映像音声受信端末の本体を示す。映像音声受信端末200は、LANI/F部201、LANI/F部201介して受信した多重化されたパケットをビデオパケット、オーディオパケットおよび制御パケットの各メディアに分離し、ビデオパケット、オーディオパケットをそれぞれデパケット化し、符号化されたデジタル映像データ及び符号化されたデジタル音声データを生成するデパケット化分離部202と、ネットワークでのパケット到着ジッタを考慮してメディアストリームに付加された遅延を処理すると共にデパケット化分離部202から受信した符号化されたデジタル音声データを所定期間遅延して符号化されたデジタル映像データとの同期(リップ・シンク)をとる遅延処理部203と、遅延処理部203から受信した符号化されたデジタル映像データを伸張し復号化することでデジタル映像データを生成するビデオ復号化部205と、遅延処理部203から受信した符号化されたデジタル音声データを伸張し復号化することでデジタル音声データを生成するオーディオ復号化部206と、ビデオ復号化部205及びオーディオ復号化部206の機能を包含し、DSPなどで実現されるビデオ・オーディオデコーダ207と、ビデオ復号化部205によって復号化されたデジタル映像データをアナログの映像信号に変換してビデオモニタなどのビデオ出力装置601に出力するビデオD/A変換器208と、オーディオ復号化部206によって復号化されたデジタル音声データをアナログの音声信号に変換してスピーカーなどのオーディオ出力装置602に出力するオーディオD/A変換器209とを備えている。
さらに、映像音声受信端末200は、オーディオ復号化部206によって復号化されたデジタル音声データに対しタイムスタンプを付加する時間情報付加部210と、時間情報付加部210によってタイムスタンプを付加されたデジタル音声データをオーディオパケットに変換するパケット化処理を行い、LANI/F部201を介してネットワークカメラ100へ転送を行うオーディオパケット化部211と、映像音声受信端末200のシステム全体を制御するシステム制御部204とを備えている。システム制御部204は、デパケット化分離部202及び時間情報付加部210を介してシステム全体を制御する。
図3は、ネットワークカメラ100と映像音声受信端末200との組み合わせによるネットワークシステムの構成図である。
ここで、図3のネットワークカメラ100a及びネットワークカメラ100bは、図1のネットワークカメラ100と同一の構成を備えており、図3の映像音声受信端末200a及び映像音声受信端末200bは、図2の映像音声受信端末200と同一の構成を備えているが、説明の便宜上、「a」又は「b」の文字を符号に付加している。また、ネットワークカメラ100a及び映像音声受信端末200aはLAN500aに接続されており、ネットワークカメラ100b及び映像音声受信端末200bはLAN500bに接続されている。LAN500a及びLAN500bは広域パケットネットワーク網(WAN)700に接続されている。
上記の構成で、図3に基づいて、ネットワークカメラ100a及び映像音声受信端末200aから遠隔地のネットワークカメラ100b及び映像音声受信端末200bに対してLAN500a,500b及び広域パケットネットワーク網(WAN)700を介して伝送されるパケットの流れを説明する。
まず、マイク110aを備えるネットワークカメラ100aは、RTP(Real-time Transport Protocol)などのリアルタイム転送プロトコルにしたがってパケット化したビデオパケット及びオーディオパケットのストリーム(AVS1)を映像音声受信端末200bに伝送する。
映像音声受信端末200bは、ネットワークカメラ100aから受信したビデオパケット及びオーディオパケットのストリームパケット(AVS1)をビデオパケット及びオーディオパケットにそれぞれ復号化し、当該復号化されたビデオパケット及びオーディオパケットは、モニタ601b及びスピーカー603bで再生される。
映像音声受信端末200bで復号化されたデジタル音声データは、復号化時のタイムスタンプを付加された上でパケット化されて、LAN500a,500b及び広域パケットネットワーク網(WAN)700を介してネットワークカメラ100bへオーディオパケット(A2)として転送される。
ネットワークカメラ100bは、転送されたオーディオパケット(A2)をデパケット化してデジタル音声データを作成し、オーディオパケット(A2)に付加されたタイムスタンプを基にネットワークカメラ100bを使用している環境で生じる音声折り返しの時間を考慮して、一定時間のカウントをしてデジタル音声データのバッファリングを行い、マイク110bから入力された音声信号をデジタル化したデジタル音声データから当該バッファリングされたデジタル音声データを減算する減算処理を施し、減算されたデジタル音声データを符号化する。その後、ネットワークカメラ100bは、ネットワークカメラ100aと同様に、その符号化されたデジタル音声データを映像信号とともにビデオパケット、オーディオパケットに変換し、これらのパケットを多重化して、RTPプロトコルにしたがって、多重化したビデオパケットおよびオーディオパケットのストリーム(AVS2)を映像音声受信端末200aに伝送する。
従って、ネットワークカメラ100aはネットワークカメラ100bと同様の処理を実行し、映像音声受信端末200aは映像音声受信端末200bと同様の処理を実行する。
次に、このネットワークカメラ100aを用いたパケット通信でテレビ会議を行う場合について、説明する。
図4は、LAN500a上にあるネットワークカメラ100aから遠隔地のLAN500b上の映像音声受信端末200bへパケットのストリームを伝送し、さらに遠隔地LAN500b上のネットワークカメラ100bからLAN500a上にある映像音声受信端末200aへパケットのストリームを伝送するSIPテレビ会議通信(SIP;Session Initiation Protocol)を行うための通信接続手順を示した図である。
まず、SIPテレビ会議通信を行う前に、映像音声受信端末200aは入力ソースとして使用するパケットのストリーム(以下、「メディアストリーム」という)を伝送するネットワークカメラ100aとの間で、ネゴシエーションをする必要がある。映像音声受信端末200aがブロードキャストなどの方法によるデバイス発見手順によって、LAN500a上に接続されているネットワークカメラ100aのIPアドレスを取得する。そして、数台のリストアップされたネットワークカメラ100の中から操作するネットワークカメラ100aの取得したIPアドレスの予め決められたポートに対し、映像音声受信端末200aからネットワークカメラ100aを使用する意で、“Open”コマンドを送り、それに対してネットワークカメラ100aは“OK”の応答を映像音声受信端末200aに送り返す。会議{−,MPEG4ASP(CIF,−,−),AMR(16KHz,64Kbps)}”の意を示すようなプロファイルを“SetProfile”コマンドで設定し、それに対するネットワークカメラ100aから“OK”の応答を受け取るところまで、予め、準備しておく。
そして、SIPテレビ会議通信を開始する上で、LAN500a上の映像音声受信端末200aから発信する場合、まず通信相手である遠隔地の映像音声受信端末200bのIPアドレスなど、IDを入力してコール操作をすると、遠隔地の映像音声受信端末200bとの間でSIPの手順のとおりに、相手局との間で呼制御・システム制御部204を通じて、セッション確立要求(INVITE)、応答(180Ringing)、応答(200 OK)、確認応答(ACK)を行う。応答を受け取った映像音声受信端末200aは、LAN500a上にあるネットワークカメラ100aに対して、“Start”コマンドを送ることにより、予め設定したプロファイルを基にしたメディアストリームを遠隔地の映像音声受信端末200bへ伝送を開始する。もちろん、応答拒否の場合は、“Start”コマンドを送ることはしないようにする。ネットワークカメラ100aから伝送されるメディアストリームを、ネットワークカメラ100aのパケット化多重化部116においてRTPプロトコルのフォーマットにしたがって、遠隔地の映像音声受信端末200bへ伝送する。遠隔地のネットワークカメラ100bから受け取ったRTPパケットデータは前述した動作説明のように映像音声受信端末200aで復号化され、映像音声受信端末200aのビデオ出力部601およびオーディオ出力部602に出力される。さらに、復号化されたデジタル音声データは、前述のとおりに折り返し音声を減算処理するためにネットワークカメラ100aへ転送される。着信側のLAN500bの映像音声受信端末200bは、予め、ネットワークカメラ100bに対してプロファイルを設定しておくところまでは発信側と同じである。着信側の映像音声受信端末200bは、SIPの手順において、セッション確立要求(INVITE)を受け取った時点で、応答か応答拒否かを判断し、応答する場合には発信側に応答(200 OK)を返した時点で、LAN500b上にあるネットワークカメラ100bに対して“Start”コマンドを送ることにより、予め設定したプロファイルを基にしたメディアストリームを遠隔地の映像音声受信端末200aへ伝送するようにする。応答拒否の場合は、ネットワークカメラ100bに対して“Start”コマンドを送らずに、遠隔地の映像音声受信端末200aへ拒否(603Decline)を返すようにする。
以上詳細に説明したように、本実施の形態によれば、映像音声受信端末200aにおいて、時間情報が付加されたデジタル音声データがネットワークカメラ100aに送信され、ネットワークカメラ100aにおいて、時間情報が付加されたデジタル音声データが入力され、そのデジタル音声データの出力を、当該時間情報に基づいて一定時間遅延させ、当該一定時間遅延されたデジタル音声データから、音声の折り返しにより入力されたデジタル音声データを減算する。これにより、音声データの送信部と受信部が異なる端末にある場合でも、エコーの発生を抑制することができる。
また、ネットワークカメラ100aと映像音声受信端末200aとの間は、デジタル音声データがパケット化されて通信されるので、効率良く通信することができる。さらにデジタル音声データと映像データがパケット化されかつ多重化されて通信が実行されるので、データ量を抑えた高速通信が可能になる。
次に、本発明の第2の実施の形態を説明する。
本実施の形態は、上記第1の実施の形態と比べて、ネットワークカメラ及び映像音声受信端末が備える構成やパケットの転送方法が異なる。
図5は、本発明の第2の実施の形態に係るネットワークシステムに適用されるネットワークカメラの構成を示したブロック図である。
同図において、300はネットワークカメラの本体を示す。ネットワークカメラ300は、焦点合わせ及び絞り調整を行うためのレンズユニット301と、レンズユニッ301を駆動するための駆動制御部302と、CCDセンサーやMOSセンサーなどの撮像素子(具体的にはCCD)303と、相関二重サンプリング部と自動利得制御部(以下、「CDS/AGC」)304と、ビデオA/D変換器305と、タイミングジェネレータ(以下、「TG」という)306と、同期信号発生器(以下、「SSG」という)307と、信号処理部308と、信号処理部308からのY、U/V形式のデジタル画像信号(映像信号)をデジタル映像データとして圧縮し符号化するビデオ符号化部309と、マイクユニット310と、外付けのマイクから音声を入力する外部マイク入力部311と、マイクユニット310又は外部マイク入力部311からの音声信号を増幅させるオーディオアンプ312と、オーディオアンプ312からの音声信号をデジタル音声データに変換するオーディオA/D変換器313とを備えている。
ネットワークカメラ300は、さらに、ネットワークカメラ100のシステム全体を制御するシステム制御部314と、符号化されたデジタル映像データをビデオパケットに変換するパケット化処理を行い、さらに所定のフォーマットに従い、送信すべきビデオパケットおよび制御パケットをLANI/F部316に出力するために、所定の形式に従ってこれらのパケットを配置してパケットの多重化処理を行うパケット化制御部315と、LAN500などのパケットネットワーク網とネットワークカメラ300との間における通信制御を行うLANI/F部316と、オーディオA/D変換器313によって変換されたデジタル音声データに対しタイムスタンプを付加する時間情報付加部317と、時間情報付加部317によってタイムスタンプを付加されたデジタル音声データをオーディオパケットに変換するパケット化処理を行い、LANI/F部316を介して後述する映像音声受信端末400へ転送を行うオーディオパケット化部318とを備えている。
図6は、ネットワークシステムに適用される映像音声受信端末の構成を示したブロック図である。
同図において、400は映像音声受信端末の本体を示す。映像音声受信端末400は、LANI/F部401、LANI/F部401介して制御パケットが多重化されたビデオパケットや制御パケットが多重化されたオーディオパケットなどを各メディアに分離し、受信したビデオパケット、オーディオパケットをそれぞれデパケット化し、符号化されたデジタル映像データ及び符号化されたデジタル音声データを生成するデパケット化分離部402と、ネットワークでのパケット到着ジッタを考慮してメディアストリームに付加された遅延を処理すると共にデパケット化分離部402から受信した符号化されたデジタル音声データを所定期間遅延して符号化されたデジタル映像データとの同期(リップ・シンク)をとる遅延処理部403と、遅延処理部403から受信した符号化されたデジタル映像データを伸張し復号化することでデジタル映像データを生成するビデオ復号化部405と、遅延処理部403から受信した符号化されたデジタル音声データを伸張し復号化することでデジタル音声データを生成するオーディオ復号化部406と、ビデオ復号化部405及びオーディオ復号化部406の機能を包含し、DSPなどで実現されるビデオ・オーディオデコーダ407と、ビデオ復号化部405によって復号化されたデジタル映像データをアナログの映像信号に変換してビデオモニタなどのビデオ出力装置601に出力するビデオD/A変換器408と、オーディオ復号化部406によって復号化されたデジタル音声データをアナログの音声信号に変換してスピーカーなどのオーディオ出力装置602に出力するオーディオD/A変換器409とを備えている。
さらに、映像音声受信端末400は、ネットワークカメラ300から受信したオーディオパケットをデパケット化しデジタル音声データを抽出するオーディオデパケット化部410と、オーディオ復号化部406によって復号化されたデジタル音声データを一定時間、バッファリングするオーディオ遅延部414と、オーディオ遅延部414から受信したデジタル音声データから、オーディオデパケット化部410から受信したデジタル音声データを減算するオーディオ減算部413と、オーディオ減算部413から受信するデジタル音声データを圧縮し符号化するオーディオ符号化部412と、符号化されたデジタル音声データをオーディオパケットに変換するパケット化処理を行い、さらに所定のフォーマットに従い、送信すべきオーディオストリームをLANI/F部401に出力するために、所定の形式に従ってパケット配置するパケット化制御部411とを備えている。
図7は、ネットワークカメラ300と映像音声受信端末400との組み合わせによるネットワークシステムの構成図である。
ここで、図7のネットワークカメラ300c及びネットワークカメラ300dは、図5のネットワークカメラ300と同一の構成を備えており、図6の映像音声受信端末400c及び映像音声受信端末400dは、図6の映像音声受信端末400と同一の構成を備えているが、説明の便宜上、「c」又は「d」の文字を符号に付加している。また、ネットワークカメラ300c及び映像音声受信端末400cはLAN500cに接続されており、ネットワークカメラ300d及び映像音声受信端末400dはLAN500dに接続されている。LAN500c及びLAN500dは広域パケットネットワーク網(WAN)700に接続されている。
上記の構成で、図7に基づいて、ネットワークカメラ300c及び映像音声受信端末400cから遠隔地のネットワークカメラ300d及び映像音声受信端末400dに対してLAN500c,500d及び広域パケットネットワーク網(WAN)700を介して伝送されるパケットの流れを説明する。
まず、マイク110cを備えるネットワークカメラ300cは、RTP(Real-time Transport Protocol)などのリアルタイム転送プロトコルにしたがってビデオパケットのストリーム(VS3)は映像音声受信端末400cを介さずに、直接、遠隔地の映像音声受信端末400dに伝送する。さらにネットワークカメラ300cはタイムスタンプを付加した上でパケット化されたデジタル音声データのオーディオパケット(A3)を映像音声受信端末400cへ転送する。そのオーディオパケット(A3)は映像音声受信端末400cのオーディオデパケット化部410に入力される。
映像音声受信端末400cは、ネットワークカメラ300cから受信したパケット化されたオーディオパケット(A3)をデパケット化し、付加されたタイムスタンプを基にしてネットワークカメラ300cを使用している環境で生じる音声折り返しの時間を測定する。
そして、映像音声受信端末400cでは一定時間カウントしてバッファリングされたデジタル音声データから上記ネットワークカメラ300cから転送されたデジタル音声データを減算する減算処理を施し、符号化して、RTPプロトコルにしたがって、パケット化したオーディオパケットのストリーム(AS3)を映像音声受信端末400dに伝送する。ネットワークカメラ300dおよび映像音声受信端末400dにおいても同様に、それぞれビデオパケットのストリーム(VS4)及びオーディオパケットのストリーム(AS4)を映像音声受信端末400cに伝送する。ビデオパケットのストリーム(VS4)及びオーディオパケットのストリーム(AS4)は映像音声受信端末400cのデパケット化分離部402に入力される。
次に、このネットワークカメラ300cを用いたパケット通信でテレビ会議を行う場合について、説明する。
図8は、LAN500c上にあるネットワークカメラ300cから遠隔地LAN500d上の映像音声受信端末400dへパケットのストリームを伝送し、さらに遠隔地LAN500d上のネットワークカメラ300dからLAN500c上にある映像音声受信端末400cへパケットのストリームを伝送するSIPテレビ会議通信を行うための通信接続手順を示した図である。
SIPテレビ会議通信を行う上での接続手順は、図4で示した接続手順と同じである。メディアストリーム(パケットのストリーム)を伝送する方法は、まず、ビデオパケットストリームはネットワークカメラ300cからそのパケット化制御部315においてRTPプロトコルのフォーマットにしたがって、遠隔地の遠隔地の映像音声受信端末400dへ伝送する。映像音声受信端末400dはネットワークカメラ300cから受け取ったビデオパケットを前述した動作説明のように復号化し、ビデオ出力部601に出力する。
ネットワークカメラ300cはオーディオパケットのストリームをデジタル音声データとして映像音声受信端末400cへ転送し、ここで前述のとおりに折り返し音声を減算処理して、映像音声受信端末400cのパケット化制御部411においてRTPプロトコルのフォーマットにしたがって、遠隔地の遠隔地の映像音声受信端末400dへ伝送する。着信側のLAN500dにおける接続手順も図4で示した接続手順と同じである。
以上詳細に説明したように、本実施の形態によれば、映像音声受信端末400cにおいて、ネットワークカメラ300dからデジタル音声データが入力され、ネットワークカメラ300cから時間情報が付加された音声データが入力され、ネットワークカメラ300dから入力された音声データの出力を、時間情報に基づいて一定時間遅延させ、一定時間遅延された音声データから、前記時間情報が付加された音声データを減算する。これにより、音声データの送信部と受信部が異なる端末にある場合でも、エコーの発生を抑制することができる。
また、ネットワークカメラ100aと映像音声受信端末200aとの間は、デジタル音声データがパケット化されて通信されるので、効率良く通信することができる。さらにデジタル音声データと制御データ、映像データと制御データがそれぞれパケット化されかつ多重化されて通信が実行されるので、データ量を抑えた高速通信が可能になる。
また、本発明の目的は、実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出して実行することによっても達成される。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。
又、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。または、プログラムコードをネットワークを介してダウンロードしてもよい。
また、コンピュータが読み出したプログラムコードを実行することにより、上記実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
本発明の第1の実施の形態に係るネットワークシステムに適用されるネットワークカメラの構成を示したブロック図である。 ネットワークシステムに適用される映像音声受信端末の構成を示したブロック図である。 ネットワークカメラ100と映像音声受信端末200との組み合わせによるネットワークシステムの構成図である。 LAN500a上にあるネットワークカメラ100aから遠隔地のLAN500b上の映像音声受信端末200bへパケットのストリームを伝送し、さらに遠隔地LAN500b上のネットワークカメラ100bからLAN500a上にある映像音声受信端末200aへパケットのストリームを伝送するSIPテレビ会議通信を行うための通信接続手順を示した図である。 本発明の第2の実施の形態に係るネットワークシステムに適用されるネットワークカメラの構成を示したブロック図である。 ネットワークシステムに適用される映像音声受信端末の構成を示したブロック図である。 ネットワークカメラ300と映像音声受信端末400との組み合わせによるネットワークシステムの構成図である。 LAN500c上にあるネットワークカメラ300cから遠隔地LAN500d上の映像音声受信端末400dへパケットのストリームを伝送し、さらに遠隔地LAN500d上のネットワークカメラ300dからLAN500c上にある映像音声受信端末400cへパケットのストリームを伝送するSIPテレビ会議通信を行うための通信接続手順を示した図である。 パケットネットワーク網に接続されたネットワークカメラシステムの構成例を示す図である。 従来のエコーキャンセラを用いたエコー抑制システムを示した図である。
符号の説明
100,300 ネットワークカメラ
101,301 レンズユニット
108,308 信号処理部
109,309 ビデオ符号化部
110,310 マイクユニット
118,413 オーディオ減算部
119,414 オーディオ遅延部
120,410 オーディオデパケット化部
200,400 映像音声受信端末
202,402 デパケット化分離部
204,314 システム制御部
205,405 ビデオ復合化部
206,406 オーディオ復合化部
211,318 オーディオパケット化部

Claims (8)

  1. 外部装置にデータを配信する第1ユニットと、前記外部装置と異なる他の外部装置から音声データを受信する第2ユニットとがネットワークを介して互いに接続されるネットワークシステムにおいて、
    前記第2ユニットは、
    前記第1ユニットに送信すべき音声データに時間情報を付加する時間情報付加手段と、
    前記時間情報が付加された音声データを前記第1ユニットに送信する送信手段とを備え、
    前記第1ユニットは、
    前記音声データを入力する第1入力手段と、
    前記第2ユニットから前記時間情報が付加された音声データを入力する第2入力手段と、
    前記第2入力手段で入力された音声データの出力を、前記時間情報に基づいて一定時間遅延させる遅延手段と、
    前記遅延手段で一定時間遅延された音声データから、前記第1入力手段により入力された音声データを減算する減算手段と
    を備えることを特徴とするネットワークシステム。
  2. 前記第1ユニットは、前記減算手段で減算された音声データを符号化し、音声パケットを作成する音声符号化手段を備え、
    前記第2ユニットは、符号化された音声パケットを復合化し、音声データを作成する音声復合化手段を備えていることを特徴とする請求項1記載のネットワークシステム。
  3. 前記第1ユニットは、
    映像データを入力する映像入力手段と、
    前記映像入力手段により入力された映像データを符号化し、映像パケットを作成する映像データ符号化手段と、
    前記映像データ符号化手段により作成された映像パケットと前記音声符号化手段により作成された音声パケットとを多重化する多重化手段と、
    前記第2入力手段から入力された音声パケットをデパケット化し、前記時間情報が付加された音声データを作成する音声デパケット化手段と
    を備え、
    前記第2ユニットは、
    前記多重化手段により多重化された映像パケットと音声パケットとを分離する分離手段と、
    前記分離手段により分離された映像パケットを復合化し、映像データを作成する映像復合化手段と、
    前記時間情報付加手段により時間情報が付加された音声データのパケットを作成する音声パケット化手段と、
    を備えていることを特徴とする請求項2記載のネットワークシステム。
  4. 外部装置にデータを配信する第1ユニットと、当該第1ユニット及び前記外部装置と異なる他の外部装置から音声データを受信する第2ユニットとがネットワークを介して互いに接続されるネットワークシステムにおいて、
    前記第1ユニットは、
    前記第2ユニットに送信すべき音声データに時間情報を付加する時間情報付加手段と、
    前記時間情報が付加された音声データを前記第2ユニットに送信する送信手段とを備え、
    前記第2ユニットは、
    前記外部装置と異なる他の外部装置から音声データを入力する第1入力手段と、
    前記第1ユニットから前記時間情報が付加された音声データを入力する第2入力手段と、
    前記第1入力手段で入力された音声データの出力を、前記時間情報に基づいて一定時間遅延させる遅延手段と、
    前記遅延手段で一定時間遅延された音声データから、前記第2入力手段により入力された音声データを減算する減算手段と
    を備えることを特徴とするネットワークシステム。
  5. 前記第1ユニットは、前記時間情報が付加された音声データを符号化し、音声パケットを作成する音声符号化手段を備え、
    前記第2ユニットは、前記音声符号化手段により作成された音声パケットを復合化し、時間情報が付加された音声データを作成する音声復合化手段を備えていることを特徴とする請求項4記載のネットワークシステム
  6. 前記第1ユニットは、
    映像データを入力する映像入力手段と、
    前記映像入力手段により入力された映像データを符号化し、映像パケットを作成する映像データ符号化手段とを備え、
    前記第2ユニットは、
    前記映像パケットを復合化し、映像データを作成する映像復合化手段と、
    前記音声符号化手段により作成された音声パケットを復合化し、音声データを作成する音声復合化手段と、
    前記減算手段で減算された音声データを圧縮し符号化する音声データ符号化手段と、
    前記音声データ符号化手段で符号化された音声データをパケットに変換するパケット化処理を行うパケット化手段と
    を備えていることを特徴とする請求項5記載のネットワークシステム。
  7. 外部装置にデータを配信する第1ユニットと、前記外部装置と異なる他の外部装置から音声データを受信する第2ユニットとがネットワークを介して互いに接続されるネットワークシステムにおける通信方法であって、
    前記第2ユニットが、
    前記第1ユニットに送信すべき音声データに時間情報を付加する時間情報付加工程と、
    前記時間情報が付加された音声データを前記第1ユニットに送信する送信工程とを実行し、
    前記第1ユニットが、
    前記音声データを入力する第1入力工程と、
    前記第2ユニットから前記時間情報が付加された音声データを入力する第2入力工程と、
    前記第2入力工程で入力された音声データの出力を、前記時間情報に基づいて一定時間遅延させる遅延工程と、
    前記遅延工程で一定時間遅延された音声データから、前記第1入力工程により入力された音声データを減算する減算工程と
    を実行することを特徴とするネットワークシステムにおける通信方法。
  8. 外部装置にデータを配信する第1ユニットと、当該第1ユニット及び前記外部装置と異なる他の外部装置から音声データを受信する第2ユニットとがネットワークを介して互いに接続されるネットワークシステムにおける通信方法であって、
    前記第1ユニットが、
    前記第2ユニットに送信すべき音声データに時間情報を付加する時間情報付加工程と、
    前記時間情報が付加された音声データを前記第2ユニットに送信する送信工程とを実行し、
    前記第2ユニットが、
    前記外部装置と異なる他の外部装置から音声データを入力する第1入力工程と、
    前記第1ユニットから前記時間情報が付加された音声データを入力する第2入力工程と、
    前記第1入力工程で入力された音声データの出力を、前記時間情報に基づいて一定時間遅延させる遅延工程と、
    前記遅延工程で一定時間遅延された音声データから、前記第2入力工程により入力された音声データを減算する減算工程と
    を実行することを特徴とするネットワークシステムにおける通信方法。
JP2005166078A 2005-06-06 2005-06-06 ネットワークシステム及びネットワークシステムにおける通信方法 Pending JP2006340321A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005166078A JP2006340321A (ja) 2005-06-06 2005-06-06 ネットワークシステム及びネットワークシステムにおける通信方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005166078A JP2006340321A (ja) 2005-06-06 2005-06-06 ネットワークシステム及びネットワークシステムにおける通信方法

Publications (1)

Publication Number Publication Date
JP2006340321A true JP2006340321A (ja) 2006-12-14

Family

ID=37560435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005166078A Pending JP2006340321A (ja) 2005-06-06 2005-06-06 ネットワークシステム及びネットワークシステムにおける通信方法

Country Status (1)

Country Link
JP (1) JP2006340321A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009147459A (ja) * 2007-12-11 2009-07-02 Fujitsu Ltd パケットキャプチャ装置、パケットキャプチャ方法およびパケットキャプチャプログラム
US7908147B2 (en) 2006-04-24 2011-03-15 Seiko Epson Corporation Delay profiling in a communication system
US8165641B2 (en) 2007-07-26 2012-04-24 Casio Hitachi Mobile Communications Co., Ltd Noise suppression system, sound acquisition apparatus, sound output apparatus, and computer-readable medium
JP2014520438A (ja) * 2011-06-10 2014-08-21 トムソン ライセンシング 通信装置
KR20150027645A (ko) * 2013-09-04 2015-03-12 삼성테크윈 주식회사 시간 동기화 장치 및 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7908147B2 (en) 2006-04-24 2011-03-15 Seiko Epson Corporation Delay profiling in a communication system
US8165641B2 (en) 2007-07-26 2012-04-24 Casio Hitachi Mobile Communications Co., Ltd Noise suppression system, sound acquisition apparatus, sound output apparatus, and computer-readable medium
EP2019544A3 (en) * 2007-07-26 2016-03-23 Lenovo Innovations Limited (Hong Kong) Noise suppression system, sound acquisition apparatus, sound output apparatus and computer-readable medium
JP2009147459A (ja) * 2007-12-11 2009-07-02 Fujitsu Ltd パケットキャプチャ装置、パケットキャプチャ方法およびパケットキャプチャプログラム
JP2014520438A (ja) * 2011-06-10 2014-08-21 トムソン ライセンシング 通信装置
KR20150027645A (ko) * 2013-09-04 2015-03-12 삼성테크윈 주식회사 시간 동기화 장치 및 방법
KR102040940B1 (ko) 2013-09-04 2019-11-05 한화테크윈 주식회사 시간 동기화 장치 및 방법

Similar Documents

Publication Publication Date Title
US6466248B1 (en) Videoconference recording
KR101091910B1 (ko) 실시간 전송 프로토콜을 사용하는 비디오 서버의 제어 방법및 그 기록 매체
US7773581B2 (en) Method and apparatus for conferencing with bandwidth control
US6590604B1 (en) Personal videoconferencing system having distributed processing architecture
US8477950B2 (en) Home theater component for a virtualized home theater system
JP4753204B2 (ja) 符号化処理装置および符号化処理方法
EP1578129A1 (en) Method and apparatus for conferencing with stream selectivity
RU2008105912A (ru) Система для прямого телевизионного вещания с мобильного телефона
JP2003504897A (ja) 電話回線による高速映像伝送
JP2008311831A (ja) 動画像通信装置、動画像通信システムおよび動画像通信用の半導体集積回路
JPWO2005094077A1 (ja) 多地点会議システムおよび多地点会議装置
WO2008018343A1 (fr) Dispositif de traitement de communication, système de communication de données, procédé, et programme informatique
JP2008193510A (ja) 映像送信装置、映像受信装置、及び映像伝送システム
KR20080086262A (ko) 디지털 콘텐츠 공유를 위한 방법 및 장치, 그리고 디지털콘텐츠 공유 시스템
JP2006340321A (ja) ネットワークシステム及びネットワークシステムにおける通信方法
JP5340880B2 (ja) 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム
JP2008131591A (ja) リップシンク制御装置及びリップシンク制御方法
JP2003198618A (ja) パケットデータ通信システム及び携帯電話機並びにネットワーク側装置
JP2007020095A (ja) 情報合成装置、情報合成システム、情報同期方法およびプログラム
JP2008278323A (ja) ネットワークカメラ
JP5330661B2 (ja) インターホン親機
WO2012067051A1 (ja) 映像処理サーバおよび映像処理方法
JP2004088480A (ja) 撮像装置及びそのデータ伝送制御方法
JP2004080143A (ja) 通信装置及びその管理方法、テレビ電話システム
JP2006237704A (ja) ネットワークカメラシステム

Legal Events

Date Code Title Description
RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626