JP2021521741A - 複数のビデオ会議用端末を用いてビデオ会議を提供することが可能なビデオ会議サーバ及びそのオーディオエコー除去方法 - Google Patents

複数のビデオ会議用端末を用いてビデオ会議を提供することが可能なビデオ会議サーバ及びそのオーディオエコー除去方法 Download PDF

Info

Publication number
JP2021521741A
JP2021521741A JP2020563710A JP2020563710A JP2021521741A JP 2021521741 A JP2021521741 A JP 2021521741A JP 2020563710 A JP2020563710 A JP 2020563710A JP 2020563710 A JP2020563710 A JP 2020563710A JP 2021521741 A JP2021521741 A JP 2021521741A
Authority
JP
Japan
Prior art keywords
terminal
physical
video conferencing
video
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020563710A
Other languages
English (en)
Inventor
チャ、ミンス
Original Assignee
ユープリズム カンパニー リミテッド
ユープリズム カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ユープリズム カンパニー リミテッド, ユープリズム カンパニー リミテッド filed Critical ユープリズム カンパニー リミテッド
Publication of JP2021521741A publication Critical patent/JP2021521741A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/002Applications of echo suppressors or cancellers in telephonic connections
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

複数のビデオ会議用端末を用いてマルチスクリーンビデオ会議を提供することが可能なビデオ会議サーバ及びその方法が開示される。本発明のビデオ会議サーバは、一つ又は二つのディスプレイを備えた従来の複数のビデオ会議端末(物理端末)を論理的にグループ化して、まるで一つのビデオ会議ポイントとして動作する「論理端末」かの如く動作するように実現することができる。ビデオ会議サーバは、論理端末を構成する複数の物理端末に提供する映像の分配を介して、論理端末がマルチスクリーンをサポートするかのように処理することができ、論理端末におけるエコー除去機能を提供する。【選択図】図2

Description

本発明は、マルチポイントビデオ会議システムに関し、特に、従来のテレプレゼンス(Telepresence)装備なしでも複数のビデオ会議用端末を用いてマルチポイントビデオ会議のための複数の映像を表示することができるマルチスクリーンビデオ会議を提供することが可能なビデオ会議サーバ及びそのオーディオエコー除去方法に関する。
ビデオ会議システムは、通常、H.323やSIP(Session Initiation Protocol)などの標準プロトコルを用いる標準基盤ビデオ会議端末(又はシステム)と、独自のプロトコルを用いる非標準ビデオ会議端末に分ける。
シスコ(CISCO)、ポリコム(POLYCOM)、アバイア(AVAYA)、ライフサイズ(LIFESIZE)などのメジャービデオ会議装備会社は、上述した標準プロトコルを用いたビデオ会議ソリューションを提供しているが、標準技術だけを利用して製品を作る場合、さまざまな機能を実現し難いため、非標準ビデオ会議システムを提供する会社も多い。
<標準端末基盤のマルチビデオ会議のためのMCU>
ビデオ会議システムは、2つのビデオ会議端末(二つのポイント)が接続される1:1ビデオ会議があり、複数のビデオ会議端末(複数のポイント)が同時に接続されるマルチポイントビデオ会議がある。ビデオ会議に参加したすべてのビデオ会議端末は、個別的に一つのビデオ会議ポイント(Point)となり、ポイントごとに少なくとも1人の会議参加者が配席するのが一般的である。
標準ビデオ会議端末は、相手と1つのセッションを接続して通常一つの映像と音声のみを処理するので、基本的に1:1ビデオ会議に適用され、付加的に標準端末においてもH.239とBFCP(Binary Floor Control Protocol)を利用すれば、文書会議のための補助映像をもう一つ処理することができる。したがって、標準ビデオ会議システムにおいて、1:1ではなく、3つ以上のポイントが接続されたマルチビデオ会議を行うためには、MCU(Multipoint Conferencing Unit)と呼ばれる装置が必要である。MCUは、3つ以上のポイントから提供される映像をミキシング(Mixing)して各ポイントのための映像を1つずつ作って標準端末に提供することにより、標準プロトコルの制約を解消する。
ビデオ会議に結合されたすべてのビデオ会議端末は、自分が生成した映像と音声データを圧縮して相手に送信するので、映像をミキシングするためには、デコーディング(Decoding)、予め設定されたレイアウトに合わせて複数の映像をレンダリング(Rendering)して新しい映像を作るミキシング、及びエンコーディング(Encoding)を行う過程をさらに経なければならない。したがって、ミキシングは、相対的に多くの費用がかかる作業であるが、核心的な装備で使用されており、MCU機能を備えたサーバは、一般に高価で流通している。
映像をミキシングすれば、端末では、一つの映像を処理するので、技術的に1:1で会議するときと差異がないが、MCUが提供する映像には、複数のポイントから提供される映像がPBP(Picture by Picture)、PIP(Picture in Picture)などの形で結合されている。しかも、端末側で必要な帯域幅も1:1の場合と比較したとき、事実上差異がない。
<非標準ビデオ会議システムにおけるマルチビデオ会議>
非標準ビデオ会議システムでは、標準的なMCUを使用せずに映像を処理し、標準映像端末との接続が必要であれば、別途のゲートウェイ(Gateway)を用いる。複数のポイントの端末は、一つのサーバにログインし、特定の会議ルームに参加する手続きを経る。一部の非標準製品は、サーバが存在せず、P2P(Peer to Peer)で処理する場合もある。
非標準ビデオ会議システムにおいて、MCU又はMCU機能を行う装置を使用しない理由は、MCU機能を実現するために高価の高性能サーバが必要とされるからである。映像ミキシングを行う代わりに、各端末は、自分が生成した映像を他の参加者(他のポイントの端末)に単純にリレー(Relay)する方法を多く使用する。リレー方式は、ミキシングよりもサーバのシステムリソースを少なく使用するという利点があるが、映像リレーに必要なネットワーク帯域幅は指数関数的に増えるという欠点がある。
例えば、5人が同じ会議ルームに参加しており、他の参加者の画面を全部一挙に見ているという仮定の下に計算を行うと、本人の映像をサーバに伝送し、他の4人の映像を受け取らなければならないので、25倍(5×5)の帯域幅が必要である。もし10個のビデオ会議端末が参加している場合であれば、100倍(10×10)の帯域幅が必要である。ビデオ会議参加者が多くなると、必要な帯域幅が指数関数的に増加する。
<文書ビデオ会議のためのトークンの取得>
従来の一般的なビデオ会議端末は、メイン映像画面と文書映像画面を同時に2つのディスプレイ装置にそれぞれ出力することができるが、低価のビデオ会議装備の中には、単一ディスプレイ出力のみをサポートする場合が多い。単一ディスプレイのみサポートされるビデオ会議端末は、文書ビデオ会議のためのH.239又はBFCPをサポートすることもあり、サポートしないこともある。
単一ディスプレイがH.239又はBFCPプロトコルによる文書映像を表示するときには、通常、画面を分割して表示し、端末自体が2つの映像を様々な形態で表示するための複数のレイアウトを提供したりもする。また、端末において、メイン映像又は文書映像のうちのいずれか一つを選択して拡大する機能も殆どサポートする。
前述したように、ビデオ会議端末は、一つの映像を送出することができるが、H.239又はBFCP技術を利用すれば、文書映像をさらに送出することができる。文書映像を送出するために、発表者は、発表者トークン(Token)を取得しなければならないが、ビデオ会議に参加した端末のうち、只1つの端末(すなわち、一つのポイント)のみがトークンを持つことができる。そのため、参加者のメイン映像と文書映像を同時にサーバに送出することができるものは、発表者トークンを取得した端末だけである。
<テレプレゼンス>
一方、CISCOやPOLYCOMなどのメジャー企業では、テレプレゼンス(Telepresence)技術の超高価のビデオ会議装備を供給するが、この装備は、3つ又は4つのディスプレイ出力をサポートするだけではなく、そのサポートされる出力ディスプレイの数だけの映像を発表者トークンなしで送出することができる。関連業界では、ビデオ会議のためのマルチ映像送出機能は、テレプレゼンス装備のみの固有な機能として認識されている。
テレプレゼンス装備は、一般なビデオ会議端末と連動せず、別途提供される高価のゲートウェイ装備があってこそ相互連動が可能である。そのように連動しても、一般ビデオ会議装備同士が通話する場合に比べて映像画質が非常に劣る。このような理由により、3つのディスプレイ出力を持つビデオ会議端末は、相対的にほぼ普及しておらず、標準技術という制約により拡張性に制限がかかっている状態である。
<ビデオ会議システムのオーディオ装置>
ビデオ会議システムでは、会議テーブル上に指定された席ごとに参加者のためのマイクを設置し、簡単な発言用ボタンを設置する。参加者は、自分の席にある発言用ボタンを押して発言する。マイクは、ガチョウの首のように曲がった形状のいわゆる「グースネック(Gooseneck)マイク」が通常使用され、グースネックマイクに発言用ボタンが一体化されている場合が殆どである。
ほとんどのビデオ会議用端末は、エコー除去機能を持っている。例えば、A端末とB端末とがビデオ通話をすると仮定する場合、A端末は、発言者の音声の入力をマイクを介して受け、ビデオ通話の相手であるB端末に伝達するが、A端末のスピーカーへ出力しない。これに対し、B端末から伝達されるオーディオ信号は、A端末のスピーカーを介して出力されることにより会議が行われる。
B端末から伝達されるオーディオ信号がA端末のスピーカーを介して出力されると、そのオーディオ信号が再びA端末のマイクを介して入力されながらエコーが発生するのである。しかし、エコー除去機能を持つA端末は、マイクを介して入力される信号から、B端末から伝達されるオーディオ信号と波形が同じものを除去することにより、エコーを除去する。
A端末は、マイクを介して入力されたオーディオ信号をスピーカーへ直接出力しないため、A端末がエコー信号を除去しなくても、直ちにA端末のスピーカーへ出力されない。エコー信号は、B端末に伝達されながら、B側はA端末が提供したオーディオ信号であるため、そのまま出力しながらエコーを作る。また、そのエコー信号は、同じ過程でさらにA端末へ伝達されるが、A端末は、B端末から提供されたオーディオ信号であるため、エコー信号をスピーカーへ出力する。このような過程が連続的に繰り返し行われることにより大きなノイズになるのである。
エコー除去方法は、入力された音声信号から、出力オーディオ信号と一致する波形を除去する方法である。通常、オーディオが出力装置から再生されて再びマイクに入力されて処理されるまで、通常数十乃至数百ミリ秒(ms)の遅延時間が発生する。遅延時間は、装置ごとに異なるので、入力されたオーディオ信号からエコー除去機能によって除去するオーディオ信号を検出することが容易ではない。再びマイクに入力されるときの信号強度が出力信号の強度と異なる部分も、音声波形の除去を難しくする。当然、ノイズが多い或いは音響が響く空間では、エコー除去がさらに難しい。よって、エコー除去はビデオ会議分野において複雑で難しい技術である。
韓国公開特許第10−2016−0062787号(ビデオ会議のために複数のビデオフィードをミキシング処理する方法、これを用いたビデオ会議端末装置、ビデオ会議サーバ及びビデオ会議システム)
本発明の目的は、論理端末体系を用いたビデオ会議サービスを提供するビデオ会議サーバの論理端末のためのオーディオ処理方法を提供することにある。
本発明の他の目的は、論理端末サービスにおけるオーディオエコー除去方法を提供することにある。
本発明の別の目的は、マルチポイントのビデオ会議サービスを提供し、複数のビデオ会議用端末を一つのビデオ会議ポイントとして処理する論理端末サービスを提供することができるビデオ会議サーバを提供することにある。
上記目的を達成するための本発明に係るビデオ会議サーバのビデオ会議サービス提供方法は、登録ステップ、呼接続ステップ、ソースオーディオ受信ステップ、オーディオ処理ステップ及びオーディオ出力ステップを含むことにより、論理端末が一つの仮想のビデオ会議ポイントとして動作するようにサービスする。
登録ステップは、複数の物理端末を一つの論理端末として登録して、前記複数の物理端末が一つのビデオ会議ポイント(Point)かの如く動作するように登録し、前記複数の物理端末のうちのいずれか一つを出力担当−物理端末として登録する。呼接続ステップは、複数のビデオ会議ポイント間のビデオ会議を接続し、前記論理端末に対しては、前記論理端末を構成する複数の物理端末と個別に接続する。ソースオーディオ受信ステップは、前記複数のビデオ会議ポイントが提供するソースオーディオ信号を受信し、前記論理端末に対しては、前記複数の物理端末のそれぞれから前記ソースオーディオ信号を受信する。オーディオ処理ステップは、前記ソースオーディオ受信ステップで受信した全体ソースオーディオのうち、他のビデオ会議ポイントから提供したオーディオ信号を、前記論理端末に提供する出力用オーディオ信号にミキシングする。オーディオ出力ステップは、前記論理端末に属する複数の物理端末のうちの前記出力担当−物理端末に前記出力用オーディオ信号を伝送する。
実施形態によって、本発明のビデオ会議サービス提供方法は、前記論理端末から受信されたソースオーディオ信号のうち、前記出力担当−物理端末ではない物理端末が提供したソースオーディオ信号に対して、前記出力用オーディオ信号を用いてエコーを除去するステップをさらに含んでもよい。
エコー除去の他の実施形態によれば、前記オーディオ出力ステップは、前記論理端末に属する複数の物理端末のうち、前記出力担当−物理端末ではない物理端末に前記出力用オーディオ信号を伝送し、前記出力用オーディオ信号をエコー除去用として伝送することにより、前記出力担当−物理端末ではない物理端末が前記出力用オーディオ信号をスピーカーへ出力しないようにしながら、エコー除去の基準オーディオ信号として使用するようにしてもよい。
一方、前記オーディオ処理ステップは、前記他のビデオ会議ポイントが、複数の物理端末を含む第2論理端末である場合、前記第2論理端末に属する複数の物理端末が提供したオーディオ信号の中から選択された一つのオーディオ信号を、前記第1論理端末に提供する出力用オーディオ信号にミキシングしてもよい。
一方、本発明のビデオ会議サービス方法は、前記複数のビデオ会議ポイントが提供するソース映像を受信し、前記論理端末に対しては前記複数の物理端末のそれぞれから前記ソース映像を受信するソース映像受信ステップと、前記ソース映像受信ステップで受信した全体ソース映像のうち、他のビデオ会議ポイントから提供した映像を前記論理端末の複数の物理端末に分配することにより、前記論理端末が一つの仮想のビデオ会議ポイントとして動作するようにするマルチスクリーン映像提供ステップと、を含んでもよい。
本発明は、ビデオ会議サービスを提供することができるビデオ会議サーバにも及ぶ。本発明のサーバは、端末登録部、通話接続部及びオーディオ処理部を含む。
端末登録部は、複数の物理端末を、一つのビデオ会議ポイント(Point)かのように動作する一つの論理端末として登録し、前記複数の物理端末のうちのいずれか一つを出力担当−物理端末として登録する。通話接続部は、前記論理端末を含む複数のビデオ会議ポイント間のビデオ会議を接続し、前記論理端末に対しては前記論理端末を構成する複数の物理端末と個別的に接続し、前記複数のビデオ会議ポイントからソースオーディオ信号を受信し、前記論理端末に対しては前記複数の物理端末のそれぞれからソースオーディオ信号を受信する。オーディオ処理部は、前記受信した全体ソースオーディオのうち、他のビデオ会議ポイントから提供したオーディオ信号を前記論理端末に提供する出力用オーディオ信号にミキシングし、前記論理端末に属する複数の物理端末のうち、前記出力担当−物理端末に前記出力用オーディオ信号を伝送する。
本発明のビデオ会議サーバは、前記論理端末から受信されたソースオーディオ信号のうち、前記出力担当−物理端末ではない物理端末が提供したソースオーディオ信号に対して前記出力用オーディオ信号を用いてエコーを除去するエコー処理部をさらに含んでもよい。
本発明のビデオ会議サーバは、限られた個数(通常、一つ又は二つ)のディスプレイを備えた複数のビデオ会議端末(物理端末)を論理的にグループ化して、まるで一つのビデオ会議ポイントとして動作する論理端末かの如く動作するように実現することができる。ビデオ会議サーバは、論理端末を構成する複数の物理端末に提供する映像の分配を介して、論理端末がマルチスクリーンをサポートするかのように処理することができる。
マルチポイントビデオ会議において、ビデオ会議サーバは、論理端末が備えたスクリーン、すなわちディスプレイ装置の個数に合わせて他のビデオ会議ポイントの映像を分配するので、論理端末に含まれている物理端末の立場では、従来に比べて表示しなければならない他のビデオ会議ポイントの数が減少した効果がある。よって、1つのスクリーンに表示される映像の複雑度も低くなる。映像の複雑度が低くなるので、たとえ性能の劣る物理端末又は速度の低いネットワークにおける映像品質が改善されるという効果がある。
本発明の論理端末は、単にビデオ会議サーバの内部処理を介して実現されるものであり、物理端末の間に直接的な接続がないため、たとえ映像コーデックが互いに異なるか、システムのパフォーマンスが互いに異なるか、又はメーカーが互いに異なる物理端末であっても、一つの論理端末にグループ化して処理するのに問題がない。当然、論理端末を介してマルチスクリーンを提供するので、マルチスクリーンのサポートのために個別ビデオ会議端末のシステムリソースをアップグレードする必要もない。
本発明によれば、複数の物理端末で実現された論理ビデオ会議端末に対して、まるで一つのビデオ会議用端末かのようにオーディオが提供されるようにオーディオ信号を提供することができる。したがって、論理端末に属する複数の物理端末が個別にスピーカーを備えても、特定の出力担当−物理端末のみオーディオ信号を出力することにより、論理端末が一つのビデオ会議ポイントかの如く動作するようにする。
また、本発明によれば、複数の物理端末に対してまるで一つの論理端末かの如くオーディオ信号を処理する過程で、出力担当−物理端末ではない理由により、オーディオ信号を出力しない物理端末を介して入力される音声信号に含まれ得るエコーを除去することができる。
本発明の一実施形態に係るビデオ会議システムの構成図である。 図1の3つのポイントがすべて参加するマルチビデオ会議の接続図である。 本発明のビデオ会議サーバのマルチスクリーンビデオ会議サービス提供方法を示す図である。 図1のビデオ会議システムにおけるオーディオ信号処理を示す図である。 本発明のオーディオ処理方法の説明に提供されるフローチャートである。 論理端末におけるエコー除去方法の説明に提供されるフローチャートである。
以下、図面を参照して、本発明をさらに詳細に説明する。
図1を参照する。本発明のビデオ会議システム100は、サーバ110と複数のビデオ会議端末とがネットワーク30を介して接続されたものであって、2つの接続ポイント(Point)が接続された1:1のビデオ会議だけでなく、3つ以上のポイントが接続されたマルチビデオ会議をサポートする。図1に示されているビデオ会議端末11、13、15、17、19は、接続可能なビデオ会議端末を例示的に示したものである。
サーバ110とビデオ会議端末11、13、15、17、19間の接続ネットワーク30は、IP網(IP Network)であり、ゲートウェイ(Gateway)を介して接続される異種ネットワークを含むか、或いは異種ネットワークに接続できる。例えば、移動通信網を利用する無線電話も本発明のビデオ会議用端末になることがある。この場合、ネットワーク30は、ゲートウェイ(Gateway)を介して接続されてIPパケットを処理することができる移動通信網を含む。
サーバ110は、本発明のビデオ会議システム100を全体的に制御し、従来の一般なビデオ会議処理用サーバ機能に加えて、端末登録部111、通話接続部113、映像処理部115、オーディオ処理部117及びエコー処理部119を含む。
端末登録部111は、以下で説明する物理端末と論理端末の登録、設定及び管理などを行い、通話接続部113は、本発明のビデオ会議の呼(Call)接続を制御する。映像処理部115は、ビデオ会議の呼が接続された場合に、物理端末及び/又は論理端末の間で提供する映像を処理(ミキシング、デコーディング、エンコーディングなど)することにより、テレプレゼンスなどのマルチスクリーン(Multi Screen)を実現する。
本発明における特徴的なオーディオ処理部117は、論理端末におけるオーディオ処理を制御し、エコー処理部119は、論理端末から伝送されるオーディオ信号に対してエコーを除去する。
端末登録部111、通話接続部113、映像処理部115、オーディオ処理部117及びエコー処理部119の動作については、以下で再度説明する。
論理端末
ビデオ会議システム100に含まれているすべてのビデオ会議端末11、13、15、17、19は、ビデオ会議に関する標準プロトコルをサポートし、背景技術で説明したテレプレゼンスサービスを提供することができる端末ではなく、一つのディスプレイ装置が接続されるか、或いは文書会議のため2つのディスプレイ装置が接続され得るビデオ会議端末である。標準プロトコルとしては、H.323又はSIP(Session Initiation Protocol)などがある。当然、各ビデオ会議端末11、13、15、17、19のうち、文書会議をサポートする端末は、H.239とBFCP(Binary Floor Control Protocol)をサポートする。
例えば、サーバ110とビデオ会議端末11、13、15、17、19との間にSIPプロトコルによるSIPセッションが生成されるとした場合、以下で説明する映像信号又はオーディオ信号は、RTPパケットの形で伝送される。
また、各ビデオ会議端末11、13、15、17、19は、映像/音声コーデック(Codec)を備え、個別的に発言者の音声をオーディオ信号に変換するマイク11−1、13−1、15−1、17−1、19−1とオーディオ出力のためのスピーカー11−2、13−2、15−2、17−2、19−2を備えた従来のビデオ会議端末である。
本発明のビデオ会議システムに接続されるビデオ会議端末は、「論理端末」を構成することができる。論理端末は、複数のビデオ会議端末を、まるで一つのビデオ会議端末であるかの如く論理的に組み合わせたものである。論理端末は、2つ以上のビデオ会議端末で構成することができるが、論理端末を構成する複数のビデオ会議端末間の直接接続はない。言い換えれば、論理端末を構成するために、論理端末を構成する複数のビデオ会議端末間の直接接続は必要ない。
以下では、論理端末と従来の一般なビデオ会議端末を区分するために、従来の一般なビデオ会議端末を「物理端末」と称する。言い換えれば、論理端末は、複数のビデオ会議用物理端末が単に論理的に結合されたものである。
従来のビデオ会議端末は、それぞれが一つのビデオ会議ポイントとして動作し、本発明の論理端末に属する複数のビデオ会議端末は、全体として一つの端末かのように動作するので、全体として一つのビデオ会議ポイントとして動作する。他の側面では、論理端末は、そのメンバーである複数の物理端末が個別に保有しているディスプレイ装置をすべて合わせた個数だけのディスプレイ装置を備えた一つのビデオ会議ポイトになる。必要に応じて、論理端末は、その複数の構成端末のうちのいずれか一つを代表端末として指定することができる。論理端末がいくら多くの物理端末を含めても、ビデオ会議内では、一つのビデオ会議ポイントとして扱われる。
例えば、図1は第1ポイントA、第2ポイントB及び第3ポイントCが相互接続されたマルチビデオ会議システム100である。第1ポイントAには第1論理端末130が配置され、第2ポイントBには第2論理端末150が配置され、第3ポイントCには第5物理端末19が配置されることにより、図1のシステム100は、2つの論理端末130、150と1つの物理端末19とがサーバ110によって接続された状態である。第1論理端末130は、それぞれ1つのディスプレイ装置を有する第1及び第2物理端末11、13で構成されており、第2論理端末150は、2つのディスプレイ装置を有する第3物理端末15と、1つのディスプレイ装置を有する第4物理端末17で構成されている。
論理端末は、サーバ110によって管理される論理構成であり、サーバ110と端末間の標準プロトコルは、1:1の接続のみをサポートするので、サーバ110と論理端末との接続は、論理端末を構成する複数の物理端末のそれぞれがサーバ110と標準プロトコルに基づいて個別に接続されることを意味する。例えば、SIPプロトコルによれば、図1は論理端末の構成を問わず、5つの物理端末11、13、15、17、19のそれぞれがサーバ110とSIPセッション(Session)を生成して合計5つのセッションが生成されたものである。
本発明によれば、ビデオ会議システムのサーバ110は次の接続をサポートする。
(1)一つの物理端末が一つの論理端末に接続されるビデオ会議
例えば、図1の第5物理端末19が第1論理端末130を呼び出す場合である。サーバ110は、第1論理端末130を構成する第1及び第2物理端末11、13を同時又は順次に呼び出して接続する。
(2)論理単一端末が一つの物理端末を呼び出すビデオ会議
例えば、ユーザが、第1論理端末130のうちの代表端末である第1物理端末11を用いて第5物理端末19を呼び出す場合である。サーバ110は、第1論理端末130を構成する他の物理端末である第2物理端末13と、受信側である第5物理端末19を同時又は順次に呼び出して接続する。
(3)一つの論理端末が他の論理端末を呼び出すビデオ通話
例えば、図1の第1論理端末130が第2論理端末150を呼び出す場合である。ユーザが第1論理端末130の代表端末である第1物理端末11を用いて第2論理端末150を呼び出す場合、サーバ110は、第2論理端末150を構成する2つの物理端末15、17を同時又は順次に呼び出し、発信側の代表端末以外の残りの端末である第2物理端末13も呼び出して接続する。
(4)マルチポイントビデオ会議
本発明のビデオ会議システムは、図1に示すように、論理端末が一つのポイントに接続された3つのポイント以上の接続をサポートする。1つの論理端末と2つの物理端末とが接続されることもあり、2つ以上の論理端末と1つの物理端末とが接続されることもあり、2つ以上の論理端末同士が接続されることもある。マルチポイントの接続は、従来の公知の方法で処理することができる。ただし、新たに参加するポイントが論理端末であれば、そのメンバーである物理端末の全てと接続しなければならないということが異なる。
<マルチスクリーンサポート>
本発明のビデオ会議システム100は、論理端末体系を用いてテレプレゼンスなどのマルチスクリーンを提供することができる。論理端末は、たとえ仮想の端末であるが、メンバーである複数の物理端末全体が提供することが可能なスクリーンの数だけを備えたものとして処理される。
サーバ110は、各論理端末に含まれているディスプレイ装置の個数(m1、又はサーバが各論理端末に提供しなければならない映像の個数)と、ビデオ会議接続されたポイントに含まれている全体物理端末の個数(M、ソース映像の個数)とをマッチングする方法によってマルチビデオ会議映像を再構成することにより、論理端末に対してm3個の映像をm1個の映像に再編集して提供する。ここで、m3は、論理端末がビデオ会議のために表示しなければならないソース映像の個数であって、次の数式1で表される。
[数式1]m3=M−m2
このとき、m2は各論理端末を構成する物理端末の個数である。
一方、各物理端末は、自分の映像(ソース映像)が表示されるように設定するか或いは要求することができる。この場合、各論理端末に対してm3個の映像をm1個の映像に再編集して、論理端末を構成する各物理端末に分配するとき、当該物理端末が提供したソース映像を一緒にミキシングして提供することができる。
m3がm1と同じ値ではない限り、サーバ110は、ソース映像をミキシングする再処理が必要である。ただし、実施形態によって、論理端末に対してm3個の映像をm1個の映像に再編集せずに、m3個の映像を一定の時間間隔で順次提供することができる。例えば、m3=3及びm1=1の場合に、3つのソース映像をミキシングなどを介して再編集せずに3つのソース映像を順次提供することもできる。このような場合、従来の標準ビデオ会議端末では、不可能であったリレー方式のビデオ会議処理も可能となる。
一方、論理端末の構成か否かを問わず、本発明のビデオ会議に参加したいずれの物理端末であっても、発表者トークンを取得すると、2つのソース映像を提供することができる。例えば、発表者トークンの取得によって、第1物理端末11は、メイン映像と一緒に文書会議用映像を一緒にサーバ110に提供することができる。この場合、Mは、ビデオ会議接続されたポイントに含まれている全体物理端末の個数に1を加えた値となる。
図2は図1の3つのポイントがすべて参加するマルチビデオ会議接続図であって、第1論理端末130、第2論理端末150及び第5物理端末19が相互接続されて3つのポイントのマルチビデオ会議が接続されたと仮定する。図2を参照する。このビデオ会議に含まれている物理端末11、13、15、17、19の個数は5つ(M=5)である。つまり、5つの物理端末11、13、15、17、19が提供する5つのソース映像11a、13a、15a、17a、19aがサーバ110へ提供されるので、サーバ110は、各ポイントが備えたディスプレイ装置の個数m1に合わせて5つのソース映像を編集して各ポイントに提供する。
第1論理端末130は、第1物理端末11と第2物理端末13とを合わせて2つのディスプレイ装置を備えるので、m1=2、m2=2である。今回の3ポイントマルチビデオ会議で第1論理端末130にビデオ会議接続された端末は、物理端末を基準に3つ(m3、3=5−2)の第3乃至第5物理端末15、17、19であるので、3つの物理端末が提供する3つのソース映像を2つの映像に再編集して表示しなければならない。どのスクリーンにどのソース映像を表示するかは別個に決定することができる。図2では、第1物理端末11が第5物理端末19のソース映像を表示し、第2物理端末13が、第3物理端末15と第4物理端末17のソース映像とを一つにミキシングした映像を表示する。
第2論理端末150は、第3物理端末15が2つのディスプレイ装置を備え、第4物理端末17が一つのディスプレイ装置を備えて3つのディスプレイ装置を含むので、m1=3、m2=2である。したがって、第2論理端末150に対して、サーバ110は、3つの物理端末が提供するソース映像を3つの映像で表示する。表示すべきソース映像の個数とスクリーンの個数とが一致するので、1つずつ再度表示すればよい。どのスクリーンにどのソース映像を表示するかは別個に決定することができる。図2では、第3物理端末15が第1及び第2物理端末11、13のソース映像をそれぞれ表示し、第4物理端末17は第5物理端末19が提供するソース映像を表示するように構成される。
第5物理端末19にも数式1が同一に適用される。第5物理端末19においてm1=2、m2=1なので、サーバ110は、4つのソース映像(m3=5−1)を2個(m1)の映像に再編集して第5物理端末19に提供する。第5物理端末19は、2つのディスプレイ装置に、第1論理端末130と第2論理端末150の全体4つの物理端末11、13、15、17が提供するソース映像を表示しなければならないので、4つのソース映像を適切に編集して2つの映像として表示するように構成される。
もし、第2論理端末150を構成する第3物理端末15が発表者トークンを取得した場合、2つのソース映像を提供することができる。この場合、第2論理端末150は、全体3つのソース映像を提供するものとなり、Mは6となる。サーバ110が第1論理端末130、第2論理端末150及び第5物理端末19に伝送するために処理しなければならないソース映像の個数も、上述したものより一つずつ多くなる。
論理端末に対するビデオ会議サービス(映像処理)
以下では、図3を参照して、サーバ110のマルチスクリーンビデオ会議サービス提供方法を説明する。説明の便利のために、図2において、第1論理端末130の第1物理端末11を発信側とし、第2論理端末150を受信側として通話接続する過程を中心に説明する。まず、論理端末を登録する過程が必要である。
<論理端末の登録ステップ:S301>
サーバ110の端末登録部111は、物理端末と論理端末の登録を進行し、管理する。物理端末の登録は、論理端末の登録と同時に或いはそれより優先して実行されるべきであり、各物理端末の登録には、各端末のIPアドレス(IP Address)が必須的に必要である。
物理端末の登録過程は、従来の公知の様々な方法で登録することができる。例えば、SIPプロトコル上のレジスタ(Register)コマンドによる位置登録過程を利用して物理端末の登録を行うこともできるが、この際には、物理端末の電話番号などが含まれ得る。物理端末の位置を登録すると、サーバ110は、当該物理端末が現在ターンオン(Turn On)されて動作中であるか否かを確認することができる。
論理端末の登録は、当該論理端末に含まれる物理端末を指定し、各物理端末に接続されたディスプレイ装置の個数が登録される。実施形態によっては、論理端末に含まれているディスプレイ装置間の配置(又は相対位置)と、ソース映像の個数m3による映像ミキシング方式(リレー方式を含む)又はミキシング映像のレイアウト(Layout)などを設定することもできる。例えば、端末登録部111は、第1物理端末11と第2物理端末13を第1論理端末130として構成する構成情報の入力を受け、登録して管理する。論理端末の登録は、端末登録部111が提供するWebページを利用するか、或いは別途の接続端末を利用することができる。
また、論理端末に対しては、以下で説明する論理端末を構成する物理端末のうちのいずれか一つが、オーディオ信号の出力のための物理端末(以下、出力担当−物理端末)として登録される。
<ビデオ会議のための発信呼−接続ステップ:S303>
各ビデオ会議ポイント間のビデオ会議呼設定は、サーバ110の通話接続部113が一つのポイントから呼接続要求を受信することにより開始する。SIPプロトコルの場合、通話接続部113は、SIPシグナリングメッセージであるINVITEを受信する。図2の例において、第1論理端末130の第1物理端末11が第2論理端末150の第3物理端末15を呼び出すので、通話接続部113は、発信側である第1物理端末11が第3物理端末15の電話番号又はIPアドレスを用いて第3物理端末15を呼び出すINVITEメッセージを受信する。
<発信者及び/又は受信者が論理端末であるか否かの照会:S305>
サーバ110の通話接続部113は、受信側の電話番号が論理端末を構成する物理端末のうちのいずれか一つの電話番号(又はIPアドレス)であるかを端末登録部111に照会する。同様に、発信側が論理端末を構成する物理端末のうちのいずれか一つの電話番号(又はIPアドレス)であるか否かを端末登録部111に照会する。これにより、通話接続部113は、当該呼接続が論理端末への接続であるか否かを確認する。
実施形態によって、通話接続部113は、付加的に受信側が論理端末を構成する物理端末である場合に、当該物理端末がその論理端末の代表端末であるかをさらに確認することにより、受信側の代表端末でない場合には、受信側を論理端末として処理しなくてもよい。発信側の場合にも、当該発信側の属している論理端末の代表端末であるかをさらに確認することにより、発信側の代表端末ではない場合には、発信側を論理端末として処理しなくてもよい。
<ビデオ会議接続:S307、S309>
受信側の電話番号が論理端末であれば、通話接続部113は、受信側の論理端末に属する全ての物理端末とのSIPセッション生成のための手続きを行う。図2の例において、受信側が第2論理端末150であるので、通話接続部113は、第3物理端末15及び第4物理端末17と個別にSIPセッションを生成する。このとき、通話接続部113は、第3物理端末15と第4物理端末17に同時にINVITEメッセージを伝達してもよく、順次伝達してもよい(S307)。
図2の例において、発信側も論理端末であるので、通話接続部113は、第1論理端末130の第2物理端末13ともSIPセッションを生成する。図2の例において、第5物理端末19がビデオ会議に参加した場合、第5物理端末19ともSIPセッションを生成する。したがって、第1論理端末130、第2論理端末150及び第5物理端末19がビデオ会議に参加しながら、全体5つのSIPセッションが生成される(S309)。
INVITEを受信した受信側及び/又は送信側の全ての物理端末は、SDP(Session Description Protocol)情報を介して映像及び音声コーデックなどを選択する協商をする。成功的に協商が完了すると、実際にセッションが成立して呼が接続される。
<各物理単一端末からソース映像を受信するステップ:S311>
前述したように、論理端末の通話接続は、実際に論理端末を構成する個別物理端末との接続なので、複数のセッションが成立したものである。論理端末を構成する物理端末も個別にソース映像を生成してサーバ110へ伝送する。
したがって、図2の場合、ビデオ会議に第1論理端末130、第2論理端末150及び第5物理端末19が参加したため、通話接続部113は、セッション接続された5つの物理端末11、13、15、17、19が提供する5つのソース映像11a、13a、15a、17a、19aを受信する。
<サーバのソース映像の再処理:S313>
サーバ110の映像処理部115は、物理端末から受信されたソース映像を各ポイントのための映像に再びレンダリング(Rendering)するためにソース映像をデコードし、ミキシングしてエンコードする。言い換えれば、映像処理部115は、各論理端末に対してm3個の映像をm1個の映像に再編集することができる。
映像処理部115は、各論理端末又は物理端末別に所定のレイアウトに従うか、或いは各端末側から要求するレイアウトに合わせてソース映像のミキシングを行う。
前述したように、映像処理部115の映像処理なしで、通話接続部113が所定の時間間隔で順次提供することにより、リレー形式でソース映像が表示されるようにすることもできる。この場合には、ミキシングなどの過程なしでそのまま伝送すればよく、当該端末の映像コーデックにマッチングさせる必要がある場合に映像フォーマットを変更するか或いはトランスコード(Trans Coding)する程度で十分である。
<エンコードされた映像データを各物理端末に伝送:S315>
通話接続部113は、映像処理部115が各物理端末11、13、15、17、19のために処理した映像を、ビデオ会議に参加中の各物理端末11、13、15、17、19に提供する。これにより、ビデオ会議に参加中の各ポイントは、まるでマルチスクリーンによるテレプレゼンスのようなサービスの提供を受けることができる。
以上の方法によって本発明のビデオ会議システム100のビデオ会議用マルチスクリーンが処理される。
(実施形態)S305ステップの他の方法
端末登録部111は、論理端末を登録するとき、当該論理端末のための仮想の電話番号を生成して登録することができる。このような場合に、S305ステップで受信側の電話番号が論理端末の仮想電話番号である場合にのみ、受信側を論理端末として処理することもできる。
論理端末に対するビデオ会議サービスの提供(オーディオ処理)
本発明のビデオ会議システム100は、論理端末と呼ばれる機能を提供するので、従来のビデオ会議システム又は装置とは異なり、サーバ110におけるオーディオ信号処理が従来とは異なる。
サーバ110のオーディオ処理部117は、通話接続部113がビデオ会議に参加中の各ポイントから受信したRTPパケットからオーディオ信号をデコードする。図4のビデオ会議システム100は、図1のビデオ会議システム100をオーディオ信号の処理の観点から示したものである。上述したように、各ビデオ会議端末11、13、15、17、19は、映像/音声コーデック(Codec)を備え、個別に発言者の音声をオーディオ信号に変換するマイク11−1、13−1、15−1、17−1、19−1とオーディオ出力のためのスピーカー11−2、13−2、15−2、17−2、19−2を備えている。
上述したように、各ビデオ会議端末11、13、15、17、19は、サーバ110と個別にSIPセッションを形成するだけでなく、それぞれがビデオ会議用端末である。したがって、他の設定をしければ、サーバ110が構成したビデオ会議に参加しているすべての物理端末は、論理端末の構成か否かに関係なく、オーディオ信号をSIPセッションを介してサーバ110に伝送することができる。以下では、図5を参照して、オーディオ処理部117によるオーディオ信号処理過程を説明する。図5の方法はS307及びS309ステップを経てSIPセッションが生成された後に行われる。
<ソースオーディオ受信ステップ:S501>
図4を参照する。ビデオ会議に参加中のすべての物理端末11、13、15、17、19は、サーバ110とSIPセッションを個別に形成しており、それぞれのマイク11−1、13−1、15−1、17−1、19−1に入力される音声又はオーディオをオーディオ信号に変換してRTPパケットの形でサーバ110へ提供する。したがって、サーバ110の通話接続部113は、ビデオ会議に参加中のすべての物理端末11、13、15、17、19が提供するすべてのRTPパケットを受信する。このステップは、ソース映像受信に関するS311ステップに対応する。
<ソースオーディオ処理ステップ:S503>
オーディオ処理部117は、SIPセッションを介して受信されたRTPパケットをデコードして、ビデオ会議に参加中のすべての物理端末11、13、15、17、19が提供したオーディオ信号(以下、「ソースオーディオ信号」という。)を取得し、各ビデオ会議ポイントへ提供するオーディオ信号(以下、「出力用オーディオ信号」という。)に再びミキシングする。S313ステップに対応する。
各ビデオ会議ポイントへ提供する出力用オーディオ信号は、他のビデオ会議ポイントから提供するオーディオ信号をミキシングしたものであるが、この時、様々な方法が可能である。
(方法1)まず、各ビデオ会議ポイントが物理端末であるか論理端末であるかを問わず、当該ビデオ会議ポイントから提供されるすべてのオーディオ信号をミキシングすることができる。例えば、第1論理端末130側に送る出力用オーディオ信号には、第2論理端末150と第5物理端末19が提供したソースオーディオ信号がミキシングされなければならないので、オーディオ処理部117は、第3物理端末15、第4物理端末17及び第5物理端末19が提供したソースオーディオ信号をミキシングする。第2論理端末150側に送るオーディオ信号には、第1論理端末130と第5物理端末19が提供したソースオーディオ信号がミキシングされなければならないので、オーディオ処理部117は、第1物理端末11、第2物理端末13及び第5物理端末19が提供したソースオーディオ信号をミキシングする。第5物理端末19側に送るオーディオ信号には、第1論理端末130と第2論理端末150が提供したソースオーディオ信号がミキシングされなければならないので、オーディオ処理部117は、第1物理端末11、第2物理端末13、第3物理端末15及び第4物理端末17が提供したソースオーディオ信号をミキシングする。
(方法2)他のビデオ会議ポイントが論理端末であれば、当該論理端末に属する物理端末の中から選択された一つの物理端末が提供するオーディオ信号のみを出力用オーディオ信号にミキシングすることもできる。例えば、第1論理端末130側に送る出力用オーディオ信号には、第2論理端末150と第5物理端末19が提供したソースオーディオ信号がミキシングされなければならない。第2論理端末150には、第3物理端末15と第4物理端末17が含まれるので、オーディオ処理部117は、第3物理端末15と第4物理端末17の中から選択された一つの端末から提供したソースオーディオ信号のみを、第5物理端末19が提供したソースオーディオ信号とミキシングするものである。この時、ミキシングのために選択されるソースオーディオ信号が、必ず出力担当−物理端末が提供するソースオーディオ信号である必要はない。
この方式を採用する理由はさまざまである。例えば、この方式の具体的な適用ステップで、第2論理端末150側の発言者の位置に最も近いマイクを介して入力されたオーディオ信号がミキシング用として選択され、第2論理端末150の残りの物理端末が提供するオーディオ信号はミキシングしないことがある。こうすれば、発言者の発言が第2論理端末150のすべてのマイク15−1、17−1に入力されるときに発生する微細な時間差によりオーディオや音声が明瞭に聞こえなくなるという問題を解決することができる。
<出力用オーディオ信号の伝送:S505>
オーディオ処理部117は、各ビデオ会議ポイントに提供するためにさらにミキシングした「出力用オーディオ信号」を、所定のオーディオ信号フォーマットで圧縮し、RTPパケットにエンコードしてさらに各ビデオ会議ポイントへ伝送する。ただし、論理端末側には、後述する出力担当−物理端末へ「出力用オーディオ信号」が伝送される。
出力担当−物理端末
論理端末の設定に関係なく、サーバ110は、ビデオ会議に参加中の全ての物理端末とSIPセッションを形成し、オーディオ信号は、そのSIPセッションを介して伝送される。このとき、第1ポイントAと第2ポイントBのようにビデオ会議ポイントが論理端末であれば、オーディオ処理部117は、出力担当−物理端末にのみ新しくエンコードしたオーディオ信号を伝送し、第3ポイントCのようにビデオ会議ポイントが論理端末ではなく物理端末であれば、オーディオ処理部117は、従来と同様に、その物理端末に新たにエンコードしたオーディオ信号を伝送する。このために、サーバ110の端末登録部111は、論理端末の登録過程で、論理端末を構成する物理端末のいずれか一つの入力を「出力担当−物理端末」として受けて登録する。「出力担当−物理端末」は、上述した論理端末の代表端末であってもよく、代表端末とは異なる端末として定めてもよい。
論理端末がビデオ会議に参加する場合、他のビデオ会議ポイントが提供するオーディオ信号は、論理端末を構成するすべての物理端末を介して出力されるのではなく、出力担当−物理端末を介してのみ出力される。そうでなければ、同じオーディオ信号が複数のスピーカーを介して微細な時間差を置いて出力されるので、明瞭なオーディオを出力することができない。その他にも、出力担当−物理端末を定めなければ、エコー除去について複雑な場合の数が発生するために適切ではない。
したがって、論理端末を構成するすべての物理端末が発言者の音声などをオーディオ信号に変換してサーバ110へ提供することはできるが、サーバ110が提供するオーディオ信号は、出力担当−物理端末にのみ提供される。
図4を参照する。第1ポイントAの第1論理端末130では、第1物理端末11が出力担当−物理端末として登録され、第2ポイントBの第2論理端末150では、第4物理端末17が出力担当−物理端末として登録されたと仮定する。
オーディオ処理部117は、第1ポイントAへ提供する出力用オーディオ信号15b+17b+19bを、出力担当−物理端末である第1物理端末11にのみ提供し、第2ポイントBへ提供する出力用オーディオ信号11b+13b+19bを第4物理端末17にのみ提供する。第3ポイントCは物理端末なので、オーディオ処理部117は、第3ポイントCへ提供する出力用オーディオ信号11b+13b+15b+17bを第5物理端末19に伝送する。
論理端末を構成する物理端末のうち、出力担当−物理端末ではない端末には、オーディオ信号がないRTPパケットを伝送することができる。ここで、「オーディオ信号がない」というのは、例えば、振幅のないオーディオ信号を含む。実施形態によっては、オーディオ信号用RTPパケット自体を伝送しないこともある。
したがって、論理端末である第1ポイントAでは、第1物理端末11が自分のスピーカー11−2を介して出力用オーディオ信号15b+17b+19bを出力し、第2物理端末13のスピーカー13−2を介してはいずれのオーディオも出力されない。同様に、論理端末である第2ポイントBでは、第4物理端末17が自分のスピーカー17−2を介して出力用オーディオ信号11b+13b+19bを出力し、第3物理端末15のスピーカー15−2を介してはいずれのオーディオも出力されない。
論理端末におけるペアリングエコーキャンセリング(図6)
上述したように、サーバ110が構成したビデオ会議に参加しているすべての物理端末は、論理端末の構成か否かに関係なく、それぞれがビデオ会議用端末であるため、自分のマイクに入力されるソースオーディオ信号を自分のスピーカーへ出力しない。
また、サーバ110が構成したビデオ会議に参加している物理端末は、論理端末の構成か否かに関係なくエコー除去機能を備えることができる。ところが、入力されるソースオーディオ信号からエコーを除去するためには、基準となるオーディオ信号(出力用オーディオ信号)があるべきであるが、論理端末へ伝送する出力用オーディオ信号は、出力担当−物理端末にのみ伝送される。したがって、論理端末に属しながら出力担当−物理端末ではないビデオ会議端末は、エコー除去機能を行う基準オーディオ信号を保有しない。
図4の例において、第1論理端末130では、第1物理端末11が出力担当−物理端末として設定されているので、オーディオ処理部117は、第1論理端末130へ伝送すべき出力用オーディオ信号を第1物理端末11にのみ伝送し、第2物理端末13には伝送しない。理解のために説明すると、オーディオ処理部117が第2物理端末13にいずれのRTPパケットも伝送しないことを意味するのではなく、単に出力のための第1物理端末11に提供したオーディオ信号が提供されないのである。
逆に、第1論理端末130側では、第1物理端末11と第2物理端末13がそれぞれ自分のマイク11−1、13−1を介して受信したソースオーディオ信号11b、13bをサーバ110へ伝送する。このとき、出力担当−物理端末である第1物理端末11は、サーバ110から出力のためのオーディオ信号を受信したため、マイク11−1に入力された信号に対してエコー除去を行うことができる。しかし、第2物理端末13は、出力担当−物理端末ではないので、サーバ110から出力用オーディオ信号を受信しておらず、エコー除去の基準となる信号を保有していない状態である。
したがって、第2物理端末13は、マイク13−1に入力されたソースオーディオ信号に対してエコー除去を行うことができない。よって、本発明は、ビデオ会議サーバ110のエコー処理部119がエコー除去機能を行う。
エコー処理部119は、各ビデオ会議ポイントへ提供するための出力用オーディオ信号をミキシングする前に、エコー除去機能を行い、必要に応じて、基本的なノイズ除去を行うこともできる。本発明のエコー除去は、従来の一般なビデオ会議システム又は装備におけるエコー除去とは全く違う。以下では、本発明の特徴的なエコー除去機能を「ペアリングエコーキャンセリング(Paring Echo Cancelling)」という。
エコー処理部119は、論理端末側から受信されたソースオーディオが出力担当−物理端末が提供したものでなければ、その論理端末へ伝送した出力用オーディオ信号を用いてエコーを除去する。以下では、図6を参照して、ビデオ会議サーバ110のエコー除去方法を説明する。図6の方法も、図3のS307及びS309ステップに従って、サーバ110と各物理端末との間にSIPセッションが生成された状態で行われる。
まず、S501ステップで、オーディオ処理部117がビデオ会議に参加した各物理端末11、13、15、17、19からソースオーディオ信号を受信すると、エコー処理部119は、当該ソースオーディオ信号が、論理端末に属する物理端末であって出力担当−物理端末ではない端末が提供した信号であるかを判断する(S601、S603)。
S601、S603ステップの判断結果、当該ソースオーディオ信号が、論理端末に属する物理端末であって出力担当−物理端末ではない端末が提供した信号であれば、エコー処理部119は、当該論理端末に伝送した出力用オーディオ信号を基準にエコー除去機能を行う。エコー処理部119のエコー除去アルゴリズムは、入力されたオーディオ信号から出力オーディオ信号と一致する波形を除去するものであって、通常知られているエコー除去アルゴリズムを使用することができる。図4の例において、エコー処理部119は、第2物理端末13が提供するソースオーディオ信号を、出力担当−物理端末である第1物理端末11に伝送した出力用オーディオ信号と比較して、エコーを除去する。もし、第2物理端末13が提供するソースオーディオ信号にエコーがあったならば、第1物理端末11に伝送した出力用オーディオ信号と同じ波形なので、エコー除去アルゴリズムによって除去できる(S605)。
S601、S603ステップの判断結果、当該オーディオ信号が論理端末から伝送されたものではないか、或いは論理端末に属する物理端末として出力担当−物理端末が提供した信号であれば、エコー処理部119は、エコー除去機能を行わなくてもよい。これは、出力担当−物理端末が自体的にエコー除去機能を備えてエコーを除去することができるからである。他の方法として、S603ステップと同様に、第1物理端末11に既に伝送した出力用オーディオ信号と比較してエコーを除去することができる。
以上の方法によって、本発明のペアリングエコーキャンセリングが行われる。
(実施形態)論理端末におけるオーディオ処理及びエコー除去の他の方法
上述した例において、オーディオ処理部117は、出力担当−物理端末にのみ出力用オーディオ信号を提供すると説明したが、必ずしもこれに限定される必要はない。例えば、論理端末を構成するすべての物理端末に同じ出力用オーディオ信号を提供することができる。ただし、出力担当−物理端末のみが該当出力用オーディオ信号を出力し、残りの物理端末は単に出力用オーディオ信号をエコー除去用基準オーディオ信号として使用する。
オーディオ処理部117は、論理端末を構成するすべての物理端末に同じ出力用オーディオ信号を送るが、出力担当−物理端末に提供するRTPパケットには「出力用」と表示し、残りの物理端末に提供するRTPパケットには当該オーディオ信号を「エコー除去用」と表示する。この場合、エコー除去は各物理端末で行われるので、サーバ110はエコー処理部119を備える必要がない。
例えば、図4の例において、オーディオ処理部117は、第1論理端末130へ提供する出力用オーディオ信号がある場合、出力担当−物理端末である第1物理端末11には「出力用」と表示して伝送し、第2物理端末13には「エコー除去用」と表示して伝送する。
これにより、第1物理端末11は、出力用オーディオ信号をスピーカー11−2を介して出力し、第2物理端末13は、サーバ110から提供された出力用オーディオ信号をスピーカー13−2を介して出力せずに保有し、マイク13−1を介して受信するオーディオ信号からエコーを除去するために使用する。
以上では、本発明の好適な実施形態について図示及び説明したが、本発明は、上述した特定の実施形態に限定されず、請求の範囲で請求する本発明の要旨を逸脱することなく、当該発明の属する技術分野における通常の知識を有する者によって多様な変形実施が可能なのはもとより、それらの変形実施は本発明の技術的思想や展望から個別的に理解されてはならないだろう。

Claims (12)

  1. ビデオ会議サーバのビデオ会議サービス提供方法であって、
    複数の物理端末を第1論理端末として登録して、前記複数の物理端末が一つのビデオ会議ポイント(Point)の如き動作するように登録し、前記複数の物理端末のうちのいずれか一つを出力担当−物理端末として登録する登録ステップと、
    複数のビデオ会議ポイント間のビデオ会議を接続し、前記第1論理端末に対しては前記第1論理端末を構成する複数の物理端末と個別に接続する呼接続ステップと、
    前記複数のビデオ会議ポイントが提供するソースオーディオ信号を受信し、前記第1論理端末に対しては前記複数の物理端末のそれぞれから前記ソースオーディオ信号を受信するソースオーディオ受信ステップと、
    前記ソースオーディオ受信ステップで受信した全体ソースオーディオのうち、他のビデオ会議ポイントから提供したオーディオ信号を、前記第1論理端末に提供する出力用オーディオ信号にミキシングするオーディオ処理ステップと、
    前記第1論理端末に属する複数の物理端末のうち、前記出力担当−物理端末に前記出力用オーディオ信号を伝送するオーディオ出力ステップと、を含むことにより、
    前記第1論理端末が一つの仮想のビデオ会議ポイントとして動作するようにすることを特徴とする、
    ビデオ会議サーバのビデオ会議サービス提供方法。
  2. 前記第1論理端末から受信されたソースオーディオ信号のうち、前記出力担当−物理端末ではない物理端末が提供したソースオーディオ信号に対して前記出力用オーディオ信号を用いてエコーを除去するステップをさらに含むことを特徴とする、請求項1に記載のビデオ会議サーバのビデオ会議サービス提供方法。
  3. 前記オーディオ出力ステップは、前記第1論理端末に属する複数の物理端末のうち、前記出力担当−物理端末ではない物理端末に前記出力用オーディオ信号を伝送し、前記出力用オーディオ信号をエコー除去用として伝送することにより、前記出力担当−物理端末ではない物理端末が前記出力用オーディオ信号をスピーカーへ出力しないようにしながら、エコー除去の基準オーディオ信号として使用するようにすることを特徴とする、請求項1に記載のビデオ会議サーバのビデオ会議サービス提供方法。
  4. 前記オーディオ処理ステップは、前記他のビデオ会議ポイントが、複数の物理端末を含む第2論理端末である場合、前記第2論理端末に属する複数の物理端末が提供したオーディオ信号の中から選択された一つのオーディオ信号を、前記第1論理端末に提供する出力用オーディオ信号にミキシングすることを特徴とする、請求項1に記載のビデオ会議サーバのビデオ会議サービス提供方法。
  5. 前記複数のビデオ会議ポイントが提供するソース映像を受信し、前記第1論理端末に対しては前記複数の物理端末のそれぞれから前記ソース映像を受信するソース映像受信ステップと、前記ソース映像受信ステップで受信した全体ソース映像のうち、他のビデオ会議ポイントから提供した映像を前記第1論理端末の複数の物理端末に分配することにより、前記第1論理端末が一つの仮想のビデオ会議ポイントとして動作するようにするマルチスクリーン映像提供ステップと、を含むことを特徴とする、請求項1に記載のビデオ会議サーバのビデオ会議サービス提供方法。
  6. 前記呼接続ステップは、発信側のポイントから呼接続要求メッセージを受信するステップと、前記呼接続要求メッセージの受信に応じて発信側と受信側とを接続する間に、前記発信側又は受信側が前記第1論理端末であるか否かを照会するステップと、前記照会結果に基づいて前記発信側が第1論理端末の物理端末であれば、前記第1論理端末の残りの物理端末とも個別接続を生成するステップと、前記照会結果に基づいて前記呼接続要求された受信側が第2論理端末の物理端末であれば、前記第2論理端末の残りの物理端末とも個別接続を生成するステップと、を行うことを特徴とする、請求項1に記載のビデオ会議サーバのビデオ会議サービス提供方法。
  7. ビデオ会議サービスを提供することが可能なビデオ会議サーバであって、
    複数の物理端末を一つのビデオ会議ポイント(Point)かのように動作する第1論理端末として登録し、前記複数の物理端末のうちのいずれか一つを出力担当−物理端末として登録する端末登録部と、
    前記第1論理端末を含む複数のビデオ会議ポイント間のビデオ会議を接続し、前記第1論理端末に対しては前記第1論理端末を構成する複数の物理端末と個別に接続し、前記複数のビデオ会議ポイントからソースオーディオ信号を受信し、前記第1論理端末に対しては前記複数の物理端末のそれぞれからソースオーディオ信号を受信する通話接続部と、
    前記受信した全体ソースオーディオのうち、他のビデオ会議ポイントから提供したオーディオを、前記第1論理端末へ提供する出力用オーディオ信号にミキシングし、前記第1論理端末に属する複数の物理端末のうち、前記出力担当−物理端末に前記出力用オーディオ信号を伝送するオーディオ処理部と、を含むことを特徴とする、
    ビデオ会議サーバ。
  8. 前記第1論理端末から受信されたソースオーディオ信号のうち、前記出力担当−物理端末ではない物理端末が提供したソースオーディオ信号に対して前記出力用オーディオ信号を用いてエコーを除去するエコー処理部をさらに含むことを特徴とする、請求項7に記載のビデオ会議サーバ。
  9. 前記オーディオ処理部は、前記第1論理端末に属する複数の物理端末のうち、前記出力担当−物理端末ではない物理端末に前記出力用オーディオ信号を伝送し、前記出力用オーディオ信号がエコー除去用として伝送することにより、前記出力担当−物理端末ではない物理端末が前記出力用オーディオ信号をスピーカーへ出力しないようにしながらエコー除去の基準オーディオ信号として使用するようにすることを特徴とする、請求項7に記載のビデオ会議サーバ。
  10. 前記オーディオ処理部は、前記他のビデオ会議ポイントが、複数の物理端末を含む第2論理端末である場合に、前記第2論理端末に属する複数の物理端末が提供したオーディオ信号の中から選択された一つのオーディオ信号を、前記第1論理端末に提供する出力用オーディオ信号にミキシングすることを特徴とする、請求項7に記載のビデオ会議サーバ。
  11. 前記通話接続部が前記複数のビデオ会議ポイントからソース映像を受信し、前記第1論理端末に対しては前記複数の物理端末のそれぞれからソース映像を受信し、前記通話接続部が前記受信した全体ソース映像のうち、他のビデオ会議ポイントから提供した映像を前記第1論理端末の複数の物理端末に分配するように処理する映像処理部をさらに含むことを特徴とする、請求項7に記載のビデオ会議サーバ。
  12. 前記通話接続部は、発信側のポイントから呼接続要求メッセージに応じて発信側と受信側を接続する間に、前記発信側又は受信側が前記第1論理端末であるか否かを照会し、前記発信側が第1論理端末の物理端末と照会されると、前記第1論理端末の残りの物理端末とも個別接続を生成し、前記呼接続要求された受信側が第2論理端末の物理端末と照会されると、前記第2論理端末の残りの物理端末とも個別接続を生成することを特徴とする、請求項7に記載のビデオ会議サーバ。
JP2020563710A 2018-05-14 2019-02-18 複数のビデオ会議用端末を用いてビデオ会議を提供することが可能なビデオ会議サーバ及びそのオーディオエコー除去方法 Pending JP2021521741A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2018-0055021 2018-05-14
KR1020180055021A KR101918674B1 (ko) 2018-05-14 2018-05-14 복수 개의 영상회의용 단말을 이용하여 영상회의를 제공할 수 있는 영상회의 서버 및 그 오디오 에코 제거방법
PCT/KR2019/001904 WO2019221369A1 (ko) 2018-05-14 2019-02-18 복수 개의 영상회의용 단말을 이용하여 영상회의를 제공할 수 있는 영상회의 서버 및 그 오디오 에코 제거방법

Publications (1)

Publication Number Publication Date
JP2021521741A true JP2021521741A (ja) 2021-08-26

Family

ID=64328223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020563710A Pending JP2021521741A (ja) 2018-05-14 2019-02-18 複数のビデオ会議用端末を用いてビデオ会議を提供することが可能なビデオ会議サーバ及びそのオーディオエコー除去方法

Country Status (5)

Country Link
US (1) US20210218932A1 (ja)
EP (1) EP3796647A4 (ja)
JP (1) JP2021521741A (ja)
KR (1) KR101918674B1 (ja)
WO (1) WO2019221369A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220114326A (ko) * 2021-02-08 2022-08-17 삼성전자주식회사 미디어 스트림을 송수신하는 전자 장치 및 그 동작 방법
WO2023213395A1 (en) * 2022-05-04 2023-11-09 Telefonaktiebolaget Lm Ericsson (Publ) Echo cancellation for i/o user devices performing user terminal emulation as a cloud computing service
CN115022578B (zh) * 2022-08-05 2022-12-06 国网江西省电力有限公司信息通信分公司 一种基于异构网络融合的会议视频传输方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005080212A (ja) * 2003-09-03 2005-03-24 Nippon Telegr & Teleph Corp <Ntt> 多地点会議システムのセッション管理方法及び多地点会議装置
JP2007096838A (ja) * 2005-09-29 2007-04-12 Matsushita Electric Ind Co Ltd グループ通話制御装置、音声通話装置、およびグループ通話システム
JP2011114699A (ja) * 2009-11-27 2011-06-09 Sharp Corp 情報共有システム
JP2014165888A (ja) * 2013-02-27 2014-09-08 Saxa Inc 会議端末、会議サーバ、会議システム、およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0163723B1 (ko) * 1995-03-20 1999-01-15 김광호 종합정보통신망을 이용한 화상회의시스템의 화상회의 제어장치
KR20000037652A (ko) * 1998-12-01 2000-07-05 전주범 영상회의 시스템에서의 음원 추적에 의한 카메라 제어 방법
KR100725780B1 (ko) * 2005-11-24 2007-06-08 삼성전자주식회사 이동통신단말기에서 화상통화 연결 방법
US7848738B2 (en) * 2007-03-19 2010-12-07 Avaya Inc. Teleconferencing system with multiple channels at each location
KR101393077B1 (ko) * 2012-06-29 2014-05-12 (주)티아이스퀘어 네트워크를 통해 다자간 영상 회의 서비스를 제공하는 방법 및 시스템
KR20140098573A (ko) * 2013-01-31 2014-08-08 한국전자통신연구원 영상 회의 서비스 제공 장치 및 방법
KR101641184B1 (ko) 2014-11-25 2016-08-01 (주)유프리즘 비디오 컨퍼런스를 위해 복수의 비디오 피드들을 믹싱 처리하는 방법, 이를 이용한 비디오 컨퍼런스 단말 장치, 비디오 컨퍼런스 서버 및 비디오 컨퍼런스 시스템
EP3070876A1 (en) * 2015-03-17 2016-09-21 Telefonica Digital España, S.L.U. Method and system for improving teleconference services

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005080212A (ja) * 2003-09-03 2005-03-24 Nippon Telegr & Teleph Corp <Ntt> 多地点会議システムのセッション管理方法及び多地点会議装置
JP2007096838A (ja) * 2005-09-29 2007-04-12 Matsushita Electric Ind Co Ltd グループ通話制御装置、音声通話装置、およびグループ通話システム
JP2011114699A (ja) * 2009-11-27 2011-06-09 Sharp Corp 情報共有システム
JP2014165888A (ja) * 2013-02-27 2014-09-08 Saxa Inc 会議端末、会議サーバ、会議システム、およびプログラム

Also Published As

Publication number Publication date
US20210218932A1 (en) 2021-07-15
EP3796647A4 (en) 2022-01-12
EP3796647A1 (en) 2021-03-24
WO2019221369A1 (ko) 2019-11-21
KR101918674B1 (ko) 2018-11-14

Similar Documents

Publication Publication Date Title
US8243120B2 (en) Method and device for realizing private session in multipoint conference
US8379076B2 (en) System and method for displaying a multipoint videoconference
US7689568B2 (en) Communication system
US8004556B2 (en) Conference link between a speakerphone and a video conference unit
US7653013B1 (en) Conferencing systems with enhanced capabilities
US20120086769A1 (en) Conference layout control and control protocol
JP4738058B2 (ja) リアルタイムマルチメディア情報の効率的なルーティング
US20130097333A1 (en) Methods and apparatuses for unified streaming communication
KR20020022165A (ko) 영상회의 시스템에서의 다자간 영상회의 방법
US9723263B2 (en) Audio processing of shared content
WO2015154608A1 (zh) 一种视频会议资料共享方法、系统及装置
JP2021521741A (ja) 複数のビデオ会議用端末を用いてビデオ会議を提供することが可能なビデオ会議サーバ及びそのオーディオエコー除去方法
US20190089754A1 (en) System and method for providing audio conference between heterogenious networks
EP3813361A1 (en) Video conference server capable of providing video conference by using plurality of video conference terminals, and camera tracking method therefor
KR101861561B1 (ko) 복수 개의 영상회의용 단말을 이용하여 멀티 스크린 영상회의를 제공할 수 있는 영상회의 서버 및 그 방법
CN113726534A (zh) 会议控制方法、装置、电子设备及存储介质
JP2010093479A (ja) 会議システムおよび会議端末装置
KR20040105884A (ko) 데이터 통신망과 전화망 간의 즉시 그룹통신을 위한 즉시그룹통신 시스템 및 그 방법
JP6569400B2 (ja) 情報処理装置、情報処理システム、プログラム、及び記録媒体
WO2022136854A1 (en) Conference apparatus and method for providing a unified meeting environment
CN115604045A (zh) 线上会议融合方法、装置和计算机存储介质
WO2011097809A1 (zh) 视讯会议控制方法、装置及系统
JP2007027999A (ja) グループ通信システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220712