JP2005516557A - Video conferencing system and operation method - Google Patents

Video conferencing system and operation method Download PDF

Info

Publication number
JP2005516557A
JP2005516557A JP2003565169A JP2003565169A JP2005516557A JP 2005516557 A JP2005516557 A JP 2005516557A JP 2003565169 A JP2003565169 A JP 2003565169A JP 2003565169 A JP2003565169 A JP 2003565169A JP 2005516557 A JP2005516557 A JP 2005516557A
Authority
JP
Japan
Prior art keywords
video
multimedia
active
user devices
speakers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003565169A
Other languages
Japanese (ja)
Inventor
ラレット,アーサー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2005516557A publication Critical patent/JP2005516557A/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2402Monitoring of the downstream path of the transmission network, e.g. bandwidth available
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26208Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints
    • H04N21/26216Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists the scheduling operation being performed under constraints involving the channel capacity, e.g. network bandwidth
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440227Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/443OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4621Controlling the complexity of the content stream or additional data, e.g. lowering the resolution or bit-rate of the video stream for a mobile client with a small screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

複数のマルチメディア・ユーザ装置(550,560,570,580)の間でのマルチメディア・ビデオ会議においてビデオ・イメージを中継する方法は、複数のマルチメディア・ユーザ装置のうちの或る数のマルチメディア・ユーザ装置によりレイヤ化ビデオ・イメージを送信するステップを含み、当該レイヤ化ビデオ・イメージは、ベース・レイヤ(552,562,572,582)及び1又はそれより多くの増強レイヤ(555,565,575,585)を含む。送信されたレイヤ化ビデオ・イメージは、マルチポイント制御装置(520)で受信され、そこで、或る数の活動中の話者(535)の或る数のベース・レイヤ・ビデオ・イメージと最も活動中の話者の1又はそれより多くの増強レイヤ(540)とが選択される。マルチポイント制御装置(520)は、ベース・レイヤ・ビデオ・イメージと最も活動中の話者の1又はそれより多くの増強レイヤ(540)とを複数のマルチメディア・ユーザ装置(550,560,570,580)のうちの1又はそれより多くのマルチメディア・ユーザ装置へ送信する。唯一つの完全な品質ビデオ・ストリームの代わりに、使用可能な帯域幅を共用して、1つの増強レイヤ及び幾つかのベース・レイヤを送ることが可能になるので、話者の識別が、従来のビデオ会議システムと比較して非常に改善される。A method for relaying a video image in a multimedia video conference between a plurality of multimedia user devices (550, 560, 570, 580) is provided by a certain number of multi-user devices. Transmitting a layered video image by a media user equipment, the layered video image comprising a base layer (552, 562, 572, 582) and one or more enhancement layers (555, 565). , 575, 585). The transmitted layered video image is received at the multipoint controller (520), where there is a certain number of base layer video images and the most active of a certain number of active speakers (535). One or more enhancement layers (540) of the middle speakers are selected. The multi-point controller (520) includes a base layer video image and one or more enhancement layers (540) of the most active speakers in a plurality of multimedia user devices (550, 560, 570). , 580) to one or more multimedia user devices. Instead of a single full quality video stream, it becomes possible to share one available bandwidth and send one enhancement layer and several base layers so that speaker identification Greatly improved compared to video conferencing system.

Description

[発明の分野]
本発明はビデオ会議に関する。本発明は、レイヤ化ビデオ・コーディングを用いて、H.323及び/又はSIPベースの集中化ビデオ会議におけるビデオ切り換え機構に適用可能であるが、それに限定されるものではない。
[Field of the Invention]
The present invention relates to video conferencing. The present invention uses layered video coding and uses H.264. The present invention is applicable to a video switching mechanism in a H.323 and / or SIP-based centralized video conference, but is not limited thereto.

[発明の背景]
ビジネスのペースが加速し、関係が世界中に拡大するにつれ、通信距離を迅速且つ経済的に埋める必要性が、主要な挑戦となってきた。顧客とスタッフとを効率的に引き合わせることは、ますますより競争的な市場で成功するために不可欠である。ビジネスは、音声、ビデオ、イメージ・データ、及びそれらのいずれの組み合わせのような様々な通信方法を用いて、リアルタイム情報が国及び大陸全体にわたって共用することをサポートする柔軟な解法を捜している。
[Background of the invention]
As the pace of business accelerates and relationships expand around the world, the need to quickly and economically fill communication distances has become a major challenge. Efficiently bringing customers and staff together is essential to succeed in an increasingly more competitive market. Businesses are looking for flexible solutions that support sharing real-time information across countries and continents using a variety of communication methods such as voice, video, image data, and any combination thereof.

特に、多国籍組織は、当該組織内のグループに一層効率的且つ実効的に通信させるため、多数の場所のコストのかかる移動及びリンクを無くす希望をますます増大させている。インターネット・プロトコル(IP)ネットワークを介して動作するマルチポイント会議システムは、この必要性に対処しようと努めている。本発明の分野において、端末装置が、オーディオ及びビデオ・ストリームをリアルタイムでマルチポイント・ビデオ会議において交換することが既知である。IPネットワークを介してマルチポイント会議を設定する従来の方法は、マルチポイント制御装置(MCU)を用いる方法である。MCUは、マルチポイント会議に参加するため、3つ又はそれより多くの端末装置及び/又は通信ゲートウエイに対する能力を与えるネットワーク上のエンドポイント(端点)である。MCUはまた、ポイント・ツー・ポイント会議における2つの端末装置を接続し、それにより、それらポイント・ツー・ポイント会議は、マルチポイント会議に進展する能力を有することになる。   In particular, multinational organizations are increasingly wishing to eliminate costly movements and links in multiple locations in order to communicate more efficiently and effectively to groups within the organization. Multipoint conferencing systems that operate over Internet Protocol (IP) networks strive to address this need. In the field of the invention, it is known that terminal devices exchange audio and video streams in real time in a multipoint video conference. A conventional method for setting up a multipoint conference via an IP network is a method using a multipoint control unit (MCU). An MCU is an endpoint on the network that provides the capability for three or more terminal devices and / or communication gateways to participate in a multipoint conference. The MCU also connects two end devices in a point-to-point conference, so that the point-to-point conference has the ability to evolve into a multipoint conference.

最初に図1を参照すると、既知の集中化された会議モデル(以下、「集中化会議モデル」と記す。)100が示されている。集中化会議は、MCUベースの会議ブリッジを利用する。全ての端末装置(エンドポイント)120,122,125は、メディア情報をオーディオ、ビデオ及び/又はデータ信号の形式で、並びに制御情報ストリーム140をMCU110に送信し、そしてそれから受信する。これらの伝送は、ポイント・ツー・ポイント(2地点間)方式で行われる。これが図1に示されている。   Referring initially to FIG. 1, a known centralized conference model (hereinafter referred to as a “centralized conference model”) 100 is shown. Centralized conferences utilize MCU-based conference bridges. All terminal devices (endpoints) 120, 122, 125 send media information in the form of audio, video and / or data signals and a control information stream 140 to and from the MCU 110. These transmissions are performed in a point-to-point manner. This is illustrated in FIG.

MCU110は、マルチポイント制御器(MC)及びゼロ又は1以上のマルチポイント・プロセッサ(MP)から成る。MCは、呼設定及び呼信号送出折衝を全ての端末装置間で処理して、オーディオ及びビデオ処理に関する共通の能力を決定する。MCU110は、いずれのメディア・ストリームも直接には処理しない。これは、MPにまかし、当該MPは、オーディオ、ビデオ及び/又はデータ・ビットを混合し、切り換え、そして処理する。   The MCU 110 consists of a multipoint controller (MC) and zero or more multipoint processors (MP). The MC handles call setup and call signaling negotiations between all terminal devices to determine common capabilities for audio and video processing. MCU 110 does not process any media stream directly. This is up to the MP, which mixes, switches and processes audio, video and / or data bits.

このようにして、MCUは、マルチロケーション(同時に複数の地点に存在すること)・セミナー、販売会議、グループ会議、及び他の「フェース・ツー・フェース(対面)」通信をホストする能力を提供する。また、マルチポイント会議は、様々な応用に用いることができることが知られている。   In this way, the MCU provides the ability to host multi-location (same at multiple points) seminars, sales conferences, group conferences, and other “face-to-face” communications. . In addition, it is known that the multipoint conference can be used for various applications.

(i)複数の場所にいる役員及び管理者が、「フェース・ツー・フェース」で会い、リアルタイム情報を共有し、時間、費用及び旅行の要望のいずれの損失無しにより迅速に決断することができる。   (I) Executives and managers in multiple locations can meet “face-to-face”, share real-time information, and make faster decisions without any loss of time, expense and travel needs. .

(ii)プロジェクト・チーム及び知識労働者は、個人の仕事を調整し、共有されたドキュメント、プレゼンテーション、設計及びファイルをリアルタイムの仕方で閲覧及び改訂することができる。   (Ii) Project teams and knowledge workers can coordinate their work and view and revise shared documents, presentations, designs and files in real time.

(iii)遠隔の場所にいる学生、訓練生及び従業員は、共有された教育/訓練資源にいずれの距離又は時間ゾーンを超えてアクセスすることができる。
その結果、MCUベースのシステムは、IPベースのネットワークを介したマルチメディア通信において将来重要な役割を果たすことが予見される。
(Iii) Students, trainees and employees at remote locations can access shared education / training resources across any distance or time zone.
As a result, MCU-based systems are expected to play an important role in the future in multimedia communications over IP-based networks.

そのようなマルチメディア通信は、多くの場合ビデオ伝送を採用する。そのような伝送において、イメージのシーケンス(よくフレームと呼ばれる。)は、送信装置と受信装置との間で伝送される。マルチポイント・マルチメディア会議システムは、例えば、H.323及びSIPセッション・レイヤ・プロトコル標準により指定されるように、様々な方法を用いて、設定することができる。SIPの参考資料は、
http://www.ietf.org/rfc/rfc2543.txt、及び
http://www.cs.columbia.edu/~hgs/sip
に見つけることができる。
Such multimedia communications often employ video transmission. In such transmission, a sequence of images (often called a frame) is transmitted between a transmitting device and a receiving device. The multipoint multimedia conference system is, for example, H.264. It can be set using various methods, as specified by H.323 and SIP Session Layer Protocol standards. SIP reference materials
http://www.ietf.org/rfc/rfc2543.txt, and
http://www.cs.columbia.edu/~hgs/sip
Can be found in

更に、例えばITU H.263ビデオ圧縮[ITU−T勧告、H.263、「低ビット・レート通信用ビデオ・コーディング」]を用いるシステムにおいて、ビデオ・シーケンスの第1のフレームは、一般的にイントラコード化された情報(intra coded information)と呼ばれる、大量のイメージ・データを含む。イントラコード化されたフレームは、それが最初のフレームであるので、表示されるべきイメージの実質的部分を与える。このイントラコード化されたフレームにはインターコード化された(予測された)情報が続き、そのインターコード化された(予測された)情報(inter−coded(predicted) information)は一般的に、送信中であるイメージの変化に関連するデータを含む。従って、予測され且つインターコード化された情報は、イントラコード化された情報より非常に少ない情報しか含まない。   Further, for example, ITU H.264. H.263 video compression [ITU-T recommendation, H.264 263, “Video Coding for Low Bit Rate Communication”], the first frame of the video sequence is a large amount of image code, commonly referred to as intra coded information. Contains data. An intra-coded frame gives a substantial portion of the image to be displayed because it is the first frame. This intra-coded frame is followed by inter-coded (predicted) information, and the inter-coded (predicted) information is generally transmitted. Contains data related to image changes in it. Thus, the predicted and intercoded information contains much less information than the intra-coded information.

従来のマルチメディア会議システムにおいては、ユーザは、彼らが話すとき自分自身を識別することが必要であり、それにより受信端末装置は、誰が話をしているかを知っている。明らかなことであるが、送信端末装置がそれ自身を識別するのに失敗した場合、聴いているユーザは、誰が話をしているかを推測しなければならない。   In conventional multimedia conferencing systems, users need to identify themselves when they speak, so that the receiving terminal knows who is talking. Obviously, if the sending terminal fails to identify itself, the listening user must guess who is talking.

既知の技術は、この問題を、オーディオ・ストリームを解析し、次いで活動中の話者の名前及びビデオ・ストリームを全ての参加者に送ることにより解決している。集中化会議システムにおいては、MCUは、多くの場合この機能を実行する。次いで、MCUは、適切な入力マルチメディア・ストリームを出力ポート/経路へ切り換えることにより、話者の名前及び対応のビデオ及びオーディオ・ストリームを全ての参加者に送信することができる。   Known techniques solve this problem by analyzing the audio stream and then sending the name of the active speaker and the video stream to all participants. In centralized conference systems, MCUs often perform this function. The MCU can then send the speaker's name and corresponding video and audio streams to all participants by switching the appropriate input multimedia stream to the output port / path.

ビデオ切り換えは、単一のビデオ・ストリームを各エンドポイントへ供給することをねらった周知の技術であり、複数のポイント・ツー・ポイント・セッションを配列することと等価である。ビデオ切り換えは、
(i)音声により活動化された切り換え(voice activated switching)であって、そこでは、MCUが活動中の話者のビデオを送信すること、
(ii)調時され活動化された切り換え(timed activated switching)であって、そこでは、各参加者のビデオが1つずつ所定の時間間隔で送信されること、
(iii)個人のビデオ選択切り換え(individual video selection switching)であって、そこでは、各エンドポイントは、参加者が受信することを希望するその参加者のビデオ・ストリームを要求することができること、であることができる。
Video switching is a well-known technique aimed at providing a single video stream to each endpoint, and is equivalent to arranging multiple point-to-point sessions. Video switching
(I) voice activated switching, in which the MCU transmits the video of the active speaker;
(Ii) timed and activated switching, where each participant's video is transmitted one by one at a predetermined time interval;
(Iii) Individual video selection switching, where each endpoint can request a video stream of the participant that the participant wishes to receive. Can be.

ここで図2を参照すると、従来のビデオ切り換え機構200のブロック図が示されている。従来の集中化会議システムにおいては、ビデオ切り換えは次のとおりに実行される。例えばインターネット・プロトコル(IP)ベースのネットワーク210内に位置するMCU220は、スイッチ230を含む。MCU220は、全ての参加者(ユーザ装置)250,260,270,280のビデオ・ストリーム255,265,275,285を受信する。MCUはまた、組み合わされた(多重化された)オーディオ・ストリーム290を、話している参加者から別々に受信し得る。次いで、MCU220は、それらのビデオ・ストリームの1つを選択し、このビデオ・ストリーム240を全ての参加者250,260,270,280に送信する。   Referring now to FIG. 2, a block diagram of a conventional video switching mechanism 200 is shown. In a conventional centralized conference system, video switching is performed as follows. For example, MCU 220 located within Internet Protocol (IP) based network 210 includes a switch 230. The MCU 220 receives the video streams 255, 265, 275, 285 of all participants (user devices) 250, 260, 270, 280. The MCU may also receive a combined (multiplexed) audio stream 290 separately from the speaking participant. MCU 220 then selects one of those video streams and sends this video stream 240 to all participants 250, 260, 270, 280.

そのような従来のシステムは、そのシステムが活動中の話者のビデオ・ストリームのみを送信する欠点を有する。ユーザは、依然として、幾人かの話者が同時に話している場合、又は活動中の話者が絶えず変わっている場合、ビデオ・ストリームの話者を識別する点に問題を有する。これは、特に、大きなビデオ会議の場合である。   Such conventional systems have the disadvantage of transmitting only the video stream of the active speaker. Users still have problems identifying video stream speakers when several speakers are speaking at the same time or when active speakers are constantly changing. This is especially the case for large video conferences.

代替として、各参加者のビデオを全ての参加者に送信することができる。しかしながら、このアプローチは、帯域幅の制限のため無線ベースの会議で悪化する。
ビデオ技術の分野では、ビデオが一連の静止イメージ/ピクチャとして送信されることが知られている。ビデオ信号の品質はビデオ信号のコード化又は圧縮の間に悪影響を被る場合があるので、ビデオ信号と符号化されたビデオ・ビット・ストリームとの差に基づいた追加の情報「レイヤ(複数)」を含めることが知られている。追加のレイヤを含めることにより、復号及び/又は復元が続く受信信号の品質を増強することが可能になる。従って、1又はそれより多くのレイヤに仕切られたピクチャ及び増強ピクチャの階層構造を用いて、レイヤ化されたビデオ・ビット・ストリームを生成する。
Alternatively, each participant's video can be sent to all participants. However, this approach is exacerbated with wireless-based conferencing due to bandwidth limitations.
In the field of video technology, it is known that video is transmitted as a series of still images / pictures. Since the quality of the video signal may be adversely affected during the encoding or compression of the video signal, additional information “layers” based on the difference between the video signal and the encoded video bit stream. Is known to include. By including additional layers, it is possible to enhance the quality of the received signal followed by decoding and / or reconstruction. Thus, a layered video bit stream is generated using a hierarchical structure of pictures and augmented pictures partitioned into one or more layers.

レイヤ化された(スケーラブルな)ビデオ・ビット・ストリームにおいては、ビデオ信号に対する増強は、ベース・レイヤへ次のいずれかにより追加され得る。
(i)ピクチャの解像度(空間スケーラビリティ)を増大する;又は
(ii)エラー情報を含めて、ピクチャの信号対雑音比(SNRスケーラビリティ)を改善する;又は
(iii)余分のピクチャを含めて、フレーム・レート(時間的スケーラビリティ)を増大する。
In a layered (scalable) video bitstream, enhancements to the video signal can be added to the base layer by either:
(I) increase picture resolution (spatial scalability); or (ii) include error information to improve the signal-to-noise ratio (SNR scalability) of the picture; or (iii) include extra pictures Increase the rate (temporal scalability).

そのような増強は、ピクチャ全体に、又はピクチャ内の任意の形状にされたオブジェクトに適用され得て、それは、オブジェクト・ベースのスケーラビリティと呼ばれる。時間的増強レイヤの使い捨て性質(disposable nature)を残しておくため、H.263標準は、時間的スケーラビリティ・モードに含まれるピクチャが図3のビデオ・ストリームに示されるように双方向に予測された(B)ピクチャであるべきであることを要求する。   Such enhancement can be applied to the entire picture or to any shaped object in the picture, which is referred to as object-based scalability. To preserve the disposable nature of the temporal enhancement layer, The H.263 standard requires that the pictures included in the temporal scalability mode should be bi-predicted (B) pictures as shown in the video stream of FIG.

図3は、ビデオ・コーディング技術の分野で知られているように、Bピクチャ予測依存性を説明するスケーラブルなビデオ構成300の概略図を示す。初期イントラコード化フレーム(I)310には、双方向に予測されたフレーム(B)320が続く。次いで、これには、(単方向の)予測されたフレーム(P)330が続き、そして再び第2の双方向に予測されたフレーム(B)340が続く。次いで、これには、再び、(単方向の)予測されたフレーム(P)350が続き、以下同様である。 FIG. 3 shows a schematic diagram of a scalable video structure 300 that illustrates B picture prediction dependencies, as is known in the video coding art. The initial intra-coded frame (I 1 ) 310 is followed by a bi-predicted frame (B 2 ) 320. This is then followed by a (unidirectional) predicted frame (P 3 ) 330 and again a second bidirectional predicted frame (B 4 ) 340. This is then followed again by a (unidirectional) predicted frame (P 5 ) 350, and so on.

図4は、ビデオ・コーディング技術の分野で既知である、レイヤ化されたビデオ構成の概略図である。レイヤ化されたビデオ・ビット・ストリームは、ベース・レイヤ405、及び1又はそれより多くの増強レイヤ435を含む。   FIG. 4 is a schematic diagram of a layered video structure as known in the field of video coding technology. The layered video bit stream includes a base layer 405 and one or more enhancement layers 435.

ベース・レイヤ(レイヤ1)は、元のビデオ信号ピクチャからサンプリング、コード化、及び/又は圧縮された1又はそれより多くのイントラコード化されたピクチャ(Iピクチャ)を含む。更に、ベース・レイヤは、イントラコード化されたピクチャ(単数又は複数)410から予測された複数の予測されたイントラコード化されたピクチャ(Pピクチャ)を含むであろう。   The base layer (layer 1) includes one or more intra-coded pictures (I pictures) sampled, coded and / or compressed from the original video signal picture. In addition, the base layer will include a plurality of predicted intra-coded pictures (P pictures) predicted from the intra-coded picture (s) 410.

増強レイヤ(レイヤ2又は3又は4以上)435においては、3つのタイプのピクチャを用い得る。即ち、
(i)双方向に予測された(B)ピクチャ(図示せず)、
(ii)ベース・レイヤ405のイントラコード化されたピクチャ(単数又は複数)に基づく増強されたイントラ(EI)・ピクチャ440、
(iii)ベース・レイヤ405のイントラコード化され予測されたピクチャ420,430に基づく増強された予測された(EP)ピクチャ450,460。
In the enhancement layer (layer 2 or 3 or 4 or more) 435, three types of pictures may be used. That is,
(I) bidirectionally predicted (B) picture (not shown),
(Ii) enhanced intra (EI) picture 440 based on the base layer 405 intra-coded picture (s),
(Iii) Enhanced predicted (EP) pictures 450, 460 based on base layer 405 intra-coded predicted pictures 420, 430.

低いレイヤからの垂直の矢印は、増強レイヤにおけるピクチャが参照(より低い)レイヤにおけるそのピクチャの再構成された近似から予測されることを示す。
要約すると、スケーラブルなビデオ・コーディングが、マルチキャスト・マルチメディア会議で、そしてポイント・ツー・ポイント又はマルチキャスト・ビデオ通信の文脈においてのみ用いられてきた。しかしながら、無線ネットワークは、現在マルチキャスティングをサポートしてない。更に、マルチキャスティングの場合、各レイヤは、別々のマルチキャスト・セッションで送られ、その場合、受信機は、それ自体、1又はそれより多くのセッションを記録すべきかどうかを決定する。
A vertical arrow from the lower layer indicates that a picture in the enhancement layer is predicted from a reconstructed approximation of that picture in the reference (lower) layer.
In summary, scalable video coding has been used only in multicast multimedia conferencing and in the context of point-to-point or multicast video communications. However, wireless networks currently do not support multicasting. Furthermore, in the case of multicasting, each layer is sent in a separate multicast session, in which case the receiver itself decides whether to record one or more sessions.

従って、前述の欠点を改善し得る、改善されたビデオ会議構成及び動作方法に対する必要性が存在する。   Accordingly, there is a need for an improved video conferencing configuration and method of operation that can ameliorate the aforementioned drawbacks.

[発明の陳述]
本発明に従って、請求項1に記載されたマルチメディア・ビデオ会議でビデオ・イメージを中継する方法、請求項7に記載されたビデオ・イメージを中継するビデオ会議装置、請求項11に記載されたビデオ会議に参加する無線装置、請求項12に記載されたマルチポイント・プロセッサ、請求項16に記載されたビデオ通信システム、請求項18に記載されたメディア資源機能装置、請求項19又は20に記載されたビデオ通信装置、及び請求項23に記載された記憶媒体が提供される。本発明の更なる局面が、いわゆる従属請求項に記載されている。
[Statement of invention]
A method for relaying a video image in a multimedia videoconference according to claim 1, according to the present invention, a videoconferencing device for relaying a video image according to claim 7, and a video according to claim 11. A wireless device participating in a conference, a multipoint processor according to claim 12, a video communication system according to claim 16, a media resource function device according to claim 18, and a media resource function device according to claim 19 or 20. A video communication device and a storage medium according to claim 23 are provided. Further aspects of the invention are described in the so-called dependent claims.

要約すると、本発明の発明概念は、従来技術の構成の欠点を、ビデオ会議における参加者及び話者の識別を改善するためのビデオ切り換え方法を提供することにより対処する。本発明は、各ユーザが使用可能な帯域幅をより良好に使用するため、レイヤ化されたビデオ・コーディングを利用する。
本発明の例示的実施形態がここで、添付図面を参照して説明される。
In summary, the inventive concept of the present invention addresses the shortcomings of the prior art arrangements by providing a video switching method to improve the identification of participants and speakers in a video conference. The present invention utilizes layered video coding in order to better use the bandwidth available to each user.
Exemplary embodiments of the invention will now be described with reference to the accompanying drawings.

[好適な実施形態の説明]
要約すると、本発明の好適な実施形態は、レイヤ化されたビデオ・コーディングを利用する、マルチメディア会議用の新しいビデオ切り換え機構を提案する。以前には、レイヤ化されたビデオ・コーディングは、ビデオ・ビット・ストリームを2以上のレイヤ、即ち、図4に関連して前述したようにベース・レイヤ及び1又は幾つかの増強レイヤに仕切る(partition)ため用いられてきただけである。スケーラブルなビデオ通信のためのこれらの既知の技術は、H.263及びMPEG−4のような標準に詳細に記載されている。
[Description of Preferred Embodiment]
In summary, the preferred embodiment of the present invention proposes a new video switching mechanism for multimedia conferencing that utilizes layered video coding. Previously, layered video coding partitioned the video bitstream into two or more layers, namely a base layer and one or several enhancement layers as described above in connection with FIG. (partition). These known techniques for scalable video communication are described in H.264. It is described in detail in standards such as H.263 and MPEG-4.

しかしながら、本発明の発明者は、レイヤ化されたビデオ・コーディングの概念を適応させ、且つその適応された概念をマルチメディア・ビデオ会議応用に適用することにより利益が得られる筈であることを認識した。このようにして、本発明は、ポイント・ツー・ポイント又はマルチキャスト・ビデオ通信とは対照的に、マルチメディア会議の使用に焦点を合わせたスケーラブルなビデオ・コーディングの様々なタイプを定義する。   However, the inventors of the present invention recognize that it should benefit from adapting the concept of layered video coding and applying the adapted concept to multimedia video conferencing applications. did. In this way, the present invention defines various types of scalable video coding focused on the use of multimedia conferencing as opposed to point-to-point or multicast video communications.

ここで図5を参照すると、本発明の好適な実施形態に従ったビデオ切り換え機構の機能ブロック図500が示されている。従来の集中化会議システムとは対照的に、ビデオ切り換えは、次のとおりに実行される。例えば、インターネット・プロトコル(IP)ベースのネットワーク510内に位置するMCU520は、スイッチ530を含む。   Referring now to FIG. 5, a functional block diagram 500 of a video switching mechanism is shown according to a preferred embodiment of the present invention. In contrast to conventional centralized conferencing systems, video switching is performed as follows. For example, MCU 520 located within Internet Protocol (IP) based network 510 includes a switch 530.

MCU520は、ベース・レイヤ552,562,572,582と、全ての参加者(ユーザ装置)550,560,570,580の1又はそれより多くの増強レイヤ・ストリーム555,565,575,585とを含む「レイヤ化された」ビデオ・ストリームを受信する。単に明瞭さのためのみで、唯1つの増強レイヤ・ビデオ・ストリームが1参加者について示されている。   The MCU 520 includes a base layer 552, 562, 572, 582 and one or more enhancement layer streams 555, 565, 575, 585 of all participants (user equipment) 550, 560, 570, 580. A containing “layered” video stream is received. For clarity only, only one enhancement layer video stream is shown for one participant.

MCU520はまた、組み合わされた(多重化された)オーディオ・ストリーム590を参加者から別に受信し得る。次いで、MCU520は、或る数の活動中の話者535のベース・レイヤ・ビデオ・ストリーム、及び最も活動中の話者の増強レイヤ540を、スイッチ530を用いて、選択する。次いで、MCU520は、これらのビデオ・ストリーム535,540を全ての参加者550,560,570,580に送信する。   The MCU 520 may also receive a combined (multiplexed) audio stream 590 separately from the participants. The MCU 520 then selects a number of active speaker 535 base layer video streams and the most active speaker enhancement layer 540 using the switch 530. The MCU 520 then sends these video streams 535, 540 to all participants 550, 560, 570, 580.

最も活動中の話者を決定するための選択プロセスは、MCU520が、最初に全ての活動中の話者が誰であるかを決定するため、オーディオ・ストリーム590を解析することにより好適に実行される。次いで、最も活動中の話者が、図6を参照して説明されるように、マルチポイント・プロセッサ・ユニットで好適に決定される。1又はそれより多くのベース・レイヤ及び1つの増強レイヤが、各参加者の活動に基づいた優先レベルに従って参加者へ好適に送信される。   The selection process for determining the most active speaker is preferably performed by the MCU 520 first analyzing the audio stream 590 to determine who is all active speakers. The The most active speaker is then preferably determined at the multipoint processor unit, as described with reference to FIG. One or more base layers and one augmentation layer are preferably transmitted to the participants according to a priority level based on each participant's activity.

図5に示す改善されたがしかしより複雑なビデオ切り換え機構を実効的に動作させるため、マルチポイント処理装置(MP)600は、本発明の好適な実施形態に従い、そして図6に示されるように、新しいビデオ切り換え機構を容易にするよう適合された。   In order to effectively operate the improved but more complex video switching mechanism shown in FIG. 5, a multipoint processing unit (MP) 600 is in accordance with a preferred embodiment of the present invention and as shown in FIG. Adapted to facilitate a new video switching mechanism.

MP600は、相変わらず、オーディオ・ストリーム590を、参加者のビデオ/マルチメディア通信装置からパケット・フィルタリング・モジュール610を介して受信し、そしてこのオーディオ・ストリームをパケット・ルーティング・モジュール630へルーティングする。しかしながら、オーディオ・ストリームは、ここでまた、話者識別モジュール620へルーティングされ、当該話者識別モジュール620は、オーディオ・ストリーム590を解析して、誰が活動中の話者であるかを決定する。話者識別モジュール620は、各参加者の活動に基づいて優先レベルを割り当て、そして次のことを決定する。即ち、
(i)最も活動中の話者662、
(ii)任意の他の活動中の話者625、そしてこれはデフォルトによる、
(iii)任意の残りの活動してない話者。
The MP 600 still receives the audio stream 590 from the participant's video / multimedia communication device via the packet filtering module 610 and routes this audio stream to the packet routing module 630. However, the audio stream is again routed to the speaker identification module 620, which analyzes the audio stream 590 to determine who is the active speaker. The speaker identification module 620 assigns priority levels based on each participant's activity and determines: That is,
(I) the most active speaker 662,
(Ii) any other active speaker 625, and this is by default,
(Iii) Any remaining inactive speakers.

次いで、話者識別モジュール620は、本発明の好適な実施形態に従って、話者の優先レベルを処理するよう適合されている切り換えモジュール640へ優先レベル情報を送信する。更に、切り換えモジュール640は、ビデオ・ベース・レイヤ・ストリーム552,562,572及び582、及びビデオ増強レイヤ・ストリーム555,565,575及び585を含むレイヤ化されたビデオ・ストリームを参加者のビデオ通信装置からパケット・フィルタリング・モジュール610を介して受信するよう適合されている。切り換えモジュール640は、この話者情報を用いて、二次の(よりレベルの低い)活動中の話者及び最も活動中の話者のビデオ・ベース・レイヤと、最も活動中の話者のビデオ増強レイヤのみとを全ての参加者へパケット・ルーティング・モジュール630を介して送信する。   The speaker identification module 620 then sends priority level information to a switching module 640 adapted to process the speaker priority level in accordance with a preferred embodiment of the present invention. In addition, the switching module 640 may send the layered video streams including video base layer streams 552, 562, 572 and 582, and video enhancement layer streams 555, 565, 575 and 585 to the video communication of the participant. It is adapted to receive from a device via a packet filtering module 610. The switching module 640 uses this speaker information to use the video base layer of the secondary (lower level) active speaker and the most active speaker and the video of the most active speaker. Only the enhancement layer is transmitted to all participants via the packet routing module 630.

従って、マルチポイント・プロセッサの1又はそれより多くの受信ポートは、ベース・レイヤ・ビデオ・ストリーム552,562,572及び582及び増強レイヤ・ストリーム555,565,575及び585を含むレイヤ化されたビデオ・ストリームを複数のユーザ装置550,560,570及び580から受信するよう適合されている。切り換えモジュール640が、唯一人の活動中の話者が存在することが決定された場合、1つのベース・レイヤ・ビデオ・イメージ及び対応の1又はそれより多くの増強レイヤをただ選択し得ることが、本発明の意図内である。次いで、この話者は、1又はそれより多くのユーザ装置550,560,570及び580へ送信する最も活動中の話者として自動的に指定される。   Thus, one or more receive ports of the multipoint processor are layered video including base layer video streams 552, 562, 572 and 582 and enhancement layer streams 555, 565, 575 and 585. It is adapted to receive streams from multiple user devices 550, 560, 570 and 580. If it is determined that there is only one active speaker, the switching module 640 may only select one base layer video image and the corresponding one or more enhancement layers. Within the spirit of the present invention. This speaker is then automatically designated as the most active speaker to send to one or more user devices 550, 560, 570 and 580.

ビデオ会議で生じることがあるように、最も活動中の話者が絶えず変わっているとき、増強レイヤは、絶えず切り替わっている。本発明の発明者は、そのような絶え間なく且つ迅速な切り換えに伴う潜在的な問題を認識した。そのような環境の下では、第1のフレームが実際に、以前単に二次の活動中の話者であった話者からの、予測されたフレーム(EP)であった場合、第1のフレームがイントラ・フレーム(EI)に変換されることが必要である。   The enhancement layer is constantly switching when the most active speaker is constantly changing, as may occur in video conferencing. The inventor of the present invention has recognized the potential problems associated with such constant and rapid switching. Under such circumstances, if the first frame is actually the predicted frame (EP) from a speaker that was previously simply the second active speaker, the first frame Needs to be converted to intra frames (EI).

この潜在的な問題に対処するため、パケット・フィルタリング・モジュール610からのビデオ・ベース・レイヤ・ストリーム552,562,572及び582とビデオ増強レイヤ・ストリーム555,565,575及び585とは、パケット解除(de−packetisation)機能部680に入力されるのが好ましい。パケット解除機能部680は、ビデオ・ストリームを逆多重化し、そして逆多重化されたビデオ・ストリームをビデオ・デコーダ及びバッファ機能部670に与える。   To address this potential problem, video base layer streams 552, 562, 572, and 582 and video enhancement layer streams 555, 565, 575, and 585 from packet filtering module 610 are depacketized. It is preferably input to the (de-packetation) function unit 680. The packet release function unit 680 demultiplexes the video stream, and supplies the demultiplexed video stream to the video decoder and buffer function unit 670.

ビデオ・デコーディング(復号化)を同期させ且つ調整する(co−ordinate)ため、ビデオ・デコーダ及びバッファ機能部670は、最も活動中の話者622の指示を受信する。最も活動中の話者に関するビデオ・ストリーム情報を抽出した後で、ビデオ・デコーダ及びバッファ機能部670は、最も活動中の話者622の双方向に予測された(BP)ビデオ・ストリーム・データ及び/又は予測された(EP)ビデオ・ストリーム・データを「EPフレーム/EIフレーム変換モジュール」660へ与える。「EPフレーム/EIフレーム変換モジュール」660は、入力ビデオ・ストリームを処理して、主要話者増強レイヤ・ビデオ・ストリームを、イントラコード化された(EI)フレームとして与える。   To synchronize and co-ordinate video decoding, video decoder and buffer function 670 receives an indication of the most active speaker 622. After extracting the video stream information for the most active speaker, the video decoder and buffer function 670 may provide the bi-predicted (BP) video stream data of the most active speaker 622 and The predicted (EP) video stream data is provided to an “EP frame / EI frame conversion module” 660. An “EP frame / EI frame conversion module” 660 processes the input video stream and provides the primary speaker enhancement layer video stream as intra-coded (EI) frames.

次いで、主要話者増強レイヤ・ビデオ・ストリームは、パケット化機能部650に入力され、そこで、その主要話者増強レイヤ・ビデオ・ストリームは、パケット化され、そして切り換えモジュール640に入力される。次いで、切り換えモジュール640は、主要話者増強レイヤ・ビデオ・ストリームを、二次の活動中の話者のビデオ・ベース・レイヤ・ストリーム552,562,572及び582と組み合わせ、そしてその組み合わされたマルチメディア・ストリームをパケット・ルーティング・モジュール630へルーティングする。次いで、パケット・ルーティング・モジュール630は、図5の方法に従って、情報を参加者にルーティングする。   The main speaker enhancement layer video stream is then input to the packetization function 650 where the main speaker enhancement layer video stream is packetized and input to the switching module 640. The switching module 640 then combines the primary speaker enhancement layer video stream with the video base layer streams 552, 562, 572 and 582 of the secondary active speaker and the combined multi Route the media stream to the packet routing module 630. The packet routing module 630 then routes the information to the participants according to the method of FIG.

本発明の好適な実施形態においては、ビデオ切り換えモジュール640は、「EPフレーム/EIフレーム変換モジュール」660が主要話者が変わったと決定するとき「EPフレーム/EIフレーム変換モジュール」660の出力を用いる。   In a preferred embodiment of the present invention, the video switching module 640 uses the output of the “EP frame / EI frame conversion module” 660 when the “EP frame / EI frame conversion module” 660 determines that the main speaker has changed. .

二次の話者が変わったと考えられるときその二次の話者に対して同じ機能を実行するため、EPフレーム/EIフレーム変換モジュール660と似ている1又はそれより多くのモジュールがまたMP600に含められることができるであろうことは本発明の意図内である。その他の場合は、単一の「EPフレーム/EIフレーム変換モジュール」660を用いて主要話者のみのビデオ・ストリームを変換する実施形態においては、例えば活動してない話者が二次の活動中の話者になるとき、話者識別モジュール620(又は切り換えモジュール640)は、新しいイントラ・フレームを要求し得る。代替として、切り換えモジュール640は、新しい二次の活動中の話者のビデオ・ベース・レイヤ・ストリームを全ての参加者へ送る前にその新しい二次の活動中の話者の新しいイントラ・フレームを待ってよい。   One or more modules similar to the EP frame / EI frame conversion module 660 are also included in the MP 600 to perform the same function for the secondary speaker when the secondary speaker is considered to have changed. It is within the spirit of the invention that it could be included. Otherwise, in embodiments where a single “EP frame / EI frame conversion module” 660 is used to convert the primary speaker-only video stream, for example, an inactive speaker is secondary active. Speaker identification module 620 (or switching module 640) may request a new intra frame. Alternatively, the switching module 640 may send the new secondary active speaker's new intra frame before sending the new secondary active speaker's video base layer stream to all participants. You can wait.

本発明の好適な実施形態に加えて、2以上の増強レイヤが使用のため入手可能である場合、話者のより多くのクラス(階級)を用いることができることは、本発明の意図内である。話者のより多くのクラスを用いることにより、話者の識別が特に大きなビデオ会議に関して改善されるので、マルチメディア・メッセージのより精細なスケーラビリティを達成することができる。   In addition to the preferred embodiment of the present invention, it is within the intent of the present invention that more classes of speakers can be used if more than one enhancement layer is available for use. . By using more classes of speakers, finer scalability of multimedia messages can be achieved because speaker identification is improved especially for large video conferences.

また、予測されたフレームをイントラ・フレームに変換することをベース・レイヤ・ストリームのうちの1又はそれより多くのベース・レイヤ・ストリームに関して追加することができるであろうことが本発明の意図内である。このようにして、切り換えモジュール640は、新しいイントラ・フレームを待つ必要無しに、ベース・レイヤ間を迅速に切り換えることができる。   It is also within the intent of the present invention that transforming a predicted frame into an intra frame could be added for one or more of the base layer streams. It is. In this way, the switching module 640 can quickly switch between base layers without having to wait for a new intra frame.

図7は、本発明の好適な実施形態を用いたビデオ会議に参加する無線装置700のビデオ・ディスプレイ710を示す。これまで説明してきた発明概念を実行することにより、改善されたビデオ通信が達成される。特に、所与の帯域幅に対して、参加者は、ここで、よりレベルの低い(二次の)活動中の話者730を低くし且つ活動してない話者のビデオを提供しないことにより、最も活動中の話者のより良好なビデオ品質を受け取ることができる。そのような改善されたビデオ会議を提供するため、ビデオ通信装置は、最も活動中の話者720の増強レイヤ及びベース・レイヤと、二次の活動中の話者730のベース・レイヤとを受信し、そして活動してない話者からのビデオは受信しない。   FIG. 7 illustrates a video display 710 of a wireless device 700 that participates in a video conference using the preferred embodiment of the present invention. By implementing the inventive concepts described so far, improved video communication is achieved. In particular, for a given bandwidth, the participant can now lower the lower level (secondary) active speaker 730 and not provide video of the inactive speaker. Can receive better video quality of the most active speakers. In order to provide such improved video conferencing, the video communication device receives the enhancement layer and base layer of the most active speaker 720 and the base layer of the secondary active speaker 730. And do not receive video from inactive speakers.

そのようにして、ビデオ通信装置は、最も活動中の話者の絶えず更新されるビデオ・イメージをより大きな且つより高い解像度のディスプレイで提供することができる一方、より小さいディスプレイは、二次の(よりレベルの低い)活動中の話者を表示することができる。   In that way, the video communication device can provide a constantly updated video image of the most active speaker on a larger and higher resolution display, while the smaller display is secondary ( Active speakers (lower level) can be displayed.

無線装置700は、最も活動中の話者のより高い品質のビデオ・イメージを表示する主要ビデオ・ディスプレイと、それぞれのよりレベルの低い活動中の話者を表示する1又はそれより多くの第2の個別ディスプレイとを有することが好ましい。それぞれのビデオ・イメージをそれぞれのディスプレイに表示する操作は、ビデオ・ディスプレイに動作可能に結合されるプロセッサ(図示せず)により実行されることが好ましい。プロセッサは、最も活動中の話者720及びよりレベルの低い活動中の話者の指示を受け取り、そして受信されたどのビデオ・イメージが第1のディスプレイに表示されるべきか、及びよりレベルの低い活動中の話者730から受信されたどのビデオ・イメージ(単数又は複数)が第2のディスプレイに表示されるべきかを決定する。第2のディスプレイは、より低い活動中の話者のより低い品質のビデオ・イメージを提供することによりコストを節約するよう構成されることが有利である。   Wireless device 700 includes a primary video display that displays a higher quality video image of the most active speaker, and one or more second speakers that display each lower level active speaker. Preferably with a separate display. The operation of displaying each video image on each display is preferably performed by a processor (not shown) operably coupled to the video display. The processor receives an indication of the most active speaker 720 and the lower level active speaker, and which received video image is to be displayed on the first display and the lower level Determine which video image (s) received from the active speaker 730 should be displayed on the second display. The second display is advantageously configured to save costs by providing a lower quality video image of the lower active speaker.

MCUベースのシステムが将来IPベースのネットワークを介したマルチメディア通信を容易にするであろうことが予想される。従って、本発明の発明者は、本明細書に記載された技術がMCUを利用するいずれのH.323/SIPベースのマルチポイント・マルチメディア会議又はシステムに組み込まれることができるであろうことを想定するものである。   It is expected that MCU-based systems will facilitate multimedia communication over IP-based networks in the future. Accordingly, the inventor of the present invention is aware that any H.264 technology in which the techniques described herein utilize an MCU. It is envisioned that it could be incorporated into a H.323 / SIP based multipoint multimedia conference or system.

前述の発明の好適な応用は、広帯域符号分割多重アクセス(WCDMA)標準に関する第3世代パートナーシップ・プロジェクト(3GPP)仕様内にある。特に、本発明は、IPマルチメディア領域(仕様書の3G TS 25.xxxシリーズに記載されている。)に適用されることができ、それは、H.323/SIP MCUを3GPPネットワークの中に組み込むことを計画中である。MCUは、メディア資源機能部890A(図8参照)によりホストされるであろう。   A preferred application of the foregoing invention is in the Third Generation Partnership Project (3GPP) specification for the Wideband Code Division Multiple Access (WCDMA) standard. In particular, the present invention can be applied to the IP multimedia domain (described in the 3G TS 25.xxx series of specifications). Planning to incorporate H.323 / SIP MCU into 3GPP network. The MCU will be hosted by the media resource function 890A (see FIG. 8).

図8は、3GPP(UMTS)通信システム/ネットワーク800を階層形式で示し、その3GPP(UMTS)通信システム/ネットワーク800は、本発明の好適な実施形態に従って適合されることが可能である。通信システム800は、UMTS及び/又はGPRSエアー・インターフェースを介して動作することができるネットワーク構成要素に準拠し、且つそれらを含む。   FIG. 8 shows a 3GPP (UMTS) communication system / network 800 in a hierarchical format, which 3GPP (UMTS) communication system / network 800 can be adapted according to a preferred embodiment of the present invention. The communication system 800 is compliant with and includes network components that can operate over a UMTS and / or GPRS air interface.

そのネットワークは次のものを備えると都合良いと考えられる。
(i)次のものから作られたユーザ装置領域810:
(a)ユーザSIM(USIM)領域820、及び
(b)移動装置領域830
(ii)次のものから作られたインフラストラクチャ領域840:
(c)アクセス・ネットワーク領域850、及び
(d)次のものから作られたコア・ネットワーク領域860;
(di)サービス提供ネットワーク領域870、及び
(dii)移行ネットワーク領域880、及び
(diii)IPマルチメディア領域890(なお、マルチメディアはSIP(ETF RFC2543)により与えられる。)。
The network may be convenient to have:
(I) User device area 810 made from:
(A) User SIM (USIM) area 820; and (b) Mobile device area 830.
(Ii) Infrastructure area 840 made from:
(C) an access network area 850, and (d) a core network area 860 made up of:
(Di) a service providing network area 870, and
(Dii) the migration network area 880, and
(Iii) IP multimedia area 890 (note that multimedia is provided by SIP (ETF RFC2543)).

移動装置領域830において、UE830Aは、データをUSIM領域820内のユーザSIM820Aから有線Cuインターフェースを介して受信する。UE830Aは、データをネットワーク・アクセス領域850内のノードB850Aと無線Uuインターフェースを介して通信する。ネットワーク・アクセス領域850内で、ノードB850Aは、1又はそれより多くの送受信機装置を含み、そしてセル・ベースのシステム・インフラストラクチャの残りの構成要素、例えばRNC850BとIubインターフェースを介して、UMTS仕様に定義されるように、通信する。   In the mobile device area 830, the UE 830A receives data from the user SIM 820A in the USIM area 820 via the wired Cu interface. UE 830A communicates data with Node B 850A in network access area 850 via a wireless Uu interface. Within the network access area 850, the Node B 850A includes one or more transceiver devices, and through the remaining components of the cell-based system infrastructure, eg, the RNC 850B and Iub interface, Communicate as defined in

RNC850Bは、他のRNC(図示せず)とIurインターフェースを介して通信する。RNC850Bは、サービス提供ネットワーク領域870内のSGSN870AとIuインターフェースを介して通信する。サービス提供ネットワーク領域870内で、SGSN870Aは、GGSN870BとGnインターフェースを介して通信し、そしてSGSN870Aは、VLRサーバ870CとGsインターフェースを介して通信する。本発明の好適な実施形態に従って、SGSN870Aは、IPマルチメディア領域890内のメディア資源機能部(890A)内に存在するMCU(図示せず)と通信する。その通信は、Giインターフェースを介して実行される。   The RNC 850B communicates with other RNCs (not shown) via the Iur interface. The RNC 850B communicates with the SGSN 870A in the service providing network area 870 via the Iu interface. Within the service providing network area 870, SGSN 870A communicates with GGSN 870B via the Gn interface, and SGSN 870A communicates with VLR server 870C via the Gs interface. In accordance with a preferred embodiment of the present invention, SGSN 870A communicates with an MCU (not shown) residing in a media resource function (890A) in IP multimedia domain 890. The communication is performed via the Gi interface.

GGSN870B(及び/又はSSGN)は、UMTS(GPRS)がインターネット又は公衆交換電話網(PSTN)のような公衆交換データ・ネットワーク(PSDN)880Aとインターフェースすることを担当している。SGSN870Aは、例えば、UMTSコア・ネットワーク内のトラフィックのためのルーティング及びトンネリング機能を実行し、一方GGSN870Bは、人がシステムのUMTSモードにアクセスするこのケースにおいて、外部パケット・ネットワークへリンクする。   GGSN 870B (and / or SSGN) is responsible for interfacing UMTS (GPRS) with a public switched data network (PSDN) 880A, such as the Internet or the public switched telephone network (PSTN). SGSN 870A, for example, performs routing and tunneling functions for traffic within the UMTS core network, while GGSN 870B links to an external packet network in this case where a person accesses the system's UMTS mode.

RNC850Bは、多数のノードB850Aのための資源の制御及び割り当てを担当するUTRAN構成要素である。典型的には、50から100個のノードBが、1つのRNC850Bにより制御され得る。RNC850Bはまた、エアー・インターフェースを介したユーザ・トラフィックの信頼性のある供給を提供する。RNCは、相互に(インターフェースIurを介して)通信して、ハンドオーバ及びマクロ・ダイバーシティをサポートする。   RNC 850B is a UTRAN component responsible for controlling and allocating resources for multiple Node B 850A. Typically, 50 to 100 Node Bs can be controlled by one RNC 850B. The RNC 850B also provides a reliable supply of user traffic over the air interface. The RNCs communicate with each other (via interface Iur) to support handover and macro diversity.

SGSN870Aは、位置レジスタ(HLR及びVLR)に対するセッション制御及びインターフェースを担当するUMTSコア・ネットワーク構成要素である。SGSNは、多くのRNCにとって大きな集中化された制御器である。   SGSN 870A is the UMTS core network component responsible for session control and interface to location registers (HLR and VLR). SGSN is a large centralized controller for many RNCs.

GGSN870Bは、コア・パケット・ネットワーク内のユーザ・データを最終の宛先(例えば、インターネット・サービス・プロバイダ(ISP))へ集中させ且つトンネリングさせることを担当するUMTSコア・ネットワーク構成要素である。そのようなユーザ・データは、IPマルチメディア領域890へ及び/又はそれからのマルチメディア及び関連の信号送出データを含む。IPマルチメディア領域890内で、MRFは、マルチメディア資源機能制御器(MRFC)892A及びマルチメディア資源機能プロセッサ(MRFP)891Aに分割される。前述したように、MRFC892Aはマルチポイント制御器(MC)の機能を提供し、一方MRFP891Aはマルチポイント・プロセッサ(MP)の機能を提供する。   GGSN 870B is a UMTS core network component responsible for concentrating and tunneling user data in the core packet network to the final destination (eg, Internet Service Provider (ISP)). Such user data includes multimedia and associated signaling data to and / or from the IP multimedia area 890. Within the IP multimedia area 890, the MRF is divided into a multimedia resource function controller (MRFC) 892A and a multimedia resource function processor (MRFP) 891A. As described above, the MRFC 892A provides a multipoint controller (MC) function, while the MRFP 891A provides a multipoint processor (MP) function.

Mr参照ポイント/インターフェース893A間に用いられるプロトコルは、SIP(RFC2543により定義される)である。呼状態制御機能(CSCF)895Aは、呼サーバとして作用し、そしてマルチメディア呼信号送出を扱う。   The protocol used between Mr reference point / interface 893A is SIP (defined by RFC2543). The call state control function (CSCF) 895A acts as a call server and handles multimedia call signaling.

こうして、本発明の好適な実施形態に従って、構成要素SGSN870A、GGSN870B、及びMRF890A内の全ての構成要素は、上記で説明したようにマルチメディア・メッセージを容易にするよう適合されている。更に、UE830A、ノードB850A及びRNC850Bはまた、上記で説明したように改善されたマルチメディア・メッセージを容易にするよう適合されている。   Thus, in accordance with the preferred embodiment of the present invention, all components in components SGSN 870A, GGSN 870B, and MRF 890A are adapted to facilitate multimedia messages as described above. Further, UE 830A, Node B 850A and RNC 850B are also adapted to facilitate improved multimedia messages as described above.

より一般的には、その適合は、それぞれの通信装置においていずれの適切な要領で実行され得る。例えば、新しい装置は、従来の通信装置に追加され得て、又は代替として、従来の通信装置の既存構成要素は、例えば、その中の1又はそれより多くのプロセッサを再プログラミングすることにより適合され得る。そのようして、要求された適合は、フロッピー(登録商標)・ディスク、ハード・ディスク、PROM、RAM、又はそれらの任意の組み合わせ、又は他の記憶マルチメディアのような記憶媒体に格納されたプロセッサ実行可能命令の形式で実行され得る。   More generally, the adaptation may be performed in any suitable manner at each communication device. For example, a new device can be added to a conventional communication device, or alternatively, an existing component of a conventional communication device is adapted, for example, by reprogramming one or more processors therein. obtain. As such, the requested adaptation is a processor stored on a storage medium such as a floppy disk, hard disk, PROM, RAM, or any combination thereof, or other storage multimedia. It can be executed in the form of executable instructions.

また、マルチメディア・メッセージのそのような適合は、代替として、通信システム800のいずれの他の適切な構成要素を適合させることにより、制御され、全部又は部分的に実行され得る。   Also, such adaptation of multimedia messages may alternatively be controlled and performed in whole or in part by adapting any other suitable component of communication system 800.

上記の構成要素が典型的には、移動装置領域830、アクセス・ネットワーク領域850、及びサービス提供ネットワーク領域870にまたがって分割された個別の且つ分離した装置として(それら自体のそれぞれのソフトウエア及び/又はハードウエア・プラットフォーム上に)設けられるが、他の構成も適用することができることを想定している。   The above components are typically as separate and separate devices divided across mobile device area 830, access network area 850, and service providing network area 870 (with their respective software and / or (Or on a hardware platform), but other configurations are envisioned.

更に、GSMネットワークのような他のネットワーク・インフラストラクチャの場合、処理動作の実現は、いずれの他の適切なタイプの基地局、基地局制御器、移動交換センタ、又は動作及び管理制御器等のようないずれの適切なノードで実施され得る。代替として、前述のステップは、いずれの適切なネットワーク又はシステム内の異なる場所又はエンティテイに分散された様々な構成要素により実行され得る。   Further, for other network infrastructures such as GSM networks, the implementation of the processing operation may be any other suitable type of base station, base station controller, mobile switching center, or operation and management controller, etc. Can be implemented at any suitable node. Alternatively, the foregoing steps may be performed by various components distributed at different locations or entities within any suitable network or system.

好ましくは前述した集中化されたビデオ会議に適用されるときレイヤ化されたビデオ・コーディングを用いたビデオ会議方法は、次の利点を与える。
(i)話者の識別は、従来のシステムと比較して非常に改善される。それは、唯1つのフル品質のビデオ・ストリームの代わりに、帯域幅を共用して、1又はそれより多くの増強レイヤ及び幾つかのベース・レイヤを送信するのを可能にするからである。
A video conferencing method using layered video coding, preferably when applied to the centralized video conferencing described above, provides the following advantages.
(I) Speaker identification is greatly improved compared to conventional systems. That is because instead of only one full quality video stream, it is possible to share bandwidth and transmit one or more enhancement layers and several base layers.

(ii)活動中の話者が変わるときのビデオ切り換えは、本明細書で説明した発明概念を用いて非常に円滑である。それは、発明の概念が活動中の話者、第2の大部分の活動中の話者、活動してない話者の幾つかの状態を定義するからである。   (Ii) Video switching when the active speaker changes is very smooth using the inventive concepts described herein. This is because the inventive concept defines several states of active speakers, second most active speakers, and inactive speakers.

(iii)最も活動中の話者のビデオ品質が改善される。
(iv)改善されたビデオ通信装置が様々の話者を表示し、各表示されたイメージは、それぞれのビデオ通信装置の送信と関連した有線レベルに依存している。
(Iii) The video quality of the most active speaker is improved.
(Iv) The improved video communication device displays various speakers, and each displayed image is dependent on the wired level associated with the transmission of the respective video communication device.

複数のマルチメディア・ユーザ装置間のマルチメディア・ビデオ会議でビデオ・イメージを中継する方法が記載された。この方法は、ベース・レイヤ及び1又はそれより多くの増強レイヤを含むレイヤ化されたビデオ・イメージを、複数のユーザ装置のうちの或る数のユーザ装置により送信するステップと、その送信されたレイヤ化されたビデオ・イメージをマルチポイント制御装置で受信するステップとを含む。或る数の活動中の話者の或る数のベース・レイヤ・ビデオ・イメージが選択され、そして最も活動中の話者の1又はそれより多くの増強レイヤが選択される。マルチポイント制御装置は、或る数の活動中の話者の或る数のベース・レイヤ・ビデオ・イメージ、及び最も活動中の話者の1又はそれより多くの増強レイヤを複数のマルチメディア・ユーザ装置のうちの1又はそれより多くのマルチメディア・ユーザ装置へ送信する。   A method for relaying video images in a multimedia video conference between multiple multimedia user devices has been described. The method includes transmitting a layered video image including a base layer and one or more enhancement layers by a number of user devices out of a plurality of user devices and the transmitted Receiving a layered video image at a multipoint controller. A number of base layer video images of a number of active speakers are selected, and one or more enhancement layers of the most active speakers are selected. The multipoint controller can transfer a number of base layer video images of a number of active speakers and one or more enhancement layers of the most active speakers to multiple multimedia Send to one or more of the user equipment multimedia user equipment.

その上、ビデオ・イメージを複数のユーザ装置間で中継するビデオ会議装置が記載された。更に、ビデオ会議に参加するための無線装置であって或る数の参加者がビデオ・イメージを送信する無線装置が記載された。   In addition, a video conferencing device that relays video images between a plurality of user devices has been described. In addition, a wireless device for participating in a video conference has been described in which a certain number of participants transmit video images.

図1は、既知の集中化会議モデルを示す。FIG. 1 shows a known centralized conference model. 図2は、従来のビデオ切り換え機構の機能図を示す。FIG. 2 shows a functional diagram of a conventional video switching mechanism. 図3は、ビデオ・コーディング技術の分野で既知である、ピクチャ予測依存性を示すビデオ構成の概略図である。FIG. 3 is a schematic diagram of a video structure showing picture prediction dependencies as known in the field of video coding technology. 図4は、ビデオ・コーディング技術の分野で既知であるレイヤ化されたビデオ構成の概略図である。FIG. 4 is a schematic diagram of a layered video configuration known in the field of video coding technology. 図5は、本発明の好適な実施形態に従ったビデオ切り換え機構の機能図を示す。FIG. 5 shows a functional diagram of a video switching mechanism according to a preferred embodiment of the present invention. 図6は、本発明の好適な実施形態に従ったマルチポイント処理装置の機能ブロック図/フロー・チャートを示す。FIG. 6 shows a functional block diagram / flow chart of a multipoint processing device according to a preferred embodiment of the present invention. 図7は、本発明の好適な実施形態を用いたビデオ会議に参加する無線装置のビデオ・ディスプレイを示す。FIG. 7 shows a video display of a wireless device participating in a video conference using the preferred embodiment of the present invention. 図8は、本発明の好適な実施形態に従って適合されたUMTS(3GPP)通信システムを示す。FIG. 8 illustrates a UMTS (3GPP) communication system adapted according to a preferred embodiment of the present invention.

Claims (23)

複数のマルチメディア・ユーザ装置(550,560,570,580)の間でのマルチメディア・ビデオ会議においてビデオ・イメージを中継する方法であって、
前記複数のマルチメディア・ユーザ装置のうちの或る数のマルチメディア・ユーザ装置によりレイヤ化ビデオ・イメージを送信するステップであって、前記レイヤ化ビデオ・イメージがベース・レイヤ(552,562,572,582)及び1又はそれより多くの増強レイヤ(555,565,575,585)を含む、前記送信するステップと、
前記の送信されたレイヤ化ビデオ・イメージをマルチポイント制御装置(520)で受信するステップと、
或る数の活動中の話者(535)の或る数のベース・レイヤ・ビデオ・イメージと、最も活動中の話者の1又はそれより多くの増強レイヤ(540)とを選択するステップと、
前記マルチポイント制御装置(520)により、或る数の活動中の話者(535)の前記或る数のベース・レイヤ・ビデオ・イメージと前記最も活動中の話者の1又はそれより多くの増強レイヤ(540)とを前記複数のマルチメディア・ユーザ装置(550,560,570,580)のうちの1又はそれより多くのマルチメディア・ユーザ装置へ送信するステップと
を備える、マルチメディア・ビデオ会議においてビデオ・イメージを中継する方法。
A method for relaying a video image in a multimedia video conference between a plurality of multimedia user devices (550, 560, 570, 580), comprising:
Transmitting a layered video image by a number of multimedia user devices of the plurality of multimedia user devices, wherein the layered video image is a base layer (552, 562, 572). 582) and one or more enhancement layers (555, 565, 575, 585), and
Receiving the transmitted layered video image at a multipoint controller (520);
Selecting a number of base layer video images of a number of active speakers (535) and one or more enhancement layers (540) of the most active speakers; ,
The multipoint controller (520) allows the number of active speakers (535) of the number of base layer video images and one or more of the most active speakers. Transmitting an enhancement layer (540) to one or more multimedia user devices of the plurality of multimedia user devices (550, 560, 570, 580). A method of relaying video images in a conference.
前記選択するステップが更に、
前記或る数の活動中の話者及び/又は前記最も活動中の話者を決定するため、前記複数のマルチメディア・ユーザ装置(550,560,570,580)により送信された或る数のオーディオ・データ・ストリーム(590)を解析するステップを有する、請求項1記載のマルチメディア・ビデオ会議においてビデオ・イメージを中継する方法。
The step of selecting further comprises:
A certain number transmitted by the plurality of multimedia user devices (550, 560, 570, 580) to determine the certain number of active speakers and / or the most active speakers; The method of relaying video images in a multimedia videoconference according to claim 1, comprising the step of analyzing an audio data stream (590).
優先レベルを、それぞれのユーザ装置により送信された各レイヤ化ビデオ・イメージ及び/又は前記オーディオ・データ・ストリームに対して割り当てるステップと、
前記複数のマルチメディア・ユーザ装置(550,560,570,580)のうちの前記1又はそれより多くのマルチメディア・ユーザ装置へ送信するため或る数のベース・レイヤ・ビデオ・イメージ(535)及び1又はそれより多くの増強レイヤ(540)を前記の割り当てられた優先レベルに基づいて選択するステップと
を更に備えることを特徴とする請求項1又は請求項2に記載のマルチメディア・ビデオ会議においてビデオ・イメージを中継する方法。
Assigning a priority level to each layered video image and / or said audio data stream transmitted by a respective user equipment;
A number of base layer video images (535) for transmission to the one or more multimedia user devices of the plurality of multimedia user devices (550, 560, 570, 580). And selecting one or more enhancement layers (540) based on the assigned priority level. 3. A multimedia video conference according to claim 1, further comprising: To relay video images in
前記最も活動中の話者のビデオ品質を強化するため前記最も活動中の話者のビデオ・イメージの第1の予測されたフレームをイントラコード化されたフレームに変換するステップ(660)を更に備えることを特徴とする請求項1から3のいずれか一項に記載のマルチメディア・ビデオ会議においてビデオ・イメージを中継する方法。   Converting (660) a first predicted frame of the video image of the most active speaker to an intra-coded frame to enhance the video quality of the most active speaker. A method for relaying a video image in a multimedia video conference according to any one of claims 1 to 3. 2以上の増強レイヤが使用可能であるとき、前記ビデオ・イメージのより微細なスケーラビリティを与えるため、各レイヤ化ビデオ・イメージ送信を有する前記1又はそれより多くの話者のクラスの指示を前記マルチポイント制御装置(520)により受信するステップを更に備えることを特徴とする請求項1から4のいずれか一項に記載のマルチメディア・ビデオ会議においてビデオ・イメージを中継する方法。   When more than one enhancement layer is available, the multi-class indication of the one or more speakers with each layered video image transmission is provided to provide finer scalability of the video image. 5. A method for relaying a video image in a multimedia videoconference according to any one of claims 1 to 4, further comprising the step of receiving by a point controller (520). 1又はそれより多くのベース・レイヤ・ビデオ・ストリームに対して、予測されたフレームを、イントラコード化されたフレームに変換するステップを更に備えることを特徴とする請求項1から5のいずれか一項に記載のマルチメディア・ビデオ会議においてビデオ・イメージを中継する方法。   6. The method of any one of claims 1-5, further comprising converting predicted frames to intra-coded frames for one or more base layer video streams. A method of relaying a video image in the multimedia video conference described in the paragraph. 複数のユーザ装置(550,560,570,580)の間でビデオ・イメージを中継するためのビデオ会議装置であって、
前記複数のマルチメディア・ユーザ装置のうちの或る数のマルチメディア・ユーザ装置により送信された或る数のレイヤ化ビデオ・イメージを受信するよう適合されたマルチポイント制御装置(520)であって、前記レイヤ化ビデオ・イメージがベース・レイヤ(552,562,572,582)及び1又はそれより多くの増強レイヤ(555,565,575,585)を含む、前記マルチポイント制御装置(520)と、
前記マルチポイント制御装置(520)に動作可能に結合され、且つ或る数の活動中の話者(535)の或る数のベース・レイヤ・ビデオ・イメージと最も活動中の話者の1又はそれより多くの増強レイヤ(540)とを選択するよう適合されたビデオ切り換えモジュール(530)と、を備え、
前記マルチポイント制御装置(520)が更に、或る数の活動中の話者の前記或る数のベース・レイヤ・ビデオ・イメージと前記最も活動中の話者の1又はそれより多くの増強レイヤ(540)とを前記複数のマルチメディア・ユーザ装置(550,560,570,580)のうちの1又はそれより多くのマルチメディア・ユーザ装置へ送信するよう適合されている、ビデオ会議装置。
A video conferencing device for relaying a video image between a plurality of user devices (550, 560, 570, 580),
A multipoint controller (520) adapted to receive a number of layered video images transmitted by a number of multimedia user devices of the plurality of multimedia user devices. The multipoint controller (520), wherein the layered video image includes a base layer (552, 562, 572, 582) and one or more enhancement layers (555, 565, 575, 585); ,
A number of base layer video images of a number of active speakers (535) and one of the most active speakers operatively coupled to the multipoint controller (520) A video switching module (530) adapted to select more enhancement layers (540);
The multipoint controller (520) further includes the number of base layer video images of a number of active speakers and one or more enhancement layers of the most active speakers. (540) is adapted to transmit to one or more of the plurality of multimedia user devices (550, 560, 570, 580).
前記ビデオ切り換えモジュール(530)に動作可能に結合された予測フレームをイントラコード化フレームに変換する予測フレーム/イントラコード化フレーム変換モジュール(660)であって、前記マルチポイント制御装置(520)が最初に前記フレームを予測されたフレームとして受信した場合、最も活動中の話者の増強レイヤ・ビデオ・ストリームをイントラコード化されたフレームとして与える、予測フレーム/イントラコード化フレーム変換モジュール(660)を更に備えることを特徴とする請求項7記載のビデオ会議装置。   A prediction frame / intra coded frame conversion module (660) for converting a prediction frame operably coupled to the video switching module (530) into an intra-coded frame, wherein the multipoint controller (520) is first A predictive frame / intra-coded frame conversion module (660) that provides the enhancement layer video stream of the most active speaker as an intra-coded frame when receiving the frame as a predicted frame 8. The video conference apparatus according to claim 7, further comprising: 或る数の活動中の話者及び/又は前記最も活動中の話者を決定するため或る数のオーディオ・ストリーム(590)を解析する話者識別モジュール(620)を更に備えることを特徴とする請求項7又は8記載のビデオ会議装置。   Further comprising a speaker identification module (620) that analyzes a number of active speakers and / or a number of audio streams (590) to determine the most active speakers. The video conferencing apparatus according to claim 7 or 8. 前記話者識別モジュール(620)が、優先レベルを各参加者の決定された活動に基づいて割り当てて、最も活動中の話者(622)、いずれの他の活動中の話者(625)及びいずれの活動中でない話者のうちの1又はそれより多くの話者を決定する請求項9記載のビデオ会議装置。   The speaker identification module (620) assigns a priority level based on each participant's determined activity to determine the most active speaker (622), any other active speaker (625), and The video conferencing apparatus of claim 9, wherein one or more of the non-active speakers are determined. 複数の参加者がビデオ・イメージを送信するビデオ会議に参加する無線装置(700)であって、
前記複数の参加者の中からそれぞれの参加者(720,730)を表示する第1のディスプレイ及び1又はそれより多くの第2の個別のディスプレイを有するビデオ・ディスプレイ(710)と、
前記ビデオ・ディスプレイに動作可能に結合されて、最も活動中の話者(720)とそれより活動が少ない話者(730)の指示を受信し、且つ前記最も活動中の話者(720)から受信された前記ビデオ・イメージがより高い品質のビデオ・イメージを提供する前記第1のディスプレイに表示されるべきであることと、或る数の前記より活動が少ない話者(730)から受信された前記ビデオ・イメージがより低い品質のビデオ・イメージを提供する前記1又はそれより多くの第2のディスプレイに表示されるべきであることとを決定するプロセッサと
を備える無線装置(700)。
A wireless device (700) participating in a video conference in which a plurality of participants transmit video images,
A video display (710) having a first display for displaying each participant (720, 730) from the plurality of participants and one or more second individual displays;
Operatively coupled to the video display to receive indications of the least active speaker (720) and less active speaker (730), and from the most active speaker (720) The received video image should be displayed on the first display providing a higher quality video image and received from a number of the less active speakers (730). A wireless device (700) comprising: a processor for determining that the video image should be displayed on the one or more second displays that provide a lower quality video image.
ベース・レイヤ・ビデオ・ストリーム(552,562,572,582)及び増強レイヤ・ビデオ・ストリーム(555,565,575,585)を含むレイヤ化ビデオ・ストリームを複数のユーザ装置(550,560,570,580)から受信するよう適合された1又はそれより多くの受信ポートと、
前記1又はそれより多くの受信ポートに動作可能に結合され、1又はそれより多くのユーザ装置(550,560,570,580)へ送信するため、或る数の活動中の話者(535)の或る数のベース・レイヤ・ビデオ・イメージと最も活動中の話者の1又はそれより多くの増強レイヤ(540)とを選択する切り換えモジュール(640)と
を備えるマルチポイント・プロセッサ。
A layered video stream, including a base layer video stream (552, 562, 572, 582) and an augmented layer video stream (555, 565, 575, 585), is transmitted to a plurality of user devices (550, 560, 570). , 580) one or more receiving ports adapted to receive from
A number of active speakers (535) operatively coupled to the one or more receiving ports and transmitting to one or more user devices (550, 560, 570, 580). Multipoint processor comprising a switching module (640) for selecting a certain number of base layer video images and one or more enhancement layers (540) of the most active speakers.
前記1又はそれより多くの受信ポートに動作可能に結合され、或る数の活動中の話者及び/又は前記最も活動中の話者を決定するため、前記複数のユーザ装置のうちの或る数のユーザ装置から受信された或る数のオーディオ・ストリーム(590)を解析する話者識別モジュール(620)を更に備えることを特徴とする請求項12記載のマルチポイント・プロセッサ。   One of the plurality of user devices operatively coupled to the one or more receiving ports to determine a number of active speakers and / or the most active speakers. The multipoint processor of claim 12, further comprising a speaker identification module (620) for analyzing a number of audio streams (590) received from a number of user devices. 前記話者識別モジュール(620)は、優先レベルを或る数の参加者の決定された活動に基づいて割り当てて、最も活動中の話者(622)、任意の他の活動中の話者(625)及び任意の活動してない話者のうちの1又はそれより多くの話者を決定する請求項12又は13記載のマルチポイント・プロセッサ。   The speaker identification module (620) assigns a priority level based on a determined activity of a certain number of participants, so that the most active speaker (622), any other active speaker ( 625) and the multipoint processor of claim 12 or 13, wherein one or more of any inactive speakers are determined. 前記切り換えモジュール(640)に動作可能に結合された予測フレーム/イントラコード化フレーム変換モジュール(660)であって、前記最も活動中の話者の増強レイヤ・ビデオ・ストリームがそれぞれのポートで予測フレームとして受信された場合当該最も活動中の話者の増強レイヤ・ビデオ・ストリームをイントラコード化フレームに変換する予測フレーム/イントラコード化フレーム変換モジュール(660)を更に備えることを特徴とする請求項12から14のいずれか一項に記載のマルチポイント・プロセッサ。   A prediction frame / intra-coded frame conversion module (660) operably coupled to the switching module (640), wherein the enhancement layer video stream of the most active speaker is a prediction frame at each port; 13. A prediction frame / intra coded frame conversion module (660) for converting the enhancement layer video stream of the most active speaker into an intra coded frame when received as 15. The multipoint processor according to any one of 1 to 14. 請求項1から6のいずれか一項に記載の方法のステップを実行するよう適合され、又は請求項7から10のいずれか一項に記載のビデオ会議装置を組み込むよう適合され、又は請求項12から15のいずれか一項に記載のマルチポイント・プロセッサを組み込むよう適合されたビデオ通信システム。   12. Adapted to perform the steps of the method according to any one of claims 1 to 6, or adapted to incorporate the video conferencing device according to any one of claims 7 to 10, or claim 12. A video communication system adapted to incorporate a multipoint processor according to any one of 1 to 15. 前記ビデオ通信システムが、ビデオ会議通信を容易にするため、インターネット・プロトコル・マルチメディア領域(890)を有するUMTS通信標準(800)と互換性がある請求項16記載のビデオ通信システム。   The video communication system of claim 16, wherein the video communication system is compatible with a UMTS communication standard (800) having an internet protocol multimedia domain (890) to facilitate video conferencing communications. 請求項1から6のいずれか一項に記載の方法のステップを実行するよう適合され、又は請求項7から10のいずれか一項に記載のビデオ会議装置を組み込むよう適合され、又は請求項12から15のいずれか一項に記載のマルチポイント・プロセッサを組み込むよう適合されたメディア資源機能装置(890A)。   12. Adapted to perform the steps of the method according to any one of claims 1 to 6, or adapted to incorporate the video conferencing device according to any one of claims 7 to 10, or claim 12. A media resource function device (890A) adapted to incorporate a multipoint processor according to any one of 1 to 15. 請求項1から6のいずれか一項に記載の方法に従って発生されたレイヤ化ビデオ会議イメージを受信するよう適合されたビデオ通信装置(700)。   A video communications apparatus (700) adapted to receive a layered video conference image generated according to the method of any one of claims 1-6. 請求項1から6のいずれか一項に記載の方法に使用のためレイヤ化ビデオ会議イメージを発生するよう適合され、又は請求項1から6のいずれか一項に記載の方法に従って発生されたレイヤ化ビデオ会議イメージを送信するよう適合されたビデオ通信装置。   7. A layer adapted to generate a layered video conference image for use in a method according to any one of claims 1 to 6, or generated according to a method according to any one of claims 1 to 6. Video communication device adapted to transmit a structured video conference image. 前記ビデオ通信装置が、ノードB(850A)、RNC(850B)、SGSN(870A)、GGSN(870B)及びMRF(890A)のうちの1つである請求項19記載のビデオ通信装置。   The video communication device according to claim 19, wherein the video communication device is one of Node B (850A), RNC (850B), SGSN (870A), GGSN (870B) and MRF (890A). ビデオ会議イメージをH.323標準又はSIP標準に基づいて容易にするよう適合された、請求項1から6に記載のマルチメディア会議においてビデオ・イメージを中継する方法、又は請求項7から10のいずれか一項に記載のビデオ会議装置、又は請求項12から15のいずれか一項に記載のマルチポイント・プロセッサ、又は請求項16又は17記載のマルチポイント・プロセッサ、又は請求項18に記載のメディア資源機能装置(890A)、請求項19から21のいずれか一項に記載のビデオ通信装置。   Video conferencing image 11. A method for relaying a video image in a multimedia conference according to claim 1 or 6 adapted to facilitate based on the H.323 standard or SIP standard, or according to any one of claims 7 to 10. 19. A video conferencing device, or a multipoint processor according to any one of claims 12 to 15, or a multipoint processor according to claim 16 or 17, or a media resource function device (890A) according to claim 18. The video communication device according to any one of claims 19 to 21. 請求項1から6のいずれか一項に記載の方法を実行するようプロセッサを制御するプロセッサ実行可能な命令を格納する記憶媒体。   A storage medium storing processor-executable instructions for controlling a processor to perform the method according to any one of claims 1-6.
JP2003565169A 2002-01-30 2002-12-16 Video conferencing system and operation method Withdrawn JP2005516557A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0202101A GB2384932B (en) 2002-01-30 2002-01-30 Video conferencing system and method of operation
PCT/EP2002/014337 WO2003065720A1 (en) 2002-01-30 2002-12-16 Video conferencing and method of operation

Publications (1)

Publication Number Publication Date
JP2005516557A true JP2005516557A (en) 2005-06-02

Family

ID=9930013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003565169A Withdrawn JP2005516557A (en) 2002-01-30 2002-12-16 Video conferencing system and operation method

Country Status (7)

Country Link
JP (1) JP2005516557A (en)
KR (1) KR20040079973A (en)
CN (1) CN1618233A (en)
FI (1) FI20041039A (en)
GB (1) GB2384932B (en)
HK (1) HK1058450A1 (en)
WO (1) WO2003065720A1 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010503280A (en) * 2006-08-29 2010-01-28 マイクロソフト コーポレーション Visual composition management technology for multimedia audio conferencing
US7734104B2 (en) 2005-11-30 2010-06-08 Sony Computer Entertainment Inc. Image coding apparatus, image decoding apparatus and image processing system
JP2011525770A (en) * 2008-06-23 2011-09-22 ラドヴィジョン リミテッド System, method and medium for providing a cascaded multipoint video conference device
KR101183864B1 (en) 2012-01-04 2012-09-19 휴롭 주식회사 Hub system for supporting voice/data share among wireless communication stations and method thereof
JP2014135753A (en) * 2008-06-09 2014-07-24 Vidyo Inc Improved view layout management in scalable video and audio communication systems
JP2015080255A (en) * 2005-09-07 2015-04-23 ヴィドヨ,インコーポレーテッド System and method for conference server architecture for low-delay and distributed conferencing application
JP2015154315A (en) * 2014-02-17 2015-08-24 日本電信電話株式会社 Video conference server, video conference system, and video conference method
US9338213B2 (en) 2005-09-07 2016-05-10 Vidyo, Inc. System and method for a conference server architecture for low delay and distributed conferencing applications

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2004306740B2 (en) * 2003-10-08 2010-11-25 Cisco Technology, Inc. System and method for performing distributed video conferencing
US8659636B2 (en) 2003-10-08 2014-02-25 Cisco Technology, Inc. System and method for performing distributed video conferencing
JP2006067124A (en) * 2004-08-25 2006-03-09 Nec Corp Method and device for switching image encoded data, system, and program
CN100417220C (en) * 2004-09-28 2008-09-03 中兴通讯股份有限公司 Method for holding multi-point video conference by terminal dialing
FR2875665A1 (en) * 2005-01-04 2006-03-24 France Telecom Video bit stream highlighting method for transmitting stream to videoconference participants, involves adjusting value of encoding quality parameter of video bit stream based on measured value of predefined parameter of audio bit stream
US7535484B2 (en) * 2005-03-14 2009-05-19 Sony Ericsson Mobile Communications Ab Communication terminals that vary a video stream based on how it is displayed
CN100401765C (en) * 2005-03-24 2008-07-09 华为技术有限公司 Video conference controlling method
US20060244813A1 (en) * 2005-04-29 2006-11-02 Relan Sandeep K System and method for video teleconferencing via a video bridge
KR100695206B1 (en) 2005-09-12 2007-03-14 엘지전자 주식회사 Mobile communication terminal for sharing device buffer and sharing buffer method using the same
US8436889B2 (en) 2005-12-22 2013-05-07 Vidyo, Inc. System and method for videoconferencing using scalable video coding and compositing scalable video conferencing servers
KR100666995B1 (en) * 2006-01-16 2007-01-10 삼성전자주식회사 Method and system for providing the differential media data of meltimedia conference
US7822811B2 (en) * 2006-06-16 2010-10-26 Microsoft Corporation Performance enhancements for video conferencing
WO2008042852A2 (en) 2006-09-29 2008-04-10 Vidyo, Inc. System and method for multipoint conferencing with scalable video coding servers and multicast
US8334891B2 (en) 2007-03-05 2012-12-18 Cisco Technology, Inc. Multipoint conference video switching
US8264521B2 (en) 2007-04-30 2012-09-11 Cisco Technology, Inc. Media detection and packet distribution in a multipoint conference
KR100874024B1 (en) * 2007-09-18 2008-12-17 주식회사 온게임네트워크 Station and method for internet broadcasting interaction type-content and record media recoded program realizing the same
EP2046041A1 (en) * 2007-10-02 2009-04-08 Alcatel Lucent Multicast router, distribution system,network and method of a content distribution
US7869705B2 (en) 2008-01-21 2011-01-11 Microsoft Corporation Lighting array control
US8130257B2 (en) 2008-06-27 2012-03-06 Microsoft Corporation Speaker and person backlighting for improved AEC and AGC
KR101234495B1 (en) * 2009-10-19 2013-02-18 한국전자통신연구원 Terminal, node device and method for processing stream in video conference system
US8780978B2 (en) 2009-11-04 2014-07-15 Qualcomm Incorporated Controlling video encoding using audio information
KR101636716B1 (en) 2009-12-24 2016-07-06 삼성전자주식회사 Apparatus of video conference for distinguish speaker from participants and method of the same
JP5999873B2 (en) * 2010-02-24 2016-09-28 株式会社リコー Transmission system, transmission method, and program
US20110276894A1 (en) * 2010-05-07 2011-11-10 Audrey Younkin System, method, and computer program product for multi-user feedback to influence audiovisual quality
US8553068B2 (en) * 2010-07-15 2013-10-08 Cisco Technology, Inc. Switched multipoint conference using layered codecs
GB201017382D0 (en) 2010-10-14 2010-11-24 Skype Ltd Auto focus
WO2012072276A1 (en) * 2010-11-30 2012-06-07 Telefonaktiebolaget L M Ericsson (Publ) Transport bit-rate adaptation in a multi-user multi-media conference system
WO2012100410A1 (en) * 2011-01-26 2012-08-02 青岛海信信芯科技有限公司 Method, video terminal and system for enabling multi-party video calling
EP3249940A1 (en) 2011-04-21 2017-11-29 Shah Talukder Flow-control based switched group video chat and real-time interactive broadcast
GB2491852A (en) * 2011-06-13 2012-12-19 Thales Holdings Uk Plc Rendering Active Speaker Image at Higher Resolution than Non-active Speakers at a Video Conference Terminal
CN103533294B (en) * 2012-07-03 2017-06-20 中国移动通信集团公司 The sending method of video data stream, terminal and system
CN106464842B (en) * 2014-03-31 2018-03-02 宝利通公司 Method and system for mixed topology media conference system
CN105450976B (en) * 2014-08-28 2018-08-07 南宁富桂精密工业有限公司 video conference processing method and system
EP3425891B1 (en) * 2016-02-29 2021-01-06 Audio-Technica Corporation Conference system
EP3270371B1 (en) * 2016-07-12 2022-09-07 NXP USA, Inc. Method and apparatus for managing graphics layers within a graphics display component
US10708728B2 (en) * 2016-09-23 2020-07-07 Qualcomm Incorporated Adaptive modulation order for multi-user superposition transmissions with non-aligned resources
CN107968768A (en) * 2016-10-19 2018-04-27 中兴通讯股份有限公司 Sending, receiving method and device, system, the video relaying of Media Stream
CN106572320A (en) * 2016-11-11 2017-04-19 上海斐讯数据通信技术有限公司 Multiparty video conversation method and system
JP6535431B2 (en) 2017-07-21 2019-06-26 レノボ・シンガポール・プライベート・リミテッド Conference system, display method for shared display device, and switching device
CN111314738A (en) * 2018-12-12 2020-06-19 阿里巴巴集团控股有限公司 Data transmission method and device

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0654322A (en) * 1992-07-28 1994-02-25 Fujitsu Ltd System for controlling picture data adaption in tv conference using multi-spot controller
US5629736A (en) * 1994-11-01 1997-05-13 Lucent Technologies Inc. Coded domain picture composition for multimedia communications systems
DE69515838T2 (en) * 1995-01-30 2000-10-12 Ibm Priority-controlled transmission of multimedia data streams via a telecommunication line
ES2193412T3 (en) * 1996-12-09 2003-11-01 Siemens Ag TELECOMMUNICATIONS PROCEDURE AND SYSTEM FOR THE SUPPORT OF MULTIMEDIA SERVICES THROUGH AN INTERFACE AS WELL AS A CORRUPTED CONFIGURED PAYMENT TERMINAL.
EP0905976A4 (en) * 1997-03-17 2010-09-29 Panasonic Corp Method of processing, transmitting and receiving dynamic image data and apparatus therefor
US6798838B1 (en) * 2000-03-02 2004-09-28 Koninklijke Philips Electronics N.V. System and method for improving video transmission over a wireless network
US20020093531A1 (en) * 2001-01-17 2002-07-18 John Barile Adaptive display for video conferences

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015080255A (en) * 2005-09-07 2015-04-23 ヴィドヨ,インコーポレーテッド System and method for conference server architecture for low-delay and distributed conferencing application
US9338213B2 (en) 2005-09-07 2016-05-10 Vidyo, Inc. System and method for a conference server architecture for low delay and distributed conferencing applications
US7734104B2 (en) 2005-11-30 2010-06-08 Sony Computer Entertainment Inc. Image coding apparatus, image decoding apparatus and image processing system
JP2010503280A (en) * 2006-08-29 2010-01-28 マイクロソフト コーポレーション Visual composition management technology for multimedia audio conferencing
US10187608B2 (en) 2006-08-29 2019-01-22 Microsoft Technology Licensing, Llc Techniques for managing visual compositions for a multimedia conference call
JP2014135753A (en) * 2008-06-09 2014-07-24 Vidyo Inc Improved view layout management in scalable video and audio communication systems
US9071883B2 (en) 2008-06-09 2015-06-30 Vidyo, Inc. System and method for improved view layout management in scalable video and audio communication systems
JP2011525770A (en) * 2008-06-23 2011-09-22 ラドヴィジョン リミテッド System, method and medium for providing a cascaded multipoint video conference device
KR101183864B1 (en) 2012-01-04 2012-09-19 휴롭 주식회사 Hub system for supporting voice/data share among wireless communication stations and method thereof
JP2015154315A (en) * 2014-02-17 2015-08-24 日本電信電話株式会社 Video conference server, video conference system, and video conference method

Also Published As

Publication number Publication date
GB0202101D0 (en) 2002-03-13
FI20041039A (en) 2004-09-29
GB2384932A (en) 2003-08-06
KR20040079973A (en) 2004-09-16
HK1058450A1 (en) 2004-05-14
WO2003065720A1 (en) 2003-08-07
GB2384932B (en) 2004-02-25
CN1618233A (en) 2005-05-18

Similar Documents

Publication Publication Date Title
JP2005516557A (en) Video conferencing system and operation method
US11503250B2 (en) Method and system for conducting video conferences of diverse participating devices
US8289369B2 (en) Distributed real-time media composer
US8514265B2 (en) Systems and methods for selecting videoconferencing endpoints for display in a composite video image
US7627629B1 (en) Method and apparatus for multipoint conferencing
AU2011258272B2 (en) Systems and methods for scalable video communication using multiple cameras and multiple monitors
KR100880150B1 (en) Multi-point video conference system and media processing method thereof
JP2003532347A (en) Media Role Management in Video Conferencing Networks
CN111385515B (en) Video conference data transmission method and video conference data transmission system
US9743043B2 (en) Method and system for handling content in videoconferencing
US20140002584A1 (en) Method of selecting conference processing device and video conference system using the method
CN105122791A (en) Method and a device for optimizing large scaled video conferences
US9912623B2 (en) Systems and methods for adaptive context-aware control of multimedia communication sessions
GB2378601A (en) Replacing intra-coded frame(s) with frame(s) predicted from the first intra-coded frame
Johanson Multimedia communication, collaboration and conferencing using Alkit Confero
Mankin et al. The design of a digital amphitheater
Jia et al. Efficient 3G324M protocol Implementation for Low Bit Rate Multipoint Video Conferencing.
CN113612964A (en) Interactive teaching processing method and device, computer equipment and storage medium
Chatras Telepresence: Immersive Experience and Interoperability
Gharai et al. High Definition Conferencing: Present, Past and Future
Zhang et al. Research on user applying mode for video conference system

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20070817