JP2005341325A - Multi-point video conference system, multi-point video conference control method, server apparatus, multi-point video conference control program, and program recording medium thereof - Google Patents

Multi-point video conference system, multi-point video conference control method, server apparatus, multi-point video conference control program, and program recording medium thereof Download PDF

Info

Publication number
JP2005341325A
JP2005341325A JP2004158494A JP2004158494A JP2005341325A JP 2005341325 A JP2005341325 A JP 2005341325A JP 2004158494 A JP2004158494 A JP 2004158494A JP 2004158494 A JP2004158494 A JP 2004158494A JP 2005341325 A JP2005341325 A JP 2005341325A
Authority
JP
Japan
Prior art keywords
header
client
encoded stream
encoded
video conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004158494A
Other languages
Japanese (ja)
Inventor
Junichi Nakajima
淳一 中嶋
Hisami Shinsenji
久美 秦泉寺
Kazuto Kamikura
一人 上倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004158494A priority Critical patent/JP2005341325A/en
Publication of JP2005341325A publication Critical patent/JP2005341325A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a multi-point video conference system, capable of relieving a load imposed on a server apparatus for controlling a communication conference and gathering the number of downstream connections of into one. <P>SOLUTION: When the server apparatus 1 receives a coded stream in the unit of VP from each client terminal 2, a header update processing section 12 carries out processing of rewriting a VOP header into a VP header and processing of revising a macroblock number in the VP header on the basis of related information between a predetermined client and a display position of the image and generates a coded stream resulting from compositing coded streams from a plurality of clients. Each client terminal receives the composite coded stream from the server apparatus 1 and decodes and displays the coded stream to display the composited image of the plurality of clients. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は,映像符号化データの多重化方式に関し,特に符号化および復号機能を持つ複数のクライアント端末において符号化された符号化ストリームを配信サーバが受信して,それぞれのクライアント端末に符号化ストリームを配信する形式の多地点テレビ会議システムに関するものである。   The present invention relates to a multiplexing method of video encoded data, and in particular, a distribution server receives an encoded stream encoded in a plurality of client terminals having encoding and decoding functions, and the encoded stream is transmitted to each client terminal. It is related with the multipoint video conference system of the form which distributes.

一般に,多地点テレビ会議システムでは,複数のクライアント端末で撮影された映像の符号化ストリームを,配信サーバがそれぞれのクライアント端末から受信し,配信サーバにおいて各クライアント端末から受信した符号化ストリームを復号し,復号した各クライアント端末の画像を一つの画像に合成して,それを再符号化したものを,それぞれのクライアント端末に配信することを行っていた(例えば,特許文献1,特許文献2参照)。   In general, in a multipoint video conference system, a distribution server receives encoded streams of video shot by a plurality of client terminals from each client terminal, and the distribution server decodes the encoded streams received from each client terminal. The decoded image of each client terminal is synthesized into one image, and the re-encoded image is distributed to each client terminal (for example, see Patent Document 1 and Patent Document 2). .

図11は,従来の多地点テレビ会議システムの例を示す図である。図11において,100は多地点テレビ会議を制御し,各クライアントに映像を配信するサーバ装置,110a〜110zは多地点テレビ会議に参加するクライアントのクライアント端末である。サーバ装置100は,各クライアント端末110a〜110zに対応する受信バッファ101a〜101zと,復号部102a〜102zと,画像合成部103と,再符号化部104と,送信バッファ105とを備える。   FIG. 11 is a diagram showing an example of a conventional multipoint video conference system. In FIG. 11, reference numeral 100 denotes a server device that controls a multipoint video conference and distributes video to each client, and 110a to 110z are client terminals of clients participating in the multipoint video conference. The server device 100 includes reception buffers 101a to 101z corresponding to the client terminals 110a to 110z, decoding units 102a to 102z, an image synthesis unit 103, a re-encoding unit 104, and a transmission buffer 105.

サーバ装置100は,各クライアント端末110a〜110zにネットワークを介して接続され,各クライアント端末110a〜110zからの符号化ストリームを受信し,各クライアント端末に対応する受信バッファ101a〜101zに格納する。復号部102a〜102zは,受信バッファ101a〜101zに格納された符号化ストリームをそれぞれ復号する。   The server device 100 is connected to each client terminal 110a to 110z via a network, receives an encoded stream from each client terminal 110a to 110z, and stores it in reception buffers 101a to 101z corresponding to each client terminal. The decoding units 102a to 102z decode the encoded streams stored in the reception buffers 101a to 101z, respectively.

画像合成部103は,各復号部102a〜102zが復号した画像をあらかじめ定められた位置に配置して一つの画像に合成し,再符号化部104は,合成された画像を再符号化する。再符号化された合成画像ストリームは,送信バッファ105に格納され,各クライアント端末110a〜110zにネットワークを介して配信される。   The image composition unit 103 arranges the images decoded by the decoding units 102a to 102z at predetermined positions and composes them into one image, and the re-encoding unit 104 re-encodes the synthesized images. The re-encoded composite image stream is stored in the transmission buffer 105 and distributed to each of the client terminals 110a to 110z via the network.

図12は,従来の他の多地点テレビ会議システムの例を示す図である。図12において,120は多地点テレビ会議を制御し,各クライアントに映像を配信するサーバ装置,130a〜130zは多地点テレビ会議に参加するクライアントのクライアント端末である。サーバ装置120は,各クライアント端末130a〜130zに対応する受信バッファ121a〜121zと,送信バッファ122a〜122zとを備える。   FIG. 12 is a diagram showing an example of another conventional multipoint video conference system. In FIG. 12, 120 is a server device that controls a multi-point video conference and distributes video to each client, and 130a to 130z are client terminals of clients participating in the multi-point video conference. The server device 120 includes reception buffers 121a to 121z and transmission buffers 122a to 122z corresponding to the client terminals 130a to 130z.

各クライアント端末130a〜130zは,クライアントを撮影するカメラ131a〜131zと,ディスプレイ132a〜132zと,撮影した映像を符号化する符号化部133と,符号化ストリームを送信するための送信バッファ134と,サーバ装置120が配信した符号化ストリームを受信するための複数の受信バッファ135と,各受信バッファ135に対応する符号化ストリームの復号部136と,各復号部136が復号した復号画像と,自端末のカメラで撮影した画像とを合成する画像合成部137とを備える。   Each of the client terminals 130a to 130z includes cameras 131a to 131z that capture the client, displays 132a to 132z, an encoding unit 133 that encodes the captured video, a transmission buffer 134 for transmitting the encoded stream, A plurality of reception buffers 135 for receiving the encoded streams distributed by the server apparatus 120, encoded stream decoding units 136 corresponding to the respective reception buffers 135, decoded images decoded by the respective decoding units 136, and the own terminal And an image composition unit 137 that composes an image captured by the camera.

前述した図11の例では,サーバ装置100においてクライアント端末の符号化ストリームを一度復号した後,画像全体を合成してから再符号化しているが,図12のシステムでは,サーバ装置120は,各クライアント端末130a〜130zから受信した符号化ストリームを,受信バッファ121a〜121zおよび送信バッファ122a〜122zを介して各クライアント端末130a〜130zに配信する。   In the example of FIG. 11 described above, after the encoded stream of the client terminal is once decoded in the server apparatus 100, the entire image is synthesized and re-encoded. However, in the system of FIG. The encoded streams received from the client terminals 130a to 130z are distributed to the client terminals 130a to 130z via the reception buffers 121a to 121z and the transmission buffers 122a to 122z.

各クライアント端末130a〜130zでは,受信バッファ135によりサーバ装置120から配信された符号化ストリームを受信すると,受信した符号化ストリームをそれぞれ復号部136で復号し,復号画像を画像合成部137へ送る。画像合成部137では,それらの画像と自端末で撮影した画像とを合成し,ディスプレイ132a〜132zに表示する。これにより,各クライアント端末130a〜130zのディスプレイ132a〜132zには,テレビ会議に参加するクライアントの映像が表示されることになる。
特許第3097736号公報 特開平11−187372号公報
In each of the client terminals 130a to 130z, when the encoded stream distributed from the server device 120 is received by the reception buffer 135, the received encoded stream is decoded by the decoding unit 136, and the decoded image is sent to the image synthesis unit 137. In the image composition unit 137, these images and images taken by the terminal are synthesized and displayed on the displays 132a to 132z. Thereby, the video of the client participating in the video conference is displayed on the displays 132a to 132z of the client terminals 130a to 130z.
Japanese Patent No. 3097736 JP-A-11-187372

図11に示すような従来の多地点テレビ会議システムでは,サーバ装置100において各クライアント端末110a〜110zから受信した符号化ストリームを一度復号した後,画像全体を合成してから再符号化するため,サーバ装置100において復号,画像合成,再符号化の処理が必要であり,サーバ装置100の負荷が大きくなるという問題があった。   In the conventional multipoint video conference system as shown in FIG. 11, after the encoded stream received from each of the client terminals 110a to 110z is once decoded in the server device 100, the entire image is synthesized and then re-encoded. There is a problem in that the server apparatus 100 needs to perform decoding, image synthesis, and re-encoding processing, which increases the load on the server apparatus 100.

一方,図12に示すような従来の多地点テレビ会議システムの場合,サーバ装置120の負荷は小さくて済むが,サーバ装置120と各クライアント端末130a〜130zとの間で,ダウンストリームの分だけコネクションを張る必要があるため,テレビ会議に参加するクライアントの増加に伴い必要となる通信ポートが増加するという問題があった。また,ネットワークリソースやセキュリティの観点からも好ましくはないという問題があった。   On the other hand, in the case of the conventional multi-point video conference system as shown in FIG. Therefore, there is a problem that the necessary communication ports increase as the number of clients participating in the video conference increases. There is also a problem that it is not preferable from the viewpoint of network resources and security.

また,以上のような従来技術では,各クライアント端末が,サーバ装置から合成画像ストリームを受信して復号する場合と,サーバ装置から特定のクライアント画像の符号化ストリームだけを受信して復号する場合とで,同一の復号部により復号することはできなかった。   In the conventional technology as described above, each client terminal receives and decodes a composite image stream from the server device, and receives and decodes only an encoded stream of a specific client image from the server device. Thus, the same decoding unit could not be used for decoding.

本発明は上記問題点の解決を図り,サーバ装置における負荷を軽減し,かつダウンストリームのコネクション数を1つにまとめることができる多地点テレビ会議システムを実現することを目的とする。   SUMMARY OF THE INVENTION An object of the present invention is to solve the above problems, and to realize a multipoint video conference system capable of reducing the load on the server device and integrating the number of downstream connections into one.

上記課題を解決するため,本発明は,複数のクライアント端末において符号化された符号化ストリームをサーバ装置が受信して,それぞれのクライアント端末に符号化ストリームを配信する形式の多地点テレビ会議システムにおいて,クライアント端末によって符号化されサーバ装置にアップロードされた符号化ストリームについて,サーバ装置が,各VP(Video Packet)単位の符号化ストリームのVPヘッダに格納されたマクロブロック番号を,各クライアント端末からの画像を合成したときの合成画像の該当する表示位置になるように変更し,各クライアント端末に配信することを特徴とする。   In order to solve the above problems, the present invention provides a multipoint video conference system in which a server device receives encoded streams encoded by a plurality of client terminals and distributes the encoded streams to the respective client terminals. For the encoded stream encoded by the client terminal and uploaded to the server apparatus, the server apparatus obtains the macroblock number stored in the VP header of the encoded stream of each VP (Video Packet) unit from each client terminal. It changes so that it may become a corresponding display position of the synthesized image when it synthesize | combines an image, It distributes to each client terminal, It is characterized by the above-mentioned.

また,合成画像における先頭の表示位置以外のクライアントの符号化ストリームは,VOP(Video Object Plane)ヘッダは,VPヘッダに書き換える。ヘッダを書き換えたストリームは,VP単位(例えば,マクロブロックの1ライン)ごとに出力する。   In addition, the VOP (Video Object Plane) header of the encoded stream of the client other than the head display position in the composite image is rewritten to the VP header. The stream with the rewritten header is output for each VP unit (for example, one line of a macro block).

サーバ装置から符号化ストリームを受信した各クライアント端末は,VP単位で順次復号し,VPヘッダ内の変更後のマクロブロック番号が示す表示位置に復号画像を表示する。   Each client terminal that has received the encoded stream from the server device sequentially decodes in units of VP, and displays the decoded image at the display position indicated by the changed macroblock number in the VP header.

クライアント端末が一つの画像領域(ストリーム)を選択したときには,サーバ装置は,上記ヘッダ更新処理をスルーして,指定された画像領域に該当するクライアント端末からの符号化ストリームをそのまま出力する。   When the client terminal selects one image area (stream), the server apparatus passes through the header update process and outputs the encoded stream from the client terminal corresponding to the designated image area as it is.

本発明は,符号化および復号機能を持つ複数のクライアント端末において符号化された符号化ストリームをサーバ装置が受信して,それぞれのクライアント端末に符号化ストリームを配信する形式の多地点テレビ会議システムにおいて,サーバ装置にアップロードされた各々の符号化ストリームのヘッダを更新し,VPヘッダ内のマクロブロック番号を変更することによって合成ストリームを生成して配信するので,サーバ装置における各クライアント端末から受信した符号化ストリームを復号する処理,複数の復号画像を合成する処理,および合成画像を再符号化する処理が不要となり,サーバ装置の負荷を軽減することができる。   The present invention relates to a multipoint video conference system in which a server device receives encoded streams encoded by a plurality of client terminals having encoding and decoding functions and distributes the encoded streams to the respective client terminals. Since the composite stream is generated and distributed by updating the header of each encoded stream uploaded to the server device and changing the macroblock number in the VP header, the code received from each client terminal in the server device The process for decoding the encrypted stream, the process for synthesizing a plurality of decoded images, and the process for re-encoding the synthesized image are not required, and the load on the server device can be reduced.

また,クライアント端末においては,サーバ装置から受信した合成ストリームをVP単位で順次復号し,VPヘッダ内のマクロブロック番号に対応する位置に復号画像を表示するため,各クライアント端末における符号化同期処理が不要であり,簡易に効率よく符号化ストリームを生成および復号・表示することができる。   Further, since the client terminal sequentially decodes the composite stream received from the server device in units of VP and displays the decoded image at the position corresponding to the macroblock number in the VP header, the encoding synchronization processing in each client terminal is performed. It is unnecessary, and an encoded stream can be generated, decoded, and displayed easily and efficiently.

また,サーバ装置から各クライアント端末の映像符号化データを合成して配信するので,テレビ会議に参加するクライアントの数だけコネクションを張る必要はなく,クライアント端末に対するダウンストリームのコネクション数を1つにまとめることができ,通信ポートその他の通信に必要な資源の増加を抑えることができる。   Also, since the encoded video data of each client terminal is synthesized and distributed from the server device, it is not necessary to establish connections as many as the number of clients participating in the video conference, and the number of downstream connections to the client terminals is integrated into one. And increase in resources necessary for communication ports and other communications can be suppressed.

また,クライアント端末が,合成ストリームではなく,特定のクライアントの符号化ストリームの一つを選択して受信した場合に,合成ストリームのときと同一の復号部で復号することができ,復号プロセスを簡易化することができる。   In addition, when the client terminal selects and receives one of the encoded streams of a specific client instead of the composite stream, it can be decoded by the same decoding unit as that for the composite stream, thus simplifying the decoding process. Can be

以下,図面を用いて本発明の実施の形態を説明する。図1は,本発明に係る多地点テレビ会議システムの構成例を示す。図1において,1は多地点テレビ会議を制御し,各クライアントに映像を配信するサーバ装置,2は多地点テレビ会議に参加するクライアントのクライアント端末である。本発明の実施の形態においては,例えば,クライアントA〜クライアントDの4人のクライアントがクライアント端末2を用いて多地点テレビ会議に参加するものとする。もちろん,本発明における通信会議の参加者は,4人に限られるわけではなく,複数人であればよい。   Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows a configuration example of a multipoint video conference system according to the present invention. In FIG. 1, 1 is a server device that controls a multipoint video conference and distributes video to each client, and 2 is a client terminal of a client that participates in the multipoint video conference. In the embodiment of the present invention, for example, four clients A to D participate in a multipoint video conference using the client terminal 2. Of course, the number of participants in the communication conference according to the present invention is not limited to four, and a plurality of participants may be used.

サーバ装置1において,11はそれぞれ各クライアント端末2から送信された符号化ストリームを受信し格納する受信バッファ,12は各受信バッファ11からVP単位の符号化ストリームを順次受け取り,VPヘッダの内容を更新した上で合成するヘッダ更新処理部,13は合成された符号化ストリームが格納される送信バッファである。   In the server apparatus 1, 11 is a reception buffer for receiving and storing the encoded stream transmitted from each client terminal 2, and 12 is sequentially receiving the encoded stream in units of VP from each reception buffer 11 and updating the contents of the VP header. In addition, a header update processing unit 13 to be combined is a transmission buffer in which the combined encoded stream is stored.

ヘッダ更新処理部12において,14は受信バッファ11に格納された符号化ストリームをVP単位で読み出すストリーム入力部,15はVPヘッダ内の変更後のマクロブロック(以下,MBと表す)番号を決定するMB番号決定部,16は特定のVOPヘッダをVPヘッダに書き換え,またVPヘッダ内のMB番号を変更後のMB番号に変更するヘッダ/MB番号変更部,17はMB番号が変更されたVP単位の符号化ストリームを送信バッファ13に転送するストリーム出力部である。   In the header update processing unit 12, 14 is a stream input unit for reading the encoded stream stored in the reception buffer 11 in VP units, and 15 is a macro block (hereinafter referred to as MB) number after change in the VP header. MB number determination unit, 16 rewrites a specific VOP header to a VP header, and changes the MB number in the VP header to the MB number after the change, 17 is a VP unit in which the MB number is changed This is a stream output unit for transferring the encoded stream to the transmission buffer 13.

クライアント端末2において,23はカメラ21により撮影された映像を符号化する符号化部,24はサーバ装置1へ送信する符号化ストリームを格納する送信バッファ,25はサーバ装置1からの合成された符号化ストリームを格納する受信バッファ,26は受信バッファ25に格納された符号化ストリームを復号する復号部,27は復号データのディスプレイ22への表示を制御する表示制御部である。   In the client terminal 2, reference numeral 23 denotes an encoding unit that encodes video captured by the camera 21, 24 denotes a transmission buffer that stores an encoded stream to be transmitted to the server apparatus 1, and 25 denotes a synthesized code from the server apparatus 1. A reception buffer for storing the encoded stream, 26 is a decoding unit for decoding the encoded stream stored in the reception buffer 25, and 27 is a display control unit for controlling the display of the decoded data on the display 22.

図2は,クライアント端末の符号化部の詳細を示す図である。この例では,MPEG−4の符号化方式を用いるものとする。この符号化部23は,従来から一般に用いられているエンコーダと同じものである。減算部231は,マクロブロックごとに入力画像信号と動き補償部239の出力である予測画像信号との差分信号を算出する。DCT部232は,その差分信号を離散コサイン変換(DCT)する。量子化部233は,符号量制御部241が決定した量子化パラメータに従ってDCT係数を量子化する。可変長符号化部240は,量子化後のDCT係数を可変長符号化し,送信バッファ24へ出力する。   FIG. 2 is a diagram illustrating details of the encoding unit of the client terminal. In this example, an MPEG-4 encoding method is used. The encoding unit 23 is the same as an encoder generally used conventionally. The subtraction unit 231 calculates a difference signal between the input image signal and the predicted image signal that is the output of the motion compensation unit 239 for each macroblock. The DCT unit 232 performs a discrete cosine transform (DCT) on the difference signal. The quantization unit 233 quantizes the DCT coefficient according to the quantization parameter determined by the code amount control unit 241. The variable length coding unit 240 performs variable length coding on the quantized DCT coefficient and outputs the result to the transmission buffer 24.

また,量子化後のDCT係数は逆量子化部234へも出力され,逆量子化部234では,それを逆量子化する。逆DCT部235は,逆量子化後の信号を逆離散コサイン変換する。加算部236は,逆DCT後の信号に動き補償部239の出力信号を加算する。フレームメモリ237は,加算後の信号を参照画像として蓄積する。動き予測部238は,フレームメモリ237に蓄積された参照画像と入力画像信号とに基づいて動き予測を行う。動き補償部239は,動き予測部238が検出した動きベクトルに基づいて,フレームメモリ237に蓄積された参照画像から予測画像信号を生成する。動き予測部238の出力である動きベクトルは,可変長符号化部240で可変長符号化され,送信バッファ24に出力される。   The quantized DCT coefficient is also output to the inverse quantization unit 234, and the inverse quantization unit 234 performs inverse quantization. The inverse DCT unit 235 performs inverse discrete cosine transform on the signal after inverse quantization. The adder 236 adds the output signal of the motion compensation unit 239 to the signal after inverse DCT. The frame memory 237 stores the added signal as a reference image. The motion prediction unit 238 performs motion prediction based on the reference image stored in the frame memory 237 and the input image signal. The motion compensation unit 239 generates a predicted image signal from the reference image stored in the frame memory 237 based on the motion vector detected by the motion prediction unit 238. The motion vector output from the motion prediction unit 238 is variable length encoded by the variable length encoding unit 240 and output to the transmission buffer 24.

また,可変長符号化部240では,各フレームごとにVOP(Video Object Plane)ヘッダを生成してMB符号化情報の前に付与し,VP単位にVPヘッダを生成してMB符号化情報の前に付与する。VPヘッダ内には,MB符号化情報の先頭のMB番号情報を格納する。   Also, the variable length coding unit 240 generates a VOP (Video Object Plane) header for each frame and adds it to the front of the MB encoded information, generates a VP header for each VP, To grant. The MB number information at the head of the MB encoded information is stored in the VP header.

図1に示す構成を採る多地点テレビ会議システムにおいて,まず,各クライアント端末2の符号化部23は,カメラ21により撮影された映像を符号化し,送信バッファ24に格納する。   In the multipoint video conference system having the configuration shown in FIG. 1, first, the encoding unit 23 of each client terminal 2 encodes the video captured by the camera 21 and stores it in the transmission buffer 24.

サーバ装置1の受信バッファ11は,各クライアント端末2の送信バッファ24からネットワークを介して送信された符号ストリームを,送信元のクライアントのクライアントIDと対応付けて格納する。ヘッダ更新処理部12のストリーム入力部14は,受信バッファ11からクライアントIDとVP単位の符号化ストリームを受け取る。MB番号決定部15は,クライアントIDに基づいてVPヘッダ内の変更後のMB番号を決定する。   The reception buffer 11 of the server device 1 stores the code stream transmitted from the transmission buffer 24 of each client terminal 2 via the network in association with the client ID of the transmission source client. The stream input unit 14 of the header update processing unit 12 receives the client ID and the encoded stream in VP units from the reception buffer 11. The MB number determination unit 15 determines the changed MB number in the VP header based on the client ID.

また,ヘッダ更新処理部12のヘッダ/MB番号変更部16は,ヘッダがVOPヘッダである場合,クライアントIDに応じてそれをVPヘッダに書き換え,またVPヘッダ内のMB番号を上記変更後のMB番号に変更する。ストリーム出力部17は,MB番号が変更されたVP単位の符号化ストリームを順次,送信バッファ13に転送する。   In addition, when the header is a VOP header, the header / MB number changing unit 16 of the header update processing unit 12 rewrites it into a VP header according to the client ID, and changes the MB number in the VP header to the MB after the change Change to a number. The stream output unit 17 sequentially transfers the encoded stream of VP units whose MB numbers have been changed to the transmission buffer 13.

その結果,複数のクライアントの各VP単位の符号化ストリームが合成ストリームとして,送信バッファ13からネットワークを介して各クライアント端末2へ配信される。   As a result, the encoded stream of each VP unit of a plurality of clients is distributed as a composite stream from the transmission buffer 13 to each client terminal 2 via the network.

クライアント端末2においては,サーバ装置1から送信された合成ストリームが受信バッファ25に格納される。復号部26は,受信バッファ25に格納された合成ストリームをVP単位で順次復号し,表示制御部27が,ディスプレイ22の表示画面中の,VPヘッダ内に格納されたMB番号に対応する位置に復号画像を表示する。   In the client terminal 2, the composite stream transmitted from the server device 1 is stored in the reception buffer 25. The decoding unit 26 sequentially decodes the composite stream stored in the reception buffer 25 in units of VP, and the display control unit 27 is located at a position corresponding to the MB number stored in the VP header in the display screen of the display 22. Display the decoded image.

図3は,各クライアント端末によって設定されるVOPヘッダとVPヘッダを示す図である。一般に,VPはVOP(Video Object Plane)を任意の数のMB毎に区切った単位をいうが,本発明の実施の形態では,例えば,図3に示すようなN個のMBの符号化情報が並んだ1ラインにVPヘッダ(第1番目のVPについてはVOPヘッダ)が付与されたデータをVPの単位とし,各クライアント端末2からはM個のVPからなるVOPが符号化ストリームとして送信されるものとする。   FIG. 3 is a diagram showing a VOP header and a VP header set by each client terminal. In general, VP is a unit obtained by dividing a VOP (Video Object Plane) into an arbitrary number of MBs. In the embodiment of the present invention, for example, encoding information of N MBs as shown in FIG. Data with a VP header (VOP header for the first VP) attached to one line is used as a VP unit, and each client terminal 2 transmits a VOP consisting of M VPs as an encoded stream. Shall.

図3に示すように,第1番目のVPにおいて,第0番目〜第N−1番目までのN個のMBの符号化情報の前には,VOP全体を復号するための情報が格納されたVOPヘッダが付与される。第2番目のVPにおいて,第N番目から2N−1番目までのN個のMBの符号化情報の前には,VP(N)というVPヘッダが付与される。   As shown in FIG. 3, in the first VP, information for decoding the entire VOP is stored before the encoded information of the Nth MBs from the 0th to the (N-1) th. A VOP header is added. In the second VP, a VP header of VP (N) is added before the encoded information of N MBs from the Nth to the 2N−1th.

VPヘッダの括弧内の数字は,VP中のN個のMBの先頭MBのシーケンス番号(MB番号)を示す。第2番目のVP中の先頭MBは第N番目のMBなので,第2番目のVPのVPヘッダには,「N」という値のMB番号が格納される。同様に,第M番目のVPのVPヘッダには,「(M−1)N」という値のMB番号が格納される。   The number in parentheses of the VP header indicates the sequence number (MB number) of the first MB of the N MBs in the VP. Since the first MB in the second VP is the Nth MB, the MB number having a value of “N” is stored in the VP header of the second VP. Similarly, an MB number having a value of “(M−1) N” is stored in the VP header of the Mth VP.

図4は,各クライアント端末に表示される合成ストリームの復号画像の例を示す図であり,図5は,図4に示す復号画像中の各MBのMB番号を示す図である。また,図6は,図4,図5に示すようなレイアウトで復号画像を構成するための,各クライアントから送信されるVP単位の符号化ストリームのヘッダの更新情報を示す図である。   FIG. 4 is a diagram illustrating an example of a decoded image of a composite stream displayed on each client terminal, and FIG. 5 is a diagram illustrating an MB number of each MB in the decoded image illustrated in FIG. FIG. 6 is a diagram showing update information of the header of the encoded stream in VP units transmitted from each client for constituting a decoded image with the layouts shown in FIGS. 4 and 5.

クライアントA〜クライアントDから送信されたN×M個のMBの符号化情報を含む符号化ストリームの復号画像を,図4,図5に示すレイアウトで合成ストリームの復号画像中に配置する場合を例にとって説明する。ここで,各クライアントから送信される画像サイズと合成ストリームの復号画像の画像サイズは,各クライアント端末2とサーバ装置1とのセッション確立時に決めておくものとする。   An example in which the decoded image of the encoded stream including the encoded information of N × M MBs transmitted from the client A to the client D is arranged in the decoded image of the composite stream with the layout shown in FIGS. I will explain to you. Here, the image size transmitted from each client and the image size of the decoded image of the composite stream are determined when a session between each client terminal 2 and the server apparatus 1 is established.

また,サーバ装置1は,各クライアントを一意に識別するクライアントIDと各クライアントの画像の配置位置との対応情報である配置位置情報を生成して保持しておく。この配置位置情報は,クライアント名,クライアントID,配置位置,画像サイズ(MB数)といったデータ項目からなる。   Further, the server device 1 generates and holds arrangement position information that is correspondence information between a client ID for uniquely identifying each client and the arrangement position of the image of each client. This arrangement position information includes data items such as a client name, a client ID, an arrangement position, and an image size (number of MBs).

図4に示すように,クライアントAの画像を表示画面全体の左上に配置し,クライアントBの画像を表示画面全体の右上に配置し,クライアントCの画像を表示画面全体の左下に配置し,クライアントDの画像を表示画面全体の右下に配置する例では,サーバ装置1は,図7に示すような配置位置情報を保持している。配置位置は,座標情報でもよい。   As shown in FIG. 4, the image of client A is arranged at the upper left of the entire display screen, the image of client B is arranged at the upper right of the entire display screen, and the image of client C is arranged at the lower left of the entire display screen. In the example in which the image D is arranged at the lower right of the entire display screen, the server apparatus 1 holds arrangement position information as shown in FIG. The arrangement position may be coordinate information.

また,サーバ装置1のヘッダ更新処理部12は,上記配置位置情報に基づいて,例えば図6に示すヘッダの更新情報を生成して保持しておく。ヘッダの更新情報は,例えば,クライアントIDごとの変更前ヘッダ情報と変更後ヘッダ情報との対応情報である。変更前ヘッダ情報は,各クライアントから送信される符号化ストリームのヘッダの種類(VOPヘッダの場合)またはVPヘッダ内に格納されているMB番号情報であり,これらに対応して,変更後ヘッダ情報の項目として,変更後のMB番号情報が格納されている。なお,ヘッダの更新情報をテーブル化して持つのではなく,その都度,所定の算出式によって求めるようにしてもよい。   Further, the header update processing unit 12 of the server device 1 generates and holds, for example, header update information shown in FIG. 6 based on the arrangement position information. The header update information is, for example, correspondence information between pre-change header information and post-change header information for each client ID. The header information before change is the type of the header of the encoded stream transmitted from each client (in the case of the VOP header) or the MB number information stored in the VP header. As the item, MB number information after the change is stored. Instead of having the header update information in the form of a table, it may be obtained by a predetermined calculation formula each time.

図6に示すヘッダの更新情報について詳述する。クライアントID=1のクライアントAの画像は,表示画面全体の左上に配置されるので,クライアントAから送信された符号化ストリ−ムのヘッダがVOPヘッダである場合には,変更後ヘッダ情報を「そのまま」とする。   The header update information shown in FIG. 6 will be described in detail. Since the image of client A with client ID = 1 is arranged at the upper left of the entire display screen, if the header of the encoded stream transmitted from client A is a VOP header, the header information after change is changed to “ “As is”.

クライアントAから送信されたVPのVPヘッダ内に格納されたMB番号が「N」の場合,図5に示すように,このVPの先頭MBの復号画像中のMB番号は「2N」であることから,対応する変更後ヘッダ情報を「2N」とする。   When the MB number stored in the VP header of the VP transmitted from the client A is “N”, the MB number in the decoded image of the first MB of this VP is “2N” as shown in FIG. Therefore, the corresponding post-change header information is set to “2N”.

また,例えば,クライアントBの画像は,表示画面全体の右上に配置されるので,クライアントBから送信された符号化ストリームのヘッダがVOPヘッダである場合には,変更後ヘッダ情報を「VP(N)」とする。このVPヘッダに格納されるMB番号を「N」とするのは,図5に示すように,このVPの先頭MBの復号画像中のMB番号が「N」であるからである。   Further, for example, since the image of the client B is arranged at the upper right of the entire display screen, when the header of the encoded stream transmitted from the client B is a VOP header, the header information after change is set to “VP (N ) ”. The reason why the MB number stored in this VP header is “N” is that the MB number in the decoded image of the first MB of this VP is “N” as shown in FIG.

同様の方法で,サーバ装置1のヘッダ更新処理部12は,各クライアントから送信される符号化ストリームのヘッダの更新情報を生成し,保持する。   In the same way, the header update processing unit 12 of the server apparatus 1 generates and holds update information of the header of the encoded stream transmitted from each client.

図8は,ヘッダ更新処理部12の処理フローの例を示す図である。ヘッダ更新処理部12は,受信バッファ11からクライアントIDとVP単位の符号化ストリームを受け取ると(ステップS1),クライアントIDに基づいて,図6に示すヘッダの更新情報を参照して,対応する変更後ヘッダ情報を決定する(ステップS2)。具体的には,変更後のVPヘッダ内に格納するMB番号を決定する。   FIG. 8 is a diagram illustrating an example of a processing flow of the header update processing unit 12. When the header update processing unit 12 receives the client ID and the encoded stream of VP units from the reception buffer 11 (step S1), the header update processing unit 12 refers to the update information of the header shown in FIG. Post header information is determined (step S2). Specifically, the MB number to be stored in the changed VP header is determined.

次に,VOPヘッダ/VPヘッダを検索する。VOPヘッダであるかVPヘッダであるかはビットパターンの違いによって判別することができる(ステップS3)。符号化ストリームのヘッダがVOPヘッダかVPヘッダかを判断し(ステップS4),VOPヘッダである場合には,復号画像が表示画面全体の左上に表示されるクライアントが送信した符号化ストリームであるかを判断する(ステップS5)。例えば,復号画像が左上に表示されるクライアントID=1のクライアントAが送信元かを判断する。   Next, the VOP header / VP header is searched. Whether the header is a VOP header or a VP header can be determined by a difference in bit pattern (step S3). It is determined whether the header of the encoded stream is a VOP header or a VP header (step S4). If the header is a VOP header, whether the decoded image is an encoded stream transmitted by a client displayed at the upper left of the entire display screen. Is determined (step S5). For example, it is determined whether or not the client A with client ID = 1 whose decoded image is displayed on the upper left is the transmission source.

復号画像が表示画面全体の左上に表示されるクライアントが送信元である場合には,VP単位で送信バッファ13に渡す(ステップS7)。例えば,送信元がクライアントID=1のクライアントAである場合,図6に示すように,変更前ヘッダ情報「VOPヘッダ」に対応する変更後ヘッダ情報は「そのまま」であるので,ヘッダ情報を変更しないでVP単位で送信バッファ13に渡す。   If the client whose decoded image is displayed at the upper left of the entire display screen is the transmission source, it is transferred to the transmission buffer 13 in units of VP (step S7). For example, when the transmission source is the client A with the client ID = 1, the header information after the change corresponding to the header information “VOP header” before the change is “as is” as shown in FIG. Instead, the data is passed to the transmission buffer 13 in units of VP.

ステップS5において,復号画像が表示画面全体の左上に表示されるクライアントが送信元でない場合には,VOPヘッダをVPヘッダに変更し,ステップS2で決定された変更後のMB番号をVPヘッダ内に格納し(ステップS6),ステップS7へ進む。例えば,送信元がクライアントID=3のクライアントCである場合,図6に示すヘッダの更新情報において,変更前ヘッダ情報「VOPヘッダ」に対応する変更後ヘッダ情報は「VP(2MN)」であるので,VPヘッダ内にMB番号「2MN」を格納する。   In step S5, if the client whose decoded image is displayed at the upper left of the entire display screen is not the transmission source, the VOP header is changed to the VP header, and the changed MB number determined in step S2 is included in the VP header. Store (step S6) and proceed to step S7. For example, when the transmission source is the client C with the client ID = 3, the post-change header information corresponding to the pre-change header information “VOP header” in the header update information illustrated in FIG. 6 is “VP (2MN)”. Therefore, the MB number “2MN” is stored in the VP header.

ステップS4において,符号化ストリームのヘッダがVOPヘッダでなく,VPヘッダである場合には,VPヘッダ内のMB番号をステップS2で決定された変更後のMB番号に変更し(ステップS8),ステップS7へ進む。   In step S4, if the header of the encoded stream is not a VOP header but a VP header, the MB number in the VP header is changed to the changed MB number determined in step S2 (step S8). Proceed to S7.

例えば,送信元のクライアントがクライアントID=1のクライアントAであって,受け取ったVPのVPヘッダ内のMB番号が2Nである場合,図6に示すヘッダの更新情報に示すように,対応する変更後ヘッダ情報は「4N」である。従って,VPのVPヘッダ内のMB番号を「4N」に変更する。   For example, if the source client is client A with client ID = 1 and the MB number in the VP header of the received VP is 2N, the corresponding change is made as shown in the header update information shown in FIG. The rear header information is “4N”. Therefore, the MB number in the VP VP header is changed to “4N”.

図9は,各クライアント端末における復号画像更新処理を説明する図である。図9(A)は,各クライアント端末2がサーバ装置1から受信した,複数のVPから構成される合成ストリームの例であり,図9(B)は,表示画面全体中における各VPの復号画像の配置を示す図である。   FIG. 9 is a diagram for explaining decoded image update processing in each client terminal. FIG. 9A shows an example of a composite stream composed of a plurality of VPs received by each client terminal 2 from the server device 1, and FIG. 9B shows a decoded image of each VP in the entire display screen. It is a figure which shows arrangement | positioning.

図9(A)に示す合成ストリームを構成する各VPには,サーバ装置1によって変更されたヘッダの情報が付与されている。図9(A)に示す例では,例えば,第1番目のVPにはVOPヘッダの情報が付与されており,第2番目のVPにはMB番号「2N」,第3番目のVPにはMB番号「N」というVPヘッダの情報が付与されている。   Information of the header changed by the server device 1 is given to each VP constituting the composite stream shown in FIG. In the example shown in FIG. 9A, for example, VOP header information is assigned to the first VP, the MB number “2N” is assigned to the second VP, and the MB is assigned to the third VP. The information of the VP header with the number “N” is given.

サーバ装置1から図9(A)に示す合成ストリームを受信した各クライアント端末2は,VP単位で順次復号し,復号されたVP単位の復号画像を,各VPのヘッダの情報が示す表示位置に表示する。例えば,VOPヘッダというヘッダ情報が付与されているVPの復号画像は,図9(B)に示す表示画面中の最も左上の位置(図中の(1)の位置)に配置され,MB番号「2N」というVPヘッダの情報が付与されているVPの復号画像は,その先頭のMBが全MBを通じて2N番目のMBとなる位置(図中の(3)の位置)に配置される。   Each client terminal 2 that has received the composite stream shown in FIG. 9A from the server device 1 sequentially decodes in units of VP, and the decoded image in units of VP is displayed at the display position indicated by the information of the header of each VP. indicate. For example, a decoded image of a VP to which header information called a VOP header is assigned is arranged at the upper left position (position (1) in the figure) in the display screen shown in FIG. The decoded image of the VP to which the VP header information of “2N” is assigned is arranged at a position (position (3) in the figure) where the leading MB becomes the 2N-th MB through all MBs.

同様にして,MB番号「N」というVPヘッダの情報が付与されているVPの復号画像は,図中の(2)の位置に配置され,MB番号「3N」というVPヘッダの情報が付与されているVPの復号画像は,図中の(4)の位置に配置される。   Similarly, the decoded image of the VP to which the VP header information with the MB number “N” is assigned is arranged at the position (2) in the figure, and the VP header information with the MB number “3N” is given. The decoded image of the VP is arranged at the position (4) in the figure.

各クライアント端末2からサーバ装置1へアップロードされる符号化ストリームのフレームレートが異なる場合には,復号画像の表示において頻繁に更新される領域と更新頻度が少ない領域とが生じることがあるが,画像全体としての表示が乱れるわけではないので問題が生じることはない。   When the frame rate of the encoded stream uploaded from each client terminal 2 to the server device 1 is different, an area that is frequently updated and an area that is less frequently updated in the display of the decoded image may occur. There is no problem because the display as a whole is not disturbed.

図10は,本発明の他の実施の形態の多地点テレビ会議システムの構成例を示す図である。図1に示す構成に加えて,各クライアント端末2は,画像選択指示部28を持つ。また,サーバ装置1は,画像選択情報受信部18と,ストリーム選択・切替え部19とを持つ。   FIG. 10 is a diagram illustrating a configuration example of a multipoint video conference system according to another embodiment of the present invention. In addition to the configuration shown in FIG. 1, each client terminal 2 has an image selection instruction unit 28. The server device 1 also includes an image selection information receiving unit 18 and a stream selection / switching unit 19.

クライアント端末2の画像選択指示部28は,複数のクライアントの画像を合成した合成ストリームを受信するか,特定のクライアントの単独の画像を受信するかを,ユーザからの指示情報の入力によって決定し,その画像選択情報をサーバ装置1の画像選択情報受信部18へ送る。デフォルトは例えば合成ストリームであり,合成ストリームを復号して表示した画像において,ユーザが特定のクライアントの画像をマウス等のポインティングデバイスによってクリックすると,そのクライアントの画像の選択情報が,画像選択指示部28からサーバ装置1へ送られる。   The image selection instruction unit 28 of the client terminal 2 determines whether to receive a combined stream obtained by combining images of a plurality of clients or to receive a single image of a specific client by inputting instruction information from the user, The image selection information is sent to the image selection information receiving unit 18 of the server device 1. The default is, for example, a composite stream. When the user clicks a specific client image with a pointing device such as a mouse in an image displayed by decoding the composite stream, the selection information of the client image is displayed in the image selection instruction unit 28. To the server device 1.

また,特定のクライアントの画像が表示されている状態で,ユーザがクリックすると,画像選択指示部28から合成ストリーム(合成画像)の画像選択情報がサーバ装置1へ送られる。   Further, when the user clicks in a state where an image of a specific client is displayed, image selection information of a composite stream (composite image) is sent from the image selection instruction unit 28 to the server device 1.

サーバ装置1におけるストリーム選択・切替え部19は,合成ストリームが選択されている場合には,ヘッダ更新処理部12によって各クライアントの符号化ストリームから生成した合成ストリームを,送信バッファ13およびネットワークを介してクライアント端末2へ配信する。   When the composite stream is selected, the stream selection / switching unit 19 in the server device 1 transmits the composite stream generated from the encoded stream of each client by the header update processing unit 12 via the transmission buffer 13 and the network. Delivered to the client terminal 2.

また,画像選択情報受信部18が,特定のクライアントの画像選択情報を受信した場合には,その画像選択情報によってストリーム選択・切替え部19を制御し,ストリーム選択・切替え部19は,そのクライアントのクライアントIDに対応する受信バッファ11に格納された符号化ストリームをそのまま送信バッファ13に出力する。これによって,クライアント端末2には,選択された特定のクライアントの画像だけが表示される。   Further, when the image selection information receiving unit 18 receives image selection information of a specific client, the stream selection / switching unit 19 is controlled by the image selection information, and the stream selection / switching unit 19 The encoded stream stored in the reception buffer 11 corresponding to the client ID is output to the transmission buffer 13 as it is. As a result, only the image of the selected specific client is displayed on the client terminal 2.

なお,図10に示すサーバ装置1において,画像選択情報受信部18とストリーム選択・切替え部19と送信バッファ13とを,会議に参加するクライアントの数だけ複数組設けるようにすれば,各クライアント端末2ごとにディスプレイ22に合成画像を表示させるか特定のクライアントの画像を表示させるかを,個別に選択することができるようになる。   In the server device 1 shown in FIG. 10, if a plurality of sets of the image selection information receiving unit 18, the stream selection / switching unit 19, and the transmission buffer 13 are provided for each client participating in the conference, each client terminal is provided. It is possible to individually select whether to display a composite image or a specific client image every two.

以上のサーバ装置1およびクライアント端末2が行う処理は,ハードウェアやファームウェアによって実現することができるだけでなく,コンピュータとソフトウェアプログラムとによっても実現することができ,そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも,ネットワークを通して提供することも可能である。   The processes performed by the server device 1 and the client terminal 2 can be realized not only by hardware and firmware but also by a computer and a software program, and the program can be stored on a computer-readable recording medium. It can be recorded and provided through a network.

本発明に係る多地点テレビ会議システムの構成例を示す図である。It is a figure which shows the structural example of the multipoint video conference system which concerns on this invention. クライアント端末の符号化部の詳細を示す図である。It is a figure which shows the detail of the encoding part of a client terminal. 各クライアント端末によって設定されるVOPヘッダとVPヘッダを示す図である。It is a figure which shows the VOP header and VP header which are set by each client terminal. 合成ストリームの復号画像の例を示す図である。It is a figure which shows the example of the decoded image of a synthetic | combination stream. 復号画像中の各MBのMB番号を示す図である。It is a figure which shows MB number of each MB in a decoded image. ヘッダの更新情報を示す図である。It is a figure which shows the update information of a header. 配置位置情報を示す図である。It is a figure which shows arrangement position information. ヘッダ更新処理部の処理フローの例を示す図である。It is a figure which shows the example of the processing flow of a header update process part. 各クライアント端末における復号画像生成処理を説明する図である。It is a figure explaining the decoded image generation process in each client terminal. 本発明の他の実施の形態の構成例を示す図である。It is a figure which shows the structural example of other embodiment of this invention. 従来の多地点テレビ会議システムの例を示す図である。It is a figure which shows the example of the conventional multipoint video conference system. 従来の他の多地点テレビ会議システムの例を示す図である。It is a figure which shows the example of the other conventional multipoint video conference system.

符号の説明Explanation of symbols

1,100,120 サーバ装置
2,110a〜110z,130a〜130z クライアント端末
11,25,101a〜101z,121a〜121z,135 受信バッファ
12 ヘッダ更新処理部
13,24,105,122a〜122z,134 送信バッファ
14 ストリーム入力部
15 MB番号決定部
16 ヘッダ/MB番号変更部
17 ストリーム出力部
18 画像選択情報受信部
19 ストリーム選択・切替え部
21,131a〜131z カメラ
22,132a〜132z ディスプレイ
23,133 符号化部
26,102a〜102z,136 復号部
27 表示制御部
28 画像選択指示部
103,137 画像合成部
104 再符号化部
231 減算部
232 DCT部
233 量子化部
234 逆量子化部
235 逆DCT部
236 加算部
237 フレームメモリ
238 動き予測部
239 動き補償部
240 可変長符号化部
241 符号量制御部
DESCRIPTION OF SYMBOLS 1,100,120 Server apparatus 2,110a-110z, 130a-130z Client terminal 11,25,101a-101z, 121a-121z, 135 Reception buffer 12 Header update process part 13,24,105,122a-122z, 134 Transmission Buffer 14 Stream input unit 15 MB number determination unit 16 Header / MB number change unit 17 Stream output unit 18 Image selection information reception unit 19 Stream selection / switching unit 21, 131a to 131z Camera 22, 132a to 132z Display 23, 133 Coding Unit 26, 102a to 102z, 136 decoding unit 27 display control unit 28 image selection instruction unit 103, 137 image synthesis unit 104 re-encoding unit 231 subtraction unit 232 DCT unit 233 quantization unit 234 inverse quantization unit 235 inverse DCT unit 23 6 Adder 237 Frame memory 238 Motion predictor 239 Motion compensator 240 Variable length encoder 241 Code amount controller

Claims (6)

複数のクライアント端末と,前記クライアント端末にネットワークを介して接続され,前記クライアント端末間の通信会議を制御するサーバ装置とを備える多地点テレビ会議システムにおいて,
前記各クライアント端末は,
自端末における入力映像のフレームをブロック単位で符号化し,所定数のブロックの符号化データ群に対して,フレームの先頭には第1のヘッダを付与し,フレームの先頭以外の符号化データ群に対しては前記ブロックの位置を示す情報を含む第2のヘッダを付与した符号化ストリームを生成する手段と,
生成した符号化ストリームを前記サーバ装置へ送信する手段と,
前記サーバ装置から符号化ストリームを受信する手段と,
受信した符号化ストリームを復号する手段と,
復号した画像を表示する手段とを備え,
前記サーバ装置は,
前記各クライアント端末から符号化ストリームを受信する手段と,
前記各クライアント端末から受信した符号化ストリームを,前記第1のヘッダまたは前記第2のヘッダが付与された単位で解析し,あらかじめ定められたクライアントとその画像の表示位置との関係情報に基づいて,前記第1のヘッダを前記第2のヘッダに書き換える処理または前記第2のヘッダ内のマクロブロックの位置を示す情報を該当する表示位置に変更する処理を実行することにより,前記各クライアント端末から受信した符号化ストリームを合成した符号化ストリームを生成するヘッダ更新処理手段と,
前記ヘッダ更新処理手段によって合成した符号化ストリームを前記各クライアント端末へ送信する手段とを備える
ことを特徴とする多地点テレビ会議システム。
In a multipoint video conference system comprising a plurality of client terminals and a server device connected to the client terminals via a network and controlling a communication conference between the client terminals,
Each of the client terminals is
A frame of an input video in its own terminal is encoded in units of blocks, and a first header is added to the beginning of the frame for an encoded data group of a predetermined number of blocks, and an encoded data group other than the head of the frame is assigned to the encoded data group. On the other hand, means for generating an encoded stream provided with a second header including information indicating the position of the block;
Means for transmitting the generated encoded stream to the server device;
Means for receiving an encoded stream from the server device;
Means for decoding the received encoded stream;
Means for displaying the decoded image,
The server device
Means for receiving an encoded stream from each of the client terminals;
The encoded stream received from each client terminal is analyzed in units to which the first header or the second header is added, and based on relationship information between a predetermined client and the display position of the image. , By executing a process of rewriting the first header with the second header or a process of changing the information indicating the position of the macroblock in the second header to the corresponding display position. Header update processing means for generating an encoded stream obtained by synthesizing the received encoded stream;
Means for transmitting the encoded stream synthesized by the header update processing means to each of the client terminals.
請求項1記載の多地点テレビ会議システムにおいて,
前記クライアント端末は,
複数のクライアントの画像を合成した画像を表示するか特定のクライアントの画像を表示するかを選択し,その画像選択情報を前記サーバ装置へ送信する手段を備え,
前記サーバ装置は,
前記画像選択情報を受信する手段と,
受信した画像選択情報に基づき,前記ヘッダ更新処理手段により合成した符号化ストリームまたは特定のクライアント端末から受信した符号化ストリームのいずれかを選択して,前記クライアント端末へ送信する手段とを備える
ことを特徴とする多地点テレビ会議システム。
In the multipoint video conference system according to claim 1,
The client terminal is
A means for selecting whether to display an image composed of a plurality of client images or a specific client image, and to transmit the image selection information to the server device;
The server device
Means for receiving the image selection information;
Means for selecting either the encoded stream synthesized by the header update processing means or the encoded stream received from a specific client terminal based on the received image selection information, and transmitting the selected stream to the client terminal. A featured multipoint video conference system.
複数のクライアント端末と,前記クライアント端末にネットワークを介して接続され,前記クライアント端末間の通信会議を制御するサーバ装置とを備えるシステムにおける多地点テレビ会議制御方法において,
前記クライアント端末が,自端末における入力映像のフレームをブロック単位で符号化し,所定数のブロックの符号化データ群に対して,フレームの先頭には第1のヘッダを付与し,フレームの先頭以外の符号化データ群に対しては前記ブロックの位置を示す情報を含む第2のヘッダを付与した符号化ストリームを生成する過程と,
前記各クライアント端末が,生成した符号化ストリームを前記サーバ装置へ送信する過程と,
前記サーバ装置が,前記各クライアント端末から符号化ストリームを受信する過程と,
前記サーバ装置が,前記各クライアント端末から受信した符号化ストリームを,前記第1のヘッダまたは前記第2のヘッダが付与された単位で解析し,あらかじめ定められたクライアントとその画像の表示位置との関係情報に基づいて,前記第1のヘッダを前記第2のヘッダに書き換える処理または前記第2のヘッダ内のマクロブロックの位置を示す情報を該当する表示位置に変更する処理を実行することにより,前記各クライアント端末から受信した符号化ストリームを合成した符号化ストリームを生成するヘッダ更新処理過程と,
前記サーバ装置が,前記ヘッダ更新処理過程によって合成した符号化ストリームを前記各クライアント端末へ送信する過程と,
前記クライアント端末が,前記サーバ装置から符号化ストリームを受信する過程と,
前記クライアント端末が,受信した符号化ストリームを復号する過程と,
前記クライアント端末が,復号した画像を表示する過程とを有する
ことを特徴とする多地点テレビ会議制御方法。
In a multipoint video conference control method in a system comprising a plurality of client terminals and a server device connected to the client terminals via a network and controlling a communication conference between the client terminals,
The client terminal encodes an input video frame in its own terminal in units of blocks, and assigns a first header to the beginning of the frame for an encoded data group of a predetermined number of blocks. A process of generating an encoded stream with a second header including information indicating the position of the block for the encoded data group;
Each client terminal transmits the generated encoded stream to the server device;
A process in which the server device receives an encoded stream from each of the client terminals;
The server device analyzes the encoded stream received from each of the client terminals in a unit to which the first header or the second header is added, and determines a predetermined client and its image display position. Based on the relationship information, by executing a process of rewriting the first header to the second header or a process of changing information indicating the position of the macroblock in the second header to a corresponding display position, A header update process for generating an encoded stream obtained by combining the encoded streams received from the client terminals;
A process in which the server device transmits an encoded stream synthesized by the header update process to each client terminal;
A process in which the client terminal receives an encoded stream from the server device;
A process in which the client terminal decodes the received encoded stream;
The multi-point video conference control method characterized in that the client terminal includes a process of displaying a decoded image.
複数のクライアント端末にネットワークを介して接続され,前記クライアント端末間の通信会議を制御する多地点テレビ会議システムにおけるサーバ装置であって,
前記各クライアント端末から,自端末における入力映像のフレームをブロック単位で符号化し,所定数のブロックの符号化データ群に対して,フレームの先頭には第1のヘッダを付与し,フレームの先頭以外の符号化データ群に対しては前記ブロックの位置を示す情報を含む第2のヘッダを付与した符号化ストリームを受信する手段と,
前記各クライアント端末から受信した符号化ストリームを,前記第1のヘッダまたは前記第2のヘッダが付与された単位で解析し,あらかじめ定められたクライアントとその画像の表示位置との関係情報に基づいて,前記第1のヘッダを前記第2のヘッダに書き換える処理または前記第2のヘッダ内のマクロブロックの位置を示す情報を該当する表示位置に変更する処理を実行することにより,前記各クライアント端末から受信した符号化ストリームを合成した符号化ストリームを生成するヘッダ更新処理手段と,
前記ヘッダ更新処理手段によって合成した符号化ストリームを前記各クライアント端末へ送信する手段とを備える
ことを特徴とするサーバ装置。
A server device in a multipoint video conference system that is connected to a plurality of client terminals via a network and controls a communication conference between the client terminals,
Each client terminal encodes the frame of the input video in its own terminal in units of blocks, and adds a first header to the head of the frame for the encoded data group of a predetermined number of blocks, except for the head of the frame. Means for receiving an encoded stream with a second header including information indicating the position of the block for the encoded data group;
The encoded stream received from each client terminal is analyzed in units to which the first header or the second header is added, and based on relationship information between a predetermined client and the display position of the image. , By executing a process of rewriting the first header with the second header or a process of changing the information indicating the position of the macroblock in the second header to the corresponding display position. Header update processing means for generating an encoded stream obtained by synthesizing the received encoded stream;
Means for transmitting the encoded stream synthesized by the header update processing means to each of the client terminals.
複数のクライアント端末にネットワークを介して接続され,前記クライアント端末間の通信会議を制御する多地点テレビ会議システムにおけるサーバ装置のコンピュータに実行させるための多地点テレビ会議制御プログラムであって,
前記各クライアント端末から,自端末における入力映像のフレームをブロック単位で符号化し,所定数のブロックの符号化データ群に対して,フレームの先頭には第1のヘッダを付与し,フレームの先頭以外の符号化データ群に対しては前記ブロックの位置を示す情報を含む第2のヘッダを付与した符号化ストリームを受信する手段と,
前記各クライアント端末から受信した符号化ストリームを,前記第1のヘッダまたは前記第2のヘッダが付与された単位で解析し,あらかじめ定められたクライアントとその画像の表示位置との関係情報に基づいて,前記第1のヘッダを前記第2のヘッダに書き換える処理または前記第2のヘッダ内のマクロブロックの位置を示す情報を該当する表示位置に変更する処理を実行することにより,前記各クライアント端末から受信した符号化ストリームを合成した符号化ストリームを生成するヘッダ更新処理手段と,
前記ヘッダ更新処理手段によって合成した符号化ストリームを前記各クライアント端末へ送信する手段として,
前記コンピュータを機能させるための多地点テレビ会議制御プログラム。
A multipoint video conference control program for causing a computer of a server device in a multipoint video conference system connected to a plurality of client terminals via a network to control a communication conference between the client terminals,
Each client terminal encodes the frame of the input video in its own terminal in units of blocks, and adds a first header to the head of the frame for the encoded data group of a predetermined number of blocks, except for the head of the frame. Means for receiving an encoded stream with a second header including information indicating the position of the block for the encoded data group;
The encoded stream received from each client terminal is analyzed in units to which the first header or the second header is added, and based on relationship information between a predetermined client and the display position of the image. , By executing a process of rewriting the first header with the second header or a process of changing information indicating the position of the macroblock in the second header to a corresponding display position. Header update processing means for generating an encoded stream obtained by synthesizing the received encoded stream;
As means for transmitting the encoded stream synthesized by the header update processing means to each client terminal,
A multipoint video conference control program for causing the computer to function.
複数のクライアント端末にネットワークを介して接続され,前記クライアント端末間の通信会議を制御する多地点テレビ会議システムにおけるサーバ装置のコンピュータに実行させるための多地点テレビ会議制御プログラムを記録したコンピュータ読み取り可能な記録媒体であって,
前記各クライアント端末から,自端末における入力映像のフレームをブロック単位で符号化し,所定数のブロックの符号化データ群に対して,フレームの先頭には第1のヘッダを付与し,フレームの先頭以外の符号化データ群に対しては前記ブロックの位置を示す情報を含む第2のヘッダを付与した符号化ストリームを受信する手段と,
前記各クライアント端末から受信した符号化ストリームを,前記第1のヘッダまたは前記第2のヘッダが付与された単位で解析し,あらかじめ定められたクライアントとその画像の表示位置との関係情報に基づいて,前記第1のヘッダを前記第2のヘッダに書き換える処理または前記第2のヘッダ内のマクロブロックの位置を示す情報を該当する表示位置に変更する処理を実行することにより,前記各クライアント端末から受信した符号化ストリームを合成した符号化ストリームを生成するヘッダ更新処理手段と,
前記ヘッダ更新処理手段によって合成した符号化ストリームを前記各クライアント端末へ送信する手段として,
前記コンピュータを機能させるためのプログラムを記録した
ことを特徴とする多地点テレビ会議制御プログラム記録媒体。
A computer-readable recording medium having a multipoint video conference control program connected to a plurality of client terminals via a network and recorded by a server computer in a multipoint video conference system for controlling a communication conference between the client terminals. A recording medium,
Each client terminal encodes the frame of the input video in its own terminal in units of blocks, and adds a first header to the head of the frame for the encoded data group of a predetermined number of blocks, except for the head of the frame. Means for receiving an encoded stream with a second header including information indicating the position of the block for the encoded data group;
The encoded stream received from each client terminal is analyzed in units to which the first header or the second header is added, and based on relationship information between a predetermined client and the display position of the image. , By executing a process of rewriting the first header with the second header or a process of changing information indicating the position of the macroblock in the second header to a corresponding display position. Header update processing means for generating an encoded stream obtained by synthesizing the received encoded stream;
As means for transmitting the encoded stream synthesized by the header update processing means to each client terminal,
A multipoint video conference control program recording medium, wherein a program for causing the computer to function is recorded.
JP2004158494A 2004-05-28 2004-05-28 Multi-point video conference system, multi-point video conference control method, server apparatus, multi-point video conference control program, and program recording medium thereof Pending JP2005341325A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004158494A JP2005341325A (en) 2004-05-28 2004-05-28 Multi-point video conference system, multi-point video conference control method, server apparatus, multi-point video conference control program, and program recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004158494A JP2005341325A (en) 2004-05-28 2004-05-28 Multi-point video conference system, multi-point video conference control method, server apparatus, multi-point video conference control program, and program recording medium thereof

Publications (1)

Publication Number Publication Date
JP2005341325A true JP2005341325A (en) 2005-12-08

Family

ID=35494360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004158494A Pending JP2005341325A (en) 2004-05-28 2004-05-28 Multi-point video conference system, multi-point video conference control method, server apparatus, multi-point video conference control program, and program recording medium thereof

Country Status (1)

Country Link
JP (1) JP2005341325A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010178340A (en) * 2009-01-30 2010-08-12 Polycom Inc Method and system for conducting continuous presence conference
JP2012075030A (en) * 2010-09-29 2012-04-12 Kddi Corp Video distribution server and video reproduction terminal
JP2012099890A (en) * 2010-10-29 2012-05-24 Sony Corp Image processing device, image processing method, and image processing system
JP2015515190A (en) * 2012-03-13 2015-05-21 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Mixing encoded video streams
CN106658205A (en) * 2016-11-22 2017-05-10 广州华多网络科技有限公司 Studio video streaming synthesis control method, device and terminal equipment
JP2019501584A (en) * 2015-12-04 2019-01-17 スリング メディア,インク. Remotely controlled media studio
CN113824922A (en) * 2021-11-02 2021-12-21 共道网络科技有限公司 Audio and video stream control method and device based on internet court trial

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010178340A (en) * 2009-01-30 2010-08-12 Polycom Inc Method and system for conducting continuous presence conference
JP2012075030A (en) * 2010-09-29 2012-04-12 Kddi Corp Video distribution server and video reproduction terminal
JP2012099890A (en) * 2010-10-29 2012-05-24 Sony Corp Image processing device, image processing method, and image processing system
JP2015515190A (en) * 2012-03-13 2015-05-21 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Mixing encoded video streams
US9386066B2 (en) 2012-03-13 2016-07-05 Telefonaktiebolaget Lm Ericsson (Publ) Mixing of encoded video streams
US10715838B2 (en) 2015-12-04 2020-07-14 Sling Media L.L.C. Remote-controlled media studio
US11153613B2 (en) 2015-12-04 2021-10-19 Sling Media L.L.C. Remote-controlled media studio
JP2019501584A (en) * 2015-12-04 2019-01-17 スリング メディア,インク. Remotely controlled media studio
WO2018095174A1 (en) * 2016-11-22 2018-05-31 广州华多网络科技有限公司 Control method, device, and terminal apparatus for synthesizing video stream of live streaming room
CN106658205B (en) * 2016-11-22 2020-09-04 广州华多网络科技有限公司 Live broadcast room video stream synthesis control method and device and terminal equipment
CN106658205A (en) * 2016-11-22 2017-05-10 广州华多网络科技有限公司 Studio video streaming synthesis control method, device and terminal equipment
CN113824922A (en) * 2021-11-02 2021-12-21 共道网络科技有限公司 Audio and video stream control method and device based on internet court trial
CN113824922B (en) * 2021-11-02 2022-02-25 共道网络科技有限公司 Audio and video stream control method and device based on internet court trial

Similar Documents

Publication Publication Date Title
JP4389883B2 (en) Encoding apparatus, encoding method, encoding method program, and recording medium recording the encoding method program
US8125932B2 (en) Method and apparatus for continuously receiving images from a plurality of video channels and for alternately continuously transmitting to each of a plurality of participants in a video conference individual images containing information concerning each of said video channels
US20130083161A1 (en) Real-time video coding using graphics rendering contexts
CN101300840A (en) Multi-view video delivery
JP2018519723A (en) Video streaming apparatus, video stream, video streaming method, and computer program
AU2002355089A1 (en) Method and apparatus for continuously receiving frames from a pluarlity of video channels and for alternatively continuously transmitting to each of a plurality of participants in a video conference individual frames containing information concerning each of said video channels
EP1407604A1 (en) Method and apparatus for continuously receiving frames from a plurality of video channels and for alternatively continuously transmitting to each of a plurality of participants in a video conference individual frames containing information concerning each of said video channels
JP2000023198A (en) Compression encoder for multiaspect picture and extension decoder
US10666903B1 (en) Combining encoded video streams
JP4559976B2 (en) Video composition apparatus, video composition method, and video composition program
JP2005341325A (en) Multi-point video conference system, multi-point video conference control method, server apparatus, multi-point video conference control program, and program recording medium thereof
JP2007110348A (en) Moving picture coding apparatus, moving picture decoding apparatus, moving picture coding method, moving picture decoding method, moving picture coding program, and moving picture decoding program
CN111385515A (en) Video conference data transmission method and video conference data transmission system
KR101562789B1 (en) Method for both routing and switching multi-channel hd/uhd videos and the apparatus thereof
JP2005244898A (en) Apparatus for compositing video encoded data
JP2004537931A (en) Method and apparatus for encoding a scene
JP4081044B2 (en) Multi-point video conference system, multi-point video conference control method, server device, multi-point video conference control program, and program recording medium thereof
JP2002016926A (en) Sprite-encoded data transmission method, sprite encoder, sprite-encoded data decoder and storage medium
JP2000341587A (en) Device and method for image processing
JPH10262228A (en) Communication system, multi-point controller and video information display method
KR100275930B1 (en) Video sever which combines up to 4video streams into a single video stream to enable desktop video conferencing
JP2010091845A (en) Image display device
CN113938632B (en) Network video recorder cascading method, video recorder and storage medium
JPH08205115A (en) Screen compositing and encoding device
KR101492980B1 (en) Apparatus and method for processing multi-view images

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071023

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080311