JP2006304182A - Stream data generating method, video conference system, stream data generating device, and stream data compositing device - Google Patents
Stream data generating method, video conference system, stream data generating device, and stream data compositing device Download PDFInfo
- Publication number
- JP2006304182A JP2006304182A JP2005126542A JP2005126542A JP2006304182A JP 2006304182 A JP2006304182 A JP 2006304182A JP 2005126542 A JP2005126542 A JP 2005126542A JP 2005126542 A JP2005126542 A JP 2005126542A JP 2006304182 A JP2006304182 A JP 2006304182A
- Authority
- JP
- Japan
- Prior art keywords
- data
- video
- display
- area
- video signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は映像信号の処理に関する。より特定的には、本発明は、ストリームデータの生成方法、ならびにテレビ会議システム、ストリームデータの生成装置、およびストリームデータの合成装置に関する。 The present invention relates to video signal processing. More specifically, the present invention relates to a stream data generation method, a video conference system, a stream data generation apparatus, and a stream data synthesis apparatus.
通信回線を介した映像音声信号の通信の利用形態として、いわゆるテレビ会議システムがある。このシステムでは複数の映像信号が合成され、その合成された信号が当該システムを構成する各端末に配信される。各端末の使用者、すなわち、テレビ会議の参加者は、その信号に基づいて表示される映像および出力される音声を視聴することができる。ここで、映像信号の合成あるいは映像信号の符号化のための技術が、たとえば、以下のように開示されている(特許文献1〜3、非特許文献1参照)。 There is a so-called video conference system as a usage form of video / audio signal communication via a communication line. In this system, a plurality of video signals are combined, and the combined signals are distributed to each terminal constituting the system. A user of each terminal, that is, a participant in a video conference can view the video displayed and the audio output based on the signal. Here, techniques for synthesizing video signals or encoding video signals are disclosed, for example, as follows (see Patent Documents 1 to 3 and Non-Patent Document 1).
たとえば、非特許文献1に開示された技術によれば、高速演算アルゴリズムにより表示位置のフォーマット長を高速に演算することができる。また、処理は、ソフトウェアによる処理として実現可能であるため、PC(Personal Computer)レベルで実現することができる。したがって、特別のハードウェアを必要としないため、低コストでテレビ会議システムを実現することができる。
動画像の再生では、処理の対象となるデータ量が多いため、再生する端末が備える処理装置の能力の制約を受ける。たとえば非特許文献1に開示された技術によれば、可変長に拡張された表示位置フォーマットにもとづく映像信号のみを合成できるため、テレビ会議システムの汎用性を欠くという問題がある。また、高速処理を実行可能な処理装置を必要とするため、ハードウェア構成のコスト削減にも制限を受ける可能性がある。 In the reproduction of moving images, since the amount of data to be processed is large, the capacity of the processing device provided in the terminal to be reproduced is restricted. For example, according to the technique disclosed in Non-Patent Document 1, since only a video signal based on a display position format extended to a variable length can be synthesized, there is a problem that versatility of a video conference system is lacking. In addition, since a processing device capable of executing high-speed processing is required, there is a possibility that the cost reduction of the hardware configuration is limited.
本発明は、上述の問題点を解決するためになされたものであって、その目的は、処理対象が可変長フォーマットに基づく映像信号以外の映像信号でもテレビ会議システムを実現可能なストリームデータの生成方法を提供することである。 The present invention has been made to solve the above-described problems, and an object of the present invention is to generate stream data capable of realizing a video conference system even when a video signal other than a video signal based on a variable-length format is processed. Is to provide a method.
本発明の他の目的は、テレビ会議システムの運用時における映像の表示処理の遅延を防止できるストリームデータの生成方法を提供することである。 Another object of the present invention is to provide a stream data generation method capable of preventing a delay in video display processing during operation of a video conference system.
本発明の他の目的は、処理対象が可変長フォーマットに基づく映像信号以外の映像信号でも作動するテレビ会議システムを提供することである。 Another object of the present invention is to provide a video conference system that operates even on video signals other than video signals based on a variable length format.
本発明の他の目的は、テレビ会議システムの運用時における映像の表示処理の遅延を防止できるストリームデータを生成できるストリームデータの生成装置を提供することである。 Another object of the present invention is to provide a stream data generating apparatus capable of generating stream data capable of preventing delay of video display processing during operation of a video conference system.
本発明の他の目的は、処理対象が可変長フォーマットに基づく映像信号以外の映像信号でもテレビ会議システムを実現するためのストリームデータを生成するストリームデータの生成装置を提供することである。 Another object of the present invention is to provide a stream data generating apparatus that generates stream data for realizing a video conference system even when a video signal other than a video signal based on a variable length format is processed.
本発明の他の目的は、テレビ会議システムの運用時における映像の表示処理の遅延を防止できるストリームデータを生成できるストリームデータの合成装置を提供することである。 Another object of the present invention is to provide a stream data synthesizing apparatus capable of generating stream data capable of preventing delay of video display processing during operation of a video conference system.
上記の課題を解決するために、この発明のある局面に従うと、ストリームデータの生成方法は、通信回線に電気的に接続された複数の端末において、ストリームデータを生成するステップを備える。複数の端末の各々は映像信号に基づいて映像を表示領域に表示する表示手段を含む。ストリームデータを生成するステップは、映像信号の入力を受けるステップと、表示領域において予め定められた一部の領域を特定するための領域情報を準備するステップと、領域情報に基づいて映像信号を符号化することにより、映像信号に基づく映像を一部の領域に表示するための映像データを生成する生成ステップと、映像データの送信のためのデータを生成するステップと、送信のためのデータを通信回線に対して出力するステップとを含む。生成方法は、通信回線に電気的に接続された映像信号合成装置において、各々の端末から出力されたデータに基づいて映像信号を合成するステップをさらに備える。映像信号を合成するステップは、通信回線を介して、複数の端末の各々により出力された各々のストリームデータの入力を受けるステップを備える。各々のストリームデータは、表示領域の一部に映像を表示するために予め定められた位置に応じて符号化された映像データを含む。位置は、複数のストリームデータの各々に応じて異なる。当該合成するステップは、複数のストリームデータに基づいて、各々の映像データに基づく映像を表示領域にそれぞれ表示するための表示用データを生成する合成ステップと、生成された表示用データの送信のためのデータを生成するステップと、通信回線に、生成された送信のためのデータを出力するステップとを含む。ストリームデータの合成方法は、複数の端末の各々において、映像信号合成装置から、送信のためのデータに基づいて生成されたデータを受信するステップと、複数の端末の各々において、受信されたデータに基づいて復号処理を実行することにより表示用のデータを生成するステップと、複数の端末の各々において、表示用のデータに基づいて、表示手段に映像を表示させるステップとをさらに備える。 In order to solve the above-described problem, according to one aspect of the present invention, a stream data generation method includes a step of generating stream data in a plurality of terminals electrically connected to a communication line. Each of the plurality of terminals includes display means for displaying a video in a display area based on the video signal. The step of generating stream data includes a step of receiving an input of a video signal, a step of preparing region information for identifying a predetermined region in the display region, and a step of encoding the video signal based on the region information. The generation step of generating video data for displaying video based on the video signal in a partial area, the step of generating data for transmission of the video data, and the communication of the data for transmission And outputting to the line. The generation method further includes a step of synthesizing the video signal based on the data output from each terminal in the video signal synthesis device electrically connected to the communication line. The step of synthesizing the video signal includes a step of receiving each stream data output by each of the plurality of terminals via the communication line. Each stream data includes video data encoded in accordance with a predetermined position for displaying a video in a part of the display area. The position differs depending on each of the plurality of stream data. The synthesizing step includes a synthesizing step of generating display data for displaying video based on each video data in a display area based on a plurality of stream data, and transmission of the generated display data And a step of outputting the generated data for transmission to a communication line. A method of combining stream data includes a step of receiving data generated based on data for transmission from a video signal synthesizer in each of a plurality of terminals, and a method of converting received data in each of a plurality of terminals. The method further includes a step of generating display data by executing decoding processing based on the above, and a step of causing the display means to display an image based on the display data in each of the plurality of terminals.
好ましくは、生成ステップは、一部の領域に対応する映像信号の符号化を行なうことにより、映像データを生成する符号化ステップを含む。 Preferably, the generation step includes an encoding step for generating video data by encoding a video signal corresponding to a partial area.
好ましくは、符号化ステップは、一部の領域に対応する映像信号を動き補償の対象として符号化を実行する。 Preferably, in the encoding step, encoding is executed by using a video signal corresponding to a partial area as a target of motion compensation.
好ましくは、合成ステップは、複数のストリームデータの各々から、各々の映像データを抽出するステップと、抽出された映像データについて予め定められた位置に基づいて、抽出された映像データをそれぞれ合成することにより表示データを生成するステップとを含む。 Preferably, the synthesizing step extracts each video data from each of the plurality of stream data, and synthesizes the extracted video data based on a predetermined position with respect to the extracted video data. Generating display data.
この発明の他の局面に従うと、テレビ会議システムは、通信回線に電気的に接続された生成装置を備える。生成装置は、表示領域に映像を表示する表示手段と、表示領域において予め定められた一部の領域を特定するための領域情報を格納する記憶手段と、映像信号の入力を受ける入力手段と、領域情報に基づいて映像信号を符号化することにより、映像信号に基づく映像を一部の領域に表示するための映像データを生成する生成手段と、映像データの送信のためのデータを生成する送信データ生成手段と、通信回線に電気的に接続され、送信のためのデータを通信回線に対して出力する出力手段とを含む。テレビ会議システムは、通信回線に電気的に接続された映像信号合成装置をさらに備える。映像信号合成装置は、通信回線を介して、複数のストリームデータの入力を受ける入力手段を備える。複数のストリームデータの各々は、映像の表示領域の一部に映像を表示するために予め定められた位置に応じて符号化された映像データを含む。位置は、複数のストリームデータの各々に応じて異なる。映像信号合成装置は、複数のストリームデータに基づいて、各々の映像データに基づく映像を表示領域にそれぞれ表示するための表示用データを生成する合成手段と、合成手段により生成された表示用データの送信のためのデータを生成する送信データ生成手段と、通信回線に、生成された送信のためのデータを出力する出力手段とを含む。生成装置は、通信回線から、送信のためのデータに基づいて生成されたデータを受信する受信手段と、受信手段により受信されたデータに基づいて復号処理を実行することにより表示用のデータを生成する復号手段と、表示用のデータに基づいて、表示手段に映像を表示させる制御手段とをさらに含む。 According to another aspect of the present invention, a video conference system includes a generation device electrically connected to a communication line. The generation apparatus includes a display unit that displays a video in a display area, a storage unit that stores area information for specifying a predetermined area in the display area, an input unit that receives an input of a video signal, A generation means for generating video data for displaying video based on the video signal in a partial area by encoding the video signal based on the area information, and transmission for generating data for transmitting the video data Data generating means and output means electrically connected to the communication line and outputting data for transmission to the communication line. The video conference system further includes a video signal synthesizer electrically connected to the communication line. The video signal synthesizer includes input means for receiving a plurality of stream data inputs via a communication line. Each of the plurality of stream data includes video data encoded in accordance with a predetermined position for displaying video in a part of the video display area. The position differs depending on each of the plurality of stream data. The video signal synthesizing device is configured to generate display data for displaying video based on each video data in the display area based on the plurality of stream data, and display data generated by the synthesizing unit. Transmission data generating means for generating data for transmission and output means for outputting the generated data for transmission to a communication line are included. The generation device generates data for display from a receiving unit that receives data generated based on data for transmission from a communication line and a decoding process based on the data received by the receiving unit. And a control means for causing the display means to display an image based on the display data.
この発明の他の局面に従うと、ストリームデータの生成装置は、表示領域に映像を表示する表示手段と、表示領域において予め定められた一部の領域を特定するための領域情報を格納する記憶手段と、映像信号の入力を受ける入力手段と、領域情報に基づいて映像信号を符号化することにより、映像信号に基づく映像を一部の領域に表示するための映像データを生成する生成手段と、通信回線に電気的に接続され、映像データを通信回線に対して出力するための出力手段と、通信回線から、送信のためのデータに基づいて生成されたデータを受信する受信手段と、受信手段により受信されたデータに基づいて復号処理を実行することにより表示用のデータを生成する復号手段と、表示用のデータに基づいて、表示手段に映像を表示させる制御手段とを備える。 According to another aspect of the present invention, the stream data generation apparatus includes a display unit that displays video in a display area, and a storage unit that stores area information for specifying a predetermined area in the display area. And an input means for receiving an input of the video signal; a generating means for generating video data for displaying the video based on the video signal in a partial area by encoding the video signal based on the area information; An output means electrically connected to the communication line and outputting video data to the communication line; a receiving means for receiving data generated based on the data for transmission from the communication line; and a receiving means Decoding means for generating display data by executing decoding processing based on the data received by the control, and control for displaying video on the display means based on the display data And a stage.
好ましくは、生成手段は、一部の領域に対応する映像信号の符号化を行なうことにより、映像データを生成する符号化手段を含む。 Preferably, the generation unit includes an encoding unit that generates video data by encoding a video signal corresponding to a partial area.
好ましくは、符号化手段は、一部の領域に対応する映像信号を動き補償の対象として符号化を実行する。 Preferably, the encoding unit performs encoding using a video signal corresponding to a partial area as a target of motion compensation.
好ましくは、映像データは、一部の領域にのみ映像を表示するためのデータのみを含む。 Preferably, the video data includes only data for displaying a video only in a partial area.
好ましくは、ストリームデータの生成装置は、外部からの入力に基づいて、記憶手段に格納されている領域情報を変更する変更手段をさらに備える。 Preferably, the stream data generation device further includes a changing unit that changes the area information stored in the storage unit based on an external input.
好ましくは、ストリームデータの生成装置は、外部から領域情報の入力を受ける指示入力手段をさらに備える。変更手段は、記憶手段に格納されている領域情報を、指示入力手段を介して入力された領域情報に変更する。 Preferably, the stream data generation apparatus further includes an instruction input unit that receives an input of region information from the outside. The changing means changes the area information stored in the storage means to the area information input via the instruction input means.
好ましくは、受信手段は、通信回線から、領域情報が含まれるデータを受信する。変更手段は、記憶手段に格納されている領域情報を、受信されたデータに含まれる領域情報に変更する。 Preferably, the receiving means receives data including area information from the communication line. The changing means changes the area information stored in the storage means to area information included in the received data.
この発明の他の局面に従うと、ストリームデータの合成装置は、通信回線を介して、複数のストリームデータの入力を受ける入力手段を備える。複数のストリームデータの各々は、映像の表示領域の一部に映像を表示するために予め定められた位置に応じて符号化された映像データを含む。位置は、複数のストリームデータの各々に応じて異なる。ストリームデータの合成装置は、複数のストリームデータに基づいて、各々の映像データに基づく映像を表示領域にそれぞれ表示するための表示用データを生成する合成手段と、合成手段により生成された表示用データの送信のためのデータを生成する送信データ生成手段と、通信回線に、生成された送信のためのデータを出力する出力手段とを備える。 According to another aspect of the present invention, the stream data synthesizing apparatus includes input means for receiving a plurality of stream data inputs via a communication line. Each of the plurality of stream data includes video data encoded in accordance with a predetermined position for displaying video in a part of the video display area. The position differs depending on each of the plurality of stream data. A stream data synthesizing device includes a synthesizing unit that generates display data for displaying video based on each video data in a display area based on a plurality of stream data, and display data generated by the synthesizing unit Transmission data generating means for generating data for transmission of the data, and output means for outputting the generated data for transmission to the communication line.
好ましくは、合成手段は、複数のストリームデータの各々から、各々の映像データを抽出する抽出手段と、抽出された映像データについて予め定められた位置に基づいて、抽出された映像データをそれぞれ合成することにより、表示データを生成する生成手段とを含む。 Preferably, the synthesizing unit synthesizes the extracted video data based on a predetermined position with respect to the extracted video data and an extraction unit that extracts each video data from each of the plurality of stream data. And generating means for generating display data.
好ましくは、複数のストリームデータの各々は、各々のストリームデータが生成された時刻を特定するための時刻データを含む。合成手段は、複数のストリームデータの各々の時刻データに基づいて、表示用データを生成する。 Preferably, each of the plurality of stream data includes time data for specifying a time at which each stream data is generated. The synthesizing unit generates display data based on the time data of each of the plurality of stream data.
好ましくは、合成手段は、各映像データを復号することなく表示用データを生成する。 Preferably, the synthesizing unit generates display data without decoding each video data.
好ましくは、複数のストリームデータの各々は、各々の映像データに基づく映像が表示される領域を特定するための特定データを含む。 Preferably, each of the plurality of stream data includes specific data for specifying an area in which a video based on each video data is displayed.
好ましくは、合成手段は、特定データに基づいて、表示データを生成する。 Preferably, the synthesizing unit generates display data based on the specific data.
本発に係るストリームデータの生成方法によると、処理対象が可変長フォーマットに基づく映像信号以外の映像信号でもテレビ会議システムを実現することができる。 According to the stream data generation method according to the present invention, a video conference system can be realized even with a video signal other than a video signal whose processing target is based on a variable length format.
本発明に係るストリームデータの生成方法によると、テレビ会議システムの運用時における映像の表示処理の遅延を防止できる。 According to the stream data generation method of the present invention, it is possible to prevent a delay in video display processing during the operation of the video conference system.
本発明に係るテレビ会議システムによると、処理対象が可変長フォーマットに基づく映像信号以外の映像信号でも作動する。 According to the video conference system according to the present invention, a video signal other than a video signal based on a variable length format is processed.
本発明に係るストリームデータの生成装置によると、テレビ会議システムの運用時における映像の表示処理の遅延を防止できる。 According to the stream data generation device of the present invention, it is possible to prevent delay of video display processing during operation of the video conference system.
本発明に係るストリームデータの生成装置によると、処理対象が可変長フォーマットに基づく映像信号以外の映像信号でもテレビ会議システムを実現することができる。 According to the stream data generating apparatus of the present invention, a video conference system can be realized even with a video signal other than a video signal whose processing target is based on a variable length format.
本発明に係るストリームデータの合成装置によると、テレビ会議システムの運用時における映像の表示処理の遅延を防止できるストリームデータを生成することができる。 According to the stream data synthesizing apparatus according to the present invention, it is possible to generate stream data that can prevent a delay in video display processing during operation of the video conference system.
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated.
図1を参照して、本発明の実施の形態に係るテレビ会議システムについて説明する。図1は、テレビ会議システム10のシステム構成を表わすブロック図である。
A video conference system according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is a block diagram showing the system configuration of the
テレビ会議システム10は、端末100a,100b,100c,100dと、映像信号合成装置1200とを備える。各々の端末は、総称される場合には、端末100と称する。映像信号合成装置1200と各端末とは、通信回線を介してそれぞれ接続されている。端末100は、カメラ110と、マイク120と、モニタテレビ130と、ストリームデータの生成装置400とを含む。ストリームデータの生成装置400は、MPEG(Moving Picture Experts Group)エンコーダ500と、MPEGデコーダ460とを含む。カメラ110から出力される信号は、MPEGエンコーダ500に入力される。マイク120から出力される信号は、MPEGエンコーダ500に入力される。MPEGデコーダ460から出力される信号は、モニタテレビ130に入力される。MPEGエンコーダ500から出力される信号は、通信回線を介して映像信号合成装置1200に対して送信される。MPEGデコーダ460は、映像信号合成装置1200により送信された信号の入力を受ける。
The
映像信号合成装置1200は、通信回線を介して信号の入力を受ける多地点接続用コントローラ1220と、通信回線を介して信号を送信可能な送信部1240とを含む。多地点接続用コントローラ1220から出力される信号は、送信部1240に入力される。
ここで、図2を参照して、各端末と映像信号合成装置1200との間で通信される信号の構成について説明する。図2(A)は、A地点に配置されている端末100aから出力されるストリームの構成を概念的に表わす図である。図2(B)は、B地点に配置されている端末100bから出力されるストリームの構成を概念的に表わす図である。図2(C)は、C地点に配置されている端末100cから出力されるストリームの構成を概念的に表わす図である。図2(D)は、D地点に配置されている端末100dから出力されるストリームの構成を表わす図である。図2(E)は、映像信号合成装置1200から各端末にそれぞれ送信されるストリームの構成を概念的に表わす図である。
Here, the configuration of signals communicated between each terminal and the video
図2(A)に示されるように、端末100aから出力される信号は、領域210〜214を含む。領域210には、ヘッダが格納されている。領域212には、映像音声データAが格納されている。なお、映像音声データとは、映像を表示するためのデータと音声を出力するためのデータとを含む。領域214には、端末100aから出力される信号のデータサイズを予め定められたサイズに揃えるためのデータが格納されている。ヘッダは、本実施の形態に係るテレビ会議システム10を実現するために予め定められたデータ項目を含む。映像音声データAは、端末100aが備えるカメラ110により撮影された映像に基づくデータとマイク120により取得された音声データとを含む。映像音声データAは、後述するように、テレビ会議システム10を構成する各々の端末に割り当てられた領域に映像を表示するように、予め圧縮符号化処理されている。
As shown in FIG. 2A, the signal output from the terminal 100a includes
図2(B)に示されるように、端末100bから出力される信号は、領域220〜226を含む。領域220には、ヘッダが格納されている。このヘッダは、領域210に格納されているヘッダが有するデータ項目と同一の項目を含む。領域222は、領域212が有するデータサイズと同一のサイズを有する。領域222には、映像を表示するためのデータは格納されていない。領域224には、映像音声データBが格納されている。領域226には、映像を表示するためのデータが格納されていない。領域226には、端末100bから出力される信号のデータサイズを予め定められたサイズに揃えるためのデータが格納されている。ここで予め定められたサイズとは、端末100aから出力される信号のサイズについて予め定められたサイズと同一である。
As illustrated in FIG. 2B, the signal output from the terminal 100b includes
図2(C)に示されるように、端末100cから出力される信号は、領域230から236を含む。領域230には、ヘッダが格納されている。このヘッダは、領域210に格納されているヘッダが有するデータ項目と同一の項目を含む。領域232は、領域222が有するデータサイズと領域224が有するデータサイズとの和に等しいサイズを有する。領域234には、映像音声データCが格納されている。領域236には、映像を表示するためのデータが格納されていない。領域236には、端末100cから出力される信号のデータサイズを予め定められたサイズに揃えるためのデータが格納されている。ここで予め定められたサイズとは、端末100aから出力される信号のサイズについて予め定められたサイズと同一である。
As shown in FIG. 2C, the signal output from the terminal 100c includes
図2(D)に示されるように、端末100dから出力される信号は、領域240〜246を含む。領域240には、ヘッダが格納されている。このヘッダは、領域210に格納されているヘッダが有するデータ項目と同一の項目を含む。領域242には、映像を表示するためのデータが格納されていない。領域242には、有効な映像データは格納されていない。しかし、領域242に相当するマクロブロックの座標はフレームに存在する(有効ではないが映像データが存在するとしてエンコードされるため)ので、別の有効な映像データが含まれている。フレームの同じマクロブロックアドレス間を置換して、フレームが合成される。なお、マクロブロックについては後述する。領域246には、映像音声データDが格納されている。
As shown in FIG. 2D, the signal output from terminal 100d includes regions 240-246. In the
図2(E)に示されるように、映像信号合成装置1200から出力される信号は、領域250〜258を含む。ヘッダは、領域250に格納されている。このヘッダは、テレビ会議システムを実現するために予め定められたデータ項目を含む。このデータ項目は、当該信号の送信元(すなわち映像信号合成装置1200)を特定するためのデータと、送信先(すなわち端末100a,100b,100c,100d)を特定するためのデータとを含む。映像信号合成装置1200がこのようなヘッダに基づいて通信回線に対して信号を出力すると、その信号は、送信先として指定された端末の数に合わせて複製され、各複製後の信号は、通信回線を介して各端末に向けて送信される。
As shown in FIG. 2E, the signal output from the video
領域252には、端末100aから送信された映像データが格納されている。すなわち領域252に格納されている映像データは、領域212に格納されている映像データと同一のものである。領域254には、端末100bから送信された映像データが格納されている。この映像データは、図2(B)に示される領域224に格納されている映像データと同一である。領域256には、端末100cから送信された映像データが格納されている。この映像データは、図2(C)に示される領域234に格納されている映像データと同一である。領域258には、端末100dから送信された映像データが格納されている。この映像データは、図2(E)に示される領域246に格納されている映像データと同一である。
The
なお、図2(A)〜図2(D)に示される信号は、予め定められたデータサイズを有するものとして示されているが、各々の端末から出力される各信号の構成は、図2(A)〜図2(D)に示されるものに限られない。たとえば端末100aから出力される信号は、領域210と領域212のみを有するものであってもよい。
The signals shown in FIGS. 2A to 2D are shown as having a predetermined data size, but the configuration of each signal output from each terminal is shown in FIG. (A)-It is not restricted to what is shown in Drawing 2 (D). For example, the signal output from the terminal 100a may have only the
次に、図3を参照して、図2(A)から図2(E)の各々に示される信号に基づいて表示される映像について説明する。図3(A)から図3(E)は、それぞれ端末100a,100b,100c,100dがモニタテレビ130に表示する画面の一態様を表わす図である。
Next, with reference to FIG. 3, an image displayed based on the signals shown in FIGS. 2A to 2E will be described. FIG. 3A to FIG. 3E are diagrams showing one mode of screens displayed on the
図3(A)を参照して、端末100aは、図2(A)に示される信号に基づいて映像を表示する場合には、その映像Aは、領域310に表示される。ここで領域310は、テレビ会議システムを実現する場合に予め設定される領域である。この領域は、テレビ会議システム10を構成する端末の数に応じて設定される。たとえば4つの端末がテレビ会議システムに参加する場合には、モニタテレビ130の表示領域を4分割するように設定される。またその場合の各領域は、たとえば予め当該システムに参加し得る端末に対して割当てられている位置とその領域とを関連付けることにより、映像が実際に表示される領域を特定することができる。またこの領域は、後述するように外部からの入力に基づいて変更することもできる。
Referring to FIG. 3A, when terminal 100a displays a video based on the signal shown in FIG. 2A, video A is displayed in
図3(B)を参照して、端末100bが図2(B)に示される信号に基づいて映像を表示する場合には、映像Bは、端末100bのモニタテレビ130の領域320に表示される。
Referring to FIG. 3B, when terminal 100b displays a video based on the signal shown in FIG. 2B, video B is displayed in
図3(C)を参照して、端末100cが図2(C)に示される信号に基づいて映像を表示する場合には、映像Cは、端末100cが備えるモニタテレビ130の領域330に表示される。
Referring to FIG. 3C, when terminal 100c displays a video based on the signal shown in FIG. 2C, video C is displayed in
図3(D)を参照して、端末100dが図2(D)に示される信号に基づいて映像を表示する場合には、映像Dは、端末100dが備えるモニタテレビ130の領域340に表示される。
Referring to FIG. 3D, when terminal 100d displays a video based on the signal shown in FIG. 2D, video D is displayed in
また、図3(E)を参照して、各々の端末100が図2(E)に示される信号に基づいて映像を表示する場合には、映像Aは、各端末のモニタテレビ130における領域312に表示される。この表示位置は、図3(A)に示される表示位置(すなわち領域310)と同一である。また映像Bは、領域322に表示される。この映像が表示される位置は、図3(B)に示される映像Bの表示位置(すなわち領域320)と同一である。映像Cは、領域332に表示される。この映像が表示される位置は、図3(C)に示される表示位置(すなわち領域330)と同一である。映像Dは、領域342に表示される。この映像が表示される位置は、図3(D)に示される映像の表示位置(すなわち領域340)と同一である。
3E, when each terminal 100 displays an image based on the signal shown in FIG. 2E, the image A is an
このように、各端末は、図3(A)〜図3(D)に示されるような映像を表示するための信号をそれぞれ映像信号合成装置1200に送信することにより、図3(E)に示される映像の表示を実現する信号を受信する。このような通信を実現するための構成について以下説明する。
In this manner, each terminal transmits a signal for displaying a video as shown in FIGS. 3A to 3D to the video
図4を参照して、本実施の形態に係るストリームデータの生成装置400の構成について説明する。図4は、ストリームデータの生成装置400のハードウェア構成を表わすブロック図である。ストリームデータの生成装置400は、映像インターフェイス410と、音声インターフェイス420と、メモリ430と、MPEGエンコーダ500と、送信部440と、受信部450と、MPEGデコーダ460と、映像インターフェイス470と、音声インターフェイス480とを含む。
With reference to FIG. 4, a configuration of stream
映像インターフェイス410は、カメラ110に接続されている。映像インターフェイス410は、カメラ110から出力される映像信号の入力を受ける。この映像信号は、MPEGエンコーダ500に対して送出される。
The
音声インターフェイス420は、マイク120に接続されている。音声インターフェイス420は、マイク120から出力される音声信号の入力を受ける。音声インターフェイス420は、その信号をデジタル信号としてMPEGエンコーダ500に対して送出する。
The
メモリ430は、各端末ごとに、図3(A)〜図3(D)のいずれかに示される映像の表示を実現するためのデータを格納している。このデータ構造については後述する(図6)。
The
MPEGエンコーダ500は、映像インターフェイス410から出力される信号と音声インターフェイス420から出力される信号とメモリ430に格納されているデータとに基づいて、モニタテレビ130において予め定められた位置に映像を表示するための映像データを生成する。MPEGエンコーダ500は、生成された映像データを送信部440に対して送出する。
The
送信部440は、MPEGエンコーダ500からの映像データに基づいて映像信号合成装置1200に送信するためのデータを生成する。具体的には、送信部440は、当該映像データに予め定められたデータ項目を有するヘッダを付加して、送信用のデータを生成する。このデータ項目は、たとえば、送信用のデータの宛先である映像信号合成装置1200のネットワークアドレスを有する。送信部440は、送信用のデータを生成すると、通信回線に対して送出する。
The
受信部450は、通信回線を介して映像信号合成装置1200からテレビ会議用の映像データを受信する。この映像データは、MPEGエンコーダ500により生成された映像データに加えて、他の端末により生成された映像データを含む。受信部450は、そのデータをMPEGデコーダ460に対して送出する。
The receiving
MPEGデコーダ460は、受信部450により受信されたデータを復号する。復号化処理により生成された信号は、映像を表示するための信号(以下、映像信号)と音声を出力するための信号(以下、音声信号)とを含む。映像信号は、映像インターフェイス470に対して送出される。音声信号は、音声インターフェイス480に対して送出される。
The
映像インターフェイス470は、その信号をモニタテレビ130に対して出力する。これにより、モニタテレビ130は、テレビ会議用に構成された映像(図3(E))を表示する。
The
音声インターフェイス480は、音声信号をスピーカ(図示しない)に対して出力する。当該スピーカは、映像の出力に合わせて、その信号に基づく音声を出力する。
The
図5を参照して、MPEGエンコーダ500について説明する。図5は、MPEGエンコーダ500のハードウェア構成を表わすブロック図である。
The
MPEGエンコーダ500は、映像信号と音声信号との入力をそれぞれ受ける受信バッファ510と、入力された各々の信号に対して予め定められた圧縮符号化処理を実行する符号化回路520と、圧縮されたデータから送信用のデータを抽出する抽出回路530と、抽出されたデータを一時的に格納する送信バッファ540とを含む。
The
図6を参照して、本実施の形態に係る端末のデータ構造について説明する。図6は、メモリ430におけるデータの格納の一態様を表わす図である。
With reference to FIG. 6, the data structure of the terminal according to the present embodiment will be described. FIG. 6 is a diagram illustrating an aspect of data storage in
メモリ430は、領域610〜630を含む。モニタテレビ130において定められる領域を特定するためのデータは、領域610に格納されている。各々の領域を表わすためのデータは、領域620に格納されている。各々の領域における映像の表示が可能であるか否かを表わすデータは、領域630に格納されている。たとえば第1の表示領域は、座標(10,10)から(40,50)として規定されている。第1の表示領域は、第1の端末100aにおいて使用可能に設定されている。第2の表示領域は、座標(10,50)から(40,90)として規定されている。この領域は、映像の表示のために使用できないと設定されている。同様に第3の表示領域および第4の表示領域についても、各々の座標および映像の表示の可否が設定されている。
図6に示されるメモリ430のデータ構造は、端末100aにおけるものである。端末100bにおけるデータ構造は、第1の表示領域に代えて第2の表示領域が「使用可」と設定されている。また端末100cについては、第3の表示領域が「使用可」として設定されている。なお、モニタテレビ130における表示領域の特定の態様は、図6に示されるものに限られない。図6に示されるデータは、テレビ会議システムの開始時に予め格納される場合もあれば、キーボード(図示しない)その他の入力装置を介した入力により、変更可能であってもよい。あるいは、当該システムに接続されている端末の数に応じて設定されてもよい。この場合は、新たに接続しようとする端末におけるログイン操作に基づいて接続されている端末の数を検知し、その検知の結果に基づいて表示領域を細分化するように、当該領域を特定するデータ(たとえば座標)を算出してもよい。
The data structure of the
ここで、図7を参照して、図6に示される座標について説明する。図7は、モニタテレビ130における座標を概念的に表わす図である。
Here, the coordinates shown in FIG. 6 will be described with reference to FIG. FIG. 7 is a diagram conceptually showing coordinates on the
図7に示されるように、モニタテレビ130において、映像を表示可能な領域として座標(10,10)から(80,90)が予め設定されている。この座標の定義は、図6に示される領域の特定のための定義に対応する。したがって、各端末が図6に示される座標に基づいて映像の表示処理を実行すると、モニタテレビ130は、その座標に応じた領域に映像を表示する。
As shown in FIG. 7, in the
次に、図8を参照して、テレビ会議システム用の映像データと表示領域との関係について説明する。図8は、端末100aに関し、モニタテレビ130に映像を表示する場合に当該表示の対象となる映像データの対応する領域を表わす図である。
Next, the relationship between video data for a video conference system and a display area will be described with reference to FIG. FIG. 8 is a diagram showing a corresponding region of video data to be displayed when video is displayed on the
端末100aに関し、モニタテレビ130が備える映像の表示領域は、領域810と領域820とを含む。領域810は、端末100aが備えるカメラ110により生成された映像データに基づく映像を表示するための領域である。この領域は、図6に示されるようなでーたによって特定される。領域820は、そのカメラ110による表示を行なわないために排他的に確保された領域である。領域820は、すなわち他の端末(たとえば端末100bから100d)から送信された映像データに基づく映像を表示するために使用される。
Regarding the terminal 100a, the video display area included in the
次に、図9を参照して、各端末100から映像信号合成装置1200に対して送信されるMPEGストリームの構成について説明する。図9(A)は、MPEGストリームのピクチャ層の構成を表わす図である。図9(B)は、ピクチャ層に含まれるスライス層の構成を概念的に表わす図である。図9(C)は、スライス層に含まれるマクロブロック(MB)層の構成を概念的に表わす図である。図9(D)は、MPEGストリームデータに基づくリファレンス映像領域と参照領域との関係を表わす図である。
Next, the configuration of an MPEG stream transmitted from each terminal 100 to the video
図9(A)に示されるように、ピクチャは、ピクチャヘッダ910と、ピクチャタイプ920と、動きベクトル探索範囲930と、スライス層940とを含む。図9(B)に示されるように、スライス層940は、スライスヘッダ950と、スライス位置960と、MB層970とを含む。図9(C)に示されるように、MB層970は、MBのアドレス972と、MBタイプ974と、動きベクトル976と、MB符号データ978とを含む。MB符号データ978は、MPEGエンコーダ500により圧縮符号化された映像データである。
As shown in FIG. 9A, the picture includes a
図9(D)を参照して、リファレンス映像領域980は、スライス962を含む。スライス962は、スライス位置960に基づいて特定される。スライス位置960は、たとえば垂直ライン番号に対応する。スライス962は、マクロブロック(MB)964を含む。マクロブロック964は、MBのアドレス972により特定される。参照領域990は、動き補償の参照に関し、その参照が有効である有効範囲と有効でない無効範囲とを含む。たとえばリファレンス映像領域980と参照領域990との重複部分では、マクロブロック964による動きベクトルの検出が可能に設定される。一方、参照領域990における無効範囲(ハッチング部分)では、マクロブロック964による動きベクトルの検出は禁止される。
Referring to FIG. 9D, the
図10を参照して、本実施の形態に係る各端末から映像信号合成装置1200に対して送信されるストリームデータについて説明する。図10(A)は、端末100aが映像信号合成装置1200に対して送信するストリームを概念的に表わす図である。図10(B)は、端末100bが映像信号合成装置1200に対して送信するストリームを概念的に表わす図である。図10(C)は、端末100cが映像信号合成装置1200に対して送信するストリームを概念的に表わす図である。図10(D)は、端末100dが映像信号合成装置1200に対して送信するストリームを概念的に表わす図である。
With reference to FIG. 10, the stream data transmitted from each terminal according to the present embodiment to video
図10(A)に示されるように、端末100aが送信するストリームは、ピクチャヘッダPHとスライスヘッダSHと、スライス層とを含む。スライス層は、たとえば「SL1」〜「SL480」まで、480層に分けられる。各スライス層は、MB0−MB21までのマクロブロック(MB)と、MB22〜MB43までのマクロブロックとを含む。スライス層SL1〜SL240におけるMB0〜MB21は、図3(A)に示されるように、領域310における表示を実現するための表示データ1010に対応する。
As shown in FIG. 10A, the stream transmitted by the terminal 100a includes a picture header PH, a slice header SH, and a slice layer. The slice layer is divided into, for example, 480 layers from “SL1” to “SL480”. Each slice layer includes macroblocks (MB) from MB0 to MB21 and macroblocks from MB22 to MB43. MB0 to MB21 in the slice layers SL1 to SL240 correspond to the
図10(B)に示されるように、端末100bが送信するストリームは、ピクチャヘッダPHとスライスヘッダSHと、スライス層とを含む。スライス層は、たとえば「SL1」〜「SL480」まで、480層に分けられる。各スライス層は、MB0−MB21までのマクロブロック(MB)と、MB22〜MB43までのマクロブロックとを含む。スライス層SL1〜SL240におけるMB22〜MB43は、図3(B)に示されるように、領域320における表示を実現するための表示データ1020に対応する。
As shown in FIG. 10B, the stream transmitted by the terminal 100b includes a picture header PH, a slice header SH, and a slice layer. The slice layer is divided into, for example, 480 layers from “SL1” to “SL480”. Each slice layer includes macroblocks (MB) from MB0 to MB21 and macroblocks from MB22 to MB43. MB22 to MB43 in the slice layers SL1 to SL240 correspond to display
図10(C)を参照して、端末100cが送信するストリームは、同様にピクチャヘッダPHとスライスヘッダSHと表示データ1030とを含む。当該ストリームのデータ構成は、図10(A)に示されるものと同じである。表示データ1030は、図3(C)に示されるように、領域330における表示を実現するためのデータである。図10(D)を参照して、端末100dが送信するストリームは、同様にピクチャヘッダPHとスライスヘッダSHと表示データ1030とを含む。当該ストリームのデータ構成は、図10(A)に示されるものと同じである。表示データ1040は、図3(D)に示されるように、領域340における表示を実現するためのデータである。なお、各ストリームが合成された態様については後述する(図14)。
Referring to FIG. 10C, the stream transmitted by terminal 100c similarly includes picture header PH, slice header SH, and
図11を参照して、本実施の形態に係る端末100の制御構造について説明する。図11は、端末100のMPEGエンコーダ500が実行する処理の手順を表わすフローチャートである。
With reference to FIG. 11, the control structure of terminal 100 according to the present embodiment will be described. FIG. 11 is a flowchart showing a procedure of processing executed by
ステップS1110にて、MPEGエンコーダ500は、カメラ110から映像信号の入力を受ける。ステップS1120にて、MPEGエンコーダ500は、映像信号を受信バッファ510に格納する。ステップS1130にて、MPEGエンコーダ500は、受信バッファ510に格納されている映像信号を読み出す。ステップS1140にて、符号化回路520は、端末100自身に割当てられている領域(有効領域)以外の領域を無効領域として、映像信号を符号化する。符号化回路520は、この符号化処理を実行する際に、その処理の行なわれた時刻をタイムスタンプとしてさらに追加する。
In
ステップS1150にて、抽出回路530は、符号化回路520の符号化により生成された圧縮データの中から上記有効領域に対応するデータを抽出する。ステップS1160にて、MPEGエンコーダ500は、抽出回路530により抽出されたデータを送信バッファ540に格納する。ステップS1170にて、MPEGエンコーダ500は、送信バッファ540からデータを読み出し、そして送信部440に対して送出する。送信部440は、そのデータに基づいて送信用のデータを生成し、そして通信回線に対して出力する。このようにして出力されたストリームデータは、映像信号合成装置1200に向けて送信される。
In step S1150,
図12を参照して、本実施の形態に係るテレビ会議システム10を構成する映像信号合成装置1200について説明する。図12は、映像信号合成装置1200のハードウェア構成を表わすブロック図である。
With reference to FIG. 12, video
映像信号合成装置1200は、受信部1210と、多地点接続用コントローラ1220と、送信部1240と、音声パケット合成部1230とを含む。多地点接続用コントローラ1220は、有効ストリーム抽出部1222と、ストリーム合成部1224とを含む。受信部1210は、通信回線に対して電気的に接続されている。受信部1210は、当該通信回線を介して各端末からのストリームデータを受信する。受信部1210は、ストリームデータから映像信号と音声信号とをそれぞれ抽出する。受信部1210は、映像信号を多地点接続用コントローラ1220に対して送出する。受信部1210は、また音声信号を音声パケット合成部1230に送出する。
The video
多地点接続用コントローラ1220に入力された映像信号は、有効ストリーム抽出部1220によって有効ストリームが抽出される。ここで有効ストリームとは、各端末のモニタリング130に映像を表示するために必要な映像データをいう。有効ストリーム抽出部1222は、テレビ会議システム10に参加可能な端末の数だけ多地点接続用コントローラ1220に含まれている。各々の有効ストリーム抽出部1222によって抽出された各映像データは、ストリーム合成部1224にそれぞれ入力される。ストリーム合成部1224は、各映像データを合成する。この合成は、たとえば各端末からのストリームデータのヘッダに含まれている領域情報に基づいて各映像が重ならないように行なわれる。ストリーム合成部1224は、そのような合成により生成された映像データを送信部1240に対して送出する。
An effective stream is extracted by the effective
受信部1210によって取得された音声信号は、音声パケット合成部1230に送出される。音声パケット合成部1230は、各端末からの音声信号を合成する。合成された信号は、送信部1240に対して送出される。
The audio signal acquired by the
送信部1240は、ストリーム合成部1224からの映像信号と音声パケット合成部1230からの音声信号とを合成する。送信部1240は、当該合成により生成されたデータに送信用のパケットを構成するためのヘッダを付加する。送信部1240は、送信用のパケットを通信回線に対して送出する。その結果、映像信号合成装置1200から出力された信号は、各端末100aから100dにそれぞれ送信される。
The
図13を参照して、本実施の形態に係る映像信号合成装置1200の制御構造について説明する。図13は、映像信号合成装置1200が実行する処理の手順を表わすフローチャートである。
With reference to FIG. 13, a control structure of video
ステップS1310にて、映像信号合成装置の受信部1210は、通信回線を介して各端末から圧縮されたそれぞれのデータを受信する。ステップS1320にて、映像信号合成装置1200は、各データを受信バッファ(図示しない)に格納する。ステップS1330にて、映像信号合成装置1200は、受信バッファからデータを読み出す。
In step S1310, the
ステップS1340にて、映像信号合成装置1200は、各端末からのデータの同期を取るために、各々読出されたデータに含まれるタイムスタンプを参照し、そして同一時間帯に含まれるデータを合成する。この処理は、ストリーム合成部1224において実行される。またこのとき音声信号も同様に音声パケット合成部1230において合成される。各々合成された信号は、送信部1240に送出される。
In step S1340, video
ステップS1350にて、送信部1240は、各々の合成により生成されたデータに送信アドレスを付加して、ストリームデータを生成する。ここで送信アドレスとは、テレビ会議システムに参加している各端末のネットワークアドレスをいう。このアドレスにより各端末が特定されるため、テレビ会議システムへの参加者の映像がそれぞれの端末に配信される。ステップS1360にて、送信部1240は、送信アドレスに基づいてストリームデータを送信する。
In step S1350,
ここで図14を参照して、映像信号合成装置1200から送信されるストリームデータについて説明する。図14は、ストリームデータの構成を概略的に表わす図である。
Here, with reference to FIG. 14, the stream data transmitted from the video
ストリームデータは、ピクチャヘッダPHと、スライスヘッダSHと、表示データ1010,1020,1030,1040とを含む。表示データ1010は、図10(A)に示されるように、端末100aにより生成された映像データに基づくマクロブロックを含む。表示データ1020は、同様に図10(B)に示されるマクロブロックを含む。表示データ1030は、端末100cにより生成された映像データのためのマクロブロックを含む。表示データ1040は、端末100dにより生成された映像データのためのマクロブロックを含む。
The stream data includes a picture header PH, a slice header SH, and
なお、ストリームデータは、各スライス層に含まれるマクロブロックについて、復号処理を実行していない。すなわちストリームデータは、映像信号合成装置1200が受信したデータに含まれる映像データをそのまま結合して生成されたデータである。したがって、各端末に送信するためのデータは、各々の端末からの映像データの受信に応答して生成されるため、復号化処理のための遅延の発生が抑制される。
Note that the stream data is not subjected to decoding processing for macroblocks included in each slice layer. That is, the stream data is data generated by combining the video data included in the data received by the
各々の端末が、図14に示されるストリームデータを受信すると、各モニタテレビ130は、それぞれの領域において他の端末のカメラ110により撮影された映像(たとえばテレビ会議システムに参加しているユーザ)を表示する。
When each terminal receives the stream data shown in FIG. 14, each
以上のようにして、本実施の形態に係る端末によれば、テレビ会議システムを実現するための映像を表示するデータに関し、圧縮符号化処理は、当該端末により撮影された映像を表示するために予め定められた領域に応じたデータとなるように実行される。各端末は、いわゆる他地点接続コントローラを実現するために各端末からの映像データを合成する映像信号合成装置1200に対して、当該圧縮符号化処理により生成されたデータを送信する。映像信号合成装置1200は、各端末からの映像データを抽出して合成することにより、テレビ会議システム用の合成データを生成する。すなわち、合成データの生成の差異には、映像データの復号処理および圧縮処理が実行されない。そのため、映像信号合成装置1200において、合成データを生成するための処理の遅延が抑制される。その結果、各端末の使用者、すなわちテレビ会議への参加者は、映像および音声をスムーズに視聴することができる。
As described above, according to the terminal according to the present embodiment, with respect to data for displaying video for realizing the video conference system, the compression encoding processing is performed in order to display video captured by the terminal. It is executed so as to be data corresponding to a predetermined area. Each terminal transmits the data generated by the compression encoding process to the video
<変形例>
以下、本発明の実施の形態の変形例について説明する。前述の実施の形態においては、映像信号合成装置1200から各々の端末に送信されるストリームデータは、すべて同一の映像データを含む構成であった。しかしながら、映像信号合成装置1200から送信されるデータの構成は、そのようなものに限られない。たとえば、各端末に送信されるストリームデータは、各端末において生成された映像データを含まないデータであってもよい。すなわち、各端末は、各々のMPEGエンコーダ500によって生成された自らの映像データを有しているため、映像信号合成装置1200から同一のデータの配信を受けなくてもよい。この場合、したがって、映像信号合成装置1200において、特定の端末から送信された映像データをその送信元に再び送り返すための処理が省略され得る。
<Modification>
Hereinafter, modifications of the embodiment of the present invention will be described. In the above-described embodiment, the stream data transmitted from the video
なお、本変形例に係るテレビ会議システムを実現するための各端末および映像信号合成装置は、前述の端末100および映像信号合成装置1200が有するハードウェア構成と同一のハードウェア構成を有する。それらの機能も同じである。したがって、ここでは、それらについての詳細な説明は、繰り返さない。
Note that each terminal and the video signal synthesis device for realizing the video conference system according to this modification have the same hardware configuration as that of the terminal 100 and the video
ここで、図15を参照して、本変形例に係るテレビ会議システムにおいて送信されるデータについて説明する。図15(A)は、本変形例に係る映像信号合成装置1200が端末100aに送信するデータの構成を表わす図である。図15(B)は、当該映像信号合成装置が端末100bに対して送信するデータの構成を表わす図である。図15(C)は、当該映像信号合成装置1200が端末100cに対して送信するデータの構成を表わす図である。図15(D)は、当該映像信号合成装置1200が端末100dに対して送信するデータの構成を表わす図である。
Here, with reference to FIG. 15, data transmitted in the video conference system according to the present modification will be described. FIG. 15A is a diagram showing a configuration of data transmitted to
図15(A)を参照して、ストリームデータ1510は、領域1511〜1514を含む。領域1511には、ヘッダが格納されている。領域1512には、端末100bにより生成された映像データが格納されている。領域1513には、端末100cにより生成された映像データが格納されている。領域1514には、端末100dにより生成された映像データが格納されている。領域1511に格納されているヘッダは、たとえば領域250に格納されているヘッダ(図2)と同一の項目を有する。
Referring to FIG. 15A, stream data 1510 includes
このようなデータが映像信号合成装置1200から端末100aに送信される場合、端末100aにより生成された映像データは、送信されない。したがって、端末100aと映像信号合成装置1200との間の通信量を削減することができる。このようなストリームデータ1510を受信する端末100aは、領域1511のヘッダに含まれるタイムスタンプに基づいて自らが保持している映像データAと、ストリームデータ1510に格納されている映像データB〜Dとを合成し、MPEGデコーダ460によって復号化する。モニタテレビ130は、復号化されたデータに基づいて各映像データに対応する映像をそれぞれの領域に表示する。
When such data is transmitted from the video
図15(B)に示されるように、映像信号合成装置1200から端末100bに送信されるストリームデータ1520は、領域1521〜1524を含む。ヘッダは、領域1521に格納されている。端末100aにより生成された映像データAは、領域1522に格納されている。端末100cにより生成された映像データCは、領域1523に格納されている。端末100dにより生成された映像データは、領域1524に格納されている。すなわち端末100bにより生成された映像データBは、映像信号合成装置1200から端末100bに対して送信されない。その結果、端末100bと映像信号合成装置1200との間の通信量は、映像データBのデータ量だけ削減される。
As shown in FIG. 15B, the
図15(C)を参照して、映像信号合成装置1200から端末100cに送信されるストリームデータ1530は、領域1531〜1534を含む。ヘッダは、領域1531に格納されている。端末100aにより生成された映像データAは、領域1532に格納されている。端末100bにより生成された映像データBは、領域1533に格納されている。端末100dにより生成された映像データDは、領域1534に格納されている。すなわち端末100cにより生成された映像データCは、映像信号合成装置1200から端末100cに対して送信されない。その結果、映像データCに相当するデータ量だけ通信量が削減される。
Referring to FIG. 15C,
さらに図15(D)を参照して、映像信号合成装置1200から端末100dに送信されるストリームデータ1540は、領域1541〜1544を含む。ヘッダは、領域1541に格納されている。端末100aにより生成された映像データAは、領域1542に格納されている。端末100bにより生成された映像データBは、領域1543に格納されている。また端末100cにより生成された映像データCは、領域1544に格納されている。この場合、端末100dにより生成された映像データDは、映像信号合成装置1200から端末100dに送信されるデータに含まれない。
Further, referring to FIG. 15D,
端末100dがストリームデータ1540を受信すると、自らが生成した映像データDと、ストリームデータ1540に含まれる映像データA〜Cとを合成して、表示用のデータを生成する。モニタテレビ130は、このようにして生成されたデータに基づいて端末100aから100dにより撮影された映像をそれぞれの領域に表示する。
When the terminal 100d receives the
以上のようにして、本変形例に係るテレビ会議システムによれば、当該システムを構成する各端末は、映像信号合成装置から、自己において生成された映像を含まないストリームデータの配信を受ける。各端末は、受信したストリームデータに含まれている他の端末により生成された映像データと、自らが作成した映像データとを合成する。このようにすると、テレビ会議システムを構成する通信回線におけるデータ通信量を削減することができるため、映像の表示を速やかに実現することができる。 As described above, according to the video conference system according to the present modification, each terminal configuring the system receives distribution of stream data that does not include video generated by itself from the video signal synthesis device. Each terminal synthesizes video data generated by another terminal included in the received stream data and video data created by itself. In this way, the amount of data communication on the communication line that constitutes the video conference system can be reduced, so that video display can be realized quickly.
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
10 テレビ会議システム、100a,100b,100c,100d 端末、110 カメラ、120 マイク、130 テレビモニタ、400 ストリームデータの生成装置、410,470 映像インターフェイス、420,480 音声インターフェイス、430 メモリ、440,1240 送信部、450,1210 受信部、460 MPEGデコーダ、500 MPEGエンコーダ、510 受信バッファ、520 符号化回路、530 抽出回路、540 送信バッファ、1200 映像信号合成装置、1220 多地点接続用コントローラ、1222 有効ストリーム抽出部、1224 ストリーム合成部、1230 音声パケット合成部。
10 video conference system, 100a, 100b, 100c, 100d terminal, 110 camera, 120 microphone, 130 TV monitor, 400 stream data generator, 410, 470 video interface, 420, 480 audio interface, 430 memory, 440, 1240
Claims (17)
映像信号の入力を受けるステップと、
前記表示領域において予め定められた一部の領域を特定するための領域情報を準備するステップと、
前記領域情報に基づいて前記映像信号を符号化することにより、前記映像信号に基づく映像を前記一部の領域に表示するための映像データを生成する生成ステップと、
前記映像データの送信のためのデータを生成するステップと、
前記送信のためのデータを前記通信回線に対して出力するステップとを含み、
前記通信回線に電気的に接続された映像信号合成装置において、各々の前記端末から出力されたデータに基づいて映像信号を合成するステップをさらに備え、前記映像信号を合成するステップは、
前記通信回線を介して、前記複数の端末の各々により出力された各々のストリームデータの入力を受けるステップを備え、前記各々のストリームデータは、前記表示領域の一部に映像を表示するために予め定められた位置に応じて符号化された映像データを含み、前記位置は、前記複数のストリームデータの各々に応じて異なり、
前記複数のストリームデータに基づいて、各々の前記映像データに基づく映像を前記表示領域にそれぞれ表示するための表示用データを生成する合成ステップと、
前記生成された表示用データの送信のためのデータを生成するステップと、
前記通信回線に、前記生成された送信のためのデータを出力するステップとを含み、
前記複数の端末の各々において、前記映像信号合成装置から、前記送信のためのデータに基づいて生成されたデータを受信するステップと、
前記複数の端末の各々において、前記受信されたデータに基づいて復号処理を実行することにより表示用のデータを生成するステップと、
前記複数の端末の各々において、前記表示用のデータに基づいて、前記表示手段に映像を表示させるステップとをさらに備える、ストリームデータの生成方法。 A plurality of terminals electrically connected to a communication line, each of which includes a step of generating stream data, each of the plurality of terminals including display means for displaying a video in a display area based on a video signal; The step to generate
Receiving a video signal input;
Preparing region information for specifying a predetermined region in the display region;
Generating the video data for displaying the video based on the video signal in the partial area by encoding the video signal based on the area information;
Generating data for transmission of the video data;
Outputting the data for transmission to the communication line,
In the video signal synthesizer electrically connected to the communication line, the video signal synthesizer further comprises the step of synthesizing the video signal based on the data output from each of the terminals, and the step of synthesizing the video signal comprises:
Receiving each stream data output from each of the plurality of terminals via the communication line, wherein each stream data is preliminarily displayed in order to display a video in a part of the display area. Including video data encoded according to a predetermined position, the position being different according to each of the plurality of stream data,
Based on the plurality of stream data, a synthesis step for generating display data for displaying each video based on the video data in the display area;
Generating data for transmission of the generated display data;
Outputting the generated data for transmission to the communication line,
In each of the plurality of terminals, receiving data generated based on the data for transmission from the video signal synthesizer;
In each of the plurality of terminals, generating display data by performing a decoding process based on the received data;
Each of the plurality of terminals further comprises a step of displaying a video on the display means based on the display data.
前記複数のストリームデータの各々から、各々の前記映像データを抽出するステップと、
前記抽出された映像データについて予め定められた位置に基づいて、前記抽出された映像データをそれぞれ合成することにより前記表示データを生成するステップとを含む、請求項1〜3のいずれかに記載のストリームデータの生成方法。 The synthesis step includes
Extracting each of the video data from each of the plurality of stream data;
The step of generating the display data by respectively combining the extracted video data based on a predetermined position with respect to the extracted video data. How to generate stream data.
表示領域に映像を表示する表示手段と、
前記表示領域において予め定められた一部の領域を特定するための領域情報を格納する記憶手段と、
映像信号の入力を受ける入力手段と、
前記領域情報に基づいて前記映像信号を符号化することにより、前記映像信号に基づく映像を前記一部の領域に表示するための映像データを生成する生成手段と、
前記映像データの送信のためのデータを生成する送信データ生成手段と、
前記通信回線に電気的に接続され、前記送信のためのデータを前記通信回線に対して出力する出力手段とを含み、
前記通信回線に電気的に接続された映像信号合成装置をさらに備え、前記映像信号合成装置は、
前記通信回線を介して、複数のストリームデータの入力を受ける入力手段を備え、前記複数のストリームデータの各々は、映像の表示領域の一部に映像を表示するために予め定められた位置に応じて符号化された映像データを含み、前記位置は、前記複数のストリームデータの各々に応じて異なり、
前記複数のストリームデータに基づいて、各々の前記映像データに基づく映像を前記表示領域にそれぞれ表示するための表示用データを生成する合成手段と、
前記合成手段により生成された表示用データの送信のためのデータを生成する送信データ生成手段と、
前記通信回線に、前記生成された送信のためのデータを出力する出力手段とを含み、
前記生成装置は、
前記通信回線から、前記送信のためのデータに基づいて生成されたデータを受信する受信手段と、
前記受信手段により受信されたデータに基づいて復号処理を実行することにより表示用のデータを生成する復号手段と、
前記表示用のデータに基づいて、前記表示手段に映像を表示させる制御手段とをさらに含む、テレビ会議システム。 Comprising a generating device electrically connected to a communication line, the generating device comprising:
Display means for displaying video in the display area;
Storage means for storing area information for specifying a predetermined area in the display area;
An input means for receiving an input of a video signal;
Generating means for generating video data for displaying the video based on the video signal in the partial area by encoding the video signal based on the area information;
Transmission data generating means for generating data for transmission of the video data;
Output means electrically connected to the communication line and outputting data for transmission to the communication line;
The video signal synthesis device further comprising a video signal synthesis device electrically connected to the communication line,
Input means for receiving a plurality of stream data inputs via the communication line, each of the plurality of stream data corresponding to a predetermined position for displaying a video in a part of a video display area. Encoded video data, and the position differs according to each of the plurality of stream data,
Based on the plurality of stream data, combining means for generating display data for displaying each video based on the video data in the display area;
Transmission data generating means for generating data for transmission of display data generated by the combining means;
Output means for outputting the generated data for transmission to the communication line;
The generator is
Receiving means for receiving data generated based on the data for transmission from the communication line;
Decoding means for generating display data by executing a decoding process based on the data received by the receiving means;
The video conference system further comprising: control means for displaying video on the display means based on the display data.
前記表示領域において予め定められた一部の領域を特定するための領域情報を格納する記憶手段と、
映像信号の入力を受ける入力手段と、
前記領域情報に基づいて前記映像信号を符号化することにより、前記映像信号に基づく映像を前記一部の領域に表示するための映像データを生成する生成手段と、
通信回線に電気的に接続され、前記映像データを前記通信回線に対して出力するための出力手段と、
前記通信回線から、前記送信のためのデータに基づいて生成されたデータを受信する受信手段と、
前記受信手段により受信されたデータに基づいて復号処理を実行することにより表示用のデータを生成する復号手段と、
前記表示用のデータに基づいて、前記表示手段に映像を表示させる制御手段とを備える、ストリームデータの生成装置。 Display means for displaying video in the display area;
Storage means for storing area information for specifying a predetermined area in the display area;
An input means for receiving an input of a video signal;
Generating means for generating video data for displaying the video based on the video signal in the partial area by encoding the video signal based on the area information;
An output means electrically connected to a communication line for outputting the video data to the communication line;
Receiving means for receiving data generated based on the data for transmission from the communication line;
Decoding means for generating display data by executing a decoding process based on the data received by the receiving means;
A stream data generating apparatus, comprising: control means for displaying video on the display means based on the display data.
前記変更手段は、前記記憶手段に格納されている領域情報を、前記指示入力手段を介して入力された領域情報に変更する、請求項10に記載のストリームデータの生成装置。 It further comprises an instruction input means for receiving area information input from the outside,
The stream data generation device according to claim 10, wherein the changing unit changes the region information stored in the storage unit to the region information input via the instruction input unit.
前記変更手段は、前記記憶手段に格納されている領域情報を、前記受信されたデータに含まれる領域情報に変更する、請求項10に記載のストリームデータの生成装置。 The receiving means receives data including the area information from the communication line,
The stream data generation device according to claim 10, wherein the changing unit changes the region information stored in the storage unit to region information included in the received data.
前記複数のストリームデータに基づいて、各々の前記映像データに基づく映像を前記表示領域にそれぞれ表示するための表示用データを生成する合成手段と、
前記合成手段により生成された表示用データの送信のためのデータを生成する送信データ生成手段と、
前記通信回線に、前記生成された送信のためのデータを出力する出力手段とを備える、ストリームデータの合成装置。 Input means for receiving a plurality of stream data inputs via a communication line, each of the plurality of stream data corresponding to a predetermined position for displaying a video in a part of a video display area Including encoded video data, and the position differs according to each of the plurality of stream data;
Based on the plurality of stream data, combining means for generating display data for displaying each video based on the video data in the display area;
Transmission data generating means for generating data for transmission of display data generated by the combining means;
An apparatus for synthesizing stream data, comprising: output means for outputting the generated data for transmission to the communication line.
前記複数のストリームデータの各々から、各々の前記映像データを抽出する抽出手段と、
前記抽出された映像データについて予め定められた位置に基づいて、前記抽出された映像データをそれぞれ合成することにより、前記表示データを生成する生成手段とを含む、請求項13に記載のストリームデータの合成装置。 The synthesis means includes
Extraction means for extracting each of the video data from each of the plurality of stream data;
14. The stream data according to claim 13, further comprising: generation means for generating the display data by combining the extracted video data based on a predetermined position with respect to the extracted video data. Synthesizer.
前記合成手段は、前記複数のストリームデータの各々の前記時刻データに基づいて、前記表示用データを生成する、請求項13または請求項14に記載のストリームデータの合成装置。 Each of the plurality of stream data includes time data for specifying a time at which each of the stream data is generated,
15. The stream data synthesizing apparatus according to claim 13, wherein the synthesizing unit generates the display data based on the time data of each of the plurality of stream data.
前記合成手段は、前記特定データに基づいて、前記表示データを生成する、請求項13〜16のいずれかに記載のストリームデータの合成装置。 Each of the plurality of stream data includes specific data for specifying an area in which video based on the video data is displayed,
The stream data synthesizing apparatus according to claim 13, wherein the synthesizing unit generates the display data based on the specific data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005126542A JP2006304182A (en) | 2005-04-25 | 2005-04-25 | Stream data generating method, video conference system, stream data generating device, and stream data compositing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005126542A JP2006304182A (en) | 2005-04-25 | 2005-04-25 | Stream data generating method, video conference system, stream data generating device, and stream data compositing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006304182A true JP2006304182A (en) | 2006-11-02 |
Family
ID=37471903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005126542A Withdrawn JP2006304182A (en) | 2005-04-25 | 2005-04-25 | Stream data generating method, video conference system, stream data generating device, and stream data compositing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006304182A (en) |
-
2005
- 2005-04-25 JP JP2005126542A patent/JP2006304182A/en not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2513912C2 (en) | Image processing method and apparatus | |
JP2008228282A (en) | Image processing device | |
KR20090126176A (en) | Information processing apparatus and method, and program | |
US20200288123A1 (en) | Image processing apparatus and image processing method | |
JP2011087195A (en) | Image processor and image processing method | |
JP2012109720A (en) | Picture conversion device, picture reproduction device, and picture conversion method | |
JP2005318463A (en) | Data transmitting apparatus and method | |
TW201143443A (en) | Method and system for 3D video decoding using a tier system framework | |
JP2006222942A (en) | Image synthesizer, and method and program for synthesizing image | |
JP2010157906A (en) | Video display device | |
TWI538519B (en) | Capture apparatuses of video images | |
JP2011166615A (en) | Video synchronizing apparatus, video display device, video synchronizing method and program | |
JPS62200994A (en) | Animation communication system | |
US20180332439A1 (en) | Method, device, and non-transitory computer-readable recording medium for supporting relay broadcasting using mobile device | |
JP2004040351A (en) | Image distribution system and image distribution reproducing system | |
JP2573177B2 (en) | Graphic display device in electronic conference system | |
JP2006304182A (en) | Stream data generating method, video conference system, stream data generating device, and stream data compositing device | |
JP2005341325A (en) | Multi-point video conference system, multi-point video conference control method, server apparatus, multi-point video conference control program, and program recording medium thereof | |
JPH09116759A (en) | Image decoder and image coding decoding system | |
JP4275629B2 (en) | Data transmission / reception device, image processing device, and image processing method | |
JP2007041718A (en) | Information distribution system, information distribution apparatus, information receiver, and program | |
JP2009296135A (en) | Video monitoring system | |
JPH0715708A (en) | Image transmission system | |
JPWO2007122907A1 (en) | Image codec device | |
JP2008011191A (en) | Video encoding/compositing apparatus, video encoding/compositing method and video transmitting system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080701 |