JP2007201938A - Communication terminal, communication system, and communication method - Google Patents

Communication terminal, communication system, and communication method Download PDF

Info

Publication number
JP2007201938A
JP2007201938A JP2006019556A JP2006019556A JP2007201938A JP 2007201938 A JP2007201938 A JP 2007201938A JP 2006019556 A JP2006019556 A JP 2006019556A JP 2006019556 A JP2006019556 A JP 2006019556A JP 2007201938 A JP2007201938 A JP 2007201938A
Authority
JP
Japan
Prior art keywords
unit
communication terminal
videos
display area
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006019556A
Other languages
Japanese (ja)
Other versions
JP4799191B2 (en
Inventor
Tatsuo Yoshino
達生 吉野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2006019556A priority Critical patent/JP4799191B2/en
Publication of JP2007201938A publication Critical patent/JP2007201938A/en
Application granted granted Critical
Publication of JP4799191B2 publication Critical patent/JP4799191B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To quickly and simply transmit an arbitrary still image with a communication terminal for transmitting and receiving a time-varying image in real time. <P>SOLUTION: If image data input in a frame memory 122 is only the still image, a motion vector of the whole macro block is made zero, and the still image is made an I picture. Then, there is no need to transmit B, P pictures. Thus, the still image can be relatively finely transmitted to the communication terminal 1 of the counterpart as a moving image even when a transmission bandwidth of a network 10 narrows. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は通信端末、通信システムおよび通信方法に係り、特に画像ないし音声による双方向コミュニケーションを提供する端末、システムおよび方法に関する。   The present invention relates to a communication terminal, a communication system, and a communication method, and more particularly to a terminal, a system, and a method that provide bidirectional communication using images or sounds.

動画像、音声を圧縮する方式として、「MPEG」方式がある。MPEGによる動画像圧縮では、画像をマクロブロックと呼ばれる16画素×16画素の矩形ブロック群に分割し、時間的に前後の画像の中から、圧縮するマクロブロックに似た領域(参照領域)を抽出し、参照領域との空間的な距離、方位(動きベクトル)と、参照領域と圧縮しようとする領域の差分情報を計算し、これらの情報を、DCT(離散コサイン変換)、可変長符号化を用いてビットストリームに圧縮し、時間的冗長度を減らすことにより、データ量を削減する。しかし、差分情報によって圧縮された画像は参照する画像がないと伸長できないため、ビットストリームの途中から伸長するような用途(以下、「ランダムアクセス」と称する。)に対処するためには、他の画像を参照しない画像を周期的に設ける必要がある。この画像を「Iピクチャ」(Intra Picture)と称する。Iピクチャを参照画像として、次の画像を圧縮し、さらに、すでに圧縮された画像を参照画像として後続の画像を圧縮していく。   As a method for compressing moving images and audio, there is an “MPEG” method. In MPEG video compression, an image is divided into 16 × 16 pixel rectangular blocks called macroblocks, and an area (reference area) similar to the macroblock to be compressed is extracted from the temporally preceding and following images. Then, the spatial distance and direction (motion vector) from the reference area and the difference information between the reference area and the area to be compressed are calculated, and these pieces of information are converted into DCT (discrete cosine transform) and variable length coding. The amount of data is reduced by using it to compress into a bitstream and reducing temporal redundancy. However, since an image compressed by the difference information cannot be expanded without an image to be referred to, in order to cope with a use in which the bitstream is expanded from the middle (hereinafter referred to as “random access”), It is necessary to periodically provide images that do not refer to images. This image is called an “I picture” (Intra Picture). The next image is compressed using the I picture as a reference image, and the subsequent images are further compressed using the already compressed image as a reference image.

参照画像を用いて圧縮する画像の中には、時間的に前の画像のみを参照画像とする"Pピクチャ" (Predictive-coded Picture)と、時間的に前後の画像を参照画像とする"Bピクチャ" (Bidirectionally predictive-coded Picture)がある。Pピクチャは、Iピクチャと同様に、他の画像の参照画像となりうる。MPEGでは、Iピクチャ及びそれと直接間接的に参照関係にある一連の画像集合体より、GOP(Group Of Pictures)を構成する事が可能である。GOPには、GOPヘッダが付加される。GOPは、ランダムアクセスの単位として用いる。   Among the images to be compressed using the reference image, a “P picture” (Predictive-coded Picture) in which only the previous image in time is used as a reference image and a “B picture in which images before and after in time are used as reference images” "Picture" (Bidirectionally predictive-coded Picture). A P picture can be a reference image of another image, like an I picture. In MPEG, a GOP (Group Of Pictures) can be configured from an I picture and a series of image aggregates that are directly and indirectly related thereto. A GOP header is added to the GOP. GOP is used as a unit of random access.

Bピクチャを用いる圧縮では、時間的に前後の画像を参照画像として使用するために、入力される画像の順番と圧縮の結果得られるビットストリーム上での画像の順番を入れ替える処理を行う。   In compression using a B picture, in order to use temporally previous and subsequent images as reference images, processing is performed to switch the order of input images and the order of images on the bitstream obtained as a result of compression.

MPEGによる動画像圧縮では、スキップという方法により、さらに圧縮効率を上げている。これは、Bピクチャ、Pピクチャの符号化において、符号化している現在の画像のマクロブロックが時間的に前の画像のマクロブロックとデータが同じ場合、そのマクロブロックをスキップドマクロとしてデータを送らないようにする。復号化では、直前のIピクチャ又はPピクチャから復号化される画像データと同一の画像データを復元する。
特許公開2001−103429号公報 特許公開2001−224028号公報 特許公開2002−10214号公報 特許公開平8−126012号公報
In moving picture compression by MPEG, the compression efficiency is further increased by a method called skipping. In B picture and P picture coding, if the macroblock of the current picture being coded is the same as the macroblock of the previous picture in time, the data is sent as a skipped macro. Do not. In decoding, the same image data as the image data decoded from the immediately preceding I picture or P picture is restored.
Japanese Patent Publication 2001-103429 Japanese Patent Publication No. 2001-224028 Japanese Patent Publication No. 2002-10214 Japanese Patent Publication No. 8-12612

ところで、TV電話、TV会議システムにみられるような通信ネットワークを介して接続された端末同士でリアルタイムに複数の映像を相互に交信し、端末の受信した複数の映像を1つの画面上で表示する場合、自分方端末から相手方端末に送る映像として予め用意された静止画を選択できるようにすると便宜であるが、選択の都度静止画像データそのもの(JPEG形式のファイルなど)を送るとすると、データ量が一時的に増加し他の映像の伝送を圧迫する。また、静止画像データそのものを送ると、不要な静止画像が相手方に残ってしまうし、むしろ残してもらいたくないこともある。   By the way, a plurality of videos are mutually exchanged in real time between terminals connected via a communication network such as that found in a TV phone or a TV conference system, and a plurality of videos received by the terminals are displayed on one screen. In this case, it is convenient to be able to select a still image prepared in advance as a video to be transmitted from one's own terminal to the other terminal. However, if still image data itself (such as a JPEG format file) is sent each time it is selected, the amount of data Temporarily increases and puts pressure on the transmission of other images. Also, if the still image data itself is sent, an unnecessary still image may remain on the other party, or it may not be desired to leave it.

本発明の目的は、リアルタイムで動画像を送受信する通信端末において、任意の静止画像を迅速かつ簡便に送ることにある。   An object of the present invention is to send an arbitrary still image quickly and easily in a communication terminal that transmits and receives a moving image in real time.

一方、複数系統から別個に自分方端末に入力される映像データ(動画、静止画を含む)を平等な伝送帯域で相手方端末に送ると、様々な弊害が予想される。   On the other hand, if video data (including moving images and still images) that are separately input from a plurality of systems to the own terminal is sent to the counterpart terminal in an equal transmission band, various adverse effects are expected.

例えば、比較的大きく表示される映像の伝送帯域が小さいと、画面の精細さが損なわれる。画質を優先させるためフレームレートを低下させてもよいが、動きがカクカクして見づらくなり好ましくない。   For example, if the transmission band of a video that is displayed relatively large is small, the fineness of the screen is impaired. Although the frame rate may be lowered in order to prioritize the image quality, it is not preferable because the movement becomes stiff and difficult to see.

逆に、比較的小さく表示される映像の伝送帯域を大きく確保しても、結局相手方で小さくリサイズされてしまうため、精細なデータを送っても無意味である。   On the other hand, even if a relatively large transmission band for a video to be displayed is ensured, the other party will eventually be resized to a small size, so sending fine data is meaningless.

本発明の他の目的は、リアルタイム動画像送受信端末において、限られた伝送帯域から、複数の映像を伝送する帯域を適切に割り当てることにある。   Another object of the present invention is to appropriately allocate a band for transmitting a plurality of videos from a limited transmission band in a real-time moving image transmitting / receiving terminal.

上述の課題を解決するため、本発明に係る通信端末は、所望の静止画像を入力する入力部と、入力部に入力された静止画像を展開する展開部と、展開部に展開された静止画像を参照画像としかつ参照画像に対する動きベクトルが零の差分画像により1フレームの動画像に復元されるような圧縮動画像を符号化する符号化部と、符号化部の符号化した圧縮動画像を所望の相手方に送信する送信部と、を備える。   In order to solve the above-described problem, a communication terminal according to the present invention includes an input unit that inputs a desired still image, a developing unit that develops the still image input to the input unit, and a still image developed on the developing unit. A reference image and an encoding unit that encodes a compressed moving image that is restored to a one-frame moving image by a difference image having a zero motion vector with respect to the reference image, and an encoded compressed moving image encoded by the encoding unit A transmission unit for transmitting to a desired partner.

この通信端末は、所望の静止画像を、該静止画像を参照画像としかつ動きベクトルが0の差分画像で復号化される圧縮動画像を所望の相手方に送信する。相手方の通信端末は、受信した参照画像と差分画像から、該静止画像をフレーム動画像として復号化できる。   The communication terminal transmits a desired still image, and a compressed moving image that is decoded with a difference image having a motion vector of 0 using the still image as a reference image, to a desired counterpart. The counterpart communication terminal can decode the still image as a frame moving image from the received reference image and difference image.

この通信端末は、1または複数の静止画像の入力系統から所望の静止画像の入力系統を選択する選択部を備え、入力部は選択部の選択した静止画像の入力系統から所望の静止画像を入力するようにしてもよい。   The communication terminal includes a selection unit that selects a desired still image input system from one or a plurality of still image input systems, and the input unit inputs a desired still image from the still image input system selected by the selection unit. You may make it do.

自分方の通信端末の選択部によって静止画の入力元がいずれに切り替わっても、入力元の種類とは無関係に、静止画に相当する部分が動きベクトル零となるようなフレーム動画像が相手方の通信端末にリアルタイムで送信される。このため、選択部による静止画の入力元が不定期に切り替わっても、これに追従して、相手方の通信端末に送信されるフレーム動画像がすみやかに切り替わり、結果的に相手方の通信端末で表示される静止画もすみやかに切り替わる。   Regardless of the type of input source, regardless of the type of the input source, a frame moving image whose motion vector is zero is displayed on the other side regardless of the input source type. Sent to the communication terminal in real time. For this reason, even if the input source of the still image by the selection unit is switched irregularly, the frame moving image transmitted to the other party's communication terminal is switched immediately following this, and consequently displayed on the other party's communication terminal. The still image to be displayed is switched quickly.

この通信端末は、手動の入力操作を受け付ける操作部と、静止画像の入力系統の一覧を表示する入力系統表示部をさらに備え、選択部は、入力系統表示部に表示された静止画像の入力系統の一覧から、操作部への入力操作により任意に指定された入力系統を選択するようにしてもよい。   The communication terminal further includes an operation unit that receives a manual input operation, and an input system display unit that displays a list of still image input systems, and the selection unit is configured to input a still image input system displayed on the input system display unit. From this list, an input system arbitrarily designated by an input operation to the operation unit may be selected.

また、上述の課題を解決するため、本発明に係る通信端末は、複数の入力系統から入力される映像を個別に符号化する複数の符号化部と、複数の符号化部が符号化した複数の映像を相手方の通信端末に送信する送信部と、送信部により相手方の通信端末に送信された複数の映像の相手方の通信端末の表示画面における各々の表示面積を特定させることのできる表示面積特定信号を受信する表示面積特定信号受信部と、ネットワークの伝送帯域を推定する帯域推定部と、表示面積特定信号受信部の受信した表示面積特定信号で示される複数の映像の各々の表示面積の比におおよそ従い、帯域推定部の推定した伝送帯域の範囲内で複数の映像の各々の送信帯域の割り当てを決定する帯域割当部と、帯域割当部の割り当てた送信帯域の範囲内で複数の符号化部による複数の映像の符号化の量を制御する符号化制御部と、を備える。   In order to solve the above-described problem, a communication terminal according to the present invention includes a plurality of encoding units that individually encode videos input from a plurality of input systems, and a plurality of encoding units encoded by a plurality of encoding units. A display area that can specify each display area on the display screen of the communication terminal of the other party of a plurality of images transmitted by the transmission unit to the other party's communication terminal Ratio of display area of each of the plurality of images indicated by the display area specifying signal received by the display area specifying signal received by the display area specifying signal receiving unit, the band estimating unit for estimating the transmission band of the network, and the display area specifying signal receiving unit In general, a bandwidth allocation unit that determines allocation of transmission bands for each of a plurality of videos within the range of the transmission band estimated by the bandwidth estimation unit, and a plurality of bandwidths within the range of the transmission band allocated by the bandwidth allocation unit It comprises a coding control unit that controls the amount of coding a plurality of picture by the encoding unit.

こうすると、限られた伝送帯域の中から、相手方端末における映像の表示面積の大小に応じた送信帯域を割り当てることができる。大きく表示される映像には相対的に大きな帯域を割り当てて相手方に送信し、精細に表示させることができる。また、小さく表示される映像には相対的に小さな帯域を割り当てて相手方に送信し、おおまかに表示させることができる。   In this way, it is possible to allocate a transmission band according to the size of the video display area on the counterpart terminal from the limited transmission band. A relatively large band can be allocated to a large display video and transmitted to the other party for fine display. In addition, a relatively small band can be allocated to the video displayed in a small size and transmitted to the other party to be displayed roughly.

この通信端末は、複数の映像の各々の表示面積の比に応じた送信帯域の割り当てと帯域推定部により推定されるべき伝送帯域とが対応づけられた割当テーブルを記憶する割当テーブル記憶部をさらに備え、帯域割当部は、割当テーブル記憶部の割当テーブルを参照し、帯域推定部により推定された伝送帯域に対応づけられた複数の映像の各々の割り当てに従って送信帯域の割り当てを決定するようにしてもよい。   The communication terminal further includes an allocation table storage unit that stores an allocation table in which transmission band allocation according to a display area ratio of each of a plurality of videos is associated with a transmission band to be estimated by the band estimation unit The bandwidth allocation unit refers to the allocation table of the allocation table storage unit, and determines transmission band allocation according to each allocation of a plurality of videos associated with the transmission band estimated by the bandwidth estimation unit. Also good.

なお、帯域推定の技術は任意であり、例えば、「帯域適応レート制御方式」(BARC)のような、RTP(Real-Time Transport Protocol)のセッション制御を行うプロトコル「RTCP(RTP Control Protocol)」により、ネットワークの状況を監視する技術を用いることができる。   The bandwidth estimation technique is arbitrary. For example, a protocol “RTCP (RTP Control Protocol)” that performs RTP (Real-Time Transport Protocol) session control, such as “Band Adaptive Rate Control Method” (BARC). A technique for monitoring the status of the network can be used.

割当テーブルに記憶された複数の映像の各々の送信帯域の割り当ては所定の下限値を上回るようにすることが好ましい。   It is preferable that the transmission band allocation of each of the plurality of videos stored in the allocation table exceeds a predetermined lower limit value.

表示面積比に厳密に従って映像の送信帯域を割り当てると、推定された伝送帯域が小さい場合は、面積比の小さい方の映像の画質が視覚に耐えないほど低下してしまうことが予想される。このため、表示面積の小さい方の送信帯域は所定の下限値を上回るよう割り当てる。   If video transmission bands are assigned in strict accordance with the display area ratio, it is expected that when the estimated transmission band is small, the image quality of the video with the smaller area ratio will deteriorate beyond visual perception. For this reason, the transmission band with the smaller display area is assigned to exceed the predetermined lower limit value.

表示面積特定信号受信部の受信する表示面積特定信号は、相手方の通信端末が表示する複数の映像の各々を表示するエリアを規定する表示モードを特定する情報を含み、帯域割当部は、表示面積特定信号受信部の受信した表示面積特定信号から相手方の通信端末で設定されている表示モードを特定し、特定した表示モードにおいて複数の映像の各々が表示されるエリアの面積比に応じて各エリアに表示される映像の送信帯域の割り当てを決定するようにしてもよい。   The display area specifying signal received by the display area specifying signal receiving unit includes information for specifying a display mode that defines an area for displaying each of a plurality of videos displayed by the counterpart communication terminal, and the band allocating unit displays the display area. The display mode set by the communication terminal of the other party is specified from the display area specifying signal received by the specific signal receiving unit, and each area according to the area ratio of the areas where each of the plurality of videos is displayed in the specified display mode The allocation of the transmission band of the video displayed on the screen may be determined.

表示モードは1画面が所定の面積で等分割された表示エリアの一部または全部における複数の映像の各々の配置を規定するようにしてもよい。   In the display mode, the arrangement of each of a plurality of videos in part or all of a display area in which one screen is equally divided by a predetermined area may be defined.

本発明に係る通信システムは、所望の静止画像を入力する入力部と、入力部に入力された静止画像を展開する展開部と、展開部に展開された静止画像を参照画像としかつ参照画像に対する動きベクトルが零の差分画像により1フレームの動画像に復元されるような圧縮動画像を符号化する符号化部と、符号化部の符号化した圧縮動画像を送信する送信部と、を備える送信側通信端末と、送信側通信端末から符号化された圧縮動画像を受信する受信部と、受信部の受信した符号化された圧縮動画像を復号化する復号化部と、復号化部の復号化した圧縮動画像を1フレームの動画像に展開する展開部と、展開部の展開した1フレームの動画像を静止画像として表示する表示部と、を備える受信側通信端末と、を備える。   A communication system according to the present invention includes an input unit that inputs a desired still image, a developing unit that develops a still image input to the input unit, a still image developed in the developing unit as a reference image, and a reference image An encoding unit that encodes a compressed moving image that is restored to a one-frame moving image with a difference image having a motion vector of zero, and a transmission unit that transmits the compressed moving image encoded by the encoding unit. A transmitting communication terminal, a receiving unit that receives a compressed moving image encoded from the transmitting communication terminal, a decoding unit that decodes the encoded compressed moving image received by the receiving unit, and a decoding unit A receiving-side communication terminal including: a developing unit that develops the decoded compressed moving image into a one-frame moving image; and a display unit that displays the one-frame moving image developed by the developing unit as a still image.

本発明に係る通信システムは、複数の入力系統から入力される映像を個別に符号化する複数の符号化部と、複数の符号化部が符号化した複数の映像をネットワークを介して送信する送信部と、ネットワークの伝送帯域を推定する帯域推定部とを備える送信側通信端末、および送信側通信端末からネットワークを介して符号化された複数の映像を受信する受信部と、受信部の受信した符号化された複数の映像を復号化する復号化部と、復号化部の復号化した複数の映像を展開する展開部と、展開部の展開した複数の映像を表示する表示部とを備える受信側通信端末に関する。   The communication system according to the present invention includes a plurality of encoding units that individually encode images input from a plurality of input systems, and a transmission that transmits a plurality of images encoded by the plurality of encoding units via a network. And a transmission side communication terminal including a bandwidth estimation unit that estimates a transmission band of the network, a reception unit that receives a plurality of videos encoded from the transmission side communication terminal via the network, and a reception unit received Receiving unit comprising: a decoding unit that decodes a plurality of encoded videos; a developing unit that develops the plurality of videos decoded by the decoding unit; and a display unit that displays the plurality of videos developed by the developing unit It is related with a communication terminal.

この通信システムにおいて、受信側通信端末は、送信側通信端末から送信された複数の映像の各々の表示部における表示面積を特定させることのできる表示面積特定信号を送信する表示面積特定信号送信部を備え、送信側通信端末は、受信側通信端末から表示面積特定信号を受信する表示面積特定信号受信部と、表示面積特定信号受信部の受信した表示面積特定信号で示される複数の映像の各々の表示面積の比におおよそ従い、帯域推定部の推定した伝送帯域の範囲内で複数の映像の各々の送信帯域の割り当てを決定する帯域割当部と、帯域割当部の割り当てた送信帯域の範囲内で複数の符号化部による複数の映像の符号化の量を制御する符号化制御部と、を備える。   In this communication system, the receiving communication terminal includes a display area specifying signal transmitting unit that transmits a display area specifying signal that can specify a display area in each display unit of a plurality of videos transmitted from the transmitting communication terminal. The transmission side communication terminal includes a display area specifying signal receiving unit that receives a display area specifying signal from the receiving side communication terminal, and each of the plurality of videos indicated by the display area specifying signal received by the display area specifying signal receiving unit. In accordance with the ratio of the display area, a bandwidth allocating unit that determines the allocation of each transmission band within the transmission band estimated by the band estimator, and a transmission band allocated by the band allocating unit. An encoding control unit that controls the amount of encoding of the plurality of videos by the plurality of encoding units.

本発明に係る通信方法は、所望の静止画像を入力するステップと、入力された静止画像を展開するステップと、展開された静止画像を参照画像としかつ参照画像に対する動きベクトルが零の差分画像により1フレームの動画像に復元されるような圧縮動画像を符号化するステップと、符号化された圧縮動画像を所望の相手方の通信端末に送信するステップと、を含む。   The communication method according to the present invention includes a step of inputting a desired still image, a step of expanding the input still image, a difference image having the expanded still image as a reference image and a motion vector with respect to the reference image being zero. A step of encoding a compressed moving image that is restored to a one-frame moving image; and a step of transmitting the encoded compressed moving image to a desired counterpart communication terminal.

また、本発明に係る通信方法は、複数の入力系統から入力される映像を個別に符号化するステップと、符号化された複数の映像を相手方の通信端末に送信するステップと、相手方の通信端末に送信された複数の映像の相手方の通信端末の表示画面における各々の表示面積を特定させることのできる表示面積特定信号を受信するステップと、ネットワークの伝送帯域を推定するステップと、受信した表示面積特定信号で示される複数の映像の各々の表示面積の比におおよそ従い、推定された伝送帯域の範囲内で複数の映像の各々の送信帯域の割り当てを決定するステップと、複数の映像の各々に割り当てられた送信帯域の範囲内で複数の映像の符号化の量を制御するステップと、を含む。   In addition, the communication method according to the present invention includes a step of individually encoding videos input from a plurality of input systems, a step of transmitting a plurality of encoded videos to a counterpart communication terminal, and a counterpart communication terminal. Receiving a display area specifying signal capable of specifying each display area on the display screen of the communication terminal of the other party of the plurality of images transmitted to the network, estimating a transmission band of the network, and receiving the display area Determining the transmission band allocation of each of the plurality of videos within the estimated transmission band within approximately the ratio of the display area of each of the plurality of videos indicated by the specific signal; and for each of the plurality of videos Controlling the amount of encoding of the plurality of videos within the allocated transmission band.

この発明によると、所望の静止画像を、該静止画像を参照画像としかつ動きベクトルが0の差分画像で復号化される圧縮動画像を所望の相手方に送信する。相手方の通信端末は、受信した参照画像と差分画像から、該静止画像をフレーム動画像として復号化できる。   According to the present invention, a desired still image is transmitted to a desired counterpart as a compressed moving image that is decoded with a difference image having the still image as a reference image and a motion vector of zero. The counterpart communication terminal can decode the still image as a frame moving image from the received reference image and difference image.

また、この発明によると、限られた伝送帯域の中から映像の表示面積の大小に応じた伝送帯域を割り当てることができる。大きく表示される映像には相対的に大きな帯域を割り当てて、精細に表示させることができる。また、小さく表示される映像には相対的に小さな帯域を割り当てて、おおまかに表示させることができる。   In addition, according to the present invention, it is possible to assign a transmission band corresponding to the size of the video display area from a limited transmission band. A relatively large band can be assigned to a large image to be displayed in detail. In addition, a relatively small band can be allocated to an image displayed in a small size so that the image is roughly displayed.

図1は本発明の好ましい実施形態に係る映像音声通信システムのブロック図である。このシステムは、同等の構成を有する通信端末1aと通信端末1bとがインターネットなどのネットワーク10を介して接続されており、互いに映像と音声を送受信する。   FIG. 1 is a block diagram of a video / audio communication system according to a preferred embodiment of the present invention. In this system, a communication terminal 1a and a communication terminal 1b having an equivalent configuration are connected via a network 10 such as the Internet, and transmit and receive video and audio.

通信端末1aと通信端末1bとは同様の構成であり、両者を区別するのはネットワークの通信相手を区別するためにすぎず、以下の説明において、両者の役割の全部または一部を入れ換えることもできることに注意を要する。両者をネットワークの通信相手として区別する必要がなければ、まとめて通信端末1と表すこともある。   The communication terminal 1a and the communication terminal 1b have the same configuration, and the difference between them is only to distinguish the communication partner of the network. In the following description, all or part of the roles of both may be interchanged. Note that you can. If it is not necessary to distinguish the two as communication partners of the network, they may be collectively referred to as the communication terminal 1.

ネットワーク10は、例えばADSL、光ファイバ(FTTH)、ケーブルテレビなどのブロードバンドネットワークや、ISDNなどのナローバンドネットワーク、UWB(Ultra Wide Band)やWi−Fi(Wireless Fidelity)といったIEEE 802.xx準拠の無線通信などで構成される。   The network 10 includes, for example, broadband networks such as ADSL, optical fiber (FTTH), and cable television, narrow band networks such as ISDN, IEEE 802.802 such as UWB (Ultra Wide Band) and Wi-Fi (Wireless Fidelity). It consists of xx-compliant wireless communication.

本実施形態では、ネットワーク10は、所定値の帯域(通信速度)が常に確保できるかどうかは保証されていないベストエフォート型ネットワークを想定する。ネットワーク10は、電話局と自宅の距離やADSLモデム間の通信速度、トラフィックの増減、セッションの相手方の通信環境などの各種要因で、公称されている最大帯域が実質的に制限されることがある。実効値が公称値の数分の一以下になる場合も多い。ネットワーク10の帯域は、ビット毎秒(bps)で表される。例えば、FTTHの公称帯域は100Mbpsなどが一般的であるが、実際には、数百kbpsにまで制限されることがある。   In the present embodiment, it is assumed that the network 10 is a best-effort network in which it is not guaranteed whether a predetermined bandwidth (communication speed) can always be secured. In the network 10, the nominal maximum bandwidth may be substantially limited due to various factors such as the distance between the telephone office and the home, the communication speed between the ADSL modem, the increase or decrease in traffic, and the communication environment of the other party of the session. . Often the rms value is less than a fraction of the nominal value. The bandwidth of the network 10 is expressed in bits per second (bps). For example, the nominal bandwidth of FTTH is generally 100 Mbps, but in practice, it may be limited to several hundred kbps.

通信端末1aと通信端末1bとの接続経路は、SIP(Session Initiation Protocol)サーバで構成された交換台サーバ6がネットワークアドレス(グローバルIPアドレスなど)、ポート、識別子(MACアドレスなど)を用いて指定する。名称や電子メールアドレスなど通信端末1のユーザに関する情報や通信端末1の接続に関する情報(アカウント情報)はアカウントデータベース(DB)8a内に格納されており、アカウント管理サーバ8によって管理されている。アカウント情報はWebサーバ7を介してアカウント管理サーバ8に接続した通信端末1から更新・変更・削除することもできる。Webサーバ7は、メールを送信するメールサーバ、ファイルのダウンロードを行うファイルサーバも兼ねている。   The connection path between the communication terminal 1a and the communication terminal 1b is designated by the switchboard server 6 constituted by a SIP (Session Initiation Protocol) server using a network address (such as a global IP address), a port, and an identifier (such as a MAC address). To do. Information relating to the user of the communication terminal 1 such as name and e-mail address and information relating to the connection of the communication terminal 1 (account information) are stored in the account database (DB) 8 a and managed by the account management server 8. The account information can be updated / changed / deleted from the communication terminal 1 connected to the account management server 8 via the Web server 7. The Web server 7 also serves as a mail server that transmits mail and a file server that downloads files.

通信端末1aは、マイク3a、カメラ4a、スピーカ2a、モニタ5aと接続され、カメラ4aで撮影された映像とマイク3aで集音された音声がネットワーク10を介して通信端末1bに送信される。通信端末1bも、マイク3b、カメラ4b、スピーカ2b、モニタ5bと接続され、同様に映像と音声とを通信端末1aに送信できる。   The communication terminal 1a is connected to the microphone 3a, the camera 4a, the speaker 2a, and the monitor 5a, and the video captured by the camera 4a and the sound collected by the microphone 3a are transmitted to the communication terminal 1b via the network 10. The communication terminal 1b is also connected to the microphone 3b, the camera 4b, the speaker 2b, and the monitor 5b, and can similarly transmit video and audio to the communication terminal 1a.

通信端末1bが受信した映像と音声はモニタ5b、スピーカ2bに出力され、通信端末1aが受信した映像と音声はそれぞれモニタ5a、スピーカ2aに出力される。なお、マイク3とスピーカ2はヘッドセットとして一体構成してもよい。   The video and audio received by the communication terminal 1b are output to the monitor 5b and the speaker 2b, and the video and audio received by the communication terminal 1a are output to the monitor 5a and the speaker 2a, respectively. The microphone 3 and the speaker 2 may be integrated as a headset.

図2は通信端末1の詳細構成を示すブロック図である。   FIG. 2 is a block diagram showing a detailed configuration of the communication terminal 1.

通信端末1の本体外面には、音声入力端子31、映像入力端子32、音声出力端子33、映像出力端子34が設けられており、それぞれマイク3、カメラ4、スピーカ2、モニタ5と接続される。   An audio input terminal 31, a video input terminal 32, an audio output terminal 33, and a video output terminal 34 are provided on the outer surface of the communication terminal 1, and are connected to the microphone 3, the camera 4, the speaker 2, and the monitor 5, respectively. .

外部入力端子30−1は、IEEE1394系の入力端子であり、デジタルビデオカメラ70からDV方式その他の仕様に従った動画像/静止画像/音声データの入力を受ける。外部入力端子30−2は、デジタルスチルカメラ71からJPEG仕様その他の仕様に従った静止画像の入力を受ける。   The external input terminal 30-1 is an IEEE 1394 input terminal, and receives input of moving image / still image / audio data in accordance with the DV system and other specifications from the digital video camera 70. The external input terminal 30-2 receives a still image input from the digital still camera 71 according to the JPEG specification and other specifications.

音声入力端子31に接続されたマイク3からオーディオデータ化部14に入力された音声信号と、NTSCデコーダ15の生成した色差信号は、MPEG4エンコーダなどの高画質対応符号器で構成されたCH1符号化部12−1によってデジタル圧縮符号化されてストリームデータ(リアルタイム配信可能な形式のコンテンツデータ)に変換される。このストリームデータをCH1ストリームデータとよぶ。   The audio signal input to the audio data converting unit 14 from the microphone 3 connected to the audio input terminal 31 and the color difference signal generated by the NTSC decoder 15 are encoded with CH1 encoded by a high-quality encoder such as an MPEG4 encoder. The data is digitally compressed and encoded by the unit 12-1 and converted into stream data (content data in a format that can be distributed in real time). This stream data is called CH1 stream data.

スイッチャ78によってデータ入力元となった、Webブラウザモジュール43がWebコンテンツサーバ90からダウンロードした静止画像もしくは動画像、デジタルビデオカメラ70からの静止画像もしくは動画像、デジタルスチルカメラ71からの静止画像もしくは動画像、ストリーミングモジュール44がストリーミングサーバ91からダウンロードした動画像、または記録メディア73からの動画像もしくは静止画像のいずれか1つ(以下、これらの画像入力元を、デジタルビデオカメラ70等の映像コンテンツ入力元と略称することもある)を含んだ映像信号と、スイッチャ78によってデータ入力元となった、ストリーミングモジュール44がストリーミングサーバ91からダウンロードした音声またはデジタルビデオカメラ70からの音声を含んだ音声信号(以下、これらの音声入力元を、デジタルビデオカメラ70等の音声入力元と略称することもある)とは、MPEG4エンコーダなどの高画質対応符号器で構成されたCH2符号化部12−2によってデジタル圧縮符号化されてストリームデータに変換される。このストリームデータをCH2ストリームデータとよぶ。   Still image or moving image downloaded from the web content server 90 by the web browser module 43, which is a data input source by the switcher 78, still image or moving image from the digital video camera 70, still image or moving image from the digital still camera 71 Image, the moving image downloaded by the streaming module 44 from the streaming server 91, or a moving image or a still image from the recording medium 73 (hereinafter, these image input sources are used to input video contents such as the digital video camera 70). Audio signal or digital video camera downloaded from the streaming server 91 by the streaming module 44 as a data input source by the switcher 78 An audio signal including audio from 0 (hereinafter, these audio input sources may be abbreviated as audio input sources of the digital video camera 70 or the like) is composed of a high image quality encoder such as an MPEG4 encoder. The CH2 encoder 12-2 performs digital compression encoding and converts the stream data. This stream data is called CH2 stream data.

CH2符号化部12−2は、デジタルビデオカメラ70等から入力される静止画を、動画像に変換して出力する機能を有する。この機能の詳細は後述する。   The CH2 encoding unit 12-2 has a function of converting a still image input from the digital video camera 70 or the like into a moving image and outputting the moving image. Details of this function will be described later.

合成部51−1は、CH1ストリームデータと、CH2ストリームデータとを合成したストリームデータ(合成ストリームデータ)を作成し、パケット化部25に出力する。   The combining unit 51-1 creates stream data (combined stream data) obtained by combining the CH1 stream data and the CH2 stream data, and outputs the stream data to the packetizing unit 25.

合成ストリームデータはパケット化装置25によってパケット化され、一旦送信バッファ26に記憶される。送信バッファ26は、通信インターフェース13を介し、パケットを一定のタイミングでネットワーク10に送出する。送信バッファ26は、例えば、30フレーム毎秒の動画像が取り込まれると、1パケットに1フレームのデータを記憶して送出する能力を有する。   The combined stream data is packetized by the packetizer 25 and temporarily stored in the transmission buffer 26. The transmission buffer 26 sends the packet to the network 10 at a certain timing via the communication interface 13. For example, when a moving image of 30 frames per second is captured, the transmission buffer 26 has a capability of storing and transmitting data of one frame in one packet.

なお、本実施形態では、ネットワーク10の伝送帯域の減少が推定されても、伝送フレームレートを低下させること、すなわちフレームを間引くことは行わない。これは映像の動きがカクカクして滑らかでなくなるのを防ぐためである。   In the present embodiment, even if a decrease in the transmission band of the network 10 is estimated, the transmission frame rate is not reduced, that is, the frame is not thinned out. This is to prevent the movement of the image from becoming jerky and not smooth.

映像/音声データ分離部45−1は、外部入力端子30−1から入力された多重化データから映像データと音声データとを分離する。   The video / audio data separating unit 45-1 separates video data and audio data from the multiplexed data input from the external input terminal 30-1.

映像/音声データ分離部45−1によって分離された動画像データまたは静止画データは、それぞれ動画デコーダ41または静止画デコーダ42によって復号化された後、フレーム画像として所定時間間隔ごとに映像バッファ80に一時的に記憶される。なお、映像バッファ80に記憶される1秒あたりのフレーム数(フレームレート)は、後述のビデオキャプチャバッファ54のフレームレート(例えば30fps(frame per second))と合致させる必要がある。   The moving image data or still image data separated by the video / audio data separation unit 45-1 is decoded by the moving image decoder 41 or the still image decoder 42, respectively, and then stored in the video buffer 80 at predetermined time intervals as frame images. Temporarily stored. Note that the number of frames per second (frame rate) stored in the video buffer 80 needs to match the frame rate (for example, 30 fps (frame per second)) of the video capture buffer 54 described later.

映像/音声データ分離部45−1によって分離された音声データは、音声デコーダ47−2によって復号化された後、音声バッファ81に一時的に記憶される。   The audio data separated by the video / audio data separation unit 45-1 is decoded by the audio decoder 47-2 and then temporarily stored in the audio buffer 81.

NTSCデコーダ15は、カメラ4から入力されたNTSC信号を輝度信号および色差信号に変換するカラーデコーダであり、NTSC信号 をY/C 分離回路により輝度信号と搬送色信号とに分離し、さらに搬送色信号を色信号復調回路により復調して色差信号(Cb,Cr)を生成する。   The NTSC decoder 15 is a color decoder that converts an NTSC signal input from the camera 4 into a luminance signal and a color difference signal. The NTSC signal is separated into a luminance signal and a carrier color signal by a Y / C separation circuit. The signal is demodulated by a color signal demodulating circuit to generate a color difference signal (Cb, Cr).

オーディオデータ化部14は、マイク3から入力されたアナログオーディオ音声信号をデジタルデータに変換してオーディオキャプチャバッファ53に出力する。   The audio data converting unit 14 converts the analog audio sound signal input from the microphone 3 into digital data and outputs the digital data to the audio capture buffer 53.

スイッチャ(スイッチング回路)78は、制御部11の制御に従い、映像バッファ80への入力映像を、デジタルビデオカメラ70の動画像もしくは静止画像、デジタルスチルカメラ71からの静止画像、メディアリーダ74によって記録メディア73から読み込まれた動画像または静止画像のいずれか1つに切り替える。   A switcher (switching circuit) 78 controls the input video to the video buffer 80 according to the control of the control unit 11, as a moving image or a still image of the digital video camera 70, a still image from the digital still camera 71, and a recording medium by the media reader 74. Switching to one of the moving image or the still image read from 73.

合成部51−2は、デジタルビデオカメラ70等の映像コンテンツ入力元からの映像と、CH1復号化部13−1、CH2復号化部13−2から復号化された動画フレーム画像とを合成し、この合成画像を映像出力部17に出力する。こうして得られた合成画像はモニタ5に表示される。   The synthesizing unit 51-2 synthesizes the video from the video content input source such as the digital video camera 70 and the moving image frame image decoded from the CH1 decoding unit 13-1 and the CH2 decoding unit 13-2. The composite image is output to the video output unit 17. The composite image obtained in this way is displayed on the monitor 5.

相手方の通信端末1は、CH1符号化部12−1の符号化した映像データ、CH2符号化部12−2の符号化した映像データをそれぞれストリーム化回路22により個別にストリーム化したあと、CH1符号化部12−1の符号化したストリームデータはCH1復号化部13−1で、CH2符号化部12−2の符号化したストリームデータはCH2復号化部13−2でそれぞれ動画像ないし音声に復号化され、合成部51−2に出力される。   The counterpart communication terminal 1 individually streams the video data encoded by the CH1 encoding unit 12-1 and the video data encoded by the CH2 encoding unit 12-2 by the streaming circuit 22, respectively. The stream data encoded by the encoding unit 12-1 is decoded by the CH1 decoding unit 13-1, and the stream data encoded by the CH2 encoding unit 12-2 is decoded by the CH2 decoding unit 13-2 into moving images or sounds, respectively. And output to the combining unit 51-2.

合成部51−2は、カメラ4の映像すなわち自分映像、CH1復号化部13−1の復号化した動画像すなわち相手映像、およびCH2復号化部13−2の復号化した動画像すなわち映像コンテンツを、モニタ5の表示画面における表示エリアに収まるようリサイズして合成する。リサイズはリモコン60から入力される表示モード切替に応じて行われる。   The synthesizing unit 51-2 receives the video of the camera 4, that is, the own video, the decoded moving image of the CH1 decoding unit 13-1, that is, the counterpart video, and the decoded moving image of the CH2 decoding unit 13-2, that is, the video content. Then, the image is resized and combined so as to fit in the display area on the display screen of the monitor 5. Resizing is performed in accordance with display mode switching input from the remote controller 60.

図3はモニタ5に表示される映像の配置の一例を示す。この図に示すように、モニタ5には、相手方の通信端末1のカメラ4の映像(相手映像)が第1の表示エリアX1に、相手方の通信端末1のデジタルビデオカメラ70等の映像コンテンツ入力元から入力された映像(映像コンテンツ)が第2の表示エリアX2に、自分方のカメラ4から入力された映像(自分映像)が第3の表示エリアX3に表示される。   FIG. 3 shows an example of an arrangement of images displayed on the monitor 5. As shown in this figure, the video (input video) of the camera 4 of the other party's communication terminal 1 is input to the monitor 5 in the first display area X1 and the video content of the digital video camera 70 etc. of the other party's communication terminal 1 is input. The originally input video (video content) is displayed in the second display area X2, and the video (self video) input from the own camera 4 is displayed in the third display area X3.

第1の表示エリアX1ないし第3の表示エリアX3に配置される映像はこの図に示したものに限定されず、後述する表示モードの設定に応じて切り替わる。   The images arranged in the first display area X1 to the third display area X3 are not limited to those shown in this figure, and are switched according to the display mode setting described later.

その他、自分方のスイッチャ78に対するデジタルビデオカメラ70等の映像コンテンツ入力元その他の情報をリスト化したコンテンツメニューM、各種のメッセージやお知らせを表示するメッセージ&情報表示エリアYが、それぞれ1画面内に収まるよう縮小されて、各々重複しないエリアに表示される。   In addition, a content menu M that lists video information input sources such as the digital video camera 70 for the switcher 78 of one's own and other information, and a message & information display area Y that displays various messages and notifications are each in one screen. The images are reduced so as to fit and are displayed in non-overlapping areas.

なお、この図では1表示画面中の各表示エリアX1〜X3が所定の面積比に従って分割表示されているが、この画面分割の仕方は色々変形可能である。また、複数映像全てを必ずしも1画面内で同時に表示する必要はなく、リモコン60の所定操作に応じて表示モードを切り替え、自分映像のみ、相手映像のみもしくは映像コンテンツのみ、あるいはそれらの一部を組み合わせて表示するようにしてもよい。表示モードについては後述する。   In this figure, each display area X1 to X3 in one display screen is divided and displayed according to a predetermined area ratio, but this screen division method can be variously modified. In addition, it is not always necessary to display all of the plurality of images at the same time in one screen. The display mode is switched according to a predetermined operation of the remote controller 60, and only the own image, only the other image, only the image content, or a part of them is combined. May be displayed. The display mode will be described later.

コンテンツメニューMではリモコン60の操作によって任意の項目を選択できる。制御部11は、リモコン60の項目選択操作に応じて映像コンテンツの入力元をスイッチャ78によって切り替える制御を行う。これにより、映像コンテンツとして表示すべき映像を任意に選択することができる。ここでは、「Webサーバ」項目を選択するとWebブラウザモジュール43がWebコンテンツサーバ90から取得したWebコンテンツ、「コンテンツサーバ」項目を選択するとストリーミングモジュール44がストリーミングサーバ91から取得したストリーミングコンテンツが、「DV」項目を選択するとデジタルビデオカメラ70からの映像が、「スチル」項目を選択するとデジタルスチルカメラ71からの映像が、「メディア」項目を選択すると記録メディア73から読み込まれた映像が映像コンテンツとなる。   In the content menu M, any item can be selected by operating the remote controller 60. The control unit 11 performs control to switch the video content input source using the switcher 78 in accordance with an item selection operation of the remote controller 60. Thereby, the video to be displayed as the video content can be arbitrarily selected. Here, when the “Web server” item is selected, the Web content acquired by the Web browser module 43 from the Web content server 90, and when the “Content server” item is selected, the streaming content acquired by the streaming module 44 from the streaming server 91 is “DV”. "" Is the video content from the digital video camera 70, the "Still" item is the video from the digital still camera 71, and the "Media" item is the video read from the recording medium 73. .

CH1符号化部12−1は、オーディオキャプチャバッファ53から供給されるマイク3からの音声のキャプチャデータを順次MPEG方式などに従って圧縮符号化する。符号化された音声データは、パケット化部25によりパケット化されて相手方の通信端末1へストリーム送信される。   The CH1 encoding unit 12-1 sequentially compresses and encodes audio capture data from the microphone 3 supplied from the audio capture buffer 53 in accordance with the MPEG method or the like. The encoded voice data is packetized by the packetizing unit 25 and stream-transmitted to the counterpart communication terminal 1.

CH2符号化部12−2は、スイッチャ78によって音声入力元となった、ストリーミングモジュール44からの音声またはデジタルビデオカメラ70からの音声のいずれか一方(デジタルビデオカメラ70等の音声入力元)をMPEG方式などに従って圧縮符号化する。符号化された音声データは、パケット化部25によりパケット化されて相手方の通信端末1へストリーム送信される。   The CH2 encoding unit 12-2 converts either the audio from the streaming module 44 or the audio from the digital video camera 70 (the audio input source of the digital video camera 70 or the like), which is the audio input source by the switcher 78, into MPEG. Compression encoding is performed according to a method or the like. The encoded voice data is packetized by the packetizing unit 25 and stream-transmitted to the counterpart communication terminal 1.

CH1復号化部13−1は、CH1符号化部12−1が符号化した音声データを復号化する。CH2復号化部13−2は、CH2符号化部12−2が符号化した音声データを復号化する。   The CH1 decoding unit 13-1 decodes the audio data encoded by the CH1 encoding unit 12-1. The CH2 decoding unit 13-2 decodes the audio data encoded by the CH2 encoding unit 12-2.

合成部51−2は、CH1復号化部13−1の復号化した音声データと、CH2復号化部13−2の復号化した音声データとを合成し、この合成音声データを音声出力部16に出力する。こうして、相手方の通信端末1のマイク3で集音された音声および相手方の通信端末1に接続されたデジタルビデオカメラ70等から得られた音声が自分方のスピーカ2によって再生される。   The synthesizing unit 51-2 synthesizes the audio data decoded by the CH1 decoding unit 13-1 and the audio data decoded by the CH2 decoding unit 13-2, and sends the synthesized audio data to the audio output unit 16. Output. In this way, the sound collected by the microphone 3 of the other party's communication terminal 1 and the sound obtained from the digital video camera 70 or the like connected to the other party's communication terminal 1 are reproduced by the own speaker 2.

帯域推定部11cは、ネットワーク10のジッタ(ゆらぎ)などから伝送帯域を推定する。   The band estimation unit 11 c estimates the transmission band from the jitter (fluctuation) of the network 10.

符号化制御部11eは、推定された伝送帯域に応じてCH1符号化部12−1、CH2符号化部12−2の映像伝送ビットレートを変化させる。即ち、伝送帯域が低下していくことを推定すれば映像伝送ビットレートを低下させ、伝送帯域が増加していくことを推定すれば映像伝送ビットレートを増加させる。こうすることで、伝送帯域を超えるパケット送出によりパケットロスが発生するのを防ぐことができ、伝送帯域の変化に応じたスムースなストリームデータ送信を行える。   The encoding control unit 11e changes the video transmission bit rate of the CH1 encoding unit 12-1 and the CH2 encoding unit 12-2 according to the estimated transmission band. That is, if it is estimated that the transmission band is reduced, the video transmission bit rate is decreased, and if it is estimated that the transmission band is increased, the video transmission bit rate is increased. By doing so, it is possible to prevent packet loss from occurring due to packet transmission exceeding the transmission band, and to perform smooth stream data transmission according to changes in the transmission band.

帯域推定部11cによる具体的な帯域推定は、例えば次のようにすればよい。相手方の通信端末1bからSR(Sender Report)タイプのRTCPパケット(RTCP SR)を受信すると、RTCP SRパケットのヘッダ内にあるsequence number fieldのシーケンス番号を計数することで受信したRTCP SRの損失数を算出する。そして、当該損失数が記述されたRR(Receiver Report)タイプのRTCPパケット(RTCP RR)を相手方の通信端末1に送信する。RTCP RRには、RTCP SRの受信からRTCP RRの送信までの時間(便宜上応答時間と呼ぶ)も記述されている。   Specific band estimation by the band estimation unit 11c may be performed as follows, for example. When an RTCP packet (RTCP SR) of SR (Sender Report) type is received from the communication terminal 1b of the other party, the number of lost RTCP SRs is obtained by counting the sequence number of the sequence number field in the header of the RTCP SR packet. calculate. Then, an RR (Receiver Report) type RTCP packet (RTCP RR) in which the number of losses is described is transmitted to the communication terminal 1 of the other party. RTCP RR also describes the time from reception of RTCP SR to transmission of RTCP RR (referred to as response time for convenience).

相手方の通信端末1bがRTCP RRを受信すると、RTCP SRの送信時刻からRTCP RRの受信時刻までの時間から応答時間を引いた時間であるRTT(Round Trip Time)を算出する。また、RTCP SRの送出パケット数とRTCP RRの損失数を参照し、定期期間内における(損失数)/(送出パケット数)=パケット損失率を算出する。このRTTとパケット損失率を通信状態レポートとする。   When the communication terminal 1b of the other party receives RTCP RR, RTT (Round Trip Time) that is the time obtained by subtracting the response time from the time from the RTCP SR transmission time to the RTCP RR reception time is calculated. Also, referring to the number of RTCP SR transmission packets and the number of RTCP RR losses, (loss number) / (number of transmission packets) = packet loss rate within a regular period is calculated. This RTT and packet loss rate are used as a communication status report.

監視パケットを出す間隔は、10秒から数10秒に一回あたりが適当と考えられるが、1回の監視パケット試行での推定では、ネットワーク状態が正確に把握できない時も多いため、複数回に分けて行い、その平均等を取って推定する方が推定確度は増す。監視パケットの数量を多くすると,それ自体が帯域を狭める要因ともなるので、全体の通信量の2−3%に留めておくのが好ましい。   The interval at which monitoring packets are sent is considered to be appropriate once every 10 seconds to several tens of seconds. However, there are many cases where the network state cannot be accurately grasped by estimation based on one monitoring packet attempt. The estimation accuracy increases if the estimation is performed separately and taking the average or the like. If the number of monitoring packets is increased, it itself becomes a factor for narrowing the bandwidth, so it is preferable to keep it at 2-3% of the total communication amount.

なお、以上に説明した以外にも、各種のQoS(Quality of Service)制御技術を帯域推定部11cに用いることで通信状態レポートを得ることができる。   In addition to the above description, a communication status report can be obtained by using various QoS (Quality of Service) control techniques for the bandwidth estimation unit 11c.

なお、推定した伝送帯域に応じて音声符号化のビットレートを変化させてもよいが、音声の伝送帯域は映像に比較して帯域への寄与率が低いため、固定としても問題はない。   Note that the bit rate of audio encoding may be changed according to the estimated transmission band. However, since the audio transmission band has a lower contribution ratio to the band than video, there is no problem even if it is fixed.

通信インターフェース13を介して他の通信端末1から受信したストリームデータのパケットは一旦受信バッファ21に記憶されたあと、一定のタイミングでストリーム化装置22に出力される。受信バッファ21のゆらぎ吸収バッファ21aは、当該パケットの伝送遅延時間が変動して到着間隔がばらついても、連続的な再生をするためにパケット受信から再生開始までに遅延を付加する。ストリーム化装置22は、パケットデータをストリーム再生データに再構成する。   Packets of stream data received from other communication terminals 1 via the communication interface 13 are temporarily stored in the reception buffer 21 and then output to the streamer 22 at a fixed timing. The fluctuation absorbing buffer 21a of the reception buffer 21 adds a delay from the reception of the packet to the start of reproduction for continuous reproduction even if the transmission delay time of the packet fluctuates and the arrival interval varies. The streaming device 22 reconstructs the packet data into stream reproduction data.

CH1復号化部13−1、CH1復号化部13−2はMPEG4デコーダなどで構成された映像音声復号化装置である。   The CH1 decoding unit 13-1 and the CH1 decoding unit 13-2 are video / audio decoding devices configured by an MPEG4 decoder or the like.

表示制御部11dは、リモコン60から入力された画面切替信号に応じて合成部51−2を制御し、CH1復号化部13−1で復号化した映像データ(CH1映像データ)と、CH2復号化部13−2で復号化した映像データ(CH2映像データ)と、NTSCデコーダ15から入力した映像データ(自分映像)と、映像バッファ80から入力した映像データ(映像コンテンツ)の全部もしくは一部を合成して出力する(合成出力)か、あるいはそれらの映像データのうちいずれか1つを他のものと全く合成しないまま出力する(スルー出力)。合成部51−2から出力された映像データは映像出力部17でNTSC信号に変換されてモニタ5に出力される。   The display control unit 11d controls the synthesizing unit 51-2 according to the screen switching signal input from the remote controller 60, and the video data (CH1 video data) decoded by the CH1 decoding unit 13-1 and the CH2 decoding. The video data (CH2 video data) decoded by the unit 13-2, the video data input from the NTSC decoder 15 (self video), and the video data (video content) input from the video buffer 80 are synthesized in whole or in part. Are output (combined output), or any one of the video data is output without being combined with the other (through output). The video data output from the combining unit 51-2 is converted into an NTSC signal by the video output unit 17 and output to the monitor 5.

図4〜図9は合成された映像データを表示したモニタ5の画面を例示する。このそれぞれの画面は、リモコン60による表示モード切替操作により順次切り替わる。   4 to 9 illustrate screens of the monitor 5 displaying the synthesized video data. These screens are sequentially switched by a display mode switching operation by the remote controller 60.

図4は、合成部51−2がカメラ4からの映像データ(自分映像)だけを、その他の映像データと合成せずに映像出力部17にスルー出力した場合におけるモニタ5の画面表示を示す。この画面では自分方のカメラ4で撮影した映像(自分映像)だけが全画面表示される。   FIG. 4 shows a screen display of the monitor 5 when the synthesizing unit 51-2 outputs only the video data (self video) from the camera 4 to the video output unit 17 without synthesizing with the other video data. On this screen, only the video (self video) taken by the user's own camera 4 is displayed in full screen.

図5は、合成部51−2がCH1復号化部13−1からの映像データ(相手映像)だけを、その他の映像データと合成せずに映像出力部17にスルー出力した場合におけるモニタ5の画面表示を示す。この画面では相手方のカメラ4で撮影した映像(相手映像)だけが全画面表示される。   FIG. 5 shows the monitor 5 when the synthesizing unit 51-2 outputs only the video data (partner video) from the CH1 decoding unit 13-1 to the video output unit 17 without synthesizing with the other video data. The screen display is shown. On this screen, only the video (partner video) taken by the other party's camera 4 is displayed in full screen.

図6は、合成部51−2がCH1復号化部13−1からの映像データ(相手映像)と自分方のカメラ4からの映像データ(自分映像)とを合成して映像出力部17に出力した場合におけるモニタ5の画面表示を示す。この画面では、相手映像と自分映像がそれぞれ表示エリアX1、X3に表示される。   In FIG. 6, the synthesizing unit 51-2 synthesizes the video data (partner video) from the CH1 decoding unit 13-1 and the video data (self video) from the own camera 4 and outputs the synthesized video data to the video output unit 17. The screen display of the monitor 5 in the case of having performed is shown. On this screen, the partner video and the self video are displayed in the display areas X1 and X3, respectively.

図7は、合成部51−2がCH1復号化部13−1からの映像データ(相手映像)とCH2復号化部13−2からの映像データ(映像コンテンツ)と自分方のカメラ4からの映像データ(自分映像)とを合成して映像出力部17に出力した場合におけるモニタ5の画面表示を示す。この画面では、相手映像が表示エリアX1、映像コンテンツが表示エリアX2、自分映像が表示エリアX3に収まるようにリサイズされて表示される。かつ、表示エリアX1、X3は、表示エリアX1が表示エリアX3に比して大きくなるような所定の面積比を保っている。   FIG. 7 shows the video data (video content) from the video data (video content) from the CH2 decoding unit 13-2, the video data from the own camera 4 by the synthesizing unit 51-2. The screen display of the monitor 5 when the data (self video) is synthesized and output to the video output unit 17 is shown. On this screen, the partner video is resized and displayed so as to fit within the display area X1, the video content within the display area X2, and the self video within the display area X3. In addition, the display areas X1 and X3 maintain a predetermined area ratio such that the display area X1 is larger than the display area X3.

図8は、合成部51−2がCH1復号化部13−1からの映像データ(相手映像)とCH2復号化部13−2からの映像データ(映像コンテンツ)と自分方のカメラ4からの映像データ(自分映像)とを合成して映像出力部17に出力した場合におけるモニタ5の画面表示を示す。この画面では、映像コンテンツが表示エリアX1、相手映像が表示エリアX2、自分映像が表示エリアX3に表示されている。   FIG. 8 shows the video data (video content) from the video data (video content) from the CH2 decoding unit 13-2, the video data from the own camera 4 and the video data (video content) from the CH2 decoding unit 13-1. The screen display of the monitor 5 when the data (self video) is synthesized and output to the video output unit 17 is shown. On this screen, the video content is displayed in the display area X1, the partner video is displayed in the display area X2, and the self video is displayed in the display area X3.

図9は、合成部51−2がCH2復号化部13−2からの映像データ(映像コンテンツ)だけを、その他の映像データと合成せずに映像出力部17にスルー出力した場合におけるモニタ5の画面表示を示す。この画面では映像コンテンツだけが表示される。   FIG. 9 shows the monitor 5 when the combining unit 51-2 outputs only the video data (video content) from the CH2 decoding unit 13-2 to the video output unit 17 without combining with the other video data. The screen display is shown. Only video content is displayed on this screen.

図10は各表示エリアX1〜X3の面積比の一例を示す。ここでは、4:3の画面比の画面を9つのタイルに等分割し、表示エリアX1の面積は4タイル、表示エリアX2、X3の面積は1タイルとなっている。また、コンテンツメニュー表示エリアMの面積は1タイル、メッセージ・情報表示エリアの面積は2タイルとなっている。   FIG. 10 shows an example of the area ratio of the display areas X1 to X3. Here, the screen with a screen ratio of 4: 3 is equally divided into nine tiles, the area of the display area X1 is 4 tiles, and the areas of the display areas X2 and X3 are 1 tile. The area of the content menu display area M is 1 tile, and the area of the message / information display area is 2 tiles.

通信端末1bは、リモコン60から画面切替信号が入力されると、その画面切替信号が入力されたことを示す制御パケットを、ネットワーク10を介して通信端末1aに送信する。同様の機能は通信端末1aも有する。   When a screen switching signal is input from the remote controller 60, the communication terminal 1b transmits a control packet indicating that the screen switching signal has been input to the communication terminal 1a via the network 10. A similar function is also provided in the communication terminal 1a.

符号化制御部11eは、相手方の通信端末1から受信した制御パケットで識別される表示エリアX1、X2もしくはX3の面積比に応じ、相手方の通信端末1のモニタ5の表示エリアX1、X2もしくはX3にそれぞれ表示される映像(上記制御パケットで特定可能)の伝送帯域を推定伝送帯域の範囲内で割り当て、割り当てられた伝送帯域内にデータが収まるよう(パケットのオーバーフローが生じないよう)、CH1符号化部12−1およびCH2符号化部12−2の量子化回路117を制御する。   The encoding control unit 11e displays the display areas X1, X2, or X3 of the monitor 5 of the counterpart communication terminal 1 according to the area ratio of the display areas X1, X2, or X3 identified by the control packet received from the counterpart communication terminal 1. The CH1 code is allocated so that the transmission band of the video (which can be specified by the control packet) is displayed within the range of the estimated transmission band so that the data fits within the allocated transmission band (packet overflow does not occur). The quantization circuit 117 of the encoding unit 12-1 and the CH2 encoding unit 12-2 is controlled.

なお、CH1復号化部13−1、CH2復号化部13−2で復号化された音声データは音声出力部16でアナログ音声信号に変換されてスピーカ2に出力される。必要であれば、自分方のデジタルビデオカメラ70等から入力された音声データとコンテンツデータに含まれる音声データとを合成部51−2で合成して音声出力部16に出力することもできる。   Note that the audio data decoded by the CH1 decoding unit 13-1 and the CH2 decoding unit 13-2 is converted into an analog audio signal by the audio output unit 16 and output to the speaker 2. If necessary, the voice data input from the user's own digital video camera 70 or the like and the voice data included in the content data can be synthesized by the synthesis unit 51-2 and output to the voice output unit 16.

通信インターフェース13には、ネットワーク端子61が設けられており、この端子が各種ケーブルによりブロードバンドルータやADSLモデムなどと接続されることでネットワーク10と接続される。ネットワーク端子61は単数または複数設けられる。   The communication interface 13 is provided with a network terminal 61, which is connected to the network 10 by being connected to a broadband router, an ADSL modem, or the like by various cables. One or more network terminals 61 are provided.

なお、通信インターフェース13がファイアウォールやNAT機能(Network Address Translation、グローバルIPアドレスとプライベートIPアドレスの相互変換を行う)を有するルータと接続されると、SIPによる通信端末1同士の直接接続ができない問題(いわゆるNAT越え)が生じることが当業者で認識されている。通信端末1同士を直接接続して映像音声送受信の遅延を最小化するには、STUN(Simple Traversal of UDP through NATs)サーバ30を利用したSTUN技術や、UPnP(Universal Plug and Play) サーバによるNAT越え機能を通信端末1に実装することが好ましい。   Note that when the communication interface 13 is connected to a router having a firewall or NAT function (network address translation, which performs mutual conversion between a global IP address and a private IP address), the SIP communication terminals 1 cannot be directly connected to each other. It is recognized by those skilled in the art that so-called NAT traversal) occurs. In order to minimize the delay in video / audio transmission and reception by directly connecting the communication terminals 1, STUN technology using STUN (Simple Traversal of UDP through NATs) server 30 and NAT traversal by UPnP (Universal Plug and Play) server It is preferable to implement the function in the communication terminal 1.

制御部11は、各種のボタンやキーから構成される操作部18もしくはリモコン60からの操作入力に基づいて通信端末1内の各回路を統括制御する。制御部11は、CPUなどの演算装置で構成され、自分方表示モード通知部11a、相手方表示モード検出部11b、帯域推定部11c、表示制御部11d、符号化制御部11e、操作特定信号送信部11fの各機能を記憶媒体23に記憶されたプログラムによって実現する。   The control unit 11 performs overall control of each circuit in the communication terminal 1 based on operation inputs from the operation unit 18 including various buttons and keys or the remote controller 60. The control unit 11 is configured by a calculation device such as a CPU, and the own display mode notification unit 11a, the other party display mode detection unit 11b, the band estimation unit 11c, the display control unit 11d, the encoding control unit 11e, and the operation specific signal transmission unit. Each function of 11f is realized by a program stored in the storage medium 23.

各通信端末1を一意に識別するアドレス(必ずしもグローバルIPアドレスと同義ではない)、アカウント管理サーバ8が通信端末1を認証するのに必要なパスワード、通信端末1の起動プログラムは、電源オフ状態でもデータを保持可能な不揮発性の記憶媒体23に記憶されている。ここに記憶されたプログラムは、アカウント管理サーバ8から提供されるアップデートプログラムにより最新のバージョンに更新できる。   An address for uniquely identifying each communication terminal 1 (not necessarily synonymous with a global IP address), a password necessary for the account management server 8 to authenticate the communication terminal 1, and a startup program for the communication terminal 1 are in a power-off state. It is stored in a non-volatile storage medium 23 that can hold data. The program stored here can be updated to the latest version by the update program provided from the account management server 8.

制御部11の各種処理に必要なデータは、一時的にデータを記憶するRAMで構成されたメインメモリ36に記憶される。   Data necessary for various processes of the control unit 11 is stored in a main memory 36 constituted by a RAM that temporarily stores data.

通信端末1にはリモコン受光回路63が設けられており、このリモコン受光回路63にはリモコン受光部64が接続されている。リモコン受光回路63は、リモコン60からリモコン受光部64に入射した赤外線信号をデジタル信号に変換して制御部11へ出力する。制御部11は、リモコン受光回路63から入力したデジタル赤外線信号に応じて各種動作を制御する。   The communication terminal 1 is provided with a remote control light receiving circuit 63, and a remote control light receiving unit 64 is connected to the remote control light receiving circuit 63. The remote control light receiving circuit 63 converts an infrared signal incident on the remote control light receiving unit 64 from the remote control 60 into a digital signal and outputs the digital signal to the control unit 11. The control unit 11 controls various operations in accordance with the digital infrared signal input from the remote control light receiving circuit 63.

発光制御回路24は、制御部11の制御によって、通信端末1の外面に設けられたLED65の発光・点滅・点灯の制御を行う。発光制御回路24にはコネクタ66を介してフラッシュランプ67を接続することもでき、発光制御回路24は、フラッシュランプ67の発光・点滅・点灯の制御も行う。RTC20は内蔵時計である。   The light emission control circuit 24 controls light emission, blinking, and lighting of the LED 65 provided on the outer surface of the communication terminal 1 under the control of the control unit 11. A flash lamp 67 can also be connected to the light emission control circuit 24 via a connector 66, and the light emission control circuit 24 also controls light emission / flashing / lighting of the flash lamp 67. The RTC 20 is a built-in clock.

図11はCH1符号化部12−1、CH2符号化部12−2に共通する要部構成を示したブロック図である。CH1符号化部12−1・CH2符号化部12−2(まとめて符号化部12と表すこともある)は、画像入力部111、動きベクトル検出回路114、動き補償回路115、DCT116、量子化回路117、可変長符号化器(VLC)118、符号化制御部11e、静止ブロック検出部124、静止ブロック記憶部125等を備えている。この装置は、動き補償予測符号化と、DCTによる圧縮符号化を組み合わせたMPEG方式の映像符号化装置の構成を一部含んでいる。   FIG. 11 is a block diagram showing a main configuration common to the CH1 encoding unit 12-1 and the CH2 encoding unit 12-2. The CH1 encoding unit 12-1 and CH2 encoding unit 12-2 (may be collectively referred to as the encoding unit 12) include an image input unit 111, a motion vector detection circuit 114, a motion compensation circuit 115, a DCT 116, a quantization A circuit 117, a variable length encoder (VLC) 118, an encoding control unit 11e, a static block detection unit 124, a static block storage unit 125, and the like are provided. This apparatus partially includes a configuration of an MPEG video encoding apparatus that combines motion compensation prediction encoding and compression encoding by DCT.

画像入力部111は、ビデオキャプチャバッファ54や映像バッファ80に蓄積された映像(カメラ4の動画像のみ、デジタルビデオカメラ70等から入力された動画像もしくは静止画像のみ、あるいはそれらの動画像および静止画像の合成画像からなる動画像)をフレームメモリ122に入力する。   The image input unit 111 stores the video (only the moving image of the camera 4, only the moving image or still image input from the digital video camera 70, or the moving image and still image thereof) stored in the video capture buffer 54 and the video buffer 80. A moving image composed of a composite image) is input to the frame memory 122.

動きベクトル検出回路114は、画像入力部111から入力されたデータが表す現在のフレーム画像を、フレームメモリ122に記憶されている前のフレーム画像と比較することで、動きベクトルを検出する。この動きベクトルの検出は、入力された現在のフレーム画像を複数のマクロブロックに分割し、個々のマクロブロックを単位として、前のフレーム画像上に各々設定した探索範囲内で被探索マクロブロックを適宜動かしながら誤差演算を繰り返すことで、被探索マクロブロックに最も類似しているマクロブロック(誤差が最小となるマクロブロック)を探索範囲内から探し出し、該マクロブロックと被探索マクロブロックとのずれ量及びずれの方向を被探索マクロブロックについての動きベクトルとする。そして、各マクロブロック毎に求めた動きベクトルを各マクロブロック毎の誤差を考慮して合成することで、予測符号化における予測差分を最小とする動きベクトルを求めることができる。   The motion vector detection circuit 114 detects the motion vector by comparing the current frame image represented by the data input from the image input unit 111 with the previous frame image stored in the frame memory 122. This motion vector detection is performed by dividing the input current frame image into a plurality of macro blocks, and appropriately searching the macro block to be searched within the search range set on the previous frame image in units of individual macro blocks. By repeating the error calculation while moving, the macro block that is most similar to the macro block to be searched (the macro block with the smallest error) is searched from the search range, the amount of deviation between the macro block and the macro block to be searched, and The direction of deviation is taken as the motion vector for the searched macroblock. Then, by synthesizing the motion vector obtained for each macroblock in consideration of the error for each macroblock, a motion vector that minimizes the prediction difference in predictive coding can be obtained.

動き補償回路115は、検出した動きベクトルに基づき予測用参照画像に対して動き補償を行うことで予測画像のデータを生成し、減算器123へ出力する。減算器123は、画像入力部111からから入力されたデータが表す現在のフレーム画像から、動き補償回路115から入力されたデータが表す予測画像を減算することで、予測差分を表す差分データを生成する。   The motion compensation circuit 115 generates motion prediction image data by performing motion compensation on the prediction reference image based on the detected motion vector, and outputs the data to the subtractor 123. The subtractor 123 generates difference data representing a prediction difference by subtracting a predicted image represented by data input from the motion compensation circuit 115 from a current frame image represented by data input from the image input unit 111. To do.

減算器123にはDCT(離散コサイン変換)部116、量子化回路117、VLC118が順次接続されている。DCT116は、減算器123から入力された差分データを任意のブロック毎に直交変換して出力し、量子化回路117は、DCT116から入力された直交変換後の差分データを所定の量子化ステップで量子化してVLC118へ出力する。また、VLC118には動き補償回路115が接続されており、動き補償回路115から動きベクトルのデータも入力される。   A DCT (discrete cosine transform) unit 116, a quantization circuit 117, and a VLC 118 are sequentially connected to the subtractor 123. The DCT 116 orthogonally transforms the difference data input from the subtractor 123 for each arbitrary block, and outputs the result. The quantization circuit 117 quantizes the difference data input from the DCT 116 after the orthogonal transformation in a predetermined quantization step. And output to VLC118. A motion compensation circuit 115 is connected to the VLC 118, and motion vector data is also input from the motion compensation circuit 115.

VLC118は、直交変換・量子化を経た差分データを2次元ハフマン符号により符号化すると共に、入力された動きベクトルのデータもハフマン符号により符号化し、両者を多重化する。そして、符号化制御部11eから出力される符号化ビットレートに基づいて定められたレートで、可変長符号化動画像データを出力する。可変長符号化動画像データはパケット化部25に出力され、画像圧縮情報としてネットワーク10にパケット送出される。量子化回路117の符号量(ビットレート)は符号化制御部11eによって制御される。   The VLC 118 encodes the difference data that has undergone orthogonal transformation and quantization using a two-dimensional Huffman code, and also encodes input motion vector data using a Huffman code, and multiplexes both. Then, the variable length encoded moving image data is output at a rate determined based on the encoding bit rate output from the encoding control unit 11e. The variable-length encoded moving image data is output to the packetizing unit 25 and transmitted as a packet to the network 10 as image compression information. The encoding amount (bit rate) of the quantization circuit 117 is controlled by the encoding control unit 11e.

VLC118の作成する符号化動画像データのデータ構造は、階層構造をなしており、下位から、ブロック層、マクロブロック層、スライス層、ピクチャ層、GOP層およびシーケンス層となっている。   The data structure of the encoded moving image data created by the VLC 118 has a hierarchical structure, and the block layer, macroblock layer, slice layer, picture layer, GOP layer, and sequence layer are arranged from the lower order.

ブロック層は、DCTを行う単位であるDCTブロックからなる。マクロブロック層は、複数のDCTブロックで構成される。スライス層は、ヘッダ部と、1以上のマクロブロックより構成される。ピクチャ層は、ヘッダ部と、1以上のスライス層とから構成される。ピクチャは、1画面に対応する。GOP層は、ヘッダ部と、フレーム内符号化に基づくピクチャであるIピクチャと、予測符号化に基づくピクチャであるPおよびBピクチャとから構成される。Iピクチャは、それ自身の情報のみで復号化が可能であり、PおよびBピクチャは、予測画像として前あるいは前後の画像が必要とされ、単独では復号化されない。   The block layer is composed of DCT blocks that are units for performing DCT. The macroblock layer is composed of a plurality of DCT blocks. The slice layer is composed of a header part and one or more macroblocks. The picture layer is composed of a header part and one or more slice layers. A picture corresponds to one screen. The GOP layer includes a header part, an I picture that is a picture based on intra-frame coding, and a P and B picture that are pictures based on predictive coding. The I picture can be decoded only with its own information, and the P and B pictures require previous or previous pictures as predicted pictures and are not decoded alone.

また、シーケンス層、GOP層、ピクチャ層、スライス層およびマクロブロック層の先頭には、それぞれ所定のビットパターンからなる識別コードが配され、識別コードに続けて、各層の符号化パラメータが格納されるヘッダ部が配される。   Also, at the beginning of the sequence layer, GOP layer, picture layer, slice layer, and macroblock layer, an identification code having a predetermined bit pattern is arranged, and the encoding parameters of each layer are stored following the identification code. A header part is arranged.

スライス層に含まれるマクロブロックは、複数のDCTブロックの集合であり、画面(ピクチャ)を格子状(例えば8画素×8画素)に分割したものである。スライスは、例えばこのマクロブロックを水平方向に連結してなる。画面のサイズが決まると、1画面当たりのマクロブロック数は、一意に決まる。   The macroblock included in the slice layer is a set of a plurality of DCT blocks, and is obtained by dividing a screen (picture) into a lattice shape (for example, 8 pixels × 8 pixels). The slice is formed by, for example, connecting the macro blocks in the horizontal direction. When the screen size is determined, the number of macroblocks per screen is uniquely determined.

MPEGのフォーマットにおいては、スライス層が1つの可変長符号系列である。可変長符号系列とは、可変長符号を復号化しなければデータの境界を検出できない系列である。MPEGストリームの復号時には、スライス層のヘッダ部を検出し、可変長符号の始点と終点とを見つけ出す。   In the MPEG format, the slice layer is one variable length code sequence. A variable-length code sequence is a sequence in which a data boundary cannot be detected unless the variable-length code is decoded. When decoding the MPEG stream, the header part of the slice layer is detected to find the start point and end point of the variable length code.

ここで、フレームメモリ122に入力された画像データが静止画のみであれば、全マクロブロックの動きベクトルは零となり、Iピクチャのみで復号化が可能となる。そうすると、B、Pピクチャを送らなくて済む。このため、ネットワーク10の伝送帯域幅が狭まっても、静止画を動画として、比較的精細に相手方の通信端末1に送ることができる。   Here, if the image data input to the frame memory 122 is only a still image, the motion vectors of all macroblocks are zero, and decoding can be performed using only I pictures. Then, it is not necessary to send B and P pictures. For this reason, even if the transmission bandwidth of the network 10 is narrowed, the still image can be sent to the communication terminal 1 of the other party as a moving image with relatively high precision.

また、フレームメモリ122に入力された画像データが静止画と動画の合成画像であっても、静止画に相当するマクロブロックの動きベクトルは零となり、その部分はスキップドマクロとしてデータを送らずに済む。   Even if the image data input to the frame memory 122 is a composite image of a still image and a moving image, the motion vector of the macroblock corresponding to the still image is zero, and that portion is not sent as a skipped macro. That's it.

フレームメモリ122に入力された画像データが静止画のみである場合は、フレームレートを落とし、その代わりIピクチャの符号量を増やすようにしてもよい。これにより、動きのない静止画を精細に表示することができる。   If the image data input to the frame memory 122 is only a still image, the frame rate may be reduced and the code amount of the I picture may be increased instead. Thereby, a still picture without movement can be displayed finely.

自分方の通信端末1aのスイッチャ78によって静止画の入力元がWebブラウザモジュール43、デジタルビデオカメラ70、デジタルスチルカメラ71またはメディアリーダ73のいずれに切り替わっても、入力元の種類とは無関係に、静止画に相当する部分のマクロブロックが動きベクトル零となるようなフレーム動画像が相手方の通信端末1bにリアルタイムで送信される。このため、自分方の通信端末1aでスイッチャ78による静止画の入力元が不定期に切り替わっても、これに追従して、相手方の通信端末1に送信されるフレーム動画像がすみやかに切り替わり、結果的に相手方の通信端末1bで表示される静止画もすみやかに切り替わる。   Regardless of the type of the input source, regardless of whether the input source of the still image is switched to the Web browser module 43, the digital video camera 70, the digital still camera 71, or the media reader 73 by the switcher 78 of the own communication terminal 1a, A frame moving image in which a macroblock corresponding to a still image has a motion vector of zero is transmitted in real time to the counterpart communication terminal 1b. For this reason, even if the input source of the still image by the switcher 78 is switched irregularly in the own communication terminal 1a, the frame moving image transmitted to the communication terminal 1 of the other party is quickly switched following this, and the result Thus, the still image displayed on the other party's communication terminal 1b is also quickly switched.

次に、図12のフローチャートに従い、通信端末1aと通信端末1bとの間で行われる動作を説明する。   Next, operations performed between the communication terminal 1a and the communication terminal 1b will be described with reference to the flowchart of FIG.

まず、通信端末1bの自分方表示モード通知部11aは、リモコン60から画面切替信号が入力された場合、入力された画面切替信号に応じて設定された表示モードを特定する制御パケット(表示モード特定パケット)を通信端末1aに送信する(B1)。   First, when a screen switching signal is input from the remote controller 60, the own display mode notifying unit 11a of the communication terminal 1b specifies a control packet (display mode specifying) that specifies a display mode set according to the input screen switching signal. Packet) to the communication terminal 1a (B1).

通信端末1aの相手方表示モード検出部11bは、通信端末1bから表示モード特定パケットを受信したか否かを判断し(A1)、受信したと判断すると、通信端末1bで設定された表示モードを特定する(A2)。   The other party display mode detection unit 11b of the communication terminal 1a determines whether or not the display mode specifying packet has been received from the communication terminal 1b (A1). If it is determined that the display mode specifying packet has been received, the display mode set by the communication terminal 1b is specified. (A2).

また通信端末1bは、リモコン60の操作による表示モードの設定とは無関係に、定期的に監視パケットRTCP RRを送信する(B2)。   Further, the communication terminal 1b periodically transmits the monitoring packet RTCP RR regardless of the display mode setting by the operation of the remote controller 60 (B2).

通信端末1aは、逐次通信端末1bから監視パケットRTCP RRを受信する(A3)。   The communication terminal 1a receives the monitoring packet RTCP RR from the sequential communication terminal 1b (A3).

通信端末1aの帯域推定部11cは、監視パケットRTCP RRに基づいて現在のネットワーク10の帯域を推定する(A4)。   The bandwidth estimation unit 11c of the communication terminal 1a estimates the current bandwidth of the network 10 based on the monitoring packet RTCP RR (A4).

通信端末1aの表示制御部11dは、特定された表示モードに対応する帯域割当テーブルを参照して、その表示モードで各表示エリアに表示される各映像に対する割り当て帯域を決定する(A5)。   The display control unit 11d of the communication terminal 1a refers to the band allocation table corresponding to the specified display mode, and determines the allocated band for each video displayed in each display area in the display mode (A5).

図13は帯域割当テーブルの一例として、「PoutP画面(コンテンツ対話(1))」表示モード(図7の画面に相当)に対応した帯域割当テーブルを示す。このテーブルでは、推定された帯域のうち、相対的に面積の大きい方の表示エリアX1(4タイル)に割り当てる帯域および相対的に面積の小さい方の表示エリアX2もしくはX3(1タイル)に割り当てる帯域が、推定されるべき各帯域と対応づけられている。推定帯域内で2つの表示エリアX1、X2(もしくはX3)にどのように帯域を割り当てるかは任意であるが、好ましくは、表示エリアX1、X2(もしくはX3)の面積比におおよそ対応している。こうすると、大きい表示エリアX1に表示される映像の伝送情報量を大きくして精細に表示でき、かつ小さい表示エリアX2に表示される映像の伝送情報量を小さくして精細に表示する必要のない映像の伝送量を節約でき、限られた伝送帯域を有効に使うことができる。   FIG. 13 shows a bandwidth allocation table corresponding to the “PoutP screen (content dialogue (1))” display mode (corresponding to the screen of FIG. 7) as an example of the bandwidth allocation table. In this table, of the estimated bands, the band allocated to the display area X1 (4 tiles) having a relatively large area and the band allocated to the display area X2 or X3 (1 tile) having a relatively small area. Are associated with each band to be estimated. Although how to allocate the band to the two display areas X1, X2 (or X3) within the estimated band is arbitrary, it preferably corresponds to the area ratio of the display areas X1, X2 (or X3). . In this way, it is possible to increase the amount of transmission information of video displayed in the large display area X1 and display it finely, and it is not necessary to reduce the amount of transmission information of video displayed in the small display area X2 and display it in detail. The amount of video transmission can be saved, and a limited transmission band can be used effectively.

ただし、表示エリアの面積比に厳密に帯域を対応させると、帯域が低下した場合、小さい表示エリアX2もしくはX3の情報量が極端に減ってしまい、鑑賞に耐えないことがある。このため、所定の下限値よりも伝送帯域が低くならないように割り当て帯域を設定しておく。このテーブルでは、表示エリアX2もしくはX3の割り当て帯域が「128k」を下回らないようにしている。   However, if the band is strictly associated with the area ratio of the display area, when the band is lowered, the information amount of the small display area X2 or X3 is extremely reduced, and the viewing may not endure. For this reason, the allocated bandwidth is set so that the transmission bandwidth does not become lower than the predetermined lower limit value. In this table, the allocated bandwidth of the display area X2 or X3 is set so as not to fall below “128k”.

符号化制御部11eは、表示エリアX1、X2もしくはX3に割り当てられた伝送帯域に応じ、表示エリアX1、X2もしくはX3にそれぞれ表示される映像の伝送ビットレートを変化させ、割り当てられた伝送帯域内にデータが収まるよう(パケットのオーバーフローが生じないよう)、CH1符号化部13−1およびCH2符号化部13−2の量子化回路117を制御する(A6)。   The encoding control unit 11e changes the transmission bit rate of the video displayed in the display area X1, X2 or X3 according to the transmission band assigned to the display area X1, X2 or X3, and within the assigned transmission band. The quantization circuit 117 of the CH1 encoding unit 13-1 and the CH2 encoding unit 13-2 is controlled (A6) so that the data can be accommodated in (so that no packet overflow occurs).

すなわち、通信端末1bのリモコン60の画面切替信号によって、CH1符号化部13−1の符号化した映像データが表示エリアX1に、CH2符号化部13−2の符号化した映像データが表示エリアX2もしくはX3に表示されることが指示されれば、CH1符号化部13−1の伝送ビットレートは表示エリアX1に割り当てられた伝送帯域に収まるよう制御され、かつCH2符号化部13−2の伝送ビットレートは表示エリアX2もしくはX3に割り当てられた伝送帯域に収まるよう制御される。   That is, the video data encoded by the CH1 encoding unit 13-1 is displayed in the display area X1 and the video data encoded by the CH2 encoding unit 13-2 is displayed in the display area X2 by the screen switching signal of the remote control 60 of the communication terminal 1b. Alternatively, if it is instructed to be displayed on X3, the transmission bit rate of CH1 encoding unit 13-1 is controlled to be within the transmission band assigned to display area X1, and transmission of CH2 encoding unit 13-2 is performed. The bit rate is controlled to be within the transmission band assigned to the display area X2 or X3.

あるいは、通信端末1bのリモコン60の画面切替信号によって、CH1符号化部13−1の符号化した映像データが表示エリアX2もしくはX3に表示されることが指示され、CH2符号化部13−2の符号化した映像データが表示エリアX1に表示されることが指示されれば、CH1符号化部13−1の伝送ビットレートは表示エリアX2もしくはX3に割り当てられた伝送帯域に収まるよう制御され、かつCH2符号化部13−2の伝送ビットレートは表示エリアX1に割り当てられた伝送帯域に収まるよう制御される。   Alternatively, the screen switching signal of the remote controller 60 of the communication terminal 1b instructs that the video data encoded by the CH1 encoding unit 13-1 is displayed in the display area X2 or X3, and the CH2 encoding unit 13-2 If it is instructed that the encoded video data is displayed in the display area X1, the transmission bit rate of the CH1 encoder 13-1 is controlled to be within the transmission band assigned to the display area X2 or X3, and The transmission bit rate of the CH2 encoding unit 13-2 is controlled so as to be within the transmission band assigned to the display area X1.

このようにビットレート制御された映像データのパケットは順次通信端末1bに送出される。通信端末1bはパケットをストリーム化し、設定された表示モードに応じた表示エリアに映像データを再生表示する。   Packets of video data whose bit rate is controlled in this way are sequentially sent to the communication terminal 1b. The communication terminal 1b streams the packets and reproduces and displays the video data in a display area corresponding to the set display mode.

なお、伝送帯域は時事刻々変化するため、パケット伝送帯域の推定(A3)から伝送ビットレートの制御(A6)を含む一連の処理は定期的に繰り返される。制御パケットの検出(A1)と表示モードの特定(A2)も定期的に繰り返される。   Since the transmission band changes from time to time, a series of processing including packet transmission band estimation (A3) to transmission bit rate control (A6) is periodically repeated. Control packet detection (A1) and display mode specification (A2) are also periodically repeated.

通信端末1aと通信端末1bの構成は等価であるから、両者の役割を入れ換えても以上の動作は成立する。通信端末1aと通信端末1bとで独立別個に上記のような伝送ビットレート制御を行うことで、特にADSLのような非対称の伝送帯域を持つネットワークにおいても、双方向の映像データ転送を伝送帯域の変動に応じて最適化できる。   Since the configurations of the communication terminal 1a and the communication terminal 1b are equivalent, the above operation is established even if the roles of both are exchanged. By performing the transmission bit rate control as described above independently at the communication terminal 1a and the communication terminal 1b, bi-directional video data transfer can be performed even in a network having an asymmetric transmission band such as ADSL. It can be optimized according to fluctuations.

第1実施形態に係る映像音声通信システムのブロック図Block diagram of the video / audio communication system according to the first embodiment. 通信端末のブロック図Block diagram of communication terminal モニタ5に表示される画面の一例を示す図The figure which shows an example of the screen displayed on the monitor 5 全画面自分映像表示モードの概念説明図Conceptual diagram of full screen self-image display mode 全画面相手映像表示モードの概念説明図Conceptual diagram of full screen partner video display mode PoutP画面(通常対話)表示モードの概念説明図Conceptual illustration of PoutP screen (normal dialogue) display mode PoutP画面(コンテンツ対話(1))表示モードの概念説明図PoutP screen (content dialogue (1)) display mode conceptual diagram PoutP画面(コンテンツ対話(2))表示モードの概念説明図PoutP screen (content dialogue (2)) display mode conceptual diagram 全画面(コンテンツ対話(3))表示モードの概念説明図Conceptual illustration of full screen (content dialogue (3)) display mode 表示エリアを画定するタイルの概念説明図Conceptual illustration of tiles that define the display area 符号化部の詳細ブロック図Detailed block diagram of the encoder 通信端末の動作を示すフローチャートFlow chart showing operation of communication terminal 通信帯域割当テーブルの概念説明図Conceptual diagram of communication bandwidth allocation table

符号の説明Explanation of symbols

11a:自分方表示モード通知部、11b:相手方表示モード検出部、11e:符号化制御部 11a: own display mode notification unit, 11b: counterpart display mode detection unit, 11e: encoding control unit

Claims (12)

所望の静止画像を入力する入力部と、
前記入力部に入力された静止画像を展開する展開部と、
前記展開部に展開された静止画像を参照画像としかつ前記参照画像に対する動きベクトルが零の差分画像により1フレームの動画像に復元されるような圧縮動画像を符号化する符号化部と、
前記符号化部の符号化した圧縮動画像を所望の相手方の通信端末に送信する送信部と、
を備える通信端末。
An input unit for inputting a desired still image;
A developing unit that expands the still image input to the input unit;
An encoding unit that encodes a compressed moving image that uses the still image expanded in the expansion unit as a reference image and is restored to a one-frame moving image using a difference image with a zero motion vector with respect to the reference image;
A transmitting unit that transmits the compressed compressed video encoded by the encoding unit to a desired counterpart communication terminal;
A communication terminal comprising:
1または複数の静止画像の入力系統から所望の静止画像の入力系統を選択する選択部を備え、
前記入力部は前記選択部の選択した静止画像の入力系統から所望の静止画像を入力する請求項1に記載の通信端末。
A selection unit that selects a desired still image input system from one or a plurality of still image input systems;
The communication terminal according to claim 1, wherein the input unit inputs a desired still image from a still image input system selected by the selection unit.
手動の入力操作を受け付ける操作部と、
前記静止画像の入力系統の一覧を表示する入力系統表示部をさらに備え、
前記選択部は、前記入力系統表示部に表示された静止画像の入力系統の一覧から、前記操作部への入力操作により任意に指定された入力系統を選択する請求項2に記載の通信端末。
An operation unit that accepts manual input operations;
An input system display unit for displaying a list of input systems of the still image;
The communication terminal according to claim 2, wherein the selection unit selects an input system arbitrarily designated by an input operation to the operation unit from a list of input systems of still images displayed on the input system display unit.
複数の入力系統から入力される映像を個別に符号化する複数の符号化部と、
前記複数の符号化部が符号化した複数の映像を相手方の通信端末に送信する送信部と、
前記送信部により相手方の通信端末に送信された複数の映像の相手方の通信端末の表示画面における各々の表示面積を特定させることのできる表示面積特定信号を受信する表示面積特定信号受信部と、
前記ネットワークの伝送帯域を推定する帯域推定部と、
前記表示面積特定信号受信部の受信した表示面積特定信号で示される複数の映像の各々の表示面積の比におおよそ従い、前記帯域推定部の推定した伝送帯域の範囲内で複数の映像の各々の送信帯域の割り当てを決定する帯域割当部と、
前記帯域割当部の割り当てた送信帯域の範囲内で前記複数の符号化部による複数の映像の符号化の量を制御する符号化制御部と、
を備える通信端末。
A plurality of encoding units for individually encoding videos input from a plurality of input systems;
A transmission unit that transmits a plurality of videos encoded by the plurality of encoding units to a communication terminal of the other party;
A display area specifying signal receiving unit for receiving a display area specifying signal capable of specifying each display area on the display screen of the other communication terminal of the plurality of videos transmitted to the other communication terminal by the transmitting unit;
A bandwidth estimation unit for estimating a transmission bandwidth of the network;
The display area specifying signal receiving unit approximately follows the display area ratio of each of the plurality of videos indicated by the display area specifying signal, and each of the plurality of videos is within the transmission band estimated by the band estimating unit. A bandwidth allocation unit that determines transmission bandwidth allocation;
An encoding control unit that controls an amount of encoding of a plurality of videos by the plurality of encoding units within a range of a transmission band allocated by the band allocation unit;
A communication terminal comprising:
複数の映像の各々の表示面積の比に応じた送信帯域の割り当てと前記帯域推定部により推定されるべき伝送帯域とが対応づけられた割当テーブルを記憶する割当テーブル記憶部をさらに備え、
前記帯域割当部は、前記割当テーブル記憶部の割当テーブルを参照し、前記帯域推定部により推定された伝送帯域に対応づけられた複数の映像の各々の割り当てに従って送信帯域の割り当てを決定する請求項4に記載の通信端末。
An allocation table storage unit for storing an allocation table in which transmission band allocation according to a ratio of display areas of each of a plurality of videos and transmission bands to be estimated by the band estimation unit are associated;
The bandwidth allocating unit refers to an allocation table in the allocation table storage unit, and determines transmission band allocation according to each allocation of a plurality of videos associated with the transmission band estimated by the band estimation unit. 4. The communication terminal according to 4.
前記割当テーブルに記憶された複数の映像の各々の送信帯域の割り当ては所定の下限値を上回る請求項5に記載の通信端末。   The communication terminal according to claim 5, wherein the transmission band allocation of each of the plurality of videos stored in the allocation table exceeds a predetermined lower limit value. 前記表示面積特定信号受信部の受信する表示面積特定信号は、前記相手方の通信端末が表示する複数の映像の各々を表示するエリアを規定する表示モードを特定する情報を含み、
前記帯域割当部は、前記表示面積特定信号受信部の受信した表示面積特定信号から前記相手方の通信端末で設定されている表示モードを特定し、特定した表示モードにおいて複数の映像の各々が表示されるエリアの面積比に応じて各エリアに表示される映像の送信帯域の割り当てを決定する請求項4〜6のいずれかに記載の通信端末。
The display area specifying signal received by the display area specifying signal receiving unit includes information for specifying a display mode that defines an area for displaying each of a plurality of images displayed by the counterpart communication terminal,
The band allocating unit specifies a display mode set in the communication terminal of the other party from the display area specifying signal received by the display area specifying signal receiving unit, and each of a plurality of videos is displayed in the specified display mode. The communication terminal according to any one of claims 4 to 6, wherein an allocation of a transmission band of a video displayed in each area is determined in accordance with an area ratio of the area.
前記表示モードは1画面が所定の面積で等分割された表示エリアの一部または全部における前記複数の映像の各々の配置を規定する請求項7に記載の通信端末。   The communication terminal according to claim 7, wherein the display mode defines an arrangement of each of the plurality of videos in a part or all of a display area in which one screen is equally divided by a predetermined area. 所望の静止画像を入力する入力部と、前記入力部に入力された静止画像を展開する展開部と、前記展開部に展開された静止画像を参照画像としかつ前記参照画像に対する動きベクトルが零の差分画像により1フレームの動画像に復元されるような圧縮動画像を符号化する符号化部と、前記符号化部の符号化した圧縮動画像を送信する送信部と、を備える送信側通信端末と、
前記送信側通信端末から前記符号化された圧縮動画像を受信する受信部と、前記受信部の受信した前記符号化された圧縮動画像を復号化する復号化部と、前記復号化部の復号化した圧縮動画像を前記1フレームの動画像に展開する展開部と、前記展開部の展開した前記1フレームの動画像を前記静止画像として表示する表示部と、を備える受信側通信端末と、
を備える通信システム。
An input unit for inputting a desired still image, a developing unit for developing the still image input to the input unit, a still image developed in the developing unit as a reference image, and a motion vector for the reference image is zero A transmission-side communication terminal comprising: an encoding unit that encodes a compressed moving image that is restored to a one-frame moving image by a difference image; and a transmission unit that transmits the compressed moving image encoded by the encoding unit. When,
A receiving unit that receives the encoded compressed moving image from the transmission-side communication terminal, a decoding unit that decodes the encoded compressed moving image received by the receiving unit, and a decoding unit that decodes the encoded moving image A receiving-side communication terminal comprising: a developing unit that develops the compressed compressed video into the one-frame moving image; and a display unit that displays the one-frame moving image developed by the developing unit as the still image;
A communication system comprising:
複数の入力系統から入力される映像を個別に符号化する複数の符号化部と、前記複数の符号化部が符号化した複数の映像をネットワークを介して送信する送信部と、前記ネットワークの伝送帯域を推定する帯域推定部とを備える送信側通信端末、および前記送信側通信端末から前記ネットワークを介して前記符号化された複数の映像を受信する受信部と、前記受信部の受信した前記符号化された複数の映像を復号化する復号化部と、前記復号化部の復号化した複数の映像を展開する展開部と、前記展開部の展開した複数の映像を表示する表示部とを備える受信側通信端末を含む通信システムであって、
前記受信側通信端末は、前記送信側通信端末から送信された前記複数の映像の各々の前記表示部における表示面積を特定させることのできる表示面積特定信号を送信する表示面積特定信号送信部を備え、
前記送信側通信端末は、前記受信側通信端末から前記表示面積特定信号を受信する表示面積特定信号受信部と、前記表示面積特定信号受信部の受信した表示面積特定信号で示される複数の映像の各々の表示面積の比におおよそ従い、前記帯域推定部の推定した伝送帯域の範囲内で前記複数の映像の各々の送信帯域の割り当てを決定する帯域割当部と、前記帯域割当部の割り当てた送信帯域の範囲内で前記複数の符号化部による複数の映像の符号化の量を制御する符号化制御部と、を備える通信システム。
A plurality of encoding units that individually encode videos input from a plurality of input systems; a transmission unit that transmits a plurality of videos encoded by the plurality of encoding units via a network; and transmission of the network A transmission side communication terminal comprising a band estimation unit for estimating a band, a reception unit for receiving the plurality of encoded videos from the transmission side communication terminal via the network, and the code received by the reception unit A decoding unit that decodes the plurality of converted videos, a development unit that develops the plurality of videos decoded by the decoding unit, and a display unit that displays the plurality of videos developed by the development unit A communication system including a receiving communication terminal,
The receiving-side communication terminal includes a display area specifying signal transmitting unit that transmits a display area specifying signal that can specify a display area of each of the plurality of videos transmitted from the transmitting-side communication terminal. ,
The transmitting communication terminal includes a display area specifying signal receiving unit that receives the display area specifying signal from the receiving communication terminal, and a plurality of videos indicated by the display area specifying signal received by the display area specifying signal receiving unit. A bandwidth allocation unit that determines allocation of transmission bands for each of the plurality of videos within a transmission band range estimated by the bandwidth estimation unit according to a ratio of each display area, and a transmission allocated by the bandwidth allocation unit And a coding control unit that controls an amount of coding of the plurality of videos by the plurality of coding units within a band range.
所望の静止画像を入力するステップと、
入力された静止画像を展開するステップと、
展開された静止画像を参照画像としかつ前記参照画像に対する動きベクトルが零の差分画像により1フレームの動画像に復元されるような圧縮動画像を符号化するステップと、
符号化された圧縮動画像を所望の相手方の通信端末に送信するステップと、
を含む通信方法。
Inputting a desired still image;
Expanding the input still image; and
Encoding a compressed moving image such that the developed still image is a reference image and is restored to a one-frame moving image by a difference image having a zero motion vector with respect to the reference image;
Transmitting the encoded compressed video to a communication terminal of a desired counterpart;
Including a communication method.
複数の入力系統から入力される映像を個別に符号化するステップと、
符号化された複数の映像を相手方の通信端末に送信するステップと、
相手方の通信端末に送信された複数の映像の相手方の通信端末の表示画面における各々の表示面積を特定させることのできる表示面積特定信号を受信するステップと、
ネットワークの伝送帯域を推定するステップと、
受信した表示面積特定信号で示される複数の映像の各々の表示面積の比におおよそ従い、推定された伝送帯域の範囲内で複数の映像の各々の送信帯域の割り当てを決定するステップと、
前記複数の映像の各々に割り当てられた送信帯域の範囲内で前記複数の映像の符号化の量を制御するステップと、
を含む通信方法。
Individually encoding video input from a plurality of input systems;
Transmitting a plurality of encoded videos to the communication terminal of the other party;
Receiving a display area specifying signal capable of specifying each display area on the display screen of the counterpart communication terminal of the plurality of videos transmitted to the counterpart communication terminal;
Estimating the transmission bandwidth of the network;
Determining the transmission band allocation of each of the plurality of videos within the estimated transmission band in accordance with a ratio of the display areas of each of the plurality of videos indicated by the received display area specifying signal;
Controlling the amount of encoding of the plurality of videos within a transmission bandwidth allocated to each of the plurality of videos;
Including a communication method.
JP2006019556A 2006-01-27 2006-01-27 Communication terminal, communication system, and communication method Expired - Fee Related JP4799191B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006019556A JP4799191B2 (en) 2006-01-27 2006-01-27 Communication terminal, communication system, and communication method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006019556A JP4799191B2 (en) 2006-01-27 2006-01-27 Communication terminal, communication system, and communication method

Publications (2)

Publication Number Publication Date
JP2007201938A true JP2007201938A (en) 2007-08-09
JP4799191B2 JP4799191B2 (en) 2011-10-26

Family

ID=38456052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006019556A Expired - Fee Related JP4799191B2 (en) 2006-01-27 2006-01-27 Communication terminal, communication system, and communication method

Country Status (1)

Country Link
JP (1) JP4799191B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011515880A (en) * 2008-03-28 2011-05-19 シャープ株式会社 Method, apparatus and system for parallel encoding and decoding of moving images
US8344917B2 (en) 2010-09-30 2013-01-01 Sharp Laboratories Of America, Inc. Methods and systems for context initialization in video coding and decoding
US9313514B2 (en) 2010-10-01 2016-04-12 Sharp Kabushiki Kaisha Methods and systems for entropy coder initialization
CN115103175A (en) * 2022-07-11 2022-09-23 北京字跳网络技术有限公司 Image transmission method, device, equipment and medium

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0965313A (en) * 1995-08-29 1997-03-07 Toshiba Corp Remote conference system
JPH11177945A (en) * 1997-12-11 1999-07-02 Sony Corp Multiplexing device and its method
JP2001025013A (en) * 1999-07-12 2001-01-26 Matsushita Electric Ind Co Ltd Transmission/reception method and equipment therefor
WO2001037565A1 (en) * 1999-11-12 2001-05-25 Matsushita Electric Industrial Co., Ltd. Method and apparatus for controlling moving picture synthesis
JP2001189771A (en) * 1999-12-28 2001-07-10 Ntt Docomo Inc Method and system for constituting virtual terminal
JP2002023719A (en) * 2000-07-04 2002-01-25 Canon Inc Device and method for image processing, and recording medium
JP2002199408A (en) * 2000-12-27 2002-07-12 Matsushita Electric Ind Co Ltd Moving image coding method and moving image coder
JP2002353999A (en) * 2001-05-25 2002-12-06 Hitachi Ltd Data receiving method, data receiving equipment, data transmission equipment and communication system
JP2004056550A (en) * 2002-07-22 2004-02-19 Nippon Avionics Co Ltd Electronic conference system
JP2004266741A (en) * 2003-03-04 2004-09-24 Sony Corp Distribution system, transmission apparatus and method, reception apparatus and method, recording medium, and program
JP2005012270A (en) * 2003-06-16 2005-01-13 Sharp Corp Video recorder

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0965313A (en) * 1995-08-29 1997-03-07 Toshiba Corp Remote conference system
JPH11177945A (en) * 1997-12-11 1999-07-02 Sony Corp Multiplexing device and its method
JP2001025013A (en) * 1999-07-12 2001-01-26 Matsushita Electric Ind Co Ltd Transmission/reception method and equipment therefor
WO2001037565A1 (en) * 1999-11-12 2001-05-25 Matsushita Electric Industrial Co., Ltd. Method and apparatus for controlling moving picture synthesis
JP2001189771A (en) * 1999-12-28 2001-07-10 Ntt Docomo Inc Method and system for constituting virtual terminal
JP2002023719A (en) * 2000-07-04 2002-01-25 Canon Inc Device and method for image processing, and recording medium
JP2002199408A (en) * 2000-12-27 2002-07-12 Matsushita Electric Ind Co Ltd Moving image coding method and moving image coder
JP2002353999A (en) * 2001-05-25 2002-12-06 Hitachi Ltd Data receiving method, data receiving equipment, data transmission equipment and communication system
JP2004056550A (en) * 2002-07-22 2004-02-19 Nippon Avionics Co Ltd Electronic conference system
JP2004266741A (en) * 2003-03-04 2004-09-24 Sony Corp Distribution system, transmission apparatus and method, reception apparatus and method, recording medium, and program
JP2005012270A (en) * 2003-06-16 2005-01-13 Sharp Corp Video recorder

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9681143B2 (en) 2008-03-28 2017-06-13 Dolby International Ab Methods, devices and systems for parallel video encoding and decoding
US9473772B2 (en) 2008-03-28 2016-10-18 Dolby International Ab Methods, devices and systems for parallel video encoding and decoding
US8542748B2 (en) 2008-03-28 2013-09-24 Sharp Laboratories Of America, Inc. Methods and systems for parallel video encoding and decoding
US20140241438A1 (en) 2008-03-28 2014-08-28 Sharp Kabushiki Kaisha Methods, devices and systems for parallel video encoding and decoding
US10958943B2 (en) 2008-03-28 2021-03-23 Dolby International Ab Methods, devices and systems for parallel video encoding and decoding
JP2011515880A (en) * 2008-03-28 2011-05-19 シャープ株式会社 Method, apparatus and system for parallel encoding and decoding of moving images
US11438634B2 (en) 2008-03-28 2022-09-06 Dolby International Ab Methods, devices and systems for parallel video encoding and decoding
US9503745B2 (en) 2008-03-28 2016-11-22 Dolby International Ab Methods, devices and systems for parallel video encoding and decoding
US8824541B2 (en) 2008-03-28 2014-09-02 Sharp Kabushiki Kaisha Methods, devices and systems for parallel video encoding and decoding
US9681144B2 (en) 2008-03-28 2017-06-13 Dolby International Ab Methods, devices and systems for parallel video encoding and decoding
JP2018046581A (en) * 2008-03-28 2018-03-22 ドルビー・インターナショナル・アーベー Device
US9930369B2 (en) 2008-03-28 2018-03-27 Dolby International Ab Methods, devices and systems for parallel video encoding and decoding
US10284881B2 (en) 2008-03-28 2019-05-07 Dolby International Ab Methods, devices and systems for parallel video encoding and decoding
US11838558B2 (en) 2008-03-28 2023-12-05 Dolby International Ab Methods, devices and systems for parallel video encoding and decoding
US10652585B2 (en) 2008-03-28 2020-05-12 Dolby International Ab Methods, devices and systems for parallel video encoding and decoding
US8344917B2 (en) 2010-09-30 2013-01-01 Sharp Laboratories Of America, Inc. Methods and systems for context initialization in video coding and decoding
US9313514B2 (en) 2010-10-01 2016-04-12 Sharp Kabushiki Kaisha Methods and systems for entropy coder initialization
US10999579B2 (en) 2010-10-01 2021-05-04 Velos Media, Llc Methods and systems for decoding a video bitstream
US10659786B2 (en) 2010-10-01 2020-05-19 Velos Media, Llc Methods and systems for decoding a video bitstream
US10341662B2 (en) 2010-10-01 2019-07-02 Velos Media, Llc Methods and systems for entropy coder initialization
CN115103175A (en) * 2022-07-11 2022-09-23 北京字跳网络技术有限公司 Image transmission method, device, equipment and medium
CN115103175B (en) * 2022-07-11 2024-03-01 北京字跳网络技术有限公司 Image transmission method, device, equipment and medium

Also Published As

Publication number Publication date
JP4799191B2 (en) 2011-10-26

Similar Documents

Publication Publication Date Title
JP2007208458A (en) System, terminal, and method for communication
KR100557103B1 (en) Data processing method and data processing apparatus
US20160234522A1 (en) Video Decoding
JP2006333254A (en) Moving image real time communication terminal, and method and program for controlling moving image real time communication terminal
JP2008269174A (en) Control device, method, and program
JP2007158410A (en) Image encoder, image decoder, and image processing system
JP2008131143A (en) Encoding processor, and encoding processing method
US20060256232A1 (en) Moving picture communication system
WO2015167820A1 (en) Content message for video conferencing
JP2007325109A (en) Distribution server, network camera, distribution method, and program
JP4799191B2 (en) Communication terminal, communication system, and communication method
JPH07336462A (en) Communication terminal and communication system
US20050289626A1 (en) IP based interactive multimedia communication system
JP4662085B2 (en) Moving image storage system, moving image storage method, and moving image storage program
JP5389528B2 (en) Network decoder device
KR20050115226A (en) Transmission control device and method, recording medium, and program
EP0940993A2 (en) Method and apparatus for generating selected image views from a larger image
JP2005045666A (en) Transcoder
KR20130122117A (en) Method and apparatus for transmitting a moving image in a real time
KR101291559B1 (en) Apparatus and method for real time image compression
Johanson Designing an environment for distributed real-time collaboration
JP6045051B1 (en) Moving picture transmission apparatus and moving picture transmission method
JP3519722B2 (en) Data processing method and data processing device
JP2007221826A (en) Receiving terminal and reception method
JP2004007461A (en) Data processor and its method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110421

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110707

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110802

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees