JP5170786B2 - Multi-view video scalable coding and decoding method, and coding and decoding apparatus - Google Patents

Multi-view video scalable coding and decoding method, and coding and decoding apparatus Download PDF

Info

Publication number
JP5170786B2
JP5170786B2 JP2009534496A JP2009534496A JP5170786B2 JP 5170786 B2 JP5170786 B2 JP 5170786B2 JP 2009534496 A JP2009534496 A JP 2009534496A JP 2009534496 A JP2009534496 A JP 2009534496A JP 5170786 B2 JP5170786 B2 JP 5170786B2
Authority
JP
Japan
Prior art keywords
video
prediction
scalable
lower layer
resolution image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009534496A
Other languages
Japanese (ja)
Other versions
JP2010507961A (en
Inventor
シ−ネ パク
ドン−キュ シム
ジョン−ハク ナム
スク−ヒ チョ
ヒョン−ジン クォン
ナム−ホ ホ
ジン−ウン キム
ス−イン イ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JP2010507961A publication Critical patent/JP2010507961A/en
Application granted granted Critical
Publication of JP5170786B2 publication Critical patent/JP5170786B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64784Data processing by the network
    • H04N21/64792Controlling the complexity of the content stream, e.g. by dropping packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明はマルチビュービデオのスケーラブル(scalable)コーディングおよびデコーディング技術に関し、より詳細には、複数のカメラにより撮影されたマルチビュービデオを圧縮伝送するにあたり、マルチビュービデオを多階層空間および時間スケーラブルコーディング技術を利用して圧縮伝送し、受信端でデコードして多様な形態のビデオ端末機に2次元または3次元のビデオサービスを提供するためのマルチビュービデオのスケーラブルコーディングおよびデコード方法、ならびにコーディングおよびデコーディング装置に関する。   The present invention relates to a multi-view video scalable coding and decoding technique, and more particularly, to compress multi-view video shot by a plurality of cameras and transmit the multi-view video to a multi-level spatial and temporal scalable coding. A multi-view video scalable coding and decoding method for providing 2D or 3D video services to various types of video terminals by compressing and transmitting using technology, and decoding at a receiving end, and coding and decoding It relates to a coding device.

データを圧縮する基本的な原理は、データの空間的重複および時間的重複(redundancy)要素を除去することである。空間的重複は、ビデオで同じ色やオブジェクトが繰り返されることを指す。また、時間的重複は、動画像ピクチャで隣接したピクチャがほとんど変化のないこと、またはオーディオで同じ音が反復することを指す。一般的なビデオコーディング方法において、時間的重複は、動きの補償に基づいた時間的フィルタリングにより除去され、空間的重複は、空間的変換により除去される。   The basic principle of compressing data is to remove the spatial and temporal redundancy elements of the data. Spatial overlap refers to the same color or object being repeated in a video. In addition, temporal overlap refers to the fact that adjacent pictures in a moving picture are almost unchanged, or the same sound repeats in audio. In a typical video coding method, temporal overlap is removed by temporal filtering based on motion compensation, and spatial overlap is removed by spatial transformation.

データの重複が除去された後に生成されるマルチメディアデータを伝送するためには伝送媒体が必要だが、その性能は伝送媒体ごとに違いがある。多様な速度の伝送媒体を支援するために、または伝送環境に応じて、これに適合した伝送率でマルチメディアデータを伝送するためにスケーラブル(scalable)ビデオコーディング技術がある。   In order to transmit multimedia data generated after data duplication is removed, a transmission medium is required, but the performance varies depending on the transmission medium. There is a scalable video coding technique to support transmission media of various speeds or to transmit multimedia data at a transmission rate adapted to the transmission environment.

スケーラブルビデオコーディング技術とは、既に圧縮されたビットストリーム(bit−stream)に対して伝送ビット率、伝送エラー率、システム資源などの周辺条件に応じてビットストリームの一部を切り出してビデオの解像度、フレーム率、およびSNR(Signal−to−Noise Ratio)などを調整できるようにするコーディング技術を意味する。   The scalable video coding technique is a video resolution obtained by cutting out a part of a bit stream in accordance with peripheral conditions such as a transmission bit rate, a transmission error rate, and system resources with respect to an already compressed bit stream (bit-stream). It means a coding technique that enables adjustment of the frame rate, SNR (Signal-to-Noise Ratio), and the like.

図1は、一般的なスケーラブルコーディングの概念を説明するための参考図である。   FIG. 1 is a reference diagram for explaining the concept of general scalable coding.

同図に示すように、スケーラブルビデオコーディングは、入力ビデオに対して時間的変換を利用して時間的スケーラブルを具現し、2次元空間的変換を利用して空間的スケーラブルを具現する。また、スケーラブルビデオコーディングは、テクスチャコーディング(texture coding)を利用して画質(quality)のスケーラビリティを具現する。モーションコーディング(motion coding)は、それぞれの空間的スケーラブルを具現するときのモーション情報をスケーラブルするように符号化する。このようなコーディングアルゴリズムを介して1つのビットストリームを生成する。   As shown in the figure, scalable video coding implements temporal scalability using temporal transformation for an input video, and implements spatial scalable using two-dimensional spatial transformation. In addition, scalable video coding implements image quality scalability using texture coding. In motion coding, motion information when implementing each spatial scalable encoding is encoded so as to be scalable. One bit stream is generated through such a coding algorithm.

スケーラブルビデオコーディングにおいて、時間的スケーラブルを提供して圧縮効率を高める方法として、動き補償時間フィルタ(MCTF:Motion Compensated Temporal Filtering)と階層的Bピクチャ(hierarchical B−pictures)とがある。   In scalable video coding, there are a motion compensated temporal filter (MCTF) and a hierarchical B picture (hierarchical B-pictures) as methods for providing temporal scalability and improving compression efficiency.

MCTFは、ビデオシーケンス内で時間方向の動き情報を利用してウェーブレット変換(Wavelet Transform)を遂行すること指す。ウェーブレット変換は、リフティングスキーム(Lifting scheme)を利用して具現される。リフティングスキームは、多位相分解(polyphase decomposition)、予測(prediction)、およびアップデート(update)の3種類の演算で構成される。   MCTF refers to performing wavelet transform using motion information in the time direction within a video sequence. The wavelet transform is implemented using a lifting scheme. The lifting scheme is composed of three types of operations: polyphase decomposition, prediction, and update.

階層的Bピクチャは、H.264で使用する16個のピクチャを保存することができるDPB(Decoded Picture Buffer)を管理するMMCO(Memory Managemnent Control Operation)、およびRPLR(Reference PictureList Reordering)の構文を利用して多様な方法で具現することができる。   The hierarchical B picture is H.264. MMCO (Memory Management Control Operation) that manages DPB (Decoded Picture Buffer) that can store 16 pictures used in H.264, and RPLR (Reference Picture List Reordering) are implemented in various ways. be able to.

最近では、技術的発展およびユーザの要求により、多様な時点の光景に対するビデオ情報を視聴者に提供し、該当ビデオ情報のうち、視聴者が見たい光景に対する操作を介して、各視聴者に放送局から送られる情報を編集して視聴できるサービスが研究されている。このようなサービスを提供するためには、マルチビュービデオに対するビデオ圧縮技術が必要である。   Recently, due to technological developments and user requests, video information on scenes at various times is provided to viewers, and the corresponding video information is broadcast to each viewer through operations on the scenes that the viewer wants to see. Services that allow users to edit and view information sent from stations are being studied. In order to provide such a service, a video compression technique for multi-view video is necessary.

マルチビュービデオの圧縮は、マルチビュービデオを提供する複数のカメラから入力されたビデオを同時にコーディングして圧縮保存および伝送するためのものである。マルチビュービデオを圧縮せずに保存および伝送する場合、データの大きさが非常に大きいために、データをリアルタイムで放送網または有/無線インターネットを介してユーザに伝達するためには、広い伝送帯域幅が求められる。   Multi-view video compression is for simultaneously coding, storing and transmitting compressed video input from a plurality of cameras providing multi-view video. When storing and transmitting multi-view video without compression, the size of the data is so large that a large transmission bandwidth is needed to transmit the data to users over the broadcast network or wired / wireless Internet in real time. A width is required.

通常、マルチビュービデオコーディングおよびデコーディングは、それぞれのビデオシーケンスを独立的にコーディングして伝送した後にデコーディングする方法によってなし得る。これは、従来のMPEG−1/2/4やH.261/263/264を介して容易に具現することができる。しかし、これは同じ物体を複数のカメラで撮影するために生じるビデオ間の重複性を除去することができない。   In general, multi-view video coding and decoding may be performed by a method of decoding after each video sequence is independently coded and transmitted. This is because conventional MPEG-1 / 2/4 and H.264. It can be easily implemented through H.261 / 263/264. However, this does not remove the redundancy between videos that occurs because the same object is shot with multiple cameras.

ビデオ間の重複性を除去するための技術として、スケーラブルビデオコーディング(Scalable videocoding)技術がある。一般的に、単一時点のビデオスケーラブルコーディング技術は、単一時点のビデオを空間軸として空間フィルタを使用して多階層解像度で分離し、分離されたビデオを時間軸において階層的双方向動き予測を介して時空間スケーラブルを行う。ここで、各解像度において、階層間の効果的な予測のために動き、差画像、およびイントラ予測が遂行され得る。また、変換の符号化において階層的表現によるエントロピーコーディングを介して画質観点のスケーラビリティが提供され得る。   As a technique for removing redundancy between videos, there is a scalable video coding technique. In general, single-point video scalable coding technology separates single-point video with multi-layer resolution using spatial filter as spatial axis and hierarchical bi-directional motion prediction on temporal axis Spatiotemporal scalable via. Here, at each resolution, motion, difference images, and intra prediction can be performed for effective prediction between layers. Also, scalability in terms of image quality can be provided through entropy coding with hierarchical representation in transform encoding.

しかし、このような従来のスケーラブルビデオコーディング技術は、単一時点のビデオ空間画質として固定されており、多様な環境や多様な演算能力を有する端末機で、多様に三次元または選択的な二次元でビデオを再生する場合、多くの伝送率、およびビデオデコーダの面でオーバーヘッドが多く発生し得る問題がある。   However, the conventional scalable video coding technology is fixed as the video space image quality at a single point in time, and it can be used in terminals with various environments and various computing capabilities. When video is played back, there is a problem that many transmission rates and a lot of overhead may occur in terms of the video decoder.

したがって、本発明は、前記のような従来技術の問題を解決するために提案されたものであって、マルチビュービデオを圧縮するために時間軸およびビデオ(空間)軸で周辺画像を参照する動き予測補償だけでなく、マルチビュービデオにおいて空間軸上でスケーラビリティを提供するために、周辺のビデオの他の解像度での動き、差画像、およびイントラ予測を介して、より効率的にビデオを圧縮し、多様な環境の端末機に多様なビデオサービスを提供できるマルチビデオのスケーラブルコーディング方法および装置を提供することをその目的とする。   Accordingly, the present invention has been proposed to solve the above-described problems of the prior art, and the motion of referring to surrounding images on the time axis and the video (space) axis in order to compress the multi-view video. Compress video more efficiently via motion, difference images, and intra prediction at other resolutions of the surrounding video to provide scalability on the spatial axis in multi-view video as well as prediction compensation Another object of the present invention is to provide a multi-video scalable coding method and apparatus capable of providing various video services to terminals in various environments.

また、本発明は、マルチビデオに対してスケーラブルコーディングされた信号を受信してデコーディングするためのデコーディング方法、および装置を提供することをその目的とする。   It is another object of the present invention to provide a decoding method and apparatus for receiving and decoding a signal that is scalable coded for multi-video.

本発明の他の目的および長所は下記の説明によって理解することができ、本発明の実施形態によって、さらに明らかに分かるようになるであろう。また、本発明の目的および長所は、特許請求の範囲で示した手段およびその組合せにより実現できることが容易に理解できるはずである。   Other objects and advantages of the present invention can be understood by the following description, and become more apparent from the embodiments of the present invention. Further, it should be easily understood that the objects and advantages of the present invention can be realized by the means and combinations shown in the claims.

前記目的を達成するための本発明に係るスケーラブルビデオコーディング装置は、マルチビュービデオに対するスケーラブルビデオコーディング装置であって、基礎ビデオ空間フィルタリングを介して多階層解像度を有する画像フレームに分離して、前記分離された低解像度画像フレームおよび1つ以上の高解像度画像フレームの各々に対して時空間予測を介してスケーラブルビデオコーディングを遂行する基礎スケーラビリティビデオエンコーダと、同一時点で撮影された自体のビデオおよび参照ビデオによって、少なくとも1つ以上の他のビデオが入力され、空間フィルタリングを介して多階層解像度を有する画像フレームに分離して、前記分離された低解像度画像フレームに対して自体の隣接フレームだけでなく、第1ビデオと、参照ビデオである少なくとも1つ以上のビデオが入力され、空間フィルタリングを介して多階層解像度を有する画像フレームに分離して、前記分離された低解像度画像フレームに対して第1ビデオフレームの隣接フレーム及び同一時間軸での参照ビデオフレームを参照して時空間予測を介してスケーラブルビデオコーディングを遂行し、前記分離された1つ以上の高解像度画像フレームに対して前記第1ビデオの下位階層及び前記参照ビデオの下位階層を参照して時空間予測を介してスケーラブルビデオコーディングを遂行する複数の拡張されたスケーラビリティビデオエンコーダと、を備える。 Scalable video coding apparatus according to the present invention for achieving the above object, a scalable video coding apparatus for multiview video separates the foundation video image frames with multilayer resolutions through spatial filtering, and performing basic scalability video encoder scalable video coding via spatial prediction time for each of the separated low-resolution image frame and one or more high-resolution image frame, itself taken at the same time By the video and the reference video, at least one or more other videos are input and separated into image frames having multi-layer resolution via spatial filtering, and the adjacent frames to the separated low-resolution image frames As well as the first video and reference Is input and at least one or more video is a video separates the image frames with multilayer resolutions through spatial filtering, adjacent frames of the first video frame to the separated low-resolution image frame was And performing scalable video coding through spatio-temporal prediction with reference to a reference video frame on the same temporal axis, and sub-layering the first video with respect to the one or more separated high-resolution image frames, and comprising the scalability video encoders perform more expansion scalable video coding through a spatiotemporal prediction with reference to the lower layer of the reference video, a.

また、本発明に係るスケーラブルビデオコーディング方法は、マルチビュービデオに対するスケーラブルビデオコーディング方法であって、(a)基礎ビデオを空間フィルタリングを介して多階層解像度を有する画像フレームに分離して、前記分離された低解像度画像フレームおよび1つ以上の高解像度画像フレームの各々に対して時空間予測を介してスケーラブルビデオコーディングを遂行するステップと、(b)第1ビデオと、参照ビデオである少なくとも1つ以上のビデオとが入力され、空間フィルタリングを介して多階層解像度を有する画像フレームに分離して、前記分離された低解像度画像フレームに対して第1ビデオフレームの隣接フレーム及び同一時間軸での参照ビデオフレームを参照して時空間予測を介してスケーラブルビデオコーディングを遂行し、前記分離された1つ以上の高解像度画像フレームに対して前記第1ビデオの下位階層及び前記参照ビデオの下位階層を参照して時空間予測を介してスケーラブルビデオコーディングを遂行するステップ、を含む。 Also, scalable video coding method according to the present invention, there is provided a scalable video coding method for multi-view video, to separate the image frames with multilayer resolutions through spatial filtering (a) foundation video, the separation Performing scalable video coding via spatio-temporal prediction on each of the low-resolution image frame and one or more high-resolution image frames, and (b) at least one of a first video and a reference video is bi and Deo input described above, by separating the image frames with multilayer resolutions through spatial filtering, the separated first video frame to the low-resolution image frames in adjacent frames and the same time axis Scalable video via spatio-temporal prediction with reference to reference video frame Perform de-coding, and perform scalable video coding through spatio-temporal prediction with reference to the lower layer of the first video and the lower layer of the reference video for the one or more separated high-resolution image frames. Including the steps of :

一方、本発明に係るデコーディング装置は、マルチビュービデオに対するスケーラブルビデオデコーディング装置であって、基礎ビデオに対してスケーラブルコーディングされたビットストリームを受信して、逆時間変換および逆空間変換を介して復元する基礎スケーラビリティビデオデコーダと、第1ビデオおよび参照ビデオに対して時空間予測を介してスケーラブルコーディングされたビットストリームを受信し、前記第1ビデオの下位階層及び前記参照ビデオの下位階層の参照可否に応じて逆時空間予測を介して1つ以上の高解像度画像フレームを復元し、前記第1ビデオに含まれたフレームの隣接フレーム及び同一時間軸で前記参照ビデオフレームの参照可否に応じて逆時空間予測を介して低解像度画像フレームを復元した後、前記復元された高解像度画像フレームと、前記復元された低解像度画像フレームとに対して逆空間フィルタリングを介して画像を復元する複数の拡張されたスケーラビリティビデオデコーダと、を備える。 On the other hand, the decoding apparatus according to the present invention, there is provided a scalable video decoding apparatus for multi-view video, and receives the scalable coded bit stream for foundation video, via the transform and inverse spatial transform inverse time and basic scalability video decoder to restore Te, through the spatial prediction when the first video and the reference video receives scalable coded bitstream, the first video of a lower layer and the reference video of a lower layer through inverse temporal and spatial prediction to restore one or more high-resolution image frame in accordance with the read permission information, the read permission information of the frame adjacent frame and the reference video with the same time axis of the frame included in the first video And after restoring the low-resolution image frame via reverse spatio-temporal prediction, Comprising a high resolution image frames reconstructed, and a plurality of extended scalability video decoder for reconstructing an image through the inverse spatial filtering for the low resolution image frames the restored.

望ましくは、前記拡張されたスケーラビリティビデオデコーダが、受信されたビットストリームを逆多重化する逆多重化手段と、該逆多重化手段により出力された高解像度画像信号に対して、前記第1ビデオに対する下位階層及び前記参照ビデオに対する下位階層の参照可否に応じて、逆時空間動き予測を介してスケーラブルデコーディングを遂行する1つ以上の向上階層デコーディング手段と、前記逆多重化手段により出力された低解像度画像信号に、前記第1ビデオのビデオフレームに対する逆時空間動き予測及び時間軸で前記参照ビデオのビデオフレームに対する逆動き予測を介してスケーラブルデコーディングを遂行する基礎階層デコーディング手段と、前記向上階層デコーディング手段により復元された高解像度画像、および前記基礎階層デコーディング手段により復元された低解像度画像に対して逆空間的フィルタリングを介して画像を復元する逆空間的ビデオフィルタリング手段と、を備える。 Preferably, the enhanced scalability video decoder is configured to demultiplex the received bitstream, and to the high-resolution image signal output by the demultiplexing unit with respect to the first video. depending on the read permission information of a lower layer against the lower layer and the reference video, and one or more enhancement layer decoding means you perform scalable decoding through the inverse space-time motion estimation, by the demultiplexing means output, low-resolution image signal, performs a scalable decoding through the inverse motion prediction for a video frame of a reverse spatiotemporal motion prediction and the reference video on the time axis with respect to the video frame of the first video base layer decoding means A high-resolution image restored by the enhancement layer decoding means, and the Comprising the inverse spatial video filtering means for restoring the image through the inverse spatial filtering for the low-resolution image restored by the foundation hierarchical decoding means.

望ましくは、前記向上階層デコーディング手段が、前記下位階層の動きベクトル情報の使用可否を表すフラッグと、前記参照ビデオに対する下位階層の参照インデックスを予測情報として利用するのかの可否を表すフラッグと、前記下位階層のイントラブロックのタイプを予測情報として利用するかの可否を表すフラッグと、前記下位階層の差画像値の利用可否に対するフラッグと、予測に使われた参照ビューのインデックスとを参照してスケーラブルデコーディングを遂行する。 Preferably, the enhanced layer decoding unit, a flag representing a flag indicating whether to use the motion vector information of the lower layer, that the one of whether to use the reference index of a lower layer with respect to the reference video as prediction information, the a flag indicating whether the permission to use the type of intra block of a lower layer as a prediction information, the flag for the availability of the difference between image values of the lower layer, by referring to the index of the reference view were used to predict scalable Perform decoding.

また、マルチビュービデオに対するスケーラブルビデオデコーディング方法であって、(a)基礎ビデオに対してスケーラブルコーディングされたビットストリームを受信して、逆時間変換および逆空間変換を介して復元するステップと、(b)第1ビデオおよび参照ビデオに対して時空間予測を介してスケーラブルコーディングされたビットストリームを受信し、前記第1ビデオの下位階層及び前記参照ビデオの下位階層の参照可否に応じて逆時空間予測を介して1つ以上の高解像度画像フレームを復元し、前記第1ビデオに含まれたフレームの隣接フレーム及び同一時間軸で前記参照ビデオのフレームの参照可否に応じて逆時空間予測を介して低解像度画像フレームを復元した後、前記復元された高解像度画像フレームと、前記復元された低解像度画像フレームとに対して逆空間フィルタリングを介して画像を復元するステップと、を含む。 Further, a scalable video decoding method for multi-view video, and restoring via (a) receives the scalable coded bit stream for foundation video, inverse time during transform and inverse spatial transform , (B) receiving a bitstream that is scalable-coded through spatio-temporal prediction with respect to the first video and the reference video , and reverse depending on whether or not the lower layer of the first video and the lower layer of the reference video are referred to One or more high-resolution image frames are restored through spatio-temporal prediction, and the inverse spatio-temporal prediction is performed according to whether or not the reference video frame can be referenced on the same time axis as the adjacent frame of the frame included in the first video. After restoring the low resolution image frame via the restored high resolution image frame and the restored And including the steps of reconstructing an image through the inverse spatial filtering on the low-resolution image frames.

望ましくは、前記()ステップ前記下位階層の動きベクトル情報の使用可否を表すフラッグと、前記参照ビデオに対する下位階層の参照インデックスを予測情報として利用するのかの可否を表すフラッグと、前記下位階層のイントラブロックのタイプを予測情報として利用するのかの可否を表すフラッグと、前記下位階層の差画像値の利用可否に対するフラッグと、予測に使われた参照ビューのインデックス情報とを利用してスケーラブルビデオデコーディングを遂行する。 Preferably, the (a) step, a flag indicating whether to use the motion vector information of the lower layer, the flag indicating that the one of the permission to use as prediction information reference index of a lower layer with respect to the reference video, the lower scalable by using the flag indicating that the one of the permission to use the type of intra block of the hierarchy as the prediction information, and flags for the availability of the difference between image values of the lower layer, and the index information of the reference view were used to predict Perform video decoding.

上記のような本発明は、一般的なスケーラブルコーディング技術の時空間階層的構造をマルチビュービデオ間に拡張することで、マルチビュービデオを効果的に圧縮することができる。また、本発明は、マルチビュービデオに対して時間および空間軸上で階層的構造を構成することによって、多様な形態の2次元または3次元端末機にスケーラブルするようにビデオサービスを提供することができる。   The present invention as described above can effectively compress multi-view video by extending the space-time hierarchical structure of a general scalable coding technique between multi-view videos. In addition, the present invention provides a video service to be scalable to various types of 2D or 3D terminals by configuring a hierarchical structure on the time and space axes for multi-view video. it can.

一般的なスケーラブルビデオコーディングの概念を説明するための図である。It is a figure for demonstrating the concept of general scalable video coding. 本発明の一実施形態に係るマルチビュービデオに対するスケーラブルビデオコーディング装置のブロック構成図である。1 is a block configuration diagram of a scalable video coding apparatus for multi-view video according to an embodiment of the present invention. FIG. 本発明に係る拡張されたスケーラビリティビデオエンコーダの機能ブロック構成図である。FIG. 2 is a functional block configuration diagram of an extended scalability video encoder according to the present invention. 本発明に係るマルチビュービデオに対する多階層ビデオ圧縮のためのフレーム参照構造を説明するための図である。FIG. 6 is a diagram illustrating a frame reference structure for multi-layer video compression for multi-view video according to the present invention. 図4に対する階層間の参照構造を説明するための図である。FIG. 5 is a diagram for explaining a reference structure between hierarchies with respect to FIG. 4. 本発明に係るマルチビュービデオに対するBフレーム動き予測構造に対するフレームの参照構造を説明するための図である。FIG. 6 is a diagram for explaining a frame reference structure for a B frame motion prediction structure for multi-view video according to the present invention. 図6に対する階層間の参照構造を説明するための図である。It is a figure for demonstrating the reference structure between the hierarchy with respect to FIG. 本発明の他の実施形態に係るマルチビュービデオに対するスケーラブルビデオコーディング装置のブロック構成図である。FIG. 5 is a block diagram of a scalable video coding apparatus for multi-view video according to another embodiment of the present invention. 図8に対する多階層ビデオ圧縮のためのフレームの参照構造を説明するための図である。FIG. 9 is a diagram illustrating a frame reference structure for multi-layer video compression with respect to FIG. 8.

詳述した目的、特徴および長所は、添付の図面と関連した次の詳細な説明によってさらに明確になるはずであり、それに伴い、本発明が属する技術分野において通常の知識を有する者が、本発明の技術的思想を容易に実施することができるであろう。また、本発明を説明するにあたり、本発明と関連した公知となった技術に対する具体的な説明が、本発明の要旨を不要に濁し得ると判断される場合、その詳細な説明を省略することにする。以下、添付の図面を参照し、本発明に係る望ましい一実施形態を詳細に説明する。   The detailed objects, features, and advantages of the present invention will become more apparent from the following detailed description in conjunction with the accompanying drawings, and accordingly, those skilled in the art to which the present invention belongs will The technical idea of can be easily implemented. Further, in describing the present invention, when it is determined that a specific description of a known technique related to the present invention may unnecessarily obscure the gist of the present invention, a detailed description thereof will be omitted. To do. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

図2は、本発明に係るマルチビュービデオのスケーラブルコーディング装置の一実施形態を示す図である。   FIG. 2 is a diagram illustrating an embodiment of a multi-view video scalable coding apparatus according to the present invention.

同図では、ビデオ0からビデオ4までの5個のカメラで撮影したビデオが入力された場合、各ビデオをスケーラブルビデオエンコーダ(scalable video encorder)によって圧縮した場合を表している。   In the figure, when videos taken by five cameras from video 0 to video 4 are input, each video is compressed by a scalable video encoder.

本発明に係るマルチビュービデオのスケーラブルコーディング装置は、基礎ビデオであるビデオ0に対して2次元空間変換および時間変換を遂行し、モーションコーディングおよびテクスチャコーディングを介してスケーラブルコーディングを遂行する基礎スケーラビリティビデオエンコーダ21と、各々対応する自体のビデオだけでなく、参照ビデオである少なくとも1つ以上の周辺の他のビデオが入力されて空間的フィルタリングおよび時間的フィルタリングを介して多階層解像度で分離し、前記分離されたフレームに対して自体のビデオだけでなく、周辺のビデオの時空間階層画像情報および圧縮パラメータを参照してスケーラブルコーディングを遂行する、複数の拡張されたスケーラビリティビデオエンコーダ22ないし25を備える。   A scalable coding apparatus for multi-view video according to the present invention performs basic coding on video 0, which is a basic video, by performing two-dimensional spatial transformation and temporal transformation, and performs scalable coding through motion coding and texture coding. 21 and at least one other surrounding video that is a reference video, as well as its own corresponding video, are input and separated at multi-layer resolution through spatial filtering and temporal filtering, and the separation A plurality of extended scalability video encoders 22 to 25 that perform scalable coding with reference to space-time hierarchical image information and compression parameters of surrounding video as well as the video of itself to the generated frames. .

同図において、ビデオ0は基礎ビデオとして定義され、ビデオ0に対してスケーラブルコーディングを遂行する基礎スケーラビリティビデオエンコーダ21は、従来の単一時点ビデオのスケーラブルコーディング装置と同じ構造を有する。したがって、基礎ビデオの場合、従来のスケーラブルコーディング装置と互換が可能な構造である。   In this figure, video 0 is defined as a basic video, and a basic scalability video encoder 21 that performs scalable coding on video 0 has the same structure as a conventional single-point video scalable coding apparatus. Therefore, the basic video has a structure that can be compatible with a conventional scalable coding apparatus.

また、自体のビデオだけでなく、参照ビデオである周辺のビデオを参照してスケーラブルするように圧縮するために、ビデオ1からビデオ4までは拡張されたスケーラビリティビデオエンコーダ22ないし25を介して圧縮を遂行する。拡張されたスケーラビリティビデオエンコーダ22ないし25は、従来の単一時点ビデオのスケーラブルコーディング装置のように、自体のビデオおよび参照ビデオである周辺ビデオが入力されて、空間フィルタリングを介して多階層解像度で分離し、分離された各フレームに対して時間および空間軸上で自体のフレームに対する下位階層だけでなく、周辺のフレームに対する下位階層を参照してスケーラブルコーディングを遂行する。例えば、ビデオ4を圧縮する拡張されたスケーラビリティビデオエンコーダ25は、基礎ビデオ0の多階層時空間解像度画像情報を予測参照する方法で、自体のビデオ4に対してスケーラブルビデオコーディングを遂行する。また、ビデオ2を圧縮する拡張されたスケーラビリティビデオエンコーダ23は、基礎ビデオ0およびビデオ4の多階層時空間解像度画像情報を利用して双方向予測を介して自体のビデオに対する圧縮を遂行する。   Also, in order to compress not only the video itself but also the surrounding video that is the reference video so as to be scalable, video 1 to video 4 are compressed via the extended scalability video encoders 22 to 25. Carry out. The extended scalability video encoders 22 to 25 receive their own video and the reference video, which is a peripheral video, and are separated at a multi-layer resolution through spatial filtering, like a conventional single-point video scalable coding device. Then, scalable coding is performed on each separated frame by referring not only to the lower layer for the own frame but also to the lower layers for the surrounding frames on the time and space axes. For example, the extended scalability video encoder 25 that compresses the video 4 performs scalable video coding on the video 4 by predicting and referring to the multi-layer space-time resolution image information of the base video 0. The extended scalability video encoder 23 that compresses the video 2 performs compression on its own video through bi-directional prediction using the multi-layer spatio-temporal resolution image information of the basic video 0 and the video 4.

これに伴い、基礎スケーラビリティビデオエンコーダ21だけを利用した場合、従来の2次元ビデオサービスが可能で、基礎ビデオ0に対する基礎スケーラビリティビデオエンコーダ21、およびビデオ4に対する拡張されたスケーラビリティビデオエンコーダ25を利用した場合、ステレオビデオサービスが可能になる。また、拡張されたスケーラビリティビデオエンコーダ22ないし25と、基礎スケーラビリティビデオエンコーダ21とを選択的に組合せることにより、3ビュー(view)または5ビュービデオサービスが可能になる。   Accordingly, when only the basic scalability video encoder 21 is used, the conventional two-dimensional video service is possible, and the basic scalability video encoder 21 for the basic video 0 and the extended scalability video encoder 25 for the video 4 are used. Stereo video service will be possible. In addition, by selectively combining the extended scalability video encoders 22 to 25 and the basic scalability video encoder 21, a three-view or five-view video service becomes possible.

このような拡張されたスケーラビリティビデオエンコーダの構造および機能については、図3以下を参照して具体的に説明する。   The structure and function of such an extended scalability video encoder will be specifically described with reference to FIG.

図3は、本発明に係る拡張されたスケーラビリティビデオエンコーダの詳細機能ブロック構成図である。   FIG. 3 is a detailed functional block configuration diagram of the extended scalability video encoder according to the present invention.

本発明に係る拡張されたスケーラビリティビデオエンコーダは、自体のビデオおよび参照ビデオに対して空間的フィルタリングを介して多階層解像度で分離する空間的ビデオフィルタリング部31と、前記空間的ビデオフィルタリング部31の出力画像に対して時間的フィルタリングを介して時間で分離する時間的ビデオフィルタリング部330、340と、時間的ビデオフィルタリング部330から出力された時間的低周波数画像に対して自体のビデオフレームに対する時空間動き予測だけでなく、時間軸で参照ビデオフレームに対する動き予測を介してスケーラブルコーディングを遂行する基礎階層エンコーダ33と、時間的ビデオフィルタリング部340から出力された時間的高周波数画像に対して自体のビデオの下位階層だけでなく、参照ビデオである周辺の他のビデオの下位階層を参照してスケーラブルコーディングを遂行する少なくとも1つ以上の向上階層エンコーダ34と、基礎階層エンコーダの出力と向上階層エンコーダの出力とを多重化して1つのビットストリームを出力する多重化部35とを備える。   The extended scalability video encoder according to the present invention includes a spatial video filtering unit 31 that separates a video and a reference video with multi-layer resolution through spatial filtering, and an output of the spatial video filtering unit 31. Temporal video filtering units 330 and 340 for temporally separating images through temporal filtering, and temporal and spatial motion of the video frames for temporal low frequency images output from the temporal video filtering unit 330 In addition to the prediction, the base layer encoder 33 that performs scalable coding through motion prediction with respect to the reference video frame on the time axis, and the temporal high-frequency image output from the temporal video filtering unit 340, Not only the lower hierarchy At least one enhancement layer encoder 34 that performs scalable coding with reference to a lower layer of other neighboring video that is a reference video, and an output of the base layer encoder and an output of the enhancement layer encoder are multiplexed into one And a multiplexing unit 35 that outputs a bit stream.

空間的ビデオフィルタリング部31は、自体のカメラを介して撮影された自体のビデオ、および参照ビデオとして設定された周辺の他のビデオが所定の時間単位で入力されてMCTFまたは階層的B構造を利用した空間的フィルタリングを介して多階層解像度で分離する。   The spatial video filtering unit 31 uses the MCTF or the hierarchical B structure by inputting a video of its own taken through its camera and other peripheral videos set as a reference video in a predetermined time unit. Separation with multi-layer resolution through spatial filtering.

基礎階層エンコーダ33および向上階層エンコーダ34は、時間的ビデオフィルタリング部330、340、モーションコーディング部331、341、差分器332、342、空間的変換部333、343、量子化部334、344、およびエントロピー符号化部335、345を備え得る。このような基礎階層エンコーダ33および向上階層エンコーダ34は、従来のスケーラブルビデオエンコーダとその構造が似ており、ここでは各機能部について簡単に説明する。   The base layer encoder 33 and the enhancement layer encoder 34 include temporal video filtering units 330 and 340, motion coding units 331 and 341, difference units 332 and 342, spatial transformation units 333 and 343, quantization units 334 and 344, and entropy. Encoders 335 and 345 may be provided. The basic layer encoder 33 and the enhancement layer encoder 34 are similar in structure to the conventional scalable video encoder, and each functional unit will be briefly described here.

基礎階層エンコーダ33に備えられた時間的ビデオフィルタリング部330は、前記空間的フィルタリングにより分離された低周波数画像に対してMCTFまたは階層的B構造を利用したフィルタリングを介して時間軸で分離する。また、向上階層エンコーダ34に備えられた時間的ビデオフィルタリング部340は、前記空間的フィルタリングにより分離された高周波数画像に対してMCTFまたは階層的B構造を利用したフィルタリングを介して時間軸で分離する。   The temporal video filtering unit 330 provided in the base layer encoder 33 separates the low-frequency images separated by the spatial filtering on the time axis through filtering using MCTF or hierarchical B structure. Also, the temporal video filtering unit 340 included in the enhancement hierarchical encoder 34 separates the high-frequency image separated by the spatial filtering in time axis through filtering using MCTF or hierarchical B structure. .

モーションコーディング部331、341は、通常、モーション推定およびモーション補償で構成される。モーション推定は、入力ビデオフレームのうち、参照フレームを基準に現在のフレームのモーション推定を遂行し、順方向予測または双方向予測のためのモーションベクトルを求める。ここで、本発明は、モーション推定時の参照フレームとして、自体のフレームだけでなく、周辺のフレームを用いることができる。このような動き推定のために広く使われるアルゴリズムは、ブロックマッチング(block matching)アルゴリズムである。すなわち、モーションコーディング部331、341は、与えられたモーションブロックを参照フレームの特定探索領域内においてピクセル単位で動きながら、そのエラーが最低となった場合の変位を動きベクトルとして推定する。モーション推定の結果、求められるモーションベクトル、モーションブロックの大きさ、および参照フレーム番号などのモーションデータは、エントロピー符号化部335、345に提供される。また、モーション補償は、モーション推定により計算されたモーションベクトルを利用して順方向参照フレーム、逆方向参照フレーム、または双方向参照フレームに対してモーション補償(motion compensation)を遂行することによって、現在のフレームに対する時間的予測フレームを生成する。   The motion coding units 331 and 341 are usually configured by motion estimation and motion compensation. In the motion estimation, a motion estimation of a current frame is performed based on a reference frame among input video frames, and a motion vector for forward prediction or bidirectional prediction is obtained. Here, the present invention can use not only its own frame but also a surrounding frame as a reference frame at the time of motion estimation. A widely used algorithm for such motion estimation is a block matching algorithm. That is, the motion coding units 331 and 341 estimate the displacement when the error is minimized while moving the given motion block in units of pixels within the specific search region of the reference frame as a motion vector. As a result of the motion estimation, motion data such as a calculated motion vector, a motion block size, and a reference frame number are provided to the entropy encoding units 335 and 345. In addition, the motion compensation is performed by performing motion compensation on a forward reference frame, a backward reference frame, or a bidirectional reference frame using a motion vector calculated by motion estimation. Generate a temporal prediction frame for the frame.

差分器332、342は、現在のフレームおよび時間的予測フレームを差分することによってビデオの時間的重複性を除去する。空間的変換部333、343は、差分器332、342によって時間的重複性が除去されたフレームに対して、空間的スケーラビリティを支援する空間的変換法を使用して空間的重複性を除去する。このような空間的変換法では、主にDCT(Discrete Cosine Transform)、ウェーブレット変換(wavelet transform)などが用いられる。   The differentiators 332 and 342 remove video temporal redundancy by subtracting the current frame and the temporal prediction frame. Spatial transformation units 333 and 343 remove spatial redundancy using a spatial transformation method that supports spatial scalability for the frames from which temporal redundancy is removed by the differentiators 332 and 342. In such a spatial transformation method, DCT (Discrete Cosine Transform), wavelet transformation (wavelet transform), etc. are mainly used.

量子化部334、344は、空間的変換部333、343で求めた変換係数を量子化する。量子化(quantization)とは、任意の実数値で表現される前記変換係数を一定期間で分けて不連続的な値(discrete value)で表し、これを所定のインデックスにマッチングさせる作業を意味する。   The quantization units 334 and 344 quantize the transform coefficients obtained by the spatial transform units 333 and 343. Quantization means an operation of dividing the transform coefficient expressed by an arbitrary real value by a predetermined period and expressing it as a discrete value and matching it with a predetermined index.

エントロピー符号化部335、345は、量子化部334、344によって量子化された変換係数と、モーション推定によって提供されているモーションデータとを無損失符号化して出力ビットストリームを生成する。このような無損失符号化方法としては、算術符号化(arithmetic coding)、可変長符号化(variable length coding)などが用いられ得る。   The entropy encoding units 335 and 345 generate lossless encoding of the transform coefficients quantized by the quantization units 334 and 344 and the motion data provided by the motion estimation to generate an output bitstream. As such a lossless coding method, arithmetic coding, variable length coding, or the like can be used.

一方、本発明は、空間的変換以前に、イントラブロックのためのイントラ予測を用い得る。このために向上階層エンコーダは、下位階層エンコーダから復元された参照フレームが伝達されて2次元空間の補間を遂行する機能とイントラ予測機能とを含み得る。   On the other hand, the present invention may use intra prediction for intra blocks prior to spatial transformation. For this, the enhancement layer encoder may include a function of performing a two-dimensional space interpolation by receiving a reference frame restored from a lower layer encoder and an intra prediction function.

一般的に、インター予測は、参照フレームから現在のフレームのあるブロック(現在のブロック)と最も類似したブロックを探し出し、ここから現在のブロックを最もよく表現できる予測ブロックを得た後、前記現在のブロックと前記予測ブロックとの差分を量子化する方式である。インター予測は、参照フレームを参照する方式によって、2つの参照フレームを使用する双方向予測(bi−directional prediction)と、以前の参照フレームが用いられる順方向予測(forward prediction)と、以後の参照フレームが用いられる逆方向予測(backward prediction)などがある。   In general, inter prediction is performed by finding a block most similar to a block of the current frame (current block) from a reference frame, obtaining a prediction block that can best represent the current block, and then obtaining the current block. This is a method for quantizing the difference between a block and the prediction block. In the inter prediction, bi-directional prediction using two reference frames, forward prediction using a previous reference frame, and subsequent reference frames according to a method of referring to a reference frame. For example, there is a backward prediction.

一方、イントラ予測は、現在のブロックの周辺ブロックのうち、現在のブロックと隣接したフレームを利用して現在のブロックを予測する方式である。イントラ予測は、現在のフレーム内の情報だけを利用し、同一階層内の他のフレームや他の階層のフレームを参照しないという点において他の予測方式と違いがある。   On the other hand, intra prediction is a method of predicting a current block using a frame adjacent to the current block among neighboring blocks of the current block. Intra prediction uses only information in the current frame and differs from other prediction methods in that it does not refer to other frames in the same layer or frames in other layers.

イントラベース予測(intra base prediction)は、現在のフレームが同じ時間的位置を有する下位階層のフレームを有する場合に用いることができる。現在のフレームのマクロブロックは、対応する基礎フレームのマクロブロックから効率的に予測できる。すなわち、現在のフレームのマクロブロックと対応する基礎フレームのマクロブロックとの差分が量子化される。万一、下位階層の解像度と現在階層の解像度とが互いに異なる場合は、前記差分を求める前に、前記基礎フレームのマクロブロックは、前記現在階層の解像度にアップサンプリングされる。   Intra base prediction can be used when the current frame has lower-layer frames with the same temporal position. The macroblock of the current frame can be efficiently predicted from the macroblock of the corresponding base frame. That is, the difference between the macroblock of the current frame and the corresponding macroblock of the base frame is quantized. If the resolution of the lower layer and the resolution of the current layer are different from each other, the macroblock of the base frame is upsampled to the resolution of the current layer before obtaining the difference.

残りの予測は、単一階層でのインター予測を多階層の形態に拡張したもので、現在の階層のインター予測過程で生成された差分を直接量子化するのではなく、前記差分と、下位階層のインター予測過程で生成された差分とを再び差分し、その結果を量子化する技法である。   The remaining prediction is an extension of inter prediction in a single layer to a multi-layer form, and instead of directly quantizing the difference generated in the inter prediction process of the current layer, the difference and the lower layer This is a technique of differentiating again the difference generated in the inter prediction process and quantizing the result.

一方、本発明において、向上階層エンコーダは、高解像度画像フレームに対する符号化時、動きの予測のために、自体のビデオに対する基礎階層画像(低解像度画像)、および参照ビデオである他のビデオに対する基礎階層画像(低解像度画像)の動きベクトルを2倍した値を用いる。   On the other hand, in the present invention, the enhancement layer encoder is a base layer image for its own video (low resolution image) and a basis for another video which is a reference video for motion prediction when encoding a high resolution image frame. A value obtained by doubling the motion vector of the hierarchical image (low-resolution image) is used.

また、本発明において、向上階層エンコーダは、高解像度画像フレームに対する符号化時、差画像の予測のために、自体のビデオに対する基礎階層画像(低解像度画像)、および参照ビデオである他のビデオに対する基礎階層画像(低解像度画像)の予測後、残余画像を補間して差画像の予測を遂行する。   In the present invention, the enhancement layer encoder also encodes a base layer image (low-resolution image) for its own video and other video that is a reference video for prediction of a difference image when encoding a high-resolution image frame. After the base layer image (low resolution image) is predicted, the residual image is interpolated to predict the difference image.

また、本発明において、向上階層エンコーダは、高解像度画像フレームに対する符号化時、イントラ予測のために、自体のビデオに対する基礎階層画像(低解像度画像)、および参照ビデオである他のビデオに対する基礎階層画像(低解像度画像)をイントラ予測モードでイントラ予測を遂行する。   Also, in the present invention, the enhancement layer encoder is a base layer image for its own video (low-resolution image) and a base layer for another video that is a reference video for intra prediction when encoding a high-resolution image frame. Intra prediction is performed on the image (low resolution image) in the intra prediction mode.

図4は、本発明に係るスケーラブルビデオコーディング時の予測参照構造を説明するための図である。   FIG. 4 is a diagram for explaining a prediction reference structure at the time of scalable video coding according to the present invention.

同図において、Pマクロブロックは片方向予測を表し、Bマクロブロックは双方向予測を表す。本発明に係る予測の参照は、片方向予測(Pマクロブロック)および双方向予測(Bマクロブロック)を、時間軸および空間(ビュー)軸だけでなく、多数の解像度階層で予測を遂行する構造である。   In the figure, P macroblock represents unidirectional prediction, and B macroblock represents bidirectional prediction. The prediction reference according to the present invention refers to a structure in which unidirectional prediction (P macroblock) and bidirectional prediction (B macroblock) are predicted not only in the time axis and the space (view) axis but also in multiple resolution hierarchies. It is.

同図は、1つの実施形態として、基礎階層および1つの向上階層で構成された2階層構造だけを表したものであって、より多くの階層は向上階層を反復的に拡張することで構成され得る。   The figure shows, as one embodiment, only a two-layer structure composed of a base layer and one enhancement layer, and more layers are configured by repeatedly expanding the enhancement layer. obtain.

図4において、41は、基礎スケーラビリティビデオエンコーダ(図2の21)内の基礎階層エンコーダおよび向上階層エンコーダで遂行される予測参照を表し、42は、図2に示すビデオ1に対する拡張されたスケーラビリティビデオエンコーダ22内の基礎階層エンコーダおよび向上階層エンコーダで遂行される予測参照を表し、43は、図2に図示したビデオ2に対する拡張されたスケーラビリティビデオエンコーダ23内の基礎階層エンコーダおよび向上階層エンコーダで遂行される予測参照を表す。   In FIG. 4, 41 represents a prediction reference performed by the base layer encoder and the enhancement layer encoder in the base scalability video encoder (21 in FIG. 2), and 42 is an extended scalability video for the video 1 shown in FIG. 2 represents a prediction reference performed at the base layer encoder and the enhancement layer encoder in the encoder 22, and 43 is performed at the base layer encoder and the enhancement layer encoder in the extended scalability video encoder 23 for the video 2 illustrated in FIG. Represents a prediction reference.

換言すれば、図4において、基礎階層0(L0)は、基礎スケーラビリティビデオエンコーダ21の基礎階層エンコーダと、ビデオ1に対する拡張されたスケーラビリティビデオエンコーダ22の基礎階層エンコーダと、ビデオ2に対する拡張されたスケーラビリティビデオエンコーダ23の基礎階層エンコーダとにおいて、各々遂行される予測参照構造を表したものである。   In other words, in FIG. 4, the base layer 0 (L0) is the base layer encoder of the base scalability video encoder 21, the extended scalability for the video 1, the base layer encoder of the video encoder 22, and the extended scalability for the video 2. The prediction reference structure performed by each of the base layer encoders of the video encoder 23 is shown.

同じように、図4において、向上階層1(L1)は、基礎スケーラビリティビデオエンコーダ21の向上階層エンコーダと、ビデオ1に対する拡張されたスケーラビリティビデオエンコーダ22の向上階層エンコーダと、ビデオ2に対する拡張されたスケーラビリティビデオエンコーダ23の向上階層エンコーダとにおいて、各々遂行される予測参照構造を表したものである。   Similarly, in FIG. 4, enhancement layer 1 (L1) is an enhancement layer encoder of basic scalability video encoder 21, enhanced scalability for video 1, enhancement layer encoder of video encoder 22, and enhanced scalability for video 2. The prediction reference structure performed by each of the enhancement layer encoders of the video encoder 23 is shown.

図4に示すように、基礎スケーラビリティビデオエンコーダ21の基礎階層エンコーダは、従来のように、時間軸上で自体の低解像度画像フレームに対して隣接フレームを予測参照してスケーラブルビデオコーディングを遂行する。また、ビデオ1のための拡張されたスケーラビリティビデオエンコーダ22の基礎階層エンコーダは、同一時間軸上に位置した参照周辺ビデオフレームインビデオ0のフレームとビデオ2のフレームとを利用して自体のフレームに対する双方向予測を遂行する。また、ビデオ2のための拡張されたスケーラビリティビデオエンコーダ23の基礎階層エンコーダは、基本ビデオ0を参照して片方向予測を遂行すると同時に自体のフレームを利用して双方向予測を遂行する。   As shown in FIG. 4, the base layer encoder of the base scalability video encoder 21 performs scalable video coding by predicting and referring to an adjacent frame with respect to its own low-resolution image frame on the time axis as in the prior art. In addition, the base layer encoder of the extended scalability video encoder 22 for video 1 uses a reference peripheral video frame in video 0 frame and a video 2 frame located on the same time axis for its own frame. Perform bi-directional prediction. In addition, the base layer encoder of the extended scalability video encoder 23 for video 2 performs unidirectional prediction with reference to the basic video 0 and simultaneously performs bi-directional prediction using its own frame.

一方、基本階層の上位階層である向上階層1 (L1)は、自体のビデオフレームに対する空間および時間予測だけでなく、下位階層である基礎階層の自体フレームと基礎階層の周辺フレームとを参照して予測を遂行する。図面において、各マクロブロックに○と×で表わした3つの表示は、下位階層の参照可否を表すためのものである。ここで、3つの表示のうち、中間にある「○」や「×」は、自体のビデオフレームに対する下位階層の参照可否を表し、上や下に表示された「○」「×」は、周辺のビデオフレームに対する下位階層の参照可否を表す。   On the other hand, the enhancement layer 1 (L1), which is an upper layer of the basic layer, refers not only to the space and temporal prediction for its own video frame, but also to the lower layer's own frame and its surrounding frames. Carry out predictions. In the drawing, the three displays indicated by ◯ and X in each macro block are for indicating whether or not the lower layer can be referred to. Here, among the three displays, “○” and “×” in the middle indicate whether or not the lower layer can be referenced for the video frame of itself, and “○” and “×” displayed above and below indicate the surroundings. This indicates whether or not the lower layer can be referred to the video frame.

図4に示すように、基礎スケーラビリティビデオエンコーダ21の向上階層エンコーダは、従来のような自体の下位階層のフレームを参照してスケーラブルビデオコーディングを遂行する。また、ビデオ1のための拡張されたスケーラビリティビデオエンコーダ22の向上階層エンコーダは、自体の下位階層のフレームを参照するだけでなく、周辺のビデオフレームインビデオ0の下位階層フレームとビデオ2の下位階層フレームとを参照して、自体のフレームに対する双方向予測を遂行する。また、ビデオ2のための拡張されたスケーラビリティビデオエンコーダ23の向上階層エンコーダは、自体の下位階層のフレームを参照するだけでなく、基本ビデオ0の下位階層フレームを参照して予測を遂行する。   As shown in FIG. 4, the enhancement layer encoder of the basic scalability video encoder 21 performs scalable video coding with reference to a frame in a lower layer of the conventional scalability encoder. Also, the enhanced hierarchical encoder of the extended scalability video encoder 22 for video 1 not only refers to its own lower layer frame, but also the lower layer frame of the surrounding video frame in video 0 and the lower layer of video 2 Referring to the frame, bi-directional prediction for the frame is performed. Also, the enhanced layer encoder of the extended scalability video encoder 23 for video 2 performs prediction not only by referring to its own lower layer frame but also by referring to the lower layer frame of the basic video 0.

図5は、図4に示す参照構造を表したものであり、時間を固定させて空間(ビュー)階層軸で参照構造を「○」と「×」で表したものである。同図では3つの階層の場合を表している。同図において、51は基礎ビデオであるビデオ0の参照構造を表し、52はビデオ1の参照構造を表し、53はビデオ2の参照構造を表す。   FIG. 5 shows the reference structure shown in FIG. 4. The reference structure is expressed by “◯” and “X” on the space (view) hierarchy axis with time fixed. In the figure, the case of three layers is shown. In this figure, 51 represents the reference structure of video 0, which is the basic video, 52 represents the reference structure of video 1, and 53 represents the reference structure of video 2.

図5において、ビデオ0 51に対する向上階層2のマクロブロックは、真ん中のみが「○」で両側は全て「×」であるから、自体のビデオに対する下位階層だけを参照して従来のスケーラブルビデオコーディング(SVC:Scalable Video Coding)で使用する動き、差画像、およびイントラ予測を介してコーディングする。反面、ビデオ1 52に対する向上階層2のマクロブロックは、真ん中だけでなく、右側および左側のいずれも「○」であるから、自体のビデオに対する下位階層だけでなく、周辺のビデオに対する下位階層を参照してスケーラブルビデオコーディングを遂行する。また、ビデオ2 53に対する向上階層2のマクロブロックは、真ん中および左側が「○」で表されているため、自体のビデオの下位階層とビデオ0の下位階層とを参照してスケーラブルビデオコーディングを遂行する。   In FIG. 5, since the macroblock of the enhancement layer 2 for the video 0 51 is “◯” only in the middle and “x” on both sides, the conventional scalable video coding (see FIG. Coding is performed through motion, difference image, and intra prediction used in SVC (Scalable Video Coding). On the other hand, since the macro block of the enhancement layer 2 for the video 1 52 is not only in the middle but also “O” on the right side and the left side, not only the lower layer for the own video but also the lower layer for the surrounding video And perform scalable video coding. Further, since the macro block of the enhancement layer 2 for the video 253 is represented by “o” in the middle and the left side, the scalable video coding is performed by referring to the lower layer of the video and the lower layer of the video 0. To do.

以上で説明したように、下位階層の参照可否を表すために、下位階層の参照可否に応じて参照階層のビデオに対する情報を追加したスケーラブルビデオの構文が必要である。
次の構文において、ref_view_Idxは、下位階層の参照ビデオのビュー番号を表す。ここで、base_mode_flagは、下位階層の動きベクトル情報を現在のブロックの動き予測に使用するのかを表すフラッグで、値が1の場合、下位階層のどのビューの動きベクトル情報を利用したのかを表すビュー番号であるref_view_Idxを表すべきである。
As described above, in order to indicate whether or not the lower layer can be referred to, a scalable video syntax is required in which information on the reference layer video is added according to whether or not the lower layer can be referred to.
In the following syntax, ref_view_Idx represents the view number of the reference video in the lower layer. Here, base_mode_flag is a flag indicating whether the motion vector information of the lower layer is used for motion prediction of the current block. When the value is 1, the view indicating which view of the lower layer the motion vector information is used. It should represent the number ref_view_Idx.

base_mode_refinement_flagもまた、下位階層の動きベクトル情報を現在のブロックの動きベクトル予測で利用するのかを表すフラッグで、base_mode_flagとの差異点は、下位階層の参照インデックスも予測情報として利用するということである。したがって、フラッグが1の場合、下位階層のどのビューの動きベクトルと参照インデックス情報とを利用したのかを表すref_view_Idxを表示すべきである。intra_base_flagは、下位階層のイントラブロックのタイプを現在のブロックのブロックタイプの予測情報として利用することに対して表すフラッグで、1の場合、下位階層のイントラ予測モードに対する情報を現在のブロックで利用するようになる。したがって、下位階層のどのビューのイントラブロックタイプ情報を利用するのかに対するビュー番号であるref_view_Idxを表示すべきである。   The base_mode_refinement_flag is also a flag that indicates whether the motion vector information of the lower layer is used for motion vector prediction of the current block. The difference from the base_mode_flag is that the reference index of the lower layer is also used as prediction information. Therefore, when the flag is 1, ref_view_Idx indicating which view's motion vector and reference index information in the lower hierarchy is used should be displayed. Intra_base_flag is a flag that represents the use of the intra block type of the lower layer as the prediction information of the block type of the current block. When 1, the information about the intra prediction mode of the lower layer is used in the current block. It becomes like this. Therefore, ref_view_Idx, which is a view number for which view of the intra-block type information of the lower hierarchy, is to be used.

residual_prediction_flagは、下位階層の差画像値を現在のブロックの差画像の予測に利用するのかに対する可否を表すフラッグで、1の場合、下位階層の差画像情報をアップサンプリングして利用するようになる。やはり、このときも下位階層のどのビューの差画像情報を利用するのかに対するビュー番号であるref_view_Idxを表示すべきである。以上のようなスケーラブルビデオの構文を表にすると、表1のとおりである。   The residual_prediction_flag is a flag indicating whether or not the difference image value of the lower layer is used for prediction of the difference image of the current block. If 1, the difference image information of the lower layer is up-sampled and used. Again, at this time, ref_view_Idx, which is the view number corresponding to which view's difference image information to use, should be displayed. Table 1 shows the syntax of scalable video as described above.

Figure 0005170786
Figure 0005170786

図6は、基本スケーラブル構造において、階層的B構造でない従来のBフレーム構造の場合における、参照構造の1つの実施形態を表す。図6において、61は基礎ビデオであるビデオ0に対する参照構造を表し、62はビデオ1に対する参照構造を表し、63はビデオ2に対する参照構造を表す。   FIG. 6 represents one embodiment of a reference structure in the case of a conventional B frame structure that is not a hierarchical B structure in the basic scalable structure. In FIG. 6, 61 represents a reference structure for video 0, which is the basic video, 62 represents a reference structure for video 1, and 63 represents a reference structure for video 2.

また、図7は図6に示す参照構造を表しており、時間を固定させて空間ビュー階層軸で参照構造を「○」および「×」で表したものである。同じように、図7では3つの階層の場合を表す。図7において、71は基礎ビデオであるビデオ0の参照構造を表し、72はビデオ1の参照構造を表し、73はビデオ2の参照構造を表す。   FIG. 7 shows the reference structure shown in FIG. 6. The reference structure is represented by “◯” and “X” on the spatial view hierarchy axis with time fixed. Similarly, FIG. 7 shows the case of three layers. In FIG. 7, reference numeral 71 represents a reference structure of video 0 which is a basic video, 72 represents a reference structure of video 1, and 73 represents a reference structure of video 2.

図6および図7に示すように、基礎ビデオであるビデオ0 61、71は、自体の下位階層フレームだけを参照してスケーラブルビデオコーディングを遂行する。しかし、ビデオ1およびビデオ2は、自体の下位階層フレームを参照するだけでなく、周辺ビデオの下位階層を参照してスケーラブルビデオコーディングを遂行する。
以上で説明したような本発明に係る予測参照構造は、Bフレーム予測構造でない従来のPフレーム構造の場合も同様に適用することができる。
As shown in FIGS. 6 and 7, the videos 0 61 and 71, which are basic videos, perform scalable video coding with reference to only their lower layer frames. However, video 1 and video 2 perform scalable video coding not only by referring to their own lower layer frames but also by referring to lower layers of neighboring videos.
The prediction reference structure according to the present invention as described above can be similarly applied to a conventional P frame structure that is not a B frame prediction structure.

図8は、本発明に係る他の実施形態に係るマルチビュービデオのスケーラブルコーディング装置のブロック構成図で、図9は、図8で基礎ビデオであるビデオ0 91、周辺ビデオであるビデオ1 92、およびビデオ2 93に対する参照構造を表したものである。   FIG. 8 is a block diagram of a scalable coding apparatus for multi-view video according to another embodiment of the present invention. FIG. 9 is a video 0 91 which is a basic video and a video 1 92 which is a peripheral video in FIG. And a reference structure for video 293.

図8および図9に示すように、基礎ビデオであるビデオ0に対するスケーラブルコーディングを遂行する基礎スケーラビリティビデオエンコーダ81は、従来の単一時点のビデオのスケーラブルコーディング装置と同じく、自体の下位階層を参照してスケーラブルビデオコーディングを遂行する。したがって、基礎ビデオの場合、従来のスケーラブルコーディング装置等と互換が可能である。   As shown in FIGS. 8 and 9, a basic scalability video encoder 81 that performs scalable coding for video 0, which is the basic video, refers to its own lower layer, similar to a conventional single-point video scalable coding apparatus. Perform scalable video coding. Therefore, in the case of basic video, compatibility with a conventional scalable coding device or the like is possible.

また、ビデオ1からビデオ4までは拡張されたスケーラビリティビデオエンコーダ82ないし85を介してスケールラブビデオコーディングを遂行する。拡張されたスケーラビリティビデオエンコーダ82ないし85は、従来の単一時点のビデオのスケーラブルコーディング装置のように、画像を多階層解像度で分離し、分離された画像フレームに対して時空間で予測を遂行するだけでなく、周辺のビデオの時空間階層画像情報および圧縮パラメータを参照して圧縮を遂行する。   In addition, video 1 to video 4 are subjected to scale-love video coding via the extended scalability video encoders 82 to 85. The extended scalability video encoders 82 to 85 separate images at multi-layer resolution and perform space-time prediction on the separated image frames, as in a conventional single-point video scalable coding apparatus. In addition, compression is performed with reference to the spatio-temporal hierarchical image information and compression parameters of the surrounding video.

例えば、図9に示すように、ビデオ1の向上階層1 92は、ビデオ0の下位階層を参照してスケーラブルビデオコーディングを遂行し、ビデオ2の向上階層1 93は、ビデオ1の下位階層を参照してスケーラブルビデオコーディングを遂行する。換言すれば、図8に示すように、本発明の他の実施形態は、拡張されたスケーラビリティビデオエンコーダが、すぐ横の1つのビデオだけを順次参照してスケーラブルビデオコーディングを遂行する。   For example, as illustrated in FIG. 9, the enhancement layer 1 192 of the video 1 performs scalable video coding with reference to the lower layer of the video 0, and the enhancement layer 193 of the video 2 refers to the lower layer of the video 1 And perform scalable video coding. In other words, as shown in FIG. 8, according to another embodiment of the present invention, an extended scalability video encoder performs scalable video coding by sequentially referring to only one video immediately next.

これに伴い、基礎スケーラビリティビデオエンコーダ81だけを利用した場合、従来の2次元ビデオサービスが可能であり、かつ基礎ビデオ0に対する基礎スケーラビリティビデオエンコーダ81と、ビデオ1に対する拡張されたスケーラビリティビデオエンコーダ82とを利用した場合、ステレオビデオサービスが可能になる。また、基礎ビデオ0、ビデオ1、およびビデオ2により3ビュー(view)サービスが可能で、かつ基礎ビデオ0からビデオ4により5ビューサービスが可能である。   Accordingly, when only the basic scalability video encoder 81 is used, a conventional two-dimensional video service is possible, and the basic scalability video encoder 81 for the basic video 0 and the extended scalability video encoder 82 for the video 1 are provided. When used, a stereo video service becomes possible. In addition, a three-view service is possible with basic video 0, video 1, and video 2, and a five-view service with basic video 0 to video 4 is possible.

以上で説明したように、本発明に係るマルチビュービデオに対するスケーラブルコーディング技術についてまとめると次のとおりである。   As described above, the scalable coding technique for multi-view video according to the present invention is summarized as follows.

まず、1つの基礎ビデオ(例えば、ビデオ0)に対して空間軸で空間フィルタを使用して多階層解像度で分離する。また、前記分離された低解像度画像フレームに対して時間軸で階層的動き予測を介して時空間スケーラブルビデオコーディングを遂行する。また、前記分離された高解像度画像フレームに対して下位階層を参照して時間軸で階層的動き予測を介して時空間スケーラブルビデオコーディングを遂行する。そして、コーディングされた低解像度画像と、コーディングされた少なくとも1つ以上の高解像度画像とを多重化してビットストリームを生成する。このような基礎ビデオに対するスケーラブルビデオコーディングは、従来の方法と同じである。   First, a basic video (eg, video 0) is separated at a multi-layer resolution using a spatial filter in the spatial axis. In addition, the separated low-resolution image frame is subjected to space-time scalable video coding through hierarchical motion prediction on a time axis. In addition, the separated high-resolution image frame is subjected to spatio-temporal scalable video coding through hierarchical motion prediction on the time axis with reference to a lower layer. Then, the coded low resolution image and at least one coded high resolution image are multiplexed to generate a bitstream. The scalable video coding for the basic video is the same as the conventional method.

次に、マルチビュービデオに対する拡張されたスケーラブルビデオコーディングに対して説明する。   Next, extended scalable video coding for multi-view video will be described.

まず、自体のビデオと、参照ビデオである少なくとも1つ以上の周辺ビデオとが入力され、入力された自体のビデオおよび周辺ビデオに対して空間軸で空間フィルタを使用して多階層解像度で分離する。また、分離された低解像度画像フレームに対して時間軸で自体の隣接フレームだけでなく、参照フレームとして周辺のフレームを参照して階層的動き予測を介して時空間スケーラブルビデオコーディングを遂行する。また、前記分離された高解像された画像フレームに対して時間軸で自体ビデオフレームに対する下位階層だけでなく、参照ビデオである周辺ビデオフレームの下位階層を参照して階層的動き予測を介してスケーラブルビデオコーディングを遂行する。また、コーディングされた低解像度画像と、コーディングされた少なくとも1つ以上の高解像度画像とを多重化してビットストリームを生成する。   First, the own video and at least one or more surrounding videos that are reference videos are input, and the input own video and the surrounding videos are separated with multi-layer resolution using a spatial filter in the spatial axis. . In addition, the separated low-resolution image frame is subjected to spatio-temporal scalable video coding through hierarchical motion prediction with reference to surrounding frames as reference frames as well as adjacent frames on the time axis. In addition, the separated high-resolution image frame is not limited to a lower layer relative to the video frame on the time axis, but is also referred to a lower layer of a peripheral video frame that is a reference video, through hierarchical motion prediction. Perform scalable video coding. Further, the coded low-resolution image and at least one coded high-resolution image are multiplexed to generate a bitstream.

このように、拡張されたスケーラブルビデオコーディングは、参照フレームとして自体の隣接フレームおよび下位階層フレームだけを使用する単一時点ビデオに対するスケーラブルビデオコーディングとは異なり、参照フレームとして自体の下位階層フレームだけでなく、周辺の下位階層フレームを使用する。   Thus, enhanced scalable video coding differs from scalable video coding for single point-in-time video that uses only its own neighboring and lower layer frames as reference frames, as well as its own lower layer frames as reference frames. , Use peripheral lower layer frames.

一方、本発明に係るマルチビュービデオに対するスケーラブルビデオデコーディング装置は、前述したようなコーディング装置とは逆に遂行される。   Meanwhile, the scalable video decoding apparatus for multi-view video according to the present invention is performed in reverse to the coding apparatus as described above.

本発明に係るデコーディング装置について説明すると、デコーディング装置は、1つの基礎ビデオに対してスケーラブルコーディングされたビットストリームを受信し、逆時間変換および逆空間変換を介して復元する基礎スケーラビリティビデオデコーダと、同一時点で撮影された自体のビデオと参照ビデオとに対して時空間予測を介してスケーラブルコーディングされたビットストリームを受信して、自体の下位階層だけでなく、参照ビデオである他のビデオフレームの下位階層の参照可否に応じて逆時空間予測を介して少なくとも1つ以上の高解像度画像フレームを復元し、自体の隣接フレームだけでなく、同一時間軸で前記他のビデオフレームの参照可否に応じて逆時空間予測を介して低解像度画像フレームを復元した後、前記復元された高解像度画像フレームと、前記復元された低解像度画像フレームとに対して逆空間フィルタリングを介して画像を復元する複数の拡張されたスケーラビリティビデオデコーダを備える。   Referring to a decoding apparatus according to the present invention, a decoding apparatus receives a scalable coded bitstream for one basic video and restores it through inverse temporal transform and inverse spatial transform; Receive a bitstream that is scalable coded via spatio-temporal prediction for its own video and reference video taken at the same time, and not only its own lower layer but also other video frames that are reference video The at least one high-resolution image frame is restored through inverse spatio-temporal prediction according to whether or not the lower layer of the image can be referenced, and whether or not the other video frame can be referenced on the same time axis as well as the adjacent frame of itself. Accordingly, after restoring the low resolution image frame via inverse spatio-temporal prediction, the restored A plurality of enhanced scalability video decoders for restoring an image through inverse spatial filtering with respect to the high-resolution image frame and the restored low-resolution image frame.

本発明に係るデコーディング装置において、基礎スケーラビリティビデオデコーダは、従来のスケーラブルビデオデコーダと同じ構造を有する。したがって、これに対する具体的な説明は省略する。   In the decoding apparatus according to the present invention, the basic scalability video decoder has the same structure as a conventional scalable video decoder. Therefore, a detailed description thereof will be omitted.

本発明において、拡張されたスケーラビリティビデオデコーダは、受信されたビットストリームを逆多重化する逆多重化部と、前記逆多重化部により出力された高解像度画像信号に対して自体のビデオに対する下位階層だけでなく、参照ビデオである他のビデオに対する下位階層の参照可否に応じて逆時空間動き予測を介してスケーラブルデコーディングを遂行する少なくとも1つ以上の向上階層デコーダと、前記逆多重化部により出力された低解像度画像信号に自体のビデオフレームに対する逆時空間動き予測だけでなく、時間軸で参照ビデオフレームに対する逆動き予測を介してスケーラブルデコーディングを遂行する基礎階層デコーダと、前記向上階層デコーディングにより復元された高解像度画像および前記基礎階層デコーダにより復元された低解像度画像に対して逆空間的フィルタリングを介して画像を復元する逆空間的ビデオフィルタリング部とを備える。   In the present invention, the extended scalability video decoder includes: a demultiplexing unit that demultiplexes a received bitstream; and a high-level image signal output by the demultiplexing unit with respect to a lower layer for its own video. In addition, at least one enhancement layer decoder that performs scalable decoding through inverse spatio-temporal motion prediction according to whether or not a lower layer reference to another video that is a reference video is possible, and the demultiplexing unit A base layer decoder that performs scalable decoding on the output low-resolution image signal not only by reverse spatio-temporal motion prediction for its own video frame but also by reverse motion prediction for a reference video frame in the time axis; The high-resolution image restored by coding and the restoration by the base layer decoder And an inverse spatial video filtering unit that restores the original low-resolution image through inverse spatial filtering.

ここで、基礎階層デコーダおよび向上階層デコーダは、先に説明した基礎階層エンコーダおよび向上階層デコーダの逆の動きを遂行するもので、これに対する具体的な構造および動作については説明を省略する。   Here, the base layer decoder and the enhancement layer decoder perform the reverse operations of the base layer encoder and the enhancement layer decoder described above, and a description of the specific structure and operation thereof will be omitted.

向上階層デコーダは、高解像度画像信号に対するデコーディング時、下位階層の動きベクトル情報の使用可否を表すフラッグと、他のビデオに対する下位階層の参照インデックスを予測情報として利用するのかの可否を表すフラッグと、下位階層のイントラブロックのタイプを予測情報として利用するのかの可否を表すフラッグと、下位階層の差画像値の利用可否に対するフラッグと、予測に使われた参照ビューのインデックスとを参照してスケーラブルデコーディングを遂行する。   The enhancement layer decoder, when decoding a high-resolution image signal, a flag indicating whether or not lower layer motion vector information can be used and a flag indicating whether or not a lower layer reference index for other video is used as prediction information. Scalable with reference to the flag indicating whether or not the intra-block type of the lower layer is used as prediction information, the flag for the availability of the difference image value of the lower layer, and the index of the reference view used for prediction Perform decoding.

一方、前述したような本発明の方法は、コンピュータプログラムとして作成が可能である。また、前記プログラムを構成するコードおよびコードセグメントは、該当分野のコンピュータプログラマーによって容易に推論できる。また、前記作成されたプログラムは、コンピュータが読み出すことができる記録媒体情報保存媒体に保存され、コンピュータによって読み出されて実行されることによって、本発明の方法を具現する。また、前記記録媒体はコンピュータが読取りできるあらゆる形態の記録媒体を含む。   On the other hand, the method of the present invention as described above can be created as a computer program. The code and code segment constituting the program can be easily inferred by a computer programmer in the corresponding field. In addition, the created program is stored in a recording medium information storage medium that can be read by a computer, and is read and executed by the computer to implement the method of the present invention. The recording medium includes any form of recording medium readable by a computer.

以上で説明した本発明は、本発明が属する技術分野において通常の知識を有する者にとって、本発明の技術的思想を逸脱しない範囲内で色々な置換、変形および変更が可能なため、前述した実施形態および添付された図面により限定されるものではない。   The present invention described above can be variously replaced, modified, and changed by those who have ordinary knowledge in the technical field to which the present invention belongs without departing from the technical idea of the present invention. It is not limited by the form and attached drawings.

前記のような本発明は、一般的なスケーラブルコーディング技術の時空間階層的構造をマルチビュービデオ間に拡張してマルチビュービデオを効果的に圧縮することができる。また、本発明は、マルチビュービデオに対して時間および空間軸上で階層的構造を構成することで、多様な形態の2次元または3次元端末機にスケーラブルにビデオサービスを提供することができる。   The present invention as described above can effectively compress a multi-view video by extending a spatio-temporal hierarchical structure of a general scalable coding technique between multi-view videos. Also, the present invention can provide a video service in a scalable manner to various types of two-dimensional or three-dimensional terminals by configuring a hierarchical structure on the temporal and spatial axes for multi-view video.

Claims (18)

マルチビュービデオに対するスケーラブルビデオコーディング装置であって、
礎ビデオ空間フィルタリングを介して多階層解像度を有する画像フレームに分離して、前記分離された低解像度画像フレームおよび1つ以上の高解像度画像フレームの各々に対して時空間予測を介してスケーラブルビデオコーディングを遂行する基礎スケーラビリティビデオエンコーダと、
第1ビデオと、参照ビデオである少なくとも1つ以上のビデオが入力され、空間フィルタリングを介して多階層解像度を有する画像フレームに分離して、前記分離された低解像度画像フレームに対して第1ビデオフレームの隣接フレーム及び同一時間軸での参照ビデオフレームを参照して時空間予測を介してスケーラブルビデオコーディングを遂行し、前記分離された1つ以上の高解像度画像フレームに対して前記第1ビデオの下位階層及び前記参照ビデオの下位階層を参照して時空間予測を介してスケーラブルビデオコーディングを遂行する複数の拡張されたスケーラビリティビデオエンコーダと、
を備えるマルチビュービデオに対するスケーラブルビデオコーディング装置。
A scalable video coding device for multi-view video,
Separating the foundation video image frames with multilayer resolutions through spatial filtering, through the spatial prediction time for each of the separated low-resolution image frame and one or more high-resolution image frame A basic scalable video encoder that performs scalable video coding,
A first video, the at least one or more video is a reference video input, separates the image frames with multilayer resolutions through spatial filtering, the relative said separated low-resolution image frame was 1 with reference to the reference video frames in adjacent frames and the same time axis of the video frame by performing the scalable video coding through a spatiotemporal prediction, the first with respect to the separated one or more high-resolution image frame was and scalability video encoders perform more expansion scalable video coding through a spatiotemporal prediction with reference to the lower layer and the reference video of a lower layer of the video,
A scalable video coding apparatus for multi-view video.
前記拡張されたスケーラビリティビデオエンコーダが、
入力された前記第1ビデオと、前記参照ビデオとに対して空間的フィルタリングを介して多階層解像度を有する画像フレームに分離する空間的ビデオフィルタリング手段と、
前記第1ビデオおよび参照ビデオを、時間的フィルタリングを介して低解像度画像フレームに分離し、前記第1ビデオフレームに対する時空間動き予測及び時間軸で前記参照ビデオに対する動き予測を介してスケーラブルコーディングを遂行する基礎階層エンコーディング手段と、
前記第1ビデオおよび参照ビデオを、時間的フィルタリングを介して高解像度画像フレームに分離し、前記第1ビデオに対する下位階層及び前記参照ビデオに対する下位階層を参照して時空間動き予測を介してスケーラブルコーディングを遂行する少なくとも1つ以上の向上階層エンコーディング手段と、
前記基礎階層エンコーディング手段の出力と、前記向上階層エンコーディング手段の出力とを多重化して1つのビットストリームを出力する多重化手段と、
を備えることを特徴とする請求項1に記載のマルチビュービデオに対するスケーラブルビデオコーディング装置。
The extended scalability video encoder is
And the inputted first video, and the spatial video filtering means for separating the image frame having the reference video and the multilayer resolutions through spatial filtering on,
The first video and the reference video is separated into a low-resolution image frames through temporal filtering, scalable coding via motion prediction against the reference video in the space-time motion estimation and time axis for said first video frame A basic hierarchical encoding means for performing
The first video and the reference video, and separated into high-resolution image frame through temporal filtering, via the space-time motion prediction with reference to the lower layer against the lower layer and the reference video for the first video and at least one enhancement layer encoding means performs scalable coding,
And multiplexing means for outputting an output of the base layer encoding means, a bit stream by multiplexing the output of the enhancement layer encoding means,
The scalable video coding apparatus for multi-view video according to claim 1, comprising:
前記向上階層エンコーディング手段が、
コーディングの結果によって前記下位階層の動きベクトル情報の使用可否を表すフラッグと、前記参照ビデオに対する下位階層の参照インデックスを予測情報として利用するのかの可否を表すフラッグと、前記下位階層のイントラブロックのタイプを予測情報として利用するのかの可否を表すフラッグと、前記下位階層の差画像値の利用可否に対するフラッグとを各々設定して、使われた参照ビューのインデックスを表示することを特徴とする請求項2に記載のマルチビュービデオに対するスケーラブルビデオコーディング装置。
The enhanced hierarchical encoding means comprises:
And flag the coding result representing the availability of the motion vector information of the lower layer, the flag indicating that the one of the permission to use as prediction information reference index of a lower layer with respect to the reference video, type of intra block of the lower layer A flag indicating whether or not to use the image as prediction information and a flag for determining whether or not to use the difference image value in the lower layer are set, respectively, and an index of the used reference view is displayed. 2. A scalable video coding apparatus for multi-view video according to 2.
前記向上階層エンコーディング手段が、
イントラブロックのためのイントラ予測のために復元されたビデオフレームに対して2次元空間の補間を遂行する2次元空間補間手段をさらに備えることを特徴とする請求項2に記載のマルチビュービデオに対するスケーラブルビデオコーディング装置。
The enhanced hierarchical encoding means comprises:
The scalable multi-view video according to claim 2, further comprising two-dimensional spatial interpolation means for performing two-dimensional spatial interpolation on a video frame restored for intra prediction for an intra block. Video coding device.
前記向上階層エンコーディング手段が、
時間および空間軸上にフレーム間の動き、差画像、およびイントラ予測を介して符号化することを特徴とする請求項2に記載のマルチビュービデオに対するスケーラブルビデオコーディング装置。
The enhanced hierarchical encoding means comprises:
The scalable video coding apparatus for multi-view video according to claim 2, wherein encoding is performed via motion between frames, difference images, and intra prediction on temporal and spatial axes.
前記向上階層エンコーディング手段が、
動き予測のために前記第1ビデオに対する基礎階層画像(低解像度画像)、および前記参照ビデオに対する基礎階層画像(低解像度画像)の動きベクトルを2倍した値を使用して動き予測を遂行することを特徴とする請求項5に記載のマルチビュービデオに対するスケーラブルビデオコーディング装置。
The enhanced hierarchical encoding means comprises:
Using said base layer image to the first video (low resolution image), and double the motion vector value of the base layer image against the reference video (low resolution image) for motion prediction performing a motion prediction The scalable video coding apparatus for multi-view video according to claim 5.
前記向上階層エンコーディング手段が、
前記差画像の予測のために、前記第1ビデオに対する基礎階層画像(低解像度画像)と、前記参照ビデオに対する基礎階層画像(低解像度画像)との予測後の残余画像を補間して差画像予測を遂行することを特徴とする請求項5に記載のマルチビュービデオに対するスケーラブルビデオコーディング装置。
The enhanced hierarchical encoding means comprises:
For prediction of the difference image, difference the underlying layer image to the first video (low resolution image), by interpolating the residual image after prediction of the base layer image (low resolution image) against the reference video 6. The scalable video coding apparatus for multi-view video according to claim 5, wherein image prediction is performed.
マルチビュービデオに対するスケーラブルビデオコーディング方法であって、
(a)基礎ビデオを空間フィルタリングを介して多階層解像度を有する画像フレームに分離して、前記分離された低解像度画像フレームおよび1つ以上の高解像度画像フレームの各々に対して時空間予測を介してスケーラブルビデオコーディングを遂行するステップと、
(b)第1ビデオと、参照ビデオである少なくとも1つ以上のビデオとが入力され、空間フィルタリングを介して多階層解像度を有する画像フレームに分離して、前記分離された低解像度画像フレームに対して第1ビデオフレームの隣接フレーム及び同一時間軸での参照ビデオフレームを参照して時空間予測を介してスケーラブルビデオコーディングを遂行し、前記分離された1つ以上の高解像度画像フレームに対して前記第1ビデオの下位階層及び前記参照ビデオの下位階層を参照して時空間予測を介してスケーラブルビデオコーディングを遂行するステップ
備えるマルチビュービデオに対するスケーラブルビデオコーディング方法。
A scalable video coding method for multi-view video,
(A) separating the foundation video image frames with multilayer resolutions through spatial filtering, the space-time prediction for each of the separated low-resolution image frame was and one or more high-resolution image frame Performing scalable video coding via:
(B) a first video, the at least one or more video is a reference video input, separates the image frames with multilayer resolutions through spatial filtering, the separated low-resolution image frame was And performing scalable video coding through spatio-temporal prediction with reference to an adjacent frame of the first video frame and a reference video frame on the same time axis, and for the one or more separated high-resolution image frames. Performing scalable video coding through spatio-temporal prediction with reference to a lower layer of the first video and a lower layer of the reference video, and a scalable video coding method for multi-view video.
前記()ステップ前記下位階層の動きベクトル情報の使用可否を表すフラッグと、前記参照ビデオに対する下位階層の参照インデックスを予測情報として利用するのかの可否を表すフラッグと、前記下位階層のイントラブロックのタイプを予測情報として利用するのかの可否を表すフラッグと、前記下位階層の差画像値の利用可否に対するフラッグとを各々設定して、使われた参照ビューのインデックスを表示することを特徴とする請求項8に記載のマルチビュービデオに対するスケーラブルビデオコーディング方法。 Step (b), a flag indicating whether to use the motion vector information of the lower layer, the flag indicating that the one of the permission to use as prediction information reference index of a lower layer with respect to the reference video, intra said lower layer a flag indicating that the one of the permission to use the type of block as the prediction information, the to each set a flag for the availability of the difference between image values of a lower layer, and Turkey to display the index of reference view were used The scalable video coding method for multi-view video according to claim 8. 前記()ステップが、
時間および空間軸上にフレーム間の動き、差画像、およびイントラ予測を介して符号化することを特徴とする請求項8に記載のマルチビュービデオに対するスケーラブルビデオコーディング方法。
The step ( b )
Motion between frames in time and space axis, the difference image, and scalable video coding method for multi-view video according to claim 8, characterized in that the sign-of through intra prediction.
前記()ステップが、
イントラブロックのためのイントラ予測のために復元されたビデオフレームに対して2次元空間の補間を遂行することを特徴とする請求項8に記載のマルチビュービデオに対するスケーラブルビデオコーディング方法。
The step ( b )
[9] The scalable video coding method of claim 8, wherein interpolation of a two-dimensional space is performed on a video frame restored for intra prediction for an intra block.
前記()ステップが、
動き予測のために前記第1ビデオに対する基礎階層画像(低解像度画像)、および前記参照ビデオに対する基礎階層画像(低解像度画像)の動きベクトルを2倍した値を使用して動き予測を遂行することを特徴とする請求項8に記載のマルチビュービデオに対するスケーラブルビデオコーディング方法。
The step ( b )
Using said base layer image to the first video (low resolution image), and double the motion vector value of the base layer image against the reference video (low resolution image) for motion prediction performing a motion prediction The scalable video coding method for multi-view video according to claim 8, wherein:
前記()ステップが、
前記差画像予測のために、前記第1ビデオに対する基礎階層画像(低解像度画像)、および前記参照ビデオである他のビデオに対する基礎階層画像(低解像度画像)の予測後の残余画像を補間して差画像予測を遂行することを特徴とする請求項8に記載のマルチビュービデオに対するスケーラブルビデオコーディング方法。
The step ( b )
For the difference image prediction by interpolating the residual image after prediction of the base layer image to the first video (low resolution image), and the base layer image to the other video that is the reference video (low resolution image) 9. The scalable video coding method for multi-view video according to claim 8, wherein difference image prediction is performed.
マルチビュービデオに対するスケーラブルビデオデコーディング装置であって、
礎ビデオに対してスケーラブルコーディングされたビットストリームを受信して、逆時間変換および逆空間変換を介して復元する基礎スケーラビリティビデオデコーダと、
第1ビデオおよび参照ビデオに対して時空間予測を介してスケーラブルコーディングされたビットストリームを受信し、前記第1ビデオの下位階層及び前記参照ビデオの下位階層の参照可否に応じて逆時空間予測を介して1つ以上の高解像度画像フレームを復元し、前記第1ビデオに含まれたフレームの隣接フレーム及び同一時間軸で前記参照ビデオフレームの参照可否に応じて逆時空間予測を介して低解像度画像フレームを復元した後、前記復元された高解像度画像フレームと、前記復元された低解像度画像フレームとに対して逆空間フィルタリングを介して画像を復元する複数の拡張されたスケーラビリティビデオデコーダと、
を備えるマルチビュービデオに対するスケーラブルビデオデコーディング装置。
A scalable video decoding device for multi-view video,
Receives the scalable coded bit stream for foundation video, and basic scalability video decoder to be restored through the inverse time transform and inverse spatial transform,
Via spatial prediction when the first video and the reference video receives scalable coded bitstream, inverse space-time prediction in accordance with the read permission information of the first video of a lower layer and the reference video of a lower layer to restore one or more high-resolution image frame via the through inverse temporal and spatial prediction according to the reference whether frames of adjacent frames and the reference video with the same time axis of the frame included in the first video after restoring the low-resolution image frame, and a high-resolution image frame the restored, a plurality of extended scalability video decoder for reconstructing an image through the inverse spatial filtering for the low resolution image frames the restored ,
A scalable video decoding apparatus for multi-view video.
前記拡張されたスケーラビリティビデオデコーダが、
受信されたビットストリームを逆多重化する逆多重化手段と、
該逆多重化手段により出力された高解像度画像信号に対して、前記第1ビデオに対する下位階層及び前記参照ビデオに対する下位階層の参照可否に応じて、逆時空間動き予測を介してスケーラブルデコーディングを遂行する1つ以上の向上階層デコーディング手段と、
前記逆多重化手段により出力された低解像度画像信号に、前記第1ビデオのビデオフレームに対する逆時空間動き予測及び時間軸で前記参照ビデオのビデオフレームに対する逆動き予測を介してスケーラブルデコーディングを遂行する基礎階層デコーディング手段と、
前記向上階層デコーディング手段により復元された高解像度画像、および前記基礎階層デコーディング手段により復元された低解像度画像に対して逆空間的フィルタリングを介して画像を復元する逆空間的ビデオフィルタリング手段と、
を備えることを特徴とする請求項14に記載のマルチビュービデオに対するスケーラブルビデオデコーディング装置。
The extended scalability video decoder is
Demultiplexing means for demultiplexing the received bitstream;
The high-resolution image signal outputted by the inverse multiplexing means, in response to the read permission information of the lower layer against the lower layer and the reference video for the first video, scalable de via inverse space-time motion estimation and one or more enhancement layer decoding means you perform coding,
The low-resolution image signal outputted by the demultiplexing means, perform scalable decoding through the inverse motion prediction for a video frame of the reference video in reverse at the spatial motion prediction and temporal axis for a video frame of the first video Base layer decoding means to perform,
An inverse spatial video filtering means for restoring an image through inverse spatial filtering with respect to a high resolution image restored by the enhancement layer decoding means and a low resolution image restored by the base layer decoding means;
15. The scalable video decoding apparatus for multi-view video according to claim 14, further comprising:
前記向上階層デコーディング手段が、
前記下位階層の動きベクトル情報の使用可否を表すフラッグと、前記参照ビデオに対する下位階層の参照インデックスを予測情報として利用するのかの可否を表すフラッグと、前記下位階層のイントラブロックのタイプを予測情報として利用するかの可否を表すフラッグと、前記下位階層の差画像値の利用可否に対するフラッグと、予測に使われた参照ビューのインデックスとを参照してスケーラブルデコーディングを遂行することを特徴とする請求項15に記載のマルチビュービデオに対するスケーラブルビデオデコーディング装置。
The enhancement layer decoding means comprises:
A flag indicating whether to use the motion vector information of the lower layer, the flag indicating that the one of the permission to use as prediction information reference index of a lower layer with respect to the reference video, a type of intra block of the lower layer as prediction information according to the flag indicating whether the permission to use, the flag for the availability of the difference between image values of the lower layer, characterized in that to perform scalable decoding with reference to the index of the reference view were used to predict Item 16. A scalable video decoding apparatus for multiview video according to item 15.
マルチビュービデオに対するスケーラブルビデオデコーディング方法であって、
(a)基礎ビデオに対してスケーラブルコーディングされたビットストリームを受信して、逆時間変換および逆空間変換を介して復元するステップと、
(b)第1ビデオおよび参照ビデオに対して時空間予測を介してスケーラブルコーディングされたビットストリームを受信し、前記第1ビデオの下位階層及び前記参照ビデオの下位階層の参照可否に応じて逆時空間予測を介して1つ以上の高解像度画像フレームを復元し、前記第1ビデオに含まれたフレームの隣接フレーム及び同一時間軸で前記参照ビデオのフレームの参照可否に応じて逆時空間予測を介して低解像度画像フレームを復元した後、前記復元された高解像度画像フレームと、前記復元された低解像度画像フレームとに対して逆空間フィルタリングを介して画像を復元するステップと、
備えるマルチビュービデオに対するスケーラブルビデオデコーディング方法。
A scalable video decoding method for multi-view video,
(A) receiving a scalable coded bitstream with respect to foundation video, and restoring via the inverse time between conversion and inverse spatial transform,
(B) receiving a bitstream that is scalable-coded for the first video and the reference video through spatio-temporal prediction, and in reverse depending on whether or not the lower layer of the first video and the lower layer of the reference video can be referred to One or more high-resolution image frames are restored through spatial prediction , and inverse spatio-temporal prediction is performed according to whether or not the reference video frame can be referenced on the same time axis as an adjacent frame of the frame included in the first video after restoring the low-resolution image frames through, and restoring the image through a high resolution image frames the restored, the restored inverse spatial filtering on the low-resolution image frames,
A scalable video decoding method for multi-view video comprising:
前記()ステップ前記下位階層の動きベクトル情報の使用可否を表すフラッグと、前記参照ビデオに対する下位階層の参照インデックスを予測情報として利用するのかの可否を表すフラッグと、前記下位階層のイントラブロックのタイプを予測情報として利用するのかの可否を表すフラッグと、前記下位階層の差画像値の利用可否に対するフラッグと、予測に使われた参照ビューのインデックス情報とを利用してスケーラブルビデオデコーディングを遂行することを特徴とする請求項17に記載のマルチビュービデオに対するスケーラブルビデオデコーディング方法。Step (a) is a flag indicating whether to use the motion vector information of the lower layer, the flag indicating that the one of the permission to use as prediction information reference index of a lower layer with respect to the reference video, intra said lower layer a flag indicating that the one of the permission to use the type of block as the prediction information, and flags for the availability of the difference between image values of the lower layer, by using the index information scalable video decoding reference view were used to predict The scalable video decoding method for multi-view video according to claim 17, wherein:
JP2009534496A 2006-10-25 2007-10-25 Multi-view video scalable coding and decoding method, and coding and decoding apparatus Expired - Fee Related JP5170786B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20060103923 2006-10-25
KR10-2006-0103923 2006-10-25
PCT/KR2007/005294 WO2008051041A1 (en) 2006-10-25 2007-10-25 Multi-view video scalable coding and decoding

Publications (2)

Publication Number Publication Date
JP2010507961A JP2010507961A (en) 2010-03-11
JP5170786B2 true JP5170786B2 (en) 2013-03-27

Family

ID=39324782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009534496A Expired - Fee Related JP5170786B2 (en) 2006-10-25 2007-10-25 Multi-view video scalable coding and decoding method, and coding and decoding apparatus

Country Status (3)

Country Link
JP (1) JP5170786B2 (en)
KR (1) KR100919885B1 (en)
WO (1) WO2008051041A1 (en)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8855199B2 (en) * 2008-04-21 2014-10-07 Nokia Corporation Method and device for video coding and decoding
CN101588252B (en) 2008-05-23 2011-07-20 华为技术有限公司 Control method and control device of multipoint conference
KR101012760B1 (en) * 2008-09-05 2011-02-08 에스케이 텔레콤주식회사 System and Method for transmitting and receiving of Multi-view video
KR101146138B1 (en) * 2008-12-10 2012-05-16 한국전자통신연구원 Temporal scalabel video encoder
KR101529932B1 (en) * 2008-12-30 2015-06-18 엘지전자 주식회사 Digital broadcast receiving method providing two-dimensional image and 3d image integration service, and digital broadcast receiving device using the same
WO2010120804A1 (en) 2009-04-13 2010-10-21 Reald Inc. Encoding, decoding, and distributing enhanced resolution stereoscopic video
KR101683119B1 (en) * 2009-06-16 2016-12-06 엘지전자 주식회사 Broadcast transmitter, Broadcast receiver and 3D video processing method thereof
US9648346B2 (en) 2009-06-25 2017-05-09 Microsoft Technology Licensing, Llc Multi-view video compression and streaming based on viewpoints of remote viewer
KR20110007928A (en) * 2009-07-17 2011-01-25 삼성전자주식회사 Method and apparatus for encoding/decoding multi-view picture
KR101144752B1 (en) * 2009-08-05 2012-05-09 경희대학교 산학협력단 video encoding/decoding method and apparatus thereof
WO2011016701A2 (en) * 2009-08-07 2011-02-10 한국전자통신연구원 Motion picture encoding apparatus and method thereof
KR20110015356A (en) 2009-08-07 2011-02-15 한국전자통신연구원 Video encoding and decoding apparatus and method using adaptive transform and quantization domain that based on a differential image signal characteristic
US20110080948A1 (en) * 2009-10-05 2011-04-07 Xuemin Chen Method and system for 3d video decoding using a tier system framework
FR2951346A1 (en) * 2009-10-08 2011-04-15 Thomson Licensing MULTIVATED CODING METHOD AND CORRESPONDING DECODING METHOD
CN102986214A (en) * 2010-07-06 2013-03-20 皇家飞利浦电子股份有限公司 Generation of high dynamic range images from low dynamic range images
CN103155568B (en) 2010-07-08 2016-07-27 杜比实验室特许公司 For using reference process signal to carry out the system and method for multi-layer image and transmission of video
PL2596637T3 (en) * 2010-07-21 2021-12-13 Dolby Laboratories Licensing Corporation Systems and methods for multi-layered frame-compatible video delivery
JP5663093B2 (en) * 2010-10-01 2015-02-04 ドルビー ラボラトリーズ ライセンシング コーポレイション Optimized filter selection for reference picture processing
KR20120118781A (en) * 2011-04-19 2012-10-29 삼성전자주식회사 Method and apparatus for unified scalable video encoding for multi-view video, method and apparatus for unified scalable video decoding for multi-view video
US11496760B2 (en) 2011-07-22 2022-11-08 Qualcomm Incorporated Slice header prediction for depth maps in three-dimensional video codecs
US9521418B2 (en) 2011-07-22 2016-12-13 Qualcomm Incorporated Slice header three-dimensional video extension for slice header prediction
AU2012295028B2 (en) * 2011-08-09 2016-07-14 Samsung Electronics Co., Ltd. Method for multiview video prediction encoding and device for same, and method for multiview video prediction decoding and device for same
JP2013038623A (en) * 2011-08-09 2013-02-21 Sony Corp Image encoder and image encoding method and program
US9288505B2 (en) 2011-08-11 2016-03-15 Qualcomm Incorporated Three-dimensional video with asymmetric spatial resolution
US10764604B2 (en) * 2011-09-22 2020-09-01 Sun Patent Trust Moving picture encoding method, moving picture encoding apparatus, moving picture decoding method, and moving picture decoding apparatus
WO2013051896A1 (en) * 2011-10-05 2013-04-11 한국전자통신연구원 Video encoding/decoding method and apparatus for same
KR20130046534A (en) * 2011-10-28 2013-05-08 삼성전자주식회사 Method and apparatus for encoding image and method and apparatus for decoding image
US9485503B2 (en) 2011-11-18 2016-11-01 Qualcomm Incorporated Inside view motion prediction among texture and depth view components
WO2013076991A1 (en) * 2011-11-25 2013-05-30 パナソニック株式会社 Image coding method, image coding device, image decoding method and image decoding device
KR101346349B1 (en) * 2012-01-30 2013-12-31 광운대학교 산학협력단 Apparatus and Method for scalable multi-view video decoding
WO2013115609A1 (en) * 2012-02-02 2013-08-08 한국전자통신연구원 Interlayer prediction method and device for image signal
WO2013150764A1 (en) * 2012-04-03 2013-10-10 パナソニック株式会社 Image encoding method, image decoding method, image encoding device, and image decoding device
KR101682999B1 (en) * 2012-04-16 2016-12-20 노키아 테크놀로지스 오와이 An apparatus, a method and a computer program for video coding and decoding
CN104620578B (en) * 2012-07-06 2018-01-02 三星电子株式会社 Method and apparatus for the multi-layer video coding of random access and the method and apparatus of the multi-layer video decoding for random access
WO2014088316A2 (en) * 2012-12-04 2014-06-12 인텔렉추얼 디스커버리 주식회사 Video encoding and decoding method, and apparatus using same
US10616607B2 (en) 2013-02-25 2020-04-07 Lg Electronics Inc. Method for encoding video of multi-layer structure supporting scalability and method for decoding same and apparatus therefor
WO2014129873A1 (en) * 2013-02-25 2014-08-28 엘지전자 주식회사 Method for encoding video of multi-layer structure supporting scalability and method for decoding same and apparatus therefor
KR101595397B1 (en) * 2013-07-26 2016-02-29 경희대학교 산학협력단 Method and apparatus for integrated encoding/decoding of different multilayer video codec
US9762909B2 (en) 2013-07-30 2017-09-12 Kt Corporation Image encoding and decoding method supporting plurality of layers and apparatus using same
WO2015016535A1 (en) * 2013-07-30 2015-02-05 주식회사 케이티 Image encoding and decoding method supporting plurality of layers and apparatus using same
US9894369B2 (en) 2013-07-30 2018-02-13 Kt Corporation Image encoding and decoding method supporting plurality of layers and apparatus using same

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100481732B1 (en) * 2002-04-20 2005-04-11 전자부품연구원 Apparatus for encoding of multi view moving picture
WO2006062377A1 (en) * 2004-12-10 2006-06-15 Electronics And Telecommunications Research Institute Apparatus for universal coding for multi-view video
US7468745B2 (en) * 2004-12-17 2008-12-23 Mitsubishi Electric Research Laboratories, Inc. Multiview video decomposition and encoding
KR20060101847A (en) * 2005-03-21 2006-09-26 엘지전자 주식회사 Method for scalably encoding and decoding video signal
KR100732961B1 (en) * 2005-04-01 2007-06-27 경희대학교 산학협력단 Multiview scalable image encoding, decoding method and its apparatus

Also Published As

Publication number Publication date
KR20080037593A (en) 2008-04-30
WO2008051041A1 (en) 2008-05-02
KR100919885B1 (en) 2009-09-30
JP2010507961A (en) 2010-03-11

Similar Documents

Publication Publication Date Title
JP5170786B2 (en) Multi-view video scalable coding and decoding method, and coding and decoding apparatus
KR100760258B1 (en) Apparatus for Universal Coding for Multi-View Video
US7889793B2 (en) Method and apparatus for effectively compressing motion vectors in video coder based on multi-layer
JP4611386B2 (en) Multi-view video scalable encoding and decoding method and apparatus
JP4991699B2 (en) Scalable encoding and decoding methods for video signals
JP5154681B2 (en) How to encode multiview video
US8040950B2 (en) Method and apparatus for effectively compressing motion vectors in multi-layer structure
KR100621581B1 (en) Method for pre-decoding, decoding bit-stream including base-layer, and apparatus thereof
CN1722838B (en) Scalable video coding method and apparatus using base-layer
KR100791299B1 (en) Multi-layer based video encoding method and apparatus thereof
EP1772022A1 (en) Method of coding and decoding multiview sequence and method of displaying thereof
KR100703745B1 (en) Video coding method and apparatus for predicting effectively unsynchronized frame
KR100703746B1 (en) Video coding method and apparatus for predicting effectively unsynchronized frame
EP1659797A2 (en) Method and apparatus for compressing motion vectors in video coder based on multi-layer
MX2008002391A (en) Method and apparatus for encoding multiview video.
KR101259536B1 (en) A spatial scalable encoding and decoding device for holographic source and the method thereof
KR20110118744A (en) 3d tv video encoding method, decoding method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120316

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120618

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120625

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121221

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees