JP2016127372A - Video encoder, video decoder, video processing system, video encoding method, video decoding method, and program - Google Patents
Video encoder, video decoder, video processing system, video encoding method, video decoding method, and program Download PDFInfo
- Publication number
- JP2016127372A JP2016127372A JP2014265509A JP2014265509A JP2016127372A JP 2016127372 A JP2016127372 A JP 2016127372A JP 2014265509 A JP2014265509 A JP 2014265509A JP 2014265509 A JP2014265509 A JP 2014265509A JP 2016127372 A JP2016127372 A JP 2016127372A
- Authority
- JP
- Japan
- Prior art keywords
- viewpoint
- decoding
- image
- encoding
- inter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
Description
本発明は、動画像符号化装置、動画像復号装置、動画像処理システム、動画像符号化方法、動画像復号方法、およびプログラムに関する。 The present invention relates to a moving image encoding device, a moving image decoding device, a moving image processing system, a moving image encoding method, a moving image decoding method, and a program.
従来、様々な視点からの映像の視聴を可能とする、フリーナビゲーションと呼ばれる映像表現方式が提案されている。ビデオゲームでは、フリーナビゲーションは既に一般的に利用されているが、近年、実写映像を素材映像としてフリーナビゲーションを実現する手法が検討されている。 2. Description of the Related Art Conventionally, a video expression method called free navigation has been proposed that enables viewing of video from various viewpoints. In video games, free navigation is already generally used, but in recent years, techniques for realizing free navigation using live-action video as material video have been studied.
実写映像を素材映像としてフリーナビゲーションを実現する場面として、例えばサッカーの試合の映像を視聴者に配信する場合が考えられる。この場合、サッカーフィールドを囲うように複数のカメラを固定して配置し、これら複数のカメラによりサッカーフィールド全体を撮影して、撮影した映像を素材映像として視聴者に配信する。これによれば、視聴したい視点を視聴者が適宜操作すると、操作された視点からの映像を、素材映像として配信された複数の映像から作成して、視聴者に提示することができる。 As a scene for realizing free navigation using a live-action video as a material video, for example, a video of a soccer game can be distributed to viewers. In this case, a plurality of cameras are fixedly arranged so as to surround the soccer field, the entire soccer field is photographed by the plurality of cameras, and the photographed video is distributed to the viewer as a material video. According to this, when the viewer appropriately operates the viewpoint to be viewed, the video from the operated viewpoint can be created from the plurality of videos distributed as the material video and presented to the viewer.
以上のように、実写映像を映像素材としてフリーナビゲーションを実現する場合には、パースの異なる複数の視点から撮影した複数の映像(多視点映像)を、素材映像として視聴者に配信する必要がある。このため、素材映像を効率的に圧縮することが好ましい。 As described above, in order to realize free navigation using live-action video as video material, it is necessary to deliver multiple videos (multi-view video) taken from multiple perspectives with different perspectives to the viewer as material video . For this reason, it is preferable to efficiently compress the material image.
そこで、HEVCの拡張方式として、MV−HEVCと呼ばれる多視点拡張方式が規格化されている(例えば、非特許文献1参照)。MV−HEVCでは、パースの異なる複数の視点の映像を、相互に参照して、同時に符号化することが可能である。 Thus, a multi-view extension method called MV-HEVC has been standardized as an extension method of HEVC (see, for example, Non-Patent Document 1). In MV-HEVC, videos from a plurality of viewpoints with different perspectives can be referred to each other and encoded simultaneously.
MV−HEVCにより2つの視点の映像を符号化および復号する場合について、以下に説明する。なお、以降では、2つの視点のうち、一方を基準視点と呼び、他方を拡張視点と呼ぶこととする。基準視点の映像については、HEVCで従来と同様に符号化し、符号化された基準視点の映像については、HEVCで従来と同様に復号する。一方、拡張視点の映像については、基準視点のローカル復号画像をインター予測の参照画像として用いて符号化し、符号化された拡張視点の映像については、基準視点の復号画像をインター予測の参照画像として用いて復号する。このため、基準視点の映像と拡張視点の映像とで相関が高い場合に、基準視点の画像を参照してインター予測を行うことで、フレーム内予測を行う場合と比べて高能率符号化を行うことができる。 A case where video of two viewpoints is encoded and decoded by MV-HEVC will be described below. In the following, one of the two viewpoints is referred to as a reference viewpoint, and the other is referred to as an extended viewpoint. The reference viewpoint video is encoded by HEVC in the same manner as in the prior art, and the encoded reference viewpoint video is decoded by HEVC in the same manner as in the prior art. On the other hand, for the extended viewpoint video, the local decoded image of the base viewpoint is encoded as the inter prediction reference image, and for the encoded extended viewpoint video, the base viewpoint decoded image is used as the inter prediction reference image. To decrypt. For this reason, when the correlation between the video of the reference viewpoint and the video of the extended viewpoint is high, the inter prediction is performed with reference to the image of the reference viewpoint, so that the highly efficient encoding is performed as compared with the case of performing the intraframe prediction. be able to.
図10は、MV−HEVCにより基準視点の映像および拡張視点の映像を符号化および復号する場合における、インター予測の参照画像として用いる画像を示す図である。画像P1、P2、P3、P4は、拡張視点におけるフレームごとの画像を示し、画像P5、P6、P7、P8は、基準視点におけるフレームごとの画像を示す。例えば、インター予測により基準視点の画像P6を求める場合には、基準視点の画像P5をインター予測の参照画像として用いる。また、インター予測により拡張視点の画像P3を求める場合には、拡張視点の画像P2だけでなく、基準視点の画像P7もインター予測の参照画像として用いる。 FIG. 10 is a diagram illustrating an image used as a reference image for inter prediction when encoding and decoding a base viewpoint video and an extended viewpoint video by MV-HEVC. Images P1, P2, P3, and P4 indicate images for each frame at the extended viewpoint, and images P5, P6, P7, and P8 indicate images for each frame at the reference viewpoint. For example, when the base viewpoint image P6 is obtained by inter prediction, the base viewpoint image P5 is used as an inter prediction reference image. When the extended viewpoint image P3 is obtained by inter prediction, not only the extended viewpoint image P2 but also the base viewpoint image P7 is used as a reference image for inter prediction.
ここで、多視点映像には、視点ごとの動画像の間の相関が低いという特徴がある。しかし、非特許文献1に示されているMV−HEVCでは、上述のように、基準視点のローカル復号画像をインター予測の参照画像として用いて、拡張視点の映像を符号化し、基準視点の復号画像をインター予測の参照画像として用いて、符号化された拡張視点の映像を復号する。このため、非特許文献1に示されているMV−HEVCでは、参照画像として、相関の低い画像を用いることになってしまうので、符号化効率が低下してしまうおそれがある。 Here, the multi-view video has a feature that the correlation between moving images for each viewpoint is low. However, in the MV-HEVC disclosed in Non-Patent Document 1, as described above, the video of the extended viewpoint is encoded using the local decoded image of the reference viewpoint as the reference image for inter prediction, and the decoded image of the reference viewpoint is used. Is used as a reference image for inter prediction, and the encoded video of the extended viewpoint is decoded. For this reason, in MV-HEVC shown in the nonpatent literature 1, since an image with a low correlation will be used as a reference image, there exists a possibility that encoding efficiency may fall.
そこで、基準視点のローカル復号画像や基準視点の復号画像に対して、特許文献1に示されているような幾何変換を行って、その結果をインター予測の参照画像として用いることが考えられる。 Therefore, it is conceivable to perform geometric transformation as shown in Patent Document 1 on the local decoded image at the base viewpoint and the decoded image at the base viewpoint, and use the result as a reference image for inter prediction.
しかし、特許文献1に示されている幾何変換は、ブロックごとに行われる。このため、特許文献1に示されている幾何変換を非特許文献1に示されているMV−HEVCに適用しようとすると、ビデオ符号化レイヤ以下やビデオ復号レイヤ以下の変更が必要になる。また、ブロックごとに幾何変換に必要なメモリが変動する可能性があるので、メモリアクセス粒度を考慮した帯域の必要量が増大するおそれもある。以上によれば、特許文献1に示されている幾何変換を非特許文献1に示されているMV−HEVCに適用しようとすると、実装コストが増大してしまう。 However, the geometric transformation shown in Patent Document 1 is performed for each block. For this reason, if it is going to apply the geometric transformation shown in patent documents 1 to MV-HEVC shown in nonpatent literature 1, changes below a video coding layer and a video decoding layer are needed. In addition, since the memory required for the geometric transformation may vary from block to block, there is a possibility that the required amount of bandwidth considering the memory access granularity increases. According to the above, when the geometric transformation shown in Patent Document 1 is applied to MV-HEVC shown in Non-Patent Document 1, the mounting cost increases.
そこで、本発明は、上述の課題を鑑みてなされたものであり、実装コストを抑制しつつ、パースの異なる複数の視点の映像の符号化効率を向上させることを目的とする。 Therefore, the present invention has been made in view of the above-described problems, and an object of the present invention is to improve the encoding efficiency of videos from a plurality of viewpoints with different perspectives while suppressing mounting costs.
本発明は、上記の課題を解決するために、以下の事項を提案している。
(1) 本発明は、パースの異なる複数の視点の動画像を符号化して符号化データを生成する動画像符号化装置(例えば、図1の動画像符号化装置1に相当)であって、前記複数の視点の動画像のそれぞれを、視点ごとに符号化する単視点符号化手段(例えば、図2の第1の符号化部10および第2の符号化部20に相当)と、前記複数の視点のうちの1つを基準視点とし、当該複数の視点から当該基準視点を除いたもののうちの1つを拡張視点として、当該基準視点の動画像を前記単視点符号化手段により符号化した際に得られた当該基準視点のローカル復号画像(例えば、図2の基準視点のローカル復号画像SIG3に相当)を、当該基準視点と当該拡張視点との関係に応じて幾何変換して、当該基準視点の変換後のローカル復号画像(例えば、図2の基準視点の変換後のローカル復号画像SIG4に相当)を生成する視点間処理手段(例えば、図2の視点間処理部30に相当)と、前記視点間処理手段により生成された前記基準視点の変換後のローカル復号画像を、前記拡張視点の動画像を前記単視点符号化手段により符号化する際の参照画像として利用可能にする参照画像リスト追加手段(例えば、図2の視点間処理部30に相当)と、を備えることを特徴とする動画像符号化装置を提案している。
The present invention proposes the following matters in order to solve the above problems.
(1) The present invention is a moving image encoding device (e.g., corresponding to the moving image encoding device 1 in FIG. 1) that generates encoded data by encoding moving images of a plurality of viewpoints with different perspectives. Single-viewpoint encoding means (for example, corresponding to the
この発明によれば、単視点符号化手段により、複数の視点の動画像のそれぞれを視点ごとに符号化することとした。また、視点間処理手段により、基準視点の動画像を単視点符号化手段により符号化した際に得られた基準視点のローカル復号画像を、基準視点と拡張視点との関係に応じて幾何変換して、基準視点の変換後のローカル復号画像を生成することとした。また、参照画像リスト追加手段により、視点間処理手段により生成された基準視点の変換後のローカル復号画像を、拡張視点の動画像を単視点符号化手段により符号化する際の参照画像として利用可能にすることとした。 According to the present invention, each of the moving images of the plurality of viewpoints is encoded for each viewpoint by the single viewpoint encoding means. Further, the inter-viewpoint processing means geometrically transforms the local decoded image of the reference viewpoint obtained when the moving image of the reference viewpoint is encoded by the single-viewpoint encoding means according to the relationship between the reference viewpoint and the extended viewpoint. Thus, the local decoded image after the conversion of the reference viewpoint is generated. In addition, the reference image list adding means can use the local decoded image after the conversion of the standard viewpoint generated by the inter-viewpoint processing means as a reference image when the extended viewpoint moving image is encoded by the single-viewpoint encoding means. I decided to make it.
このため、参照画像リストに別レイヤのフレームを追加することになり、非特許文献1に示されているMV−HEVCと同様のフレームワークを用いて動画像を符号化することができるので、ビデオ符号化レイヤ以下の変更が不要であるとともに、既存のHEVCコーデック設計を最大限に流用することができる。したがって、実装コストを抑制することができる。 For this reason, a frame of another layer is added to the reference image list, and a moving image can be encoded using a framework similar to MV-HEVC disclosed in Non-Patent Document 1. The change below the encoding layer is not necessary, and the existing HEVC codec design can be utilized to the maximum extent. Therefore, the mounting cost can be suppressed.
また、基準視点のローカル復号画像を、基準視点と拡張視点との関係に応じて幾何変換して基準視点の変換後のローカル復号画像を生成し、この基準視点の変換後のローカル復号画像を用いて、拡張視点の動画像を符号化することができる。ここで、同一の被写体を撮影した多視点映像には、視点ごとの動画像を、幾何変換により相互に類似した動画像に変換可能であるという特徴がある。このため、基準視点と拡張視点との関係に応じた幾何変換により、参照画像として、類似した画像を用いることができるので、符号化性能を向上させることができる。 Further, the local decoded image of the reference viewpoint is geometrically transformed according to the relationship between the reference viewpoint and the extended viewpoint to generate a local decoded image after conversion of the reference viewpoint, and the local decoded image after conversion of the reference viewpoint is used. Thus, an extended viewpoint video can be encoded. Here, a multi-view video obtained by photographing the same subject has a feature that a moving image for each viewpoint can be converted into a similar moving image by geometric conversion. For this reason, since a similar image can be used as a reference image by geometric transformation according to the relationship between the base viewpoint and the expanded viewpoint, the encoding performance can be improved.
(2) 本発明は、(1)の動画像符号化装置について、前記視点間処理手段は、幾何変換の際に用いたパラメータ(例えば、後述の射影変換行列sの各要素に相当)を、前記符号化データを復号する動画像復号装置に送信することを特徴とする動画像符号化装置を提案している。 (2) The present invention relates to the moving picture coding apparatus according to (1), wherein the inter-viewpoint processing means uses parameters used for geometric transformation (for example, corresponding to each element of a projective transformation matrix s described later), A moving picture coding apparatus is proposed that transmits the coded data to a moving picture decoding apparatus that decodes the coded data.
この発明によれば、(1)の動画像符号化装置において、視点間処理手段により、幾何変換の際に用いたパラメータを、動画像復号装置に送信することとした。このため、動画像復号装置は、符号化データを復号する際に、動画像符号化装置で用いられたパラメータを用いて幾何変換を行うことができる。 According to the present invention, in the moving picture encoding apparatus of (1), the parameters used in the geometric transformation are transmitted to the moving picture decoding apparatus by the inter-viewpoint processing means. For this reason, the moving image decoding apparatus can perform geometric transformation using the parameters used in the moving image encoding apparatus when decoding the encoded data.
(3) 本発明は、(1)の動画像符号化装置について、前記視点間処理手段は、前記基準視点の動画像を前記単視点符号化手段により符号化した際に得られた当該基準視点のローカル復号画像を、当該基準視点と前記拡張視点との関係に応じて幾何変換および照度補償して、当該基準視点の変換後のローカル復号画像を生成することを特徴とする動画像符号化装置を提案している。 (3) The present invention relates to the moving picture coding apparatus according to (1), wherein the inter-viewpoint processing means is configured to obtain the reference viewpoint obtained when the moving picture at the reference viewpoint is coded by the single-viewpoint coding means. The local decoded image is subjected to geometric transformation and illuminance compensation in accordance with the relationship between the reference viewpoint and the extended viewpoint, and a local decoded image after conversion of the reference viewpoint is generated. Has proposed.
この発明によれば、(1)の動画像符号化装置において、視点間処理手段により、基準視点の動画像を単視点符号化手段により符号化した際に得られた基準視点のローカル復号画像を、基準視点と拡張視点との関係に応じて幾何変換および照度補償(Illumination Compensation)して、基準視点の変換後のローカル復号画像を生成することとした。このため、基準視点と拡張視点とで照明条件といった撮影環境が異なっていることが原因で、基準視点の動画像と拡張視点の動画像とで照度が異なってしまっている場合でも、照度の差異を補償することができる。したがって、基準視点の動画像と拡張視点の動画像とで照度が異なる場合でも、基準視点と拡張視点との関係に応じた照度補償により、符号化性能を向上させることができる。 According to the present invention, in the moving image encoding apparatus of (1), the local decoded image of the reference viewpoint obtained when the moving image of the reference viewpoint is encoded by the single-viewpoint encoding means by the inter-viewpoint processing means. The local decoded image after the conversion of the reference viewpoint is generated by performing geometric conversion and illumination compensation according to the relationship between the reference viewpoint and the extended viewpoint. For this reason, even if the illuminance differs between the moving image of the reference viewpoint and the moving image of the extended viewpoint due to the difference in the shooting environment such as the illumination condition between the reference viewpoint and the extended viewpoint, the difference in illuminance Can be compensated. Therefore, even when the illuminance differs between the reference viewpoint moving image and the extended viewpoint moving image, the encoding performance can be improved by illuminance compensation in accordance with the relationship between the reference viewpoint and the extended viewpoint.
(4) 本発明は、(3)の動画像符号化装置について、前記視点間処理手段は、幾何変換の際に用いたパラメータ(例えば、後述の射影変換行列sの各要素に相当)と、照度補償の際に用いたパラメータ(例えば、後述の照度補償パラメータa、bに相当)とを、前記符号化データを復号する動画像復号装置に送信することを特徴とする動画像符号化装置を提案している。 (4) The present invention relates to the moving picture encoding apparatus according to (3), wherein the inter-viewpoint processing means includes parameters used for geometric transformation (for example, corresponding to each element of a projective transformation matrix s described later), A moving picture coding apparatus that transmits parameters used for illuminance compensation (e.g., corresponding to illuminance compensation parameters a and b described later) to a moving picture decoding apparatus that decodes the encoded data. is suggesting.
この発明によれば、(3)の動画像符号化装置において、視点間処理手段により、幾何変換の際に用いたパラメータと、照度補償の際に用いたパラメータとを、動画像復号装置に送信することとした。このため、動画像復号装置は、符号化データを復号する際に、動画像符号化装置で用いられた幾何変換のパラメータおよび照度補償のパラメータを用いて幾何変換および照度補償を行うことができる。 According to the present invention, in the moving picture encoding apparatus of (3), the parameters used in the geometric transformation and the parameters used in the illumination compensation are transmitted to the moving picture decoding apparatus by the inter-viewpoint processing means. It was decided to. Therefore, the moving image decoding apparatus can perform geometric conversion and illuminance compensation using the geometric conversion parameters and the illuminance compensation parameters used in the moving image encoding apparatus when decoding the encoded data.
(5) 本発明は、(1)から(4)のいずれかの動画像符号化装置について、前記視点間処理手段は、幾何変換として、射影変換と、三角形パッチ分割によるアフィン変換と、のいずれかを行うことを特徴とする動画像符号化装置を提案している。 (5) In the moving image encoding apparatus according to any one of (1) to (4), the inter-viewpoint processing unit may perform any one of projective transformation and affine transformation by triangular patch division as geometric transformation. We have proposed a video encoding apparatus characterized by performing such a process.
この発明によれば、(1)から(4)のいずれかの動画像符号化装置において、視点間処理手段により、幾何変換として、射影変換と、三角形パッチ分割によるアフィン変換と、のいずれかを行うことができる。 According to the present invention, in the moving picture encoding apparatus according to any one of (1) to (4), either the projective transformation or the affine transformation by triangular patch division is performed as the geometric transformation by the inter-viewpoint processing means. It can be carried out.
(6) 本発明は、(1)から(5)のいずれかの動画像符号化装置について、前記参照画像リスト追加手段は、前記視点間処理手段により生成された前記基準視点の変換後のローカル復号画像を、前記拡張視点の動画像を前記単視点符号化手段により符号化する際の長期参照フレームとして利用可能にすることを特徴とする動画像符号化装置を提案している。 (6) In the moving image encoding device according to any one of (1) to (5), the reference image list adding unit is configured to convert the reference viewpoint generated by the inter-viewpoint processing unit after conversion of the reference viewpoint. There has been proposed a moving picture coding apparatus characterized in that a decoded picture can be used as a long-term reference frame when the moving picture of the extended viewpoint is coded by the single-view coding means.
この発明によれば、(1)から(5)のいずれかの動画像符号化装置において、参照画像リスト追加手段により、視点間処理手段により生成された基準視点の変換後のローカル復号画像を、拡張視点の動画像を単視点符号化手段により符号化する際の長期参照フレームとして利用可能にすることとした。このため、基準視点における動きベクトルの再計算が不要になるので、符号化処理量を削減することができる。 According to the present invention, in the moving picture encoding apparatus according to any one of (1) to (5), the reference decoded image generated by the inter-viewpoint processing unit is converted by the reference image list adding unit, The extended viewpoint video is made available as a long-term reference frame when encoded by single-viewpoint encoding means. This eliminates the need to recalculate the motion vector at the reference viewpoint, thereby reducing the amount of encoding processing.
(7) 本発明は、パースの異なる複数の視点の動画像を符号化して得られた符号化データを、復号する動画像復号装置(例えば、図1の動画像復号装置100に相当)であって、前記符号化データを復号して、前記複数の視点のそれぞれの復号済み画像(例えば、図5の拡張視点の復号済み画像SIG103、および基準視点の復号済み画像SIG101、SIG104に相当)を生成するとともに、前記符号化データの生成時において幾何変換の際に用いられたパラメータ(例えば、後述の射影変換行列sの各要素に相当)を導出する単視点復号手段(例えば、図5の第1の復号部110および第2の復号部120に相当)と、前記複数の視点のうち、前記符号化データの生成時に基準視点であった視点を復号側基準視点とし、前記符号化データの生成時に拡張視点であった視点を復号側拡張視点とすると、前記単視点復号手段により生成された当該復号側基準視点の復号画像(例えば、図5の基準視点の復号済み画像SIG101に相当)を、前記単視点復号手段により導出されたパラメータを用いて幾何変換して、当該復号側基準視点の変換後の復号画像(例えば、図5の基準視点の変換後の復号済み画像SIG102に相当)を生成する視点間処理手段(例えば、図5の視点間処理部130に相当)と、前記視点間処理手段により生成された前記復号側基準視点の変換後の復号画像を、前記復号側拡張視点の符号化データを前記単視点復号手段により復号する際の参照画像として利用可能にする参照画像リスト追加手段(例えば、図5の視点間処理部130に相当)と、を備えることを特徴とする動画像復号装置を提案している。
(7) The present invention is a video decoding device (for example, equivalent to the
この発明によれば、単視点復号手段により、符号化データを復号して、複数の視点のそれぞれの復号済み画像を生成するとともに、符号化データの生成時において幾何変換の際に用いられたパラメータを導出することとした。また、視点間処理手段により、単視点復号手段により生成された復号側基準視点の復号画像を、単視点復号手段により導出されたパラメータを用いて幾何変換して、復号側基準視点の変換後の復号画像を生成することとした。また、参照画像リスト追加手段により、視点間処理手段により生成された復号側基準視点の変換後の復号画像を、復号側拡張視点の符号化データを単視点復号手段により復号する際の参照画像として利用可能にすることとした。 According to the present invention, the encoded data is decoded by the single-viewpoint decoding unit to generate the decoded images of the plurality of viewpoints, and the parameters used for the geometric transformation at the time of generating the encoded data It was decided to derive. Further, the inter-viewpoint processing means geometrically transforms the decoded image of the decoding-side reference viewpoint generated by the single-viewpoint decoding means using the parameters derived by the single-viewpoint decoding means, and after the decoding-side reference viewpoint is converted. The decoded image is generated. Further, the reference image list adding means serves as a reference image for decoding the decoded side reference viewpoint generated by the inter-viewpoint processing means and decoding the decoded side extended viewpoint encoded data by the single viewpoint decoding means. We decided to make it available.
このため、参照画像リストに別レイヤのフレームを追加することになり、非特許文献1に示されているMV−HEVCと同様のフレームワークを用いて符号化データを復号することができるので、ビデオ符号化レイヤ以下の変更が不要であるとともに、既存のHEVCコーデック設計を最大限に流用することができる。したがって、実装コストを抑制することができる。 For this reason, a frame of another layer is added to the reference image list, and encoded data can be decoded using a framework similar to MV-HEVC disclosed in Non-Patent Document 1, so that video The change below the encoding layer is not necessary, and the existing HEVC codec design can be utilized to the maximum extent. Therefore, the mounting cost can be suppressed.
また、復号側基準視点の復号済み画像を、復号側基準視点と復号側拡張視点との関係に応じて幾何変換して復号側基準視点の変換後の復号済み画像を生成し、この復号側基準視点の変換後の復号済み画像を用いて、復号側拡張視点の符号化データを復号することができる。ここで、同一の被写体を撮影した多視点映像には、視点ごとの動画像を、幾何変換により相互に類似した動画像に変換可能であるという特徴がある。このため、復号側基準視点と復号側拡張視点との関係に応じた幾何変換により、参照画像として、類似した画像を用いることができるので、符号化性能を向上させることができる。 Further, the decoded image of the decoding side reference viewpoint is geometrically transformed according to the relationship between the decoding side reference viewpoint and the decoding side extended viewpoint to generate a decoded image after conversion of the decoding side reference viewpoint. Using the decoded image after the viewpoint conversion, the encoded data of the decoding-side extended viewpoint can be decoded. Here, a multi-view video obtained by photographing the same subject has a feature that a moving image for each viewpoint can be converted into a similar moving image by geometric conversion. For this reason, since a similar image can be used as a reference image by geometric transformation according to the relationship between the decoding-side reference viewpoint and the decoding-side extended viewpoint, the encoding performance can be improved.
(8) 本発明は、(7)の動画像復号化装置について、前記単視点復号手段は、前記符号化データを復号して、前記符号化データの生成時において照度補償の際に用いられたパラメータ(例えば、後述の照度補償パラメータa、bに相当)も導出し、前記視点間処理手段は、前記復号側基準視点の動画像を前記単視点復号手段により復号した際に得られた当該復号側基準視点の復号画像を、前記単視点復号手段により導出されたパラメータを用いて幾何変換および照度補償して、当該復号側基準視点の変換後の復号画像を生成することを特徴とする動画像復号装置を提案している。 (8) The present invention relates to the moving picture decoding apparatus according to (7), wherein the single-viewpoint decoding unit decodes the encoded data and is used for illuminance compensation when the encoded data is generated. Parameters (e.g., corresponding to illuminance compensation parameters a and b described later) are also derived, and the inter-viewpoint processing unit obtains the decoding obtained when the single-viewpoint decoding unit decodes the moving image of the decoding-side reference viewpoint. A moving image characterized in that a decoded image of a side reference viewpoint is subjected to geometric transformation and illuminance compensation using a parameter derived by the single-viewpoint decoding means to generate a decoded image after conversion of the decoding side reference viewpoint A decoding device is proposed.
この発明によれば、(7)の動画像復号装置において、単視点復号手段により、符号化データを復号して、符号化データの生成時において照度補償の際に用いられたパラメータも導出することとした。また、視点間処理手段により、復号側基準視点の動画像を単視点復号手段により復号した際に得られた復号側基準視点の復号画像を、単視点復号手段により導出されたパラメータを用いて幾何変換および照度補償して、復号側基準視点の変換後の復号画像を生成することとした。このため、符号化データを復号する際に、動画像符号化装置で用いられた幾何変換のパラメータおよび照度補償のパラメータを用いて幾何変換を行うことができる。 According to the present invention, in the moving picture decoding apparatus according to (7), the encoded data is decoded by the single-viewpoint decoding means, and the parameters used in the illumination compensation at the time of generating the encoded data are also derived. It was. Further, the inter-viewpoint processing means decodes the decoding image of the decoding-side reference viewpoint obtained when the moving image of the decoding-side reference viewpoint is decoded by the single-viewpoint decoding means using the parameters derived by the single-viewpoint decoding means. The decoded image after conversion of the decoding side reference viewpoint is generated by performing conversion and illumination compensation. Therefore, when the encoded data is decoded, the geometric conversion can be performed using the geometric conversion parameters and the illumination compensation parameters used in the moving image encoding apparatus.
(9) 本発明は、(7)または(8)の動画像復号装置について、前記視点間処理手段は、幾何変換として、射影変換と、三角形パッチ分割によるアフィン変換と、のいずれかを行うことを特徴とする動画像復号装置を提案している。 (9) In the moving image decoding apparatus according to (7) or (8), the inter-viewpoint processing unit performs either a projective transformation or an affine transformation by triangular patch division as a geometric transformation. Has been proposed.
この発明によれば、(7)または(8)の動画像復号装置において、視点間処理手段により、幾何変換として、射影変換と、三角形パッチ分割によるアフィン変換と、のいずれかを行うことができる。 According to the present invention, in the video decoding device according to (7) or (8), either the projective transformation or the affine transformation based on the triangular patch division can be performed as the geometric transformation by the inter-viewpoint processing means. .
(10) 本発明は、(7)から(9)のいずれかの動画像復号装置について、前記参照画像リスト追加手段は、前記視点間処理手段により生成された前記復号側基準視点の変換後の復号画像を、前記復号側拡張視点の動画像を前記単視点復号手段により復号する際の長期参照フレームとして利用可能にすることを特徴とする動画像復号装置を提案している。 (10) In the moving image decoding device according to any one of (7) to (9), the present invention provides the reference image list adding means after conversion of the decoding-side reference viewpoint generated by the inter-viewpoint processing means. A moving picture decoding apparatus is proposed in which a decoded picture can be used as a long-term reference frame when the moving picture at the decoding side extended viewpoint is decoded by the single-view decoding means.
この発明によれば、(7)から(9)のいずれかの動画像復号装置において、参照画像リスト追加手段により、視点間処理手段により生成された復号側基準視点の変換後の復号画像を、復号側拡張視点の動画像を単視点復号手段により復号する際の長期参照フレームとして利用可能にすることとした。このため、基準視点における動きベクトルの再計算が不要になるので、復号処理量を削減することができる。 According to this invention, in the moving image decoding device according to any one of (7) to (9), the decoded image after conversion of the decoding-side reference viewpoint generated by the inter-viewpoint processing means by the reference image list adding means, The decoding side extended viewpoint video is made available as a long-term reference frame for decoding by the single viewpoint decoding means. This eliminates the need to recalculate the motion vector at the reference viewpoint, thereby reducing the amount of decoding processing.
(11) 本発明は、パースの異なる複数の視点の動画像を符号化して符号化データを生成する動画像符号化装置(例えば、図1の動画像符号化装置1に相当)と、当該動画像符号化装置により生成された符号化データを復号する動画像復号装置(例えば、図1の動画像復号装置100に相当)と、を備える動画像処理システム(例えば、図1の動画像処理システムAAに相当)であって、前記動画像符号化装置は、前記複数の視点の動画像のそれぞれを、視点ごとに符号化する単視点符号化手段(例えば、図2の第1の符号化部10および第2の符号化部20に相当)と、前記複数の視点のうちの1つを基準視点とし、当該複数の視点から当該基準視点を除いたもののうちの1つを拡張視点として、当該基準視点の動画像を前記単視点符号化手段により符号化した際に得られた当該基準視点のローカル復号画像(例えば、図2の基準視点のローカル復号画像SIG3に相当)を、当該基準視点と当該拡張視点との関係に応じて幾何変換して、当該基準視点の変換後のローカル復号画像(例えば、図2の基準視点の変換後のローカル復号画像SIG4に相当)を生成する符号化側視点間処理手段(例えば、図2の視点間処理部30に相当)と、前記符号化側視点間処理手段により生成された前記基準視点の変換後のローカル復号画像を、前記拡張視点の動画像を前記単視点符号化手段により符号化する際の参照画像として利用可能にする符号化側参照画像リスト追加手段(例えば、図2の視点間処理部30に相当)と、を備え、前記動画像復号装置は、前記符号化データを復号して、前記複数の視点のそれぞれの復号済み画像(例えば、図5の拡張視点の復号済み画像SIG103、および基準視点の復号済み画像SIG101、SIG104に相当)を生成するとともに、前記動画像符号化装置において幾何変換の際に用いられたパラメータ(例えば、後述の射影変換行列sの各要素に相当)を導出する単視点復号手段(例えば、図5の第1の復号部110および第2の復号部120に相当)と、前記単視点復号手段により生成された前記基準視点の復号画像(例えば、図5の基準視点の復号済み画像SIG101に相当)を、前記単視点復号手段により導出されたパラメータを用いて幾何変換して、当該基準視点の変換後の復号画像(例えば、図5の基準視点の変換後の復号済み画像SIG102に相当)を生成する復号側視点間処理手段(例えば、図5の視点間処理部130に相当)と、前記復号側視点間処理手段により生成された前記基準視点の変換後の復号画像を、前記拡張視点の動画像を前記単視点復号手段により復号する際の参照画像として利用可能にする復号側参照画像リスト追加手段(例えば、図5の視点間処理部130に相当)と、を備えることを特徴とする動画像処理システムを提案している。
(11) The present invention relates to a moving image encoding device (e.g., corresponding to the moving image encoding device 1 in FIG. 1) that encodes moving images of a plurality of viewpoints with different perspectives to generate encoded data, and the moving image. A moving image processing system (for example, the moving image processing system in FIG. 1) including a moving image decoding device (for example, corresponding to the moving
この発明によれば、上述した効果と同様の効果を奏することができる。 According to the present invention, the same effects as described above can be obtained.
(12) 本発明は、単視点符号化手段(例えば、図2の第1の符号化部10および第2の符号化部20に相当)、視点間処理手段(例えば、図2の視点間処理部30に相当)、および参照画像リスト追加手段(例えば、図2の視点間処理部30に相当)を備え、パースの異なる複数の視点の動画像を符号化して符号化データを生成する動画像符号化装置(例えば、図1の動画像符号化装置1に相当)における動画像復号方法であって、前記単視点符号化手段が、前記複数の視点のうちの1つを基準視点とし、当該複数の視点から当該基準視点を除いたもののうちの1つを拡張視点として、当該基準視点の動画像を符号化する第1のステップと、前記視点間処理手段が、前記基準視点の動画像を前記第1のステップにより符号化した際に得られた当該基準視点のローカル復号画像(例えば、図2の基準視点のローカル復号画像SIG3に相当)を、当該基準視点と前記拡張視点との関係に応じて幾何変換して、当該基準視点の変換後のローカル復号画像(例えば、図2の基準視点の変換後のローカル復号画像SIG4に相当)を生成する第2のステップと、前記参照画像リスト追加手段が、前記第2のステップにより生成された前記基準視点の変換後のローカル復号画像を、参照画像として利用可能にする第3のステップと、前記単視点符号化手段が、前記第3のステップにより利用可能になった参照画像を用いて、前記拡張視点の動画像を符号化する第4のステップと、を備えることを特徴とする動画像符号化方法を提案している。
(12) The present invention relates to single-viewpoint encoding means (for example, equivalent to the
この発明によれば、上述した効果と同様の効果を奏することができる。 According to the present invention, the same effects as described above can be obtained.
(13) 本発明は、単視点復号手段(例えば、図5の第1の復号部110および第2の復号部120に相当)、視点間処理手段(例えば、図5の視点間処理部130に相当)、および参照画像リスト追加手段(例えば、図5の視点間処理部130に相当)を備え、パースの異なる複数の視点の動画像を符号化して得られた符号化データを、復号する動画像復号装置(例えば、図1の動画像復号装置100に相当)における動画像復号方法であって、前記単視点復号手段が、前記複数の視点のうち、前記符号化データの生成時に基準視点であった視点を復号側基準視点とし、前記符号化データの生成時に拡張視点であった視点を復号側拡張視点とすると、前記符号化データを復号して、当該復号側基準視点の復号済み画像(例えば、図5の基準視点の復号済み画像SIG101、SIG104に相当)を生成するとともに、前記符号化データの生成時において幾何変換の際に用いられたパラメータ(例えば、後述の射影変換行列sの各要素に相当)を導出する第1のステップと、前記視点間処理手段が、前記第1のステップにより生成された前記復号側基準視点の復号画像(例えば、図5の基準視点の復号済み画像SIG101に相当)を、前記第1のステップにより導出されたパラメータを用いて幾何変換して、当該復号側基準視点の変換後の復号画像(例えば、図5の基準視点の変換後の復号済み画像SIG102に相当)を生成する第2のステップと、前記参照画像リスト追加手段が、前記第2のステップにより生成された前記復号側基準視点の変換後の復号画像を、参照画像として利用可能にする第3のステップと、前記単視点復号手段が、前記第3のステップにより利用可能になった参照画像を用いて、前記復号側拡張視点の符号化データを復号する第4のステップと、を備えることを特徴とする動画像復号方法を提案している。
(13) The present invention provides a single-viewpoint decoding unit (for example, equivalent to the
この発明によれば、上述した効果と同様の効果を奏することができる。 According to the present invention, the same effects as described above can be obtained.
(14) 本発明は、単視点符号化手段(例えば、図2の第1の符号化部10および第2の符号化部20に相当)、視点間処理手段(例えば、図2の視点間処理部30に相当)、および参照画像リスト追加手段(例えば、図2の視点間処理部30に相当)を備え、パースの異なる複数の視点の動画像を符号化して符号化データを生成する動画像符号化装置(例えば、図1の動画像符号化装置1に相当)における動画像復号方法を、コンピュータに実行させるためのプログラムであって、前記単視点符号化手段が、前記複数の視点のうちの1つを基準視点とし、当該複数の視点から当該基準視点を除いたもののうちの1つを拡張視点として、当該基準視点の動画像を符号化する第1のステップと、前記視点間処理手段が、前記基準視点の動画像を前記第1のステップにより符号化した際に得られた当該基準視点のローカル復号画像(例えば、図2の基準視点のローカル復号画像SIG3に相当)を、当該基準視点と前記拡張視点との関係に応じて幾何変換して、当該基準視点の変換後のローカル復号画像(例えば、図2の基準視点の変換後のローカル復号画像SIG4に相当)を生成する第2のステップと、前記参照画像リスト追加手段が、前記第2のステップにより生成された前記基準視点の変換後のローカル復号画像を、参照画像として利用可能にする第3のステップと、前記単視点符号化手段が、前記第3のステップにより利用可能になった参照画像を用いて、前記拡張視点の動画像を符号化する第4のステップと、をコンピュータに実行させるためのプログラムを提案している。
(14) The present invention relates to single-viewpoint encoding means (for example, equivalent to the
この発明によれば、上述した効果と同様の効果を奏することができる。 According to the present invention, the same effects as described above can be obtained.
(15) 本発明は、単視点復号手段(例えば、図5の第1の復号部110および第2の復号部120に相当)、視点間処理手段(例えば、図5の視点間処理部130に相当)、および参照画像リスト追加手段(例えば、図5の視点間処理部130に相当)を備え、パースの異なる複数の視点の動画像を符号化して得られた符号化データを、復号する動画像復号装置(例えば、図1の動画像復号装置100に相当)における動画像復号方法を、コンピュータに実行させるためのプログラムであって、前記単視点復号手段が、前記複数の視点のうち、前記符号化データの生成時に基準視点であった視点を復号側基準視点とし、前記符号化データの生成時に拡張視点であった視点を復号側拡張視点とすると、前記符号化データを復号して、当該復号側基準視点の復号済み画像(例えば、図5の基準視点の復号済み画像SIG101、SIG104に相当)を生成するとともに、前記符号化データの生成時において幾何変換の際に用いられたパラメータ(例えば、後述の射影変換行列sの各要素に相当)を導出する第1のステップと、前記視点間処理手段が、前記第1のステップにより生成された前記復号側基準視点の復号画像(例えば、図5の基準視点の復号済み画像SIG101に相当)を、前記第1のステップにより導出されたパラメータを用いて幾何変換して、当該復号側基準視点の変換後の復号画像(例えば、図5の基準視点の変換後の復号済み画像SIG102に相当)を生成する第2のステップと、前記参照画像リスト追加手段が、前記第2のステップにより生成された前記復号側基準視点の変換後の復号画像を、参照画像として利用可能にする第3のステップと、前記単視点復号手段が、前記第3のステップにより利用可能になった参照画像を用いて、前記復号側拡張視点の符号化データを復号する第4のステップと、をコンピュータに実行させるためのプログラムを提案している。
(15) The present invention provides a single-viewpoint decoding unit (for example, equivalent to the
この発明によれば、上述した効果と同様の効果を奏することができる。 According to the present invention, the same effects as described above can be obtained.
本発明によれば、実装コストを抑制しつつ、パースの異なる複数の視点の映像の符号化効率を向上させることができる。 According to the present invention, it is possible to improve the encoding efficiency of videos from a plurality of viewpoints with different perspectives while suppressing the mounting cost.
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の実施形態における構成要素は適宜、既存の構成要素などとの置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、以下の実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. Note that the constituent elements in the following embodiments can be appropriately replaced with existing constituent elements, and various variations including combinations with other existing constituent elements are possible. Accordingly, the description of the following embodiments does not limit the contents of the invention described in the claims.
[動画像処理システムAAの構成および動作]
図1は、本発明の一実施形態に係る動画像処理システムAAのブロック図である。動画像処理システムAAは、パースの異なる複数の視点の動画像を符号化して符号化データ(図2の拡張視点のビットストリームSIG6および基準視点のビットストリームSIG7を参照)を生成する動画像符号化装置1と、動画像符号化装置1により生成された符号化データを復号する動画像復号装置100と、を備える。これら動画像符号化装置1と動画像復号装置100とは、上述の符号化データを、例えば伝送路を介して送受信する。
[Configuration and Operation of Moving Image Processing System AA]
FIG. 1 is a block diagram of a moving image processing system AA according to an embodiment of the present invention. The moving image processing system AA encodes moving images of a plurality of viewpoints with different perspectives to generate encoded data (see the extended viewpoint bit stream SIG6 and the reference viewpoint bit stream SIG7 in FIG. 2). The apparatus 1 and the moving
なお、本実施形態では、上述のパースの異なる複数の視点として、基準視点および拡張視点の2つの視点が存在しており、基準視点をベースレイヤとし、拡張視点をエンハンスメントレイヤとするものとする。 In the present embodiment, there are two viewpoints, that is, a reference viewpoint and an extended viewpoint, as a plurality of viewpoints with different perspectives, and the reference viewpoint is a base layer and the extended viewpoint is an enhancement layer.
[動画像符号化装置1の構成および動作]
図2は、動画像符号化装置1のブロック図である。動画像符号化装置1は、第1の符号化部10、第2の符号化部20、および視点間処理部30を備える。第1の符号化部10は、拡張視点の原画像SIG1を符号化し、拡張視点のビットストリームSIG6として出力する。第2の符号化部20は、基準視点の原画像SIG2を符号化し、基準視点のビットストリームSIG7として出力する。視点間処理部30は、基準視点と拡張視点との関係に応じて基準視点のローカル復号画像SIG3を射影変換および照度補償して基準視点の変換後のローカル復号画像SIG4を生成し、この基準視点の変換後のローカル復号画像SIG4を、第1の符号化部10がインター予測を行う際に参照画像として用いることができるようにする。第1の符号化部10、第2の符号化部20、および視点間処理部30のそれぞれの動作について、以下に詳述する。
[Configuration and Operation of Video Encoding Device 1]
FIG. 2 is a block diagram of the moving picture encoding apparatus 1. The moving image encoding apparatus 1 includes a
図3は、第1の符号化部10のブロック図である。第1の符号化部10は、インター予測部11、イントラ予測部12、変換・量子化部13、エントロピー符号化部14、逆量子化・逆変換部15、インループフィルタ部16、およびバッファ部17を備える。
FIG. 3 is a block diagram of the
インター予測部11は、拡張視点の原画像SIG1と、バッファ部17から供給される後述のフィルタ後局所復号画像SIG18と、を入力とする。このインター予測部11は、拡張視点の原画像SIG1およびフィルタ後局所復号画像SIG18を用いてインター予測を行ってインター予測画像SIG11を生成し、出力する。
The
イントラ予測部12は、拡張視点の原画像SIG1と、後述のフィルタ前局所復号画像SIG16と、を入力とする。このイントラ予測部12は、拡張視点の原画像SIG1およびフィルタ前局所復号画像SIG16を用いてイントラ予測を行ってイントラ予測画像SIG12を生成し、出力する。
The
変換・量子化部13は、拡張視点の原画像SIG1と、インター予測画像SIG11またはイントラ予測画像SIG12と、の誤差(残差)信号SIG13を入力とする。この変換・量子化部13は、入力された残差信号SIG13を変換および量子化して量子化係数SIG14を生成し、出力する。
The transform /
エントロピー符号化部14は、量子化係数SIG14と、後述の変換パラメータSIG5と、図示しないサイド情報(画素値の再構成に必要な予測モードや動きベクトルなどの関連情報)と、を入力とする。このエントロピー符号化部14は、入力された信号をエントロピー符号化し、拡張視点のビットストリームSIG6として出力する。
The
逆量子化・逆変換部15は、量子化係数SIG14を入力とする。この逆量子化・逆変換部15は、量子化係数SIG14を逆量子化および逆変換して、逆変換された残差信号SIG15を生成し、出力する。
The inverse quantization /
インループフィルタ部16は、フィルタ前局所復号画像SIG16を入力とする。フィルタ前局所復号画像SIG16とは、インター予測画像SIG11またはイントラ予測画像SIG12と、逆変換された残差信号SIG15と、を合算した信号のことである。インループフィルタ部16は、フィルタ前局所復号画像SIG16に対してデブロックフィルタといったインループフィルタを適用して、フィルタ後局所復号画像SIG17を生成し、出力する。
The in-
バッファ部17は、フィルタ後局所復号画像SIG17と、基準視点の変換後のローカル復号画像SIG4と、を蓄積し、適宜、フィルタ後局所復号画像SIG18としてインター予測部11に供給する。
The
図4は、第2の符号化部20のブロック図である。第2の符号化部20は、インター予測部21、イントラ予測部22、変換・量子化部23、エントロピー符号化部24、逆量子化・逆変換部25、インループフィルタ部26、およびバッファ部27を備える。
FIG. 4 is a block diagram of the
インター予測部21、イントラ予測部22、変換・量子化部23、エントロピー符号化部24、逆量子化・逆変換部25、およびインループフィルタ部26は、それぞれ、図3のインター予測部11、イントラ予測部12、変換・量子化部13、エントロピー符号化部14、逆量子化・逆変換部15、およびインループフィルタ部16と同様に動作する。一方、バッファ部27は、図3のバッファ部17とは異なる動作を行う。
The
バッファ部27は、インループフィルタ部26から出力されたフィルタ後局所復号画像SIG27を蓄積し、適宜、フィルタ後局所復号画像SIG28としてインター予測部21に供給するとともに、基準視点のローカル復号画像SIG3として出力する。
The
図2に戻って、視点間処理部30は、拡張視点の原画像SIG1と、基準視点の原画像SIG2と、基準視点のローカル復号画像SIG3と、を入力とする。この視点間処理部30は、射影変換行列導出処理、照度補償パラメータ導出処理、および変換処理を行う。
Returning to FIG. 2, the
まず、射影変換行列導出処理について説明する。射影変換行列導出処理では、視点間処理部30は、まず、SIFT(Scale-Invariant Feature Transform)アルゴリズムといった特徴点検出アルゴリズムにより、拡張視点の原画像SIG1と、基準視点の原画像SIG2と、から特徴点を抽出し、拡張視点の原画像SIG1におけるそれぞれの特徴点と、基準視点の原画像SIG2におけるそれぞれの特徴点と、の一致度を計算する。次に、一致度の最も高いものから順番に4組の特徴点を、拡張視点の原画像SIG1と、基準視点の原画像SIG2と、の間で対応する特徴点として特定する。次に、射影変換行列の要素を変数(未知数は8)とする8次元連立方程式を立て、射影変換行列sを導出する(例えば、<Jan Erik Solem著、相川愛三訳、「実践 コンピュータビジョン」株式会社オライリー・ジャパン、2013年03月>を参照)。
First, the projective transformation matrix derivation process will be described. In the projective transformation matrix derivation process, the
次に、照度補償パラメータ導出処理について説明する。照度補償パラメータ導出処理では、視点間処理部30は、まず、以下の数式(1)で表される線形予測の数式を仮定する。次に、数式(1)のベクトルyに、拡張視点の原画像SIG1の輝度値を代入するとともに、数式(1)のベクトルxに、基準視点の原画像SIG2の輝度値を代入し、数式(1)を満たすスカラーa、bを最小二乗法により導出して、照度補償パラメータa、bとする。
Next, the illumination compensation parameter derivation process will be described. In the illumination compensation parameter derivation process, the
なお、ベクトルyに代入する拡張視点の原画像SIG1の輝度値は、拡張視点の原画像SIG1を構成する全ての画素の輝度値であってもよいし、拡張視点の原画像SIG1を構成する全ての画素のうち予め定められた領域(例えば中央部など)の画素の輝度値であってもよいし、拡張視点の原画像SIG1を構成する全ての画素のうち予め定められた画素(例えば1つおきの画素など)を間引いた後の画素の輝度値であってもよい。また、ベクトルxに代入する基準視点の原画像SIG2の輝度値は、基準視点の原画像SIG2を構成する全ての画素の輝度値であってもよいし、基準視点の原画像SIG2を構成する全ての画素のうち予め定められた領域(例えば中央部など)の画素の輝度値であってもよいし、基準視点の原画像SIG2を構成する全ての画素のうち予め定められた画素(例えば1つおきの画素など)を間引いたものの輝度値であってもよい。また、数式(1)のベクトルxには、基準視点の原画像SIG2の輝度値の代わりに、基準視点のローカル復号画像SIG3の輝度値を代入してもよい。 Note that the luminance value of the extended viewpoint original image SIG1 to be substituted into the vector y may be the luminance values of all the pixels constituting the extended viewpoint original image SIG1, or all of the elements constituting the extended viewpoint original image SIG1. May be a luminance value of a pixel in a predetermined region (for example, the central portion) of the pixels, or a predetermined pixel (for example, one pixel) of all the pixels constituting the expanded viewpoint original image SIG1. The luminance value of the pixel after thinning out every other pixel may be used. Further, the luminance value of the reference viewpoint original image SIG2 to be substituted into the vector x may be the luminance values of all the pixels constituting the reference viewpoint original image SIG2, or all of the reference viewpoint original image SIG2 constituting the reference viewpoint. May be a luminance value of a pixel in a predetermined region (for example, the central portion) of the pixels, or a predetermined pixel (for example, one pixel) among all the pixels constituting the reference viewpoint original image SIG2. The luminance value may be obtained by thinning out every other pixel. In addition, the luminance value of the local decoded image SIG3 of the reference viewpoint may be substituted for the vector x in Expression (1) instead of the luminance value of the original image SIG2 of the reference viewpoint.
射影変換行列導出処理により得られた射影変換行列sの各要素と、照度補償パラメータ導出処理により得られた照度補償パラメータa、bとは、上述の変換パラメータSIG5として、第1の符号化部10のエントロピー符号化部14に送信される。
Each element of the projective transformation matrix s obtained by the projective transformation matrix derivation process and the illuminance compensation parameters a and b obtained by the illuminance compensation parameter derivation process are converted into the
ここで、射影変換行列sは、3行3列の行列であり、9つの要素のうちの1つは常に「1」である。このため、上述の射影変換行列sの各要素とは、射影変換行列sの9つの要素のうち「1」を除く8つの要素のことであり、これら8つの要素がスカラーとして第1の符号化部10のエントロピー符号化部14に送信されることになる。
Here, the projective transformation matrix s is a 3 × 3 matrix, and one of the nine elements is always “1”. For this reason, each element of the above-described projective transformation matrix s is eight elements excluding “1” among the nine elements of the projective transformation matrix s, and these eight elements are first encoded as scalars. It is transmitted to the
また、射影変換行列sを、基準視点における画像の角に対応する、拡張視点における画像中の4点の座標として表現することもできる。ここで、射影変換行列sの導出は、動画像符号化装置1および動画像復号装置100の双方で行われることになるが、動画像復号装置100は、SIFTアルゴリズムといった特徴点検出アルゴリズムを行うことができない。このため、上述の対応する4点の座標を、上述の8つの要素の代わりに第1の符号化部10のエントロピー符号化部14に送信することとしてもよい。
The projective transformation matrix s can also be expressed as the coordinates of four points in the image at the extended viewpoint corresponding to the corner of the image at the reference viewpoint. Here, the derivation of the projective transformation matrix s is performed by both the moving image coding apparatus 1 and the moving
次に、変換処理について説明する。変換処理では、視点間処理部30は、基準視点のローカル復号画像SIG3に対して、射影変換行列sを適用して射影変換を行った後に、照度補償パラメータa、bを適用して照度補償を行って、基準視点の変換後のローカル復号画像SIG4を生成し、第1の符号化部10のバッファ部17に長期参照フレームとして蓄積させる。
Next, the conversion process will be described. In the conversion process, the
[動画像復号装置100の構成および動作]
図5は、動画像復号装置100のブロック図である。動画像復号装置100は、第1の復号部110、第2の復号部120、および視点間処理部130を備える。第1の復号部110は、拡張視点のビットストリームSIG6を復号し、拡張視点の復号済み画像SIG103として出力する。第2の復号部120は、基準視点のビットストリームSIG7を復号し、基準視点の復号済み画像SIG104として出力する。視点間処理部130は、動画像符号化装置1で導出された射影変換行列sおよび照度補償パラメータa、bを用いて、基準視点の復号済み画像SIG101を射影変換および照度補償して、基準視点の変換後の復号済み画像SIG102を生成し、この基準視点の変換後の復号済み画像SIG102を、第1の復号部110がインター予測を行う際に参照画像として用いることができるようにする。第1の復号部110、第2の復号部120、および視点間処理部130のそれぞれの動作について、以下に詳述する。
[Configuration and Operation of Video Decoding Device 100]
FIG. 5 is a block diagram of the
図6は、第1の復号部110のブロック図である。第1の復号部110は、エントロピー復号部111、逆変換・逆量子化部112、インター予測部113、イントラ予測部114、インループフィルタ部115、およびバッファ部116を備える。
FIG. 6 is a block diagram of the
エントロピー復号部111は、拡張視点のビットストリームSIG6を入力とする。このエントロピー復号部111は、拡張視点のビットストリームSIG6をエントロピー復号し、量子化係数レベルSIG111と、動画像符号化装置1で生成された変換パラメータSIG5と、サイド情報(画素値の再構成に必要な予測モードや動きベクトルなどの関連情報)と、を導出して出力する。
The
逆変換・逆量子化部112は、量子化係数レベルSIG111を入力とする。この逆変換・逆量子化部112は、量子化係数レベルSIG111を逆変換および逆量子化して、逆変換された残差信号SIG112を生成し、出力する。
The inverse transform /
インター予測部113は、バッファ部116から供給される後述のフィルタ後局所復号画像SIG117を入力とする。このインター予測部113は、フィルタ後局所復号画像SIG117を用いてインター予測を行ってインター予測画像SIG113を生成し、出力する。
The
イントラ予測部114は、フィルタ前局所復号画像SIG115を入力とする。フィルタ前局所復号画像SIG115とは、逆変換された残差信号SIG112と、インター予測画像SIG113またはイントラ予測画像SIG114と、を合算した信号のことである。イントラ予測部114は、フィルタ前局所復号画像SIG115を用いてイントラ予測を行ってイントラ予測画像SIG114を生成し、出力する。
The
インループフィルタ部115は、フィルタ前局所復号画像SIG115を入力とする。このインループフィルタ部115は、フィルタ前局所復号画像SIG115に対してデブロックフィルタといったインループフィルタを適用して、フィルタ後局所復号画像SIG116を生成し、出力する。
The in-
バッファ部116は、基準視点の変換後の復号済み画像SIG102と、フィルタ後局所復号画像SIG116と、を蓄積し、適宜、フィルタ後局所復号画像SIG117としてインター予測部113に供給するとともに、拡張視点の復号済み画像SIG103として出力する。
The
図7は、第2の復号部120のブロック図である。第2の復号部120は、エントロピー復号部121、逆変換・逆量子化部122、インター予測部123、イントラ予測部124、インループフィルタ部125、およびバッファ部126を備える。
FIG. 7 is a block diagram of the
エントロピー復号部121、逆変換・逆量子化部122、インター予測部123、イントラ予測部124、およびインループフィルタ部125は、それぞれ、図6のエントロピー復号部111、逆変換・逆量子化部112、インター予測部113、イントラ予測部114、およびインループフィルタ部115と同様に動作する。一方、バッファ部126は、図6のバッファ部116とは異なる動作を行う。
The
バッファ部126は、インループフィルタ部125から出力されたフィルタ後局所復号画像SIG126を蓄積し、適宜、フィルタ後局所復号画像SIG127としてインター予測部123に供給するとともに、基準視点の復号済み画像SIG101、SIG104として出力する。
The
図5に戻って、視点間処理部130は、動画像符号化装置1で生成された変換パラメータSIG5と、基準視点の復号済み画像SIG101と、を入力とする。この視点間処理部130は、基準視点の復号済み画像SIG101に対して、変換パラメータSIG5に含まれる射影変換行列sを適用して射影変換を行った後に、変換パラメータSIG5に含まれる照度補償パラメータa、bを適用して照度補償を行って、基準視点の変換後の復号済み画像SIG102を生成し、第1の復号部110のバッファ部116に長期参照フレームとして蓄積させる。
Returning to FIG. 5, the
以上の動画像符号化装置1によれば、以下の効果を奏することができる。 According to the above moving picture coding apparatus 1, the following effects can be produced.
動画像符号化装置1は、拡張視点の参照画像リストに基準視点のフレームを追加する。このため、非特許文献1に示されているMV−HEVCと同様のフレームワークを用いて動画像を符号化することができるので、ビデオ符号化レイヤ以下の変更が不要であるとともに、既存のHEVCコーデック設計を最大限に流用することができる。したがって、実装コストを抑制することができる。 The moving image encoding apparatus 1 adds a frame of the base viewpoint to the reference image list of the extended viewpoint. For this reason, since a moving image can be encoded using the same framework as MV-HEVC shown in Non-Patent Document 1, it is not necessary to change the video encoding layer and below, and the existing HEVC The codec design can be diverted to the maximum extent. Therefore, the mounting cost can be suppressed.
また、動画像符号化装置1は、基準視点のローカル復号画像SIG3を、基準視点と拡張視点との関係に応じて射影変換および照度補償を行って基準視点の変換後のローカル復号画像SIG4を生成し、この基準視点の変換後のローカル復号画像SIG4を用いて、拡張視点の原画像SIG1を符号化することができる。ここで、同一の被写体を撮影した多視点映像には、視点ごとの動画像を、射影変換により相互に類似した動画像に変換可能であるという特徴がある。このため、基準視点と拡張視点との関係に応じた射影変換により、参照画像として、類似した画像を用いることができるので、符号化性能を向上させることができる。 In addition, the moving image encoding apparatus 1 generates a local decoded image SIG4 after conversion of the reference viewpoint by performing projective conversion and illumination compensation on the local decoded image SIG3 of the reference viewpoint according to the relationship between the reference viewpoint and the extended viewpoint. Then, the original image SIG1 of the extended viewpoint can be encoded using the local decoded image SIG4 after the conversion of the reference viewpoint. Here, a multi-view video obtained by photographing the same subject has a feature that a moving image for each viewpoint can be converted into a similar moving image by projective transformation. For this reason, a similar image can be used as a reference image by projective transformation according to the relationship between the base viewpoint and the extended viewpoint, so that the encoding performance can be improved.
また、動画像符号化装置1は、上述のように、基準視点のローカル復号画像SIG3を、基準視点と拡張視点との関係に応じて射影変換および照度補償を行って基準視点の変換後のローカル復号画像SIG4を生成し、この基準視点の変換後のローカル復号画像SIG4を用いて、拡張視点の原画像SIG1を符号化することができる。このため、基準視点と拡張視点とで照明条件といった撮影環境が異なっていることが原因で、基準視点の原画像SIG2と拡張視点の原画像SIG1とで照度が異なってしまっている場合でも、照度の差異を補償することができる。したがって、基準視点の原画像SIG2と拡張視点の原画像SIG1とで照度が異なる場合でも、基準視点と拡張視点との関係に応じた照度補償により、符号化性能を向上させることができる。 Further, as described above, the moving image encoding device 1 performs the projective conversion and the illuminance compensation on the local decoded image SIG3 of the reference viewpoint according to the relationship between the reference viewpoint and the extended viewpoint, and converts the local viewpoint after the conversion of the reference viewpoint. The decoded image SIG4 is generated, and the original image SIG1 of the extended viewpoint can be encoded using the local decoded image SIG4 after the conversion of the reference viewpoint. For this reason, even if the illuminance differs between the reference viewpoint original image SIG2 and the extended viewpoint original image SIG1, even if the illuminance is different between the reference viewpoint and the extended viewpoint, the shooting environment such as the illumination condition is different. Can compensate for the difference. Therefore, even when the illuminance differs between the reference viewpoint original image SIG2 and the expanded viewpoint original image SIG1, the encoding performance can be improved by illuminance compensation according to the relationship between the reference viewpoint and the expanded viewpoint.
また、動画像符号化装置1は、射影変換行列sの各要素および照度補償パラメータa、bを、動画像復号装置100に伝送する。このため、動画像復号装置100でも、射影変換行列sおよび照度補償パラメータa、bを用いて、動画像符号化装置1と同様の射影変換および照度補償を行うことができる。
In addition, the moving image encoding device 1 transmits each element of the projective transformation matrix s and the illumination compensation parameters a and b to the moving
また、動画像符号化装置1は、視点間処理部30により、基準視点の変換後のローカル復号画像SIG4をバッファ部17に長期参照フレームとして蓄積させる。このため、基準視点における動きベクトルの再計算が不要になるので、符号化処理量を削減することができる。
Also, the moving image encoding apparatus 1 causes the
以上の動画像復号装置100によれば、以下の効果を奏することができる。
According to the above
動画像復号装置100は、拡張視点の参照画像リストに基準視点のフレームを追加する。このため、非特許文献1に示されているMV−HEVCと同様のフレームワークを用いて符号化データを復号することができるので、ビデオ符号化レイヤ以下の変更が不要であるとともに、既存のHEVCコーデック設計を最大限に流用することができる。したがって、実装コストを抑制することができる。
The moving
また、動画像復号装置100は、基準視点の復号済み画像SIG101を、基準視点と拡張視点との関係に応じて射影変換および照度補償を行って基準視点の変換後の復号済み画像SIG102を生成し、この基準視点の変換後の復号済み画像SIG102を用いて、拡張視点のビットストリームSIG6を復号することができる。ここで、同一の被写体を撮影した多視点映像には、視点ごとの動画像を、射影変換により相互に類似した動画像に変換可能であるという特徴がある。このため、基準視点と拡張視点との関係に応じた射影変換により、参照画像として、類似した画像を用いることができるので、符号化性能を向上させることができる。
Further, the moving
また、動画像復号装置100は、基準視点の変換後の復号済み画像SIG102をバッファ部116に長期参照フレームとして蓄積させる。このため、基準視点における動きベクトルの再計算が不要になるので、復号処理量を削減することができる。
In addition, the moving
なお、本発明の動画像符号化装置1や動画像復号装置100の処理を、コンピュータ読み取り可能な非一時的な記録媒体に記録し、この記録媒体に記録されたプログラムを動画像符号化装置1や動画像復号装置100に読み込ませ、実行することによって、本発明を実現できる。
Note that the processing of the moving image encoding device 1 and the moving
ここで、上述の記録媒体には、例えば、EPROMやフラッシュメモリといった不揮発性のメモリ、ハードディスクといった磁気ディスク、CD−ROMなどを適用できる。また、この記録媒体に記録されたプログラムの読み込みおよび実行は、動画像符号化装置1や動画像復号装置100に設けられたプロセッサによって行われる。
Here, for example, a nonvolatile memory such as an EPROM or a flash memory, a magnetic disk such as a hard disk, a CD-ROM, or the like can be applied to the above-described recording medium. In addition, reading and execution of the program recorded on the recording medium is performed by a processor provided in the moving image encoding device 1 or the moving
また、上述のプログラムは、このプログラムを記憶装置などに格納した動画像符号化装置1や動画像復号装置100から、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク(通信網)や電話回線などの通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
Further, the above-described program is transferred from the moving image encoding device 1 or the moving
また、上述のプログラムは、上述の機能の一部を実現するためのものであってもよい。さらに、上述の機能を動画像符号化装置1や動画像復号装置100にすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
Further, the above-described program may be for realizing a part of the above-described function. Furthermore, what can implement | achieve the above-mentioned function in combination with the program already recorded on the moving image encoder 1 or the moving
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計なども含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes a design that does not depart from the gist of the present invention.
例えば、上述の実施形態では、視点間処理部30は、変換処理において、基準視点のローカル復号画像SIG3に対して、射影変換行列sを適用して射影変換を行った後に、照度補償パラメータa、bを適用して照度補償を行うこととした。しかし、これに限らず、基準視点のローカル復号画像SIG3に対して、照度補償パラメータa、bを適用して照度補償を行った後に、射影変換行列sを適用して射影変換を行うこととしてもよい。また、視点間処理部130についても、視点間処理部30と同様に、基準視点の復号済み画像SIG101に対して、照度補償パラメータa、bを適用して照度補償を行った後に、射影変換行列sを適用して射影変換を行うこととしてもよい。
For example, in the above-described embodiment, the
また、上述の実施形態では、幾何変換として射影変換を行うこととしたが、これに限らず、幾何変換として、例えば三角形パッチ分割によるアフィン変換を行うこととしてもよい。 In the above-described embodiment, the projective transformation is performed as the geometric transformation. However, the present invention is not limited to this. For example, affine transformation by triangular patch division may be performed as the geometric transformation.
また、上述の実施形態では、視点間処理部30は、基準視点の変換後のローカル復号画像SIG4をバッファ部17に長期参照フレームとして蓄積させ、視点間処理部130は、基準視点の変換後の復号済み画像SIG102をバッファ部116に長期参照フレームとして蓄積させることとした。また、上述の実施形態では、視点間処理部30は、基準視点の変換後の復号済み画像SIG102をバッファ部116に長期参照フレームとして蓄積させることとした。しかし、長期参照フレームとしてではなく、短期参照フレームとして蓄積させることとしてもよい。
In the above-described embodiment, the
また、上述の実施形態では、基準視点および拡張視点の2つの視点が存在しているものとした。しかし、これに限らず、3つ以上の視点が存在していてもよい。例えば3つの視点が存在している場合には、図8に示すように、視点Bを拡張視点とした際の基準視点を視点Aとし、視点Cを拡張視点とした際の基準視点も視点Aとしてもよいし、図9に示すように、視点Bを拡張視点とした際の基準視点を視点Aとし、視点Cを拡張視点とした際の基準視点を視点Bとしてもよい。 In the above-described embodiment, it is assumed that there are two viewpoints, the reference viewpoint and the extended viewpoint. However, the present invention is not limited to this, and three or more viewpoints may exist. For example, when there are three viewpoints, as shown in FIG. 8, the reference viewpoint when the viewpoint B is the extended viewpoint is the viewpoint A, and the reference viewpoint when the viewpoint C is the extended viewpoint is also the viewpoint A. Alternatively, as shown in FIG. 9, the reference viewpoint when the viewpoint B is an extended viewpoint may be the viewpoint A, and the reference viewpoint when the viewpoint C is the extended viewpoint may be the viewpoint B.
AA・・・動画像処理システム
1・・・動画像符号化装置
10・・・第1の符号化部
20・・・第2の符号化部
30・・・視点間処理部
100・・・動画像復号装置
110・・・第1の復号部
120・・・第2の復号部
130・・・視点間処理部
AA ... Moving image processing system 1 ... Moving
Claims (15)
前記複数の視点の動画像のそれぞれを、視点ごとに符号化する単視点符号化手段と、
前記複数の視点のうちの1つを基準視点とし、当該複数の視点から当該基準視点を除いたもののうちの1つを拡張視点として、当該基準視点の動画像を前記単視点符号化手段により符号化した際に得られた当該基準視点のローカル復号画像を、当該基準視点と当該拡張視点との関係に応じて幾何変換して、当該基準視点の変換後のローカル復号画像を生成する視点間処理手段と、
前記視点間処理手段により生成された前記基準視点の変換後のローカル復号画像を、前記拡張視点の動画像を前記単視点符号化手段により符号化する際の参照画像として利用可能にする参照画像リスト追加手段と、を備えることを特徴とする動画像符号化装置。 A moving image encoding device that generates encoded data by encoding moving images of a plurality of viewpoints with different perspectives,
Single-viewpoint encoding means for encoding each of the moving images of the plurality of viewpoints for each viewpoint;
One of the plurality of viewpoints is set as a reference viewpoint, and one of the plurality of viewpoints excluding the reference viewpoint is set as an extended viewpoint, and a moving image of the reference viewpoint is encoded by the single viewpoint encoding unit. Inter-view processing for generating a local decoded image after conversion of the reference viewpoint by geometrically transforming the local decoded image of the reference viewpoint obtained at the time of conversion into a reference according to the relationship between the reference viewpoint and the extended viewpoint Means,
Reference image list that makes it possible to use the local decoded image after conversion of the base viewpoint generated by the inter-viewpoint processing unit as a reference image when the moving image of the extended viewpoint is encoded by the single-viewpoint encoding unit A moving image encoding apparatus comprising: an adding unit;
前記符号化データを復号して、前記複数の視点のそれぞれの復号済み画像を生成するとともに、前記符号化データの生成時において幾何変換の際に用いられたパラメータを導出する単視点復号手段と、
前記複数の視点のうち、前記符号化データの生成時に基準視点であった視点を復号側基準視点とし、前記符号化データの生成時に拡張視点であった視点を復号側拡張視点とすると、前記単視点復号手段により生成された当該復号側基準視点の復号画像を、前記単視点復号手段により導出されたパラメータを用いて幾何変換して、当該復号側基準視点の変換後の復号画像を生成する視点間処理手段と、
前記視点間処理手段により生成された前記復号側基準視点の変換後の復号画像を、前記復号側拡張視点の符号化データを前記単視点復号手段により復号する際の参照画像として利用可能にする参照画像リスト追加手段と、を備えることを特徴とする動画像復号装置。 A video decoding device that decodes encoded data obtained by encoding video from a plurality of viewpoints with different perspectives,
A single-viewpoint decoding means for decoding the encoded data to generate a decoded image for each of the plurality of viewpoints, and for deriving parameters used in geometric transformation at the time of generation of the encoded data;
Of the plurality of viewpoints, when the viewpoint that was the reference viewpoint at the time of generating the encoded data is a decoding-side reference viewpoint, and the viewpoint that was the extended viewpoint at the time of generating the encoded data is a decoding-side extended viewpoint, the single viewpoint is Viewpoint for generating a decoded image after conversion of the decoding-side reference viewpoint by geometrically transforming the decoded image of the decoding-side reference viewpoint generated by the viewpoint decoding means using the parameters derived by the single-viewpoint decoding means Interprocessing means;
Reference that enables the decoded image after conversion of the decoding-side reference viewpoint generated by the inter-viewpoint processing unit to be used as a reference image when the encoded data of the decoding-side extended viewpoint is decoded by the single-viewpoint decoding unit A moving picture decoding apparatus comprising: an image list adding means;
前記視点間処理手段は、前記復号側基準視点の動画像を前記単視点復号手段により復号した際に得られた当該復号側基準視点の復号画像を、前記単視点復号手段により導出されたパラメータを用いて幾何変換および照度補償して、当該復号側基準視点の変換後の復号画像を生成することを特徴とする請求項7に記載の動画像復号装置。 The single-viewpoint decoding means decodes the encoded data and derives a parameter used for illuminance compensation at the time of generation of the encoded data,
The inter-view processing means uses a parameter derived by the single-view decoding means for the decoded image of the decoding-side reference viewpoint obtained when the moving picture of the decoding-side reference viewpoint is decoded by the single-view decoding means. The moving picture decoding apparatus according to claim 7, wherein the decoded picture after conversion of the decoding-side reference viewpoint is generated by performing geometric conversion and illuminance compensation.
前記動画像符号化装置は、
前記複数の視点の動画像のそれぞれを、視点ごとに符号化する単視点符号化手段と、
前記複数の視点のうちの1つを基準視点とし、当該複数の視点から当該基準視点を除いたもののうちの1つを拡張視点として、当該基準視点の動画像を前記単視点符号化手段により符号化した際に得られた当該基準視点のローカル復号画像を、当該基準視点と当該拡張視点との関係に応じて幾何変換して、当該基準視点の変換後のローカル復号画像を生成する符号化側視点間処理手段と、
前記符号化側視点間処理手段により生成された前記基準視点の変換後のローカル復号画像を、前記拡張視点の動画像を前記単視点符号化手段により符号化する際の参照画像として利用可能にする符号化側参照画像リスト追加手段と、を備え、
前記動画像復号装置は、
前記符号化データを復号して、前記複数の視点のそれぞれの復号済み画像を生成するとともに、前記動画像符号化装置において幾何変換の際に用いられたパラメータを導出する単視点復号手段と、
前記単視点復号手段により生成された前記基準視点の復号画像を、前記単視点復号手段により導出されたパラメータを用いて幾何変換して、当該基準視点の変換後の復号画像を生成する復号側視点間処理手段と、
前記復号側視点間処理手段により生成された前記基準視点の変換後の復号画像を、前記拡張視点の動画像を前記単視点復号手段により復号する際の参照画像として利用可能にする復号側参照画像リスト追加手段と、を備えることを特徴とする動画像処理システム。 A moving image encoding device that encodes moving images from a plurality of viewpoints with different perspectives to generate encoded data, and a moving image decoding device that decodes encoded data generated by the moving image encoding device. A moving image processing system,
The moving image encoding device is:
Single-viewpoint encoding means for encoding each of the moving images of the plurality of viewpoints for each viewpoint;
One of the plurality of viewpoints is set as a reference viewpoint, and one of the plurality of viewpoints excluding the reference viewpoint is set as an extended viewpoint, and a moving image of the reference viewpoint is encoded by the single viewpoint encoding unit. Coding side that generates a local decoded image after conversion of the reference viewpoint by geometrically transforming the local decoded image of the reference viewpoint obtained at the time of conversion into a reference according to the relationship between the reference viewpoint and the extended viewpoint Inter-viewpoint processing means;
The local decoded image after conversion of the reference viewpoint generated by the encoding inter-viewpoint processing unit can be used as a reference image when the extended viewpoint moving image is encoded by the single-viewpoint encoding unit. Encoding side reference image list addition means,
The moving picture decoding device comprises:
A single-viewpoint decoding means for decoding the encoded data to generate a decoded image for each of the plurality of viewpoints, and for deriving parameters used in geometric transformation in the video encoding device;
A decoding-side viewpoint that generates a decoded image after conversion of the reference viewpoint by geometrically converting the decoded image of the reference viewpoint generated by the single-viewpoint decoding unit using the parameters derived by the single-viewpoint decoding unit Interprocessing means;
A decoding-side reference image that can be used as a reference image when the extended-view moving image is decoded by the single-view decoding unit, using the decoded image after the conversion of the base viewpoint generated by the decoding-side viewpoint processing unit. And a list adding means.
前記単視点符号化手段が、前記複数の視点のうちの1つを基準視点とし、当該複数の視点から当該基準視点を除いたもののうちの1つを拡張視点として、当該基準視点の動画像を符号化する第1のステップと、
前記視点間処理手段が、前記基準視点の動画像を前記第1のステップにより符号化した際に得られた当該基準視点のローカル復号画像を、当該基準視点と前記拡張視点との関係に応じて幾何変換して、当該基準視点の変換後のローカル復号画像を生成する第2のステップと、
前記参照画像リスト追加手段が、前記第2のステップにより生成された前記基準視点の変換後のローカル復号画像を、参照画像として利用可能にする第3のステップと、
前記単視点符号化手段が、前記第3のステップにより利用可能になった参照画像を用いて、前記拡張視点の動画像を符号化する第4のステップと、を備えることを特徴とする動画像符号化方法。 A moving picture decoding method in a moving picture coding apparatus, comprising a single-viewpoint coding means, an inter-viewpoint processing means, and a reference picture list adding means, and coding coded moving pictures from a plurality of viewpoints with different perspectives to generate coded data There,
The single-viewpoint encoding means uses one of the plurality of viewpoints as a reference viewpoint, and uses one of the plurality of viewpoints excluding the reference viewpoint as an extended viewpoint. A first step of encoding;
The inter-viewpoint processing means determines the local decoded image of the reference viewpoint obtained when the moving image of the reference viewpoint is encoded in the first step according to the relationship between the reference viewpoint and the extended viewpoint. A second step of performing geometric transformation to generate a local decoded image after transformation of the reference viewpoint;
A third step in which the reference image list adding means makes the local decoded image after the conversion of the standard viewpoint generated in the second step usable as a reference image;
The moving image characterized in that the single-viewpoint encoding unit includes a fourth step of encoding the extended-viewpoint moving image using the reference image made available in the third step. Encoding method.
前記単視点復号手段が、前記複数の視点のうち、前記符号化データの生成時に基準視点であった視点を復号側基準視点とし、前記符号化データの生成時に拡張視点であった視点を復号側拡張視点とすると、前記符号化データを復号して、当該復号側基準視点の復号済み画像を生成するとともに、前記符号化データの生成時において幾何変換の際に用いられたパラメータを導出する第1のステップと、
前記視点間処理手段が、前記第1のステップにより生成された前記復号側基準視点の復号画像を、前記第1のステップにより導出されたパラメータを用いて幾何変換して、当該復号側基準視点の変換後の復号画像を生成する第2のステップと、
前記参照画像リスト追加手段が、前記第2のステップにより生成された前記復号側基準視点の変換後の復号画像を、参照画像として利用可能にする第3のステップと、
前記単視点復号手段が、前記第3のステップにより利用可能になった参照画像を用いて、前記復号側拡張視点の符号化データを復号する第4のステップと、を備えることを特徴とする動画像復号方法。 Moving picture decoding in a moving picture decoding apparatus that decodes encoded data obtained by encoding moving pictures of a plurality of viewpoints with different perspectives, comprising a single-view decoding means, an inter-view processing means, and a reference image list adding means A method,
The single-viewpoint decoding means sets the viewpoint that was the reference viewpoint when the encoded data was generated among the plurality of viewpoints as a decoding-side reference viewpoint, and the viewpoint that was the extended viewpoint when the encoded data was generated as the decoding side As an extended viewpoint, the encoded data is decoded to generate a decoded image of the decoding-side reference viewpoint, and a parameter used for geometric transformation at the time of generation of the encoded data is derived. And the steps
The inter-view processing means geometrically transforms the decoded image of the decoding-side reference viewpoint generated in the first step using the parameters derived in the first step, and A second step of generating a transformed decoded image;
A third step in which the reference image list adding means makes the decoded image after conversion of the decoding-side standard viewpoint generated in the second step available as a reference image;
A moving image characterized in that the single-view decoding means includes a fourth step of decoding the encoded data of the decoding-side extended viewpoint using the reference image made available in the third step. Image decoding method.
前記単視点符号化手段が、前記複数の視点のうちの1つを基準視点とし、当該複数の視点から当該基準視点を除いたもののうちの1つを拡張視点として、当該基準視点の動画像を符号化する第1のステップと、
前記視点間処理手段が、前記基準視点の動画像を前記第1のステップにより符号化した際に得られた当該基準視点のローカル復号画像を、当該基準視点と前記拡張視点との関係に応じて幾何変換して、当該基準視点の変換後のローカル復号画像を生成する第2のステップと、
前記参照画像リスト追加手段が、前記第2のステップにより生成された前記基準視点の変換後のローカル復号画像を、参照画像として利用可能にする第3のステップと、
前記単視点符号化手段が、前記第3のステップにより利用可能になった参照画像を用いて、前記拡張視点の動画像を符号化する第4のステップと、をコンピュータに実行させるためのプログラム。 A moving picture decoding method in a moving picture coding apparatus that includes a single-viewpoint encoding unit, an inter-viewpoint processing unit, and a reference image list addition unit, and generates encoded data by encoding moving images of a plurality of viewpoints with different perspectives. A program for causing a computer to execute,
The single-viewpoint encoding means uses one of the plurality of viewpoints as a reference viewpoint, and uses one of the plurality of viewpoints excluding the reference viewpoint as an extended viewpoint. A first step of encoding;
The inter-viewpoint processing means determines the local decoded image of the reference viewpoint obtained when the moving image of the reference viewpoint is encoded in the first step according to the relationship between the reference viewpoint and the extended viewpoint. A second step of performing geometric transformation to generate a local decoded image after transformation of the reference viewpoint;
A third step in which the reference image list adding means makes the local decoded image after the conversion of the standard viewpoint generated in the second step usable as a reference image;
A program for causing a computer to execute a fourth step in which the single-viewpoint encoding unit encodes a moving image of the extended viewpoint using a reference image that has been made available in the third step.
前記単視点復号手段が、前記複数の視点のうち、前記符号化データの生成時に基準視点であった視点を復号側基準視点とし、前記符号化データの生成時に拡張視点であった視点を復号側拡張視点とすると、前記符号化データを復号して、当該復号側基準視点の復号済み画像を生成するとともに、前記符号化データの生成時において幾何変換の際に用いられたパラメータを導出する第1のステップと、
前記視点間処理手段が、前記第1のステップにより生成された前記復号側基準視点の復号画像を、前記第1のステップにより導出されたパラメータを用いて幾何変換して、当該復号側基準視点の変換後の復号画像を生成する第2のステップと、
前記参照画像リスト追加手段が、前記第2のステップにより生成された前記復号側基準視点の変換後の復号画像を、参照画像として利用可能にする第3のステップと、
前記単視点復号手段が、前記第3のステップにより利用可能になった参照画像を用いて、前記復号側拡張視点の符号化データを復号する第4のステップと、をコンピュータに実行させるためのプログラム。 Moving picture decoding in a moving picture decoding apparatus that decodes encoded data obtained by encoding moving pictures of a plurality of viewpoints with different perspectives, comprising a single-view decoding means, an inter-view processing means, and a reference image list adding means A program for causing a computer to execute the method,
The single-viewpoint decoding means sets the viewpoint that was the reference viewpoint when the encoded data was generated among the plurality of viewpoints as a decoding-side reference viewpoint, and the viewpoint that was the extended viewpoint when the encoded data was generated as the decoding side As an extended viewpoint, the encoded data is decoded to generate a decoded image of the decoding-side reference viewpoint, and a parameter used for geometric transformation at the time of generation of the encoded data is derived. And the steps
The inter-view processing means geometrically transforms the decoded image of the decoding-side reference viewpoint generated in the first step using the parameters derived in the first step, and A second step of generating a transformed decoded image;
A third step in which the reference image list adding means makes the decoded image after conversion of the decoding-side standard viewpoint generated in the second step available as a reference image;
A program for causing the computer to execute a fourth step in which the single-viewpoint decoding unit decodes the encoded data of the decoding-side extended viewpoint using the reference image made available in the third step. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014265509A JP2016127372A (en) | 2014-12-26 | 2014-12-26 | Video encoder, video decoder, video processing system, video encoding method, video decoding method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014265509A JP2016127372A (en) | 2014-12-26 | 2014-12-26 | Video encoder, video decoder, video processing system, video encoding method, video decoding method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016127372A true JP2016127372A (en) | 2016-07-11 |
Family
ID=56356832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014265509A Pending JP2016127372A (en) | 2014-12-26 | 2014-12-26 | Video encoder, video decoder, video processing system, video encoding method, video decoding method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016127372A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110249628A (en) * | 2017-02-06 | 2019-09-17 | 华为技术有限公司 | For predicting the video encoder and decoder of subregion |
CN113163185A (en) * | 2021-03-26 | 2021-07-23 | 复旦大学 | VR real-time self-adaptive transmission system and method based on heterogeneous calculation |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007336188A (en) * | 2006-06-14 | 2007-12-27 | Kddi Corp | Multi-viewpoint image compression coding method, device, and program |
JP2008022549A (en) * | 2006-07-12 | 2008-01-31 | Mitsubishi Electric Research Laboratories Inc | Method and system for processing a plurality of multiview videos of scene |
JP2013085286A (en) * | 2006-01-09 | 2013-05-09 | Thomson Licensing | Method and apparatus for providing reduced resolution update mode for multi-view video coding |
WO2013159038A1 (en) * | 2012-04-20 | 2013-10-24 | Qualcomm Incorporated | Disparity vector generation for inter-view prediction for video coding |
-
2014
- 2014-12-26 JP JP2014265509A patent/JP2016127372A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013085286A (en) * | 2006-01-09 | 2013-05-09 | Thomson Licensing | Method and apparatus for providing reduced resolution update mode for multi-view video coding |
JP2007336188A (en) * | 2006-06-14 | 2007-12-27 | Kddi Corp | Multi-viewpoint image compression coding method, device, and program |
JP2008022549A (en) * | 2006-07-12 | 2008-01-31 | Mitsubishi Electric Research Laboratories Inc | Method and system for processing a plurality of multiview videos of scene |
WO2013159038A1 (en) * | 2012-04-20 | 2013-10-24 | Qualcomm Incorporated | Disparity vector generation for inter-view prediction for video coding |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110249628A (en) * | 2017-02-06 | 2019-09-17 | 华为技术有限公司 | For predicting the video encoder and decoder of subregion |
CN110249628B (en) * | 2017-02-06 | 2021-08-20 | 华为技术有限公司 | Video encoder and decoder for predictive partitioning |
CN113163185A (en) * | 2021-03-26 | 2021-07-23 | 复旦大学 | VR real-time self-adaptive transmission system and method based on heterogeneous calculation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7106744B2 (en) | Encoders, decoders and corresponding methods using IBC dedicated buffers and default refresh for luma and chroma components | |
US10911754B2 (en) | Image coding method using history-based motion information and apparatus for the same | |
KR102063385B1 (en) | Content adaptive entropy coding for next generation video | |
JP6027143B2 (en) | Image encoding method, image decoding method, image encoding device, image decoding device, image encoding program, and image decoding program | |
KR20210042996A (en) | History-based video coding method and apparatus therefor | |
WO2013039031A1 (en) | Image encoder, image-decoding unit, and method and program therefor | |
JP6571646B2 (en) | Multi-view video decoding method and apparatus | |
JP2015019326A (en) | Encoding device, encoding method, decoding device, and decoding method | |
JP4874578B2 (en) | Image encoding device | |
KR20220065880A (en) | Use of DCT-based interpolation filters and enhanced bilinear interpolation filters in affine motion compensation | |
JP6678357B2 (en) | Motion vector selection and prediction method in video coding system | |
JP2016127372A (en) | Video encoder, video decoder, video processing system, video encoding method, video decoding method, and program | |
KR20210003282A (en) | Method and apparatus for processing video signals using afine motion prediction | |
JP6539580B2 (en) | Inter prediction apparatus, inter prediction method, moving picture coding apparatus, moving picture decoding apparatus, and computer readable recording medium | |
JP7416820B2 (en) | Null tile coding in video coding | |
US20160286212A1 (en) | Video encoding apparatus and method, and video decoding apparatus and method | |
KR20210114065A (en) | Image encoding/decoding method, apparatus, and bitstream transmission method using segmentation restriction on chroma blocks | |
WO2015141549A1 (en) | Video encoding device and method and video decoding device and method | |
WO2015141977A1 (en) | 3d video encoding/decoding method and device | |
JP6310340B2 (en) | Video encoding apparatus, video decoding apparatus, video encoding method, video decoding method, video encoding program, and video decoding program | |
WO2014168238A1 (en) | Video coding device and method, video decoding device and method, and programs therefor | |
KR100795482B1 (en) | A method and apparatus for encoding or decoding frames of different views in multiview video using rectification, and a storage medium using the same | |
KR20230149297A (en) | Intra prediction method and device based on intra prediction mode derivation | |
KR20230175203A (en) | Intra prediction method and device using secondary MPM list | |
KR20220044817A (en) | Method and apparatus for storing motion information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170907 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180611 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180619 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180814 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181218 |