JP2015188249A - Video coding device and video coding method - Google Patents

Video coding device and video coding method Download PDF

Info

Publication number
JP2015188249A
JP2015188249A JP2015113470A JP2015113470A JP2015188249A JP 2015188249 A JP2015188249 A JP 2015188249A JP 2015113470 A JP2015113470 A JP 2015113470A JP 2015113470 A JP2015113470 A JP 2015113470A JP 2015188249 A JP2015188249 A JP 2015188249A
Authority
JP
Japan
Prior art keywords
picture
pictures
layer
encoded data
display time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015113470A
Other languages
Japanese (ja)
Inventor
裕司 川島
Yuji Kawashima
裕司 川島
菊池 義浩
Yoshihiro Kikuchi
義浩 菊池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Lifestyle Products and Services Corp
Original Assignee
Toshiba Corp
Toshiba Lifestyle Products and Services Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Lifestyle Products and Services Corp filed Critical Toshiba Corp
Priority to JP2015113470A priority Critical patent/JP2015188249A/en
Publication of JP2015188249A publication Critical patent/JP2015188249A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a video coding device and a video coding method that further improve coding efficiency.SOLUTION: A video coding device comprises control means. The control means generates a B picture by using an inter-picture prediction structure that allows reference from a reference B picture in one GOP (Group Of Picture) to another reference B picture in the GOP.

Description

本実施形態は、動画像符号化装置及び動画像符号化方法に関する。   The present embodiment relates to a moving image encoding apparatus and a moving image encoding method.

動画像符号化方式の1つであるH.264は、DPB(Decoded Picture Buffer)の導
入により、複数の参照ピクチャを参照することができる。DPBの導入は、H.264仕
様における符号化効率の向上に貢献している。DPBは、サイズ上限による参照ピクチャ
数の制約があるものの、復号ピクチャマーキング処理等を利用することで、復号ピクチャ
に対して時間的な距離が近いピクチャだけでなく、遠いピクチャも参照できる。
H. is one of the moving image encoding methods. H.264 can refer to a plurality of reference pictures by introducing DPB (Decoded Picture Buffer). The introduction of DPB This contributes to the improvement of encoding efficiency in the H.264 specification. Although the DPB has a restriction on the number of reference pictures due to the upper limit of the size, by using a decoded picture marking process or the like, not only a picture that is close in time to the decoded picture but also a picture that is far away can be referred to.

また、H.264等の動画像符号化方式では、Iピクチャ、Pピクチャ、Bピクチャが
ある。一般的に、発生符号量は、Iピクチャ、Pピクチャ、Bピクチャの順序で小さくな
る。したがって、Bピクチャが多くなればなるほど、ストリームの符号量は小さくなり、
符号化効率は向上する。
H. In a moving picture coding system such as H.264, there are an I picture, a P picture, and a B picture. Generally, the generated code amount decreases in the order of I picture, P picture, and B picture. Therefore, the more B pictures, the smaller the code amount of the stream,
Coding efficiency is improved.

動画像符号化方式の1つであるMPEG−2では、Bピクチャが多くなるほど、Bピク
チャが参照するピクチャへの時間的な距離が遠くなる。そのため、MPEG−2仕様では
、Bピクチャの予測が当たりにくくなるため、符号化効率が悪化することが知られていた
。そこで、H.264は、参照Bピクチャ、すなわちBピクチャからBピクチャへの参照
を可能とするピクチャの導入により、符号化効率を向上させている。
In MPEG-2, which is one of the moving image coding systems, the time distance to the picture referred to by the B picture increases as the number of B pictures increases. For this reason, it has been known that the MPEG-2 specification makes it difficult to predict a B picture, resulting in a deterioration in encoding efficiency. Therefore, H.H. H.264 improves coding efficiency by introducing a reference B picture, that is, a picture that enables reference from a B picture to a B picture.

ARIB規格のH.264仕様では、放送や配信等でランダムアクセス再生および高速
再生等を可能にするため、画面間予測構造(GOP (Group of Pictures)構造)の制約が
以下のように規定されている。非参照Bピクチャおよび参照Bピクチャの復号順序は、表
示順序が直後であるIピクチャあるいはPピクチャの直後であること。ここで、Iピクチ
ャあるいはPピクチャは、非参照Bピクチャあるいは参照Bピクチャと同一GOP内のピ
クチャとする。非参照Bピクチャは、(a)表示順序が直前もしくは直後のIピクチャも
しくはPピクチャのフレームあるいはフィールド・ペア、または、(b)表示順序が直前
もしくは直後のIピクチャもしくは Pピクチャより近く、表示順序が直前もしくは直後
である参照Bピクチャのフレームあるいはフィールド・ペアのみを参照すること。参照B
ピクチャは、(a)表示順序で直前もしくは直後のIピクチャもしくはPピクチャのフレ
ームあるいはフィールド・ペア、または、(b)同一フレームを構成する参照Bピクチャ
のフィールドのみを参照すること。
ARIB standard H.264 In the H.264 specification, in order to enable random access reproduction, high-speed reproduction, and the like in broadcasting, distribution, etc., restrictions on the inter-screen prediction structure (GOP (Group of Pictures) structure) are defined as follows. The decoding order of the non-reference B picture and the reference B picture is immediately after the I picture or P picture whose display order is immediately after. Here, the I picture or the P picture is a picture in the same GOP as the non-reference B picture or the reference B picture. A non-reference B picture is either (a) a frame or field pair of an I picture or P picture immediately before or immediately after the display order, or (b) a display order closer to the I picture or P picture immediately before or after the display order. Refer only to the frame or field pair of the reference B picture that is immediately before or after. Reference B
A picture refers to (a) a frame or field pair of an I picture or P picture immediately before or after in the display order, or (b) only a field of a reference B picture constituting the same frame.

上記画面間予測構造の制約に従うBピクチャ間の参照関係は、上位階層から下位階層へ
の参照のみ可能にした階層構造をとることができる。これにより、ある階層に属するピク
チャは、自分より下の階層のピクチャが復号されていれば、必ず復号できる。この階層関
係は、高速再生に利用できる。
The reference relationship between B pictures according to the restriction of the inter-screen prediction structure can take a hierarchical structure in which only reference from the upper hierarchy to the lower hierarchy is possible. As a result, a picture belonging to a certain hierarchy can be decoded without fail if a picture of a hierarchy below itself is decoded. This hierarchical relationship can be used for high-speed playback.

ARIB STD-B32 第1部 付属2 第3章 3.6ARIB STD-B32 Part 1 Appendix 2 Chapter 3 3.6

しかしながら、現在の画面間予測構造の制約の下では、非参照Bピクチャから参照Bピ
クチャへの参照が不可能である。図9は、現在のARIB規格のH.264仕様での一例
となるGOPに含まれる各ピクチャの画面間予測構造を示す図である。各ピクチャ間の参
照関係によれば、I0及びP4は0階層目、B2は1階層目、b1、b3は2階層目であ
る。0階層目は、IピクチャまたはPピクチャで構成される。1階層目は、参照Bピクチ
ャで構成される。2階層目は、非参照Bピクチャで構成される。そのため、Bピクチャ間
の参照関係は、図9に示すように2階層構造をとるに留まる。現在の画面間予測構造の制
約の下では、入力画像信号のフレームレートが増えた場合、単位時間あたりに含まれるI
ピクチャあるいはPピクチャの数は、フレームレートに比例して増大する。結果的に符号
化効率は下がる。そのため、入力画像信号のフレームレートが増えた場合であっても、B
ピクチャの数を増やすことができれば、より符号化効率を向上させることができる。
However, it is impossible to refer from a non-reference B picture to a reference B picture under the constraints of the current inter-screen prediction structure. FIG. 9 shows the current ARIB standard H.264. It is a figure which shows the inter-screen prediction structure of each picture contained in GOP used as an example by H.264 specification. According to the reference relationship between pictures, I0 and P4 are the 0th layer, B2 is the 1st layer, and b1 and b3 are the 2nd layer. The 0th layer is composed of an I picture or a P picture. The first layer is composed of reference B pictures. The second layer is composed of non-reference B pictures. For this reason, the reference relationship between the B pictures only has a two-layer structure as shown in FIG. Under the constraints of the current inter-screen prediction structure, when the frame rate of the input image signal is increased, I included in the unit time
The number of pictures or P pictures increases in proportion to the frame rate. As a result, the coding efficiency decreases. Therefore, even if the frame rate of the input image signal is increased, B
If the number of pictures can be increased, encoding efficiency can be further improved.

本発明の目的は、より符号化効率を向上させる動画像符号化装置及び動画像符号化方法
を提供することである。
An object of the present invention is to provide a moving picture coding apparatus and a moving picture coding method that further improve coding efficiency.

実施形態によれば、動画像符号化装置は、制御手段を備える。前記制御手段は、1つの
GOP内の参照Bピクチャから前記GOP内の他の参照Bピクチャへの参照を可能とする
画面間予測構造を用いてBピクチャを生成するように制御する。
According to the embodiment, the moving image encoding apparatus includes a control unit. The control means performs control so that a B picture is generated using an inter-screen prediction structure that enables reference from a reference B picture in one GOP to another reference B picture in the GOP.

実施形態に係る一例となる動画像符号化装置の構成例を示すブロック図。The block diagram which shows the structural example of the moving image encoder which becomes an example which concerns on embodiment. 実施形態に係る一例となる参照Bピクチャの画面間予測構造を示す図。The figure which shows the inter-screen prediction structure of the reference B picture used as an example which concerns on embodiment. 実施形態に係る一例となる非参照Bピクチャの画面間予測構造を示す図。The figure which shows the inter-screen prediction structure of the non-reference B picture used as an example which concerns on embodiment. 実施形態に係る一例となるGOPに含まれる各ピクチャの画面間予測構造を 示す図。The figure which shows the inter-screen prediction structure of each picture contained in GOP used as an example which concerns on embodiment. 実施形態に係る一例となる高速再生を説明するための図。The figure for demonstrating the high-speed reproduction used as an example which concerns on embodiment. 実施形態に係る一例となる高速再生を説明するための図。The figure for demonstrating the high-speed reproduction used as an example which concerns on embodiment. 実施形態に係る一例となる高速再生を説明するための図。The figure for demonstrating the high-speed reproduction used as an example which concerns on embodiment. 実施形態に係る一例となる再生速度の変更を説明するための図。The figure for demonstrating the change of the reproduction speed used as an example which concerns on embodiment. ARIB規格のH.264仕様での一例となるGOPに含まれる各ピクチャの画面間予測構造を示す図。ARIB standard H.264 The figure which shows the inter-screen prediction structure of each picture contained in GOP used as an example by H.264 specification.

以下、図面を参照して本実施形態について説明する。
図1は、実施形態に係る一例となる動画像符号化装置の構成例を示すブロック図である
。動画符号化装置10は、入力画像信号(画像データ)200から符号化ビット列(符号
化データ)260を生成するための装置である。動画符号化装置10は、制御部(制御手
段)101、減算器102、直交変換器103、量子化器104、逆量子化器105、逆
直交変換器106、加算器107、ループフィルタ108、フレームメモリ109、予測
画像生成部110、エントロピー符号化器111を備える。
Hereinafter, this embodiment will be described with reference to the drawings.
FIG. 1 is a block diagram illustrating a configuration example of a moving image encoding apparatus as an example according to the embodiment. The moving image encoding apparatus 10 is an apparatus for generating an encoded bit string (encoded data) 260 from an input image signal (image data) 200. The moving image coding apparatus 10 includes a control unit (control means) 101, a subtractor 102, an orthogonal transformer 103, a quantizer 104, an inverse quantizer 105, an inverse orthogonal transformer 106, an adder 107, a loop filter 108, a frame A memory 109, a predicted image generation unit 110, and an entropy encoder 111 are provided.

制御部101は、動画像符号化装置10に含まれる各要素の動作を制御する。
減算器102は、外部から入力画像信号200が供給され、後述する予測画像生成器1
10から予測画像信号250も供給される。減算器102は、入力画像信号200から、
予測画像信号250を減算して予測誤差信号210を得る。減算器102は、予測誤差信
号210を直交変換器102に出力する。
直交変換器103は、例えば離散コサイン変換を実行して、予測誤差信号210を直交
変換して直交変換係数情報220を得る。直交変換器103は、直交変換係数情報220
を量子化器303に出力する。
量子化器104は、直交変換係数情報220を量子化して量子化直交変換係数情報(量
子化データ)230を得る。量子化器104は、量子化直交変換係数情報230を逆量子
化器105とエントロピー符号化器111に出力する。
The control unit 101 controls the operation of each element included in the video encoding device 10.
The subtracter 102 is supplied with an input image signal 200 from the outside, and a predicted image generator 1 described later.
The predicted image signal 250 is also supplied from 10. The subtracter 102 receives the input image signal 200 from
The prediction error signal 210 is obtained by subtracting the prediction image signal 250. The subtracter 102 outputs the prediction error signal 210 to the orthogonal transformer 102.
The orthogonal transformer 103 performs discrete cosine transform, for example, and orthogonally transforms the prediction error signal 210 to obtain orthogonal transform coefficient information 220. The orthogonal transformer 103 includes orthogonal transform coefficient information 220.
Is output to the quantizer 303.
The quantizer 104 quantizes the orthogonal transform coefficient information 220 to obtain quantized orthogonal transform coefficient information (quantized data) 230. The quantizer 104 outputs the quantized orthogonal transform coefficient information 230 to the inverse quantizer 105 and the entropy encoder 111.

逆量子化器105及び逆直交変換器106は、量子化直交変換係数情報230を局部復
号する。逆直交変換器106は、局部復号された量子化直交変換係数情報230を加算器
107に出力する。
加算器107は、局部復号された量子化直交変換係数情報230に予測画像信号250
を加算して局部復号画像信号240を得る。加算器107は、局部復号画像信号240を
ループフィルタ108に出力する。局部復号画像信号240は、ループフィルタ306を
介してフレームメモリ308に供給される。
The inverse quantizer 105 and the inverse orthogonal transformer 106 locally decode the quantized orthogonal transform coefficient information 230. The inverse orthogonal transformer 106 outputs the locally decoded quantized orthogonal transform coefficient information 230 to the adder 107.
The adder 107 adds the predicted image signal 250 to the locally decoded quantized orthogonal transform coefficient information 230.
To obtain a locally decoded image signal 240. The adder 107 outputs the locally decoded image signal 240 to the loop filter 108. The locally decoded image signal 240 is supplied to the frame memory 308 via the loop filter 306.

フレームメモリ109は、保存している局部復号画像信号240を予測画像生成器11
0に供給する。
予測画像生成器110は、局部復号画像信号240に基づいて予測画像信号250を得
る。予測画像生成器110は、予測画像信号250を減算器301及び加算器315に出
力する。
エントロピー符号化部111は、量子化直交変換係数情報230を符号化処理すること
で符号化ビット列260を得る。エントロピー符号化部111は、符号化ビット列260
を外部に出力する。
The frame memory 109 converts the stored local decoded image signal 240 into the predicted image generator 11.
Supply to zero.
The predicted image generator 110 obtains a predicted image signal 250 based on the locally decoded image signal 240. The predicted image generator 110 outputs the predicted image signal 250 to the subtracter 301 and the adder 315.
The entropy encoding unit 111 obtains an encoded bit string 260 by encoding the quantized orthogonal transform coefficient information 230. The entropy encoding unit 111 includes an encoded bit string 260.
Is output to the outside.

動画像符号化装置10は、上記構成により、Iピクチャ、Pピクチャ、Bピクチャを生
成し、Iピクチャを少なくとも1つ含む複数のピクチャで構成されるGOPを符号化ビッ
ト列260として生成する。なお、Iピクチャは、その画面だけで符号化されて生成され
るピクチャである。Pピクチャは、単方向予測で符号化されて生成されるピクチャである
。Bピクチャは、双方向予測で符号化されて生成されるピクチャである。Bピクチャは、
他のピクチャから参照可能なBピクチャ(以降、参照Bピクチャという)と、他のピクチ
ャから参照されないBピクチャ(以降、非参照Bピクチャという)の2種類がある。
The moving picture encoding apparatus 10 generates an I picture, a P picture, and a B picture with the above configuration, and generates a GOP composed of a plurality of pictures including at least one I picture as an encoded bit string 260. Note that an I picture is a picture generated by being encoded only on the screen. A P picture is a picture generated by being encoded by unidirectional prediction. A B picture is a picture generated by being encoded by bidirectional prediction. B picture
There are two types: B pictures that can be referenced from other pictures (hereinafter referred to as reference B pictures) and B pictures that are not referenced from other pictures (hereinafter referred to as non-reference B pictures).

次に、本実施形態で規定するBピクチャに関する画面間予測構造の制約について説明す
る。制御部101は、以下の(1)〜(5)に示す5つのBピクチャに関する画面間予測
構造の制約のうち少なくとも1つを用いてBピクチャを生成するように制御する。なお、
以下で説明するIピクチャあるいはPピクチャは、非参照Bピクチャあるいは参照Bピク
チャと同一GOP内のピクチャを示している。
Next, restrictions on the inter-picture prediction structure relating to the B picture defined in this embodiment will be described. The control unit 101 performs control so as to generate a B picture using at least one of the restrictions on the inter-picture prediction structure for the five B pictures shown in (1) to (5) below. In addition,
An I picture or P picture described below indicates a picture in the same GOP as a non-reference B picture or a reference B picture.

(1)参照Bピクチャから参照Bピクチャへの参照を可能とする画面間予測構造。つま
り、この画面間予測構造は、1つのGOP内の参照Bピクチャから、このGOP内の他の
参照Bピクチャへの参照を可能とする。なお、非参照Bピクチャから参照Bピクチャへの
参照は、従来(ARIB規格のH.264仕様)どおり可能である。
(2)Bピクチャから、表示順が前のIまたはPピクチャへの参照を可能とする画面間
予測構造。つまり、この画面間予測構造は、GOP内において、第1のBピクチャから、
表示順序が第1のBピクチャよりも前のIピクチャまたはPピクチャへの参照を可能とす
る。Bピクチャは、表示順が前のIまたはPピクチャであれば、従来の認められていた表
示順が直前のIまたはPピクチャ以外のIまたはPピクチャを参照できる。
(3)Bピクチャから、表示順序が直前のPピクチャより遠いBピクチャへの参照を不
可とする画面間予測構造。つまり、この画面間予測構造は、GOP内において、第1のB
ピクチャから、表示順序が第1のBピクチャの直前のIピクチャまたはPピクチャより遠
い第2のBピクチャへの参照を不可とする。
(4)Bピクチャから、表示順序が直後のPピクチャより遠いPピクチャへの参照を不
可とする画面間予測構造。つまり、この画面間予測構造は、GOP内において、第1のB
ピクチャから、表示順序が第1のBピクチャの直後のIピクチャまたはPピクチャより遠
い他のIピクチャまたは他のPピクチャへの参照を不可とする。言い換えれば、この画面
間予測構造は、GOP内において、表示順序が第1のBピクチャよりも後のIピクチャま
たはPピクチャについては、第1のBピクチャから、表示順序が第1のBピクチャの直後
のIピクチャまたはPピクチャのみを参照する。
(5)Bピクチャから、表示順序が直前もしくは直後のIピクチャもしくはPピクチャ
より近くの参照Bピクチャのみを参照する画面間予測構造。つまり、この画面間予測構造
は、GOP内に含まれる参照Bピクチャに関して、GOP内において、第1のBピクチャ
から、表示順序が第1のBピクチャの直前もしくは直後のIピクチャもしくはPピクチャ
より近くの参照Bピクチャのみへの参照を可能とする。
なお、連続するBピクチャ(非参照Bピクチャあるいは参照Bピクチャ)のフレーム、
あるいはフィールド・ペアの最大枚数は、従来の制約と異なり、一例として7とする。
(1) An inter-screen prediction structure that enables reference from a reference B picture to a reference B picture. That is, this inter-screen prediction structure enables reference from a reference B picture in one GOP to another reference B picture in this GOP. The reference from the non-reference B picture to the reference B picture can be performed as in the past (ARIB standard H.264 specification).
(2) An inter-screen prediction structure that enables reference from the B picture to the previous I or P picture in display order. That is, this inter-screen prediction structure is obtained from the first B picture in the GOP.
It is possible to refer to an I picture or P picture whose display order is earlier than the first B picture. If the display order of the B picture is the previous I or P picture, it is possible to refer to an I or P picture other than the previous I or P picture whose display order has been accepted in the past.
(3) An inter-screen prediction structure that disables reference from a B picture to a B picture that is farther than the previous P picture in display order. That is, this inter-screen prediction structure is the first B in the GOP.
Reference from a picture to a second B picture farther than the I picture or P picture immediately before the first B picture is disabled.
(4) An inter-screen prediction structure in which reference from a B picture to a P picture farther than the P picture immediately after the display order is impossible. That is, this inter-screen prediction structure is the first B in the GOP.
Reference from the picture to another I picture or another P picture farther than the I picture or P picture immediately after the first B picture is disabled. In other words, this inter-screen prediction structure is based on the fact that the I picture or the P picture whose display order is later than the first B picture in the GOP starts from the first B picture. Reference is made only to the immediately following I picture or P picture.
(5) An inter-screen prediction structure that refers only to a reference B picture closer to the I picture or P picture immediately before or immediately after the B picture. In other words, this inter-screen prediction structure is related to the reference B picture included in the GOP, in the GOP, from the first B picture, closer to the I picture or P picture immediately before or immediately after the first B picture. It is possible to refer to only the reference B picture.
It should be noted that frames of consecutive B pictures (non-reference B pictures or reference B pictures),
Alternatively, the maximum number of field pairs is set to 7 as an example, unlike conventional restrictions.

図2は、実施形態に係る一例となる参照Bピクチャの画面間予測構造を示す図である。
ここでは、参照Bピクチャ301を例にして画面間予測構造を説明する。なお、図2にお
ける「I」はIピクチャ、「P」はピクチャ、「B」は参照Bピクチャ、「b」は非参照
Bピクチャを意味する。図2は、1つのGOPに含まれる各ピクチャを表示順序に並べて
いる。実線の矢印は、上記制約(上記(1)、(2)、(4)、(5))により参照可能
となる参照Bピクチャ301と他のピクチャとの関係の一例を示している。なお、実線の
矢印と共に示す「○」記号は、ARIB規格のH.264仕様でも参照可能であることを
示す。実線の矢印と共に示す「◎」記号は、本実施形態で規定する制約によって参照可能
となったことを示す。破線の矢印は、上記制約(上記(3)、(4))により参照不可と
なる参照Bピクチャ301と他のピクチャとの関係の一例を示している。矢印と共に示す
数字は、適用される上記制約の番号に対応している。なお、矢印と共に示す「×」記号は
、参照不可であることを示す。
FIG. 2 is a diagram illustrating an inter-screen prediction structure of a reference B picture as an example according to the embodiment.
Here, the inter-screen prediction structure will be described using the reference B picture 301 as an example. In FIG. 2, “I” means an I picture, “P” means a picture, “B” means a reference B picture, and “b” means a non-reference B picture. In FIG. 2, the pictures included in one GOP are arranged in the display order. Solid arrows indicate an example of the relationship between the reference B picture 301 and other pictures that can be referred to by the above restrictions ((1), (2), (4), and (5) above). The symbol “◯” shown together with the solid line arrow indicates the AR. It shows that it can be referred to in the H.264 specification. A symbol “」 ”shown together with a solid arrow indicates that the reference can be made due to the restriction defined in the present embodiment. Dashed arrows indicate an example of the relationship between the reference B picture 301 that cannot be referred to due to the restrictions (above (3) and (4)) and other pictures. The numbers shown with the arrows correspond to the numbers of the constraints that apply. Note that an “x” symbol shown with an arrow indicates that reference is impossible.

図3は、実施形態に係る一例となる非参照Bピクチャの画面間予測構造を示す図である
。ここでは、非参照Bピクチャ302を例にして画面間予測構造を説明する。なお、図3
における「I」、「P」、「B」、「b」は、図2と同様のピクチャを意味する。図3は
、1つのGOPに含まれる各ピクチャを表示順序に並べている。実線の矢印は、上記制約
(上記(2)、(4)、(5))により参照可能となる非参照Bピクチャ302と他のピ
クチャとの関係の一例を示している。なお、実線の矢印と共に示す「○」記号は、ARI
B規格のH.264仕様でも参照可能であることを示す。実線の矢印と共に示す「◎」記
号は、本実施形態で規定する制約によって参照可能となったことを示す。破線の矢印は、
上記制約(上記(3)、(4))により参照不可となる非参照Bピクチャ301と他のピ
クチャとの関係の一例を示している。矢印と共に示す数字は、適用される上記制約の番号
に対応している。なお、矢印と共に示す「×」記号は、参照不可であることを示す。
FIG. 3 is a diagram illustrating an inter-screen prediction structure of a non-reference B picture as an example according to the embodiment. Here, the inter-screen prediction structure will be described using the non-reference B picture 302 as an example. Note that FIG.
“I”, “P”, “B”, and “b” in FIG. 2 mean pictures similar to those in FIG. In FIG. 3, the pictures included in one GOP are arranged in the display order. Solid arrows indicate an example of the relationship between the non-reference B picture 302 and other pictures that can be referred to by the above restrictions ((2), (4), and (5) above). The “O” symbol shown with the solid arrow is the ARI.
B standard H.264 It shows that it can be referred to in the H.264 specification. A symbol “」 ”shown together with a solid arrow indicates that the reference can be made due to the restriction defined in the present embodiment. The dashed arrow
An example of the relationship between the non-reference B picture 301 that cannot be referred to by the above restrictions (above (3) and (4)) and other pictures is shown. The numbers shown with the arrows correspond to the numbers of the constraints that apply. Note that an “x” symbol shown with an arrow indicates that reference is impossible.

図2及び図3に示すとおり、参照Bピクチャから参照可能となるピクチャ、参照不可と
なるピクチャは、非参照Bピクチャから参照可能となるピクチャ、参照不可となるピクチ
ャと同じである。
As shown in FIGS. 2 and 3, a picture that can be referred to from a reference B picture and a picture that cannot be referred to are the same as a picture that can be referred to from a non-reference B picture and a picture that cannot be referred to.

図4は、実施形態に係る一例となるGOPに含まれる各ピクチャの画面間予測構造を示
す図である。図4は、1つのGOPに含まれる各ピクチャを表示順序に並べている。矢印
は、上記(1)〜(5)の制約に沿った各ピクチャ間の参照関係を示している。各ピクチ
ャ間の参照関係によれば、I0及びP8は0階層目、B4は1階層目、B2及びB6は2
階層目、b1、b3、b5及びb7は3階層目である。0階層目は、IピクチャまたはP
ピクチャで構成される。1階層目及び2階層目は、参照Bピクチャで構成される。3階層
目は、非参照Bピクチャで構成される。つまり、1つのGOPは、Bピクチャ間で3階層
以上の画面間予測構造をとることができる。このような上記(1)〜(5)の制約に沿っ
たBピクチャ間の参照関係は、上位階層から下位階層への参照のみ可能にした3階層以上
の階層構造をとることができる。
FIG. 4 is a diagram illustrating an inter-screen prediction structure of each picture included in an exemplary GOP according to the embodiment. In FIG. 4, the pictures included in one GOP are arranged in the display order. The arrows indicate the reference relationship between the pictures according to the restrictions (1) to (5). According to the reference relationship between the pictures, I0 and P8 are the 0th layer, B4 is the 1st layer, B2 and B6 are 2 layers.
Hierarchies b1, b3, b5 and b7 are the third hierarchy. Layer 0 is I picture or P
Consists of pictures. The first layer and the second layer are composed of reference B pictures. The third layer is composed of non-reference B pictures. That is, one GOP can have an inter-screen prediction structure with three or more layers between B pictures. The reference relationship between the B pictures in accordance with the restrictions (1) to (5) described above can take a hierarchical structure of three or more hierarchies in which only reference from the upper hierarchy to the lower hierarchy is possible.

復号器は、図4に示す一例となる画面間予測構造に基づいて各ピクチャを復号し、表示
順序に沿ってディスプレイに表示できる。復号器は、図4に示す1つのGOPに含まれる
0階層目〜3階層目に位置する全てのピクチャを復号処理、表示処理することで、通常再
生する。なお、復号器は、必要最小限のピクチャのみを復号することで図4を用いて説明
した通常再生速度の2n倍で高速再生できる。図5〜7は、図4に示す階層構造での一例
となる高速再生を説明するための図である。図5〜7は、図4と同様に、1つのGOPに
含まれる各ピクチャを表示順序に並べている。矢印は、上記(1)〜(5)の制約に沿っ
た各ピクチャ間の参照関係を示している。なお、図5〜7で示す実線は、高速再生に用い
られるピクチャ及びその参照関係を示し、図5〜7で示す破線は、高速再生に用いられな
いピクチャ及びその参照関係を示している。図5に示す高速再生は、0階層目に位置する
ピクチャだけを復号処理、表示処理する再生である。図6に示す高速再生は、0階層目及
び1階層目に位置するピクチャだけを復号処理、表示処理する再生である。図7に示す高
速再生は、0階層目〜2階層目に位置するピクチャだけの復号処理、表示処理する再生で
ある。再生速度は、復号処理、表示処理するピクチャの数に応じて変わる。そのため、再
生速度は、図4に示す通常再生、図7に示す高速再生、図6に示す高速再生、図5に示す
高速再生の順序で速くなる。
The decoder can decode each picture based on the exemplary inter-screen prediction structure shown in FIG. 4 and display it on the display in the display order. The decoder performs normal reproduction by decoding and displaying all the pictures located in the 0th to 3rd layers included in one GOP shown in FIG. Note that the decoder can perform high-speed playback at 2n times the normal playback speed described with reference to FIG. 4 by decoding only the minimum necessary pictures. 5 to 7 are diagrams for explaining high-speed playback as an example in the hierarchical structure shown in FIG. 5 to 7 arrange the pictures included in one GOP in the display order as in FIG. The arrows indicate the reference relationship between the pictures according to the restrictions (1) to (5). 5 to 7 indicate pictures used for high-speed playback and their reference relations, and broken lines shown in FIGS. 5 to 7 indicate pictures not used for high-speed playback and their reference relations. The high speed reproduction shown in FIG. 5 is a reproduction in which only the picture located in the 0th layer is decoded and displayed. The high speed reproduction shown in FIG. 6 is a reproduction in which only the pictures located in the 0th layer and the 1st layer are decoded and displayed. The high-speed playback shown in FIG. 7 is playback for decoding and displaying only pictures located in the 0th layer to the 2nd layer. The playback speed varies depending on the number of pictures to be decoded and displayed. Therefore, the reproduction speed increases in the order of normal reproduction shown in FIG. 4, high-speed reproduction shown in FIG. 7, high-speed reproduction shown in FIG. 6, and high-speed reproduction shown in FIG.

図8は、再生速度の変更の一例を説明するための図である。図8は、1つのGOPに含
まれる各ピクチャを表示順序に並べた図である。ここでは、B10に関して、上記制約に
沿った参照関係の一部を矢印で示している。実線の矢印は、参照可能となるB10と他の
ピクチャとの関係の一例を示している。「○」記号は、参照可能であることを示す。破線
の矢印は、参照不可となるB10と他のピクチャとの関係の一例を示している。「×」記
号は、参照不可であることを示す。一例として、復号器は、I0からB10の手前までは
図5を用いて説明した0階層目のみに位置するピクチャのみを復号する高速再生で処理し
ているとする。再生速度が、B10の手前で、図4を用いて説明した0階層目〜3階層目
に位置するピクチャを再生する通常再生速度まで落とすように切り替えられたとする。B
10は、(3)の制約により、B4を参照できない。そのため、復号器は、B10を復号
するのに、復号していないB4を復号する必要がない。一方、B10は、(2)の制約に
より、高速再生で復号されたP8だけでなくI0も参照できる。復号器は、B10を復号
するためだけに復号されていないピクチャを復号する必要がないため、容易に再生速度を
切り替えられる。
FIG. 8 is a diagram for explaining an example of changing the playback speed. FIG. 8 is a diagram in which the pictures included in one GOP are arranged in the display order. Here, with regard to B10, a part of the reference relationship that conforms to the above constraint is indicated by an arrow. A solid arrow indicates an example of a relationship between B10 that can be referred to and another picture. “O” sign indicates that reference is possible. A broken arrow indicates an example of a relationship between B10 that cannot be referred to and another picture. The “x” symbol indicates that reference is impossible. As an example, it is assumed that the decoder processes from I0 to B10 before high-speed playback that decodes only pictures located only in the 0th hierarchy described with reference to FIG. Assume that the playback speed is switched to the normal playback speed for playing back the pictures located in the 0th layer to the 3rd layer described with reference to FIG. 4 before B10. B
10 cannot refer to B4 due to the restriction of (3). Therefore, the decoder does not need to decode B4 that has not been decoded in order to decode B10. On the other hand, B10 can refer to not only P8 decoded by high-speed playback but also I0 due to the restriction (2). Since the decoder does not need to decode an undecoded picture only for decoding B10, the playback speed can be easily switched.

上記(1)〜(5)の制約によれば、Bピクチャ間で3階層以上の画面間予測構造をと
ることができる。主として上記(1)、(2)、(5)の制約によれば、符号化効率を極
力維持または向上させることができる。主として上記(3)、(4)の制約によれば、復
号器側で符号化ビット列を2n倍で高速再生できると共に、容易に再生速度を変更できる
。したがって、本実施形態によれば、動画像符号化装置10は、入力画像信号のフレーム
レートが増えたとしても、単位時間あたりに含まれるIピクチャあるいはPピクチャの数
を増やすことなく、符号化効率を極力維持または向上させつつ、復号器側での高速再生を
実現できる符号化ビット列を生成できる。
According to the restrictions (1) to (5) above, an inter-screen prediction structure having three or more layers can be taken between B pictures. Mainly according to the restrictions (1), (2), and (5), the encoding efficiency can be maintained or improved as much as possible. Mainly according to the restrictions (3) and (4) above, the encoded bit string can be reproduced at a high speed of 2n times on the decoder side, and the reproduction speed can be easily changed. Therefore, according to the present embodiment, the moving picture coding apparatus 10 can improve the coding efficiency without increasing the number of I pictures or P pictures included per unit time even if the frame rate of the input picture signal increases. As a result, it is possible to generate a coded bit string that can realize high-speed reproduction on the decoder side.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したも
のであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その
他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の
省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や
要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる
Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

10…動画符号化装置、101…制御部(制御手段)、102…減算器、103…直交
変換器、104…量子化器、105…逆量子化器、106…逆直交変換器、107…加算
器、108…ループフィルタ、109…フレームメモリ、110…予測画像生成部、11
1…エントロピー符号化器。
DESCRIPTION OF SYMBOLS 10 ... Moving image coding apparatus, 101 ... Control part (control means), 102 ... Subtractor, 103 ... Orthogonal transformer, 104 ... Quantizer, 105 ... Inverse quantizer, 106 ... Inverse orthogonal transformer, 107 ... Addition 108, loop filter, 109, frame memory, 110, predicted image generation unit, 11
1: Entropy encoder.

Claims (2)

第0乃至第3層のピクチャ階層構造を有する符号化データを生成する場合に、制約に従
って前記符号化データを生成するための制御を行う制御手段を備え、
前記符号化データは、放送波により配信されるものであって、
前記符号化データに含まれる1つのGOP(Group of Pictures)は、複数のピクチャ
を含み、
前記符号化データに含まれるピクチャの種別には、少なくともIピクチャ、Pピクチャ
、Bピクチャがあり、
前記第0層には前記Iピクチャ及び前記Pピクチャがあり、前記第1乃至第3層には前
記Bピクチャがあり、
前記Bピクチャは、表示時間的に双方向の複数の他のピクチャを参照して符号化され、
かつ、他の前記Bピクチャの符号化に参照される参照Bピクチャと、他の前記Bピクチャ
の符号化に参照されない非参照Bピクチャとを含み、
前記0層の前記Pピクチャは、表示時間的に単方向のピクチャであって前記第0層の他
のピクチャを参照して符号化され、
前記符号化データは、前記第0乃至第3層のピクチャを復号する通常再生と、(1)前
記第1乃至第3層のピクチャ、(2)前記第2層及び第3層のピクチャ、または(3)前
記第3層のピクチャの復号を省略する高速再生と、を前記符号化データの途中で切り替え
可能なフォーマットであり、
前記制約は、
前記1つのGOP内の前記参照Bピクチャから他の前記参照Bピクチャへの参照を可
能とし、
前記Bピクチャに、表示時間的に直前の前記Iピクチャ又は前記Pピクチャよりもさ
らに表示時間的に前にありかつ前記第1層以上の階層にある他の前記Bピクチャへの参照
を不可としつつ、表示時間的に直前の前記Iピクチャ又は前記Pピクチャ、及び当該直前
の前記Iピクチャ又は前記Pピクチャよりも前にありかつ前記第0層にある他のピクチャ
への参照を可能とする、動画像符号化装置。
Control means for performing control for generating the encoded data in accordance with restrictions when generating encoded data having a picture hierarchy structure of 0th to 3rd layers;
The encoded data is distributed by broadcast waves,
One GOP (Group of Pictures) included in the encoded data includes a plurality of pictures,
The types of pictures included in the encoded data include at least an I picture, a P picture, and a B picture,
The 0th layer has the I picture and the P picture, the 1st to 3rd layers have the B picture,
The B picture is encoded with reference to a plurality of other pictures that are bidirectional in display time,
And a reference B picture that is referred to for encoding the other B picture, and a non-reference B picture that is not referred to for encoding the other B picture,
The P picture of the 0th layer is a unidirectional picture in display time and is encoded with reference to other pictures of the 0th layer,
The encoded data includes normal reproduction for decoding the 0th to 3rd layer pictures, (1) the 1st to 3rd layer pictures, (2) the 2nd and 3rd layer pictures, or (3) A format capable of switching between high-speed playback that omits decoding of the picture of the third layer and in the middle of the encoded data,
The constraints are
Enabling reference from the reference B picture in the one GOP to another reference B picture;
While prohibiting reference to other B pictures in the B picture that are earlier in display time than the I picture or P picture immediately before in display time and in the hierarchy higher than the first layer. , A moving picture that enables reference to the I picture or the P picture immediately before the display time, and to another picture that is before the I picture or the P picture immediately before and in the 0th layer Image encoding device.
前記第1符号化方式を用いて第0乃至第3層のピクチャ階層構造を有する符号化データ
を生成する場合に、制約に従って前記符号化データを生成するための制御を行い、 前記
符号化データは、放送波により配信されるものであって、
前記符号化データに含まれる1つのGOP(Group of Pictures)は、複数のピクチャ
を含み、
前記符号化データに含まれるピクチャの種別には、少なくともIピクチャ、Pピクチャ
、Bピクチャがあり、
前記第0層には前記Iピクチャ及び前記Pピクチャがあり、前記第1乃至第3層には前
記Bピクチャがあり、
前記Bピクチャは、表示時間的に双方向の複数の他のピクチャを参照して符号化され、
かつ、他の前記Bピクチャの符号化に参照される参照Bピクチャと、他の前記Bピクチャ
の符号化に参照されない非参照Bピクチャとを含み、
前記0層の前記Pピクチャは、表示時間的に単方向のピクチャであって前記第0層の他
のピクチャを参照して符号化され、
前記符号化データは、前記第0乃至第3層のピクチャを復号する通常再生と、(1)前
記第1乃至第3層のピクチャ、(2)前記第2層及び第3層のピクチャ、または(3)前
記第3層のピクチャの復号を省略する高速再生と、を前記符号化データの途中で切り替え
可能なフォーマットであり、
前記制約は、
前記1つのGOP内の前記参照Bピクチャから他の前記参照Bピクチャへの参照を可
能とし、
前記Bピクチャに、表示時間的に直前の前記Iピクチャ又は前記Pピクチャよりもさ
らに表示時間的に前にありかつ前記第1層以上の階層にある他の前記Bピクチャへの参照
を不可としつつ、表示時間的に直前の前記Iピクチャ又は前記Pピクチャ、及び当該直前
の前記Iピクチャ又は前記Pピクチャよりも前にありかつ前記第0層にある他のピクチャ
への参照を可能とする、動画像符号化方法。
When generating encoded data having a picture hierarchy structure of 0th to 3rd layers using the first encoding method, control is performed to generate the encoded data according to restrictions, and the encoded data is , Delivered by broadcast waves,
One GOP (Group of Pictures) included in the encoded data includes a plurality of pictures,
The types of pictures included in the encoded data include at least an I picture, a P picture, and a B picture,
The 0th layer has the I picture and the P picture, the 1st to 3rd layers have the B picture,
The B picture is encoded with reference to a plurality of other pictures that are bidirectional in display time,
And a reference B picture that is referred to for encoding the other B picture, and a non-reference B picture that is not referred to for encoding the other B picture,
The P picture of the 0th layer is a unidirectional picture in display time and is encoded with reference to other pictures of the 0th layer,
The encoded data includes normal reproduction for decoding the 0th to 3rd layer pictures, (1) the 1st to 3rd layer pictures, (2) the 2nd and 3rd layer pictures, or (3) A format capable of switching between high-speed playback that omits decoding of the picture of the third layer and in the middle of the encoded data,
The constraints are
Enabling reference from the reference B picture in the one GOP to another reference B picture;
While prohibiting reference to other B pictures in the B picture that are earlier in display time than the I picture or P picture immediately before in display time and in the hierarchy higher than the first layer. , A moving picture that enables reference to the I picture or the P picture immediately before the display time, and to another picture that is before the I picture or the P picture immediately before and in the 0th layer Image coding method.
JP2015113470A 2015-06-03 2015-06-03 Video coding device and video coding method Pending JP2015188249A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015113470A JP2015188249A (en) 2015-06-03 2015-06-03 Video coding device and video coding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015113470A JP2015188249A (en) 2015-06-03 2015-06-03 Video coding device and video coding method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013017606A Division JP2014150384A (en) 2013-01-31 2013-01-31 Video coding device and video coding method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017006570A Division JP2017069987A (en) 2017-01-18 2017-01-18 Moving picture encoder and moving picture encoding method

Publications (1)

Publication Number Publication Date
JP2015188249A true JP2015188249A (en) 2015-10-29

Family

ID=54430234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015113470A Pending JP2015188249A (en) 2015-06-03 2015-06-03 Video coding device and video coding method

Country Status (1)

Country Link
JP (1) JP2015188249A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008219204A (en) * 2007-02-28 2008-09-18 Sony Corp Picture information encoder and encoding method
JP2009512268A (en) * 2005-10-05 2009-03-19 エルジー エレクトロニクス インコーポレイティド Video signal decoding method
JP2012085211A (en) * 2010-10-14 2012-04-26 Sony Corp Image processing device and method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009512268A (en) * 2005-10-05 2009-03-19 エルジー エレクトロニクス インコーポレイティド Video signal decoding method
JP2008219204A (en) * 2007-02-28 2008-09-18 Sony Corp Picture information encoder and encoding method
JP2012085211A (en) * 2010-10-14 2012-04-26 Sony Corp Image processing device and method, and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6013019829; ARIB STD-B32 2.8版 , 201212, p.78-p.82, 一般社団法人 電波産業会 *
JPN6016023092; Heiko Schwarz, et al.: 'Hierarchical B pictures' Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6)16th M JVT-P014, 20050719 *

Similar Documents

Publication Publication Date Title
JP5306358B2 (en) Multimedia encoding and decoding with additional information capabilities
JP5775083B2 (en) Method and apparatus for encoding and decoding mode information
CN108063976B (en) Video processing method and device
KR20130085977A (en) Multiple sign bit hiding within a transform unit
JP2013219727A (en) Image coding apparatus, image coding method and program, image decoding apparatus, image decoding method and program
CN116016913A (en) Video encoding and decoding method, video encoder and decoder, and computer readable medium
JP2016519508A5 (en)
JP2010148089A (en) Image splitting base ultrahigh resolution video encoding and decoding apparatus and method of controlling the same
JP2016063481A (en) Encoder, decoder, streaming system and streaming method
CN113348664A (en) Method and apparatus for video encoding and decoding
JP2015188249A (en) Video coding device and video coding method
US9066082B2 (en) Forensics in multi-channel media content
JP2014011572A5 (en) Moving picture predictive decoding apparatus, method and program
JP2017069987A (en) Moving picture encoder and moving picture encoding method
JP2012182672A (en) Encoder, video transmission apparatus and encoding method
WO2014119006A1 (en) Video coding device and video coding method
JP2008187694A (en) Image encoder and method thereof
WO2014119005A1 (en) Video coding device and video coding method
JP2010056600A (en) Device for encoding video signal and device for decoding video signal
JP2013198059A5 (en)
US20140211844A1 (en) Moving image encoding device and moving image encoding method
TWI793632B (en) Miscellaneous signaling concepts for multi-layer video bitstreams and for output timing derivation
US20140211843A1 (en) Moving image encoding device and moving image encoding method
JP2024059251A (en) VIDEO ENCODING APPARATUS, VIDEO DECODING APPARATUS, VIDEO ENCODING METHOD, AND VIDEO DECODING METHOD
JP5359724B2 (en) Streaming distribution system, server apparatus, streaming distribution method and program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160617

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160803

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20160803

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160803

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161018

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20161019