JP2018078545A - Method for selecting prediction mode of intraprediction, video coding device and image processing apparatus - Google Patents

Method for selecting prediction mode of intraprediction, video coding device and image processing apparatus Download PDF

Info

Publication number
JP2018078545A
JP2018078545A JP2017193720A JP2017193720A JP2018078545A JP 2018078545 A JP2018078545 A JP 2018078545A JP 2017193720 A JP2017193720 A JP 2017193720A JP 2017193720 A JP2017193720 A JP 2017193720A JP 2018078545 A JP2018078545 A JP 2018078545A
Authority
JP
Japan
Prior art keywords
prediction
conversion
prediction modes
transformation
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017193720A
Other languages
Japanese (ja)
Inventor
俊▲隆▼ 林
Chun-Lung Lin
俊▲隆▼ 林
▲敬▼傑 林
Ching-Chieh Lin
▲敬▼傑 林
柏翰 林
Po-Han Lin
柏翰 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from TW106133482A external-priority patent/TW201815164A/en
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of JP2018078545A publication Critical patent/JP2018078545A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a method for selecting prediction mode of intraprediction capable of improving video encoding efficiency and processing speed, while reducing the video encoding hardware mounting cost, and to provide a video coding device and an image processing apparatus.SOLUTION: A method for selecting prediction mode of intraprediction includes a step of calculating multiple prediction costs corresponding to multiple prediction modes in the intraprediction based on a block, when a conversion unit performs operation based on a preset conversion index, a step of selecting multiple candidate prediction modes from the prediction mode based on the prediction cost, a step of calculating multiple distortion costs corresponding to the candidate prediction modes in multiple conversion indices, based on the prediction cost corresponding to the block and candidate prediction mode, and a step of selecting one of the candidate prediction modes based on the distortion cost, as a prediction mode used for intraprediction corresponding to the block.SELECTED DRAWING: Figure 4

Description

本発明は、画面内予測の予測モードを選択する方法、ビデオ符号化デバイス及び画像処理装置に関する。   The present invention relates to a method for selecting a prediction mode for intra prediction, a video encoding device, and an image processing apparatus.

ネットワーク、通信システム、ディスプレイ及びコンピュータなどのアプリケーションの新技術の近頃の発展に従って、多くのアプリケーションは、いずれも例えば高いビデオ圧縮率、バーチャルリアリティ(Virtual Reality;VR)及び360度のビデオコンテンツのような効率的なビデオ符号化の解決方案を必要としている。その場に立ち臨むような視覚効果を提供するために、ビデオにおいてより詳細を見えるようにビデオ解像度を向上させるのが一般的なやり方である。VR技術は、通常、ヘッドマウントデバイス(Head Mounted device;HMD)により実現され、ヘッドマウントデバイスと目との距離は十分に接近しているため、必要なビデオコンテンツの解像度としては4K〜8K、さらには32K以上まで向上できることが好ましい。また、画面のリフレッシュレートもVRの使用感覚に影響するため、リフレッシュレートを毎秒30枚、毎秒90枚、さらに毎秒120枚まで増加させることが好ましい。上記の要求に基づき、従来の高効率ビデオ符号化(High Efficiency Video Coding;HEVC)(H.265とも称する)は、ユーザにより良好な視覚効果及び体験を提供することができない。   With the recent development of new technologies for applications such as networks, communication systems, displays and computers, many applications are all like high video compression rate, virtual reality (VR) and 360 degree video content, for example. There is a need for an efficient video coding solution. It is common practice to improve the video resolution so that more details can be seen in the video in order to provide an on-the-spot visual effect. VR technology is usually realized by a head mounted device (HMD), and the distance between the head mounted device and the eyes is sufficiently close, so that the necessary video content resolution is 4K-8K, Is preferably improved to 32K or more. Further, since the refresh rate of the screen also affects the feeling of using the VR, it is preferable to increase the refresh rate to 30 images per second, 90 images per second, and further 120 images per second. Based on the above requirements, conventional High Efficiency Video Coding (HEVC) (also referred to as H.265) cannot provide a better visual effect and experience to the user.

デジタルビデオに対する符号化効率及び画像品質を更に高めるために、共同ビデオ探索チーム(Joint Video Exploration Team;JVET)は、潜在的要求を解決する数種の強化型ビデオ符号化技術を共同探索テストモデル(Joint Exploration Test Model;JEM)に応用し、ビデオ符号化技術の進歩を試行的に推進している。JEMが採用する画面内予測(intra prediction)技術は、従来のHEVCが具備する35種類の予測モードから67種類の予測モードまで拡張され、より正確な角度予測に用いられる。   In order to further improve the coding efficiency and image quality for digital video, the Joint Video Exploration Team (JVET) has developed several enhanced video coding techniques that solve potential demands in a joint search test model ( This is applied to the Joint Exploration Test Model (JEM), and the advancement of video coding technology is being promoted on a trial basis. The intra prediction technology adopted by JEM is expanded from 35 kinds of prediction modes provided in the conventional HEVC to 67 kinds of prediction modes, and is used for more accurate angle prediction.

また、JEMは、さらに変換ユニット(Transform Unit;TU)にモード依存(mode−dependent)非分離型二次変換(non−separable secondary transform;NSST)技術を導入している。NSSTは、ビデオエンコーダの一次変換(primary transform)(コア変換(core transform)又は第1変換(first transform)とも言う)と量子化(quantization)との間で実現されることができ、また、ビデオエンコーダの逆量子化(de−quantization)と逆一次変換において実現されることもできる。NSSTは、指向性テクスチャパターン(directional texture pattern)においてよりよい圧縮率に達することができ、但し、比較的に複雑な演算を必要とする。   Further, JEM introduces a mode-dependent non-separable secondary transform (NSST) technique in a transform unit (Transform Unit; TU). NSST can be implemented between primary transform (also called core transform or first transform) and quantization of a video encoder, It can also be realized in de-quantization and inverse linear transformation of the encoder. NSST can reach better compression ratios in directional texture patterns, but requires relatively complex operations.

本発明は、ビデオ符号化の効率と処理速度を向上させるとともに、ビデオ符号化のハードウェア実装のコストを低減することができる、画面内予測の予測モードを選択する方法、ビデオ符号化デバイス及び画像処理装置を提供することを目的とする。   The present invention relates to a method for selecting a prediction mode for intra prediction, a video encoding device, and an image, which can improve the efficiency and processing speed of video encoding and reduce the cost of hardware implementation of video encoding. An object is to provide a processing apparatus.

本発明の画面内予測の予測モードを選択する方法は以下のステップを含む。変換ユニットが予め設定された変換インデックスに基づいて動作を行う場合、入力画像のブロックに基づいて画面内予測における複数の予測モードが対応する複数の予測コストを計算するステップ、前記複数の予測コストに基づいて前記複数の予測モードから複数の候補予測モードを選択するステップ、前記ブロック及び前記複数の候補予測モードが対応する前記予測コストに基づいて、複数の変換インデックスにおいて前記複数の候補予測モードが対応する複数の歪みコストを計算するステップ、及び前記歪みコストに基づいて前記複数の候補予測モードからそのうちの1つを選択して前記ブロックに対応する画面内予測の使用する予測モードとするステップ。   The method for selecting a prediction mode for intra prediction according to the present invention includes the following steps. When the conversion unit performs an operation based on a preset conversion index, calculating a plurality of prediction costs corresponding to a plurality of prediction modes in intra prediction based on a block of the input image, the plurality of prediction costs Selecting a plurality of candidate prediction modes from the plurality of prediction modes based on the prediction cost corresponding to the block and the plurality of candidate prediction modes, the plurality of candidate prediction modes corresponding to a plurality of transform indexes Calculating a plurality of distortion costs, and selecting one of the plurality of candidate prediction modes based on the distortion costs to make a prediction mode used for in-screen prediction corresponding to the block.

本発明のビデオ符号化デバイスは少なくとも変換ユニットと画面内予測ユニットとを含む。変換ユニットは、複数の変換インデックスに基づいて入力画像のブロックが対応する残差を変換することに用いられる。画面内予測ユニットは前記変換ユニットに結合される。前記変換ユニットが予め設定された変換インデックスに基づいて動作を行う場合、画面内予測ユニットは入力画像のブロックを取得し、かつ前記ブロックに基づいて画面内予測における複数の予測モードが対応する複数の予測コストを計算する。前記予め設定された変換インデックスは前記複数の変換インデックスのうちの1つである。画面内予測ユニットは、前記予測コストに基づいて前記予測モードから複数の候補予測モードを選択し、前記ブロック及び前記複数の候補予測モードが対応する前記予測コストに基づいて前記変換ユニットの前記複数の変換インデックスにおいて前記複数の候補予測モードが対応する複数の歪みコストを計算し、前記歪みコストに基づいて前記複数の候補予測モードからそのうちの1つを選択して前記ブロックに対応する画面内予測の使用する予測モードとする。   The video encoding device of the present invention includes at least a transform unit and an intra prediction unit. The transform unit is used to transform a residual corresponding to a block of the input image based on a plurality of transform indexes. An in-screen prediction unit is coupled to the conversion unit. When the conversion unit performs an operation based on a preset conversion index, the intra prediction unit obtains a block of the input image, and a plurality of prediction modes corresponding to a plurality of prediction modes in the intra prediction based on the block are obtained. Calculate the estimated cost. The preset conversion index is one of the plurality of conversion indexes. The in-screen prediction unit selects a plurality of candidate prediction modes from the prediction mode based on the prediction cost, and the plurality of conversion units based on the prediction cost to which the block and the plurality of candidate prediction modes correspond. Calculating a plurality of distortion costs corresponding to the plurality of candidate prediction modes in the transformed index, selecting one of the plurality of candidate prediction modes based on the distortion cost, and performing an intra-screen prediction corresponding to the block The prediction mode to be used is used.

本発明の画像処理装置はプロセッサとメモリとを含む。前記プロセッサが予め設定された変換インデックスに基づいて残差を変換する場合、入力画像のブロックに基づいて画面内予測における複数の予測モードが対応する複数の予測コストを計算する。前記残差は前記ブロックに対応する。プロセッサは前記予測コストに基づいて前記複数の予測モードから複数の候補予測モードを選択し、前記ブロック及び前記候補予測モードが対応する前記予測コストに基づいて、複数の変換インデックスにおいて前記候補予測モードが対応する複数の歪みコストを計算する。前記予め設定された変換インデックスは前記複数の変換インデックスのうちの1つである。プロセッサは前記歪みコストに基づいて前記複数の候補予測モードからそのうちの1つを選択して、前記ブロックに対応する画面内予測の使用する予測モードとする。   The image processing apparatus of the present invention includes a processor and a memory. When the processor converts a residual based on a preset conversion index, it calculates a plurality of prediction costs corresponding to a plurality of prediction modes in intra prediction based on a block of the input image. The residual corresponds to the block. The processor selects a plurality of candidate prediction modes from the plurality of prediction modes based on the prediction cost, and the candidate prediction mode is selected in a plurality of conversion indexes based on the prediction cost corresponding to the block and the candidate prediction mode. Calculate the corresponding multiple distortion costs. The preset conversion index is one of the plurality of conversion indexes. The processor selects one of the plurality of candidate prediction modes based on the distortion cost, and sets it as the prediction mode used by the intra prediction corresponding to the block.

上記に基づき、本発明の実施例に記載の画面内予測のモードの選択方法、ビデオ符号化デバイス及び画像処理装置が画面内予測の予測モードの選択を行うとき、まず、変換ユニットを予め設定された変換インデックスに設定してから(例えば、変換ユニットを、第2の変換ユニットを無効にし、かつ第1の変換ユニットのみで残差を変換する動作モードに設定する)、入力画像のブロックに基づいて画面内予測における各予測モードが対応する予測コストを計算し、これらの予測モードから複数の候補予測モードを選択する。次に、候補予測モードが対応する予測コスト及び前記ブロックによってこれらの候補予測モードから最適な(例えば、最も低い)歪みコストを具備する候補予測モードを、使用する予測モードとする。言い換えると、本発明の実施例は、変換ユニットにおける異なる動作モード(即ち、異なる変換インデックスに基づいて残差を変換する場合)に対して各予測モードが対応する予測コストの計算をそれぞれ行わず、変換ユニットにおける予測動作モード(即ち、予め設定された変換インデックスに基づいて残差を変換する場合)に対して画面内予測における各予測モードが対応する予測コストの計算を1回行う。そして、上記予測コストと変換ユニットが異なる変換インデックスにおいて残差を変換する場合を結合して歪みコストの計算を実現し、後続の候補予測モードの選択を行う。これにより、本発明の実施例は、予測コストの計算量を大幅に減少させ、ビデオ符号化の効率及び処理速度を向上させるとともに、ビデオ符号化のハードウェア実装のコストを低減することができる。   Based on the above, when the selection method of the intra prediction mode, the video encoding device, and the image processing apparatus described in the embodiments of the present invention select the prediction mode of the intra prediction, first, the conversion unit is set in advance. Based on the block of the input image (for example, the conversion unit is set to an operation mode in which the second conversion unit is disabled and the residual is converted only by the first conversion unit). Then, the prediction cost corresponding to each prediction mode in the intra prediction is calculated, and a plurality of candidate prediction modes are selected from these prediction modes. Next, a candidate prediction mode having an optimal (for example, the lowest) distortion cost from these candidate prediction modes according to the prediction cost corresponding to the candidate prediction mode and the block is set as a prediction mode to be used. In other words, the embodiment of the present invention does not calculate the prediction cost corresponding to each prediction mode for different operation modes in the conversion unit (i.e., when converting the residual based on different conversion indexes), The prediction cost corresponding to each prediction mode in the intra prediction is calculated once for the prediction operation mode in the conversion unit (that is, when the residual is converted based on a preset conversion index). Then, by combining the cases where the prediction cost and the conversion unit having different conversion units are used to convert the residual, the distortion cost is calculated, and the subsequent candidate prediction mode is selected. Thus, the embodiment of the present invention can greatly reduce the amount of calculation of the prediction cost, improve the efficiency and processing speed of video encoding, and reduce the cost of hardware implementation of video encoding.

本発明の画面内予測のモードの選択方法、ビデオ符号化デバイス及び画像処理装置は、予測コストの計算量を大幅に減少させ、ビデオ符号化の効率及び処理速度を向上させるとともに、ビデオ符号化のハードウェア実装のコストを低減することができる。   The method for selecting the mode of intra prediction of the present invention, the video encoding device, and the image processing apparatus greatly reduce the calculation amount of the prediction cost, improve the efficiency and processing speed of the video encoding, and improve the video encoding. Hardware implementation costs can be reduced.

本発明の実施例に基づくビデオ符号化デバイスの構造ブロック図である。FIG. 2 is a structural block diagram of a video encoding device according to an embodiment of the present invention. 本発明の実施例に符合する画像処理装置のブロック図である。1 is a block diagram of an image processing apparatus consistent with an embodiment of the present invention. 共同探索テストモデル(JEM)における画面内予測の2つの段階を示す図である。It is a figure which shows two steps of the prediction in a screen in a joint search test model (JEM). 本発明の実施例に符合する画面内予測の予測モードを選択する方法のフローチャートである。It is a flowchart of the method of selecting the prediction mode of the prediction in a screen corresponding to the Example of this invention.

本発明の上記特徴および長所をより分かりやすくするために、以下では、実施例と図面を合わせて詳しく説明を行う。   In order to make the above features and advantages of the present invention easier to understand, a detailed description will be given below in conjunction with the embodiments and the drawings.

図1は、本発明の実施例に基づくビデオ符号化デバイス100の構造ブロック図である。ビデオ符号化デバイス100は、得られた入力映像における複数枚の入力画像IMに基づいてビデオ符号化を行うことによって、入力映像のデータ量を減少させ、入力映像の伝送及び記憶を容易にしている。ビデオ符号化デバイス100が使用するビデオ符号化は共同探索テストモデル(JEM)であってもよく、本発明の実施例に符合する、ビデオ変換において第1の変換及び第2の変換(例えば、NSST)を具備するビデオ符号化であってもよい。   FIG. 1 is a structural block diagram of a video encoding device 100 according to an embodiment of the present invention. The video encoding device 100 performs video encoding based on a plurality of input images IM in the obtained input video, thereby reducing the data amount of the input video and facilitating transmission and storage of the input video. . The video encoding used by the video encoding device 100 may be a joint search test model (JEM), and in the video conversion, the first and second conversions (e.g., NSST) consistent with embodiments of the present invention. ) May be used.

本実施例のビデオ符号化デバイス100は、主に変換・量子化ユニット110と、逆量子化・逆変換ユニット120と、予測ユニット130と、ビデオ符号化デバイス100の入力端子N1に位置する加算器140と、逆量子化・逆変換ユニット120の出力端子N2に位置する加算器150と、画面バッファ160と、エントロピー符号化ユニット170とを含む。変換・量子化ユニット110は変換ユニット112と量子化ユニット115とを含む。予測ユニット130は画面内予測ユニット132及び画面間予測ユニット134とを含む。加算器140は、予測ユニット130によって提供された情報は、入力画像IMから引き算して入力画像IMの残差MRを得る。   The video encoding device 100 according to the present embodiment mainly includes a transform / quantization unit 110, an inverse quantization / inverse transform unit 120, a prediction unit 130, and an adder located at the input terminal N1 of the video encoding device 100. 140, an adder 150 located at the output terminal N2 of the inverse quantization / inverse transform unit 120, a screen buffer 160, and an entropy coding unit 170. The transform / quantization unit 110 includes a transform unit 112 and a quantization unit 115. The prediction unit 130 includes an intra-screen prediction unit 132 and an inter-screen prediction unit 134. The adder 140 subtracts the information provided by the prediction unit 130 from the input image IM to obtain a residual MR of the input image IM.

EMにおいて、変換ユニット112は第1の変換ユニット113と第2の変換ユニット114とを含む。第1の変換ユニット113は入力画像IMの残差MRに対して第1の変換(コア変換又は一次変換とも言う)を行う。第2の変換ユニット114は第1の変換が行われた残差に対して第2の変換を行う。ここの第2の変換はモード依存型非分離型二次変換(NSST)である。NSSTの残差処理は予測ユニット130(例えば、画面内予測ユニット132)が選択・使用する画面内予測モードと関連してもよい。JEMにおけるNSSTは3種類の変換コアを具備することができ、画面内予測ユニットは、選択的に、これらの変換コアを使用して残差符号化の効率を強化することができる。言い換えると、JEMは、選択的に、第1の変換及びNSSTにおける3種類の変換コアのうちの1つを使用して残差符号化を行うか、又はNSSTを無効にして第1の変換のみを使用して残差符号化を行うことができる。本実施例は複数の「変換インデックス」によってNSSTの動作モードを表している。そのうちの1つの変換インデックスは、変換ユニット112が第2の変換ユニット114を使用せずに現在ブロックの残差を変換することを表し、この動作モードは「予め設定された変換インデックス」により表されることができる。予め設定された変換インデックス以外の変換インデックスは、変換ユニット112が第2の変換ユニット114における少なくとも1つの変換コア(本発明で使用されるNSSTは3種類の変換コアを具備する)のうちの1つを使用して現在ブロックの残差を変換する動作モードを表すことに用いられる。言い換えると、本発明は4種類の変換インデックスを具備し、それぞれNSSTを無効にすること(変換インデックスは「0」である)、第1の変換コアを使用してNSSTを行うこと(変換インデックスは「1」である)、第2の変換コアを使用してNSSTを行うこと(変換インデックスは「2」である)、及び第3の変換コアを使用してNSSTを行うこと(変換インデックスは「3」である)を表す。   In the EM, the conversion unit 112 includes a first conversion unit 113 and a second conversion unit 114. The first conversion unit 113 performs a first conversion (also referred to as core conversion or primary conversion) on the residual MR of the input image IM. The second conversion unit 114 performs a second conversion on the residual subjected to the first conversion. The second transformation here is a mode-dependent non-separable secondary transformation (NSST). The NSST residual processing may be related to the intra prediction mode selected and used by the prediction unit 130 (for example, the intra prediction unit 132). NSST in JEM can comprise three types of transform cores, and the intra prediction unit can selectively use these transform cores to enhance the efficiency of residual coding. In other words, the JEM selectively performs residual encoding using one of the three transform cores in the first transform and NSST, or disables NSST and only the first transform. Can be used to perform residual encoding. In this embodiment, the operation mode of NSST is represented by a plurality of “conversion indexes”. One of the transform indexes represents that the transform unit 112 transforms the residual of the current block without using the second transform unit 114, and this operation mode is represented by “preset transform index”. Can. The conversion index other than the preset conversion index is one of the conversion units 112 out of at least one conversion core in the second conversion unit 114 (NSST used in the present invention includes three types of conversion cores). Is used to represent the mode of operation for transforming the residual of the current block. In other words, the present invention includes four types of conversion indexes, each of which disables NSST (the conversion index is “0”), and performs NSST using the first conversion core (the conversion index is NSST using the second conversion core (conversion index is “2”) and NSST using the third conversion core (conversion index is “1”). 3 ”).

変換ユニット112により残差変換されたデータTDは、量子化ユニット115によって処理された後にデータDAとなり、エントロピー符号化ユニット170の処理によって圧縮された映像データVDとなる。映像データVDはデータDAのほか、さらに予測ユニット130が生成する各種の画面内予測モード及び画面間予測モードを含んでもよい。   The data TD subjected to the residual transform by the transform unit 112 becomes the data DA after being processed by the quantization unit 115, and becomes the video data VD compressed by the processing of the entropy encoding unit 170. The video data VD may include various intra prediction modes and inter prediction modes generated by the prediction unit 130 in addition to the data DA.

ビデオエンコーダされたデータをシミュレーションするために、ビデオ符号化デバイス100は、逆量子化・逆変換ユニット120における逆量子化ユニット122と逆変換ユニット124によってデータDAをビデオエンコーダされた画像データに還元する。この画像データは、加算器150と入力画像IMの処理を経て画面バッファ160に一時的に保存される。ビデオエンコーダされた画像データは現在ブロックのモード予測として、画面内予測ユニット132及び画面間予測ユニット134に使用させることができる。   In order to simulate the video-encoded data, the video encoding device 100 reduces the data DA to video-encoded image data by the inverse quantization unit 122 and the inverse transform unit 124 in the inverse quantization and inverse transform unit 120. . This image data is temporarily stored in the screen buffer 160 through the processing of the adder 150 and the input image IM. The video-encoded image data can be used by the intra prediction unit 132 and the inter prediction unit 134 as the mode prediction of the current block.

画面内予測ユニット132は、同じ画面における解析されたブロックによって、処理中のブロックに対してピクセル値の予測及び残差の変換を行う。画面間予測ユニット134は、連続する複数の入力映像の間のブロックに対してピクセルの予測及び残差の変換を行う。   The in-screen prediction unit 132 performs pixel value prediction and residual conversion on the block being processed by the analyzed blocks on the same screen. The inter-screen prediction unit 134 performs pixel prediction and residual conversion on a block between a plurality of consecutive input images.

図1における各機能ブロックは、ハードウェアの方法により実現されてもよく、ソフトウェアプログラム又はファームウェアモジュールの方法により実現されてもよい。図2は、本発明の実施例に符合する画像処理装置200のブロック図である。図1におけるビデオ符号化デバイス100がソフトウェアプログラム又はファームウェアモジュールにより実現される場合、本発明の実施例を実現するために、画像処理装置200におけるプロセッサ210及びメモリ220により実行されてもよい。メモリ220は、コマンドで表されるビデオ符号化デバイス100における各ソフトウェアプログラム又はファームウェアモジュールを記憶することができる。これらのソフトウェアプログラム又はファームウェアモジュールを実行するために、プロセッサ210はメモリ220にアクセスすることができる。プロセッサ210は、中央処理ユニット、描画処理ユニット、マイクロプロセッサ、フィールドプログラマブル論理ゲートアレイ(Field Programmable Logic Gate Array)…などであってもよい。   Each functional block in FIG. 1 may be realized by a hardware method or a software program or a firmware module method. FIG. 2 is a block diagram of an image processing apparatus 200 consistent with the embodiment of the present invention. If the video encoding device 100 in FIG. 1 is implemented by a software program or firmware module, it may be executed by the processor 210 and the memory 220 in the image processing apparatus 200 to implement an embodiment of the present invention. The memory 220 can store each software program or firmware module in the video encoding device 100 represented by a command. The processor 210 can access the memory 220 to execute these software programs or firmware modules. The processor 210 may be a central processing unit, a drawing processing unit, a microprocessor, a field programmable logic gate array, etc.

JEMの画面内予測技術において、2つの段階によって、どの画面内符号化の予測モードを符号化を行う現在ブロックに用いるかを決定する。図3は、JEMにおける画面内予測の2つの段階を示す図である。第1の段階ST1はラフモード検出(rough mode detection;RMD)段階である。詳しくいうと、RMD段階は、2つのサブ段階ST11及びST12を含む。この2つのサブ段階ST11及びST12は、図1における画面内予測モード132により実現されることができる。サブ段階ST11は、絶対変換差の和(Sum Of Absolute Transformed Difference;SATD)方法を使用して現在ブロックが対応する複数の画面内予測モード(JEMにおいて35〜67種類の画面内予測モードを具備する)の予測コスト(SATDコストとも言える)を計算し、ここでは「画面内予測のSATDコストを計算する」という。サブ段階ST12は、これらの予測コストに基づいて上記複数の画面内予測モードから複数の候補予測モードを選択し、ここでは「候補予測モードを選択する」という。本実施例を応用するものは、その必要に応じて選択される候補予測モードの数を調整してもよく、例えば、候補予測モードとして低いSATDコストを具備する3〜5つの画面内予測モードを選択してもよい。本実施例は「候補予測モードとして3つの予測モードを選択する」ことによって本発明の実施例を実現する。   In JEM intra-screen prediction technology, the prediction mode of intra-screen encoding to be used for the current block to be encoded is determined in two stages. FIG. 3 is a diagram showing two stages of intra-screen prediction in JEM. The first stage ST1 is a rough mode detection (RMD) stage. In detail, the RMD stage includes two sub-stages ST11 and ST12. These two sub-stages ST11 and ST12 can be realized by the intra-screen prediction mode 132 in FIG. The sub-stage ST11 includes a plurality of intra-screen prediction modes (35 to 67 types of intra-screen prediction modes in JEM) to which the current block corresponds using the sum of absolute transform difference (SATD) method. ) Prediction cost (also referred to as a SATD cost) is calculated, and here it is referred to as “calculate the SATD cost for intra-screen prediction”. The sub-stage ST12 selects a plurality of candidate prediction modes from the plurality of intra-screen prediction modes based on these prediction costs, and is referred to as “select candidate prediction mode” here. The application of the present embodiment may adjust the number of candidate prediction modes selected according to the necessity. For example, three to five intra-screen prediction modes having a low SATD cost as candidate prediction modes. You may choose. This embodiment implements the embodiment of the present invention by “selecting three prediction modes as candidate prediction modes”.

第2の段階ST2はレート歪み最適化(Rate−Distortion Optimization;RDO)段階である。詳しく言うと、段階ST2は4つのサブ段階ST21〜ST24を含む。サブ段階21は図1の第1の変換ユニット113によって実現されることができる。サブ段階ST22は図1の第2の変換ユニット114によって実現されることができる。サブ段階ST23は図1の量子化ユニット115によって実現されることができる。サブ段階ST24は図1の画面内予測ユニット132又は量子化ユニット115のうちの1つによって実現されることができる。本発明実施例を応用するものは、その必要に応じて上記各サブ段階を実現する機能ブロックを調整してもよく、本発明はこれに限られない。   The second stage ST2 is a rate-distortion optimization (RDO) stage. Specifically, the stage ST2 includes four sub-stages ST21 to ST24. The sub-stage 21 can be realized by the first conversion unit 113 of FIG. The sub-stage ST22 can be realized by the second conversion unit 114 of FIG. The sub-stage ST23 can be realized by the quantization unit 115 of FIG. The sub-stage ST24 can be realized by one of the intra-screen prediction unit 132 or the quantization unit 115 of FIG. The application of the embodiment of the present invention may adjust the functional blocks for realizing each of the sub-stages as needed, and the present invention is not limited to this.

サブ段階ST21は、現在ブロック及びこれらの候補予測モードに対して第1の変換/コア変換/一次変換を行う。また、符号化効率を強化するために、本実施例はサブ段階ST22において、第1の変換が行われた現在ブロックの残差データに対して第2の変換(例えば、NSST)を行う。サブ段階ST23は、サブ段階ST22の現在ブロックの残差データに対して量子化符号化を行うことによって各候補予測モードが対応するレート歪みコスト(Rate−Distortion Cost;RDCost)を計算して歪みコストとする。本発明は前記レート歪みコストを前記歪みコストとする。サブ段階ST24は、実際の符号化ビットの数と量子化歪みとの間に最適なレート歪みコストを具備する候補予測モードを選択してこの現在ブロックに対応する画面内予測の使用する予測モードとすることに用いられ、ここで「現在ブロックの使用する予測モードを選択する」という。 The sub-stage ST21 performs first transformation / core transformation / primary transformation on the current block and these candidate prediction modes. In order to enhance the coding efficiency, in the present embodiment, in the sub-stage ST22, the second transformation (for example, NSST) is performed on the residual data of the current block on which the first transformation has been performed. The sub-stage ST23 calculates a rate-distortion cost (RDCost) corresponding to each candidate prediction mode by performing quantization coding on the residual data of the current block of the sub-stage ST22, thereby calculating the distortion cost. And In the present invention, the rate distortion cost is the distortion cost. The sub-stage ST24 selects a candidate prediction mode having an optimal rate distortion cost between the actual number of encoded bits and the quantization distortion, and uses a prediction mode to be used for intra prediction corresponding to the current block. Here, it is referred to as “selecting the prediction mode used by the current block”.

JEMの設計において、NSSTは3種類の変換ユニットを具備するため、4種類の動作モードを有する。これらの動作モードは、異なる変換インデックスにより表される。従って、各候補予測モードは、異なるNSST動作モードにおいてそれぞれ計算する必要がある。特に注意すべきこととして、JEMは67種類の画面内予測モード及び4種類のNSST動作モード(NSST変換インデックス(「0」〜「3」)で表す)を具備する。最適な画面内予測モードを精確に計算するため、かつ異なるNSST動作モードによってRDO段階の結果(候補予測モードに対する選択)に違いが生じ得るため、JEMは、各画面内予測モードが異なるNSSTの動作モードにおいてそれぞれRMD段階ST1及びRDO段階ST2を実行するようにし、このようにしてようやく選択された画面内予測モードが比較的正確であると認められる。   In the design of JEM, NSST has four types of operation modes since it has three types of conversion units. These operating modes are represented by different conversion indexes. Therefore, each candidate prediction mode needs to be calculated in a different NSST operation mode. Of particular note, JEM has 67 types of intra prediction modes and 4 types of NSST operation modes (represented by NSST conversion indexes (“0” to “3”)). JEM is an NSST operation with different in-screen prediction modes, because the optimal in-screen prediction mode can be calculated accurately, and the results of the RDO stage (selection for candidate prediction mode) can vary due to different NSST operation modes. In each mode, the RMD stage ST1 and the RDO stage ST2 are executed, and it is recognized that the intra prediction mode finally selected in this way is relatively accurate.

他の観点から見ると、残差のビットの数をさらに低減させるために、NSSTは画面内の予め設定された第2の変換に適用される。上記4種類のNSST変換インデックスの画面内予測モードの選択のプロセスは、概ね以下の演算1〜演算8のように記載できる。   Viewed from another perspective, NSST is applied to a second preset transformation in the screen to further reduce the number of residual bits. The process of selecting the intra prediction mode of the above four types of NSST conversion indexes can be generally described as the following operations 1 to 8.

演算1:NSST変換インデックスが「0」である場合のRMD段階(SATDコストに基づいて67種類の画面内予測モードから3つの候補予測モードを選択する)。   Calculation 1: RMD stage when NSST conversion index is “0” (selecting three candidate prediction modes from 67 types of intra prediction modes based on SATD cost).

演算2:NSST変換インデックスが「0」である場合のRDO段階(3つの候補予測モードから最適な画面内予測モードを選択する)。   Arithmetic 2: RDO stage when NSST conversion index is “0” (optimal in-screen prediction mode is selected from three candidate prediction modes).

演算3:NSST変換インデックスが「1」である場合のRMD段階(SATDコストに基づいて67種類の画面内予測モードから3つの候補予測モードを選択する)。   Calculation 3: RMD stage when NSST conversion index is “1” (selecting three candidate prediction modes from 67 types of intra-screen prediction modes based on SATD cost).

演算4:NSST変換インデックスが「1」である場合のRDO段階(3つの候補予測モードから最適な画面内予測モードを選択する)。   Arithmetic 4: RDO stage when NSST conversion index is “1” (optimal in-screen prediction mode is selected from three candidate prediction modes).

演算5:NSST変換インデックスが「2」である場合のRMD段階(SATDコストに基づいて67種類の画面内予測モードから3つの候補予測モードを選択する)。   Calculation 5: RMD stage when the NSST conversion index is “2” (selecting three candidate prediction modes from 67 types of intra-screen prediction modes based on the SATD cost).

演算6:NSST変換インデックスが「2」である場合のRDO段階(3つの候補予測モードから最適な画面内予測モードを選択する)。   Arithmetic 6: RDO stage when NSST conversion index is “2” (selecting an optimal in-screen prediction mode from three candidate prediction modes).

演算7:NSST変換インデックスが「3」である場合のRMD段階(SATDコストに基づいて67種類の画面内予測モードから3つの候補予測モードを選択する)。   Calculation 7: RMD stage when the NSST conversion index is “3” (selecting three candidate prediction modes from 67 types of intra-screen prediction modes based on the SATD cost).

演算8:NSST変換インデックスが「3」である場合のRDO段階(3つの候補予測モードから最適な画面内予測モードを選択する)。   Arithmetic 8: RDO stage when NSST conversion index is “3” (optimal in-screen prediction mode is selected from three candidate prediction modes).

上記演算1〜演算8から分かるとおり、どの画面内符号化でブロックに対して符号化を行うのが最も小さいコストを具備するかを速やかに計算することができるSATD方法であっても、RMD段階において、3つの候補予測モードにおける最も小さいSATDコストを計算するには、複数回計算する必要がある(例えば、演算1、演算3、演算5、演算7)。   As can be seen from the above operations 1 to 8, even in the SATD method that can quickly calculate which intra-frame encoding has the smallest cost for encoding a block, the RMD stage In order to calculate the smallest SATD cost in the three candidate prediction modes, it is necessary to calculate a plurality of times (for example, calculation 1, calculation 3, calculation 5, and calculation 7).

しかしながら、本発明の実施例によると、図3のサブ段階ST11におけるSATDコストに対する計算とNSSTの動作モードとは直接的に関連しておらず、言い換えると、SATDコストの計算とNSSTの動作モードの最終的なビデオ符号化結果に対する影響は大きくない。従って、異なるNSST変換インデックスにおいて、各画面内予測モードのSATDコストは、同じSATDコストを後続のRDO段階の異なるNSSTにおける動作モードの計算に用いることができる。これにより、本発明の実施例は、NSSTを予め設定された変換インデックス(例えば、NSSTの変換インデックスを「0」に設定する)に設定するときのみ、これらの画面内予測モードに対してSATDコストの計算を1回行い、これらのSATDコストを一時的に保存し、かつ「NSSTを他の変換インデックス(例えば、NSSTの変換インデックスを「1」〜「3」に設定する)に設定するときのSATDコストの計算」のステップを削除することで、計算のプロセスを大幅に節約することができる。言い換えると、本発明の実施例は、上記運算1のSATDコストの計算結果を一時的に保存し、かつ上記運算3、5、7を省略し、運算1により得られたSATDコストを計算して運算4、6、8を行うことで、計算量を節約することができる。   However, according to the embodiment of the present invention, the calculation for the SATD cost in the sub-stage ST11 of FIG. 3 is not directly related to the operation mode of the NSST, in other words, the calculation of the SATD cost and the operation mode of the NSST are not related. The impact on the final video encoding result is not significant. Therefore, in different NSST conversion indexes, the SATD cost of each intra-screen prediction mode can be used to calculate the operation mode in different NSST in the subsequent RDO stage. As a result, the embodiment of the present invention enables the SATD cost for these intra prediction modes only when NSST is set to a preset conversion index (for example, the conversion index of NSST is set to “0”). Is calculated once, these SATD costs are temporarily stored, and “when NSST is set to another conversion index (for example, the conversion index of NSST is set to“ 1 ”to“ 3 ”)” By eliminating the “calculate SATD cost” step, the calculation process can be saved significantly. In other words, the embodiment of the present invention temporarily stores the calculation result of the SATD cost of the calculation 1 and omits the calculations 3, 5, and 7 to calculate the SATD cost obtained by the calculation 1. By performing the calculations 4, 6, and 8, the amount of calculation can be saved.

図4は、本発明の実施例に符合する画面内予測の予測モードを選択する方法のフローチャートである。図4に記載の方法は図1に記載のビデオ符号化デバイス100及び図2に記載の画像処理装置200に適用することができる。図1及び図4を参照し、ステップS410において、変換ユニット112における第2の変換ユニット114の動作モードを無効にし、即ち、第2の変換ユニット114の変換インデックスを「0」に設定する。ステップS420において、第2の変換ユニット114が前記予め設定された変換インデックスに基づいて動作を行う場合、画面内予測ユニット132は、絶対変換差の和(SATD)の方法によって、入力画像IMの現在ブロックに基づいて画面内予測における複数の予測モードが対応する複数の予測コストを計算する。前記予測コストはSATDコストである。   FIG. 4 is a flowchart of a method for selecting a prediction mode for intra-screen prediction consistent with an embodiment of the present invention. The method described in FIG. 4 can be applied to the video encoding device 100 illustrated in FIG. 1 and the image processing apparatus 200 illustrated in FIG. 1 and 4, in step S410, the operation mode of the second conversion unit 114 in the conversion unit 112 is invalidated, that is, the conversion index of the second conversion unit 114 is set to “0”. In step S420, when the second conversion unit 114 performs an operation based on the preset conversion index, the in-screen prediction unit 132 uses the sum of absolute conversion differences (SATD) method to calculate the current input image IM. Based on the block, a plurality of prediction costs corresponding to a plurality of prediction modes in the intra prediction are calculated. The predicted cost is a SATD cost.

ステップS430において、画面内予測ユニット132はステップS420の予測コストに基づいて複数の画面内予測モード(例えば、67種類の画面内予測モード)から複数の候補予測モードを選択する。本実施例は67種類の画面内予測モードが対応する予測コストから最適な予測コストを探し出すことができる。画面内予測モードの数は選択された候補予測モードの数よりも多い。例えば、これらの予測コストから最も低い3つの予測コストが対応する画面内予測モードを探し出して予め選択された予測モードとする。   In step S430, the intra prediction unit 132 selects a plurality of candidate prediction modes from a plurality of intra prediction modes (for example, 67 types of intra prediction modes) based on the prediction cost in step S420. In this embodiment, the optimum prediction cost can be found from the prediction costs corresponding to the 67 types of intra-screen prediction modes. The number of intra prediction modes is greater than the number of selected candidate prediction modes. For example, an in-screen prediction mode corresponding to the lowest three prediction costs is searched from these prediction costs, and the prediction mode is selected in advance.

ステップS440において、これらの候補予測モードを選択した後、後続のステップに用いられるように、画面内予測ユニット132はこれらの候補予測モードが対応する予測コストを一時的に保存する。一部の実施例において、画面内予測ユニット132は各画面内予測モードが対応する予測コストを一時的に保存することができる。   After selecting these candidate prediction modes in step S440, the in-screen prediction unit 132 temporarily stores the prediction costs to which these candidate prediction modes correspond, as used in subsequent steps. In some embodiments, the intra-screen prediction unit 132 may temporarily store the prediction cost corresponding to each intra-screen prediction mode.

ステップS450において、複数の変換インデックス(本実施例は4つの変換インデックス「0」〜「3」を具備する)においてこれらの候補予測モードが対応する複数の歪みコストを計算するために、変換・量子化ユニット110における第1の変換ユニット113、第2の変換ユニット114及び量子化ユニット115によって、前記現在ブロック及びステップS430に選択された複数の候補予測モードが対応する予測コストに基づいて、レート歪み最適化(Rate−Distortion Optimization;RDO)検出を行ってもよい。本発明実施例の歪みコストは図3中RDO段階ST2におけるサブ段階ST23に記載のレート歪みコストにより実現されている。言い換えると、ステップS450の歪みコストの計算方法は図3におけるRDO段階ST2を参照することができる。   In step S450, in order to calculate a plurality of distortion costs corresponding to these candidate prediction modes in a plurality of transformation indexes (this embodiment includes four transformation indexes “0” to “3”), transformation / quantization is performed. Rate distortion based on the prediction cost corresponding to the current block and the plurality of candidate prediction modes selected in step S430 by the first transform unit 113, the second transform unit 114, and the quantization unit 115 in the quantization unit 110 Optimization (Rate-Distortion Optimization; RDO) detection may be performed. The distortion cost of the embodiment of the present invention is realized by the rate distortion cost described in the sub-stage ST23 in the RDO stage ST2 in FIG. In other words, the distortion cost calculation method in step S450 can refer to the RDO stage ST2 in FIG.

ステップS460において、第2の変換ユニット114に設定された変換インデックスが最後の変換インデックス(即ち、変換インデックス「3」であるか否か)であるか否かを判断する。第2の変換ユニット114で設定された変換インデックスが変換インデックス「3」ではない場合、ステップS460からステップS470に入り、第2の変換ユニット114で設定された変換インデックスに1を足す。また、変換インデックスに1を足した後、ステップS450に戻り、このNSSTの変換インデックスの場合の各候補予測コストが対応する歪みコストを計算する。ステップS450〜S470に基づいて、本発明は異なる変換インデックスの場合においてこれらの候補予測モードが対応する歪みコストを計算することができる。   In step S460, it is determined whether or not the conversion index set in the second conversion unit 114 is the last conversion index (that is, whether or not it is the conversion index “3”). When the conversion index set by the second conversion unit 114 is not the conversion index “3”, the process enters from step S460 to step S470, and 1 is added to the conversion index set by the second conversion unit 114. Further, after adding 1 to the conversion index, the process returns to step S450, and the distortion cost corresponding to each candidate prediction cost in the case of the conversion index of NSST is calculated. Based on steps S450 to S470, the present invention can calculate the distortion cost to which these candidate prediction modes correspond in the case of different transform indexes.

ステップS480において、画面内予測ユニット134(又はステップS480を実行する他の部品)は、ステップS450が計算して得られた歪みコストに基づいて、これらの候補予測モードからそのうちの1つを選択して前記現在ブロックに対応する画面内予測の使用する予測モードとすることができる。   In step S480, the intra-screen prediction unit 134 (or other component that executes step S480) selects one of these candidate prediction modes based on the distortion cost obtained by the calculation in step S450. Thus, the prediction mode used by the intra prediction corresponding to the current block can be set.

表1は、本発明実施例を採用したビデオ圧縮率と画像品質との比較である。表1における「Y」、「U」、「V」はカラ符号化方法である。「Y」は輝度(Luminance)を表し、「U」及び「V」はそれぞれクロミナンス(Chrominance)とクロマ(Chroma)を表す。   Table 1 is a comparison between the video compression rate and the image quality employing the embodiment of the present invention. “Y”, “U”, and “V” in Table 1 are color coding methods. “Y” represents luminance (Luminance), and “U” and “V” represent chrominance (Chroma) and chroma (Chroma), respectively.

表1は、本発明実施例を使用してビデオ符号化の後にデコードする画像と元のパターンとの比較結果である。ビデオ符号化された画像のY、U、V値と元のパターンとの差異は非常に小さいが、符号化時間は9%短縮され、ビデオ符号化の処理速度を大幅に向上させていることが分かる。 Table 1 shows a comparison result between an image to be decoded after video coding using the embodiment of the present invention and an original pattern. The difference between the Y, U, and V values of the video-encoded image and the original pattern is very small, but the encoding time is shortened by 9% and the video encoding processing speed is greatly improved. I understand.

上記に基づき、本発明の実施例に記載の画面内予測のモードの選択方法、ビデオ符号化デバイス及び画像処理装置が画面内予測の予測モードの選択を行うとき、まず、変換ユニットを予め設定された変換インデックスに設定してから(例えば、変換ユニットを、第2の変換ユニットを無効にし、かつ第1の変換ユニットのみで残差を変換する動作モードに設定する)、入力画像のブロックに基づいて画面内予測における各予測モードが対応する予測コストを計算し、これらの予測モードから複数の候補予測モードを選択する。次に、候補予測モードが対応する予測コスト及び前記ブロックによってこれらの候補予測モードから最適な(例えば、最も低い)歪みコストを具備する候補予測モードを、使用する予測モードとする。言い換えると、本発明の実施例は、変換ユニットにおける異なる動作モード(即ち、異なる変換インデックスに基づいて残差を変換する場合)に対して各予測モードが対応する予測コストの計算をそれぞれ行わず、変換ユニットにおける予測動作モード(即ち、予め設定された変換インデックスに基づいて残差を変換する場合)に対して画面内予測における各予測モードが対応する予測コストの計算を1回行う。そして、上記予測コストと変換ユニットが異なる変換インデックスにおいて残差を変換する場合を結合して歪みコストの計算を実現し、後続の候補予測モードの選択を行う。これにより、本発明の実施例は、予測コストの計算量を大幅に減少させ、ビデオ符号化の効率及び処理速度を向上させるとともに、ビデオ符号化のハードウェア実装のコストを低減することができる。   Based on the above, when the selection method of the intra prediction mode, the video encoding device, and the image processing apparatus described in the embodiments of the present invention select the prediction mode of the intra prediction, first, the conversion unit is set in advance. Based on the block of the input image (for example, the conversion unit is set to an operation mode in which the second conversion unit is disabled and the residual is converted only by the first conversion unit). Then, the prediction cost corresponding to each prediction mode in the intra prediction is calculated, and a plurality of candidate prediction modes are selected from these prediction modes. Next, a candidate prediction mode having an optimal (for example, the lowest) distortion cost from these candidate prediction modes according to the prediction cost corresponding to the candidate prediction mode and the block is set as a prediction mode to be used. In other words, the embodiment of the present invention does not calculate the prediction cost corresponding to each prediction mode for different operation modes in the conversion unit (i.e., when converting the residual based on different conversion indexes), The prediction cost corresponding to each prediction mode in the in-screen prediction is calculated once for the prediction operation mode in the conversion unit (that is, when the residual is converted based on a preset conversion index). Then, by combining the cases where the prediction cost and the conversion unit having different conversion units are used to convert the residual, the distortion cost is calculated, and the subsequent candidate prediction mode is selected. Thus, the embodiment of the present invention can greatly reduce the amount of calculation of the prediction cost, improve the efficiency and processing speed of video encoding, and reduce the cost of hardware implementation of video encoding.

本発明は実施例で以上のことを開示しているが、それは本発明を限定するものではなく、当業者は、本発明の主旨および範囲を遺脱しない条件において、些細な変動および修飾をしてもよいため、本発明の保護範囲は後の専利請求の範囲に限定した内容を基準とする。   While the present invention has been disclosed in the examples above, it is not intended to limit the invention and those skilled in the art will make minor variations and modifications without departing from the spirit and scope of the invention. Therefore, the protection scope of the present invention is based on the content limited to the scope of the patent claims later.

100 ビデオ符号化デバイス
110 変換・量子化ユニット
112 変換ユニット
113 第1の変換ユニット
114 第2の変換ユニット
115 量子化ユニット
120 逆量子化・逆変換ユニット
122 逆量子化ユニット
124 逆変換ユニット
130 予測ユニット
132 画面内予測ユニット
134 画面間予測ユニット
140、150 加算器
160 画面バッファ
170 エントロピー符号化ユニット
200 画像処理装置
210 プロセッサ
220 メモリ
S410〜S480 画面内予測の予測モードを選択する方法のステップ
ST1 ラフモード検出(RMD)段階
ST11 画面内予測のSATDコストを計算する
ST12 候補予測モードを選択する
ST2 レート歪み最適化(RDO)段階
ST21 第1の変換を行う
ST22 第2の変換を行う
ST23 量子化符号化を行う
ST24 現在ブロックの使用する予測モードを選択する
IM 入力画像
MR 入力画像の残差
TD、DA データ
VD 映像データ
N1 ビデオ符号化デバイスの入力端子
N2 逆量子化・逆変換ユニットの出力端子
100 video encoding device 110 transform / quantization unit 112 transform unit 113 first transform unit 114 second transform unit 115 quantization unit 120 inverse quantization / inverse transform unit 122 inverse quantization unit 124 inverse transform unit 130 prediction unit 132 Intra-screen prediction unit 134 Inter-screen prediction unit 140, 150 Adder 160 Screen buffer 170 Entropy encoding unit 200 Image processing device 210 Processor 220 Memory S410 to S480 Step ST1 of method for selecting prediction mode of intra-screen prediction Rough mode detection ( RMD) stage ST11 STAT cost of intra prediction is calculated ST12 candidate prediction mode is selected ST2 rate distortion optimization (RDO) stage ST21 first conversion is performed ST22 second conversion is performed S 23 ST24 that performs quantization coding IM selecting prediction mode used by current block Input image MR Input image residual TD, DA data VD Video data N1 Video encoding device input terminal N2 Inverse quantization / inverse transformation unit Output terminal

Claims (20)

変換ユニットが予め設定された変換インデックスに基づいて動作を行う場合、入力画像のブロックに基づいて画面内予測における複数の予測モードが対応する複数の予測コストを計算するステップと、
前記複数の予測コストに基づいて前記複数の予測モードから複数の候補予測モードを選択するステップと、
前記ブロック及び前記複数の候補予測モードが対応する前記予測コストに基づいて、複数の変換インデックスにおいて前記複数の候補予測モードが対応する複数の歪みコストを計算し、前記予め設定された変換インデックスが前記複数の変換インデックスのうちの1つであるステップと、
前記歪みコストに基づいて前記複数の候補予測モードからそのうちの1つを選択して前記ブロックに対応する画面内予測の使用する予測モードとするステップと
を含む、画面内予測の予測モードを選択する方法。
When the conversion unit performs an operation based on a preset conversion index, calculating a plurality of prediction costs corresponding to a plurality of prediction modes in intra prediction based on a block of the input image;
Selecting a plurality of candidate prediction modes from the plurality of prediction modes based on the plurality of prediction costs;
Based on the prediction cost to which the block and the plurality of candidate prediction modes correspond, calculate a plurality of distortion costs to which the plurality of candidate prediction modes correspond in a plurality of conversion indexes, and the preset conversion index is the A step that is one of a plurality of transform indexes;
Selecting one of the plurality of candidate prediction modes based on the distortion cost and setting the prediction mode to be used for the intra-screen prediction corresponding to the block. Method.
前記変換ユニットが第1の変換ユニットと第2の変換ユニットとを含み、前記第2の変換ユニットが非分離型二次変換(NSST)を使用する、請求項1に記載の画面内予測の予測モードを選択する方法。   The prediction of intra prediction according to claim 1, wherein the conversion unit includes a first conversion unit and a second conversion unit, and the second conversion unit uses non-separable secondary conversion (NSST). How to select a mode. 前記第2の変換ユニットが少なくとも1つの変換コアを含み、
前記予め設定された変換インデックスが、前記変換ユニットが前記第2の変換ユニットを使用せずに前記ブロックの残差を変換する動作モードを表すことに用いられ、前記予め設定された変換インデックス以外の前記変換インデックスが、前記変換ユニットが前記第2の変換ユニットにおける少なくとも1つの変換コアのうちの1つを使用して前記ブロックの残差を変換する動作モードを表すことに用いられる、請求項2に記載の画面内予測の予測モードを選択する方法。
The second conversion unit includes at least one conversion core;
The preset transformation index is used to represent an operation mode in which the transformation unit transforms the residual of the block without using the second transformation unit, and other than the preset transformation index. The transform index is used to represent an operation mode in which the transform unit transforms the residual of the block using one of at least one transform core in the second transform unit. The method of selecting the prediction mode of the in-screen prediction described in 2.
絶対変換差の和(SATD)の方法によって、前記入力画像の前記ブロックに基づいて前記画面内予測における前記複数の予測モードが対応する前記複数の予測コストを計算する、請求項1に記載の画面内予測の予測モードを選択する方法。   The screen according to claim 1, wherein the plurality of prediction costs corresponding to the plurality of prediction modes in the intra-screen prediction are calculated based on the block of the input image by a method of sum of absolute conversion differences (SATD). A method of selecting a prediction mode for intra prediction. レート歪み最適化(RDO)を用いて検査し、かつ前記ブロック及び前記複数の候補予測モードが対応する前記予測コストに基づいて、前記複数の変換インデックスにおいて前記複数の候補予測モードが対応する前記複数の歪みコストを計算する、請求項1に記載の画面内予測の予測モードを選択する方法。   The plurality of candidate prediction modes that correspond to the plurality of transform indexes based on the prediction cost that is tested using rate distortion optimization (RDO) and that corresponds to the block and the plurality of candidate prediction modes. The method for selecting a prediction mode for intra prediction according to claim 1, wherein a distortion cost of the image is calculated. 前記複数の候補予測モードを選択した後に、前記候補予測モードが対応する前記予測コストを一時的に保存するステップをさらに含む、請求項1に記載の画面内予測の予測モードを選択する方法。   The method of selecting a prediction mode for intra prediction according to claim 1, further comprising temporarily storing the prediction cost corresponding to the candidate prediction mode after selecting the plurality of candidate prediction modes. 前記画面内予測に使用されるビデオ符号化が共同探索テストモデル(JEM)であり、前記複数の予測モードの数が前記複数の候補予測モードの数よりも多い、請求項1に記載の画面内予測の予測モードを選択する方法。   The in-screen prediction according to claim 1, wherein the video encoding used for the in-screen prediction is a joint search test model (JEM), and the number of the plurality of prediction modes is larger than the number of the plurality of candidate prediction modes. A method of selecting a prediction mode of prediction. 複数の変換インデックスに基づいて入力画像のブロックが対応する残差を変換することに用いられる、変換ユニットと、
前記変換ユニットに結合され、前記変換ユニットが予め設定された変換インデックスに基づいて動作を行う場合、入力画像のブロックを取得し、かつ前記ブロックに基づいて画面内予測における複数の予測モードが対応する複数の予測コストを計算し、前記予め設定された変換インデックスが前記複数の変換インデックスのうちの1つである、画面内予測ユニットと、を含み、
前記画面内予測ユニットが前記複数の予測コストに基づいて前記複数の予測モードから複数の候補予測モードを選択し、前記ブロック及び前記複数の候補予測モードが対応する前記予測コストに基づいて、前記変換ユニットの前記複数の変換インデックスにおいて前記複数の候補予測モードが対応する複数の歪みコストを計算し、前記歪みコストに基づいて前記複数の候補予測モードからそのうちの1つを選択して前記ブロックに対応する画面内予測の使用する予測モードとする、ビデオ符号化デバイス。
A transform unit used to transform a residual corresponding to a block of input images based on a plurality of transform indexes;
When the conversion unit is coupled to the conversion unit and performs an operation based on a preset conversion index, a block of the input image is acquired, and a plurality of prediction modes in the intra prediction are supported based on the block. Calculating a plurality of prediction costs, wherein the preset conversion index is one of the plurality of conversion indexes, and an in-screen prediction unit,
The intra-screen prediction unit selects a plurality of candidate prediction modes from the plurality of prediction modes based on the plurality of prediction costs, and the conversion is performed based on the prediction costs corresponding to the block and the plurality of candidate prediction modes. Calculating a plurality of distortion costs corresponding to the plurality of candidate prediction modes in the plurality of transform indexes of a unit, and selecting one of the plurality of candidate prediction modes based on the distortion cost to correspond to the block A video encoding device having a prediction mode used for intra prediction.
前記変換ユニットが、
前記残差に対して第1の変換を行う、第1の変換ユニットと、
第2の変換として、前記第1の変換が行われた前記残差に対して選択的に非分離型二次変換を使用して変換された残差を生成する、第2の変換ユニットと
を含む、請求項8に記載のビデオ符号化デバイス。
The conversion unit is
A first conversion unit for performing a first conversion on the residual;
A second transformation unit that generates a residual transformed selectively using a non-separable quadratic transformation with respect to the residual subjected to the first transformation as a second transformation; and The video encoding device of claim 8, comprising:
前記変換ユニットが少なくとも1つの変換コアを含み、
前記予め設定された変換インデックスが、前記変換ユニットが前記第2の変換ユニットを使用せず、前記第1の変換ユニットを使用して前記残差を変換する動作モードを表すことに用いられ、前記予め設定された変換インデックス以外の前記変換インデックスが、前記変換ユニットが前記第1の変換ユニットと前記第2の変換ユニットにおける少なくとも1つの変換コアのうちの1つを使用して前記残差を変換する動作モードを表すことに用いられる、請求項9に記載のビデオ符号化デバイス。
The conversion unit includes at least one conversion core;
The preset conversion index is used to represent an operation mode in which the conversion unit does not use the second conversion unit but converts the residual using the first conversion unit; The transformation index other than a preset transformation index is used to transform the residual using the transformation unit using one of at least one transformation core in the first transformation unit and the second transformation unit. The video encoding device of claim 9, wherein the video encoding device is used to represent a mode of operation to be performed.
前記画面内予測ユニットが絶対変換差の和の方法によって、前記ブロックに基づいて前記画面内予測における前記複数の予測モードが対応する前記複数の予測コストを計算する、請求項8に記載のビデオ符号化デバイス。   The video code according to claim 8, wherein the intra prediction unit calculates the plurality of prediction costs corresponding to the plurality of prediction modes in the intra prediction based on the block by a method of sum of absolute conversion differences. Device. 前記画面内予測ユニットがレート歪み最適化を用いて検査し、前記ブロック及び前記複数の候補予測モードが対応する前記予測コストに基づいて、前記複数の変換インデックスにおける前記複数の候補予測モードが対応する前記複数の歪みコストを計算する、請求項8に記載のビデオ符号化デバイス。   The plurality of candidate prediction modes in the plurality of transform indexes correspond based on the prediction cost that the intra prediction unit examines using rate distortion optimization and the block and the plurality of candidate prediction modes correspond. The video encoding device of claim 8, wherein the plurality of distortion costs are calculated. 前記画面内予測ユニットが前記複数の候補予測モードを選択した後に、前記候補予測モードが対応する前記予測コストを一時的に保存する、請求項8に記載のビデオ符号化デバイス。   The video encoding device according to claim 8, wherein the prediction cost corresponding to the candidate prediction mode is temporarily stored after the intra prediction unit selects the plurality of candidate prediction modes. 前記ビデオ符号化デバイスに使用されるビデオ符号化が共同探索テストモデル(JEM)であり、前記複数の予測モードの数が前記複数の候補予測モードの数よりも多い、請求項8に記載のビデオ符号化デバイス。 The video of claim 8, wherein the video encoding used for the video encoding device is a joint search test model (JEM) and the number of the plurality of prediction modes is greater than the number of the plurality of candidate prediction modes. Encoding device. プロセッサと、
前記プロセッサに結合される、メモリと、を含み、
前記プロセッサが予め設定された変換インデックスに基づいて残差を変換する場合、入力画像のブロックに基づいて画面内予測における複数の予測モードが対応する複数の予測コストを計算し、前記残差が前記ブロックに対応し、前記プロセッサが前記複数の予測コストに基づいて前記複数の予測モードから複数の候補予測モードを選択し、前記ブロック及び前記複数の候補予測モードが対応する前記予測コストに基づいて、複数の変換インデックスにおいて前記複数の候補予測モードが対応する複数の歪みコストを計算し、前記予め設定された変換インデックスが前記複数の変換インデックスのうちの1つであり、
前記プロセッサが前記歪みコストに基づいて前記複数の候補予測モードからそのうちの1つを選択して、前記ブロックに対応する画面内予測の使用する予測モードとする、画像処理装置。
A processor;
A memory coupled to the processor;
When the processor converts a residual based on a preset conversion index, the processor calculates a plurality of prediction costs corresponding to a plurality of prediction modes in intra prediction based on a block of an input image, Corresponding to the block, the processor selects a plurality of candidate prediction modes from the plurality of prediction modes based on the plurality of prediction costs, and based on the prediction cost corresponding to the block and the plurality of candidate prediction modes, Calculating a plurality of distortion costs corresponding to the plurality of candidate prediction modes in a plurality of conversion indexes, and the preset conversion index is one of the plurality of conversion indexes;
The image processing apparatus, wherein the processor selects one of the plurality of candidate prediction modes based on the distortion cost and sets the prediction mode to be used for intra prediction corresponding to the block.
前記プロセッサが前記残差に対して第1の変換を行い、第2の変換として、前記第1の変換が行われた前記残差に対して非分離型二次変換を使用して変換された残差を生成する、請求項15に記載の画像処理装置。   The processor performs a first transformation on the residual, and a second transformation is performed using a non-separable quadratic transformation on the residual on which the first transformation has been performed. The image processing apparatus according to claim 15, wherein a residual is generated. 前記第2の変換が少なくとも1つの変換コアを含み、
前記予め設定された変換インデックスが、前記プロセッサが前記第2の変換を使用せず、前記第1の変換を使用して前記残差を変換する動作モードを表すことに用いられ、前記予め設定された変換インデックス以外の前記変換インデックスが、前記プロセッサが前記第1の変換と前記第2の変換における少なくとも1つの変換コアのうちの1つを使用して前記残差を変換する動作モードを表すことに用いられる、請求項16に記載の画像処理装置。
The second transformation includes at least one transformation core;
The preset transformation index is used to represent an operation mode in which the processor does not use the second transformation and transforms the residual using the first transformation. The transformation index other than the transformation index represents an operation mode in which the processor transforms the residual using one of at least one transformation core in the first transformation and the second transformation. The image processing apparatus according to claim 16, wherein the image processing apparatus is used.
前記プロセッサが絶対変換差の和の方法によって、前記ブロックに基づいて前記画面内予測における前記複数の予測モードが対応する前記複数の予測コストを計算する、請求項15に記載の画像処理装置。   The image processing device according to claim 15, wherein the processor calculates the plurality of prediction costs corresponding to the plurality of prediction modes in the intra prediction based on the block by a method of sum of absolute conversion differences. 前記プロセッサがレート歪み最適化を用いて検査し、前記ブロック及び前記複数の候補予測モードが対応する前記予測コストに基づいて、前記複数の変換インデックスにおいて前記複数の候補予測モードが対応する前記複数の歪みコストを計算する、請求項15に記載の画像処理装置。   The processor checks using rate distortion optimization, and the plurality of candidate prediction modes correspond to the plurality of transform indexes based on the prediction cost to which the block and the plurality of candidate prediction modes correspond. The image processing apparatus according to claim 15, wherein a distortion cost is calculated. 前記プロセッサが前記複数の候補予測モードを選択した後に、前記候補予測モードが対応する前記予測コストを一時的に保存し、
使用するビデオ符号化が共同探索テストモデル(JEM)であり、前記複数の予測モードの数が前記複数の候補予測モードの数よりも多い、請求項15に記載の画像処理装置。
After the processor selects the plurality of candidate prediction modes, temporarily stores the prediction cost corresponding to the candidate prediction mode;
The image processing apparatus according to claim 15, wherein the video encoding to be used is a joint search test model (JEM), and the number of the plurality of prediction modes is larger than the number of the plurality of candidate prediction modes.
JP2017193720A 2016-10-07 2017-10-03 Method for selecting prediction mode of intraprediction, video coding device and image processing apparatus Pending JP2018078545A (en)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201662405252P 2016-10-07 2016-10-07
US62/405,252 2016-10-07
TW106133482 2017-09-29
TW106133482A TW201815164A (en) 2016-10-07 2017-09-29 Method for selecting prediction mode of intra prediction, video encoding device and image processing apparatus
CN201710910588.8A CN107920247A (en) 2016-10-07 2017-09-29 Select method, video coding apparatus and the processing equipment of intra-frame prediction pattern
CN201710910588.8 2017-09-29

Publications (1)

Publication Number Publication Date
JP2018078545A true JP2018078545A (en) 2018-05-17

Family

ID=62151036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017193720A Pending JP2018078545A (en) 2016-10-07 2017-10-03 Method for selecting prediction mode of intraprediction, video coding device and image processing apparatus

Country Status (1)

Country Link
JP (1) JP2018078545A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112118444A (en) * 2019-06-20 2020-12-22 杭州海康威视数字技术股份有限公司 Encoding method and device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005191706A (en) * 2003-12-24 2005-07-14 Toshiba Corp Moving picture coding method and apparatus adopting the same
JP2008205627A (en) * 2007-02-16 2008-09-04 Toshiba Corp Information processor and inter-prediction mode determination method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005191706A (en) * 2003-12-24 2005-07-14 Toshiba Corp Moving picture coding method and apparatus adopting the same
JP2008205627A (en) * 2007-02-16 2008-09-04 Toshiba Corp Information processor and inter-prediction mode determination method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIANLE CHEN ET AL.: "Algorithm Description of Joint Exploration Test Model 3", JOINT VIDEO EXPLORATION TEAM (JVET) 3RD MEETING: GENEVA, vol. JVET-C1001_V3.docx, JPN6018046963, 6 July 2016 (2016-07-06), ISSN: 0004061555 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112118444A (en) * 2019-06-20 2020-12-22 杭州海康威视数字技术股份有限公司 Encoding method and device

Similar Documents

Publication Publication Date Title
JP6033725B2 (en) Moving picture encoding apparatus, moving picture decoding apparatus, moving picture encoding method, moving picture decoding method, and program
US8705611B2 (en) Image prediction encoding device, image prediction encoding method, image prediction encoding program, image prediction decoding device, image prediction decoding method, and image prediction decoding program
US9628825B2 (en) Video decoder, video encoder, video decoding method, and video encoding method
US20150208094A1 (en) Apparatus and method for determining dct size based on transform depth
US20180103251A1 (en) Method for selecting prediction mode of intra prediction, video encoding device and image processing apparatus
WO2020184348A1 (en) Image decoding device, image decoding method, and program
US10349071B2 (en) Motion vector searching apparatus, motion vector searching method, and storage medium storing motion vector searching program
KR20180016508A (en) Image encoding method, image decoding method, encoding device, and decoding device
JP2018074491A (en) Dynamic image encoding device, dynamic image encoding method, and dynamic image encoding program
JP2017168879A (en) Image coding device, image coding method, and image encoding program
JP7437426B2 (en) Inter prediction method and device, equipment, storage medium
JP2018078545A (en) Method for selecting prediction mode of intraprediction, video coding device and image processing apparatus
JP2012147290A (en) Image coding apparatus, image coding method, program, image decoding apparatus, image decoding method, and program
JP2017126829A (en) Moving image encoder, moving image encoding method and program
US20160057429A1 (en) Coding apparatus, method, computer product, and computer system
JP6176044B2 (en) Block structure determination circuit and information compression circuit
JP2014514808A (en) Method for reconstructing and encoding image blocks
WO2019150411A1 (en) Video encoding device, video encoding method, video decoding device, and video decoding method, and video encoding system
TW201815164A (en) Method for selecting prediction mode of intra prediction, video encoding device and image processing apparatus
JP7027044B2 (en) Image coding device, image coding method and program
WO2020054060A1 (en) Moving image encoding method and moving image encoding apparatus
US20220078437A1 (en) Encoding apparatus and program
JP7147145B2 (en) Video encoding device, video encoding method, and video encoding program
JP2016187171A (en) Video encoding device, video encoding method, and video encoding program
JP6004852B2 (en) Method and apparatus for encoding and reconstructing pixel blocks

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190625