JP6843239B2 - 符号化ユニットの深さ特定方法及び装置 - Google Patents

符号化ユニットの深さ特定方法及び装置 Download PDF

Info

Publication number
JP6843239B2
JP6843239B2 JP2019527221A JP2019527221A JP6843239B2 JP 6843239 B2 JP6843239 B2 JP 6843239B2 JP 2019527221 A JP2019527221 A JP 2019527221A JP 2019527221 A JP2019527221 A JP 2019527221A JP 6843239 B2 JP6843239 B2 JP 6843239B2
Authority
JP
Japan
Prior art keywords
unit
coding
frame
processing target
coding unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019527221A
Other languages
English (en)
Other versions
JP2020500482A (ja
Inventor
宏▲順▼ ▲張▼
宏▲順▼ ▲張▼
四新 林
四新 林
曦▲銘▼ 程
曦▲銘▼ 程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2020500482A publication Critical patent/JP2020500482A/ja
Application granted granted Critical
Publication of JP6843239B2 publication Critical patent/JP6843239B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本願は、2017年4月21日にて中国特許庁へ出願した、出願番号が2017102667988で、発明の名称が「符号化ユニットの深さ特定方法及び装置」である中国特許出願の優先権を主張し、その内容を全て参照により本願に組み込むものとする。
本願は、ビデオ符号化の技術分野に関し、より具体的には、符号化ユニットの深さ特定方法及び装置に関する。
近年来、デジタルビデオは、多くの消費者向けアプリケーションで主流のメディアコンテンツとなっており、より高い解像度とより良いビデオ品質に対する需要が高まっている。この需要に応えて、次世代のビデオ符号化の国際規格HEVC(High Efficiency Video Coding、高効率ビデオ符号化規格)が策定され始めた。H.264/AVC規格に比べ、HEVCはより高い符号化圧縮性能を得た。
図1を参照しながらHEVC符号化規格による符号化過程を紹介する。元ビデオシーケンスにおける1フレームの画像をキャッシュされた参照フレームとともにフレーム内予測又はフレーム間予測した後、予測値を得て、予測値を入力されたビデオフレームから減算して残差を得て、残差に対してDCT(Discrete Cosine Transform、離散サイコン変換)及び量化を施した後、残差係数を得て、そしてエントロピー符号化モジュールで符号化し、ビデオコードストリームを出力する。同時に、残差係数に対して逆量化及び逆変換を繰り返した後、再構築画像の残差値を得て、再構築画像の残差値とフレーム内又はフレーム間予測値とを加算して、再構築画像を得て、再構築画像に対してデブロッキングフィルタリング、ループフィルタリングを施した後、再構築フレームを得て、再構築フレームは、次のフレームの入力画像の参照フレームとして、参照フレームシーケンスに追加される。
HEVC規格において、入力されたビデオフレームは、一連の符号化ツリーユニットCTU(Coding Tree Unit)に分割される。フレーム内又はフレーム間予測の時、各CTUは、最大符号化ユニットLCU(Largest Code Unit)から、1レイヤーごとに、四分木の形で異なるサイズの符号化ユニットCU(Coding Unit)に分割される。深さが0である階層はLCUであり、そのサイズは、一般的には64*64であり、深さが1〜3である階層のサイズはそれぞれ32*32、16*16、8*8である。最適な符号化性能を達成するために、従来のHEVCでは、符号化ユニットCUブロックの深さ分割において最適モードを選択する時、完全トラバース方式を採用し、CUブロックの異なる深さの全てのモードについてレート歪みコストを算出し、そして1レイヤーずつに比較し、さらに、レート歪みコストが最小のモードを選択する。図2を参照し、最適モードのCU分割状況が示され、図2において、左側の図は具体的な分割方式であり、右側の図は左側の図の分割方式に対応する四分木であり、四分木におけるリーフノードは、左側の図における矢印で示される分割順に従って、各レイヤーにおける4つのCUブロックをさらに分割する必要があるか否かを示し、ただし、1は、必要があることを示し、0は、必要がないことを示す。
上記図2から分かるように、一部のCUブロックは、1レイヤー分割された後、最適モードを見つけ、更なる下向き分割、レート歪みコストの算出や比較を必要としない。図2に示すように、四分木のうち第1レイヤーにおける2つ目のCUブロックのノードの数値は0であり、更なる分割を必要としないことを示す。明らかに、従来の完全トラバースアルゴリズムによれば、その符号化予測過程はかなり時間がかかり、かつ多くの計算リソースを消費する必要がある。
これに鑑みて、本願は、従来の完全トラバース方法によれば、符号化ユニットの深さを特定する方法は符号化予測時間が長く、多くの計算リソースを消費する問題があることを解決するために、符号化ユニットの深さ特定方法及び装置を提供する。
本願の第1態様によれば、符号化ユニットの深さ特定方法であって、
処理対象符号化ユニットの現在の最適モードの残差係数を特定することと、
前記残差係数が0でない場合に、前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ取得して、予測特徴ベクトルサンプルを構成することと、
前記予測特徴ベクトルサンプルを事前トレーニングされた予測モデルに入力し、前記予測モデルから出力される、前記処理対象符号化ユニットの深さ分割を行う必要があるか否かを示すための予測結果を得ることと、を含み、
前記予測モデルは、分類結果で標識されたトレーニングサンプルを用いて事前トレーニングしたものであり、前記トレーニングサンプルは、前記所定タイプの符号化情報特徴を含む方法を提供する。
本願の第2態様によれば、符号化ユニットの深さ特定装置であって、
処理対象符号化ユニットの現在の最適モードの残差係数を特定する残差係数特定ユニットと、
前記残差係数が0でない場合に、前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ取得して、予測特徴ベクトルサンプルを構成する特徴取得ユニットと、
前記予測特徴ベクトルサンプルを事前トレーニングされた予測モデルに入力し、前記予測モデルから出力される、前記処理対象符号化ユニットの深さ分割を行う必要があるか否かを示すための予測結果を得るモデル予測ユニットと、を備え、
前記予測モデルは、分類結果で標識されたトレーニングサンプルを用いて事前トレーニングしたものであり、前記トレーニングサンプルは、前記所定タイプの符号化情報特徴を含む装置をさらに提供する。
本願の実施例の第3態様によれば、プログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、プロセッサは、記憶されたプログラム命令を実行する時に、上記いずれかの方法を実行する記憶媒体をさらに提供する。
本願の実施例に提供される符号化ユニットの深さ特定方法によれば、分類結果で標識されたトレーニングサンプルを用いて予測モデルを予めトレーニングし、このトレーニングサンプルは、所定タイプの符号化情報特徴を含み、さらに、処理対象符号化ユニットの現在の最適モードの残差係数が0でないと特定された場合に、処理対象符号化ユニットがskip符号化ユニットではなく、符号化深さの予測を行う必要があることが示唆され、さらに、処理対象符号化ユニット及びその存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴を取得し、予測特徴ベクトルサンプルを構成し、予測モデルに入力し、機械学習予測モデルを用いて処理対象符号化ユニットの深さ分割を行う必要があるか否かを予測する。本願では、予測結果から、処理対象符号化ユニットの深さ分割を行う必要がないことが示唆される場合に、処理対象符号化ユニットの深さ分割及びレート歪みコストの算出や比較を行う必要がなく、従来技術に比べその符号化予測時間が大幅に削減されるとともに、計算リソースが低減され、計算の複雑さが軽減される。
本発明の実施例の技術的構成をより明瞭に説明するために、以下、実施例の説明に必要な図面を簡単に紹介する。以下に説明される図面は本発明の一部の実施例に過ぎず、当業者であれば、これらの図面に基づいて他の附図を得ることができることは、明らかである。
HEVCによる符号化フレームワーク模式図である。 最適モードのCU分割模式図を示している。 本願の実施例に開示されるサーバハードウェア構造模式図である。 本願の実施例に開示される符号化ユニットの深さ特定方法のフローチャートである。 本願の実施例に開示される他の符号化ユニットの深さ特定方法のフローチャートである。 本願の実施例に開示される更なる符号化ユニットの深さ特定方法のフローチャートである。 本願の実施例に開示される第1平均コストの特定方法のフローチャートである。 Current CTUの各近隣符号化ツリーユニットのCU分割模式図を示している。 本願の実施例に開示される処理対象符号化ユニットの深さ分割を行う必要があるか否かを特定する方法のフローチャートである。 本願の実施例に開示される符号化ユニットの深さ特定装置の構造模式図である。
以下、本願の実施例の図面を結合して本願の実施例中の技術的構成を明瞭かつ完全に説明する。説明する実施例は本願の実施例の一部に過ぎず、全部でないことは、言うまでもないことである。当業者が本願の実施例に基づいて、創造的な労働無しに得られた他の実施例も、全て本願の保護範囲内に含まれる。
本願の実施例は、サーバに基づいて実現されるビデオエンコーダに適用可能な符号化ユニットの深さ特定ソリューションを提供する。このサーバのハードウェア構造は、コンピュータ、ノートパソコン等の処理装置であることができ、本願の符号化ユニットの深さ特定方法の紹介に先立って、まずサーバのハードウェア構造を紹介する。図3に示すように、このサーバは、
プロセッサ1と、通信インターフェース2と、メモリ3と、通信バス4と、ディスプレイ5とを備えることができる。
プロセッサ1、通信インターフェース2、メモリ3およびディスプレイ5は通信バス4を介して相互間の通信を達成する。
次に、サーバのハードウェア構造を結合して、本願の符号化ユニットの深さ特定方法を紹介し、図4に示すように、この方法は、以下のステップS100〜ステップS120を含む。
ステップS100:処理対象符号化ユニットの現在の最適モードの残差係数を特定する。
具体的には、処理対象符号化ユニットについて、標準プロトコルに基づいて候補mv(motion vector、動きベクトル)リストを構築し、そして、リストにおける各mvをトラバースし、做動き補償を行い、予測値を得て、その後、予測値と処理対象符号化ユニットの原画素との差分の二乗和(SSD、Sum of Squared Difference)を算出し、対応するmvのインデックスでトラバースされたビット数bitsを推定し、レート歪みコストrdcostの最小値に対応するmvを見つけ、最適モードのmvになる。ここで、
rdcost=SSD+λ*bit(λは定数である)。
さらに、最適なmvに対応するSSDを算出した結果を変換し量化して、残差係数を得る。残差係数が0であれば、処理対象符号化ユニットがskipブロックであることが示され、そうでなければ、mergeブロックである。
なお、残差係数が0であれば、処理対象符号化ユニットがskipブロックであることが示され、CU分割を直接終了してもよく、そうでなければ、処理対象符号化ユニットCUの分割予測を行う必要があることが示唆される。
具体的な実施にあたり、予め通信インターフェース2によって処理対象ビデオフレーム画像をメモリ3に記憶することができる。符号化時に、プロセッサ1は、通信バス4を介して、メモリに記憶された処理対象ビデオフレーム画像を取得し、複数の符号化ユニットに分割し、その中から処理対象符号化ユニットを特定し、処理対象符号化ユニットの現在の最適モードの残差係数を特定する。
オプションとして、通信インターフェース2は通信モジュールのインターフェース、例えば、GSM(登録商標)モジュールのインターフェースであってもよい。
オプションとして、プロセッサ1は、中央処理装置CPU又は特定用途向け集積回路ASIC(Application Specific Integrated Circuit)であるか、或いは、本願の実施例を実施する1つ又は複数の集積回路として構成されてもよい。
ステップS110:前記残差係数が0でない場合に、前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ取得して、予測特徴ベクトルサンプルを構成する。
具体的には、本ステップで取得された符号化情報特徴のタイプと、予測モデルのトレーニング過程に使用されるトレーニングサンプルのタイプとが同じである。本願では、各タイプの符号化情報特徴テンプレートを予め設定することができ、さらに、符号化情報特徴テンプレートに従って、前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから符号化情報特徴を取得し、取得された符号化情報特徴によって予測特徴ベクトルサンプルが構成される。符号化情報特徴の取得対象は、処理対象符号化ユニットCU、および、処理対象符号化ユニットCUの存在する符号化ツリーユニットCTUの近隣符号化ツリーユニットCTUである。
具体的な実施にあたり、メモリ3に各タイプの符号化情報特徴テンプレートを予め記憶することができ、さらに、プロセッサ1は符号化情報特徴テンプレートに従って、処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから符号化情報特徴を取得して、予測特徴ベクトルサンプルを構成することができる。
ステップS120:前記予測特徴ベクトルサンプルを事前トレーニングされた予測モデルに入力し、前記予測モデルから出力される予測結果を得て、前記予測結果は、前記処理対象符号化ユニットの深さ分割を行う必要があるか否かを示すためである。
前記予測モデルは、分類結果で標識されたトレーニングサンプルを用いて事前トレーニングしたものであり、前記トレーニングサンプルは、前記所定タイプの符号化情報特徴を含む。
具体的な実施にあたり、予測モデルをメモリ3に予め記憶することができる。予測時に、プロセッサ1は、前記予測特徴ベクトルサンプルを事前トレーニングされた予測モデルに入力し、前記予測モデルから出力される予測結果を得て、ディスプレイ5を介して出力し表示する。
予測モデルは、SVM(Support Vector Machine、サポートベクトルマシン)モデル、又は、ニューラルネットワークモデル機械学習モデル等であることができる。
本願の実施例に提供される符号化ユニットの深さ特定方法によれば、分類結果で標識されたトレーニングサンプルを用いて予測モデルを予めトレーニングし、このトレーニングサンプルは、所定タイプの符号化情報特徴を含み、さらに、処理対象符号化ユニットの現在の最適モードの残差係数が0でないと特定された場合に、処理対象符号化ユニットがskip符号化ユニットではなく、符号化深さの予測を行う必要があることが示唆され、さらに、処理対象符号化ユニット及びその存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴を取得して、予測特徴ベクトルサンプルを構成し、予測モデルに入力し、機械学習予測モデルを用いて処理対象符号化ユニットの深さ分割を行う必要があるか否かを予測する。本願では、予測結果から、処理対象符号化ユニットの深さ分割を行う必要がないことが示唆される場合に、処理対象符号化ユニットの深さ分割及びレート歪みコストの算出や比較を行う必要がなく、従来技術に比べその符号化予測時間が大幅に削減されるとともに、計算リソースが低減され、計算の複雑さが軽減される。
オプションとして、符号化全過程においてIフレームの占める比率が小さいため、本願では、非Iフレームビデオ画像に属する処理対象符号化ユニットのみについて深さ特定を行ってもよく、つまり、上記処理対象符号化ユニットは非Iフレームビデオ画像に属する。
本願の他の実施例において、他の符号化ユニットの深さ特定方法を紹介し、図5に示すように、この方法は、以下のステップS200〜ステップS230を含む。
ステップS200:処理対象符号化ユニットの現在の最適モードの残差係数を特定する。
ステップS210:前記残差係数が0でない場合に、前記処理対象符号化ユニットの符号化深さが0であるか否かを判断し、YESであれば、ステップS220を実行する。
具体的には、処理対象符号化ユニットの符号化深さが0であれば、処理対象符号化ユニットが最大符号化ユニットLCUであることが示され、つまり、符号化ツリーユニットCTUの分割を行っていない。
本実施例において、処理対象符号化ユニットの符号化深さが0であると特定された場合に、後述する予測モデルを用いて処理対象符号化ユニットの深さ分割を行う必要があるか否かを予測する操作を実行する。
なお、符号化深さが0でない処理対象符号化ユニットについて、予測モデルを用いて予測する中、その算出過程も複雑であり、本願では、他の方式で予測することができ、詳しくは、明細書の後述する関連紹介を参照する。
ステップS220:前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ取得して、予測特徴ベクトルサンプルを構成する。
ステップS230:前記予測特徴ベクトルサンプルを事前トレーニングされた予測モデルに入力し、前記予測モデルから出力される予測結果を得て、前記予測結果は、前記処理対象符号化ユニットの深さ分割を行う必要があるか否かを示すためである。
前記予測モデルは、分類結果で標識されたトレーニングサンプルを用いて事前トレーニングしたものであり、前記トレーニングサンプルは、前記所定タイプの符号化情報特徴を含む。
前の実施例に比べ、本実施例において、予測モデルを用いて符号化深さの予測を行う判断条件が追加され、即ち、処理対象符号化ユニットの符号化深さが0であると特定された場合に、モデル予測過程を実行する。符号化深さが0でない処理対象符号化ユニットについて、予測モデルを用いて予測する中、その算出過程も複雑であり、本願では、他の方式で予測することができ、詳しくは、明細書の後述する関連紹介を参照する。
本願の他の実施例において、予測モデルを紹介する。
ビデオコードストリームにおけるBフレームとPフレームの誤差積算周期が異なるため、予測モデルの予測結果をより正確にするために、本願では、予測モデルがPフレーム予測モデルとBフレーム予測モデルを含むとしてもよい。
ただし、
Pフレーム予測モデルの事前トレーニング時に使用されるトレーニングサンプルは、Pフレームビデオ画像に属する符号化ユニットから抽出した所定タイプの符号化情報特徴である。
Bフレーム予測モデルの事前トレーニング時に使用されるトレーニングサンプルは、Bフレームビデオ画像に属する符号化ユニットから抽出した前記所定タイプの符号化情報特徴である。
上記ステップS230において、前記予測特徴ベクトルサンプルを事前トレーニングされた予測モデルに入力し、前記予測モデルから出力される予測結果を得る過程は、具体的には、以下のステップにより実現される。
S1:前記処理対象符号化ユニットの属するビデオフレーム画像のタイプがPフレームかそれともBフレームかを特定する。
S2:Pフレームであれば、前記予測特徴ベクトルサンプルを前記Pフレーム予測モデルに入力し、前記Pフレーム予測モデルから出力される予測結果を得る。
S3:Bフレームであれば、前記予測特徴ベクトルサンプルを前記Bフレーム予測モデルに入力し、前記Bフレーム予測モデルから出力される予測結果を得る。
本願では、Bフレーム及びPフレームビデオ画像に含まれる処理対象符号化ユニットに対して異なる予測モデルを用いて予測することで、予測結果の正確度を向上させている。
次に、本願の予測モデルの確立過程を紹介する。
一、トレーニング特徴の取得
まず、予測モデルのトレーニング時に使用されるトレーニングサンプルを紹介する。処理対象符号化ユニットを現在符号化ユニットとして定義し、処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットを現在符号化ユニットの近隣符号化ツリーユニットとして定義すれば、本願では、予測モデルのトレーニング時に使用される所定タイプの符号化情報特徴は、
1、現在符号化ユニットのコスト(curr_merge_rdcost)
2、現在符号化ユニットの歪み(curr_merge_distortion)
3、現在符号化ユニットの量化係数(curr_qp)
4、現在符号化ユニットの分散(curr_var)
5、現在符号化ユニットの近隣符号化ツリーユニットのコスト(around_rdcost)
6、現在符号化ユニットの近隣符号化ツリーユニットの深さ情報(around_depth)、を含むことができる。
現在符号化ユニットの近隣符号化ツリーユニットは、現在符号化ユニットの存在する符号化ツリーユニットの上側の近隣符号化ツリーユニット及び左側の近隣符号化ツリーユニットであることができ、上記符号化情報特徴5は、具体的には、
51、現在符号化ユニットの左側の近隣符号化ツリーユニットのコスト(left_rdcost)
52、現在符号化ユニットの上側の近隣符号化ツリーユニットのコスト(above_rdcost)、を含むことができる。
上記符号化情報特徴6は、具体的には、
61、現在符号化ユニットの左側の近隣符号化ツリーユニットの深さ情報(left_depth)
62、現在符号化ユニットの上側の近隣符号化ツリーユニットの深さ情報(above_depth)、を含むことができる。
なお、予測モデルのトレーニング時に使用される符号化情報特徴のタイプと、処理対象符号化ユニットがモデル予測を行う時に取得した符号化情報特徴のタイプとは一致しなければならない。
これに基づいて、本願では、異なる場面でのビデオコードストリームシーケンスを選択することができ、シーケンスに含まれるトレーニングされる符号化ユニットごとに、上記各タイプの符号化情報特徴をオフラインで抽出し、実際の符号化過程において、トレーニングされる符号化ユニットの深さ分割を行ったか否かを記録し、YESであれば、トレーニングされる符号化ユニットの分類結果を第1標識値として標識し、NOであれば、トレーニングされる符号化ユニットの分類結果を第2標識値として標識する。第1標識値は1であることができ、第2標識値は−1であることができる。
トレーニングされる符号化ユニットで取得された各タイプの符号化情報特徴からトレーニング特徴ベクトルを構成し、トレーニング特徴ベクトル及びトレーニングされる符号化ユニットの分類結果からトレーニングサンプルを構成する。
なお、Bフレーム予測モデルとPフレーム予測モデルとは個別にトレーニングされるため、BフレームとPフレームの符号化情報特徴も個別に抽出されるべきである。そして、本実施例では、符号化深さが0であるトレーニングされる符号化ユニットのみを抽出してもよく、トレーニングした予測モデルは、符号化深さが0である処理対象符号化ユニットのみについて予測する。
二、モデルのトレーニング
本実施例では、SVMモデルでトレーニングすることができ、サードパーティによるオープンソースソフトウェアを用いて、オフラインでトレーニングする。
S1:トレーニングサンプルの組み合わせ。1:1の割合で、分類結果がそれぞれ深さ分割を必要とすること及び深さ分割を必要としないことであるトレーニングサンプルを取得し、そして入れ替えて全トレーニングサンプルセットになる。
S2:トレーニングサンプルの標準化。整理しておくトレーニングサンプルを標準化し、トレーニングサンプルを区間[−1,1]にマッピングする。
本ステップにおいて、トレーニングサンプルの標準化操作を行うのは、データ形式を統一するためであり、予測の正確度を向上させることができる。
S3:モデルのトレーニング。サードパーティによるオープンソースソフトウェアを呼び出し、RBFカーネルを用いて、Bフレームに属するトレーニングサンプル、Pフレームに属するトレーニングサンプルを個別にトレーニングし、最後にBフレーム予測モデル及びPフレーム予測モデルをそれぞれ得て、mode_B_cu64*64及びmode_P_cu64*64として記する。
本願の更なる実施例において、更なる符号化ユニットの深さ特定方法を紹介し、図6に示すように、この方法は、以下のステップS300〜ステップS360を含む。
ステップS300:処理対象符号化ユニットの現在の最適モードの残差係数を特定する。
ステップS310:前記残差係数が0でない場合に、前記処理対象符号化ユニットの符号化深さが0であるか否かを判断し、YESであれば、ステップS320を実行し、NOであれば、ステップS340を実行する。
具体的には、処理対象符号化ユニットの符号化深さが0であれば、処理対象符号化ユニットが最大符号化ユニットLCUであることが示され、つまり、符号化ツリーユニットCTUの分割を行っていない。
本実施例において、処理対象符号化ユニットの符号化深さが0であると特定された場合に、後述する予測モデルを用いて処理対象符号化ユニットの深さ分割を行う必要があるか否かを予測する操作を実行する。処理対象符号化ユニットの符号化深さが0でないと特定された場合に、他の方法で符号化深さの予測を行う。
ステップS320:前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ取得して、予測特徴ベクトルサンプルを構成する。
ステップS330:前記予測特徴ベクトルサンプルを事前トレーニングされた予測モデルに入力し、前記予測モデルから出力される予測結果を得て、前記予測結果は、前記処理対象符号化ユニットの深さ分割を行う必要があるか否かを示す。
前記予測モデルは、分類結果で標識されたトレーニングサンプルを用いて事前トレーニングしたものであり、前記トレーニングサンプルは、前記所定タイプの符号化情報特徴を含む。
上記ステップS300〜S330は、前の実施例におけるステップS200〜S230と1対1で対応し、ここでは、その詳細な説明を省略する。
ステップS340:前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットのうち、前記処理対象符号化ユニットと同じ符号化深さの符号化ユニットの平均コストを特定し、第1平均コストとする;
ステップS350:前記処理対象符号化ユニットの存在する符号化ツリーユニットのうち、同じ符号化深さの符号化済みの符号化ユニットの平均コストを特定し、第2平均コストとする。
ステップS360:前記第1平均コスト及び前記第2平均コストに基づいて、前記処理対象符号化ユニットの深さ分割を行う必要があるか否かを特定する。
上述した各実施例に比べ、本実施例において、処理対象符号化ユニットの符号化深さが0でないと特定された場合に、処理対象符号化ユニットの符号化深さを予測する過程が追加され、即ち、処理対象符号化ユニット及びその存在する符号化ツリーユニットの近隣符号化ツリーユニットのうち同じ符号化深さの符号化ユニットの平均コストに基づいて、処理対象符号化ユニットの深さ分割を行う必要があるか否かを予測する。1フレームのビデオ画像における近隣する符号化ツリーユニットの像素分布に大きな差が出るはずはないため、符号化済みの近隣符号化ツリーのうち同じ符号化深さの符号化ユニットの平均コストに基づいて、処理対象符号化ユニットの深さ分割を行う必要があるか否かを予測することができ、その予測結果の正確率が比較的に高く、かつ処理対象符号化ユニットの深さ分割及びレート歪みコストの算出や比較を行う必要がなく、従来技術に比べその符号化予測時間が大幅に削減されるとともに、計算リソースが低減され、計算の複雑さが軽減される。
さらに、上記ステップS340の実現過程を紹介し、詳しくは図7を参照し、この過程は以下のステップS400〜ステップS420を含むことができる。
ステップS400:前記処理対象符号化ユニットの存在する符号化ツリーユニットの各近隣符号化ツリーユニットから、前記処理対象符号化ユニットと同じ符号化深さの符号化ユニットの平均コストを特定する。
ステップS410:各前記近隣符号化ツリーユニットと前記処理対象符号化ユニットの存在する符号化ツリーユニットとの方位関係に従って、各前記近隣符号化ツリーユニットの重み値を特定する。
具体的には、説明のために、処理対象符号化ユニットの存在する符号化ツリーユニットをCurrent CTUとして定義し、Current CTUの近隣符号化ツリーユニットは、左側の近隣符号化ツリーユニットLeft CTU、左上隅の近隣符号化ツリーユニットAboveLeft CTU、上側の近隣符号化ツリーユニットAbove CTU、右上隅の近隣符号化ツリーユニットAboveRight CTUを含むことができる。
図8には、Current CTUの各近隣符号化ツリーユニットが示されている。
なお、Current CTUと各近隣CTUとの方位関係が異なり、さらに、各近隣CTUの重み値も異なる。
オプションとする対応関係において、近隣CTUの重みの比は、
Left CTU:Above CTU:AboveLeft CTU:AboveRight CTU=2:2:1:1である。
ステップS420:各前記近隣符号化ツリーユニットの重み値及びその平均コストに基づいて、各前記近隣符号化ツリーユニットの重み付き平均コストを特定し、第1平均コストとする。
具体的には、各近隣符号化ツリーユニットの平均コストと対応する重み値とを乗算し、乗算結果を得て、各乗算結果を加算し、重み付き平均コストを得て、第1平均コストとする。
図8に示される場合を例として、第1平均コストの特定過程を説明する。
処理対象符号化ユニットの符号化深さを1とする。図8から分かるように、Left CTUは、4つの符号化深さが1であるCU32*32を含み、AboveLeft CTUは、3つの符号化深さが1であるCU32*32を含み、Above CTは、0個の符号化深さが1であるCU32*32を含み、AboveRight CTUは、2つの符号化深さが1であるCU32*32を含む。
CTUにおいて符号化深さが1である4つのCU32*32の位置標識は、時計回り方向に左上隅から順に0、1、2、3であると定義される。
図8から分かるように、
left_depth1_cost=left_depth1_cost0+left_depth1_cost1+left_depth1_cost2+left_depth1_cost3;
aboveleft_depth1_cost=aboveleft_depth1_cost0+aboveleft_depth1_cost2+aboveleft_depth1_cost3;
aboveright_depth1_cost=aboveright_depth1_cost1+aboveright_depth1_cost2である。
式1を例として説明すると、left_depth1_costは、左側の近隣CTUのうち符号化深さが1であるCUの平均コストを示し、left_depth1_cost0は、左側の近隣CTUのうち符号化深さが1であるCUにおける位置標識が0であるCUのコストを示す。
さらに、全ての近隣CTUのうち符号化深さが1であるCUの重み付き平均コストは、
Avg_depth1_cost=(left_depth1_cost*2+aboveleft_depth1_cost*1+aboveright_depth1_cost*1)/(left_depth1_num*2+aboveleft_depth1_num*1+aboveright_depth1_num*1)である。
式中、left_depth1_num、aboveleft_depth1_num、aboveright_depth1_numは、それぞれ、左側の近隣、左上の近隣及右上の近隣CTUのうち、符号化深さが1であるCUの数を示す。
なお、以上、あくまでも符号化深さが1である場合について説明したが、符号化深さが2、3である場合の算出方式は、上記と同様である。
さらに、上記ステップS360で、前記第1平均コスト及び前記第2平均コストに基づいて、前記処理対象符号化ユニットの深さ分割を行う必要があるか否かを特定する実現過程を紹介し、詳しくは図9を参照し、この過程は以下のステップS500〜ステップS530を含むことができる。
ステップS500:前記第1平均コスト及び前記第2平均コストに基づいて、コスト閾値を特定する。
具体的には、第1平均コストと第2平均コストについて異なる重み値を設定することができ、さらに、第1平均コスト及び第2平均コストを重み付き加算し、その結果をコスト閾値とすることができる。
オプションとして、近隣CTUはすべて符号化が済んだので、第1平均コストの重み値を第2平均コストの重み値よりも大きく設定してもよい。
ステップS510:前記処理対象符号化ユニットの現在の最適モードのコストが前記コスト閾値よりも小さいか否かを判断し、YESであれば、ステップS520を実行し、NOであれば、ステップS530を実行する。
ステップS520:前記処理対象符号化ユニットの深さ分割を行う必要がないと特定する。
ステップS530:前記処理対象符号化ユニットの深さ分割を行う必要があると特定する。
具体的には、処理対象符号化ユニットの現在の最適モードのコストがコスト閾値よりも小さければ、本願では、処理対象符号化ユニットの深さ分割をこれ以上行う必要がないと認められ、そうでなければ、処理対象符号化ユニットの深さ分割が依然として必要であることが示される。
処理対象符号化ユニットの符号化深さを相変わらず1とし、図8に示されるものを結合して説明する。
前記処理対象符号化ユニットの存在する符号化ツリーユニットのうち符号化深さが1である符号化済みの符号化ユニットの平均コストは、Avg_curr_CU_depth1で示され、つまり、第2平均コストはAvg_curr_CU_depth1で示されることを定義する。
第1平均コストと第2平均コストの重み値の比を4:3に設定する。コスト閾値は、
Threshold_depth1=(Avg_depth1_cost*4+Avg_curr_CU_depth1*3)/(3+4)で示される。
処理対象符号化ユニットの現在の最適モードのコストをcurr_cost_depth1として定義し、curr_cost_depth1<Threshold_depth1であると特定されていれば、処理対象符号化ユニットの深さ分割をこれ以上行う必要がないと認められ、そうでなければ、深さ分割を行う必要がある。
本願に提供される上記方法及び従来技術によって実験検証すると、従来の完全トラバース方法に比べ、本願の方法では符号化速度が94%増加し、圧縮率が3.1%減少したことが分かり、これにより、本願では、圧縮率が少し減少した割に、符号化速度がかなり増加しているため、ビデオエンコーダの符号化速度が大幅に増加され、算出の複雑さが大幅に軽減される。
以下、本願の実施例に提供される符号化ユニットの深さ特定装置を説明し、後述する符号化ユニットの深さ特定装置は、上述した符号化ユニットの深さ特定方法と互いに対応して参照することができる。
図10を参照し、図10は、本願の実施例に開示される符号化ユニットの深さ特定装置の構造模式図である。
図10に示すように、この装置は、
処理対象符号化ユニットの現在の最適モードの残差係数を特定する残差係数特定ユニット11と、
前記残差係数が0でない場合に、前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ取得して、予測特徴ベクトルサンプルを構成する特徴取得ユニット12と、
前記予測特徴ベクトルサンプルを事前トレーニングされた予測モデルに入力し、前記予測モデルから出力される、前記処理対象符号化ユニットの深さ分割を行う必要があるか否かを示すための予測結果を得るモデル予測ユニット13と、を備え、
前記予測モデルは、分類結果で標識されたトレーニングサンプルを用いて事前トレーニングしたものであり、前記トレーニングサンプルは、前記所定タイプの符号化情報特徴を含む。
本願の実施例に提供される符号化ユニットの深さ特定装置によれば、分類結果で標識されたトレーニングサンプルを用いて予測モデルを予めトレーニングし、このトレーニングサンプルは、所定タイプの符号化情報特徴を含み、さらに、処理対象符号化ユニットの現在の最適モードの残差係数が0でないと特定された場合に、処理対象符号化ユニットがskip符号化ユニットではなく、符号化深さの予測を行う必要があることが示唆され、さらに、処理対象符号化ユニット及びその存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴を取得して、予測特徴ベクトルサンプルを構成し、予測モデルに入力し、機械学習予測モデルを用いて処理対象符号化ユニットの深さ分割を行う必要があるか否かを予測する。本願では、予測結果から、処理対象符号化ユニットの深さ分割を行う必要がないことが示唆される場合に、処理対象符号化ユニットの深さ分割及びレート歪みコストの算出や比較を行う必要がなく、従来技術に比べその符号化予測時間が大幅に削減されるとともに、計算リソースが低減され、計算の複雑さが軽減される。
オプションとして、前記残差係数特定ユニットは、具体的には、非Iフレームビデオ画像に属する処理対象符号化ユニットの現在の最適モードの残差を特定してもよい。
オプションとして、本願の装置は、
前記処理対象符号化ユニットの符号化深さが0であるか否かを判断する符号化深さ判断ユニットをさらに備えてもよい。
これに基づいて、前記特徴取得ユニットは、具体的には、前記符号化深さ判断ユニットの判断結果がYESである場合に、前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ抽出する。
オプションとして、本願の装置は、
前記処理対象符号化ユニットの符号化深さが0でないと判断された場合に、前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットのうち、前記処理対象符号化ユニットと同じ符号化深さの符号化ユニットの平均コストを特定し、第1平均コストとする近隣平均コスト特定ユニットと、
前記処理対象符号化ユニットの存在する符号化ツリーユニットのうち、同じ符号化深さの符号化済みの符号化ユニットの平均コストを特定し、第2平均コストとする自身平均コスト特定ユニットと、
前記第1平均コスト及び前記第2平均コストに基づいて、前記処理対象符号化ユニットの深さ分割を行う必要があるか否かを特定する深さ分割判断ユニットと、をさらに備えてもよい。
オプションとして、前記予測モデルは、Pフレーム予測モデル及びBフレーム予測モデルを含み、前記Pフレーム予測モデルの事前トレーニング時に使用されるトレーニングサンプルは、Pフレームビデオ画像に属する符号化ユニットから抽出した前記所定タイプの符号化情報特徴であり、前記Bフレーム予測モデルの事前トレーニング時に使用されるトレーニングサンプルは、Bフレームビデオ画像に属する符号化ユニットから抽出した前記所定タイプの符号化情報特徴であるようにしてもよい。これに基づいて、前記モデル予測ユニットは、
前記処理対象符号化ユニットの属するビデオフレーム画像のタイプがPフレームかそれともBフレームかを特定するフレームタイプ特定ユニットと、
前記フレームタイプ特定ユニットによってPフレームであると特定された場合に、前記予測特徴ベクトルサンプルを前記Pフレーム予測モデルに入力し、前記Pフレーム予測モデルから出力される予測結果を得るPフレームモデル予測ユニットと、
前記フレームタイプ特定ユニットによってBフレームであると特定された場合に、前記予測特徴ベクトルサンプルを前記Bフレーム予測モデルに入力し、前記Bフレーム予測モデルから出力される予測結果を得るBフレームモデル予測ユニットと、を含んでもよい。
オプションとして、前記特徴取得ユニットは、
前記処理対象符号化ユニットのコスト、量化係数、歪み及び分散を取得する第1特徴取得ユニットと、
前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットのコスト及び深さ情報を取得する第2特徴取得ユニットと、を含んでもよい。
オプションとして、前記近隣平均コスト特定ユニットは、
前記処理対象符号化ユニットの存在する符号化ツリーユニットの各近隣符号化ツリーユニットから、前記処理対象符号化ユニットと同じ符号化深さの符号化ユニットの平均コストを特定する第1近隣平均コスト特定サブユニットと、
各前記近隣符号化ツリーユニットと前記処理対象符号化ユニットの存在する符号化ツリーユニットとの方位関係に従って、各前記近隣符号化ツリーユニットの重み値を特定する第2近隣平均コスト特定サブユニットと、
各前記近隣符号化ツリーユニットの重み値及びその平均コストに基づいて、各前記近隣符号化ツリーユニットの重み付き平均コストを特定し、第1平均コストとする第3近隣平均コスト特定サブユニットと、を含んでもよい。
オプションとして、前記深さ分割判断ユニットは、
前記第1平均コスト及び前記第2平均コストに基づいて、コスト閾値を特定するコスト閾値特定ユニットと、
前記処理対象符号化ユニットの現在の最適モードのコストが前記コスト閾値よりも小さいか否かを判断し、YESであれば、前記処理対象符号化ユニットの深さ分割を行う必要がないと特定し、NOであれば、前記処理対象符号化ユニットの深さ分割を行う必要があると特定するコスト閾値比較ユニットと、を含んでもよい。
本願の実施例にはビデオエンコーダがさらに開示され、このビデオエンコーダは、上述した符号化ユニットの深さ特定装置を備える。
さらに、ビデオエンコーダは、以上で紹介した予測モデルをさらに備えてもよい。本願に開示されるビデオエンコーダは、従来のビデオエンコーダに比べ、その符号化速度が大幅に増加され、算出の複雑さも大幅に軽減される。
なお、最後に、本文において、第1及び第2のような関係を表す用語は、あくまでもエンティティ又は操作を他のエンティティ又は操作から区別するためであり、これらのエンティティ又は操作間にこのような実際の関係や順番があることを要求するか暗示するとは限らない。また、用語である「含む」、「有する」及びそれらの如何なる変形は、排他的にならずに含まれたものをカバーすることがその意図であり、これにより、一連の要素を含めた過程、方法、製品又は機器は、これらの要素を含むだけでなく、明確にリストアップされていない他の要素をも含むか、或いは、これらの過程、方法、製品又は機器に固有であったりする他の要素をも含む。更なる限定がない場合に、「1つの・・・を含む」という表現で限定された要素は、前記要素を含む過程、方法、製品又は機器には他の同一の要素がさらに含まれていることを排除しない。
本明細書において、各実施例を順に説明し、各実施例について重点を置いて説明した部分は他の実施例と異なるものであり、各実施例間で同一の又は類似した部分は互いに参照すればよい。
開示された実施例を以上のように説明することで、当業者は本願を実現又は使用することができる。これらの実施例に対する様々な修正は当業者にとって自明なものであり、本文に定義された一般的な原理は本願の思想や範囲から逸脱しない限り、他の実施例にて実現されることができる。このため、本願は本文に示されるこれらの実施例に制限されることなく、本文に開示された原理及び新規特徴と一致する最も広い範囲に合致する。
1 プロセッサ
2 通信インターフェース
3 メモリ
4 通信バス
5 ディスプレイ
11 残差係数特定ユニット
12 特徴取得ユニット
13 モデル予測ユニット

Claims (9)

  1. 処理対象符号化ユニットの現在の最適モードの残差係数を特定することと、
    前記残差係数が0でない場合に、前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ取得して、予測特徴ベクトルサンプルを構成することであって、前記処理対象符号化ユニットの符号化情報特徴は、前記処理対象符号化ユニットのレート歪みコスト、量化係数、歪み及び分散であり、前記近隣符号化ツリーユニットの符号化情報特徴は、前記近隣符号化ツリーユニットのレート歪みコスト及び深さ情報である、構成することと、
    前記予測特徴ベクトルサンプルを事前トレーニングされた予測モデルに入力し、前記予測モデルから出力される、前記処理対象符号化ユニットの深さ分割を行う必要があるか否かを示すための予測結果を得ることと、を含み、
    前記予測モデルは、符号化ユニットの深さ分割を行ったか否かを示す分類結果で標識されたトレーニングサンプルを用いて事前トレーニングしたものであり、前記トレーニングサンプルは、前記所定タイプの符号化情報特徴を含む、ことを特徴とする符号化ユニットの深さ特定方法。
  2. 前記処理対象符号化ユニットは、非Iフレームビデオ画像に属する、ことを特徴とする請求項1に記載の方法。
  3. 前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ抽出する前に、
    前記処理対象符号化ユニットの符号化深さが0であるか否かを判断し、YESであれば、前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ抽出するステップを実行すること、をさらに含む、ことを特徴とする請求項1に記載の方法。
  4. 前記予測モデルは、Pフレーム予測モデルとBフレーム予測モデルとを含み、前記Pフレーム予測モデルの事前トレーニング時に使用されるトレーニングサンプルは、Pフレームビデオ画像に属する符号化ユニットから抽出した前記所定タイプの符号化情報特徴であり、前記Bフレーム予測モデルの事前トレーニング時に使用されるトレーニングサンプルは、Bフレームビデオ画像に属する符号化ユニットから抽出した前記所定タイプの符号化情報特徴であり、
    前記予測特徴ベクトルサンプルを事前トレーニングされた予測モデルに入力し、前記予測モデルから出力される予測結果を得ることは、
    前記処理対象符号化ユニットの属するビデオフレーム画像のタイプがPフレームかそれともBフレームかを特定することと、
    Pフレームであれば、前記予測特徴ベクトルサンプルを前記Pフレーム予測モデルに入力し、前記Pフレーム予測モデルから出力される予測結果を得ることと、
    Bフレームであれば、前記予測特徴ベクトルサンプルを前記Bフレーム予測モデルに入力し、前記Bフレーム予測モデルから出力される予測結果を得ることと、を含む、ことを特徴とする請求項1乃至のうちのいずれか一項に記載の方法。
  5. 処理対象符号化ユニットの現在の最適モードの残差係数を特定する残差係数特定ユニットと、
    前記残差係数が0でない場合に、前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ取得して、予測特徴ベクトルサンプルを構成する特徴取得ユニットであって、前記処理対象符号化ユニットの符号化情報特徴は、前記処理対象符号化ユニットのレート歪みコスト、量化係数、歪み及び分散であり、前記近隣符号化ツリーユニットの符号化情報特徴は、前記近隣符号化ツリーユニットのレート歪みコスト及び深さ情報である、特徴取得ユニットと、
    前記予測特徴ベクトルサンプルを事前トレーニングされた予測モデルに入力し、前記予測モデルから出力される、前記処理対象符号化ユニットの深さ分割を行う必要があるか否かを示すための予測結果を得るモデル予測ユニットと、を備え、
    前記予測モデルは、符号化ユニットの深さ分割を行ったか否かを示す分類結果で標識されたトレーニングサンプルを用いて事前トレーニングしたものであり、前記トレーニングサンプルは、前記所定タイプの符号化情報特徴を含む、ことを特徴とする符号化ユニットの深さ特定装置。
  6. 前記残差係数特定ユニットは、具体的には、非Iフレームビデオ画像に属する処理対象符号化ユニットの現在の最適モードの残差係数を特定する、ことを特徴とする請求項に記載の装置。
  7. 前記処理対象符号化ユニットの符号化深さが0であるか否かを判断する符号化深さ判断ユニット、をさらに備え、
    前記特徴取得ユニットは、具体的には、前記符号化深さ判断ユニットの判断結果がYESである場合に、前記処理対象符号化ユニット及び前記処理対象符号化ユニットの存在する符号化ツリーユニットの近隣符号化ツリーユニットから、所定タイプの符号化情報特徴をそれぞれ抽出する、ことを特徴とする請求項に記載の装置。
  8. 前記予測モデルは、Pフレーム予測モデルとBフレーム予測モデルとを含み、前記Pフレーム予測モデルの事前トレーニング時に使用されるトレーニングサンプルは、Pフレームビデオ画像に属する符号化ユニットから抽出した前記所定タイプの符号化情報特徴であり、前記Bフレーム予測モデルの事前トレーニング時に使用されるトレーニングサンプルは、Bフレームビデオ画像に属する符号化ユニットから抽出した前記所定タイプの符号化情報特徴であり、
    前記モデル予測ユニットは、
    前記処理対象符号化ユニットの属するビデオフレーム画像のタイプがPフレームかそれともBフレームかを特定するフレームタイプ特定ユニットと、
    前記フレームタイプ特定ユニットによってPフレームであると特定された場合に、前記予測特徴ベクトルサンプルを前記Pフレーム予測モデルに入力し、前記Pフレーム予測モデルから出力される予測結果を得るPフレームモデル予測ユニットと、
    前記フレームタイプ特定ユニットによってBフレームであると特定された場合に、前記予測特徴ベクトルサンプルを前記Bフレーム予測モデルに入力し、前記Bフレーム予測モデルから出力される予測結果を得るBフレームモデル予測ユニットと、を含む、ことを特徴とする請求項乃至のうちのいずれか一項に記載の装置。
  9. プログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、プロセッサは、記憶されたプログラム命令を実行する時に、請求項1乃至のうちのいずれか一項に記載の方法を実行することを特徴とする記憶媒体。
JP2019527221A 2017-04-21 2017-12-08 符号化ユニットの深さ特定方法及び装置 Active JP6843239B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710266798.8A CN108737841B (zh) 2017-04-21 2017-04-21 编码单元深度确定方法及装置
CN201710266798.8 2017-04-21
PCT/CN2017/115175 WO2018192235A1 (zh) 2017-04-21 2017-12-08 编码单元深度确定方法及装置

Publications (2)

Publication Number Publication Date
JP2020500482A JP2020500482A (ja) 2020-01-09
JP6843239B2 true JP6843239B2 (ja) 2021-03-17

Family

ID=63856188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019527221A Active JP6843239B2 (ja) 2017-04-21 2017-12-08 符号化ユニットの深さ特定方法及び装置

Country Status (6)

Country Link
US (1) US10841583B2 (ja)
EP (1) EP3614666A4 (ja)
JP (1) JP6843239B2 (ja)
KR (1) KR102252816B1 (ja)
CN (1) CN108737841B (ja)
WO (1) WO2018192235A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11128871B2 (en) 2018-04-25 2021-09-21 Panasonic Intellectual Property Corporation Of America Encoder for adaptively determining information related to splitting based on characteristics of neighboring samples
GB2578769B (en) 2018-11-07 2022-07-20 Advanced Risc Mach Ltd Data processing systems
GB2583061B (en) * 2019-02-12 2023-03-15 Advanced Risc Mach Ltd Data processing systems
CN109862354B (zh) * 2019-02-18 2023-02-10 南京邮电大学 一种基于残差分布的hevc快速帧间深度划分方法
CN109889842B (zh) * 2019-02-21 2022-02-08 北方工业大学 基于knn分类器的虚拟现实视频cu划分算法
CN110581990B (zh) * 2019-09-25 2021-07-27 杭州当虹科技股份有限公司 一种适用于hevc 4k和8k超高清编码的tu递归快速算法
CN113593539B (zh) * 2020-04-30 2024-08-02 阿里巴巴集团控股有限公司 流式端到端语音识别方法、装置及电子设备
CN112866692B (zh) * 2021-01-18 2022-04-26 北京邮电大学 一种基于hevc的编码单元划分方法、装置及电子设备
CN112866693B (zh) * 2021-03-25 2023-03-24 北京百度网讯科技有限公司 编码单元cu的划分方法、装置、电子设备和存储介质
CN113691808A (zh) * 2021-07-01 2021-11-23 杭州未名信科科技有限公司 一种基于神经网络的帧间编码单元尺寸划分方法
CN113382245A (zh) * 2021-07-02 2021-09-10 中国科学技术大学 图像划分方法和装置
CN115941962A (zh) * 2021-09-30 2023-04-07 深圳市中兴微电子技术有限公司 视频编码单元划分方法、装置、计算机设备和可读介质
CN114157863B (zh) * 2022-02-07 2022-07-22 浙江智慧视频安防创新中心有限公司 基于数字视网膜的视频编码方法、系统及存储介质
CN115278260A (zh) * 2022-07-15 2022-11-01 重庆邮电大学 基于空时域特性的vvc快速cu划分方法及存储介质
CN116170594B (zh) * 2023-04-19 2023-07-14 中国科学技术大学 一种基于率失真代价预测的编码方法和装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI280803B (en) * 2005-07-20 2007-05-01 Novatek Microelectronics Corp Method and apparatus for motion estimation
US8913662B2 (en) * 2011-01-06 2014-12-16 Qualcomm Incorporated Indicating intra-prediction mode selection for video coding using CABAC
US8964852B2 (en) * 2011-02-23 2015-02-24 Qualcomm Incorporated Multi-metric filtering
US9247258B2 (en) * 2011-10-26 2016-01-26 Qualcomm Incorporated Unified design for picture partitioning schemes
CN102420990B (zh) * 2011-12-15 2013-07-10 北京工业大学 一种面向多视点视频的快速编码方法
KR20140056599A (ko) * 2012-10-30 2014-05-12 광주과학기술원 Hevc 예측 모드 결정 방법 및 장치
CN103067704B (zh) * 2012-12-12 2015-12-09 华中科技大学 一种基于编码单元层次提前跳过的视频编码方法和系统
US9674542B2 (en) * 2013-01-02 2017-06-06 Qualcomm Incorporated Motion vector prediction for video coding
US10021414B2 (en) * 2013-01-04 2018-07-10 Qualcomm Incorporated Bitstream constraints and motion vector restriction for inter-view or inter-layer reference pictures
CN103533349A (zh) * 2013-09-26 2014-01-22 广东电网公司电力科学研究院 基于支持向量机的b帧快速帧间预测宏块模式选择方法
CN106162167B (zh) * 2015-03-26 2019-05-17 中国科学院深圳先进技术研究院 基于学习的高效视频编码方法
CN104853191B (zh) * 2015-05-06 2017-09-05 宁波大学 一种hevc的快速编码方法
CN105306947B (zh) * 2015-10-27 2018-08-07 中国科学院深圳先进技术研究院 基于机器学习的视频转码方法
CN105430407B (zh) * 2015-12-03 2018-06-05 同济大学 应用于h.264到hevc转码的快速帧间模式决策方法
CN105721865A (zh) * 2016-02-01 2016-06-29 同济大学 一种hevc帧间编码单元划分的快速决策算法

Also Published As

Publication number Publication date
US10841583B2 (en) 2020-11-17
JP2020500482A (ja) 2020-01-09
WO2018192235A1 (zh) 2018-10-25
EP3614666A1 (en) 2020-02-26
EP3614666A4 (en) 2020-04-08
KR20190117708A (ko) 2019-10-16
CN108737841B (zh) 2020-11-24
CN108737841A (zh) 2018-11-02
KR102252816B1 (ko) 2021-05-18
US20190222842A1 (en) 2019-07-18

Similar Documents

Publication Publication Date Title
JP6843239B2 (ja) 符号化ユニットの深さ特定方法及び装置
US11070803B2 (en) Method and apparatus for determining coding cost of coding unit and computer-readable storage medium
KR102081213B1 (ko) 화상 예측 방법 및 관련 장치
TW201830972A (zh) 用於視訊寫碼之低複雜度符號預測
CN103096055B (zh) 一种图像信号帧内预测及解码的方法和装置
WO2022104498A1 (zh) 帧内预测方法、编码器、解码器以及计算机存储介质
CN103647972B (zh) 运动图像解码方法和运动图像编码方法
JP4732982B2 (ja) 向上した動き推定方法、該方法を利用したビデオエンコーディング方法及び装置
WO2016050051A1 (zh) 图像预测方法及相关装置
KR20200013266A (ko) 픽처 예측 방법 및 픽처 예측 장치
WO2016180129A1 (zh) 预测模式选择方法、装置及设备
WO2014190468A1 (en) Video encoder for images
JP2021513234A (ja) ビデオ符号化方法、コンピュータ機器、及び記憶媒体
CN103931190A (zh) 图像编码设备、图像编码方法、图像解码设备、图像解码方法及存储介质
JP2023052767A (ja) 映像処理方法及び符号化器
TWI722465B (zh) 子塊的邊界增強
CN112312133B (zh) 一种视频编码方法、装置、电子设备及可读存储介质
KR102306484B1 (ko) 비디오 인코딩을 위한 처리 방법 및 장치, 그리고 저장 매체
CN101888546A (zh) 一种运动估计的方法及装置
KR20210042355A (ko) 비디오 이미지 성분의 예측 방법, 장치 및 컴퓨터 저장 매체
CN111541896A (zh) 一种基于vvc的帧内预测模式的优化方法及系统
WO2020248715A1 (zh) 基于高效率视频编码的编码管理方法及装置
JP2005348008A (ja) 動画像符号化方法、動画像符号化装置、動画像符号化プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4490351B2 (ja) 階層間予測処理方法,階層間予測処理装置,階層間予測処理プログラムおよびその記録媒体
CN115442617A (zh) 一种基于视频编码的视频处理方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200923

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210222

R150 Certificate of patent or registration of utility model

Ref document number: 6843239

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250