JP7243732B2

JP7243732B2 - 動画像符号化方法及び動画像符号化装置

Info

Publication number: JP7243732B2
Application number: JP2020546655A
Authority: JP
Inventors: 哲山口; 昌生北川
Original assignee: Socionext Inc
Current assignee: Socionext Inc
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2023-03-22
Anticipated expiration: 2038-09-14
Also published as: WO2020054060A1; JPWO2020054060A1; US20210195210A1; US11516481B2

Description

本発明は、動画像符号化方法及び動画像符号化装置に関し、特に、動画像の符号化におけるモードの決定方法に関する。

ビデオコーデックに関して、ＭＰＥＧ－２、Ｈ．２６４、Ｈ．２６５、ＶＰ９、ＡＶ１等の複数の規格（以下、ビデオコーデックの規格を単に「コーデック」ともいう）が存在する。将来には、さらに新しい規格が策定される可能性もある。

このような状況において、従来、共通の処理系で、複数の規格に対応した動画像の符号化を行うことができる動画像符号化装置が提案されている（例えば、特許文献１参照）。

特許文献１の動画像符号化装置では、複数の規格に対応した複数のハードウェア（つまり、専用の電子回路）を組み込んでおき、対応すべき規格に従って、複数のハードウェアから対応するものを選択的に動作させている。

特許第６２２３３２３号公報

しかしながら、特許文献１では、動画像符号化装置が対応していない規格に対応する必要が生じた場合、例えば、後に策定された規格に対応しなければならなくなった場合には、新たにハードウェアを作り直す必要があり、膨大な費用と時間を要するという問題がある。

そこで、本発明は、対応していない規格に対応する必要が生じた場合であっても、新たな規格に対応した動画像符号化装置を作り直すのに要する費用及び時間を、従来よりも削減することができる動画像符号化方法及び動画像符号化装置を提供することを目的とする。

上記目的を達成するために、本発明の一形態に係る動画像符号化方法は、動画像の符号化のための所定の第一のモード群から、少なくとも一つのモードを第一の候補モードとして選択する第一のモード選択ステップと、選択された前記第一の候補モードに基づいて、所定の第二のモード群から、一つのモードを符号化モードとして選択する第二のモード選択ステップと、選択された前記符号化モードで前記動画像を符号化する符号化ステップとを含み、前記第一のモード群は、第一の規格で定義されるモード群であり、前記第二のモード群は、前記第一の規格とは異なる第二の規格で定義されるモード群であり、前記第一のモード選択ステップ及び前記第二のモード選択ステップでは、前記動画像を構成する同一の画像を対象として、それぞれ、前記第一の候補モード及び前記符号化モードが選択される。

上記目的を達成するために、本発明の一形態に係る動画像符号化装置は、動画像の符号化のための所定の第一のモード群から、少なくとも一つのモードを第一の候補モードとして選択する第一のモード選択部と、選択された前記第一の候補モードに基づいて、所定の第二のモード群から、一つのモードを符号化モードとして選択する第二のモード選択部と、選択された前記符号化モードで前記動画像を符号化する符号化部とを備え、前記第一のモード群は、第一の規格で定義されるモード群であり、前記第二のモード群は、前記第一の規格とは異なる第二の規格で定義されるモード群であり、前記第一のモード選択部及び前記第二のモード選択部は、前記動画像を構成する同一の画像を対象として、それぞれ、前記第一の候補モード及び前記符号化モードを選択する。

本発明により、対応していない規格に対応する必要が生じた場合であっても、新たな規格に対応した動画像符号化装置を作り直すのに要する費用及び時間を、従来よりも削減することができる動画像符号化方法及び動画像符号化装置が実現される。

図１は、実施の形態に係る動画像符号化装置の構成を示すブロック図である。図２は、実施の形態に係る動画像符号化装置の動作を示すフローチャートである。図３Ａは、動画像の符号化における面内予測のモードを説明する図である。図３Ｂは、Ｈ．２６４における面内予測のモードの種類を示す図である。図３Ｃは、Ｈ．２６５における面内予測のモードの種類を示す図である。図３Ｄは、ＶＰ９における面内予測のモードの種類を示す図である。図３Ｅは、ＡＶ１における面内予測のモードの種類を示す図である。図３Ｆは、第一のモード選択部が選択する面内予測のモードとそれに最も方向が近いＡＶ１の面内予測のモードとの対応を示す図である。図３Ｇは、実施の形態に係る動画像符号化装置の第一のモード選択部が有する第一のモード群の他の例（６例）を示す図である。図４は、実施例１に係る動画像符号化装置よる面内予測のモードの決定において選択されるモードの変遷を示す図である。図５Ａは、Ｈ．２６４及びＨ．２６５における参照画像を説明する図である。図５Ｂは、ＶＰ９における参照画像を説明する図である。図５Ｃは、ＡＶ１における参照画像を説明する図である。図６Ａは、動きベクトルの精度の一例（１／４精度）を説明する図である。図６Ｂは、動きベクトルの精度の一例（１／８精度）を説明する図である。図６Ｃは、実施例２に係る動画像符号化装置の候補選択部が選択する第二の候補モードの例を示す図である。図７Ａは、Ｈ．２６５における２個の候補となる動きベクトルを示す図である。図７Ｂは、Ｈ．２６５における動きベクトルの探索におけるコスト計算の方法を説明する図である。図８Ａは、ＡＶ１における３個の候補となる動きベクトルを示す図である。図８Ｂは、ＡＶ１における動きベクトルの探索におけるコスト計算の方法を説明する図である。図９Ａは、Ｈ．２６５における符号化ブロックのサイズを説明する図である。図９Ｂは、ＶＰ９における符号化ブロックのサイズを説明する図である。図９Ｃは、ＡＶ１における符号化ブロックのサイズを説明する図である。図１０は、実施例３に係る動画像符号化装置の候補選択部が選択する第二の候補モードの例を説明する図である。

以下、本発明の実施の形態及び実施例について、図面を用いて詳細に説明する。なお、以下で説明する実施の形態及び実施例は、いずれも本発明の一具体例を示す。以下の実施の形態及び実施例で示される数値、形状、材料、規格、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態及び実施例における構成要素のうち、本発明の最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化する場合がある。

（実施の形態）
図１は、実施の形態に係る動画像符号化装置１０の構成を示すブロック図である。動画像符号化装置１０は、新たな規格に対応した動画像符号化装置を作り直すのに要する費用及び時間を、従来よりも削減することができるアーキテクチャを有する動画像のエンコーダであり、機能的なブロックとして、第一のモード選択部１１、第二のモード選択部１２及び符号化部１５を備える。

第一のモード選択部１１は、動画像の符号化のための所定の第一のモード群１１ａから、少なくとも一つのモードを第一の候補モード１１ｂとして選択する処理部であり、プロセッサを含まない第一の電子回路１８（例えば、ゲートアレイ等の１チップの半導体集積回路）によって実現される。ここで、モードとは、動画像の符号化での各種処理における具体的な処理方法であり、面内（イントラ）予測のモード（つまり、面内予測における予測画像の処理方法）、動き予測についてのモード（つまり、参照画像と参照方向）、符号化ブロックのサイズについてのモード（つまり、符号化ブロックのサイズ）等がある。第一のモード群１１ａは、第一の規格（例えば、Ｈ．２６５）で定義されたモード（例えば、面内予測のモード）の集まりである。

より詳しくは、第一のモード選択部１１は、対象画像データに対して、第一のモード群１１ａを構成する各モードについてコスト計算を行い、得られたコストが低いモードを優先して選択することにより、第一の候補モード１１ｂを選択する。

第二のモード選択部１２は、第一のモード選択部１１で選択された第一の候補モード１１ｂに基づいて、所定の第二のモード群１３ａから、一つのモードを符号化モード１４ａとして選択する処理部であり、符号化部１５とともに、プロセッサを含む第二の電子回路１９（例えば、ＣＰＵ、プログラムが格納されたＲＯＭ、ＲＡＭ、Ｉ／Ｏ（入出力回路）等を含む１チップの半導体集積回路）によって実現される。第二のモード群１３ａは、第一のモード群１１ａに対応する第一の規格とは異なる第二の規格（例えば、ＡＶ１）で定義されるモード群（例えば、面内予測のモード）である。したがって、第一のモード群１１ａは、第二のモード群１３ａに属さないモードを含む。第一のモード群１１ａと第二のモード群１３ａとを比較した場合に、典型的には、第一のモード群１１ａを構成するモードの数は、第二のモード群１３ａを構成するモードの数よりも小さい。これは、第一のモード選択部１１で大まかなモード選択をし、第二のモード選択部１２で、第一のモード選択部１１でのモード選択に依存してさらに詳細なモード選択をする二段階処理によって、第二のモード群１３ａの全てのモードについてコスト計算することを避け、全体として処理負荷を軽減するためである。なお、本実施の形態では、第二の電子回路１９は、第一の電子回路１８とは異なる半導体基板上に実装されている。

より詳しくは、第二のモード選択部１２は、候補選択部１３及び最終選択部１４を有する。候補選択部１３は、第一のモード選択部１１で選択された第一の候補モード１１ｂに基づいて、第二のモード群１３ａから、少なくとも一つ（典型的には、複数）のモードを第二の候補モード１３ｂとして選択する。具体的には、候補選択部１３は、第二のモード群１３ａから、少なくとも第一のモード選択部１１で選択された第一の候補モード１１ｂに近いモードを選択することにより、第二の候補モード１３ｂを選択する。

また、最終選択部１４は、候補選択部１３で選択された第二の候補モード１３ｂから、一つの最終的な符号化モード１４ａを選択する。具体的には、最終選択部１４は、候補選択部１３で選択された第二の候補モード１３ｂを構成する各モードについてコスト計算を行い、得られたコストが低いモードを優先して選択することにより、符号化モード１４ａを選択する。

符号化部１５は、第二のモード選択部１２で選択された符号化モード１４ａで動画像を符号化する処理部であり、第二のモード選択部１２とともに、プロセッサを含む第二の電子回路１９によって実現される。より詳しくは、符号化部１５は、対象画像データに対して、直交変換及び量子化をした後に、エントロピー符号化をし、ビットストリームとして、出力する。さらに、符号化部１５は、直交変換及び量子化後の画像データに対して、逆量子化及び逆直交変換をした後に、デブロッキング等のループフィルタの処理を施して得られる参照画像を内部のフレームメモリに格納する。フレームメモリに格納した参照画像に対しては、動き補償の処理を施すことで得られた予測画像を、対象画像データから、直交変換及び量子化に先立って差し引くために用いたり、逆量子化及び逆直交変換を終えた画像データに対して、ループフィルタの処理に先立って加算するために用いたりする。

次に、以上のように構成された本実施の形態に係る動画像符号化装置１０の動作について説明する。

図２は、実施の形態に係る動画像符号化装置１０の動作（つまり、動画像符号化方法）を示すフローチャートである。

まず、第一のモード選択部１１は、動画像の符号化のための所定の第一のモード群１１ａから、少なくとも一つのモードを第一の候補モード１１ｂとして選択する（第一のモード選択ステップＳ１０）。より詳しくは、第一のモード選択部１１は、対象画像データに対して、第一のモード群１１ａを構成する各モードについてコスト計算を行い、得られたコストが低いモードを優先して選択することにより、第一の候補モード１１ｂを選択する。

次に、第二のモード選択部１２は、第一のモード選択部１１で選択された第一の候補モード１１ｂに基づいて、所定の第二のモード群１３ａから、一つのモードを符号化モード１４ａとして選択する（第二のモード選択ステップＳ１１）。

第二のモード選択ステップＳ１１では、より詳しくは、候補選択部１３は、第一のモード選択部１１で選択された第一の候補モード１１ｂに基づいて、第二のモード群１３ａから、少なくとも一つ（典型的には、複数）のモードを第二の候補モード１３ｂとして選択する（候補選択ステップＳ１１ａ）。具体的には、候補選択部１３は、第二のモード群１３ａから、少なくとも第一のモード選択ステップＳ１０で選択された第一の候補モード１１ｂに近いモードを選択することにより、第二の候補モード１３ｂを選択する。続いて、最終選択部１４は、候補選択部１３で選択された第二の候補モード１３ｂから、一つの最終的な符号化モード１４ａを選択する（最終選択ステップＳ１１ｂ）。具体的には、最終選択部１４は、候補選択部１３で選択された第二の候補モード１３ｂを構成する各モードについてコスト計算を行い、得られたコストが低いモードを優先して選択することにより、符号化モード１４ａを選択する。

最後に、符号化部１５は、第二のモード選択部１２で選択された符号化モード１４ａで動画像を符号化する（符号化ステップＳ１２）。より詳しくは、符号化部１５は、対象画像データに対して、直交変換及び量子化をした後に、エントロピー符号化をし、ビットストリームとして、出力する。

以上のように、本実施の形態に係る動画像符号化装置１０は、動画像の符号化のための所定の第一のモード群１１ａから、少なくとも一つのモードを第一の候補モード１１ｂとして選択する第一のモード選択部１１と、選択された第一の候補モード１１ｂに基づいて、所定の第二のモード群１３ａから、一つのモードを符号化モード１４ａとして選択する第二のモード選択部１２と、選択された符号化モード１４ａで動画像を符号化する符号化部１５とを備える。

また、本実施の形態に係る動画像符号化方法は、動画像の符号化のための所定の第一のモード群１１ａから、少なくとも一つのモードを第一の候補モード１１ｂとして選択する第一のモード選択ステップＳ１０と、選択された第一の候補モード１１ｂに基づいて、所定の第二のモード群１３ａから、一つのモードを符号化モード１４ａとして選択する第二のモード選択ステップＳ１１と、選択された符号化モード１４ａで動画像を符号化する符号化ステップＳ１２とを含む。

これにより、符号化におけるモード決定のプロセスが二段階に分離されるので、例えば、第一のモード群１１ａとして、対象の規格に依存しない代表的なモードの集まりとし、第二のモード群１３ａとして、対象の規格に対応したものとしておくことで、新たな規格に対応する必要が生じた場合に、第二のモード群１３ａの選択に関する箇所（ハードウェア又はソフトウェア）だけを作り直すことで対応できる。よって、モード決定に関する全工程について作り直す必要がある従来に比べ、新たな規格に対応した動画像符号化装置１０を作り直すのに要する費用及び時間を、従来よりも削減することができる。

ここで、第一のモード選択部１１は、プロセッサを含まない第一の電子回路１８であり、第二のモード選択部１２は、プロセッサを含む第二の電子回路１９である。つまり、第一のモード選択ステップＳ１０は、プロセッサを含まない第一の電子回路１８によって実行され、第二のモード選択ステップＳ１１は、プロセッサを含む第二の電子回路１９によって実行される。

これにより、第一のモード群１１ａとして、対象の規格に依存しない代表的なモードの集まりとし、第二のモード群１３ａとして、対象の規格に対応したものとしておくことで、新たな規格に対応する必要が生じた場合に、第二のモード群１３ａの選択に関する箇所（つまり、ソフトウェア）だけを作り直すことで対応できる。よって、ハードウェアを作り直す必要がある従来に比べ、新たな規格に対応した動画像符号化装置１０を作り直すのに要する費用及び時間を、従来よりも削減することができる。

また、第一の電子回路１８及び第二の電子回路１９は、異なる半導体基板上に実装されている。これにより、第一のモード群１１ａの選択に関するハードウェアと、第二のモード群１３ａの選択に関するソフトウェアとが異なる半導体チップに実装されるので、ソフトウェアを改訂する場合には、一部の半導体チップに対する改変だけで済む。

また、第二のモード選択ステップＳ１１は、第一のモード選択ステップＳ１０で選択された第一の候補モード１１ｂに基づいて、第二のモード群１３ａから、少なくとも一つのモードを第二の候補モード１３ｂとして選択する候補選択ステップＳ１１ａと、候補選択ステップＳ１１ａで選択された第二の候補モード１３ｂから、符号化モード１４ａを選択する最終選択ステップＳ１１ｂとを含む。

これにより、第二の候補モード１３ｂの中から符号化モード１４ａが選択されるので、第二のモード群１３ａを構成する全てのモードについて評価することなく最終の符号化モード１４ａを決定できるので、モード決定が高速化される。

また、第一のモード選択ステップＳ１０では、第一のモード群１１ａを構成する各モードについてコスト計算を行い、得られたコストが低いモードを優先して選択することにより、第一の候補モード１１ｂを選択し、候補選択ステップＳ１１ａでは、第二のモード群１３ａから、少なくとも第一のモード選択ステップＳ１０で選択された第一の候補モード１１ｂに近いモードを選択することにより、第二の候補モード１３ｂを選択し、最終選択ステップＳ１１ｂでは、候補選択ステップＳ１１ａで選択された第二の候補モード１３ｂを構成する各モードについてコスト計算を行い、得られたコストが低いモードを優先して選択することにより、符号化モード１４ａを選択する。

これにより、第二のモード群１３ａが対象の規格に対応したものであっても、第二のモード群１３ａを構成する全てのモードについてコスト計算をすることが回避されるので、モード決定が高速化される。

また、第一のモード群１１ａは、第一の規格で定義されるモード群であり、第二のモード群１３ａは、第一の規格とは異なる第二の規格で定義されるモード群である。これにより、第二の規格を動画像符号化装置１０の対象の規格とすることで、第二のモード群１３ａの選択に関する箇所（ハードウェア又はソフトウェア）だけを作り直すことで、新たな規格に対応できる。

また、第一のモード群１１ａを構成するモードの数は、第二のモード群１３ａを構成するモードの数よりも小さい。これにより、モード決定において、例えば、第一段階で概括的なモード選択をし、その結果を用いて第二段階で詳細なモード選択をすることが可能となり、第二のモード群１３ａを構成する全てのモードを評価したうえで符号化モード１４ａを選択する場合に比べ、処理負荷が軽減される。

また、第一のモード群１１ａは、第二のモード群１３ａに属さないモードを含む。これにより、モード決定において、例えば、第一段階で概括的なモード選択をし、その結果を用いて第二段階で詳細なモード選択をすることが可能となり、第二のモード群１３ａを構成する全てのモードを評価したうえで符号化モード１４ａを選択する場合に比べ、処理負荷が軽減される。

なお、上記実施の形態では、第一のモード選択ステップＳ１０を実行する第一の電子回路１８は、ハードウェア（つまり、プロセッサを含まない専用の電子回路）で実現され、第二のモード選択ステップＳ１１を実行する第二の電子回路１９は、ソフトウェア（つまり、プロセッサを含む汎用の電子回路）によって実現されたが、このような構成に限定されない。第一のモード選択ステップＳ１０及び第二のモード選択ステップＳ１１のいずれも、ハードウェアで実現されてもよいし、ソフトウェアで実現されてもよい。いずれの形態であっても、大まかなモード選択と、その選択結果に依存した詳細なモード選択という二段階処理が行われ、第二のモード群１３ａの全てのモードについてコスト計算することが回避され、全体としても処理負荷が軽減されるというメリット、及び、第一のモード群１１ａとして、対象の規格に依存しない代表的なモードの集まりとし、第二のモード群１３ａとして、対象の規格に対応したものとしておくことで、新たな規格に対応する必要が生じた場合に、第二のモード群１３ａの選択に関する箇所（ハードウェア又はソフトウェア）だけを作り直すことで対応できるというメリットを享受できる。

また、上記実施の形態では、第一の電子回路１８及び第二の電子回路１９は、異なる半導体基板上に実装されたが、このような実装形態に限定されない。第一の電子回路１８及び第二の電子回路１９は、同一の半導体基板上に実装されてもよい。その場合であっても、第一のモード群１１ａとして、対象の規格に依存しない代表的なモードの集まりとし、第二のモード群１３ａとして、対象の規格に対応したものとしておくことで、新たな規格に対応する必要が生じた場合に、第二のモード群１３ａの選択に関する箇所（ソフトウェア）だけを作り直すことで対応できる。

また、上記実施の形態では、第二のモード選択部１２と符号化部１５とは、共通の電子回路（つまり、第二の電子回路１９）によって実現されたが、これに限定されない。第二のモード選択部１２と符号化部１５とは、独立した電子回路で実現されてもよい。その場合には、新たな規格に対応する必要が生じた場合であっても、符号化部１５の処理に変更が生じない場合には、第二のモード選択部１２が実装された電子回路だけを作り直すことで対応できる。

また、上記実施の形態では、第一のモード群１１ａは、第一の規格で定義されるモード群であったが、これに限定されない。第一のモード群１１ａは、例えば、規格に対応したモード群ではなく、第二の規格に対応する第二のモード群１３ａの一部（つまり、サブセット）であってもよい。その場合であっても、大まかなモード選択と、その選択結果に依存した詳細なモード選択という二段階処理が行われ、第二のモード群１３ａの全てのモードについてコスト計算することが回避され、全体としても処理負荷が軽減されるというメリット、及び、第二のモード群１３ａとして、対象の規格に対応したものとしておくことで、新たな規格に対応する必要が生じた場合に、第二のモード群１３ａの選択に関する箇所（ハードウェア又はソフトウェア）だけを作り直すことで対応できるというメリットを享受できる。

（実施例１）
次に、上記実施の形態の実施例１として、上記実施の形態に係る動画像符号化装置１０及び動画像符号化方法を、面内予測のモードの決定に適用した事例を説明する。

面内予測とは面内予測処理のことであり、符号化ブロックに隣接する画素から予測画像を生成して差分符号化することで面内符号化ブロックの符号化効率を大きく改善する技術である。

図３Ａは、動画像の符号化における面内予測のモード（以下、「予測方向」ともいう）を説明する図である。本図に示されるように、面内予測のモードは、いろいろあり、４５°、９０°といった方向にある隣接画素をもとに予測画像を生成するような方向を持つ面内予測のモードと、隣接する画素の平均値を予測画像とするような方向を持たない面内予測のモードとがある。

面内予測のモードの種類（つまり、モード群）はコーデック（つまり、規格）によって異なる。図３Ｂは、Ｈ．２６４における面内予測のモードの種類を示す図である。本図に示されるように、Ｈ．２６４では、方向を持つ面内予測のモードが８モード、方向を持たない面内予測のモードが１モードある。図３Ｃは、Ｈ．２６５における面内予測のモードの種類を示す図である。図３Ｃの（ａ）は、Ｈ．２６５における面内予測のモード番号０～３４の予測方向等を示し、図３Ｃの（ｂ）は、Ｈ．２６５における面内予測の各モードの予測方向についての角度の定義を示し、図３Ｃの（ｃ）は、Ｈ．２６５における面内予測の各モード番号と角度の定義との対応を示す。図３Ｃに示されるように、Ｈ．２６５では、方向を持つ面内予測のモードが３３モード（モード番号２～３４）、方向を持たない面内予測のモードが２モード（モード番号０（Ｐｌａｎａｒ）、モード番号１（ＤＣ））ある。図３Ｄは、ＶＰ９における面内予測のモードの種類を示す図である。本図に示されるように、ＶＰ９では、方向を持つ面内予測のモードが８モード、方向を持たない面内予測のモードが２モードある。図３Ｅは、ＡＶ１における面内予測のモードの種類を示す図である。本図に示されるように、ＡＶ１は方向を持つ面内予測のモードが最大５６モード、方向を持たない面内予測のモードが５モードある。いずれのコーデックも方向数や角度が違っており、同じ角度のモードがあったとしても予測画像を生成するときのフィルタ計算がコーデックによって異なるため、生成される予測画像はコーデックごとに異なる。ところが、方向に従って隣接画素から予測画像を生成するという基本的な考え方は共通している。

本実施例では、この共通性に着目して面内予測のモードの決定を第一のモード選択部１１と第二のモード選択部１２の二段階（厳密には、第一のモード選択部１１、候補選択部１３及び最終選択部１４の三段階）にわけて処理をする。

なお、第一のモード群１１ａの処理は、方向に従って隣接画素から予測画像を生成するための予測方法を探索する任意の処理でよいが、理解しやすくするため、世の中に存在する処理内容を例に挙げて説明する。ここでは、Ｈ．２６５で定義される方向をもつ面内予測のモードの３３モードを第一のモード群１１ａとし、ＡＶ１で定義される方向をもつ面内予測のモードの５６モードを第二のモード群１３ａとする。つまり、第一のモード選択部１１は、Ｈ．２６５で定義される面内予測のモードを選択する機能を有し、第二のモード選択部１２は、ＡＶ１で定義される面内予測のモードを選択する機能を有しているものとする。

図４は、実施例１に係る動画像符号化装置１０よる面内予測のモードの決定において選択されるモードの変遷を示す図である。図４の（ａ）は、第一のモード群１１ａ、及び、第一のモード群１１ａから第一のモード選択部１１によって選択される第一の候補モード１１ｂの例を示し、図４の（ｂ）は、選択された第一の候補モード１１ｂ及び第二のモード群１３ａの例を示し、図４の（ｃ）は、第二のモード群１３ａから候補選択部１３によって選択される第二の候補モード１３ｂの例を示し、図４の（ｄ）は、第二の候補モード１３ｂから最終選択部１４によって選択される符号化モード１４ａの例を示す。以下、本実施例に係る動画像符号化装置１０の動作の詳細について、処理部ごとに、説明する。

・第一のモード選択部１１の動作
図３Ｃに示すとおり、Ｈ．２６５では３３種の方向をもつ面内予測のモード（モード番号２～３４）と、ＤＣ（モード番号１）及びＰｌａｎａｒ（モード番号０）といった方向を持たない面内予測のモードとがある。第一のモード選択部１１は、これらうち３３方向の面内予測のモードを第一のモード群１１ａとし、その第一のモード群１１ａから一つの面内予測のモードを第一の候補モード１１ｂとして選ぶ。

本実施例においては、第一のモード選択部１１は、モードの選択を、各面内予測のモードにおけるＲ－Ｄ最適化のための一般的なコスト関数（つまり、Ｃｏｓｔ＝Ｄｉｓｔｏｒｔｉｏｎ＋λ＊Ｒａｔｅ）を用いて行う。ここで、Ｄｉｓｔｏｒｔｉｏｎは、符号化歪を指し、符号化ブロックにおける原画像と予測画像の差分値の絶対値和（ＳＡＤ）を用いる。Ｒａｔｅは、定数であり、面内予測のモードにかかわるモードに必要な符号化ビット量が設定される。λは、ラグランジュ乗数と呼ばれ、符号化歪とビット量の最適化のためのパラメータである。第一のモード選択部１１は、３３方向の各面内予測のモードにおいて、実際に隣接画素を用いてＨ．２６５の処理内容に従って予測処理を行ったときの符号化ブロックのＣｏｓｔをそれぞれ算出し、最もＣｏｓｔが小さくなる面内予測のモードを第一の候補モード１１ｂとして選択する。

・候補選択部１３の動作
図３Ｅに示すとおり、ＡＶ１の予測方向は５６種の方向を持つ面内予測のモードと（モード番号１～８及び追加角度設定）、ＤＣ／ＳＭＯＯＴＨといった方向を持たない面内予測のモード（モード番号０、９～１２）とがある。方向を持つ面内予測のモードの方向数は、Ｈ．２６５より多く、その角度も予測画像を生成するときのフィルタ計算式も異なる。したがって、第一のモード選択部１１が選択したモード（つまり、第一の候補モード１１ｂ）は最適なモードではない可能性がある。そのため、候補選択部１３は、第二のモード群１３ａのうち、第一のモード選択部１１が選択したモードと最も方向が近いモードとその周辺モードを第二の候補モード１３ｂとして選択する。図３Ｆは、第一のモード選択部１１が選択する面内予測のモード（つまり、Ｈ．２６５の面内予測のモード番号）と、それに最も方向が近いＡＶ１の面内予測のモード番号との対応を示す図である。ここで、周辺モードとは、Ｈ．２６５の面内予測のモードと最も方向が近いＡＶ１の面内予測のモードに近いものから±３方向の面内予測のモードである。よって、本実施例では、候補選択部１３は、第一のモード選択部１１が選択したＨ．２６５の面内予測のモード（つまり、第一の候補モード１１ｂ）と最も方向が近いＡＶ１の面内予測のモード、及び、そのＡＶ１の面内予測のモードに近いものから±３方向の面内予測のモードを含めた７個の面内予測のモードを、第二の候補モード１３ｂとして選択して出力する。

例えば、図３ＥにおけるＮｏ．１４（モード番号６のＤ１５７、追加角度＋９）が第一のモード選択部１１が選択した第一の候補モード１１ｂであった場合は、候補選択部１３は、Ｎｏ．１１～１７の面内予測のモードを第二の候補モード１３ｂとして選ぶ。本実施例では、候補選択部１３は、これらのＮｏ．１１～１７の面内予測のモードに、ＤＣ／ＳＭＯＯＴＨなどの方向を持たない面内予測のモード（モード番号０、９～１２）を加えたものを、第二の候補モード１３ｂとして選択して出力する。

・最終選択部１４の動作
本実施例においては、最終選択部１４は、第一のモード選択部１１と同様に、符号化モード１４ａの選択を、各面内予測のモードにおけるＲ－Ｄ最適化のための一般的なコスト関数（Ｃｏｓｔ＝Ｄｉｓｔｏｒｔｉｏｎ＋λ＊Ｒａｔｅ）を用いて行う。具体的には、最終選択部１４は、第二の候補モード１３ｂである、方向を持つ面内予測のモード（つまり、７モード）と方向を持たない面内予測のモード（つまり、６モード）とを合わせた１３モードについて、実際に隣接画素を用いてＡＶ１の処理内容に従って予測処理を行ったときのＣｏｓｔをそれぞれ算出し、最もＣｏｓｔが小さくなる面内予測のモードを符号化モード１４ａとして選択する。

・符号化部１５の動作
符号化部１５は、最終選択部１４で選択された符号化モード１４ａにしたがって対象の画像データを符号化する。

以上のように、本実施例に係る動画像符号化装置１０及び動画像符号化方法によれば、実装においてハードウェア実装を考えた場合、第一のモード選択部１１は対応するコーデックに依存せずに任意の処理方法で処理できるので、複数のコーデックへの対応が可能である。

また、最終選択部１４において、従来であれば方向を持つ面内予測のモード（つまり、５６モード）と方向を持たない面内予測のモード（つまり、６モード）とを合わせた６２モードの評価が必要であったところが、本実施例では１３モードになるため、大幅に処理を減らすことができる。また、第一のモード選択部１１を、性能が必要な実装形態（つまり、ハードウェア又はソフトウェア）とし、第二のモード選択部１２（つまり、候補選択部１３及び最終選択部１４）を、柔軟な実装形態（つまり、ソフトウェア）とするような実装形態において、性能向上をすることができる。

なお、第一のモード選択部１１、候補選択部１３、最終選択部１４及び符号化部１５すべてをハードウェアで実装する場合には、もっとも処理量が多く必要な第一のモード選択部１１が複数コーデック対応したハードウェア設計としなくてよくなるため、コスト削減することができる。

なお、本実施例において、第一のモード選択部１１は、Ｈ．２６５に対応したものでなくてもよい。

また、第二のモード選択部１２は、ＡＶ１に対応したものでなくてもよい。つまり、動画像符号化装置１０は、ＡＶ１エンコーダに限定されない。

また、第一のモード選択部１１は、コスト関数を用いなくてもよい。例えば、ＳＡＤ（差分絶対値和）、ＳＡＴＤ（差分変換係数絶対値和）などの予測画像と原画像との差分、ＳＳＥ（二乗誤差累積）などの原画像と再構築画像との差分のみを指標にモードを選択してもよい。

また、第一のモード選択部１１は、画像のエッジ検出（Ｓｏｂｅｌフィルタなど）など面内予測処理をしない方法によって第一の候補モード１１ｂを選択してもよい。さらに、第一のモード選択部１１は、機械学習させたモード判定部であってもよい。

また、第一のモード群１１ａは、２以上の方向であればよい。図３Ｇは、実施の形態に係る動画像符号化装置１０の第一のモード選択部１１が有する第一のモード群１１ａの他の例（６例）を示す図である。本図に示されるように、第一のモード群１１ａは、１８０°を分割して得られる２、５、９、１７、３３、６５方向などのモードであってもよい。

また、第一のモード選択部１１が選択する第一の候補モード１１ｂは、方向を持つモードだけでなくてもよく、本実施例のように、Ｈ．２６５では、ＤＣ／Ｐｌａｎａｒを含めてもよい。そのときに、ＤＣ／Ｐｌａｎａｒの面内予測のモードと方向をもつ面内予測のモードとのコスト差が大きい場合には、候補選択部１３は、選択するモードは方向をもつ面内予測のモードと方向を持たない面内予測のモードのいずれかＣｏｓｔが小さいほうを選択すればよい。これにより、最終選択部１４における処理をさらに削減することができる。

また、第一のモード選択部１１が出力する第一の候補モード１１ｂは、２個以上でもよく、Ｃｏｓｔが小さい順に複数のモードを出力してもよい。その場合、候補選択部１３は、複数のモードを含むモード群を選択してもよい。例えば、図３ＥにおけるＮｏ．１４（モード番号６のＤ１５７、追加角度＋９）及びＮｏ．２３（モード番号４のＤ１３５、追加角度＋３）が第一のモード選択部１１が選択した第一の候補モード１１ｂであった場合は、候補選択部１３は、Ｎｏ．１１～１７及びＮｏ．２０～２６までを第二の候補モード１３ｂとして選んでもよい。

また、候補選択部１３で選択する第二の候補モード１３ｂは、１個でもよい。複数個あればよりベストを選べる可能性が増えるので符号化効率にとってはよいが、処理量を減らすには１個でもよく、そこはトレードオフであり、市場における要求レベルに合わせて実装することが望ましい。この場合には、最終選択部１４は、候補選択部１３が選択した１個の第二の候補モード１３ｂを、そのまま、符号化モード１４ａとして出力する。

また、候補選択部１３で選択する候補の範囲である±３方向は、あくまで例であり、これに限定されない。３以外の方向数でもよいし、たとえば±２２．５°以内に含まれる方向数といったように、角度を基準に選択する候補の範囲を決めてもよい。

（実施例２）
次に、上記実施の形態の実施例２として、上記実施の形態に係る動画像符号化装置１０及び動画像符号化方法を、動き予測についてのモード（ここでは、参照画像の特定方法及び動きベクトルの精度）の決定に適用した事例を説明する。

動き予測とは面間予測処理のことであり、過去又は未来の画像の動きベクトルが指す位置にある画素データをもとに予測画像を生成して対象画像に対して差分符号化をすることで面間（インター）符号化ブロックの符号化効率を大きく改善する技術である。ここで、動き予測についてのモードとは、参照画像番号と動きベクトルの組み合わせを指すものとする。参照画像番号は、過去又は未来の画像の複数の画像のうちどの画像から予測するかを示す識別子である。

図５Ａは、Ｈ．２６４及びＨ．２６５における参照画像を説明する図である。本図に示されるように、Ｈ．２６４及びＨ．２６５では、時間的に前方向（過去）及び後ろ方向（未来）の両方から予測することが可能であり、前後合わせて１６面の参照画像が定義されている。また前方向及び後ろ方向いずれも、連続した画像でなくてもよく、任意の画像を参照画像として選ぶことができる。

図５Ｂは、ＶＰ９における参照画像を説明する図である。本図に示されるように、その後に出現した代表的なコーデックであるＶＰ９では、前方向のみの３面の参照画像が定義されている。

図５Ｃは、ＡＶ１における参照画像を説明する図である。本図に示されるように、ＡＶ１では、前方向のみの７面の参照画像が定義されている。また前方向に連続した画像でなくてもよく、任意の画像を参照画像として選ぶことができる。

動きベクトルは、参照画像番号が示す画像のどの画素から予測するかを示す座標である。

図６Ａは、動きベクトルの精度の一例（１／４精度）を説明する図である。図６Ｂは、動きベクトルの精度の一例（１／８精度）を説明する図である。図６Ａ及び図６Ｂに示されるように、動きベクトルは、小数点位置を指し示すことができる。その場合、動きベクトルが指した位置の周辺画素をもとにフィルタ処理を行って画素を生成する。この小数精度は、各コーデックでさまざまであり、Ｈ．２６４では１／４精度、その次の世代のＨ．２６５では１／４精度、またその後出現した代表的なコーデックであるＶＰ９では１／８精度、ＡＶ１では１／８精度となっている。

いずれのコーデックも小数精度や予測画像を生成するときのフィルタ計算などが異なるため、コーデックごとに生成される予測画像は異なる。ところが、過去又は未来の絵から近い画像を選んで予測画像を生成するという基本的な考え方は共通している。

本実施例では、この共通性に着目して動き予測についてのモードの決定を第一のモード選択部１１と第二のモード選択部１２の二段階（厳密には、第一のモード選択部１１、候補選択部１３及び最終選択部１４の三段階）にわけて処理をする。

第一のモード群１１ａの処理は、過去又は未来の絵から予測画像を生成するための予測方法を探索する任意の処理でよいが、理解しやすくするため、世の中に存在する処理内容を例に挙げる。具体的には、本実施例では、第一のモード群１１ａは、Ｈ．２６５で定義される動き予測についてのモード群であり、第二のモード群１３ａは、ＡＶ１で定義される動き予測についてのモード群である。つまり、第一のモード選択部１１は、Ｈ．２６５で定義される動き予測についてのモードを選択する機能を有し、第二のモード選択部１２は、ＡＶ１で定義される動き予測についてのモードを選択する機能を有している。以下、本実施例に係る動画像符号化装置１０の動作の詳細について、処理部ごとに、説明する。

・第一のモード選択部１１の動作
図５Ａに示されるように、Ｈ．２６５では、動き予測として、時間的に前方向及び後ろ方向の両方から予測することが可能であり、前後合わせて１６面の参照画像が定義されている。一方で、図５Ｃに示されるように、ＡＶ１では、前方向のみの７面の参照画像が定義されている。

本実施例においては、前方向のみの参照関係とし、直前の３枚を参照可能とする。また動きベクトルの探索については、整数精度で±１２８画素の範囲の動きベクトルを探索するものとする。

本実施例においては、第一のモード選択部１１は、モードの選択を、Ｒ－Ｄ最適化のためのコスト関数（Ｃｏｓｔ＝Ｄｉｓｔｏｒｔｉｏｎ＋λ＊Ｒａｔｅ）を用いて行う。つまり、第一のモード選択部１１は、３つの参照画像及び各動きベクトルにおいて実際に予測処理を行ったときのＣｏｓｔをそれぞれ算出し、最もＣｏｓｔが小さくなる面内予測のモード（参照画像＋動きベクトル）を選択する。ここでは、第一のモード選択部１１は、２番目にＣｏｓｔがよい異なる参照画像の面内予測のモード（参照画像＋動きベクトル）も併せて、第一の候補モード１１ｂとして出力する。

・候補選択部１３の動作
ＡＶ１の動きベクトルは１／８精度であり、また予測画像を生成するときのフィルタ計算などが異なるため、第一のモード選択部１１が選択したモード（つまり、第一の候補モード１１ｂ）はベストに近いがベストではない可能性がある。そのため、候補選択部１３は、第二のモード群１３ａのうち、第一のモード選択部１１が選択したモードと最も方向が近い動きベクトルとその周辺を第二の候補モード１３ｂとして選択する。

図６Ｃは、実施例２に係る動画像符号化装置１０の候補選択部１３が選択する第二の候補モード１３ｂの例を示す図である。候補選択部１３は、第一のモード選択部１１が選んだ参照画像それぞれの動きベクトル（第一の候補モード１１ｂ）に対して、１／８精度で周辺±３点の動きベクトル（４９点）を第二の候補モード１３ｂとして選択して出力する。

・最終選択部１４の動作
本実施例においては、最終選択部１４は、第一のモード選択部１１と同様に、符号化モード１４ａの選択を、Ｒ－Ｄ最適化のためのコスト関数（Ｃｏｓｔ＝Ｄｉｓｔｏｒｔｉｏｎ＋λ＊Ｒａｔｅ）を用いて行う。具体的には、最終選択部１４は、第二の候補モード１３ｂについて、実際に予測処理を行ったときのＣｏｓｔをそれぞれ算出し、最もＣｏｓｔが小さくなる面内予測のモードを選択して、最終的に決定した符号化モード１４ａとして出力する。

また、最終選択部１４において、従来であれば参照画像数×動きベクトル探索点数（例えば１６面×６５５３６±１２８）の評価が必要であったところが、本実施例では、２（参照画像数）×４９（動きベクトル探索点数）になるため、大幅に処理を減らすことができる。また、第一のモード選択部１１を、性能が必要な実装形態（つまり、ハードウェア又はソフトウェア）とし、第二のモード選択部１２（つまり、候補選択部１３及び最終選択部１４）を、柔軟な実装形態（つまり、ソフトウェア）とするような実装形態において、性能向上をすることができる。

なお、第一のモード選択部１１、候補選択部１３、最終選択部１４及び符号化部１５すべてをハードウェアで実装する場合には、もっとも処理量が多く必要な第一のモード選択部１１が複数コーデック対応したハードウェア設計としなくてよくなるため、コスト削減をすることができる。

なお、第一のモード選択部１１は、Ｈ．２６５に対応したものでなくてもよい。

すなわち、本実施例では、第一のモード選択部１１で１／４精度に対する規格（Ｈ．２６５）用のハードウェアを想定し、第二のモード選択部１２で１／８精度に対する規格（ＡＶ１）に対する動きベクトルを求めたが、１／８精度用のハードウェアで、最終的に１／４精度の規格に対する動きベクトルを求めるというように、第一のモード選択部１１での候補の精度が、第二のモード選択部１２で選択されるべき動きベクトルの精度より高くてもよい。また、第一のモード選択部１１で、整数精度（すなわち１／１精度）の候補から小数精度（すなわち、１／２精度、１／４精度、１／８精度など）の第一のモード選択部１１としての出力を得て、その出力に基づいて、第二のモード選択部１２で、整数精度の候補から小数精度の第二のモード選択部１２としての出力を得る、ということでもよい。

また、第一のモード選択部１１は、コスト関数を用いなくてもよい。例えば、ＳＡＤ（差分絶対値和）、ＳＡＴＤ（差分変換係数絶対値和）などの予測画像と原画像との差分、ＳＳＥ（二乗誤差累積）などの原画像と再構築画像との差分のみを指標にモードを選択してもよい。また、オプティカルフローなどの動きを推定してもよい。さらに、第一のモード選択部１１は、機械学習させたモード判定部であってもよい。

また、第一のモード選択部１１が選択する第一の候補モード１１ｂは、参照画像が１枚でもよいし、３枚以上でもよい。

また、第一のモード選択部１１が算出するＭＶは２個以上でもよく、ベスト順に複数モードを出力し、候補選択部１３で複数モードを含むモード群を選択してもよい。

また、候補選択部１３が選択する動きベクトルは、１個でもよい。候補選択部１３が選択する動きベクトルは、複数個あれば、最終選択部１４がよりベストを選べる可能性が増えるから符号化効率にとってはよいが、処理量を減らすには１個でもよい。そこはトレードオフであり、市場における要求レベルに合わせて実装することが望ましい。

また、候補選択部１３が選択する第二の候補モード１３ｂにおける±３点は、あくまで例であり、これに限定されない。

また、本実施例では、動き予測についてのモードとして、参照画像の特定方法及び動きベクトルの精度の組み合わせをモードとしたが、動きベクトルの探索におけるコスト計算の方法を含めてもよい。

つまり、Ｈ．２６５では、動きベクトルの探索におけるコスト計算では、２個の候補となる動きベクトルを算出する。図７Ａは、Ｈ．２６５における２個の候補となる動きベクトルを示す図である。２個の候補のうちの１個である候補Ａとして、候補ブロックＡ０～Ａ１から面間ではないブロックの動きベクトルを選択する。２個の候補のうちの他の１個である候補Ｂとして、候補ブロックＢ０～Ｂ２から面間ではないブロックの動きベクトルを選択する。図７Ｂは、Ｈ．２６５における動きベクトルの探索におけるコスト計算の方法を説明する図である。Ｈ．２６５では、２個の候補Ａ及び候補Ｂとの差分（「候補残差ＭＶ」）を考慮したコスト計算を行う。つまり、最も小さい候補残差となる動きベクトルを探索するコスト計算を行う。

一方、ＡＶ１では、動きベクトルの探索におけるコスト計算では、３個の候補となる動きベクトルを算出する。図８Ａは、ＡＶ１における３個の候補となる動きベクトルを示す図である。３個の候補（候補１位～候補３位）として、候補ブロック０～１７から優先度の高い上位３つの動きベクトルを選択する。図８Ｂは、ＡＶ１における動きベクトルの探索におけるコスト計算の方法を説明する図である。ＡＶ１では、３個の候補１位～候補３位との差分（「候補残差ＭＶ」）を考慮したコスト計算を行う。つまり、最も小さい候補残差となる動きベクトルを探索するコスト計算を行う。

このように、規格によって動きベクトルの探索におけるコスト計算の方法が異なるので、動きベクトルの探索におけるコスト計算の方法を、本実施例における動き予測についてのモードの一つとして、上記実施の形態に係る動画像符号化装置１０及び動画像符号化方法によるモードの決定に適用してもよい。

（実施例３）
次に、上記実施の形態の実施例３として、上記実施の形態に係る動画像符号化装置１０及び動画像符号化方法を、符号化ブロック（以下、単に「ブロック」ともいう）のサイズについてのモードの決定に適用した事例を説明する。

面内予測や動き予測をするブロックサイズは、Ｈ．２６４では、画素数で、１６ｘ１６で固定である。Ｈ．２６５以降で拡張され、Ｈ．２６５及びＶＰ９では、最大で、６４ｘ６４、ＡＶ１では、１２８ｘ１２８である。これらのＨ．２６５以降の規格では、最大ブロックの中でさらに細かく分割することが可能である。

図９Ａは、Ｈ．２６５における符号化ブロックのサイズを説明する図である。本図に示されるように、Ｈ．２６５では、ブロックは、正方形のみであり、小さいブロックを作ることができる。最小のブロックサイズは、８ｘ８である。面内か面間かの選択では、最小のブロックサイズが８ｘ８であり、さらに最小４ｘ４までブロックサイズを分割して、面内予測のモードや面間予測のモードを個別に指定できる。

図９Ｂは、ＶＰ９における符号化ブロックのサイズを説明する図である。本図に示されるように、ＶＰ９では、ブロックとして、長方形も含めて小さいブロックを作ることができる。最小のブロックサイズは、８ｘ８である。

図９Ｃは、ＡＶ１における符号化ブロックのサイズを説明する図である。ＡＶ１では、さらにいろんな組み合わせのブロックを作ることができる。最小のブロックサイズは、４ｘ４である。

いずれのコーデックもサイズが違っており、面内予測のモードが規格ごとにことなるので生成される予測画像もコーデックごとに異なる。ところが、符号化ブロック単位で一つの面内予測のモードが選ばれるという基本的な考え方は共通している。

本実施例では、この共通性に着目して符号化ブロックサイズの決定を第一のモード選択部１１と第二のモード選択部１２の二段階（厳密には、第一のモード選択部１１、候補選択部１３及び最終選択部１４の三段階）にわけて処理をする。

なお、第一のモード群１１ａの処理は、最適な符号化ブロックサイズを探索する任意の処理でよいが、理解しやすくするため、世の中に存在する処理内容を例に挙げて説明する。また、本実施例では、面内フレームでの処理を説明する。

本実施例では、Ｈ．２６５で定義される符号化ブロックのサイズ群を第一のモード群１１ａとし、ＡＶ１で定義される符号化ブロックのサイズ群を第二のモード群１３ａとする。つまり、第一のモード選択部１１は、Ｈ．２６５で定義される符号化ブロックのサイズを選択する機能を有し、第一のモード選択部１１は、ＡＶ１で定義される符号化ブロックのサイズを選択する機能を有しているものとする。以下、本実施例に係る動画像符号化装置１０の動作の詳細について、処理部ごとに、説明する。

・第一のモード選択部１１の動作
図９Ａに示されるように、Ｈ．２６５では、符号化ブロックのサイズは、６４ｘ６４～８ｘ８まである。また、図３Ｃに示されるように、Ｈ．２６５では、面内予測のモードとして、３３種の方向をもつ面内予測のモード（モード番号２～３４）と、ＤＣ（モード番号１）／Ｐｌａｎａｒ（モード番号０）といった方向を持たない面内予測のモードとがある。

本実施例では、第一のモード選択部１１は、符号化ブロックのサイズについてのモードの選択では、各面内予測のモードにおけるＲ－Ｄ最適化のための一般的なコスト関数（Ｃｏｓｔ＝Ｄｉｓｔｏｒｔｉｏｎ＋λ＊Ｒａｔｅ）を用いて行う。具体的には、第一のモード選択部１１は、各面内予測のモード（３５モード）において実際に隣接画素を用いてＨ．２６５の処理内容に従って予測処理を行ったときの符号化ブロックのＣｏｓｔをそれぞれ算出し、最もＣｏｓｔが小さくなる面内予測のモードを選択して、当該符号化ブロックサイズにおける最適なＣｏｓｔとする。この処理を６４ｘ６４～８ｘ８までの符号化ブロックサイズのすべてについて行う。

そして、各符号化ブロックサイズのＣｏｓｔを比べて符号化ブロックサイズを決定する。つまり、第一のモード選択部１１は、８ｘ８の符号化ブロックサイズを４つ選択した場合と１６ｘ１６の符号化ブロックサイズを選択した場合の各Ｃｏｓｔを比較し、続いて、より小さなＣｏｓｔの方を選択した場合と３２ｘ３２の符号化ブロックサイズを選択した場合の各Ｃｏｓｔを比較し、続いて、より小さなＣｏｓｔを選択した場合と６４ｘ６４の符号化ブロックサイズを選択した場合の各Ｃｏｓｔを比較し、より小さなＣｏｓｔの方を選択することで、最適な符号化ブロックのサイズを決定する。決定した符号化ブロックのサイズが、第一の候補モード１１ｂとなる。

・候補選択部１３の動作
図９Ｃに示されるように、ＡＶ１では、符号化ブロックのサイズは、１２８ｘ１２８～４ｘ４まである。第一のモード選択部１１が選択したモード（つまり、第一の候補モード１１ｂ）は、ＡＶ１にとって最適なモードではない可能性がある。そのため、候補選択部１３は、第二のモード群１３ａのうち、第一のモード選択部１１が選択したモードと最も方向が近いモードとその周辺モードを第二の候補モード１３ｂとして選択する。

図１０は、実施例３に係る動画像符号化装置１０の候補選択部１３が選択する第二の候補モード１３ｂの例を説明する図である。本図に示されるように、候補選択部１３は、周辺モードとして、周辺±１階層含めたモードを選択する。なお、ＡＶ１には、符号化ブロックとして、長方形もある。よって、選択されるモードには、長方形も含まれる。

・最終選択部１４の動作
本実施例においては、最終選択部１４は、第一のモード選択部１１と同様に、符号化ブロックのサイズについてのモードの選択を、各面内予測のモードにおけるＲ－Ｄ最適化のための一般的なコスト関数（Ｃｏｓｔ＝Ｄｉｓｔｏｒｔｉｏｎ＋λ＊Ｒａｔｅ）を用いて行う。

図３Ｅに示されるように、ＡＶ１での予測方向は、５６種の方向を持つ面内予測のモードと（モード番号１～８＋追加角度設定）、ＤＣ／ＳＭＯＯＴＨといった方向を持たない面内予測のモード（モード番号０、９～１２）がある。

最終選択部１４は、第二の候補モード１３ｂである、サイズ上下一階層について、ＡＶ１の処理内容に従って予測処理（全６１モード）を行ったときの符号化ブロックのＣｏｓｔをそれぞれ算出し、最もＣｏｓｔが小さくなる面内予測のモードを符号化モード１４ａとして選択する。

具体的には、最終選択部１４は、各符号化ブロックサイズのＣｏｓｔを比べて符号化ブロックサイズを決定する。計算していないブロックサイズは、予めＣｏｓｔとして、ＭＡＸ（最大値）としておく。そして、最終選択部１４は、８ｘ８の符号化ブロックサイズを４つ選択した場合と１６ｘ１６の符号化ブロックサイズを選択した場合の各Ｃｏｓｔを比較し、続いて、より小さなＣｏｓｔの方を選択した場合と３２ｘ３２の符号化ブロックサイズを選択した場合の各Ｃｏｓｔを比較し、続いて、より小さなＣｏｓｔを選択した場合と６４ｘ６４の符号化ブロックサイズを選択した場合の各Ｃｏｓｔを比較し、より小さなＣｏｓｔを選択することで、最適な符号化ブロックサイズを決定する。最終選択部１４は、決定した符号化ブロックのサイズを、最終的に決定した符号化モード１４ａとして出力する。

また、最終選択部１４において、従来であれば１２８ｘ１２８～４ｘ４の符号化ブロックサイズまでの４４２１モードの評価が必要であったところが、本実施例では１８７２モードになるため、大幅に処理を減らすことができる。また、第一のモード選択部１１を、性能が必要な実装形態（つまり、ハードウェア又はソフトウェア）とし、第二のモード選択部１２（つまり、候補選択部１３及び最終選択部１４）を柔軟な実装形態（つまり、ソフトウェア）とするような実装形態において、性能向上することができる。

また、第一のモード選択部１１は、コスト関数を用いなくてもよい。例えば、ＳＡＤ（差分絶対値和）、ＳＡＴＤ（差分変換係数絶対値和）などの予測画像と原画像差分、ＳＳＥ（二乗誤差累積）などの原画像と再構築画像との差分のみを指標にモードを選択してもよい。

また、第一のモード選択部１１は、画像の分散が小さくなるように符号化ブロックサイズを決めるなど、面内予測をしない方法によって第一の候補モード１１ｂを決定してもよい。

また、第一のモード選択部１１は、機械学習させたモード判定部でもよい。

また、第一のモード群１１ａは、２以上の符号化ブロックのサイズがあればよい。このとき、符号化ブロックの形状として、正方形及び長方形の組み合わせであることが望ましい。

また、候補選択部１３が選択する第二の候補モード１３ｂは、１個でもよい。候補選択部１３が選択する第二の候補モード１３ｂは、複数個あればよりベストを選べる可能性が増えるから符号化効率にとってはよいが、処理量を減らすには１個でもよい。そこはトレードオフであり、市場における要求レベルに合わせて実装することが望ましい。

また、候補選択部１３で選択する第二の候補モード１３ｂにおける±１階層は、あくまで例であり、これに限定されない。

また、長方形の符号化ブロックについては、すべて探索しなくてもいい。例えば、上の階層については、全部の符号化ブロックを探索し、下の階層については、正方形の符号化ブロックのみを探索してもよい。

以上、本発明に係る動画像符号化方法及び動画像符号化装置について、実施の形態及び実施例１～３に基づいて説明したが、本発明は、これらの実施の形態及び実施例１～３に限定されるものではない。本発明の主旨を逸脱しない限り、当業者が思いつく各種変形を実施の形態及び実施例１～３に施したものや、実施の形態及び実施例１～３における一部の構成要素を組み合わせて構築される別の形態も、本発明の範囲内に含まれる。

本発明は、動画像符号化方法及び動画像符号化装置として、特に、新たな規格に対応した動画像符号化装置を作り直すのに要する費用及び時間を、従来よりも削減することができるアーキテクチャを有する動画像符号化装置として、例えば、半導体集積回路で実現されるエンコーダ及びコーデックとして、利用できる。

１０動画像符号化装置
１１第一のモード選択部
１１ａ第一のモード群
１１ｂ第一の候補モード
１２第二のモード選択部
１３候補選択部
１３ａ第二のモード群
１３ｂ第二の候補モード
１４最終選択部
１４ａ符号化モード
１５符号化部
１８第一の電子回路
１９第二の電子回路
Ｓ１０第一のモード選択ステップ
Ｓ１１第二のモード選択ステップ
Ｓ１１ａ候補選択ステップ
Ｓ１１ｂ最終選択ステップ
Ｓ１２符号化ステップ

Claims

動画像の符号化のための所定の第一のモード群から、少なくとも一つのモードを第一の候補モードとして選択する第一のモード選択ステップと、
選択された前記第一の候補モードに基づいて、所定の第二のモード群から、一つのモードを符号化モードとして選択する第二のモード選択ステップと、
選択された前記符号化モードで前記動画像を符号化する符号化ステップと
を含み、
前記第一のモード群は、第一の規格で定義されるモード群であり、
前記第二のモード群は、前記第一の規格とは異なる第二の規格で定義されるモード群であり、
前記第一のモード選択ステップ及び前記第二のモード選択ステップでは、前記動画像を構成する同一の画像を対象として、それぞれ、前記第一の候補モード及び前記符号化モードが選択される、
動画像符号化方法。
前記第一のモード選択ステップは、プロセッサを含まない第一の電子回路によって実行され、
前記第二のモード選択ステップは、プロセッサを含む第二の電子回路によって実行される
請求項１記載の動画像符号化方法。
前記第一の電子回路及び前記第二の電子回路は、異なる半導体基板上に実装されている
請求項２記載の動画像符号化方法。
前記第二のモード選択ステップは、
前記第一のモード選択ステップで選択された前記第一の候補モードに基づいて、前記第二のモード群から、少なくとも一つのモードを第二の候補モードとして選択する候補選択ステップと、
前記候補選択ステップで選択された前記第二の候補モードから、前記符号化モードを選択する最終選択ステップとを含む
請求項１～３のいずれか１項に記載の動画像符号化方法。
前記第一のモード選択ステップでは、前記第一のモード群を構成する各モードについてコスト計算を行い、得られたコストが低いモードを優先して選択することにより、前記第一の候補モードを選択し、
前記候補選択ステップでは、前記第二のモード群から、少なくとも前記第一のモード選択ステップで選択された前記第一の候補モードに近いモードを選択することにより、前記第二の候補モードを選択し、
前記最終選択ステップでは、前記候補選択ステップで選択された前記第二の候補モードを構成する各モードについてコスト計算を行い、得られたコストが低いモードを優先して選択することにより、前記符号化モードを選択する
請求項４記載の動画像符号化方法。
前記第一のモード群を構成するモードの数は、前記第二のモード群を構成するモードの数よりも小さい
請求項１～５のいずれか１項に記載の動画像符号化方法。
前記第一のモード群は、前記第二のモード群に属さないモードを含む
請求項１～６のいずれか１項に記載の動画像符号化方法。
前記第一のモード群及び第二のモード群は、面内予測のモードの集まりである
請求項１～７のいずれか１項に記載の動画像符号化方法。
前記第一のモード群及び第二のモード群は、動き予測についてのモードの集まりである
請求項１～７のいずれか１項に記載の動画像符号化方法。
前記動き予測についてのモードは、参照画像の特定方法及び動きベクトルの精度の少なくとも一方によって定義される
請求項９記載の動画像符号化方法。
前記第一のモード群及び第二のモード群は、符号化ブロックのサイズについてのモードの集まりである
請求項１～７のいずれか１項に記載の動画像符号化方法。
動画像の符号化のための所定の第一のモード群から、少なくとも一つのモードを第一の候補モードとして選択する第一のモード選択部と、
選択された前記第一の候補モードに基づいて、所定の第二のモード群から、一つのモードを符号化モードとして選択する第二のモード選択部と、
選択された前記符号化モードで前記動画像を符号化する符号化部と
を備え、
前記第一のモード群は、第一の規格で定義されるモード群であり、
前記第二のモード群は、前記第一の規格とは異なる第二の規格で定義されるモード群であり、
前記第一のモード選択部及び前記第二のモード選択部は、前記動画像を構成する同一の画像を対象として、それぞれ、前記第一の候補モード及び前記符号化モードを選択する、
動画像符号化装置。
前記第一のモード選択部は、プロセッサを含まない第一の電子回路であり、
前記第二のモード選択部は、プロセッサを含む第二の電子回路である
請求項１２記載の動画像符号化装置。
前記第一の電子回路及び前記第二の電子回路は、異なる半導体基板上に実装されている
請求項１３記載の動画像符号化装置。