JP7020873B2

JP7020873B2 - ビデオエンコーディングのための方法及びエンコーダ

Info

Publication number: JP7020873B2
Application number: JP2017218711A
Authority: JP
Inventors: ヴィクトルエドパルム，; アレクサンデルトーレソン，
Original assignee: アクシスアーベー
Priority date: 2016-11-18
Filing date: 2017-11-14
Publication date: 2022-02-16
Anticipated expiration: 2037-11-14
Also published as: EP3324628A1; TWI734865B; JP2018113671A; US20180146196A1; EP3324628B1; TW201820867A; US10979711B2; KR102424258B1; KR20180056382A; CN108076342B; CN108076342A

Description

本発明はデジタルビデオデータのエンコーディングに関し、より具体的には量子化を採用したエンコーディングに関する。

ネットワークカメラ監視システムなどのデジタルビデオシステムでは、ビデオシーケンスは、様々なビデオエンコーディング方法を使用して、伝送前に圧縮される。多くのデジタルビデオエンコーディングシステムでは、ビデオフレームのシーケンスのビデオフレームを圧縮するため、２つの主要なモード（イントラモード及びインターモード）が使用される。イントラモードでは、予測、変換、及びエントロピーコーディングを介して、単一のフレームの所定のチャネル内のピクセルの空間的な冗長性を利用することによって、輝度チャネル及び色度チャネルがエンコードされる。エンコードされたフレームはイントラフレームと呼ばれるが、Ｉフレームと称されることもある。イントラフレーム内では、マクロブロック、コーディングユニット又はコーディングツリーユニットとも称されるピクセルブロックはイントラモードでエンコードされるが、これはブロックが同一画像フレーム中で同様のブロックを参照してエンコードされるか、まったく参照なしで未加工のままコード化されることを意味する。一方、インターモードは、別々のフレーム間の一時的な冗長性を利用し、選択されたピクセルブロックについて１つのフレームから別のフレームへのピクセルの動きをエンコードすることによって、一又は複数の先行フレームからのフレームの一部を予測する、動き補償予測技術に依存する。エンコードされたフレームはインターフレームと称され、デコードの順において先行フレームを意味するＰフレーム（前方向予測フレーム）と称されること、或いは、２つ以上先行してデコードされるフレームを意味するＢフレーム（両方向予測フレーム）と称されることがあり、予測に用いられるフレームの任意の表示順序（ｄｉｓｐｌａｙ－ｏｒｄｅｒ）関係を有することができる。インターフレーム内では、マクロブロックとも称されるピクセルブロックは、インターモード（先行してデコードされた画像内の同様のブロックを参照してエンコードされることを意味する）又はイントラモード（同一画像フレーム内で同様ブロックを参照してエンコードされるか、まったく参照なしで未加工のままコード化されることを意味する）でエンコードされうる。

両エンコーディングモードでは、通常量子化が行われる。一般的に、マクロブロックのピクセル値は離散コサイン変換（ＤＣＴ）を受け、これによってマクロブロックのピクセル値は周波数ドメインに変換される。ＤＣＴ係数はその結果、量子化される。量子化は、広範囲の値を取りうる入力値を、計数しうる数の離散的な値又はレベル、いわゆる量子化レベルにマッピングすることを示唆する。量子化での１つのレベルから次のレベルまでのステップサイズは、量子化ステップと称されることがある。量子化を実行することによって、量子化されたデータは、非量子化入力値を表わすのに必要とされるビット数よりも少ないビット数で表わすことができる。例えば、Ｈ．２６４規格準拠のコーデックでは、量子化は量子化パラメータ（略して、ＱＰ）と呼ばれる圧縮値によって制御される。

入力値が、数少ない量子化レベルに、言い換えるならば大きな量子化ステップだけにマッピングされる場合には、より多くの量子化レベルが使用される場合よりも、量子化されたデータを表わすのに必要なビット数は少なくなる。したがって、ビデオエンコーダの出力ビットレートを引き下げようとする場合には、適切な圧縮値を選択することによって、量子化レベルの数は引き下げられうる。言い換えるならば、量子化ステップのサイズは大きくなりうる。しかしながら、量子化は非可逆的なため、圧縮は劣化を伴い、使用される量子化レベルの数が少なくなるほど、より多くの情報が失われる。したがって、高い圧縮値（量子化レベルが少ないことを示唆する）が使用される場合には、エンコードされたビデオの品質は一般的に低くなる。

エンコーディングは多くの場合、一定ビットレート（ＣＢＲ）、最大ビットレート（ＭＢＲ）、又は可変ビットレート（ＶＢＲ）を採用しうるレートコントローラによって制御される。ＣＢＲは、キャプチャしたシーンで何が起こっても、常に同一ビットレートを出力しようとするエンコーダを意味する。帯域幅が限られている場合、シーン内に動きがあると画質の低下につながるが、画像が静止している場合には高品質な画像になる。調査又は監視を行う状況では、普通であれば静止シーンよりも動きのあるシーンがより注目されるため、これは一般的に有用ではない。ＭＢＲでは、ビットレートは、設定されたビットレート限界を超えない限り、変えることができる。このアプローチに関連する問題は、ＣＢＲに関連する問題と同様である。ＭＢＲ限界値が低すぎる値に設定されると、動きのあるシーンの画像は低品質になりうる。しかしながら、限界値がより高く設定されると、静止シーンの画像をエンコードするときには、出力ビットレートは不必要に高くなりうる。ＶＢＲはまた、一定品質ビットレートと称されることもあり、エンコードされた画像の品質が一定に保たれるべきであることを意味するが、シーン内で何が起こるかに応じてビットレートは変動することが認められている。このアプローチは、シーン内に動きがあるときには、高出力ビットレートにつながることがある。これは、エンコードした画像をモバイルネットワークで送信するときなど、帯域幅が限られている場合には特に問題となる。同様に、カメラの上の画像を例えばＳＤカードに保存するときなど、ストレージが限られている場合には問題となる。幾つかのカメラが動きのあるシーンの画像を同時に送信する場合には、高出力ビットレートはまた、大きなシステムのカメラでは問題になりうる。

レートコントローラによって使用されるビットレートスキームにかかわらず、レートコントローラによって設定されたビットレートを順守するために、エンコーダが調整できるパラメータの１つは圧縮値、すなわち量子化ステップである。既に述べたように、高圧縮値、すなわち、大きな量子化ステップは、エンコーダから低出力ビットレートをもたらすと期待されている。しかしながら、本発明の発明者は、これが常に正しいとは限らないことを発見した。幾つかの例では、圧縮値を既に高い圧縮値から上げると、実際には出力ビットレートを高めることがありうる。これは、帯域幅要件が不必要に高くなりうる一方で、画質が低いという点で問題である。したがって、エンコーディング方法を改善する必要がある。

本発明の目的は、画質で不必要に妥協することなく、出力ビットレートを低減することを可能にするビデオエンコーディングの方法を提供することである。

ビットの効率的な利用を可能にするエンコーダシステムを提供することも、本発明の目的である。

第１の態様によれば、これらの目的及びその他の目的は、エンコード対象のビデオの現在のデジタル画像フレーム中のピクセルを表わす情報を受信することと、前記現在のデジタル画像フレーム中の隣接するピクセルグループについての前記情報の空間統計的な測定値を算出して、隣接する各ピクセルグループのグループ値を形成することと、第１の所定の量子化ステップを含む利用可能な量子化ステップの組を決定することと、を含むビデオエンコーディングの方法であって、隣接する第１のピクセルグループに関して前記方法は、各利用可能な量子化ステップに対して、第１のピクセルグループのグループ値を利用可能な量子化ステップの各々で除算した後の剰余を算出することと、最小剰余をもたらす組の量子化ステップを選択された量子化ステップとして選択することと、選択された量子化ステップを使用して第１のピクセルグループをエンコードすることとを含むビデオエンコーディングの方法によって、完全に又は少なくとも部分的に達成される。このようなエンコーディング方法を使用すると、出力ビットレートが抑制されうるように、また、画質が許容可能なレベルに維持されうるように、ある意味で最適化された量子化ステップを選択することが可能である。

第２の態様によれば、これらの目的及びその他の目的は、エンコード対象のビデオの現在のデジタル画像フレーム中のピクセルを表わす情報を受信することと、前記現在のデジタル画像フレーム中の隣接するピクセルのグループについての前記情報の空間統計的な測定値を算出して、隣接するピクセルの各グループのグループ値を形成することと、第１の所定の量子化ステップを含む利用可能な量子化ステップの組を決定することとを含むビデオエンコーディングの方法であって、隣接する第１のピクセルグループに関してこの方法は、第１のピクセルグループのグループ値と参照フレーム中の参照ピクセルグループの対応するグループ値との間のグループ値差分を算出することと、各利用可能な量子化ステップに対して、グループ値差分を利用可能な量子化ステップの各々で除算した後の剰余を算出することと、最小剰余をもたらす組の量子化ステップを選択された量子化ステップとして選択することと、選択された量子化ステップを使用して第１のピクセルグループをエンコードすることとを含むビデオエンコーディングの方法によって、完全に又は少なくとも部分的に達成される。このような方法によって、過度に画質を低下させることなく、低減された出力ビットレートでインターコーディングを実行することができる。

第１及び第２の態様の方法は、多数の方法で変化させることができる。例えば、参照フレームは先行してエンコードされデコードされた画像フレームであってもよい。

利用可能な量子化ステップの組は、所定の量子化ステップ、所定の量子化ステップを上回る少なくとも１つのより大きな量子化ステップ、及び、所定の量子化ステップを下回る少なくとも１つのより小さな量子化ステップを含みうる。

２つ以上の利用可能な量子化ステップによって、除算後に等しい剰余が得られる場合には、２つ以上の量子化ステップのうち最大のものが選択された量子化ステップとして選択されうる。

第３の態様によれば、これらの目的及びその他の目的は、エンコード対象のビデオの現在のデジタル画像フレーム中のピクセルを表わす情報を受信するように構成された受信モジュールと、前記現在のデジタル画像フレーム中の隣接するピクセルグループについての前記情報の空間統計的な測定値を算出して、隣接する各ピクセルグループのグループ値を形成するように構成されたグループ値モジュールと、第１の所定の量子化ステップを含む利用可能な量子化ステップの組を決定するように構成されたステップの組決定モジュールと、第１のピクセルグループのグループ値を利用可能な量子化ステップの各々で除算した後の各剰余を算出するように構成された計算モジュールと、最小剰余をもたらす利用可能な量子化ステップの組の中の１つの量子化ステップを選択された量子化ステップとして選択するように構成された選択モジュールと、選択された量子化ステップを使用して第１のピクセルグループをエンコードするように構成されたエンコードモジュールと、を含むビデオエンコーディングのためのエンコーダシステムによって、完全に又は少なくとも部分的に達成される。このようなエンコーディングシステムにより、許容可能なビデオ品質を維持しつつ、ビットレートを低く保つ効率的なエンコーディングが可能になる。

第４の態様によれば、これらの目的及びその他の目的は、エンコード対象のビデオの現在のデジタル画像フレーム中のピクセルを表わす情報を受信するように構成された受信モジュールと、前記現在のデジタル画像フレーム中の隣接するピクセルグループについての前記情報の空間統計的な測定値を算出して、隣接する各ピクセルグループのグループ値を形成するように構成されたグループ値モジュールと、第１のピクセルグループのグループ値と参照フレーム中の参照ピクセルグループの対応するグループ値との間のグループ値差分を算出するように構成された差分モジュールと、第１の所定の量子化ステップを含む利用可能な量子化ステップの組を決定するように構成されたステップの組決定モジュールと、第１のピクセルグループのグループ値差分を利用可能な量子化ステップの各々で除算した後の各剰余を算出するように構成された計算モジュールと、最小剰余をもたらす利用可能な量子化ステップの組の中の１つの量子化ステップを選択された量子化ステップとして選択するように構成された選択モジュールと、選択された量子化ステップを使用して第１のピクセルグループをエンコードするように構成されたエンコードモジュールと、を含むビデオエンコーディングのためのエンコーダシステムによって、完全に又は少なくとも部分的に達成される。このようなエンコーディングシステムにより、許容可能なビデオ品質を維持しつつ、ビットレートを低く保つ効率的なインターフレームエンコーディングが可能になる。

第３及び第４の態様のエンコーディングシステムは、一般的に、第１及び第２の態様の方法と同じ方式で実施され、その利点も付随しうる。

第５の態様によれば、これらの目的及びその他の目的は、プロセッサによって実行されたときに第１又は第２の態様による方法を実行するように適合された命令を含むコンピュータ可読記憶媒体を備えるコンピュータプログラム製品によって、完全に又は少なくとも部分的に達成される。

第６の態様によれば、これらの目的及びその他の目的は、第３又は第４の態様によるエンコーディングシステムを備えたカメラによって、完全に又は少なくとも部分的に達成される。

本発明の利用可能性の更なる範囲は、以下の詳細な説明から明らかとなるであろう。しかしながら、この詳細な説明によって本発明の範囲内の様々な変更及び修正が当業者に明らかとなるため、詳細な説明及び具体例は、本発明の好適な実施形態を示しながらも単なる例として提示されることを理解されたい。

したがって、説明されているデバイスの特定の構成要素部品、又は説明されている方法の特定のステップが変化しうるため、この発明は、かかるデバイス及びステップに限定されないことを、理解されたい。本書で使用される用語は、特定の実施形態を説明することだけを目的としており、限定するためのものではないということも、理解されたい。本明細書及び付随する特許請求の範囲においては、冠詞（「ａ」、「ａｎ」、「ｔｈｅ」、及び「ｓａｉｄ」）が、文脈によってそうではないと明示されない限り、一又は複数の要素の存在を意味するためのものであることに、留意しなくてはならない。ゆえに、例えば、「１つの対象物（ａｎｏｂｊｅｃｔ）」又は「前記対象物（ｔｈｅｏｂｊｅｃｔ）」に対する言及はいくつかの対象物（ｏｂｊｅｃｔ）含みうる、等である。更に、「備える、含む（ｃｏｍｐｒｉｓｉｎｇ）」という言葉は、他の要素又はステップを排除するものではない。

ここで、本発明を、実施例を用い且つ添付の概略図を参照しながら、より詳細に説明する。

カメラによって監視されるシーンの斜視図である。１つの場所にあるカメラ及びエンコーダ、並びに別の場所にあるエンコーダ、ディスプレイ、及び記憶装置を含む監視システムのブロック図である。第１の画像フレーム、参照フレーム、及び第２の画像フレームを示す線図である。本発明の第２の態様によるビデオエンコーディングの方法のフロー図である。本発明の第１の態様によるビデオエンコーディングの方法のフロー図である。本発明の実施形態によるエンコーダのブロック図である。

図１は、シーン１がカメラ２によって監視されていることを示す。シーン１には、多数のドア４及び各ドア４に通ずる小道５がある。シーン１を監視する目的は、例えば、建物３に近づく、或いは建物３の近辺で動き回る人々を監視することになりうる。

図２は、カメラ２が一部をなす監視システム１０の例を示す。監視システム２は、カメラ２及び管理センター１１を含む。管理センター１１は、カメラ２によって監視されるシーン１から離れた場所にあってもよい。ネットワーク１２は、カメラ２と管理センター１１をつなぐ。ネットワーク１２は、ビデオデータの送信に適した任意の種類のネットワークであってもよく、有線又は無線になりうる。カメラ２は、カメラ２に一体化される、又はカメラ２に接続される外部ユニットになりうるエンコーダ１３を有する。カメラ２には、ＳＤカードの形態になりうるオンボード記憶装置１４がある。代替的に、又は付加的に、カメラは、ネットワーク接続ストレージ（ＮＡＳとも称される）などの別の記憶装置に接続されうる。更に、カメラはエンコーダにビットレート制限を設定するように構成されるレートコントローラ１５を有する。レートコントローラ１５はカメラ２に一体化されてもよく、或いは操作可能になるようにカメラ２に接続されてもよい。カメラはまた、それ自体は周知であるが、ここには示されておらず、これ以降では説明されない他の構成要素を有する。管理センター１１には、エンコーダ１３によってエンコードされ、ネットワーク１２を介して管理センター１１に送信されたビデオデータをデコードするように構成されたデコーダ１６がある。更に、オペレータが監視しているシーン１で何が起こっているかを知ることができるように、生中継及び／又は録画ビデオを表示するためのディスプレイ１７がある。加えて、ビデオを録画するためのストレージディスプレイ１８もある。ストレージディスプレイ１８は、管理センター１１に設置されているように示されているが、他の場所に設置されてもよいことに留意されたい。例えば、ストレージディスプレイ１８は、管理センター１１のコンピュータ（図示せず）のディスクドライブであってもよい。このようなコンピュータはまた、ディスプレイ１７に接続されうる。記憶装置は代替的に、又は追加的にＮＡＳであってもよく、或いはいわゆるクラウドストレージであってもよい。管理センター１１は、カメラ２から画像が送信されうる場所の一例にすぎない。追加的に、又は代替的に、カメラからの画像はユーザーの携帯電話（図示せず）に送信されうる。例えば、シーン１に動きが検出されると、カメラ２は、ユーザーの携帯電話に通知、スナップショット又はビデオシーケンスを送信するように始動されうる。このような場合、画像は携帯電話のディスプレイに表示、及び／又は携帯電話に保存されうる。

カメラ２がシーン１の画像をキャプチャすると、画像はカメラ上又はカメラに接続されたストレージに保存する前に、及び／又は管理センター１１に送信する前にエンコーダ１３によってエンコードされ、エンコードされた画像は管理センター１１で受信される。

受信された画像は、あとで見ることができるようにストレージディスプレイ１８に保存されうる。画像はディスプレイ１７にリアルタイムで、あるいは少なくとも準リアルタイムで表示するため、デコーダ１６によってデコードされうる。

一般的にカメラ２のエンコーダ１３よりもビットレートを低く保つことが必要である。例えば、ＳＤカード上で利用可能なストレージが制限されているため、このようになりうる。これはまた、画像データがモバイルネットワークに送信されるときには、カメラ２からの伝送帯域幅が限られることにもよる。更に、より十分な帯域幅を有する監視システムの場合でも、多数のカメラがあり、これらのカメラのうちの幾つかが同時に画像データを送信する場合には、帯域幅消費は高くなりすぎることがありうる。背景の節で既に述べたように、ビットレートを制御するために調整される１つのパラメータは圧縮値又は量子化ステップである。画像解像度及びフレームレートなど、調整可能な他のパラメータもあるが、ここではこれらについて議論しない。

監視や調査の目的では、静的なシーンの画像は注目されないことが多い。そのため、出力ビットレートを低減するため、このような画像は強く圧縮されるが、その後に起こる品質低下は一般的に許容しうる代償である。エンコーダによっては、画像の異なる部分を異なる方法で圧縮する。例えば、シーンの背景を表わすと判断された部分は、前景を表わすと判断された部分よりも強く圧縮される。この方法では、利用可能な帯域幅は、画像全体を同程度に圧縮する場合よりも、有効に使える。

更に、本発明の発明者は、圧縮値の上昇、すなわち、量子化ステップの増大があっても、場合によっては、ビットレートが変化しないこと、或いはビットレートが増大することを発見した。圧縮値が増大すると画質の低下につながるが、画質のロスはビットレートの低下に見合っていない。

本発明は、量子化ステップは所望の画質と一般的なビットレートの制限との間の関係で可能な限り大きな量子化ステップを選ぶのではなく、賢明な方法で選ぶべきであるという理解に基づいている。この考え方は、単純化された実施例によって、図３を参照して説明される。

図３は、エンコード対象の第１の画像フレーム２０、参照フレーム３０及び第２の画像フレーム４０の図解である。参照フレーム３０は、第１の画像フレーム２０のエンコーディングに先立ってエンコードされデコードされた画像フレームである。ここで、ピクチャグループの開始時には、その他のフレームを参照することなくエンコードされるＩフレームがあることに留意されたい。ＧＯＰ長、すなわち、ピクチャグループの長さがゼロでない場合には、次のフレームはＰフレーム（或いは、場合によってはＢフレーム）としてエンコードされなければならない。このＰフレームに関しては、参照フレームが先行するＩフレームのデコーディング結果となるであろう。一列に並んだ次のＰフレームに関しては、参照フレームは先行するＰフレームのデコーディング結果となるであろう。したがって、これは先行するＰフレーム、並びに先行するＩフレーム、言い換えるならば、ピクチャグループの先行するすべてのフレームに影響される。

第１の画像フレーム２０は多数のピクセル２１からなり、隣接するピクセル２１のグループ２２にグループ分けされうる。背景の節で述べたように、ピクセルグループはまた、例えば、ブロック、マクロブロック、コーディングユニット、又はコーディングツリーユニットとも称される。同様に、参照フレーム３０は、隣接するピクセル３１の参照グループ３２にグループ分けされうる多数のピクセル３１からなる。同様に、第２の画像フレーム４０は多数のピクセル４１からなり、これらは隣接するピクセル４１のグループ４２にグループ分けされうる。各画像２０、３０、４０のピクセル数は、画像２０、３０、４０をキャプチャするカメラ２の画像センサ（図示せず）のピクセル数に依存する。幾つかの場合には、画像２０、３０、４０のピクセル数は、画像センサのピクセル数よりも減少すること、場合によっては増加することがありうるが、ここではこの点についてこれ以上議論しない。

この実施例では、第１の画像フレーム２０は、参照フレーム３０を参照して、インターフレームとして、或いはより具体的にＰフレームとしてエンコードされる現在の画像フレームである。当業者であれば、２つ以上の参照フレームを使用するＢフレームに対しては、同一の原理が使用されうることを理解するであろう。

インターフレームをエンコードするときには、現在のフレームと参照フレームとの間の差分が決定され、エンコードされる。ピクセルの各グループ又はブロックに関しては、検索は参照フレームで行われ、十分に似通ったブロックが見つかった場合には、当該ブロックは参照ブロックとして使用される。簡単に言うと、ピクセルブロックは運動ベクトルの情報によってエンコードされる。運動ベクトルの情報は、参照ブロックとの関係で、エンコードするブロックのどれだけが置換されるかを示し、また、残余とも称される強度値の差分の情報によって、参照ブロックと比較され、当該ブロックが参照ブロックとどれだけ異なるかを示す。十分に似通ったブロックが見つからない場合には、ブロックはイントラコーディングを使用して、すなわち、他の任意のフレームを参照することなくエンコードされる。

一実施例として、ピクセル値７４を有する第１のピクセルグループ２２すべてがエンコードされる。運動ベクトル検索それ自体は周知であるが、これが実行された後には、参照ピクセルグループ３２は参照フレーム３０中で特定されている。この実施例では、参照グループ３２は、現在のフレーム２０中の第１のピクセルグループ２２の位置に対応する参照フレーム３０中の位置に配置される。したがって、運動ベクトルは長さゼロになるが、ここではこれ以上議論しない。しかしながら、以下の説明は非ゼロ運動ベクトルについても有効である。

参照グループ中のピクセルはすべてピクセル値７０を有する。第１のピクセルグループ２２に関しては、第１のグループＶ_１はグループ２２中の全ピクセルの値の平均値として算出されうる。第１のグループ２２中の全ピクセルは値７４を有するため、第１のグループ値Ｖ_１は７４になる。同様に、参照グループ３２のピクセル値の平均として、参照グループ値Ｖ_Ｒ１が参照グループ３２に対して算出される。この参照グループ値Ｖ_Ｒ１は７０である。第１のグループ値Ｖ_１と参照グループ値Ｖ_Ｒ１との間の差分が計算される。
Ｖ_{Ｄｉｆｆ１}＝Ｖ_１－Ｖ_Ｒ１

この実施例では、グループ値差分Ｖ_{Ｄｉｆｆ１}は次のようになる。
Ｖ_{Ｄｉｆｆ１}＝７４－７０＝４

ここで、レートコントローラ１５は、エンコーダがピクセルの第１のグループ２２に対して、１０の量子化ステップを選択するようにビットレート制限を設定した。グループ値差分Ｖ_{Ｄｉｆｆ１}＝４は、インターコーディングでＰブロックとしてエンコードするには大きすぎるとエンコーダに判断されることがあり、したがって、エンコーダはイントラコーディングを使用して、これをＩブロックとしてエンコードする。量子化ステップが１０の場合、値７４は７×１０、すなわち７０、或いは８×１０、すなわち８０としてエンコードされうる。７４は８０よりも７０に近いため、エンコーダは値を７（すなわち、二進数では１１１）としてエンコードする。

現在の画像フレーム２０がエンコードされ、その後デコードされるときには、逆量子化により、エンコードされた数７に量子化ステップ１０を乗ずることによってピクセルの第１のグループ２２に対する値を生成し、値７０を返す。第１のグループ２２の元のピクセル値は７４であったため、ここでは情報が失われることがわかるであろう。

シーンが静的な場合には、第２の画像フレーム４０、その後の第１の画像フレーム２０はまた、ピクセルの第１のグループ２２に対応するピクセルの第２のグループ４２に対して、７４のグループ値Ｖ_２を有するであろう。シーンが変化していないにもかかわらず、ピクセルの第２のグループ４２が量子化値７でＩブロックとしてエンコードされると、同じ状況が再び起こる。更に、元の画像フレームの階調が失われる又は誇張されるため、画質が損なわれる。量子化ステップが１０のとき、７０から８０の間のピクセル値は７（すなわち、７０）又は８（すなわち、８０）にエンコードされうる。したがって、値が７１、７２、７３、及び７４のピクセルブロック又はピクセルグループは、エンコードしてデコードした後には、すべて値が７０になり、個々間でのばらつきは量子化によって失われる。同様に、値が７６、７７、７８、及び７９のブロックは、エンコードしてデコードした後には、値が８０になる。値が７５のブロックは、エンコーダで実行される丸め処理に応じて、７０又は８０になる。元の画像フレーム中で、それぞれ値が７４及び７６のかなり似通ったブロック間の境界では、一方のブロックは値が７０になり、他方のブロックは値が８０になるため、量子化は人工的にコントラストを作り出す。

静的なシーンでは、インターフレームエンコーディングは画像間の変化のみをエンコードするため、インターフレームエンコーディングはイントラフレームエンコーディングよりも効率的になると期待されうる。多くのＩブロックを伴うＰフレームは一般的に大きくなり、より多くのＰブロック、或いはＰブロックのみを伴うＰフレームよりも多くのビットを必要とするため、必ずしもこれが当てはまらないことを、この単純化された実施例は示している。

これは出力ビットレートを低下させる点で直観とは相容れないが、より小さな量子化ステップを使用することが賢明となりうることを本発明者は理解するに至った。上記の実施例に戻り、代わりに４の量子化ステップを使用した場合、値４は量子化レベルに正確に対応するため、Ｐブロックとしてエンコードするのに、グループ値差分Ｖ_{Ｄｉｆｆ１}＝４が大きすぎるとみなされることはないであろう。このような場合、第１のピクセルグループ２２は、参照グループ３２の値から量子化ステップで１だけ異なる値を有するという情報によってエンコードされうる。第１のグループ２２をＩブロックとしてエンコードすることに関しては、上述のように、数字１（二進数でも１）のエンコーディングに要するビット数は数字７（二進数では１１１）のエンコーディングよりも少ない。状況によっては、同じアプローチでもより大きな量子化ステップを使用することが賢明であることに留意されたい。

前述と同じ方法で、第１の画像フレーム２０がエンコードされ、その後、逆量子化によってデコードされた場合には、第１のグループ２２の値は、参照グループ３２の値に、第１のグループ２２と参照グループ３２との間の差分を加えた値として算出され、すなわち、７０＋１×４＝７４となる。このデコードされた画像フレームは次に、第２の画像フレーム４０のエンコーディングのための参照フレームとして使用される。前と同じ静的なシーンでは、第２のグループ４２の値は７４となる。したがって、第２のピクセルグループ４２とエンコードされデコードされた先行フレーム中のピクセルの対応するグループとの間の差分は０になる。先行フレーム中の対応するグループ２２との差分は０であるという情報によって、第２のピクセルグループ４２をエンコードするのではなく、第２のピクセルグループ４２はスキップブロックとしてエンコードされることがあり、これはデコーダに、ブロックは先行フレームからコピーされたはずであるという情報が与えられることを意味する。このように、量子化ステップは小さくても、出力ビットレートは小さくなる。

この理解を念頭に置いて、本発明者は、図４を参照してさらに説明されるエンコーディング方法を考案した。この方法によれば、第１の画像フレーム中のピクセルを表す情報が受信される（Ｓ１）。この情報は、例えば、ピクセルの強度値となることがあり、或いは輝度値になることがありうる。現在の画像フレーム２０中のピクセルグループ２２のグループ値Ｖ_１が算出され、また、参照フレーム３０中の対応する参照ピクセルグループ３２のグループ値Ｖ_Ｒ１が算出される（Ｓ３）。これら２つのグループ値Ｖ_１、Ｖ_Ｒ１は、グループの差分Ｖ_{Ｄｉｆｆ１}を算出するため、比較される（Ｓ４）。次に、レートコントローラ１５によって設定されたビットレート制限を順守するため、エンコーダによって決定された所定の量子化ステップＱＳ_０を使用する代わりに、利用可能な量子化ステップＡＱＳの組が決定される（Ｓ５）。この組は、所定の量子化ステップＱＳ_０、並びに、より小さい及び／又はより大きい量子化ステップを含む。例えば、所定の量子化ステップＱＳ_０は５であってよく、利用可能な量子化ステップの組は４、５、６、及び７、すなわち、ＡＱＳ＝｛４、５、６、７｝として決定されうる。より大きな量子化ステップＱＳ_＋ｎ及びより小さな量子化ステップＱＳ_－ｎを示すと、利用可能な量子化ステップの組は、この実施例ではＡＱＳ＝｛ＱＳ_－１、ＱＳ_０、ＱＳ_＋１、ＱＳ_＋２｝として表現されうる。

利用可能な各量子化ステップに関して、グループ値差分Ｖ_{Ｄｉｆｆ１}はそれぞれの量子化ステップで除算され、除算の剰余が算出される（Ｓ６）。この実施例では、グループ値差分Ｖ_{Ｄｉｆｆ１}＝４は４、５、６、及び７の各々で除算され、以下の剰余が算出される。

量子化ステップ４により、最小の剰余、すなわち０が算出されることがわかるであろう。最小の剰余をもたらす利用可能な量子化ステップの組ＡＱＳの当該量子化ステップが、選択された量子化ステップＳＱＳとして選択される（Ｓ７）。したがって、この実施例では、選択された量子化ステップＳＱＳは４である。第１のピクセルグループ２２は、選択された量子化ステップＳＱＳ＝４を使用してエンコードされなければならない（Ｓ８）。この手続は、第１の画像フレーム２２のすべてのピクセルグループ２２に対して使用される。

これに関連して、エンコーダによってはわずかに異なる結果をもたらす丸めを実行することを指摘しておかなければならない。例えば、量子化ステップが５のとき、量子化ステップＱＳ_０＝５によるグループ値差分Ｖ_{Ｄｉｆｆ１}＝４の除算の結果は１であって、０余り４ではない。したがって、量子化と逆量子化によって、元の７４ではなく、７０＋１×５＝７５という値が算出される。

エンコードされた画像フレームは、ＳＤカード１４に保存されてもよく、及び／又はネットワーク１２を介して管理センター１１へ送信されてもよい。加えて、エンコードされた画像フレームは、更新された参照フレームを生成し、第２の画像フレーム４０のエンコーディング時に使用されるよう、エンコーダ１３によってデコードされる。したがって、第２の画像フレーム４０は現在の画像フレームになり、エンコードされデコードされた第１の画像フレーム２０を使用して、参照としてエンコードされる。同じ手続きが第２の画像フレームに対しても使用される。すなわち、第２のピクセルグループ４２のグループ値Ｖ_２を算出すること（Ｓ２）、更新された参照フレームの対応するピクセルグループのグループ値Ｖ_Ｒ２を算出すること（Ｓ３）、グループ値差分Ｖ_{Ｄｉｆｆ２}を算出すること（Ｓ４）、利用可能な量子化ステップの組を決定すること（Ｓ５）、グループ値差分を利用可能な量子化ステップの各々で除算してそれぞれの剰余を得ること（Ｓ６）、最小の剰余をもたらす量子化ステップを選択すること（Ｓ７）、及び選択された量子化ステップを使用して第２のピクセルグループ４２をエンコードすること（Ｓ８）である。このプロセスは、第２の画像フレーム４０のすべてのピクセルグループ４２に対して実行される。エンコードされた第２の画像フレームは、ここで保存及び／又は送信することができる。また、その後の画像フレームのエンコーディングのための更新された参照フレームを生成するため、エンコーダ１３によってデコードされてもよい。

ここまで、インターフレームエンコーディングについて議論してきたが、イントラフレームエンコーディングについて同じ原理が採用されうる。イントラフレームエンコーディングのアプローチは、それがグループ値であって、各々の利用可能な量子化ステップによって除算されるグループ値差分ではない点において、インターフレームエンコーディングのアプローチとは異なる。図５を参照して、この方法は以下でより詳細に説明される。ここで、第１の画像フレーム２０がイントラコーディングを使用してエンコードされると仮定する。これまでのように、第１の画像フレーム中のピクセルを表す情報が受信される（Ｓ１０１）。隣接するピクセルグループに関しては、グループ値はピクセル情報の統計的な測定値を計算することによって算出される。ここでは、ピクセル値の平均も算出される。特に、第１のピクセルグループのグループ値Ｖ_１が算出される（Ｓ１０２）。この実施例では、インターコーディングの実施例に関して使用されるのと同じピクセル値が使用されており、第１のピクセルグループ２２のグループ値Ｖ_１はそのため７４となる。所定の量子化ステップＱＳ_０を含む、利用可能な量子化ステップＡＱＳの組が決定される（Ｓ１０５）。インターコーディングの実施例に関して同じ値を使用することで、所定の量子化ステップは５になり、利用可能な量子化値はＡＱＳ＝｛４、５、６、７｝となる。グループ値Ｖ_１は利用可能な量子化ステップの各々によって除算され、次のように剰余を算出する（Ｓ１０６）。

この実施例では、同じ最小剰余を生成する２つの量子化ステップ、すなわち、４と６があり、どちらも剰余２をもたらす。これらのうちのどちらかが、選択された量子化ステップとして選択されうる（Ｓ１０７）。ビットレートの低減よりも画質の優先度が高い場合には、量子化ステップ４が選択されうる。しかしながら、多くの場合、ビットレートの低減は画質よりも優先度が高くなり、そのような場合には、量子化ステップ６が選択されるべきである。第１のピクセルグループ２２は次いで、選択された量子化ステップを使用してエンコードされる（Ｓ１０８）。第１の画像２０のすべてのピクセルグループに対して同じプロセスが使用される。エンコードされた画像フレームは保存及び／又は送信されてもよく、第２の画像フレーム４０など、その後の画像フレームのエンコーディングのための参照フレームを形成するためにデコードされうる。第２の画像フレーム４０のエンコーディングは次に、図４に関連して、上述のインターフレームエンコーディング方法に従って実行されうる。

図６を参照して、本発明の方法が実行されうるエンコーダシステム１３について説明する。エンコーダ１３はカメラ２に組み込まれてもよく、或いはカメラ２に動作可能に接続されてもよい。エンコーダ１３は、エンコード対象のビデオの現在のデジタル画像フレーム中のピクセルを表わす情報を受信するように構成された受信モジュール１３１を有する。この情報は、既に説明したように、例えば、ピクセル強度値になりうる。更に、エンコーダは、現在の画像フレーム中の隣接するピクセルグループのグループ値を算出するように構成されたグループ値モジュール１３２、及び、現在の画像フレーム中の第１のピクセルグループと参照フレーム中の対応する参照ピクセルグループのグループ値との間の差分を算出するように構成された差分モジュール１３３を有する。イントラフレームエンコーディングにとって、差分モジュールは必ずしも必要でないことに留意されたい。エンコーダ１３はまた、利用可能な量子化ステップの組を決定するように構成されたステップの組決定モジュール１３４を有する。上述のように、この組は、レートコントローラ１５によって設定されたビットレート制限に基づいて決定される、所定の量子化ステップを含む。加えて、エンコーダ１３は、イントラコーディングに関して、第１のピクセルグループのグループ値を各利用可能な量子化ステップで除算した後の各剰余を算出するように構成された計算モジュール１３５を有する。インターコーディングに関しては、計算モジュールは、第１のピクセルグループそれ自体のグループ値ではなく、グループ値差分の除算に入力を行う。計算モジュール１３５は、イントラコーディング及びインターコーディングの両方のタイプの除算を実行可能でもよく、或いは、イントラコーディング用とインターコーディング用の２つの部分からなってもよい。エンコーダ１３の選択モジュール１３６は、最小剰余をもたらす組の中の量子化ステップを選択された量子化ステップとして選択するように構成されている。更に、エンコーダ１３は、選択された量子化ステップを使用して、第１のピクセルグループをエンコードするように構成されたエンコーディングモジュールを有する。

エンコーダ１３は、ソフトウェア、ファームウェア、ハードウェア、又はこれらの組み合わせとして実装されてもよい。

上述のエンコーディング方法は、プロセッサによって実行されると本発明の方法を実行するように適合された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品として具現化されうる。プロセッサは、任意の種類のプロセッサであってもよく、例えば、中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、集積回路中に実装されるカスタム仕様の処理デバイス、ＡＳＩＣ、ＦＰＧＡ又はディスクリート素子を含む論理回路であってもよい。

当業者は、上述の実施形態を多くの方法で修正し、かつ、上記の実施形態において示されている本発明の利点を依然として使用することが可能であることを、理解するであろう。一実施例として、組の中の異なる量子化ステップの数は異なるように選択されうる。上記の実施例では、所定の量子化ステップよりも大きい２つの量子化ステップに加えて、所定の量子化ステップよりも小さい１つの量子化ステップが含まれていた。多くの状況では、所定の量子化ステップに加えて、１つ又は２つのより小さな量子化ステップと、２つ又は３つのより大きな量子化ステップを有することが適切な場合がありうる。組の中の量子化ステップは、必ずしも等間隔である必要はなく、或いは互いに連続している必要はない。例えば、組は｛４、６、７、１０、１１｝であってもよい。

利用可能な量子化ステップの組は画像フレーム全体に対して一度に決定されてもよく、或いは各ピクセルグループに対して、又はピクセルグループの数に対して別々に決定されてもよい。

とりわけ、隣接するピクセルグループのグループ値は、グループ中のピクセルのピクセル値の平均として算出されている。平均の代わりに、ピクセル値の和が算出されてもよい。

更に、グループ値は、ピクセル値又はグループ中のピクセルの強度値に基づいて算出されるものとして説明されている。周波数ドメイン内でグループ値を算出することも可能になりうる。ピクセル値を周波数ドメインに変換するときには、ピクセルの各ブロック又はグループは多数の周波数を保持しうる。これを図解するため、単純化された実施例を取り上げる。以下のピクセル値を有する、幅２ピクセルで高さ２ピクセルだけの小さなブロック又はグループについて検討する。

このブロックは以下の可能な周波数を有する。

周波数ドメインでは、これは以下をもたらす。

３０は１、２、３、５、６、１０、１５、及び３０で割り切れるが、６は１、２、３、及び６でしか割り切れない。３０と６の両方が割り切れる最大の量子化ステップは、したがって６である。この場合、所定の量子化ステップが５で、利用可能な量子化ステップの組が｛４、５、６、７｝の場合、グループ値

を利用可能な量子化ステップの各々で除算すると、以下の計算結果が得られる。

利用可能な量子化ステップの決定された組の中で、最小剰余をもたらすのは量子化ステップ６であるが、これは両周波数に対して剰余０をもたらすからである。一般的に、ベース周波数だけに対して、すなわち、

に対して、グループ値を算出することが望ましく、この場合、グループ値３０を算出する。更に多くの周波数を考慮に入れることも場合によっては可能で、しかも有利であるが、多くの場合、相当の計算リソースを必要とする複雑な計算につながる。

要約すると、本発明の方法は、エンコーダからの出力ビットレートを低減することが可能で、一方、必ずしも画質を犠牲にしないことがわかるであろう。本発明の方法は、その後の画像フレームのエンコーディングに対してより良い参照フレームを生成することができる。量子化ステップの賢明な選択により、その後の画像フレームで、特に画像フレームの静的な部分でエンコードするときには、より小さな残余をもたらす参照フレームを取得しうる。

上述のように、本発明者によって開発された原理は、インターモード並びにイントラモードで使用されうる。グループ値を利用可能な量子化ステップの組の中の各量子化ステップで除算する考え方は、ピクチャグループ（ＧＯＰとも称される）中の幾つかのフレームに対してのみ使用され、同一ＧＯＰ中の他のフレームに対しては使用されないように、ミックスしたアプローチも使用可能であることに留意されたい。例えば、本発明の原理は、インターフレームに対してのみ、或いはイントラフレームに対してのみ使用しうる。本発明の原理をＧＯＰ中にインターフレームの一部に対して使用し、同一ＧＯＰ中の他のインターフレームに対して使用しないことも可能である。このような場合、ＧＯＰの初期の画像フレームは、参照フレームの形成に関与することによって、ＧＯＰ中のその後の画像フレームの多くに影響を及ぼすため、本発明の方法をＧＯＰの開始時の画像フレームに適用することが有利である。ＧＯＰの終わりにむかうにつれ、各画像フレームがそれ以降に及ぼす影響は少なくなり、参照フレームへの影響も小さくなる。

上記の説明では、制御されるエンコーディングのパラメータは、量子化ステップとして参照されている。背景の節で述べたように、量子化ステップは、異なるコーデックの異なる名称のパラメータによって制御されうる。例えば、Ｈ．２６４規格では、量子化ステップは、０～５１の値をとりうる量子化パラメータＱＰによって制御される。Ｈ．２６４では、ＱＰの各増分６は、量子化ステップの倍化に対応する。パラメータがどのように称されても、パラメータの各値は量子化ステップに置き換えられる。

本発明の概念は特定のコーデックに限定されるものではないが、任意のコーデックを利用する量子化で使用されうる。例えば、ブロックベースのハイブリッドコーデック（例えば、Ｈ．２６５、ＭＰＥＧ－４Ｐａｒｔ２、又はＶＰ９コーデックなど）と共に使用されうる。

エンコード対象の画像は、可視光カメラ、赤外線カメラ、又はサーマルカメラなど、任意の種類のカメラによってキャプチャされうる。画像はまた、ＴＯＦ（ｔｉｍｅ－ｏｆ－ｆｌｉｇｈｔ）センサなど、他の種類のセンサによってキャプチャされうる。

デジタル画像はデジタルカメラによってキャプチャされてもよく、或いはアナログカメラによってキャプチャされ、デジタル化装置を使用してデジタルフォーマットに変換されてもよい。

したがって、本発明は、図示した実施形態に限定されるべきではなく、添付の特許請求の範囲によってのみ限定されるべきである。

Claims

エンコード対象のビデオの現在のデジタル画像フレーム中のピクセルを表わす情報を受信することと、
前記現在のデジタル画像フレーム中の隣接するピクセルグループの各グループに対してピクセルのピクセル値の平均または和を算出して、隣接する各ピクセルグループ中のピクセルのピクセル値の算出された平均または和として隣接する各ピクセルグループのグループ値を形成することと、
第１の所定の量子化ステップを含む利用可能な量子化ステップの組を決定することと
を含むビデオエンコーディングの方法であって、
隣接する第１のピクセルグループに関して前記方法は、
利用可能な各量子化ステップに対して、前記第１のピクセルグループの前記グループ値を前記利用可能な量子化ステップの各々で除算した後の剰余を算出することと、
最小剰余をもたらす組の量子化ステップを選択された量子化ステップとして選択することと、
前記選択された量子化ステップを使用して前記第１のピクセルグループをエンコードすることと
を含むビデオエンコーディングの方法。
エンコード対象のビデオの現在のデジタル画像フレーム中のピクセルを表わす情報を受信することと、
前記現在のデジタル画像フレーム中の隣接するピクセルグループの各グループに対してピクセルのピクセル値の平均または和を算出して、隣接する各ピクセルグループ中のピクセルのピクセル値の算出された平均または和として隣接するピクセルの各グループのグループ値を形成することと、
第１の所定の量子化ステップを含む利用可能な量子化ステップの組を決定することと
を含むビデオエンコーディングの方法であって、
隣接する第１のピクセルグループに関して前記方法は、
前記第１のピクセルグループの前記グループ値と参照フレーム中の参照ピクセルグループの対応するグループ値との間のグループ値差分を算出することと、
各利用可能な量子化ステップに対して、前記グループ値差分を前記利用可能な量子化ステップの各々で除算した後の剰余を算出することと、
最小剰余をもたらす組の量子化ステップを選択された量子化ステップとして選択することと、
前記選択された量子化ステップを使用して前記第１のピクセルグループをエンコードすることと
を含むビデオエンコーディングの方法。
前記参照フレームは、先行してエンコードされデコードされた画像フレームである、請求項２に記載の方法。
前記利用可能な量子化ステップの組は、所定の量子化ステップと、前記所定の量子化ステップよりも大きい少なくとも１つのより大きな量子化ステップとを含む、請求項１から３のいずれか一項に記載の方法。
前記利用可能な量子化ステップの組は、所定の量子化ステップと、前記所定の量子化ステップよりも小さい少なくとも１つのより小さな量子化ステップとを含む、請求項１から４のいずれか一項に記載の方法。
２つ以上の利用可能な量子化ステップが、除算後に等しい小さな剰余をもたらす場合には、２つ以上の量子化ステップのうち最大のものが選択された量子化ステップとして選択される、請求項１から５のいずれか一項に記載の方法。
エンコード対象のビデオの現在のデジタル画像フレーム中のピクセルを表わす情報を受信するように構成された受信モジュールと、
前記現在のデジタル画像フレーム中の隣接するピクセルグループの各グループに対してピクセルのピクセル値の平均または和を算出して、隣接する各ピクセルグループ中のピクセルのピクセル値の算出された平均または和として隣接する各ピクセルグループのグループ値を形成するように構成されたグループ値モジュールと、
第１の所定の量子化ステップを含む利用可能な量子化ステップの組を決定するように構成されたステップの組決定モジュールと、
第１のピクセルグループのグループ値を前記利用可能な量子化ステップの各々で除算した後の各剰余を算出するように構成された計算モジュールと、
最小剰余をもたらす前記利用可能な量子化ステップの組の中の前記量子化ステップを選択された量子化ステップとして選択するように構成された選択モジュールと、
前記選択された量子化ステップを使用して前記第１のピクセルグループをエンコードするように構成されたエンコードモジュールと
を含むビデオエンコーディングのためのエンコーダシステム。
エンコード対象のビデオの現在のデジタル画像フレーム中のピクセルを表わす情報を受信するように構成された受信モジュールと、
前記現在のデジタル画像フレーム中の隣接するピクセルグループの各グループに対してピクセルのピクセル値の平均または和を算出して、隣接する各ピクセルグループ中のピクセルのピクセル値の算出された平均または和として隣接する各ピクセルグループのグループ値を形成するように構成されたグループ値モジュールと、
第１のピクセルグループのグループ値と参照フレーム中の参照ピクセルグループの対応するグループ値との間のグループ値差分を算出するように構成された差分モジュールと、
第１の所定の量子化ステップを含む利用可能な量子化ステップの組を決定するように構成されたステップの組決定モジュールと、
第１のピクセルグループのグループ値差分を前記利用可能な量子化ステップの各々で除算した後の各剰余を算出するように構成された計算モジュールと、
最小剰余をもたらす前記利用可能な量子化ステップの組の中の前記量子化ステップを選択された量子化ステップとして選択するように構成された選択モジュールと、
前記選択された量子化ステップを使用して前記第１のピクセルグループをエンコードするように構成されたエンコードモジュールと
を含むビデオエンコーディングのためのエンコーダシステム。
プロセッサによって実行されたときに請求項１から６のいずれか一項に記載の方法を実行するように適合された命令を含むコンピュータ可読記憶媒体を備える、コンピュータプログラム製品。
請求項７又は８に記載のエンコーダシステムを備えるカメラ。