JP6047835B2

JP6047835B2 - 符号化方法及び送信端末

Info

Publication number: JP6047835B2
Application number: JP2014528684A
Authority: JP
Inventors: ニルソン，マティアス; ヴァフィン，レナート; ヴァングアンデルセン，ソレン
Original assignee: Skype Ltd Ireland
Current assignee: Skype Ltd Ireland
Priority date: 2011-09-02
Filing date: 2012-09-02
Publication date: 2016-12-27
Anticipated expiration: 2032-09-02
Also published as: EP2737702A1; EP2737702B1; GB2495469A; JP2014528201A; US9854274B2; GB2495469B; WO2013033677A1; GB201115210D0; KR101999414B1; US20130058395A1; KR20140057309A

Description

本発明は、ビデオ信号の部分を符号化する符号化モードを選択するときにビットレートと歪みのどちらを取るかのバランスを保つことに関する。本発明は、リアルタイムでビデオストリーム、すなわち、ビデオ電話のビデオストリームのようなライブビデオストリームを符号化するとき、特に（排他的にではなく）適用できることがあり、エンコーダは、カメラなどから受信されるときできるだけ早く、送信のためストリームを動的符号化する必要がある。

符号化されるビデオデータのストリームは、図１ａに概略的に例示されている。ストリームは、１つずつが異なったそれぞれの時点でのビデオ画像を表現する複数のフレーム（Ｆ）を備える。当業者によく知られているように、符号化の目的のため、各フレーム（Ｆ）は、部分に分割され、各部分は、より小さい下位部分にさらに再分割されることがあり、各部分または下位部分は、複数の画素を備える。たとえば、ある用語によれば、符号化されるビデオストリームの各フレームは、マクロブロック（ＭＢ）に分割され、各マクロブロックは、ブロックまたはサブブロック（ｂ）に再分割され、各ブロックまたはサブブロックは、複数の画素を備える。各フレームは、独立に復号化可能なスライス（Ｓ）に分割されることもあり、各スライスは、１つ以上のマクロブロックを備える。注意すべきことは、図１ａに示された分割が例示の目的のための概略図に過ぎないことであり、これらの分割は、何らかの実際の符号化スキームに対応することが必ずしも意図されていないこと、たとえば、各フレームがより多数のマクロブロックを含んでいる可能性が高いことが認められるであろう。

ビデオ符号化が採用されることがある実例通信システムは、図２のブロック図に概略的に例示されている。通信システムは、第１の送信端末１２と、第２の受信端末２２とを備える。たとえば、各端末１２、２２は、携帯電話機もしくはスマートフォン、タブレット、ラップトップコンピュータ、デスクトップコンピュータ、または、テレビジョンセット、セット・トップ・ボックス、ステレオシステムなどのようなその他の家電製品を備えることがある。第１および第２の端末１２、２２は、それぞれが通信ネットワーク３２に動作可能に結合し、第１の送信端末１２は、それによって、第２の受信端末２２によって受信されるものである信号を送信するように配置構成されている。当然ながら、送信端末１２は、受信端末２２から信号を受信する能力を備えることもあり、逆もまた同様であるが、説明の目的のため、送信は、本書では、第１の端末１２の立場から表現され、受信は、第２の端末２２の立場から表現されている。通信ネットワーク３２は、たとえば、ワイド・エリア・インターネットおよび／またはローカル・エリア・ネットワーク、および／または、モバイル・セルラー・ネットワークのようなパケットベース・ネットワークを備えることがある。

第１の端末１２は、フラッシュメモリもしくはその他の電子メモリ、磁気記憶デバイス、および／または、光学記憶デバイスのような記憶媒体１４を備える。第１の端末１２は、１個以上のコアを有するＣＰＵの形式をした処理装置１６と、少なくとも送信機１８を有している有線または無線モデムのような送受信機と、端末１２の残部と同じケーシングの内部に収容されること、または、収容されないことがあるビデオカメラ１５とをさらに備える。記憶媒体１４、ビデオカメラ１５および送信機１８は、それぞれが処理装置１６に動作可能に結合され、送信機１８は、有線または無線リンクを介してネットワーク３２に動作可能に結合されている。同様に、第２の端末２２は、電子、磁気、および／または、光学記憶デバイスのような記憶媒体２４と、１個以上のコアを有するＣＰＵの形式をした処理装置２６とを備える。第２の端末は、少なくとも受信機２８を有している有線または無線モデムのような送受信機と、端末２２の残部と同じケーシングの内部に収容されること、または、収容されないことがある画面２５とを備える。第２の端末の記憶媒体２４、画面２５および受信機２６は、それぞれがそれぞれの処理装置２６に動作可能に結合され、受信機２８は、有線または無線リンクを介してネットワーク３２に動作可能に結合されている。

第１の端末１２上の記憶媒体１４は、処理装置１６上で実行されるように配置構成された少なくともビデオエンコーダを記憶する。実行されたとき、エンコーダは、ビデオカメラ１５から「未加工」（非符号化）入力ビデオストリームを受信し、より低ビットレートのストリームに圧縮するためにビデオストリームを符号化し、送信機１８および通信ネットワーク３２を介する第２の端末２２の受信機２８への送信のため符号化ビデオストリームを出力する。第２の端末２２上の記憶媒体は、これの独自の処理装置２６上で実行されるように配置構成された少なくともビデオデコーダを記憶する。実行されたとき、デコーダは、受信機２８から符号化ビデオストリームを受信し、画面２５への出力のためこれを復号化する。エンコーダおよび／またはデコーダに言及するために使用されることがある総称は、コーデックである。

ビデオコーデックの目的は、考えられる最高品質を維持しながら、ビデオ信号を送信するために必要とされるビットレートを低減することである。この目的は、統計的冗長性（ビデオ信号の中の類似性）および（人の視覚系の感度に関連する）知覚的無関連性を利用することにより達成される。

現在のビデオコーデックの大多数は、他の画素ブロックからの画素ブロックの予測と、予測残差の変換と、変換係数の量子化と、量子化指数のエントロピー符号化とを含むアーキテクチャに基づいている。これらのステップは、冗長性および無関連性の低減に寄与する。

以下の文献：
［１］ＩＴＵ−Ｔ，ＲｅｃｏｍｍｅｎｄａｔｉｏｎＨ．２６４，「Ａｄｖａｎｃｅｄｖｉｄｅｏｃｏｄｉｎｇｆｏｒｇｅｎｅｒｉｃａｕｄｉｏｖｉｓｕａｌｓｅｒｖｉｃｅｓ」，２００７
［２］Ｚｈａｎｇｅｔａｌ．，「ＥｒｒｏｒｒｅｓｉｌｉｅｎｃｅｖｉｄｅｏｃｏｄｉｎｇｉｎＨ．２６４ｅｎｃｏｄｅｒｗｉｔｈｐｏｔｅｎｔｉａｌｄｉｓｔｏｒｔｉｏｎｔｒａｃｋｉｎｇ」，ＩｎＰｒｏｃ．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ｐｐ．１６３−１６６，２００４
を参照する。

予測は、典型的に、現在フレーム以外のビデオフレームの中の画素（インター予測）から、および、同じフレームの中の画素（イントラ予測）から実行される可能性がある。すなわち、フレーム内符号化を使用して符号化される場合、ブロック、サブブロックまたはフレームのその他の部分（対象ブロックまたは部分）が同じフレームの中の別のブロック、サブブロックまたは画像部分（参照ブロックまたは部分）と相対的に符号化され、そして、フレーム間符号化を使用して符号化される場合、対象ブロックまたは部分が別のフレームの中の参照ブロックまたは部分と相対的に符号化される。このプロセスは、予測または予測符号化と広く呼ばれている。インターまたはイントラ予測モジュールがこのようにして、たとえば、フレーム内符号化の場合に近傍ブロックまたはサブブロック、および／または、フレーム間符号化の場合に動きベクトルの指示の形式で予測を発生させることになる。典型的に、エンコーダは、予測ブロックと実際のブロックと（または予測サブブロックと実際のサブブロックと、など）の間の「残りの」差を表現する残差信号をさらに発生させる。イントラ予測と関係がある残差、動きベクトル、および、何か所要のデータは、その後、典型的に、量子化器およびエントロピー・エンコーダのようなさらなる符号化ステージ又は符号化段を介して、符号化ビデオストリームに出力される。それ故に、ビデオの中の殆どのブロックは、ブロック間の差の観点から符号化される可能性があり、このことは、絶対画素値を符号化するより少数のビットしか符号化するために必要としないので、ビットレートを軽減する。イントラ予測符号化は、典型的に、インター予測より多数のビットを必要とするが、それでもなお絶対値を符号化することを超える節約を示す。ビデオのため適当なインター符号化技術およびイントラ符号化技術の詳細は、当業者によく知られているであろう。

最新のコーデックは、フレーム内部の種々の部分のため種々の予測符号化モードの使用を可能にする。種々の符号化選択肢を有する可能性は、ビデオコーデックのレート−歪み効率を増大させる。最適符号化表現があらゆるフレーム領域に対し見つけられるべきである。典型的に、このような領域は、たとえば、１６×１６画素からなるマクロブロックである。すなわち、その結果、イントラ予測またはインター予測モードが各マクロブロックに対して個別に選択されることが可能であるので、同じフレーム内部の異なるマクロブロックは、異なるモードで符号化される可能性がある。一部のコーデックでは、異なるレベルのマクロブロックの区分に基づいて、たとえば、別個の予測がマクロブロック内部の４×４のサブブロック毎に実行されるより高い複雑性モード、または、予測が僅かに８×８もしくは８×１６ブロック、または、実にマクロブロック全体に基づいて実行されるより低い複雑性モードの間で選択を行うことにより、異なるモードを使用することも可能である。利用可能なモードは、予測を実行する種々の選択肢をさらに含むことがある。たとえば、図１ｂに概略的に例示されるように、１つのイントラモードでは、４×４型サブブロック（ｂ）の画素は、直上にあるサブブロックからの近傍画素から下向きに外挿することにより、または、直ぐ左にあるサブブロックから横向きに外挿することにより決定されることがある。「スキップモード」と呼ばれる別の特別な予測モードがいくつかのコーデックにさらに設けられることがあり、代替的な形式のインターモードとしてみなされることがある。スキップモード（ＰＳｋｉｐ）では、対象の動きベクトルは、上の方かつ左の方の動きベクトルに基づいて推論され、残差係数の符号化は存在しない。動きベクトルが推論される方法は、動きベクトル予測と整合性が取れ、それ故に、動きベクトル差分は、零であるので、マクロブロックがスキップブロックであることをシグナル通知することのみが必要とされる。

図３は、送信端末１２に実施されるかもしれないようなエンコーダを概略的に例示するハイレベル・ブロック図である。エンコーダは、離散コサイン変換（ＤＣＴ）モジュール５１と、量子化器５３と、逆変換モジュール６１と、逆量子化器６３と、イントラ予測モジュール４１と、インター予測モジュール４３と、減算段（−）とを備える。エンコーダは、スイッチ４７とモード選択モジュール４９とをさらに備える。モジュールの１つずつは、好ましくは、送信端末の記憶媒体１４に記憶され、処理装置１６での実行のため配置構成されたコードの一部分として実施されるが、これらのモジュールの一部または全部が専用ハードウェア回路で完全にまたは部分的に実施される可能性は、排除されない。

スイッチ４７およびモード選択モジュール４９の１つずつは、複数のマクロブロックＭＢを備える入力ビデオストリームのインスタンスを受信するように配置構成されている。モード選択モジュール４９は、各マクロブロックに対して符号モード「ｏ」を選択するように配置構成され、マルチプレクサが選択されたモードに適切に逆量子化器６３の出力をイントラ予測モジュール４１またはインター予測モジュール４３のいずれかの入力に渡すことを制御するためにマルチプレクサ４７に動作可能に結合されている。モード選択モジュール４９は、選択されたモード「ｏ」を関連性のある予測モジュール４１、４３に指示するために（たとえば、４×４型区分モード、８×８型モード、スキップモードなどを指示するために）、そして、予測モジュール４１、４３からフィードバックされ、次のフレームに対するモードを選択するときに用いられる情報を受信するようにさらに配置構成されることがある。イントラ予測モジュール４１またはインター予測モジュール４３の出力は、その後、減算段又は減算ステージ（−）の入力に結合され、この減算段は、これのもう一方の入力で符号化されていない入力ビデオストリームを受信し、予測ブロックをこれらの符号化されていない対応部分から減算し、このようにして、残差信号を発生させるように配置構成されている。残差ブロックは、その後、それぞれの残差値が周波数ドメインに変換される変換（ＤＣＴ）モジュール５１を介して、変換された値が離散量子化指数に変換される量子化器５３に渡される。変換され、量子化された信号は、逆量子化器６３および逆変換モジュール５１を通してフィードバックされ、（デコーダで見られるように）選択された予測モジュール４１、４３によって用いられる予測されたブロックまたはサブブロックを発生させる。予測モジュール４１、４３で使用された予測の指示と、インター予測モジュール４３によって発生された動きベクトルと、変換モジュール５１および量子化モジュール５３によって発生されたような残差の変換、量子化された指数とは、全てが符号化ビデオストリームに組み込むため出力され、典型的には、予測値および量子化され、変換された指数が技術的に知られている無損失符号化技術を使用してさらに圧縮されることがあるエントロピーエンコーダ（図示せず）のようなさらなる無損失符号化ステージ又は無損失符号化段を経由する。

以上によれば、符号化表現は、このようにして、ブロック区分情報、予測モード、動きベクトル、量子化精度などを含むことがある。最適な符号化選択肢は、ビデオコンテンツ、ビットレート、先行の符号化決定などに依存する。変換係数の量子化の精度は、典型的に、ビットレート制約を満たすように選定される。さらに、歪みは、最小化されるべきである。

たとえば、Ｈ．２６４ビデオコーダは、予測モードの選定に大きな柔軟性を提供する［１］。輝度成分のインター予測に関して、１６×１６画素からなるマクロブロックは、１６×１６画素からなる１個のブロック、または１６×８画素の２個のブロック、または８×８画素からなる４個のブロックとして表現される可能性がある。さらに、８×８型ブロックは、８×８画素からなる１個のブロック、または８×４画素からなる２個のサブブロック、または４×８画素からなる２個のサブブロック、または４×４画素からなる４個のサブブロックとして表現される可能性がある。インター予測は、マクロブロックの許容された区分毎に試行される。ブロックのインター予測は、参照フレーム（群）と、典型的に、サブ画素精度で推定される動きベクトル（群）（それぞれの参照フレームの中の参照ブロックからの空間シフト）とを指数化することにより表現される。輝度成分のイントラ予測に関して、１６×１６型ブロックのための４個の可能なモードと、４×４型サブブロックのための９個の可能なモードとが存在する。さらに、彩度成分のための４個の可能なモードが存在する。最良予測モードは、インター予測モードおよびイントラ予測モードの性能を比較することにより選定される。

Ｈ．２６４ＡＶＣ［１］のようなビデオコーデックのレート−歪み性能は、マクロブロックモード選択の性能ｏに大幅に依存する。すなわち、レートと歪みのどちらを取るかの点から、たとえば、イントラモードまたはインターモードを使用して、マクロブロックが最良に符号化されているか否かを決定する手続である。ロバスト性又は頑健性の観点から、イントラ符号化マクロブロックは、（制約付きのイントラ予測、すなわち、インター予測マクロブロックからのイントラ予測の使用が禁止されていると仮定すると）時間的誤り伝搬を停止するので有利である。しかし、イントラ符号化マクロブロックは、一般に、レートの点から、インター符号化マクロブロックより高コストであり、それ故に、ある種のビット配分およびチャネル条件を仮定すると、デコーダでの歪み（たとえば、平均歪み）が最小化されるようにイントラ符号化マクロブロックを系統的に導入することが重要である。Ｚｈａｎｇｅｔａｌ．［２］は、デコーダでの期待平均差分二乗和（ＳＳＤ）の最小化に基づいてイントラ符号化マクロブロックを導入するためにこのような系統的な枠組みを提案する。潜在的な歪みを追跡することにより、Ｚｈａｎｇｅｔａｌ．は、エンコーダのレート−歪みループの内部のインターマクロブロックのコストを計算するとき、ソース符号化歪みに加算される（デコーダでの）期待誤り伝搬歪みに関連するバイアス項を計算することが可能である。

レート−歪み性能最適化問題は、ビットレート制約Ｒの下での歪みの最小化の点で定式化される可能性がある。ラグランジュ最適化の枠組みは、この問題を解決するためにしばしば使用され、この枠組みによれば、最適化規準は：
Ｊ＝Ｄ（ｍ，ｏ）＋λＲ（ｍ，ｏ）（１）
として定式化されることがあり、式中、Ｊは、ラグランジュ関数を表し、Ｄは、歪みの尺度（モードｏとマクロブロックｍまたはマクロブロック下位区分との関数）を表し、Ｒは、ビットレートであり、λは、歪みとレートのどちらを取るかについてのパラメータである。広く使用される歪み尺度は、原画素と再構成画素との間の差分二乗和（ＳＳＤ）、または、原画素と予測画素との間の差分絶対和（ＳＡＤ）である。

本願では、ラグランジュ最適化問題を解法することは、ラグランジュ関数Ｊを最小化する符号化モードｏを見つけることを意味し、ここで、ラグランジュ関数Ｊは、歪みを表す項と、ビットレートを表す項と、両者の間でどちらを取るかを表す因子又は係数（「ラグランジュ乗数」））とを備える。符号化モードｏがより完全なまたはより良い品質の符号化モードに向かって変化するにつれて、歪み項Ｄは、減少することになる。しかし、同時に、レート項Ｒは、増加することになり、λに依存する特定の点で、Ｒの増加は、Ｄの減少を上回ることがある。それ故に、式Ｊは、何らかの最小値を有することになり、これが起こる符号化モードｏが最適符号化モードであると考えられる。

この意味で、ビットレートＲ、もっと正確にはλＲは、この項が絶えず増加する品質から最適符号化モードを引き戻すので、最適化に制約を課す。この最適バランスが見つけられるモードは、λに依存することになり、それ故に、λは、ビットレートと歪みのどちらを取るかを表していると考えられることがある。

ラグランジュ最適化は、符号化決定を選定するプロセスで広く使用され、あらゆるフレーム領域（たとえば、１６×１６画素からなるあらゆるマクロブロック）に適用される。一般に、歪みは、全ての処理段階を明らかにするために評価されることがある。これらの処理段階は、予測、変換、および量子化を含む。さらに、再構成画素を計算するために、逆量子化、逆変換、および逆予測のステップが実行される必要がある。ＳＳＤは、ＳＡＤと比べてより高い品質という結果をもたらすので、歪み規準として好ましい場合がよくある。一般に、レートは、予測を記述するパラメータと、量子化された変換係数を含む全ての必要とされたパラメータの符号化をさらに明らかにする［４］。

［２］Ｚｈａｎｇｅｔａｌ．では、著者は、ソース符号化だけでなく、チャネル誤り、すなわち、信号がチャネルを介して送信されるときにデータの損失のために起こるものである見込み歪みにも起因するデコーダ内での潜在的な歪みを推定する。推定された見込み歪みは、その後、イントラ符号化の方へモード選択を偏らせるために間接的に使用される（チャネル誤りの可能性がある場合）。

Ｚｈａｎｇの「終端間」歪み式は、差分二乗和（ＳＳＤ）歪み尺度に基づき、損失マクロブロックにベルヌーイ分布を仮定する。最適マクロブロックモードｏ_ｏｐｔは：

によって与えられ、式中、Ｄ_ｓ（ｍ，ｏ）は、マクロブロックｍおよびマクロブロックモードｏに対する原画素と再構成画素との間のＳＳＤ歪みを表し、Ｒは、総レートを表し、λは、歪みおよびレート項を関連付けるラグランジュ乗数を表す。Ｄ_{ｅｐ＿ｒｅｆ}（ｍ，ｏ）は、誤り伝搬に起因するデコーダにおける参照マクロブロック内部の期待歪みを表す。Ｄ_{ｅｐ＿ｒｅｆ}（ｍ，ｏ）は、このようにして、誤り伝搬歪みが大きくなり過ぎた場合、イントラ符号化の方へ最適化を偏らせるバイアス項をもたらす。Ｄ_{ｅｐ＿ｒｅｆ}（ｍ，ｏ）は、イントラ符号化マクロブロックモードに対して零である。式Ｄ_ｓ（ｍ，ｏ）＋Ｄ_{ｅｐ＿ｒｅｆ}（ｍ，ｏ）＋λＲ（ｍ，ｏ）は、ラグランジュ関数Ｊの例であると考えられることがある。Ａｒｇｍｉｎ_ｏは、値が最小である式Ｊに対する引数ｏの値を出力する。

［２］において、項Ｄ_{ｅｐ＿ｒｅｆ}（ｍ，ｏ）は、物体の動きに追随し、現在の動きベクトルを使用して総歪みマップから計算される。総期待誤り伝搬歪みマップＤ_ｅｐは、誤り隠蔽の性能によって動かされ、各マクロブロックモード選択後に：
Ｄ_ｅｐ（ｍ（ｋ），ｎ＋１）＝（１−ｐ）Ｄ_{ｅｐ＿ｒｅｆ}（ｍ（ｋ），ｎ，ｏ_ｏｐｔ）＋ｐ（Ｄ_{ｅｃ−ｒｅｃ}（ｍ（ｋ），ｎ，ｏ_ｏｐｔ）＋Ｄ_{ｅｃ−ｅｐ}（ｍ（ｋ），ｎ））（３）
として更新され、式中、ｎは、フレーム番号であり、ｍ（ｋ）は、マクロブロックｍのｋ番目の下位区分（すなわち、ブロックまたはサブブロック）を表し、ｐは、パケット損失の確率を表し、Ｄ_{ｅｃ−ｒｅｃ}は、エンコーダにおける再構成画素と隠蔽画素との間のＳＳＤを表し、Ｄ_{ｅｃ−ｅｐ}は、エンコーダおよびデコーダにおける誤り隠蔽画素の間の期待ＳＳＤを表す。

［２］では、Ｄ_ｅｐは、フレームの各マクロブロックに亘って４×４型グリッドで、すなわち、マクロブロック１つ当たりにＤ_ｅｐの１６個の値で、従って、各マクロブロックの４×４型画素サブブロック１つ当たりにＤ_ｅｐの１個の値で記憶される。図１ｃに示されるように、Ｄ_{ｅｐ＿ｒｅｆ}（ｍ（ｋ），ｏ）、すなわち、時点ｎでのフレームのマクロブロックｍの内部のサブブロックｋに対する期待誤り伝搬参照歪みの計算は、その後、時点ｎ−１からの先行フレームの４個のサブブロックからのＤ_ｅｐの値の加重和として実行される。重みは、当該ブロックｍに対する動きベクトルから決定される。すなわち：

であり、式中、重みｗ_ｉは、オーバーラップのエリアに比例し、ｑ_ｉ（ｋ_ｉ）は、先行フレームｎ−１の中のマクロブロックｑ_ｉのサブブロックｋ_ｉを表す。

図１ｃは、典型的なサブブロックｂ１．．．ｂ４に関連して（本例では、ｋは、ｂ１に対応し、ｉは、ｂ１からｂ４まで数える）、動きベクトルおよび期待誤り伝搬歪みマップからの期待誤り伝搬参照歪みの計算の説明図を提供する。

ＩＴＵ−Ｔ，ＲｅｃｏｍｍｅｎｄａｔｉｏｎＨ．２６４，「Ａｄｖａｎｃｅｄｖｉｄｅｏｃｏｄｉｎｇｆｏｒｇｅｎｅｒｉｃａｕｄｉｏｖｉｓｕａｌｓｅｒｖｉｃｅｓ」，２００７Ｚｈａｎｇｅｔａｌ．，「ＥｒｒｏｒｒｅｓｉｌｉｅｎｃｅｖｉｄｅｏｃｏｄｉｎｇｉｎＨ．２６４ｅｎｃｏｄｅｒｗｉｔｈｐｏｔｅｎｔｉａｌｄｉｓｔｏｒｔｉｏｎｔｒａｃｋｉｎｇ」，ＩｎＰｒｏｃ．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ，ｐｐ．１６３−１６６，２００４

Ｚｈａｎｇ［２］は、１台の送信機および１台の受信機の終端間レート−歪み性能を最適化する問題のみを扱う。すなわち、Ｚｈａｎｇ［２］は、個別の送信機−受信機ペアのための所定のビットレートに対して（平均二乗誤差の意味で）終端間歪みを最小化するシナリオのみを考慮する。

しかし、グルーブビデオ通話では、たとえば、図４ａおよび４ｂに概略的に例示されているように、各送信機−受信機リンク（すなわち、チャネル）が何らかのそれぞれの損失確率（loss probability）ｐ_ｉを有する１台の送信機と複数台の受信機とに対する終端間レート−歪み性能を最適化する問題に直面する。

１つの配置構成では、送信機は、図４ａに概略的に表されているように、ストリームの異なるインスタンスを各受信機に送信することがある。アップリンクチャネルおよび送信機のＣＰＵが共に十分な能力を有している場合、送信機は、数台のエンコーダを並列に動かし、送信機−受信機ペア毎に期待終端間レート歪み性能を最適化することがあり得る。すなわち、Ｚｈａｎｇ［２］がさらなる修正なしで複数台受信機配置構成にそのまま適用された場合、これは、個別の送信機−受信機ペア毎に所定のビットレートに対する終端間歪みを（平均二乗誤差の意味で）最小化することのみを可能にするであろう。

しかし、しばしばアップリンク帯域幅および送信機のＣＰＵリソースが共にボトルネックを構成し、この場合、送信機は、図４ｂに概略的に示されるように、マルチキャストノードへ送出され、このマルチキャストノードからその後に引き続き全ての受信機に転送される１個のストリームを発生させるように制約されることがある。たとえば、これは、３台以上の端末がライブビデオ電話に参加しているグループビデオ通信のシナリオ（すなわち、端末間で送信されているライブビデオストリームのうちのいずれか１つの２人以上の受信者）で起こることがある。このようなシナリオでは、発明者は、多くの種々の最適化目的が考えられることを認識した。たとえば、ある種の場合には、全ての受信機に亘る平均終端間歪みが最小化されるように最適化することを望むことがあり、他の場合には、最大終端間歪みを最小化することが望ましい。

一般に、この場合に、個別の受信機毎に終端間レート歪み性能を最適化することは、実現可能ではない。その代わりに、異なるパケット損失確率と関係がある数台の受信機を有するとき、送信のための単一の符号化ストリームを発生させる事例を扱うために、発明者は、たとえば、Ｚｈａｎｇｅｔａｌ．［２］の修正に基づいてパケット損失に対するストリーム頑健性と複数台の受信機のソース符号化歪みとの間でバランスを達成するシステムおよび方法を提供する。これは、単一の送信ストリームに影響を与える何らかの所望の対象目的関数を最適化するために種々のリンク（チャネル）上のリンク関連特性の集計を使用して達成されることがある。本発明は、このようにして、複数台の受信機を有するときに、符号化された単一のビデオストリームの頑健性のレベルを制御する。

送信機が複数台の受信機の１台ずつに対してストリームの別個のインスタンスを送信する図４ａのシナリオのようなシナリオでも、各チャネルに関して完全な損失適応型レート−歪み最適化プロセスを実行するために送信機のＣＰＵリソースに追加の負担をそれでもなお課すことがある。その結果、単一の符号化されたビデオストリームの複数のインスタンスを複数台の受信機に送信し、このようにして、アップリンク上でなくても、送信機での処理リソースを節約するためにレート−歪み最適化プロセスを集計することが依然として望ましいことがある。

それ故に、実施の形態の課題は、いずれのシナリオにおいても、複数台の受信機に送信されるべき単一の符号化ビデオストリームに対してビットレートと歪みのどちらを取るかを最適化するために、各チャネルのリンク関連歪み特性を集計することである。

一観点による方法は、
ビデオストリームを符号化する方法であって、
前記ビデオストリームのフレームの中で符号化される複数の対象画像部分の各々に対して、ソース符号化歪みと損失に起因する誤り伝搬歪みの推定値とに基づく前記対象画像部分の歪みの推定値と、前記対象画像部分を符号化するために必要なビットレートの尺度とを含む関数を最適化することにより、一群の符号化モードのうちの好ましいものを選択する処理を含むレート−歪み最適化プロセスを実行するステップと、
選択された前記符号化モードを使用して、前記対象画像部分を符号化されたビデオストリームに符号化するステップと
を有し、前記方法は、複数の受信端末の各々に同一のレート−歪み最適化プロセスを使用して、送信端末から前記複数の受信端末の各々に各自の損失性チャネルを介して同一の符号化された前記ビデオストリームを送信するステップをさらに有し、
前記同一のレート−歪み最適化プロセスを使用する際に、前記関数の同一の最適化に基づいて前記対象画像部分毎に同一の符号化モードを選択し、
前記誤り伝搬歪みの推定値は、複数のチャネルに関して見込まれる損失に起因して生じるおそれがある誤り伝搬歪みの集計推定値を有する、方法である。

ビデオストリームの概略図である。いくつかのイントラ予測符号化モードの概略図である。誤り伝搬歪みの計算の概略図である。通信システムの概略ブロック図である。エンコーダの概略ブロック図である。１台の送信機および複数台の受信機の実例トポロジーを示す図である。１台の送信機および複数台の受信機の実例トポロジーを示す図である。デコーダからエンコーダへのフィードバックを利用するシステムの概略図である。

＜実施の形態の概要＞
第１の実施形態では、関数ｆは、受信機に対するパケット損失確率の組に適用される。すなわち、Ｌ台の受信機に対して：
ｐ＝ｆ（ｐ_０＋ｐ_１’−ｐ_０ｐ_１’，ｐ_０＋ｐ_２’−ｐ_０ｐ_２’，．．．，ｐ_０＋ｐ_Ｌ’−ｐ_０ｐ_Ｌ’）（３ａ）
であり、ここで、図４ｂに示された構造体、すなわち、マルチキャストノードを介する送信機から受信機ｌまでの損失確率は：
１−（１−ｐ_０）（１−ｐ_ｌ’）＝ｐ_０＋ｐ_１’−ｐ_０ｐ_ｌ’ （３ｂ）
として表現される可能性がある。

集計されたパケット損失確率ｐは、その後、エンコーダの内部で式（３）において使用される可能性がある。実例関数は、最適化目的が何であるかに依存して最大値、中央値、または平均値である。たとえば、最大パケット損失に基づく最適化は、最悪のリンクに対して（平均で）最適終端間レート歪み性能を、その結果、その他のリンクに対して最適に満たない性能（必要とされることになるソース符号化歪みより高い歪み）を保証する。

第２の実施形態では、送信機は、Ｌ個の異なる誤り伝搬マップを追跡する。パケット損失確率に関して一意である送信機−受信機ペアのみが追跡される必要がある。たとえば、種々のリンクを少数の異なるクラス（たとえば、低パケット損失、中間パケット損失、および高パケット損失のクラス）に分類することによって、より少数の歪みマップを追跡することも可能である。さらに、第２の実施形態の特に有利な具現化では、どのパケット（またはフレームもしくはパケット）がデコーダで受信されたか、または、失われたかをシグナル通知する受信機のうちの全部（または一部）からのフィードバック情報が利用可能であるということがある。概して、種々のパケットは、マルチキャストノードから１台ずつの個別の受信機までの種々のリンク上で失われることがある。フィードバック情報は、種々の歪みマップをリセットし、再計算するために送信機のエンコーダで使用されることがある。

種々のリンクに対する種々の歪みマップを仮定すると、式（２）のモード選択において適用する（概念的には第１の実施形態に類似する）集計誤り伝搬参照歪み、たとえば：
Ｄ_{ｅｐ−ｒｅｆ}（ｍ（ｋ），ｏ）＝ｆ（Ｄ_{ｅｐ−ｒｅｆ}（ｍ（ｋ），ｏ｜ｌｉｎｋ_１），．．．，Ｄ_{ｅｐ−ｒｅｒ}（ｍ（ｋ），ｏ｜ｌｉｎｋ_Ｌ））（４ａ）
を作成することが可能であり、式中、ｆは、たとえば、上記と同様に、最大値、中央値、または平均値である可能性がある。

上記は、ある特別な典型的な実施形態の概要を説明するが、より一般的には、本発明は、以下に沿ったシステム、コンピュータ・プログラム・プロダクトおよび装置を提供する。

本発明の一態様によれば、ビデオストリームを符号化する方法が提供され、この方法は、ビデオストリームのフレームの中で符号化される複数の対象画像部分の１つずつに対して、ソース符号化歪みおよび損失に起因する誤り伝搬歪みの推定値に基づく対象画像部分の歪みの推定値と、対象画像部分を符号化するために必要とされるビットレートの尺度とを含む関数を最適化することにより符号化モードの組のうちの好ましい１つを選択することを含めて、レート−歪み最適化プロセスを実行することと、選択された符号化モードを使用して、対象画像部分を符号化されたビデオストリームに符号化することとを備え、この方法は、複数台の受信端末のうちの１台ずつに関して同一のレート−歪み最適化プロセスを使用して、送信端末から複数台の受信端末のうちの１台ずつにそれぞれの損失の多いチャネルを介して同一の符号化されたビデオストリームを送信することをさらに備え、ここで、同一のレート−歪み最適化プロセスの使用は、上記関数の同一の最適化に基づいて対象画像部分毎に同一の符号化モードを選択することを備え、誤り伝搬歪みの推定値は、複数のチャネルを介して見込まれる損失に起因して起こることになる誤り伝搬歪みの集計推定値を備える。

本発明の好ましい適用では、上記チャネルのうちの２つ以上は、共通のマルチキャスティング中継ノードを経由することがあり、そのために、送信端末は、符号化されたビデオストリームを第１の区間を介してマルチキャスティング中継ノードに送信することがあり、マルチキャスティング中継ノードは、符号化されたビデオストリームのそれぞれのインスタンスをそれぞれの２台以上の受信端末のうちの１台ずつにチャネルのそれぞれの第２の区間を介して転送することがある。

本発明の第１の実施形態では、この方法は、上記チャネルのうちの１つずつを介する損失の個別の確率を決定することと、個別の確率に基づいて集計確率を決定することとを備えることがあり、歪みの集計推定値は、集計確率に基づくことがある。

上記２つ以上のチャネルの１つずつに対する個別の確率は、これの区間の１つずつを介する損失の確率を組み合わせることにより決定されることがある。

中継ノードは、サーバとエンドユーザ端末とのうちの一方を備えることがある。

集計確率は、個別の確率の最大値、中央値および平均値のうちの１つを備えることがある。

本発明の第２の実施形態では、この方法は、上記チャネルの１つずつを介して見込まれる損失に起因して起こることになる誤り伝搬歪みの個別の推定値を決定することを備えることがあり、誤り伝搬歪みの集計推定値は、誤り伝搬歪みの個別の推定値を集計することにより決定されることがある。

この方法は、各符号化モード選択の後に誤り伝搬マップを更新することにより、上記チャネルの１つずつに対する個別の誤り伝搬歪みマップを維持することを備えることがあり、歪みの個別の推定値は、それぞれの歪みマップから決定されることがある。

歪みの個別の推定値の集計は、歪みの個別の推定値の最大値、中央値および平均値のうちの１つを備えることがある。

上記チャネルの１つ以上のうちの１つずつに対する誤り伝搬歪みの個別の推定値は、それぞれの受信端末からのフィードバックに基づくことがある。

上記フィードバックは、上記先行するフレームの少なくとも一部が受信されたという肯定応答と、上記先行するフレームの少なくとも一部が受信されなかったというレポートとのうちの一方を備えることがある。

フィードバックに基づく誤り伝搬歪みの個別の推定値は、上記フィードバックに依存して先行するフレームまたは先行するフレームの一部に対する歪みの推定値を調節することと、歪みの調節された推定値を現在フレームに関して用いるため前方に伝搬することとを備えることがある。

フィードバックに基づく誤り伝搬歪みの個別の推定値は、上記肯定応答および上記レポートのうちの少なくとも一方に依存して先行するフレームまたは先行するフレームの一部に対する歪みの推定値を調節することと、歪みの調節された推定値を現在フレームに関して用いるため前方に伝搬することとを備えることがある。

いずれの実施形態でも、第１および第２の実施形態は、独立に適用されても、組み合わせて適用されてもよい。

符号化モードは、（ｉ）対象画像部分を同じフレーム内の参照画像部分と相対的に符号化するフレーム内モードと、（ｉｉ）対象画像部分を前の符号化フレーム内の参照画像部分と相対的に符号化するフレーム間符号化モードとを少なくとも備えることがある。

符号化モードの組は、スキップモードを備えることがある。

符号化モードの組は、フレーム内符号化およびフレーム間符号化のうちの少なくとも一方のため対象画像部分の種々の区分を使用するモードを備えることがある。

本発明の別の態様によれば、ビデオストリームを符号化する送信端末が提供され、この送信端末は、ビデオストリームのフレームの中で符号化される複数の対象画像部分の１つずつに対して、ソース符号化歪みおよび損失に起因する誤り伝搬歪みの推定値に基づく対象画像部分の歪みの推定値と、対象画像部分を符号化するために必要とされるビットレートの尺度とを含む関数を最適化することにより符号化モードの組のうちの好ましい１つを選択することを含めて、レート−歪み最適化プロセスを実行するように構成され、選択された符号化モードを使用して、対象画像部分を符号化されたビデオストリームに符号化するように配置構成されているエンコーダと、送信端末から複数台の受信端末のうちの１台ずつにそれぞれの損失の多いチャネルを介して同一の符号化されたビデオストリームを送信するように構成されている送信機とを備え、エンコーダは、複数台の受信端末のうちの１台ずつに関して同一のレート−歪み最適化プロセスを使用するように構成され、ここで、同一のレート−歪み最適化プロセスの使用は、上記関数の同一の最適化に基づいて対象画像部分毎に同一の符号化モードを選択することを備え、エンコーダは、誤り伝搬歪みの推定値が複数のチャネルを介して見込まれる損失に起因して起こることになる誤り伝搬歪みの集計推定値を備えるようにさらに構成されている。

実施形態では、送信機は、上記方法特徴のいずれかに従って動作するように構成されることがある。

本発明の別の態様によれば、ビデオストリームを符号化するコンピュータ・プログラム・プロダクトが提供され、このコンピュータ・プログラム・プロダクトは、コンピュータ読み取り可能な媒体上に具現化され、送信端末上で実行されたときに以下の動作、ビデオストリームのフレームの中で符号化される複数の対象画像部分の１つずつに対して、ビデオストリームのフレームの中で符号化される複数の対象画像部分の１つずつに対して、ソース符号化歪みおよび損失に起因する誤り伝搬歪みの推定値に基づく対象画像部分の歪みの推定値と、対象画像部分を符号化するために必要とされるビットレートの尺度とを含む関数を最適化することにより符号化モードの組のうちの好ましい１つを選択することを含めて、レート−歪み最適化プロセスを実行することと、選択された符号化モードを使用して、対象画像部分を符号化されたビデオストリームに符号化することとを実行するように構成されているコードを備え、このコードは、実行されたとき、複数台の受信端末のうちの１台ずつに関して同一のレート−歪み最適化プロセスを使用して、送信端末から複数台の受信端末のうちの１台ずつにそれぞれの損失の多いチャネルを介して同一の符号化されたビデオストリームを送信するようにさらに構成され、同一のレート−歪み最適化プロセスの使用は、上記関数の同一の最適化に基づいて対象画像部分毎に同一の符号化モードを選択することを備え、誤り伝搬歪みの推定値は、複数のチャネルを介して見込まれる損失に起因して起こることになる誤り伝搬歪みの集計推定値を備える。

実施形態では、コードは、実行されたとき、上記方法特徴のいずれかに記載された動作を実行するようにさらに構成されることがある。

本発明のより良い理解のため、かつ、本発明がどのように実施されるかを明らかにするために、一例として添付図面を参照する。

＜実施の形態の詳細な説明＞
以下は、複数台の受信機に送信される唯一の符号化ビデオストリームに対し、ビットレートと歪みのどちらを取るかを最適化するために各チャネルのリンク関連歪み特性を集計するエンコーダおよび符号化方法について説明する。集計(aggregation)は、統合、総合、総計、集約等と言及されてもよい。エンコーダは、図３に関連して説明されたエンコーダに類似するが、モード選択モジュール４９が修正されている。これは、図１に例示された種類のビデオストリームを符号化するために使用され、図２の通信システムのような通信システムにおいて実施されることがある。

前述のとおり、モード選択は、ラグランジュ型関数：
Ｊ＝Ｄ（ｍ，ｏ）＋λＲ（ｍ，ｏ）（１）
を最適化（たとえば、最小化）することを含むことがあり、式中、Ｊは、ラグランジュ関数を表現し、Ｄは、歪みの尺度（モードｏとマクロブロックｍまたはマクロブロック下位区分との関数）を表現し、Ｒは、ビットレートであり、λは、歪みとレートのどちらを取るかについてのパラメータである。

従来の場合、歪み項Ｄは、ソース符号化歪みのみを考慮し、すなわち、量子化によって導入された歪みのようなエンコーダの中の不完全性に起因する。これは、チャネルを介するデータの損失に起因して、たとえば、パケットベース・ネットワーク３２を介する送信中のパケット損失に起因して導入されることがある歪みを考慮しない。

他方では、本発明およびＺｈａｎｇ［２］の技術のような損失適合技術は、ソース符号化およびチャネルを介するデータの損失に起因する歪みを共に考慮する「終端間」歪みの尺度を定義しようとする。所定の（対象）ブロック、マクロブロックまたはサブブロックに対する終端間歪みは：
Ｄ＝（１−ｐ）Ｄ_{ａｒｒｉｖａｌ}＋ｐＤ_ｌｏｓｓ（５）
として記述されることがあり、式中、Ｄ_{ａｒｒａｉｖａｌ}は、対象ブロックがデコーダに到着した場合に起こることになる歪みの推定値であり、Ｄ_ｌｏｓｓは、対象ブロックがチャネルを介するパケット損失に起因して、たとえば、パケットベース・ネットワーク３２を介するブロックを含むパケットの損失に起因してデコーダに到着しない場合に起こることがある歪みの推定値である。パラメータｐは、当該ブロック画像部分が結果的に失われるチャネルを介して起こる損失事象の確率の推定値、たとえば、パケット損失の確率の推定値である。簡便さのため、用語「ブロック」は、フレーム区分の関連性のあるレベル（たとえば、Ｈ．２６４のようなある種の規格のブロックまたはサブブロック）に一般的に言及するためにここでは適当な位置で使用されることがある。

Ｄ_{ａｒｒａｉｖａｌ}は、ソース符号化歪みだけではなく、ブロックの過去の歪みに起因して導入されることになる歪み、すなわち、対象ブロックが予測される原因である１つ以上の参照ブロックにおける歪みも表現する。その結果、Ｄ_{ａｒｒｉｖａｌ}は、ソース符号化歪み項Ｄ_ｓと、予測された対象ブロックの履歴の中の歪み（すなわち、対象ブロックへ繰り越す対象ブロックの参照ブロックの中の歪み）を表現する誤り伝搬歪み項Ｄ_{ｅｆ＿ｒｅｆ}とを共に含む：
Ｄ_{ａｒｒｉｖａｌ}＝Ｄ_ｓ＋Ｄ_{ｅｐ＿ｒｅｆ} （６）
Ｄ_ｌｏｓｓは、隠蔽に起因する損失を含む。対象ブロックが受信されない場合、デコーダは、先に符号化されたブロックを凍結すること、または、（現在フレームおよび／または前のフレームのいずれかからの）１つ以上の復号化に成功したブロックからの内挿または外挿を含むことがあり得る隠蔽アルゴリズムを適用することになる。その結果、Ｄ_ｌｏｓｓは、この隠蔽プロセスに起因する歪みとして識別される可能性がある：
Ｄ_ｌｏｓｓ＝Ｄ_ｅｃ（７）
従って、式（５）を調べると、項Ｄ_ｓは、損失が全くない場合に起こることになる歪みの推定値を表現し、項Ｄ_ｅｃは、対象ブロックが失われた場合に起こることになる歪みの推定値を表現し、項Ｄ_{ｅｐ＿ｒｅｆ}は、対象ブロックが受信に成功し、しかし、この履歴の中の何かが失われた場合（対象ブロックの参照ブロックが失われた場合、または、参照ブロックの参照ブロックが失われた場合など）に起こることになる歪みの推定値を表現する。

Ｄ_ｓおよびＤ_{ｅｐ＿ｒｅｆ}は、符号化モード選択ｏの関数である。Ｄ_ｅｃは、モード選択ｏの関数ではなく、従って、ラグランジュ式から落とされる（損失ブロックがどのように符号化されたかは問題ではない。それにもかかわらず失われている）。それ故に、最適化は：

として記述することが可能である。

Ｄ_ｓは、エンコーダで知ることができる情報に基づいているので、たとえば、未加工入力サンプル値ｓと再構成サンプル値s^との間の差分に基づいているので、決定論的である。エンコーダは、エンコーダ側でデコーダの並列インスタンス（または、これの近似）を動かす。図３のインター予測モジュール４３を詳述する差し込み図を参照のこと。インター予測モジュール４３は、動き補償予測（ＭＣＰ）ブロック４４と、予測サンプルs^_predと再構成残差r^とを組み合わせることにより、すなわち、各サンプル指数ｉに対して、
s^_i=r^_i+s^_pred
により再構成サンプルs^
を決定するように配置構成された加算ステージ又は加算段（＋）とを備える。インター符号化の場合、エンコーダで、予測サンプルs^_predは、参照ブロックs^_refのサンプルと同じであることがある（参照フレームの中の参照ブロックは、対象フレームと相対的に動きベクトルのみによってオフセットされている。再び簡単に説明される図１ｃを参照のこと）。

それ故に、エンコーダは、エンコーダおよびデコーダ端で見られるような実際のサンプルｓと再構成サンプルs^との間の差分を決定する可能性がある（これは、この段階では、デコーダで起こるさらなる歪みを導入することになる損失の可能性を無視する）。サンプルにおける差分は、たとえば、当該対象ブロックの全てのサンプル指数ｉに亘る差分二乗和（ＳＳＤ）誤り：

として計算されることがある。

しかし、Ｄ_{ｅｐ＿ｒｅｆ}は、まだ推定されず、これは、符号化データが（たとえば、パケットベース・ネットワーク３２を介して）送信されるべきチャネルに関するいくつかの推定を行うことに基づくことになる。

これを達成するために、エンコーダの中のモード選択モジュール４９は、直前に符号化されたフレーム内部の各マクロブロックまたはマクロブロックの区分の歪みを記述する誤り伝搬歪みマップＤ_ｅｐを維持するように構成されることがある。モード選択モジュール４９は、対象ブロックが予測される原因である参照ブロックを収容するパケットがチャネルを介して失われることになる確率ｐを決定するように（そして、その結果、さらにパケットが到着する確率１−ｐを暗黙的または明示的に決定するように）さらに配置構成されている。確率ｐは、統計的モデリングに基づいて設計段階で予め決定されることがあり、この場合、モード選択モジュール４９は、メモリ１４から値を取り出すことによりｐを決定する。もう１つは、モード選択モジュール４９が受信機２２からのフィードバックに基づいてｐを決定することである。

誤り伝搬マップは：
Ｄ_ｅｐ＝（１−ｐ）Ｄ_{ｅｐ＿ａｒｒｉｖａｌ}＋ｐＤ_ｌｏｓｓ（９）
として表現されることがある。

誤り伝搬マップＤ_ｅｐは、直前に符号化されたフレーム内部のマクロブロックｍに対する、または、より好ましくは、各下位区分（ブロックまたはサブブロック）ｍ（ｋ）に対する歪み推定値を備える。それ故に、誤り伝搬マップは、より明示的には：
Ｄ_ｅｐ（ｍ（ｋ））＝（１−ｐ）Ｄ_{ｅｐ＿ａｒｒｉｖａｌ}（ｍ（ｋ））＋ｐＤ_ｌｏｓｓ（ｍ（ｋ））（１０）
として記述されることがあり、式中、ｍ（ｋ）は、マクロブロックｍのｋ番目の下位区分（たとえば、サブブロック）を表し、ｐは、パケット損失の確率を表す。

Ｄ_ｌｏｓｓは、前述のとおりＤ_ｅｃに等しい。Ｄ_{ｅｐ＿ａｒｒａｉｖａｌ}は、チャネルを介する差分、すなわち、エンコーダでの再構成サンプルとデコーダでの再構成されたものとの間の差分を表現する。たとえば、これは、差分二乗和（ＳＳＤ）の観点から定量化されることがあり：

式中、s~_iは、ソース符号化歪みおよびチャネルに起因する歪みを共に考慮したデコーダで受信された（指数ｉ）のサンプルである。すなわち、ｓ_ｉは、未加工の符号化されていない入力サンプルであり、s^_iは、（たとえば、量子化に起因する）ソース符号化歪みを考慮してエンコーダで再構成されたサンプルであり、s~_iは、チャネルの損失の多い効果を含む総終端間歪みを考慮したサンプルであり；

である。

Ｄ_{ｅｐ＿ａｒｒａｉｖａｌ}は：

に拡張することが可能であり、式中、r^_iは、再構成残差のサンプルである。その結果：

である。

そこで、式（９）に代入すると、誤り伝搬マップは：
Ｄ_ｅｐ＝（１−ｐ）Ｄ_{ｅｐ＿ｒｅｆ}＋ｐＤ_ｅｃ（１４）
または；
Ｄ_ｅｐ（ｍ（ｋ））＝（１−ｐ）Ｄ_{ｅｐ＿ｒｅｆ}（ｍ（ｋ））＋ｐＤ_ｅｃ（ｍ（ｋ））（１５）
として記述される可能性がある。

モード最適化問題を考慮すると、これは：
Ｄ_ｅｐ（ｍ（ｋ），ｎ＋１）＝（１−ｐ）Ｄ_{ｅｐ＿ｒｅｆ}（ｍ（ｋ），ｎ，ｏ_ｏｐｔ）＋ｐＤ_ｅｃ（ｍ（ｋ），ｎ，ｏ_ｏｐｔ）（１６）
と記述されることもあり、式中、ｎは、フレーム番号であり、すなわち、Ｄ_ｅｐ（ｎ＋１）は、既存の決定ｏ_ｏｐｔおよび先行時点ｎでのフレームに対する歪みＤ_ｅｐ（ｎ）マップを仮定すると、時点ｎ＋１でフレームに対するモード選択を行うため使用される誤り伝搬マップである。

Ｚｈａｎｇ［２］の場合と同様に、Ｄ_ｅｃ項は：
Ｄ_ｅｐ（ｍ（ｋ），ｎ＋１）＝（１−ｐ）Ｄ_{ｅｐ＿ｒｅｆ}（ｍ（ｋ），ｎ，ｏ_ｏｐｔ）＋ｐ（Ｄ_{ｅｃ−ｒｅｃ}（ｍ（ｋ），ｎ，ｏ_ｏｐｔ）＋Ｄ_{ｅｃ−ｅｐ}（ｍ（ｋ），ｎ））（３）
に拡張されることもあり、式中、Ｄ_{ｅｃ−ｒｅｃ}は、エンコーダにおける再構成画素と隠蔽画素との間のＳＳＤを表し、Ｄ_{ｅｃ−ｅｐ}は、エンコーダおよびデコーダにおける誤り隠蔽画素の間の期待ＳＳＤを表す。

式（３）を調べると、前述のとおり、項Ｄ_{ｅｐ＿ｒｅｆ}は、対象ブロックは受信に成功しているが、これの履歴の中の何かが失われている場合に（対象ブロックの参照ブロックが失われているか、または、参照ブロックの参照ブロックが失われているなどの場合に）起こることになる歪みを表現する。さらに、Ｄ_{ｅｃ−ｒｅｃ}は、隠蔽アルゴリズム自体の性質に起因する歪み（予測に対して内在するソース符号化歪みＤ_ｓにやや類似する）の推定値を表現する。Ｄ_{ｅｃ−ｅｐ}は、このとき、対象ブロックが失われ（その結果、デコーダで隠蔽される必要がある）、かつ、隠蔽された対象ブロックの履歴の中の何かが失われている場合に（隠蔽が行われる原因であるブロックが失われる、または、ブロックが予測されるか、または、隠蔽される原因であるブロックが失われるなどの場合に）歪みの推定値を表現する。

従って、歪みマップＤ_ｅｐは、新しい損失に起因し、Ｄ_{ｅｃ−ｒｅｃ}および部分的にＤ_{ｅｃ−ｅｐ}の結果として生じる寄与度と、過去の損失に起因し、Ｄ_{ｅｐ−ｒｅｆ}および部分的にさらにＤ_{ｅｃ−ｅｐ}の結果として生じる寄与度とを備える。

系列の中の１番目のフレームに対して、フレームは、イントラ符号化を用いて符号化されることになり、この場合、Ｄ_{ｅｐ−ｒｅｆ}＝０であり、従って、Ｄ_ｅｐ＝ｐＤ_ｅｃである。

誤り隠蔽歪みＤ_ｅｃは、モード選択モジュール４９によって計算される。項Ｄ_{ｅｃ−ｒｅｃ}は、隠蔽アルゴリズムの知識に基づき、使用された特殊な誤り隠蔽アルゴリズムに依存することがある。Ｄ_{ｅｃ−ｅｐ}は、Ｄ_{ｅｐ−ｒｅｆ}に類似する方法で、たとえば、基本的な隠蔽アルゴリズムの場合に、同じ場所にあるブロックの歪みをコピーすることにより、または、より複雑な隠蔽が使用される場合に、動きを外挿しようとする複数の先に符号化されたブロックｂ１〜ｂ４から歪みの加重和を計算することにより（類推によって、以下の図１ｃに関連した検討を参照のこと）、既存の（直前の）歪みマップに基づいて計算される。Ｄ_ｅｃを計算する他の方法が使用されることもあり、これは、エンコーダの中の再構成サンプルとデコーダによって見られることになる誤り隠蔽サンプル（すなわち、損失フレームまたは領域を隠蔽するために、前に受信されたフレーム、または、同じフレームの受信された領域からコピー、内挿または外挿されたサンプル）との間の差分の何らかの推定ということもあり得る。

モード選択モジュール４９は、その後、既存の誤りマップの知識からのＤ_{ｅｐ＿ｒｅｆ}の計算を含めて、各モード選択決定の後に誤り伝搬マップを更新することにより、１つずつの後に続くインター予測フレームに対する誤り伝搬マップを維持する。インター予測（動き推定）の場合、Ｚｈａｎｇ［２］によれば、これは、当該フレームに対する動きベクトルを使用して行われる。

これの一例は、図１ｃに例示されている。４つの実例ブロックｂ１、ｂ２、ｂ３およびｂ４が（時点ｎ−１での）参照フレームＦ_ｎに示され、この参照フレームは、既に符号化されている。（後に続く時点ｎでの）対象フレームＦ_ｎのブロックは、参照フレームＦ_ｎ−１から予測される。たとえば、対象フレームＦ_ｎの中のブロックｂ_１を考慮する。このため、動き予測モジュール４４は、参照ブロックが参照フレームＦ_ｎ−１の中のオフセット位置から対象フレームＦ_ｎの中の対象ブロックｂ_１’の位置に平行移動されたとき、対象ブロックｂ_１の最良推定値をもたらすように、対象フレームＦ_ｎの中の対象ブロックと参照フレームＦ_ｎ−１の中の（点線によって示された）参照ブロックとの間のオフセットを定義する動きベクトルを決定する。その結果、点線の参照ブロックは、必ずしも参照フレームＦ_ｎ−１の中のインデックスで指定可能なブロックではなく、すなわち、必ずしも参照フレームの所定の再分割ではなく、任意の量によってオフセットされることがあることに（そして、実際には、画素の何分かの１によってオフセットされることさえあることに）注意すべきである。それ故に、参照ブロックは、４つの実際のインデックス指数可能なブロックｂ１、ｂ２、ｂ３およびｂ４からの寄与度で構成される。

その結果、誤り伝搬マップＤ_ｅｐ（ｎ＋１）の更新で用いられるＤ_{ｅｐ＿ｒｅｆ}を決定するためにモード選択モジュール４９によって実行される既存の計算は、既存のマップＤ_ｅｐ（ｎ）においてブロックまたはサブブロックｂ１からｂ４に対して記録された歪みの加重和：

を計算することを備える。

あるいは、より明示的に：

であり、式中、ｗ_ｉは、ブロックまたはサブブロックｂ_ｉからの寄与度を表現する重みであり、Ｄ_ｅｐ（ｉ）は、ブロックまたはサブブロックｂ_ｉに対する誤り伝搬マップエントリである。

上記は、初期誤り伝搬マップＤ_ｅｐを決定し、後続の符号化のための最適符号化モード選択ｏ_ｏｐｔを選択するために誤り伝搬マップを使用し、マップＤ_ｅｐを更新するために符号化決定を使用し、その後、次の符号化決定において更新されたマップを使用し、以下同様に続き、ここで、誤り伝搬マップは、チャネルを介する損失の推定された効果を含む終端間歪みを表現することがある、既存のプロセスについて説明する。たとえば、Ｚｈａｎｇ［２］を再度参照する。これは、本書では、損失適応型レート−歪み最適化（ＬＡＲＤＯ）と呼ばれることがある。

しかし、Ｚｈａｎｇｅｔａｌ．［２］のプロセスは、１台の送信機および１台の受信機の終端間レート−歪み性能を最適化する問題のみを扱う。

他方で、グルーブビデオ通話では、各送信機−受信機リンク（すなわち、チャネル）が何らかのそれぞれの損失確率ｐ_ｉを有する１台の送信機と複数台の受信機とに対する終端間レート−歪み性能を最適化する問題に直面する。これの実施例は、図４ａおよび４ｂに概略的に例示されている。

図４ｂは、本発明の好ましい適用による配置構成を例示する。この配置構成は、送信端末１２と、マルチキャスティング中継ノード７０と、複数台の受信端末２２とを備える。３台の受信装置２２ａ、２２ｂおよび２２ｃは、ここでは、例示の目的のため表されているが、２台以上のあらゆる台数が存在することがあり得る。送信機１２は、図２に従って構成され、図３に関連して説明されたエンコーダのとおりのエンコーダを備えることがあるが、以下のとおりに構成されたモード選択モジュール４９が修正されている。受信機２２の１台ずつは、図２に従って構成され、図３のエンコーダを補完するように構成されたそれぞれのデコーダを備えることがある。中継ノードは、スキームを実現し易くすることに同意したユーザに属するラップトップまたはデスクトップコンピュータのような第３のエンドユーザ端末を備えることがあり、または代替的に、通信サービスプロバイダのサーバを備えることがある。中継器７０がエンドユーザ端末である場合、第３のユーザは、通話の参加者であることも、参加者でないこともある（すなわち、第３のユーザの端末７０での再生のためビデオストリームを符号化することも符号化しないこともあり、そうすることが許可されていることも許可されていないこともある）。

送信端末１２は、インターネットのようなパケットベース・ネットワーク３２を介してマルチキャスティング中継ノード７０との接続を確立するように配置構成され、マルチキャスティング中継ノード７０は、同様にインターネットのようなパケットベース・ネットワーク３２を介して受信端末２２の１台ずつとのそれぞれの接続を確立するように配置構成されている。送信端末２２から１台ずつのそれぞれの受信端末２２へのチャネル（すなわち、リンク）は、送信端末１２と中継ノード７０との間の接続の形をした第１の区間（すなわち、第１の段階）と、中継ノード７０とそれぞれの第２の端末２２との間の接続の形をしたそれぞれの第２の区間（第２の段階）とを備える。

第１の区間は、損失確率ｐ_０が関連付けられている。第２の区間の１つずつは、それぞれのパケット損失確率ｐ_１’、ｐ_２’、ｐ_３’を有している。概して、これらの確率は、同じではない。以下では、各チャネル、または、これの受容的な受信機は、番号付けｌ＝１．．．Ｌを使って参照されることがあり、たとえば、例示された実施例では、Ｌ＝３である。

図４ｂの配置構成によれば、送信端末１２上のエンコーダは、複数台の受信端末２２の１台ずつへの送信のための唯一の符号化されたビデオストリームのみを発生させ、この符号化されたビデオストリームを第１の区間を介して共通のマルチキャスティング中継ノード７０（そして、図示されない他の受信者または中継器がより複雑な「ツリー」構造の一部として送信機１２に接続されていない限り、この中継ノード７０のみ）に送信するように構成されている。マルチキャスティング中継ノード７０は、符号化されたビデオストリームのそれぞれのインスタンスをそれぞれのチャネルのそれぞれの第２の区間を介して受信端末２２の１台ずつへ前方に転送するように構成されている。

前述のとおり、Ｚｈａｎｇ［２］がさらなる修正なしで複数台受信機配置構成にそのまま適用された場合、これは、個別の送信機−受信機ペア毎に所定のビットレートに対する終端間歪みを（平均二乗誤差の意味で）最小化することのみを可能にするであろう。

その結果、Ｚｈａｎｇ［２］は、図４ｂに関連して説明されているような配置構成を単独でサポートすることがない。

しかし、さらに検討されているように、しばしばアップリンク帯域幅および送信機のＣＰＵリソースが共にボトルネックを構成し、この場合、送信機は、図４ｂの場合のように、マルチキャストノードを介して送出される唯一のストリームを発生させるように制約されることがある。たとえば、これは、３台以上の端末がライブビデオ電話に参加しているグループビデオ通信のシナリオで起こることがある。このようなシナリオでは、発明者は、多くの種々の最適化目的が考えられることを認識した。たとえば、ある種の場合に、全ての受信機に亘る平均終端間歪みが最小化されるように最適化することを望むことがあり、他の場合に、最大終端間歪みを最小化することが望ましい。

これを扱うために、以下に記載された改良型システムおよび方法は、単一の送信ストリームに影響を与える所望の対象目標関数を最適化するために種々のリンクまたはチャネル上のリンク関連特性の集計を使用する。符号化信号ビデオストリームの中の頑健性のレベルは、その後、複数台の受信機に対して最適化されることがある。

送信端末上のエンコーダは、送信用の唯一の符号化されたビデオストリームを発生させ、（中継器７０を介して）複数台の受信端末２２の１台ずつに送信し、そして、複数のそれぞれのチャネルに関連する集計推定値に基づいているので、受信端末１２の１台ずつに送信された符号化ビデオストリームは、どんな所定のマクロブロックに対しても実行される同一のレート−歪み最適化計算に基づいて到達した、所定のマクロブロックに対する同一のモード選択を収容する。これは、アップリンク帯域幅および送信機でのＣＰＵリソースを節約する。

第１の実施形態では、関数ｆは、受信機に対するパケット損失確率の組に適用される。すなわち、Ｌ台の受信機２２に対して：
ｐ＝ｆ（ｐ_０＋ｐ_１’−ｐ_０ｐ_１’，ｐ_０＋ｐ_２’−ｐ_０ｐ_２’，．．．，ｐ_０＋ｐ_Ｌ’−ｐ_０ｐ_Ｌ’）（３ａ）
であり、ここで、図４ｂに示された構造体、すなわち、マルチキャストノードを介する送信機１２から受信機２２までの数ｌの損失確率は：
１−（１−ｐ_０）（１−ｐ_ｌ’）＝ｐ_０＋ｐ_１’−ｐ_０ｐ_ｌ’ （３ｂ）
として表現される可能性がある。

第２の実施形態では、送信機１２は、受信機２２のそれぞれの１台へのチャネルのそれぞれの１つずつに対して、Ｌ個の異なる誤り伝搬マップを追跡する。これは、各受信機２２と、これのそれぞれのチャネルとに対して式（３）を適用し、しかし、式（３）の中の一般的なパラメータｐの代わりに各チャネルに対して式（３ｂ）のそれぞれの損失確率を使用することにより達成されることがある。

パケット損失確率に関して一意である送信機−受信機ペアのみが追跡される必要がある。たとえば、種々のリンクを少数の異なるクラス（たとえば、低パケット損失、中間パケット損失、および高パケット損失のクラス）に分類することによって、より少数の歪みマップを追跡することも可能である。

種々のリンク（チャネル）に対する種々の歪みマップを仮定すると、式（２）のモード選択において適用する（概念的には第１の実施形態に類似する）集計誤り伝搬参照歪み、たとえば：
Ｄ_{ｅｐ−ｒｅｆ}（ｍ（ｋ），ｏ）＝ｆ（Ｄ_{ｅｐ−ｒｅｆ}（ｍ（ｋ），ｏ｜ｌｉｎｋ_１），．．．，Ｄ_{ｅｐ−ｒｅｒ}（ｍ（ｋ），ｏ｜ｌｉｎｋ_Ｌ））（４ａ）
を作成することが可能であり、式中、ｆは、たとえば、上記と同様に、最大値、中央値、または平均値である可能性がある。

第２の実施形態の選択自由であるが、特に有利な実現では、デコーダで受信されるか、または、失われたパケット（またはフレームもしくはスライス）をシグナル通知する、受信機の全部（または一部）からの利用可能なフィードバック情報が存在する。概して、種々のパケットは、マルチキャストノードから１台ずつの個別の受信機までの種々のリンク上で失われることがある。フィードバック情報は、種々の歪みマップをリセットし、再計算するために送信機のエンコーダで使用されることがある。個別の歪みマップは、種々のリンクが同一の損失確率を有するときであっても種々の受信機に対して追跡される。

図５は、フィードバックに基づいて歪みマップの更新を実施するために使用されることがあるエンコーダおよびデコーダのシステムを描く概略ブロック図である。好ましくは、エンコーダは、送信端末１２の記憶装置１４および処理装置１６の中に明示され、デコーダは、受信端末２２の記憶媒体２４および処理装置２６の中に明示される。送信端末１２上のエンコーダは、符号化モジュールと、デコーダで実行されるような復号化をミラーリングまたは近似する復号化モジュールのエンコーダ側インスタンスとを備える。符号化モジュールは、順方向変換モジュール５１および量子化器５３を備え、もしかすると、エントロピー・エンコーダのような１つ以上の他の段階を備える。エンコーダ側復号化モジュールは、逆量子化器６３および逆変換モジュール６１と、もしかすると、エントロピー・デコーダのような１つ以上の他の段階を備える。エンコーダは、動き補償予測（ＭＣＰ）モジュール４４と、減算段（−）とをさらに備える。これらのエンコーダ要素の間の接続の説明のため、再び図３を参照する。

さらに、図３には示されないが、エンコーダは、エンコーダ側復号化モジュール６１、６３と動き補償予測モジュール４４との間のパスに接続された復号ピクチャバッファ６５をさらに備える。復号ピクチャバッファ６５は、１つずつが短期間参照または長期間参照のいずれかを保持するものとして特徴付けられることがある複数の構成バッファ領域を備えることがある。図５では、復号ピクチャバッファ６５は、１つ以上の短期間参照６６、１つ以上の非肯定応答長期間参照６７、および１つ以上の肯定応答長期間参照６８を保持するものとして示される。「参照」はリファレンスと言及されてもよい。

各構成バッファ領域は、再構成された（すなわち、符号化され、その後、エンコーダで見えることになるようなフレームまたはスライスを表現するために復号化モジュール６１、６３のエンコーダ側インスタンスによって再び復号化された）、１つ以上の先に符号化されたフレームまたはスライスを記憶するために動作可能である。これらの再構成された、先に符号化されたフレームまたはスライスは、現在フレームまたはスライスのインター予測符号化において参照として用いるため、すなわち、符号化される対象ブロックがバッファの中の参照ブロックと相対的に符号化される可能性があるように提供される。

受信端末２４上のデコーダは、動き補償予測モジュール４４のデコーダ側インスタンス４４’、６１’、６３’、６５’、６６’、６７’および６８’と、復号化モジュール６１、６３と、対応する短期間および長期間参照６６、６７および６８を記憶するように配置構成されている復号ピクチャバッファ６５とを備える。

受信端末２４上のデコーダは、フィードバックチャネルを介して送信端末１２上のエンコーダと通信するように構成されている。フィードバックは、好ましくは、同一のネットワーク３２、たとえば、インターネットのような同一のパケットベース・ネットワークを経由し、このネットワーク３２によってビデオストリームが受信端末２２に送信されるが、代替的なフィードバックメカニズムの可能性は、排除されない。

図５の典型的な実施を参照すると、フィードバックは、デコーダでの復号ピクチャバッファ６５’に関する情報を含んでいると考えられる。このフィードバックを仮定すると、エンコーダは、たとえば、デコーダ内のどのフレームまたはスライスが誤り伝搬歪みを全く含むことなく復号化されたかが分かる。図５では、復号ピクチャバッファ６５内のエントリ６８は、このような肯定応答された誤りのないフレームを参照する。復号ピクチャバッファ６５内のエントリ６７は、肯定応答されていないフレームを参照する。フィードバックメカニズムは、（どのフレームが失われたかに関する情報に加えて）デコーダで利用できる最後に肯定応答された長期間参照が何であるかをエンコーダに知らせるために使用される可能性がある。

本発明の第２の実施形態の選択自由のフィードバックベースの具現化において、パケットおよび／またはフレーム到着状態のような、受信端末２２のうちの１台以上からエンコーダにフィードバックされた情報は、受信端末２２のうちのそれぞれの１台以上に対するエンコーダにおける対応する歪みマップを調節し、それによって、Ｚｈａｎｇｅｔａｌ．による方法と比べて全体的なレート−歪み性能を改善するために使用される。

各フレームまたはフレームのスライスに対する誤り伝搬歪みマップＤ_ｅｐは、受信端末２２のうちの１台ずつに関して、エンコーダの復号ピクチャバッファ６５内にこのフレームまたはスライスと関連付けて記憶される。各フレームまたはスライスに対して、エンコーダでの復号ピクチャバッファ６５は、対応する誤り隠蔽再構成歪みマップＤ_{ｅｃ−ｒｅｃ}と、誤り隠蔽誤り伝搬マップＤ_{ｅｃ−ｅｐ}と、対応するモード決定ｏと、動きベクトル情報とをさらに記憶する。フィードバック情報が受信端末のうちの１台以上のデコーダから受信された場合、このフィードバック情報は、その後、それぞれの１つ以上のチャネルに対する対応する決定マップ（群）を更新するためにエンコーダによって使用される可能性がある。フィードバックに基づいて更新される歪みマップはどれもが更新されない歪みマップと同じ方法で集計誤り伝搬歪みの式に入力される。式（３）および（４ａ）を再び参照する。フィードバック情報は、推定歪み追跡が精緻化されることを可能にして、より優れたレート−歪み性能をもたらす。

好ましくは、どのような所定の受信機２２に対しても誤り歪みマップの更新は、以下のとおり達成される。エンコーダが特殊なフレームまたはスライスがデコーダに到達することに成功したことをシグナル通知するフィードバック情報を受信する場合、誤り隠蔽寄与度Ｄ_{ｅｃ−ｒｅｃ}およびＤ_{ｅｃ−ｅｐ}は、式（３）において誤り伝搬歪みマップＤ_ｅｐから取り除かれる可能性がある。逆に、特殊なフレームまたはスライスがデコーダで失われたことをシグナル通知するフィードバック情報が受信された場合、関連した誤り伝搬歪みマップＤ_ｅｐは、誤り隠蔽歪みからの寄与度、すなわち、式（３）の右辺の第２および第３項、すなわち、（事前損失確率推定値ｐによって正規化された）Ｄ_{ｅｃ−ｒｅｃ}およびＤ_{ｅｃ−ｅｐ}のみを組み入れるように再計算される。

その結果、ラウンド・トリップ・タイム（ＲＴＴ）が復号ピクチャバッファ内の参照ピクチャの個数と比較して小さい場合、式（３）を再帰的に適用することにより、時点ｎ−ＲＴＴでの調節された潜在的な誤り伝搬マップＤ_ｅｐを時点ｎ−１での誤り伝搬歪みマップに伝搬させることが可能である。時点ｎ−１での更新された誤り伝搬歪みマップＤ_ｅｐは、その結果、モード選択プロセス（２）において使用される時点ｎでのＤ_{ｅｐ−ｒｅｆ}の計算の基礎となるであろう。これは、結果として、潜在的な歪みマップのより正確な追跡をもたらし、それ故に、システムの全体的なレート−歪み性能を改善する。

上記は、図４ｂの好ましい適用に関して説明されているが、図４ａは、送信端末３０が同一の符号化されたビデオストリームのそれぞれのインスタンスをインターネットのようなパケットベース・ネットワーク３２を介するそれぞれの接続を経由して受信機２２の１台ずつに送信する本発明の代替的な適用による配置構成を例示する。この場合、各チャネルは、送信機１２とそれぞれの受信機２２との間に確立されたそれぞれの接続を備える。このシナリオでも、各チャネルに関して完全な損失適応型レート−歪み最適化プロセスを実行するために送信機のＣＰＵリソースに追加の負担をそれでもなお課すことがある。その結果、単一の符号化されたビデオストリームの複数のインスタンスを複数台の受信機に送信し、このようにして、アップリンク上でなくても、送信機での処理リソースを節約するためにレート−歪み最適化プロセスを集計することが依然として望ましいことがある。

発明の上記実施形態をこのシナリオに適用するため、式（３ａ）および（３ｂ）においてｉ番目のチャネルに対するパケット損失の確率は、ちょうど送信機１２とそれぞれの受信機２２との間のそれぞれの接続を介する損失の確率ｐ_１まで低減し、その結果、同一の技術を適用することが可能である。

図４ａの送信機１２上のエンコーダは、その結果、同一の符号化されたビデオストリームのそれぞれのインスタンスを受信端末１２の１台ずつに送信することが可能であり、この場合も同一のレート−歪み最適化計算に基づいて到達した所与のマクロブロックに対して同一のモード選択を含んでいる。これは、送信機でのＣＰＵリソースを節約する。

上記実施形態は、単なる一例として記載されていることが認められるであろう。

概して、上記は、スライス、マクロブロック、および、ブロックまたはサブブロックの観点から説明されているが、これらの用語は、必ずしも限定的であることが意図されず、本書に記載された考え方は、フレームを分割または再分割する何らかの特殊な方法に限定されるものではない。さらに、歪みマップは、フレーム全体またはフレーム内の領域を対象とすることがあり、符号化決定プロセスは、フレーム全体、または、フレーム内のある領域のみに適用されることがある。予測ブロック粒度は、（可能性は排除されないが）歪みマップ粒度と同じであること、または、歪みマップ粒度に関係させられることさえ必要でないことにも注意すべきである。

差分二乗和（ＳＳＤ）は、差分絶対和（ＳＡＤ）と比べると、結果としてより高い品質をもたらすので、多くの場合に差分の尺度として好ましいが、後者の可能性またはその他の可能性が排除されることはなく、概して、発明は、歪みを定量化する基礎としてサンプルの間の差分の何らかの尺度を使用して実施されることがあり得る。

広くは、レートの尺度は、予測を記述するパラメータおよび量子化された変換係数を含む全ての必要とされるパラメータの符号化をさらに明らかにする。この種の最適化は、本書では、完全なレート−歪み最適化（ＲＤＯ）と呼ばれることがある。より複雑性の低い実施形態では、しかし、歪みおよび／またはレート項は、いくつかの、しかし、全部ではない処理段階の効果のみを考慮することにより、たとえば、予測の効果のみを考慮することにより近似されることがある。

さらに、本発明は、２つのフレームｎ−１およびｎ、または、ｎおよびｎ＋１などの観点から説明されているが、発明のある種の実施形態では、これらは、（既存のコーデックの場合、そうであるかもしれないが）２個の隣接するフレームを参照する必要がない。いくつかの実施形態では、インター予測がさらに先行のフレームと相対的に実行されることがあり得るので、ｎ−１およびｎ、または、ｎおよびｎ＋１が先に符号化されたフレームまたは画像部分と、そこから予測される後に続くフレームまたは部分を参照するために本発明に関連して使用されることが可能である。

損失に起因する寄与度は、本願において言及されるか、または、データがチャネルなどを介して失われた「場合に」何が起こるかについて記載している何かであるが、このことは、デコーダに起こったかもしれないことに関して、エンコーダは、当然ながら何が起こるかを知らないが、エンコーダによって行われた確率的仮定（たとえば、ｐ）のみに関係していることに留意を要する。確率的仮定は、統計的ネットワークモデリングに基づいて設計段階で予め決められることがあり、および／または、デコーダからのフィードバックに基づいて動的に決定されることさえあり得る。

その他の変形例は、本書における開示により、当業者に明らかになるであろう。発明の範囲は、記載された実施形態ではなく、特許請求の範囲のみによって限定される。

Claims

ビデオストリームを符号化する方法であって、
送信端末から複数の受信端末への複数のチャネルをクラスに分類するステップであって、各々のクラスにおける前記チャネルは、前記送信端末と当該クラスの受信端末との間で類似するパケット損失確率を有し、各々のクラスは関連する誤り伝搬歪みマップを有する、ステップと、
前記チャネルのクラスの各々について、誤り伝搬歪みの推定値を決定するステップであって、前記誤り伝搬歪みの推定値は、前記クラスの各々に関連する各自の誤り伝搬歪みマップから決定される、ステップと、
前記ビデオストリームのフレームの中で符号化される複数の対象画像部分の各々に対して、前記対象画像部分の歪みの推定値と、前記対象画像部分を符号化するために必要なビットレートの尺度とを含む関数を最適化することにより、一群の符号化モードのうちの好ましいものを選択する処理を含むレート−歪み最適化プロセスを実行するステップであって、前記歪みの推定値はソース符号化歪みと損失に起因する誤り伝搬歪みの推定値とに基づいている、ステップと、
選択された前記符号化モードを使用して、前記対象画像部分を符号化されたバージョンのビデオストリームに符号化するステップと
を有し、前記方法は、複数の受信端末の各々に同一のレート−歪み最適化プロセスを使用して、送信端末から前記複数の受信端末の各々に各自の損失性チャネルを介して同一の符号化されたバージョンのビデオストリームを送信するステップをさらに有し、
前記同一のレート−歪み最適化プロセスを使用することは、前記関数の同一の最適化に基づいて前記対象画像部分毎に同一の符号化モードを選択することを含み、
前記誤り伝搬歪みの推定値は、複数のチャネルに関して見込まれる損失に起因して生じるおそれがある誤り伝搬歪みの集計推定値を有する、方法。
前記チャネルのうちの２つ以上は、共通のマルチキャスティング中継ノードを経由し、前記送信端末は、前記符号化されたバージョンのビデオストリームを第１の区間を介して前記マルチキャスティング中継ノードに送信し、前記マルチキャスティング中継ノードは、２つ以上の受信端末の各々に各自のチャネルの第２の区間を介して各自の符号化されたバージョンのビデオストリームのインスタンスを転送する、請求項１に記載の方法。
前記チャネルの各々を介する損失の個別の確率を決定するステップと、前記個別の確率に基づいて集計確率を決定するステップとを有し、前記歪みの集計推定値は、前記集計確率に基づいている、請求項１または２に記載の方法。
前記２つ以上のチャネルの各々に対する個別の確率は、区間各々を介する損失の確率を組み合わせることにより決定される、請求項３に記載の方法。
当該方法は、前記チャネルの各々に関して見込まれる損失に起因して生じるおそれがある誤り伝搬歪みの個別の推定値を決定するステップを有し、前記誤り伝搬歪みの集計推定値は、前記誤り伝搬歪みの個別の推定値を集計することにより決定される、請求項１−４のうち何れか１項に記載の方法。
当該方法は、符号化モードの選択各々の後に前記誤り伝搬マップを更新することにより、前記チャネルの各々に対する個別の誤り伝搬歪みマップを維持するステップを有し、前記歪みの個別の推定値は、前記歪みマップ各々から決定される、請求項５に記載の方法。
前記チャネル１つ以上のうちの各々に対する前記誤り伝搬歪みの個別の推定値は、前記受信端末各々からのフィードバックに基づいている、請求項５または６に記載の方法。
前記フィードバックは、先行するフレームの少なくとも一部が受信されたという肯定応答と、前記先行するフレームの少なくとも一部が受信されなかったというレポートとのうちの一方を含む、請求項７に記載の方法。
ビデオストリームを符号化する送信端末であって、
送信端末から複数の受信端末への複数のチャネルをクラスに分類することであって、各々のクラスにおける前記チャネルは、前記送信端末と当該クラスの受信端末との間で類似するパケット損失確率を有し、各々のクラスは関連する誤り伝搬歪みマップを有する、こと、
前記チャネルのクラスの各々について、誤り伝搬歪みの推定値を決定することであって、前記誤り伝搬歪みの推定値は、前記クラスの各々に関連する各自の誤り伝搬歪みマップから決定される、こと、及び
前記ビデオストリームのフレームの中で符号化される複数の対象画像部分の各々に対して、前記対象画像部分の歪みの推定値と、前記対象画像部分を符号化するために必要とされるビットレートの尺度とを含む関数を最適化することにより、一群の符号化モードのうちの好ましいものを選択する処理を含むレート−歪み最適化プロセスを実行することであって、前記選択された符号化モードを使用して、前記対象画像部分を符号化されたバージョンのビデオストリームに符号化することであって、前記歪みの推定値はソース符号化歪みと損失に起因する誤り伝搬歪みの推定値とに基づいている、こと、
を行うように形成されるエンコーダと、
前記送信端末から複数の受信端末の各々に各自の損失性チャネルを介して同一の符号化されたバージョンのビデオストリームを送信するように形成される送信機とを備え、
前記エンコーダは、前記複数の受信端末の各々に同一のレート−歪み最適化プロセスを使用するように形成され、前記同一のレート−歪み最適化プロセスを使用することは、前記関数の同一の最適化に基づいて前記対象画像部分毎に同一の符号化モードを選択することを含み、
前記エンコーダは、誤り伝搬歪みの前記推定値が、複数の前記チャネルに関して見込まれる損失に起因して生じるおそれがある誤り伝搬歪みの集計推定値を有するように形成される、送信端末。
請求項１−８のうち何れか１項に記載の方法を送信端末のコンピュータに実行させるコードを有する、ビデオストリームを符号化するためのコンピュータプログラム。