JP2018201117A - 映像符号化装置、映像符号化方法およびプログラム - Google Patents

映像符号化装置、映像符号化方法およびプログラム Download PDF

Info

Publication number
JP2018201117A
JP2018201117A JP2017104734A JP2017104734A JP2018201117A JP 2018201117 A JP2018201117 A JP 2018201117A JP 2017104734 A JP2017104734 A JP 2017104734A JP 2017104734 A JP2017104734 A JP 2017104734A JP 2018201117 A JP2018201117 A JP 2018201117A
Authority
JP
Japan
Prior art keywords
image
video
unit
generation model
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017104734A
Other languages
English (en)
Inventor
誠也 柴田
Seiya Shibata
誠也 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2017104734A priority Critical patent/JP2018201117A/ja
Publication of JP2018201117A publication Critical patent/JP2018201117A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】映像を符号化・復号する際に用いる生成モデルを一致させ、任意の挙動を取る被写体を含む映像に対して精度の高い予測画像を生成し、高効率な映像圧縮を可能とする映像符号化装置を提供する。【解決手段】映像を構成する複数のフレームのうち符号化済みのフレームである参照画像と、機械学習によって更新される生成モデルとを用いて予測画像を生成する予測映像生成部と、符号化対象のフレームである原画像と、予測映像生成手段によって生成される予測画像との残差画像を算出する残差算出部とを備える映像符号化装置とする。【選択図】 図1

Description

本発明は、映像符号化装置、映像符号化方法およびプログラムに関する。
ITU−T_H.265は、映像符号化方式の規格の一つである(ITU−T:International Telecommunication Union Telecommunication Standardization Sector)。非特許文献1には、ITU−T_H.265規格に基づく映像符号化方式について記載されている。非特許文献1の方式では、映像を構成するフレームを1枚ずつ取り出し、取り出したそれぞれのフレーム(原画像)を所定のブロックサイズに分割する。非特許文献1の方式では、分割されたブロックをラスタースキャン順に取り出し、ブロックレベルで動き探索を行う。そして、非特許文献1の方式では、原画像を符号化する以前に符号化された画像(参照画像)の中で、取り出したブロックとの画素差分が小さい位置を探索する。非特許文献1の方式においては、原画ブロック位置と、探索により得た参照画ブロック位置との間の相対座標値に相当する動きベクトルと参照画像とを用いて再度参照画ブロックを抽出し、抽出した参照画ブロックを予測画ブロックとする。そして、非特許文献1の方式では、得られた予測画ブロックと原画ブロックとの差分を計算して得られる残差と動きベクトル等符号化情報とを圧縮する。
非特許文献1の方式は、自然画映像において、多くの物体が複数フレーム間で平行移動することを前提とする。そのため、非特許文献1の方式では、映像を撮影するカメラを縦や横に動かすと、被写体は背景を含めて相対的に平行移動する。また、非特許文献1の方式では、車等の剛体がカメラの前を横切って移動する様子をカメラで撮影すると、その剛体は水平方向に平行移動する。非特許文献1の方式によれば、被写体が平行移動する場合は、動き探索ベースでの圧縮が作用して圧縮効率が高くなる。一方、非特許文献1の手法には、回転や拡大縮小などのように広義の変形が被写体に生ずる場合には圧縮効率が低下しうるという問題点がある。
特許文献1には、動画像を符号化する動画像符号化方法について開示されている。特許文献1の方法では、入力画像について予測処理を行って生成した予測差分に、周波数変換処理および量子化処理を行って量子化データを生成する。特許文献1の方法は、複数のブロックからなるブロック群に画面内予測ブロックが含まれるか否かに基づいて、該ブロック群に含まれるブロックについて周波数変換処理と量子化処理とを行うブロック単位の大きさを変更する。
特許文献2には、符号化対象画像と予測対象画像との差分情報を複数のサブブロックに分割し、分割したサブブロックを所定の順序で符号化する画像符号化装置について開示されている。特許文献2の装置は、サブブロックに属する各差分係数の値の全てがゼロであるか否かを示す有意サブブロック情報と、差分係数の値がゼロであるか否かを示す有意差分係数情報と、差分係数の値とを符号化する。特許文献2の装置は、符号化対象となるサブブロックに隣接する符号化済みのサブブロックに関する情報に基づいて、符号化対象となるサブブロックの有意差分係数情報を符号化するためのコンテキストを導出する。
非特許文献2には、機械学習を用いて、静止画中に映る物体の1秒後までの動き(予測映像)を生成する映像生成技術が開示されている。非特許文献2の技術では、大量の映像データを学習させた生成モデルを使用し、入力された静止画を起点として後続のフレームを自動生成する。機械学習に用いる映像データとして被写体の回転や拡大縮小を含むものを用いる場合、生成される映像においても、適切に回転や拡大縮小を扱える可能性が高い。また、機械学習技術を用いれば、学習データを学習すればするほど生成モデルの映像生成能力が高まることが期待される。
特許文献3には、人間の視覚情報処理プロセスに基づいた画像に対するイメージ評価の理論と知見を利用し、膨大な画像のイメージ予測を可能にする画像イメージ予測モデルの作成処理方法について開示されている。特許文献3の方法では、画像データベースから無作為に取り出した所定数の代表画像について所定項目数のイメージ項目に関する調査を行い、その調査結果を代表画像イメージデータとして作成する。さらに、特許文献3の方法では、代表画像イメージデータと、画像特徴量データファイルにおける代表画像に関係する画像特徴量データと、カテゴリー情報データファイルにおける代表画像に関係するカテゴリー情報データとを学習用データとして準備作成する。そして、特許文献3の方法では、作成した学習用データを用いて、統計分析手法によりイメージ評価を学習した画像イメージ予測モデルを生成し、画像イメージ予測システムを構築する。
特許文献4には、制御対象の観察画像の画像データから制御対象の状態を認識し、対応する制御を行うビジュアルフィードバック制御装置について開示されている。特許文献4の装置は、予め記憶する画像データ、操作量データおよび未来の操作量を用いて制御対象の未来の予測画像を得るとともに、制約条件を満たしながら目標画像に予測画像を近付ける操作量を算出する。
国際公開第2011/033853号 特開2016−129366号公報 特開2004−110213号公報 特開平6−266410号公報
ITU-T勧告H.265 High efficiency video coding, April 2015 Carl Vondrick, et.Al., "Generating Videos with Scene Dynamics", NIPS2016
非特許文献1の手法によれば、被写体が平行移動する映像に関しては、対応する映像ブロックを効率的に発見できる。しかし、非特許文献1の手法には、回転のように被写体が複数フレーム間で変形する場合に、対応する映像ブロックが本質的に存在しないために予測精度が下がり、圧縮効率が下がるという問題点があった。その理由は、一般的なブロックレベル動き補償予測では、原画像と参照画像との間の時間的局所性を前提として、原画像の符号化対象ブロックと一致する参照画ブロックを探索するためである。
非特許文献2の手法によれば、機械学習技術を用いることによって、静止画像から予測画像を生成できる。しかし、非特許文献2のように機械学習による映像生成を利用した映像符号化においては、符号化と復号における生成モデルを一致させる仕組みがないという問題点があった。
本発明の目的は、上述した課題を解決して、映像を符号化・復号する際に用いる生成モデルを一致させ、任意の挙動を取る被写体を含む映像に対して精度の高い予測画像を生成し、高効率な映像圧縮を可能とする映像符号化装置を提供することにある。
本発明の一態様の映像符号化装置は、映像を構成する複数のフレームのうち符号化済みのフレームである参照画像と、機械学習によって更新される生成モデルとを用いて予測画像を生成する予測映像生成部と、符号化対象のフレームである原画像と、予測映像生成部によって生成される予測画像との残差画像を算出する残差算出部とを備える。
本発明の一態様の映像符号化方法では、映像を構成する複数のフレームのうち符号化済みのフレームである参照画像と、機械学習によって更新される生成モデルとを用いて予測画像を生成し、符号化対象のフレームである原画像と予測画像との残差画像を算出する。
本発明の一態様のプログラムは、映像を構成する複数のフレームのうち符号化済みのフレームである参照画像と、機械学習によって更新される生成モデルとを用いて予測画像を生成する処理と、符号化対象のフレームである原画像と予測画像との残差画像を算出する処理とをコンピュータに実行させる。
本発明によれば、映像を符号化・復号する際に用いる生成モデルを一致させ、任意の挙動を取る被写体を含む映像に対して精度の高い予測画像を生成し、高効率な映像圧縮を可能とする映像符号化装置を提供することができる。
本発明の第1の実施形態に係る映像符号化装置の構成を示すブロック図である。 本発明の第1の実施形態に係る映像符号化装置の動作に関するフローチャートである。 本発明の第2の実施形態に係る映像符号化装置の構成を示すブロック図である。 本発明の第2の実施形態に係る映像符号化装置の動作に関するフローチャートである。 本発明の第3の実施形態に係る映像符号化装置の構成を示すブロック図である。 本発明の第3の実施形態に係る映像符号化装置の動作に関するフローチャートである。 本発明の第3の実施形態に係る映像符号化システムの構成を示すブロック図である。 本発明の第3の実施形態に係る映像符号化システムに含まれる学習サーバの構成を示すブロック図である。 本発明の第3の実施形態に係る映像符号化システムに含まれる学習サーバの別の構成を示すブロック図である。 本発明の第3の実施形態に係る映像符号化システムに含まれる映像復号装置の構成を示すブロック図である。 本発明の第3の実施形態に係る映像符号化システムに含まれる映像復号装置の動作に関するフローチャートである。 本発明の第4の実施形態に係る映像符号化装置の構成を示すブロック図である。 本発明の第4の実施形態に係る映像符号化装置の変形例の構成を示すブロック図である。 本発明の第4の実施形態に係る映像符号化装置の動作に関するフローチャートである。 本発明の第4の実施形態に係る映像符号化システムの構成を示すブロック図である。 本発明の第4の実施形態に係る映像符号化システムに含まれる映像符号化装置の構成を示すブロック図である。 本発明の第5の実施形態に係る映像符号化装置の構成を示すブロック図である。 本発明の第5の実施形態に係る映像復号装置の動作に関するフローチャートである。 本発明の第6の実施形態に係る映像符号化装置の構成を示すブロック図である。 本発明の第6の実施形態に係る映像復号装置の動作に関するフローチャートである。 本発明の第7の実施形態に係る映像符号化システムに含まれる映像符号化装置の構成を示すブロック図である。 本発明の第7の実施形態に係る映像符号化システムに含まれる復号装置の構成を示すブロック図である。 本発明の各実施形態に係る映像符号化装置のハードウェア構成の一例を示すブロック図である。
以下に、本発明を実施するための形態について図面を用いて説明する。ただし、以下に述べる実施形態には、本発明を実施するために技術的に好ましい限定がされているが、発明の範囲を以下に限定するものではない。なお、以下の実施形態の説明に用いる全図においては、特に理由がない限り、同様箇所には同一符号を付す。また、以下の実施形態において、同様の構成・動作に関しては繰り返しの説明を省略する場合がある。また、図面中の矢印の向きは、信号の流れの方向を端的に示したものであり、双方向性を排除するものではない。
(第1の実施形態)
まず、本発明の第1の実施形態に係る映像符号化装置について図面を参照しながら説明する。
本実施形態においては、映像を構成する映像フレーム(画像フレームとも呼ぶ)のことをフレームと記載する。以下の説明において、符号化対象の映像を構成するフレームは、既に符号化されたフレームと、未だ符号化されていないフレームとを含むものとする。本実施形態においては、既に符号化されたフレームのうち少なくとも一つを参照画像として用いて、未だ符号化されていないフレームのうち少なくとも一つを符号化対象のフレーム(原画像)との残差画像を算出する。
本実施形態において用いる生成モデルは、訓練データを学習し、学習したデータと類似する新しいデータを生成するモデルである。生成モデルは、入力された静止画を起点として後続のフレームを自動生成し、大量の映像データを機械学習することによって更新される。例えば、GAN(Generative Adversarial Networks)やDCGAN(Deep Convolutional Generative Adversarial Networks)などの生成モデルを用いることができる。また、VAE(Variational Autoencoder)などのように、GANやDCGAN以外の生成モデルを用いてもよい。
(構成)
図1は、本実施形態の映像符号化装置1の構成を示すブロック図である。映像符号化装置1は、予測映像生成部11、残差算出部12を備える。
映像符号化装置1は、符号化対象の映像を構成するフレームと、機械学習によって更新される映像生成モデル(以下、生成モデルと呼ぶ)とを取得する。例えば、映像符号化装置1は、インターネットやイントラネットなどのネットワークを通じて、図示しない受信部を介してフレームを取得する。また、例えば、映像符号化装置1は、ネットワークを通じて、外部のサーバに記憶・更新される生成モデルを受信する。なお、映像符号化装置1は、図示しない記憶部にフレームおよび生成モデルを予め記憶するように構成してもよい。
例えば、予測映像生成部11は、機械学習によって更新される生成モデルと、少なくとも一つの参照画像とを取得する。なお、図1においては、生成モデルと参照画像とを予測映像生成部11に入力する際に異なる入力部から入力するように図示しているが、共通の入力部から入力するように構成してもよい。
予測映像生成部11は、取得した生成モデルを使用し、入力された参照画像を起点として後続のフレーム(以下、予測画像と呼ぶ)を生成する。すなわち、予測映像生成部11は、生成モデルを用いて、参照画像を起点とし、原画像と同時刻の予測画像を生成する。なお、予測映像生成部11は、予測画像の生成処理をフレーム単位で実施してもよいし、ブロック単位に分割して実施してもよい。予測映像生成部11は、生成した予測画像を残差算出部12に出力する。
残差算出部12は、原画像を取得するとともに、予測映像生成部13から予測画像を取得する。残差算出部12は、原画像と予測画像との差分(残差画像と呼ぶ)を計算する。なお、残差算出部12は、残差画像の算出処理をフレーム単位で実施してもよいし、ブロック単位に分割して実施してもよい。残差算出部12は、算出した残差画像を出力する。
例えば、映像符号化装置1は、残差算出部12が出力した残差画像を符号化し、送信部(図示しない)を介して、符号化した信号(以下、符号化信号)を外部に出力する。なお、映像符号化装置1は、残差画像を圧縮してから出力してもよい。
以上が、本実施形態の映像符号化装置1の構成についての説明である。
(動作)
続いて、本実施形態の映像符号化装置1の動作について説明する。図2は、本実施形態に係る映像符号化装置1の動作に関するフローチャートである。なお、以下の説明においては、映像符号化装置1の構成要素を主体として説明するが、映像符号化装置1自体を動作主体とみなすこともできる。
図2において、まず、予測映像生成部11は、機械学習によって更新される生成モデルを用いて予測画像を生成する(ステップS11)。
次に、残差算出部12は、原画像と予測画像との差分である残差画像を算出する(ステップS12)。
以上が、本実施形態の映像符号化装置1の動作についての説明である。
以上のように、本実施形態においては、映像を構成する複数のフレームのうち符号化済みのフレームである参照画像と、機械学習によって更新される生成モデルとを用いて予測画像を生成し、符号化対象のフレームである原画像と予測画像との残差画像を算出する。本実施形態では、予測画像を生成する際に、平行移動を前提とするブロックマッチングによらず、機械学習による映像生成モデルを用いる。そのため、本実施形態によれば、回転や拡大、縮小などのように平行移動以外の挙動を含む任意の挙動を取る被写体を含む映像に対して精度の高い予測画像を生成し、高効率な圧縮が可能になる。
また、機械学習による映像生成技術を用いることによって映像符号化システムを改善し、符号化効率の向上を目指す。機械学習による映像生成技術と、映像符号化システムとを組み合わせる際には、以下の2点について考慮する必要がある。1点目は、映像生成技術は、学習に応じて映像生成能力が高まる点である。2点目は、映像符号化システムは、映像を復元する復号システムにおいて復号可能な符号化信号を生成する必要がある点である。
以上の2点について考慮し、映像符号化システムと復号システムとが用いる映像生成モデルを一致させれば、予測画像生成の映像生成モデルを符号化と復号において一致させることができる。
(第2の実施形態)
次に、本発明の第2の実施形態に係る映像符号化装置について図面を参照しながら説明する。本実施形態の映像符号化装置は、生成モデルを記憶する生成モデル記憶部、フレームを記憶するフレーム記憶部、残差画像を符号化する符号化部を備える点において、第1の実施形態の映像符号化装置とは異なる。
(構成)
図3は、本実施形態の映像符号化装置2の構成を示すブロック図である。映像符号化装置2は、生成モデル記憶部21、フレーム記憶部22、予測映像生成部23、残差算出部24、符号化部25を備える。なお、予測映像生成部23および残差算出部24のそれぞれは、第1の実施形態の映像符号化装置1の対応する構成と同様の機能を有する。
生成モデル記憶部21には、機械学習によって更新される生成モデルが記憶される。生成モデルは、生成モデル記憶部21に予め記憶させておく。
フレーム記憶部22には、符号化対象の映像を構成するフレームが記憶される。フレーム記憶部22には、符号化対象の映像を構成するフレームとして、既に符号化されたフレームと、未だ符号化されていないフレームとが記憶される。
予測映像生成部23は、機械学習によって更新される生成モデルを生成モデル記憶部21から取得する。また、予測映像生成部23は、符号化対象の映像を構成する過去のフレームのうち少なくとも一つを参照画像としてフレーム記憶部22から取得する。
予測映像生成部23は、取得した生成モデルを使用し、入力された参照画像を起点として予測画像を生成する。予測映像生成部23は、生成した予測画像を残差算出部24に出力する。
残差算出部24は、符号化対象のフレームを原画像としてフレーム記憶部22から取得するとともに、予測映像生成部13から予測画像を取得する。残差算出部14は、原画像と予測画像との差分を残差画像として計算する。残差算出部24は、算出した残差画像を符号化部25に出力する。
符号化部25は、残差算出部24から残差画像を取得する。符号化部25は、取得した残差画像を符号化し、符号化した信号(以下、符号化信号)を外部に出力する。なお、符号化部25は、残差画像を圧縮してから符号化してもよい。また、符号化部25の後段に符号化信号を外部に送信する送信部を設けてもよい。
以上が、本実施形態の映像符号化装置2の構成についての説明である。
(動作)
続いて、本実施形態の映像符号化装置2の動作について説明する。図4は、本実施形態に係る映像符号化装置2の動作に関するフローチャートである。なお、以下の説明においては、映像符号化装置2の構成要素を主体として説明するが、映像符号化装置2自体を動作主体とみなすこともできる。
図4において、まず、予測映像生成部23は、機械学習によって更新される生成モデルを用いて予測画像を生成する(ステップS21)。
次に、残差算出部24は、原画像と予測画像との差分である残差画像を算出する(ステップS22)。
次に、符号化部25は、残差画像に対して符号化処理を行う(ステップS23)。
そして、符号化部25は、生成した符号化信号を外部に出力する(ステップS24)。
以上が、本実施形態の映像符号化装置2の動作についての説明である。
以上のように、本実施形態によれば、任意の挙動を取る被写体を含む映像に対して精度の高い予測画像を生成して、予測画像の生成に用いる映像生成モデルを符号化と復号において一致させることができる。
(第3の実施形態)
次に、本発明の第3の実施形態に係る映像符号化装置について図面を参照しながら説明する。本実施形態の映像符号化装置は、外部から受信する更新情報に基づいて、生成モデル記憶部に記憶される生成モデルを更新する点において、第2の実施形態の映像符号化装置とは異なる。
(構成)
図5は、本実施形態の映像符号化装置3の構成を示すブロック図である。映像符号化装置3は、生成モデル記憶部31、生成モデル更新部32、フレーム記憶部33、予測映像生成部34、残差算出部35、符号化部36を備える。なお、生成モデル記憶部31、フレーム記憶部33、予測映像生成部34、残差算出部35、符号化部36のそれぞれは、第2の実施形態の映像符号化装置2の対応する構成と同様の機能を有する。
生成モデル記憶部31には、生成モデルが記憶される。生成モデル記憶部31に記憶される生成モデルは、生成モデル更新部32によって更新される。
生成モデル更新部32は、生成モデル記憶部31に記憶される生成モデルを更新するための更新情報を外部から受信する。生成モデル更新部32は、外部から受信する更新情報に基づいて、生成モデル記憶部31に記憶される生成モデルを更新する。具体的には、生成モデル更新部32は、生成モデル記憶部31に記憶される生成モデルに関して、学習により構築されたニューラルネットワーク構造およびニューラルネットワークの重み情報を更新する。
フレーム記憶部33には、符号化対象の映像を構成するフレームが記憶される。
予測映像生成部34は、機械学習によって更新される生成モデルを生成モデル記憶部31から取得し、符号化対象の映像を構成する過去のフレームのうち少なくとも一つを参照画像としてフレーム記憶部33から取得する。予測映像生成部34は、取得した生成モデルを使用し、入力された参照画像を起点として予測画像を生成する。予測映像生成部34は、生成した予測画像を残差算出部35に出力する。
残差算出部35は、符号化対象のフレームを原画像としてフレーム記憶部33から取得するとともに、予測映像生成部34から予測画像を取得する。残差算出部35は、原画像と予測画像との差分を残差画像として計算する。残差算出部35は、算出した残差画像を符号化部36に出力する。
符号化部36は、残差算出部35から残差画像を取得する。符号化部36は、取得した残差画像を符号化し、符号化信号を外部に出力する。
以上が、本実施形態の映像符号化装置3の構成についての説明である。
(動作)
続いて、本実施形態の映像符号化装置3の動作について説明する。図6は、本実施形態に係る映像符号化装置3の動作に関するフローチャートである。なお、以下の説明においては、映像符号化装置3の構成要素を主体として説明するが、映像符号化装置3自体を動作主体とみなすこともできる。
図6において、まず、生成モデル更新部32は、生成モデルの更新情報を外部から受信する(ステップS31)。
次に、生成モデル更新部32は、外部からの更新情報に基づいて生成モデルを更新する(ステップS32)。
次に、予測映像生成部34は、機械学習によって更新される生成モデルを用いて予測画像を生成する(ステップS33)。
次に、残差算出部35は、原画像と予測画像との差分である残差画像を算出する(ステップS34)。
次に、符号化部36は、残差画像に対して符号化処理を行う(ステップS35)。
そして、符号化部36は、生成した符号化信号を外部に出力する(ステップS36)。
以上が、本実施形態の映像符号化装置3の動作についての説明である。
以上のように、本実施形態では、外部から受信する更新情報に基づいて生成モデルを更新できる。
(映像符号化システム)
ここで、本実施形態に係る映像符号化装置を備える映像符号化システムについて図面を参照しながら説明する。
図7は、本実施形態の映像符号化システム300の構成を示すブロック図である。本実施形態の映像符号化システム300は、映像符号化装置3、復号装置30、学習サーバ100を備える。映像符号化装置3、復号装置30、学習サーバ100は、インターネットやイントラネットなどのネットワークによって互いに接続される。
図8は、学習サーバ100の構成を示すブロック図である。学習サーバ100は、生成モデル学習部101、送信部102を備える。
生成モデル学習部101は、符号化対象の映像を構成するフレームから得られる原画、参照画像および残差画像を用いて生成モデルを学習する。なお、原画、参照画像および残差画像は、学習サーバ100で生成するように構成してもよいし、映像符号化装置3から生成モデル学習部101に送信するように構成してもよい。
送信部102は、映像符号化装置3および復号装置30に生成モデルの更新情報を配信する。更新情報は、生成モデルを送信に適した形式に変換した情報である。例えば、更新情報は、生成モデルを暗号化や圧縮した形式に変換された情報である。なお、送信部102は、映像符号化装置3および復号装置30に生成モデルを送信するように構成してもよい。
また、図9のように学習サーバ100−2を構成してもよい。学習サーバ100−2は、送信部102から送信する送信データに識別子を付与する識別子付与部103を有する。例えば、識別子付与部103は、生成モデルの生成時刻やバージョンを送信データに付与する。
映像符号化装置3は、学習サーバ100から配信される更新情報を受信し、受信した更新情報に基づいて、生成モデル記憶部31に記憶される生成モデルを更新する。映像符号化装置3は、更新した生成モデルを用いて符号化信号を生成し、生成した符号化信号を送信する。映像符号化装置3によって出力される符号化信号は、復号装置30において復号される。なお、映像符号化装置3は、図5および図6を用いて説明した通りであるので、詳細な説明は省略する。
図10は、本実施形態の映像符号化システム300が備える復号装置30の構成を示すブロック図である。図10のように、復号装置30は、生成モデル記憶部301、生成モデル更新部302、フレーム記憶部303、予測映像生成部304、復号部305、加算部306を含む。
生成モデル記憶部301には、本実施形態の映像符号化システム300で用いる生成モデルが記憶される。
生成モデル更新部302は、学習サーバ100から配信される更新情報を受信し、受信した更新情報に基づいて、生成モデル記憶部301に記憶される生成モデルを更新する。具体的には、生成モデル更新部302は、生成モデル記憶部301に記憶される生成モデルに関して、学習により構築されたニューラルネットワーク構造およびニューラルネットワークの重み情報を更新する。
フレーム記憶部303には、符号化対象の映像を構成するフレームのうち、既にデコードされたフレーム(デコード画像)が記憶される。フレーム記憶部303に記憶されるデコード画像は、参照画像として用いられる。
予測映像生成部304は、生成モデル記憶部301から生成モデルを取得し、復号されたデコード画像のうち少なくとも一つを参照画像としてフレーム記憶部303から取得する。予測映像生成部304は、取得した生成モデルを使用し、入力された参照画像を起点として予測画像を生成する。予測映像生成部304は、生成した予測画像を加算部306に出力する。
復号部305は、映像符号化装置3から送信される符号化信号を受信し、受信した符号化信号から残差画像を復号する。復号部305は、復号した残差画像を加算部306に出力する。
加算部306は、予測映像生成部304によって生成される予測映像と、復号部305によって復号された残差画像とを取得し、取得した予測映像と残差画像とを加算してデコード画像を生成する。加算部306は、生成したデコード画像をフレーム記憶部303に記憶させる。
続いて、本実施形態の復号装置30の動作について説明する。図11は、復号装置30の動作について説明するためのフローチャートである。なお、以下の説明においては、復号装置30の構成要素を主体として説明するが、復号装置30自体を動作主体とみなすこともできる。
図11において、まず、生成モデル更新部302は、生成モデルの更新情報を学習サーバ100から受信する(ステップS301)。
次に、生成モデル更新部302は、学習サーバ100からの更新情報に基づいて生成モデルを更新する(ステップS302)。
次に、予測映像生成部304は、機械学習によって更新される生成モデルを用いて予測画像を生成する(ステップS303)。
復号部305は、映像符号化装置3から出力される符号化信号を受信する(ステップS304)。
復号部305は、受信した符号化信号から残差画像を復号する(ステップS305)。
次に、加算部306は、予測画像と残差画像とを加算して、原画像に対応するデコード画像を算出する(ステップS306)。
そして、加算部306は、デコード画像をフレーム記憶部303に記憶させる(ステップS307)。
以上が、本実施形態の復号装置30の動作についての説明である。なお、ステップS301〜ステップS303の処理と、ステップS304〜ステップS305の処理とは独立して実行してもよい。
以上のように、本実施形態によれば、予測画像を生成する映像生成モデルが学習サーバにおいて更新された際に、映像符号化装置と復号装置との間で映像生成モデルを一致させることができる。また、本実施形態によれば、生成モデルが更新可能に構成されるため、学習継続による予測性能向上に応じて、製品やサービスの効果を向上させることができる。
(第4の実施形態)
次に、本発明の第4の実施形態に係る映像符号化装置について図面を参照しながら説明する。本実施形態の映像符号化装置は、生成モデルを学習する学習部を備える点において、第2の実施形態の映像符号化装置とは異なる。
(構成)
図12は、本実施形態の映像符号化装置4の構成を示すブロック図である。映像符号化装置4は、生成モデル記憶部41、フレーム記憶部43、予測映像生成部44、残差算出部45、符号化部46、学習部47を備える。なお、生成モデル記憶部41、フレーム記憶部43、予測映像生成部44、残差算出部45のそれぞれは、第2の実施形態の映像符号化装置2の対応する構成と同様の機能を有する。
生成モデル記憶部41には、生成モデルが記憶される。生成モデル記憶部41に記憶される生成モデルは、学習部47によって更新される。
フレーム記憶部43には、符号化対象の映像を構成するフレームが記憶される。
予測映像生成部44は、機械学習によって更新される生成モデルを生成モデル記憶部41から取得し、符号化対象の映像を構成する過去のフレームのうち少なくとも一つを参照画像としてフレーム記憶部43から取得する。予測映像生成部44は、取得した生成モデルを使用し、入力された参照画像を起点として予測画像を生成する。予測映像生成部44は、生成した予測画像を残差算出部45に出力する。
残差算出部45は、符号化対象のフレームを原画像としてフレーム記憶部43から取得するとともに、予測映像生成部44から予測画像を取得する。残差算出部45は、原画像と予測画像との差分を残差画像として計算する。残差算出部45は、算出した残差画像を符号化部46に出力する。
符号化部46は、残差算出部45から残差画像を取得する。符号化部46は、取得した残差画像を符号化し、符号化信号を外部に出力する。
学習部47は、予測映像生成部44から参照画像を取得するとともに、残差算出部45から原画像および残差画像を取得する。なお、学習部47は、フレーム記憶部43から原画像を取得するように構成してもよい。学習部47は、取得した参照画像、原画像および残差画像を用いて生成モデルを機械学習する。具体的には、学習部47は、機械学習におけるトレーニング処理、すなわちニューラルネットワーク構造およびニューラルネットワークの重み情報の更新を行う。学習部47は、トレーニング結果である生成モデルによって、生成モデル記憶部41に記憶される生成モデルを更新する。
以上が、本実施形態の映像符号化装置4の構成についての説明である。
また、図13の映像符号化装置4−2のように、生成モデル更新部42を映像符号化装置4に追加してもよい。生成モデル更新部42は、第3の実施形態の映像符号化装置3の生成モデル更新部32に対応する。
生成モデル更新部42と学習部47が行う更新処理はどちらも生成モデルを更新するという点では同一である。しかし、生成モデル更新部42は外部から取得する更新情報を用いて生成モデルを生成するのに対し、学習部47は装置内部で更新情報を生成する。映像符号化装置4−2は、自装置内で生成モデルを更新できるとともに、外部から取得する更新情報を用いて生成モデルを更新できる。
(動作)
続いて、本実施形態の映像符号化装置4の動作について説明する。図14は、本実施形態に係る映像符号化装置4の動作に関するフローチャートである。なお、以下の説明においては、映像符号化装置4の構成要素を主体として説明するが、映像符号化装置4自体を動作主体とみなすこともできる。
図14において、まず、予測映像生成部44は、機械学習によって更新される生成モデルを用いて予測画像を生成する(ステップS41)。
次に、残差算出部45は、原画像と予測画像との差分である残差画像を算出する(ステップS42)。
ステップS42の後は、残差画像の符号化処理(ステップS43〜ステップS44)と生成モデルの学習処理(ステップS45〜ステップS46)とを実行する。
残差画像の符号化処理として、符号化部46は、残差画像に対して符号化処理を行う(ステップS43)。
そして、符号化部46は、生成した符号化信号を外部に出力する(ステップS44)。
一方、生成モデルの学習処理として、学習部47は、参照画像、原画像および残差画像を用いて生成モデルを機械学習する(ステップS45)。
そして、学習部47は、学習した生成モデルによって、生成モデル記憶部41に記憶される生成モデルを更新する(ステップS46)。
以上が、本実施形態の映像符号化装置4の動作についての説明である。なお、符号化処理と学習処理とは並行して実行してもよいし、連続して実行してもよい。また、符号化処理と学習処理とは独立して実行してもよい。
以上のように、本実施形態では、学習部によって生成モデルを自装置内で更新できる。
(映像符号化システム)
ここで、本実施形態に係る映像符号化装置を備える映像符号化システムについて図面を参照しながら説明する。
図15は、本実施形態の映像符号化システム400の構成を示すブロック図である。本実施形態の映像符号化システム400は、映像符号化装置4−3、復号装置40を備える。映像符号化装置4−3と復号装置40とは、インターネットやイントラネットなどのネットワークによって互いに接続される。なお、復号装置40は、第3の実施形態の復号装置30に対応し、復号装置30と同様の機能を有するため詳細な説明は省略する。
図16は、映像符号化装置4−3の構成を示すブロック図である。図16のように、映像符号化装置4−3は、図12の映像符号化装置4に送信部48を加えた構成を有する。送信部48は、符号化部46により生成される符号化信号と、学習部47により生成される生成モデルの更新情報とを取得して出力する。また、送信部48は、生成モデルに識別子を付与してもよい。送信部48が付与する識別子は、生成モデルの生成時刻やバージョンを示す。
送信部48により出力された信号は、ネットワークを通じて復号装置40に受信される。復号装置40は、受信した信号を復号して、デコード画像を算出する。
以上のように、本実施形態によれば、予測画像を生成する映像生成モデルが映像符号化装置において更新された際に、映像符号化装置と復号装置との間で映像生成モデルを一致させることができる。また、本実施形態によれば、生成モデルが更新可能に構成されるため、学習継続による予測性能向上に応じて、製品やサービスの効果を向上させることができる。
(第5の実施形態)
次に、本発明の第5の実施形態に係る映像符号化装置について図面を参照しながら説明する。本実施形態の映像符号化装置は、残差画像を圧縮する残差圧縮部を符号化部とは別の構成とする点において、第2の実施形態の映像符号化装置とは異なる。なお、本実施形態においては、第2の実施形態の映像符号化装置に残差圧縮部を追加する構成としているが、第1の実施形態の映像符号化装置に残差圧縮部を追加する構成としてもよい。
(構成)
図17は、本実施形態の映像符号化装置5の構成を示すブロック図である。映像符号化装置5は、生成モデル記憶部51、フレーム記憶部52、予測映像生成部53、残差算出部54、残差圧縮部55、符号化部56を備える。なお、生成モデル記憶部51、フレーム記憶部52、予測映像生成部53、残差算出部54、符号化部56のそれぞれは、第2の実施形態の映像符号化装置2の対応する構成と同様の機能を有する。
生成モデル記憶部51には、生成モデルが記憶される。
フレーム記憶部52には、符号化対象の映像を構成するフレームが記憶される。
予測映像生成部53は、機械学習によって更新される生成モデルを生成モデル記憶部51から取得し、符号化対象の映像を構成する過去のフレームのうち少なくとも一つを参照画像としてフレーム記憶部52から取得する。予測映像生成部53は、取得した生成モデルを使用し、入力された参照画像を起点として予測画像を生成する。予測映像生成部53は、生成した予測画像を残差算出部54に出力する。
残差算出部54は、符号化対象のフレームを原画像としてフレーム記憶部52から取得するとともに、予測映像生成部53から予測画像を取得する。残差算出部54は、原画像と予測画像との差分を残差画像として計算する。残差算出部54は、算出した残差画像を残差圧縮部55に出力する。
残差圧縮部55は、残差算出部54が算出した残差を圧縮する。例えば、残差圧縮部55は、既存の映像圧縮で用いられる変換量子化手法や算術符号化手法によって残差を圧縮する。残差圧縮部55は、圧縮した残差を符号化部56に出力する。
符号化部56は、残差圧縮部55から残差画像を取得する。符号化部56は、取得した残差画像を符号化し、符号化信号を外部に出力する。
以上が、本実施形態の映像符号化装置5の構成についての説明である。
(動作)
続いて、本実施形態の映像符号化装置5の動作について説明する。図18は、本実施形態に係る映像符号化装置5の動作に関するフローチャートである。なお、以下の説明においては、映像符号化装置5の構成要素を主体として説明するが、映像符号化装置5自体を動作主体とみなすこともできる。
図18において、まず、予測映像生成部53は、機械学習によって更新される生成モデルを用いて予測画像を生成する(ステップS51)。
次に、残差算出部54は、原画像と予測画像との差分である残差画像を算出する(ステップS52)。
次に、残差圧縮部55は、残差画像を圧縮する(ステップS53)。
次に、符号化部56は、残差画像に対して符号化処理を行う(ステップS54)。
そして、符号化部56は、生成した符号化信号を外部に出力する(ステップS55)。
以上が、本実施形態の映像符号化装置5の動作についての説明である。
以上のように、本実施形態では、機械学習による映像生成モデルを用いて生成した予測画像を圧縮してから符号化する。本実施形態によれば、回転や拡大、縮小などの平行移動以外の挙動を取る任意の被写体の動きに対して生成した予測画像を高効率に圧縮できる。
(第6の実施形態)
(構成)
次に、本発明の第6の実施形態に係る映像符号化装置について図面を参照しながら説明する。本実施形態の映像符号化装置は、生成モデルを用いて生成する予測画像と、動き予測に基づいて生成する予測画像とを比較し、伝送データ量の少ない方の予測画像を選択して符号化する点において、第2の実施形態の映像符号化装置とは異なる。
(構成)
図19は、本実施形態の映像符号化装置6の構成を示すブロック図である。映像符号化装置6は、生成モデル記憶部61、フレーム記憶部62、予測映像生成部63、第1残差算出部64、動き予測部65、第2残差算出部66、手法選択部67、符号化部68を備える。なお、生成モデル記憶部61、フレーム記憶部62、符号化部68のそれぞれは、第2の実施形態の映像符号化装置2の対応する構成と同様の機能を有する。また、第1残差算出部64は、映像符号化装置2の残差算出部24に対応する。また、第1残差算出部64および第2残差算出部66は、図19に破線の枠で囲った単一の残差算出部が有する機能とみなせる。
生成モデル記憶部61には、生成モデルが記憶される。
フレーム記憶部62には、符号化対象の映像を構成するフレームが記憶される。
予測映像生成部63は、機械学習によって更新される生成モデルを生成モデル記憶部61から取得し、符号化対象の映像を構成する過去のフレームのうち少なくとも一つを参照画像としてフレーム記憶部62から取得する。予測映像生成部63は、取得した生成モデルを使用し、入力された参照画像を起点として第1の予測画像を生成する。予測映像生成部63は、生成した第1の予測画像を第1残差算出部64に出力する。
第1残差算出部64は、符号化対象のフレームを原画像としてフレーム記憶部62から取得するとともに、予測映像生成部63から第1の予測画像を取得する。第1残差算出部64は、原画像と第1の予測画像との差分を第1の残差画像として計算する。第1残差算出部64は、算出した第1の残差画像を手法選択部67に出力する。
動き予測部65は、参照画像と原画像とをフレーム記憶部62から取得する。動き予測部65は、動き予測(動き探索・動き補償)によって第2の予測画像を生成する。動き予測部65は、生成した第2の予測画像を第2残差算出部66に出力する。
第2残差算出部66は、フレーム記憶部62から原画像を取得するとともに、動き予測部65から第2の予測画像を取得する。第2残差算出部66は、原画像と第2の予測画像との差分を第2の残差画像として計算する。第2残差算出部66は、算出した第2の残差画像を手法選択部67に出力する。
手法選択部67は、第1残差算出部64から第1の残差画像を取得するとともに、第2残差算出部66から第2の残差画像を取得する。手法選択部67は、第1の残差画像と第2の残差画像とを比較していずれか一方の残差画像を選択する。手法選択部67は、選択した方の残差画像を符号化部68に出力する。
例えば、手法選択部67は、生成モデルに基づく手法(生成モデル手法)と、動き予測に基づく手法(動き予測手法)との間で伝送データ量の比較を行い、伝送データ量が小さくなる手法を選択する。例えば、手法選択部67は、データ量の大小や、符号量を加味したコスト比較などによって第1の残差画像と第2の残差画像の伝送データ量を比較する。
符号化部68は、手法選択部67が選択した残差画像を取得する。符号化部68は、取得した残差画像を符号化し、符号化信号を外部に出力する。
以上が、本実施形態の映像符号化装置6の構成についての説明である。なお、映像符号化装置6においては、第1残差算出部64と第2残差算出部66とを別の構成としたが、単一の残差算出部によって第1および第2の残差画像を算出するように構成してもよい。また、単一の残差算出部が、第1残差算出部64および第2残差算出部66を含むように構成してもよい。
(動作)
続いて、本実施形態の映像符号化装置6の動作について説明する。図20は、本実施形態に係る映像符号化装置6の動作に関するフローチャートである。なお、以下の説明においては、映像符号化装置6の構成要素を主体として説明するが、映像符号化装置6自体を動作主体とみなすこともできる。
図20においては、生成モデル手法を用いる残差画像の生成(ステップS61〜ステップS62)と、動き予測手法を用いる残差画像の生成(ステップS63〜ステップS64)とを並行して実行する例について説明する。
図20において、まず、予測映像生成部63は、機械学習によって更新される生成モデルを用いて第1の予測画像を生成する(ステップS61)。
次に、第1残差算出部64は、原画像と第1の予測画像との差分である第1の残差画像を算出する(ステップS62)。
一方、動き予測部65は、動き予測により予測画像を生成する(ステップS63)。
次に、第2残差算出部66は、原画像と第2の予測画像との差分である第2の残差画像を算出する(ステップS64)。
そして、手法選択部67は、第1の残差画像と第2の残差画像とを比較していずれか一方の残差画像を選択する(ステップS65)。
次に、符号化部68は、残差画像に対して符号化処理を行う(ステップS66)。
そして、符号化部68は、生成した符号化信号を外部に出力する(ステップS67)。
以上が、本実施形態の映像符号化装置6の動作についての説明である。
以上のように、本実施形態では、生成モデル手法と動き予測手法とを組み合わせ、適した手法を随時選択して使用する。そのため、本実施形態によれば、被写体の動きが平行移動であるか否かに関わらず、効率的に符号化を行うことができる。例えば、被写体が平行移動する映像においては動き予測手法を選択し、被写体が回転や拡大縮小などの平行移動以外の動きをする映像においては生成モデル手法を選択することによって、効率的に符号化できる。
(第7の実施形態)
次に、本発明の第7の実施形態に係る映像符号化システムについて説明する。図21は、本実施形態の映像符号化装置7の構成を示すブロック図である。図22は、本実施形態の復号装置70の構成を示すブロック図である。本実施形態の映像復号化システムは、第4の実施形態の映像符号化システム400(図15)と同様に、映像符号化装置7と復号装置70とをネットワークを介して接続した構成を有する。以下においては、本実施形態に特徴的な箇所について説明し、これまで説明してきた内容と同様の箇所については説明を省略する。
〔映像符号化装置〕
図21のように、本実施形態の映像符号化装置7は、生成モデル記憶部71、フレーム記憶部72、予測映像生成部73、残差算出部74、符号化部75、識別子付与部76を備える。すなわち、映像符号化装置7は、第2の実施形態の映像符号化装置2に識別子付与部26を追加した構成を有する。なお、生成モデル記憶部71、フレーム記憶部72、予測映像生成部73、残差算出部74および符号化部75のそれぞれは、第2の実施形態の映像符号化装置2の対応する構成と同様の機能を有する。また、本実施形態においては、第2の実施形態の映像符号化装置に識別子付与部を追加する例を示すが、第3〜第6の実施形態の映像符号化装置に識別子付与部を追加してもよい。
識別子付与部76は、符号化部75に接続され、予測画像を生成する際に用いた生成モデルに対応付けられた生成モデル識別子(単に識別子とも呼ぶ)を、符号化部75において生成される符号化信号に付与する。生成モデル識別子は、予測画像を生成する際に用いられる生成モデルに紐づけて付与される識別子である。すなわち、生成モデル識別子によって、予測画像を生成する際に用いられた生成モデルを一意に特定できる。符号化部75は、生成モデル識別子が付与された符号化信号を出力する。
〔復号装置〕
図22のように、本実施形態の復号装置70は、生成モデル記憶部701、生成モデル更新部702、フレーム記憶部703、予測映像生成部704、復号部705、加算部706を含む。すなわち、本実施形態の復号装置70は、第3の実施形態の復号装置30に識別子取得部707を追加した構成を有する。なお、生成モデル記憶部701、生成モデル更新部702、フレーム記憶部703、予測映像生成部704および復号部705は、第3の実施形態の復号装置30の対応する構成と同様の機能を有する。
生成モデル記憶部701には、複数の生成モデルが記憶される。生成モデル記憶部701に記憶される複数の生成モデルのそれぞれには、個々の生成モデルに固有の生成モデル識別子が付与されている。すなわち、生成モデル記憶部701には、映像符号化装置7と共通の生成モデルを含む複数の生成モデルが識別子に対応付けて記憶される。
識別子取得部707は、予測映像生成部704と復号部705とに接続される。識別子取得部707は、符号化信号に付与された生成モデル識別子を復号部705から取得する。識別子取得部707は、取得した生成モデル識別子を予測映像生成部704に出力する。
予測映像生成部704は、識別子取得部707から取得した生成モデル識別子に対応付けられた生成モデルを生成モデル記憶部701から選択する。そして、予測映像生成部704は、生成モデル識別子に基づいて生成モデル記憶部701から選択した生成モデルを用いて予測画像を生成する。
加算部706は、予測映像生成部704によって生成される予測映像と、復号部705によって復号された残差画像とを取得し、取得した予測映像と残差画像とを加算してデコード画像を生成する。加算部706は、生成したデコード画像をフレーム記憶部703に記憶させる。
以上のように、本実施形態においては、生成モデル識別子を生成モデルおよび符号化信号に付与する。そのため、本実施形態によれば、複数回の生成モデル更新の後や、映像符号化装置および復号装置のうち一方の生成モデルの更新が遅れる状況であっても、映符号化装置と復号装置との間で同一の生成モデルを使用することが保証される。
(ハードウェア)
ここで、本発明の各実施形態に係る映像符号化装置を実現するハードウェア構成について、図23のコンピュータ90を一例として挙げて説明する。なお、図23のコンピュータ90は、各実施形態の映像符号化装置を実現するための構成例であって、本発明の範囲を限定するものではない。
図23のように、コンピュータ90は、プロセッサ91、主記憶装置92、補助記憶装置93、入出力インターフェース95および通信インターフェース96を備える。図23においては、インターフェースをI/F(Interface)と略して表記する。プロセッサ91、主記憶装置92、補助記憶装置93、入出力インターフェース95および通信インターフェース96は、バス99を介して互いにデータ通信可能に接続される。また、プロセッサ91、主記憶装置92、補助記憶装置93および入出力インターフェース95は、通信インターフェース96を介して、インターネットやイントラネットなどのネットワークに接続される。
プロセッサ91は、補助記憶装置93等に格納されたプログラムを主記憶装置92に展開し、展開されたプログラムを実行する。本実施形態においては、コンピュータ90にインストールされたソフトウェアプログラムを用いる構成とすればよい。プロセッサ91は、本実施形態に係る映像符号化装置が実行する演算処理や制御処理を実行する。
主記憶装置92は、プログラムが展開される領域を有する。主記憶装置92は、例えばDRAM(Dynamic Random Access Memory)などの揮発性メモリとすればよい。また、MRAM(Magnetoresistive Random Access Memory)などの不揮発性メモリを主記憶装置92として構成・追加してもよい。
補助記憶装置93は、種々のデータを記憶する。補助記憶装置93は、ハードディスクやフラッシュメモリなどのローカルディスクによって構成される。なお、種々のデータを主記憶装置92に記憶させる構成とし、補助記憶装置93を省略することも可能である。
入出力インターフェース95は、コンピュータ90と周辺機器との接続規格に基づいて、コンピュータ90と周辺機器とを接続する。通信インターフェース96は、規格や仕様に基づいて、インターネットやイントラネットなどのネットワークに接続するためのインターフェースである。入出力インターフェース95および通信インターフェース96は、外部機器と接続するインターフェースとして共通化してもよい。
コンピュータ90には、必要に応じて、キーボードやマウス、タッチパネルなどの入力機器を接続するように構成してもよい。それらの入力機器は、情報や設定の入力に使用される。なお、タッチパネルを入力機器として用いる場合は、表示機器の表示画面が入力機器のインターフェースを兼ねる構成とすればよい。プロセッサ91と入力機器との間のデータ通信は、入出力インターフェース95に仲介させればよい。
通信インターフェース96は、ネットワークを通じて、外部のシステムや装置に接続される。
また、コンピュータ90には、情報を表示するための表示機器を備え付けてもよい。表示機器を備え付ける場合、コンピュータ90には、表示機器の表示を制御するための表示制御装置(図示しない)が備えられていることが好ましい。表示機器は、入出力インターフェース95を介してコンピュータ90に接続すればよい。
また、コンピュータ90には、必要に応じて、リーダライタを備え付けてもよい。リーダライタは、バス99に接続される。リーダライタは、プロセッサ91と図示しない記録媒体(プログラム記録媒体)との間で、記録媒体からのデータ・プログラムの読み出し、コンピュータ90の処理結果の記録媒体への書き込みなどを仲介する。記録媒体は、例えばUSB(Universal Serial Bus)メモリやSD(Secure Digital)カードなどの半導体記録媒体などで実現できる。また、記録媒体は、フレキシブルディスクなどの磁気記録媒体、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光学記録媒体やその他の記録媒体によって実現してもよい。
以上が、本発明の各実施形態に係る映像符号化装置を可能とするためのハードウェア構成の一例である。なお、図23のハードウェア構成は、各実施形態に係る映像符号化装置を可能とするためのハードウェア構成の一例であって、本発明の範囲を限定するものではない。また、各実施形態に係る映像符号化装置に関する処理をコンピュータに実行させるプログラムも本発明の範囲に含まれる。さらに、各実施形態に係るプログラムを記録したプログラム記録媒体も本発明の範囲に含まれる。
第1〜第7の実施形態の映像符号化装置の構成要素は、任意に組み合わせることができる。また、第1〜第7の実施形態の映像符号化装置の構成要素は、ソフトウェアによって実現してもよいし、回路によって実現してもよい。
以上、実施形態を参照して本発明を説明してきたが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1、2、3、4、5、6 映像符号化装置
11、23、34、44、53、63、73 予測映像生成部
12、24、35、45、54、74 残差算出部
21、31、41、51、61、71 生成モデル記憶部
22、33、43、52、62、72 フレーム記憶部
25、36、46、56、68、75 符号化部
30、40 復号装置
32、42 生成モデル更新部
47 学習部
48 送信部
55 残差圧縮部
64 第1残差算出部
65 動き予測部
66 第2残差算出部
67 手法選択部
76 識別子付与部
100 学習サーバ
101 生成モデル学習部
102 送信部
103 識別子付与部
300、400 映像符号化システム
301、701 生成モデル記憶部
302、702 生成モデル更新部
303、703 フレーム記憶部
304、704 予測映像生成部
305、705 復号部
306、706 加算部
707 識別子取得部

Claims (10)

  1. 映像を構成する複数のフレームのうち符号化済みの前記フレームである参照画像と、機械学習によって更新される生成モデルとを用いて予測画像を生成する予測映像生成手段と、
    符号化対象の前記フレームである原画像と、前記予測映像生成手段によって生成される前記予測画像との残差画像を算出する残差算出手段とを備える映像符号化装置。
  2. 前記残差画像を圧縮する残差圧縮手段を備える請求項1に記載の映像符号化装置。
  3. 前記生成モデルが記憶される生成モデル記憶手段と、
    複数の前記フレームが記憶されるフレーム記憶手段と、
    前記残差算出手段によって生成される前記残差画像を符号化した符号化信号を出力する符号化手段とを備え、
    前記予測映像生成手段は、
    前記フレーム記憶手段から前記参照画像を取得するとともに、前記生成モデル記憶手段から前記生成モデルを取得し、前記生成モデルを用いて前記参照画像を起点とする前記予測画像を生成し、
    前記符号化手段は、
    前記予測映像生成手段によって生成される前記残差画像を符号化した前記符号化信号を出力する請求項1または2に記載の映像符号化装置。
  4. 前記生成モデルの更新情報を外部から受信し、受信した前記更新情報に基づいて前記生成モデル記憶手段に記憶される前記生成モデルを更新する生成モデル更新手段を備える請求項3に記載の映像符号化装置。
  5. 前記参照画像、前記原画像および前記残差画像を機械学習して前記生成モデル記憶手段に記憶される前記生成モデルを更新する学習手段を備える請求項3または4に記載の映像符号化装置。
  6. 前記参照画像および前記原画像を前記フレーム記憶手段から取得し、取得した前記参照画像および前記原画像から動き予測によって前記予測画像を生成する動き予測手段と、
    前記動き予測手段および前記予測映像生成手段によって生成される前記予測画像のうちいずれかを選択する手法選択手段とを備え、
    前記残差算出手段は、
    前記予測映像生成手段によって生成される前記予測画像から第1の残差画像を算出するとともに、前記動き予測手段によって生成される前記予測画像から第2の残差画像を算出し、
    前記手法選択手段は、
    前記第1の残差画像と前記第2の残差画像とを比較し、前記第1の残差画像および前記第2の残差画像のうち伝送データ量の小さい方を選択して出力する請求項3乃至5のいずれか一項に記載の映像符号化装置。
  7. 請求項4に記載の映像符号化装置と、
    前記映像符号化装置と共通の前記生成モデルを記憶し、前記映像符号化装置から出力される前記符号化信号を受信して、受信した前記符号化信号を復号する復号装置と、
    共通の前記生成モデルに関する前記更新情報を前記映像符号化装置および前記復号装置に配信する学習サーバとを備え、
    前記復号装置は、
    前記学習サーバから受信する前記更新情報に基づいて前記生成モデルを更新し、更新した前記生成モデルを用いて前記参照画像を起点とする前記予測画像を生成し、前記符号化信号から復号される前記残差画像と前記予測画像とを加算してデコード画像を生成する映像符号化システム。
  8. 前記予測画像を生成する際に用いた前記生成モデルに対応付けられた識別子を前記符号化信号に付与する識別子付与手段を備える請求項3乃至6のいずれか一項に記載の映像符号化装置と、
    前記映像符号化装置と共通の前記生成モデルを含む複数の前記生成モデルを前記識別子に対応付けて記憶し、前記映像符号化装置から出力される前記符号化信号を受信して、受信した前記符号化信号を復号する復号装置とを備え、
    前記映像符号化装置は、
    前記識別子が付与された前記符号化信号を前記復号装置に送信し、
    前記復号装置は、
    前記映像符号化装置から受信する前記符号化信号に付与された前記識別子に対応付けられた前記生成モデルを選択し、選択した前記生成モデルを用いて前記参照画像を起点とする前記予測画像を生成し、前記符号化信号から復号される前記残差画像と前記予測画像とを加算してデコード画像を生成する映像符号化システム。
  9. 映像を構成する複数のフレームのうち符号化済みの前記フレームである参照画像と、機械学習によって更新される生成モデルとを用いて予測画像を生成し、
    符号化対象の前記フレームである原画像と前記予測画像との残差画像を算出する映像符号化方法。
  10. 映像を構成する複数のフレームのうち符号化済みの前記フレームである参照画像と、機械学習によって更新される生成モデルとを用いて予測画像を生成する処理と、
    符号化対象の前記フレームである原画像と前記予測画像との残差画像を算出する処理とをコンピュータに実行させるプログラム。
JP2017104734A 2017-05-26 2017-05-26 映像符号化装置、映像符号化方法およびプログラム Pending JP2018201117A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017104734A JP2018201117A (ja) 2017-05-26 2017-05-26 映像符号化装置、映像符号化方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017104734A JP2018201117A (ja) 2017-05-26 2017-05-26 映像符号化装置、映像符号化方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2018201117A true JP2018201117A (ja) 2018-12-20

Family

ID=64667434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017104734A Pending JP2018201117A (ja) 2017-05-26 2017-05-26 映像符号化装置、映像符号化方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2018201117A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020188988A (ja) * 2019-05-23 2020-11-26 株式会社モリタ製作所 データ処理装置、データ生成装置、スキャナシステム、データ処理方法、データ処理用プログラム、データ生成方法、およびデータ生成用プログラム
CN114466199A (zh) * 2022-04-12 2022-05-10 宁波康达凯能医疗科技有限公司 一种可适用于vvc编码标准的参考帧生成方法与系统
US11514615B2 (en) 2020-04-16 2022-11-29 Samsung Electronics Co., Ltd. Streaming systems and methods of providing interactive streaming service

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016139176A (ja) * 2015-01-26 2016-08-04 シャープ株式会社 画像処理装置、画像処理システム、画像処理方法、およびその画像処理プログラム
WO2016199330A1 (ja) * 2015-06-12 2016-12-15 パナソニックIpマネジメント株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016139176A (ja) * 2015-01-26 2016-08-04 シャープ株式会社 画像処理装置、画像処理システム、画像処理方法、およびその画像処理プログラム
WO2016199330A1 (ja) * 2015-06-12 2016-12-15 パナソニックIpマネジメント株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020188988A (ja) * 2019-05-23 2020-11-26 株式会社モリタ製作所 データ処理装置、データ生成装置、スキャナシステム、データ処理方法、データ処理用プログラム、データ生成方法、およびデータ生成用プログラム
JP2022105741A (ja) * 2019-05-23 2022-07-14 株式会社モリタ製作所 データ処理装置、データ生成装置、スキャナシステム、データ処理方法、データ処理用プログラム、データ生成方法、およびデータ生成用プログラム
JP7299067B2 (ja) 2019-05-23 2023-06-27 株式会社モリタ製作所 データ生成装置、スキャナシステム、データ生成方法、およびデータ生成用プログラム
JP7398512B2 (ja) 2019-05-23 2023-12-14 株式会社モリタ製作所 データ生成装置、スキャナシステム、データ生成方法、およびデータ生成用プログラム
US11514615B2 (en) 2020-04-16 2022-11-29 Samsung Electronics Co., Ltd. Streaming systems and methods of providing interactive streaming service
CN114466199A (zh) * 2022-04-12 2022-05-10 宁波康达凯能医疗科技有限公司 一种可适用于vvc编码标准的参考帧生成方法与系统

Similar Documents

Publication Publication Date Title
CN113424547B (zh) 点云属性编解码的方法和装置
CN113455007B (zh) 帧间点云属性编解码的方法和装置
US11475604B2 (en) Method and apparatus for adaptive point cloud attribute coding
JP5680283B2 (ja) 動画像符号化装置、動画像復号装置、動画像符号化方法、動画像復号方法、動画像符号化プログラム、及び動画像復号プログラム
CN113475083A (zh) 帧间点云属性编解码的技术和装置
JP5461419B2 (ja) 画素予測値生成手順自動生成方法、画像符号化方法、画像復号方法、それらの装置、それらのプログラム、およびこれらのプログラムを記録した記録媒体
TW201735643A (zh) 視頻編碼中的運動向量存儲
JP6636615B2 (ja) 動きベクトル場の符号化方法、復号方法、符号化装置、および復号装置
JP2010171729A (ja) 画像予測符号化装置、方法及びプログラム、画像予測復号装置、方法及びプログラム、並びに、符号化・復号システム及び方法
JP2007300380A (ja) 画像予測符号化装置、画像予測符号化方法、画像予測符号化プログラム、画像予測復号装置、画像予測復号方法及び画像予測復号プログラム
KR20220070326A (ko) 비디오 코딩을 위한 변형 가능한 콘볼루션에 의한 예측 프레임 생성
JP6593122B2 (ja) 動画像符号化装置、動画像符号化方法、及びプログラム
CN113795870B (zh) 一种对点云属性编解码的方法、装置及存储介质
JP2018201117A (ja) 映像符号化装置、映像符号化方法およびプログラム
WO2018120019A1 (zh) 用于神经网络数据的压缩/解压缩的装置和系统
JPWO2010131537A1 (ja) 動画像符号化装置、方法およびプログラム、並びに、動画像復号化装置、方法およびプログラム
JP2017130894A (ja) 画像符号化装置、方法及びプログラム
JP4662171B2 (ja) 符号化装置および方法、復号化装置および方法、プログラム、並びに記録媒体
JP2023129480A (ja) 変換係数有意フラグのエントロピー・コーディングのためのコンテキストモデルを減らすための方法、装置、およびコンピュータプログラム
CN104937938A (zh) 用于比较两个像素块的方法和设备
WO2020089614A2 (en) Methods, apparatuses, computer programs and computer-readable media for processing configuration data
WO2019150411A1 (ja) 映像符号化装置、映像符号化方法、映像復号装置、映像復号方法、及び映像符号化システム
JP2006033508A (ja) 適応型可変長符号化装置、適応型可変長復号化装置、適応型可変長符号化・復号化方法、及び適応型可変長符号化・復号化プログラム
CN112188199A (zh) 自适应点云属性编码的方法、装置、电子设备和存储介质
WO2024083100A1 (en) Method and apparatus for talking face video compression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200415

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210818

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211005

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211022