JP7389565B2 - 符号化装置、復号装置、及びプログラム - Google Patents

符号化装置、復号装置、及びプログラム Download PDF

Info

Publication number
JP7389565B2
JP7389565B2 JP2019100591A JP2019100591A JP7389565B2 JP 7389565 B2 JP7389565 B2 JP 7389565B2 JP 2019100591 A JP2019100591 A JP 2019100591A JP 2019100591 A JP2019100591 A JP 2019100591A JP 7389565 B2 JP7389565 B2 JP 7389565B2
Authority
JP
Japan
Prior art keywords
image
images
learning
encoding
elemental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019100591A
Other languages
English (en)
Other versions
JP2020195093A (ja
Inventor
一宏 原
智之 三科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2019100591A priority Critical patent/JP7389565B2/ja
Publication of JP2020195093A publication Critical patent/JP2020195093A/ja
Application granted granted Critical
Publication of JP7389565B2 publication Critical patent/JP7389565B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、符号化装置、復号装置、及びプログラムに関し、特に、インテグラル映像の表示や自由視点映像の表示に必要となる多視点画像の符号化装置、復号装置、及びプログラムに関する。
インテグラル映像を表示する要素画像群を撮影することができるカメラとして、撮像素子のセンサーの手前にレンズアレイを配置するライトフィールドカメラが製品化されている。しかし、一般にライトフィールドカメラは撮影後のリフォーカス機能を目的としている。そのため、ライトフィールドカメラで撮影した画像を用いてインテグラル映像を表示すると、ライトフィールドカメラを構成するメインレンズの直径が、被写体までの距離に比べて小さな値となることから、運動視差が小さく、3次元映像の奥行を十分に再現することができない。この問題は、メインレンズの直径を大きくすることやカメラと被写体との距離を短くすることで理論上は解決することができるが、これらの対策による問題解決は実用的ではない。
そこで、通常のカメラを水平・垂直の2次元配列に並べたカメラアレイを用いて、多視点映像を撮影することが考えられている。この場合の要素画像群の生成は、カメラアレイで撮影された複数の映像から視点内挿処理を用いることでカメラ間の視点映像を生成、その後、カメラアレイで撮影した映像と視点内挿映像から要素画像群に変換する処理が行われる(特許文献1)。ここで、カメラアレイのカメラ間距離は、カメラから被写体までの距離や、視点内挿が実用的に可能な距離、表示装置で再現できる視域角によって設計できることが知られている。また、視点内挿処理ではカメラから被写体までの距離を相対的に表現するデプスマップを用いることで高精度な内挿画像の生成が行われている。デプスマップは、画像処理技術による奥行き推定や赤外線を用いて光学的に距離を測定する方法で生成される。このデプスマップ生成の精度を上げると、視点内挿の精度も向上する。
インテグラル映像の表示について、3次元映像を再現できる奥行は隣接する多視点画像間の視差、レンズアレイの焦点距離、および要素画像の画素数に関係する。その中でも3次元映像を再現できる奥行きを広げるためには、要素画像の画素数を増やすことが有効であると知られている。この場合、要素画像の画素数は多視点画像の視点数と等しくなることから、奥行きのある3次元映像を生成するためには符号化対象となる多視点画像の視点数が多く必要になり、3次元映像を表示するための情報量は膨大となる。
インテグラル映像の伝送や記録では、3次元映像を表示するための膨大な情報量を符号化する。符号化では、要素画像群を多視点画像群に変換後に多視点映像符号化を行う方法や、変換後の多視点映像を符号化時に間引き、復号時に視点内挿する方法が知られている。
特開2016-158213号公報
しかしながら、符号化時に多視点映像の視点数を減らす方法は、伝送や記録において、3次元映像を表示するための情報量を減らすことができる一方で、復号後の視点内挿による画質劣化が発生する。これは、視点内挿処理での精度を上げるためのデプスマップ生成にて、参照する視点数を減らすことから生成するデプスマップの精度の低下が影響していることと、視点内挿処理でのオクルージョン領域(陰になって見えない領域)の予測にて、視差が大きくなることからオクリュージョン領域が増えることも原因として挙げられる。したがって、視点数を減らす手法によって、情報量を削減することには限界がある。さらに、多くの視点を削減した場合には、符号化処理において、符号化の対象である多視点画像間の視差が大きくなることから視点補償予測の精度を低下させ、符号化効率を悪化させてしまう。
従って、上記のような問題点に鑑みてなされた本発明の目的は、多視点画像について、符号化・復号後の画質劣化を抑制し、且つ、伝送・記録する情報量の削減を可能にする符号化装置、復号装置、及びプログラムを提供することにある。
上記課題を解決するために、本発明は、符号化側では、多視点画像のダウンサンプリング(画素数を減らし、画面解像度を低くする手法)を利用することで情報量を削減する。また、復号側では、多視点画像を要素画像群に変換し、要素画像の補間を行うことで画像のアップサンプリング(画面解像度の復元)を行う。さらに、要素画像の補間に機械学習を用いる。なお、本明細書で「画像」とは、動画像を含み、いわゆる「映像」であってよい。
上記課題を解決するために本発明に係る符号化装置は、多視点画像を入力画像とし、前記入力画像のダウンサンプリングを行い、その後、少なくとも前記ダウンサンプリングがなされた画像の符号化を行う符号化処理部と、前記入力画像に基づいて、前記画像のアップサンプリングに利用する機械学習のための学習モデル及び/又は学習パラメータを生成する学習モデル作成処理部とを備え、前記学習モデル作成処理部は、前記多視点画像を要素画像群に変換し、内挿対象の要素画像に対して、当該要素画像の隣接要素画像を入力データとして、機械学習を行うことを特徴とする。
また、前記符号化装置は、前記符号化処理部が、さらに前記多視点画像を間引く視点間引き処理を行い、前記視点間引き処理と前記ダウンサンプリングがなされた画像の符号化を行うことが望ましい。
また、前記符号化装置は、前記符号化処理部が、前記入力画像からデプスマップを生成し、前記デプスマップをダウンサンプリングして符号化を行うことが望ましい。
上記課題を解決するために本発明に係る復号装置が、画像符号化データから多視点画像を復号し、さらに前記多視点画像を要素画像群に変換する復号処理部と、入力された学習モデル及び/又は学習パラメータに基づいて、隣接要素画像から補間要素画像を生成する学習済みの機械学習装置を再構成し、前記機械学習装置に前記要素画像群から選択した隣接要素画像を入力して、補間要素画像を生成する機械学習処理部と、前記要素画像群に前記補間要素画像を内挿し、出力画像を生成する出力画像生成部とを備えることを特徴とする。
また、前記復号装置は、前記復号処理部が、復号後の前記多視点画像に対して視点内挿を行うことが望ましい。
また、前記復号装置は、前記出力画像生成部は、前記補間要素画像の内挿後に、前記要素画像群から多視点画像への変換を行い、変換後の多視点画像に対して、視点内挿を行うことが望ましい。
また、前記復号装置は、表示する画像の奥行きに応じた前記学習モデル及び/又は学習パラメータを複数用意し、デプスマップから得られる前記画像の奥行きに応じて、前記学習モデル及び/又は学習パラメータを切り替えることが望ましい。
上記課題を解決するために本発明に係るプログラムは、コンピュータを、前記符号化装置として機能させるためのプログラムとすることを特徴とする。
また、上記課題を解決するために本発明に係るプログラムは、コンピュータを、前記復号装置として機能させるためのプログラムとすることを特徴とする。
本発明における符号化装置、復号装置、及びプログラムによれば、多視点画像について、符号化により伝送・記録する情報量を大きく削減することが可能になる。また、復号後の画質劣化を抑制することができる。
本発明の符号化装置及び復号装置の構成の例を示す図である。 本発明の符号化装置のブロック図の例である。 多視点画像と要素画像の関係について説明する図である。 機械学習に使用する各種画像の例を示す図である。 本発明の復号装置のブロック図の一例である。 本発明の復号装置のブロック図の別の例である。
以下、本発明の実施の形態について、図面を用いて説明する。
(実施の形態)
本発明の符号化装置及び復号装置の構成の例を図1に示す。符号化装置100と復号装置200は、全体として符号化・復号システムを構成する。符号化装置100と復号装置200の間は、情報通信が可能な任意の伝送路で結ばれていてもよく、この場合は、両者は送信装置100と受信装置200として機能する。このときの送受信方法としては、放送システム、電波通信、有線・無線ネットワーク等を利用することができる。また、両者をそれぞれ独立した装置とし、記録媒体等を用いて符号化装置100から復号装置200へのデータの授受を行ってもよい。
符号化装置100は、符号化処理部110と学習モデル作成処理部120とを備える。符号化装置100に入力された入力画像(多視点画像)について、符号化処理部110は、少なくとも画像のダウンサンプリングを行い、情報量を削減し、その後、画像の符号化を行って、画像符号化データを出力する。
また、学習モデル作成処理部120は入力画像に基づいて、復号側での画像のアップサンプリングに利用する機械学習のための学習モデル及び/又は学習パラメータを生成し、出力する。
復号装置200は、復号処理部210、機械学習処理部220、及び出力画像生成部230を備える。復号装置200に入力された多視点画像の画像符号化データに基づいて、復号処理部210は多視点画像の復号を行い、更に多視点画像を要素画像群に変換し、変換された要素画像群のデータを機械学習処理部220と出力画像生成部230へ出力する。
機械学習処理部220は、復号装置200に入力された学習モデル及び/又は学習パラメータに基づいて学習済みの機械学習機能を再構成し、復号処理部210からの要素画像データに基づいて補間画像(補間要素画像)を生成する。
そして、出力画像生成部230は、復号処理部210からの要素画像群に機械学習処理部220からの補間要素画像を内挿し、出力画像を生成する。この補間要素画像の内挿は、多視点画像のアップサンプリングを行うことと等価な処理である。なお、本発明では、インテグラル映像を構成するための要素画像を出力画像としているが、例えば、自由視点映像を構成するための多視点画像を出力画像とすることもできる。
以下、符号化装置100、復号装置200それぞれについて、詳細に説明する。
[符号化装置]
図2は、本発明の符号化装置100のブロック図の例である。視点間引き部111、デプスマップ生成部112、ダウンサンプリング部113、及び符号化部114が、図1の符号化処理部110に相当し、多視点画像要素画像変換部121、学習用画像生成部122、及び学習モデル生成部123が、図1の学習モデル作成処理部120に相当する。以下、各ブロックについて説明する。
入力画像は、例えば、カメラ(例えば、CMOSセンサ)が縦横25×25個(=625個)配列された多視点カメラで取得した多視点画像である。1視点の画像のそれぞれは、カラーのテクスチャー画像である。また、入力画像にデプスマップを含めても良い。入力画像は、視点間引き部111、デプスマップ生成部112、多視点画像要素画像変換部121のそれぞれに入力される。
視点間引き部111は、入力された多視点画像について、等間隔で視点を間引く視点間引き処理を行う。例えば、25×25の視点を間引いて5×5視点の画像に縮小する。なお、デプスマップについても、必要に応じて間引き処理を行う。間引きされた多視点画像は、ダウンサンプリング部113に出力される。
デプスマップ生成部112は、入力された多視点画像からデプスマップを作成する。デプスマップ作成には視点間引きをしていない多視点画像(例えば、25×25視点の画像)を利用することができ、マップに画像のデプス情報を正確に反映することができる。生成されたデプスマップは、視点間引き部111に出力される。デプスマップの間引き処理を行わない場合は、生成されたデプスマップを、ダウンサンプリング部113に出力してもよい。なお、デプスマップが撮影され、入力画像にデプスマップが含まれる場合は、このデプスマップ生成部112を省略することもできる。
ダウンサンプリング部113は、入力された多視点画像のダウンサンプリングを行う。ダウンサンプリング処理としては、例えば、各画像の画面解像度を1/4(縦横1/2)にする。このサンプリング率をどの程度低下させるかは、必要に応じて選択することができる。なお、デプスマップも同様にダウンサンプリングすることができる。ダウンサンプリングされた画像は、符号化部114に出力する。
符号化部114は、ダウンサンプリングされた画像を符号化する。符号化処理は、画像の任意の符号化方法を用いることができ、例えば、MPEG(Moving Picture Experts Group)、H.264/AVC(Advanced Video Coding)、H.265/HEVC(High Efficiency Video Coding)等、周知の画像(動画像)符号化方法を採用することができる。多視点画像の符号化とともに、デプスマップも符号化を行う。符号化部114で生成された画像符号化データを、符号化装置100の出力として、出力する。
本実施形態では、伝送・記録のための情報量の削減を、視点間引きとダウンサンプリングの両者を用いて行っている。視点の間引き率と画像のサンプリング率は、共に調整可能であり、画像の特性に応じて選択することが望ましい。例えば、視点を間引いても画像劣化の少ない(復元し易い)多視点画像は、視点の間引き率を高くして情報量を削減し、また、画面解像度を低くしても画像劣化の少ない画像(空間高周波成分の少ない画像)は、画像サンプリング率を低く設定して情報量を削減することができる。
なお、本発明では、ダウンサンプリングによって失われた高周波成分の画像を、復号側で品質良く復元できることから、ダウンサンプリングを主に利用することが望ましく、更に、ダウンサンプリングのみによって情報量の削減を行うことも可能である。
次に、本発明では、復号側での多視点画像のアップサンプリングの手段として、多視点画像を変換した要素画像の補間を行う。さらに本発明では補間要素画像の生成に機械学習を用いる。そのため、学習モデル作成処理部120は、要素画像の補間のための学習モデル及び/又は学習パラメータを作成する。
機械学習は、複数の隣接要素画像を並べてひとつの入力画像とし、教師あり学習を行う。この場合、要素画像間の関係は光学的な規則に基づいていることから学習結果はさまざまなコンテンツでの利用が可能になる。
多視点画像要素画像変換部121は、入力された多視点画像を要素画像に変換する。ここで、多視点画像と要素画像の関係について、図3を用いて説明する。
図3(A)は、多視点画像群(単に、多視点画像ということもある。)であり、画像群の中央部の2つの視点の画像を上部に拡大して示す。多視点画像群は、例えば、カメラアレイで撮影された画像であり、上部の2つの画像は、対象物を隣接したカメラで撮影した画像に対応する。多視点画像群を構成する各画像が1つの視点の画像に対応し、各視点画像は対象物に対して互いに視差を生じる。なお、多視点画像群を構成する各視点画像は、実際に撮影された画像のみではなく、視点内挿等により作成された画像を含んでもよい。
図3(B)は、要素画像群であり、中央部の複数の要素画像を上部に拡大して示す。要素画像群は、多視点画像群から変換して作成することができる。すなわち、多視点画像群を構成する各視点画像から、互いに同じ座標位置にある画素を集め、多視点画像群の全体の配置を保ったまま集積することで、1つの要素画像を生成する。例えば、22×22個のカメラアレイで撮影した多視点画像群(A)から、22×22画素の要素画像が生成される。他の要素画像も同様に生成することにより、多視点画像群を要素画像群に変換することができる。
多視点画像要素画像変換部121は、このような処理により、多視点画像群(A)から要素画像群(B)への変換を行う。
本発明では、上述のように、補間要素画像の生成に機械学習を用いる。そのため、学習用画像生成部122は、機械学習装置の学習に用いるための画像を生成する。なお、機械学習装置としては、例えば、多層ニューラルネットワークのアルゴリズムを有するコンピュータやSVM(サポートベクターマシン)など、画像認識が可能な任意の構成のものであってよい。
図4に、機械学習に使用する各種画像の例をイメージとして示す。図4(A)は、機械学習での入力データ(入力画像)であり、図3(B)の要素画像群を例として、入力データを作成している。図4(B)は、入力データに対する正解画像(教師データ)である。
図4(C)の機械学習装置の出力画像は、要素画像群に内挿する画像であり、復号装置200の出力画像を生成する際に補間画像(補間要素画像)として使用される。したがって、元となる要素画像の画素数と等しい画素数の画像(図4の例では、要素画像は22×22画素(pixel)である。)とする。
このとき、入力データは内挿対象の要素画像の隣接要素画像の集合とする。図4の例では、求めたい要素画像(内挿対象の要素画像:矢印で示す。)に対して、それに隣接する要素画像として、白丸で示した9枚の画像(隣接要素画像1~9)を並べて入力画像とする。さらに、内挿対象の要素画像の位置を示す行列値(図4では、隣接要素画像1を基準位置として、[2,3]と設定)を入力メタデータとする。正解画像は、求めるべき内挿対象の要素画像(矢印)そのものを用いる。なお、入力メタデータはどのような形態であってもよく、例えば、5×5のマトリクスに位置を示すフラグを立てたり、2値データで位置を表してもよい。ここで、入力データとして、白丸で示した9枚の画像を選択したのは、符号化側で1/4のダウンサンプリングが行われ、1/4の要素画像から全体の要素画像群を復元する場合を想定している。学習データは符号化側の処理に応じて作成することが望ましい。
図2に戻り、学習モデル生成部123は、補間画像(補間要素画像)の作成に用いる機会学習の学習モデル及び学習パラメータを生成する。例えば、機械学習装置に対して、学習用画像生成部122からの図4(A)に示す入力画像(入力データ)と図4(B)に示す正解画像とを訓練用画像として用いて、学習を行わせ、補間画像の作成に最適な学習モデル及び/又は学習パラメータを生成する。
学習の結果、最適な学習モデルと学習パラメータを習得した機械学習装置は、図4(A)に示す入力画像が入力されると、正解画像に近似した補間画像(図4(C))を出力することができる。機械学習が終了すると、学習モデル生成部123は、得られた学習済みモデル・学習パラメータを出力する。なお、学習モデル及び/又は学習パラメータは、さらに符号化・変調を行って、復号装置に送信してもよい。
学習モデル及び/又は学習パラメータは1種類に限られず、画像の特性に応じて、複数種類を用意してもよい。例えば、表示する3次元映像の奥行きに応じて、学習モデルを複数用意することができる。
次に、復号装置について説明する。
[復号装置]
復号装置200では、ダウンサンプリングされたデータから、画像を再生する。一般には、例えば、復号側で超解像度技術を用いて画面解像度を元のサイズに復元することが考えられる。しかし既存の超解像度技術を用いて多視点画像を元のサイズに復元する場合、画面サイズを小さくする処理時にサンプリング定理に基づき高周波成分がカットされてしまい、復号側での高周波成分の復元ができない。
これに対して、本発明では、多視点画像群を要素画像群に変換し、その後要素画像の補間を行う。これは、インテグラル映像を構成するための多視点画像間の視点間距離が一般的に短いことから、サンプリング定理に基づき失われた高周波成分は隣接する多視点画像に含まれていることを考慮している。そのため複数の多視点画像の画素から構成される要素画像を補間することにより、符号化時のサイズ変更(ダウンサンプリング)により失われた高周波成分の情報量を復元することが可能になる。
さらに本発明では要素画像の補間に機械学習を用いる。符号化側で作成した学習モデル及び/又は学習パラメータを利用して、復号側で学習済みの機械学習装置を構成することにより、精度の良い補間画像を作成することができる。
図5は、本発明の復号装置200のブロック図の一例である。図5の実施形態は、視点内挿後にアップサンプリングを行う復号方法を具体化したものである。復号部211、視点内挿処理部212、多視点画像要素画像変換部213、及び要素画像補間用入力画像生成部214が、図1の復号処理部210に相当し、機械学習部221、及び補間要素画像生成部222が、図1の機械学習処理部220に相当し、要素画像内挿部231が図1の出力画像生成部230に相当する。以下、各ブロックについて説明する。
符号化装置100にて符号化された画像符号化データが、復号部211に入力される。復号部211は、入力された画像符号化データを、符号化に対応する復号方法により復号する。復号された画像データは、視点間引き及びダウンサンプリングされた多視点画像である。なお、画像符号化データにデプスマップが含まれている場合は、デプスマップも復号する。また、画像符号化データにデプスマップが含まれていない場合は、復号された多視点画像からデプスマップを作成する。復号された画像データは、視点内挿処理部212及び多視点画像要素画像変換部213に出力される。
視点内挿処理部212は、入力された画像データ(視点間引き及びダウンサンプリングされた多視点画像)に対して、視点内挿を行い、間引きされた視点を復元する。画像符号化データから復号されたデプスマップ、又は、作成されたデプスマップを利用して、より正確な視点内挿を行うことが望ましい。視点内挿により生成された視点の画像は、多視点画像要素画像変換部213に出力される。
多視点画像要素画像変換部213は、復号された多視点画像と内挿された視点の画像に基づいて、視点数が復元された多視点画像(ただし、画像はダウンサンプリングされている。)を生成し、これを要素画像(要素画像群)に変換する。多視点画像から要素画像への変換処理は、符号化装置において説明した処理内容と同じである。多視点画像が元の1/4にダウンサンプリングされている場合は、変換された要素画像群は、元の1/4の要素画像数の(すなわち、図4(A)の白丸を付した要素画像が集まった)要素画像群となる。変換された要素画像群は、要素画像補間用入力画像生成部214と要素画像内挿部231に出力される。
要素画像補間用入力画像生成部214は、補間要素画像を生成するのに使用する入力データ及び入力メタデータを作成する。変換された要素画像群に基づいて、求めたい補間要素画像(内挿対象の要素画像)の周囲の隣接要素画像を選択し、図4(A)に示す入力画像を生成する。なお、入力された要素画像群は元の1/4の要素画像数(白丸を付した要素画像のみ)であるから、入力された要素画像群の一部領域をそのまま入力画像(入力データ)とすればよい。また、求めたい要素画像の位置を示すデータを作成し、入力メタデータとする。要素画像補間用入力画像生成部214は、求めたい補間要素画像のための入力データ及び入力メタデータを順次作成し、補間要素画像生成部222に出力する。
機械学習部221は、入力された学習モデル及び/又は学習パラメータに基づいて、機械学習装置(機械学習機能)を再構成する。学習モデル・学習パラメータが符号化/変調等されている場合は、復調/復号を事前に行う。入力された学習モデル・学習パラメータは、符号化側で図4の入力画像及び正解画像に基づいて教師あり学習を行うことにより得られた、最適化された学習モデル・学習パラメータであるから、このデータに基づいて機械学習装置を再構成することにより、学習済みの機械学習機能が再現できる。
なお、学習モデル及び/又は学習パラメータは1種類に限られず、画像の特性に応じて、複数種類を用意してもよく、複数の機械学習装置(学習モデル)を準備してもよい。例えば、視差量は映像の奥行で大きく変わることから、これを学習モデルに反映させ、表示する3次元映像の奥行きに応じた学習モデル及び/又は学習パラメータを複数用意する。そして、デプスマップから得られる表示エリアの奥行きに応じて、学習モデル及び/又は学習パラメータを切り替え、最適な学習モデル及び/又は学習パラメータに基づく機械学習機能を補間要素画像生成部222で利用可能にすることとしてもよい。
補間要素画像生成部222は、要素画像補間用入力画像生成部214で生成された入力データ及び入力メタデータに基づき、機械学習部221で再現された学習済みの機械学習機能により、補間要素画像を生成する。生成された補間要素画像は、要素画像内挿部231に出力される。なお、ここでは、機械学習部221で再現された学習済みの機械学習機能を補間要素画像生成部222に移植することとして説明したが、機械学習部221と補間要素画像生成部222を実質的に一体のものとして、機械学習部が補間要素画像を生成するようにしてもよい。
要素画像内挿部231は、多視点画像要素画像変換部213から入力された要素画像群に対して、補間要素画像生成部222で生成された要素画像を内挿する。本実施形態では、1/4の要素画像群に対して、3/4の補間要素画像を作成して内挿する。この要素画像の内挿処理は、多視点画像のアップサンプリング(画面解像度の復元)を行うことと等価である。さらに、要素画像内挿部231では補間した要素画像と復号後の要素画像の配置や要素画像の境界を目立たなくする平滑処理などを行う。出力画像は、入力画像の多視点画像群の視点数と一致する画素数からなる要素画像から構成される要素画像群である。
これにより、符号化対象となった多視点画像群(符号化装置100への入力画像)と等価な要素画像群を生成することができ、これを復号装置200の出力画像として出力する。
本実施形態では、出力画像に基づいてインテグラル立体を表示させることを前提として、要素画像群を出力画像としたが、例えば、多視点映像を表示させるためには、要素画像多視点画像変換手段を介して、多視点画像を出力画像としてもよい。
図6は、本発明の復号装置200のブロック図の別の例である。図6の実施形態は、アップサンプリングを行った後に視点内挿を行う復号方法を具体化したものである。復号部211、多視点画像要素画像変換部213、及び要素画像補間用入力画像生成部214が、図1の復号処理部210に相当し、機械学習部221、及び補間要素画像生成部222が、図1の機械学習処理部220に相当し、要素画像内挿部231、要素画像多視点画像変換部232、視点内挿処理部233、及び多視点画像要素画像変換部234が、図1の出力画像生成部230に相当する。
以下、各ブロックについて説明するが、図5と同じブロックは同じ符号で示し、図5と重複する内容は説明を簡略化する。
復号部211は、入力された画像符号化データを、符号化に対応する復号方法により復号する。復号された画像データは、視点間引き及びダウンサンプリングされた多視点画像である。なお、画像符号化データにデプスマップが含まれている場合は、デプスマップも復号する。含まれていない場合は、復号された多視点画像からデプスマップを作成する。復号された画像データは、多視点画像要素画像変換部213に出力される。
多視点画像要素画像変換部213は、復号された多視点画像を要素画像(要素画像群)に変換する。本実施形態では、この段階での視点内挿処理は行わない。したがって、変換された要素画像群は、視点間引き率に応じた画素数の小さい要素画像が、ダウンサンプリングに応じた(例えば、元の1/4の)要素画像数だけ集まった、要素画像群となる。変換された要素画像群は、要素画像補間用入力画像生成部214に出力される。
要素画像補間用入力画像生成部214は、補間要素画像を生成するのに使用する入力データ及び入力メタデータを作成する。変換された要素画像群に基づいて、求めたい補間要素画像の周囲の隣接要素画像を選択し、図4(A)と同様に入力画像(入力データ)を生成し、また、求めたい要素画像の位置を示す入力メタデータを作成する。作成された入力データ及び入力メタデータは、補間要素画像生成部222に出力される。変換された要素画像群は要素画像内挿部231にも出力する。なお、要素画像群は、多視点画像要素画像変換部213から直接要素画像内挿部231に出力してもよい。
機械学習部221は、入力された学習モデル及び/又は学習パラメータに基づいて、機械学習装置(機械学習機能)を再構成する。なお、表示する3次元映像の奥行きに応じた学習モデルを複数用意し、デプスマップから得られる表示エリアの奥行きに応じて、学習モデルを切り替えることとしてもよい。
補間要素画像生成部222は、要素画像補間用入力画像生成部214で生成された入力データ及び入力メタデータに基づき、機械学習部221で再現された学習済みの機械学習機能により、補間要素画像を生成する。本実施形態では、生成される補間要素画は、多視点画像要素画像変換部213で変換された要素画像と同じく、視点間引きに対応して画素数の小さい補間画像となる。生成された補間要素画像は、要素画像内挿部231に出力される。なお、機械学習部221と補間要素画像生成部222を実質的に一体の処理部としてもよい。
要素画像内挿部231は、多視点画像要素画像変換部213で変換された要素画像群に対して、補間要素画像生成部222で生成された要素画像を内挿する。本実施形態では、この内挿処理により、多視点画像のアップサンプリング(画面解像度の復元)を行ったこととなるが、各要素画像は視点間引き率に応じて画素数が小さい。そこで、内挿処理をした要素画像群を要素画像多視点画像変換部232に出力する。
要素画像多視点画像変換部232は、入力された要素画像群を多視点画像に変換する。この段階では、視点間引きされた多視点画像が生成される。この多視点画像を、視点内挿処理部233に出力する。
視点内挿処理部233は、入力された画像(視点間引きされた多視点画像)に対して、視点内挿を行い、間引きされた視点を復元する。この際、デプスマップを利用してより正確な視点内挿を行うことが望ましい。内挿された視点の画像は、多視点画像要素画像変換部234に出力される。
多視点画像要素画像変換部234は、視点が復元された多視点画像を要素画像に変換する。これにより、符号化対象となった多視点画像群(符号化装置100への入力画像)と等価な要素画像群を生成することができ、これを復号装置200の出力画像として出力する。
なお、本実施形態では、インテグラル立体を表示させることを前提として、要素画像群を出力画像としたが、例えば、出力画像に基づいて多視点映像を表示させる場合には、多視点画像要素画像変換部234を省略して、多視点画像を出力画像としてもよい。
上記の実施の形態では、符号化装置100の構成と動作について説明したが、本発明はこれに限らず、入力画像を符号化する符号化方法として構成されてもよい。すなわち、図2のデータの流れに従って、多視点画像の入力画像から画像符号化データと、学習モデル及び/又は学習パラメータを生成する符号化方法として構成されてもよい。また、復号装置200の構成と動作について説明したが、本発明はこれに限らず、画像符号化データを復号する復号方法として構成されてもよい。すなわち、図5又は図6のデータの流れに従って、多視点画像の画像符号化データと、学習モデル及び/又は学習パラメータから、画像を復号し、要素画像群の出力画像を生成する復号方法として構成されてもよい。
なお、上述した符号化装置100又は復号装置200として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、符号化装置100又は復号装置200の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
100 符号化装置
110 符号化処理部
111 視点間引き部
112 デプスマップ生成部
113 ダウンサンプリング部
114 符号化部
120 学習モデル作成処理部
121 多視点画像要素画像変換部
122 学習用画像生成部
123 学習モデル生成部
200 復号装置
210 復号処理部
211 復号部
212 視点内挿処理部
213 多視点画像要素画像変換部
214 要素画像補間用入力画像生成部
220 機械学習処理部
221 機械学習部
222 補間要素画像生成部
230 出力画像生成部
231 要素画像内挿部
232 要素画像多視点画像変換部
233 視点内挿処理部
234 多視点画像要素画像変換部

Claims (9)

  1. 多視点画像を入力画像とし、
    前記入力画像のダウンサンプリングを行い、その後、少なくとも前記ダウンサンプリングがなされた画像の符号化を行う符号化処理部と、
    前記入力画像に基づいて、前記画像のアップサンプリングに利用する機械学習のための学習モデル及び/又は学習パラメータを生成する学習モデル作成処理部と
    を備え
    前記学習モデル作成処理部は、前記多視点画像を要素画像群に変換し、内挿対象の要素画像に対して、当該要素画像の隣接要素画像を入力データとして、機械学習を行うことを特徴とする、符号化装置。
  2. 請求項1に記載の符号化装置において、前記符号化処理部は、さらに前記多視点画像を間引く視点間引き処理を行い、前記視点間引き処理と前記ダウンサンプリングがなされた画像の符号化を行うことを特徴とする、符号化装置。
  3. 請求項1又は2に記載の符号化装置において、前記符号化処理部は、前記入力画像からデプスマップを生成し、前記デプスマップをダウンサンプリングして符号化を行うことを特徴とする、符号化装置。
  4. 画像符号化データから多視点画像を復号し、さらに前記多視点画像を要素画像群に変換する復号処理部と、
    入力された学習モデル及び/又は学習パラメータに基づいて、隣接要素画像から補間要素画像を生成する学習済みの機械学習装置を再構成し、前記機械学習装置に前記要素画像群から選択した隣接要素画像を入力して、補間要素画像を生成する機械学習処理部と、
    前記要素画像群に前記補間要素画像を内挿し、出力画像を生成する出力画像生成部と
    を備える復号装置。
  5. 請求項に記載の復号装置において、前記復号処理部は、復号後の前記多視点画像に対して視点内挿を行うことを特徴とする、復号装置。
  6. 請求項に記載の復号装置において、前記出力画像生成部は、前記補間要素画像の内挿後に、前記要素画像群から多視点画像への変換を行い、変換後の多視点画像に対して、視点内挿を行うことを特徴とする、復号装置。
  7. 請求項乃至のいずれか一項に記載の復号装置において、表示する画像の奥行きに応じた前記学習モデル及び/又は学習パラメータを複数用意し、デプスマップから得られる前記画像の奥行きに応じて、前記学習モデル及び/又は学習パラメータを切り替えることを特徴とする、復号装置。
  8. コンピュータを、請求項1乃至のいずれか一項に記載の符号化装置として機能させるためのプログラム。
  9. コンピュータを、請求項乃至のいずれか一項に記載の復号装置として機能させるためのプログラム。
JP2019100591A 2019-05-29 2019-05-29 符号化装置、復号装置、及びプログラム Active JP7389565B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019100591A JP7389565B2 (ja) 2019-05-29 2019-05-29 符号化装置、復号装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019100591A JP7389565B2 (ja) 2019-05-29 2019-05-29 符号化装置、復号装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020195093A JP2020195093A (ja) 2020-12-03
JP7389565B2 true JP7389565B2 (ja) 2023-11-30

Family

ID=73548093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019100591A Active JP7389565B2 (ja) 2019-05-29 2019-05-29 符号化装置、復号装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP7389565B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7382186B2 (ja) 2019-09-10 2023-11-16 日本放送協会 符号化装置、復号装置、及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013030898A (ja) 2011-07-27 2013-02-07 Nippon Telegr & Teleph Corp <Ntt> 画像伝送方法、画像伝送装置、画像送信装置、画像受信装置、画像送信プログラム及び画像受信プログラム
JP2016158213A (ja) 2015-02-26 2016-09-01 日本放送協会 要素画像群生成装置及びそのプログラム、並びにデジタル放送受信装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013030898A (ja) 2011-07-27 2013-02-07 Nippon Telegr & Teleph Corp <Ntt> 画像伝送方法、画像伝送装置、画像送信装置、画像受信装置、画像送信プログラム及び画像受信プログラム
JP2016158213A (ja) 2015-02-26 2016-09-01 日本放送協会 要素画像群生成装置及びそのプログラム、並びにデジタル放送受信装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EKMEKCIOGLU, Erhan et al.,Bit-Rate Adaptive Downsampling for the Coding of Multi-View Video with Depth Information,2008 3DTV Conference: The True Vision - Capture, Transmission and Display of 3D Video,IEEE,2008年06月20日,pp.137-140,<URL:https://ieeexplore.ieee.org/document/4547827>,<DOI:10.1109/3DTV.2008.4547827>
HARA, Kazuhiro et al.,Integral 3D image coding by using multiview video compression technologies,2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC),IEEE,2019年03月07日,pp.1488-1494,<URL:https://ieeexplore.ieee.org/document/8659709>,<DOI:10.23919/APSIPA.2018.8659709>
WU, Feng et al.,Description of SDR video coding technology proposal by University of Science and Technology of China, Peking University, Harbin Institute of Technology, and Wuhan University (IEEE 1857.10 Study Group),Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 10th Meeting: San Diego, US, 10-20 Apr. 2018, [JVET-J0032-v2],ITU-T,<URL:http://phenix.it-sudparis.eu/jvet/doc_end_user/documents/10_San%20Diego/wg11/JVET-J0032-v4.zip>: JVET-J0032-v2.docx: pp.13-15,20-21

Also Published As

Publication number Publication date
JP2020195093A (ja) 2020-12-03

Similar Documents

Publication Publication Date Title
JP6021541B2 (ja) 画像処理装置及び方法
US10419737B2 (en) Data structures and delivery methods for expediting virtual reality playback
US10567464B2 (en) Video compression with adaptive view-dependent lighting removal
JP6094863B2 (ja) 画像処理装置、画像処理方法、プログラム、集積回路
CN109863754B (zh) 用于直播流化的虚拟现实360度视频相机系统
CN101416520B (zh) 多视图的高效编码
JP6837056B2 (ja) ライトフィールドベースの画像を符号化及び復号する方法及び機器並びに対応するコンピュータプログラム製品
JP7202087B2 (ja) 映像処理装置
JP2011250125A (ja) 画像処理装置およびその方法
WO2014057988A1 (ja) 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラム、および装置、ならびに、互いに類似した情報を含む複数画像を表現するデータ構造
CN111667438B (zh) 视频重建方法、系统、设备及计算机可读存储介质
JP6128748B2 (ja) 画像処理装置及び方法
JP7344988B2 (ja) ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品
JPWO2020004013A1 (ja) 画像処理装置および画像処理方法
Lu et al. A survey on multiview video synthesis and editing
JP7389565B2 (ja) 符号化装置、復号装置、及びプログラム
KR102505130B1 (ko) 명시야 컨텐츠를 표현하는 신호를 인코딩하기 위한 방법 및 디바이스
WO2014057989A1 (ja) 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラムおよび装置
US9866813B2 (en) Autostereo tapestry representation
JP6979290B2 (ja) 画像符号化装置および画像復号化装置、並びに、画像符号化プログラムおよび画像復号化プログラム
JP2020005201A (ja) 送信装置及び受信装置
JP2013150071A (ja) 符号化装置、符号化方法、プログラム及び記憶媒体
WO2019185983A1 (en) A method, an apparatus and a computer program product for encoding and decoding digital volumetric video
JP7417388B2 (ja) 符号化装置、復号装置、及びプログラム
JP7382186B2 (ja) 符号化装置、復号装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231117

R150 Certificate of patent or registration of utility model

Ref document number: 7389565

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150