JP2020005202A - 映像処理装置 - Google Patents

映像処理装置 Download PDF

Info

Publication number
JP2020005202A
JP2020005202A JP2018125276A JP2018125276A JP2020005202A JP 2020005202 A JP2020005202 A JP 2020005202A JP 2018125276 A JP2018125276 A JP 2018125276A JP 2018125276 A JP2018125276 A JP 2018125276A JP 2020005202 A JP2020005202 A JP 2020005202A
Authority
JP
Japan
Prior art keywords
video
image
viewpoint
unit
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018125276A
Other languages
English (en)
Other versions
JP7202087B2 (ja
Inventor
一宏 原
Kazuhiro Hara
一宏 原
井口 義則
Yoshinori Iguchi
義則 井口
河北 真宏
Masahiro Kawakita
真宏 河北
三科 智之
Tomoyuki Mishina
智之 三科
菊池 宏
Hiroshi Kikuchi
宏 菊池
妹尾 孝憲
Takanori Senoo
孝憲 妹尾
藤井 俊彰
Toshiaki Fujii
俊彰 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2018125276A priority Critical patent/JP7202087B2/ja
Publication of JP2020005202A publication Critical patent/JP2020005202A/ja
Application granted granted Critical
Publication of JP7202087B2 publication Critical patent/JP7202087B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】映像作成時に不足する情報を適切に補完し、映像の品質を改善することのできる、映像処理装置を提供する。【解決手段】映像処理装置は機械学習機能を持ち、学習モデル及び/又は学習済みパラメータをもとに、作成された映像の不足映像情報を補完する補正処理を行う。作成された映像は、多視点映像から作成された視点内挿映像であり、視点内挿映像と、前記視点内挿映像の周辺視点映像、及び前後フレーム映像を含む入力画像に基づいて、補正処理を行うことを特徴とする。【選択図】図2

Description

本発明は、映像処理装置に関し、特に、映像の補正処理に機械学習を利用する映像処理信装置に関する。
近年、HMD(Head Mounted Display)による2眼の360度ビデオをコンテンツとしたサービスが普及している。VR(Virtual Reality)ではユーザーが別の空間に移動したような没入感を得られることが知られる。これらのサービスでは将来のサービス展開として、ユーザーが姿勢を動かしたときの運動視差に対応することが考えられている(例えば、3DoF+:3 degrees of freedom +)。そしてその先の展望として、ユーザーが姿勢だけではなく位置を移動したときの運動視差に対応するサービス(6DoF+)の実用化が期待されている。また、HMD以外の表示端末を使用した将来の映像視聴サービスでは、スポーツ中継などでユーザーが見たい視点から映像を楽しむことができる自由視点映像の実用化に向けた開発も進められている。
これらのサービスの実現に向けて、コンテンツ制作方法の議論が進められている。例えば、自由視点映像サービスに向けた撮影手法では膨大な数の映像を一度に取得する必要があり、複数台のカメラで撮影空間を囲むように配置することが知られている。また、運動視差つき360度映像では全天周カメラを所定の位置に複数台配置する取り組みが進められている。
表示側では、撮影された映像をもとにレンダリングを行うことでユーザーが好む任意の視点映像を生成することが考えられている。これらのレンダリング処理では、撮影時に実際のカメラのない視点(仮想ビュー)を生成する視点合成処理、すなわち、カメラ間の視点映像の内挿処理、外挿処理、補間処理等が行われる。この視点合成処理は、インテグラル方式の立体映像等、様々な映像処理で用いられている(特許文献1)。
また、編集などのコンテンツ制作では、3次元モデルシーンやイメージベース(多視点映像及び/又は多視点デプス画像)での編集作業が行われる。伝送と記録では、任意のフォーマットによって符号化が行われデータ量を圧縮した上での記録や、有線や無線ネットワークを介した配信が行われる。
特開2016−158213号公報
広範囲な運動視差に対応した映像の記録・伝送を行う場合に、情報量が膨大になることから、全ての情報量を記録や伝送することはできず、一部の情報を符号化して記録・伝送する。そのため、復号側では不足した情報を補完することが必要となる。
例えばイメージベース(多視点映像及び/又は多視点デプス画像)のフォーマットでは、視点内挿処理による補間が行われる。ここで、視点内挿処理では奥行き画像(デプスマップ)を利用する方法が一般的に知られており、奥行き画像をもとにそれぞれの参照視点からの視点内挿画像を作成する。しかしながら、視点内挿画像は、参照する視点間の間隔が広い場合や、被写体の形状が複雑でカメラからの距離が近い場合に、多くのオクルージョン領域(陰になって見えない部分)が発生する。これらのオクルージョン領域はインペイント処理によって、周辺の画素などから埋められる。しかし、実際にどの画素値を割り当てるかの判定が難しいことから間違った画素値を埋めてしまうことがあり、それがノイズ成分として発生する。
従って、上記のような問題点に鑑みてなされた本発明の目的は、映像作成時に不足する情報を適切に補完し、映像の品質を改善することのできる、映像処理装置を提供することにある。
上記課題を解決するために本発明に係る映像処理装置は、機械学習機能を持ち、学習モデル及び/又は学習済みパラメータをもとに、作成された映像の不足映像情報を補完する補正処理を行うことを特徴とする。
また、前記映像処理装置は、学習モデル及び/又は学習済みパラメータを持つ補正部を備え、前記補正部は、作成された映像とその関連映像を含む入力画像に基づいて、機械学習により補正処理を行うことが望ましい。
また、前記映像処理装置は、作成された映像が、多視点映像から作成された視点内挿映像であることが望ましい。
また、前記映像処理装置は、補正処理のための入力画像が、視点内挿映像と、前記視点内挿映像の周辺視点映像、及び前後フレーム映像をアップサンプリングし、ブロック化したm×m(mは整数)ピクセルのブロック画像を複数配置した構成であることが望ましい。
また、前記映像処理装置は、補正処理のための入力画像が、視点内挿映像と、前記視点内挿映像の周辺視点映像、及び前後フレーム映像をアップサンプリングし、ブロック化したm×mピクセルのブロック画像をn×n(nは整数)個配置した画像を、画素の並び替えにより、各ブロック画像の対応する位置のピクセルを集めたn×nピクセルの要素画像をm×m個配置した構成であることが望ましい。
また、前記映像処理装置は、作成された映像をブロックごとに機械学習により補正処理を行い、補正されたブロック画像をブロック統合し、出力映像を生成することが望ましい。
また、前記映像処理装置は、作成された映像をブロックごとに機械学習により補正処理を行い、補正されたブロック画像をブロック統合した映像を、視点内挿処理で作成された映像のインペイント処理に利用することが望ましい。
本発明の映像処理装置によれば、機械学習を利用して、映像作成時に不足する情報を適切に補完し、映像の品質を改善することができる。
また、本発明をデプス推定や視点内挿技術に適用すれば、オクルージョン領域(陰になって見えない部分)等におけるノイズの低減をすることができる。さらに、補完処理によってデプス画像や視点内挿画像の画質劣化が低減することにより、より離れたカメラ間隔での視点内挿が可能となり、そのため、符号化対象となる視点数(必要なカメラ台数)を削減することができる。
本発明の映像処理装置の一例のブロック図である。 本発明の第1の実施形態における映像生成部のブロック図である。 機械学習に用いる画像の一例である。 機械学習に用いる入力画像の別の例である。 本発明の第2の実施形態における映像生成部のブロック図である。
以下、本発明の実施の形態について、図面を参照しながら説明する。
(第1の実施形態)
図1は、本発明の映像処理装置の一例のブロック図である。本発明の映像処理装置は、映像の編集装置であってもよいし、また、映像の受信装置(復号装置)であってもよい。本発明の映像処理装置は、入力された映像から、新たな映像を生成するとともに、機械学習を用いて映像の補正を行う。映像処理装置10は、入力部11、映像生成部12、及び表示部13を備える。
映像処理装置10が映像の編集装置である場合には、入力部11には、撮影された映像が入力され、必要に応じて編集処理が行われる。また、映像処理装置10が映像の受信装置(復号装置)である場合には、入力部11には、受信した符号化データを復号した映像が入力される。或いは、入力部11内において、映像の符号化データを復号処理してもよい。入力される映像は、立体映像を構成するために複数のカメラで撮影された多視点映像、全天周カメラで撮影された映像等、複数の映像の組み合わせであってもよい。また、多視点映像に対応するデプス画像を含めることができる。
映像生成部12は、入力部11から入力される映像を元に、学習用画像と正解画像情報を作成し、機械学習を行い、映像の補正に最適な学習モデル及び/又は学習パラメータを作成する。また、学習後は、入力部11から入力される映像から作成した映像を、機械学習により得られた学習モデル及び/又は学習パラメータ(学習済みパラメータ値)等に基づいて補正し、表示部13に出力する。映像生成部12の詳細は後述する。
表示部13は、映像生成部12で処理された映像を表示する。なお、表示部13は、映像処理装置10の内部に設けられることは必須ではなく、映像処理装置20とは別体の独立した表示装置として構成してもよい。
図2に、第1の実施形態としての映像処理装置10の映像生成部12のブロック図を示す。ここでは、図2の映像生成部12が、視点内挿映像を生成すると共に、機械学習を用いて視点内挿映像の補正処理(不足映像情報を補完する処理)を行う例を説明する。
図2において、映像生成部12は、周辺視点映像入力部101、前後フレーム映像入力部102、視点内挿部103、アップサンプル部104、ブロック分割部105、入力画像生成部106、対象視点フレーム入力部107、ブロック分割部108、機械学習部110、視点内挿補正部111、ブロック統合部112、及び平滑フィルタ114を備えている。
入力対象となる映像は、例えば、符号化・復号処理をされた後の映像、及び/又は、映像編集された符号化処理を経ていない映像である。入力映像には、学習用の正解画像として視点内挿を行う視点の画像、視点内挿時に参照をされる周辺視点映像などが含まれている。例えば、複数枚の多視点画像とそれに対応する複数枚のデプス画像を入力映像とする。これらの画像は、対象物を360度の方向から撮影した多視点映像や、インテグラル立体映像を構成するための複数映像であってもよい。また、それぞれの視点映像は、予め奇数フレームと偶数フレームの映像に分かれていてもよい。
周辺視点映像入力部101は、対象視点の映像(視点内挿映像)に対してその周辺視点の映像を選択し、視点内挿部103及びアップサンプル部104に出力する。
前後フレーム映像入力部102は、対象視点フレーム(又は視点内挿が行われるフレーム)の前後のフレームの映像を選択し、アップサンプル部104に出力する。なお、対象視点のフレームの前後のフレームからのフレーム間内挿を利用することにより、予測画像の精度が向上する。
視点内挿部103は、周辺視点映像入力部101から入力された周辺視点映像(対象視点の周辺の視点の映像)に基づいて、視点の内挿処理を行い、対象視点の仮想ビュー(映像)を作成し、その作成された映像をアップサンプル部104に出力する。
アップサンプル部104は、周辺視点映像入力部101、前後フレーム映像入力部102、及び視点内挿部103から入力されたそれぞれの映像について、アップサンプリングを行い、映像の解像度を高く(例えば、縦横2倍、又は4倍に)する。なお、映像をアップサンプリングして処理することにより、予測画像の精度が向上する。
ブロック分割部105は、アップサンプル処理されたそれぞれの映像をブロックに分割する。ブロックとしては、例えば、16×16ピクセル(pixel)を単位ブロックとする。分割対象の映像は2倍にアップサンプル処理されているため、このブロックは、元の映像の8×8ピクセルのブロック画像に対応する。なお、単位ブロックのサイズは、上記に限定されるものではなく、例えば、32×32ピクセルとしてもよい。
入力画像生成部106は、機械学習部110の入力画像を作成する。入力画像は、機械学習の学習用画像(予測の元になる画像)となる。ここでは、ブロック分割された各映像から、対象視点の映像に関連する複数のブロック映像(ブロック画像)をタイル状に並べて、入力画像を構成する。
図3に、機械学習に用いる画像の一例を示す。図3(A)は、入力画像の例である。ここでは16×16ピクセル(pixel)のブロック画像が9個(3×3)配列され、48×48ピクセルの入力画像が構成されている。まず、視点補間画像(対象視点の映像に対応する視点内挿画像)を入力画像の中央部に配置する。この視点補間画像は、視点内挿部103で作成された対象視点の映像をアップサンプリング(2倍)してブロック化したものである。また、視点補間画像の周囲には、その関連画像(関連映像)である、隣接画像1〜4及び対象視点の映像フレームの前後フレームの映像のブロックを配置する。例えば、隣接画像1〜4は、視点補間画像の上下左右に隣接する視点のブロック画像であり、周辺視点映像入力部101の出力をアップサンプリングしてブロック化したものから適宜選択して配置する。また、前後フレームの映像としては、例えば、1フレーム前の画像、1フレーム後の画像、3フレーム前の画像、3フレーム後の画像等であり、前後フレーム映像入力部102の出力をアップサンプリングしてブロック化したものから適宜選択して配置する。なお、隣接画像や前後フレーム画像をそれぞれ幾つ選び、どのように配置するか等は、適宜設定することができる。隣接画像としてデプス画像を利用してもよい。
次に、対象視点フレーム入力部107は、入力映像から、対象視点のフレームの映像を選択し、ブロック分割部108に出力する。なお、対象視点のフレームの映像は編集された符号化前の映像に限定されるものではなく、符号化され更に復号された映像から、対象視点の映像を選択してもよい。対象視点フレーム入力部107から入力された映像からは、機械学習における学習用正解画像が作成される。
ブロック分割部108は、対象視点フレーム入力部107から入力された対象視点フレームの映像を、ブロックに分割する。ブロックとしては、例えば、8×8ピクセル(pixel)を単位ブロックとする。対象視点フレーム入力部107からの映像はアップサンプル処理されていないため、このブロックは、入力画像の16×16ピクセルのブロック画像に対応する。なお、単位ブロックは、上記のサイズに限定されるものではなく、学習用画像のサイズと対応させればよい。ブロック分割部108で分割され出力された映像が、9ブロックの入力画像の中央にある16×16ピクセルの視点補間画像(視点内挿画像)に対応する正解画像となっている。図3(B)に、正解画像の一例(イメージ)を示す。
機械学習部110は、入力画像生成部106からの入力画像を学習用画像(訓練用画像)とし、ブロック分割部108から入力された正解画像との比較を行うことで、機械学習を進め、最適な学習モデルと学習パラメータを算出する。なお、ここでの機械学習は広い概念でとらえて良い。例えば、畳み込みニューラルネットワークを用いて構築される機械学習であって良く、特徴量の抽出とモデリングを自動的に行うディープラーニング等を含むことができる。また、畳み込みニューラルネットワーク以外に、例えば、SVM(Support Vector Machine)などを用いて構築してもよい。
学習により、最適な学習モデルと学習パラメータを習得した機械学習部110は、図3(A)に示す入力画像が入力されると、正解画像に近似した補間画像を出力することができる。図3(C)に、出力画像(補間画像)の一例(イメージ)を示す。出力画像(補間画像)は、正解画像と同じく、8×8ピクセル(pixel)の単位ブロックである。
なお、学習用画像に対象視点を内挿して作成した映像を用い、正解画像に対象視点における実際の映像を用いることにより、機械学習部は、内挿映像で不足する映像情報(例えば、オクルージョン領域の映像情報)を生成する学習機能を得ることができる。また、学習用画像に符号化及び復号された映像を用い、正解画像に符号化前の編集映像を用いることにより、機械学習部は、符号化で失われた映像情報(画質改善のための映像情報)を生成する学習機能を得ることができる。
学習を終了すると、機械学習部110は、最適な学習モデル及び/又は学習パラメータを視点内挿補正部111に出力する。機械学習部110が学習を終了し、最適な学習モデルと学習パラメータを視点内挿補正部111に出力した後は、対象視点フレーム入力部107及びブロック分割部108からの入力信号(学習用正解画像)は停止してよい。或いは、学習モデルと学習パラメータを出力後も、機械学習部110は継続的に学習を行い、より精度の高い学習モデルと学習パラメータを算出して、視点内挿補正部111の学習モデルと学習パラメータを更新してもよい。
視点内挿補正部111は、機械学習部110からの最適の学習モデル及び/又は学習パラメータに基づいて、入力画像生成部106から出力される入力画像を受けて機械学習により視点内挿画像の補正をブロック毎に行う。視点内挿補正部111の出力は、例えば、図3(C)に示される8×8ピクセルの補間画像(補正画像)である。補正された画像(映像)は、作成された映像で不足する映像情報を補完することができる。
ブロック統合部112は、視点内挿補正部111でブロック毎に生成された補正画像(ブロック画像)を統合(ブロック統合)し、一枚の補正された視点内挿映像(対象視点の映像)を生成する。なお、補正された視点内挿映像は、機械学習の結果(学習モデル結果)により、オクルージョン領域が予測され補完されている。
平滑フィルタ114は、ブロック統合部112から入力された映像に対して、フィルタ処理を行う。ブロック境界に生じるノイズを平滑フィルタ処理により除去することができる。この平滑フィルタ114の出力が、映像生成部12の出力映像となる。
このように、学習モデル結果(機械学習による予測)を使用することにより、視点内挿映像の精度を向上させることができる。また、補正された画像は符号化・復号処理で失った画像情報も補完するから、出力映像の画質を向上させることができる。
(入力画像の改良)
図4に、入力画像の別の例を示す。入力画像生成部106は、まず、アップサンプリングされてブロック分割された各映像から、対象視点の映像に関連する複数のブロック映像(ブロック画像)をタイル状に並べて、図4の左側の画像を構成する。この左側の画像は、図3(A)と同様であり、ここでは16×16ピクセル(pixel)のブロック画像が9個(3×3)配列され、48×48ピクセルの画像が構成される。まず、視点補間画像(視点内挿部103で作成された対象視点の映像をアップサンプリングしてブロック化したもの)を中央部に配置し、その周囲には、隣接画像1〜4及び対象視点の映像フレームの前後フレームのブロック画像を配置する。例えば、隣接画像1〜4は、視点補間画像の上下左右に隣接する視点のブロック画像であり、前後フレームの映像としては、例えば、1フレーム前の画像、1フレーム後の画像、3フレーム前の画像、3フレーム後の画像等である。これらは、周辺視点映像入力部101及び前後フレーム映像入力部102の出力をアップサンプリングしてブロック化したものから適宜選択して配置する。なお、隣接画像や前後フレーム画像をそれぞれ幾つ選び、どのように配置するか等は、適宜設定することができる。隣接画像としてデプス画像を利用してもよい。
次に、画素(ピクセル)の並び替えを行う。各16×16ピクセル(m×mピクセル)の3×3個(n×n個)のブロック画像から同じ位置(例えば、左上)にある1ピクセル(pixel)を抽出して、3×3ピクセルのピクセル集合を作成し(以下、これを「要素画像」と呼ぶ。)、これを48×48ピクセルの対応する位置(左上の位置)に配置する。また、9個のブロック画像それぞれの次のピクセル(例えば、上の行の左から2番目の1ピクセル)を抽出し、3×3ピクセルのピクセル集合(要素画像)として、前の要素画像の右隣の位置に配置する。同様の並び替えを繰り返し、各ブロック画像から同じ位置にある1ピクセルを抽出して要素画像を作成し、対応する位置に順に配置する。こうして3×3ピクセル(n×nピクセル)の要素画像が16×16個(m×m個)配置され、48×48ピクセルの新たな入力画像(図4の右側)を作成することができる。
この新たな入力画像を、機械学習部110の学習用画像(訓練用画像)とする。なお、学習用正解画像は、ブロック分割部108から入力されるものであり、同じとする。この場合、機械学習モデルにおける、畳み込み処理の中で、それぞれの畳み込み層の中に全ての映像の成分が含まれることとなるため、補正の精度が向上する。学習終了後は、この新たな入力画像を、視点内挿補正部111の入力画像とする。
(第2の実施形態)
図5に、第2の実施形態としての映像生成部12のブロック図を示す。ここでは、映像生成部12が、視点内挿映像を生成すると共に、インペイント処理で割り当てる画素値を機械学習結果によって得る映像生成部12の例を説明する。第2の実施形態では、学習方法は第1の実施形態と同じだが、インペイント部において、視点内挿時のオクリュージョン領域のみを、機械学習で得られた視点内挿補正結果の画素値で置き換えられることが異なる。
図5において、映像生成部12は、周辺視点映像入力部101、前後フレーム映像入力部102、視点内挿部103、アップサンプル部104、ブロック分割部105、入力画像生成部106、対象視点フレーム入力部107、ブロック分割部108、機械学習部110、視点内挿補正部111、ブロック統合部112、インペイント部113、及び平滑フィルタ114を備えている。図2と共通の構成は、説明を簡略化する。
映像生成部12の入力対象となる映像は、符号化・復号処理をされた後の映像、及び/又は、映像編集された符号化処理を経ていない映像である。例えば、複数枚の多視点画像とそれに対応する複数枚のデプス画像を入力映像とする。
周辺視点映像入力部101は、対象視点の映像(視点内挿映像)に対してその周辺視点の映像を選択し、視点内挿部103及びアップサンプル部104に出力する。
前後フレーム映像入力部102は、対象視点フレーム(又は視点内挿が行われるフレーム)の前後のフレームの映像を選択し、アップサンプル部104に出力する。
視点内挿部103は、周辺視点映像入力部101から入力された周辺視点映像(対象視点の周辺の視点の映像)に基づいて、視点の内挿処理を行い、対象視点の仮想ビュー(映像)を作成する。この映像は、第2の実施形態においては映像生成部12の出力映像の基礎となる映像であり、その作成された映像をアップサンプル部104とインペイント部113に出力する。
アップサンプル部104は、周辺視点映像入力部101、前後フレーム映像入力部102、及び視点内挿部103から入力されたそれぞれの映像について、アップサンプリングを行い、映像の解像度を高くする。なお、映像をアップサンプリングして処理することにより、予測画像の精度が向上する。
ブロック分割部105は、アップサンプル処理されたそれぞれの映像をブロックに分割する。ブロックとしては、例えば、16×16ピクセル(pixel)を単位ブロックとする。なお、単位ブロックのサイズは、例えば、32×32ピクセルとしてもよい。
入力画像生成部106は、機械学習部110の入力画像を作成する。入力画像は、ブロック分割された各映像から、対象視点の映像に関連する複数のブロック映像をタイル状に並べた、図3(A)の入力画像として良い。また、ブロック映像からなる画像の画素を並び変えた、図4(右側)の入力画像としてもよい。
次に、対象視点フレーム入力部107は、入力映像から、対象視点のフレームの映像を選択し、ブロック分割部108に出力する。
ブロック分割部108は、対象視点フレーム入力部107から入力された対象視点フレームの映像を、ブロックに分割する。ブロックとしては、例えば、8×8ピクセル(pixel)を単位ブロックとする。ブロック分割部108で分割され出力された映像が、16×16ピクセルの視点補間画像(視点内挿画像)に対応する正解画像となっている。
機械学習部110は、入力画像生成部106からの入力画像を学習用画像(訓練用画像)とし、ブロック分割部108から入力された正解画像との比較を行うことで、機械学習を進め、最適な学習モデルと学習パラメータを算出する。
学習を終了すると、機械学習部110は、最適な学習モデル及び/又は学習パラメータを視点内挿補正部111に出力する。機械学習部110が学習を終了し、最適な学習モデルと学習パラメータを視点内挿補正部111に出力した後は、対象視点フレーム入力部107及びブロック分割部108からの入力信号(学習用正解画像)は停止してもよい。
視点内挿補正部111は、機械学習部110からの最適の学習モデル及び/又は学習パラメータに基づいて、入力画像生成部106から出力される入力画像を受けて機械学習により視点内挿画像の補正をブロック毎に行う。
ブロック統合部112は、視点内挿補正部111でブロック毎に生成された補正画像(ブロック画像)を統合し、一枚の補正された視点内挿映像(対象視点の映像)を生成する。なお、補正された視点内挿映像は、機械学習の結果(学習モデル結果)により、オクルージョン領域が予測され補完されている。
インペイント部113には、視点内挿部103からの対象視点の内挿映像と、ブロック統合部112からの補正された視点内挿映像とが入力される。視点内挿部103で生成された内挿映像は、オクルージョン領域等を生じる可能性があり、インペイント部113は、ブロック統合部212からの補正された映像により、このオクルージョン領域を埋める補完処理を行う。すなわち、視点内挿部で発生したオクルージョン領域を埋めるためのインペイント領域の画素値に、学習モデル結果を使用することができる。補完された映像は、平滑フィルタ114に出力される。
平滑フィルタ114は、インペイント部113からの入力された映像に対して、フィルタ処理を行う。入力された映像は、ブロック統合処理やインペイント処理により、ブロックや領域の境界にノイズ(つなぎ目)を生じやすいが、平滑フィルタ処理によりこのノイズを除去することができる。この平滑フィルタ114の出力が、映像生成部12の出力映像となる。
このように、視点内挿で得られた映像のオクルージョン領域を埋めるためのインペイント領域の画素値に、学習モデル結果(機械学習による予測)を使用することにより、視点内挿映像の精度を向上させることができる。
上記の実施の形態では、映像処理装置10の構成と動作について説明したが、本発明はこれに限らず、機械学習を用いた映像の処理方法として構成されてもよい。
なお、上述した映像処理装置10として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、映像処理装置10の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
10 映像処理装置
11 入力部
12 映像生成部
13 表示部
101 周辺視点映像入力部
102 前後フレーム映像入力部
103 視点内挿部
104 アップサンプル部
105 ブロック分割部
106 入力画像生成部
107 対象視点フレーム入力部
108 ブロック分割部
110 機械学習部
111 視点内挿補正部
112 ブロック統合部
113 インペイント部
114 平滑フィルタ

Claims (7)

  1. 機械学習機能を持ち、学習モデル及び/又は学習済みパラメータをもとに、作成された映像の不足映像情報を補完する補正処理を行う映像処理装置。
  2. 請求項1に記載の映像処理装置において、
    学習モデル及び/又は学習済みパラメータを持つ補正部を備え、
    前記補正部は、作成された映像とその関連映像を含む入力画像に基づいて、機械学習により補正処理を行うことを特徴とする、映像処理装置。
  3. 請求項1又は2に記載の映像処理装置において、
    作成された映像は、多視点映像から作成された視点内挿映像であることを特徴とする、映像処理装置。
  4. 請求項1乃至3のいずれか一項に記載の映像処理装置において、
    補正処理のための入力画像は、視点内挿映像と、前記視点内挿映像の周辺視点映像、及び前後フレーム映像をアップサンプリングし、ブロック化したm×mピクセルのブロック画像を複数配置した構成であることを特徴とする、映像処理装置。
  5. 請求項1乃至3のいずれか一項に記載の映像処理装置において、
    補正処理のための入力画像は、視点内挿映像と、前記視点内挿映像の周辺視点映像、及び前後フレーム映像をアップサンプリングし、ブロック化したm×mピクセルのブロック画像をn×n個配置した画像を、画素の並び替えにより、各ブロック画像の対応する位置のピクセルを集めたn×nピクセルの要素画像をm×m個配置した構成であることを特徴とする、映像処理装置。
  6. 請求項1乃至5のいずれか一項に記載の映像処理装置において、
    作成された映像をブロックごとに機械学習により補正処理を行い、補正されたブロック画像をブロック統合し、出力映像を生成することを特徴とする、映像処理装置。
  7. 請求項1乃至5のいずれか一項に記載の映像処理装置において、
    作成された映像をブロックごとに機械学習により補正処理を行い、補正されたブロック画像をブロック統合した映像を、視点内挿処理で作成された映像のインペイント処理に利用することを特徴とする、映像処理装置。
JP2018125276A 2018-06-29 2018-06-29 映像処理装置 Active JP7202087B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018125276A JP7202087B2 (ja) 2018-06-29 2018-06-29 映像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018125276A JP7202087B2 (ja) 2018-06-29 2018-06-29 映像処理装置

Publications (2)

Publication Number Publication Date
JP2020005202A true JP2020005202A (ja) 2020-01-09
JP7202087B2 JP7202087B2 (ja) 2023-01-11

Family

ID=69100731

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018125276A Active JP7202087B2 (ja) 2018-06-29 2018-06-29 映像処理装置

Country Status (1)

Country Link
JP (1) JP7202087B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021140799A1 (ja) * 2020-01-10 2021-07-15 住友電気工業株式会社 コミュニケーション支援システムおよびコミュニケーション支援プログラム
WO2021161878A1 (ja) * 2020-02-14 2021-08-19 キヤノン株式会社 画像処理装置、画像処理方法、学習済みモデルの生成方法、およびプログラム
JP6955734B1 (ja) * 2021-03-08 2021-10-27 株式会社データグリッド 画像データ生成方法、学習方法、画像データ生成システム、学習システムおよびプログラム
JP7049499B1 (ja) 2021-03-04 2022-04-06 株式会社Cygames コンテンツ動画再生プログラム、コンテンツ動画再生装置、コンテンツ動画再生方法、コンテンツ動画データ生成プログラム、及びコンテンツ動画データ生成装置
WO2023095642A1 (ja) * 2021-11-26 2023-06-01 ソニーグループ株式会社 画像処理装置、画像処理方法、プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014515197A (ja) * 2011-01-13 2014-06-26 サムスン エレクトロニクス カンパニー リミテッド 背景ピクセル拡張及び背景優先パッチマッチングを用いるマルチビューレンダリング装置及び方法
JP2017050866A (ja) * 2015-09-01 2017-03-09 三星電子株式会社Samsung Electronics Co.,Ltd. 映像処理方法及び装置
JP2017059193A (ja) * 2015-09-18 2017-03-23 貴博 安野 時系列画像補完装置、時系列画像生成方法、時系列画像補完装置用プログラム
JP2018500708A (ja) * 2014-11-26 2018-01-11 キュリアス アーイー オサケユイチア ニューラルネットワーク構造とその方法
US20180165798A1 (en) * 2016-12-14 2018-06-14 Adobe Systems Incorporated Image hole filling that accounts for global structure and local texture
CN108171663A (zh) * 2017-12-22 2018-06-15 哈尔滨工业大学 基于特征图最近邻替换的卷积神经网络的图像填充系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014515197A (ja) * 2011-01-13 2014-06-26 サムスン エレクトロニクス カンパニー リミテッド 背景ピクセル拡張及び背景優先パッチマッチングを用いるマルチビューレンダリング装置及び方法
JP2018500708A (ja) * 2014-11-26 2018-01-11 キュリアス アーイー オサケユイチア ニューラルネットワーク構造とその方法
JP2017050866A (ja) * 2015-09-01 2017-03-09 三星電子株式会社Samsung Electronics Co.,Ltd. 映像処理方法及び装置
JP2017059193A (ja) * 2015-09-18 2017-03-23 貴博 安野 時系列画像補完装置、時系列画像生成方法、時系列画像補完装置用プログラム
US20180165798A1 (en) * 2016-12-14 2018-06-14 Adobe Systems Incorporated Image hole filling that accounts for global structure and local texture
CN108171663A (zh) * 2017-12-22 2018-06-15 哈尔滨工业大学 基于特征图最近邻替换的卷积神经网络的图像填充系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021140799A1 (ja) * 2020-01-10 2021-07-15 住友電気工業株式会社 コミュニケーション支援システムおよびコミュニケーション支援プログラム
WO2021161878A1 (ja) * 2020-02-14 2021-08-19 キヤノン株式会社 画像処理装置、画像処理方法、学習済みモデルの生成方法、およびプログラム
JP7427467B2 (ja) 2020-02-14 2024-02-05 キヤノン株式会社 画像処理装置、画像処理方法、学習済みモデルの生成方法、およびプログラム
EP4089631A4 (en) * 2020-02-14 2024-02-28 Canon Kk IMAGE PROCESSING DEVICE, IMAGE PROCESSING METHOD, LEARNED MODEL GENERATION METHOD, AND PROGRAM
JP7049499B1 (ja) 2021-03-04 2022-04-06 株式会社Cygames コンテンツ動画再生プログラム、コンテンツ動画再生装置、コンテンツ動画再生方法、コンテンツ動画データ生成プログラム、及びコンテンツ動画データ生成装置
WO2022186235A1 (ja) * 2021-03-04 2022-09-09 株式会社Cygames コンテンツ動画再生プログラム、コンテンツ動画再生装置、コンテンツ動画再生方法、コンテンツ動画データ生成プログラム、及びコンテンツ動画データ生成装置
JP2022134845A (ja) * 2021-03-04 2022-09-15 株式会社Cygames コンテンツ動画再生プログラム、コンテンツ動画再生装置、コンテンツ動画再生方法、コンテンツ動画データ生成プログラム、及びコンテンツ動画データ生成装置
JP6955734B1 (ja) * 2021-03-08 2021-10-27 株式会社データグリッド 画像データ生成方法、学習方法、画像データ生成システム、学習システムおよびプログラム
JP2022136957A (ja) * 2021-03-08 2022-09-21 株式会社データグリッド 画像データ生成方法、学習方法、画像データ生成システム、学習システムおよびプログラム
JP2022136583A (ja) * 2021-03-08 2022-09-21 株式会社データグリッド 画像データ生成方法、学習方法、画像データ生成システム、学習システムおよびプログラム
JP7398127B2 (ja) 2021-03-08 2023-12-14 株式会社データグリッド 画像データ生成方法、学習方法、画像データ生成システム、学習システムおよびプログラム
WO2023095642A1 (ja) * 2021-11-26 2023-06-01 ソニーグループ株式会社 画像処理装置、画像処理方法、プログラム

Also Published As

Publication number Publication date
JP7202087B2 (ja) 2023-01-11

Similar Documents

Publication Publication Date Title
EP3751857A1 (en) A method, an apparatus and a computer program product for volumetric video encoding and decoding
JP7202087B2 (ja) 映像処理装置
JP6094863B2 (ja) 画像処理装置、画像処理方法、プログラム、集積回路
JP6021541B2 (ja) 画像処理装置及び方法
US11202086B2 (en) Apparatus, a method and a computer program for volumetric video
EP2201784B1 (en) Method and device for processing a depth-map
US7321374B2 (en) Method and device for the generation of 3-D images
KR101538947B1 (ko) 실감형 자유시점 영상 제공 장치 및 방법
JP2012504805A (ja) 中間画像合成およびマルチビューデータ信号抽出
JP7344988B2 (ja) ボリュメトリック映像の符号化および復号化のための方法、装置、およびコンピュータプログラム製品
JP6033625B2 (ja) 多視点画像生成装置、画像生成方法、表示装置、プログラム、及び、記録媒体
Lee et al. Real-time stereo view generation using kinect depth camera
JP2015534745A (ja) 立体画像の生成、送信、及び受信方法、及び関連する装置
JP2012114910A (ja) 遮蔽レイヤの拡張
US20220084282A1 (en) Image processing device, image generation method, and image processing method
JP2020005201A (ja) 送信装置及び受信装置
JP2014072809A (ja) 画像生成装置、画像生成方法、画像生成装置用プログラム
EP2822279B1 (en) Autostereo tapestry representation
JP2005229560A (ja) 立体画像表示方法
JP4815004B2 (ja) 多視点画像符号化装置
JP7389565B2 (ja) 符号化装置、復号装置、及びプログラム
US10257488B2 (en) View synthesis using low resolution depth maps
JP4419139B2 (ja) 奥行き信号生成装置、奥行き信号生成プログラム、擬似立体画像生成装置、及び擬似立体画像生成プログラム
JP6322740B1 (ja) 画像送信装置及び画像送信方法、並びに、画像受信装置及び画像受信方法
JP5431393B2 (ja) 立体画像生成装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221223

R150 Certificate of patent or registration of utility model

Ref document number: 7202087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150