JP7544359B2

JP7544359B2 - 最適化装置、訓練装置、合成装置、それらの方法、およびプログラム

Info

Publication number: JP7544359B2
Application number: JP2021083720A
Authority: JP
Inventors: 大樹吹上; 岳史大石
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC; NTT Inc USA
Current assignee: University of Tokyo NUC; NTT Inc; NTT Inc USA
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2024-09-03
Anticipated expiration: 2041-05-18
Also published as: JP2022177454A

Description

本発明は、ある画像を別の画像に半透明に合成する場面において視認性をコントロールする技術に関する。

視覚情報を別の背景に重畳する際、２つの画像の画素値を単一のパラメータ（アルファ値）で重み付き線形加算する手法（アルファブレンド）がデファクトスタンダードとしてあらゆる場面で用いられている。しかし、このような単純なアルファブレンドを用いた場合、ブレンドした前景画像の視認性が背景画像に大きく依存してしまう。一般にユーザは視認性を元にパラメータを決定するわけであるから、これはユーザにとって不親切かつ非直感的なインターフェースであると言える。

この問題を解決する有効なアプローチとして、視認性に関わる人間の知覚モデルを利用し、モデルに基づいてブレンディングパラメータを最適化するという方法が考えられる。視認性の背景への依存は、コントラスト知覚のメカニズムによって説明することができる。例えば、よく知られているコントラストマスキングという現象では、同じコントラストのパターンであっても、背景に高いコントラストを持つ別のパターンがあると見えづらくなる。これは、物理的なコントラストが大きくなるほど応答の増分が小さくなるという視覚系の非線形なコントラスト応答が原因であると考えられている。こうした視覚系の振る舞いを再現可能な計算モデルは、ノイズの視認性を予測する画質評価の手法にも組み込まれ活用されてきた。こうした研究の流れを受け、非特許文献１は、画質評価のために開発されたモデルを利用し、アルファ値を最適化する手法を提案している。

Taiki Fukiage, Takeshi Oishi, and Katsushi Ikeuchi, "Visibility-based blending for real-time applications", IEEE International Symposium on Mixed and Augmented Reality (ISMAR), 2014.

非特許文献１は、ブレンド画像の視認性に対するモデルの予測精度が十分ではなく、またアルファ値の最適化方法にも以下の課題が残されている。

（１）非特許文献１では、画像に含まれるノイズの視認性を予測するための画質評価手法を、ブレンド画像中に含まれる前景画像成分の視認性を予測するために用いている。この画質評価手法では、ノイズの足された画像と元画像をそれぞれ初期視覚野の計算モデルにより知覚的な画像表現に変換し、この知覚的な画像表現において互いの距離（＝知覚的な距離）を計算することでノイズの視認性を評価する。非特許文献１ではこれに倣い、ブレンド画像とブレンド前の背景画像の知覚的な距離を計算することで、ブレンド画像内に含まれる前景画像の視認性を評価する。しかし、アルファブレンドにおいては、ブレンディングによって前景画像が足されるだけでなく、背景画像のコントラストが減衰する効果も生じる。よって、ブレンド画像と背景画像の間の知覚的な距離は、前景画像成分だけでなく背景画像成分の減衰分も含まれていることになる。よって、こうした画質評価モデルを素直にアルファブレンド画像に適用するだけでは、ブレンド画像中の前景画像の視認性を正しく推定することはできない。

（２）上記問題に加えて、一般的な画像中に含まれる画像特徴はバラエティに富むため、ノイズの視認性予測のために開発された画質評価手法は任意の画像の視認性を高精度に予測できない。非特許文献１で用いられたものも含む多くの画質評価手法では、入力画像をまず複数の異なる帯域の空間周波数・色、方位等の特徴に分解し、それぞれの特徴に対する知覚的なコントラストを計算する。その後、これら特徴毎のコントラストから計算された特徴毎の視認性を１つの値に集約することで視認性の予測値とする。この際、特徴毎に重み付けを行ってから集約することもしばしば行われる。しかし、特徴毎の重みは固定されているため、色・空間周波数成分等の画像特徴を多く含む画像ほど視認性が過大に評価されやすく、逆にぼけた画像や滑らかな画像のように特徴が少ない画像ほど視認性が過小評価されやすいといった問題が生じる。

本発明は、背景成分の減衰の効果が混入することなく正確に前景画像の視認性が推定可能となり、多様な前景画像に対する視認性の予測精度を大幅に改善することができる最適化装置、訓練装置、合成装置、それらの方法、、およびプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、最適化装置は、前景マスク画像と、前景マスク画像を適用したアルファマップαと、前景画像と、背景画像を用いて、アルファマップαを用いてブレンドした画像において前景画像の視認性を計算する対象となる画像特徴成分である第一対象成分の知覚コントラストマップと、前景マスク画像を用いて不透明にブレンドした画像において前景画像の視認性を計算する対象となる画像特徴成分である第二対象成分の知覚コントラストマップを計算する知覚コントラスト計算部と、第二対象成分の知覚コントラストマップを用いて、画像特徴に対する重みベクトルを計算する重み計算部と、第一対象成分の知覚コントラストマップと重みベクトルを用いて前景画像の視認性を示す視認性マップvを得る特徴集約部と、視認性マップvと所望の視認性マップ^vとから視認性損失を計算し、前景画像とアルファマップαとからアルファマップαが空間的に滑らかに変化するような制約を与える平滑度損失を計算し、視認性損失と平滑度損失を用いて損失L_Fを計算する損失計算部と、損失L_Fを用いて、アルファマップαを更新するアルファ値更新部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、訓練装置は、前景画像と背景画像を深層ニューラルネットワークから成る共通のエンコーダによってエンコードしたのち、エンコードした特徴と所望の視認性マップから他の深層ニューラルネットワークから成るデコーダを用いてデコードすることによってアルファマップを生成するアルファ値生成部と、前景マスク画像と、前景マスク画像を適用したアルファマップαと、前景画像と、背景画像を用いて、アルファマップαを用いてブレンドした画像において前景画像の視認性を計算する対象となる画像特徴成分である第一対象成分の知覚コントラストマップと、前景マスク画像を用いて不透明にブレンドした画像において前景画像の視認性を計算する対象となる画像特徴成分である第二対象成分の知覚コントラストマップを計算する知覚コントラスト計算部と、第二対象成分の知覚コントラストマップを用いて、画像特徴に対する重みベクトルを計算する重み計算部と、第一対象成分の知覚コントラストマップと重みベクトルを用いて前景画像の視認性を示す視認性マップvを得る特徴集約部と、視認性マップvと所望の視認性マップ^vとから視認性損失を計算し、前景画像とアルファマップαとからアルファマップαが空間的に滑らかに変化するような制約を与える平滑度損失を計算し、視認性損失と平滑度損失を用いて損失L_Fを計算する損失計算部と、損失L_Fを用いて、エンコーダおよびデコーダのパラメータを更新するアルファ値更新部と、を含む。

本発明によれば、背景成分の減衰の効果が混入することなく正確に前景画像の視認性が推定可能となり、多様な前景画像に対する視認性の予測精度を大幅に改善することができるという効果を奏する。

第1～第3実施形態に係る合成装置の機能ブロック図。第1～第5実施形態に係る合成装置の処理フローの例を示す図。第1実施形態に係るアルファ値生成部の機能ブロック図。第1実施形態に係るアルファ値生成部の処理フローの例を示す図。第1実施形態に係る視認性予測部の機能ブロック図。第1実施形態に係る視認性予測部の処理フローの例を示す図。第1実施形態に係る知覚コントラスト計算部の機能ブロック図。第1実施形態に係る知覚コントラスト計算部の処理フローの例を示す図。第1実施形態に係る損失計算部の機能ブロック図。第1実施形態に係る損失計算部の処理フローの例を示す図。所望の視認性マップ、最適化済のアルファマップの例を示す図。第2実施形態に係るアルファ値生成部の機能ブロック図。第2実施形態に係るアルファ値生成部の処理フローの例を示す図。第2実施形態に係る視認性予測部の機能ブロック図。第2実施形態に係る視認性予測部の処理フローの例を示す図。第2実施形態に係る知覚コントラスト計算部の機能ブロック図。第2実施形態に係る知覚コントラスト計算部の処理フローの例を示す図。第2実施形態に係る損失計算部の機能ブロック図。第2実施形態に係る損失計算部の処理フローの例を示す図。第3実施形態に係るアルファ値生成部の機能ブロック図。第3実施形態に係るアルファ値生成部の処理フローの例を示す図。第4実施形態に係る合成装置の機能ブロック図第4実施形態に係るアルファ値生成部の機能ブロック図。第4実施形態に係るアルファ値生成部の処理フローの例を示す図。第4実施形態に係る前景視認性予測部の機能ブロック図。第4実施形態に係る前景視認性予測部の処理フローの例を示す図。第4実施形態に係る知覚コントラスト計算部の機能ブロック図。第4実施形態に係る知覚コントラスト計算部の処理フローの例を示す図。第5実施形態に係る訓練装置の機能ブロック図。第5実施形態に係る訓練装置の処理フローの例を示す図。第5実施形態に係るアルファ値生成部の機能ブロック図。第5実施形態に係るアルファ値生成部の処理フローの例を示す図。第5実施形態に係る合成装置の機能ブロック図。本手法を適用するコンピュータの構成例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」「^-」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第１実施形態＞
図１は第１実施形態に係る合成装置１００の機能ブロック図を、図２はその処理フローを示す。

第１実施形態に係る合成装置１００は、アルファ値生成部１１０とブレンド部１２０とを含む。

合成装置１００は、前景画像I^fg∈R^3×H×Wと背景画像I^bg∈R^3×H×W、前景マスク画像M∈R^H×W、アルファマップの初期値αⁱⁿ∈R^H×W、所望の視認性マップ^v∈R^H×Wを入力として、前景画像I^fgと背景画像I^bgとを合成し、合成画像I^bl∈R^3×H×Wを出力する。ここで、Rは実数全体の集合、H、Wはそれぞれ画像の高さと幅を表す。各画像の各画素値は、３個の色成分からなる。なお、所望の視認性マップは、前景画像の所望の視認性を示すものである。

アルファ値生成部１１０は、アルファマップの初期値αⁱⁿと前景画像I^fgと背景画像I^bgと前景マスク画像Mと所望の視認性マップ^vを入力として、アルファ値α^out _i∈[0,1]を生成し（Ｓ１１０）、アルファマップα^out∈R^H×Wを出力する。iは画像の各画素のインデックスを表し、α^out _iはアルファマップα^outのi番目の画素のアルファ値を表す。

ブレンド部１２０は、前景画像I^fgと背景画像I^bgとアルファ値生成部１１０から出力されるアルファマップα^outを入力として、前景画像I^fgと背景画像I^bgを次式によりブレンドし（Ｓ１２０）、合成画像I^bl∈R^3×H×Wを出力する。

I^bl _i=α^out _iI^fg _i+(1-α^out _i)I^bg _i (1)
ただし、I^bl _iは合成画像I^blのi番目の画素値、I^fg _iは前景画像I^fgのi番目の画素値、I^bg _iは背景画像I^bgのi番目の画素値をそれぞれ表す。

合成装置および後述する、最適化装置、訓練装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。合成装置、最適化装置および訓練装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。合成装置、最適化装置および訓練装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。合成装置、最適化装置および訓練装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。合成装置、最適化装置および訓練装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも合成装置、最適化装置および訓練装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、合成装置、最適化装置および訓練装置の外部に備える構成としてもよい。

以下、アルファ値生成部１１０について説明する。

＜アルファ値生成部１１０＞
図３はアルファ値生成部１１０の機能ブロック図を、図４はその処理フローの例を示す。

アルファ値生成部１１０は、視認性予測部１１１、損失計算部１１３、アルファ値更新部１１５を含む。

アルファ値生成部１１０は、前景画像I^fg、背景画像I^bg、前景マスク画像M、アルファマップの初期値αⁱⁿ、所望の視認性マップ^vを入力として、最適化済のアルファマップα^out∈R^H×Wを生成し、出力とする。前景マスク画像Mは、全画像領域中で前景画像I^fgが存在する画素で1、それ以外で0をとるマスク画像を表す。

処理の順序としては、まず、視認性予測部１１１が、前景画像I^fg、背景画像I^bg、前景マスク画像M、アルファマップの初期値αⁱⁿを入力として、視認性マップv∈R^H×Wを求め（Ｓ１１１）、出力する。視認性マップvは、前景画像の視認性を示すものである。

次に、損失計算部１１３が、視認性マップvと前景画像I^fg、アルファマップα∈R^H×Wを入力として、損失Lを計算し（Ｓ１１３）、出力する。

次いで、アルファ値更新部１１５が、損失Lを入力として、損失Lを元にアルファマップαを更新し（Ｓ１１５）、更新したアルファマップαを出力する。

その後は、初期値αⁱⁿの代わりに更新したアルファマップαを入力として視認性予測部１１１が視認性マップvを出力する。このループを繰り返し、一定条件を満たしたら（Ｓ１１５－２のyes）、アルファ値更新部１１５が最適化済のアルファマップα^outを出力して処理を終える。ループの制御はアルファ値更新部１１５に含まれる。

＜視認性予測部１１１＞
図５は視認性予測部１１１の機能ブロック図を、図６はその処理フローの例を示す。

視認性予測部１１１は、マスク適用部１１１１、知覚コントラスト計算部１１１３、重み計算部１１１５、特徴集約部１１１７を含む。

入力：前景画像I^fg、背景画像I^bg、前景マスク画像M、アルファマップαまたは初期値αⁱⁿ(以下、単に「アルファマップα」ともいう)
出力：視認性マップv
処理：
マスク適用部１１１１は、アルファマップαと前景マスク画像Mとを入力として、アルファマップαと前景マスク画像Mとを画素毎に乗算することで、アルファマップαにマスクを適用し（Ｓ１１１１）、マスク適用済のアルファマップα'を出力する
知覚コントラスト計算部１１１３は、マスク適用済のアルファマップα'、前景マスク画像M、前景画像I^fg、背景画像I^bgを入力として、第一対象成分ΔI^tgの知覚コントラストマップP∈R^3N×H×W、第二対象成分ΔI^fgの知覚コントラストマップP'∈R^3N×H×Wを計算し（Ｓ１１１３）、出力する。ここで、第一対象成分ΔI^tgは入力されたマスク適用済のアルファマップα'を用いてブレンドした画像において、視認性を計算する対象となる画像特徴成分（前景画像成分とマスク適用済のアルファマップα'の構造を合わせたもの）を表し、第二対象成分ΔI^fgは前景マスク画像Mを用いて不透明にブレンドした画像において、視認性を計算する対象となる画像特徴成分を表す。画像特徴成分は画像をN個の空間周波数帯域と３個の色成分に分解して得られる3×N次元の特徴として表現される。Nは入力画像サイズによって上限が決まり、画像サイズが大きいほどNを大きく設定できる。Nが大きいほど画像特徴数が増加するため、一般にモデルの予測力も向上すると考えられる。本実施形態ではモデルパラメータのフィッティングのために実施した実験で用いた刺激サイズに合わせN=6とした。また、画像特徴として空間周波数と色に加えて方位成分を考慮しても構わない。計算コストや精度を考慮して画像特徴を設定すればよい。知覚コントラスト計算部１１１３における処理の詳細は後述する。

重み計算部１１１５は、第二対象成分ΔI^fgの知覚コントラストマップP'を入力として、各画素の画像特徴に対する重みベクトルw∈R^3Nを計算し（Ｓ１１１５）、出力する。重みwは、第二対象成分ΔI^fgの知覚コントラストマップP'のある画素の特徴ベクトルr'∈R^3Nに特徴間のインタラクションを表現する行列X∈R^3N×3Nを掛け合わせ、バイアスb∈R^3Nを加算したものをsigmoid関数に通すことで得られる。つまり、重みwは、次式により、得られる。

w=sigmoid(Xr'+b) (2)
ここで、Xおよびbは、後述する＜視認性予測部１１１のパラメータ＞の手順により、データへのフィッティングによって求められる。

特徴集約部１１１７は、第一対象成分ΔI^tgの知覚コントラストマップPと重み計算部１１１５で得られた各画素の重みベクトルw∈R^3Nとを入力として、重みベクトルwを用いて、第一対象成分ΔI^tgの各画素における知覚コントラストマップPのある画素の特徴ベクトルr∈R^3Nを重み付けしつつ特徴集約を行い、次式により、各画素の視認性v_iを得る（Ｓ１１１７）。

ただし、pはモデルキャリブレーションで最適化されたパラメータであり、w_nおよびr^p _nはそれぞれ重みベクトルwおよび特徴ベクトルrのn番目の成分を示す。

最後に、特徴集約部１１１７は、各画素の視認性を表す視認性マップv∈R^H×Wを出力する。

次に、知覚コントラスト計算部１１１３の詳細について説明する。

＜知覚コントラスト計算部１１１３＞
図７は知覚コントラスト計算部１１１３の機能ブロック図を、図８はその処理フローの例を示す。

知覚コントラスト計算部１１１３は、色変換部１１１３Ａ、アルファブレンド部１１１３Ｂ、対象成分抽出部１１１３Ｃ、バンド分解部１１１３Ｄ、バンドリミテッドコントラスト計算部１１１３Ｅ、第一正規化部１１１３Ｆ、第二正規化部１１１３Ｇ、連結部１１１３Ｈを含む。

知覚コントラスト計算部１１１３は、マスク適用済のアルファマップα'、前景マスク画像M、前景画像I^fg、背景画像I^bgを入力として、第一対象成分ΔI^tgの知覚コントラストマップP、第二対象成分ΔI^fgの知覚コントラストマップP'を計算し（Ｓ１１１３）、出力する。しかし、実際には（マスク適用済のアルファマップα'、前景画像I^fg、背景画像I^bg）を入力として第一対象成分ΔI^tgの知覚コントラストマップPを計算する処理と（前景マスク画像M、前景画像I^fg、背景画像I^bg）を入力として第二対象成分ΔI^fgの知覚コントラストマップP'を計算する処理に分けることができ、それぞれの処理は入力が異なるだけで中身は完全に同一である。このため、ここではマスク適用済のアルファマップα'と前景マスク画像Mを区別せず「アルファマップα」と呼び、また第一対象成分ΔI^tgと第二対象成分ΔI^fgを区別せず単に「対象成分」と呼ぶこととし、一方の処理についてのみ記述する。

入力：アルファマップα、前景画像I^fg、背景画像I^bg
出力：対象成分の知覚コントラストマップP、P'
処理：
まず、色変換部１１１３Ａは、前景画像I^fgと背景画像I^bgを入力として、RGB色空間をYUV色空間に変換し（Ｓ１１１３Ａ）、出力する。

対象成分抽出部１１１３Ｃは、色変換後の前景画像I^fgと背景画像I^bg、およびアルファマップαを入力として、対象成分ΔI^tg∈R^3(N-1)×H×Wを抽出し（Ｓ１１１３Ｃ）、出力する。対象成分抽出部１１１３Ｃの詳細は後述する。

アルファブレンド部１１１３Ｂは、色変換後の前景画像I^fgと背景画像I^bg、およびアルファマップαを入力として、式(1)にしたがってアルファブレンド画像I^bl∈R^3×H×Wを得（Ｓ１１１３Ｂ）、出力する。

I^bl _i=α_iI^fg _i+(1-α_i)I^bg _i (1)
バンド分解部１１１３Ｄは、アルファブレンド画像I^blと色変換後の背景画像I^bgを入力として、アルファブレンド画像I^blのバンドパス成分ΔI^bl、アルファブレンド画像I^blのガウシアンピラミッド画像^-I^bl、アルファブレンド画像I^blのローパス残余成分L^bl、背景画像I^bgのローパス残余成分L^bgを得（Ｓ１１１３Ｄ）、出力する。

アルファブレンド画像I^blのバンドパス分解には、ラプラシアンピラミッドを用い、N-1個の空間周波数帯と１個のローパス残余成分に分解する。

アルファブレンド画像I^blのガウシアンピラミッド画像^-I^blについては、N+1個分の異なる解像度（スケール）の画像を生成する。なお、ガウシアンピラミッドのスケール数をN+1としたのは、後述のバンドリミテッドコントラスト計算時に、N-1個それぞれのバンドパス画像を、各周波数帯の２つ下のスケールのガウシアンピラミッド画像で割る処理を行うためである。アルファブレンド画像I^blおよび背景画像I^bgのローパス残余成分L^blおよびL^bgは、それぞれのラプラシアンピラミッドの最も粗いスケールのローパス残余画像に相当する。アルファブレンド画像I^blのバンドパス成分ΔI^blとガウシアンピラミッド画像^-I^blはバンドリミテッドコントラスト計算部１１１３Ｅへの入力として用いられ、アルファブレンド画像I^blおよび背景画像I^bgのローパス残余成分L^blおよびL^bgは第二正規化部１１１３Ｇへの入力として用いられる。

バンドリミテッドコントラスト計算部１１１３Ｅは、対象成分ΔI^tgとアルファブレンド画像I^blのバンドパス成分ΔI^bl、アルファブレンド画像I^blのガウシアンピラミッド画像^-I^blを入力として、次式により、対象成分ΔI^tgとアルファブレンド画像I^blのバンドパス成分ΔI^blそれぞれについてバンドリミテッドコントラストC^tg、C^blを計算し（Ｓ１１１３Ｅ）、第一正規化部１１１３Ｆに向けて出力する。

ここで、ΔI^tg _k,iおよびΔI^bl _k,iはそれぞれ対象成分ΔI^tgおよびバンドパス成分ΔI^blのk番目のスケールのi番目の画素であり、^-I^bl _k,iはガウシアンピラミッド画像^-I^blのk番目のスケールのi番目の画素である。σは、ゼロによる除算を避けるために必要なスカラー定数であり、例えば、σ=0.1である。式(4)の計算は、色チャンネルごとに独立して行われる。式(4)では、N-1個のバンドパス成分画像それぞれについて、２つ下のスケールのガウシアンピラミッド画像を同一スケールにアップサンプルした画像で割る処理を行っている。これは、人間が知覚するコントラストが、付近の平均輝度が小さいほど大きく、大きいほど小さく感じられるという特性を再現する処理に相当する。

第一正規化部１１１３Ｆは、対象成分ΔI^tgとアルファブレンド画像I^blのバンドパス成分ΔI^blのバンドリミテッドコントラストC^tg、C^blを入力として、次式により、対象成分ΔI^tgに対する知覚コントラストP^bandを計算し(Ｓ１１１３Ｆ)、連結部１１１３Ｈに向けて出力する。

ここで、P_c,k,i ^bandは、色チャンネルc（c∈{Y,U,V}）のk番目のスケールのi番目の画素における対象成分ΔI^tgの正規化されたコントラスト応答を表す。N(i)は，i番目のピクセルに隣接するピクセルのグループを表す。例えば、周辺の5×5ピクセルを近隣の定義として使用した場合、|N|=25である。β_c,kは応答の飽和が始まるポイントを定義するパラメータであり、γは非線形応答関数の傾きを変調するパラメータである。β_c,kの画像特徴間（色チャンネルおよびスケール間）の相対的な大きさは、各画像特徴のバンドリミテッドコントラストの平均二乗画素値の比と同じにすることで正則化する。β_c,kを得るために、各画像特徴のバンドリミテッドコントラストの平均二乗値を校正画像パッチ間で平均化し、パラメータβでスケーリングする。β、γは、モデルキャリブレーションで最適化されるパラメータである。

第二正規化部１１１３Ｇは、アルファブレンド画像I^blおよび背景画像I^bgのローパス残余成分L^blおよびL^bgを入力として、次式により、前景画像I^fgのローパス成分に対する知覚コントラストP^lowを計算し(Ｓ１１１３Ｇ)、連結部１１１３Ｈに向けて出力する。

ここで、^β_c、^γは式(5)のβ_c,k、γと同じ役割を持つパラメータであるが、ローパス成分はバンドパス成分とは質的に異なる応答関数を持ちうるため、異なる値を取りうる。β_c,kと同様に、色チャンネル間の相対的な大きさを、ローパス残差成分の各色チャンネルの平均二乗画素値の比と同じにすることで^β_cを正則化する。^β_cを得るために、各色チャンネルの平均二乗値を校正画像パッチ間で平均化し、パラメータ^βでスケーリングする。^β、^γは、モデルキャリブレーションで最適化されるパラメータである。

連結部１１１３Ｈは、対象成分ΔI^tgに対する知覚コントラストP^bandと前景画像I^fgのローパス成分に対する知覚コントラストP^lowを入力として、これらを合わせて対象成分ΔI^tgに対する知覚コントラストのラプラシアンピラミッド（スケール数=N個）を構成する。その後、ラプラシアンピラミッドの各スケールの解像度を元画像の解像度と一致するようにアップスケーリングを行い、１つのテンソルP∈R^3N×H×Wに連結し（Ｓ１１１３Ｈ）、対象成分ΔI^tgの知覚コントラストとして知覚コントラスト計算部１１１３から出力する。P=[r₁|r₂|…|r_HW]∈R^3N×H×Wであり、各ピラミッドレベルk∈{1,2,…,N}の各色チャンネルc∈{Y,U,V}の応答値が連結され、1つのベクトルr∈R^3Nとなる。

＜対象成分抽出部１１１３Ｃ＞
対象成分抽出部１１１３Ｃでは、視認性を計算する対象となる画像特徴成分を抽出する。ブレンド画像中の前景画像I^fgの視認性を計算する場合、アルファ値が空間的に一様であれば前景画像I^fgとアルファマップαを掛け合わせたものを対象成分ΔI^tgとすればよい。しかし、アルファ値が空間的に変化する条件においては、アルファマップαの構造によって生じるコントラストも対象成分ΔI^tgに含める必要がある。例えば、アルファマップαが0から1に変化するエッジ付近では、前景画像I^fgの色と背景画像I^bgの色によってコントラストが定義されるので、前景画像I^fgだけでなく背景画像I^bgの色も考慮しつつ対象成分ΔI^tgを抽出する必要が生じる。ただし、背景画像I^bg中に含まれる構造は対象成分ΔI^tgに含まれてはならないという制約があるため、前景画像I^fgとローパスフィルタリングした背景画像I^bgをブレンドしてコントラストを計算する。しかし、この方法は、フィルタリングしすぎると背景画像I^bgの局所的な明るさの違いを考慮できず、フィルタリングが足りなければ背景の構造が対象成分ΔI^tgに混入してしまうというトレードオフの問題に直面する。この問題を解決するため、本実施形態では、ラプラシアンピラミッドによるバンドパス分解を利用する。ラプラシアンピラミッドでは、スケール毎に含まれる空間周波数の帯域が限られる。このため、各スケールにおいて、そこに含まれる空間周波数以上の帯域をカットするように背景画像I^bgのローパスフィルタリングを行うことで、背景画像I^bgの構造が対象成分ΔI^tgに含まれないようにしつつ、背景画像I^bgの局所的な色の変動を最大限考慮することが可能となる。具体的な処理は以下に記載する。

入力：アルファマップα、色変換後の前景画像I^fg、色変換後の背景画像I^bg
出力：対象成分ΔI^tg∈R^3(N-1)×H×W
処理：
まず、対象成分抽出部１１１３Ｃは、色変換後の背景画像I^bgからガウシアンピラミッド(N+2スケール)を生成する。N+2としたのは、後の処理において、k番目のバンドの対象成分を抽出する際、k+3スケール目のガウシアンピラミッド画像を使用することになるため、最大で(N-1番目のバンドの対象成分抽出のために)N+2番目のスケールのガウシアンピラミッド画像が必要となるためである。

以降は、対象成分のラプラシアンピラミッドの各スケール(k | k=1,2,…,N-1)を抽出する処理となる。冗長性を省くため、全部でN-1回繰り返す処理のうち、任意のk番目の処理についてのみ記述する。また、ラプラシアンピラミッドの最も粗いスケール(k=N)に相当するローパス残余成分については、後の処理で使用しないため生成しない。

対象成分抽出部１１１３Ｃは、色変換後の背景画像I^bgのガウシアンピラミッドから、現在のスケール(k)より３つ粗いスケール(k+3)の画像を取り出し、元画像の解像度までアップスケーリングを行う。

対象成分抽出部１１１３Ｃは、アップスケーリングした色変換後の背景画像I^bgと、色変換後の前景画像I^fgとをアルファマップαを用いてブレンドする。なお、本実施形態で用いたRGB色空間からYUV色空間への色変換は線形変換のため、アルファブレンド後に色変換を行うのと同じ結果が得られる。

対象成分抽出部１１１３Ｃは、ブレンドした画像からラプラシアンピラミッドを生成し、そのうちのk番目のスケールを対象成分のk番目のバンドパス成分として出力する。なお、k番目以外のスケールは使用しないため、これ以外のスケールのバンドパス成分の生成は省略してもよい。

＜視認性予測部１１１のパラメータ＞
視認性予測部１１１で用いた知覚モデルは複数のパラメータθ∈{β、γ、^β、^γ、ｐ、Ｘ、b}をもつため、これらのパラメータを事前にキャリブレーションし、決定しておかねばならない。このために、本実施形態では視認性マッチング課題を用いて様々な画像に対する視認性評価データを集め、データを最もよく説明できるように最尤推定によりパラメータをフィッティングする。視認性マッチング課題では、参照画像として提示したアルファブレンド画像の視認性とマッチするように、別の画像パッチ同士のブレンド画像（テスト画像）のアルファ値を調整する。モデルのパラメータθが与えられたとき、参照画像に使用した{前景画像I^fg、背景画像I^bg、前景マスク画像M、アルファ値}の組R_xを入力として得られる視認性予測値をv(R_x|θ)、その参照画像と合わせて提示されたテスト画像の{前景画像I^fg、背景画像I^bg、前景マスク画像M、アルファ値（観察者の回答）}の組T_xを入力として得られる視認性予測値をv(T_x|θ)とすると、観察者があるアルファ値α_xを回答として選択する確率は次式のようにモデル化できる。

ここで、T_x(α)は、アルファ値αでブレンドされたテスト画像である。モデルパラメータを用いてsを最適化する。α’は0.01間隔で離散的にサンプリングした。x∈χは実験条件を表すインデックスとする。sは回答の不確かさ（ばらつき）を表現するスケーリング変数で、モデルパラメータθと一緒にフィッティングする。ここで、視認性予測値-v∈{v(R_x|θ), v(T_x|θ)}は単一のスカラー値として与えられる必要があるため、以下の式でモデルが出力した視認性マップv_iを空間的に集約する。

ここでN^tgは視認性を計算すべき対象成分が存在する画素の集合を表し、|N^tg|はN^tgに含まれる画素数を表す。パラメータqはモデルパラメータθと一緒にフィッティングする。
ここから、全ての実験条件x∈χについて得られた回答値からnegative log likelihoodを次式のように計算できる。

パラメータのフィッティングは、式(9)を最小化することで得られる。最小化はAdam optimizerなどの確率的勾配降下法で行う。

＜損失計算部１１３＞
図９は損失計算部１１３の機能ブロック図を、図１０はその処理フローの例を示す。

損失計算部１１３は、視認性損失計算部１１３１、平滑度損失計算部１１３３、加算部１１３５を含む。

損失計算部１１３は、所望の視認性マップ^vと視認性マップvと前景画像I^fg、アルファマップαを入力として、損失Lを計算し（Ｓ２１３）、出力する。

視認性損失計算部１１３１は、現在のアルファマップαから予測された視認性マップvと所望の視認性マップ^vとを入力とし、視認性マップvと^vとの距離を計算し、損失L_vとし、出力する。この視認性損失L_vだけでは前景画像I^fgの元の構造が保たれる保証がないため、平滑度損失L_sでアルファマップαが空間的に滑らかに変化するような制約を与える。加算部１１３５はこれらの損失の重み付き和として最終的な損失Lを計算する。

＜視認性損失計算部１１３１＞
入力：所望の視認性マップ^v∈R^H×W、視認性マップv∈R^H×W
出力：視認性損失L_v
処理：視認性損失計算部１１３１は、次式によって視認性損失L_vを計算する（Ｓ１１３１）。

＜平滑度損失計算部１１３３＞
エッジ保存型平滑化の効果を与えるため、前景画像I^fgの勾配の高いところではアルファマップαが空間的に大きく変化することを許容しつつ、前景画像I^fgの勾配の低いところではアルファマップαの空間的な変化を抑制するような損失関数を用いる。前景画像I^fgの勾配の計算には、輝度情報のみを用いる。

入力：前景画像I^fg、アルファマップα
出力：平滑度損失L_s
処理：
まず、平滑度損失計算部１１３３は、前景画像I^fgをYUV色空間に変換し、輝度成分であるYチャンネルだけを取り出す。例えば、平滑度損失計算部１１３３は、色変換部１１１３Ａと同様の処理を行い、前景画像I^fgをYUV色空間に変換してもよいし、色変換部１１１３Ａの出力値を利用してもよい。

次に、平滑度損失計算部１１３３は、次式により平滑度損失L_sを計算する（Ｓ１１３３）。

ここで、α_x,yとI^fg _x,yは、それぞれ、y番目の行のx番目の列にあるアルファマップと前景画像(輝度成分であるYチャンネル)のピクセル値を表す。空間微分にはソーベルフィルタの畳み込みを用いたが、これ以外の微分フィルタを用いてもよい。また、エッジ保存型平滑化ではない通常の平滑化を用いても良い。この場合、損失関数は前景画像I^fgを用いない以下の式で定義される。

＜加算部１１３５＞
入力：視認性損失L_v、平滑度損失L_s
出力：損失L
処理：加算部１１３５は、次式により、損失Lを計算する（Ｓ１１３５）。例えば、２つの損失の重みは(λ_v,λ_s)=(0.1,1)とする。

L=λ_vL_v+λ_sL_s (13)
＜アルファ値更新部１１５＞
アルファ値更新部１１５は、損失Lとアルファマップαを入力として、損失Lのアルファマップα中の各画素に関する勾配に基づいて、アルファマップαを更新する（Ｓ１１５）。本実施形態ではAdam optimizerを用いて更新を行う。アルファ値更新部１１５は、所定の条件を満たしたところで更新を終了し（Ｓ１１５－２のyes）、その時点でのアルファマップαを最適化済のアルファマップα’として出力する。所定の条件とは、損失Lが所定の閾値(例えば0.2)未満となるか、損失Lの減少が一定回数(例えば50回)以上観察されないとき、あるいは一定回数（例えば500回）の更新を終えた時点等である。

＜効果＞
このような構成により、背景成分の減衰の効果が混入することなく正確に前景画像の視認性が推定可能となり、多様な前景画像に対する視認性の予測精度を大幅に改善することができるという効果を奏する。

より詳しく説明すると、本実施形態ではまず視認性を計算する対象となる成分（対象成分）を抽出し、これに対して視覚系のコントラスト知覚メカニズムを模した非線形処理を与えることで対象成分の知覚的なコントラストの推定値を計算する。なお、対象成分は、前景画像成分とアルファマップに含まれる構造成分を両方とも考慮して計算される。対象成分を明示的に抽出することで、背景成分の減衰の効果が混入することなく正確に前景画像の視認性が推定可能となる。

また、本実施形態ではコンテンツ適応的な特徴集約機構をモデルに付け加える。具体的には、色や空間周波数といった画像特徴毎に計算された視認性を集約する際に、前景画像のブレンド前の見た目に応じて、各画像特徴に対する重みを適応的に調節する。例えば元の前景画像がきめ細かいテクスチャであれば、高空間周波数成分に対する重みを大きくし、元の画像がぼけた模様であれば、低空間周波数成分に対する重みを大きくする。これにより、多様な前景画像に対する視認性の予測精度を大幅に改善することができる。

＜変形例＞
アルファ値生成部を最適化装置として機能させてもよい。この場合、最適化装置は、前景画像I^fg、背景画像I^bg、前景マスク画像M、アルファマップの初期値αⁱⁿ、所望の視認性マップ^vを入力として、最適化済のアルファマップα^out∈R^H×Wを生成し、出力する。以降の実施形態についても同様である。

＜第２実施形態＞
第１実施形態と異なる部分を中心に説明する。

画像の全ての領域で所望の視認性を得られるようにするため、非特許文献１では画素毎にアルファ値を独立に最適化するアルゴリズムを採用している。したがって、得られるアルファ値は隣接する画素間で不連続なものとなり、ブレンドの後で前景画像の元の構造や特徴が保たれる保証がない。これを防ぐため、非特許文献１ではブレンド前にアルファ値を空間的に平滑化する。しかし、この方法では、平滑化を行う空間的な範囲が広過ぎれば所望の視認性から逸脱してしまうし、狭過ぎれば元の画像構造が保たれなくなるというトレードオフが生じ、人手によるチューニングが必要となる。

本実施形態では、この課題を解決するため、アルファ値を最適化する際、所望の視認性に近くなるようにするだけではなく、同時に前景画像の元の構造をできるだけ保つような制約を与える。具体的には、ブレンド画像中の視認性計算の対象成分と元の前景画像成分の相関が高いほどコストが下がるような損失関数を用いた。これにより、前景画像の構造を保持しつつ所望の視認性が得られるようなブレンド結果を自動的に得ることができる。さらに、前景画像の構造を保つ最適化の副次的な効果として、ユーザが画像領域毎に異なる「所望の視認性」を与えた場合に、その視認性のマップが画像中のオブジェクトを正確に塗り分けていなくても、アルファ値がオブジェクトの輪郭に沿って自然に変化するような結果が得られる。図１１はアルファ値の変化の例を示す。

第２実施形態の損失計算部２１３は、第１実施形態の損失計算部１１３に画像忠実度損失計算部２１３４を加えたものとなる。画像忠実度損失L_fは、現在のアルファマップαでブレンドした画像中に含まれている背景以外の成分（第一対象成分ΔI^tg）と、前景画像I^fgを不透明にブレンドした際の背景以外の成分（第二対象成分ΔI^fg）の相関が高くなる効果を与えるような損失である。前景画像I^fgの構造を保持しつつ所望の視認性が得られるようなアルファマップαを自動的に得ることができる。さらに、前景画像I^fgの構造を保つ最適化の副次的な効果として、ユーザが画像領域毎に異なる「所望の視認性」を与えた場合に、その視認性マップが画像中のオブジェクトを正確に塗り分けていなくても、アルファ値がオブジェクトの輪郭に沿って自然に変化するような結果が得られる。図１１は、本実施形態の所望の視認性マップ、最適化済のアルファマップの例を示す。画像忠実度損失計算部２１３４は入力として第一対象成分ΔI^tgと第二対象成分ΔI^fgを要するため、これらの入力を対象成分抽出部１１１３Ｃから直接取得するパスを追加している。

図１は第１実施形態に係る合成装置２００の機能ブロック図を、図２はその処理フローを示す。

第２実施形態に係る合成装置１００は、アルファ値生成部２１０とブレンド部１２０を含む。ブレンド部１２０の処理についは、第１実施形態と同様なので、説明を省略する。

＜アルファ値生成部２１０＞
図１２はアルファ値生成部２１０の機能ブロック図を、図１３はその処理フローの例を示す。

アルファ値生成部２１０は、視認性予測部２１１、損失計算部２１３、アルファ値更新部１１５を含む。

アルファ値生成部２１０は、前景画像I^fg、背景画像I^bg、前景マスク画像M、アルファマップの初期値αⁱⁿ、所望の視認性マップ^vを入力として、最適化済のアルファマップα^outを生成し（Ｓ２１０）、出力とする。

処理の順序としては、まず、視認性予測部２１１が、前景画像I^fg、背景画像I^bg、前景マスク画像M、アルファマップの初期値αⁱⁿを入力として、視認性マップvと第一対象成分ΔI^tg、第二対象成分ΔI^fgを求め（Ｓ２１１）、出力する。第一対象成分ΔI^tg、第二対象成分ΔI^fgは共に、視認性予測部２１１での視認性マップvの計算と、損失計算部２１３での画像忠実度損失L_fの計算に用いるが、いずれの用途でも、N個の空間周波数帯のうち、最も低い空間周波数帯であるローパス残余成分は用いない。このため、対象成分の次元数は3×(N-1)次元となる。Nについては第１実施形態で説明した通りである。

次に、損失計算部２１３が、視認性マップv、第一対象成分ΔI^tg、第二対象成分ΔI^fg、前景画像I^fg、アルファマップαを入力として、損失Lを計算し（Ｓ２１３）、出力する。

アルファ値更新部１１５の処理Ｓ１１５は第１実施形態と同様であり説明を省略する。

その後は、初期値αⁱⁿの代わりに更新したアルファマップαを入力として視認性予測部２１１が視認性マップvと第一対象成分ΔI^tg、第二対象成分ΔI^fgを出力する。なお、第二対象成分ΔI^fgは更新されたアルファマップαに依存しないため、初回に１度だけ計算したものを保持しておき、2回目以降はこれを再利用してもよい。このループを繰り返し、一定条件を満たしたら（Ｓ１１５－２のyes）、アルファ値更新部１１５が最適化済のアルファマップα^outを出力して処理を終える。ループの制御はアルファ値更新部１１５に含まれる。

＜視認性予測部２１１＞
図１４は視認性予測部２１１の機能ブロック図を、図１５はその処理フローの例を示す。

視認性予測部２１１は、マスク適用部１１１１、知覚コントラスト計算部２１１３、重み計算部１１１５、特徴集約部１１１７を含む。

入力：前景画像I^fg、背景画像I^bg、前景マスク画像M、アルファマップαまたはαⁱⁿ
出力：第一対象成分ΔI^tg、第二対象成分ΔI^fg、視認性マップv
処理：
マスク適用部１１１１、重み計算部１１１５、特徴集約部１１１７における処理Ｓ１１１１，Ｓ１１１５，Ｓ１１１７は第１実施形態と同様であり、説明を省略する。

知覚コントラスト計算部２１１３は、マスク適用済のアルファマップα'、前景マスク画像M、前景画像I^fg、背景画像I^bgを入力として、第一対象成分ΔI^tgとその知覚コントラストマップP、第二対象成分ΔI^fgとその知覚コントラストマップP'を得（Ｓ２１１３）、出力する。知覚コントラストマップPを得る過程で得られる第一対象成分ΔI^tg、第二対象成分ΔI^fgは、そのまま視認性予測部２１１の出力として出力する。

＜知覚コントラスト計算部２１１３＞
図１６は知覚コントラスト計算部２１１３の機能ブロック図を、図１７はその処理フローの例を示す。

知覚コントラスト計算部２１１３は、色変換部１１１３Ａ、アルファブレンド部１１１３Ｂ、対象成分抽出部２１１３Ｃ、バンド分解部１１１３Ｄ、バンドリミテッドコントラスト計算部１１１３Ｅ、第一正規化部１１１３Ｆ、第二正規化部１１１３Ｇ、連結部１１１３Ｈを含む。

知覚コントラスト計算部２１１３はマスク適用済のアルファマップα'、前景マスク画像M、前景画像I^fg、背景画像I^bgを入力として、第一対象成分ΔI^tg、第二対象成分ΔI^fg、第一対象成分ΔI^tgの知覚コントラストマップP、第二対象成分ΔI^fgの知覚コントラストマップP'を計算し（Ｓ２１１３）、出力する。しかし、実際には（マスク適用済のアルファマップα'、前景画像I^fg、背景画像I^bg）を入力として（第一対象成分ΔI^tg、第一対象成分ΔI^tgの知覚コントラストマップP）を計算する処理と（前景マスク画像M、前景画像I^fg、背景画像I^bg）を入力として（第二対象成分ΔI^fg、第二対象成分ΔI^fgの知覚コントラストマップP'）を計算する処理に分けることができ、それぞれの処理は入力が異なるだけで中身は完全に同一である。このため、ここではマスク適用済のアルファマップα'と前景マスク画像Mを区別せず「アルファマップα」と呼び、また第一対象成分ΔI^tgと第二対象成分ΔI^fgを区別せず単に「対象成分」と呼ぶこととし、一方の処理についてのみ記述する。

入力：アルファマップα、前景画像I^fg、背景画像I^bg
出力：対象成分ΔI^tg、ΔI^fg、対象成分の知覚コントラストマップP、P'
処理：
色変換部１１１３Ａ、アルファブレンド部１１１３Ｂ、バンド分解部１１１３Ｄ、バンドリミテッドコントラスト計算部１１１３Ｅ、第一正規化部１１１３Ｆ、第二正規化部１１１３Ｇ、連結部１１１３Ｈにおける処理Ｓ１１１３Ａ、Ｓ１１１３Ｂ、Ｓ１１１３Ｄ、Ｓ１１１３Ｅ、Ｓ１１１３Ｆ、Ｓ１１１３Ｇ、Ｓ１１１３Ｈは第１実施形態と同様であり、説明を省略する。

対象成分抽出部２１１３Ｃは、色変換後の前景画像I^fgと背景画像I^bg、およびアルファマップαを入力として、対象成分ΔI^tg、ΔI^fgを抽出し（Ｓ２１１３Ｃ）、出力する。第１実施形態との違いは、対象成分抽出部２１１３Ｃが、対象成分ΔI^tg、ΔI^fgをバンドリミテッドコントラスト計算部１１１３Ｅに向けて出力するとともに、視認性予測部２１１の出力として損失計算部２１３に向けて出力する点である。

＜損失計算部２１３＞
図１８は損失計算部２１３の機能ブロック図を、図１９はその処理フローの例を示す。

損失計算部２１３は、視認性損失計算部１１３１、画像忠実度損失計算部２１３４、平滑度損失計算部１１３３、加算部２１３５を含む。

損失計算部２１３は、所望の視認性マップ^vと視認性マップvと前景画像I^fg、アルファマップα、第一対象成分ΔI^tgと第二対象成分ΔI^fgを入力として、損失Lを計算し（Ｓ２１３）、出力する。

視認性損失計算部１１３１では、現在のアルファマップαから予測された視認性マップvと所望の視認性マップ^vとの距離を計算し、視認性損失L_vとする。この視認性損失L_vだけでは前景画像I^fgの元の構造が保たれる保証がないため、何らかの正規化が必要となる。本実施形態では、このために画像忠実度損失L_fと平滑度損失L_sを用いる。画像忠実度損失L_fは、現在のアルファマップαでブレンドした画像中に含まれている背景以外の成分（第一対象成分ΔI^tg）と、前景画像I^fgを不透明にブレンドした際の背景以外の成分（第二対象成分ΔI^fg）の相関が高くなる効果を与えるような損失である。視認性損失L_vと画像忠実度損失L_fだけでも、多くの場合十分良い結果を与えるが、稀に最適化結果がローカルミニマムに陥ったり、バンディングアーティファクトを生じたりするケースが見られる。これを防ぎ、さらに安定してよりよい結果を生成できるようにするため、アルファマップαに対してエッジ保存型平滑化の効果を与える平滑度損失L_sを追加で加える。加算部１１３５はこれら全ての損失の重み付き和として最終的な損失Lを計算する。

視認性損失計算部１１３１、平滑度損失計算部１１３３における処理Ｓ１１３１、Ｓ１１３３は第１実施形態と同様であり、説明を省略する。

＜画像忠実度損失計算部２１３４＞
入力：第一対象成分ΔI^tg∈R^^3(N-1)×H×W、第二対象成分ΔI^fg∈R^^3(N-1)×H×W
出力：画像忠実度損失L_f
処理：画像忠実度損失計算部２１３４は、第一対象成分ΔI^tg、第二対象成分ΔI^fgを用いて、次式によって画像忠実度損失L_fを計算する（Ｓ２１３４）。

ただし、ρ(a,b)は、画像a,b間の相関を評価する関数である。

＜加算部２１３５＞
入力：視認性損失L_v、画像忠実度損失L_f、平滑度損失L_s
出力：損失L
処理：加算部２１３５は、次式により、損失Lを計算する（Ｓ２１３５）。例えば、３つの損失の重みは(λ_v,λ_f,λ_s)=(0.1,1,1)とする。

L=λ_vL_v+λ_fL_f+λ_sL_s (15)
＜効果＞
上述の構成により、第１実施形態と同様の効果を得ることができる。さらに、前景画像の構造を保持しつつ所望の視認性が得られるようなブレンド結果を自動的に得ることができる。さらに、ユーザが画像領域毎に異なる「所望の視認性」を与えた場合に、アルファ値がオブジェクトの輪郭に沿って自然に変化するような結果が得られる。

＜第３実施形態＞
第１実施形態および第２実施形態と異なる部分を中心に説明する。

第１実施形態および第２実施形態では、前景画像I^fgの視認性をユーザが所望の値に設定できたが、前景画像I^fgに加えて、背景画像I^bgの視認性をユーザが設定できるようにすることもできる。ただし、上述の式(1)によるアルファブレンディングでは、前景の透過度α_iが決まると自動的に背景の透過度(1-α_i)も決定される。したがって、前景の視認性と背景の視認性が共に任意のレベルになるようアルファマップαを最適化することは一般に不可能である。このため、第３実施形態では、前景画像I^fgについては所望の視認性を、背景画像I^bgについては視認性の下限をユーザが指定する。すなわち、背景画像I^bgの視認性が下限値を下回らない範囲で、前景画像I^fgの視認性が所望の値に最も近づくようにアルファマップαを最適化する。これにより、ユーザは背景が適度に視認できる状態を保ちつつ、前景の視認性を望んだレベルで表示できるようになる。

図１は第１実施形態に係る合成装置３００の機能ブロック図を、図２はその処理フローを示す。

第３実施形態に係る合成装置３００は、アルファ値生成部３１０とブレンド部１２０を含む。ブレンド部１２０の処理は第１実施形態および第２実施形態と同様であり、説明を省略する。

＜アルファ値生成部３１０＞
図２０はアルファ値生成部３１０の機能ブロック図を、図２１はその処理フローの例を示す。

アルファ値生成部３１０は、前景視認性予測部３１１Ｆ、前景損失計算部３１３Ｆ、背景視認性予測部３１１Ｂ、背景損失計算部３１３Ｂ、損失加算部３１４、アルファ値更新部１１５を含む。このうち前景視認性予測部３１１Ｆと前景損失計算部３１３Ｆは、それぞれ第２実施形態における視認性予測部２１１と損失計算部２１３と同様の処理（Ｓ３１１Ｆ，Ｓ３１３Ｆ）を行う。

アルファ値生成部３１０は、前景画像I^fg、背景画像I^bg、前景マスク画像M、アルファマップの初期値αⁱⁿ、所望の視認性マップ^v、視認性下限マップ^v_B∈R^H×Wを入力として、最適化済のアルファマップα^out∈R^H×Wを生成し（Ｓ３１０）、出力する。なお、視認性下限マップ^v_Bは背景画像の視認性の下限を示すものである。

＜背景視認性予測部３１１Ｂ＞
背景視認性予測部３１１Ｂは、前景視認性予測部３１１Ｆと共通の処理Ｓ３１１Ｂを行う。ただし、前景画像I^fgと背景画像I^bgの役割が逆転する。具体的には、全ての処理について前景画像I^fgを背景画像I^bgに置き換え、背景画像I^bgを前景画像I^fgに置き換える。

また、背景視認性予測部３１１Ｂは、背景視認性予測部３１１Ｂ内のマスク適用部から出力されるマスク適用済のアルファマップα'の各画素値α'_iを１から差し引くことで、背景用のアルファマップを生成する。つまり、α'_i←1-α'_iとし、これをマスク適用済のアルファマップα’に置き換えて利用する。

さらに、背景視認性予測部３１１Ｂ内の知覚コントラスト計算部において、背景の第二対象成分ΔI^fg,Bを計算する際の入力として、前景マスク画像Mのかわりに「全ての画素が１であるような画像」をアルファマップαとして与える。

上述の処理を行った上で、背景視認性予測部３１１Ｂは、前景画像I^fg、背景画像I^bg、前景マスク画像M、アルファマップの初期値αⁱⁿを入力として、視認性マップv^Bと第一対象成分ΔI^tg,B、第二対象成分ΔI^fg,Bを求め（Ｓ３１１Ｂ）、出力する。なお、視認性マップv^Bは、背景画像の視認性を示すものである。

＜背景損失計算部３１３Ｂ＞
背景損失計算部３１３Ｂは、所望の視認性下限マップ^v_Bと視認性マップv^Bと前景画像I^fg、アルファマップα、第一対象成分ΔI^tg,Bと第二対象成分ΔI^fg,Bを入力として、損失L_Bを計算し（Ｓ３１３Ｂ）、出力する。

例えば、背景損失計算部３１３Ｂ内の視認性損失計算部は、背景画像I^bgの各画素iにおける視認性の下限値^v_i,Bと、現在のアルファマップαで計算した背景の各画素iにおける視認性v_i,Bを用いて、背景についての視認性損失L_v,Bを次のように計算する。

ここでNは「ブレンドを行う画像領域に属する画素の集合」を表す。上の式は前景損失計算部３１３Ｆにおける視認性損失L_vと基本的に同様であるが、現在の視認性が視認性の下限値を上回る場合には損失としないよう変更が加えられている。なお、背景画像I^bgに対する画像忠実度損失L_fと平滑度損失L_sは、前景損失計算部３１３Ｆと同様に計算して損失に加えてもよいし、省略してもよい。つまり、背景損失計算部３１３Ｂ内の加算部は、視認性損失L_v,Bをそのまま損失L_Bとして出力してもよいし、視認性損失L_v,Bに画像忠実度損失L_fと平滑度損失L_sの少なくとも何れかを加えて損失L_Bとして出力してもよい。

＜損失加算部３１４＞
最後に、損失加算部３１４は、前景損失計算部３１３Ｆで得られた損失L_Fと、背景損失計算部３１３Ｂで得られた損失L_Bとを入力とし、これらの値を加算し（Ｓ３１４）、和を損失L(=L_F+L_B)としてアルファ値更新部１１５に出力する。

アルファ値更新部１１５における処理は基本的に第１実施形態、第２実施形態と同様であるが、更新したアルファマップαを前景視認性予測部３１１Ｆに出力すると同時に、同じアルファマップαを背景視認性予測部３１１Ｂにも出力する点のみ異なる。

＜第４実施形態＞
これまでの実施形態では２枚の画像をブレンドする状況のみ考えてきたが、第４実施形態ではこれを任意の枚数の画像同士のブレンディングに拡張する。１枚の背景画像I^bg上にM枚の前景画像I^fgをブレンドする式は以下のように定義する。

I_i ^bl=α_i ⁽¹⁾I_i ^fg1+α_i ⁽²⁾I_i ^fg2+…+α_i ^(M)I_i ^fgM+(1-α_i ⁽¹⁾-α_i ⁽²⁾-…-α_i ^(M))I_i ^bg (4-1)
ここで、I_i ^fgmはm番目の前景画像I^fgmのi番目の画素値、α_i ^(m)はm番目の前景画像I^fgmのアルファマップα^(m)のi番目の画素のアルファ値をそれぞれ表す。各アルファ値は、
α_i ⁽¹⁾+α_i ⁽²⁾+…+α_i ^(M)≦1, 0≦α_i ^(m)≦1, m=1,2,…,M (4-2)
を満たすものとする。

図２２は第４実施形態に係る合成装置４００の機能ブロック図を、図２はその処理フローを示す。

第４実施形態に係る合成装置４００は、アルファ値生成部４１０とブレンド部４２０を含む。

合成装置４００は、M枚の前景画像I^fgm∈R^3×H×Wと1枚の背景画像I^bg∈R^3×H×W、M枚の前景マスク画像M^m∈R^H×W、M個のアルファマップの初期値α^inm∈R^H×W、M枚の所望の視認性マップ^v^m∈R^H×Wを入力として、M枚の前景画像I^fgmと1枚の背景画像I^bgとを合成し、合成画像I^bl∈R^3×H×Wを出力する。

アルファ値生成部４１０は、M枚のアルファマップの初期値α^inm∈R^H×WとM枚の前景画像I^fgmと1枚の背景画像I^bgとM枚の前景マスク画像M^mとM枚の所望の視認性マップ^v^mを入力として、アルファ値α^out(m) _i∈[0,1]を生成し（Ｓ４１０）、M枚のアルファマップα^out(m)∈R^H×Wを出力する。α^out(m) _iはm番目のアルファマップα^(m)のi番目の画素のアルファ値を表す。

ブレンド部４２０は、M枚の前景画像I^fgmと1枚の背景画像I^bgとアルファ値生成部４１０から出力されるM枚のアルファマップα^out(m)を入力として、M枚の前景画像I^fgmと背景画像I^bgを次式によりブレンドし（Ｓ４２０）、合成画像I^bl∈R^3×H×Wを出力する。

I_i ^bl=α_i ^out(1)I_i ^fg1+α_i ^out(2)I_i ^fg2+…+α_i ^out(M)I_i ^fgM+(1-α_i ^out(1)-α_i ^out(2)-…-α_i ^out(M))I_i ^bg (4-1)
以下、アルファ値生成部４１０の詳細について説明する。

＜アルファ値生成部４１０＞
図２３はアルファ値生成部４１０の機能ブロック図を、図２４はその処理フローの例を示す。

アルファ値生成部４１０は、マスク適用部４１１１、M個の前景視認性予測部４１１Ｆ－ｍ、背景視認性予測部４１１Ｂ、M個の前景損失計算部４１３Ｆ－ｍ、背景損失計算部４１３Ｂ、損失加算部４１４、アルファ値更新部４１５を含む。図２３中、前景視認性予測部４１１Ｆ―２～前景視認性予測部４１１Ｆ－（Ｍ－１）、前景損失計算部４１３Ｆ―２～前景損失計算部４１３Ｆ－（Ｍ－１）は省略している。

アルファ値生成部４１０は、M枚の前景画像I^fgm、背景画像I^bg、M枚の前景マスク画像M^m、M枚のアルファマップの初期値α^in(m)、背景用のアルファマップの初期値α^in(bg)、M枚の前景画像I^fgmに対応するM枚の所望の視認性マップ^v^m、背景画像I^bgに対する所望の視認性マップ^v_Bを入力として、最適化済のアルファマップα^out(m)∈R^H×W、α^out(bg)∈R^H×Wを生成し（Ｓ４１０）、出力とする。

＜マスク適用部４１１１＞
本実施形態では、視認性予測部に含まれていたマスク適用部（図５参照）を、視認性予測部から独立させることで、M+1個ある視認性予測部にて同一の処理を行わなくて済むようにしている。

M枚のアルファマップα^(m)をそれぞれ独立に最適化すると、式(4-2)の制約を満たすことは難しい。そこで、背景用のアルファマップα^(bg)も最適化対象に加え、次の式により常に制約(4-2)を満たすようなM枚のアルファマップα^(m)を生成する。

ここで、α'^(m)、α'^(bg)は正規化前の前景アルファマップと正規化前の背景アルファマップを表すものとする。

マスク適用部４１１１は、M個の正規化前の前景アルファマップα'^(m)と正規化前の背景アルファマップα'^(bg)を入力として、以下の処理によりマスク適用済のアルファマップα^(m)を生成する。なお、正規化前の前景アルファマップα'^(m)は初期値α^in(m)またはアルファ値更新部４１５の出力する前景アルファマップα'^(m)であり、正規化前の背景アルファマップα'^(bg)は初期値α^in(bg)またはアルファ値更新部４１５の出力する背景アルファマップα'^(bg)である。

入力：M個の正規化前の前景アルファマップα'^(m)、正規化前の背景アルファマップα'^(bg)、M個の前景マスク画像M^m
出力：M個のマスク適用済のアルファマップα^(m)
処理：
まず、マスク適用部４１１１は、式(4-3)によりM個の正規化後のアルファマップα^(m)を得る。

マスク適用部４１１１は、M枚の正規化後の前景アルファマップα^(m)それぞれに対応するM枚の前景マスク画像M^mを画素毎に掛け合わせ、M枚のマスク適用済のアルファマップα^(m)を生成し（Ｓ４１１１）、出力する。

＜前景視認性予測部４１１Ｆ－ｍ＞
前景視認性予測部４１１Ｆ―１～４１１Ｆ―Ｍは処理が共通するため、ここではm番目の前景視認性予測部４１１Ｆ－ｍの処理のみ記述する。第２実施形態における視認性予測部２１１と基本的に同一の処理を行うが、マスク適用部４１１１が前景視認性予測部４１１Ｆ－ｍの外側に移動したことで、マスク適用済のアルファマップα^(m)を入力にとる点と、M枚のマスク適用済のアルファマップα^(m)とm番目の前景画像I^fgmを入力にとる点が異なる。その他の相違点は知覚コントラスト計算部１１１３にて詳述する。

図２５は前景視認性予測部４１１Ｆ－ｍの機能ブロック図を、図２６はその処理フローの例を示す。

前景視認性予測部４１１Ｆ－ｍは、知覚コントラスト計算部４１１３、重み計算部１１１５、特徴集約部１１１７を含む。

入力：M枚の前景画像I^fgm、m番目の前景マスク画像M^m、背景画像I^bg、M枚のマスク適用済のアルファマップα^(m)
出力：前景視認性マップv^m
処理：
知覚コントラスト計算部４１１３は、M枚のマスク適用済のアルファマップα^(m)、m番目の前景マスク画像M^m、M枚の前景画像I^fgm、背景画像I^bgを入力として、前景画像I^fgmに対する第一対象成分ΔI^tg,mとその知覚コントラストマップP^m、前景画像I^fgmに対する第二対象成分ΔI^fg,mとその知覚コントラストマップP'^mを得（Ｓ４１１３）、出力する。第一対象成分ΔI^tg,m、第二対象成分ΔI^fg,mは、そのまま前景視認性予測部４１１Ｆ－ｍの出力として出力する。

重み計算部１１１５は、第二対象成分ΔI^fgmの知覚コントラストマップP'^mを入力として、各画素の画像特徴に対する重みベクトルw^m∈R^3Nを計算し（Ｓ１１１５）、出力する。

特徴集約部１１１７は、第一対象成分ΔI^tgmの知覚コントラストマップP^mと重み計算部１１１５で得られた各画素の重みベクトルw^m∈R^3Nとを入力として、重みベクトルw^mを用いて、第一対象成分ΔI^tgmの各画素における知覚コントラストr^m∈R^3Nを重み付けしつつ特徴集約を行い、各画素の視認性v_i ^mを得る（Ｓ１１１７）。

最後に、特徴集約部１１１７は、各画素の視認性を表す視認性マップv^m∈R^H×Wを出力する。

＜知覚コントラスト計算部４１１３＞
図２７は知覚コントラスト計算部４１１３の機能ブロック図を、図２８はその処理フローの例を示す。

第１、第２実施形態と同様に、前景画像I^fgmをマスク適用済のアルファマップα^(m)でブレンドした際の前景画像I^fgm（前景画像I^fgmの第一対象成分ΔI^tgm）に対する知覚コントラストマップP^mを計算する処理と、前景画像I^fgmを前景マスク画像M^mで不透明にブレンドした際の前景画像I^fgm（前景画像I^fgmの第二対象成分ΔI^fgm）に対する知覚コントラストマップP'^mを計算する処理とを行う。２つの処理はブレンドに用いるアルファマップα^(m)（マスク適用済のアルファマップまたは前景マスク画像）が異なる以外は同一である。また、アルファマップα^(m)によるブレンドを行うアルファブレンド部４１１３Ｂと対象成分抽出部４１１３Ｃ以外の処理は第２実施形態と同一であるため、以下ではアルファブレンド部４１１３Ｂと対象成分抽出部４１１３Ｃの処理についてのみ記述する。

＜アルファブレンド部４１１３Ｂ＞
入力：M枚のマスク適用済のアルファマップα^(m)、m番目の前景画像I^fgmに対応する1枚の前景マスク画像M^m、M枚の色変換後の前景画像I^fgm、色変換後の背景画像I^bg
出力：m番目のブレンド画像I^bl,tgm
アルファブレンド部４１１３Ｂは、前景画像I^fgmの第一対象成分ΔI^tgmを計算するために、式(4-1)にしたがってアルファブレンド画像I^bl,tgm∈R^3×H×Wを得（Ｓ４１１３Ｂ）、出力する。

I_i ^bl,tgm=α_i ⁽¹⁾I_i ^fg1+α_i ⁽²⁾I_i ^fg2+…+α_i ^(M)I_i ^fgM+(1-α_i ⁽¹⁾-α_i ⁽²⁾-…-α_i ^(M))I_i ^bg (4-1)
また、アルファブレンド部４１１３Ｂは、前景画像I^fgmの第二対象成分ΔI^fgmを計算するために、次式にしたがってアルファブレンド画像I^bl,fgm∈R^3×H×Wを得（Ｓ４１１３Ｂ）、出力する。

I_i ^bl,fgm=M_i ^mI_i ^fgm+(1-M_i ^m){α_i ⁽¹⁾I_i ^fg1+…+α_i ^(m-1)I_i ^fgm-1+α_i ^(m+1)I_i ^fgm+1+…+α_i ^(M)I_i ^fgM+(1-α_i ⁽¹⁾-…-α_i ^(m-1)-α_i ^(m+1)-…-α_i ^(M))I_i ^bg} (4-4)
ただし、M_i ^mは前景マスク画像M^mのi番目の画素のアルファ値とする。

＜対象成分抽出部４１１３Ｃ＞
入力：M枚のアルファマップα^(m)、m番目の前景画像I^fgmに対応する1枚の前景マスク画像M^m、M枚の色変換後の前景画像I^fgm、色変換後の背景画像I^bg
出力：m番目の前景画像I^fgmに対応する1個の第一対象成分ΔI^tgm、m番目の前景画像I^fgmに対応する1個の第二対象成分ΔI^fgm
処理：第一対象成分ΔI^tgmと第二対象成分I^fgmの計算で基本的に共通の処理Ｓ４１１３Ｃとなるが、以下の(4)のブレンド処理のみ両者で異なる計算方法を用いる。

(1)まず、対象成分抽出部４１１３Ｃは、色変換後のm番目の前景画像I^fgmを除く全て(M-1個)の前景画像I^fgmと背景画像I^bgのガウシアンピラミッド(N+2スケール)を生成する。

(2)以降は、対象成分のラプラシアンピラミッドの各スケール(k | k=1,2,…,N-1)を抽出する処理となる。冗長性を省くため、全部でN-1回繰り返す処理のうち、任意のk番目の処理についてのみ記述する。また、ラプラシアンピラミッドの最も粗いスケール(k=N)に相当するローパス残余成分については、後の処理で使用しないため生成しない。

(3)対象成分抽出部４１１３Ｃは、色変換後のm番目の前景画像I^fgmを除く全て(M-１個)の前景画像I^fgmと背景画像I^bgのガウシアンピラミッドから、現在のスケール(k)より３つ粗いスケール(k+3)の画像を取り出し、元画像の解像度までアップスケーリングを行う。

(4)対象成分抽出部４１１３Ｃは、アップスケーリングした画像と、色変換後の前景画像I^fgmとをアルファマップα^(m)を用いてブレンドする。対象成分抽出部４１１３Ｃは、前景画像I^fgmの第一対象成分ΔI^tgmを計算する際には、上述の式(4-1)によりブレンド画像を生成する。対象成分抽出部４１１３Ｃは、前景画像I^fgmの第二対象成分ΔI^fgmを計算する際には、上述の式(4-4)を用いる。

(5)対象成分抽出部４１１３Ｃは、ブレンドした画像からラプラシアンピラミッドを生成し、そのうちのk番目のスケールを対象成分のk番目のバンドパス成分として出力する。なお、k番目以外のスケールは使用しないため、これ以外のスケールのバンドパス成分の生成は省略してもよい。

＜背景視認性予測部４１１Ｂ＞
図２５は前景視認性予測部４１１Ｂの機能ブロック図を、図２６はその処理フローの例を示す。

前景視認性予測部４１１Ｂは、知覚コントラスト計算部４１１Ｂ３、重み計算部１１１５、特徴集約部１１１７を含む。

前景視認性予測部４１１Ｂの処理Ｓ４１１Ｂは、基本的に前景視認性予測部４１１Ｆ－ｍと同一の処理Ｓ４１１Ｆ－ｍとなるが、背景画像I^bgは全ての画像領域に存在するため、画像の存在領域を指定するためのマスク画像を入力にとらない。それ以外の前景視認性予測部４１１Ｆ－ｍからの相違点は知覚コントラスト計算部４１１Ｂ３のみに存在するため、以下では背景視認性予測部４１１Ｂ内の知覚コントラスト計算部４１１Ｂ３についてのみ記述する。

＜知覚コントラスト計算部４１１Ｂ３（背景用）＞
知覚コントラスト計算部４１１Ｂ３（背景用）の処理Ｓ４１１Ｂ３は、前景用の知覚コントラスト計算部４１１３の処理Ｓ４１１３と基本的に同一の処理となるが、画像のブレンドの計算が異なる。ここでも、背景画像I^bgをマスク適用済のアルファマップα^(m)でブレンドした際の背景画像I^bg（背景画像I^bgの第一対象成分ΔI^tg,B）に対する知覚コントラストマップP^bgを計算する処理と、不透明な背景画像I^bg（背景画像I^bgの第二対象成分ΔI^fg,B）に対する知覚コントラストマップP'^bgを計算する処理とを行う。なお、図２５、図２７では第一対象成分ΔI^tg,B、第二対象成分ΔI^fg,B、知覚コントラストマップP^bg、知覚コントラストマップP'^bgを破線で囲んで示す。

２つの処理はブレンドに用いるアルファマップα^(m)が異なる以外は同一である。また、アルファマップα^(m)によるブレンドを行うアルファブレンド部４１１３Ｂと対象成分抽出部４１１３Ｃ以外の処理は第２実施形態と同一であるため、以下ではアルファブレンド部４１１３Ｂと対象成分抽出部４１１３Ｃの処理についてのみ記述する。

＜アルファブレンド部４１１３Ｂ（背景用）＞
入力：M枚のマスク適用済のアルファマップα^(m)、色変換後のM枚の前景画像I^fgm、色変換後の背景画像I^bg
出力：ブレンド画像I^bl
アルファブレンド部４１１３Ｂは、背景第一対象成分ΔI^tg,Bを計算する際には、上述の式(4-1)によりブレンド画像I^blを生成する。

アルファブレンド部４１１３Ｂは、背景第二対象成分ΔI^fg,Bを計算する際には、色変換後の背景画像I^bgをそのままブレンド画像I^blとして出力する。

＜対象成分抽出部４１１３Ｃ＞
入力：M枚のマスク適用済のアルファマップα^(m)、色変換後のM枚の前景画像I^fgm、色変換後の背景画像I^bg
出力：背景第一対象成分ΔI^tg,B、背景第二対象成分ΔI^fg,B
処理：
(第一対象成分ΔI^tg,Bの生成処理)
(1)まず、対象成分抽出部４１１３Ｃは、色変換後のM枚の前景画像I^fgmのガウシアンピラミッド(N+2スケール)を生成する。

(3)対象成分抽出部４１１３Ｃは、色変換後のM枚の前景画像I^fgmのガウシアンピラミッドから、現在のスケール(k)より３つ粗いスケール(k+3)の画像を取り出し、元画像の解像度までアップスケーリングを行う。

(4)対象成分抽出部４１１３Ｃは、アップスケーリングした画像と、色変換後の背景画像I^bgとをアルファマップα^(m)を用いてブレンドする。ブレンドには、上述の式(4-1)を用いる。

（第二対象成分ΔI^fg,Bの生成処理）
対象成分抽出部４１１３Ｃは、色変換後の背景画像I^bgから直接ラプラシアンピラミッドを生成し、そのうちローパス残余成分を除いたバンドパス成分を第二対象成分ΔI^fg,Bとする。

＜前景損失計算部４１３Ｆ－ｍ、背景損失計算部４１３Ｂ＞
前景損失計算部４１３Ｆ－ｍは、第２実施形態の損失計算部２１３と同様の処理Ｓ４１３Ｆ－ｍを行う。背景損失計算部４１３Ｂは、第３実施形態の背景損失計算部３１３Ｂと同様の処理Ｓ４１３Ｂを行う
＜損失加算部４１４＞
損失加算部４１４は、M個の損失L_F,mと損失L_Bとを入力とし、これらの値を加算し（Ｓ４１４）、和を損失Ｌ(=L_F,1+…+L_F,Ｍ+L_B)としてアルファ値更新部４１５に出力する。M個の前景画像I^fgm、背景画像I^bgそれぞれについて、どの画像の視認性を最も所望の値に近づけたいかによって、それぞれの損失を重み付けしてから加算してもよい。例えば、前景画像I^fgmの視認性を優先して所望の値に近づけたい場合、前景損失計算部４１３Ｆ－ｍの損失をより大きく重み付けする。

＜アルファ値更新部４１５＞
アルファ値更新部４１５は、損失LとM個の正規化前のアルファマップα'^(m)と正規化前のアルファマップα'^(bg)を入力として、M個の正規化前のアルファマップα'^(m)および正規化前のアルファマップα'^(bg)の各画素に関する勾配

に基づいて、正規化前の前景アルファマップα'^(m)および正規化前の背景アルファマップα'^(bg)を更新し（Ｓ４１５）、出力する。更新方法は第１、第２実施形態と同様の方法で行う。

＜第５実施形態＞
これまでの実施形態のアルファ値生成部では、アルファマップαは損失計算部で計算された損失Lに基づいて少しずつ更新して最適化することにより得る。しかし、この方法は最適なアルファマップαを得るまでに時間がかかるため、実時間動作するアプリケーションには不向きである。第５実施形態では、最適なアルファマップαを生成するアルファ値生成器を損失計算部による損失Lに基づいて訓練する方法について説明する。この方法で事前に訓練した生成器を用いることで、１回のパスで高速にアルファマップαを生成することが可能となる。

＜訓練装置５００＞
図２９は訓練装置５００の機能ブロック図を、図３０はその処理フローの例を示す。

訓練装置５００は、アルファ値生成部５１０と視認性予測部２１１と損失計算部２１３とパラメータ更新部５１５とを含む。視認性予測部２１１と損失計算部２１３は第２実施形態のものと共通のものを用いることができる。

アルファ値生成部５１０は、前景画像I^fg、背景画像I^bg、所望の視認性マップ^vを入力として、アルファマップαを生成し（Ｓ５１０）、出力する。

アルファ値生成部５１０は、前景画像I^fgと背景画像I^bgを深層ニューラルネットワーク(DNN)から成る共通のエンコーダによってエンコードしたのち、エンコードした特徴と所望の視認性マップ^vから別のDNNから成るデコーダを用いてデコードすることによってアルファマップを生成し（Ｓ５１５）、出力する。

パラメータ更新部５１５は、損失計算部２１３から得られた損失Lを入力とし、損失Lの勾配に基づき、エンコーダ、デコーダのパラメータを更新し（Ｓ５１５）、更新したパラメータを出力する。

＜アルファ値生成部５１０＞
図３１はアルファ値生成部５１０の機能ブロック図を、図３２はその処理フローの例を示す。

アルファ値生成部５１０は、エンコーダ５１１Ｆ，５１１Ｂ、ガウシアンピラミッド生成部５１３、アフィンパラメータ推定部５１６、デコーダ５１７を含む。

入力：前景画像I^fg、背景画像I^bg、所望の視認性^v
出力：アルファマップα
処理：
エンコーダ５１１Ｆ，５１１Ｂは、それぞれ前景画像I^fg、背景画像I^bgを入力とし、エンコードし（Ｓ５１１Ｆ，Ｓ５１１Ｂ）、特徴量を抽出し、出力する。例えば、エンコーダ５１１Ｆ，５１１Ｂは、それぞれ前景画像I^fg、背景画像I^bgそれぞれに対して畳み込みとダウンサンプリングを交互に繰り返すことで階層的な特徴抽出を行い、出力する。

前景画像用のエンコーダ５１１Ｆと背景画像用のエンコーダ５１１Ｂは、重み（パラメータ）を共有する。エンコーダには畳み込み-ダウンサンプリング-非線形アクティベーションから成る処理を複数層重ねた畳み込みニューラルネットワークを用いる。非線形アクティベーションには、例えばReLU関数を用いる。ReLU関数の前にBatch normalizationを挟んでも良い。層の最大数は入力画像の解像度に依存し、例えば256 × 256 の画像解像度では最大8層のものを用いることができる。特徴数は層を通過するごとに増やしていき、例えば第1層では64、第2層では128、第3層では256…、と増加させる。ただし、計算量削減のため最大特徴数を512程度に留めてもよい。

デコーダ５１７は、前景画像I^fgのエンコーダ５１１Ｆの最後の出力と背景画像I^bgのエンコーダ５１１Ｂの最後の出力を連結させたものを入力とし、それに対し転置畳み込みとアップサンプリングを交互に繰り返し適用することで徐々に解像度を元のサイズまで増やしていく。各層における具体的な処理は、転置畳み込み-アップサンプリング-(Batch normalization)- Feature-wise Linear Modulation(後述)-非線形アクティベーションの一連の処理で構成される。非線形アクティベーションには、例えばReLU関数を用いる。ただし、デコーダ５１７は、最終層ではTanh関数またはSigmoid関数を用いることで、出力の値域に制限をかける。このとき、参考文献１のU-Netの構造に倣い、前景画像I^fgと背景画像I^bgのエンコーダ５１１Ｆ，５１１Ｂで抽出された各階層の特徴をデコーダの対応する階層に連結して加えることで、高次で低解像度の特徴から低次で高解像度の特徴まで考慮しながらアルファマップαを生成することができる。

(参考文献１) Olaf Ronneberger, Philipp Fischer, Thomas Brox. "U-Net: Convolutional Networks for Biomedical Image Segmentation", arXiv:1505.04597, 2015.
デコーダ５１７の各階層の特徴数は、入力時点では前景画像I^fgのエンコーダ５１１Ｆの出力と背景画像I^bgのエンコーダ５１１Ｂの出力を連結させるためエンコーダ５１１Ｆ，５１１Ｂの出力の特徴数の２倍となる。デコーダ５１７は、第1層の転置畳み込み処理において特徴数を半分に減らしつつ解像度を２倍に増やす。デコーダ５１７は、第2層では、第1層の出力に対して、エンコーダ５１１Ｆ，５１１Ｂから同じ解像度をもつ階層の出力を連結させたものを入力とするため、第2層の入力の特徴数は、「第1層の出力特徴数+2×エンコーダ中間層出力の特徴数」となる。その後、デコーダ５１７は、第2層の畳み込み処理において、この特徴数を第1層の出力の特徴数の半分に減らす。デコーダ５１７は、このようにして特徴数を徐々に減らしつつ解像度を上げていき、最終層の畳み込み処理で特徴数を１に減らし、出力をTanh関数またはSigmoid関数にかけてアルファマップαを得（Ｓ５１７）、出力する。Tanh関数を用いる場合は、出力の値域が-1～1となるので、これが0～1となるよう正規化する。

デコーダ５１７では、参考文献２のFeature-wise Linear Modulationという手法を用い、入力として与えられる所望の視認性マップ^vに応じたアルファマップαを生成できるようにする。

(参考文献２) Dumoulin, et al., "Feature-wise transformations", Distill, 2018.
このために、ガウシアンピラミッド生成部５１３は、所望の視認性マップ^vを入力とし、所望の視認性マップ^vからガウシアンピラミッドを生成し（Ｓ５１３）、デコーダ５１７の各階層の空間サイズと一致する視認性マップV_lを得、出力する。

さらに、アフィンパラメータ推定部５１６は、視認性マップV_lを入力とし、各階層の視認性マップV_lをそれぞれ２種類の畳み込みニューラルネットワーク（解像度に変更は加えない）に入力し、画素毎、特徴毎に２つのアフィンパラメータ（μ_l,f,σ_l,f）を得（Ｓ５１６）、出力する。このときの特徴数は、デコーダ５１７の対応する階層の出力の特徴数と一致させる。このときの畳み込みニューラルネットワークの層の数は、例えば３層程度とする。３層とした場合、中間層の特徴数は、例えば出力特徴数の半分程度とする。

最後に、デコーダ５１７は、アフィンパラメータ（μ_l,f,σ_l,f）を入力とし、各階層lの畳み込み処理後（Batch normalizationを行う場合はその直後）の各特徴fのマップX_l,fを、（μ_l,f,σ_l,f）を用いてアフィン変換(Y_l,f=σ_l,f X_l,f +μ_l,f)により変調する。

＜パラメータ更新部５１５＞
パラメータ更新部５１５では、損失計算部２１３から与えられる損失Lの、アルファ値生成部５１０の各重みについての勾配に基づいて、アルファ値生成部５１０の各重みを更新し（Ｓ５１０）、出力する。本実施形態ではAdam optimizerを用いて更新を行う。更新は所定の条件を満たしたところで終了し（Ｓ５１５－２のyes）、その時点でのパラメータを保存して固定させる。所定の条件とは、損失Lが所定の閾値(例えば0.2)未満となるか、損失Lの減少が一定回数(例えば50回)以上観察されないとき、あるいは一定回数（例えば500回）の更新を終えた時点とする。

＜合成装置６００＞
図３３は第５実施形態に係る合成装置６００の機能ブロック図を、図２はその処理フローを示す。

アルファ値生成部５１０の訓練終了後は、合成装置６００においてブレンド画像I^blを生成する。合成装置６００は、アルファ値生成部５１０とブレンド部５２０を含む。

入力：前景画像I^fg、背景画像I^bg、所望の視認性マップ^v、前景マスク画像M
出力：ブレンド画像I^bl
処理：
アルファ値生成部５１０は、前景画像I^fg、背景画像I^bg、所望の視認性マップ^vを入力とし、これらの値を用いて、アルファマップαを生成し（Ｓ５１０）、出力する。

ブレンド部５２０は、アルファマップαと前景マスク画像Mと前景画像I^fg、背景画像I^bgを入力とし、まず、アルファマップαに前景マスク画像Mを画素毎に掛け合わせ、マスク適用済のアルファマップα'を得る。

次に、ブレンド部５２０は、マスク適用済のアルファマップα'、前景画像I^fg、背景画像I^bgを用いて上述の式(1)によりブレンド画像I^blを生成し（Ｓ５２０）、出力する。

＜効果＞
このような構成により、第1実施形態と同様の効果を得ることができる。さらに、高速にアルファマップαを生成することができる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
上述の各種の処理は、図３４に示すコンピュータの記憶部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

前景マスク画像と、前記前景マスク画像を適用したアルファマップαと、前景画像と、背景画像を用いて、前記アルファマップαを用いてブレンドした画像において前記前景画像の視認性を計算する対象となる画像特徴成分である第一対象成分の知覚コントラストマップと、前記前景マスク画像を用いて不透明にブレンドした画像において前記前景画像の視認性を計算する対象となる画像特徴成分である第二対象成分の知覚コントラストマップを計算する知覚コントラスト計算部と、
前記第二対象成分の知覚コントラストマップを用いて、画像特徴に対する重みベクトルを計算する重み計算部と、
前記第一対象成分の知覚コントラストマップと前記重みベクトルを用いて前記前景画像の視認性を示す視認性マップvを得る特徴集約部と、
前記視認性マップvと所望の視認性マップ^vとから視認性損失を計算し、前記前景画像と前記アルファマップαとから前記アルファマップαが空間的に滑らかに変化するような制約を与える平滑度損失を計算し、前記視認性損失と前記平滑度損失を用いて損失L_Fを計算する損失計算部と、
前記損失L_Fを用いて、前記アルファマップαを更新するアルファ値更新部と、を含む、
最適化装置。
請求項１の最適化装置であって、
前記損失計算部は、前記アルファマップαでブレンドした画像中に含まれている背景以外の前記第一対象成分と、前記前景画像を不透明にブレンドした際の背景以外の前記第二対象成分の相関が高くなる効果を与えるような画像忠実度損失を計算し、前記視認性損失と前記平滑度損失と前記画像忠実度損失を用いて前記損失L_Fを計算する、
最適化装置。
請求項１または請求項２の最適化装置であって、
前記背景画像の視認性を示す背景視認性マップと背景画像の視認性の下限を示す所望の視認性下限マップ^v_Bとから背景についての背景視認性損失を計算し、前記背景画像と前記アルファマップαとから前記アルファマップαが空間的に滑らかに変化するような制約を与える背景平滑度損失を計算し、前記背景視認性損失と前記背景平滑度損失を用いて損失L_Bを計算する背景損失計算部と、
前記損失L_Fと前記損失L_Bを用いて損失Lを求める損失加算部とを含み、
前記アルファ値更新部は、前記損失Lを用いて、前記アルファマップαを更新する、
最適化装置。
請求項３の最適化装置であって、
前記知覚コントラスト計算部は、M枚の前景マスク画像と、M枚の前記前景マスク画像を適用したM枚のアルファマップα^(m)と、M枚の前景画像と、前記背景画像を用いて、前記アルファマップα^(m)を用いてブレンドした画像においてM枚の前記前景画像の視認性を計算する対象となる画像特徴成分であるM個の第一対象成分の知覚コントラストマップと、M枚の前記前景マスク画像を用いて不透明にブレンドした画像においてM枚の前記前景画像の視認性を計算する対象となる画像特徴成分であるM個の第二対象成分の知覚コントラストマップを計算し、
前記重み計算部は、M個の前記第二対象成分の知覚コントラストマップを用いて、画像特徴に対するM個の重みベクトルを計算し、
前記特徴集約部は、M個の前記第一対象成分の知覚コントラストマップとM個の前記重みベクトルを用いてM枚の前記前景画像の視認性を示すM個の視認性マップvを得、
前記損失計算部は、M個の前記視認性マップvとM個の所望の視認性マップ^vとからM個の視認性損失を計算し、M枚の前記前景画像とM枚の前記アルファマップαとからM枚の前記アルファマップαが空間的に滑らかに変化するような制約を与えるM個の平滑度損失を計算し、M個の前記視認性損失とM個の前記平滑度損失を用いてM個の損失L_Fを計算し、
前記損失加算部は、M個の前記損失L_Fと前記損失L_Bを用いて損失Lを求める、
最適化装置。
前景画像と背景画像を深層ニューラルネットワークから成る共通のエンコーダによってエンコードしたのち、エンコードした特徴と所望の視認性マップから他の深層ニューラルネットワークから成るデコーダを用いてデコードすることによってアルファマップを生成するアルファ値生成部と、
前景マスク画像と、前記前景マスク画像を適用した前記アルファマップαと、前記前景画像と、前記背景画像を用いて、前記アルファマップαを用いてブレンドした画像において前記前景画像の視認性を計算する対象となる画像特徴成分である第一対象成分の知覚コントラストマップと、前記前景マスク画像を用いて不透明にブレンドした画像において前記前景画像の視認性を計算する対象となる画像特徴成分である第二対象成分の知覚コントラストマップを計算する知覚コントラスト計算部と、
前記第二対象成分の知覚コントラストマップを用いて、画像特徴に対する重みベクトルを計算する重み計算部と、
前記第一対象成分の知覚コントラストマップと前記重みベクトルを用いて前記前景画像の視認性を示す視認性マップvを得る特徴集約部と、
前記視認性マップvと所望の視認性マップ^vとから視認性損失を計算し、前記前景画像と前記アルファマップαとから前記アルファマップαが空間的に滑らかに変化するような制約を与える平滑度損失を計算し、前記視認性損失と前記平滑度損失を用いて損失L_Fを計算する損失計算部と、
前記損失L_Fを用いて、前記エンコーダおよび前記デコーダのパラメータを更新するパラメータ更新部と、を含む、
訓練装置。
請求項５の訓練装置で訓練したパラメータを用いる合成装置であって、
合成対象の前景画像と合成対象の背景画像を、前記パラメータを用いる前記エンコーダによってエンコードしたのち、エンコードした特徴と所望の視認性マップから前記パラメータを用いる前記デコーダを用いてデコードすることによってアルファマップを生成するアルファ値生成部と、
前記合成対象の前景画像と前記合成対象の背景画像を前記アルファマップを用いて合成し、合成画像を生成するブレンド部とを含む、
合成装置。
最適化装置が、前景マスク画像と、前記前景マスク画像を適用したアルファマップαと、前景画像と、背景画像を用いて、前記アルファマップαを用いてブレンドした画像において前記前景画像の視認性を計算する対象となる画像特徴成分である第一対象成分の知覚コントラストマップと、前記前景マスク画像を用いて不透明にブレンドした画像において前記前景画像の視認性を計算する対象となる画像特徴成分である第二対象成分の知覚コントラストマップを計算する知覚コントラスト計算ステップと、
前記最適化装置が、前記第二対象成分の知覚コントラストマップを用いて、画像特徴に対する重みベクトルを計算する重み計算ステップと、
前記最適化装置が、前記第一対象成分の知覚コントラストマップと前記重みベクトルを用いて前記前景画像の視認性を示す視認性マップvを得る特徴集約ステップと、
前記最適化装置が、前記視認性マップvと所望の視認性マップ^vとから視認性損失を計算し、前記前景画像と前記アルファマップαとから前記アルファマップαが空間的に滑らかに変化するような制約を与える平滑度損失を計算し、前記視認性損失と前記平滑度損失を用いて損失L_Fを計算する損失計算ステップと、
前記最適化装置が、前記損失L_Fを用いて、前記アルファマップαを更新するアルファ値更新ステップと、を含む、
最適化方法。
請求項７の最適化方法であって、
前記損失計算ステップは、前記アルファマップαでブレンドした画像中に含まれている背景以外の前記第一対象成分と、前記前景画像を不透明にブレンドした際の背景以外の前記第二対象成分の相関が高くなる効果を与えるような画像忠実度損失を計算し、前記視認性損失と前記平滑度損失と前記画像忠実度損失を用いて前記損失L_Fを計算する、
最適化方法。
請求項７または請求項８の最適化方法であって、
前記最適化装置が、前記背景画像の視認性を示す背景視認性マップと背景画像の視認性の下限を示す所望の視認性下限マップ^v_Bとから背景についての背景視認性損失を計算し、前記背景画像と前記アルファマップαとから前記アルファマップαが空間的に滑らかに変化するような制約を与える背景平滑度損失を計算し、前記背景視認性損失と前記背景平滑度損失を用いて損失L_Bを計算する背景損失計算ステップと、
前記最適化装置が、前記損失L_Fと前記損失L_Bを用いて損失Lを求める損失加算ステップとを含み、
前記アルファ値更新ステップは、前記損失Lを用いて、前記アルファマップαを更新する、
最適化方法。
請求項９の最適化方法であって、
前記知覚コントラスト計算ステップは、M枚の前景マスク画像と、M枚の前記前景マスク画像を適用したM枚のアルファマップα^(m)と、M枚の前景画像と、前記背景画像を用いて、前記アルファマップα^(m)を用いてブレンドした画像においてM枚の前記前景画像の視認性を計算する対象となる画像特徴成分であるM個の第一対象成分の知覚コントラストマップと、M枚の前記前景マスク画像を用いて不透明にブレンドした画像においてM枚の前記前景画像の視認性を計算する対象となる画像特徴成分であるM個の第二対象成分の知覚コントラストマップを計算し、
前記重み計算ステップは、M個の前記第二対象成分の知覚コントラストマップを用いて、画像特徴に対するM個の重みベクトルを計算し、
前記特徴集約ステップは、M個の前記第一対象成分の知覚コントラストマップとM個の前記重みベクトルを用いてM枚の前記前景画像の視認性を示すM個の視認性マップvを得、
前記損失計算ステップは、M個の前記視認性マップvとM個の所望の視認性マップ^vとからM個の視認性損失を計算し、M枚の前記前景画像とM枚の前記アルファマップαとからM枚の前記アルファマップαが空間的に滑らかに変化するような制約を与えるM個の平滑度損失を計算し、M個の前記視認性損失とM個の前記平滑度損失を用いてM個の損失L_Fを計算し、
前記損失加算ステップは、M個の前記損失L_Fと前記損失L_Bを用いて損失Lを求める、
最適化方法。
訓練装置が、前景画像と背景画像を深層ニューラルネットワークから成る共通のエンコーダによってエンコードしたのち、エンコードした特徴と所望の視認性マップから他の深層ニューラルネットワークから成るデコーダを用いてデコードすることによってアルファマップを生成するアルファ値生成ステップと、
前記訓練装置が、前景マスク画像と、前記前景マスク画像を適用した前記アルファマップαと、前記前景画像と、前記背景画像を用いて、前記アルファマップαを用いてブレンドした画像において前記前景画像の視認性を計算する対象となる画像特徴成分である第一対象成分の知覚コントラストマップと、前記前景マスク画像を用いて不透明にブレンドした画像において前記前景画像の視認性を計算する対象となる画像特徴成分である第二対象成分の知覚コントラストマップを計算する知覚コントラスト計算ステップと、
前記訓練装置が、前記第二対象成分の知覚コントラストマップを用いて、画像特徴に対する重みベクトルを計算する重み計算ステップと、
前記訓練装置が、前記第一対象成分の知覚コントラストマップと前記重みベクトルを用いて前記前景画像の視認性を示す視認性マップvを得る特徴集約ステップと、
前記訓練装置が、前記視認性マップvと所望の視認性マップ^vとから視認性損失を計算し、前記前景画像と前記アルファマップαとから前記アルファマップαが空間的に滑らかに変化するような制約を与える平滑度損失を計算し、前記視認性損失と前記平滑度損失を用いて損失L_Fを計算する損失計算ステップと、
前記訓練装置が、前記損失L_Fを用いて、前記エンコーダおよび前記デコーダのパラメータを更新するパラメータ更新ステップと、を含む、
訓練方法。
請求項１１の訓練方法で訓練したパラメータを用いる合成方法であって、
合成装置が、合成対象の前景画像と合成対象の背景画像を、前記パラメータを用いる前記エンコーダによってエンコードしたのち、エンコードした特徴と所望の視認性マップから前記パラメータを用いる前記デコーダを用いてデコードすることによってアルファマップを生成するアルファ値生成ステップと、
前記合成装置が、前記合成対象の前景画像と前記合成対象の背景画像を前記アルファマップを用いて合成し、合成画像を生成するブレンドステップとを含む、
合成方法。
請求項１から請求項４の何れかの最適化装置、または、請求項５の訓練装置、または、請求項６の合成装置としてコンピュータを機能させるためのプログラム。