JP2019212106A

JP2019212106A - 領域抽出モデル学習装置、領域抽出モデル学習方法、プログラム

Info

Publication number: JP2019212106A
Application number: JP2018108662A
Authority: JP
Inventors: 鮎美松本; Ayumi Matsumoto; 弾三上; Dan Mikami; 木全　英明; Hideaki Kimata; 英明木全
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2019-12-12
Also published as: US11816839B2; US20210224590A1; WO2019235192A1

Abstract

【課題】学習データの準備コストを抑えることができる、画像から人物領域を抽出する技術を提供する。【解決手段】人物領域を含む画像と人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から合成画像と合成画像の人物領域を示す合成マスクの組である合成学習データを生成する合成学習データ生成部と、合成学習データを用いてモデルパラメータを学習する学習部とを含み、合成学習データ生成部は、学習データのマスクを用いて、拡大率、並進度、回転度の組である合成パラメータを生成する合成パラメータ生成部と、学習データのマスクを用いて学習データの画像から合成人物領域を抽出し、合成パラメータを用いて背景画像と合成人物領域から合成画像を生成し、合成パラメータを用いて合成画像と同一サイズのマスク生成用画像と合成人物領域から合成マスクを生成し、合成学習データを生成する合成画像・合成マスク生成部とを含む。【選択図】図１

Description

本発明は、画像から人物を含む領域を抽出する技術に関する。

画像から人物を含む領域（以下、人物領域という）を抽出する技術は、セマンティックセグメンテーション（Semantic Segmentation）と呼ばれ、近年では特に深層学習（Deep Learning）を用いた研究が数多くなされている（非特許文献１、非特許文献２）。深層学習を用いたセマンティックセグメンテーションでは、画像と当該画像に含まれる人物領域を示すマスクの組である学習データを事前に多数用意する必要がある。最近では、深層学習に用いる学習データを蓄積した学習データベース（例えば、非特許文献３）も整備されつつあり、このような学習データベースを用いることにより深層学習による領域抽出の精度も向上しつつある。

Olaf Ronneberger, et al., "U-Net: Convolutional Networks for Biomedical Image Segmentation", MICCAI 2015, Springer, Lecture Notes in Computer Science, vol. 9351, pp.234-241, 2015. Shuai Zheng, et al., "Conditional Random Fields as Recurrent Neural Networks", International Conference on Computer Vision (ICCV) 2015, pp.1529-1537, 2015. The PASCAL Visual Object Classes Homepage, [online], ［平成３０年５月２３日検索］, インターネット<URL:http://host.robots.ox.ac.uk/pascal/VOC/>

しかし、スポーツ映像のように、特殊な姿勢をした人物の領域を含む画像については、学習データの蓄積が十分に進んでおらず、既存の学習データベースを用いた深層学習では、十分な抽出精度を得ることができないという問題がある。この問題を解決するには、学習データベースから得られる学習データ以外に別途学習データを追加的に準備し、学習するとよいが、この学習データの準備にはコストがかかる。特に、抽出精度をより向上させるためには、学習データの要素となる画像の背景と学習済みモデルを用いた抽出処理の対象となる画像の背景が同一であるのが好ましいが、このような学習データを準備しようとすると大変なコストがかかってしまう。野球を例に説明する。投球シーンにおけるピッチャーの領域を抽出するために用いる投球シーンの画像を学習データとして準備しようとする場合、抽出処理対象とする球場においてバッターボックス側からピッチャーマウンドの方にカメラを向けて、特定のユニフォームを着た投球姿勢にある人物を撮影した画像をなるべく多く準備することが望ましいが、この準備作業は非常に手間がかかるものとなる。

そこで本発明では、学習データの準備コストを抑えることができる、画像から人物領域を抽出する技術を提供することを目的とする。

本発明の一態様は、人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク（以下、合成マスクという）の組である合成学習データを生成する合成学習データ生成部と、前記合成学習データを用いて、モデルパラメータを学習する学習部とを含む領域抽出モデル学習装置であって、前記合成学習データ生成部は、前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成部と、前記学習データのマスクを用いて、前記学習データの画像から人物領域（以下、合成人物領域という）を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成し、前記合成パラメータを用いて、前記合成画像と同一サイズのマスク生成用画像と前記合成人物領域から前記合成マスクを生成し、前記合成学習データを生成する合成画像・合成マスク生成部とを含む。

本発明の一態様は、人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク（以下、合成マスクという）の組である合成学習データを生成する合成学習データ生成部と、前記合成学習データを用いて、モデルパラメータを学習する学習部とを含む領域抽出モデル学習装置であって、前記合成学習データ生成部は、前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成部と、前記学習データのマスクを用いて、前記学習データの画像から人物領域（以下、合成人物領域という）を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成する合成画像生成部と、前記合成画像を用いて、前記合成画像と同一サイズのマスク生成用画像から前記合成マスクを生成し、前記合成学習データを生成する合成マスク生成部とを含む。

本発明によれば、準備コストを抑えつつ生成した学習データを用いて、画像から人物領域を抽出するために用いる領域抽出モデルを学習することが可能となる。

領域抽出モデル学習装置１００／２００の構成を示すブロック図。領域抽出モデル学習装置１００／２００の動作を示すフローチャート。合成学習データを説明する図。合成学習データ生成部１２０の構成を示すブロック図。合成学習データ生成部１２０の動作を示すフローチャート。合成学習データ生成部２２０の構成を示すブロック図。合成学習データ生成部２２０の動作を示すフローチャート。合成マスク生成部２２３の構成を示すブロック図。合成マスク生成部２２３の動作を示すフローチャート。合成マスク生成部２２３の処理の様子を示す図。領域抽出装置３００の構成を示すブロック図。領域抽出装置３００の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜第１実施形態＞
以下、図１〜図２を参照して領域抽出モデル学習装置１００を説明する。図１は、領域抽出モデル学習装置１００の構成を示すブロック図である。図２は、領域抽出モデル学習装置１００の動作を示すフローチャートである。図１に示すように領域抽出モデル学習装置１００は、背景画像生成部１１０と、合成学習データ生成部１２０と、学習部１３０と、記録部１９０を含む。記録部１９０は、領域抽出モデル学習装置１００の処理に必要な情報を適宜記録する構成部である。記録部１９０は、例えば、既存の学習データと、当該学習データを用いて学習した学習済みモデルパラメータを記録する。ここで、既存の学習データとは、人物領域を含む画像と当該人物領域を示すマスクの組である。マスクは、例えば、人物領域を白、それ以外を黒とする、人物領域を含む画像と同一サイズの２値画像であり、正解データに相当するもの（正解領域を示す画像）である。学習済みモデルパラメータは、非特許文献１や非特許文献２などの深層学習により学習したモデルパラメータである。また、記録部１９０は、例えば、背景画像の候補となる画像を記録する。背景画像は、合成学習データの要素である合成画像の背景となる画像であり、人物が撮影されていない画像である。なお、背景画像の背景は、後述する領域抽出装置３００が人物領域を抽出する対象となる画像（処理対象画像）の背景と同じであるのが、好ましい。背景画像の候補となる画像は、事前に領域抽出モデル学習装置１００に取り込んでいてもよいし、カメラを用いてリアルタイムに領域抽出モデル学習装置１００に取り込んでもよい。

以下、図２を参照して、領域抽出モデル学習装置１００の動作について説明する。

Ｓ１１０において、背景画像生成部１１０は、記録部１９０に記録している背景画像の候補となる画像を入力とし、当該画像から背景画像を生成し、出力する。背景画像の候補となる画像の中に、人物が撮影されていない画像が複数ある場合は、その中の何れか一枚を背景画像とすればよい。また、背景画像の候補となる画像をそのまま背景画像としてもよいし、大きさを適切なものにするなど調整したものを背景画像としてもよい。

Ｓ１２０において、合成学習データ生成部１２０は、記録部１９０に記録している既存の学習データとＳ１１０で生成した背景画像を入力とし、既存の学習データと背景画像から合成画像と当該合成画像の人物領域を示すマスク（以下、合成マスクという）の組である合成学習データを生成し、出力する。図３は、合成学習データを説明する図である。

以下、図４〜図５を参照して合成学習データ生成部１２０を説明する。図４は、合成学習データ生成部１２０の構成を示すブロック図である。図５は、合成学習データ生成部１２０の動作を示すフローチャートである。図４に示すように合成学習データ生成部１２０は、合成パラメータ生成部１２１と、合成画像・合成マスク生成部１２２を含む。

以下、図５を参照して、合成学習データ生成部１２０の動作について説明する。

Ｓ１２１において、合成パラメータ生成部１２１は、記録部１９０に記録している既存の学習データを入力とし、既存の学習データの要素であるマスクを用いて、合成パラメータを生成し、合成パラメータと既存の学習データを出力する。合成パラメータとは、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である。以下、具体的に説明する。

拡大率は、人物領域の横方向・縦方向のピクセル数にかける所定の割合であり、例えば、0.9〜1.1の範囲で選択すればよい。例えば、拡大率を1.0とすれば、人物領域の大きさを変えることなく、背景画像と合成することになる。また、拡大率を0.9とすれば、人物領域の大きさを縮小することになる。なお、拡大率は、所定の方法で（例えば、人物領域の下辺（人物の足元付近の領域の辺）を固定した上で）適用するものとする。つまり、拡大率を所定の方法で人物領域に適用することにより、拡大・縮小した人物領域を背景画像に合成した合成画像を生成する。また、拡大率は複数生成するのが好ましい。さらに、生成する拡大率として1.0を含むのが好ましい。

並進度は、人物領域を横方向及び・又は縦方向に移動させるピクセル数である。つまり、並進度は、人物領域を横方向に移動させるピクセル数であってもよいし、人物領域を縦方向に移動させるピクセル数であってもよいし、人物領域を横方向に移動させるピクセル数と縦方向に移動させるピクセル数の組であってもよい。横方向に移動させるピクセル数については、例えば、既存の学習データの要素である画像にピッチャープレートが撮影されている場合、画像処理により検出したピッチャープレートの長辺に対応するピクセル数を求め、当該ピクセル数に所定の割合γ（0≦|γ|≦1）をかけた値（当該値が整数にならない場合は適宜丸めた値）を用いればよい。例えば、横方向の並進度を0とすれば、人物領域の位置を左右に移動させることなく、背景画像と合成することになる。また、ピッチャープレートが撮影されていない場合は、ピッチャープレートの長辺の長さ（約40cm）に相対するピクセル数を求め、当該ピクセル数に所定の割合γ（0≦|γ|≦1）をかけた値を用いればよい。横方向に移動させるピクセル数と縦方向に移動させるピクセル数の組については、例えば、人物領域の横方向のピクセル数に所定の割合γ₁（0≦|γ₁|≦1）をかけた値と人物領域の縦方向のピクセル数に所定の割合γ₂（0≦|γ₂|≦1）をかけた値の組を用いればよい。なお、並進度は、所定の位置を基準に（例えば、人物領域の左辺と下辺の交点の位置を基準に）適用するものとする。つまり、並進度を所定の位置を基準に人物領域に適用することにより、平行移動した人物領域を背景画像に合成した合成画像を生成する。また、並進度は複数生成するのが好ましい。さらに、生成する並進度として“横方向に0”、“縦方向に0”、“横方向に0、縦方向に0”のように平行移動させないことを示す値を含むのが好ましい。

回転度は、人物領域を傾ける角度であり、例えば、-10°〜10°の範囲で選択すればよい。例えば、回転度を0°とすれば、人物領域を傾けることなく、背景画像と合成することになる。なお、回転度は、所定の位置を（例えば、人物領域の下辺（人物の足元付近の領域の辺）の中心を）回転の中心として適用するものとする。つまり、回転度を所定の位置を回転の中心として人物領域に適用することにより、回転した人物領域を背景画像に合成した合成画像を生成する。また、回転度は複数生成するのが好ましい。さらに、生成する回転度として0°を含むのが好ましい。

N個（N≧1）の合成パラメータを生成した場合、1枚の背景画像と1つの人物領域の組からN枚の合成画像が生成することができる。合成パラメータの数を示すNは、少なくとも10、例えば、100程度であるのが好ましい。また、拡大率、並進度、回転度のいずれについても3個以上生成するのが好ましい。したがって、100程度の合成パラメータを生成する場合、例えば、拡大率、並進度、回転度をそれぞれ5個、5個、4個生成し、これらを組合せて100個の合成パラメータを生成してもよい。また、拡大率、並進度、回転度をそれぞれ6個、6個、3個生成し、これらを組み合わせて108個の合成パラメータを生成してもよい。

Ｓ１２２において、合成画像・合成マスク生成部１２２は、Ｓ１１０で生成した背景画像とＳ１２１で出力した既存の学習データとＳ１２１で生成した合成パラメータを入力とし、既存の学習データの要素であるマスクを用いて既存の学習データの要素である画像から人物領域（以下、合成人物領域という）を抽出し、合成パラメータを用いて背景画像と合成人物領域から合成画像を生成し、合成パラメータを用いて合成画像と同一サイズのマスク生成用画像と合成人物領域から合成マスクを生成し、合成画像と合成マスクの組である合成学習データを生成し、出力する。合成画像の生成には、どのような合成方法を用いてもよい。合成マスクの生成に用いるマスク生成用画像は、例えば、黒一色の単色画像（合成画像の各ピクセルを黒に変換して得られる画像）である。また、合成マスクは、例えば、合成人物領域の各ピクセルを白に変換して得られる領域をマスク生成用画像と合成することにより、生成する。合成マスクの生成には、どのような合成方法を用いてもよく、例えば、合成画像の生成と同様の方法を用いることができる。

Ｓ１３０において、学習部１３０は、記録部１９０に記録している学習済みモデルパラメータとＳ１２０で生成した合成学習データを入力とし、合成学習データを用いてモデルパラメータ（領域抽出モデル）を学習（つまり、更新）し、出力する。学習に際して、モデルパラメータの初期値として学習済みモデルパラメータを用いる。また、学習方法は、既存の学習データを用いた学習と同一の方法を用いる。具体的には、学習中のモデルパラメータを用いて合成画像から抽出される人物領域と合成マスクの人物領域の誤差に基づいて定義される損失関数L(p)（pはピクセルを表す）を用いて、例えば、その値を減少させるように、モデルパラメータを学習（更新）していく。また、次式で定義される重み付き損失関数L_w(p)を用いて、モデルパラメータの学習（更新）を行ってもよい。

ここで、M(p)は人物領域では1、それ以外の領域では0となる関数である。また、αは所定の正の値であり、0.5より大きい値とするのが好ましい。αは、人物領域の影響を制御するパラメータであり、その値が大きくなるほど人物領域の影響が大きくなるという特徴を有する。

なお、モデルパラメータの初期値として学習済みモデルパラメータを用いる代わりに、ランダムに生成した値を用いてもよい。この場合、記録部１９０は、学習済みモデルパラメータを記録しておく必要はなく、また、学習部１３０には、Ｓ１２０で生成した合成学習データのみが入力される。

本実施形態の発明によれば、準備コストを抑えつつ生成した学習データを用いて、画像から人物領域を抽出するために用いる領域抽出モデルを学習することが可能となる。

＜第２実施形態＞
以下、図１〜図２を参照して領域抽出モデル学習装置２００を説明する。図１は、領域抽出モデル学習装置２００の構成を示すブロック図である。図２は、領域抽出モデル学習装置２００の動作を示すフローチャートである。図１に示すように領域抽出モデル学習装置２００は、背景画像生成部１１０と、合成学習データ生成部２２０と、学習部１３０と、記録部１９０を含む。記録部１９０は、領域抽出モデル学習装置２００の処理に必要な情報を適宜記録する構成部である。記録部１９０は、例えば、既存の学習データと、当該学習データを用いて学習した学習済みモデルパラメータを記録する。また、記録部１９０は、例えば、背景画像の候補となる画像を記録する。

領域抽出モデル学習装置２００は、合成学習データ生成部１２０の代わりに合成学習データ生成部２２０を含む点において領域抽出モデル学習装置１００と異なる。

以下、図２を参照して、領域抽出モデル学習装置２００の動作について説明する。

Ｓ１１０において、背景画像生成部１１０は、記録部１９０に記録している背景画像の候補となる画像を入力とし、当該画像から背景画像を生成し、出力する。

Ｓ２２０において、合成学習データ生成部２２０は、記録部１９０に記録している既存の学習データとＳ１１０で生成した背景画像を入力とし、既存の学習データと背景画像から合成画像と当該合成画像の人物領域を示すマスク（以下、合成マスクという）の組である合成学習データを生成し、出力する。

以下、図６〜図７を参照して合成学習データ生成部２２０を説明する。図６は、合成学習データ生成部２２０の構成を示すブロック図である。図７は、合成学習データ生成部２２０の動作を示すフローチャートである。図６に示すように合成学習データ生成部２２０は、合成パラメータ生成部１２１と、合成画像生成部２２２と、合成マスク生成部２２３を含む。

以下、図７を参照して、合成学習データ生成部２２０の動作について説明する。

Ｓ１２１において、合成パラメータ生成部１２１は、記録部１９０に記録している既存の学習データを入力とし、既存の学習データの要素であるマスクを用いて、合成パラメータを生成し、合成パラメータと既存の学習データを出力する。

Ｓ２２２において、合成画像生成部２２２は、Ｓ１１０で生成した背景画像とＳ１２１で出力した既存の学習データとＳ１２１で生成した合成パラメータを入力とし、既存の学習データの要素であるマスクを用いて既存の学習データの要素である画像から人物領域（以下、合成人物領域という）を抽出し、合成パラメータを用いて背景画像と合成人物領域から合成画像を生成し、出力する。合成画像の生成は、Ｓ１２２と同様でよい。

Ｓ２２３において、合成マスク生成部２２３は、Ｓ２２２で生成した合成画像を入力とし、合成画像を用いて合成画像と同一サイズのマスク生成用画像から合成マスクを生成し、合成画像と合成マスクの組である合成学習データを生成し、出力する。

以下、図８〜図９を参照して合成マスク生成部２２３を説明する。図８は、合成マスク生成部２２３の構成を示すブロック図である。図９は、合成マスク生成部２２３の動作を示すフローチャートである。図８に示すように合成マスク生成部２２３は、関節位置取得部２２４と、人物領域生成部２２５と、出力部２２６を含む。

以下、図９を参照して、合成マスク生成部２２３の動作について説明する。なお、図１０は、合成マスク生成部２２３の処理の様子を示す図である。

Ｓ２２４において、関節位置取得部２２４は、Ｓ２２２で生成した合成画像を入力とし、合成画像に含まれる人物領域の人物の関節位置と関節ラベル（例えば、右手首、右肘）を取得し、関節位置と関節ラベル、合成画像を出力する。具体的には、関節ラベルの連結関係を示す関節モデルを用いて、関節位置・関節ラベルを取得する。例えば、openPose（参考非特許文献１）を用いて取得することができる（図１０（Ａ）参照）。
（参考非特許文献１：Realtime_Multi-Person_Pose_Estimation, [online], ［平成３０年５月２３日検索］, インターネット<URL: https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation>）
Ｓ２２５において、人物領域生成部２２５は、Ｓ２２４で出力した合成画像とＳ２２４で取得した関節位置と関節ラベルを入力とし、関節位置と関節ラベルを用いてマスク生成用画像から合成マスクを生成し、合成マスクと合成画像を出力する。具体的には、上述の関節モデルを用いて、関節ラベルの示す関節の関節位置を幾何的に連結することにより、合成画像上に人物を示す領域を生成し、当該領域を白色、それ以外の合成画像上の領域を黒色にすることにより、合成マスクを生成する（図１０（Ｂ）参照）。ここで、幾何的に連結するとは、人物を示す領域にフィッティングさせるために、事前に用意した図形（例えば、矩形、楕円、直線、曲線）を関節位置にあわせて組み合わせる処理のことをいう。

Ｓ２２６において、出力部２２６は、Ｓ２２５で出力した合成画像とＳ２２５で生成した合成マスクを入力とし、合成画像と合成マスクの組である合成学習データを生成し、出力する。

Ｓ１３０において、学習部１３０は、記録部１９０に記録している学習済みモデルパラメータとＳ１２０で生成した合成学習データを入力とし、合成学習データを用いてモデルパラメータ（領域抽出モデル）を学習（つまり、更新）し、出力する。学習に際して、モデルパラメータの初期値として学習済みモデルパラメータを用いる。

本実施形態の発明によれば、準備コストを抑えつつ生成した学習データを用いて、画像から人物領域を抽出するために用いる領域抽出モデルを学習することが可能となる。
（変形例１）
合成学習データ生成部２２０における合成マスクの生成では、関節モデルを用いた。この関節モデルを用いて、M(p)を人物領域ではピクセルごとに定まる重みw_p(0<w_p≦1)、それ以外の領域では0となる関数として定義し、学習部１３０による学習を行うようにしてもよい。なお、関数M(p)は、学習部１３０が学習開始前に生成する。例えば、右手首と右肘を連結した領域のピクセルでは重みが1、右肘と右肩を連結した領域のピクセルでは重みが0.7というようにM(p)を定義する。人物領域のピクセルごとに重みが異なるM(p)を用いた重み付き損失関数L_w(p)を用いて学習部１３０がモデルパラメータを学習することにより、体の部位の重要度を反映したモデルパラメータの学習が可能となる。

＜第３実施形態＞
以下、図１１〜図１２を参照して領域抽出装置３００を説明する。図１１は、領域抽出装置３００の構成を示すブロック図である。図１２は、領域抽出装置３００の動作を示すフローチャートである。図１１に示すように領域抽出装置３００は、領域抽出部３１０と、記録部３９０を含む。記録部３９０は、領域抽出装置３００の処理に必要な情報を適宜記録する構成部である。記録部３９０は、例えば、領域抽出モデル学習装置１００／２００が学習したモデルパラメータ（領域抽出モデル）を記録する。

以下、図１２を参照して、領域抽出装置３００の動作について説明する。

Ｓ３１０において、領域抽出部３１０は、処理対象画像を入力とし、記録部３９０に記録したモデルパラメータを用いて処理対象画像に含まれる人物領域を抽出し、出力する。ここで、処理対象画像は、人物領域を含む画像である。なお、処理対象画像の背景は、先述した通り、領域抽出モデル学習装置１００／２００が学習で用いた背景画像の背景と同じであるのが好ましい。

本実施形態の発明によれば、抽出処理対象である画像から人物領域を精度よく抽出することが可能となる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク（以下、合成マスクという）の組である合成学習データを生成する合成学習データ生成部と、
前記合成学習データを用いて、モデルパラメータを学習する学習部と
を含む領域抽出モデル学習装置であって、
前記合成学習データ生成部は、
前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成部と、
前記学習データのマスクを用いて、前記学習データの画像から人物領域（以下、合成人物領域という）を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成し、前記合成パラメータを用いて、前記合成画像と同一サイズのマスク生成用画像と前記合成人物領域から前記合成マスクを生成し、前記合成学習データを生成する合成画像・合成マスク生成部と
を含む領域抽出モデル学習装置。
人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク（以下、合成マスクという）の組である合成学習データを生成する合成学習データ生成部と、
前記合成学習データを用いて、モデルパラメータを学習する学習部と
を含む領域抽出モデル学習装置であって、
前記合成学習データ生成部は、
前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成部と、
前記学習データのマスクを用いて、前記学習データの画像から人物領域（以下、合成人物領域という）を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成する合成画像生成部と、
前記合成画像を用いて、前記合成画像と同一サイズのマスク生成用画像から前記合成マスクを生成し、前記合成学習データを生成する合成マスク生成部と
を含む領域抽出モデル学習装置。
請求項２に記載の領域抽出モデル学習装置であって、
前記合成マスク生成部は、
前記合成画像に含まれる人物領域の人物の関節位置と関節ラベルを取得する関節位置取得部と、
前記関節位置と前記関節ラベルを用いて、前記マスク生成用画像から前記合成マスクを生成する人物領域生成部と、
前記合成画像と前記合成マスクから前記合成学習データを生成する出力部とを含む
ことを特徴とする領域抽出モデル学習装置。
請求項１ないし３のいずれか１項に記載の領域抽出モデル学習装置であって、
L(p)を学習中のモデルパラメータを用いて合成画像から抽出される人物領域と合成マスクの人物領域の誤差に基づいて定義される損失関数、M(p)を人物領域では1、それ以外の領域では0となる関数、αを所定の正の値とし、
前記学習部は、
重み付き損失関数L_w(p)を用いて、前記モデルパラメータを学習する

ことを特徴とする領域抽出モデル学習装置。
領域抽出モデル学習装置が、人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク（以下、合成マスクという）の組である合成学習データを生成する合成学習データ生成ステップと、
前記領域抽出モデル学習装置が、前記合成学習データを用いて、モデルパラメータを学習する学習ステップと
を含む領域抽出モデル学習方法であって、
前記合成学習データ生成ステップは、
前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成ステップと、
前記学習データのマスクを用いて、前記学習データの画像から人物領域（以下、合成人物領域という）を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成し、前記合成パラメータを用いて、前記合成画像と同一サイズのマスク生成用画像と前記合成人物領域から前記合成マスクを生成し、前記合成学習データを生成する合成画像・合成マスク生成ステップと
を含む領域抽出モデル学習方法。
領域抽出モデル学習装置が、人物領域を含む画像と当該人物領域を示すマスクの組である既存の学習データと合成画像の背景となる背景画像から、合成画像と当該合成画像の人物領域を示すマスク（以下、合成マスクという）の組である合成学習データを生成する合成学習データ生成ステップと、
前記領域抽出モデル学習装置が、前記合成学習データを用いて、モデルパラメータを学習する学習ステップと
を含む領域抽出モデル学習方法であって、
前記合成学習データ生成ステップは、
前記学習データのマスクを用いて、人物領域を拡大縮小する拡大率、人物領域を平行移動させる並進度、人物領域を回転させる回転度の組である合成パラメータを生成する合成パラメータ生成ステップと、
前記学習データのマスクを用いて、前記学習データの画像から人物領域（以下、合成人物領域という）を抽出し、前記合成パラメータを用いて、前記背景画像と前記合成人物領域から前記合成画像を生成する合成画像生成ステップと、
前記合成画像を用いて、前記合成画像と同一サイズのマスク生成用画像から前記合成マスクを生成し、前記合成学習データを生成する合成マスク生成ステップと
を含む領域抽出モデル学習方法。
請求項１ないし４のいずれか１項に記載の領域抽出モデル学習装置としてコンピュータを機能させるためのプログラム。